Как работает поиск Яндекса
- Этап 1. Обход сайта
- Этап 2. Загрузка и обработка данных (индексирование)
- Этап 3. Формирование базы страниц, которые могут участвовать в поиске
- Этап 4. Формирование результатов поиска
- Вопросы и ответы
Чтобы ваш сайт начал отображаться в результатах поиска, Яндекс с помощью роботов должен узнать о его существовании.
Робот — это система, которая обходит страницы сайтов и загружает их в свою базу. У Яндекса есть множество роботов. Сохранение страниц в базу и их дальнейшая обработка с помощью алгоритмов называется индексированием. На основе загруженных данных формируются результаты поиска. Они регулярно обновляются, и позиции сайта могут меняться.
До того, как сайт попадет в результаты поиска, должно пройти несколько этапов:
Этап 2. Загрузка и обработка данных (индексирование)
Этап 3. Формирование базы страниц, которые могут участвовать в поиске
Этап 4. Формирование результатов поиска
Этап 1. Обход сайта
Робот самостоятельно определяет, какие сайты и как часто нужно посещать, а также какое количество страниц следует обойти на каждом из них.
- внутренние и внешние ссылки;
- ссылки, указанные в файле Sitemap;
- директивы в файле robots.txt;
- объем страницы сайта — страницы больше 10 МБ не индексируются.
- ссылка размещена на вашем или стороннем сайте;
- страница не запрещена для индексирования в файле robots.txt.
Когда робот пытается загрузить страницу сайта, он получает от сервера ответ с HTTP-статусом:
Код HTTP-статуса | Примечание |
---|---|
200 OK | Робот обойдет страницу. |
3XX | Роботу нужно обойти страницу, которая является целью редиректа. Подробнее об обработке редиректов. |
4XX и 5XX | Страница с таким кодом не будет участвовать в поиске. Если до момента обращения робота она находилась в поиске, то будет удалена из него. Чтобы страница не выпала из поиска, настройте сервер так, чтобы он отвечал кодом 429. Робот обращаться к странице и проверять код ответа. Это может быть полезно, если из-за неполадок с CMS страница сайта выглядит некорректно. После исправления измените ответ сервера. Примечание. Если страница будет отвечать кодом 429 продолжительное время, это будет указывать, что сервер испытывает затруднения с нагрузкой. Следовательно это может снизить скорость обхода сайта. |
Код HTTP-статуса | Примечание |
---|---|
200 OK | Робот обойдет страницу. |
3XX | Роботу нужно обойти страницу, которая является целью редиректа. Подробнее об обработке редиректов. |
4XX и 5XX | Страница с таким кодом не будет участвовать в поиске. Если до момента обращения робота она находилась в поиске, то будет удалена из него. Чтобы страница не выпала из поиска, настройте сервер так, чтобы он отвечал кодом 429. Робот обращаться к странице и проверять код ответа. Это может быть полезно, если из-за неполадок с CMS страница сайта выглядит некорректно. После исправления измените ответ сервера. Примечание. Если страница будет отвечать кодом 429 продолжительное время, это будет указывать, что сервер испытывает затруднения с нагрузкой. Следовательно это может снизить скорость обхода сайта. |
- Диагностика — помогает убедиться в качестве сайта и исправить ошибки, если они есть.
- Статистика обхода — показывает, какие страницы обошел робот и как часто он посещает сайт.
- Как переиндексировать сайт — позволяет сообщить о новой странице сайта или об обновлении уже участвующей в поиске странице.
- Региональность — помогает роботу правильно определить регион сайта и показывать его по геозависимым запросам.
- Проверка ответа сервера — показывает, доступна ли для робота страница, которая должна быть проиндексирована.
- Поддержка версии HTTP/2
-
Робот Яндекса поддерживает версию HTTP/2 . Протокол HTTP/2 ускоряет загрузку страниц, в том числе и на мобильных устройствах, что облегчает посетителям взаимодействие с сайтом. Также этот протокол уменьшает нагрузку на сервер и экономит трафик. На частоту обхода страниц и изменение позиций сайта в результатах поиска Яндекса протокол HTTP/2 напрямую не влияет.
Если вы используете HTTP/1.1, робот продолжит индексировать ваш сайт. Эти протоколы совместимы, поэтому конфликтов с настройками вашего сервера не будет.
Этап 2. Загрузка и обработка данных (индексирование)
- Содержимое метатега description, элемента title и микроразметки Schema.org, которое может быть использовано для формирования сниппета страницы.
- Директиву noindex в метатеге robots. Если она найдена, то страница не попадет в результаты поиска.
- Атрибут rel="canonical", указывающий на адрес, который вы считаете приоритетным для отображения в поиске для группы одинаковых по содержанию страниц.
- Текст, изображения и видео. Если робот определит, что контент нескольких страниц совпадает, он может признать их дублирующими.
- Диагностика — помогает убедиться в качестве сайта и исправить ошибки, если они есть.
- Статистика обхода — показывает, какие страницы обошел робот и как часто он посещает сайт.
- Как переиндексировать сайт — позволяет сообщить о новой странице сайта или об обновлении уже участвующей в поиске странице.
Этап 3. Формирование базы страниц, которые могут участвовать в поиске
На основе собранной роботом информации алгоритмы определяют страницы, которые могут участвовать в результатах поиска. При этом алгоритмы учитывают множество факторов ранжирования и индексирования, благодаря которым принимается окончательное решение. Например, в базу не попадут закрытые от индексирования страницы или страницы-дубли.
Возможна ситуация, когда страница содержит оригинальный, структурированный текст, но алгоритм не добавляет ее в базу, так как вероятность ее попадания в зону видимости на поиске очень низкая. Например, из-за невостребованности пользователями или высокой конкуренции в данной теме.
- Страницы в поиске — помогает отслеживать статус страниц сайта, например, HTTP-статус ответа или дублирование страниц.
- Безопасность сайта — дает информацию о нарушениях и зараженных файлах.
Чтобы узнать о появлении в результатах поиска поддомена сайта, подпишитесь на уведомления.
Этап 4. Формирование результатов поиска
- насколько полно содержимое страницы отвечает на поисковый запрос (то есть является релевантной);
- понятно и полезно ли ее содержимое для пользователя;
- удобна ли страница (как структурирован текст, выделены абзацы и заголовки разного уровня и т. д.).
Как улучшить позиции сайта в поиске
- Страницы в поиске — позволяет узнать, какие страницы сайта отображаются в результатах поиска или исключены из них. Также вы можете отслеживать наиболее важные для вас страницы.
- Статистика запросов — помогает отслеживать количество показов вашего сайта и кликов на сниппет.
- Все запросы и группы — отображает поисковые запросы, по которым ваш сайт отображается в результатах поиска.
- Быстрые ссылки — помогает проверить, сформированы ли быстрые ссылки в сниппете, и настроить их.
Вопросы и ответы
В результатах поиска не будет показываться дата рядом со страницами вашего сайта.
Робот не сможет получить информацию о том, обновилась ли страница сайта с момента последнего индексирования. Количество страниц, получаемых роботом с сайта за один заход, ограничено, поэтому изменившиеся страницы будут переиндексироваться реже.
Даже если сервер не выдает дату последней модификации документа (last-modified), ваш сайт будет проиндексирован. Однако в этом случае следует учитывать следующее:
Большое количество заданных параметров в URL и повторяющихся вложенных директорий, а также слишком большая длина URL может привести к ухудшению индексирования сайта.
Максимальная длина URL — 1024 символов.
Робот Яндекса не индексирует адреса страниц с якорем, кроме AJAX-страниц (с символом #!). Например, страница http://example.com/page/#title не попадет в базу робота, он проиндексирует страницу http://example.com/page/ (адрес до символа #).