Статистика обхода
Индексирующий робот Яндекса регулярно обходит страницы сайтов и загружает их в поисковую базу. При этом робот может загрузить не все нужные вам страницы из-за их недоступности.
Яндекс Вебмастер позволяет узнать, какие страницы вашего сайта обходит робот и выявить адреса страниц, которые робот не смог загрузить из-за недоступности сервера, на котором находится сайт, или из-за ошибок в содержимом самих страниц.
Данные о страницах доступны в Вебмастере на странице
. Информация обновляется ежедневно в течение шести часов с момента посещения страниц роботом.По умолчанию сервис предоставляет данные по сайту в целом. Чтобы просмотреть информацию о конкретном разделе, выберите его из списка в поле с адресом сайта. Доступные разделы соответствуют структуре сайта, известной Яндексу (кроме разделов, добавленных вручную).
Если в списке не все страницы, которые должны участвовать в поиске, сообщите о них с помощью инструмента Переобход страниц.
Информацию о страницах можно выгрузить в формате XLS или CSV с учетом примененных фильтров.
- Динамика состояния страниц
- Изменения страниц в поисковой базе
- Список страниц, которые обошел робот
- Фильтрация данных
Динамика состояния страниц
Информация о страницах представлена следующим образом:
- Новые и изменившиеся — количество страниц, которые робот обошел впервые, и страниц, статус которых изменился после очередного обращения к ним робота.
- История обхода — количество страниц, которые робот обошел, с учетом кода ответа сервера.
Изменения страниц в поисковой базе
Изменения отображаются, если при очередном обращении робота к странице изменился HTTP-код ответа. Например, был 200 OK, стал 404 Not Found. Если изменился только контент страницы, то информация об этом не отразится в Вебмастере.
Чтобы просмотреть изменения, установите переключатель в положение Последние изменения. В результате отобразится до 50 000 изменений.
Вебмастер показывает следующие сведения о страницах:
- дата последнего посещения страницы роботом (дата обхода);
- адрес страницы относительно корневого каталога сайта;
- код ответа сервера, полученный роботом при посещении страницы.
Основываясь на этой информации, можно узнать, как часто робот обходит страницы сайта, а также понять, какие страницы только появились в базе робота, а к каким робот обращается повторно.
- Появление страницы в поисковой базе
-
Для страницы, которую робот обошел впервые, в столбце Было отображается статус N/a, а в столбце Стало — ответ сервера (например, 200 OK).
После успешной загрузки в поисковую базу страница может появиться в результатах поиска с ближайшими обновлениями поисковой базы. Информация о ней становится доступна на странице Страницы в поиске.
- Повторное обращение робота к странице
-
Если робот ранее обошел страницу, то при повторном обращении к ней статус может измениться: в столбце Было отображается ответ сервера, полученный во время предыдущего посещения робота, в столбце Стало — ответ сервера, полученный при последнем обращении.
Например, участвующая в поиске страница стала недоступна для робота. В этом случае она исключается из поиска. Через некоторое время после этого ее можно увидеть в списке исключенных на странице Страницы в поиске.
Удаленная из поиска страница еще может оставаться в поисковой базе для проверки ее доступности. Как правило, робот продолжает обращаться к такой странице, пока на нее ведут ссылки или она не закрыта в файле robots.txt.
Список страниц, которые обошел робот
Чтобы увидеть список страниц, установите переключатель в положение Все страницы. Список может содержать до 50 000 страниц сайта.
Вы можете просмотреть список страниц сайта, которые обошел робот, и следующую информацию о них:
- дата последнего посещения страницы роботом (дата обхода);
- адрес страницы относительно корневого каталога сайта;
- код ответа сервера при последней загрузке страницы роботом.
Фильтрация данных
Информацию о страницах и изменениях в поисковой базе робота можно фильтровать по всем представленным параметрам (дате обхода, URL страницы, коду ответа сервера) с помощью значка . Ниже описано несколько примеров:
- выполнять любое из условий (соответствует оператору «ИЛИ»);
- выполнять все условия (соответствует оператору «И»).
Можно составить список страниц, которые робот обошел, но не смог загрузить из-за ответа сервера 404 Not Found.
При этом можно выявить новые страницы, недоступные роботу, установив переключатель в положение Последние изменения:
А также — получить общий список страниц, недоступных роботу, установив переключатель в положение Все страницы:
Можно составить список страниц, адрес которых содержит определенный фрагмент. Для этого выберите из списка значение Содержит и в поле укажите нужное значение.
Специальные символы позволяют задавать не строгое соответствие строки, а ее начало, подстроку и более сложные условия с применением регулярных выражений. Чтобы использовать их, выберите из списка значение Условия, а само условие введите в поле. Можно добавить несколько условий — каждое из них должно начинаться с новой строки.
Для условий доступны правила:
Символ | Описание | Пример |
---|---|---|
* | Соответствует любому количеству любых символов | Отобразить данные по всем страницам, которые начинаются с https://example.com/tariff/, включая указанную страницу: Использование символа * Символ * может быть полезен при поиске URL, которые содержат два определенных элемента или более. Например, можно найти новости или анонсы за определенный год: |
@ | Выбранные данные содержат указанную строку (но не обязательно строго соответствуют) | Отобразить данные по всем страницам, URL которых содержит указанную строку: @tariff |
~ | Условие является регулярным выражением | Отобразить данные по страницам, URL которых удовлетворяет регулярному выражению. Например, можно выбрать все страницы, в адресе которых есть одно или несколько упоминаний: ~table|sofa|bed |
! | Отрицание условия | Исключить данные по страницам, URL которых начинается со строки https://example.com/tariff/: !/tariff/* |
Символ | Описание | Пример |
---|---|---|
* | Соответствует любому количеству любых символов | Отобразить данные по всем страницам, которые начинаются с https://example.com/tariff/, включая указанную страницу: Использование символа * Символ * может быть полезен при поиске URL, которые содержат два определенных элемента или более. Например, можно найти новости или анонсы за определенный год: |
@ | Выбранные данные содержат указанную строку (но не обязательно строго соответствуют) | Отобразить данные по всем страницам, URL которых содержит указанную строку: @tariff |
~ | Условие является регулярным выражением | Отобразить данные по страницам, URL которых удовлетворяет регулярному выражению. Например, можно выбрать все страницы, в адресе которых есть одно или несколько упоминаний: ~table|sofa|bed |
! | Отрицание условия | Исключить данные по страницам, URL которых начинается со строки https://example.com/tariff/: !/tariff/* |
При использовании символов не учитывается регистр.
Символы @, !, ~ могут использоваться только в начале строки, для них доступны следующие сочетания:
Оператор | Пример |
---|---|
!@ | Исключить данные по страницам, URL которых содержит tariff: !@tariff |
!~ | Исключить данные по страницам, URL которых удовлетворяет условиям регулярного выражения |
Оператор | Пример |
---|---|
!@ | Исключить данные по страницам, URL которых содержит tariff: !@tariff |
!~ | Исключить данные по страницам, URL которых удовлетворяет условиям регулярного выражения |
Вопросы и ответы
- Страницы медленнее попадают в результаты поиска, см. раздел Почему страницы долго не появляются в поиске.
- Робот создает дополнительную нагрузку на сайт и хотите ее снизить, следуйте рекомендациям.
Возможно, с момента создания сайта прошло мало времени. Чтобы сообщить роботу о сайте, добавьте сайт в Вебмастер и подтвердите права на него. Также проверьте, не было ли сбоев на сервере. Если сервер выдает ошибку, робот прекращает индексирование и сделает следующую попытку в порядке общего обхода.
Сотрудники Яндекса не могут ускорить добавление страниц в поисковую базу.
Мы не прогнозируем сроки индексирования сайтов и не даем гарантий, что тот или иной сайт будет проиндексирован. Как правило, от момента узнавания роботом о сайте до появления его страниц в результатах поиска проходит от нескольких дней до двух недель.
Количество страниц, которые обходит робот Яндекса, может уменьшаться или увеличиваться в разные дни. Такое изменение не влияет на индексирование сайта и ранжирование в результатах поиска.
Робот берет ссылки с других страниц, а это значит, что на какой-то странице указаны ссылки на секретные разделы вашего сайта. Вы можете как закрыть их паролем, так и указать запрет для робота Яндекса в файле robots.txt
. И в том, и в другом случае робот не будет скачивать секретную информацию.