Как проверить, что робот принадлежит Яндексу
Иногда роботы могут маскироваться под роботов Яндекса путем указания соответствующего User-agent. Вы можете проверить, что робот является тем, за кого себя выдает используя идентификацию, основанную на обратных DNS-запросах (reverse DNS lookup).
Для этого необходимо выполнить следующее:
- Для интересующего User-agent определите IP-адрес по логам вашего сервера.
- По IP-адресу определите доменное имя хоста с помощью обратного DNS-запроса.
- Проверьте, принадлежит ли хост Яндексу. Имена всех роботов Яндекса заканчиваются на yandex.ru, yandex.net или yandex.com. Если имя хоста имеет другое окончание, это означает, что робот не принадлежит Яндексу.
- Удостоверьтесь в корректности полученного имени. Для этого нужно использовать прямой DNS-запрос (forward DNS lookup), чтобы получить IP-адрес, соответствующий имени хоста. Он должен совпадать с IP-адресом, использованным при обратном DNS запросе. Если IP-адреса не совпадают, это означает, что полученное имя хоста поддельное.
Роботы Яндекса в логах сервера
Некоторые роботы Яндекса скачивают документы не для их последующей индексации, а для других специфичных целей. Для избежания непреднамеренной блокировки владельцами сайтов они могут не учитывать ограничивающие директивы файла robots.txt, предназначенные для произвольных роботов (User-agent: *).
Также частичное игнорирование ограничений robots.txt определенных сайтов возможно при наличии соответствующей договоренности между компанией «Яндекс» и владельцами этих сайтов.
Чтобы ограничить доступ таких роботов к сайту, используйте директивы специально для них, например:
User-agent: YandexCalendar
Disallow: /
User-agent: YandexMobileBot
Disallow: /private/*.txt$
Роботы используют автономную сеть: AS13238 и AS208722, а также IP-адреса, которые часто меняются, поэтому их список не разглашается.
При обращениях робота в логах вашего сервера может отображаться User-agent и версия браузера, которая используется при обходе сайта. Например, Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.268.
Полное имя робота, включая User-agent | Назначение робота | Учитывает общие правила, указанные в robots.txt |
---|---|---|
Mozilla/5.0 (compatible; YandexAccessibilityBot/3.0; +http://yandex.com/bots) | Скачивает страницы для проверки их доступности пользователям. Его максимальная частота обращений к сайту составляет 3 обращения в секунду. Робот игнорирует настройку в интерфейсе Яндекс Вебмастера. | Нет |
Mozilla/5.0 (compatible; YandexAdNet/1.0; +http://yandex.com/bots) | Робот Рекламной сети Яндекса. | Да |
Mozilla/5.0 (compatible; YandexBlogs/0.99; robot; +http://yandex.com/bots) | Робот поиска по блогам, индексирующий комментарии постов. | Да |
Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots) | Основной индексирующий робот. | Да |
Mozilla/5.0 (compatible; YandexBot/3.0; MirrorDetector; +http://yandex.com/bots) | Определяющий неглавные адреса сайтов. | Да |
Mozilla/5.0 (compatible; YandexCalendar/1.0; +http://yandex.com/bots) | Робот Яндекс Календаря. Скачивает файлы календарей по инициативе пользователей, которые часто располагаются в запрещенных для индексации каталогах. | Нет |
Mozilla/5.0 (compatible; YandexDialogs/1.0; +http://yandex.com/bots) | Отправляет запросы в навыки Алисы. | Нет |
Mozilla/5.0 (compatible; YandexDirect/3.0; +http://yandex.com/bots) | Скачивает информацию о контенте сайтов-партнеров Рекламной сети Яндекса, чтобы уточнить их тематику для подбора релевантной рекламы. | Нет |
Mozilla/5.0 (compatible; YandexDirectDyn/1.0; +http://yandex.com/bots | Генерирует динамические баннеры. | Нет |
Mozilla/5.0 (compatible; YandexFavicons/1.0; +http://yandex.com/bots) | Скачивает файл фавиконки сайта для отображения в результатах поиска. | Нет |
Mozilla/5.0 (compatible; YaDirectFetcher/1.0; Dyatel; +http://yandex.com/bots) | Скачивает целевые страницы рекламных объявлений для проверки их доступности и уточнения тематики. Это необходимо для размещения объявлений в поисковой выдаче и на сайтах-партнерах. | Нет. Робот не использует файл robots.txt, поэтому игнорирует директивы, установленные для него. |
Mozilla/5.0 (compatible; YandexImages/3.0; +http://yandex.com/bots) | Индексирует изображения для показа на Яндекс Картинках. | Да |
Mozilla/5.0 (compatible; YandexImageResizer/2.0; +http://yandex.com/bots) | Робот мобильных сервисов. | Да |
Mozilla/5.0 (iPhone; CPU iPhone OS 8_1 like Mac OS X) AppleWebKit/600.1.4 (KHTML, like Gecko) Version/8.0 Mobile/12B411 Safari/600.1.4 (compatible; YandexMobileBot/3.0; +http://yandex.com/bots) | Определяет страницы с версткой, подходящей под мобильные устройства. | Нет |
Mozilla/5.0 (compatible; YandexMarket/1.0; +http://yandex.com/bots) | Робот Яндекс Маркета. | Да |
Mozilla/5.0 (compatible; YandexMarket/2.0; +http://yandex.com/bots) | Нет | |
Mozilla/5.0 (compatible; YandexMedia/3.0; +http://yandex.com/bots) | Индексирует мультимедийные данные. | Да |
Mozilla/5.0 (compatible; YandexMetrika/2.0; +http://yandex.com/bots yabs01) | Скачивает страницы сайта для проверки их доступности, в том числе проверяет целевые страницы объявлений Яндекс Директа. | Нет. Робот не использует файл robots.txt, поэтому игнорирует директивы, установленные для него. |
Mozilla/5.0 (compatible; YandexMetrika/2.0; +http://yandex.com/bots) | Робот Яндекс Метрики. | Нет |
Mozilla/5.0 (compatible; YandexMetrika/3.0; +http://yandex.com/bots) | Нет | |
Mozilla/5.0 (compatible; YandexMetrika/4.0; +http://yandex.com/bots) | Робот Яндекс Метрики. Скачивает и кэширует CSS-стили для воспроизведения страниц сайта в Вебвизоре. | Нет. Робот не использует файл robots.txt, поэтому игнорирует директивы, установленные для него. |
Mozilla/5.0 (compatible; YandexMobileScreenShotBot/1.0; +http://yandex.com/bots) | Делает снимок мобильной страницы. | Нет |
Mozilla/5.0 (compatible; YandexNews/4.0; +http://yandex.com/bots) | Робот Яндекс Новостей. | Да |
Mozilla/5.0 (compatible; YandexOntoDB/1.0; +http://yandex.com/bots) | Робот объектного ответа. | Да |
Mozilla/5.0 (compatible; YandexOntoDBAPI/1.0; +http://yandex.com/bots) | Робот объектного ответа, скачивающий динамические данные. | Нет |
Mozilla/5.0 (compatible; YandexPagechecker/1.0; +http://yandex.com/bots) | Обращается к странице при валидации микроразметки через форму Валидатор микроразметки. | Да |
Mozilla/5.0 (compatible; YandexPartner/3.0; +http://yandex.com/bots) | Скачивает информацию о контенте сайтов-партнеров Яндекса | Нет |
Mozilla/5.0 (compatible; YandexRCA/1.0; +http://yandex.com/bots) | Собирает данные для формирования превью. Например, для расширенного отображения сайта в поиске. | Нет |
Mozilla/5.0 (compatible; YandexRenderResourcesBot/1.0; +http://yandex.com/bots) | Загружает ресурсы для рендеринга страницы с JavaScript. Игнорирует указания в robots.txt, если HTML-страница, на которой эти ресурсы размещены, доступна для робота Яндекса. Робот не обращается к ресурсам, если в robots.txt запрещены HTML-страницы, где эти ресурсы используются. | Нет |
Mozilla/5.0 (compatible; YandexSearchShop/1.0; +http://yandex.com/bots) | Скачивает YML-файлы каталогов товаров (по инициативе пользователей), которые часто располагаются в запрещенных для индексации каталогах. | Нет |
Mozilla/5.0 (compatible; YandexSitelinks; Dyatel; +http://yandex.com/bots) | Проверяет доступность страниц, которые используются в качестве быстрых ссылок. | Да |
Mozilla/5.0 (compatible; YandexSpravBot/1.0; +http://yandex.com/bots) | Робот Яндекс Бизнеса. | Да |
Mozilla/5.0 (compatible; YandexTracker/1.0; +http://yandex.com/bots) | Робот Яндекс Трекера. | Нет |
Mozilla/5.0 (compatible; YandexTurbo/1.0; +http://yandex.com/bots) | Обходит RSS-канал, созданный для формирования Турбо-страниц. Его максимальная частота обращений к сайту составляет 3 обращения в секунду. Робот игнорирует настройку в интерфейсе Яндекс Вебмастера и директиву Crawl-delay. | Да |
Mozilla/5.0 (compatible; YandexUserproxy; robot; +http://yandex.com/bots) | Проксирует действия пользователей на сервисах Яндекса: отправляет запросы в ответ на нажатие кнопок, скачивает страницы для перевода онлайн и т. д. | Нет |
Mozilla/5.0 (compatible; YandexVertis/3.0; +http://yandex.com/bots) | Робот поисковых вертикалей. | Да |
Mozilla/5.0 (compatible; YandexVerticals/1.0; +http://yandex.com/bots) | Робот Яндекс Вертикалей: Авто.ру, Янекс.Недвижимость, Яндекс Работа, Яндекс Отзывы. | Да |
Mozilla/5.0 (compatible; YandexVideo/3.0; +http://yandex.com/bots) | Индексирует видео для показа в поиске Яндекса по видео. | Да |
Mozilla/5.0 (compatible; YandexVideoParser/1.0; +http://yandex.com/bots) | Индексирует видео для показа в поиске Яндекса по видео. | Нет |
Mozilla/5.0 (compatible; YandexWebmaster/2.0; +http://yandex.com/bots) | Робот Яндекс Вебмастера. | Да |
Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/W.X.Y.Z* Safari/537.36 (compatible; YandexScreenshotBot/3.0; +http://yandex.com/bots) | Делает снимок страницы. | Нет |
| Учитывается при обработке robots.txt для ограничения отображения контента страницы в быстрых ответах с YandexGPT и в ответах Нейро. Применяется к страницам, проиндексированным основным индексирующим роботом для поиска. Не совершает запросов для индексирования. | Нет |
Mozilla/5.0 (compatible; YandexComBot/3.0; +http://ya.cc/bots) | Индексирует контент для не русскоговорящего сегмента поиска. Может индексировать контент, если для него явным образом не указан запрет. | Нет |
Полное имя робота, включая User-agent | Назначение робота | Учитывает общие правила, указанные в robots.txt |
---|---|---|
Mozilla/5.0 (compatible; YandexAccessibilityBot/3.0; +http://yandex.com/bots) | Скачивает страницы для проверки их доступности пользователям. Его максимальная частота обращений к сайту составляет 3 обращения в секунду. Робот игнорирует настройку в интерфейсе Яндекс Вебмастера. | Нет |
Mozilla/5.0 (compatible; YandexAdNet/1.0; +http://yandex.com/bots) | Робот Рекламной сети Яндекса. | Да |
Mozilla/5.0 (compatible; YandexBlogs/0.99; robot; +http://yandex.com/bots) | Робот поиска по блогам, индексирующий комментарии постов. | Да |
Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots) | Основной индексирующий робот. | Да |
Mozilla/5.0 (compatible; YandexBot/3.0; MirrorDetector; +http://yandex.com/bots) | Определяющий неглавные адреса сайтов. | Да |
Mozilla/5.0 (compatible; YandexCalendar/1.0; +http://yandex.com/bots) | Робот Яндекс Календаря. Скачивает файлы календарей по инициативе пользователей, которые часто располагаются в запрещенных для индексации каталогах. | Нет |
Mozilla/5.0 (compatible; YandexDialogs/1.0; +http://yandex.com/bots) | Отправляет запросы в навыки Алисы. | Нет |
Mozilla/5.0 (compatible; YandexDirect/3.0; +http://yandex.com/bots) | Скачивает информацию о контенте сайтов-партнеров Рекламной сети Яндекса, чтобы уточнить их тематику для подбора релевантной рекламы. | Нет |
Mozilla/5.0 (compatible; YandexDirectDyn/1.0; +http://yandex.com/bots | Генерирует динамические баннеры. | Нет |
Mozilla/5.0 (compatible; YandexFavicons/1.0; +http://yandex.com/bots) | Скачивает файл фавиконки сайта для отображения в результатах поиска. | Нет |
Mozilla/5.0 (compatible; YaDirectFetcher/1.0; Dyatel; +http://yandex.com/bots) | Скачивает целевые страницы рекламных объявлений для проверки их доступности и уточнения тематики. Это необходимо для размещения объявлений в поисковой выдаче и на сайтах-партнерах. | Нет. Робот не использует файл robots.txt, поэтому игнорирует директивы, установленные для него. |
Mozilla/5.0 (compatible; YandexImages/3.0; +http://yandex.com/bots) | Индексирует изображения для показа на Яндекс Картинках. | Да |
Mozilla/5.0 (compatible; YandexImageResizer/2.0; +http://yandex.com/bots) | Робот мобильных сервисов. | Да |
Mozilla/5.0 (iPhone; CPU iPhone OS 8_1 like Mac OS X) AppleWebKit/600.1.4 (KHTML, like Gecko) Version/8.0 Mobile/12B411 Safari/600.1.4 (compatible; YandexMobileBot/3.0; +http://yandex.com/bots) | Определяет страницы с версткой, подходящей под мобильные устройства. | Нет |
Mozilla/5.0 (compatible; YandexMarket/1.0; +http://yandex.com/bots) | Робот Яндекс Маркета. | Да |
Mozilla/5.0 (compatible; YandexMarket/2.0; +http://yandex.com/bots) | Нет | |
Mozilla/5.0 (compatible; YandexMedia/3.0; +http://yandex.com/bots) | Индексирует мультимедийные данные. | Да |
Mozilla/5.0 (compatible; YandexMetrika/2.0; +http://yandex.com/bots yabs01) | Скачивает страницы сайта для проверки их доступности, в том числе проверяет целевые страницы объявлений Яндекс Директа. | Нет. Робот не использует файл robots.txt, поэтому игнорирует директивы, установленные для него. |
Mozilla/5.0 (compatible; YandexMetrika/2.0; +http://yandex.com/bots) | Робот Яндекс Метрики. | Нет |
Mozilla/5.0 (compatible; YandexMetrika/3.0; +http://yandex.com/bots) | Нет | |
Mozilla/5.0 (compatible; YandexMetrika/4.0; +http://yandex.com/bots) | Робот Яндекс Метрики. Скачивает и кэширует CSS-стили для воспроизведения страниц сайта в Вебвизоре. | Нет. Робот не использует файл robots.txt, поэтому игнорирует директивы, установленные для него. |
Mozilla/5.0 (compatible; YandexMobileScreenShotBot/1.0; +http://yandex.com/bots) | Делает снимок мобильной страницы. | Нет |
Mozilla/5.0 (compatible; YandexNews/4.0; +http://yandex.com/bots) | Робот Яндекс Новостей. | Да |
Mozilla/5.0 (compatible; YandexOntoDB/1.0; +http://yandex.com/bots) | Робот объектного ответа. | Да |
Mozilla/5.0 (compatible; YandexOntoDBAPI/1.0; +http://yandex.com/bots) | Робот объектного ответа, скачивающий динамические данные. | Нет |
Mozilla/5.0 (compatible; YandexPagechecker/1.0; +http://yandex.com/bots) | Обращается к странице при валидации микроразметки через форму Валидатор микроразметки. | Да |
Mozilla/5.0 (compatible; YandexPartner/3.0; +http://yandex.com/bots) | Скачивает информацию о контенте сайтов-партнеров Яндекса | Нет |
Mozilla/5.0 (compatible; YandexRCA/1.0; +http://yandex.com/bots) | Собирает данные для формирования превью. Например, для расширенного отображения сайта в поиске. | Нет |
Mozilla/5.0 (compatible; YandexRenderResourcesBot/1.0; +http://yandex.com/bots) | Загружает ресурсы для рендеринга страницы с JavaScript. Игнорирует указания в robots.txt, если HTML-страница, на которой эти ресурсы размещены, доступна для робота Яндекса. Робот не обращается к ресурсам, если в robots.txt запрещены HTML-страницы, где эти ресурсы используются. | Нет |
Mozilla/5.0 (compatible; YandexSearchShop/1.0; +http://yandex.com/bots) | Скачивает YML-файлы каталогов товаров (по инициативе пользователей), которые часто располагаются в запрещенных для индексации каталогах. | Нет |
Mozilla/5.0 (compatible; YandexSitelinks; Dyatel; +http://yandex.com/bots) | Проверяет доступность страниц, которые используются в качестве быстрых ссылок. | Да |
Mozilla/5.0 (compatible; YandexSpravBot/1.0; +http://yandex.com/bots) | Робот Яндекс Бизнеса. | Да |
Mozilla/5.0 (compatible; YandexTracker/1.0; +http://yandex.com/bots) | Робот Яндекс Трекера. | Нет |
Mozilla/5.0 (compatible; YandexTurbo/1.0; +http://yandex.com/bots) | Обходит RSS-канал, созданный для формирования Турбо-страниц. Его максимальная частота обращений к сайту составляет 3 обращения в секунду. Робот игнорирует настройку в интерфейсе Яндекс Вебмастера и директиву Crawl-delay. | Да |
Mozilla/5.0 (compatible; YandexUserproxy; robot; +http://yandex.com/bots) | Проксирует действия пользователей на сервисах Яндекса: отправляет запросы в ответ на нажатие кнопок, скачивает страницы для перевода онлайн и т. д. | Нет |
Mozilla/5.0 (compatible; YandexVertis/3.0; +http://yandex.com/bots) | Робот поисковых вертикалей. | Да |
Mozilla/5.0 (compatible; YandexVerticals/1.0; +http://yandex.com/bots) | Робот Яндекс Вертикалей: Авто.ру, Янекс.Недвижимость, Яндекс Работа, Яндекс Отзывы. | Да |
Mozilla/5.0 (compatible; YandexVideo/3.0; +http://yandex.com/bots) | Индексирует видео для показа в поиске Яндекса по видео. | Да |
Mozilla/5.0 (compatible; YandexVideoParser/1.0; +http://yandex.com/bots) | Индексирует видео для показа в поиске Яндекса по видео. | Нет |
Mozilla/5.0 (compatible; YandexWebmaster/2.0; +http://yandex.com/bots) | Робот Яндекс Вебмастера. | Да |
Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/W.X.Y.Z* Safari/537.36 (compatible; YandexScreenshotBot/3.0; +http://yandex.com/bots) | Делает снимок страницы. | Нет |
| Учитывается при обработке robots.txt для ограничения отображения контента страницы в быстрых ответах с YandexGPT и в ответах Нейро. Применяется к страницам, проиндексированным основным индексирующим роботом для поиска. Не совершает запросов для индексирования. | Нет |
Mozilla/5.0 (compatible; YandexComBot/3.0; +http://ya.cc/bots) | Индексирует контент для не русскоговорящего сегмента поиска. Может индексировать контент, если для него явным образом не указан запрет. | Нет |
* Сочетание символов W.X.Y.Z является меткой-заполнителем для версии браузера Chrome, которую использует агент пользователя. Например: 41.0.2272.96.
Вопросы и ответы
Если вы хотите оградиться от мошеннических роботов, представляющихся роботами Яндекса, вы можете использовать фильтрацию, основанную на обратных DNS запросах, как описано выше. Такая схема более предпочтительна по сравнению с управлением доступом на основе IP-адресов, так как она устойчива к изменениям внутренних сетей Яндекса.
Да, существует. Поисковый робот Яндекса при каждом запросе страницы говорит: «Accept-Encoding: gzip,deflate»
. Это означает, что настроив соответствующим образом свой веб-сервер, вы сможете снизить объем передаваемого трафика между ним и нашим роботом. Однако следует иметь в виду — передача контента в сжатом виде увеличивает нагрузку на CPU вашего сервера, и, если он сильно загружен, могут возникнуть проблемы. Поддерживая gzip
и deflate
, робот придерживается стандарта rfc2616
, раздел 3.5 .