Как проверить, что робот принадлежит Яндексу

Иногда роботы могут маскироваться под роботов Яндекса путем указания соответствующего User-agent. Вы можете проверить, что робот действительно тот, за кого себя выдает, с помощью проверки обратного адреса электронной почты (reverse DNS lookup).

Для этого необходимо выполнить следующее:

Для интересующего User-agent определите IP-адрес по логам вашего сервера.
По IP-адресу определите доменное имя хоста с помощью обратного DNS-запроса.
Проверьте, принадлежит ли хост Яндексу. Имена всех роботов Яндекса заканчиваются на yandex.ru, yandex.net или yandex.com. Если имя хоста имеет другое окончание, это означает, что робот не принадлежит Яндексу.
Удостоверьтесь в корректности полученного имени. Для этого нужно использовать прямой DNS-запрос (forward DNS lookup), чтобы получить IP-адрес, соответствующий имени хоста. Он должен совпадать с IP-адресом, использованным при обратном DNS запросе. Если IP-адреса не совпадают, это означает, что полученное имя хоста поддельное.

Также проверить, принадлежит ли робот Яндексу, можно с помощью инструмента Проверка IP-адреса.

Роботы Яндекса в логах сервера

Некоторые роботы Яндекса скачивают документы не для их последующей индексации, а для других специфичных целей. Для избежания непреднамеренной блокировки владельцами сайтов они могут не учитывать ограничивающие директивы файла robots.txt, предназначенные для произвольных роботов (User-agent: *).

Также частичное игнорирование ограничений robots.txt определенных сайтов возможно при наличии соответствующей договоренности между компанией «Яндекс» и владельцами этих сайтов.

Ескерту

Если такой робот скачает документ, недоступный основному роботу Яндекса, этот документ никогда не будет проиндексирован и не попадет в поисковую выдачу.

Чтобы ограничить доступ таких роботов к сайту, используйте директивы специально для них, например:

User-agent: YandexCalendar
Disallow: /

User-agent: YandexMobileBot
Disallow: /private/*.txt$

Роботы используют автономную сеть: AS13238, AS208722 и AS212066, а также IP-адреса, которые часто меняются, поэтому их список не разглашается.

При обращениях робота в логах вашего сервера может отображаться User-agent и версия браузера, которая используется при обходе сайта. Например, Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.268.

Ескерту

Версия браузера может меняться, поэтому рекомендуем при поиске User-agent в логах сервера не указывать конкретную версию.

Полное имя робота, включая User-agent	Назначение робота	Учитывает общие правила, указанные в `robots.txt`
Mozilla/5.0 (compatible; YandexAccessibilityBot/3.0; +http://yandex.com/bots)	Скачивает страницы для проверки их доступности пользователям. Его максимальная частота обращений к сайту составляет 3 обращения в секунду. Робот игнорирует настройку в интерфейсе Яндекс Вебмастера.	Нет
Mozilla/5.0 (compatible; YandexAdNet/1.0; +http://yandex.com/bots)	Робот Рекламной сети Яндекса.	Да
Mozilla/5.0 (compatible; YandexBlogs/0.99; robot; +http://yandex.com/bots)	Робот поиска по блогам, индексирующий комментарии постов.	Да
Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots)	Основной индексирующий робот.	Да
Mozilla/5.0 (compatible; YandexBot/3.0; MirrorDetector; +http://yandex.com/bots)	Определяющий неглавные адреса сайтов.	Да
Mozilla/5.0 (compatible; YandexCalendar/1.0; +http://yandex.com/bots)	Робот Яндекс Календаря. Скачивает файлы календарей по инициативе пользователей, которые часто располагаются в запрещенных для индексации каталогах.	Нет
Mozilla/5.0 (compatible; YandexCheckBot/3.0; +http://yandex.com/bots)	Скачивает страницы сайтов разных регионов мира для проверки их доступности пользователям. Не совершает запросов для индексирования.	Нет
Mozilla/5.0 (compatible; YandexDialogs/1.0; +http://yandex.com/bots)	Отправляет запросы в навыки Алисы.	Нет
Mozilla/5.0 (compatible; YandexDirect/3.0; +http://yandex.com/bots)	Скачивает информацию о контенте сайтов-партнеров Рекламной сети Яндекса, чтобы уточнить их тематику для подбора релевантной рекламы.	Нет
Mozilla/5.0 (compatible; YandexDirectDyn/1.0; +http://yandex.com/bots)	Генерирует динамические баннеры.	Нет
Mozilla/5.0 (compatible; YandexFavicons/1.0; +http://yandex.com/bots)	Скачивает файл фавиконки сайта для отображения в результатах поиска.	Нет
Mozilla/5.0 (compatible; YaDirectFetcher/1.0; Dyatel; +http://yandex.com/bots)	Скачивает целевые страницы рекламных объявлений для проверки их доступности и уточнения тематики. Это необходимо для размещения объявлений в поисковой выдаче и на сайтах-партнерах.	Нет. Робот не использует файл robots.txt, поэтому игнорирует директивы, установленные для него.
Mozilla/5.0 (compatible; YandexImages/3.0; +http://yandex.com/bots)	Индексирует изображения для показа на Яндекс Картинках.	Да
Mozilla/5.0 (compatible; YandexImageResizer/2.0; +http://yandex.com/bots)	Робот мобильных сервисов.	Да
Mozilla/5.0 (iPhone; CPU iPhone OS 8_1 like Mac OS X) AppleWebKit/600.1.4 (KHTML, like Gecko) Version/8.0 Mobile/12B411 Safari/600.1.4 (compatible; YandexMobileBot/3.0; +http://yandex.com/bots)	Определяет страницы с версткой, подходящей под мобильные устройства.	Нет
Mozilla/5.0 (compatible; YandexMarket/1.0; +http://yandex.com/bots)	Робот Яндекс Маркета.	Да
Mozilla/5.0 (compatible; YandexMarket/2.0; +http://yandex.com/bots)	Робот Яндекс Маркета.	Нет
Mozilla/5.0 (compatible; YandexMedia/3.0; +http://yandex.com/bots)	Индексирует мультимедийные данные.	Да
Mozilla/5.0 (compatible; YandexMetrika/2.0; +http://yandex.com/bots yabs01)	Скачивает страницы сайта для проверки их доступности, в том числе проверяет целевые страницы объявлений Яндекс Директа.	Нет. Робот не использует файл robots.txt, поэтому игнорирует директивы, установленные для него.
Mozilla/5.0 (compatible; YandexMetrika/2.0; +http://yandex.com/bots)	Робот Яндекс Метрики.	Нет
Mozilla/5.0 (compatible; YandexMetrika/3.0; +http://yandex.com/bots)	Робот Яндекс Метрики.	Нет
Mozilla/5.0 (compatible; YandexMetrika/4.0; +http://yandex.com/bots)	Робот Яндекс Метрики. Скачивает и кэширует CSS-стили для воспроизведения страниц сайта в Вебвизоре.	Нет. Робот не использует файл robots.txt, поэтому игнорирует директивы, установленные для него.
Mozilla/5.0 (compatible; YandexMobileScreenShotBot/1.0; +http://yandex.com/bots)	Делает снимок мобильной страницы.	Нет
Mozilla/5.0 (compatible; YandexOntoDB/1.0; +http://yandex.com/bots)	Робот объектного ответа.	Да
Mozilla/5.0 (compatible; YandexOntoDBAPI/1.0; +http://yandex.com/bots)	Робот объектного ответа, скачивающий динамические данные.	Нет
Mozilla/5.0 (compatible; YandexPagechecker/1.0; +http://yandex.com/bots)	Обращается к странице при валидации микроразметки через форму Валидатор микроразметки.	Да
Mozilla/5.0 (compatible; YandexPartner/3.0; +http://yandex.com/bots)	Скачивает информацию о контенте сайтов-партнеров Яндекса	Нет
Mozilla/5.0 (compatible; YandexRCA/1.0; +http://yandex.com/bots)	Собирает данные для формирования превью.	Нет
Mozilla/5.0 (compatible; YandexRenderResourcesBot/1.0; +http://yandex.com/bots)	Загружает ресурсы для рендеринга страницы с JavaScript. Игнорирует указания в robots.txt, если HTML-страница, на которой эти ресурсы размещены, доступна для робота Яндекса. Робот не обращается к ресурсам, если в `robots.txt` запрещены HTML-страницы, где эти ресурсы используются.	Нет
Mozilla/5.0 (compatible; YandexSearchShop/1.0; +http://yandex.com/bots)	Скачивает YML-файлы каталогов товаров (по инициативе пользователей), которые часто располагаются в запрещенных для индексации каталогах.	Нет
Mozilla/5.0 (compatible; YandexSitelinks; Dyatel; +http://yandex.com/bots)	Проверяет доступность страниц, которые используются в качестве быстрых ссылок.	Да
Mozilla/5.0 (compatible; YandexSpravBot/1.0; +http://yandex.com/bots)	Робот Яндекс Бизнеса.	Да
Mozilla/5.0 (compatible; YandexTracker/1.0; +http://yandex.com/bots)	Робот Яндекс Трекера.	Нет
Mozilla/5.0 (compatible; YandexUserproxy; robot; +http://yandex.com/bots)	Проксирует действия пользователей на сервисах Яндекса: отправляет запросы в ответ на нажатие кнопок, скачивает страницы для перевода онлайн и т. д.	Нет
Mozilla/5.0 (compatible; YandexVertis/3.0; +http://yandex.com/bots)	Робот поисковых вертикалей.	Да
Mozilla/5.0 (compatible; YandexVerticals/1.0; +http://yandex.com/bots)	Робот Яндекс Вертикалей: Авто.ру, Яндекс Недвижимость, Яндекс Работа, Яндекс Отзывы.	Да
Mozilla/5.0 (compatible; YandexVideo/3.0; +http://yandex.com/bots)	Индексирует видео для показа в поиске Яндекса по видео.	Да
Mozilla/5.0 (compatible; YandexVideoParser/1.0; +http://yandex.com/bots)	Индексирует видео для показа в поиске Яндекса по видео.	Нет
Mozilla/5.0 (compatible; YandexWebmaster/2.0; +http://yandex.com/bots)	Робот Яндекс Вебмастера.	Да
Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/W.X.Y.Z* Safari/537.36 (compatible; YandexScreenshotBot/3.0; +http://yandex.com/bots)	Делает снимок страницы.	Нет
"YandexAdditionalBot", "YandexAdditionalBot/1.0", UserAgentFrom, "Mozilla/5.0 (compatible; YandexAdditionalBot/1.0; +http://yandex.com/bots)" "YandexAdditional", "YandexAdditional/1.0", UserAgentFrom, "Mozilla/5.0 (compatible; YandexAdditional/1.0; +http://yandex.com/bots)"	Учитывается при обработке robots.txt для ограничения отображения контента страницы в ответах Поиска с Нейро. Применяется к страницам, проиндексированным основным индексирующим роботом для поиска. Не совершает запросов для индексирования.	Нет
Mozilla/5.0 (compatible; YandexComBot/3.0; +http://ya.cc/bots)	Индексирует контент для не русскоговорящего сегмента поиска. Может индексировать контент, если для него явным образом не указан запрет.	Нет

* Сочетание символов W.X.Y.Z является меткой-заполнителем для версии браузера Chrome, которую использует агент пользователя. Например: 41.0.2272.96.

Вопросы и ответы

Как оградиться от мошеннических роботов, представляющихся роботами Яндекса

Если вы хотите оградиться от мошеннических роботов, представляющихся роботами Яндекса, вы можете использовать фильтрацию, основанную на обратных DNS запросах, как описано выше. Такая схема более предпочтительна по сравнению с управлением доступом на основе IP-адресов, так как она устойчива к изменениям внутренних сетей Яндекса.

Объем трафика между моим веб-сервером и вашим роботом слишком большой. Существует ли поддержка скачивания страниц в сжатом виде?

Да, существует. Поисковый робот Яндекса при каждом запросе страницы говорит: «Accept-Encoding: gzip,deflate». Это означает, что настроив соответствующим образом свой веб-сервер, вы сможете снизить объем передаваемого трафика между ним и нашим роботом. Однако следует иметь в виду — передача контента в сжатом виде увеличивает нагрузку на CPU вашего сервера, и, если он сильно загружен, могут возникнуть проблемы. Поддерживая gzip и deflate, робот придерживается стандарта rfc2616, раздел 3.5 .

Также вы можете перейти на сервис

Мақала пайдалы болды ма?

Алдыңғы

Директива Clean-param

Келесі

Как снизить нагрузку на сайт или сервер