Как проверить, что робот принадлежит Яндексу

Иногда роботы могут маскироваться под роботов Яндекса путем указания соответствующего User-agent. Вы можете проверить, что робот является тем, за кого себя выдает используя идентификацию, основанную на обратных DNS-запросах (reverse DNS lookup).

Для этого необходимо выполнить следующее:

  1. Для интересующего User-agent определите IP-адрес по логам вашего сервера.
  2. По IP-адресу определите доменное имя хоста с помощью обратного DNS-запрос.
  3. Проверьте, принадлежит ли хост Яндексу. Имена всех роботов Яндекса заканчиваются на yandex.ru, yandex.net или yandex.com. Если имя хоста имеет другое окончание, это означает, что робот не принадлежит Яндексу.
  4. Удостоверьтесь в корректности полученного имени. Для этого нужно использовать прямой DNS-запрос (forward DNS lookup), чтобы получить IP-адрес, соответствующий имени хоста. Он должен совпадать с IP-адресом, использованным при обратном DNS запросе. Если IP-адреса не совпадают, это означает, что полученное имя хоста поддельное.
    1. Роботы Яндекса в логах сервера
    2. Вопросы и ответы

Роботы Яндекса в логах сервера

Некоторые роботы Яндекса скачивают документы не для их последующей индексации, а для других специфичных целей. Для избежания непреднамеренной блокировки владельцами сайтов они могут не учитывать ограничивающие директивы файла robots.txt, предназначенным для произвольных роботов (User-agent: *).

Также частичное игнорирование ограничений robots.txt определенных сайтов возможно при наличии соответствующей договоренности между компанией «Яндекс» и владельцами этих сайтов.

Примечание. Если такой робот скачает документ, не доступный основному роботу Яндекса, этот документ никогда не будет проиндексирован и не попадет в поисковую выдачу.

Чтобы ограничить доступ таких роботов к сайту, используйте директивы специально для них, например:

User-agent: YandexCalendar
Disallow: /

User-agent: YandexMobileBot
Disallow: /private/*.txt$

Роботы используют множество IP-адресов, которые часто меняются. Поэтому их список не разглашается.

Полное имя робота, включая User agent Назначение робота Учитывает общие правила, указанные в robots.txt
Mozilla/5.0 (compatible; YandexAccessibilityBot/3.0; +http://yandex.com/bots)

Скачивает страницы для проверки их доступности пользователям.

Его максимальная частота обращений к сайту составляет 3 обращения в секунду. Робот игнорирует настройку в интерфейсе Яндекс.Вебмастера и директиву Crawl-delay.

Нет
Mozilla/5.0 (compatible; YandexAdNet/1.0; +http://yandex.com/bots) Робот Рекламной сети Яндекса. Да
Mozilla/5.0 (compatible; YandexBlogs/0.99; robot; +http://yandex.com/bots) Робот поиска по блогам, индексирующий комментарии постов. Да
Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots) Основной индексирующий робот. Да
Mozilla/5.0 (compatible; YandexBot/3.0; MirrorDetector; +http://yandex.com/bots) Определяющий зеркала сайтов. Да
Mozilla/5.0 (compatible; YandexCalendar/1.0; +http://yandex.com/bots) Робот Яндекс.Календаря. Скачивает файлы календарей по инициативе пользователей, которые часто располагаются в запрещенных для индексации каталогах. Нет
Mozilla/5.0 (compatible; YandexCatalog/3.0; +http://yandex.com/bots) Используется для временного снятия с публикации недоступных сайтов в Яндекс.Каталоге. Да
Mozilla/5.0 (compatible; YandexDirect/3.0; +http://yandex.com/bots) Скачивает информацию о контенте сайтов-партнеров Рекламной сети Яндекса, чтобы уточнить их тематику для подбора релевантной рекламы. Нет
Mozilla/5.0 (compatible; YandexDirectDyn/1.0; +http://yandex.com/bots Генерирует динамические баннеры. Нет
Mozilla/5.0 (compatible; YandexFavicons/1.0; +http://yandex.com/bots) Скачивает файл фавиконки сайта для отображения в результатах поиска. Нет
Mozilla/5.0 (compatible; YaDirectFetcher/1.0; Dyatel; +http://yandex.com/bots) Скачивает целевые страницы рекламных объявлений для проверки их доступности и уточнения тематики. Это необходимо для размещения объявлений в поисковой выдаче и на сайтах-партнерах. Нет. Робот не использует файл robots.txt, поэтому игнорирует директивы, установленные для него.
Mozilla/5.0 (compatible; YandexForDomain/1.0; +http://yandex.com/bots) Робот почты для домена, используется при проверке прав на владение доменом. Да
Mozilla/5.0 (compatible; YandexImages/3.0; +http://yandex.com/bots) Индексирует изображения для показа на Яндекс.Картинках. Да
Mozilla/5.0 (compatible; YandexImageResizer/2.0; +http://yandex.com/bots) Робот мобильных сервисов. Да
Mozilla/5.0 (iPhone; CPU iPhone OS 8_1 like Mac OS X) AppleWebKit/600.1.4 (KHTML, like Gecko) Version/8.0 Mobile/12B411 Safari/600.1.4 (compatible; YandexBot/3.0; +http://yandex.com/bots) Индексирующий робот. Да
Mozilla/5.0 (iPhone; CPU iPhone OS 8_1 like Mac OS X) AppleWebKit/600.1.4 (KHTML, like Gecko) Version/8.0 Mobile/12B411 Safari/600.1.4 (compatible; YandexMobileBot/3.0; +http://yandex.com/bots) Определяет страницы с версткой, подходящей под мобильные устройства. Нет
Mozilla/5.0 (compatible; YandexMarket/1.0; +http://yandex.com/bots) Робот Яндекс.Маркета. Да
Mozilla/5.0 (compatible; YandexMedia/3.0; +http://yandex.com/bots) Индексирует мультимедийные данные. Да
Mozilla/5.0 (compatible; YandexMetrika/2.0; +http://yandex.com/bots) Робот Яндекс.Метрики Нет
Mozilla/5.0 (compatible; YandexMetrika/4.0; +http://yandex.com/bots) Робот Яндекс.Метрики. Скачивает и кэширует CSS-стили для воспроизведения страниц сайта в Вебвизоре. Нет. Робот не использует файл robots.txt, поэтому игнорирует директивы, установленные для него.
Mozilla/5.0 (compatible; YandexMetrika/2.0; +http://yandex.com/bots yabs01) Скачивает страницы сайта для проверки их доступности, в том числе проверяет целевые страницы объявлений Яндекс.Директа. Нет. Робот не использует файл robots.txt, поэтому игнорирует директивы, установленные для него.
Mozilla/5.0 (compatible; YandexNews/4.0; +http://yandex.com/bots) Робот Яндекс.Новостей. Да
Mozilla/5.0 (compatible; YandexOntoDB/1.0; +http://yandex.com/bots) Робот объектного ответа. Да
Mozilla/5.0 (compatible; YandexOntoDBAPI/1.0; +http://yandex.com/bots) Робот объектного ответа, скачивающий динамические данные. Нет
Mozilla/5.0 (compatible; YandexPagechecker/1.0; +http://yandex.com/bots) Обращается к странице при валидации микроразметки через форму Валидатор микроразметки. Да
Mozilla/5.0 (compatible; YandexSearchShop/1.0; +http://yandex.com/bots) Скачивает YML-файлы каталогов товаров (по инициативе пользователей), которые часто располагаются в запрещенных для индексации каталогах. Нет
Mozilla/5.0 (compatible; YandexSitelinks; Dyatel; +http://yandex.com/bots) Проверяет доступность страниц, которые используются в качестве быстрых ссылок. Да
Mozilla/5.0 (compatible; YandexSpravBot/1.0; +http://yandex.com/bots) Робот Яндекс.Справочника. Да
Mozilla/5.0 (compatible; YandexTurbo/1.0; +http://yandex.com/bots) Обходит RSS-канал, созданный для формирования Турбо-страниц. Его максимальная частота обращений к сайту составляет 3 обращения в секунду. Робот игнорирует настройку в интерфейсе Яндекс.Вебмастера и директиву Crawl-delay. Да
Mozilla/5.0 (compatible; YandexVertis/3.0; +http://yandex.com/bots) Робот поисковых вертикалей. Да
Mozilla/5.0 (compatible; YandexVerticals/1.0; +http://yandex.com/bots) Робот Яндекс.Вертикалей: Авто.ру, Янекс.Недвижимость, Яндекс.Работа, Яндекс.Отзывы. Да
Mozilla/5.0 (compatible; YandexVideo/3.0; +http://yandex.com/bots) Индексирует видео для показа на Яндекс.Видео. Да
Mozilla/5.0 (compatible; YandexVideoParser/1.0; +http://yandex.com/bots) Индексирует видео для показа на Яндекс.Видео. Нет
Mozilla/5.0 (compatible; YandexWebmaster/2.0; +http://yandex.com/bots) Робот Яндекс.Вебмастера. Да
Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2228.0 Safari/537.36 (compatible; YandexScreenshotBot/3.0; +http://yandex.com/bots) Делает снимок страницы. Нет
Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2228.0 Safari/537.36 (compatible; YandexMedianaBot/1.0; +http://yandex.com/bots) Робот сервиса Яндекс.Медиана. Нет

Вопросы и ответы

Как оградиться от мошеннических роботов, представляющихся роботами Яндекса

Если вы хотите оградиться от мошеннических роботов, представляющихся роботами Яндекса, Вы можете использовать фильтрацию, основанную на обратных DNS запросах. Такая схема более предпочтительна по сравнению с управлением доступом на основе IP-адресов, так как она устойчива к изменениям внутренних сетей Яндекса.

Объем трафика между моим веб-сервером и вашим роботом слишком большой. Существует ли поддержка скачивания страниц в сжатом виде?

Да, существует. Поисковый робот Яндекса при каждом запросе страницы говорит: «Accept-Encoding: gzip,deflate» . Это означает, что настроив соответствующим образом свой веб-сервер, вы сможете снизить объем передаваемого трафика между ним и нашим роботом. Однако следует иметь в виду — передача контента в сжатом виде увеличивает нагрузку на CPU вашего сервера, и, если он сильно загружен, могут возникнуть проблемы. Поддерживая gzip и deflate, робот придерживается стандарта rfc2616, раздел 3.5 .

Робот создает чрезмерную нагрузку на сайт или сервер

Индексирующий робот самостоятельно планирует посещение страниц сайта, регулируя нагрузку на сайт или сервер автоматически в зависимости от того, сколько новых или уже проиндексированных страниц сайта необходимо обойти.

Иногда количество обращений робота может резко увеличиваться, например, если робот узнал о новом разделе сайта или изменилась структура и адреса его страниц. Чтобы снизить нагрузку на сервер, вы можете:
  • Проверить логи сервера и запретить индексирование служебных страниц с помощью директивы Disallow в файле robots.txt.
  • Разместить в файле robots.txt директиву Crawl-delay.
  • Изменить скорость обхода сайта в Яндекс.Вебмастере. При выборе этого способа робот не будет учитывать директиву Crawl-delay.

В сообщении обязательно укажите информацию о логах сервера. Это позволит быстрее разобраться с проблемой.