Использование файла robots.txt

Robots.txt — это текстовый файл, который содержит параметры индексирования сайта для роботов поисковых систем. В robots.txt можно ограничить индексирование роботами страниц сайта, что может снизить нагрузку на сайт и ускорить его работу.

Ескерту

Ограниченные в robots.txt страницы могут участвовать в поиске Яндекса. Чтобы удалить страницы из поиска, укажите директиву noindex в HTML-коде страницы или настройте HTTP-заголовок. Не ограничивайте такие странице в robots.txt, чтобы робот Яндекса смог их проиндексировать и обнаружить ваши указания. Подробно см. в разделе Как удалить страницы из поиска.

Яндекс поддерживает стандарт исключений для роботов (Robots Exclusion Protocol) с расширенными возможностями.

Требования к файлу robots.txt

Роботы Яндекса корректно обрабатывают robots.txt, если:

  • Размер файла не превышает 500 КБ.

  • Это TXT-файл с названием robots — robots.txt.

  • Файл размещен в корневом каталоге сайта.

  • Файл доступен для роботов:

    • Сервер, на котором размещен сайт, отвечает HTTP-кодом состояния 200 OK.
    • Файл robots.txt перенаправляет на другой robots.txt, для которого сервер возвращает код 200 OK.

    Подробно см. Проверка ответа сервера.

    Яндекс поддерживает редирект с файла robots.txt, расположенного на одном сайте, на файл, который расположен на другом сайте. В этом случае учитываются директивы в файле, на который происходит перенаправление. Такой редирект может быть удобен при переезде сайта.

Если файл не соответствует требованиям, сайт считается открытым для индексирования.

Рекомендации по наполнению файла

Яндекс поддерживает следующие директивы:

Директива

Что делает

User‑agent *

Указывает на робота, для которого действуют перечисленные в robots.txt правила.

Disallow

Запрещает обход разделов или отдельных страниц сайта.

Sitemap

Указывает путь к файлу Sitemap, который размещен на сайте.

Clean-param

Указывает роботу, что URL страницы содержит параметры (например, UTM-метки), которые не нужно учитывать при индексировании.

Allow

Разрешает индексирование разделов или отдельных страниц сайта.

Crawl-delay

Задает роботу минимальный период времени (в секундах) между окончанием загрузки одной страницы и началом загрузки следующей.

Рекомендуем вместо директивы использовать настройку скорости обхода в Яндекс Вебмастере.

* Обязательная директива.

Наиболее часто вам могут понадобиться директивы Disallow, Sitemap и Clean-param. Например:

User-agent: * #указывает, для каких роботов установлены директивы
Disallow: /bin/ # запрещает ссылки из "Корзины с товарами".
Disallow: /search/ # запрещает ссылки страниц встроенного на сайте поиска
Disallow: /admin/ # запрещает ссылки из панели администратора
Sitemap: http://example.com/sitemap # указывает роботу на файл Sitemap для сайта
Clean-param: ref /some_dir/get_book.pl

Роботы других поисковых систем и сервисов могут иначе интерпретировать директивы.

Ескерту

Робот учитывает регистр в написании подстрок (имя или путь до файла, имя робота) и не учитывает регистр в названиях директив.

Использование кириллицы

Использование кириллицы запрещено в файле robots.txt и HTTP-заголовках сервера.

Для указания имен доменов используйте Punycode. Адреса страниц указывайте в кодировке, соответствующей кодировке текущей структуры сайта.

Пример файла robots.txt:

#Неверно:
User-agent: Yandex
Disallow: /корзина
Sitemap: сайт.рф/sitemap.xml

#Верно:
User-agent: Yandex
Disallow: /%D0%BA%D0%BE%D1%80%D0%B7%D0%B8%D0%BD%D0%B0
Sitemap: http://xn--80aswg.xn--p1ai/sitemap.xml

Как создать robots.txt

  1. В текстовом редакторе создайте файл с именем robots.txt и укажите в нем нужные вам директивы.
  2. Проверьте файл в Вебмастере.
  3. Положите файл в корневую директорию вашего сайта.

Пример файла. Данный файл разрешает индексирование всего сайта для всех поисковых систем.

Вопросы и ответы

В Вебмастере на странице «Диагностика сайта» возникает ошибка «Сервер отвечает редиректом на запрос /robots.txt»

Чтобы файл robots.txt учитывался роботом Яндекса, он должен находиться в корневом каталоге сайта и отвечать кодом HTTP 200. Если ваш файл robots.txt перенаправляет на другой файл robots.txt (например, при переезде сайта), Яндекс будет учитывать файл, на который происходит перенаправление.

Для правильной настройки директив в файле robots.txt убедитесь, что файл содержит верную информацию. Для проверки файла добавьте сайт, который является целью перенаправления, в Вебмастер и подтвердите права на управление сайтом.

Чтобы проверить доступность файла robots.txt для робота, проверьте ответ сервера.

Написать в службу поддержки



Также вы можете перейти на сервис