Дублирование страниц

  1. Как определить, есть ли страницы-дубли на сайте
  2. Как избавиться от страниц-дублей
  3. Разгруппировка

Если страницы сайта доступны по разным адресам, но имеют одинаковое содержимое, робот Яндекса может посчитать их дублями и объединить в группу дублей.

Примечание. Дублями признаются страницы в рамках одного сайта. Например, страницы на региональных поддоменах с одинаковым содержимым не считаются дублями.

Если на сайте есть страницы-дубли:

  • Из результатов поиска может пропасть нужная вам страница, так как робот выбрал другую страницу из группы дублей.

    Также в некоторых случаях страницы могут не объединяться в группу и участвовать в поиске как разные документы. Таким образом конкурировать между собой. Это может оказать влияние на сайт в поиске.

  • В зависимости от того, какая страница останется в поиске, адрес документа может измениться. Это может вызвать трудности при просмотре статистики в сервисах веб-аналитики.
  • Индексирующий робот дольше обходит страницы сайта, а значит данные о важных для вас страницах медленнее передаются в поисковую базу. Кроме этого, робот может создать дополнительную нагрузку на сайт.

Как определить, есть ли страницы-дубли на сайте

Страницы-дубли появляются по разным причинам:

  • Естественным. Например, если страница с описанием товара интернет-магазина присутствует в нескольких категориях сайта.
  • Связанным с особенностями работы сайта или его CMS (например, версией для печати, UTM-метки для отслеживания рекламы и т. д.)
Чтобы узнать, какие страницы исключены из поиска из-за дублирования:
  1. Перейдите в Вебмастер на страницу Страницы в поиске и выберите Исключённые страницы.
  2. Нажмите значок и выберите статус «Удалено: Дубль».

Также вы можете выгрузить архив — внизу страницы выберите формат файла. В файле дублирующая страница имеет статус DUPLICATE. Подробно о статусах

Если дубли появились из-за добавления GET-параметров в URL, об этом появится уведомление в Вебмастере на странице Диагностика.

Примечание. Страницей-дублем может быть как обычная страница сайта, так и ее быстрая версия, например AMP-страница.

Как избавиться от страниц-дублей

Чтобы оставить в поисковой выдаче нужную страницу, укажите роботу Яндекса на нее . Это можно сделать несколькими способами в зависимости от вида адреса страницы.

Пример для обычного сайта:

http://example.com/page1/ и http://example.com/page2/

Пример для сайта с AMP-страницами:

http://example.com/page/ и http://example.com/AMP/page/

В этом случае:

  • Установите редирект с HTTP-кодом 301 с одной дублирующей страницы на другую. В этом случае в поиске будет участвовать цель установленного редиректа.

  • Укажите предпочитаемый (канонический) адрес страницы, который будет участвовать в поиске.

  • Добавьте в файл robots.txt директиву Disallow, чтобы запретить индексирование страницы-дубля.

    Если вы не можете ограничить такие ссылки в robots.txt, запретите их индексирование при помощи мета-тега noindex. Тогда поисковой робот сможет исключить страницы из базы по мере их переобхода.

    Также вы можете ограничить AMP-страницы, которые дублируют контент страниц другого типа.

Чтобы определить, какая страница должна остаться в поиске, ориентируйтесь на удобство посетителей вашего сайта. Например, если речь идет о разделе с похожими товарами, вы можете выбрать в качестве страницы для поиска корневую или страницу этого каталога — откуда посетитель сможет просмотреть остальные страницы. В случае дублирования обычных HTML и AMP-страниц, рекомендуем оставлять в поиске обычные HTML.

https://example.com и https://example.com/index.php

В этом случае:

Рекомендуем устанавливать перенаправление с внутренних страниц на главную. Если вы настроите редирект со страницы https://example.com/ на https://example.com/index.php, контент страницы https://example.com/index.php будет отображаться по адресу https://example.com/ — согласно правилам обработки редиректов.

http://example.com/page/ и http://example.com/page

В этом случае установите редирект с HTTP-кодом 301 с одной дублирующей страницы на другую. Тогда в поиске будет участвовать цель установленного редиректа.

Не рекомендуем в этом случае использовать атрибут rel=canonical, так как он может игнорироваться. При редиректе пользователи будут попадать сразу на нужный URL страницы.

Если проблема на главной странице, настраивать на ней ничего не нужно. Поисковая система распознает страницы http://example.com и http://example.com/ как одинаковые.

Яндекс индексирует ссылки со слешем на конце и без одинаково. При выборе URL, который останется в поиске, нужно учесть, по какому адресу сейчас индексируются страницы, если редирект еще не был установлен. Например, если в поиске уже участвуют страницы без слеша, стоит настроить перенаправление со страниц со слешем на ссылки без слеша. Это позволит избежать дополнительной смены адреса страниц в поиске.

http://example.com/page////something/

В этом случае поисковая система убирает дублирующиеся символы. Страница будет индексироваться по адресу http://example.com/page/something/.

Если в URL есть \ (например, http://example.com/page/something/\\\\), поисковая система воспринимает такую страницу как отдельную. Она будет индексироваться по адресу http://example.com/page/something/\\\\.

В этом случае:
  • Установите редирект с HTTP-кодом 301 с одной страницы на другую. В этом случае в поиске будет участвовать цель установленного редиректа.

  • Укажите предпочитаемый (канонический) адрес страницы, который будет участвовать в поиске.
  • Добавьте в файл robots.txt директиву Disallow, чтобы запретить индексирование страницы.

    Если вы не можете ограничить такие ссылки в robots.txt, запретите их индексирование при помощи мета-тега noindex. Тогда поисковой робот сможет исключить страницы из базы по мере их переобхода.

Используйте рекомендации, если различия есть в тех параметрах, которые не влияют на контент. Например, такими параметрами могут быть UTM-метки:

https://example.com/page?utm_source=instagram&utm_medium=cpc

В этом случае добавьте в файл robots.txt директиву Clean-param, чтобы робот не учитывал параметры в URL. Если в Вебмастере отображается уведомление о дублировании страниц из-за GET-параметров, этот способ исправит ошибку. Уведомление пропадет, когда робот узнает об изменениях.

Совет. Директива Clean-Param является межсекционной, поэтому может быть указана в любом месте файла. Если вы указываете другие директивы именно для робота Яндекса, перечислите все предназначенные для него правила в одной секции. При этом строка User-agent: * будет проигнорирована.
Пример директивы Clean-param
#для адресов вида:
https://example.com/page?utm_source=link&utm_medium=cpc&utm_campaign=new

#robots.txt будет содержать:
User-agent: Yandex
Clean-param: utm_source&utm_medium&utm_campaign /page
#таким образом указываем роботу, что нужно оставить в поиске адрес https://example.com/page

#чтобы директива применялась к параметрам на страницах по любому адресу, не указывайте адрес:
User-agent: Yandex
Clean-param: utm_source&utm_medium&utm_campaign

Если у вас нет возможности изменить robots.txt, укажите предпочитаемый (канонический) адрес страницы, который будет участвовать в поиске.

http://example.com/page/ и http://example.com/page?AMP

В этом случае добавьте директиву Clean-param в файл robots.txt, чтобы робот не учитывал параметры в URL.

Если AMP-страницы формируются не GET-параметром, а при помощи директории формата /AMP/, их можно рассматривать как обычные контентные дубли.

Робот узнает об изменениях, когда посетит ваш сайт. После посещения страница, которая не должна участвовать в поиске, будет исключена из него в течение трех недель. Если на сайте много страниц, этот процесс может занять больше времени.

Проверить, что изменения вступили в силу, можно в Яндекс Вебмастере на странице Страницы в поиске.

Разгруппировка

Для улучшения качества поиска может применяться механизм разгруппировки. Это происходит, если:

  • Страницы, которые лучше решают задачу пользователя, расположены на одном домене, а остальные ресурсы менее релевантны. Например, когда в запросе указан конкретный сайт. В этом случае поиск может показать несколько ссылок на различные страницы этого сайта.
  • В выдаче присутствуют разные поддомены крупного интернет-портала — сайта, который объединяет несколько информационных ресурсов и сервисов. Обычно на поддоменах находятся сайты разных бизнесов и владельцев, а контент касается разнородных услуг. Каждый из поддоменов интернет-портала поиск ранжирует изолированно. Например, такая разгруппировка применяется к крупнейшим экосистемным площадкам и блог-платформам.

Владелец сайта, часто попадающего в топ выдачи, может предложить переквалифицировать свой домен в интернет-портал через обращение в Вебмастере. Для этого нужно предоставить описание сервисов и их владельцев на поддоменах. После этого они могут ранжироваться как независимые сайты, которые самостоятельно накапливают пользовательский сигнал. Изменение пользовательского сигнала может как положительно, так и отрицательно сказаться на позициях поддоменов в поисковой выдаче.

Если вы следовали рекомендациям выше, но через три недели изменения не отобразились в результатах поиска, заполните форму ниже. В форме укажите примеры страниц.

Страницы с разным содержанием могут считаться дублями, если отвечали роботу сообщением об ошибке (например, на сайте была установлена заглушка). Проверьте, как отвечают страницы сейчас. Если страницы отдают разное содержимое, отправьте их на переобход — так они смогут быстрее вернуться в результаты поиска.

Чтобы избежать исключения страниц из поиска в случае кратковременной недоступности сайта, настройте HTTP-код ответа 503.