Технические требования

Экспорт данных для размещения заголовков и аннотаций новостей на yandex.kz (в том числе на сайте Яндекс.Новости) осуществляется в XML-based формате RSS 2.0.

Описание элементов RSS 2.0

Корневым элементом RSS-файла является rss, атрибут version которого должен иметь значение 2.0.

<rss 
   xmlns:yandex="http://news.yandex.ru" 
   xmlns:media="http://search.yahoo.com/mrss/"
   version="2.0">
   ...
</rss>

Внутри элемента rss содержится элемент channel, который включает информацию об источнике и его содержание.

Информация о сайте-источнике

Сведения передаются в элементе channel.

Элемент Описание
title

Название RSS-канала.

Если экспортируется содержание целого сайта, укажите название сайта.

<title>Российские новости</title>

Если экспортируются раздел сайта, укажите название сайта и раздела через двоеточие.

<title>Российские новости: технологии</title>
Примечание. На yandex.kz название RSS-канала не показывается, экспортируемые данные маркируются тем названием источника, которое было указано в анкете при подключении к сервису Яндекс.Новости.
link

Домен сайта, данные которого транслируются.

<link>http://www.example.com</link>
description

Описание канала одним предложением. Не используйте HTML-разметку.

<description>Ежедневная газета</description>
language

Язык статьи по стандарту ISO 639-1.

<language>ru</language>
item *

Информация о странице и ее содержимом.

Каждый item описывает только одно новостное сообщение. В channel может содержаться любое количество элементов item.

Для передачи новостных сообщений в item указываются следующие обязательные элементы:

  • title* — заголовок сообщения;
  • link* — URL сообщения;
  • pubDate* — время публикации сообщения на сайте источника;
  • yandex:full-text* — полный текст сообщения.
<item>
  <title>Заголовок сообщения</title>
  <link>http://www.example.com/page.html</link>
  <pubDate>Sun, 29 Sep 2002 19:59:01 +0300</pubDate> 
  <yandex:full-text>Полный текст сообщения</yandex:full-text>
</item>

* Обязательный элемент.

Информация о сообщении

Данные передаются в элементе item.

Элемент Описание
title *

Заголовок сообщения.

<title>Яндекс ищет на президентском сайте</title>

Элемент title должен содержать актуальный вариант заголовка сообщения, такого же, как на странице с новостью на сайте.

Максимальная длина заголовка — 200 символов.

Запрещено:

  • передавать заголовок сообщения, написанный полностью прописными буквами;
  • ставить точку в конце заголовка;
  • указывать в заголовке название источника, дату или время сообщения;
  • включать в заголовок служебные примечания (например, «обновлено», «дополнено», «фоторепортаж», «видео») и неинформативные обороты, которые не являются неотъемлемой частью заголовка (например, «Срочно!» или «Сенсация»).
link *

URL страницы-источника.

<link>http://www.example.com/page1.html</link>
Требования:
  • ссылка должна содержать схему HTTP или HTTPS;
  • домен, указанный в ссылке, должен соответствовать домену сайта-источника;
  • максимальная длина URL — 243 ASCII-символа;
  • по одному URL должна быть доступна одна статья;
  • URL не должны повторяться или различаться только адресом после символа # или !#. Например, http://www.some-host.ru/news.html#2545 и http://www.some-host.ru/news.html#5794. Такие ссылки считаются идентичными и не допускаются к передаче внутри одного элемента item.
  • При переходе с заголовка, размещенного на Яндекс.Новостях, должна открываться страница, содержащая только одно сообщение, соответствующее заголовку. При этом заголовок и начало текста должны быть видны на первом экране при разрешении 1024 × 768.
pubDate *

Время публикации сообщения на сайте источника. Передается в формате RFC-822.

<pubDate>Tue, 21 Apr 2015 14:15:00 +0300</pubDate>
<!-- Значение «+0300» определяет часовой пояс. 
Запись означает, что новость датирована 21 апреля 2015 г., 
14:15 московского времени. -->

Время, указанное в экспортном файле, должно совпадать с фактическим временем публикации на сайте. Актуальными считаются сообщения за последние 8 дней. Остальные проиндексированы не будут.

author

Автор сообщения.

<author>Иван Петров</author>
yandex:full-text *

Текст новости.

Элемент yandex:full-text должен содержать полный актуальный текст новости. Он используется для индексирования поисковым роботом, на yandex.kz текст не размещается. Если текст новости на сайте был изменен после публикации, его необходимо обновить и в yandex:full-text.

<yandex:full-text>полный текст новости</yandex:full-text>

В элементе yandex:full-text запрещено передавать:

  • название источника;
  • дату или время сообщения;
  • контактную информацию;
  • ссылки на изображения, аудио- и видеофайлы (для этих ссылок нужно формировать отдельные теги enclosure, media:group).
pdalink

Ссылка на версию сообщения, адаптированную для мобильных устройств.

Чтобы мобильная версия сообщения была доступна на https://m.news.yandex.ru/, передайте в элементе pdalink ссылку на соответствующее сообщение в мобильной версии сайта источника.
<pdalink>http://www.m.rossiyskie-novosti.ru/page.html</pdalink>
amplink

Ссылка на AMP-версию сообщения.

Ссылки на страницы в формате AMP, если они присутствуют в вашем экспортном файле, будут использоваться в версии Яндекс.Новостей для устройств с тачскрином вместо ссылок на обыкновенные мобильные и адаптивные страницы.

Чтобы передавать AMP-версии новостей, укажите в элементе amplink ссылку на AMP-версию страницы с соответствующим сообщением.

<amplink>http://amp.vesti.ru/doc.html?id=27</amplink>
description

Краткое описание сообщения (аннотация, лид). Не используйте HTML-разметку.

<description>Продукт Яndex.Site установлен на сайте 
президента России</description>
yandex:genre

Жанр сообщения.

Указывается латиницей:

  • lenta — короткое новостное сообщение (50–80 символов);
  • message — более развернутое новостное сообщение;
  • article — статья;
  • interview — интервью.
<yandex:genre>article</yandex:genre>
category

Рубрика (раздел, категория).

Указывается оригинальное (как в издании) название рубрики, в которой опубликовано сообщение. Одному сообщению может соответствовать только одна рубрика.

<category>Технологии</category>
Внимание. Об изменении рубрикации издания или о добавлении в экспортный файл материалов новых рубрик необходимо сообщать по адресу info@news.yandex.ru. Иначе сообщения, относящиеся к ранее не существовавшим или переименованным рубрикам издания, проиндексированы не будут.
enclosure

Иллюстрации, аудио и видеофайлы.

В одном элементе указывается ссылка на одну иллюстрацию, аудио или видеофайл. Если в сообщении содержится несколько иллюстраций, или иллюстрация и видеофайл, используйте несколько элементов enclosure.

Требования к иллюстрациям:

  • Ширина не менее 240 пикселей, длина не менее 300 пикселей. Иллюстрации меньшего размера не индексируются.

    Если есть несколько вариантов одной иллюстрации, отличающихся размером, в enclosure должен быть указан URL изображения наибольшего размера.

  • Иллюстрации должны быть разрешены к индексированию в файле robots.txt.

Для изображений параметр type должен совпадать с тем, что отдается по указанному URL. Значение url обязательно. Значение type крайне рекомендуемо, а если невозможно определить тип контента по расширению файла, то обязательно.

<enclosure 
  url="http://www.rossiyskie-novosti.ru/01.jpg" 
  type="image/jpeg"/>
media:group

Группа связанных медиаобъектов.

Можно указать любое количество элементов media:group. Вложенные группы не допускаются. Атрибутов у элемента нет.

Элемент media:group применяется в следующих случаях:

  • Для объединения двух видео, отличающихся форматами. Различные по содержанию видео объединять не рекомендуется.
  • Для объединения плеера и тумбнейла. Ширина тумбнейла должна быть не меньше 240 пикселей, длина — не меньше 300 пикселей. Видео, сопровождающееся тумбнейлом размером менее 300 х 240 пикселей, проиндексировано не будет.
  • Для группировки видео и аудио, если аудиофайл является звуковой дорожкой к видео.
  • Для более качественного индексирования видеофайлов, сопровождающих сообщение, вместе с элементом enclosure или вместо него.

В media:group могут быть следующие вложенные элементы:

  • Один или несколько элементов media:content, в одном из которых может быть проставлен атрибут isDefault.
  • Только один элемент media:player. Если в группе содержится media:player, вместо прямой ссылки на файл укажите ссылку на плеер.
  • Один или несколько элементов media:thumbnail, их следует указывать в порядке убывания приоритета.
Внимание. Элемент media:group обязательно должен содержать media:thumbnail, а также хотя бы один элемент media:content либо media:player. Использовать все три элемента не требуется.
<media:group>
  <media:content
   url="ссылка на видеофайл на вашем сайте"/>
  <media:player
   url="ссылка на плеер на вашем сайте"/>
  <media:thumbnail
   url="ссылка на иллюстрацию, которая должна
   быть использована в качестве preview"/>
</media:group>

* Обязательный элемент.

Турбо-страницы

Передача информации о Турбо-страницах сайта производится через Яндекс.Вебмастер. Подробнее

Видео- и фоторепортажи

Видео- и фоторепортажи можно транслировать в Яндекс.Новости даже в том случае, если они не сопровождаются опубликованным на вашем сайте текстом или расшифровкой.

Для трансляции видео необходимо в соответствующем item:

  1. Указать ссылку на видео в элементе enclosure или media:group.
  2. Указать жанр сообщения video в элементе yandex:genre.
  3. Сформировать элемент description, который должен содержать краткое описание (лид) видеорепортажа.
  4. Сформировать элементы yandex:tags и поместить в них ключевые слова для видео. Каждое ключевое слово должно быть в отдельном элементе yandex:tags. Минимальное количество — 5 ключевых слов.

    Вы можете не публиковать ключевые слова на вашем сайте, они нужны для правильной работы алгоритма кластеризации.

    <yandex:tags>путин</yandex:tags>
    <yandex:tags>порошенко</yandex:tags>
    <yandex:tags>меркель</yandex:tags> 
    <yandex:tags>лукашенко</yandex:tags>
    <yandex:tags>минск</yandex:tags>

Символы и кодировки

В экспортном файле укажите кодировку, отдаваемую вашим сервером. Наиболее часто используются: UTF-8, Windows-1251, KOI8-R.

Во всех элементах channel и item необходимо кодировать следующие символы:

Символ Название Код замены
& Амперсанд &amp;
> Правая угловая скобка &gt;
< Левая угловая скобка &lt;
" Знак кавычек &quot;
' Апостроф &apos;

Например, ссылка http://some.host.ru/?id=1&page=10 должна быть приведена к виду http://some.host.ru/?id=1&amp;page=10.

Механизм экспорта данных

Чтобы передавать информацию о новостных сообщениях, разместите RSS-файл на сервере вашего сайта и обновляйте его с необходимой периодичностью (например, файл может пополняться в течение дня и перезаписываться утром). Робот скачивает файл каждые две минуты.

Ограничение. Файл должен быть доступен по протоколу HTTP или HTTPS. Экспортный файл, который не удалось полностью загрузить за 10 секунд, считается недоступным. Размер файла не должен превышать 10 Мб.

Чтобы основной робот Яндекса проиндексировал файл, добавьте директиву в robots.txt:

User-agent: YandexNews
Allow: путь до экспортного файла без имени хоста (например, /file.rss)
...
#последняя строка должна быть пустой

Проверить корректность добавления строк можно в Яндекс.Вебмастере.

Если вы используете в robots.txt директиву Crawl-delay, укажите ее для робота YandexNews отдельно (со значением от 0.1 до 2).

User-agent: YandexNews
Allow: /file.rss
Crawl-delay: 0.1
...
#последняя строка должна быть пустой

Пример экспортного файла

<?xml version="1.0" encoding="windows-1251"?>
  <rss 
    xmlns:yandex="http://news.yandex.ru" 
    xmlns:media="http://search.yahoo.com/mrss/"
    version="2.0">
    <channel>
      <title>Российские новости</title>
      <link>http://www.rossiyskie-novosti.ru/</link>
      <description>Ежедневная московская газета</description>
      <item>
        <title>Яндекс ищет на президентском сайте</title>
        <link>http://www.rossiyskie-novosti.ru/2003/03/25/yandex.html</link>
        <pdalink>http://www.m.rossiyskie-novosti.ru/2003/03/25/yandex.html</pdalink>
        <description>Яndex.Site установлен на сайте президента</description>
        <author>Иван Петров</author>
        <category>Технологии</category>
        <enclosure 
          url="http://www.rossiyskie-novosti.ru/2003/03/25/yandex.jpg" 
          type="image/jpeg"/>
        <media:group>
          <media:content 
            url="http://www.rossiyskie-novosti.ru/video/100237" 
            type="video/x-ms-asf"/>
          <media:thumbnail 
            url="http://www.rossiyskie-novosti.ru/2003/03/25/yandex1.jpg" 
            type="image/jpeg"/>
        </media:group>        
        <pubDate>Sun, 29 Sep 2002 19:59:01 +0300</pubDate>
        <yandex:genre>message</yandex:genre>
        <yandex:full-text>Для поиска по сайту www.kremlin.ru выбрана программа Яndex.Site. 
          Этот программный продукт был исследован провайдером президентского сайта — 
          Федеральным агентством правительственной связи и информации. ФАПСИ сочло 
          возможным использование поисковой системы &lt;Яндекса&gt; на www.kremlin.ru. 
          По результатам исследования программа была скомпилирована, протестирована и 
          установлена на сайт.</yandex:full-text>
       </item>
     </channel>
  </rss>