Техникалық талаптар

Тақырыптарды және жаңалықтардың аннотацияларын орналастыру үшін деректерді экспорттау yandex.kz сайтындағы (оның ішінде Яндекс.Жаңалықтар сайтында) тақырыптарды және жаңалықтардың аннотацияларын орналастыру үшін деректерді экспорттау XML-based RSS 2.0 пішімде жүзеге асырылады.

RSS 2.0 элементтерінің сипаттамасы

RSS-файлдың түбірлік элементі rss болып табылады, оның version атрибуты 2.0 мәнге ие.

<rss 
   xmlns:yandex="http://news.yandex.ru" 
   xmlns:media="http://search.yahoo.com/mrss/"
   version="2.0">
   ...
</rss>

rss элементі ішінде channel элементі бар, ол дереккөз туралы ақпаратты және оның мазмұнын қамтиды.

Дереккөз сайт туралы ақпарат

Мәліметтер channel элементінде беріледі.

Элемент Сипаттама
title

RSS-арнаның атауы.

Егер бүкіл сайттың мазмұны экспортталса, сайт атауын көрсетіңіз.

<title>Ресей Жаңалықтары</title>

Егер сайт бөлімі экспортталса, қос нүкте арқылы сайт және бөлім атауын көрсетіңіз.

<title>Ресей Жаңалықтары: <g id= " 1 " >технологиялар</title>
Ескертпе. yandex.kz сайтында RSS-арнаның атауы көрсетілмейді, экспортталатын деректер Яндекс.Жаңалықтар сервисіне қосылған кезде сауалнамада көрсетілген дереккөздің атауымен таңбаланады.
link

Деректер таратылатын сайт домені.

<link>http://www.example.com</link>
description

Арнаны бір сөйлеммен сипаттау. HTML-белгілеуді пайдаланбаңыз.

<description>Күнделікті газет</description>
language

ISO 639-1 стандарты бойынша мақала тілі.

<language>ru</language>
item *

Бет және оның мазмұны туралы ақпарат.

Әрбір item тек бір жаңалық хабарын сипаттайды. channel арнасында item элементтердің кез келген саны болуы мүмкін.

item жаңалықтар хабарламаларын жіберу үшін мынадай міндетті элементтер көрсетіледі:

  • title* — хабарламаның тақырыбы;
  • link* — хабарлама URL-ы;
  • pubDate* — хабарламаның дереккөзі сайтында жариялану уақыты;
  • yandex:full-text* — хабарламаның толық мәтіні.
<item>
  <title>Хат тақырыбы</title>
  <link>http://www.example.com/page.html</link>
  <pubDate>Sun, 29 Sep 2002 19:59:01 +0300</pubDate> 
  <yandex:full-text>Хабарламаның толық мәтіні</yandex:full-text>
</item>

* Міндетті элемент.

Хабарлама туралы ақпарат

Деректер item элементінде беріледі.

Элемент Сипаттама
title *

Хабарлама тақырыбы.

<title>Яндекс президенттік сайтта іздейтіні</title>

title элементі сайтта жаңалығы бар беттегідей хабарлама тақырыбының өзекті нұсқасын құрауы қажет.

Ең үлкен тақырып ұзындығы — 200 таңба.

Тыйым салынған:

  • тақырыбы толықтай бас әріптермен жазылған хабарлама тақырыбын жіберу;
  • тақырып соңында нүкте қою;
  • тақырыптағы дереккөздің атауын, хабарламаның күнін немесе уақытын көрсету;
  • тақырыптарға қызметтік ескертпелерді қосу (мысалы, "жаңартылды", "толықтырылды", "фоторепортаж", "видео") және тақырыптың ажырамас бөлігі болып табылмайтын ақпараттық емес айналымдар (мысалы, "Шұғыл!" немесе "Сенсация").
link *

Дереккөз беттің URL-ы.

<link>http://www.example.com/page1.html</link>
Талаптар:
  • сілтеме HTTP немесе HTTPS сызбасын қамтуы керек;
  • сілтемеде көрсетілген домен дереккөз-сайт доменіне сәйкес келуі керек;
  • URL-дың максималды ұзындығы — 243 ASCII-таңба;
  • бір URL бойынша бір мақала қолжетімді болуы керек;
  • URL тек # немесе таңбаларынан кейін ғана қайталанбауы немесе мекен-жаймен ажыратылмауы тиіс!#. Мысалы, http://www.some-host.ru/news.html#2545 и http://www.some-host.ru/news.html#5794. Мұндай сілтемелер бірдей деп саналады және item элементі ішінде таратылуына жол берілмейді.
  • Яндекс.Жаңалықтарда орналастырылған тақырыпшадан өту кезінде соған сәйкес тек бір хабарламадан тұратын бет ашылуы керек. Бұл ретте мәтіннің тақырыбы мен басталуы 1024 × 768 бірінші экран тұнықтығында көрінуі тиіс.
pubDate *

Хабарламаны дереккөз сайтында жариялау уақыты. RFC-822 пішімінде беріледі.

<pubDate>Tue, 21 Apr 2015 14:15:00 +0300</pubDate>
<!-- "+0300" мәні сағат белдеуін анықтайды. 
Жазба 21 сәуір 2015 ж., 14: 15 Мәскеу уақыты бойынша белгіленгенін білдіреді. -->

Экспорттық файлда көрсетілген уақыт сайтта жарияланған нақты уақытпен сәйкес келуі тиіс. Соңғы 8 күндегі хабарламалар өзекті болып саналады. Қалғаны индекстелмейді.

author

Хабарлама авторы.

<author>Иван Петров</author>
yandex:full-text *

Жаңалық мәтіні.

yandex:full-text элементі жаңалықтың толық өзекті мәтінін қамтуы тиіс. Ол іздеу роботын индекстеу үшін пайдаланылады, yandex.kz сайтында мәтін орналастырылмайды. Егер сайт жаңалығының мәтіні жарияланғаннан кейін өзгертілсе, оны yandex:full-text сайтында да жаңарту қажет.

<yandex:full-text>жаңалықтардың толық мәтіні</yandex:full-text>

yandex:full-text элементінде беруге мынаған тыйым салынады:

  • дереккөздің атауы;
  • хабарлама күні немесе уақыты;
  • байланыс ақпараты;
  • бейнелерге, аудио- және бейне файлдарға сілтемелер (осы сілтемелер үшін жеке enclosure, media:group тегтерін қалыптастыру керек).
pdalink

Мобильді құрылғыларға бейімделген хабарлама нұсқасына сілтеме.

Хабардың мобильді нұсқасы қолжетімді болуы үшін https://m.news.yandex.ru/, pdalink элементінде дереккөз сайтының мобильді нұсқасындағы тиісті хабарламаға сілтемені жіберіңіз.
<pdalink>http://www.m.rossiyskie-novosti.ru/page.html</pdalink>
amplink

Хабарламаның AMP-нұсқасына сілтеме.

AMP пішіміндегі беттердің сілтемелері, егер олар сіздің экспорттық файлда болған жағдайда, тачскринді құрылғыларға арналған Яндекс.Жаңалықтардың нұсқасында қарапайым мобильді және бейімделген беттерге сілтемелер орнына қолданылады.

Жаңалықтардың AMP-нұсқаларын жіберу үшін amplink элементінде тиісті хабары бар беттің AMP-нұсқасына сілтемені көрсетіңіз.

<amplink>http://amp.vesti.ru/doc.html?id=27</amplink>
description

Хабарламаның қысқаша сипаттамасы (аннотация, лид). HTML-белгілеуді пайдаланбаңыз.

<description>Яndex.Site Ресей президенті сайтында
орнатылған</description>
yandex:genre

Хабарлама жанры.

Латын әріптерімен көрсетіледі:

  • lenta — қысқа жаңалық хабарламасы (50-80 таңба);
  • message — кеңейтілген жаңалықтар хабарламасы;
  • article — бап;
  • interview — сұхбат.
<yandex:genre>article</yandex:genre>
category

Айдар (бөлім, санат).

Хабарлама жарияланған айдардың түпнұсқалық (басылымдағыдай) атауы көрсетіледі. Бір хабарға тек бір айдар сәйкес келуі мүмкін.

<category>Технологиялар</category>
Назар аударыңыз. Басылым айдарларының өзгеруі туралы немесе экспорттық файлға жаңа айдар материалдарын қосу туралы info@news.yandex.ru мекен-жайына хабарлау қажет. Әйтпесе, бұрын болмаған немесе атауы өзгертілген басылым айдарларына қатысты хабарламалар индекстелмейді.
enclosure

Иллюстрациялар, аудио және бейнефайлдар.

Бір элементте бір иллюстрацияға, аудио немесе бейнефайлға сілтеме көрсетіледі. Егер хабарламада бірнеше иллюстрация немесе иллюстрация және бейнефайл болса, бірнеше enclosure элементін пайдаланыңыз.

Иллюстрацияларға қойылатын талаптар:

  • Ені 240 пиксельден, ұзындығы 300 пиксельден кем емес. Кіші көлемді иллюстрациялар индекстелмейді.

    Егер өлшемімен ерекшеленетін бір суреттің бірнеше нұсқасы болса, онда enclosure ең үлкен өлшемдегі суреттің URL-ы көрсетілуі керек.

  • Суреттер robots.txt файлында индекстеуге рұқсат етілуі керек.

Суреттерге арналған type параметрі көрсетілген URL бойынша жіберілетініне сәйкес келуі керек. url мәні міндетті. type мәні ұсынылады, ал файл кеңейтімі бойынша мазмұн түрін анықтау мүмкін болмаса, онда міндетті.

<enclosure 
  url="http://www.rossiyskie-novosti.ru/01.jpg" 
  type="image/jpeg"/>
media:group

Байланысты медиаобъектілер тобы.

Элементтердің кез келген санын media:group көруге болады. Тіркемеленген топтарға жол берілмейді. Элемент атрибуттары жоқ.

media:group элементі мынадай жағдайларда қолданылады:

  • Форматтармен ерекшеленетін екі бейнені біріктіру үшін. Мазмұны бойынша әртүрлі бейнелерді біріктіру ұсынылмайды.
  • Плеер мен тумбнейлді біріктіру үшін. Тумбнейлдің ені 240 пиксельден, ұзындығы 300 пиксельден кем болмауы тиіс. Көлемі 300 х 240 пиксельден кем тумбнейлмен бірге жүретін бейне индекстелмейді.
  • Аудиофайл видеоға апарар дыбыстық жол болса, видео мен аудионы топтастыру үшін.
  • Хабарламаны сүйемелдейтін бейнефайлдарды сапалы индекстеу үшін enclosure элементімен бірге немесе соның орнына.

media:group келесі тіркелген элементтерден құрылуы мүмкін:

  • Бір немесе бірнеше media:content элементтері, олардың бірінде isDefault атрибуты қойылуы мүмкін.
  • Тек бір ғана media:player элементі. Егер топта media:player болса, файлға тікелей сілтеменің орнына ойнатқышқа сілтемені көрсетіңіз.
  • Бір немесе бірнеше media:thumbnail элементтері, оларды басымдықтың кему тәртібімен көрсету керек.
Назар аударыңыз. media:group элементінде міндетті түрде media:thumbnail болуы керек, сондай-ақ кем дегенде бір media:content не болмаса media:player элементі болуы қажет. Барлық үш элементті пайдалану қажет емес.
<media:group>
 <media:content
 url="сайтыңыздағы бейнефайлға сілтеме"/>
 <media:player
  url="сайтыңыздағы плеерге сілтеме"/>
 <media:thumbnail
 url="preview ретінде қолданылуы қажет
 иллюстрацияға сілтеме"/>
</media:group>

* Міндетті элемент.

Турбо-беттер

Сайттың турбо-беттері туралы ақпарат Яндекс.Вебмастер арқылы беріледі. Толығырақ

Бейне және фоторепортаждар

Бейне - және фоторепортаждарды Яндекс.Жаңалықтарда егер олар сайтта жарияланған мәтінмен немесе шифрмен бірге болмаған жағдайда да таратуға болады.

Бейнені таратуда сәйкесінше item қажет:

  1. enclosure немесе media:group элементіндегі бейненің сілтемесін көрсету.
  2. yandex:genre элементіндегі video хабарлама жанрын көрсету.
  3. Бейнерепортаждың қысқаша сипаттамасын (лид) құрауы тиіс description элементін қалыптастыру.
  4. yandex:tags элементтерін құру және оларға бейнеге арналған кілт сөздерді орналастыру. Әрбір кілт сөз бөлек yandex:tags элементінде болуы тиіс. Кем дегенде — 5 кілт сөз.

    Сайтыңыздағы кілт сөздерді жарияламауыңызға болады, олар кластерлеу алгоритмінің дұрыс жұмысы үшін қажет.

    <yandex:tags>путин</yandex:tags>
    <yandex:tags>порошенко</yandex:tags>
    <yandex:tags>меркель</yandex:tags> 
    <yandex:tags>лукашенко</yandex:tags>
    <yandex:tags>минск</yandex:tags>

Таңбалар мен кодтама

Экспорттық файлда сервермен берілетін кодтауды көрсетіңіз. Ең жиі қолданылатыны: UTF-8, Windows-1251, KOI8-R.

Барлық channel және item элементтерінде келесі таңбаларды кодтау қажет:

Таңба Атауы Ауыстыру коды
& Амперсанд &
> Оң жақ бұрыштағы жақша >
< Сол жақ бұрыштағы жақша <
" Тырнақша белгісі "
' Апостроф '

Мысалы, http://some.host.ru/?id=1&page=10 сілтемесі http://some.host.ru/?id=1&page=10 түріне келтірілуі тиіс.

Деректерді экспорттау тетігі

Жаңалықтар хабарлары туралы ақпаратты беру үшін сіздің сайтыңыздың серверіне RSS-файлын орналастырыңыз және оны қажетті мерзімділікпен жаңартыңыз (мысалы, файл күні бойы толықтырылуы және таңертең қайта жазылуы мүмкін). Робот файлды әрбір екі минут сайын жүктейді.

Шектеу. Файл HTTP немесе HTTPS хаттамасы бойынша қолжетімді болуы керек. 10 секунд ішінде толық жүктеу мүмкін болмаған экспорттық файл қолжетімді емес деп саналады. Файл мөлшері 10 Мб-тан аспауы тиіс.

Яндекстің негізгі роботы файлды индекстеу үшін нұсқауға robots.txt қосыңыз:

User-agent: YandexNewsAllow: хост аты жоқ экспорттық файлға дейінгі жол (мысалы, / file.rss)...#соңғы жол бос болуы керек

Жолдарды қосу дұрыстығын Яндекс.Вебмастерде тексеруге болады.

Егер сіз robots.txt Crawl-delay нұсқауын пайдалансаңыз, оны YandexNews роботы үшін бөлек көрсетіңіз (0.1-ден 2-ге дейін).

User-agent: YandexNews
Allow: / file.rss
Crawl-delay: 0.1
...
#соңғы жол бос болуы керек

Экспорттық файлдың үлгісі

<?xml version=" 1.0"encoding="windows-1251"?>
  <rss
  xmlns:yandex="http://news.yandex.ru" xmlns:media="http://search.yahoo.com/mrss/"
  version="2.0">
    <channel>
      <title>Ресей Жаңалықтары</title>
      <link>http://www.rossiyskie-novosti.ru/</link>
      <description>Күнделікті Мәскеу газеті</description>
      <item>
        <title>Яндекс президенттік сайтта іздейді</title>
        <link>http://www.rossiyskie-novosti.ru/2003/03/25/yandex.html</link>
        <pdalink>http://www.m.rossiyskie-novosti.ru/2003/03/25/yandex.html</pdalink>
        <description>Яndex.Site президент сайтында орнатылған</description>
        <author>Иван Петров</author>
        <category>Технологиялар</category>
        <enclosure
       url="http://www.rossiyskie-novosti.ru/2003/03/25/yandex.jpg" 
       type="image/jpeg" />
       <media:group>
        <media:content
        url="http://www.rossiyskie-novosti.ru/video/100237" type="video/x-ms-asf" />
          <media:thumbnail
          url="http://www.rossiyskie-novosti.ru/2003/03/25/yandex1.jpg" 
         type="image/jpeg" />
        </media:group>        
        <pubDate>Sun, 29 Sep 2002 19:59:01 +0300</pubDate>
        <yandex:genre>message</yandex:genre>
        <yandex:full-text>www.kremlin.ru сайты бойынша іздеу үшін Яndex.Site бағдарламасы таңдалған. 
          Бұл бағдарламалық өнімді президент сайтының провайдері — Федералдық үкіметтік байланыс 
          және ақпарат агенттігі зерттеді. ФАПСИ <Яндекс> іздеу жүйесін www.kremlin.ru сайтында қолдану 
          мүмкіндігін белгіледі. Зерттеу нәтижелері бойынша бағдарлама құрастырылды, сыналды және 
          сайтқа орнатылды.</yandex:full-text>
       </item>
     </channel>
  </rss>