Требования к RSS для рекомендательной системы Mail.Ru

Рекомендации

Публикации, которые попадают в RSS, должны быть в свободном доступе. Те материалы, для просмотра которых требуется регистрация или плата, в рекомендательную систему не попадают.

  • Материал для рекомендательной системы должен содержать хотя бы одно изображение, которое размещается с помощью элемента enclosure. Ширина изображения должна быть не менее 400 пикселей.

  • Убедитесь, что в robots.txt нет директивы Disallow, которая запрещает адрес RSS, в противном случае публикацию не увидит наш робот "Mozilla/5.0 (compatible; Linux x86_64; Mail.RU_Bot/2.0; +http://go.mail.ru/help/robots)"Разрешить можно директивой Allow RSS_URL. Пример: если в robots.txt прописана директива Disallow /feed, то робот не сможет проиндексировать страницу example.ru/feed/some_url/rss.xml Чтобы разрешить индексацию, добавьте директиву Allow /feed/some_url/rss.xml.

  • Убедитесь, что RSS открыта для доступа с IP адресов 95.163.255.0-95.163.255.255
  • Убедитесь, что ваш провайдер не блокирует нашего робота. Для этого можно выполнить следующую команду в консоли linux или подобной, где вместо YOU_URL надо вставить один из урлов материлов, отдаваемых вами в RSS. Если вернулся код 200 - то значит провайдер не банит нашего фетчера, при ином коде надо обратиться к хостинг провайдеру с просьбой разблокировать ваши документы для нашего робота.

    $ curl -I --user-agent "Mozilla/5.0 (compatible; Linux x86_64; Mail.RU_Bot/2.0; +http://go.mail.ru/help/robots)" "YOU_URL" 

    HTTP/1.1 200 OK

    Больше про поисковых роботов
  • Для более корректной работы старайтесь держать в RSS только свежие публикации (за последние 2-5 дней). Из-за нагрузки, которую создают устаревшие публикации, усложняется работа RSS.

Совет: Чтобы удостовериться, что RSS размечена правильно - проверьте ее нашим валидатором

Если кроме нижеперечисленных тэгов в Вашей RSS есть другие тэги (например, content:encoded, etc.), то это никак не помешает нашим парсерам вытащить контент из такой RSS. Ниже мы указали минимальные требования к RSS, которые могут попасть в нашу рекомендательную систему.

Описание источника

Элементы со строго ограниченным набором значений могут содержать только варианты, которые указаны в таблице. Любое другое значение приведет к ошибке.

Обязательные элементы отмечены значком image.

 

Элемент Описание
rssimage Используемый формат данных. Экспорт осуществляется в XML-based формате RSS 2.0. Поддерживаются RSS.
channelimage Набор элементов, содержащих информацию о сайте-источнике публикаций.
titleimage Название сайта.
linkimage URL сайта.
description Описание сайта.
imageimage Логотип сайта-источника. Содержит элемент <url> с указанием адреса изображения. Размер картинки должен быть не менее 200 пикселей по ширине и высоте. Изображение будет кадрировано до квадратного. Не допускается анимация и прозрачный фон.
language Язык документов в RSS согласно стандарту ISO 639-1
itemimage Элементы, которые описывают отдельную публикацию. В RSS может присутствовать несколько таких элементов, оптимально — публикации за 2-5 последних дня. Если таких элементов больше - это может усложнить работу RSS.

 

<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0"
   xmlns:content="http://purl.org/rss/1.0/modules/content/"
   <channel>
       <title>Криптота</title>
       <link>http://example.com/</link>
       <description>
        Всё о криптовалютах: покупка, продажа,
        биржи и новости.
       </description>
       <image>
              <url>http://example.com/logo_200x200.png</url>
       </image>

       <language>ru</language>
       <item>
       ...
       </item>
   </channel>

Описание публикации

Элементы, с помощью которых описывается публикация, находятся внутри item.

Элементы со строго ограниченным набором значений могут содержать только варианты, которые указаны в таблице. Любое другое значение приведет к ошибке.

 Обязательные элементы отмечены значком image.

Элемент Описание
titleimage Заголовок публикации. От 3 до 1000 символов.
linkimage

URL публикации, данные которой транслируются в RSS. Ссылка в RSS должна полностью повторять ссылку на сайте и не содержать лишних элементов.

Например, utm метки не являются необходимыми.

amplink Ссылка на AMP-версию материала.
pubDateimage

Дата и время публикации в формате RFC822, ( «Sun, 08 Jan 2017 13:00:00 +03000»). 

enclosureimage

Описание изображений, аудио- и видеофайлов. Может быть единственным упоминанием медиаконтента.

Если в материале есть много вариантов одной иллюстрации, которые отличаются друг от друга только размером, то в этот элемент  эта иллюстрация прописывается единожды и в нем указывается URL изображения наибольшего размера.

Если в тегах enclosure указано несколько разных иллюстраций - берётся самая первая по порядку.

descriptionimage Краткая аннотация. От 5 до 10000 символов.
content:encoded Контент публикации - полный текст и медиаматериалы.

<item>
   <title>На марсе нашли воду</title>
   <link>http://example.com/2018/05/02/mars-water</link>
   <amplink>http://amp.example.com/2018/05/02/mars-waterr</amplink>
   <pubDate>Sun, 17 Aug 2018 16:10:00 +0300</pubDate>
   <enclosure url="http://example.com/2018/05/02/pic1.jpg" type="image/jpeg"/>
   <enclosure url="http://example.com/2018/05/02/pic2.jpg" type="image/jpeg"/>
   <enclosure url="http://example.com/2018/05/02/video/42420" type="video/x-ms-asf"/>
   <description>
       <![CDATA[
      Давайте ваши шутки про картошку: на красной планете обнаружили ледник. Теперь учёные убеждены в наличии воды на поверхности планеты..
       ]]>
   </description>
</item>

Пример правильно оформленной RSS

<?xml version="1.0" encoding="UTF-8"?>

<rss version="2.0"

xmlns:content="http://purl.org/rss/1.0/modules/content/">

<channel>

<title>Криптота</title>

<link>http://example.com/</link>

<description>

Всё о криптовалютах: покупка, продажа, биржи и новости.

</description>
<image>
     <url>http://example.com/logo_200x200.png</url>
</image>

<language>ru</language>

<item>

<title>На марсе нашли воду</title>

<link>http://example.com/2018/05/02/mars-water</link>

<amplink>http://amp.example.com/2018/05/02/mars-waterr</amplink>

<pubDate>Sun, 17 Aug 2018 16:10:00 +0300</pubDate>

<enclosure url="http://example.com/2018/05/02/pic1.jpg" type="image/jpeg"/>

<enclosure url="http://example.com/2018/05/02/pic2.jpg" type="image/jpeg"/>

<enclosure url="http://example.com/2018/05/02/video/42420" type="video/x-ms-asf"/>

<description>

<![CDATA[

Давайте ваши шутки про картошку: на красной планете обнаружили ледник. Теперь учёные убеждены в наличии воды на поверхности планеты..

]]>

</description>

</item>

</channel>

</rss>