Рекомендации
Публикации, которые попадают в RSS, должны быть в свободном доступе. Те материалы, для просмотра которых требуется регистрация или плата, в рекомендательную систему не попадают.
-
Материал для рекомендательной системы должен содержать хотя бы одно изображение, которое размещается с помощью элемента enclosure. Ширина изображения должна быть не менее 400 пикселей.
-
Убедитесь, что в robots.txt нет директивы Disallow, которая запрещает адрес RSS, в противном случае публикацию не увидит наш робот "Mozilla/5.0 (compatible; Linux x86_64; Mail.RU_Bot/2.0; +http://go.mail.ru/help/robots)". Разрешить можно директивой Allow RSS_URL. Пример: если в robots.txt прописана директива Disallow /feed, то робот не сможет проиндексировать страницу example.ru/feed/some_url/rss.xml Чтобы разрешить индексацию, добавьте директиву Allow /feed/some_url/rss.xml.
- Убедитесь, что RSS открыта для доступа с IP адресов 95.163.255.0-95.163.255.255
- Убедитесь, что ваш провайдер не блокирует нашего робота. Для этого можно выполнить следующую команду в консоли linux или подобной, где вместо YOU_URL надо вставить один из урлов материлов, отдаваемых вами в RSS. Если вернулся код 200 - то значит провайдер не банит нашего фетчера, при ином коде надо обратиться к хостинг провайдеру с просьбой разблокировать ваши документы для нашего робота.
$ curl -I --user-agent "Mozilla/5.0 (compatible; Linux x86_64; Mail.RU_Bot/2.0; +http://go.mail.ru/help/robots)" "YOU_URL"
Больше про поисковых роботов -
Для более корректной работы старайтесь держать в RSS только свежие публикации (за последние 2-5 дней). Из-за нагрузки, которую создают устаревшие публикации, усложняется работа RSS.
Совет: Чтобы удостовериться, что RSS размечена правильно - проверьте ее нашим валидатором.
Если кроме нижеперечисленных тэгов в Вашей RSS есть другие тэги (например, content:encoded, etc.), то это никак не помешает нашим парсерам вытащить контент из такой RSS. Ниже мы указали минимальные требования к RSS, которые могут попасть в нашу рекомендательную систему.
Описание источника
Элементы со строго ограниченным набором значений могут содержать только варианты, которые указаны в таблице. Любое другое значение приведет к ошибке.
Обязательные элементы отмечены значком .
Элемент | Описание |
rss | Используемый формат данных. Экспорт осуществляется в XML-based формате RSS 2.0. Поддерживаются RSS. |
channel | Набор элементов, содержащих информацию о сайте-источнике публикаций. |
title | Название сайта. |
link | URL сайта. |
description | Описание сайта. |
image | Логотип сайта-источника. Содержит элемент <url> с указанием адреса изображения. Размер картинки должен быть не менее 200 пикселей по ширине и высоте. Изображение будет кадрировано до квадратного. Не допускается анимация и прозрачный фон. |
language | Язык документов в RSS согласно стандарту ISO 639-1 |
item | Элементы, которые описывают отдельную публикацию. В RSS может присутствовать несколько таких элементов, оптимально — публикации за 2-5 последних дня. Если таких элементов больше - это может усложнить работу RSS. |
<?xml version="1.0" encoding="UTF-8"?> |
Описание публикации
Элементы, с помощью которых описывается публикация, находятся внутри item.
Элементы со строго ограниченным набором значений могут содержать только варианты, которые указаны в таблице. Любое другое значение приведет к ошибке.
Обязательные элементы отмечены значком .
Элемент | Описание |
title | Заголовок публикации. От 3 до 1000 символов. |
link |
URL публикации, данные которой транслируются в RSS. Ссылка в RSS должна полностью повторять ссылку на сайте и не содержать лишних элементов. Например, utm метки не являются необходимыми. |
amplink | Ссылка на AMP-версию материала. |
pubDate |
Дата и время публикации в формате RFC822, ( «Sun, 08 Jan 2017 13:00:00 +03000»). |
enclosure |
Описание изображений, аудио- и видеофайлов. Может быть единственным упоминанием медиаконтента. Если в материале есть много вариантов одной иллюстрации, которые отличаются друг от друга только размером, то в этот элемент эта иллюстрация прописывается единожды и в нем указывается URL изображения наибольшего размера. Если в тегах enclosure указано несколько разных иллюстраций - берётся самая первая по порядку. |
description | Краткая аннотация. От 5 до 10000 символов. |
content:encoded | Контент публикации - полный текст и медиаматериалы. |
<item> |
Пример правильно оформленной RSS
<?xml version="1.0" encoding="UTF-8"?> <rss version="2.0" xmlns:content="http://purl.org/rss/1.0/modules/content/"> <channel> <title>Криптота</title> <link>http://example.com/</link> <description> Всё о криптовалютах: покупка, продажа, биржи и новости. </description> <language>ru</language> <item> <title>На марсе нашли воду</title> <link>http://example.com/2018/05/02/mars-water</link> <amplink>http://amp.example.com/2018/05/02/mars-waterr</amplink> <pubDate>Sun, 17 Aug 2018 16:10:00 +0300</pubDate> <enclosure url="http://example.com/2018/05/02/pic1.jpg" type="image/jpeg"/> <enclosure url="http://example.com/2018/05/02/pic2.jpg" type="image/jpeg"/> <enclosure url="http://example.com/2018/05/02/video/42420" type="video/x-ms-asf"/> <description> <![CDATA[ Давайте ваши шутки про картошку: на красной планете обнаружили ледник. Теперь учёные убеждены в наличии воды на поверхности планеты.. ]]> </description> </item> </channel> </rss> |