Что парсить проще, чем rss-каналы? (Открытый вопрос.) Ведь сама их суть изначально предполагает единый стандарт записей: тэг <item>, который содержит заголовок новости в тэге <title> и её описание в тэге <description> и т.д. Это гораздо проще, чем парсить сайты напрямую, когда от админа, добавившего пост, зависит правильность синтаксического разбора текста.

В общем, как только задался целью написать rss-парсер, так через 2 дня был готов инструмент, поставляющий новости с выбранных ресурсов на поддерживаемый сайт. А ведь больше года втыкал в эти занудные всплывающие окошки «обнаружена rss-лента», и не знал, как это применить.

Конечно, сейчас Яндекс гораздо подозрительней относится к не уникальному контенту, тем не менее добавлю спарсенные новости на несколько сайтов. Хуже не будет, но может будет и прогресс.

Добавлено 27 ноября 2014

В большинстве случаев, спарсенный контент хорошо вгоняется в выдачу Яндекса. Особенно если:

  • соблюдается тематичность добавляемого контента (сайт не обо всём подряд, а по конкретной теме);
  • текст на сайт публикуется не одним блоком в один абзац, который читать невозможно и бесполезно;
  • контент собирается с разных сайтов, связанных общей тематикой;
  • на сайте есть и уникальные статьи.

Только надо постараться, чтобы доказать Яндексу «добавочную стоимость» вашего сайта, контент которого нагло спёрт. Иначе трафик будет совсем маленький, а при попытке массовой торговли ссылками велика вероятность получить АГС.

При поддержке: berelcom [1]

Запись опубликована 2 февраля 2009 года. Кто-то говорил, что я мало пишу в рубрику «Контент», так читайте же:

Подписка на RSS канал блога RSS подписка (как это?) поможет вам не пропустить ничего интересного на этом блоге.