В наш век информационных технологий... Что-то не получается у меня пафосное начало. Ладно, скажу проще. Информация — не виртуальный товар, как думают многие пользователи Сети, рождённые ещё во времена СССР. Информация — реальный товар. А это значит, что стать информационным олигархом может только тот, кто умеет лучше и быстрее других собирать, фильтровать и выдавать информацию. На практике это значит — иметь соответствующий инструмент для обработки информации.

Именно таким инструментом является универсальный парсер Datacol. Парсер — приложение, осуществляющее парсинг (т.е. синтаксический разбор) страниц сайтов. Как правило, под парсингом подразумевается выбор определённых элементов с определённых страниц сайта (например, для страниц магазина: наименование товара, описание, цена, картинка) и упаковка в формат, удобный для импорта на сайт. Меньше слов, больше дела:

Учитывая, что Datacol — универсальный парсер, задач для его применение можно придумать бесчисленное множество. Некоторые задачи описаны на сайте, и там же приведены решения конкретных задач при помощи Datacol (например, парсер Яндекс Маркет). Смотрите это элегантное решение на видео.

За свою практику работы в Сети я неоднократно сталкивался с задачей парсинга. Иногда для тренировки я пишу себе какой-нибудь парсер, чтобы упростить выполнение некоторой рутинной задачи, да и тонус программерского мышления поддержать. Но вот что говорит мой практичный ум: если серьёзно заниматься парсингом сайтов, то выгодней приобрести Datacol, чем тратить время или деньги на написание парсера для каждого конкретного случая.

И вот ещё что заметил из функционала Datacol, что я своими силами сейчас реализовать не в состоянии: парсинг результатов выполнения JavaScript. Теперь вспоминаем, что JS поисковые системы не индексируют, вспоминаем места, где видели вывод информации на сайтах посредством JS, включаем мозг и бежим в магазин за парсером. 😉

Запись опубликована 12 июля 2011 года. Рекомендую ознакомиться и с другими постами рубрики «Контент»:

Подписка на RSS канал блога RSS подписка (как это?) поможет вам не пропустить ничего интересного на этом блоге.