Михаил Сисин Со-основатель облачного сервиса по сбору информации и парсингу сайтов Diggernaut. Работает в области сбора и анализа данных, а также разработки систем искусственного интеллекта и машинного обучения  более десяти лет.

Парсинг в независимой журналистике

Парсинг в независимой журналистике

В современном информационном пространстве процесс сбора, обработки и анализа данных может занимать значительное время. С каждым годом информации становится больше, а значит и времени на ее сбор требуется все больше и больше. И если раньше журналисту приходилось вручную искать и собрать информацию из различных источников, затем ее обрабатывать, приводить к упорядоченному виду, анализировать и использовать в своей работе, то сейчас у него есть возможность автоматизировать этот процесс, сэкономив время для более важных дел. Процесс автоматизированного сбора данных из сети интернет называется по-русски называется парсингом, а в мире — веб скрапинг (web scraping).

До последнего времени, для того, чтобы создавать парсеры для вебсайтов требовались определенные знания, в частности языков программирования, таких как, например, Python или Ruby, поскольку приходилось писать программы для того, чтобы забирать данные и обрабатывать их без участия человека. Кроме языка программирования, журналисту также приходилось изучать язык разметки HTML и CSS стили, поскольку без этих знаний построить парсер было просто невозможно. Эти причины очень сильно ограничивали применение данного метода для независимой журналистики, поскольку, если крупные медиа-компании могли позволить себе нанимать штат программистов для решения подобных задач, то независимые журналисты в основной своей массе либо старались получить необходимые знания, либо отказывались от идеи автоматизации процесса сбора информации.

Однако теперь, эта технология стала гораздо ближе для независимой журналистики благодаря разработкам инновационных компаний, работающих в этой области. Одной из таких компаний является Diggernaut. Основными отличиями нашего сервиса от подобных систем являются поддержка сложных вложенных структур данных и возможность работы с сервисом без каких-либо специальных знаний. Это значительно повышает привлекательность этого метода для независимых журналистов. Мы смогли добиться этого благодаря специальному приложению под Google Chrome, с помощью которого пользователь может быстро и легко создавать скрипты, описывающие логику работы парсеров. Приложение легко в освоении благодаря серии видео уроков. Еще одним плюсом сервиса является то, что за ресурсы в режиме отладки не нужно платить. Это позволит изучить сервис и освоиться в системе, не тратя при этом ни копейки. Сервис работает по схеме freemium, то есть можно работать бесплатно, но для получения дополнительных ресурсов необходимо переходить на платный тарифный план. Справедливости ради стоит также упомянуть сервисы ScrapingHub и import.io.

В заключение можно сказать, что с ростом мощности компьютеров появилась возможность использовать машинное обучение и базирующиеся на этом алгоритмы для решения данной задачи, поэтому, вполне вероятно в недалеком будущем инновационные компании представят свои решения для которых участие человека будет сведено к минимуму. Только представьте себе систему, в которой не нужно будет описывать логику работы парсера и она автоматически будет определять и извлекать данные с любого указанного веб ресурса. Уже сейчас это возможно для определенных отраслей и это вселяет в нас уверенность, что технологии в итоге позволят нам полностью автоматизировать процессы работы с данными и оптимизировать наши временные затраты.

Михаил Сисин Со-основатель облачного сервиса по сбору информации и парсингу сайтов Diggernaut. Работает в области сбора и анализа данных, а также разработки систем искусственного интеллекта и машинного обучения  более десяти лет.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Этот сайт защищен reCAPTCHA и применяются Политика конфиденциальности и Условия обслуживания применять.

Срок проверки reCAPTCHA истек. Перезагрузите страницу.