Михаил Сисин Со-основатель облачного сервиса по сбору информации и парсингу сайтов Diggernaut. Работает в области сбора и анализа данных, а также разработки систем искусственного интеллекта и машинного обучения  более десяти лет.

О веб майнинге для новичков

О веб майнинге для новичков

В этот статье мы попытаемся простыми словами пояснить суть веб майнинга для новичков. Веб майнинг (web-mining) это применение средств интеллектуального анализа в процессах парсинга сайтов. Основными целями веб майнинга являются:

  • автоматическое обнаружение необходимых веб-страниц;
  • сбор соответствующей информации;
  • выявление закономерностей;
  • автоматическая классификация информации и веб-сайтов​

В процессе веб майнинга выделяются следующие общие этапы:

  1. Выгрузка технических данных (программного кода веб-страниц, журналов логирования веб-серверов, тексты электронных документов и прочее);
  2. Выделение и преобразование данных в форматы, необходимые для построения модели;
  3. Этап построения модели — моделирование;
  4. Анализ построенной модели.

Первые два этапа реализуются на практике с применением различных краулинг и парсинг систем и платформ. На самом деле здесь выбор достаточно велик. Можно разработать самому нужные программы или фреймворк на любом языке программирования. Можно использовать различные готовые платформы, например нашу Diggernaut, import.io или любую другую. К слову сказать в Diggernaut реализована команда mine, а что она делает, вы можете найти в документации на наш мета-язык для парсинга (SML).

Два последних этапа реализуются с помощью различных аналитических платформ или же использованием различных алгоритмов машинного обучения. Если вы хотите узнать больше о машинном обучении, можем порекомендовать вам прекрасный курс для начинающих на Coursera.

Более конкретные этапы и процедуры зависят от целей анализа информации. Выделяется следующая классификация веб майнинга:

  • Web Content Mining – сбор информации и знаний из содержимого и описаний веб-ресурсов;
  • Web Structure Mining – анализируется структура веб-ресурсов (может использоваться для классификации ресурсов);
  • Web Usage Mining – в данной категории осуществляется аналитика использования пользователями веб-ресурсов, выявляются зависимости передвижения пользователей по ресурсам (анализ предпочтений пользователей)
Михаил Сисин Со-основатель облачного сервиса по сбору информации и парсингу сайтов Diggernaut. Работает в области сбора и анализа данных, а также разработки систем искусственного интеллекта и машинного обучения  более десяти лет.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Этот сайт защищен reCAPTCHA и применяются Политика конфиденциальности и Условия обслуживания применять.

Срок проверки reCAPTCHA истек. Перезагрузите страницу.