О веб майнинге для новичков

О веб майнинге для новичков

В этот статье мы попытаемся простыми словами пояснить суть веб майнинга для новичков. Веб майнинг (web-mining) это применение средств интеллектуального анализа в процессах парсинга сайтов. Основными целями веб майнинга являются:

• автоматическое обнаружение необходимых веб-страниц;
• сбор соответствующей информации;
• выявление закономерностей;
• автоматическая классификация информации и веб-сайтов​

В процессе веб майнинга выделяются следующие общие этапы:

  1. Выгрузка технических данных (программного кода веб-страниц, журналов логирования веб-серверов, тексты электронных документов и прочее);
  2. Выделение и преобразование данных в форматы, необходимые для построения модели;
  3. Этап построения модели — моделирование;
  4. Анализ построенной модели.

Первые два этапа реализуются на практике с применением различных краулинг и парсинг систем и платформ. На самом деле здесь выбор достаточно велик. Можно разработать самому нужные программы или фреймворк на любом языке программирования. Можно использовать различные готовые платформы, например нашу Diggernaut, import.io или любую другую. К слову сказать в Diggernaut реализована команда mine, а что она делает, вы можете найти в документации на наш мета-язык для парсинга (SML).

Два последних этапа реализуются с помощью различных аналитических платформ или же использованием различных алгоритмов машинного обучения. Если вы хотите узнать больше о машинном обучении, можем порекомендовать вам прекрасный курс для начинающих на Coursera.

Более конкретные этапы и процедуры зависят от целей анализа информации. Выделяется следующая классификация веб майнинга:

• Web Content Mining – сбор информации и знаний из содержимого и описаний веб-ресурсов;
• Web Structure Mining – анализируется структура веб-ресурсов (может использоваться для классификации ресурсов);
• Web Usage Mining – в данной категории осуществляется аналитика использования пользователями веб-ресурсов, выявляются зависимости передвижения пользователей по ресурсам (анализ предпочтений пользователей)

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *