В этот статье мы попытаемся простыми словами пояснить суть веб майнинга для новичков. Веб майнинг (web-mining) это применение средств интеллектуального анализа в процессах парсинга сайтов. Основными целями веб майнинга являются:
- автоматическое обнаружение необходимых веб-страниц;
- сбор соответствующей информации;
- выявление закономерностей;
- автоматическая классификация информации и веб-сайтов
В процессе веб майнинга выделяются следующие общие этапы:
- Выгрузка технических данных (программного кода веб-страниц, журналов логирования веб-серверов, тексты электронных документов и прочее);
- Выделение и преобразование данных в форматы, необходимые для построения модели;
- Этап построения модели — моделирование;
- Анализ построенной модели.
Первые два этапа реализуются на практике с применением различных краулинг и парсинг систем и платформ. На самом деле здесь выбор достаточно велик. Можно разработать самому нужные программы или фреймворк на любом языке программирования. Можно использовать различные готовые платформы, например нашу Diggernaut, import.io или любую другую. К слову сказать в Diggernaut реализована команда mine, а что она делает, вы можете найти в документации на наш мета-язык для парсинга (SML).
Два последних этапа реализуются с помощью различных аналитических платформ или же использованием различных алгоритмов машинного обучения. Если вы хотите узнать больше о машинном обучении, можем порекомендовать вам прекрасный курс для начинающих на Coursera.
Более конкретные этапы и процедуры зависят от целей анализа информации. Выделяется следующая классификация веб майнинга:
- Web Content Mining – сбор информации и знаний из содержимого и описаний веб-ресурсов;
- Web Structure Mining – анализируется структура веб-ресурсов (может использоваться для классификации ресурсов);
- Web Usage Mining – в данной категории осуществляется аналитика использования пользователями веб-ресурсов, выявляются зависимости передвижения пользователей по ресурсам (анализ предпочтений пользователей)