Парсим сайты и учимся извлекать информацию из них на платформе Diggernaut. Используем различные подходы, в том числе приложение Excavator и мета-язык для парсинга SML.

Парсим сайты

Песочница и meta-language

Как создавать сценарий парсера для сайта с помощью специального приложения Excavator мы уже видели. Давайте теперь попробуем написать сценарий (config) самостоятельно, с помощью нашего...
Константин Сазанов
4 min read

Парсинг — это законно!

WEB-Парсинг – это процесс сбора информации с веб-сайтов в соответствии с заданными параметрами. При этом параметры могут быть любыми – это может быть текст,...
Dmitry Penkin
3 sec read

Добро пожаловать в парсинг-сервис Diggernaut

Diggernaut – парсинг-сервис, имеющий технически продвинутый функционал и ряд инновационных фич, которых нет у альтернативных сервисов. Что такое парсер? Парсер — это программа, которая...
Dmitry Penkin
3 sec read

Какой язык программирования наиболее эффективен для парсинга сайтов

Мы решили провести этот маленький тест, чтобы определить какой из популярных языков программирования наиболее эффективен по скорости, использованию CPU и RAM для парсинга сайтов....
Михаил Сисин
9 sec read

Выполнение JavaScript кода во время парсинга

Очень часто во время парсинга сайтов возникает проблема вычисления различных данных нужных, например, для запроса следующей страницы. Ситуаций, где потребуются дополнительные вычисления, может быть...
Евгений Соломанидин
33 sec read

Парсер с записью в СУБД

Сделать парсер с записью в СУБД? Это не так уж и сложно. Сегодня я покажу как это легко и просто реализуется с помощью нашего...
Евгений Соломанидин
1 min read

Парсинг дома? Не вопрос!

Вы хотите парсить какие-то данные с вебсайта, но совершенно не готовы размещать парсер в облаке и платить за каждый запуск, запросы и трафик? Тогда,...
Михаил Сисин
8 sec read

Что делать когда сервер возвращает JSON? Отпарсить его!

Diggernaut позволяет легко и просто, работать с форматом JSON конвертируя его в XML. И сейчас я вам это продемонстрирую. Для примера я нашел один...
Евгений Соломанидин
2 min read

Парсим iCal. Забрать данные с iCal? Нет ничего…

Сегодня мы будем писать скрипт для парсинга различных ресурсов, использующих для передачи данных о событиях файлы в формате iCal. Формат этот был придуман компанией...
Михаил Сисин
2 min read

Мне надо отпарсить сайт и собрать данные, нужно…

Нет, не нужно. Давайте рассмотрим это более подробно. Для того, чтобы отпарсить сайт и собрать данные необходимо как минимум знать основы HTML разметки и...
Евгений Соломанидин
7 sec read