Изучаем мета-язык для парсинга сайтов и сбора данных на примере реальных кейсов. От базовых до самых сложных и запутанных.

Учим мета-язык

Как загрузить данные из Google Spreadsheets в ваш…

Зачастую наши пользователи парсят сайты не целиком, а забирают только определенные страницы, или делают поиск на сайте доноре по определенному набору критериев. Запуск за...
Михаил Сисин
1 min read

Решаем Google ReCaptcha v3: сервис RuCaptcha интегрирован в…

В рядах поддерживаемых нами сервисов для решения капчи пополнение. Встречайте сервис RuCaptcha. Функционал сервиса схож с AntiCaptcha, позволяет решать все основные типы капч, а...
Михаил Сисин
1 min read

Как собирать данные о компаниях в инстаграм без…

Если для вашей работы вам было нужно собирать данные с корпоративных профилей Инстаграм, вы наверняка использовали для этого мобильное приложение, поскольку в веб версии...
Джеймс Фаррелл
4 min read

Собираем данные с XLS, XLSX и CSV файлов

Сегодня в платформу Diggernaut была добавлена поддержка файлов в формате XLS, XLSX и CSV. Схема поддержки реализована в том же формате как и у...
Михаил Сисин
6 min read

Как обойти капчу на платформе для парсинга сайтов…

Гугл рекапча (reCaptcha v2) перестала быть проблемой для наших пользователей. Мы внедрили интеграцию с популярным сервисов по обходу капчи Death By Captcha и теперь...
Михаил Сисин
2 min read

Как парсить страницы сайтов с автоподгрузкой на примере…

Статья обновлена 31 октября 2018 в связи с изменениями структуры JS необходимой для извлечения query_hash в парсере по тэгам. Механика автоподгрузки на страницах сайтов...
Михаил Сисин
15 min read

Учимся писать парсеры на примере парсера новостных сайтов

Парсеры новостных сайтов достаточно востребованы, например, если у вас новостой агрегатор, или, к примеру, вам нужно собирать местные новости из различных ресурсов для показа...
Михаил Сисин
1 min read

Песочница и meta-language

Как создавать сценарий парсера для сайта с помощью специального приложения Excavator мы уже видели. Давайте теперь попробуем написать сценарий (config) самостоятельно, с помощью нашего...
Константин Сазанов
4 min read

Выполнение JavaScript кода во время парсинга

Очень часто во время парсинга сайтов возникает проблема вычисления различных данных нужных, например, для запроса следующей страницы. Ситуаций, где потребуются дополнительные вычисления, может быть...
Евгений Соломанидин
33 sec read

Парсер с записью в СУБД

Сделать парсер с записью в СУБД? Это не так уж и сложно. Сегодня я покажу как это легко и просто реализуется с помощью нашего...
Евгений Соломанидин
1 min read