Михаил Сисин Со-основатель облачного сервиса по сбору информации и парсингу сайтов Diggernaut. Работает в области сбора и анализа данных, а также разработки систем искусственного интеллекта и машинного обучения  более десяти лет.

Майские обновления в Diggernaut: мы вышли из беты

Новости разработки платформы Diggernaut

Мы рады наконец-то объявить, что с мая 2019 мы официально вышли из беты. Для нас и, мы надеемся, что для вас тоже это большое событие, к которому мы шли два с половиной года. В честь этой знаменательной даты мы приготовили для вас ряд больших и не очень апдейтов, которые вас несомненно порадуют.

Автоматизированный сервис экспорта данных Diggernaut.io

Если вы используете платную подписку Diggernaut, вы можете воспользоваться сервисом автоматического экспорта собранных данных. Диггер по окончании работы проверяет, есть ли у вас настроенные профили экспорта, и если находит их — посылает команду на обработку датасета сервису Diggernaut.io. С одним диггером можно связать несколько профилей экспорта. Таким образом один и тот же датасет может быть экспортирован сразу в несколько точек назначения.

В настоящий момент можно экспортировать данные в публичные фиды, которые будут доступны по статическому URL в выбранном формате (CSV, JSON, NDJSON, XML, HTML, TEXT). Подобные фиды можно использовать в различных виджетах на вашем сайте. В отличии от получения данных по API, фиды не требуют авторизации, поэтому работать с ними можно напрямую с веб страницы, используя JavaScript.

Также доступен экспорт данных в Google Spreadsheet. Данные могут быть посланы либо в главную таблицу документа, либо при каждом экспорте будет создаваться новая таблица.

Если у вас есть свое API или вы пользуетесь каким-то другим сервисом в котором есть API, вы можете настроить экспорт на кастомный webhook. В этом случае, сервис пошлет новый датасет на webhook, используя стандартный HTTP запрос и настройки, указанные вами при создании сценария экспорта.

И, наконец, вы можете отправлять прямую ссылку на скачивание датасета на любой email адрес, зарегистрированный в вашем аккаунте Diggernaut. Ссылки для скачивания не требуют авторизации, и доступны для всех у кого есть ссылка. Основное отличие от публичных фидов в том, что фид хранит данные только последней сессии, но без ограничений по времени (пока у вашего аккаунта включена платная подписка). Ссылка же на скачивание работает в течении времени пока доступна сессия (от 7 до 30 дней в зависимости от плана подписки). Она генерируется уникальной для каждой новой сессии, а потому любая сессия доступна для скачивания в пределах сроков храния ваших данных на стороне Diggernaut.

В закрытой бете сейчас находятся модули экспортирования данных в Shopify и PrestaShop, и в скором времени они будут доступны всем нашим подписчикам. Вы сможете напрямую загружать товары в ваш интернет-магазин, а также синхронизировать наличие и цены.

Более подробно о сервисе можно прочитать в нашей документации: Сервис Diggernaut.io.

Веб интерфейс

Несколько полезных изменений было внесено в веб интерфейс. Одно из них — возможность указывать список стартовых URL без необходимости редактирования конфигурации диггера. Если вы плохо разбираетесь в формате YAML, то это поможет вам менять ссылки, забираемые вашим диггером, без шанса что-либо сломать в процессе редактирования конфигурации диггера. Если вы хотите узнать больше об этой функции, обратитесь к нашей документации: Список URLов.

Второй полезной функцией стала возможно управлять кэшем URL и записей диггера. Если вы используете диггер в режиме уникальности или обновления, то иногда бывает необходимо сбросить кэш и начать сбор данных сначала. Теперь вы можете сделать это самостоятельно из вашего аккаунта. А как именно, вы сможете прочитать на странице: Очистка кэша.

Также мы добавили возможность подсветки HTML в содержимом блоков и страниц в логе. Теперь лог в режиме отладки стал более читабелен. Эта функция может быть отключена, если вы в ней не нуждаетесь.

Диггеры

Фреймворк диггеров также получил ряд улучшений и новых функции. Например, в датасете теперь можно использовать тип Boolean, оно может принимать значения true/false. Для ряда случаев это может быть весьма полезно, особенно если вы работаете с API или вебхуками и программное обеспечение на вашей стороне требует наличия полей типа Boolean.

Функции записи изображений и файлов получили позможность работать с FTP. Теперь вы можете делать трансфер бинарных данных напрямую на ваш сервер, если у вас установлен на нем FTP сервер. Более подробно об этой опции можно прочитать на страницах Изображения и Файлы.

Если вы используете в своих диггерах Selenium, то мы рады сообщить вам что мы изменили схему тарификации запросов. Вместо десятикратной стоимости запросов, сейчас система будет уменьшать количество ваших кредитов в зависимости от того, сколько запросов сделал браузер для забора определенной страницы. Причем тарифицируются только ресурсы, на которые был получен код ответа 200. Также мы значительно переработали функционал. Теперь вы можете заполнять и отправлять формы, кликать на элементы страницы, ссылки, а также переключать механизм с Selenium на Surf и обратно в любой момент специальной командой. Это позволит вам работать более эффективно с разными источниками в пределах одного диггера. Хотите узнать больше? Читайте на странице Включаем Selenium.

Михаил Сисин Со-основатель облачного сервиса по сбору информации и парсингу сайтов Diggernaut. Работает в области сбора и анализа данных, а также разработки систем искусственного интеллекта и машинного обучения  более десяти лет.

2 Replies to “Майские обновления в Diggernaut: мы вышли из беты”

  1. Ага.. Попробовал — пишет «Error: OCR functionality is available only with paid subscription» и номера телефонов при парсинге с авито не грабит. Нафига такое нужно?

    1. OCR функционал доступен только в платных аккаунтах. На беспплатном плане всегда есть возможность использовать вариант без OCR, а также всегда есть возможность скомпилировать диггер и запускать его локально абсолютно бесплатно.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Этот сайт защищен reCAPTCHA и применяются Политика конфиденциальности и Условия обслуживания применять.

Срок проверки reCAPTCHA истек. Перезагрузите страницу.