Михаил Сисин Со-основатель облачного сервиса по сбору информации и парсингу сайтов Diggernaut. Работает в области сбора и анализа данных, а также разработки систем искусственного интеллекта и машинного обучения  более десяти лет.

Парсинг дома? Не вопрос!

Парсинг дома? Не вопрос!

Вы хотите парсить какие-то данные с вебсайта, но совершенно не готовы размещать парсер в облаке и платить за каждый запуск, запросы и трафик? Тогда, возможно, вам больше подошла бы опция где вы скачиваете программу, запускаете ее у себя на компьютере или сервере и получаете данные в нужном вам формате.

Это легко реализуется с помощью новой опции сервиса Diggernaut, теперь вы можете компилировать (создавать исполняемую программу) диггер для Windows, Linux и Mac. Это позволит вам запускать ваши диггеры не в нашем облаке, а на вашем компьютере или сервере, этим вы экономите на ваших ресурсах в Diggernaut поскольку вы их не расходуете.

Кроме того, скомпилированные диггеры занимают очень мало места(~20 мб) , а так же потребляют очень мало ресурсов(~10-30 мб оперативной памяти и 1-3% ресурсов процессора).

Сервис компиляции на фазе беты будет абсолютно бесплатным, после релиза возможность бесплатной компиляции останется у подписчиков, пользователи на бесплатном плане смогут пользоваться услугой оплачивая каждую компиляцию отдельно.

Как это работает? Все очень просто. Вы создаете диггер (или используете уже готовый), пишете для него конфигурацию. Как вы наверняка уже знаете, для этого есть три пути: использовать наше приложение Excavator, написать конфигурацию используя наш мета-язык или же заказать разработку конфигурации нашим или сторонним разработчикам. После того как вы создадите или получите конфигурацию диггера, сохраните ее в диггер. Запустите диггер в режиме отладки чтобы удостовериться что он работает исправно. Ресурсы в режиме отладки бесплатные, поэтому вам не нужно волноваться что они закончатся. Если диггер работает правильно и данные которые он собрал вас устраивают, вы можете произвести компиляцию.

Для этого перейдите в список ваших диггеров, найдите интересующий вас диггер и нажмите на кнопку Options в колонке Compile

Открываем интерфейс компиляции

Ниже списка диггеров откроется новая панель с названием <Имя диггера> Compiler. Оно разделено на 2 части. В правой части вы увидите список скомпилированных вами диггеров, там вы можете скачать любой из них. Примите во внимание, что скомпилированные диггеры хранятся 7 дней, после чего удаляются.

В левой части панели вы увидите интерфейс для установок компиляции

Установки компиляции

Сначала вы должны выбрать то, как диггер будет выводить данные. Вы можете выводить их в файл или в консоль. Для вывода данных в файл, выберите опцию File в поле Output Type, для вывода в консоль — StdOut
Если вы выбираете вывод данных в файл, вы должны будете указать имя файла в поле Output File Name.

В поле Format необходимо выбрать нужный вам формат, в настоящий момент доступны 4 типа: Excel, CSV, JSON и XML. Excel и CSV не поддерживают вложенных структур данных, поэтому перед тем как использовать их, удостоверьтесь что ваши данные плоские (корневые объекты не имеют вложенных объектов, только поля). Если вам нужен какой-то другой формат, напишите нам и мы обязательно добавим его, если у нас будет возможность.

Ну и в последнем поле Platform вы должны выбрать платформу, под которую будет скомпилирован диггер. На текущий момент мы поддерживаем Windows, MacOS и Linux на архитектуре x86(32бита) и x64(64 бита). Если вам нужна другая платформа, напишите нам какая и мы обязательно добавим ее, если компилятор поддерживает эту платформу.

После того как вы сконфигурируете компилятор, нажмите кнопку Compile и через несколько секунд вы увидите скомпилированный диггер в таблице с правой стороны.

Скачиваем скомпилированный парсер

И нажав на ссылку Download вы сможете скачать его и запустить у себя. Ссылка будет действовать в течении 7 дней, после чего скомпилированный диггер будет удален.

Что если через какое-то время ваш скомпилированный диггер перестанет работать? Вы всегда можете вернуться в ваш аккаунт, запустить диггер в режиме отладки, посмотреть что не так, пофиксить и скомпилировать исправленную версию программы. Или попросить наших или сторонних разработчиков сделать это за вас.

Удачного парсинга!

Михаил Сисин Со-основатель облачного сервиса по сбору информации и парсингу сайтов Diggernaut. Работает в области сбора и анализа данных, а также разработки систем искусственного интеллекта и машинного обучения  более десяти лет.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Этот сайт защищен reCAPTCHA и применяются Политика конфиденциальности и Условия обслуживания применять.

Срок проверки reCAPTCHA истек. Перезагрузите страницу.