Проект: Поставщики

Компиляция

Хотите запускать парсеры у себя на компьютере без привязки к сервису Diggernaut?
Тогда этот режим для вас! :)

С помощью уникальной возможности предоставляемой нашим сервисом, вы можете скомпилировать ваш диггер в независимый, исполняемый файл под нужную вам платформу. Эта возможность позволяет, в ряде случаев, существенно экономить ресурсы, но накладывает определенные ограничения: если вам потребуется запускать подобный диггер по расписанию, то контроль за этим процессом вам придется взять на себя; скомпилированный диггер не может использовать шаблоны выгрузки и проверки данных; с ним невозможно организовать работу через API; он не поддерживает режим забора только измененных данных; в определенных условиях нет возможности предпросмотра собранных данных и соответственно определить есть ли проблемы.

Для перехода в режим компиляции нажмите на кнопку Опции

и давайте детально рассмотрим все доступные возможности.

  1. Тип вывода данных
  2. Платформа исполнения
  3. Имя файла данных (при типе вывода Файл)
  4. Формат вывода данных (при типе вывода Файл)
  5. Имя скомпилированного диггера/архива (опционально)
  6. Дополнительное описание (опционально)
  7. Скомпилировать
  8. Закрыть окно компиляции
  9. Сценарий диггера
  10. Таблица скомпилированных диггеров

Запись в файл

Тип вывода данных - определяет куда будут выводиться собранные диггером данные. В настоящий момент мы поддерживаем три варианта вывода данных:
Файл - данные будут направлены в файл.
База данных (SQL) - данные будут направлены в базу данных SQL.
Стандартный вывод (stdout) - данные будут направлены в стандартный вывод операционной системы.

Платформа исполнения - определяет платформу под которую будет скомпилирован исполняемый файл диггера. Diggernaut поддерживает операционные системы Windows, MacOS и Linux как 32 разрядные, так и 64 разрядные.

Имя файла данных - это имя файла, куда будут записываться данные, собранные диггером в процессе работы. Имя файла должно быть указано без пробелов, без использования специальных символов и без расширения (расширение будет задано файлу автоматически, в зависимости от выбранного формата). Это поле доступно только при выбранном типе вывода данных - Файл.

Формат вывода данных - даст возможность выбрать из Excel (только flat), CSV (только flat), JSON и XML. Это поле доступно только при выбранном типе вывода данных - Файл. Различие форматов было описано в разделе - Данные. При выборе формата CSV (только flat) станет доступна еще одна опция - Разделитель, где вы сможете выбрать символ разделения данных.

Имя скомпилированного диггера/архива - это имя файла, без расширения, которое будет присвоено скомпилированному диггеру, а так же архиву, куда будет помещен исполняемый файл диггера вместе с дополнительными файлами. Если поле не заполнено, система присвоит имя самостоятельно.

Дополнительное описание - значение этого поля будет включено в дополнительный файл описания опций компиляции имя_диггера_options.txt, который будет включен в архив вместе с исполняемым файлом. В этом поле бывает полезно сохранить какую то информацию по поводу того, что и откуда собирает данный парсер. Что в последствии позволит быстро понять что в этом архиве находится :)

Кнопка скомпилировать - запустит процесс компиляции и сборки архива. Повторная компиляция будет доступна через одну минуту.

По завершению процесса сборки, в таблице скомпилированных диггеров, вы увидите доступный для скачивания архив, который будет содержать в себе следующие файлы:
supplier_n1_1282_windows64.exe - исполняемый файл диггера с расширением .exe под платформу windows x64;
supplier_n1_1282_options.txt - файл описания опций, с которыми был скомпилирован диггер включая поле дополнительного описания;
supplier_n1_1282_config.yaml - файл сценария на мета-языке в формате YAML;
howto-compile-en.txt - краткое руководство на английском языке описывающее процесс компиляции и возможные опции;
howto-compile-ru.txt - краткое руководство на русском языке описывающее процесс компиляции и возможные опции;

Для запуска парсера на вашем компьютере необходимо распаковать архив и запустить исполняемый файл. В процессе работы парсера, кроме файла с данными, будет создан лог-файл, в который парсер будет писать ход выполнения сценария. Вы можете использовать этот файл для контроля выполнения, а так же, если возникнут какие-либо вопросы, приложить этот файл при общении со специалистом нашего сервиса. Парсер также будет выводить ход выполнения сценария на экран, во всех случаях, кроме случая, когда тип вывода данных выбран stdout. В этом случае на экран будут выводиться сами данные, а ход выполнения сценария будет доступен только в лог-файле.

Обратите внимание!
В любой момент вы можете прервать исполнение диггера нажав на Ctrl+C или Command (⌘)-Q. В этом случае, если диггер уже собрал какие-то данные, они будут записаны в файл данных выбранного вами формата. Это справедливо для всех форматов кроме Excel (только flat). Диггер записывает данные в файл формата Excel(xlsx) в самом конце своей работы, поэтому прерывание работы диггера не позволит записать данные в файл.

Запись в базу данных

Если изменить тип вывода данных на База данных (SQL), то часть опций будет изменена на настройки доступа к базе данных.

  1. Тип база данных, доступно на выбор MySQL, PostgreSQL, MicrosoftSQL
  2. Хост сервера с базой данных
  3. Имя пользователя
  4. Пароль (опционально)
  5. Порт
  6. Имя базы данных

Обратите внимание!
Использование символа ` недопустимо в полях.

Запись в стандартный вывод (stdout)

При выборе Стандартный вывод (stdout) - вывод будет производиться в консоль, где был запущен исполняемый файл диггера. При этом ход исполнения сценария можно будет посмотреть только в лог-файле. Формат выводимых данных можно выбрать в дополнительном поле.

Доступны форматы: CSV (только flat), JSON и XML.