Михаил Сисин Со-основатель облачного сервиса по сбору информации и парсингу сайтов Diggernaut. Работает в области сбора и анализа данных, а также разработки систем искусственного интеллекта и машинного обучения  более десяти лет.

Новое в Diggernaut: расширен функционал работы с Selenium, новые статические переменные и управление прокси

Новости разработки платформы Diggernaut

Для платных подписчиков появилась возможность устанавливать тип прокси для использования в диггерах.

Доступен выбор между пулами прокси, расположенными в датацентрах, резидентными, IPv6 и Tor. Пулом по умолчанию всегда является датацентровый, этот пул содержит преимущественно американские прокси. Как правило, все прокси в этом пуле быстрые и надежные. Резидентные прокси работают значительно медленнее и не так надежны, но позволяют собирать информацию с сайтов, на которые доступ через датацентровые прокси запрещен. IPv6 может быть использован для сайтов, поддерживающих данный протокол (например. Instagram, Google, Yandex). Tor — самый медленный вариант, а также на ряд сайтов войти через Tor, и соответственно, собрать информацию не получится. С другой стороны, Tor дает доступ к даркнету, а значит у вас теперь есть возможность парсить даркнет. Пользователи с бесплатным аккаунтом имеют доступ только до Tor пула. Однако, всегда можно использовать свои прокси, и теперь не только HTTP. Мы добавили поддержку SOCKS4 и SOCKS5 прокси. Так что даже с бесплатными аккаунтами, теперь есть больше возможностей для работы с прокси. Более подробно с возможностями новых настроек прокси можно ознакомиться в нашей документации.

Для обеспечения более гибкой работы при создании конфигураций диггеров, мы добавили несколько новых статических переменных.

Для обхода возникающих ошибок возвращаемых сервером сайта донора можно использовать переменную responseCode. В этой переменной после каждого запроса будет храниться трехзначный цифровой код ответа сервера. Например, 200 — если все ОК, или 500 — если на сервере возникла ошибка, 503 — если доступ до сайта запрещен и так далее (подробнее об ошибках можно прочитать здесь). Используя функционал if/else можно строить в конфигурации логические конструкции для обхода возникающих ошибок, если сайт активно противодействует парсингу или просто работает нестабильно.

Переменная filename может быть вам полезна, если вы переносите бинарные файлы и изображения с помощью диггера. Этой переменной будет автоматически присваиваться значение имени последнего записанного файла и вы сможете сохранить его в объекте датасета, чтобы привязать конкретную запись с файлом.

Если вы используете режим update при сохранении объектов, вам может пригодиться переменная object_saved. Она позволяет узнать был ли объект записан или нет (если уже когда то записанный объект не изменился), и в зависимости от исхода сделать те или иные действия. Переменная может принимать значение «yes» или «no».

Ознакомиться более детально с информацией о статических переменных можно здесь.

Мы расширили возможности работы с Selenium на нашей платформе Diggernaut.

С помощью команды scrollto можно прокручивать страницу до нужного элемента. Таким образом, элемент будет виден в окне браузера и с ним можно будет совершать различные действия. Например, можно прокрутить страницу до нужной кнопки, чтобы кликнуть на нее. Команда execute позволит запускать на web странице свой скрипт для манипуляции элементами. Например, можно найти определенный элемент на странице и скрыть его, или, наоборот, показать. Это может быть полезно, например, если на странице имеется некий липкий хедер, который перекрывает часть страницы, и при прокручивании страницы к нужной кнопке мы не можем на нее кликнуть, потому что она оказывается под этим хедером. Иногда на страницах бывают встроенные фреймы, для доступа к их содержимому теперь можно использовать команду fetch_content. При этом в регистр будет записан HTML контент фрейма, после чего из негу можно создать блок и работать с ним. Можно обратиться к нашей документации, чтобы прочитать больше о работе с Selenium.

Михаил Сисин Со-основатель облачного сервиса по сбору информации и парсингу сайтов Diggernaut. Работает в области сбора и анализа данных, а также разработки систем искусственного интеллекта и машинного обучения  более десяти лет.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Этот сайт защищен reCAPTCHA и применяются Политика конфиденциальности и Условия обслуживания Google.