Оптическое распознавание

Извлекаем текст из изображений

Для извлечения текста из изображений, используется метод, называемый оптическим распознаванием символов (OCR). Для обработки изображения в среде Diggernaut, диггеру необходимо сперва загрузить изображение, получить из него base64 запись в регистре и затем применить на него команду ocr.

Командой используются следующие параметры:

Параметр Описание
resize Опциональный параметр, который может содержать положительное целочисленное значение, показывывающее процент изменения в размере изображения от оригинального. Этот параметр используется для улучшения качества распознавания, если оригинальный размер распознается плохо.
do Набор команд, выполняемых в OCR контексте.

Команда использует значение регистра как закодированное в base64 изображение. После использования команды диггер переходит в OCR контекст, в котором вы можете использовать команду text для переноса распознанного текста в регистр.

Рассмотрим пример, когда на странице присутствует изображение в уже готовом base64 виде:

          <img src="">
          

В данном примере закодировано изображение:

Сценарий диггера в этом случае будет выглядеть следующим образом:

          # НАЙДЕМ ИЗОБРАЖЕНИЕ
- find:
    path: img
    do:
    # РАСПАРСИМ АТРИБУТ `src`
    - parse:
        attr: src
        filter: data\:image\/png\;base64\,(.+)

    # В РЕГИСТРЕ ТЕПЕРЬ МЫ ИМЕЕМ ИЗОБРАЖЕНИЕ ЗАКОДИРОВАННОЕ КАК base64
    # ПЕРЕХОДИМ В КОНТЕКСТ OCR
    - ocr:
        do:
        # ПЕРЕНОСИМ РАСПОЗНАННЫЙ ТЕКСТ В РЕГИСТР
        - text
        # В РЕГИСТРЕ ТЕПЕРЬ ЗНАЧЕНИЕ: Hello world
            

Теперь рассмотрим пример, когда изображение представлено в виде ссылки на графический файл:

          ---
config:
    debug: 2
    agent: Firefox
do:
# ПЕРЕЙДЕМ НЕПОСРЕДСТВЕННО НА САМО ИЗОБРАЖЕНИЕ
- walk:
    to: https://www.diggernaut.com/sandbox/captcha_3.jpg
    do:
    # ДИГГЕР САМ ПЕРЕВЕДЕТ ИЗОБРАЖЕНИЕ В XML ФОРМАТ
    # ГДЕ В ТЕГЕ `imgbase64` БУДЕТ НАХОДИТСЯ ЗАКОДИРОВАННОЕ В base64 ИЗОБРАЖЕНИЕ
    - find:
        path: imgbase64
        do:
        - parse
        - ocr:
            resize: 40
            do:
            - text
            - variable_set: imgtext
            # НА ВЫХОДЕ БУДЕТ ЗНАЧЕНИЕ: W68HP
          

Далее мы рассмотрим ряд вспомогательных команд, которые могут быть полезны в различных ситуациях.