Настройки

OCR модуль

OCR модуль модуль, которым будет производиться распознавание текста.

В платформе Sherpa интегрированы несколько OCR-модулей. Два из них поставляются вместе с роботом – это Tesseract OCR и Microsoft OCR (могут работать офлайн, без подключения к интернету).

Yandex Vision и ABBYY OCR – онлайн-модули, они используют функции соответствующих облачных сервисов.

ABBYY Fine Reader – это коммерческий офлайн-модуль, использование которого требует отдельной лицензии.

Платформа позволяет настроить работу сценария с распознаванием изображений и переключаться между этими OCR-модулями в любой момент времени. Для этого необходимо выбрать желаемый модуль из списка.

После выбора OCR-модуля необходимо проверить корректность распознаваемых данных, нажав кнопку «Проверить».

При обнаружении неточностей рекомендуем выбрать альтернативный OCR-модуль из предложенного списка и провести проверку повторно.

.

В случае если распознаваемый документ высокого качества, с высоким расширением, то достаточно использовать бесплатные OCR-модули. Например, Tesseract. При обработке документов низкого качества лучше использовать платные решения.

OCR масштаб

OCR масштаб — настройка, позволяющая улучшить качество распознавания, если документы имеют плохое разрешение. .

В случае высокого и среднего качества сканированного документа оставляем значение масштаба равное «2»..

Перед распознаванием робот увеличит картинку в заданное количество раз. К примеру, при работе со скриншотом экрана разрешения экрана (количества точек на дюйм) может не хватить для корректного распознавание текста. Т.е. сначала изображение нужно масштабировать, а потом распознавать.

Значение OCR-масштаба равное «1» целесообразно устанавливать только в том случае, если разрешение исходного документа 250 dpi (точек на дюйм) или выше.

Увеличивать масштаб можно в случае, если изображение обрабатываемого документа небольшого размера.

При изменении масштаба нужно учитывать, что чем больше масштаб, тем больше времени уйдет на его обработку.

 

Язык распознавания

Язык распознавания – настройка, которая позволяет увеличить точность распознавания документа.

Возможные значения.

EngRus

И русский и английский языки

Rus

Только русский язык

Eng

Только английский язык

.

OCR размер ячейки по горизонтали

Делитель по горизонтали, по которому определяются ячейки таблиц на странице. Значение должно быть больше или равно 1.

Размер ячейки определяется как размер изображения, деленное на это значение.

Шаблонизатор использует два параметра (по горизонтали и по вертикали) для более точного определения таблиц.

По умолчанию заданы параметры:

40 – OCR размер ячейки по горизонтали

Это значение является оптимальным при распознавании документов со стандартными (или близкими к стандартным) размерами ячеек таблиц.

Рекомендуем оставлять эти значения без изменений и менять их только в случае некорректного распознавания (после проверки).

Ели при заданных параметрах (значение по горизонтали 40) таблица не будет распознана, то алгоритм Шаблонизатора увеличит это значение на 10 автоматически и осуществит попытку повторно.

OCR размер ячейки по вертикали

Делитель по вертикали, по которому определяются ячейки таблиц на странице. Значение должно быть больше или равно 1.

Размер ячейки определяется как размер изображения, деленное на это значение.

Шаблонизатор использует два параметра (по горизонтали и по вертикали) для более точного определения таблиц.

По умолчанию заданы параметры:

20 — OCR размер ячейки по вертикали.

Это значение является оптимальным при распознавании документов со стандартными (или близкими к стандартным) размерами ячеек таблиц.

Рекомендуем оставлять эти значения без изменений и менять их только в случае некорректного распознавания (после проверки).

Ели при заданных параметрах (значение по вертикали 20) таблица не будет распознана, то алгоритм Шаблонизатора увеличит это значение на 10 автоматически и осуществит попытку повторно.

Фильтр горизонтальных линий

Фильтр горизонтальных линий используется для атрибутов. В этой настройке указывается процент, меньше которого линии будут проигнорированы. Определяется как отношение горизонтальной линии к ширине изображения.

.

По умолчанию значение данного параметра равно 5..

Зачастую в сканированных документах присутствуют линии, не являющиеся границами таблиц (различные артефакты, которые необходимо отфильтровать). При заданном параметре все лишние артефакты (линии, нарисованные ручкой или линии, появившиеся при некачественном сканировании) будут проигнорированы.

 Автоповорот страницы

Автоматический поворот страницы. Параметр автоматически разворачивает страницы на угол, кратный 90 градусам (90̊, 180̊ и 270̽). Автоповорот страницы не разворачивает документ на малые углы.

По умолчанию значение параметра «True», рекомендуем оставлять его без изменения.

Автовыравнивание страницы

Автоматическое выравнивание страницы. Параметр выравнивает содержимое страницы при некорректном сканировании листа. В отличие от Автоповорота страницы, Автовыравнивание разворачивает документ на малые углы.

При автовыравнивании страницы распознается самая длинная OCR линия, имеющаяся на странице (чаще всего это линия из таблицы или атрибута) и определяет угол ее наклона относительно горизонтали. После этого происходит разворот документа, чтобы найденная линия стала параллельна линии горизонта.

По умолчанию значение параметра «True», рекомендуем оставлять его без изменения.

Этот параметр нежелательно использовать в случае, если сканированный документ сильно повернут и угол поворота составляет более 40̊, в этом случае Шаблонизатор не сможет распознать, в какую сторону нужно выровнять документ и выдаст ошибку. В такой ситуации можно использовать параметр Корректировка угла.