Создание шаблона на примере документа «Справка о стоимости выполненных работ»

Якоря

Точки на сканированном документе, с помощью которых робот определяет, в какой части документа размещаются определенные данные.

При помощи якорей мы задаем границы определенных атрибутов. Якорей может быть сколь угодно много, в зависимости от типа документа. 

.

В нашем примере необходимо получить данные следующих атрибутов:

«Инвестор»
«Заказчик (Генподрядчик)»
«Номер документа»
«Дата»

.

Создание якоря (атрибут «Инвестор»)

Рассмотрим процесс создания якоря на примере атрибута «Инвестор».

.

Для создания якоря переходим во вкладку «Якоря» в правой рабочей области Шаблонизатора и нажимаем кнопкув верхней части панели. В этот момент становятся активны «OCR блоки» и «OCR таблицы» для удобства выбора определенного блока в качестве якоря.

Для того, чтобы Шаблонизатор мог корректно определить местоположение атрибута в документе, необходимо ограничить его границы. Ограничение верхней границы задается по тексту, находящемуся на строку выше самого атрибута. В нашем случае это блок «Форма по».

Для присвоения значения якорю достаточно кликнуть левой клавишей мыши по OCR-блоку (слову), которое мы выбрали в качестве якоря. Также можно указать значение вручную, написав якорное слово в строке «Значение».

В случае, если мы укажем в качестве якоря слово «Форма», то якорь будет установлен неверно, т.к. в документе есть несколько OCR-блоков, распознавших это слово.

Поэтому меняем указанное значение якоря на «Форма по». После этого необходимо произвести проверку, чтобы убедиться, что якорное слово определилось корректно.

Когда значение якоря задается нажатием клавишей мыши на OCR-блок, — к значению добавляется знак «*», если значение указывается вручную, — добавлять этот знак необязательно. При использовании якорных привязок знак «*» нужно удалить и после этого добавить привязку.

В случае, если значение содержит два и более слова, — между ними необходимо ставить пробел, т.к. он выступает разделителем слов.

Далее добавляем якорь для атрибута «Инвестор». Для корректного распознавания информации об Инвесторе, необходимо ограничить якорными точками данный атрибут слева и справа.

Слева якорем будет выступать слово «Инвестор». Добавляем якорь, нажимаем левой клавишей мыши на OCR-блок «Инвестор» и Шаблонизатор автоматически заполняет строку «Значение», тем самым определяя якорную точку.

Справа якорем будет выступать слово «по». По аналогии добавляем якорь в рабочей области Шаблонизатора, нажимаем на OCR-блок «по» и производим проверку.

После проверки видим, что якорь установлен неверно, т.к. в документе есть несколько OCR-блоков, распознавших слово «по».

Для корректного определения якоря осуществляем якорную привязку к якорю «Форма по», который находится строкой выше того блока, который мы хотим указать в качестве якоря. Для этого нажимаем на кнопку «Добавить привязку», затем кликаем по якорю «Форма по», тем самым привязываем наш новый якорь к OCR-блоку, который располагается строкой выше нужного нам якоря.

Для того, чтобы Шаблонизатор определил координаты создаваемого якоря относительно якоря «Форма по» указываем параметр привязки «Bottom». Этот параметр говорит о том, что создаваемый якорь будет привязан к якорю «Форма по» и находится строкой ниже.

Создание якоря (атрибут «Заказчик»)

По аналогии создаем якоря для атрибута «Заказчик». Слева якорем будет выступать слово «Заказчик». Добавляем якорь, нажимаем левой клавишей мыши на OCR-блок «Заказчик» и Шаблонизатор автоматически заполняет строку «Значение», определяя якорную точку.

Справа якорем будет выступать слово «по». По аналогии добавляем якорь в рабочей области Шаблонизатора, нажимаем на OCR-блок «по», производим проверку и добавляем якорную привязку. В этом случае привязку осуществляем к якорному слову «по», которое располагается строкой выше в документе. Указываем параметр привязки «Bottom» и производим проверку..

Атрибут «Заказчик» необходимо ограничить не только справа и слева, но и сверху. Для этого в качестве якоря выбираем слово «организация». Создаем еще один якорь, редактируем название так, чтобы с обеих сторон слова стоял знак «*» — «*организация*». Проверяем корректность расположения якорей.

При создании якорей, в значении которых содержится несколько слов, необходимо указывать знак «*» в конце каждого слова.

Если сочетание слов встречается в документе единожды, то второе слово можно написать сокращенно. Например, в качестве якоря по номеру документа можем указать «номер* докум.

Если в начале значения якоря присутствует лишний символ (чаще всего это скобка), мы можем удалить этот символ и вместо него поставить знак «*». Тогда получим значение *организация* вместо (организация*.

Завершающий якорь

При создании шаблона необходимо указать якорь, который будет завершать документ. Т.е. по этому якорю мы можем определить, что в документе таблиц больше нет и работу с таблицами можно завершать.

В нашем примере завершающим якорем будет слово расшифровка.

В нашем примере завершающим якорем будет слово расшифровка*.

Шаблонизатор позволяет задать для якоря несколько альтернативных вариантов, по которым робот будет распознавать завершающий атрибут.

Добавим слово подпис*, укажем намеренно без окончания, т.к. в документе может быть указано как подпись, там и подписи.

.

Если в документе отсутствует слово расшифровка*, то робот будет искать слово подпис*

Для завершающего якоря указываем Режим работы – LastPage