Перед нами стоит задача превратить картинки с текстом в текст. На этом пути первая сложность это понять, какие есть области на картинке и что они содержат. Такие области будем называть блоками.

Типы блоков

С точки зрения распознавания нам важны следующие блоки:

Но, если вы откроете меню Типы, вы увидите немного иную картину. Дело в том, что кроме распознавания есть ещё логическая компоновка текста. С этой точки зрения нам важны:

Например, в книге есть номера страниц (параграф-строки) и основной текст (колонки). Если собрать все колонки со страниц должен получиться связный текст.

Этапы работы

Разметка

Это самый первый этап, когда необходимо указать блоки изображения и их типы. На этом этапе размечать строки не надо. Предметы интереса колонки, параграфы, картинки и т.д.

Строки появятся после разметки блоков, когда пользователь с соответствующими правами выполнит предварительное распознавание блоков.

Поэтому, важно разметить блоки, чтобы они поменьше захватывали пустого места и выставить статус Блоки готовы.

Для введение в работу с разметкой, можно посмотреть следующее видео. Оно немного устарело, но даёт понять базовые принципы разметки.

Пример

В приведенном примере видно, что на странице размечены три колонки и три параграф-строки.

Распознавание

Если у вас есть права на распознавание, то в пункте меню OCR есть кнопка Распознать. После её нажатия (через какое-то время), должна появиться кнопка Применить, которая заполнит блоки строками. После того, как размеры строк будут подправлены, если нужно, необходимо выставить статус Строки готовы.

Сверка

Смысл этого этапа состоит в том, чтобы сверить результаты распознавания с текстом. Это даст возможность дообучить распознаватель и сформировать текст для публикации.

После необходимо выставить статус Сверка готова.

Важно:

Дополнительно: