Перед нами стоит задача превратить картинки с текстом в текст. На этом пути первая сложность это понять, какие есть области на картинке и что они содержат. Такие области будем называть блоками
.
Типы блоков
С точки зрения распознавания нам важны следующие блоки:
- Однострочный — одна строка текста.
- Многострочный — блок содержит несколько строк.
- Изображение — блок содержит фотографию или рисунок.
- Таблица — блок содержит таблицу.
Но, если вы откроете меню Типы, вы увидите немного иную картину. Дело в том, что кроме распознавания есть ещё логическая компоновка текста. С этой точки зрения нам важны:
- Параграф — многострочный одиноко стоящий блок текста.
- Параграф-строка — однострочный одиноко стоящий блок текста. Дальше по тексту, это тоже будет называться параграф.
- Колонка — многострочный фрагмент основного текста.
Например, в книге есть номера страниц (параграф-строки
) и основной текст (колонки
). Если собрать все колонки
со страниц должен получиться связный текст.
Этапы работы
Разметка
Это самый первый этап, когда необходимо указать блоки изображения и их типы. На этом этапе размечать строки
не надо. Предметы интереса колонки
, параграфы
, картинки
и т.д.
Строки
появятся после разметки блоков, когда пользователь с соответствующими правами выполнит предварительное распознавание блоков.
Поэтому, важно разметить блоки, чтобы они поменьше захватывали пустого места и выставить статус Блоки готовы.
Для введение в работу с разметкой, можно посмотреть следующее видео. Оно немного устарело, но даёт понять базовые принципы разметки.
Пример
В приведенном примере видно, что на странице размечены три колонки и три параграф-строки.
Распознавание
Если у вас есть права на распознавание, то в пункте меню OCR
есть кнопка Распознать. После её нажатия (через какое-то время), должна появиться кнопка Применить, которая заполнит блоки строками. После того, как размеры строк будут подправлены, если нужно, необходимо выставить статус Строки готовы.
Сверка
Смысл этого этапа состоит в том, чтобы сверить результаты распознавания с текстом. Это даст возможность дообучить распознаватель и сформировать текст для публикации.
После необходимо выставить статус Сверка готова.
Важно:
- Важно убедиться на Разметке, что строки хорошо покрыты и не обрезаны. Если нужно, увеличьте размеры строк.
- Нажимать Shift+Пробел для отмечания прогресса.
- Если в блоке есть явная ошибка в оригинале, в поле исправленный текст, внести текст с исправлением. Но основной текст не трогать!
- Если блок очень плохо или неоднозначно читается, выставить флаг Убрать из тренировки
- Если блок вообще не читается, выставить флаг Непонятный текст
- Римские цифры вводим специальными символами. См. страницу символов.
- Дроби вводим специальными символами. См. страницу символов.
Дополнительно: