Применение пользовательсмких эталонов
В последней версии программы реализованы широкие функциональные возможности по распознаванию текстов разных уровней сложности. Далее мы узнаем, каким образом можно «научить» Fine Reader распознавать незнакомые символы или некачественные тексты.
Далеко не всегда процесс распознавания текстов проходит гладко. Особенно это касается документов, которые выполнены декоративным или другим нетрадиционным шрифтом, содержат специфические символы (например, в формулах) или просто плохого качества. В таких случаях Fine Reader сталкивается с затруднениями.
Однако в программе реализован механизм, который позволяет объяснить ей, как надо распознавать нестандартные или некачественные тексты. Для этого нужно создать и обучить специальный пользовательский эталон, в котором для каждого сомнительного или непонятного символа определяется его усредненное точечное изображение и название.
ВНИМАНИЕ
Пользовательский эталон создается на начальном этапе распознавания документа, и в дальнейшем используется для распознавания основного объема текста. Созданный эталон можно сохранить и впоследствии использовать для работы с другими документами. Кроме этого, в программе имеются также встроенные эталоны.
Далее перечислим несколько правил, которые следует учитывать при распознавании текстов с помощью пользовательских эталонов.
• Созданные эталоны впоследствии можно применять для распознавания только тех документов, в которых разрешение, шрифт и его размер совпадают с документом, на основании которого данный эталон был создан. При несоблюдении этого правила результат распознавания может быть непредсказуемым.
• Программа не различает некоторые символы и сопоставляет их с каким-то одним символом. Характерный пример – апострофы: правый (`) и левый (ґ) в программе не идентифицируются и ассоциируются с прямым апострофом ('). Поэтому в распознанном документе никогда не отобразится ни правый, ни левый апостроф: вместо них будет вставлен прямой, причем даже в том случае, когда в процессе обучения эталона были указаны именно они.
• Применять пользовательские эталоны для распознавания имеет смысл лишь тогда, когда документ содержит декоративные или нестандартные символы, либо когда нужно распознать большое количество текста плохого качества. В других случаях это может оказаться нецелесообразно.
• В некоторых случаях Fine Reader делает вывод о сопоставлении изображения тому или иному символу на основании общего анализа текста. В частности, так она может определить, какому символу сопоставить изображение «кружок» – нулю или букве «о», исходя из того, какие символы находятся поблизости (цифры или буквы).
Чтобы войти в режим работы с эталонами, выполните в главном меню команду Сервис?Редактор эталонов либо нажмите комбинацию клавиш Ctrl+Shift+A. В результате на экране откроется окно, изображенное на рис. 4.5.