Системы оптического распознавания

Документов

Установить систему оптического CD-ROM irV распознавания FineReader " 1к|Г

Системы оптического распознавания символов. При со­здании электронных библиотек и архивов путем перевода книг и документов в цифровой компьютерный формат, при переходе предприятий от бумажного к электронному доку­ментообороту, при необходимости отредактировать получен­ный по факсу документ используются системы оптического распознавания символов.

С помощью сканера достаточно просто получить изобра­жение страницы текста в графическом файле. Однако для получения документа в формате текстового файла необходи­мо провести распознавание текста, то есть преобразовать элементы графического изображения в последовательности текстовых символов.

Системы оптического распознавания - student2.ru

Сначала необходимо распознать структуру размещения текста на странице: выделить колонки, таблицы, изображе­ния и так далее. Далее выделенные текстовые фрагменты графического изображения страницы необходимо преобразо­вать в текст.

Если исходный документ имеет типографское качество (достаточно крупный шрифт, отсутствие плохо напечатанных символов или исправлений), то задача распознавания реша­ется методом сравнения с растровым шаблоном (рис. 9.2). Сначала растровое изображение страницы разделяется на изображения отдельных символов. Затем каждый из них по­следовательно накладывается на шаблоны символов, имею­щихся в памяти системы, и выбирается шаблон с наимень­шим количеством отличных от входного изображения точек.

АБВФЯ

Рис. 9.2. Растровые шаблоны символов

При распознавании документов с низким качеством печа­ти (машинописный текст, факс и так далее) используется метод распознавания символов по наличию в них определен­ных структурных элементов (отрезков, колец, дуг и др.).

Любой символ можно описать через набор значений пара­метров, определяющих взаимное расположение его элемен­тов. Например, буква «Н» и буква «И» состоят из трех от­резков, два из которых расположены параллельно друг другу, а третий соединяет эти отрезки. Различие между дан­ными буквами — в величине углов, которые образует третий отрезок с двумя другими.

При распознавании структурным методом в искаженном символьном изображении выделяются характерные детали и сравниваются со структурными шаблонами символов. В результате выбирается тот символ, для которого совокуп­ность всех структурных элементов и их расположение боль­ше всего соответствует распознаваемому символу.

Наиболее распространенные системы оптического распо­знавания символов FineReader и CuneiForm используют как растровый, так и структурный методы распознавания. Кро­ме того, эти системы являются «самообучающимися» (для каждого конкретного документа они создают соответствую­щий набор шаблонов символов) и поэтому скорость и качест­во распознавания многостраничного документа постепенно возрастают.

Системы оптического распознавания форм. При заполне­нии налоговых деклараций, при проведении переписей насе­ления и так далее используются различного вида бланки с полями. Рукопечатные тексты (данные вводятся в поля пе­чатными буквами от руки) распознаются с помощью систем оптического распознавания форм и вносятся в компьютер­ные базы данных.

Сложность состоит в том, что необходимо распознавать написанные от руки символы, довольно сильно различаю­щиеся у разных людей. Кроме того, система должна опреде­лить, к какому полю относится распознаваемый текст.

Системы оптического распознавания - student2.ru

Системы распознавания рукописного текста. С появлени­ем первого карманного компьютера Newton фирмы Apple в 1990 году начали создаваться системы распознавания руко­писного текста. Такие системы преобразуют текст, напи­санный на экране карманного компьютера специальной руч­кой, в текстовый компьютерный документ.

Практические задания

9.12. Отсканировать документ и перевести его в текстовый формат с помощью системы оптического распознавания.

Глава 10

Наши рекомендации