Основные методы оптического распознавания
Один из самых ранних методов оптического распознавания символов базировался на сопоставлении матриц или сравнении с образцом букв. Большинство шрифтов имеют формат Times, Courier или Helvetica и размер от 10 до 14 пунктов (точек). Программы оптического распознавания символов, которые используют метод сопоставления с образцом, имеют точечные рисунки для каждого символа каждого размера и шрифта.
Сравнивая базу данных точечных рисунков с рисунками отсканированных символов, программа пытается их распознавать. Эта ранняя система успешно работала только с непропорциональными шрифтами (подобно Courier), где символы в тексте хорошо отделены друг от друга. Сложные документы с различными шрифтами оказываются уже вне возможностей таких программ.
Современные технологии оптического распознавания намного совершеннее, чем более ранние методы. Вместо того чтобы только идентифицировать индивидуальные символы, современные методы способны идентифицировать целые слова.
Компьютер анализирует тысячи или миллионы различных способов, которыми точки изображения могут быть собраны в символы слова.
Технологии Finereader
Хотя системы оптического распознавания символов существовали в течение долгого времени, их выгоды только сейчас начали по достоинству оценивать. Первые разработки были чрезвычайно дорогостоящими, неточны и трудны для использования. За несколько последних лет системы оптического распознавания полностью преобразились. Современное программное обеспечение распознавания символов очень удобно в использовании, обладает высокой точностью и находится на пути к распространению на все виды рабочих сред в массовом масштабе.
Типичным представителем данного семейства программ является ABBYY FineReader, технологический процесс которого включает следующие шаги:
• сканирование исходного документа (страницы);
• разметку областей (ручную или автоматическую), требующих различные виды обработки (страницы разворота книги, таблицы, рисунки, колонки текста и пр.);
• распознавание - создание и вывод на экран текстовогофайла (с вставленными рисунками и таблицами, если это необходимо);
• контроль правильности (ручной, автоматический, полуавтоматический);
• вывод информации в выходной файл в заданном формате(.DOC или .RTF для Word, .XSL для Excel и пр.).
1.3 В системе ABBYY FineReader применяются следующие типы классификаторов: растровый, контурный, признаковый, структурный, признаково-дифференциальный и структурно-дифференциальный.
Растровый классификатор.Классификатор сравнивает символ с набором эталонов, поочередно накладывая изображения друг на друга.
Контурный классификатор.Представляет собой разновидность признакового классификатора.
Признаковый классификатор.Аналогичен растровому (выдвигает гипотезы, исходя из степени совпадения параметров символа с эталонными значениями). Оперирует определенными числовыми признаками, такими, например, как длина периметра, количество черных точек в разных областях или вдоль различных направлений и т. п.
Структурный классификатор.Этот классификатор проводит структурный анализ символа, раскладывая последний на элементарные составляющие (отрезки, дуги, окружности, точки) и формируя точную схему анализируемого знака.
Затем полученная схема (структурное описание буквы) сравнивается с эталоном. Этот классификатор работает медленнее растрового и признакового, но отличается высокой точностью. Более того, он способен «мысленно» восстанавливать непропечатанные или залитые символы.
Методика и порядок выполнения работы
Начальные настройки
Язык распознавания
1.Выберите соответствующую строку в списке на панели «Распознавание».
Рисунок 1 – Язык распознавания
2.В меню «Файл» выберите пункт «Открыть пакет»
3.В открывшемся диалоге «Открыть пакет» выберите папку, где находится нужный вам пакет (сохраненный в предыдущей работе).