Программы распознавания текстов
Ввод информации с бумажных носителей с помощью сканера.
Общие сведения
Сканер (Scanner) - устройство ввода в ЭВМ информации в виде текстов, рисунков, слайдов, фотографий на плоских носителях, а также изображения объемных объектов небольших размеров.
Сканирование представляет собой цифровое кодирование изображения, заключающееся в преобразовании аналогового сигнала яркости в цифровую форму. Такое получение цифрового изображения оригинала для ввода в компьютер называют оцифровкой (Digitizing) - В процессе оцифровки изображение разбивается на элементарные частицы - пиксели, каждому из которых соответствует определенный код яркости и цветового оттенка.
Типы сканеров
Планшетные сканеры
Планшетные сканеры используются для ввода графики и текста с носителей формата А4 или A3. В планшетных сканерах оригинал располагается на его рабочей поверхности неподвижно. Освещение оригинала производится стабилизированным по интенсивности источником, в качестве которого используют лампы с холодным катодом или флуоресцентные лампы. В качестве фотоприемника обычно используются ПЗС-линейки. Лампа, ПЗС (прибор с зарядовой связью, ССD) и оптическая система, направляющая на ПЗС световой поток, отраженный от оригинала, находятся на одной каретке и с помощью шагового механизма перемещаются вдоль оригинала.
К преимуществам планшетных сканеров следует отнести простоту использования, возможность сканирования, как плоских оригиналов, так и небольших трехмерных объектов.
Недостатками этого типа сканеров являются большая занимаемая площадь, сложность выравнивания оригинала с неровно размещенным на носителе изображением.
Роликовые сканеры
Роликовые сканеры осуществляют сканирование оригинала при его перемещении по специальным направляющим посредством роликового механизма подачи бумаги относительно неподвижных осветителя и ПЗС-линейки.
Большинство роликовых сканеров офисного применения предназначены для работы с оригиналами формата А4. Однако существуют широкоформатные роликовые сканеры, обеспечивающие сканирование оригиналов форматов А1 и А0.
Преимущества роликовых сканеров определяются их компактностью, удобством подключения и пользования, автоматической подачей листов оригинала, удовлетворительной скоростью сканирования и низкой стоимостью.
Недостатки, связанны, с невозможностью без специальных приспособлений осуществлять сканирование сброшюрованных документов, книг, а также с опасностью повреждения оригинала.
Барабанные сканеры
Барабанные сканеры позволяют получать изображения прозрачных или отражающих оригиналов с высокой степенью детализации. Оригинал в таких сканерах крепится на поверхность быстро вращающегося прозрачного барабана. Внутри него расположена оптическая система, фокусирующая проходящий через оригинал тонкий луч на призму, за которой находятся три датчика ФЭУ (фотоэлектронный умножитель), по одному на каждый базовый цвет. Барабанные сканеры не позволяют сканировать книги, переплетенные брошюры и т. п.
Программы распознавания текстов
После обработки документа сканером получается графическое изображение документа (графический образ). Но графический образ еще не является текстовым документом. Человеку достаточно взглянуть на лист бумаги с текстом, чтобы понять, что на нем написано. С точки зрения компьютера, документ после сканирования превращается в набор разноцветных точек, а вовсе не в текстовый документ.
Проблема распознавания текста в составе точечного графического изображения является весьма сложной. Подобные задачи решают с помощью специальных программных средств, называемых средствами распознавания образов. Реальный технический прорыв в этой области произошел лишь в последние годы. До этого распознавание текста было возможно только путем сравнения обнаруженных конфигураций точек со стандартным образцом (эталоном, хранящимся в памяти компьютера). Авторы программ задавали критерий «похожести», используемый при идентификации символов.
Подобные системы назывались OCR (Optical Character Recognition — оптическое распознавание символов) и опирались на специально разработанные шрифты, облегчавшие такой подход. Естественно приходилось сталкиваться с произвольным и, тем более, сложным шрифтом, программы такого рода начинали давать серьезные сбои.
Алгоритмы распознавания могут давать разные результаты на разных документах. Например, упоминавшиеся выше системы OCR способны распознавать только стандартный специально подготовленный шрифт и дают на этом шрифте наилучшие результаты, которые не может превзойти ни одна, из более универсальных программ.
Современные алгоритмы распознавания текста не ориентируются ни на конкретный шрифт, ни на конкретный алфавит. Большинство программ способно распознавать текст на нескольких языках. Одни и те же алгоритмы можно использовать для распознавания русского, латинского, арабского и других алфавитов и даже смешанных текстов. Разумеется, программа должна знать, о каком алфавите идет речь.
Программа FineReader
Программа FineReader выпускается отечественной компанией ABBYY Software. Эта программа предназначена для распознавания текстов на русском, английском, немецком, украинском, французском и многих других языках, а также для распознавания смешанных текстов.
Программа имеет ряд удобных возможностей. Она позволяет объединять сканирование и распознавание в одну операцию, работать с пакетами документов (или с многостраничными документами) и с бланками. Программу можно обучать для повышения качества распознавания неудачно напечатанных текстов или сложных шрифтов. Она позволяет редактировать распознанный текст и проверять его орфографию.
Процесс ввода документов с помощью программы ABBYY FineReader состоит из четырех этапов:
получение изображения (сканирование);
распознавание;
проверка и редактирование полученного текста;
сохранение результатов или отправка результатов по электронной почте.
Для того чтобы начать работу, необходимо передать в программу изображение документа. Получить изображение можно следующими способами:
отсканировать бумажный документ;
открыть файл изображения или PDF-документ;
сфотографировать текст.
Переданные в программу ABBYY FineReader изображения необходимо распознать, то есть преобразовать в текст. Прежде чем приступить к распознаванию, программа анализирует структуру всего документа и выделяет на изображениях области с текстом, картинками, таблицами, штрих-кодами. Области разных типов имеют различные цвета рамок.
- выделить зону распознавания;
- выделить область Текст;
- выделить область Картинка;
- выделить область Таблица.
Последовательность обхода областей определяется их порядковыми номерами. По умолчанию порядковые номера областей не отображаются в окне Изображение, а отображаются только в том случае, если пользователь выбрал функцию перенумерации областей. Можно выделить новую область, выбрав нужный инструмент на панели окна Изображение (рисунок 6).
Рисунок 6
Результат распознавания отображается в окне Текст. В данном окне неуверенно распознанные символы выделяются цветом.
Результаты распознавания можно сохранить в файл, передать в другое приложение, скопировать в буфер обмена или отправить по электронной почте в любом из поддерживаемых программой ABBYY FineReader форматов сохранения. Сохранить можно все страницы документа ABBYY FineReader или только выбранные.
На главной панели инструментов в выпадающем списке необходимо выбрать режим сохранения оформления документа.
Режимы сохранения оформления документа:
Точная копия - позволяет получить документ, оформление которого будет полностью соответствовать оригиналу. Рекомендуется использовать для документов сложного оформления, например, рекламных брошюр. Однако данный режим не предполагает внесения значительных правок в текст и оформление.
Редактируемая копия - позволяет получить документ, оформление которого может незначительно отличаться от оригинала. Документ, полученный с помощью данного режима, легко редактируется.
Форматированный текст - в полученном документе сохранятся начертание и размер шрифта, разбиение на абзацы, но не сохранится расположение объектов на странице и межстрочные интервалы. Таким образом, будет получен сплошной текст с выравниванием по левому краю. Для текста, в котором порядок чтения справа налево, выравнивание будет по правому краю.
Простой текст - в данном режиме форматирование текста не сохранится.
Список возможных режимов зависит от выбранного формата.
Чтобы отправить документ по электронной почте необходимо:
в меню Файл выбрать пункт Отправить по электронной почте → Документ. В открывшемся диалоге выбрать: формат, в котором следует сохранить документ, страницы документа, которые надо сохранить и отправить: все или только выделенные;
нажать ОК. В результате будет создано письмо с прикрепленным файлом (файлами), останется указать адресата и отправить письмо.
Возможно, отправить по электронной почте изображения страниц документа, для этого:
в меню Файл выбрать пункт Отправить по электронной почте → Изображения страниц. Выбрать формат, в котором следует сохранить изображения. Выбрать изображения страниц, которые надо отправить: все или только выделенные. Отметить Отправить только выбранные области, если необходимо отправить изображения только выделенных областей страницы. Отметить Отправить все страницы в одном файле, если хотите отправить изображения как многостраничный файл;
нажать ОК. В результате будет создано письмо с прикрепленным файлом (файлами), останется указать адресата и отправить письмо.