Преобразование документов в электронную форму
Сканирование документов
Процесс создания электронного изображения бумажного документа напоминает его фотографирование и требует применения соответствующего устройства. Сегодня в качестве такого устройства выступает сканер. Такие устройства, как цифровые камеры, пока не могут обеспечить для документов стандартного формата качество изображения, которое гарантировало бы их надежное распознавание.
Основной рабочий элемент сканера включает источник света, используемый для освещения документа, и светочувствительную головку, воспринимающую отраженный свет. Универсальные сканеры, в отношении которых нет специальных требований по функциональным возможностям, качеству и скорости сканирования делятся на три основные категории.
Ручной сканер протягивается над Поверхностью документа вручную. Он обеспечивает минимальное качество сканирования, в частности, непригоден для сканирования документов, содержащих иллюстрации.
Листовой сканер способен сканировать отдельные страницы, протягивая их мимо светочувствительного элемента. Его недостатком является невозможность сканирования книг и журналов без разборки на отдельные страницы.
В планшетном сканере подвижный светочувствительный элемент перемещается в ходе сканирования внутри корпуса устройства. Сканируемый документ располагается напротив прозрачного окна в корпусе прибора. Этот вид сканера лишен недостатков, присущих типам, рассмотренным выше.
Сканер является внешним устройством и подключается к компьютеру через специальный разъем. При высоком разрешении и большой площади сканируемого документа объем передаваемых данных оказывается очень большим и требует производительной линии передачи. Малопроизводительные сканеры используют порт принтера. Наиболее быстрые устройства подключаются через интерфейс SCSI (Small Computer System Interface).
Разные модели сканеров понимают разные управляющие команды. Чтобы избежать разнобоя, был принят универсальный стандарт взаимодействия сканера и приложений. Этот стандарт называется TWAIN. Приложение посылает команды драйверу TWAIN, который преобразует их в инструкции, распознаваемые сканером. Таким образом, для приложения перестает иметь значение конкретная модель сканера. Операционная системаWindows 98 поддерживает интерфейс TWAIN, а все современные сканеры совместимы с ним и предоставляют необходимые драйверы нижнего уровня.
Сканирование через посредство интерфейса TWAIN осуществляется следующим образом. Сначала следует включить сканер. Команда сканирования располагается в приложении в меню Файл .(например, в программеImaging соответствующий пункт так и называется – Сканировать). После выбора этой команды открывается диалоговое окно драйвера TWAIN, вид которого зависит от модели сканера (рис. 17.1). В этом окне задают параметры сканирования: черно-белый или цветной режим, разрешение, коррекция яркости и контрастности. Большинство сканеров позволяют также произвести предварительное черновое сканирование с низким разрешением и по его результатам точно задать область сканирования – часть страницы документа.
После настройки всех параметров следует щелкнуть на кнопке Сканировать (надпись на кнопке может быть иной). Процесс сканирования происходит автоматически, и изображение передается в приложение. Диалоговое окно драйвера TWAIN автоматическине закрывается, так что, например, в многооконных графических редакторах (таких как Adobe PhotoShop) можно сразу провести сканирование нескольких изображений.
Распознавание документов
Этап распознавания документа состоит в преобразовании электронного изображения (фактически набора цветных или черно-белых точек) в текстовый документ. Ранее для описания этого процесса обычно использовался термин OCR (Optical Character Recognition), который соответствует одному из используемых методов. При таком подходе происходит “сравнение” элемента изображения с эталонными вариантами начертания символов, после чего выбирается наиболее подходящий символ. Этот подход требует использования специального комплекта шрифтов, но дает на нем наилучшие результаты. Современные алгоритмы распознавания не привязаны к конкретному начертанию символов, так же, как человек способен узнавать буквы при любых начертаниях (и даже при значительных искажениях).
В ходе распознавания сначала в изображении выделяются крупные элементы текста: колонки, абзацы, отдельные текстовые блоки (например, подрисуночные подписи), ячейки таблиц. Этот этап называют сегментацией, он может выполняться автоматически или вручную. После этого выполняется автоматический этап распознавания:
блоки разбиваются на строки, строки – на отдельные символы, каждый из которых распознается независимо и помещается в итоговый текстовый документ.