Автоматизированный ввод документов
Автоматизированный ввод документов является актуальным для широкого круга пользователей (офисы компаний, учебные, государственные, военные учреждения, банки и т.д.).
Можно выделить несколько основных видов документов:
1. «Гладкие» тексты (тексты без графических иллюстраций и таблиц).
2. Документы со сложной структурой и графическими иллюстрациями (включая логотипы и подписи).
3. Таблицы.
4. Документы, напечатанные на гербовом фоне (например, паспорт, приложение к дипломному проекту - выписка, ценные бумаги и т.д.).
5. Стандартные формы (банковские, налоговые, страховые декларации).
6. Документы с нестандартным расположением полей (визитные карточки).
7. Документы с печатными рукописными символами (handprinting) - символы вписываются от руки в выделенных полях по нанесенной пунктиром сетке.
8. Рукописные документы.
Кроме того, документы могут отличаться по полиграфическому исполнению и иметь различное качество:
- высокое (книги, журналы, документы, напечатанные с использованием лазерной техники);
- среднее (документы, напечатанные с использованием струйных принтеров и плоттеров);
- низкое (архивные документы).
Перед обработкой документ необходимо ввести в компьютер. Это делается при помощи сканеров и OCR-технологий (Optical Character Recognition - «оптическое распознавание символов»).
Тексты, графика и таблицы
Российские OCR - системы довольно успешно справляются как с «гладкими» текстами, так со структурированными документами.
Системы имеют автофрагментаторы, разбивающие страницу на текстовые и графические блоки. Алгоритмы автоподбора яркости позволяют работать с произвольным (и даже переменным) фоном документа. Качество распознавания вполне достаточно для большинства практических задач такого рода.
OCR-системы могут распознавать и вводить таблицы. При этом таблицу в дальнейшем можно сохранить в одном из известных табличных форматов (*.dbf, *.xls, *.rtf).
Ценные бумаги
Система StockTiger, разработанная фирмой Cognitive Technologies, представляет из себя совокупность программной и аппаратной части: системы распознавания и роликового сканера, в автоподатчик которого помещается пачка ценных бумаг.
В этой системе была устранена довольно сложная система отделения полезной текстовой информации от гербового фона бумаги. Вообще снять фон можно либо установкой цветового фильтра в сканирующее устройство, либо программными методами. В силу того, что у ценных бумаг гербовый фон неоднороден (имеет различную цветовую гамму), задача решалась программными средствами.
При таком подходе удалось добиться практически абсолютной точности ввода номеров ценных бумаг.
Стандартные формы
Стандартные формы используются в сферах, связанных с массовым обслуживанием клиентов. Для удобства обработки таких форм, информация, содержащая ответ на один и тот же вопрос, на разных документах заносится в фиксированное, по отношению к границам документа, поле. Для стандартной формы характерны одинаковый размер документов и фиксированное положение линий разграфки.
В связи с массовостью использования форм существует высокая потребность в автоматизации их ввода и обработки. Однако стандартные формы относятся к тому типу документов, которые довольно сложно поддаются распознаванию. Дело в том, что клиенты при заполнении формы, как правило, не утруждают себя качественным написанием печатных символов, причем полезная текстовая информация часто попадает на линии разграфки. Кроме того, стандартные формы могут быть заполнены с помощью печатной машинки, матричного принтера или быть повторной ксерокопией.
Примером работы OCR с бланками является система оптического распознавания налоговых деклараций граждан. Она предназначается для потокового автоматизированного ввода налоговых деклараций в централизованную базу данных учета налогоплательщиков - Государственный реестр физических лиц.
Налоговая декларация представляет собой несколько бланков формата А4, отпечатанных типографским способом с фиксированным расположением разграфки. Бланк содержит множество полей - фамилия, имя, отчество, адрес, паспортные данные, суммы доходов и отчислений. Потребность автоматического ввода карт объясняется большим объемом (равным количеству налогоплательщиков, умноженным на число листов налоговой декларации) и сжатыми (два - три месяца) сроками обработки этого информационного потока.
До реализации системы вводом налоговых деклараций занимались непосредственно инспекторы. В день один сотрудник вводил не более 50 документов, при этом процент ошибок в выходных документах был значителен.
При работе системы, состоящей из компьютера Power Macintosh, снабженного устройством автоматической подачи документов, запускается процесс сканирования и распознавания документов. По его завершению оператор получает таблицу, каждая строка которой соответствует одному введенному бланку, а каждый столбец - полю бланка. Если у системы есть сомнение в точности распознанного символа, то данное поле подсвечивается. Параллельно показывается фрагмент изображения проверяемого поля. Таким образом, отпадает необходимость ручной работы с самим документом. По завершении редактирования результатов распознавания система экспортирует введенные данные в формат централизованной базы данных. При этом система делает не более одной ошибки на бланк.
Визитные карточки
Визитные карточки не поддаются стандартизации, поскольку их поля могут иметь абсолютно произвольное расположение и ориентацию. Тем не менее системы ввода визиток существуют не только за рубежом, но и на российском рынке. Таковым является совместный продукт Cognitive Technologies и Inter Corporations - Business Card Wizard.
Эта программа позволяет вводить визитки, содержащие текст на русском и английском языках. После сканирования интеллектуальный алгоритм идентифицирует поля (определяет, в каком поле находится название организации, в каком фамилия, в каком адрес и т.д.), проводит их распознавание и отображает результаты (распознанный и готовый для редактирования текст и изображение). База данных позволяет осуществить операции сортировки, поиска, фильтрации и т.д. Business Card Wizard имеет широкий спектр дополнительных возможностей, например, позволяет автоматически дозваниваться по телефонному номеру, указанному в визитной карточке.
Системы распознавания рукописных текстов находятся в стадии разработки опытных образцов.