Система массового ввода документов
Для организации обработки большого количества бумажных документов и перевода их в электронную форму предназначена система массового ввода документов. Слово массовый говорит о том, что данная система масштабируема и способна работать как с одним бумажным документом в день, так и с 100 тысячами бумажных документов в день. Данная подсистема присутствует практически в любой задаче, дело лишь в количестве обрабатываемых документов.
В технологии обработки документов выделяют две основные группы
Просто документы
Формы
Процесс обработки документов состоит из следующих элементов
Сканирование документа
Обработка изображения документа
Является очень важной часть процесса обработки бумажных документов. Очевидно, что качество изображений документов после прохождения через сканер оставляет желать лучшего. Кроме того, любой документ (особенно формы) содержит множество дополнительной информации, облегчающей заполнение, но абсолютно ненужной, а часто мешающей при обработке изображения. Также эти функции применяются для уменьшения размера сохраняемого изображения. Для обработки изображения документов используются следующие специализированные функции
Очищение изображения - применяется для снятия с изображения отдельных элементов, как то отдельно стоящие точки, пятна и т.п.
Снятие фона и выделений- очень часто документы имеют общий фон с цветом отличным от белого (ценные бумаги, например). Для их обработки необходимо удалять фон.
Выравнивание изображения - для последующей обработки изображения и качества распознавания очень важно, чтобы документ попадал в строго вертикальном положении в процедуру распознавания. Данная функция позволяет выполнять процедуру выравнивания изображения (или по-другому - устранения перекосов в изображении).
Снятие элементов форм - для того, чтобы эффективно обрабатывать форму, необходимо удалять с изображения элементы форм. Как то линии, разграфки, таблицы и тому подобное.
Определение идентификатора форм - очень часто приходится вводить в систему самые разнообразные формы, отличные как по содержанию, так и по структуре. Для того, чтобы система могла работать с множественными формами, она должна определять что за форма поступила на обработку и загружать соответствующее, заранее настроенное и подготовленное описание формы.
Восстановление букв и символов - очень часто случается, что в заполненной форме буква оказывается пересеченной элементом формы (например линией). Для последующего успешного распознавания символа необходимо удалить линию, таким образом, что буква при таком удалении не пострадала.
Кроме того к предварительной обработке изображения также относятся следующие функции
Вращение изображения на произвольный угол
Масштабирование изображения
Регулирование уровня серого
Компрессия и декомпресиия изображений
Рис. 5.4.3. Схема.
Распознавание и индексирование документа.
Анализ содержимого документа и извлечение данных. Которые могут быть впоследствии использованы для сохранения документов. Основной подсистемой, которая обеспечивает индексирование документа является система распознавания изображений. Существует огромное множество систем распознавания, отличающихся по стоимости, качеству и скорости работы. По крупному можно выделить два класса систем.
Системы оптического распознавания (OCR) - работают только с машинописным текстом.
Интеллектуальные системы распознавания (ICR) - работают с рукописным тестом двух видов Hand-Print - текст написанный от руки, но только печатными и большими буквами
Произвольный рукописный текст. Кроме того этот класс систем решает специализированные задачи распознавания изображения, как то:
Распознавание штрих-кодов.
Распознавание специальных меток (Пример, когда Вы заполняете избирательный бюллетень, Вы ставите отметку (крестиком или галочкой) в специально напечатанном квадрате или кружке, напротив выбранного Вами кандидата. Система позволяет распознать Ваш выбор и автоматически ввести его в систему)
Самой большой проблемой является обеспечение достаточного качества распознавания. Вопрос качества очень субъективен и зависит от конкретно решаемой задачи. Например для ввода офисных документов в систему может совсем не понадобится распознавание, одна секретарша вполне справится с вводом нескольких новых договоров в день, но если таких договоров десятки тысяч, то, очевидно, что лучше поставить специализированную систему распознавания, чем содержать полк секретарш для подобных операций. Так что вопрос качества, это в первую очередь финансовый вопрос: какую выгоду Вы получите от внедрения более качественной (и, естественно, более дорогой) системы распознавания. Одним из современных путей улучшения качества распознавания является применение голосующих систем распознавания. Системные интеграторы берут несколько модулей систем распознавания от разных производителей. Основным требованием к подбору таких модулей является использование различных технологий распознавания. Для OCR систем в основном используются три технологии
Матричная (Matrix-based),
Описательная (основана на описании правил построения символов)
Нейронная (основана на использовании нейронных сетей)
Каждая из этих технологий дает лучшие результаты при определенных, причем отличных, условиях. Соответственно было бы разумным совместно использовать модули, использующие различные технологии распознавания. Единственным способом определения правильного результата трех систем является создание маленького, виртуального избирательного участка. Когда две системы говорят что распознанная буква - это "Б", а одна что "Ь", то выносится общее решение, что все-таки это буква будет "Б".
После того, как документ распознан, он поступает в систему управления документами, где проводится его индексирование. В зависимости от конкретной задачи и типа документа, он может быть загружен в полнотекстовый модуль или извлеченная из него информация попасть в систему атрибутивной индексации (например, значения из полей формы попадают в карточку документа).
Вышеперечисленные функции решаются набором серверов приложений. Сколько же необходимо подобных серверов. Для обеспечения максимальной гибкости, естественно, хотелось на каждую операцию с изображением иметь свой отдельный сервер приложений. Но в тоже время, потери на меж серверное взаимодействие (открытие, сохранение файлов, увеличение сетевого трафика и тому подобное) при увеличении количество серверов приложений кажутся значительными. Поэтому выделяются два основных сервера приложений
Сервер сканирования и предварительной обработки изображений
Сервер обработки изображения, распознавания. Данный сервер может существовать в двух ипостасях сервер для обработки стандартных документов
сервер для обработки форм
Кроме этого необходимо специализированное клиентское программное обеспечение, которое предназначено для решения проблемы ручного индексирования документа, в том случае, если не удается сделать это автоматически. Также данное рабочее место может служить для контроля качества обработки документа.
Количество серверов каждого типа определяется конкретной производительностью каждого сервера в конкретной конфигурации на заданной программно-аппаратной платформе и требуемой производительностью системы массового ввода. В общем случае мы получаем разное количество серверов, как на уровне скан-станции, так и на уровне сервера обработки и распознавания. Это явно не одна линия и с этой прорвой серверов надо как-то управляться. Существуют два основных метода управления серверами массового ввода
Файловый
Предлагается в качестве сервера управления использовать директорную структуру, причем организовывая ее таким образом, что каждой технологической операции соответствуют входящие и исходящие каталоги, в которые записываются файлы, на обработку и прошедшие обработку. Также существуют правила, по которым осуществляется переход от одной технологической операции к другой.
Преимущества
Простота и дешевизна
Недостатки
Решение слабо портируемое на различные операционные системы с различными файловыми системами.
Трудность в организации сложных (многостатусных) обработок. Например, документ распознался и определяется качество распознавания. В зависимости от уровня качества документ может направляться по тому или иному пути. В этом случае проектирование директорной структуры становится сложной задачей.
Трудно получить мгновенное состояние всех процессов. Если не ведется лог-файл, то невозможно получить историю процесса.
Необходимо придумывать и отписывать механизм блокировок файлов при их обработке.
Существует вероятность потери целостности процесса. Например, документ взят на обработку, но в результате некого сбоя не ушел на следующую стадию. В этой схеме, даже при наличии файла истории процесса, возможны безвозвратные потери документов.