Система массового ввода бумажных документов

Для организации обработки большого количества бумажных документов и перевода их в электронную форму предназначена система массового ввода документов. Слово массовый говорит о том, что данная система масштабируема и способна работать как с одним бумажным документом в день, так и с 100 тысячами бумажных документов в день. Данная подсистема присутствует практически в любой задаче, дело лишь в количестве обрабатываемых документов.

В технологии обработки документов выделяют две основные группы

- Просто документы

- Формы

Процесс обработки документов состоит из следующих элементов

- Сканирование документа

- Обработка изображения документа

Является очень важной часть процесса обработки бумажных документов. Очевидно, что качество изображений документов после прохождения через сканер оставляет желать лучшего . Кроме того, любой документ (особенно формы) содержит множество дополнительной информации, облегчающей заполнение, но абсолютно ненужной, а часто мешающей при обработке изображения. Также эти функции применяются для уменьшения размера сохраняемого изображения. Для обработки изображения документов используются следующие специализированные функции

- Очищение изображения - применяется для снятия с изображения отдельных элементов, как то отдельно стоящие точки, пятна и т.п.

- Снятие фона и выделений- очень часто документы имеют общий фон с цветом отличным от белого (ценные бумаги, например). Для их обработки необходимо удалять фон.

- Выравнивание изображения - для последующей обработки изображения и качества распознавания очень важно, чтобы документ попадал в строго вертикальном положении в процедуру распознавания. Данная функция позволяет выполнять процедуру выравнивания изображения (или по-другому - устранения перекосов в изображении).

- Снятие элементов форм - для того, чтобы эффективно обрабатывать форму, необходимо удалять с изображения элементы форм. Как то линии, разграфки, таблицы и тому подобное.

- Определение идентификатора форм - очень часто приходится вводить в систему самые разнообразные формы, отличные как по содержанию, так и по структуре. Для того, чтобы система могла работать с множественными формами, она должна определять что за форма поступила на обработку и загружать соответствующее, заранее настроенное и подготовленное описание формы 11.

- Восстановление букв и символов - очень часто случается, что в заполненной форме буква оказывается пересеченной элементом формы (например линией). Для последующего успешного распознавания символа необходимо удалить линию, таким образом, что буква при таком удалении не пострадала.

Основной подсистемой, которая обеспечивает индексирование документа является система распознавания изображений. Существует огромное множество систем распознавания, отличающихся по стоимости, качеству и скорости работы. По крупному можно выделить два класса систем.

- Системы оптического распознавания (OCR) - работают только с машинописным текстом

- Интеллектуальные системы распознавания (ICR) - работают с рукописным тестом двух видов:

- Hand-Print - текст написанный от руки, но только печатными и большими буквами

- Произвольный рукописный текст.

Кроме того этот класс систем решает специализированные задачи распознавания изображения, как то:

- распознавание штрих-кодов

- распознавание специальных меток (Пример, когда Вы заполняете избирательный бюллетень, Вы ставите отметку (крестиком или галочкой) в специально напечатанном квадрате или кружке, напротив выбранного Вами кандидата. Система позволяет распознать Ваш выбор и автоматически ввести его в систему)

. Системные интеграторы берут несколько модулей систем распознавания от разных производителей. Основным требованием к подбору таких модулей является использование различных технологий распознавания. Для OCR систем в основном используются три технологии

Матричная (Matrix-based),

Описательная (основана на описании правил построения символов)

Нейронная (основана на использовании нейронных сетей)

- Каждая из этих технологий дает лучшие результаты при определенных, причем отличных, условиях. Соответственно было бы разумным совместно использовать модули, использующие различные технологии распознавания.

Кроме этого необходимо специализированное клиентское программное обеспечение, которое предназначено для решения проблемы ручного индексирования документа, в том случае, если не удается сделать это автоматически. Также данное рабочее место может служить для контроля качества обработки документа.

Количество серверов каждого типа определяется конкретной производительностью каждого сервера в конкретной конфигурации на заданной программно-аппаратной платформе и требуемой производительностью системы массового ввода. В общем случае мы получаем разное количество серверов, как на уровне скан-станции, так и на уровне сервера обработки и распознавания. Это явно не одна линия и с этой прорвой серверов надо как-то управляться. Существуют два основных метода управления серверами массового ввода.

Файловый
Предлагается в качестве сервера управления использовать директорную структуру, причем организовывая ее таким образом, что каждой технологической операции соответствуют входящие и исходящие каталоги, в которые записываются файлы, на обработку и прошедшие обработку. Также существуют правила, по которым осуществляется переход от одной технологической операции к другой.

Использование сервера базы данных

Предлагается в качестве сервера управления использовать специализированный сервер приложений, который взаимодействует с базой данных. Для каждого документа, который попадает в систему ввода документов создаются и контролируются задания. Переход на следующую стадию - это изменение статуса задания. Каждая обработка документа (процедура, связанная с изменением статуса задания) является выделенной транзакцией на сервере баз данных. Если обработка не выполняется по каким-либо причинам, то транзакция откатывается назад и задание на обработку остается невыполненным и идет снова на выполнение. Следовательно, мы гарантированы от потери документов при такой организации обработки. Также существует заранее описанный свод бизнес-правил, в котором указываются варианты движения документа в зависимости от его статусов. Документы хранятся на специальном промежуточном устройстве хранения, обязательно с малым временем доступа к информации.

Наши рекомендации