Проектирование процесса автоматизированного ввода бумажных документов
Одной из основных задач, связанных с сокращением затрат на обработку данных, является автоматизация массового ввода бумажных первичных документов, загрузки данных в информационную базу. Основное отличие массового ввода документов от простого сканирования состоит в том, что обрабатывается большое количество однотипных документов. В качестве примеров приложений данной технологии в конкретных предметных областях можно привести систему ввода и обработки Платежных поручений в банке, систему ввода «Налоговых деклараций», систему ввода и проверки бухгалтерских документов в пенсионном фонде.
Для организации обработки большого количества бумажных документов и перевода их в электронную форму необходимо разработать систему массового ввода документов (СМВ), которая будет способна работать как с одним, так и с несколькими тысячами бумажных документов в день. При проектировании системы ввода бумажных документов выполняется следующая совокупность операций:
· определение состава операций, которая должна выполнять система;
· выбор технических средств реализации выполнения этих операций;
· выбор и настройка программного обеспечения;
· разработка технологической документации.
Рассмотрим содержание основных операций автоматизированного ввода бумажных документов. Автоматизированное чтение и ввод документов включают в себя операции, которые можно объединить в несколько стадий:
1) подготовка документов к сканированию;
2) получение изображения документа;
3) распознавание и ввод данных, содержащихся в документе в ИБ.
1. Подготовка документов к сканированию - очень важная фаза процесса ввода документов, которая обеспечивает получение достоверных отсканированных изображений, сохраняемых в системе, и включает в себя две операции: непосредственную подготовку документов для сканирования и выполнение описания настройки системы на конкретную форму документа.
Подготовка документов для сканирования предполагает выполнение следующих шагов:
· определение самого документа для сканирования;
· выбор конкретных областей документа для сканирования;
· определение технологической цепочки движения документа до сканирования;
· непосредственная подготовка документов для сканирования: открытие конвертов, удаление скрепок или других предметов, мешающих сканированию;
· подготовка пакетов документов для сканирования.
Составление описания каждого документа предполагает выполнение трех операций:
· составления настройки формы документа;
· настройки модели ввода;
· настройки полей формы документа и индексации базы данных.
В основе выполнения этого состава операций лежит понятие форматированного (структурированного) документа (ФД). Типичными примерами форматируемых документов являются «Платежные поручения», «Прайс-листы», «Декларации о доходах», «Счета» и т.д. Основной структурной единицей форматируемого документа является поле документа. Каждое поле описывается в двух аспектах: визуально, в частности геометрически, и содержательно. С изобразительной точки зрения каждое поле должно быть явно обособлено: пустыми промежутками, разделительными линиями, оригинальным типом шрифта, уровнем фона, цветом и т.д.
Содержательная часть характеризуется назначением поля, словарным и алфавитным составом, а также некоторыми законами построения текста, например, в поле почтового адреса должны быть сведения о городе, улице, доме и проч.
Геометрические и содержательные характеристики полей могут быть как абсолютно независимыми, так и взаимосвязанными. Например, в приходном ордере рядом с полями «количество» и «цена» находится поле «сумма».
Документы, которые подлежат сканированию, могут быть объединены в группы по нескольким признакам. По способу нанесения информации можно выделить документы, в которых используются метки, печатный или рукописный текст. Так, например, Избирательные бюллетени используют меточный способ, в то время как Прайс-листы - печатный, а первичные бухгалтерские документы - в основном рукописные.
По геометрической вариантности полей различают документы, в которых расположение всех полей и записей строго фиксировано относительно опорных элементов: рамок, линий, постоянных напечатанных записей, специальных маркеров. Все специально подготовленные для машинной обработки документы обладают этим качеством. Другим типом являются документы, которые имеют произвольное расположение полей.
Кроме того, можно разделять документы по наличию явных разделителей полей, которые часто присутствуют в таблицах, бухгалтерских документах и в платежных поручениях, или их отсутствию.
2. Получение изображения документа включает в себя выполнение таких операций, как сканирование; контроль качества отсканированных изображений и возможное повторное сканирование.
Сканирование - это очень ответственная операция, и, следовательно, к выбору конкретной модели сканера необходимо подходить достаточно ответственно. При выборе следует учитывать следующие факторы: размеры документов, их состояние, является ли документ односторонним или двухсторонним, производительность сканеров, необходимое разрешение изображения, надежность получаемых изображении и др.
В настоящее время на рынке технических средств предлагается достаточно большое количество различных моделей сканеров, которые можно классифицировать по производительности на следующие виды:
· персональные - низкоскоростные (20-40 строк/мин, например Fujitsu Scan Partner 10, HP ScanJet и др.);
· настольные офисные - среднескоростные (40-60 строк/мин или 80-120 изображений в минуту, например ВапсТес 2610 Bell&Howell6338, Fujitsu3099, Kodak ImageLink 500 и др.);
· высокопроизводительные потоковые (90-185 страниц/мин или 180-370 изображений в минуту, например ВапсТес S-series, Photomatrix 5000, Kodak ImageLink 900 и др.).
По качеству сканирования, зависящего от разрешающей способности, их можно разделить на следующие группы:
· с низкой разрешающей способностью (200-400 точек на дюйм);
· со средней разрешающей способностью (600-800 точек/ дюйм);
· с высокой разрешающей способностью (1600-2800 точек/ дюйм);
· специального назначения.
Для ввода ветхих документов применяют сканеры специального назначения с вакуумным прижимом документов, которые предъявляют весьма низкие требования к документу и обрабатывают его в щадящем режиме. Такие сканеры позволяют сканировать не полностью раскрытые книги и документы плохого качества. Скорость ввода у таких устройств 0,25-3 страницы в минуту.
Контроль качества отсканированных изображений необходим для того, чтобы все нужные документы были отсканированы и легко читаемы (не должно быть пропущенных страниц, некачественных изображений и т.д.). Для повышения эффективности и надежности системы следует иметь возможность выборочной проверки качества отсканированных изображений, а при сканировании многостраничных документов - возможность отслеживать порядок сканируемых страниц.
Повторное сканирование проводится в случае неудовлетворительного качества изображения или из-за проблем, связанных с неправильным порядком страниц в документе.
3. Распознавание и ввод данных, содержащихся в документе, в информационную базу предполагают выполнение следующих основных операций:
· предварительной обработки изображений;
· нахождения полей (сегментация документа и чтение текста);
· проверки распознанной информации;
· ввода данных в информационную базу.
Предварительная обработка изображения документов использует следующие специальные функции:
· очищение изображения применяется для снятия с изображений отдельных элементов (например, точки, пятна);
· снятие фона и выделений (например, с ценных бумаг);
· выравнивание изображения для последующей его обработки с целью улучшения качества распознавания, чтобы документ показать в строго вертикальном положении в процедуре распознавания без перекосов;
· снятие элементов форм (для того чтобы эффективно обрабатывать форму, необходимо удалять с изображения элементы формы: линии, разграфки, таблицы и т.д.);
· определение идентификатора форм (так как приходится вводить в систему самые разнообразные формы, отличные как по содержанию, так и по структуре; для того чтобы система могла работать со множеством форм, она должна определять, какая форма поступила на обработку, и загружать соответственно заранее настроенное и подготовленное описание формы);
· восстановление букв и символов, если они оказываются пересеченными элементами формы, например линией (для последующего распознавания символа необходимо удалить линию таким образом, чтобы буква не пострадала).
Кроме того, к предварительной обработке изображения относятся следующие функции, повышающие надежность распознавания:
· вращение изображения на произвольный угол;
· масштабирование изображения;
· регулирование уровня серого цвета;
· компрессия и декомпрессия изображения.
Процессы нахождения полей (сегментация документа) и чтения текста могут быть выполнены последовательно и независимо, если поля полностью определены своими визуальными характеристиками. Такая ситуация характерна для машиночитаемых форм и документов с явными разделителями полей в виде линий или больших промежутков. В документах, не имеющих строго определенного положения полей и явных разделителей между ними, нет принципиально иного способа, как прочитать текст и по его содержанию скорректировать результаты предварительной сегментации.
В машиночитаемых формах задача в основном сводится к нахождению опорных элементов и вычислению относительно них положения информативных полей. Документы, не имеющие строго заданной геометрии, но тем не менее использующие явно заданные разделители, обрабатываются достаточно надежно, например таблицы с разделителями в виде горизонтальных и вертикальных прямых.
Наиболее сложная ситуация возникает при работе с гибкими формами документов. Термин «гибкая» означает, что известны состав полей, их примерное расположение, некоторые особенности по строению полей, но отсутствует полная и точная ориентация по их расположению.
Как правило, задачи обработки разных форм документов, таких, как платежные документы, налоговые декларации и другие, решаются индивидуально путем программирования с использованием общих приемов.
Распознавание документа, анализ содержания документа и извлечение данных осуществляются в настоящее время с помощью следующих систем распознавания текстов, отличающихся по стоимости, качеству и скорости работы:
· OCR (Optical Character Recognition) - технология оптического распознавания печатных символов, т.е. перевода сканированного изображения печатных символов в их текстовое представление;
· ICR (Intelligent Character Recognition) - распознавание раздельных печатных символов, написанных от руки;
· OMR (Optical Mark Recognition) - распознавание отметок (обычно перечеркнутые крест-накрест либо галочками квадраты или круги);
· стилизованные цифры - распознавание рукописных цифр, написанных от руки по шаблону, как на почтовых конвертах.
Существует несколько подходов к реализации технологий ввода рукописных символов.
· Распознавание on-line осуществляется в тот момент, когда человек пишет специальным пером на сенсорном экране, воспринимающем дополнительную информацию о траектории движения руки, наклоне пера, силе нажима и т.д. Применяется в основном в персональных электронных записных книжках типа 3Com PalmPilot для рукописного ввода числовых и символьных данных.
· Распознавание off-line - распознавание произвольного рукописного текста, введенного в компьютер через сканер.
Распознавание рукописных символов является подмножеством технологии распознавания off-line. Применяется, как правило, для ввода стандартных форм. Очевидно, что распознавание рукописного текста значительно сложнее, чем печатного. Если в последнем случае мы имеем дело с ограниченным числом вариаций изображений шрифтов (шаблонов), то в рукописном варианте число шаблонов неизмеримо больше.
Для OCR-систем в основном используются три технологии:
· матричная (Matrix-based);
· описательная (основана на описании правил построения символов);
· нейронная (основана на использовании нейронных сетей).
Проверка распознанных данных является следующей операцией, реализуемой системой ввода.
Системы автоматического распознавания обычно вместе с результатом возвращают так называемую «степень уверенности». Для повышения надежности данных после распознавания применяются определенные пользователем автоматизированные методы проверки данных (например, можно проверить, имеется ли распознанная информация в базе данных, и если нет, то пометить поле как некорректное).
Если данные после распознавания помечены как некорректные, то они автоматически направляются на ручное редактирование. Во время редактирования оператор видит реальное изображение нераспознанного поля и имеет возможность откорректировать его. После ввода оператором новых данных снова применяются правила проверки данных, т.е. на всех этапах ввода, как автоматического, так и ручного, осуществляется проверка данных в соответствии с правилами, определенными пользователем. Большие требования в данном случае предъявляются к методам проверки вводимых данных. Для повышения надежности данных используются дополнительные механизмы, такие, как применение словарей и таблиц, определяемых пользователем. Как правило, системы включают специальные встроенные средства для определения специальных процедур проверки для каждого поля документа.
Ввод данных, содержащихся в документе, в информационную базу является заключительной операцией. При этом может быть сохранено изображение документа.
В отличие от обычной системы распознавания (OCR) система ввода стандартных форм использует формальное описание исходной формы документа или бланка. Это позволяет автоматически помещать распознанную информацию в поля базы данных без участия оператора. Строгое соблюдение стандарта внешнего вида формы существенно повышает точность распознавания полей документа.
Основной фактор при оценке эффективности систем распознавания заключается в стоимости исправления ошибок при распознавании, а не в точности и скорости системы. В некоторых случаях затраты на исправление ошибок при распознавании могут перекрыть все плюсы автоматизации и сделать ручной ввод по изображению более эффективным.
При разработке и использовании такой системы проектировщику требуется выполнить также большой объем работ по интеграции этой системы ввода в действующую или разрабатываемую информационную систему. На производительность системы очень большое влияние оказывают используемая технология ввода, ее настройка на текущую задачу и вид документов. Здесь нужно учитывать состав оборудования, программное обеспечение и совместимость формата распознанной информации с уже существующими системами.
Существует множество компаний, которые предлагают решения или компоненты систем обработки форм. Решение о внедрении системы обработки форм, а также выбор того или иного приложения должны производиться с учетом в первую очередь следующих требований:
· тип обрабатываемых документов и вид содержащихся в них данных;
· точность распознавания;
· наличие эффективной системы редактирования;
· настраиваемость системы на требования конкретного заказчика и способность изменяться согласно меняющимся внешним условиям без программирования;
· наличие поддержки сканеров различных типов, а также разного рода плат обработки изображений документов;
· наличие редактора форм, настраивающего систему на новые формы или изменения старой формы, на которую система была предварительно ориентирована;
· наличие редактора схем обработки документов, открытого интерфейса подключения различных модулей распознавания (в зависимости от типа формы можно для повышения качества распознавания подключать тот или иной модуль, который наиболее подходит для данного типа формы);
· наличие редактора схем экспорта в базу данных (данные, которые извлекаются при обработке формы, должны быть переданы в базу данных для хранения или в другие бизнес-приложения для обработки).
Рассмотрим в качестве примера систему Cognitive Forms компании Cognitive Technologies. Cognitive Forms - российская система промышленного (иногда говорят поточного) ввода стандартных форм документов, которая работает под управлением операционных систем Windows 95/NT и MacOS. Система принадлежит к классу OCR/ICR/OMR и позволяет вводить в базы данных и информационные системы формы с печатным, рукописным заполнением и отметками (checkbox).
Cognitive Forms предназначена для автоматизированного ввода в информационные системы и базы данных произвольных, одно- и многостраничных форм документов, соответствующих определенным требованиям к оформлению и заполнению и подготовленных на лазерных, струйных и матричных принтерах или на стандартных бланках с использованием пишущих машинок.
Эта система позволяет осуществлять распределенную поточную обработку (сканирование, распознавание, редактирование и контроль) в сети с производительностью распознавания до 14 000 страниц формата А4 в смену на одном компьютере и осуществлением автоматического контроля результатов распознавания. Экспорт данных может осуществляться в базы данных, банковские системы типа операционный день и системы создания электронных архивов и автоматизации документооборота.
Внедрение системы позволяет обеспечить ускорение ввода стандартных форм документов в 5-10 раз по сравнению с ручным вводом.
Сканированные образы могут быть сохранены в электронном архиве банка для ведения истории делопроизводства организации.
Cognitive Forms состоит из трех основных модулей:
· Cognitive FormDesigner отвечает за проектирование описания формы документа для программ распознавания и редактирования.
· Cognitive FormReader обеспечивает автоматическое распознавание потока стандартных форм, поступающих со сканера. В автоматическом режиме осуществляет поточное распознавание форм по заданному описанию и контекстную проверку результатов.
· Cognitive FormEditor предназначен для операторского контроля распознанных форм и сохранения информации из введенных форм в записи базы данных и позволяет оператору визуально контролировать и редактировать распознанные поля форм.
Cognitive Forms дает возможность осуществлять распределенную в рамках локальной сети, обработку вводимых форм и добиться эффективного доступа к данным в режиме реального времени. Например, на Pentium II-233 время распознавания системой Cognitive Forms одного бланка составляет около 2 с. Для промышленного ввода применяются высокопроизводительные сканеры: Kodak, Bell+Howell, BancTec, Fujitsu и другие, а также сетевые устройства (Hewlett-Packard). Производительность некоторых моделей достигает сотен страниц в минуту.
Технология использования системы сводится к выполнению четырех шагов.
1. Вначале сотрудники Cognitive Technologies или заказчик собственными силами создают описание формы (файл с расширением *.frm) или нескольких форм документов в программе Cognitive FormDesigner.
2. Посредством любого сканера бумажные экземпляры вводятся в компьютер и сохраняются в виде графических изображений (*.tif).
3. Для распознавания стандартных форм, удовлетворяющих требованиям Cognitive Technologies к оформлению, используется программа Cognitive FormReader.
4. После распознавания оператор может произвести проверку, откорректировать данные и сохранить их в формате необходимой базы данных. Для этого в программе FormEditor оператор сравнивает изображение формы и поля базы данных. Он редактирует значения полей, глядя на экран компьютера и не тратя времени на работу с бумажным оригиналом. Система направляет оператора, не давая ему возможности ошибиться в формате данных, регистре, типе, диапазоне значений и т.д., что существенно облегчает ввод большого объема информации в используемые базы данных.
Система Cognitive Forms была разработана для применения в банковской сфере для печати и ввода новых форм платежных поручений.
Эффективность применения системы ввода бумажных документов в ЭИС основана в первую очередь на значительном сокращении участия человека во вводе данных. Как следствие, можно наблюдать уменьшение времени ввода документов и количества ошибок. Для организаций, обрабатывающих большие потоки форм (центральные налоговые и почтовые ведомства, статистические организации, центры авторизации по расчетам за кредитные карты), использование описанных технологий позволит решить проблемы эффективности обработки сотен тысяч и даже миллионов форм в сжатые сроки.
Вопросы для самопроверки
1. Каково содержание основных операций технологического процесса получения первичной информации?
2. Каковы методы и средства выполнения операции съема первичной информации и ее контроля?
3. Каковы методы и средства выполнения операций регистрации и сбора первичной информации и контроля правильности их выполнения?
4. Каковы методы, технические и программные средства обеспечения передачи первичной информации в ЭИС?
5. Какой перечень операций входит в состав технологической сети проектирования процессов получения и передачи первичной информации?
6. Каков состав процедур ведения ИБ?
7. Каковы требования, предъявляемые к процедуре загрузки?
8. Каков состав основных операций, включаемых в процедуру загрузки?
9. Каково содержание операции Прием, контроль и регистрация первичной информации и от какого фактора оно зависит?
10. Перечислите методы ввода первичной информации в компьютер и методы контроля вводимой информации.
11. Перечислите особенности подготовки первичных данных, влияющих на содержание операций процедуры загрузки.
12. Какой состав методов семантического и синтаксического контроля первичной информации, используемых при загрузке данных?
13. Каков состав операций проектирования процедуры загрузки данных в ИБ?
14. Какие средства частичной автоматизации проектирования процедуры загрузки вы знаете и какие факторы влияют на их выбор?
15. В чем особенность и каков состав операций, выполняемых при вводе информации с бумажных носителей?
16. Каков состав операций по проектированию системы ввода информации с бумажных документов?
17. Что такое форматированный документ и каковы способы его описания?
18. Что такое сканирование и факторы, влияющие на выбор сканерных устройств?
19. Что такое распознавание текста и каковы методы, применяемые для распознавания текстовой информации?
20. Перечислите методы контроля, используемые для проверки распознанного текста.
21. Каков состав требований, предъявляемых к системе ввода бумажных документов?
22. Каковы особенности структуры и технологии использования системы Cognitive Forms?
23. Каково содержание процедуры актуализации и каков состав операций проектирования процедуры актуализации ИБ?
24. Каков состав операций проектирования процесса обеспечения надежности хранения данных в ИБ?