Лекция 13. Автоматизация обработки документов. (Для самостоятельного изучения)
Компьютер предназначен для работы с документами, имеющими электронную форму. В то же время, нам часто приходится иметь дело с бумажными изданиями и документами: журналами, книгами, письмами, служебными записками и т.д. Чтобы в работе с информацией такого рода тоже можно было использовать компьютер, необходимы средства преобразования бумажных документов в электронную форму.
Если предполагается, что документ содержит в основном текстовую информацию, то можно выделить следующие основные этапы такого преобразования:
1) в ходе сканирования при помощи устройств оцифровки изображения производится создание электронного образа (изображения) документа;
2) процесс распознавания позволяет преобразовать электронное изображение в
текстовые данные ;
3) для документов, исполненных на иностранном языке, применяют дополнительные средства автоматизированного перевода на другой язык.
Преобразование документов в электронную форму
Процесс создания электронного изображения бумажного документа требует применения сканера. Такие устройства, как цифровые камеры, пока не могут обеспечить для документов стандартного формата качество изображения, которое гарантировало бы их надежное распознавание.
Все операции, необходимые в ходе преобразования бумажного документа в электронную форму, могут быть выполнены с помощью программы FineReader. Эта программа способна выполнять сканирование и распознавание текстов на разных языках, в том числе и смешанных двуязычных текстов.
Процесс обработки документа состоит из пяти этапов:
1) сканирование документа (кнопка Сканировать);
2) сегментация документа (кнопка Сегментировать);
3) распознавание документа (кнопка Распознать);
4) редактирование и проверка результата (кнопка Проверить);
5) сохранение документа (кнопка Сохранить). <
На этапе сканирования производится получение изображений при помощи сканера и сохранение их в виде, удобном для последующей обработки. Чтобы начать сканирование, надо включить сканер и щелкнуть на кнопке Сканировать на панели инструментов. В программе FineReaderсканирование может производиться как через драйвер TWAIN, так и в обход его. Первый способ используют, когда требуется точная настройка параметров сканирования, когда документ включает цветные иллюстрации, которые необходимо сохранить, а также когда разные страницы многостраничного документа сильно различаются по качеству. Второй вариант обеспечивает максимальную скорость и удобство сканирования. Выбор используемого варианта осуществляется при помощи флажка Показывать диалог TWAIN-драйвера сканера (Сервис ► Опции ► Сканирование).
Процесс сканирования осуществляется автоматически. Требуется только смена сканируемой страницы.
По завершении сканирования значки всех обработанных страниц отображаются в окне Пакет. В основной части рабочей области появляется окно Изображение, содержащее изображение текущей страницы. Добавлять страницы в пакет можно не только путем сканирования, но и путем открытия файлов с изображениями, имеющихся на компьютере.
Распознавание документа. Этап распознавания текста документа можно разделить на две операции, выполняемые поочередно. Первая операция — сегментация, разбиение страницы на блоки текста. Обычная книжная страница представляет собой единый блок текста, который распознается в естественном порядке — по строкам, расположенным на странице сверху вниз и идущим от левого края до правого. Если страница содержит колонки, иллюстрации, врезки, подрисуночные подписи или таблицы, то порядок распознавания требует коррекции.
В таком случае содержимое страницы разбивается на блоки. Внутри каждого блока сохраняется естественный порядок распознавания.
Блоки отображаются в виде цветных прямоугольников с номером в левом верхнем углу. Новый блок создают протягиванием мыши по диагонали прямоугольника. Текущий блок помечается выделенной линией, а его углы — прямоугольными маркерами. С помощью этих маркеров можно изменить размер или положение блока.
Команды редактирования блоков выведены на панель Изображение. Они позволяют:
1) объединить два блока в один
2) удалить фрагмент блока
3)изменить порядок нумерации блоков
4) изменить разбиение таблицы на ячейки.
Программа FineReaderподдерживает следующие типы блоков:
1) автоматический (Зона распознавания) — на этапе распознавания анализируется и разбивается на блоки автоматически;
2) текстовый (Текст) — на этапе распознавания преобразуется в текст;
3) табличный (Таблица) — представляет собой набор ячеек, каждая из которых
преобразуется в текст по отдельности;
4) изображение (Картинка) — включается в документ без изменений как графическая иллюстрация.
Процесс распознавания текста после сегментации полностью автоматизирован. Кнопка Распознать на панели инструментов позволяет автоматически выполнить сегментацию и распознавание, хотя в ходе сегментации учитываются ограничения, установленные вручную. В ходе процесса отображается диалоговое окно Распознавание, позволяющее прервать процесс. Кроме того, в этом окне отображаются сообщения, указывающие на наличие проблем при распознавании. Проблемы обычно вызываются неверными настройками или плохим качеством распознаваемого изображения. Если же дело в каких-то шрифтовых особенностях распознаваемого документа, применяют распознавание с обучением.
Распознавание с обучением. Распознавание с обучением состоит в формировании эталона, который используется в ходе распознавания в дальнейшем. Эталон настраивается так, чтобы соответствовать определенному документу или группе однотипных документов. Чтобы создать эталон, используют команду Сервис ► Редактор эталонов ► Новый. После этого надо указать имя эталона и щелкнуть на кнопке ОК. Режим распознавания с обучением включается при настройке параметров работы программы (Сервис ► Опции ► Распознавание). Создать, выбрать или сменить эталон можно, щелкнув на кнопке Эталоны. После этого необходимо установить флажок Распознавание с обучением.
Когда в ходе распознавания с обучением программа FineReaderобнаруживает символ, который не может интерпретировать однозначно, на экран выдается диалоговое окно Ручное обучение эталона. Программа указывает элемент изображения, вызвавший сомнения, и показывает, как именно он будет интерпретирован. Если допущена ошибка, можно указать нужный символ в поле Введите символ, выделенный рамкой или уточнить область распознавания с помощью кнопок Сдвинуть влево и Сдвинуть вправо. Затем надо щелкнуть на кнопке Обучить. Необходимые сведения сохраняются и используются при дальнейшем анализе изображения. Если число ошибок невелико, можно продолжить распознавание в обычном режиме щелчком на кнопке Закрыть.
Редактирование документа. Когда распознавание данной страницы завершается, полученный текстовый документ отображается в окне Текст. Провести проверку орфографии с учетом трудностей распознавания позволяет кнопка Проверить на панели инструментов. Информация о возможных ошибках и неоднозначностях отображается в диалоговом окне Проверка.
Сохранение документа. По щелчку на кнопке Сохранить на панели инструментов запускается Мастер сохранения результатов. Он позволяет сохранить распознанный текст или передать его в другую программу (например, в MicrosoftWord) для последующей обработки.
Автоматизированный перевод документов
К средствам автоматизации перевода можно отнести два вида программ: электронные словари и программы