Лекция 13. Автоматизация обработки документов. (Для самостоятельного изучения)

Компьютер предназначен для работы с документами, имеющими электронную форму. В то же время, нам часто приходится иметь дело с бумажными изданиями и документами: журналами, книгами, письмами, служебными записками и т.д. Чтобы в работе с информацией такого рода тоже можно было использовать компью­тер, необходимы средства преобразования бумажных документов в электронную форму.

Если предполагается, что документ содержит в основном текстовую информацию, то можно выделить следующие основные этапы такого преобразования:

1) в ходе сканирования при помощи устройств оцифровки изображения произво­дится создание электронного образа (изображения) документа;

2) процесс распознавания позволяет преобразовать электронное изображение в
текстовые данные ;

3) для документов, исполненных на иностранном языке, применяют дополнитель­ные средства автоматизированного перевода на другой язык.

Преобразование документов в электронную форму

Процесс создания электронного изображения бумажного документа требует применения сканера. Такие устройства, как цифро­вые камеры, пока не могут обеспечить для документов стандартного формата каче­ство изображения, которое гарантировало бы их надежное распознавание.

Все операции, необходимые в ходе преобразования бумажного документа в элект­ронную форму, могут быть выполнены с помощью программы FineReader. Эта программа способна выполнять сканирование и распознавание тек­стов на разных языках, в том числе и смешанных двуязычных текстов.

Процесс обработки документа состоит из пяти этапов:

1) сканирование документа (кнопка Сканировать);

2) сегментация документа (кнопка Сегментировать);

3) распознавание документа (кнопка Распознать);

4) редактирование и проверка результата (кнопка Проверить);

5) сохранение документа (кнопка Сохранить). <

На этапе сканирования производится получение изоб­ражений при помощи сканера и сохранение их в виде, удобном для последующей обработки. Чтобы начать сканирование, надо включить сканер и щелкнуть на кнопке Сканировать на панели инструментов. В программе FineReaderсканирование может производиться как через драйвер TWAIN, так и в обход его. Первый способ используют, когда требуется точная настройка параметров сканиро­вания, когда документ включает цветные иллюстрации, которые необходимо сохра­нить, а также когда разные страницы многостраничного документа сильно разли­чаются по качеству. Второй вариант обеспечивает максимальную скорость и удобство сканирования. Выбор используемого варианта осуществляется при помощи флажка Показывать диалог TWAIN-драйвера сканера (Сервис ► Опции ► Ска­нирование).

Процесс сканирования осуществляется автоматически. Требуется только смена сканируемой страницы.

По завершении сканирования значки всех обработанных страниц отображаются в окне Пакет. В основной части рабочей области появляется окно Изображение, содер­жащее изображение текущей страницы. Добавлять страницы в пакет можно не только путем сканирования, но и путем открытия файлов с изображениями, имею­щихся на компьютере.

Распознавание документа. Этап распознавания текста документа можно разде­лить на две операции, выполняемые поочередно. Первая операция — сегментация, разбиение страницы на блоки текста. Обычная книжная страница представляет собой единый блок текста, который распознается в естественном порядке — по стро­кам, расположенным на странице сверху вниз и идущим от левого края до правого. Если страница содержит колонки, иллюстрации, врезки, подрисуночные подписи или таблицы, то порядок распознавания требует коррекции.

В таком случае содержимое страницы разбивается на блоки. Внутри каждого блока сохраняется естественный порядок распознавания.

Блоки отображаются в виде цветных прямоугольников с номером в левом верх­нем углу. Новый блок создают протягиванием мыши по диагонали прямоугольника. Текущий блок помечается выделенной линией, а его углы — прямоугольными мар­керами. С помощью этих маркеров можно изменить размер или положение блока.

Команды редактирования блоков выведены на панель Изображение. Они позволяют:

1) объединить два блока в один

2) удалить фрагмент блока

3)изменить порядок нумерации блоков

4) изменить разбиение таблицы на ячейки.

Программа FineReaderпод­держивает следующие типы блоков:

1) автоматический (Зона распознавания) — на этапе распознавания анализируется и разбивается на блоки автоматически;

2) текстовый (Текст) — на этапе распознавания преобразуется в текст;

3) табличный (Таблица) — представляет собой набор ячеек, каждая из которых
преобразуется в текст по отдельности;

4) изображение (Картинка) — включается в документ без изменений как графи­ческая иллюстрация.

Процесс распознавания текста после сегментации полностью автоматизирован. Кнопка Распознать на панели инструментов позволяет автоматически выполнить сег­ментацию и распознавание, хотя в ходе сегментации учитываются ограничения, установленные вручную. В ходе процесса отображается диалоговое окно Распозна­вание, позволяющее прервать процесс. Кроме того, в этом окне отображаются сооб­щения, указывающие на наличие проблем при распознавании. Проблемы обычно вызываются неверными настройками или плохим качеством распознаваемого изоб­ражения. Если же дело в каких-то шрифтовых особенностях распознаваемого доку­мента, применяют распознавание с обучением.

Распознавание с обучением. Распознавание с обучением состоит в формировании эталона, который используется в ходе распознавания в дальнейшем. Эталон настра­ивается так, чтобы соответствовать определенному документу или группе однотип­ных документов. Чтобы создать эталон, используют команду Сервис ► Редактор эталонов ► Новый. После этого надо указать имя эталона и щелкнуть на кнопке ОК. Режим распознавания с обучением включается при настройке параметров работы программы (Сервис ► Опции ► Распознавание). Создать, выбрать или сменить эта­лон можно, щелкнув на кнопке Эталоны. После этого необходимо установить фла­жок Распознавание с обучением.

Когда в ходе распознавания с обучением программа FineReaderобнаруживает сим­вол, который не может интерпретировать однозначно, на экран выдается диалоговое окно Ручное обучение эталона. Программа указывает элемент изобра­жения, вызвавший сомнения, и показывает, как именно он будет интерпретиро­ван. Если допущена ошибка, можно указать нужный символ в поле Введите символ, выделенный рамкой или уточнить область распознавания с помощью кнопок Сдви­нуть влево и Сдвинуть вправо. Затем надо щелкнуть на кнопке Обучить. Необходи­мые сведения сохраняются и используются при дальнейшем анализе изображения. Если число ошибок невелико, можно продолжить распознавание в обычном режиме щелчком на кнопке Закрыть.

Редактирование документа. Когда распознавание данной страницы завершается, полученный текстовый документ отображается в окне Текст. Провести проверку орфографии с учетом трудностей распознавания позволяет кнопка Про­верить на панели инструментов. Информация о возможных ошибках и неоднозначностях отображается в диалоговом окне Проверка.

Сохранение документа. По щелчку на кнопке Сохранить на панели инструментов запускается Мастер сохранения результатов. Он позволяет сохранить распознанный текст или передать его в другую программу (например, в MicrosoftWord) для последующей обработки.

Автоматизированный перевод документов

К средствам автоматизации перевода можно отнести два вида программ: элект­ронные словари и программы

Наши рекомендации