Работа с программой сканирования и распознавания текстовых документов

Цель занятия: получение практических навыков по работе с программами сканирования и распознавания текста и графики.

В результате работы студенты должны приобрести:

- практические умения по использованию программного обеспечения сканирования и распознавания текста и графических объектов;

- навыки по записи, корректировке и воспроизведению отсканированных документов.

1 Теоретические сведения

Одна из наиболее популярных программ сканирования – ABBYY Fine Reader. Это омнифонтовая система оптического распознавания текстов, характеризующаяся высокой точностью и малой чувствительностью к дефектам печати.

Новая версия популярной системы оптического распознавания текста (OCR) — ABBYY FineReader 7.0 поможет вам за считанные минуты превратить в электронный редактируемый документ газетную или журнальную статью, нужную страницу книги, договор, письмо, факс или листовку с максимально точным сохранением исходного оформления документа.

Седьмая версия ABBYY FineReader в сравнении с предыдущей версией на 45% лучше распознает PDF-файлы. Точность распознавания обычных изображений повысилась в среднем на 25%.

Система позволяет сохранять результаты распознавания в формате XML, а также передавать распознанные изображения в Microsoft PowerPoint. Интеграция с Microsoft Word 2003 обеспечивает возможность редактирования результатов распознавания с помощью привычных инструментов Word, одновременно сверяя текст с оригинальным изображением.

ABBYY FineReader 7.0 поставляется в двух версиях: ABBYY FineReader 7.0 Professional Edition (для использования на отдельностоящем компьютере или в домашних условиях) и ABBYY FineReader 7.0 Corporate Edition (для использования в сетевой среде).

ABBYY FineReader 7.0 Professional Edition

Система ABBYY FineReader 7.0 Professional Edition позволит на отдельно стоящем рабочем месте или в домашних условиях свести к минимуму затраты времени и сил, необходимые для преобразования печатных документов в электронный вид. От предыдущей версии продукта ABBYY FineReader 7.0 Professional Edition отличает улучшенное качество распознавания и сохранения оформления документа, более высокая точность распознавания PDF-файлов, поддержка возможности сохранения результатов в форматы Microsoft Word XML и Microsoft PowerPoint. Кроме того, продукт обладает рядом функциональных возможностей, доступных ранее только пользователям корпоративной версии. Например, теперь профессиональная версия системы для лучшего распознавания может разбивать изображение с помощью специальных инструментов, распознавать штрих-коды, осуществлять полнотекстовый поиск с учетом морфологии.

Основные возможности

Отличное качество распознавания

Благодаря усовершенствованию уникальной технологии распознавания ABBYY, новая версия FineReader стала на 25% точнее и максимально полно сохраняет исходное оформление документа. Улучшение качества распознавания достигается благодаря добавлению к перечню ранее использовавшихся методов сравнения и анализа текста нового — с применением структурных классификаторов. Использование данных классификаторов делает возможным восстановление информации о плохо пропечатанных или "залитых" символах, что помогает более качественно распознавать тексты, напечатанные на цветном и текструрированном фоне.

Улучшенный анализ и сохранение оформления документа

Улучшенные алгоритмы многоуровневого анализа документа (MDA — Multilevel Document Analysis) позволяют еще лучше распознавать документы с максимально точным сохранением оформления, в том числе документы со сложными таблицами, а также таблицами с частичной разметкой и цветными ячейками.

Поддержка формата XML

Система ABBYY FineReader 7.0 поддерживает возможность сохранения распознанной информации в формате XML. Это позволяет использовать результаты работы ABBYY FineReader в других приложениях. Сохранение данных происходит в соответствии с XML-схемой Microsoft Office Word 2003.

Интеграция с Microsoft Office Word 2003

Благодаря наличию возможности сохранения дополнительной справочной информации при экспорте в XML-файл формата Microsoft Word достигается особенно тесная интеграция ABBYY FineReader и Microsoft Office Word 2003, что позволяет объединить возможности этих приложений, чтобы сделать работу с документами еще более удобной. Пользователь сможет редактировать результаты распознавания с помощью привычных инструментов Word, одновременно сверяя текст с оригинальным изображением, которое отображается в zoom-окне ABBYY FineReader 7.0.

Работа с PDF-файлами

Точность распознавания PDF-файлов возросла на 45%. Работая с системой ABBYY FineReader 7.0, пользователь сможет открывать и распознавать PDF-файлы, редактировать результат распознавания и заново сохранять отредактированный файл в формате PDF или в любом другом из поддерживаемых программой форматов. Кроме того, результаты распознавания обычных изображений также могут быть сохранены как PDF-файлы. Созданные в ABBYY FineReader 7.0 Professional Edition PDF-файлы оптимизированы для публикации в Интернете, то есть первые страницы многостраничного документа доступны для чтения сразу же, в то время как остальные страницы продолжают загружаться на компьютер.

FineReader поддерживает 4 основных режима сохранения в формат PDF: только текст и картинки, только изображение, текст поверх изображения страницы, текст под изображением страницы. Дополнительно может быть установлена опция "Заменять неуверенно распознанные символы их изображениями".

Поддержка технологии Hyper-Threading

Технология Hyper-Threading позволяет повышать скорость выполнения операций в фоновом режиме за счет имитации на одном процессоре многопроцессорной работы. Используя ABBYY FineReader 7.0 на процессорах Intel Pentium 4 c технологией Hyper-Threading с тактовой частотой более 3Ггц, пользователь может увеличить производительность системы в среднем на 16%.

Распознавание многоязычных документов

ABBYY FineReader распознает документы на 177 наиболее распространенных европейских языках включая русский, английский, немецкий, французский, испанский, итальянский, шведский, финский, болгарский, венгерский, словацкий, чешский, башкирский, белорусский, казахский, украинский. Для 34 языков встроена проверка орфографии. Кроме того, в новую версию системы добавлены медицинский и юридический словари для английского и немецкого языков, что позволяет повысить точность распознавания специализированных текстов данной тематики на этих языках на 30-40%.

Многоколоночный WYSIWYG-редактор

Встроенный WYSIWYG-редактор обеспечивает максимально точное воспроизведение всех деталей оформления документа: в окне редактора колонки текста, таблицы и картинки отображаются точно так же, как они были расположены на исходном изображении. Это означает, что качество сохранения форматирования документа вы можете проверить сразу, не дожидаясь экспорта документа в Microsoft Word или веб-браузер.

Система проверки орфографии

В ABBYY FineReader 7.0 реализована возможность проверять и редактировать распознанный текст. Неуверенно распознанные символы и слова, которых нет в словаре, выделяются различными цветами. При этом система предложит вам варианты написания таких слов и одновременно покажет фрагмент текста, в котором они встречаются.

Полнотекстовый поиск с учетом морфологии

Любой пакет, созданный в программе ABBYY FineReader 7.0 Professional Edition, можно использовать в качестве небольшой базы данных с возможностью полнотекстового поиска с учетом морфологии. Система полнотекстового поиска способна находить заданные слова во всех их формах (для 34 языков со словарной поддержкой).

Приложение для заполнения форм

Каждый пользователь, зарегистрировавший ABBYY FineReader 7.0 Professional Edition, получает при регистрации специальное приложение, которое поможет заполнить любую форму всего за всего несколько минут. Например, заявление на выдачу загранпаспорта. На отсканированном изображении можно разметить поля для ввода текста, настроить параметры этих полей и вписать в них требуемую информацию. Если нужно заполнить одну и ту же форму для разных сотрудников одной организации, достаточно один раз создать эту форму с полями данных, и затем импортировать данные для заполнения из внешнего источника, например, из таблицы Microsoft Excel.

Инструменты для разбиения изображения

Вы можете разбивать изображения на несколько частей и сохранять каждую их них как отдельную страницу. Эта возможность особенно полезна при распознавании книжных разворотов, визитных карточек и распечаток презентаций Microsoft PowerPoint.

Сохранение результатов

ABBYY FineReader 7.0 Professional Edition позволяет сохранять результаты распознавания в популярные офисные приложения, включая Microsoft Word, Microsoft Excel, Microsoft PowerPoint, Lotus Word Pro, Corel WordPerfect, Sun StarWriter. Распознанный текст можно сохранить в различные форматы: PDF, HTML, Microsoft Word XML, DOC, RTF, XLS, PPT, DBF, CSV и TXT.

Распознавание штрих-кодов

ABBYY FineReader 7.0 поддерживает распознавание штрих-кодов, в том числе двухмерных PDF-417 2D.

Удобство работы

Даже тот, кто впервые использует ABBYY FineReader, быстро освоит особенности работы с программы. Мастер Scan&Read поможет посредством нажатия одной клавиши быстро выполнить необходимую операцию, а раздел "Обучение на примерах" подскажет профессиональные хитрости при работе с OCR. Обновлённый интерфейс программы стал еще более логичным и интуитивно понятным. Добавлены новые кнопки, панель инструментов форматирования перенесена в окно "Текст". Профессиональные настройки стали более доступными, например, для каждого окна теперь можно легко установить нужный масштаб.

Системные требования

· ПК с процессором семейств Intel Pentium/Celeron/Xeon, AMD К6/Athlon/Duron или совместимым с ними процессором с тактовой частотой не менее 200 МГц

· Microsoft Windows XP, Windows 2000, Windows NT 4.0 (SP 6 или выше), Windows Me/98

· Объем оперативной памяти:

o для Windows XP/2000/NT 4.0 — 64 МБ

o для Windows Me/98 — 32 МБ

· Свободное место на жестком диске: 220 МБ

· 100% TWAIN-совместимый сканер, цифровая камера или факс-модем

· Видео плата и монитор с разрешением не менее 800x600 точек

Рабочее задание

2.1 Ознакомиться с теоретической частью лабораторной работы.

2.2 Ввод с помощью сканера текстовой и графической информации с записью её в файл Microsoft Word.

2.2.1 Включить сканер, проверить в менеджере устройств его работоспособность

2.2.2 Запустить FineReader (Пуск – Программы – ABBYY FineReader). Для сканирования изображения поместить сканируемый материал в сканер, нажать кнопку «сканировать» на панели инструментов приложения

2.2.3 В появившемся диалоговом окне выставить настройки качества сканируемого изображения и нажать кнопку Preview

2.2.4 После предварительного просмотра сканируемого изображения при необходимости выделить область сканирования

2.2.5 Нажать кнопку Scan

Если нет необходимости в распознавания текста в главном меню выбрать пункт «Файл ->Сохранить изображение как…» и, после задания имени сохраняемого файла нажать кнопку Ok. Изображение будет сохранено

2.2.6 Для распознавания текста нажать кнопку «Распознать», программа разобьет изображение на распознаваемые блоки трех типов: текст, графика и таблица.

2.2.7 При необходимости можно добавить или удалить блоки, изменить их размеры, после чего снова нажать кнопку «Распознать».

Изображение будет полностью распознано.

2.2.8 Если качество распознаваемого текста низкое и в тексте присутствуют ошибки – нажать кнопку «Проверить», после чего подтвердить плохо распознаваемые символы

2.2.9 Распознанные документы можно обрабатывать в других приложениях, нажав кнопку «Передать страницы в…»

2.2.10 Сохранить отсканированный текст и графику на дискете в файле формата Word, нажав одноименную кнопку (Wоrd).

2.3 Работа в Microsoft Word с отсканированным документом.

Открыть в Word файл со сканированными текстом и графикой, откорректировать и отформатировать его, показать преподавателю.

2.4 Оформить отчёт.

Контрольные вопросы

3.1 Наиболее популярная программа сканирования.

3.2 Функциональные возможности Fine Reader 7.0.

3.3 В каком формате сохраняются результаты распознавания в программе Fine Reader 7.0.?

3.4 Четыре основных режима сохранения в формате PDF.

3.5 В какие приложения позволяет сохранять Fine Reader 7.0.?

3.6 Как осуществляется проверка орфографии в программе Fine Reader 7.0.?

3.7 Функции встроенного Wysiwig-редактора программы Fine Reader 7.0.

3.8 На каких языках Fine Reader 7.0.распознают документы?

3.9 Что даёт использование технологии Hyper-Threading?

3.10 Порядок сканирования документов.

4 Содержание отчёта

4.1 Идентификация лабораторной работы.

4.2 Задания и ход их выполнения.

4.3 Вывод о проделанной работе.

Литература

5.1 Гук М. Аппаратные средства IBN PC. Энциклопедия - СПб:Издательство «Питер», 2000.

5.2 Жаров А..Железо IBM 2002, Москва: «МикроАрт», 320

5.3 Симмонс К. Windows XР. Пер. с англ.- 2-е изд.стер.-М.:ДМК Пресс, 2004

Лабораторная работа №9

Наши рекомендации