Системы оптического распознавания документов

Системы оптического распознавания символов используются при создании электронных библиотек и архивов путем перевода книг и документов в цифровой компьютерный формат [3; с. 109]. Сначала с помощью сканера необходимо получить изображение страницы текста в графическом формате. Далее для получения документа в текстовом формате необходимо провести распознавание текста, т. е. преобразовать элементы графического изображения в последовательность текстовых символов. Системы оптического распознавания символов сначала определяют структуру размещения текста на странице и разбивают его на отдельные области: колонки, таблицы, изображения и т. д. Далее выделенные текстовые фрагменты графического изображения страницы разделяются на изображения отдельных символов.

Растровое изображение каждого символа последовательно накладывается на растровые шаблоны символов, хранящиеся в памяти системы оптического распознавания. Результатом распознавания является символ, шаблон которого it наибольшей степени совпадает с изображением. При распознавании документов с низким качеством печати (машинописный текст, факс и т. д.) используется векторный метод распознавания символов. В распознаваемом изображении символа выделяются геометрические примитивы (отрезки, окружности и др.) и сравниваются с векторными шаблонами символов. В результате выбирается тот символ, для которого совокупность всех геометрических примитивов и их расположение больше всего соответствует распознаваемому символу. Системы оптического распознавания символов являются «самообучающимися» (для каждого конкретного документа они создают соответствующий набор шаблонов символов), и поэтому скорость и качество распознавания многостраничного документа постепенно возрастают.

Системы оптического распознавания форм. При заполнении документов большим количеством людей (например, при сдаче выпускником школы единого государственного экзамена (ЕГЭ)) используются бланки с пустыми полями. Данные вводятся в поля печатными буквами от руки. Затем эти данные распознаются с помощью систем оптического распознавания форм и вносятся в компьютерные базы данных. Сложность состоит в том, что необходимо распознавать символы, написанные от руки, которые довольно сильно различаются у разных людей. Кроме того, такие системы должны уметь определять, к какому полю относится распознаваемый текст

Заключение

Текстовый редактор ― это программа, которая позволяет создать документ с текстовыми данными. В Word 2003 можно создавать документы следующих типов: новый документ, веб-страницу, XML-документ, сообщение E-mail, сообщение-факс, конверты и наклейки, шаблоны. Формат файлов определяет способ хранения текста в файле. Простейший формат содержит только числовые коды символов, другие форматы содержат дополнительные управляющие числовые коды, которые обеспечивают форматирование текста.

Различают логическую и физическую страницы, физическая страница обычно имеет некоторый стандартный размер, например 210х297 мм (формат А4), а логическая страница образуется на поле физической за вычетом установленных пользователем границ. Абзацем является часть текста, которая заканчивается символом абзаца ¶. Абзац является одним из главных элементов оформления документа. Под списком понимают последовательность строк, в которых содержатся данные одного типа. Списки облегчают чтение и понимание текста. Табличная информация встречается очень часто и позволяет структурировать текстовый материал в удобочитаемом виде. При форматировании символов можно задать следующие параметры: гарнитуру, начертание, размер, толщину, цвет, анимацию, интервал, верхний и нижний индекс, подчеркивание, зачеркивание.

Гипертекст позволяет структурировать документ путем выделения в нем слов-ссылок ― гиперссылок. Компьютерные словари могут содержать переводы на разные языки сотен тысяч слов и словосочетаний, а также предоставляют пользователю дополнительные возможности. Системы оптического распознавания символов используются при создании электронных библиотек и архивов путем перевода книг и документов в цифровой компьютерный формат.

Список литературы

1) Златопольский, Д. М. Работа с текстом в электронных таблицах / Д. М. Златопольский // Информатика и образование. ― 2002. ― № 1. ― С. 32―36.

2) Информатика /под ред. Н. В. Макаровой. ― М.: Финансы и статистика. 2002. ― 436 с.

3) Леонтьев, В. П. Новейшая энциклопедия персонального компьютера / В. П. Леонтьев. ― М.: ОЛМА Медиа Групп, 2009. ― 134 с.

4) Микляев, А. Учебник пользователя IBM PC / А. Микляев. ― М.: Альтекс-А. 2002. ― 365 с.

5) Острейковский, В. А. Информатика / В. А. Острейковский. ― Москва, Высшая школа, 2000. ― 430 с.

6) Провалов, В. С. Автоматизированные информационные технологии управления / В. С. Провалов. ― Киров: Изд-во ВятГГУ, 2003. ― 250 с.

7) Семакин, И. Информатика: базовый курс / И. Семакин. ― М.: Лаборатория базовых знаний, 2000. ― 340 с.

Наши рекомендации