Устройства ввода и передачи текстовой информации

На стадии допечатной подготовки изданий пользователю предоставляется большое многообразие средств ввода но­вой информации.

Клавиатурный ввод текстовой информации. В данном случае, как правило, используется стандартная клавиатура ПЭВМ, предусматри­вающая не только ввод текстового материала, но и управление функ­циональными возможностями как самой ПЭВМ, так и применяемых про­граммных средств.

Процесс клавиатурного ввода данных можно рассматривать как ко­дирование множества знаков в машинодоступной форме. Собственно кодирование знаков в системах обработки текста осуществляется на двух уровнях машинного представления, а именно: знака, выраженного в цифровой комбинации, и его начертания. Любая система ввода и по­следующей обработки текста предполагает его вывод на соответству­ющий носитель информации (бумагу, пленку, формный материал). Тем самым при выводе обеспечивается широкий доступ к разнообраз­ным гарнитурам и начертаниям шрифтов.

Клавиатурный ввод текстовой информации обеспечивается програм­мой-драйвером операционных систем ПЭВМ и разнообразными про­граммами, получившими название текстовых редакторов или тексто­вых процессоров.

В результате клавиатурного ввода формируется текстовой элек­тронный файл, в котором символы представляются в виде двоичных ко­дов стандартной формы (ASCII, КОИ-8, ANSI, двухбайтовый UNICOD).

Автоматизированный ввод текстовой информации на основе исполь­зования технологий распознавания символов (технологий OCR). Зна­чительная часть авторских экземпляров рукописей поступает в издатель­ства или редакции в машинописном виде (в том числе распечатанных на принтерах, печатающих машинках и т. д.) Некоторые материалы по­ступают в редакцию по факсам. Применяемые интеллектуальные инфор­мационные технологии автоматизированного ввода текстовой инфор­мации базируются на методах распознавания символов (текста).

Системы распознавания весьма разнообразны, но в их ос­нове лежит общий принцип преобразования просканированного изо­бражения печатной страницы в последовательность двоичных кодов сим­волов исходного текстового документа. Распознавание текста осуществляется с помощью модулей локализации текстовых объектов. При этом используется аналитический метод, основанный на распоз­навании отдельных символов во входной строке и работающий по сле­дующей схеме:

  • многовариантное разделение входной строки для обхода некачест­венных изображений (разрывы и слияния символов);
  • распознавание полученных компонентов (или подкомпонентов) с за­поминанием уровней соответствия (доверия полученным результатам);
  • контекстный анализ на базе просмотра словаря; он позволяет вы­брать наилучшие варианты, вычисляя наименьшую дистанцию соответ­ствия между полученным словом и содержимым словаря.

Реальные тексты могут содержать множество встроенной графиче­ской информации — водяные знаки, фоновые рисунки, иллюстрации и т. п. В этих случаях локализация текста становится сложной задачей для си­стемы распознавания. Определенные сложности возникают и из-за на­личия рисунков, диаграмм, необычного фона. Распознавание также осложняется особенностями и самого текста — размерами, толщиной, видом шрифта, фоном и позиционированием.

Другая проблема связана с последовательностью процесса распоз­навания: сканирования текста, выделения текстовых блоков, сегмента­ции на линии и символы, распознавания, контекстного анализа, пере­вода текста в электронный формат. Ошибка на любом этапе приводит к неверному результату в целом. Для устранения опасности ошибки на ранних этапах определенные решения переносятся на более поздний этап процесса распознавания. По этой причине модуль выделения текстовых блоков определяет только самые главные особенности текстовых ком­понентов и использует их для выбора набора компонентов, которые по­тенциально содержат строки текста. Модуль распознавания работает по той же схеме. Прежде всего, генерируется гипотеза разделения вход­ной строки текста. Далее к каждой полученной части применяют алго­ритм распознавания, что дает вероятные символы, сопоставляемые с данной частью изображения входной строки. Затем отбирают гипотезы разделения на этапе контекстного анализа, минимизируя отличия слова от содержимого словаря.

При реализации современных систем распознавания текста обыч­но используются два базовых метода: матричное сопоставление и вы­деление особенностей.

Метод матричного сопоставления, наиболее простой и распростра­ненный, основан на сравнении того, что «видит» сканер, с библиотекой символьных матриц или шаблонов. В том случае, когда изображение совпадает с каким-либо заранее заданным шаблоном точек с определен­ным уровнем соответствия, программа оптического распознавания ставит изображению в соответствие символ.

Метод выделения особенностей, известный также как ICR (Intelli­gent Character Recognition — интеллектуальное распознание симво­лов) или TFA (Topological Feature Analysis — топологический анализ особенностей), не требует строгого соответствия изображений заранее заданным шаблонам. Программы, основанные на данном методе, вы­деляют основные особенности изображения, такие, как открытые и за­мкнутые фигуры, диагональные линии, места пересечений и т.д., и срав­нивают полученные результаты с библиотекой особенностей символов. Этот метод более гибок, чем матричное соответствие, поскольку может распознавать большее число шрифтов.

Для систем распознавания (OCR) важно не только распознавать текст на микроуровне (т. е. символы алфавита), но и обрабатывать текст на макроуровне, т. е. выделять предложения, абзацы, колонки, таблицы, бук­вицы, поля, рисунки и т. п. Обработка текста на макроуровне являет­ся сложной семантической задачей и требует семантического и стиле­вого анализа.

Обычно технологии распознавания символов и текста реализуют­ся в виде отдельных программ. В настоящее время в основном исполь­зуются программы распознавания символов FineReader и CuneiForm.

Речевой ввод текстовой информации. В последние годы все большее распространение получают технологии речевого ввода информации.

Как известно, любое устное сообщение может быть представлено последовательностью фонем и пауз между ними. Поэтому распознава­ние речи может осуществляться на уровне объединения фонем в слова. Каждое слово при этом рассматривается как элементарный символ ре­чевого сообщения. Распознавание слов происходит в памяти ЭВМ пу­тем сравнения их с эталонами, хранящимися в памяти. Словари этало­нов могут насчитывать до нескольких десятков единиц. Главная трудность в реализации подобных устройств — распознавание речи, разли­чающейся (при одном и том же содержании) дикцией человека, инто­нацией, скоростью произнесения фраз. В настоящее время наилучшие результаты получены с помощью устройств, которые не проводят сра­зу точное сравнение речевого сигнала с моделью, а отыскивают наибо­лее близкую по определенному критерию и только затем приближают­ся к точному соответствию.

Современные устройства речевого ввода делятся на устройства распознавания речи и устройства идентификации говорящего. В рас­сматриваемых здесь приложениях особый интерес представляют пер­вые. Процедура распознавания при этом сводится к сравнению сигна­ла на входе устройства с эталонами и определению для каждого этало­на меры сходства. Обычно в известных системах в качестве речевого сег­мента выбирается слово, так как для него сравнительно просто опре­делить начало и конец, т. е. границы. В этом случае объем словаря со­ответствует количеству распознаваемых слов.

Основная стратегия решения задачи распознавания речи базирует­ся на заблаговременном формировании информационных описаний речевых сегментов, которые играют роль эталонов.

Аппаратно-программные средства, в рамках которых реализуют­ся программы распознавания речи, называются речевыми процессора­ми или анализаторами.

Новые программы распознавания речи благодаря усовершенствован­ным алгоритмам, а также появлению мощных цифровых процессоров и цифровых сигнальных процессоров (DSP) могут работать в операцион­ных средах Windows, OS/2 и других ОС ПЭВМ. Созданы коммерческие про­граммные пакеты для диктовки, распознающие до 30 000 слов (словарный запас, достаточный для обеспечения определенной профессиональной де­ятельности в редакционно-издательских и подобных системах). В качест­ве примера можно привести систему Voice Type Dictation, ориентирован­ную на диктовку и редактирование больших текстовых документов.

Наши рекомендации