Устройства ввода и передачи текстовой информации
На стадии допечатной подготовки изданий пользователю предоставляется большое многообразие средств ввода новой информации.
Клавиатурный ввод текстовой информации. В данном случае, как правило, используется стандартная клавиатура ПЭВМ, предусматривающая не только ввод текстового материала, но и управление функциональными возможностями как самой ПЭВМ, так и применяемых программных средств.
Процесс клавиатурного ввода данных можно рассматривать как кодирование множества знаков в машинодоступной форме. Собственно кодирование знаков в системах обработки текста осуществляется на двух уровнях машинного представления, а именно: знака, выраженного в цифровой комбинации, и его начертания. Любая система ввода и последующей обработки текста предполагает его вывод на соответствующий носитель информации (бумагу, пленку, формный материал). Тем самым при выводе обеспечивается широкий доступ к разнообразным гарнитурам и начертаниям шрифтов.
Клавиатурный ввод текстовой информации обеспечивается программой-драйвером операционных систем ПЭВМ и разнообразными программами, получившими название текстовых редакторов или текстовых процессоров.
В результате клавиатурного ввода формируется текстовой электронный файл, в котором символы представляются в виде двоичных кодов стандартной формы (ASCII, КОИ-8, ANSI, двухбайтовый UNICOD).
Автоматизированный ввод текстовой информации на основе использования технологий распознавания символов (технологий OCR). Значительная часть авторских экземпляров рукописей поступает в издательства или редакции в машинописном виде (в том числе распечатанных на принтерах, печатающих машинках и т. д.) Некоторые материалы поступают в редакцию по факсам. Применяемые интеллектуальные информационные технологии автоматизированного ввода текстовой информации базируются на методах распознавания символов (текста).
Системы распознавания весьма разнообразны, но в их основе лежит общий принцип преобразования просканированного изображения печатной страницы в последовательность двоичных кодов символов исходного текстового документа. Распознавание текста осуществляется с помощью модулей локализации текстовых объектов. При этом используется аналитический метод, основанный на распознавании отдельных символов во входной строке и работающий по следующей схеме:
- многовариантное разделение входной строки для обхода некачественных изображений (разрывы и слияния символов);
- распознавание полученных компонентов (или подкомпонентов) с запоминанием уровней соответствия (доверия полученным результатам);
- контекстный анализ на базе просмотра словаря; он позволяет выбрать наилучшие варианты, вычисляя наименьшую дистанцию соответствия между полученным словом и содержимым словаря.
Реальные тексты могут содержать множество встроенной графической информации — водяные знаки, фоновые рисунки, иллюстрации и т. п. В этих случаях локализация текста становится сложной задачей для системы распознавания. Определенные сложности возникают и из-за наличия рисунков, диаграмм, необычного фона. Распознавание также осложняется особенностями и самого текста — размерами, толщиной, видом шрифта, фоном и позиционированием.
Другая проблема связана с последовательностью процесса распознавания: сканирования текста, выделения текстовых блоков, сегментации на линии и символы, распознавания, контекстного анализа, перевода текста в электронный формат. Ошибка на любом этапе приводит к неверному результату в целом. Для устранения опасности ошибки на ранних этапах определенные решения переносятся на более поздний этап процесса распознавания. По этой причине модуль выделения текстовых блоков определяет только самые главные особенности текстовых компонентов и использует их для выбора набора компонентов, которые потенциально содержат строки текста. Модуль распознавания работает по той же схеме. Прежде всего, генерируется гипотеза разделения входной строки текста. Далее к каждой полученной части применяют алгоритм распознавания, что дает вероятные символы, сопоставляемые с данной частью изображения входной строки. Затем отбирают гипотезы разделения на этапе контекстного анализа, минимизируя отличия слова от содержимого словаря.
При реализации современных систем распознавания текста обычно используются два базовых метода: матричное сопоставление и выделение особенностей.
Метод матричного сопоставления, наиболее простой и распространенный, основан на сравнении того, что «видит» сканер, с библиотекой символьных матриц или шаблонов. В том случае, когда изображение совпадает с каким-либо заранее заданным шаблоном точек с определенным уровнем соответствия, программа оптического распознавания ставит изображению в соответствие символ.
Метод выделения особенностей, известный также как ICR (Intelligent Character Recognition — интеллектуальное распознание символов) или TFA (Topological Feature Analysis — топологический анализ особенностей), не требует строгого соответствия изображений заранее заданным шаблонам. Программы, основанные на данном методе, выделяют основные особенности изображения, такие, как открытые и замкнутые фигуры, диагональные линии, места пересечений и т.д., и сравнивают полученные результаты с библиотекой особенностей символов. Этот метод более гибок, чем матричное соответствие, поскольку может распознавать большее число шрифтов.
Для систем распознавания (OCR) важно не только распознавать текст на микроуровне (т. е. символы алфавита), но и обрабатывать текст на макроуровне, т. е. выделять предложения, абзацы, колонки, таблицы, буквицы, поля, рисунки и т. п. Обработка текста на макроуровне является сложной семантической задачей и требует семантического и стилевого анализа.
Обычно технологии распознавания символов и текста реализуются в виде отдельных программ. В настоящее время в основном используются программы распознавания символов FineReader и CuneiForm.
Речевой ввод текстовой информации. В последние годы все большее распространение получают технологии речевого ввода информации.
Как известно, любое устное сообщение может быть представлено последовательностью фонем и пауз между ними. Поэтому распознавание речи может осуществляться на уровне объединения фонем в слова. Каждое слово при этом рассматривается как элементарный символ речевого сообщения. Распознавание слов происходит в памяти ЭВМ путем сравнения их с эталонами, хранящимися в памяти. Словари эталонов могут насчитывать до нескольких десятков единиц. Главная трудность в реализации подобных устройств — распознавание речи, различающейся (при одном и том же содержании) дикцией человека, интонацией, скоростью произнесения фраз. В настоящее время наилучшие результаты получены с помощью устройств, которые не проводят сразу точное сравнение речевого сигнала с моделью, а отыскивают наиболее близкую по определенному критерию и только затем приближаются к точному соответствию.
Современные устройства речевого ввода делятся на устройства распознавания речи и устройства идентификации говорящего. В рассматриваемых здесь приложениях особый интерес представляют первые. Процедура распознавания при этом сводится к сравнению сигнала на входе устройства с эталонами и определению для каждого эталона меры сходства. Обычно в известных системах в качестве речевого сегмента выбирается слово, так как для него сравнительно просто определить начало и конец, т. е. границы. В этом случае объем словаря соответствует количеству распознаваемых слов.
Основная стратегия решения задачи распознавания речи базируется на заблаговременном формировании информационных описаний речевых сегментов, которые играют роль эталонов.
Аппаратно-программные средства, в рамках которых реализуются программы распознавания речи, называются речевыми процессорами или анализаторами.
Новые программы распознавания речи благодаря усовершенствованным алгоритмам, а также появлению мощных цифровых процессоров и цифровых сигнальных процессоров (DSP) могут работать в операционных средах Windows, OS/2 и других ОС ПЭВМ. Созданы коммерческие программные пакеты для диктовки, распознающие до 30 000 слов (словарный запас, достаточный для обеспечения определенной профессиональной деятельности в редакционно-издательских и подобных системах). В качестве примера можно привести систему Voice Type Dictation, ориентированную на диктовку и редактирование больших текстовых документов.