Системы распознавания предложений и связной речи
Системы этой группы делятся на системы раздельной диктовки и системы распознавания связной речи.
Системы раздельной диктовки проще в разработке и технической реализации, но они требуют от пользователя не совсем естественного произнесения фраз - с короткой паузой перед каждым следующим словом. К таким системам относятся, например, ViaType корпорации IBM, Dragon Dictate фирмы Dragon System. Последняя система позволяет, наряду с прочим, непосредственно надиктовывать текст в программы Word, Word Perfect, Internet Explorer, Netscape Navigator и т. д. Активный словарь системы насчитывает десятки тысяч слов и может пополняться пользователем, скажем, по его профессиональной тематике. В системе дополнительно анализируются спектральные (частотные) характеристики каждой буквы, выделяются и хранятся ее отдельные фонемы (элементы спектра). На основе этого анализа создаются фонетические модели букв и формируемых из них слов. Точность распознавания достигает 90 %, а после проверки по словарю еще значительно повышается.
Наиболее сложные проблемы возникают при распознавании связной речи. При произнесении связной речи больше сказывается эмоциональная составляющая вводимой информации, и при слитном произношении слов несколько изменяется их звучание - все это, безусловно, затрудняет распознавание.
Наиболее продвинутыми системами распознавания слитных текстов можно считать системы распознавания речи: Naturally Speaking Delux компании Dragon System, Via Voice корпорации IBM и WildFire фирмы Wildfire Communication, Voice Xpress фирмы Lernoute&Hauspie SpeechProducts. Названные системы позволяют обычно после длительной "тренировки" программы надиктовывать "своим" ПК тексты и отдельные команды, иногда даже разным операторам. Так, система ViaVoice позволяет многие виды работ на компьютере выполнять в речевом режиме. Можно надиктовывать текст (письма, отчеты, статьи) непосредственно в Windows-приложения, открывать и закрывать компьютерные файлы, ориентироваться в пределах рабочего стола. Такие речевые команды, как "file save, fale print, scroll up, scroll down" безошибочно выполняются компьютером. Скорость ввода текста достигает 140 слов в минуту, что намного больше средней скорости ввода информации с клавиатуры.
Системы идентификации по образцу речи
Идентификация по образцу речи относится к биометрическим технологиям идентификации человека по его уникальным физическим признакам, таким как отпечатки пальцев, рисунок радужной оболочки глаз. Речь, подобно подписи, характеризуется множеством постоянных физических параметров (которые, кстати, существенно меньше меняются со временем, чем внешность человека). Цель систем идентификации по образцу речи - идентифицировать конкретного известного системе пользователя и выявить самозванца. Взаимодействие пользователя с системой идентификации состоит из трех этапов:
- регистрации пользователя с целью запоминания особенностей его голоса и формирования для него речевой модели;
- тестирования, во время которого выполняется сравнение поступившего образца речи с запомненной речевой моделью пользователя, а также возможное выявление модели самозванца из базы моделей голосов множества прочих людей;
- допуска к работе в системе, если тестирование прошло успешно и пользователь назвал верный пароль.
Механизм распознавания речи
Механизм распознавания речи состоит обычно из четырех основных блоков:
- препроцессора;
- экстрактора;
- компаратора;
- интерпретатора.
Препроцессор или модуль сбора данных обеспечивает приведение речевого сигнала к наиболее качественному виду (производится автоматическая регулировка усиления, подавление эхо-сигнала, фиксация наличия или отсутствия речи и интонационного конца фразы и т. п. ).
Экстрактор выполняет спектральный анализ сигнала. Акустическо-фонетический поток звуков разбивается на короткие кадры (длительностью примерно по 10 мс) и выявляются спектральные характеристики каждого кадра. Компаратор выполняет акустическое сравнение выявленных характеристик каждого кадра с имеющимися акустическо-фонетическими образцами. Сравнение производится на уровнях выявления контекстно-независимых фонем, контекстно-зависимых фонем и моделей слов.
Интерпретатор решает задачу наилучшего разбиения полученного компаратора "алфавитного" потока на слова и фразы.
Системы синтеза речи
Системы речевого вывода информации базируются либо на выборке из словаря готовых оцифрованных звуковых последовательностей, либо на синтезаторах речи. Самым простым вариантом является выборка готовых звуковых последовательностей (как в автоответчике), но ввиду большого размера "звуковых" файлов, вывод большого числа слов в этом случае практически невозможен. В таких простых системах часто используются меню, по которым пользователь может выбрать те высказывания, которые он бы хотел услышать. При наличии нужных записей в базе данных их текст озвучивается. Такие системы используются, например, в будильниках, в автомобильных навигационных системах и т. д.
Формирование речевого вывода более функционально полными синтезаторами речи выполняется в несколько этапов.
Задачей первого этапа является отфильтровать шумовые символы текста (знаки препинания, кавычки, тире, скобки и т. п. ). Эта задача решается модулем нормализации, который также обрабатывает контекстно-зависимые сокращения, форматы дат, времени, денежных единиц и т. д.
Модуль преобразования на втором этапе переводит текст из орфографического в фонетический формат (из букв в звуки). Для некоторых языков, например для английского, это непростой процесс, ибо многие слова читаются не по буквам, а по особым правилам произношения отдельных буквенных сочетаний.
Модуль анализа выполняет одновременно лексикографическую и синтаксическую обработку для выбора варианта произношения, ритма и интонации.
Фонетический модуль, получив от модуля анализа фонетическое представление исходного текста, обогащает звучание речи дифтонгами, трифтонгами, четырехзвучиями и другими полезными составляющими.
Модуль обработки звука преобразует фонетические данные в звуковые сигналы: генерируемые волновые последовательности (с частотой порядка 10 кГц) модулируются фонетическим потоком. На этой стадии выполняется управление громкостью, скоростью речи, тембром голоса.
Среди программ синтеза речи можно назвать шведскую систему Infovox, систему Monologue английской фирмы First Byte, систему Pro Verbe компании Elan Infor-matique и др.