Перспективны развитиятехнологий распознавания и синтеза русской речи

Системы распознавания голоса – это вычислительные системы, которые могут определять речь говорящего из общего потока. Эта технология связана с технологией распознавания речи, которая преобразует произнесенные слова в цифровые текстовые сигналы, путем проведения процесса распознавания речи машинами. Обе эти технологии используются параллельно: с одной стороны, для идентификации голоса конкретного пользователя с другой стороны для идентификация голосовых команд посредством распознавания речи. Распознавание голоса используется в биометрических целях безопасности, чтобы определить голос конкретного человека. Эта технология стала очень популярной в мобильном банкинге, который требует идентификации подлинности пользователей, а также для других голосовых команд, чтобы помочь им совершать сделки.

Вопросы синтеза и распознавания речи человека компьютером становятся все более актуальными. Речевые технологии уже внедряются в нашу жизнь. Успехи в развитии естественно-языковых технологий обещают широкий доступ к on-line информации и электронным сервисам. Так как почти каждый̆ говорит и понимает речь, развитие естественно-языковых систем позволит человеку без специальных навыков общаться с компьютером в любое время и в любом месте без дополнительного обучения, используя такие устройства, как мобильный телефон, получать доступ к информации или к управлению устройствами. Сотовый телефон так же можно использовать как устройство перевода речи в речь, которое распознает сказанную вами фразу на одном из многих языков и переводит на любой̆ их этих языков.

Распознавания речи является одним из самых быстрорастущих рынков в голосовой индустрии. Большая часть роста на рынке происходит от здравоохранения, финансовых услуг, и государственного сектора. Однако в других сегментах, таких как телекоммуникации и транспорт ожидается значительное увеличение роста в ближайшие несколько лет.

В настоящее время вопросом синтеза речи занимается большое число исследовательских групп, каждая из которых создает свое описание речевого сигнала, и в конечном итоге - программнымй продукт:

· Клуб голосовых технологий МГУ и фирма ПРОМТ - “Magic Goody”;

· Sakrament, г. Минск;

· Microsoft Speech SDK;

· AT&T;

· Verbmobil.

На данный момент из программных пакетов, поддерживающих русский̆ язык, наиболее широко распространены Microsoft Speech SDK, Lernout&Hauspie и разработка “Digalo” фирмы Elan Informatique

Системы поиска ключевых слов в речи помогают пользователю сэкономить время и деньги. В поисках заданного выражения они автоматически могут обрабатывать базы данных любого размера или работать в режиме реального времени в сквозном канале.

Варианты использования систем синтеза речи по тексту многообразны. В их числе IVR- системы, аудиокниги, озвучивание электронной почты и sms-сообщений, новостных сообщений и страничек в интернете и т.д. Развитие системы нового поколения, обеспечивающей естественное звучание русской речи, поддерживается в России на государственном уровне в рамках ФЦП по развитию приоритетных направлений экономики. Новая система разрабатывается с учетом всех правил и особенностей русского языка. Гибкая реализация обеспечивает возможность установки системы как на стационарные, так и на мобильные устройства. Биометрическая идентификация по голосу позволяет определить целевого диктора в большой базе записей. Это - сложная научная задача, для решения которой необходимо использование нескольких методик в совокупности.

Рост рынка распознавания голоса зависит от множества факторов. Одним из основных факторов является увеличение спроса на услуги голосовой биометрии. С увеличением сложности и частоты нарушений безопасности, безопасность продолжает оставаться одним из основных требований для предприятий, а также государственных организаций. Высокий спрос голосовой биометрии, которая является уникальной для любого человека, имеет решающее значение в установлении личности человека. Другим ключевым фактором для рынка является более широкое использование идентификации диктора для судебно-медицинских целей.

Некоторые из основных факторов мирового рынка распознавания речи:

· Увеличение спроса на услуги голосовой биометрии;

· Использование идентификации диктора для судебно-медицинских целей;

· Спрос на распознавания речи в военных целях;

· Высокий спрос для распознавания голоса в сфере здравоохранения.