Модификация речевого сигнала
Просодические характеристики аллофонов, выбранных из речевой базы для конкатенации, во многих случаях не полностью соответствуют характеристикам, заданным на этапе фонетической обработки текста, поэтому может потребоваться дополнительная просодическая модификация выбранных из базы звуковых элементов. При этом (в отличие от аллофонного или дифонного компилятивного синтеза) в селективном синтезе модификация звуковых элементов сводится к минимуму. Значительная модификация (особенно частоты основного тона) уменьшает естественность речи, поэтому она используется только в отдельных случаях.
Существует множество алгоритмов просодической модификации речевого сигнала, приведём краткое описание двух наиболее часто используемых в системах синтеза речи по тексту.
Наиболее известным и часто используемым алгоритмом, обеспечивающимхорошее качество сигнала, является алгоритмTD-PSOLA (Time-Domain Pitch- Synchronous-Overlap-Add)[Moulines, Verhelst 1995].Данный алгоритм работает с периодами основного тона сигнала. Сигнал разбивается на фрагменты, взвешенные окном Хеннинга, захватывающим два соседних периода с перекрытием в один период. Затем эти фрагменты перекомбинируются при помощи перемещения и х центров и наложением с добавлением перекрывающихся частей (overlap and add), при этом в нужном направлении изменяется ЧОТ речевого сигнала. Иллюстрация применения данного алгоритма приводится на рис. 1.12.
Рисунок 1.12 - Иллюстрация применения алгоритма TD-PSOLA
При использовании модели «гармоники плюс шум» (Harmonic plus Noise Model) [Stilianou 2001] исходный сигнал представляется как сумма периодической и стохастической (гармонической и шумовой) функций. При этом невокализованные участки речевого сигнала состоят только из шумовой компоненты. Недостатком этого метода является высокая вычислительная сложность его программной реализации. После модификации звуковых элементов для приведения их к необходимым характеристикам синтеза результирующий сигнал может (при необходимости) быть подвергнут дальнейшей обработке: фильтрации, изменению частоты дискретизации, могут добавляться эффекты реверберации. В демоверсиях коммерческих синтезаторов на результирующий речевой сигнал часто накладывается музыка, что, с одной стороны, не даёт напрямую бесплатно использовать синтезированные фразы, а с другой – скрывает мелкие дефекты, которые могут возникать при конкатенации звуковых элементов и их модификации.
ВЫВОД
Вопросы синтеза и распознавания речи человека компьютером становятся все более актуальными.
Проанализирован ряд наиболее доступных современных систем распознавания речи, а также их сравнительны их характеристики.
Выделены основные элементы систем распознавания и проведен анализ методов, моделей и алгоритмов, используемых в распознавании речи.
Создание модели длительности звуков речи может обеспечить повышение точности описания речевого сигнала.
Выявлена необходимость построения структур моделей, учитывающих строение звуковой волны, всех звуков русской речи для повышения эффективности распознавания реального речевого сигнала. В настоящее время используется всего одна структура моделей для всех звуков русской речи.
Рассмотрены классификационные признаки систем распознавания речи и предложена классификация, позволившая упростить выбор архитектуры разрабатываемой системы распознавания речи.
В настоящее время имеется довольно большое количество разнообразных русскоязычных селективных синтезаторов. При проведении их сравнительных оценок следует учитывать как особенности технологии селективного синтеза речи, так и общую структуру селективных синтезаторов, и качество решения задач, выполняемых на каждом этапе преобразования «Текст–Речь».
ЗАКЛЮЧЕНИЕ
По итогу проделанной научно-исследовательской работы в рамках подготовки магистров по направлению 09.04.02 - "Информационные системы и технологии" был пройден комплекс мероприятий, направленных на освоение методов, приемов и навыков выполнения исследований и анализа, развитие способностей к научному и техническому творчеству, самостоятельности и инициативы.
Были выполнены анализ, систематизация и обобщение научно-технической информации по теме исследований; теоретическое исследование в рамках поставленных задач, включая математический (имитационный) эксперимент.
Были приобретены навыки: формулирования целей и задач научного исследования; выбора и обоснования методики исследования; работы с прикладными научными пакетами и редакторскими программами, используемыми при проведении научных исследований и разработок; оформления результатов научных исследований.