Анализ речевых сигналов в частотной области
Одним из основных способов обработки речи в частотной области является кратковременный спектральный анализ. На выполнении; кратковременного спектрального анализа основана работа многих систем ' распознавания речи, спектрографов, вокодеров [15].
Кратковременный спектральный анализ может быть реализован с использованием гребенки полосовых фильтров (рис. 4.4) или с помощью дискретного преобразования Фурье. Полосы пропускания фильтров выбираются так, чтобы перекрыть весь частотный диапазон речи. Средние значения модулей выходных сигналов фильтров будут представлять значения спектральных коэффициентов в полосах.
Иногда частотный диапазон разбивают на неравные, полосы с учетом особенностей слухового восприятия человека. Экспериментально установлено, что во внутреннем ухе человека высота тона (частота) звукового сигнала преобразуется в механические колебания определенных участков базилярной мембраны. При этом линейным приращениям координаты вдоль тела мембраны соответствуют логарифмические приращения частоты звука, т.е. частота звука, воспринимаемого человеком, нелинейно зависит от действительной физической частоты. Это приводит к неодинаковой разрешающей способности по час! те и к восприятию звуков в соответствии с механизмом критических частотных полос. Сложный звук постоянной громкости, состоящий из нескольких тонов, лежащих в пределах критической полосы, воспринимается человеком с таким же субъективным ощущением, как одно-тональный звук, соответствующий центральной частоте критической полосы. Ширина критических полос для области частот до 500 Гц составляет примерно 100 Гц. Выше 500 Гц ширина критических полос увеличивается примерно на 20% по сравнению с шириной предыдущей полосы. Ширина критических полос аппроксимируется зависимостью [36]
Для характеристики субъективных частот, воспринимаемых человеком, предложено несколько шкал: барк-шкала, мел-шкала. Функция
используется для перевода частот, заданных в герцах, в барки.
Гребенка (банк) фильтров с неравными полосами пропускания, заданными в герцах и соответствующими критическим полосам слуха (табл.4.1), будет иметь равномерное распределение центральных частот и равные значения полос пропускания, измеренных в барках. Таким образом, применение баркшкалы соответствует равномерному разбиению оси субъективных частот. Мел-шкала вводится с аналогичной целью и имеет, незначительные отличия от барк-шкалы [36].
Кратковременный спектральный анализ речи может быть также выполнен на основе ДПФ. Кратковременное дискретное преобразование Фурье определяется следующим образом
где х,[п~\ представляет отрезок речи, взвешенный окном w[n], длиной N отсчетов:
На рис.4.5 показаны кратковременные спектры Фурье и соответствующие реализации вокализованного и фрикативного участков речи. Спектры представлены в логарифмическом масштабе. При построении спектров использовалось окно Хемминга длительностью примерно 23 мс. Заметим, что кратковременный спектр вокализованной речи имеет высокое разрешение и характеризуется пульсациями, обусловленными квазипериодическими импульсами основного тона. Поэтому по кратковременному спектру вокализованной речи можно оценить частоту основного тона.
Один из алгоритмов определения частоты основного тона основан на вычислении произведения [17] .
Значения, вычисляемые с помощью (4.14), могут быть весьма большими. Для уменьшения значений вычисляют логарифм от (4.14). 1
Зависимость Fi(a)) представляет произведение функций |А'/(й'^)| , сжатых по частоте. В вокализованной речи сжатие частоты в А раз должно привести к совпадению гармоник основного тона. Благодаря этому в спектре ri(u)) появляется максимум на частоте основного тона. Невокализованная речь характеризуется существенно меньшими значениями Fi(u)) и она не имеет максимума в спектре Fi(G>) на частоте основного тона. Данный | способ определения частоты основного тона устойчив к шумам, поскольку,| шумовые компоненты в спектре Fi(u)) не регулярны. На рис.4.6 показаны графики Fi(f) для вокализованной и невокализованной речи, полученные при А=5. По расположению пика на графике спектра j вокализованной речи легко определяется частота основного тона.
Гомоморфная обработка речи
В соответствии с рис.4.1 речевой сигнал является сверткой функции возбуждения (случайного шума либо квазипериодической последовательности импульсов) и импульсной характеристики голосового тракта. Гомоморфный анализ речи позволяет разделить эти компоненты. Поэтому, используя гомоморфный анализ, можно определить период основного тона и частотные свойства голосового тракта. Общая схема гомоморфной обработки приведена на рис.4.7.
В соответствии с этой схемой сначала выполняется нелинейное преобразование Д{ } сигналах, которое определяется соотношением
X(z}=X^z)-Xi(z). (4.16)
Подставив (4.16) в (4.15), получим
Линейная инвариантная система пропускает на выход только одну из компонент X\(z) или X:(z). Соответственно обратное преобразование Д"'{ } дает ^["]=-ci[/!] или ^[и]=-Т2[я]. Следовательно, гомоморфная обработка разделяет входные компоненты х\[п} и хг[п], содержащиеся во входном сигнале.
Гомоморфная система анализа речи показана на рис.4.8. Здесь на первом этапе вычисляется логарифм модуля кратковременного преобразования Фурье. Если предположить, что сигнал в точке А является сверткой функции возбуждения и импульсной характеристики голосового тракта, то в точке С мы получим сумму логарифмов спектра функций возбуждения и импульсной характеристики голосового тракта. Сигнал в точке D, полученный с помощью обратного дискретного преобразования Фурье, называется кепстром. Кепстр в точке D равен сумме кепстров функции возбуждения и импульсной характеристики голосового тракта. Покажем это.
В общем случае, комплексный кепстр сигнала х[п] определяется как обратное преобразование Фурье от логарифма комплексного спектра Х(ш).
Для модуля кратковременного спектра |^('У)|, который является четной и периодической функцией, можно использовать разложение в ряд Фурье
где с[п] - кепстральные коэффициенты и
Если речевой сигнал является сверткой функции возбуждения и[п] и импульсной характеристики h[n] голосового тракта
то модуль спектра |^(<у)| равен произведению модулей \U(a)}\ и \Н(а>)\:
Взяв логарифм от обеих частей (4.21), получим
Так как обратное преобразование Фурье является линейной операцией, то из(4.22) следует, что
где с„[и) и Сн[п] - кепстры последовательностей и[п\ и h[n].
В схеме обработке речи, изображенной на рис.4.8 , вместо дискретно-непрерывного преобразования Фурье по непрерывной перемененной q) используется дискретное преобразование Фурье, определяемое на фиксированных частотах. Рис.4.9 иллюстрирует указанные преобразования для вокализованной речи.
Пульсирующая кривая С (рис.4.9) соответствует логарифму модуля кратковременного спектра. Она содержит медленно меняющуюся составляющую, соответствующую амплитудно-частотной характеристике голосового тракта, и быстро меняющуюся составляющую, обусловленную периодической функцией возбуждения. Выполнив ОДПФ логарифма спектра, получим кепстр, который является функцией времени. Медленно меняющаяся составляющая спектра соответствует области малых времен кепстра, а быстро меняющаяся периодическая составляющая спектра соответствует удаленному пику в кепстре (рис.4.9), возникающему через интервал времени, равный периоду основного тона. Для невокализованной речи указанный пик будет отсутствовать. Поэтому кепстр может использоваться для определения периода основного тона и характера речи (вокализованная или невокализованная).
Амплитудно-частотная характеристика голосового тракта получается низкочастотной фильтрацией сигнала, действующего в точке С (рис.4.8). В результате этого будут подавлены быстро меняющиеся элементы на кривой С (рис. 4.9). Фильтрация может быть выполнена по методу быстрой свертки. Для этого вычисляется ОДПФ сигнала С, полученный кепстр умножается на подходящую функцию окна, пропускающую лишь область ;i малых времен кепстра, и затем выполняется ДПФ. В результате такой обработки получим сглаженный спектр (рис. 4.9, кривая Е). Резонансные пики на кривой Е позволяют определить формантные частоты. Используя оценки формантных частот голосового тракта и период основного тона, можно синтезировать речь на основе модели, изображенной на рис.4.1.