Основные свойства речевых сигналов

Спектральные свойства звуков речи. Спектры гласных звуков представляют собой (в первом приближении) периодическую последовательность спектральных пиков. Период следования этих пиков называют частотой основного тона. Выраженные всплески уровня «огибающей» спектральных пиков именуют «формантами» (рис.3).

Основные свойства речевых сигналов - student2.ru

Рис.3. Вид спектра гласного звука

Полезная информация о гласном звуке речи содержится в описании соответствующих формант. Принято каждую форманту описывать ее граничными частотами. В русском языке достаточно ограничиться одной-двумя формантами, чтобы достигнуть приемлемой разборчивости речи.

Спектры согласных звуков либо полностью сплошные, т.е. совсем не содержат дискретных компонентов, либо сплошные в отдельных полосах частот. Эти спектры также содержат локальные всплески. Некоторые из них являются формантами, некоторые - нет.

Чтобы решить, какие всплески уровня спектра являются формантами, следует помнить, что физическая природа формант – явление резонанса в полостях глотки и носоглотки (рис.4).

Основные свойства речевых сигналов - student2.ru

Рис.4. Полости глотки (1) и носоглотки (2-4)

В отдельных звуках можно заметить до 6 спектральных подъемов. К формантам относятся только те, которые обусловлены явлением резонанса в речевом аппарате человека. Часть формант (как указывалось – одна-две в русском языке) обеспечивают разборчивость речи, другая часть обеспечивает индивидуальность голоса диктора, что может быть использовано в задачах распознавания голоса (идентификации) диктора.

Форманты звуков речи расположены в области частот от 200 до 8600 Гц. Однако подавляющая часть формант звуков речи находится в пределах от 300 до 3000 Гц, поэтому такую полосу обычно считают достаточной для хорошей разборчивости речи.

Спектральные различия между звуками речи являются главными, хотя и не единственными. Например, при распознавании согласных звуков важны и временные характеристики.

Интегральные спектральные характеристики речи. Как следует из названия, интегральные спектральные характеристики речи характеризуют свойства речевого процесса в целом [6]. Сюда относят:

· спектр речи Основные свойства речевых сигналов - student2.ru ;

· спектр формант Основные свойства речевых сигналов - student2.ru ;

· относительную встречаемость формант по спектру Основные свойства речевых сигналов - student2.ru .

Спектром речи называют оценку спектральной плотности мощности речевого сигнала Основные свойства речевых сигналов - student2.ru , вычисленную по отрезку речевого сигнала значительной протяженности (более минуты). Спектр речи характеризует распределение мощности речевого сигнала по частоте.

Спектром формант Основные свойства речевых сигналов - student2.ru называют зависимость наиболее вероятного уровня формант от частоты. Чтобы оценить спектр формант, необходимо также располагать отрезком речи большой протяженности. Спектр формант на всех частотах меньше спектра речи (рис.5):

Основные свойства речевых сигналов - student2.ru .

Основные свойства речевых сигналов - student2.ru

Рис.5. Соотношение спектра речи Основные свойства речевых сигналов - student2.ru и спектра формант Основные свойства речевых сигналов - student2.ru [6]

Относительная встречаемость формант Основные свойства речевых сигналов - student2.ru по спектру может быть оценена так. Разобьем весь диапазон частот на полоски, например, по 100 Гц, и подсчитаем относительное число формант (в %) каждой полоске. Результат такого подсчета даст нам кривую Основные свойства речевых сигналов - student2.ru (рис.6).

Основные свойства речевых сигналов - student2.ru

Рис.6. Относительная встречаемость формант Основные свойства речевых сигналов - student2.ru [6]

Основные свойства слуха

Для оценивания разборчивости речи наибольшее значение имеют следующие характеристики слуховой системы человека, именуемые «постоянными слуха» [6]:

· порог слышимости Основные свойства речевых сигналов - student2.ru ;

· логарифмическая ширина критической полосы слуха Основные свойства речевых сигналов - student2.ru ;

· маскировка слуха Основные свойства речевых сигналов - student2.ru .

Порог слышимости Основные свойства речевых сигналов - student2.ru – это минимальное звуковое давление, ниже которого ухо не воспринимает звук (рис.7). Выражается в децибелах, по отношению к давлению Основные свойства речевых сигналов - student2.ru , соответствующему пороговой величине давления звука на частоте 1000 Гц.

Основные свойства речевых сигналов - student2.ru

Рис.7. Порог слышимости Основные свойства речевых сигналов - student2.ru и болевой порог Основные свойства речевых сигналов - student2.ru [6]

Основные свойства речевых сигналов - student2.ru

Рис.8. Критическая полоса слуха Основные свойства речевых сигналов - student2.ru [6]

Ширина критической полосы слуха Основные свойства речевых сигналов - student2.ru - это разрешающая способность слухового аппарата человека, который можно уподобить гребенке фильтров. Например, на частоте 100 Гц критическая полоса слуха близка 100 Гц, а на частоте 8000 Гц – близка 600 Гц (рис.8). Для удобства расчетов вводят понятие логарифмической критической полосы слуха (рис.9):

Основные свойства речевых сигналов - student2.ru .

Основные свойства речевых сигналов - student2.ru

Рис.9. Логарифмическая критическая полоса слуха [6]

Маскировка слуха – это явление ослабления слышимости или полного пропадания полезного звука на фоне мешающего звука. Количественно выражается как разница:

Основные свойства речевых сигналов - student2.ru ,

где Основные свойства речевых сигналов - student2.ru - порог слышимости при наличии мешающего звука. На рис.10 приведено семейство индивидуальных кривых маскировки для различных уровней маскирующего сигнала Основные свойства речевых сигналов - student2.ru . Здесь Основные свойства речевых сигналов - student2.ru - разность высот тона маскирующей Основные свойства речевых сигналов - student2.ru и маскируемой Основные свойства речевых сигналов - student2.ru компонент, причем высота тона Основные свойства речевых сигналов - student2.ru измеряется в Барках:

Основные свойства речевых сигналов - student2.ru .

Основные свойства речевых сигналов - student2.ru

Рис.10. Семейство индивидуальных кривых маскировки [19]

Измерение разборчивости

Различают [6] следующие виды (меры) разборчивости речи:

· разборчивость формант Основные свойства речевых сигналов - student2.ru ;

· разборчивость звуков Основные свойства речевых сигналов - student2.ru ;

· разборчивость слогов Основные свойства речевых сигналов - student2.ru ;

· разборчивость слов Основные свойства речевых сигналов - student2.ru ;

· разборчивость фраз Основные свойства речевых сигналов - student2.ru .

При расчете разборчивости приходится иметь дело с частотно-зависимыми функциями. Поэтому результаты количественного расчета для различных участков спектра различны. Ввиду этого задача расчета решается разделением диапазона частот, используемого для передачи речи, на узкие полосы, внутри которых можно не считаться с указанной частотной зависимостью и относить полученные результаты к средней частоте полосы. Далее вычисляется разборчивость для каждой полосы частот, а общая разборчивость находится суммированием «полосовых» разборчивостей.

Поскольку свойством аддитивности обладает только формантная разборчивость:

Основные свойства речевых сигналов - student2.ru ,

где Основные свойства речевых сигналов - student2.ru - формантная разборчивость в Основные свойства речевых сигналов - student2.ru -той полосе частот, идея расчета сводится к предварительному вычислению величины Основные свойства речевых сигналов - student2.ru , с последующим пересчетом ее в величины Основные свойства речевых сигналов - student2.ru , Основные свойства речевых сигналов - student2.ru , Основные свойства речевых сигналов - student2.ru , Основные свойства речевых сигналов - student2.ru , на основании имеющейся информации о зависимости между разными мерами разборчивости.

Разборчивость в каждой полосе можно представить в виде:

Основные свойства речевых сигналов - student2.ru ,

где Основные свойства речевых сигналов - student2.ru - формантная разборчивость в отсутствие мешающих факторов (шум, влияние тракта передачи); Основные свойства речевых сигналов - student2.ru - коэффициент восприятия, учитывающий потери разборчивости из-за наличия мешающих факторов.

Разделение диапазона частот речевого сигнала на полосы можно производить по-разному. В [6] называется два способа:

· деление на полосы одинаковой ширины;

· деление на равноартикуляционные полосы,

причем предпочтение отдается второму способу, позволяющему упростить выкладки. Количество полос при этом предлагается выбрать равным Основные свойства речевых сигналов - student2.ru . В работе [13] также выбран способ деления на равноартикуляционные полосы.

В [11-14] указывается иной способ – деление на октавные или третьоктавные полосы. Количество полос при этом предлагается выбрать равным Основные свойства речевых сигналов - student2.ru .

По-видимому, выбор способа деления на полосы частот – вопрос не столько принципиальный, сколько зависящий от «вкуса» исследователя.

Рассмотрим далее идею расчета разборчивости речи, исходя из принципа деления на равноартикуляционные полосы [6]. При этом

Основные свойства речевых сигналов - student2.ru ,

поскольку, в силу вероятностного характера формантной разборчивости, справедливо соотношение

Основные свойства речевых сигналов - student2.ru .

Таким образом,

Основные свойства речевых сигналов - student2.ru .

Величины Основные свойства речевых сигналов - student2.ru определяют, исходя из эмпирической функциональной зависимости Основные свойства речевых сигналов - student2.ru (функцию Основные свойства речевых сигналов - student2.ru называют «постоянной артикуляционной характеристикой речи» [6]), где уровень ощущения формант Основные свойства речевых сигналов - student2.ru вычисляют по формуле:

Основные свойства речевых сигналов - student2.ru ,

где Основные свойства речевых сигналов - student2.ru - значение спектра формант на входе тракта; Основные свойства речевых сигналов - student2.ru - порог слышимости; Основные свойства речевых сигналов - student2.ru - маскировка от шумов всех видов; Основные свойства речевых сигналов - student2.ru - затухание в тракте; Основные свойства речевых сигналов - student2.ru - логарифмическая ширина критической полосы слуха.

Для достаточно высоких уровней шума:

Основные свойства речевых сигналов - student2.ru

выражение для уровень ощущения формант Основные свойства речевых сигналов - student2.ru можно вычислять по упрощенной формуле:

Основные свойства речевых сигналов - student2.ru .

Вид зависимости Основные свойства речевых сигналов - student2.ru приведен на рис.11.

Основные свойства речевых сигналов - student2.ru

Рис.11. Вид зависимости Основные свойства речевых сигналов - student2.ru

Отметим два важных обстоятельства. Во-первых, функция Основные свойства речевых сигналов - student2.ru не зависит от полосы частот. Во-вторых, в литературе можно встретить весьма различающиеся кривые Основные свойства речевых сигналов - student2.ru . Например, даже в работе [6] встречаем две такие кривые: для «идеализированной артикуляционной бригады» и для «типовой артикуляционной бригады». А в работе [10] приводится аналогичная зависимость, существенно отличающаяся от соответствующих кривых в работе [6]. Более внимательный анализ работы [10] показывает, что здесь вместо спектра формант Основные свойства речевых сигналов - student2.ru используют спектр речи Основные свойства речевых сигналов - student2.ru , и, как следствие, вместо уровня ощущения формант Основные свойства речевых сигналов - student2.ru используют уровень ощущения речи:

Основные свойства речевых сигналов - student2.ru .

Таким образом, в [10] вместо зависимости Основные свойства речевых сигналов - student2.ru предлагают использовать сходную, но количественно отличающуюся зависимость Основные свойства речевых сигналов - student2.ru .

Таким образом, хотя аналитическая методика расчета разборчивости речи на сегодняшний день проработана теоретически и экспериментально весьма глубоко, при практическом ее использовании следует помнить о существовании множества модификаций такой методики. Непродуманное «перекрестное» использование элементов этих методик может привести к неверным результатам расчета разборчивости речи.

Наши рекомендации