Распознавание речевых сигналов

Система речевого общения состоит из микрофона, звуковой платы и импульсно-кодовой модуляции (ИКМ).

 
  Распознавание речевых сигналов - student2.ru

Звуковая плата преобразует звуковой сигнал в последовательность отчетов. Речевой сигнал подвергают импульсно-кодовой модуляции, которая подразумевает дискриминацию сигнала, как во времени, так и по амплитуде. При дискриминации во времени отчеты по теореме Котельникова берутся с частотой превышающей максимальную частотную составляющую речевого сигнала в 2 и более раз, получается осциллограмма речевого сигнала.

22050 – 11025

44100 – более точная дискриминация речевого сигнала.

При выделении частотных составляющих из сигнала путем специальных частотных фильтров получают спектры речевого сигнала.

При анализе речи выделяют фонетические и просодические элементы речи.

Фонетические – это аллофон и фонемы.

Аллофон – это набор звуков, которые имеют одинаковые свойства или одинаково информативны.

Фонема – это совокупность аллофонов, имеющих одинаковые функции и не создающих смысловых различий в языке. Просодические:

- мелодика – изменение частоты основного тона голоса;

- ритмика – изменение длительности звуков и пауз;

- энергетика – текущее изменение интенсивности звука.

При анализе спектрограммы выделяют следующие уникальные характеристики речи:

- спектр мощности;

- формантные характеристики;

- кепстральные (оцениваются по коэффициенту преобразования Фурье);

- изменение основного тона голоса (среднее значение, дисперсия сигнала, изрезанность методического элемента);

- статистические характеристики ритмики и темпа речи.

По уровню сложности различают:

1. Распознавание изолированных слов ограниченного словаря.

2. Распознавание слитной речи, не зависящей от диктора.

3. Распознавание произвольного диктора.

4. Понимание речи – осознание смысла сказанного, в т.ч. и прагматического (распознавание цели говорящего).

Метод динамического программирования (ДП).

В отличие от эталонного сигнала распознаваемый сигнал имеет различный временной темп и индивидуальную окраску. Метод ДП предназначен для нормализации временных деформаций сигнала, возникающих в результате изменений темпа и манеры произнесения. Метод ДП выбирает наилучшее временное сопоставление эталонного и распознаваемого сигнала.

Эталонные сигналы E(t) всех k слов или звуков хранятся в памяти. Распознаваемое слово сравнивается с каждым из эталонных путём расчёта интегральной меры подобия Fk, которое вычисляется из значений локальных мер подобия g между дискретными элементами Ek(t) и распознаваемого сигнала S(t). Неизвестное слово S(t) относится к тому эталону, для которого мера подобия Fk максимальна.

Интегральная мера подобия рассчитывается путём определения оптимального пути на графе с помощью реккурентной формы.

Fi,j = max (Fi-1,j; Fi,j-1; Fi-1,j-1 + gi,j)

gi,j – локальная мера подобия между Si(t) и Ej(t).

Поиск совпадения выполняется по графу, который представляется следующим образом:

Распознавание речевых сигналов - student2.ru

Начало сравнения двух сигналов соответствует точке на графе с координатами (0,0).

1. Если эталону Ek(t) соответствует несколько элементов неизвестного слова S(t), то на графе оптимальный путь пойдёт по горизонтали.

2. Если одному элементу слова соответствует несколько элементов эталона, то оптимальный путь пройдёт по вертикали.

3. Если из произвольной точки графа мы переходим по горизонтали иди вертикали, то это соответствует удлинению некоторых участков речи и не ведёт к увеличению интегральной меры подобия, поскольку горизонтальный и вертикальный участки имеют вес равный 0.

4. Увеличение меры подобия на величину gi,j происходит только при прохождении оптимального пути по диагонали.

Наши рекомендации