Нейронные сети в системах автоматического распознавания речи

Хорошо известно, что речь человека характеризуется высокой степе­нью изменчивости. Это обусловлено несколькими причинами. Во-первых, даже для одного и того же говорящего, реализации одних и тех же акустических единиц будут отличаться по своему спектральному со­ставу и длительности произношения. Это может быть связано с измене­ниями эмоционального состояния человека, условий, в которых он нахо­дится. Во-вторых, наличие коартикуляционных эффектов приводит к тому, что произношение слов и фонем сильно зависит от их контекста. В-третьих, к изменениям в речевом сигнале приводят помехи различного характера. Принимая во внимание все эти факторы, и учитывая ряд дру­гих ограничений, следует отметить, что для высококачественного распо­знавания речи в реальном времени требуются вычислительные средства с высоким быстродействием. Одним из способов снижения этого требова­ния является распараллеливание вычислений, которое естественным обра­зом достигается при использовании искусственных НС, реализованных на нейрокомпьютерах.

К настоящему времени разработаны высокоэффективные нейронносетевые модели для распознавания коротких речевых сегментов и наборов схожих по звучанию изолированных слов. Часть из этих моделей успешно объединены с традиционными подходами для создания распознавателей больших словарей, изолированных слов и слитной речи.

Речевой сигнал
Акустический препроцессор
Сравнение с эталонами и вычисление локальных метрик
Временное выравнивание
Классификация последовательности векторов признаков
Выбранное слово
Векторы признаков
Меры соответствия признаков
Модели слов (эталоны и последовательности)

Рассмотрим простейшую схему распознавания изолированных слов, представленную на рис. 12.

Рис. 12. Схема распознавателя изолированных слов

Процесс распознавания в этом случае можно разделить на три этапа. На первом этапе акустический препроцессор преобразует входной рече­вой сигнал в последовательность векторов признаков или акустических векторов, извлекаемых через фиксированные промежутки времени. Как правило, эти векторы содержат спектральные или кепстральные коэффи­циенты, характеризующие короткие отрезки речевого сигнала.

На втором этапе векторы сравниваются с эталонами, содержащимися в моделях слов, и вычисляются их локальные метрики или меры соответст­вия (в общем случае сравниваются речевые сегменты, представленные несколькими векторами признаков). На третьем этапе эти метрики ис­пользуются для временного выравнивания последовательностей векторов признаков с последовательностями эталонов, образующими модели слов, и вычисляются меры соответствия для слов. Временное выравнивание используется для компенсации изменений в скорости произнесения.

После выполнения всех этих операций распознаватель выбирает слово, для которого мера соответствия максимальна. При распознавании слитной речи локальные метрики полученные на втором этапе вычислений, ис­пользуются для временного выравнивания и определения мер соответст­вия для отдельных предложений или высказываний. С целью высококаче­ственного распознавания обычно используется дополнительный этап, позволяющий учесть семантические, синтаксические и прагматические ограничения.

В схеме распознавания, изображенной на рис. 12, НС наиболее успеш­но используются на второй стадии вычислений при расчете локальных метрик. Для статистических распознавателей с непрерывным наблю­дением данные метрики являются монотонными функциями функций правдоподобия векторов признаков.

Простейшие из этих функций, такие как логарифм функции правдопо­добия для гауссовского распределения векторов независимых величин, могут быть рассчитаны с помощью однослойных сетей без их предвари­тельного обучения (для известных параметров распределений). При вычислении более сложных метрик могут быть использованы многослой­ные перцептроны, способные вычислять функции любой сложности. При настройке весовых коэффициентов таких сетей используется способность многослойного перцептрона, имеющего достаточное число связей, ап­проксимировать апостериорную вероятность классов после его обучения для выполнения классификации. Данное свойство было успешно использовано для создания высокоэффективных гибридных подходов к распознаванию слитной речи, основанных на скрытых марковских мо­делях (СММ), где многослойные сети служат для вычисления правдопо­добий состояний СММ. Использование НС в таких подходах по­зволяет учитывать при выполнении распознавания акустический контекст векторов наблюдений СММ и снять допущения относительно формы рас­пределения этих векторов.

Распознаватели речи с дискретным наблюдением сначала выполняют векторное квантование и присваивают каждому вектору признаков опре­деленный символ из кодовой книги. Затем на основе этих символов с по­мощью специальных таблиц, содержащих вероятности наблюдения сим­волов для каждого эталонного вектора, вычисляются локальные метрики. Такие вычисления могут быть выполнены однослойными перцептронами, состоящими из линейных узлов, число которых равно числу эталонов. Число входов такого перцептрона должно быть равным числу возможных символов.

Векторное квантование может быть выполнено с помощью сети, по­добной карте признаков Кохонена. Такая сеть представляет собой дву­мерный массив узлов кодовой книги, содержащий по одному узлу на каж­дый возможный символ. Каждый узел вычисляет евклидово расстояние между входным вектором сети и соответствующим эталоном, представ­ленным весами узла, после чего выбирается узел с наименьшим евклидо­вым расстоянием. Веса данной сети вычисляются с помощью алгоритма Кохонена, его модификаций или с помощью любого другого традици­онного алгоритма векторного квантования, использующего в качестве метрики евклидово расстояние (например, с помощью кластеризационного алгоритма k-средних.

Многослойные нейронные сети также могут быть использованы для снижения размерности векторов признаков, извлекаемых препроцессором на начальном этапе распознавания. Такая НС имеет столько же выходов, сколько и входов, и один или более слоев скрытых узлов. При обучении НС ее веса подбираются так, чтобы она могла воспроизводить на выходе любой входной вектор через небольшой слой скрытых узлов. Выходы этих узлов после обучения сети могут быть использованы в качестве входных векторов меньшей размерности для дальнейшей обработки речи.

В случае использоваться НС для классификации статических образов фо­нем, слогов и небольших словарей изолированных слов в качестве входного образа может быть выбран вектор признаков, характеризующий стационар­ный участок ее реализации. Эксперименты показывают, что в этом случае нейронносетевые классификаторы имеют примерно такую же точность рас­познавания, как и традиционные гауссовский классификатор и классифика­тор k ближайших соседей. Для учета динамической природы речи, то есть характера изменения параметров речевого сигнала во времени, в качест­ве статического входа НС может быть выбрано окно, включающее несколько последовательных во времени векторов признаков. Данное окно обычно раз­мещается в начале или в конце распознаваемой фонемы, так как именно там наиболее проявляется динамический характер речи и имеется возможность учитывать ее контекст. Однако для высококачественного опознавания необ­ходима точная сегментация обучающих и контрольных выборок для их вре­менного выравнивания, которое на практике осуществить довольно сложно.

Результаты экспериментов по исследованию перцептронов и некоторых типов иерархических НС, используемых для распо­знавания статических образов изолированных слов и цифр, показавают, что в случае небольших словарей точность распознавания примерно равна точности распознавания коммерческих распознавателей и распознавате­лей, основанных на СММ.

Особый интерес вызывают динамические нейросетевые классификато­ры, разработанные специально для распознавания речи и включающие в свой состав короткие временные задержки и узлы, выполняющие вре­менное интегрирование, или рекуррентные связи. Обычно такие класси­фикаторы мало чувствительны к небольшим временным сдвигам обу­чающих и контрольных выборок и, следовательно, не требуют для высококачественной работы точной сегментации речевых данных. Ис­пользование динамических сетей при распознавании речи позволяет пре­одолеть основные недостатки, присущие статическим сетям, и, как пока­зывают экспериментальные исследования, приводит к превосходному качеству распознавания для акустически схожих слов, согласных и гласных. Частота ошибок у динамических сетей для задач с малым словарем часто оказывалась значительно ниже, чем у лучших альтерна­тивных распознавателей, в том числе и основанных на СММ.

Нейронная сеть с временными задержками (НСВЗ) представляет собой многослойный перцептрон, узлы которого модифицированы введением временных задержек. Узел, имеющий N задержек т, 2т, ...,NT , показан на рис. 3.2. Он суммирует взятые в N+1 последовательных моментов време­ни J своих входов, умноженных на соответствующие весовые коэффици­енты, вычитает порог и вычисляет нелинейную функцию F полученного результата.

Архитектура трехслойной НСВЗ, предложенной для распознавания трех фонем (или трех классов фонем), показана на рис. 13 (на нем пока­заны связи только для одного выходного узла).

На рис. 14 показано, что обработка сетью входной последовательно­сти акустических векторов эквивалентна прохождению окон временных задержек над образами узлов нижнего уровня. На самом нижнем уровне эти образы состоят из сенсорного входа, т. е. акустических векторов. Узлы скрытых слоев сети представляют собой движущиеся детекторы призна­ков и способны обнаруживать требуемые образы в любом месте входных последовательностей. Благодаря тому что выходные узлы имеют равные веса связей со вторым слоем, любые моменты времени для таких детекто­ров являются равноправными. Это делает сеть инвариантной к временным сдвигам обучающих и контрольных образцов фонем (для случая, когда эти сдвиги не столь велики, чтобы важные ключевые признаки оказыва­лись за пределами входной последовательности сети). Простая структура делает НСВЗ подходящей для стандартизованной СБИС-реализации с загружаемыми извне весами.

Нейронные сети в системах автоматического распознавания речи - student2.ru

Рис. 13. Узел НСВЗ с задержками

Нейронные сети в системах автоматического распознавания речи - student2.ru

Рис. 14. Архитектура НСВЗ

Наши рекомендации