Классификация систем распознавания и синтеза русской речи
Обычно структуру системы распознавания речи выбирают исходя из сложности решаемой задачи. Выбор осложняется многообразием возможных технических решений на различных уровнях системы. Упростить задачу выбора структуры системы позволяет ее предварительная классификация по ряду признаков, наборам которых могут соответствовать «шаблонные» решения.
В качестве признаков используют: тип речи, распознаваемый системой; зависимость системы от распознаваемых голосов дикторов; степень детализации эталонов; количество распознаваемых слов[Аграновский 2004, Мазуренко 1998].
По типу речи различают системы распознавания команд и слитной речи. В первом случае требуется специальное (дискретное) произнесение слов (команд), при котором паузы между словами значительно превышают внутрисловные паузы. Обычно длительность такой разделительной паузы составляет полсекунды. При распознавании слитной речи пользователь может произносить слова фраз естественно, не делая специальных пауз между словами. Существует и третий вариант работы системы распознавания, при котором система должна обнаруживать произнесение заданных слов в звуковом потоке, независимо от того выделены они паузами или произнесены в окружении других слов. Такой режим распознавания называется режимом поиска ключевых слов.
По степени зависимости системы от распознаваемых голосов дикторов различают дикторозависимые и дикторонезависимые системы. Первые требуют предварительного обучения (адаптации) к голосу пользователя системы, вторые – готовы к работе сразу после установки. Дикторозависимые системы обеспечивают более высокую точность распознавания с голоса основного пользователя системы, чем с любых других голосов. Третий тип систем – системы, автоматически настраивающиеся на голос диктора по мере их использования.
По степени детализации эталонов различают системы, использующие, в качестве эталонов целые слова и части (монофоны, трифоны, слоги и т.д.) слов. Первые обеспечивают более высокие точность и скорость сравнения, но накладывают значительные ограничения на объем и открытость словаря.
По количеству распознаваемых слов (или объему словаря) можно выделить две категории: системы с малыми (обычно, до 100 слов) и большими словарями. В системах с малым словарем есть возможность прямого обучения для каждого слова. В системах с большим словарем такой возможности нет.
точки зрения выбора структуры системы представляется целесообразным использование такого классификационного признака, как тип грамматики, определяющего структуру распознаваемых высказываний. По типу грамматики системы распознавания речи можно разделить на три класса: командные, с фиксированной грамматикой и системы диктовки.
Командные системы ориентированы на распознавание отдельных слов и/или фраз, включаемых в словарь системы в качестве отдельных элементов. Командные системы не предусматривают возможность распознавания комбинаций элементов словаря.
В системах с фиксированной грамматикой грамматика определяет допустимые комбинации элементов словаря. «Фиксированность» грамматики не означает, что система может работать только с одной, заданной грамматикой – грамматика фиксируется в рамках одной сессии распознаваниясистемах диктовки грамматика, как таковая, отсутствует. Допустимые комбинации элементов словаря определяются не грамматикой, а правилами более общего характера, называемыми языковой моделью.
Использование данной классификации упрощает разработку структуры системы распознавания, т.к. для каждого класса имеется набор стандартных решений. Определившись с классом можно определиться с базовым комплектом методов, моделей и алгоритмов.
Этапы распознавания речи
В общем случае распознавание разделяется на пять основных этапов: членение речевого потока, вычисление акустических признаков, сравнение признаков со звуковыми моделями (распознавание слов), определение произнесения слов не из словаря системы, языковое моделирование. Для каждого этапа распознавание характерно применение определенного набора методов, моделей и алгоритмов обработки речевого потока.
На рисунке 1 представлено соответствие между этапами распознавания и основными методами алгоритмами, применяемыми на них. Рассмотрим подробнее, перечисленные методы и алгоритмы.
Рисунок 1.1 - Соответствие этапов распознавания методам и алгоритмам обработки речи
Членение речевого потока
Одним из условий надежного распознавания речевых фрагментов является точное определение их границ. При высоких значениях соотношения сигнал/шум (30 дБ и более) выделение не представляет технических трудностей и может выполняться пороговым старт-стоповым методом. Однако, в большинстве реальных задач соотношение сигнал/шум значительно ниже и требуется применение специальных методов определения речевой активности.
Обычно используются известные алгоритмы определения речевой активности (VAD), подробно описанные в рекомендациях ITUT [G.729, G.723] и их модификации. Дополнительно могут применяться алгоритмы фильтрации выбросов VAD [Гусев 2008].
Дальнейшее членение выделенных речевых фрагментов на аллофоны (слова, синтагмы или фразы) представляется весьма затруднительным и неоднозначным. Это объясняется отсутствием явных физических границ между элементами речевого потока. Детальная сегментация может быть выполнена при участии более высоких уровней системы распознавания речи.