Дискретизация и квантование речевых сигналов
Простейшее цифровое представление речи заключается в непосредственной дискретизации непрерывного речевого сигнала в соответствии с теоремой Котельникова. Такое представление речевого сигнала соответствует импульсно-кодовой модуляции (ИКМ). Выбор частоты дискретизации зависит от конкретных условий решаемой задачи. Фрикативные звуки речи занимают сравнительно широкую полосу частот (примерно до 10 кГц). Вокализованные звуки, значительно влияющие на разборчивость речи, занимают полосу частот до 3 кГц. Таким образом, обычно используемая частота дискретизации выбирается в пределах от 6 до 20 кГц.
Следует отметить, что количество операций, выполняемое при обработке речи, находится в прямой зависимости от частоты дискретизации. Поэтому в соответствии с условиями решаемой задачи необходимо по возможности снижать частоту дискретизации. Для этого перед дискретизацией речевой сигнал предварительно обрабатывают с помощью аналогового ФНЧ, устраняя нежелательные высокочастотные составляющие.
Выбор числа двоичных единиц В для кодирования одного отсчета речевого сигнала определяется задачей обработки. Объективной характеристикой точности представления сигнала посредством ИКМ является шум квантования
где х[п] - исходная речевая последовательность; ff{^["]} - оператор квантования. Можно показать, что при равномерном квантовании отношение сигнал шум (ОСШ), выраженное в децибелах, будет равно [17]
Например, если В=\\, то ОСШ»60 дБ, что служит мерой качества хорошего телефонного канала связи. Добавление одного двоичного разряда для представления отсчета речевого сигнала увеличивает ОСШ на 6 дБ, Таким образом, для представления речевых сигналов посредством ИКМ требуется скорость передачи в пределах от 66 000 до 220 000 бит/с. Это необходимо учитывать при компьютерном хранении и обработке речи. Например, речевой сигнал длительностью 15 с будет занимать объём памяти примерно в 1 Мбайт. Для снижения скорости передачи речевых сигналов и, соответственно, уменьшения" объемов требуемой памяти сокращают число двоичных единиц, выделяемых на один отсчет. Ключом к решению задачи является учет того обстоятельства, что для вокализованных участков речи, имеющих большую амплитуду, можно использовать большой шаг квантования, а для невокализованных - мелкий, т.е. квантование должно выполняться с неравномерным шагом. Это стабилизирует отношение сигнал/шум и делает его не зависящим от уровня сигнала.
Чтобы относительная ошибка квантования оставалась постоянной при изменении амплитуды речевого сигнала, уровни квантования должны быть распределены по логарифмическому закону. Вместо распределения уровней квантования по логарифмическому закону можно выполнять квантование логарифма речевого сигнала. В этом случае перед квантованием речевой сигнал обрабатывают в компрессоре, а при восстановлении исходного речевого сигнала используют экспандер. Совокупность этих двух устройств называют компандером. Одной из часто используемых характеристик компрессии является функция:
Функция компрессии (4.3) называется законом. Экспандер реализует соответствующую обратную функцию
Г
При использовании компрессора, функционирующего на основе (4.3), для обеспечения ОСШ^бО дБ достаточно 7 бит на один отсчет речевого сигнала, т.е. скорость передачи может быть снижена по сравнению с равномерным квантованием в 1,57 раз. Отметим, что формулы (4.3) и (4.4) требуют, чтобы все отсчеты х[п] находились в интервале {-Хтах,Хтах} Любой отсчет, не принадлежащий указанному интервалу, полагается равным ±Хтах. Значения константы и обычно равны 30; 100; 254. Кроме ^i- закона, часто используют А - закон компандирования [14].
Другой подход к снижению скорости передачи основан на учете избыточности речевого сигнала. Соседние отсчеты речевого сигнала, дискретизированного в соответствии с теоремой Котельникова, имеют сравнительно высокую корреляцию. Это позволяет по предыдущим отсчетам предсказать текущее значение речевого сигнала. Предположим, что является предсказанным значением речевого сигнала х[п]. Если это предсказание является достаточно точным, то ошибка предсказания
должна иметь небольшую величину, и, следовательно, дисперсия ошибки квантования разностного сигнала будет меньше, чем дисперсия ошибки квантования отсчетов речи х[п]. Таким образом, квантователь с заданным количеством уровней обеспечит меньшую погрешность при квантовании разностного сигнала, чем при квантовании исходного сигнала. Поэтому для представления разностного сигнала требуется меньшее число двоичных разрядов.
Квантователь, построенный на использовании указанного подхода, называется дифференциальным (разностным) импульсно-кодовым модулятором (ДИКМ). Схема его показана на рис.4.2. Здесь х[п] представляет восстановленный сигнал, образуемый путем добавления
квантованного разностного сигнала d[n] к х[п}.
Покажем, что восстановленный сигнал х[п] будет отличаться отл"(и] на | величину шума квантования разностного сигнала
Заметим, что
Тогда, подставляя (4.7) и (4.5) в (4.6), получим искомый результат
Для предсказания значений речевого сигнала в схеме используется нерекурсивный ЦФ с передаточной функцией A(z), реализующий уравнение
В простейшем случае для предсказания используется фильтр первого порядка. '
В том случае, когда для кодирования разностного сигнала используется один бит, рассматриваемый модулятор называют дельта-модулятором. Обычно дельта модулятор функционирует на более высоких частотах ' дискретизации, чем ДИКМ.
Для уменьшения ошибки квантования в ДИКМ может применяться адаптивное изменение шага квантования и коэффициентов предсказывающего фильтра. Такие модуляторы называются адаптивными дифференциальными импулъсно-кодовыми модуляторами (АДИКМ). Коэффициенты предсказывающего фильтра вычисляются в устройстве оценивания (УО) так, чтобы минимизировать дисперсию ' ошибки предсказания (4.5). Оценивание коэффициентов предсказывающего фильтра возможно как по входной речевой последовательности х[п], так и по восстановленной последовательности х[п]. В первом случае, коэффициенты предсказывающего фильтра должны кодироваться и передаваться в декодер, так как последовательность х[п] отсутствует в декодере. Во втором случае такой необходимости нет. Коэффициенты предсказателя могут быть вычислены в декодере по восстановленной последовательности х[п\. Основные принципы вычисления коэффициентов линейного предсказания будут рассмотрены ниже.
АДИКМ позволяет снизить скорость передачи до 16 Кбит/с. Благодаря этому АДИКМ широко применяется для представления речевых сигналов в компьютерных системах. Детально вопросы реализации алгоритмов АДИКМ оговорены рекомендацией МККТТ G.726 [28]. В соответствии с этой рекомендацией на вход АДИКМ поступает стандартный ИКМ-сигнал с частотой дискретизации 8 кГц. Для представления квантованных разностных значений используется 5-, 4-> 3- и 2-разрядные двоичные коды. Это обеспечивает соответственно получение скорости передачи со значениями: 40, 32, 24, 16 Кбит/с.