Основы кодирования речевых сигналов

Спектр речи достаточно широк (примерно от 50 до 10000 Гц), но для её передачи в аналоговой телефонии в свое время отказались от составляющих, лежащих вне полосы 0,3–3,4 кГц (решающими здесь были экономические соображения и нехватка телефонных каналов), что ухудшило восприятие ряда звуков (например, шипящих), но мало затронуло разборчивость. Ограничение частоты снизу (до 300 Гц) также ухудшаетвосприятие из-за потерь низкочастотных гармоник основного тона. А в цифровой телефонии к влиянию ограничения спектра добавляются ещё шумы дискретизации, квантования и обработки, дополнительно зашумляющие речь.

При передаче речи по цифровым каналам связи один из важнейших вопросов – сколько информации (число бит в секунду) придется передавать по каналам, чтобы снабдить пользователя качественной голосовой связью. Ответ на поставленный вопрос определяет стоимость и качество предоставляемых пользователям услуг и аппаратуры, емкость сети и т. п. [26].

Сжатие речи при ее передаче сокращает объем передаваемых данных, затраты и, благодаря этому, позволяет снижать цены на услуги. Именно поэтому рынок цифровой телефонии развивается под непосредственным технологическим диктатомученых и разработчиков кодеков речи. Очевидно, только начиная с каких-то пороговых значений соотношения скорости передачи и доступной емкости каналов операторы связи имеют достаточную для развития (и своего, и рынка) прибыль.В настоящее время можно сказать, что этот порог уже превышен. Это привело к тому, что расценки на цифровую связь стали конкурировать с проводной аналоговой, а благодаря ожидаемому переходу к кодекам речи на скорости порядка 2,4 кбит/с и ниже, доступность цифровой подвижной связи еще более возрастет [27].

Исторически сложились два направления кодирования речи: кодирование формы сигналаи кодирование источника сигнала.

Первый метод основан на использовании статистических характеристик PC и практически не зависит от механизма его формирования. Это означает, что при таком методе кодирования входной PC рассматривается как чисто аналоговый, а природа человеческой речи и ее восприятия в алгоритме кодирования практически не учитываются. Кодеры этого типа обеспечивают высокое качество передачи речи, но отличаются меньшей по сравнению со вторым методом экономичностью, что является результатом достаточно высокого уровня неустраненной избыточности. Следствие этого – скорость цифрового потока редко бывает меньше 32 кбит/с.

Поэтому для кодирования речи со скоростью передачи 16 кбит/с и меньше – прежде всего для цифровых систем сотовой и персональной спутниковой связи – получили мощное развитие разнообразные методы кодирования источника.

Основные методы кодирования (компактного представления) речевого сигнала указаны на рис. 5.1. Принятые здесь сокращения приведены в списке, помещенном после предисловия; цифрами указана типовая цифровая скорость (в кбит/с), свойственная обозначенному алгоритму сжатия.

 
  Основы кодирования речевых сигналов - student2.ru

Рис. 5.1. Основные методы кодирования речевого сигнала

Трудность создания кодеков, обеспечивающих минимально возможную скорость передачи для речевого источника, обусловлена рядом причин. Во-первых, РС не является стационарным процессом. Законы изменения его вероятностных характеристик на участках произнесения гласных и согласных звуков существенно различаются, не говоря уже о паузах и смычках (участки звучания согласных типа "м", "н", "п" и т. п.), где характеристики могутизменяться почти скачком [3, 26].

Вторая причина связана с формализацией критерия верности передачи, свойственного получателю. Действительный критерий восприятия, который характеризует качество слухового приема речевого сигнала человеком, отличается от распространенного критерия среднеквадратической ошибки или от какого-либо другого критерия, контролирующего отклонение «формы реализаций». Поэтому воспользоваться непосредственно результатами теории передачи информации для расчета качественных характеристик источника речевого сигнала затруднительно. Однако можно попытаться получить оценки минимально возможной скорости передачи из других соображений, используя физические свойства получателя и источника речевых акустических колебаний [26].

Известно, что человек может воспринимать смысловую «информацию» по слуховому каналу со сравнительно малой скоростью – порядка десятков или сотен бит/с. Известно также, что частота механических колебаний артикуляционных органов при произношении звуков речи невелика и по грубым оценкам не превышает нескольких десятков герц. Это позволяет предположить, что для обмена «речевой информацией» достаточно располагать пропускной способностью канала, не превышающей 100 бит/с.

В то же время, наряду с требованием обеспечения высокой верности слухового приема сообщения, крайне важно сохранить при передаче и такие субъективные характеристики, как узнаваемость собеседника, натуральность звучания и т. п.

Очевидно, чем изощренней алгоритм кодирования PC, тем сложнее его реализовать. Сложность связана с вычислениями, необходимыми для воспроизведения процессов кодирования и декодирования сигналов в реальном времени в микросхемах AT. Достижения в области обработки цифровых сигналов (создание цифровых сигнальных процессоров исверхбольших интегральных схем, обеспечивших резкое увеличение емкости элементов памяти) позволяют выполнять сложные алгоритмы кодирования речи даже в однокристальных микропроцессорах. Сложность обработки влияет на физические размеры кодека PC, на его стоимость, потребляемую мощность, а также отражается на величине коммутационной задержки– временной задержке сигнала при его обработке и буферизации в кодере и декодере. В телефонном канале значительное запаздывание сигнала заметно снижает качество восприятия речи. Реальные коммутационные задержки составляют от 125 мкс (в линиях с ИКМ–64) до 100 мс (в некоторых низкоскоростных системах кодирования). Предельно допустимой в телефонии считается общая задержка порядка 300 мс [27].

Перед выдачей в канал связи выходная информация кодера речи подвергается дополнительно канальному кодированию. При передаче цифровых данных по каналу с шумом, и тем более с замираниями, обусловленными многолучевым распространением радиоволн, всегда существует вероятность того, что принятые данные будут содержать ошибки. Частота появления ошибок, при превышении которой принятые данные использовать нельзя, определяется свойствами слухового восприятия человека.

Снижение вероятности ошибок может быть достигнуто путем повышения требований к энергетическим характеристикам радиосистемы передачи – мощности радиопередатчиков, коэффициенту усиления антенн, шумовой температуре приемников.

Однако далеко не всегда эти меры экономически оправданы и позволяют снизить вероятность ошибок до пренебрежимо малой величины. Поэтому приходится вносить в цифровой канал искусственную избыточность для канального кодирования с исправлением ошибок, которое позволяет уменьшить вероятность ошибок до приемлемой величины.

Качество работы современных систем связи характеризуется совокупностью основных свойств: точностью (верностью) воспроизведения сообщений, помехоустойчивостью, пропускной способностью, скоростью, дальностью действия, ЭМС, надежностью, скрытностью действия, гибкостью использования, массой, объемом и габаритами, стоимостью, экологической совместимостью. Каждое свойство характеризуется одним или несколькими числовыми показателями [36].

1. Достоверность передачи сообщений – степень соответствия принятого сообщения переданному.

2. Помехоустойчивостью радиосистемы называют ее способность сохранять при действии помех показатели качества неизменными или изменяющимися в допустимых пределах.

Потенциальной называется теоретически предельно достижимая помехоустойчивость в условиях, когда единственной помехой является внутренний шум радиоприемного устройства. Скоростью передачи информации называется среднее количество информации, передаваемое в системе в единицу времени. Численно скорость передачи информации R определяется количеством информации, поступающей от отправителя за 1 с [бит/с].

3. Эффективность систем связи. Наиболее широко в теории связи применяются критерии, в которых системы связи оцениваются величиной затрат на передачу единицы количества информации при заданном качестве ее приема.

4. Под скрытностью системы радиосвязи понимается способность противостоять мерам радиотехнической разведки, направленным на обнаружение факта работы радиолинии и определение необходимых для радиопротиводействия параметров сигнала.

5. Криптостойкость – способность системы передачи информации, которая обеспечивает невозможность или существенное затруднение рассекречивания содержания передаваемой информации.

6. Имитостойкость – способность системы передачи информации противодействовать навязыванию противником ложных сообщений.

7. Помехозащищенность– широкое понятие, которое включает в себя криптостойкость, имитостойкость, а также способность радиолинии противостоять подавлению организованных помех [36].

Следует отметить, что эффективность систем связи в существенной степени определяется тем, насколько рационально система использует имеющуюся в ее распоряжении энергию сигнала – носителя информации.

Так появление систем радиосвязи с широкополосными сигналами (ШПС) знаменовало революционный скачок в технике связи. Появился ряд уникальных возможностей: возможность «хирургического вырезания» мощных сосредоточенных помех, передача нескольких сообщений на одной несущей, погружение сигнала ШПС до уровня помех [36].

Кодирование канала (избыточное или помехоустойчивое кодирование) представляет собой метод обработки сигналов, предназначенный для увеличения надежности передачи информации по цифровым каналам. Выбор типа корректирующего кода и его параметров зависит от требуемой достоверности приема, допустимой скорости передачи, вида ошибок в канале. Учитывается также, что в результате эффективного устранения избыточности в процессе кодирования источника, предшествующего кодированию канала, информационная ценность каждого передаваемого в канал бита резко возрастает [26, 33, 36].

Избыточное кодирование, основанное на применении специальных корректирующих кодов, реализуется путем добавления по определенному алгоритму в каждое кодовое слово (или в группу слов) некоторого количества поверочных символов. Эта избыточность позволяет корректирующему ошибки декодеру детектировать и исправлять неверно принятые данные и восстанавливать исходный поток данных по принятому потоку.

Различают коды для обнаружения ошибок и коды для исправления обнаруженных ошибок.

В современных цифровых системах связи и вещания для обнаружения и исправления ошибок применяют либо блочные корректирующие коды, либо сверточные коды. Определяющее различие между кодерами этих двух типов состоит в наличии или отсутствии памяти. Кодер для блокового кода отображает последовательности из k входных символов в последовательности из n выходных символов, причем всегда n > k. Если в пределах блока кода при передаче появляется q ошибочных символов, то считают, что произошла ошибка кратности q. Почти все блочные коды относятся к разделимым кодам, то есть таким, кодовые комбинации которых состоят из двух различающихся частей: информационной и проверочной [26].

Основными параметрами, характеризующими корректирующие свойства кодов, являются избыточность кода, кодовое расстояние, число обнаруживаемых или исправляющих ошибок.

В современных СПР используются эффективные сверточные коды, в которых обрабатывается непрерывная последовательность символов без деления ее на независимые блоки.

Сверточный код – это линейный рекуррентный код. В общем случае он образуется следующим образом. В каждый тактовый момент времени на вход кодирующего устройства (регистр сдвига с К ячейками) поступает m символов сообщения; n выходных символов формируются с помощью рекуррентного соотношения из К = m + k символов сообщения, среди которых m поступили в данный тактовый момент времени, a k – в предшествующие. Параметр К называют длиной кодового ограничения данного кода. Символы сообщения, из которых формируются выходные символы, хранятся в памяти кодера.

Обычно качество системы связи измеряется отношением сигнал – шум на входе демодулятора (ОСШ), которое требуется для достижения заданной вероятности ошибки Рош. Уменьшение ОСШ при заданном уровне Рош, достигнутое благодаря кодированию канала, характеризует энергетический выигрыш кодирования (ЭВК). При использовании блочных кодов величина ЭВК, как правило, не превышает 2,5...3,5 дБ.

Платой за получаемый энергетический выигрыш является увеличение скорости цифрового потока передачи из-за необходимости передачи поверочных символов корректирующего кода.

Расстоянием dмежду двумя кодовыми комбинациями называют число позиций, в которых эти комбинации имеют разные символы. Минимальное расстояние между кодовыми комбинациями – dmin (Хеммингово расстояние). Кодовое расстояние является основным параметром, характеризующим корректирующие свойства данного кода [36].

Число обнаруживаемых или исправляемых ошибок определяется так. Если код используется только для обнаружения ошибок кратностью а, то необходимо и достаточно, чтобы минимальное расстояние было равно dmin > а + 1. В этом случае кодовая комбинация из-за ошибок не может перевести одну разрешенную кодовую комбинацию в другую.

Таким образом, условия обнаружения всех ошибок кратностью а можно записать в виде а < dmin – 1. Чтобы можно было исправить все ошибки кратностью аи менее, необходимо иметь минимальное расстояние, удовлетворяющее условию dmin > 2а + 1.

Корректирующие коды могут одновременно использоваться для обнаружения и исправления ошибок. Минимальное расстояние, при котором можно исправить все ошибки кратности а и одновременно обнаружить все ошибки кратности b или меньше, определяется условием dmin > а + b + 1, где b > а [36].

Кодирование канала, как правило, сопровождается двумя весьма простыми, но чрезвычайно эффективными процедурами – скремблированием индивидуальных цифровых потоков и перемежением символов.

Скремблирование, предваряя кодирование канала, превращает цифровой сигнал в квазислучайный. Это, с одной стороны, позволяет создать в цифровом сигнале достаточно большое число перепадов уровня и обеспечить возможность выделения из него тактовых импульсов, а с другой – приводит к более равномерному энергетическому спектру излучаемого радиосигнала.

Перемежение (перестановка во времени) символов позволяет декоррелировать ошибки в канале, то есть преобразовать пакеты ошибок большой кратности в одиночные.

Высокая помехоустойчивость, энергетическая и частотная эффективность в современных СПР достигаются в значительной степени благодаря рациональному выбору параметров модуляции [26].

С целью упрощения системы передачи часто применяют относительную ФМ (ОФМ), которую можно рассматривать как обычную, но при соответствующем дополнительном кодировании передаваемого сообщения. Эффективность ФМ и ОФМ сигналов увеличивают путем перехода к многократной манипуляции, что приводит к сокращению полосы занимаемых частот при сохранении скорости передачи.

Список рекомендуемой литературы:[2, c. 87–118; 3, c. 67–72, 76–83, 92–101, 230–351; 4, c. 44–57, 267–296, 356; 5, c. 108–110, 115–141, 144–160, 166–170; 8, c. 54–57, 68–78; 10, c. 46–52, 315–324;24 – 27, 30].

Контрольные вопросы

1. Каковы основные способы повышения эффективности систем передачи информации?

2. Почему полоса эффективно передаваемых частот 0,3 – 3,4 кГц оказывается достаточной для организации телефонного канала?

3. Почему для совершенствования СПР важна разработка экономичных кодеков речи?

4. В чем состоит основное назначение процедуры кодирования канала?

5. Кратко охарактеризуйте основные параметры и показатель эффективности применения корректирующего кода.

6. Какие корректирующие коды в основном применяются в системах связи? В чем состоит их принципиальное различие?

7. Что характеризует и как определяется кодовое расстояние?

8. Что характеризует энергетический выигрыш кодирования и как он определяется?

9. Зачем в цифровых каналах связи используются скремблирование?

10. Зачем в цифровых каналах связи используются перемежение?

11. Объясните основное назначение процедуры модуляции. Как определяется эффективность модуляции?

12. Чем вызвано использование в СПР сигналов с относительной многократной фазовой манипуляцией и с модуляцией минимального частотного сдвига?

Наши рекомендации