Потеря пакетов
Если проблемы ограничения задержки и подавления эха в традиционной телефонии существовали всегда, а при переходе к IP-сетям лишь усугубились, то потери информации (пакетов) и стохастический характер задержки породили совершенно новые проблемы, решение которых сопряжено с большими трудностями [4].
Потерянные пакеты в IP-телефонии нарушают речь и создают искажения тембра [2]. В существующих IP-сетях все голосовые кадры обрабатываются как данные. При пиковых нагрузках и перегрузках голосовые кадры будут отбрасываться, как и кадры данных. Однако кадры данных жестко со временем не связаны и могут быть успешно переданы путем повторения. Потеря голосовых пакетов не может быть восполнена таким образом и в результате произойдет неполная передача информации. Предполагается, что потеря до 5% пакетов – незаметна, а больше 10-15% – недопустима. Следует учесть, что эти величины существенно зависят от алгоритмов компрессии/декомпрессии.
Труднее справиться с массовыми потерями, нередкими в условиях Internet: они могут привести к заметному пропаданию сигнала [8]. Для борьбы с такими потерями задействуются схемы прямого исправления ошибок (forward error correction, FEC). Недостаток таких схем состоит в том, что для восстановления некоторого пакета нужно успешно получить, по крайней мере, следующий по порядку пакет, а это вызывает дополнительную задержку величиной, как минимум, с кадр. В другом алгоритме восстановления предусматривается включение в пакет с очередным кадром копий определенного числа предыдущих кадров. Максимальная эффективность всех подобных методов достигается при наличии приемного буфера глубиной в несколько кадров.
Существенно, что потеря большой группы пакетов приводит к необратимым локальным искажениям речи, тогда как потери одного, двух, трех пакетов можно пытаться компенсировать.
Эхо
Феномен эха вызывает затруднения при разговоре и у говорящего, и у слушающего [1]. Эхо возникает в случае, когда отраженный речевой сигнал вместе с сигналом от удаленного конца возвращается опять в ухо говорящего. Эхо становится трудной проблемой, когда задержка в петле передачи больше, чем 50 мс. Говорящий слышит с определенной задержкой свой собственный голос. Если сигнал отражается дважды, то слушающий дважды слышит речь говорящего (второй раз – с ослаблением и задержкой).
Эхо может иметь электрическую и акустическую природу.
Отражения в дифсистеме являются неотъемлемым свойством ТфОП. Поэтому они проявляются при взаимодействии ТфОП и IP-сетей. С целью экономии кабеля в ТфОП для подключения абонентских терминалов с давних пор используются двухпроводные линии, по которым речевые сигналы передаются в обоих направлениях. Более того, во многих телефонных сетях передача сигналов обоих направлений по двум проводам используется и в соединительных линиях между электромеханическими АТС (сейчас используется 4-х проводная схема передачи). Для разделения сигналов разных направлений в терминалах абонентов (телефонных аппаратах) и на АТС применяются простые мостовые схемы, называемые дифсистемами. Работа этих мостовых схем основывается на согласовании импедансов в плечах моста, одним из плеч которого является двухпроводная абонентская линия. Так как абонентские линии могут очень сильно различаться по своим параметрам (длине, диаметру жил кабеля и т.п.), то достичь точного согласования (тем более, во всей полосе передаваемых частот) невозможно. Вместо этого администрация связи вынуждена ориентироваться на некоторую среднюю величину импеданса для всех абонентских линий своей национальной сети. Это приводит к тому, что сигналы прямого и обратного направления в большинстве случаев не разделяются полностью, и в дифсистеме возникает частичное отражение сигналов.
Если задержка распространения сигнала в сети невелика (что обычно и бывает в местных сетях), такой отраженный сигнал попросту незаметен и не вызывает неприятных ощущений. Если задержка достигает величины 15-20 мс, возникает эффект «огромного пустого помещения». При дальнейшем увеличении задержки субъективная оценка качества разговора резко ухудшается, вплоть до полной невозможности продолжать беседу.
Акустическое эхо возникает при пользовании терминалами громкоговорящей связи, независимо оттого, какая технология используется в них для передачи информации. Акустическое эхо может обладать значительной длительностью, а особенно неприятным бывает изменение его характеристик при изменении, например, взаимного расположения терминала и говорящего, или даже других людей в помещении. Эти обстоятельства делают построение устройств эффективного подавления акустического эха очень непростой задачей.
В IP-сетях для решения этой проблемы, как и в ТфОП используются эхозаградители и эхокомпенсаторы.
Принцип работы эхозаградителей состоит в отключении канала передачи, когда в канале приема присутствует речевой сигнал. Такая техника широко используется в дешевых телефонных аппаратах с громкоговорящей связью (speakerphones), однако простота не обеспечивает нормального качества связи – перебить говорящего становится невозможно, т.е. связь, по сути, становится полудуплексной.
Эхокомпенсатор – это более сложное устройство, которое моделирует эхосигнал для последующего его вычитания из принимаемого сигнала. Эхо моделируется как взвешенная сумма задержанных копий входного сигнала или, иными словами, как свертка входного сигнала с оцененной импульсной характеристикой канала. Оценка импульсной характеристики происходит в тот момент, когда говорит только удаленный корреспондент, для чего используется детектор одновременной речевой активности. После вычитания синтезированной копии эхосигнала из сигнала обратного направления полученный сигнал подвергается нелинейной обработке для увеличения степени подавления эха (подавление очень слабых сигналов). По изложенным выше причинам эхокомпенсаторы являются неотъемлемой частью шлюзов IP-телефонии. Алгоритмы эхокомпенсации реализуются обычно на базе тех же цифровых сигнальных процессоров, что и речевые кодеки, и обеспечивают подавление эхо-сигналов длительностью до 32-64 мс.