Оценка качества передачи речевых сигналов
Поскольку человек как получатель информации является ключевым элементом любой телекоммуникационной системы, качество сигнала оценивается по его субъективному восприятию речи. К основным показателям качества принимаемой речи относят разборчивость и натуральность.
Разборчивость речи – определяющая характеристика тракта передачи речи, так как еслифакт не обеспечивает полной понятности ее, то никакие другие преимущества его не имеют значения – он не пригоден к эксплуатации. Для непосредственного определения этой качественной характеристики есть только один метод – субъективно-статистические испытания (ССИ), которые требуют большого количества речевого материала, обработанного кодеками и трактом передачи, и привлечения группы экспертов (тренированных слушателей и дикторов).
Разборчивостью речи называют относительное или процентное количество принятых элементов речи из общего числа переданных по тракту. Элементы речи – этослоги, звуки, слова, фразы (команды), цифры. В соответствии с этим есть слоговая, звуковая, словесная, смысловая и цифровая разборчивость. В практике используют преимущественно слоговую, звуковую и словесную разборчивость.
Громкость речиопределяет желательный уровень принимаемых сигналов, при котором разборчивость речи достигается без напряжения слухового аппарата со стороны принимающего.
Натуральность речиоценивает способность системы воспроизводить не только смысл передаваемой речи, но и ее тембр и индивидуальные особенности голосов говорящих, т.е. способность обеспечить узнаваемость говорящего по голосу (аутентификация).
Для измерений разборчивости разработаны артикуляционные таблицы слогов, звукосочетаний и слов с учетом их встречаемости в речи. Звуковых таблиц нет, так как звуки, кроме гласных, отдельно не произносятся, а для измерений звуковой разборчивости пользуются слоговыми таблицами или таблицами звукосочетаний. Измеряют разборчивость экспериментально с помощью артикуляционной бригады – группы тренированных слушателей и дикторов.
Для оценки качества звучанияпроводятся специальные испытания. Испытания заключаются в чтении несколькими дикторами, мужчинами и женщинами, ряда специально подобранных фраз, которые прослушиваются на выходе тракта связи экспертами – слушателями, выставляющими свои оценки по 5-балльной шкале MOS (средняя субъективная оценка или средняя оценка мнений): 1 – плохо, 2 – слабо, 3 – разборчиво, 4 – хорошо, 5 – отлично. Затем результаты усредняются. Хотя этот метод является субъективным по своей сути (аналог ССИ), его результаты по сопоставлению различных типов кодеков при проведении испытаний одними и теми же группами дикторов и экспертов-слушателей являются достаточно объективными, ина них основываются практически все выводы и решения.
Способы оценки качества передачи речи обычно подразделяются на объективные и субъективные. Объективные критерии основываются на значениях некоторых статистических параметров, которые позволяют судить о степени отличия принятого по каналу связи РС от переданного.
Примерами таких параметров могут служить:
· средняя квадратическая ошибка;
· отношение сигнал-шум;
· искажения спектра;
· индекс артикуляции.
Объективные критерии обычно оказываются полезными на начальном этапе разработки и моделирования способа кодирования речи, но они не обязательно приводят к конечным оценкам качества речи, которые являются важными для восприятия человека. Для слушателя обычно не столь важно качество сигнала; для него более естественной оценкой является усредненное субъективное восприятие речи.
Исследования различных цифровых методов передачи речи выявили серьезные расхождения субъективных оценок при одинаковых значениях ОСШ. Это объясняется различным характером искажений, создаваемых неадаптивными и адаптивными системами передачи. В неадаптивных системах имеет место стационарный шум с уровнем, не зависящим от уровня сигнала. Качество тракта передачи при этом определяется главным образом по восприятию шума в паузах речи. В адаптивных системах шумы незанятого канала могут быть не ощущаемыми на слух.
Восприятие искажений будет определяться нестационарным сопровождающим шумом, дисперсия которого определяется и уровнем сигнала, и его спектральными характеристиками.
Субъективные критерии оценки качества передачи речи основываются на статистической обработке субъективных оценок качества достаточно большого числа слушателей-экспертов. Причем эти оценки существенно зависят от возраста и пола диктора, скорости произнесения фраз и многих других обстоятельств. Тесты при получении субъективных оценок стараются планировать при различных условиях, имитирующих реальные условия жизни человека, такие как посторонний шум, фоновая речь многих других людей и т. д. Количественные результаты этих тестов отображают усредненное качество, уровень усилий слушателя, разборчивость, естественность звучания.
Разборчивость характеризует возможность для слушателя идентифицировать произносимые диктором слоги, слова или фразы. Количественно разборчивость характеризуется процентом правильно идентифицированных элементов речи. Разборчивость функционально связана с другими показателями качества речи, например с отношением сигнал-шум, и достаточно полно характеризует качество передачи речи в целом.
Наиболее часто используемым тестом на разборчивость является диагностический тест на рифмы. В этом тесте каждая произносимая фраза состоит из двух слов, образующих рифму и отличающихся малым числом звуков. Например, фраза «дом-том» состоит из двух слов, отличающихся только одним согласным звуком. При последовательном произнесении таких рифмованных фраз подсчитывается процент правильно понятых. Численные значения результатов такого теста разбивают на группы, каждой из которых приписывают оценку качества речи. Например, при значениях от 100 до 96 – «превосходно», 95–86 – «хорошо», 85–80 – «удовлетворительно», 79–70 – «недостаточно», менее 70 – «плохо». Однако такой критерий качества речи не очень удобен для сравнения различных кодеков речи.
Более подходящим и часто используемым способом ранжирования различных методов кодирования речи является вычисление средней экспертной оценки (СЭО). Методика вычисления СЭО регламентирована рекомендациями Европейского института стандартов в области Телекоммуникаций (ETSI-T) при оценке качества передачи речи в телефонных сетях. В соответствии с этими рекомендациями выделены пять упорядоченных уровней, каждый из которых связан со стандартизированным описанием: «плохой», «слабый», «допустимый», «хороший», «превосходный».
В табл. 9.1 приведен список этих уровней.
Таблица 9.1
Описание уровня | Оценка | Степень усилий при восприятии |
Превосходный | Без усилий | |
Хороший | Нет ощутимых усилий | |
Допустимый | Умеренные усилия | |
Слабый | Значительные усилия | |
Плохой | Теряется восприятие |
Оценки от 5 до 4 при применении к полосе частот 200...3400 Гц рекомендованы для телефонных сетей; значения от 4 до 3,5 считаются допустимыми в таких приложениях, как голосовая почта и подвижная связь; значения от 3,5 до 2,5 допустимы для синтезированной речи.
Наиболее сложные условия использования кодеков речевого сигнала оказываются в тех случаях, когда уже закодированную речь необходимо передать из одного канала в другой, затем демодулировать с целью получения аналогового речевого сигнала, который далее снова кодируется для повторной передачи в форме цифрового сигнала по беспроводной линии. Такая передача, обычно называемая тандемной, сопровождается размножением битовых ошибок, первоначально возникших в приемнике первой БС. Здесь требуются более значительные затраты для организации связи от одной АС к другой АС, поскольку такая линия содержит по меньшей мере два источника независимых помех.
В общем случае значение СЭО качества речевого сигнала падает при снижении скорости кодека. В табл. 9.2 приведены значения СЭО для некоторых типов кодеков, используемых в современных цифровых системах [4]. На значения СЭО могут оказывать заметное влияние различия в культурном уровне экспертов, в глубине их знаний языка и т.д. [3].
Таблица 9.2
Тип кодера | Значение СЭО |
64 кбит/с; ИКМ | 4,3 |
14,4 кбит/с; QCELP13 | 4,2 |
32 кбит/с; АД И КМ | 4,1 |
8 кбит/с; ITU-CELP | 3,9 |
8 кбит/с; CELP | 3,7 |
13 кбит/с; GSM | 3,54 |
9,6 кбит/с; QCELP | 3,45 |
4,8 кбит/с; CELP | 3,0 |
2,4 кбит/с; LPC | 2,5 |
(QCELP – Qualcom Code Excited Linear Predictor (кодер на основе линейного предсказания фирмы Qualcom); ITU-CELP International Telecommunication Union – (Международный союз электросвязи).
Таблица 9.3
Оценка кодеков речи по шкале MOS
Метод кодирования PC | Стандарт / Год принятия | Цифровая скорость, кбит/с | Оценка качества по шкале MOS |
ИКМ (РСМ) | ITU-TG.711/1960 | 4,12...4,5 | |
АДИКМ (ADPCM) | ITU-TG.726/1984 | 3,78...4,0 | |
IMBE | INMARSAT-M/1990 | 6,4 | 3,1 |
LD-CELP | ITU-TG.728/1992 | 3,6...4,0 | |
RPE-LTP | ETSI GSM/1992 | 3,3...3,58 | |
VSELP | EIA/TIA IS54/1992 | 3,44 | |
CELP | FS-1016 (США) | 4,8 | <3,0 |
MP-MLQ | ITU-TG.723.1/1996 | 6,3 | 3,9 |
ACELP | ETSI TETRA/1996 | 4,8 | 3,4 |
MELP | США (проект)/ 1998 | 2,4 | 3,5 |
Из объективных методик рассмотрим алгоритм PESQ, который был стандартизован МСЭ-Т (ITU-T рекомендация P.862) в феврале 2001 года.
Модель PESQ включает в себя следующие стадии.
· Выравнивание по уровню. При этом входной или эталонный и выходной или искаженный сигналы выравниваются до неизменного уровня (порядка 79 дБ), который аналогичен нормальному звуковому уровню, используемому субъективных тестах с экспертами. Это делается для того, чтобы учесть усиления-затухания уровня сигнала в системе.
· Фильтрация входного сигнала.
· Временное выравнивание. Устранение задержки искаженного сигнала относительно входного посредством вычисления параметров задержки для каждого отдельного временного речевого сегмента, который делится на несколько маленьких, если эти параметры задержки существенно отличаются. Это делается, чтобы предотвратить большие задержки и джиттер.
· Эквализация. Происходит сглаживание сигнала после его оцифровки, например в мобильном телефоне. При этом используется оценка взаимной спектральной плотности, а также спектральное дифференцирование. Такой метод является более выгодным, нежели Быстрое Преобразование Фурье (БПФ), которое использовалось в двух первых версиях PAMS.
· Преобразование в соответствии с человеческим восприятием звука. Имитирует слух человека, удаляет неслышимые части сигнала.
· Когнитивное моделирование. Производит преобразование объективной оценки в субъективную, то есть в термины MOS.
· Определение «плохих» интервалов. По результатам этой оценки данные интервалы вновь отправляются в алгоритм.
· Выставление субъективной оценки – окончательный результат работы алгоритма.
Список рекомендуемой литературы:[2, c. 83–103; 3, c. 47–66, 253–262; 5, c. 77–79, 92–98, 101–107; 8, c.46–75, 83–85; 10, c. 403–413, 427–439].
Контрольные вопросы
1. Каковы основные показатели качества услуги подвижной радиосвязи?
2. Почему качество РС целесообразно оценивать по его субъективному восприятию?
3. Дайте определение понятию «разборчивость речи».
4. Какие методы контроля качества используются в практике тестирования речевых кодеков?
5. Дайте сравнительную оценку качества РС различных кодеков.
Понятие о защите информации