Основы формирования речевых сигналов

Человек воспринимает окружающую действительность через органы чувств. Они в совокупности с центральной нервной системой образуют первую сигнальную систему. Вторая сигнальная система на основе речевого общения [11]. Используемые в сотовой связи методы цифровой обработки сигналов, характеристики и параметры реализующих их устройств, в частности АЦП и речевого кодека, теснейшим образом связаны с характеристиками передаваемых речевых сигналов (РС) [26, 27].

На основе понимания процессов формирования речи, ее свойств, ее восприятия выдвигают технические требования к трактам передачи сигналов, к построению систем и устройств электрической связи, звукового и телевизионного вещания, звукоусиления, перевода речей, переговорных устройств, средств анализа и синтеза речи, аппаратуры управления голосом, устройств кодирования и скрытной передачи речевых сообщений, опознания человека по голосу и т. д. [11, 12].

При произнесении звуков речи поток воздуха нагнетается из легких, проталкивается через трахею, гортань, полости рта и носа и затем излучается через губы и ноздри. Одну из главных ролей в образовании звуков речи играют голосовые связки, расположенные в гортани. Гортань и ротовую полость называют голосовым трактом. Его конфигурация в процессе произнесения звуков речи изменяется. Эти изменения воздействуют на проходящую через тракт акустическую волну. При образовании носовых звуков к голосовому тракту через небную занавеску подключается носовая полость.

Изменения конфигурации голосового тракта и колебания голосовых связок взаимосвязаны так, что вся речеобразующая система функционирует как единый сложный объект [26].

В акустике голосовой тракт рассматривают как систему резонаторов, характеристики которых медленно изменяются во времени [26, 27].

Речеобразующий тракт представлен технической схемой на рис. 4.1.

Основы формирования речевых сигналов - student2.ru

При произнесении звуков речи через речевой тракт проходит или тональный импульсный сигнал, или шумовой, или тот и другой вместе. Речевой тракт представляет собой сложный акустический фильтр с рядом резонансов, создаваемых полостями рта, носа и носоглотки.Вследствие этого равномерный тональный или шумовой спектры превращаются в спектр с рядом максимумов и минимумов [26].

Основы формирования речевых сигналов - student2.ru Речевое сообщение создается в мозге человека. Затем оно превращается в команды нервной системы. Они управляют движениями органов речи. Эти движения формируют в речеобразующем тракте акустические речевые сигналы (РС). Возникшие сигналы излучаются в окружающее человека пространство в виде акустических волн.

В электрических трактах связи, звукового и телевизионного вещания сигналы передаются переменными электрическими токами или электромагнитными полями, воспроизводятся громкоговорителями или головными телефонами и воздействуют на органы слуха человека.

Центральная нервная система расшифровывает нервные импульсы органов слуха и воссоздает первоначальное сообщение [11].

Сообщениеимеет смысловой(семантический) характер, а сигналявляется его отображением в виде акустических или электромагнитных процессов.

Речевые форманты.Характер первичного РС зависит от интенсивности потока воздуха и состава возбуждаемых колебаний. В большинстве случаев спектр РС занимает область частот 0,15 ... 7 кГц. Колебания голосовых связок в первом приближении можно считать периодическими колебаниями сложной формы, образующими кроме низшей частоты – частоты основного тона – гармоники (рис. 4.2,а). Их число в некоторых случаях превышает 40. На линейчатый спектр колебаний голосовых связок накладывается передаточная функция речеобразующего тракта (рис. 4.2,б).

Форма передаточной функции определяется конфигурацией и объемами полостей гортани, рта, носа, положением нижней челюсти, языка, зубов, губ. На нижних частотах линейные размеры полостей много меньше длины волны возбуждаемых колебаний. Поэтому полости представляют собой колебательные системы с сосредоточенными параметрами. В области килогерц линейные размеры полостей и длины волн возбуждаемых колебаний становятся соизмеримыми. Тогда полости следует рассматривать как колебательные системы с распределенными параметрами. В общем случае значения резонансных частот зависит от положения названных выше частей речеобразующего тракта. Гармоники, возбужденные колебаниями голосовых связок и попадающие в области резонансных частот, усиливаются, другие гармоники ослабляются (рис. 4.2,в).

Области максимумов спектра называют речевыми формантами. Некоторые исследователи называют формантами только те спектральные максимумы, которые определяют конкретные звуки речи, т. к. для некоторых голосов огибающая спектра в пределах второй формантной области не имеет формы «одногорбой» кривой [11]. Форманты – это участки частотного диапазона около спектральных максимумов, определяющие восприятие и распознавание конкретных звуков речи [26].

Центральная частота формантной области и резонансная частота полости речеобразующего тракта не являются синонимами.

Формантные области звуков русской речи представлены табл. 4.1.

Гласные звуки возбуждаются почти периодическими колебаниями голосовых связок. В образовании согласных звуков главная роль принадлежит потоку воздуха с шумовым спектром. Голосовые связки в этом процессе почти не участвуют, и характер звука определяется положением и движениями нижней челюсти, языка, зубов и губ [11].

Звучание различных гласных определяется различным распределением формантных областей. Определяющую роль играет соотношение центральных частот первой и второй формантных областей.

Таблица 4.1

Звуки	Области частот, Гц	Звуки	Области частот, Гц
У	200…800	О	400…800
С	4200…8800	Ф	5600…10000
З	100…600; 4200…8600	Ж	200…600; 700…1400
М	100…400; 1600…1850	Л	200…500; 700…1100
Ы	200…600	И	2800…4200
Э	600…1000; 1600…2500	Н	100…400; 1500…3400
А	1000…1400	Х	400…1200
Ш	1200…6300	Р	200…1500

Из данных табл. 4.1 ясно, почему звуки «С» и «Ф» искажаются при передаче по телефонным каналам. Частоты их формантных областей лежат за пределами верхней частоты канала 3400 Гц.

Важная характеристика звуков речи – частота основного тона. Она определяется частотой следования импульсов воздуха, создаваемых голосовыми связками. Частоты основного тона у большинства людей лежат в пределах от 70 до 450 Гц. Если голосовые связки тонки или сильно напряжены, частота основного тона высока, если связки толсты или менее напряжены, частота основного тона ниже.

У мужчин среднее значение частоты основного тона составляет 120 Гц, а у женщин – 220 Гц. На рис. 4.3 приведены графики спектральной плотности мощности мужской и женский речи [26].

Периодически повторяющиеся колебания голосовых связок имеют дискретный спектр с большим числом (до 40) гармоник, частоты которых кратны частоте основного тона (рис. 4.2,а). Медленное изменение частоты основного тона при произнесении речи создает эмоциональную окраску и называется интонацией. У каждого человека свои диапазон изменения основного тона (как правило, немного более октавы) и своя интонация, имеющая большое значениедля узнаваемости говорящего [26].

Область частот основного тона индивидуальна. Изменения этой частоты лишь немного превышают диапазон одной октавы. При произношении звуков речи частота основного тона изменяется в зависимости от ударения и акцентирования звуков и слов. Изменения частоты основного тона называют интонацией. По изменению частоты основного тона можно до некоторой степени судить об эмоциональном состоянии человека.

Основной тон, интонация, манера произношения и тембр являются «устным почерком» говорящего и служат для опознания личности человека (аутентификация). Степень достоверности опознания по голосу выше, чем по отпечаткам пальцев [11].

Фонема– типизированная, образцовая форма звуков речи. Понятие «форманта» относится к спектральному составу звуков речи. При переходе к семантическому (смысловому) рассмотрению звуков речи употребляют термин «фонема». Фонема – это то, что человек намеревается произнести, а звук речи – это то, что он фактически произносит. Фонему сравнивают с образцово, каллиграфически написанными буквами (графемами) в отличие от множества форм рукописного изображения букв [11].

Речь состоит из звуков, слогов, слов, фраз и т. д. За первичное смысловое понятие в языке принимают слово. Но наименьшим элементом речи считается звук.

Образный подход к понятию звука находят в сравнении звуков с письменными элементами речи – буквами. Начертание букв определяется индивидуальностью человека. То же самое можно сказать о произношении звуков. Произношение звуков зависит от их положения в слове, ударения, интонации. Сложные звуки (слоги, слова) в фонетическом отношении не являются простыми цепочками, последовательностями фонем, т. к. фонема в одном сочетании имеет одну форму, в другом – иную. Исследователи насчитывают несколько тысяч звуков речи, отличающихся друг от друга. Поэтому процесс распознавания фонем имеет статистический характер. Несмотря на это разнообразие, все же была проведена классификация и типизация звуков речи, приведшая к возникновению понятия «фонема». Звуки в изолированном виде употребляются редко, хотя и в этом случае звуки принимают за слово (возгласы, междометия, союзы вида "а!", "о!", "и", "у"). В словах, являющихся наименьшими смысловыми единицами, звуки соединены между собою в слоги. Но слоги, как и звуки, обычно самостоятельно не существуют. Границы между слогами так же трудно определить, как и между звуками речи. Границы между словами различаются более ясно, хотя ряд слов при беглом произношении сливаются в одно целое. Эти обстоятельства затрудняют построение устройств автоматического анализа и синтеза речи [11].

В русском языке насчитывают 41 основную и 3 неясно звучащие фонемы: 6 гласных (а, о, у, э, и, ы), одну полугласную (й) и 34 согласных. Гласные звуки я, ю, ё, е соответствуют составным фонемам йа, йу, йо, йэ. Согласных фонем больше, чем согласных букв, т. к. ряд согласных букв соответствуют двум фонемам: мягкой и твердой. Только твердых фонем – три (ш, ж, ц), только мягких – две (ч, щ). Остальные 15 существуют в двух формах: мягкой и твердой.

Между буквами и фонемами одного и того же языка нет однозначной связи (буквы – это то, что мы читаем, фонемы – то, что мы хотим произнести), поэтому число фонем и число букв неодинаково во всех языках.

По характеру звучания звуки речи подразделяют на звонкие и глухие. Первые образуются с участием голосовых связок. Находясь под напряжением, они под действием воздушного потока, идущего из легких, периодически раздвигаются. В результате создается прерывистый, импульсный поток воздуха. Импульсы следуют примерно с постоянной частотой. При произнесении глухих звуков голосовые связки расслаблены, не вибрируют, и поток воздуха свободно проходит в полость рта и здесь, встречая на своем пути преграды – язык, зубы, губы – образует завихрения, создающие шум со сплошным спектром.

По способу образования согласные подразделяют на сонорные, щелевые, взрывные и аффрикаты. Сонорные (л, л’, р, р’, м, м’, н, н’) по звучанию похожи на гласные, но отдельно не произносятся и поэтому относятся к согласным. Щелевые (в, в’, з, з’, ж, ф, ф’, с, с’, ш, х, х’) образуются в результате проталкивания потока воздуха в виде импульсов или шума через узкие щели, образованные языком и нёбом, губами, зубами, гортанью. Взрывные (п, п’, т, т’, к, к’, б, б’, д, д’, г, г’) возникают в результате резкого открытия закрытого до этого рта. Аффрикаты являются комбинацией глухих, взрывных и щелевых [11].

При произнесении звуков речи части речеобразующего тракта находятся для каждой фонемы в строго определенном положении или движении. Эти движения называют артикуляцией.

Звонкие звуки речи, особенно гласные, имеют большой уровень интенсивности звука, глухие – низкий. Уровень интенсивности особенно быстро меняется при произнесении взрывных звуков. Динамический диапазон звуков речи составляет – 35...45 дБ. Длительность гласных звуков речи составляет 0,15... 0,3 с, согласных – в среднем 0,08 с. Звук "п" длится примерно 30 мс. Большая протяженность гласных звуков вызвана необходимостью перестройки органов артикуляции [11, 26].

При произнесении речи спектр ее непрерывно медленно изменяется в соответствии с изменением формы голосового тракта, в результате чего образуются формантные переходы. Для каждой фонемы огибающая спектраимеет индивидуальную и вполне определенную форму. Почти вся информацияо звуках речи заключена в спектральной огибающей речи и ее временном изменении [26].

Речь с физической точки зрении состоит из последовательности звуков речи с паузами между их группами. Каждый звук является реализацией случайного процесса с определенными характеристиками [3, 26].

Звуки речи имеют различную информативную ценность. Гласные звуки менее информативны, чем согласные, и это используется при сокращении слов. Разборчивость речи снижается, главным образом, из-за маскировки шумами глухих звуков, имеющих меньшую интенсивность.

Перечисленные свойства звуков речи учитывают при проектировании и разработке устройств передачи, анализа и синтеза речи. Так, для передачи смысла речи достаточно передавать сведения об огибающей спектра речи, переходах тон – шум, а также об изменениях основного тона. Для передачи эмоций необходим больший объем информации.

Значение эмоциональной составляющей речи.Семантическая информация хорошо усваивается слушателями лишь в том случае, если ее ожидают. Если слушатель не заинтересован в ней, тем более предубежден против нее, то она проходит мимо его сознания, не воспринимается им. Поэтому важна та эмоциональная окраска, которая сопутствует семантической информации [11].

Человеку присущи раздельные механизмы восприятия. Восприятие семантики речи основано на логическом анализе содержания информации. Он выполняется соответствующим центром мозга. Эмоциональная информация связана с восприятием образов. Информация, излагаемая монотонно, бесстрастно не только не усваивается слушателями, но и утомляет их. Это приводит к «отключению» слушателей и лишает информацию реальной ценности. Наоборот, информация, передаваемая с ярко выраженной эмоциональной окраской, увлекает даже тех слушателей, которые были предубеждены против нее.

Очевидно, что дальнейшее улучшение технической базы звукового вещания невозможно без учета рассмотренных обстоятельств.

Список рекомендуемой литературы:[3, c. 47–66, 194, 233–234; 8, c. 46–54, 161–168; 10, c. 17–22; 11, 12, 24–27, 30].

Контрольные вопросы

1. Как формируется акустическое речевое колебание?

2. Укажите состав артикуляционного аппарата и голосового тракта человека.

3. Дайте определение формантным частотам (областям).

4. Что такое фонема?

5. Сколько фонем насчитывают в русском языке?

6. Чем отличаются вокализованные звуки от невокализованных?

7. Какова роль спектральной огибающей РС в передаче смысла речи?

8. Охарактеризуйте график спектральной плотности мощности речи.

9. Какой частотный диапазон шире: РС или слухового восприятия?