Психоакустическая модель восприятия звука

По сравнению с речевыми сигналами аудиосигналы характеризуются более широким частотным диапазоном (10-21'ОООГц), большим динамическим диапазоном, большей изменчивостью спектральных свойств, многоканальностью (стерео звук). Частота дискретизации аудиосигналов обычно равна 44,1 кГц. Данная частота используется при обработке звука в цифро­вых магнитофонах, при записи звука на компакт диски. Каждый отсчет зву­кового сигнала представляется 16-ти разрядным двоичным кодом. В случае стерео звука это создает цифровой поток со скоростью передачи 2х44,1 х 16х1000= 1,41Мбит/с. На практике из-за наличия дополнительной служебной информации скорость передачи оказывается существенно выше, Так, при считывании отсчетов звукового сигнала с компакт диска формиру­ется цифровой поток со скоростью 4,32 Мбит/с. Ограниченная пропускная способность каналов связи, ограниченная емкость запоминающих устройств требуют сжатия аудиосигналов.

Сжатие аудиосигналов основано на учете особенностей слуха человека. Ухо человека воспринимает звуковой сигнал в изолированном от внешних шумов помещении, если звуковое давление превышает некоторый порог, называемый абсолютным порогом слышимости (АПС). Зависимость АПС от частоты аппроксимируется нелинейной функцией (рис. 4.15) [36]:

Психоакустическая модель восприятия звука - student2.ru

Как отмечалось выше, внутренне ухо человека выполняет кратковременный спектральный анализ на основе механизма критических частотных полос (табл. 4.1). Если в критической частотной полосе находится несколько спектральных составляющих, то наблюдается явление частотного маскирования. Суть его состоит в том, что спектральная составляющая (тон) с низким уровнем может не прослушиваться, если в этой же критической полосе имеется спектральная составляющая звука с более высоким уровнем (рис.4.15). Спектральная составляющая с высоким уровнем повышает порог слышимости и маскирует присутствие составляющих с низким уровнем. Повышенный порог слышимости называется порогом маскирования. Все спектральные составляющие, уровень которых ниже порога маскирования, не прослушиваются.

Зависимость порога маскирования от частоты определяется уровнем и частотой маскирующей составляющей, а также уровнями и частотами маскируемых спектральных составляющих. Порог маскирования имеет максимальное значение на частоте маскирующей спектральной составляющей и снижается при уменьшении или увеличении частоты. При уменьшении частоты относительно частоты маскирующей составляющей порог маскирования снижается быстрее, чем при её увеличении, т.е. составляющие, частоты которых лежат выше частоты маскирующей частотной составляющей, маскируются в большей степени.

Психоакустическая модель восприятия звука - student2.ru

Качественный характер изменения порога маскирования показан на рис. 4.16. Разность между уровнем маскирующей составляющей и порогом маскирования называется отношением сигнал-маска (ОСМ). ОСМ имеет максимальное значение для левой границы критической полосы (точка А на рис. 4.16). На рис. 4.16 также показан уровень шума разрядного квантователя. Если отношение сигнал-шум (ОСШ) больше, чем ОСМ, то шумы квантования будут маскироваться основной спектральной составляющей. Разность ОШМ(7й)=ОСМ-ОСШ(от) называется отношением шум-маска (ОШМ). Шумы квантования не будут прослушиваться, если ОШМ будет иметь отрицательные значения. Учет этого обстоятельства позволяет уменьшить количество двоичных разрядов, отводимых для представления спектральных составляющих.

На рис. 4.15 показана маскирующая составляющая только в одной критической полосе. На практике наблюдается присутствие маскирующих спектральных составляющих во многих полосах. Такие составляющие оказывают взаимное влияние на пороги маскирования в соседних полосах. В результате этого образуется суммарный порог маскирования. Частотные составляющие, уровень которых ниже суммарного порога маскирования, не воспринимаются на слух и, соответственно, могут быть исключены из спектра сигнала при его записи и хранении в запоминающих устройствах или при передаче по каналам связи. Это позволяет снизить требования к емкости запоминающих устройств или пропускной способности каналов связи. Психоакустическая модель восприятия звука - student2.ru

Помимо частотного маскирования, описанного выше, важную роль в восприятии звука играет временное маскирование. Временное маскирование наблюдается в том случае, когда два звука появляются через короткий интервал времени. Тогда звук, характеризующийся большим уровнем звукового давления, может частично или полностью маскировать присутствие звука с меньшим звуковым давлением, даже в том случае, если маскируемый звук предшествует маскирующему. Это связано с переходными процессами во внутреннем ухе, которые формируются маскирующим звуком.

Продолжительность эффекта временного маскирования до восприятия маскирующего звука равна примерно 5 мс. Продолжительность маскирующего эффекта после окончания восприятия маскирующего звука равна 50-300 мс. Временное маскирование используется для подавления предварительного эхо, которое наблюдается при восстановлении сжатых звуковых сигналов. Предварительное эхо прослушивается до появления восстановленного звукового сигнала и обусловлено шумами квантования, распространяющими свое действие на весь блок данных, подвергшийся сжатию, в том числе и на ту его часть, которая предшествовала звуку.

Сжатие аудиосигналов с учетом рассмотренных особенностей восприятия звуков человеком называют перцептивным кодированием, т.е. кодированием, основанным на восприятии.

Наши рекомендации