Кодирование и запись звука

З

вук представляет собой локальные из­менения давления воздуха, распространяющиеся в пространстве в виде упругих волн. Органы слуха человека регистрируют перепады давления и передают сигналы в головной мозг на обработку. Органы слуха человека способны регистрировать далеко не все перепады звукового давления. Ограничения есть как по амплитуде, так и по частоте. Считается, что люди различают звуковые сигналы, имеющие частоту от 20 Гц до 20 кГц. Звуковые колебания низкой частоты, неразличимые для системы органов слуха человека, называют инфразвуком, а неразличимые колебания высокой частоты — ультразвуком.

Различия в амплитудах звуковых волн люди воспринимают как громкость звука. В технике принято измерять громкость звука в децибелах (дБ). Считается, что человек способен различать звуковые сигна­лы в диапазоне 20-120 дБ. Вот несколько характерных значений.

20 дБ — Тихий шёпот на расстоянии 4-5 м.

40 дБ — Спокойный разговор.

60 дБ — Шум толпы.

80 дБ — Звук вблизи оживлённой автотрассы.

100 дБ — Шум вблизи проходящего поезда.

120 дБ — Болевой порог (звук на расстоянии 100 м от взлетающего реактивного самолёта).

При звуке громкостью более 140 дБ (близкий разрыв артиллерийского снаря­да) происходит физическое поражение ор­ганов слуха (лопаются барабанные пере­понки), а звук громкостью более 180 дБ смертелен для человека.

ГЛУБИНА КОДИРОВАНИЯ ЗВУКА

Глубину кодирования выбирают так, что­бы обеспечить достаточную различимость амплитуд сигналов. Если выражать мгно­венное значение одним байтом (0-255), то удастся записать лишь узкий диапазон громкостей шириной всего в 48 децибел, например от 20 дБ до 68 дБ. Этого доста­точно для адекватного воспроизведения речи, но мало для музыки. То есть восьми­разрядное кодирование можно использо­вать лишь в цифровых диктофонах, сото­вых телефонах и цифровых системах телефонной связи.

В настоящее время для потребительской записи музыки используют 16-разрядное кодирование, а для профессиональных задач глубина кодирования доходит до 32 разрядов. При 16-разрядном кодирова­нии замеренное значение амплитуды зву­кового сигнала записывается 16-разряд­ным двоичным словом и представляется двумя байтами. Это позволяет различать 65 536 уровней громкости. Общий диапа­зон громкостей составляет при этом 96 дБ, например от 20 дБ до 116 дБ. Такая запись может адекватно передать и тихий шёпот, и рёв взлетающего самолёта.

ФОРМАТЫ ЗВУКОЗАПИСИ

Стандарты и соглашения, относящиеся к способам записи звуковых данных, орга­низованы примерно так же, как стандар­ты записи видео. Существуют форматы прямой записи — форматы записи выбор­ки данных, существуют метаформаты (контейнерные форматы), определяющие структуру записи, и существуют форматы сжатия данных, определяющие, как имен­но была закодирована исходная последова­тельность данных, полученная в результа­те прямой записи.

МЕТАФОРМАТ WAV

Как мы уже говорили выше, для воспро­изведения выборки данных нам не хвата­ет ряда дополнительных сведений. Эти све­дения приписывают к данным и получают запись в контейнерном формате (метаформате). Одним из контейнерных форматов, в частности, является формат WAV, вве­дённый в действие компаниями IBM и Microsoft. Это основной звуковой метаформат для компьютеров платформы IBM PC. Для операционной системы Windows он считается стандартом. На компьютерах других систем могут действовать другие метаформаты, введённые другими корпо­рациями.

Формат WAV определяет структуру зву­козаписи. Звукозапись имеет общий заго­ловок (метку формата) и может состоять из нескольких блоков данных (выборок), при­чём каждая выборка может быть закоди­рована по-разному.

О глубине кодирования, количестве ка­налов, частоте дискретизации и формате сжатия можно узнать по заголовку выбор­ки. Кроме звуковых выборок запись в фор­мате WAV может содержать и данные не звуковой природы, например текстовые блоки. В этом случае воспроизведение зву­ка может сопровождаться текстовыми со­общениями, например об авторе и испол­нителе музыкальной композиции.

Формат WAV позволяет раз­мещать внутри общей звукозаписи блоки выборок данных, закодированные со сжа­тием. В этом случае заголовок выборки со­держит сведения о том, каким методом выборка была сжата.

Многократное сжатие обеспечивают не­обратимые методы, похожие на рассмотрен­ные выше методы JPEG и MPEG. В част­ности, в настоящее время для эффективного сжатия выборок звуковых данных исполь­зуется разновидность метода MPEG, кото­рая сокращён­но обозначается как МРЗ.

При степени сжатия 1:10 формат МР3 обеспечивает удовлетворительное качество воспроизведения звукозаписи, отличимое от оригинала только на звуковоспроизво­дящей аппаратуре высших классов. При степени сжатия 1:4 качество воспроизведения таково, что сжатую запись на слух практически нельзя отличить от ориги­нальной (несжатой).

Сегодня в формате МРЗ распространяются звукозаписи на компакт-дисках (до 110 часов звучания на одном носителе), поставляются звукозаписи, размещённые в Интернете, вещают радиостанции Интернет-радио. Ориентировочно можно считать, что формат МРЗ позволяет расходовать 1 Мбайт носителя данных на одну минуту звукозаписи. Это позволяет оценивать ёмкость носителей.

АУДИОКОДЕКИ

Принцип воспроизведения сжатых звукозаписей тот же, что и принцип воспроизведения сжатых видеозаписей. Существует особый класс программ — кодеки (кодек =кодер + декодер), осуществляющих коди­рование сжатой последовательности данных при записи и её декодирование при воспроизведении. Записи распространяют­ся в метаформате, например WAV. Встре­тив внутри записи блок данных, записан­ный со сжатием, программа, отвечающая за воспроизведение звука, подключает нужный кодек (он указан в заголовке бло­ка) и с его помощью распаковывает дан­ные.

Лекция 9

Наши рекомендации