Кодирование и запись звука
З |
вук представляет собой локальные изменения давления воздуха, распространяющиеся в пространстве в виде упругих волн. Органы слуха человека регистрируют перепады давления и передают сигналы в головной мозг на обработку. Органы слуха человека способны регистрировать далеко не все перепады звукового давления. Ограничения есть как по амплитуде, так и по частоте. Считается, что люди различают звуковые сигналы, имеющие частоту от 20 Гц до 20 кГц. Звуковые колебания низкой частоты, неразличимые для системы органов слуха человека, называют инфразвуком, а неразличимые колебания высокой частоты — ультразвуком.
Различия в амплитудах звуковых волн люди воспринимают как громкость звука. В технике принято измерять громкость звука в децибелах (дБ). Считается, что человек способен различать звуковые сигналы в диапазоне 20-120 дБ. Вот несколько характерных значений.
20 дБ — Тихий шёпот на расстоянии 4-5 м.
40 дБ — Спокойный разговор.
60 дБ — Шум толпы.
80 дБ — Звук вблизи оживлённой автотрассы.
100 дБ — Шум вблизи проходящего поезда.
120 дБ — Болевой порог (звук на расстоянии 100 м от взлетающего реактивного самолёта).
При звуке громкостью более 140 дБ (близкий разрыв артиллерийского снаряда) происходит физическое поражение органов слуха (лопаются барабанные перепонки), а звук громкостью более 180 дБ смертелен для человека.
ГЛУБИНА КОДИРОВАНИЯ ЗВУКА
Глубину кодирования выбирают так, чтобы обеспечить достаточную различимость амплитуд сигналов. Если выражать мгновенное значение одним байтом (0-255), то удастся записать лишь узкий диапазон громкостей шириной всего в 48 децибел, например от 20 дБ до 68 дБ. Этого достаточно для адекватного воспроизведения речи, но мало для музыки. То есть восьмиразрядное кодирование можно использовать лишь в цифровых диктофонах, сотовых телефонах и цифровых системах телефонной связи.
В настоящее время для потребительской записи музыки используют 16-разрядное кодирование, а для профессиональных задач глубина кодирования доходит до 32 разрядов. При 16-разрядном кодировании замеренное значение амплитуды звукового сигнала записывается 16-разрядным двоичным словом и представляется двумя байтами. Это позволяет различать 65 536 уровней громкости. Общий диапазон громкостей составляет при этом 96 дБ, например от 20 дБ до 116 дБ. Такая запись может адекватно передать и тихий шёпот, и рёв взлетающего самолёта.
ФОРМАТЫ ЗВУКОЗАПИСИ
Стандарты и соглашения, относящиеся к способам записи звуковых данных, организованы примерно так же, как стандарты записи видео. Существуют форматы прямой записи — форматы записи выборки данных, существуют метаформаты (контейнерные форматы), определяющие структуру записи, и существуют форматы сжатия данных, определяющие, как именно была закодирована исходная последовательность данных, полученная в результате прямой записи.
МЕТАФОРМАТ WAV
Как мы уже говорили выше, для воспроизведения выборки данных нам не хватает ряда дополнительных сведений. Эти сведения приписывают к данным и получают запись в контейнерном формате (метаформате). Одним из контейнерных форматов, в частности, является формат WAV, введённый в действие компаниями IBM и Microsoft. Это основной звуковой метаформат для компьютеров платформы IBM PC. Для операционной системы Windows он считается стандартом. На компьютерах других систем могут действовать другие метаформаты, введённые другими корпорациями.
Формат WAV определяет структуру звукозаписи. Звукозапись имеет общий заголовок (метку формата) и может состоять из нескольких блоков данных (выборок), причём каждая выборка может быть закодирована по-разному.
О глубине кодирования, количестве каналов, частоте дискретизации и формате сжатия можно узнать по заголовку выборки. Кроме звуковых выборок запись в формате WAV может содержать и данные не звуковой природы, например текстовые блоки. В этом случае воспроизведение звука может сопровождаться текстовыми сообщениями, например об авторе и исполнителе музыкальной композиции.
Формат WAV позволяет размещать внутри общей звукозаписи блоки выборок данных, закодированные со сжатием. В этом случае заголовок выборки содержит сведения о том, каким методом выборка была сжата.
Многократное сжатие обеспечивают необратимые методы, похожие на рассмотренные выше методы JPEG и MPEG. В частности, в настоящее время для эффективного сжатия выборок звуковых данных используется разновидность метода MPEG, которая сокращённо обозначается как МРЗ.
При степени сжатия 1:10 формат МР3 обеспечивает удовлетворительное качество воспроизведения звукозаписи, отличимое от оригинала только на звуковоспроизводящей аппаратуре высших классов. При степени сжатия 1:4 качество воспроизведения таково, что сжатую запись на слух практически нельзя отличить от оригинальной (несжатой).
Сегодня в формате МРЗ распространяются звукозаписи на компакт-дисках (до 110 часов звучания на одном носителе), поставляются звукозаписи, размещённые в Интернете, вещают радиостанции Интернет-радио. Ориентировочно можно считать, что формат МРЗ позволяет расходовать 1 Мбайт носителя данных на одну минуту звукозаписи. Это позволяет оценивать ёмкость носителей.
АУДИОКОДЕКИ
Принцип воспроизведения сжатых звукозаписей тот же, что и принцип воспроизведения сжатых видеозаписей. Существует особый класс программ — кодеки (кодек =кодер + декодер), осуществляющих кодирование сжатой последовательности данных при записи и её декодирование при воспроизведении. Записи распространяются в метаформате, например WAV. Встретив внутри записи блок данных, записанный со сжатием, программа, отвечающая за воспроизведение звука, подключает нужный кодек (он указан в заголовке блока) и с его помощью распаковывает данные.
Лекция 9