Аналоговый и цифровой способы записи звука
Традиционное аналоговое представление сигналов основано на подобии (аналогичности) электрических сигналов (изменений тока и напряжения) представленным ими исходным сигналам (звуковому давлению, температуре, скорости и т.п.), а также подобии форм электрических сигналов в различных точках усилительного или передающего тракта. Форма электрической кривой, описывающей (переносящей) исходный сигнал, максимально приближена к форме кривой этого сигнала.
Такое представление наиболее точно, однако малейшее искажение формы несущего электрического сигнала неизбежно повлечет за собой такое же искажение формы и сигнала переносимого. В терминах теории информации, количество информации в несущем сигнале в точности равно количеству информации в сигнале исходном, и электрическое представление не содержит избыточности, которая могла бы защитить переносимый сигнал от искажений при хранении, передаче и усилении.
Любой природный звук имеет аналоговую природу: кожа барабана, струны рояля, голосовые связки плавно перемещаются в пространстве, вызывая упругие волны (области сжатия/разрежения воздуха), которые распространяются в атмосфере. Звуком называются механические волны, частоты которых лежат в пределах от 17-20 до 20000 Гц. Механические волны таких частот производят ощущение звука. Механические волны с частотами ниже 17 Гц называют инфразвуками,
а свыше 20000 Гц — ультаразвуками. Звуковые волны, улавливаемые ушной раковиной, вызывают вибрацию барабанной перепонки (рис.7.1) и затем через систему слуховых косточек, жидкостей и др. образований передаются воспринимающим рецепторным клеткам, вызывающим в мозгу челеовека звуковые ощущения. При этом громкость звука определяется силой, с которой звуковые волны воздействуют на ухо человека (амплитудой звуковой волны), а высота тона определяется частотой колебаний. Сила ощущения звуковых волн органами слуха субъективна, зависит от чувствительности органа слуха, но непосредственно связана с интенсивностью волн. При определенной минимальной интенсивности человеческое ухо не воспринимает звука. Эта минимальная интенсивность называется порогом слышимости. Порог слышимости имеет различные значения для звука различных частот. При больших интенсивностях ухо испытывает болевое ощущение. Наименьшая интенсивность при болевом восприятии звука называется порогом болевого ощущения.
Уровень интенсивности звука определяется в децибелах (дБ). Количество децибел равно десятичному логарифму отношения интенсивностей, умноженному на 10, т.е. 10lg(I/I0).
Для преобразования звуковых колебаний в электрические в телефонных аппаратах, устройствах звукозаписи, системах радиовещания и др. областях используются микрофоны. При этом на выходе микрофонов образуется непрерывно изменяющееся аналоговое напряжение (аналог давления и частоты колебаний звуковой волны).
Однако компьютер оперирует нулями и единицами. Процесс оцифровки звука заключается в мгновенной регистрации величины напряжения в различные моменты времени и последующем "склеивании" полученных значений. При просмотре фильма, глаза и мозг связывают цепочку неподвижных изображений в непрерывное движение. В случае цифрового звука "кадры" сливаются в проигрывающем устройстве: непрерывно изменяющееся напряжение более или менее точно воссоздается и подается на громкоговоритель. Если все сделано правильно, то динамик воспроизводит оригинальное движение струны рояля или кожи барабана. Аналогия с фильмом верна в принципе, однако, аудио-"кадры" (samples) записываются в сотни и тысячи раз чаще, чем кадры фильма.
Возможно, аудио-"кадры" нагляднее сравнивать с точками, из которых состоит газетная фотография. Чем плотнее расположены точки (чем выше линиатура), тем более детально воспроизводится изображение. Высокая линиатура требует более качественной бумаги и более аккуратной печати, а большая частота сэмплирования приводит к сильной загрузке компьютера: за один и тот же промежуток времени обрабатывается больше значений, а для хранения и передачи данных требуется большая память и полоса пропускания. В обоих случаях приходится искать компромисс между практичностью и точностью воспроизведения.
При аналоговом способе записи сохраняются величины, непрерывно изменяющиеся по амплитуде и во времени, то есть изменение параметров может происходить на любую бесконечно малую величину. Для сигналов, изменяющихся во времени, важную роль играет частота измерений. Рассмотрим это утверждение на примере цифровой звукозаписи. Оцифрованный звук представляет собой существенную часть мультимедиа. Поэтому представляется рациональным принципиально разобраться в оцифровке звуковой информации.
Как и при оцифровке изображения, для цифровой звукозаписи требуется наличие технического аналога органа чувств. Только здесь это не «электронный глаз», а «электронное ухо», в качестве которого обычно используют микрофон. В микрофоне имеется мембрана, в которой под воздействием звуковой волны возбуждаются колебания, и с помощью катушки на магнитном сердечнике звуковая информация преобразуется в численные значения. Таким образом, мы должны иметь дело с изменяющимся во времени сигналом, а именно, с электрическим напряжением, величина которого изменяется с течением времени.
При цифровом способе записи сохраняются величины, измеренные через определенные последовательные промежутки времени и принимающие фиксированные значения.
Звуковые колебания преобразуются в аудиоадаптере в цифровой сигнал, записываются на каком-либо носителе информации, например, на магнито-оптическом компакт-диске, а затем, если потребуется, через аудиоадаптер преобразуются обратно в аналоговый сигнал и воспроизводятся через громкоговоритель. На рис.7.2 повышение и спад звукового давления представлены в виде кривой.
Обычно уже в аналоговом представлении имеется ошибка, появляющаяся из-за несовершенства преобразований. Так как при обработке, передаче и записи возникают искажения и помехи, то при воспроизведении сигнала нет точного совпадения с оригиналом. Сигнал ухудшается при каждой последующей обработке. Чем чаще повторять этот процесс, тем хуже и хуже будут результаты. Как правило, потеря качества отчетливо ощущается уже после первой обработки. Потеря качества с каждой новой копией может зайти так далеко, что на копии Х вообще нельзя будет ничего различить. Для того чтобы при обработке уменьшить эти ошибки, приходится применять дорогое и сложное оборудование.
Вернемся к примеру со звуковыми волнами. Чтобы характеристики звука (например, его высоту) описать более точно, нужны определенные физические понятия. Первоначально звук существует как аналоговый сигнал (воспринимаемый микрофоном), причем в виде чередования возрастания и спада звукового давления на мембрану микрофона, что вызывает в ней колебательный процесс.
Первая гармоника колебаний мембраны может быть представлена в виде синусоиды. Максимальное отклонение от положения покоя (как вверх, так и вниз) называется амплитудой.
Число колебаний в течение одной секунды называется частотой и измеряется в герцах (Гц). Одно колебание совершается в течение промежутка времени, называемого периодом колебаний, за который процесс, начиная от положения покоя, побывает в верхней и нижней максимальных точках и снова вернется в положение покоя (рис.7.3).
Если представить звуковые волны в виде колебаний на осциллографе, то можно заметить, что большей громкости звука соответствует большая амплитуда колебаний. Точно также и частота колебания зависит от того, низкий звук или высокий (рис.7.4).
Если рассмотреть на осциллографе реакцию микрофона на речь или музыку, то мы увидим не регулярную синусоиду, а более сложную кривую, которая возникает как результат наложения и взаимодействия разных колебаний; это наложение также называют интерференцией.
Цифровое представление выглядит совершенно иначе. При цифровом представлении изменение величины происходит дискретно и как бы заморожено в некоторые моменты времени для измерения значений. Таким образом, эти значения описывают процесс, определяя его состояние в определенные моменты времени последовательностью дискретных чисел. Аналоговый сигнал преобразовывается в цифровой (дискретизируется) при помощи аналого-цифрового преобразователя (АЦП). В нем аналоговый сигнал после измерения на входе квантуется и кодируется. Чем короче временные промежутки между отдельными измерениями, тем точнее описывается и затем воспроизводится процесс. Частота, с которой дискретизируется аналоговый сигнал, называется частотой дискретизации. Преимущество этого способа представления очевидно: так как измеренная величина существует в форме числа, то копирование происходит без потери качества, так как переписывается лишь число. Не наблюдается потеря качества и для копии X, если, разумеется, копирование происходит без ошибок.
Теперь давайте выясним, как часто в единицу времени требуется измерять величину напряжения, поступающего от микрофона, чтобы получить наилучшее качество оцифровки. В качестве важнейшего граничного условия здесь выступает чувствительность человеческого уха к звуковым волнам различной длины
В молодом возрасте порог чувствительности находиться на частоте около 20000 герц, а со временем существенно снижается, и человек не способен их воспринимать звуковые волны с частотами выше 20000 герц. При этом происходило бы только бесполезное увеличение объема данных. Из критерия Найквиста следует, что для оцифровки без искажений замеры следует производить с шагом вдвое меньше, чем самая тонкая деталь информации. При звукозаписи самой тонкой деталью является колебание с частотой 20000 герц, поэтому замеры напряжения должны производиться не реже 40000 раз в секунду. Фактически берут несколько большее значение и производят замеры с частотой 44100 герц.
Это некруглое значение обусловлено тем, что для осуществления первых цифровых записей применялся видеомагнитофон. Такой магнитофон, работающий по стандарту цветного телевидения PAL, записывает 50 изображений (полей) в секунду, и в каждом поле записывается по 294 телевизионных строки, причем это значение стандартизовано. В противоположность этому, число замеров звукового сигнала на строку может изменяться и до определенной верхней границы может быть любым целым числом. При трех замерах на строку в секунду получается 50 х 294 х 3 замеров, что и составляет точно 44100. Интересно, что видеомагнитофон, работающий по американскому стандарту NTSC, также пригоден для такой звукозаписи, поскольку в нем записывается 60 полей в секунду по 245 строк (60 х 245 х 3 также дает 44100).
Однако звуковой сигнал, получаемый, например, от музыкального инструмента, вполне может содержать обертоны с частотой 22000 герц. Это вызывает определенные трудности. Так же как при сканировании изображений со слишком низким разрешением, недостаточное разрешение при оцифровке в случае звукозаписи может привести к искажениям. Из-за низкого числа замеров в оцифрованном сигнале возникают новые колебания, которых не было в исходном сигнале. Этот эффект называют помехой дискретизации, а саму помеху — ложными частотами (по-английски используется термин aliasing). На начальном этапе цифровой звукотехники ложные частоты создавали значительные трудности для инженеров. Между тем появились фильтры с очень резким срезом, которые устраняют в звуковом сигнале частоты выше допустимого значения около 22000 герц, перед тем как сигнал будет подан на аналого-цифровой преобразователь. В этой связи говорят, что перед оцифровкой сигнал ограничивается по полосе частот.
Остается еще проблема точности измерений. Хотя при заниженной точности ложные частоты и возникают, качество записи явно ухудшается. АЦП сравнивает измеренную величину со шкалой числовых значений и присваивает этой величине дискретное значение из имеющихся на шкале. Присвоенное дискретное значение настолько точно отражает состояние процесса, насколько малы по величине деления на шкале.
Если, например, имеется довольно грубая шкала от 1 до 16 (всего 16 значений), то неизбежно возникает относительно большое отклонение значения дискретизируемой величины от квантованного присвоенного значения. Это отклонение называется ошибкой квантования или искажением квантования. Если же шкала имеет 256 значений, то, следовательно, ошибка квантования уменьшается в четыре раза. Так как для записи используется лишь двоичное представление числа, то это означает, что 16 (24) степеней сравнения требуют для описания четыре бита. Следовательно, для 256 (28) потребуется 8 бит. При допустимой ошибке менее 0,1 процента необходимо иметь 1000 степеней сравнения, для чего потребуется 10 бит.
Цифровая запись музыки в стереофоническом режиме, используемая, например, на компакт-дисках, выполняется с частотой отсчетов 44,1 килогерц и точностью измерений 16 бит (2 байта). Это соответствует объему данных 44100 х 2 х 2 = 176400 байт в секунду, что весьма немало. В мультимедиа-приложениях такой поток данных приемлем только в определенных условиях. Обычно качество записи для этих целей снижают, используя частоту отсчетов 22 килогерц и разрешение 8 бит, причем ограничиваются монофоническим воспроизведением. Благодаря этому поток данных снижается до 22 Кбайт в секунду. Однако дальнейшее снижение уже недопустимо, поскольку оно привело бы к слишком сильному снижению качества звука.
Высококачественный (Hi-Fi) проигрыватель компакт-дисков имеет разрядность 16 бит; это позволяет различать при сравнении 65536 различных состояний. Аудиоадаптер может иметь разрядность 8 бит и 256 различных состояний. Так как при записи приходится обрабатывать огромные объемы данных, то, чтобы не загружать микропроцессор, используется так называемый метод DMA(Direct Memory Access — прямой доступ к памяти). Данные, минуя микропроцессор, прямо попадают в память Чтобы устранить конфликт между аудиоадаптером и микропроцессором, в компьютере имеется специальная микросхема которая называется контроллер прямого доступа к оперативной памяти Контроллер управляет доступом к памяти со стороны микропроцессора или других адаптеров через каналы прямого доступа (номер такого канала требуется задать при инсталляции аудиоадаптера).
Преобразование цифровой величины в аналоговый сигнал который может слышать ухо, происходит в цифро-аналоговом преобразователе (ЦАП — Digital-to-Analog Converter — DAC).
Подводя итог, можно сказать, что цифровая аудиозапись (digital audio) — это цифровое представление аналогового звукового сигнала. Для формирования цифрового представления звукового сигнала используется процесс выборки (sampling). Данный процесс заключается в периодическом измерении амплитуды (громкости) аналогового звукового сигнала и преобразовании полученного значения в последовательность битов. Для осуществления такого преобразования используется специальное устройство, которое называется аналого-цифровой преобразователь — АЦП (Analog-to-Digital Converter — ADC). На выходе АЦП формируется последовательность байтов, которая может быть записана либо на магнитную ленту, либо на другое цифровое устройство в двоичной форме.
Запись в двоичной форме позволяет избежать появления помех во время записи на магнитный носитель, так как записываются только два уровня сигнала — логический ноль и логическая единица, в отличие от аналогового способа записи, при котором записывается много различных уровней сигнала.
Такие системы записи звука обычно называют системами цифровой аудиозаписи с импульсно-кодовой модуляцией (Pulse Code Modulation — PCM). Однако в компьютерной терминологии такой процесс принято называть волновой аудиозаписью (waveaudio или waveform audio).
Цифровой звук характеризуется следующими параметрами:
частотой дискретизации (sampling rate), которая определяет, сколько раз оцифровывается звуковой сигнал за единицу времени и измеряется в килогерцах (килогерц — тысяча выборок в секунду). Данная характеристика показывает, как часто измеряется значение амплитуды входного звукового сигнала в момент записи звука, а тем самым — насколько правильно цифровое представление звука отражает скорость изменения амплитуды звукового сигнала (рис.7.6).
звуковым разрешением (audio resolution), характеризующим правильность представления амплитуды исходного аналогового сигнала. Обычно цифровые аудиосистемы бывают 8- и 16-разрядными.
Наиболее часто используют частоты дискретизации 11,025; 22,05 и 44,1 кГц. При частоте 11,025 кГц достаточно хорошо воспроизводится человеческая речь. При частоте 22,05 кГц неплохо звучит не только человеческая речь, но и музыкальные фрагменты. А для очень хорошего представления музыкального звучания необходимо использовать частоту дискретизации не менее 44,1 кГц.
Частота дискретизации сильно влияет на количество информации, необходимое для хранения звука. Так, например, воспроизведение 16-разрядного стереозвука с частотой дискретизации 44,1 кГц требует хранить для одной секунды звучания 176,2 Кбайт, а для воспроизведения секунды такого же звука с частотой дискретизации 22,05 кГц требуется 90 К байт, что почти в два раза меньше.
8-разрядные системы осуществляют преобразование амплитуды аналогового сигнала только в 256 фиксированных значений (рис.7.8). Такое представление аналогового сигнала не является очень точным, а, следовательно, выходной сигнал, восстановленный по 8-разрядному представлению, будет отличаться от оригинального звукового сигнала. Такое отличие обычно хорошо заметно на слух.
16-разрядные системы осуществляют преобразование амплитуды аналогового сигнала уже в 65536 фиксированных значений. В таких системах качество оцифрованного звука намного лучше и практически не отличается от оригинального звучания. Кроме того обеспечивается широкий динамический диапазон (выраженная в децибелах разность между самым сильным сигналом, который устройство в состоянии пропустить, и самым слабым, еще различимым на фоне остаточных шумов). Благодаря этому современные цифровые системы воспроизведения звука, такие как цифровые аудио компакт-диски и цифровые аудиомагнитофоны, обычно используют 16-разрядные системы (рис.7.9).
Аудиофайлы, как и графические данные, можно уплотнять. Это позволяет значительно сократить объем передаваемой информации. Для этого используются кодеки (рис.7.10).