Кодирование звуковой и видео информации

С начала 90-х годов персональные компьютеры получили возможность работать со звуковой информацией. Каждый компьютер, имеющий звуковую плату, микрофон и колонки, может записывать, сохранять и воспроизводить звуковую информацию.

Процесс преобразования звуковых волн в двоичный код в памяти компьютера:

Процесс воспроизведения звуковой информации, сохраненной в памяти ЭВМ:

Звук представляет собой звуковую волну с непрерывно меняющейся амплитудой и частотой. Чем больше амплитуда, тем он громче для человека, чем больше частота сигнала, тем выше тон. Программное обеспечение компьютера в настоящее время позволяет непрерывный звуковой сигнал преобразовывать в последовательность электрических импульсов, которые можно представить в двоичной форме. В процессе кодирования непрерывного звукового сигнала производится его временная дискретизация. Непрерывная звуковая волна разбивается на отдельные маленькие временные участки, причем для каждого такого участка устанавливается определенная величина амплитуды.

Таким образом, непрерывная зависимость амплитуды сигнала от времени A(t) заменяется на дискретную последовательность уровней громкости. На графике это выглядит как замена гладкой кривой на последовательность «ступенек». Каждой «ступеньке» присваивается значение уровня громкости звука, его код(1, 2, 3 и так далее). Уровни громкости звука можно рассматривать как набор возможных состояний, соответственно, чем большее количество уровней громкости будет выделено в процессе кодирования, тем большее количество информации будет нести значение каждого уровня и тем более качественным будет звучание.

Аудиоадаптер (звуковая плата) - специальное устройство, подключаемое к компьютеру, предназначенное для преобразования электрических колебаний звуковой частоты в числовой двоичный код при вводе звука и для обратного преобразования (из числового кода в электрические колебания) при воспроизведении звука.

В процессе записи звука аудиоадаптер с определенным периодом измеряет амплитуду электрического тока и заносит в регистр двоичный код полученной величины. Затем полученный код из регистра переписывается в оперативную память компьютера. Качество компьютерного звука определяется характеристиками аудиоадаптера:

Частотой дискретизации

Разрядностью (глубина звука).

Частота временной дискретизации - это количество измерений входного сигнала за 1 секунду. Частота измеряется в герцах (Гц). Одно измерение за одну секунду соответствует частоте 1 Гц. 1000 измерений за 1 секунду – 1 килогерц (кГц). Характерные частоты дискретизации аудиоадаптеров: 11 кГц, 22 кГц, 44,1 кГц и др.

Разрядность регистра (глубина звука) число бит в регистре аудиоадаптера, задает количество возможных уровней звука.

Разрядность определяет точность измерения входного сигнала. Чем больше разрядность, тем меньше погрешность каждого отдельного преобразования величины электрического сигнала в число и обратно. Если разрядность равна 8 (16), то при измерении входного сигнала может быть получено 28= 256 (216=65536) различных значений. Очевидно, 16 разрядный аудиоадаптер точнее кодирует и воспроизводит звук, чем 8-разрядный. Современные звуковые карты обеспечивают 16-битную глубину кодирования звука. Количество различных уровней сигнала (состояний при данном кодировании) можно рассчитать по формуле:

N = 2I = 216 = 65536, где I — глубина звука.

Таким образом, современные звуковые карты могут обеспечить кодирование 65536 уровней сигнала. Каждому значению амплитуды звукового сигнала присваивается 16-битный код. При двоичном кодировании непрерывного звукового сигнала он заменяется последовательностью дискретных уровней сигнала. Качество кодирования зависит от количества измерений уровня сигнала в единицу времени, то есть частоты дискретизации. Чем большее количество измерений производится за 1 секунду (чем больше частота дискретизации тем точнее процедура двоичного кодирования.

Звуковой файл - файл, хранящий звуковую информацию в числовой двоичной форме.

2. Повторяем единицы измерения информации

1 байт = 8 бит

1 Кбайт = 210 байт=1024 байт

1 Мбайт = 210 Кбайт=1024 Кбайт

1 Гбайт = 210 Мбайт=1024 Мбайт

1 Тбайт = 210 Гбайт=1024 Гбайт

1 Пбайт = 210 Тбайт=1024 Тбайт

Задача 1. Определить информационный объем стерео аудио файла длительностью звучания 1 секунда при высоком качестве звука (16 битов, 48 кГц).

Запись условия

T=1 сек

I=16 бит

H= 48 кГц

Стерео - ×2

V=?

Решение

V= T ×I × H × 2

V=1 ×16 × 48 000 × 2=

1536000 бит/8 =192000 байт/1024 = 187,5 Кбайт

Задача (самостоятельно). Определить информационный объем цифрового аудио файла длительностью звучания которого составляет 10 секунда при частоте дискретизации 22,05 кГц и разрешении 8 битов.

Определить объем памяти для хранения цифрового аудио файла, время звучания которого составляет две минуты при частоте дискретизации 44,1 кГц и разрешении 16 битов.

Запись условия

T=2 мин

I= 16 бит

H= 44,1 кГц

Моно- ×1

V=?

Решение

V= T ×I × H × 2

V=2×60 ×16 × 44,1 × 1=

(120 × 16 × 44 010) бит = 84672000 бит/8= 10584000байт/1024 = 10335,9375 Кбайт/1024 = 10,09 Мбайт

В распоряжении пользователя имеется память объемом 2,6 Мб. Необходимо записать цифровой аудиофайл с длительностью звучания 1 минута. Какой должна быть частота дискретизации и разрядность?

Запись условия

V=2,6 Мб

T=1 мин

Моно- ×1

I= ?

H= ?

Решение

V= T ×I × H × 1; I × H= V / T

I × H= 2,6 Мб/1 мин. = 2,6×1024×1024×8 бит/ 60 сек=21810380,8/60=

363506,237

363506,237/8=45438,3

363506,237/16=22719,15

Ответ.

Если I=8 ,бит, то H=44,1 кГц.

Если I=16 бит, то H=22,05 кГц.

Размер цифрового моноаудиофайла измеряется по формуле: A = D*T*i,

где D – частота дискретизации (Гц), T – время звучания или записи звука, i - разрядность регистра (разрешение).

Решение задач

Задача 1. Одна минута записи цифрового аудиофайла занимает на диске 1,3 Мб, разрядность звуковой платы - 8. С какой частотой дискретизации записан звук?

Решение: 1,3 Мбайт = 1363148,8 байт; 1363148,8 байт: 60:1=22719,1 Гц

Ответ: 22,05 кГц

Задача 2. Объем свободной памяти на диске - 5,25 Мб, разрядность звуковой платы - 16. Какова длительность звучания цифрового аудиофайла, записанного с частотой дискретизации 22,05 кГц?

Решение: 5,25 Мбайт = 5505024 байт;5505024 байт: 22050 Гц : 2 байта = 124,8 сек Ответ: 124,8 секунды

Задача 3. Две минуты записи цифрового аудиофайла занимают на диске 5,1 Мб. Частота дискретизации - 22050 Гц. Какова разрядность аудиоадаптера?

Решение: 5, 1 Мбайт= 5347737,6 байт; 5347737,6 байт: 120 сек : 22050 Гц= 2,02 байт =16 бит

Ответ: 16 бит

Дополнительные задачи для самостоятельной работы:

Задача 1. Определите длительность звукового файла, который уместится на гибкой дискете 3,5 дюйма. Учтите, что для хранения данных на такой дискете выделяется 2847 секторов объемом 512 байт.

а) при низком качестве звука: моно, 8 бит, 8 кГц;

б) при высоком качестве звука: стерео, 16 бит, 48 кГц.

Задача 2. Определить объем памяти для хранения цифрового аудиофайла, время звучания которого составляет две минуты при частоте дискретизации 44,1 кГц и разрешении 16 бит.

Задача 3. Объем свободной памяти на диске - 0,01 Гб, разрядность звуковой платы - 16. Какова длительность звучания цифрового аудиофайла, записанного с частотой дискретизации 44100 Гц?

Второй способ представления звуковой информации в компьютере связан с использованием синтезаторов музыкальных инструментов. Файл в этом случае содержит последовательность событий вместе с синхронизирующей информацией, которые обеспечивают требуемое звучание необходимых инструментов при воспроизведении музыкального произведения.

Видеофайл представляет собой последовательность кадров изображения (видеопоток) и звуковых данных (аудиопоток), которые должны воспроизводиться через определенные промежутки времени. Для определения примерного объема данных, содержащихся в видеофайле можно воспользоваться следующей формулой:

, (7.3)

где t – время воспроизведения файла (с); RV – скорость воспроизведения данных видеопотока (Гц, 1/с); SV – размер дискретизованной величины для видеопотока (байт); RA – скорость воспроизведения данных аудиопотока (Гц, 1/с); SA – размер дискретизованной величины для аудиопотока (байт).

Пример. Определим объем видеофайла, содержащего информацию, воспроизводимую 10 мин при значениях RV = 30 Гц, SV = 20000 байт, RA = 22050 Гц, SA = 8 байт.

По формуле (11.3) примерный объем видеофайла равен

Q ≈ = 465840000 байтов ≈ 444.3 Мб.

Кадр изображения в видеофайле представляет собой некоторое графическое изображение, воспроизводимое в определенный момент времени. Такое графическое изображение является динамическим. Кроме этого, используются также статические изображения, например, фотографии, чертежи зданий, схемы электрических соединений, блок-схемы алгоритмов и т.д.

Основным устройством, используемым для представления графической информации, является видеосистема компьютера, которая в простейшем случае состоит из видеоадаптера и монитора.

Монитор – это устройство, предназначенное для вывода графической информации (изображений). Изображение выводится на экран монитора, который представляет собой растр – сетку из точек с определенным шагом. Светящимися элементами экрана являются точки сетки – пиксели. Каждый пиксель характеризуется атрибутом, отражающим информацию о цвете и яркости.

Количество строк растра монитора A, количество точек в строке B, количество цветов C, которые могут быть воспроизведены точкой растра, характеризуют разрешающую способность монитора, которая описывается в виде A´B´C, например, 1280´1024´65536.

Для кодирования атрибута пикселя используются три числа – величины яркостей красного R, зеленого G и синего B цветов, смешение которых дает требуемый цвет (рис. 7.3).

Все функции управления видеомонитором и взаимодействия с центральным процессором компьютера выполняет видеоадаптер. При этом выводимое на экран монитора изображение хранится в памяти видеоадаптера (видеопамяти), а его аппаратура обеспечивает регулярное чтение этой информации и передачу в монитор. Поэтому вся работа с изображением сводится к тем или иным операциям с видеопамятью.

Режимы работы видеоадаптера можно разделить на палитровые и непалитровые. В палитровом режиме в видеопамяти хранятся индексы, по которым определяются атрибуты пикселей (RGB-значения) из таблицы цветов (палитры). Палитра в общем случае представляет собой набор N m-разрядных регистров, каждый из которых содержит информацию о 3 цветовых компонентах – красной (R), зеленой (G) и синей (B). Таким образом, в палитровом режиме можно задать

M = 2m (7.4)

различных цветов. Однако в каждый момент времени работы видеоадаптера можно получить доступ только к набору из N цветовых регистров палитры. Всего число палитр определяется из (7.5).

(11.5)

Для 16-цветного режима с 6-разрядными регистрами палитры:

N = 16, M = 64, K = 488526937079580.

В непалитровом режиме в видеопамяти непосредственно хранятся атрибуты пикселей, т. е. n разрядов кода цвета содержат nR, nG и nB разрядов под каждую составляющую цвета (R, G, B). При записи в видеопамять код цвета дополняется нулями слева до числа разрядов, кратного 8.

Пример 7.5. Определить объем видеопамяти и различное число цветов в 256-цветном палитровом режиме 320×200 с 6-разрядными регистрами палитры.

1. Требуемый объем видеопамяти равен:

Q = 320·200·log2256 бит = 512000 бит = 64000 байт.

2. Различное число цветов в данном режиме равно:

M = 26·3 = 218 = 262144.

Задача 4. Определить объем цифровой фотографии, который необходим для сохранения изображения на карте флэш-памяти если его размер 1024×768 при глубине цвета 16 бит.

Задача 5. Видео использует формат разрешения кадра 600 х 400 пикселей с глубиной цвета 24 и скоростью воспроизведения 25 кадров в секунду. Определить объем видеофайла за 3 секунды.

Наши рекомендации