Цифровое видео и его основные характеристики
Недостатки, присущие аналоговому способу воспроизведения видео, привели к разработке цифрового видеоформата. На смену аналоговому видео пришло цифровое.
В области профессионального видео применяется несколько цифровых видеоформатов: D1, D2, Digital BetaCam и др. В отличие от аналогового видео, качество которого падает при копировании, каждая копия цифрового видео идентична оригиналу. Хотя современный видеоряд базируется на цифровой основе, практически все цифровые видеоформаты до сих пор в качестве носителя исходного сигнала используют пленку с последовательным доступом. Поэтому большинству профессионалов в области видео все еще привычней работать с пленкой, чем с компьютером. Конечно, пленка в качестве источника данных пока еще остается более предпочтительной, чем жесткий диск компьютера, поскольку вмещает значительно больший объем данных.
Но зато для цифрового видеомонтажа использование компьютеров дает ряд существенных преимуществ: не только обеспечивает прямой доступ к любому видеофрагменту (что невозможно при работе с пленкой, поскольку к необходимым участкам можно добраться лишь последовательно просматривая видеоматериал), но и предполагает широкие возможности обработки изображения (редактирование, сжатие). Это достаточно веские причины для перехода видеопроизводства с традиционного оборудования на компьютерное.
Компьютерное цифровое видео представляет собой последовательность цифровых изображений и связанный с ними звук. Элементы видео хранятся в цифровом формате. Существует множество способов захвата, хранения и воспроизведения видео на компьютере. С появлением компьютерного цифрового видео стали стихийно возникать самые разнообразные форматы представления видеоданных, что поначалу привело к некоторой путанице и вызвало проблемы совместимости. Однако в последние годы благодаря усилиям Международной организации по стандартизации (ISO - International Standards Organisation) выработаны единые стандарты на форматы видеоданных.
Для создания цифрового представления видеоизображения применяется следующая процедура. Аналоговые сигналы от видеоисточников, например, с камеры, преобразуются перед оцифровкой в цветовую систему YUV или в аналогичное цветовое представление. Затем полученный видеосигнал преобразуется в цифровую форму при помощи специального устройства, называемого "аналого-цифровой преобразователь" (АЦП, ADC - Analog-to-Digital Converter). Результат этого преобразования представляет собой последовательность байтов, кодирующих цвет каждого пикселя в кадре изображения. Объединение информации о каждом кадре формирует поток данных, полностью описывающих видеофрагмент. Видео- изображение в таком представлении можно в дальнейшем обрабатывать, хранить или передавать неограниченное число раз.
Для того чтобы просмотреть цифровое видеоизображение, необходимо преобразовать цифровую информацию обратно в аналоговую форму. Данную процедуру осуществляет цифро-аналоговый преобразователь (ЦАП, DAC - Digital-to-Analog Converter). ЦАП формирует необходимый аналоговый видеосигнал, который воспринимается видеомонитором или телевизором, что позволяет осуществить просмотр видеофрагмента.
Цифровое видео характеризуются четырьмя основными величинами: частота кадра, экранное разрешение, глубина цвета и качество изображения /27/.
Частота кадра. Стандартная скорость воспроизведения видеосигнала - 30 кадров/с (для кино этот показатель составляет 24 кадра/с). Каждый кадр состоит из определенного количества строк, которые прорисовываются не последовательно, а через одну, в результате чего получается два полукадра. Поэтому каждая секунда аналогового видеосигнала состоит из 60 полукадров. Такой процесс называется interlaced видео.
В мониторе компьютера для прорисовки экрана использован метод "прогрессивного сканирования", при котором строки кадра формируются последовательно, сверху вниз, а полный кадр прорисовывается 30 раз каждую секунду. Подобный метод получил название non-interlaced видео. В этом заключается основное отличие между компьютерным и телевизионным методом формирования видеосигнала.
Глубина цвета. Этот показатель является комплексным и определяет количество цветов, одновременно отображаемых на экране /27/. Компьютеры обрабатывают цвет в RGB-формате (красный-зеленый-синий), в то время как видео использует и другие методы. Одна из наиболее распространенных моделей цветности для видеоформатов - YUV. Каждая из моделей RGB и YUV может быть представлена разными уровнями глубины цвета (максимального количества цветов).
Для цветовой модели RGB обычно характерны следующие режимы глубины цвета: 8 бит/пиксел (256 цветов), 16 бит/пиксел (65 535 цветов) и 24 бит/пиксел (16,7 млн цветов). Для модели YUV применяются режимы: 7 бит/пиксел (4:1:1 или 4:2:2, примерно 2 млн цветов), и 8 бит/пиксел (4:4:4, примерно 16 млн цветов) /27/.
Экранное разрешение или, другими словами, количество точек, из которых состоит изображение на экране. Мониторы PC и Macintosh обычно рассчитаны на базовое разрешение в 640 на 480 точек (пикселей), но прямой связи между разрешением аналогового видео и компьютерного дисплея нет /27/.
Стандартный аналоговый видеосигнал дает полноэкранное изображение без ограничений размера, присущих компьютерному видео. Телевизионный стандарт NTSC (National Television Standards Committee), мспользуемый в Северной Америке и Японии, предусматривает разрешение 768 на 484. Стандарт PAL (Phase Alternative), распространенный в Европе, имеет несколько большее разрешение - 768 на 576 точек.
Разрешение аналогового и компьютерного видео различается, поэтому при преобразовании аналогового видео в цифровой формат может масштабироваться изображение, что приводит к потере качества.
Качество видеоизображения - наиболее важная характеристика. Требования к качеству зависят от конкретной задачи. Иногда достаточно, чтобы картинка была размером в четверть экрана с палитрой из 256 цветов (8 бит), при скорости воспроизведения 15 кадров/с. В других случаях требуется полноэкранное видео (768 на 576) с палитрой в 16,7 млн цветов (24 бит) и полной кадровой разверткой (24 или 30 кадров/с).
Нелинейный видеомонтаж.Использование анимационных и видеоконтроллеров позволяет воспроизводить цифровое видео в режиме реального времени непосредственно с диска компьютера. Система нелинейного монтажа состоит из компьютера, в который вставлены специальные платы и видеомагнитофона. С видеомагнитофона видео и звук записываются на жесткий диск компьютера, при этом они оцифровываются и сжимаются. С помощью монтажных программ можно склеивать и вырезать различные фрагменты, менять их порядок, добавлять различные эффекты в места склеек, накладывать титры, графику, менять звуковые дорожки и т.д. По окончании монтажа готовый ролик записывается на видеокассету.
Сжатие видео
Расчеты показывают, что 24-битное цветное видео, при разрешении 640 на 480 и частоте 30 кадров/с потребует передачи 26 Мб данных в секунду, что выходит за рамки пропускной способности компьютерной шины и разумных объемов дискового пространства.
Сжатие видео необходимо для уменьшения объема цифровых видео-файлов, предназначенных для хранения, при этом желательно максимально сохранить качество оригинала. Различают сжатие обычное в режиме реального времени, симметричное или асимметричное, с потерей качества или без потери, сжатие видеопотока или покадровое сжатие.
Сжатие обычное (в режиме реального времени). Многие системы оцифровывают видео и одновременно сжимают его, иногда параллельно совершая и обратный процесс декомпрессии и воспроизведения. Для качественного выполнения этих операций требуются очень мощные специальные процессоры, поэтому большинство плат ввода/вывода видео для PC бытового класса не способны оперировать с полнометражным видео и часто пропускают кадры. Недостаточная частота кадров является одной из основных проблем для видео на PC. При производительности ниже 24 кадров/с видео перестает быть плавным. К тому же, пропущенные кадры могут содержать необходимые данные по синхронизации звука и изображения.
Симметричное или асимметричное сжатие. Этот показатель связан с соотношением способов сжатия и декомпрессии видео /10/. Симметричное сжатие предполагает возможность проиграть видеофрагмент с разрешением 640 на 480 при скорости в 30 кадров/с, если оцифровка и запись его выполнялась с теми же параметрами. Асимметричное сжатие - это процесс обработки одной секунды видео за значительно большее время. Степень асимметричности сжатия обычно задается в виде отношения. Так цифры 150:1 означают, что сжатие одной минуты видео занимает примерно 150 минут реального времени.
Асимметричное сжатие обычно более удобно и эффективно для достижения качественного видео и оптимизации скорости его воспроизведения. Такой процесс могут выполнять специализированные компании, куда отсылают исходный материал на кодирование, так как кодирование полнометражного ролика может занять много времени.
Сжатие с потерей или без потери качества. Чем выше коэффициент сжатия, тем ниже качество видео. Все методы сжатия приводят к некоторой потере качества. Даже если это не заметно на глаз, всегда есть разница между исходным и сжатым материалом. Пока существует всего один алгоритм (разновидность Motion-JPEG для формата Kodak Photo CD), который выполняет сжатие без потерь, однако он оптимизирован только для фотоизображений и работает с коэффициентом 2:1.
Сжатие видеопотока или покадровое сжатие. Покадровый метод подразумевает сжатие и хранение каждого видеокадра как отдельного изображения. Сжатие видеопотока основано на следующей идее: не смотря на то, что изображение все время претерпевает изменения, задний план в большинстве видеосцен остается постоянным. Создается исходный кадр, а каждый следующий сравнивается с предыдущим и последующим изображениями, а фиксируется лишь разница между ними /10/. Этот метод позволяет существенно повысить коэффициент сжатия, практически сохранив при этом исходное качество. Однако в этом случае могут возникнуть трудности с покадровым монтажом видеоматериала, закодированного подобным образом.
Коэффициент сжатия - это цифровое выражение соотношения между объемом сжатого и исходного видеоматериала /27/. Например, коэффициент 200:1 означает, что если принять объем полученного после компрессии ролика за единицу, то исходный оригинал занимал объем в 200 раз больший.
Обычно, чем выше коэффициент сжатия, тем хуже качество видео. Но многое зависит от используемого алгоритма. Для MPEG стандартом считается соотношение 200:1, при этом сохраняется неплохое качество видео. Различные варианты Motion-JPEG работают с коэффициентами от 5:1 до 100:1, хотя при уровне в 20:1 уже трудно добиться отличного качества изображения. Кроме того, качество видео зависит не только от алгоритма сжатия (MPEG или Motion-JPEG), но и от параметров цифровой видеоплаты, конфигурации компьютера и даже от программного обеспечения /27/.
Выбор метода сжатия. Методы сжатия данных используют математические алгоритмы для устранения, группировки и/или усреднения схожих данных, присутствующих в видеосигнале. Выбор конкретного алгоритма зависит от конечной цели. Практически все видеоплаты построены на основе одного из двух методов компрессии: Motion-JPEG или MPEG.
Существует ряд способов сжатия (компрессии) видеоданных с допустимым уровнем потерь информации и обратного преобразования (декомпрессии), реализованных на программном или аппаратном (в устройствах видеоввода-видеовывода) уровне, дающих хорошие результаты.
Motion-JPEG. Стандарт компрессии JPEG был разработан объединенной группой экспертов по фотографии (JPEG - Joint Photographic Expert Group) международной организации стандартов (ISO). Схема компрессии была разработана для неподвижных изображений. Так как телевидение, в сущности, и есть последовательность неподвижных изображений, то JPEG кодирование может применяться и для компрессии видеоизображений. Иногда этот стандарт называют "динамический" JPEG.
В основе схемы компрессии JPEG лежит дискретное косинусоидальное преобразование (DCT). К преимуществам JPEG относится тот факт, что каждый кадр сжимается независимо от остальных и для восстановления исходного изображения не нужно задействовать информацию из соседних кадров. Такое построение сжатых данных позволяет осуществлять произвольный доступ, коммутацию и монтаж видеофрагментов проще, чем при использовании других методов кодирования. Недостатком данного формата является относительно меньшая степень кодирования JPEG по сравнению с другими системами. Например, в системе с JPEG может понадобиться 20 Мбит для записи одной секунды видеоизображения "вещательного" качества, с разрешением 525/625 строк, что слишком много для компьютерной обработки.
AVI (Audio Video Interleave). Разработанный фирмой Microsoft метод сжатия, записи и воспроизведения движущих изображений (Live Video) и звука на компьютере с использованием только программных средств. Файлы, созданные с использованием этого метода, имеют расширение AVI.
AVI может иметь или не иметь звуковые дорожки. При создании AVI файлов, включающих звуковое сопровождение, важным является правильная синхронизация звука с видеоизображением. Для этого используется технология чередования видеокадров и звука, которой, собственно, и определяется аббревиатура AVI (Audio Video Interleaved). Разные по типу видео и аудиоданные записываются в один файл на диске следующим образом: все информационные потоки разбиваются на множество равных частей (chunks) и затем записываются в один файл друг за другом по очереди. Например, сначала записывается заголовок; затем - 1-я часть видео; затем - 1-я часть звука; затем - 2-я часть видео; затем - 2-я часть звука и т.д.
Microsoft Video for Windows использует четыре основных кодека для сжатия AVI файлов цифрового видео - Microsoft Video 1, RLE compression, Cinepak Codec by SuperMatch и Intel Indeo Video R3.2 (INDEO - INtel viDEO):
· Кодек Microsoft Video 1 предназначен для сжатия реалистических видеофрагментов и рассчитан на разрешение цвета не более, чем 16 бит.
· Кодек RLE compression (run-length encoding) предназначен для сжатия в AVI анимаций.
· Cinepak Codec by SuperMatch и Intel Indeo Video R3.2 используют 24-битное разрешение цвета и имеют достаточно большую степень сжатия - порядка 10:1.
QuickTime - стандарт, архитектура программного обеспечения, которая позволяет создавать, объединять и публиковать все типы цифровых мультимедиа данных. Используя QuickTime, программные приложения могут легко работать с широким кругом форматов файлов и кодеков.
QuickTime включает три основополагающих элемента - QuickTime видео формат (Movie file format), слой абстрактного носителя (Media Abstraction Layer) и богатый набор встроенных медиа - служб.
QuickTime видеоформат хорош тем, что он платформенно независим, открыт для расширения. В связи с названными преимуществами, поддерживается многими производителями. QuickTime видео также поддерживается на платформе Windows.
QuickTime слой абстрактного носителя определяет исчерпывающий набор сервисных функций покрывающих все аспекты создания, редактирования и воспроизведения цифрового материала.
Среди них:
· синхронизация по времени;
· компрессия и декомпрессия аудио- и видеоданных;
· преобразование форматов, масштабирование, смешивание и транскодирование;
· аудио- и видеоэффекты и переходы;
· синхронизация чтения и записи;
· захват данных;
· импорт и экспорт данных.
QuickTime поддерживает широкий набор типов мультимедиа данных (видео, аудио, текст, временной код, музыкальный MIDI - интерфейс, спрайты, анимацию и др.).
Формат QuickTime имеет несколько отличных друг от друга кодеков - Video, Animation, Cinepak, Graphics, Photo-JPEG и другие. Наиболее качественными являются кодеки Cinepak и Video.
MPEG. В январе 1992 года группа экспертов в области движущихся изображений MPEG (Motion Picture Experts Group) представила первую часть стандарта для сжатия цифрового видео и звука - MPEG phase 1, или просто MPEG-1 (ISO 11172). Стандарт определяет методы компрессии и воспроизведения видео- и аудиоданных. Комитет MPEG также определил ряд других форматов для сжатого видео- и аудиоматериала. Форматы MPEG различаются по качеству результатов и скорости передачи данных.
Временная MPEG-компрессия использует высокую избыточность информации в изображениях, разделенных малым интервалом. Действительно, между смежными изображениями обычно меняется только малая часть сцены – например, происходит плавное смещение небольшого объекта на фоне фиксированного заднего плана. В этом случае полную информацию о сцене нужно сохранять только выборочно - для опорных изображений. Для остальных достаточно передавать только разностную информацию: о положении объекта, направлении и величине его смещения, о новых элементах фона (открывающихся за объектом по мере его движения). Причем эти разности можно формировать не только по сравнению с предыдущими изображениями, но и с последующими (поскольку именно в них по мере движения объекта открывается часть фона, ранее скрытая за объектом).
Способ основан на сжатии с использованием ключевых кадров. Информация сжимается по методу компенсации движения, то есть используется межкадровое сжатие. В видеоиотоке MPEG кадры бывают трех типов:
– ключевые кадры появляются с заданным периодом или при резкой смене характера изображения. Степень их сжатия наименьшая;
– зависимые кадры несут информацию только об изменениях в предыдущем ключевом кадре («первая производная»);
– двусторонние кадры имеют наименьшую информативность, отображают изменения скорости компонентов изображения, дешифруются при наличии двух «своих» кадров предыдущих типов.
Технология MPEG использует поточное сжатие видео, при котором обрабатывается не каждый кадр по отдельности (как это происходит при сжатии видео с помощью алгоритмов Motion-JPEG), а анализируется динамика изменений видеофрагментов и устраняются избыточные данные. Поскольку в большинстве моментов фон изображения остается достаточно стабильным, а действие происходит только на переднем плане, алгоритм MPEG начинает сжатие с создания исходного (ключевого) кадра. Играя роль опорных при восстановлении остальных изображений, они размещаются последовательно через каждые 10-15 кадров. Только некоторые фрагменты изображений, которые находятся между ними, претерпевают изменения, и именно эта разница сохраняется при сжатии. Таким образом, MPEG-последовательность содержит три типа изображений:
Intro (I) - исходные кадры, содержащие основное изображение;
Predicted (P) (предсказуемые) кадры;
Bi-directional Interpolated (В) (двунаправленные) кадры сжаты с использованием предыстории, причем В-кадры используют как в предыдущих так и в последующих кадрах.
Изображения объединяются в группы (GOP - group of pictures), представляют собой минимальный набор повторяемых последовательных изображений.
Рекомендуемая MPEG последовательность: I B B P B B P B B P ...