Лекция 5. Три составляющих мультимедиа. Понятия аудио ряда, видеоряда, текстового потока

Мультимедиа – это взаимодействие визуальных и аудио эффектов под управлением интерактивного программного обеспечения. Мультимедиа – комбинация текста, графических изображений, звука, анимации и видео- элементов.

Согласно представленным выше определениям, мультимедиа можно классифицировать с разных точек зрения:

− на основе поддержки взаимодействия,

− на основе использования различных мультимедийных телекоммуникационных технологий.

Аудио (от лат. audio – ≪слышу≫) – общий термин, относящийся к звуковым технологиям. Как правило, под термином аудио понимают звук, записанный на звуковом носителе, а также запись и воспроизведение звука, звукозаписывающая и звуковоспроизводящая аппаратура.

Таким образом, аудиальный компонент мультимедийной информации предназначен для передачи звуковых данных. Как физическое явление звук изучается в рамках акустики, но при этом акустика является междисциплинарной наукой, использующей для решения своих проблем широкий круг дисциплин: математику, физику, психологию, архитектуру, электронику, биологию, теорию музыки и др. Непосредственное отношение к вопросам мультимедиа-технологий имеют такие направления современной акустики, как музыкальная акустика, электроакустика, акустика речи, цифровая акустика.

По содержанию аудиальный компонент мультимедиа обычно классифицируется на музыкальный и речевой звук. Музыкальный звук обладает следующими характеристиками:

• определенной высотой (обычно от 16 до 4500 Гц);

• тембром, который определяется присутствием в звуке обертонов и зависит от источника звука;

• громкостью, которая не может превышать болевого порога;

• длительностью.

Речевой звук образуется произносительным аппаратом человека с целью языкового общения. Звуки речи подразделяются на шумы и тоны.

Тоны в речи возникают в результате колебания голосовых связок; шумы образуются вследствие непериодических колебаний выходящей из легких струи воздуха. С точки зрения акустики речевые звуки представляют собой колебания упругой среды, обладающие определенным спектром, интенсивностью и диапазоном. Наиболее известной характеристикой речевого сигнала является основной тон. Эта характеристика представляет собой обычную частотную модуляцию сигнала, параметры которой легко измеряются. Период основного тона разных людей (мужчин, женщин, детей) находится в диапазоне 50-250 Гц.

Среди звуковых носителей информации выделяют аналоговые и цифровые носители. Для целей мультимедиа-технологий наибольшее значение имеют последние, причем преимущественно это аудио-файлы, значительное количество которых было разработано в последние годы. В классификации форматов аудио-файлов выделяют форматы без потерь и форматы с потерями. Аудиоформаты без потерь предназначены для точного (с точности до частоты дискретизации) представления звука. В свою очередь они делятся на несжатые и сжатые форматы.

Примеры несжатых форматов:

• RAW – сырые замеры без какого-либо заголовка или синхронизации.

• WAV (Waveform audio format) – разработан Microsoft совместно с IBM, распространенная форма представления звуковых данных небольшой продолжительности.

• CDDA – стандарт для аудио-CD. Первая редакция стандарта издана в июне 1980 года компаниями Philips и Sony, затем была доработана организацией Digital Audio DiscCommittee.

Примеры сжатых форматов:

• WMA (Windows Media Audio 9 Lossless) – лицензируемый формат аудио-файлов, разработанный компанией Microsoft для хранения и трансляции. В рамках формата есть возможность кодирования звука как с потерей, так и без потери качества.

• FLAC (Free Audio Lossles Audio Codec) – популярный формат для сжатия аудиоданных. Поддерживается многими аудио-приложениями, а также устройствами воспроизведения звука.

Аудиоформаты с потерями ориентированы в первую очередь на по возможности компактное хранение звуковых данных: при этом идеально точное воспроизведение записанного звука не гарантируется. Примеры таких форматов:

• MP3 – лицензируемый формат файла для хранения аудиоинформации, разработанный рабочей группой института Фраунхофера MPEG в 1994 году. На данный момент MP3 является самым известным и популярным из распространенных форматов цифрового кодирования звуковой информации с потерями. Он широко используется в файлаобменных сетях для передачи музыкальных произведений. Формат может проигрываться в любой современной операционной системе, на практически любом портативном аудио-плеере, а также поддерживается всеми современными моделями музыкальных центров и DVD-плееров.

• Vorbis – свободный формат сжатия звука с потерями, появившийся летом 2002 года. Психо акустическая модель, используемая в Vorbis, по принципам действия близка к MP3. По всевозможным оценкам этот формат является вторым по популярности после MP3 форматом компрессии звука с потерями. Широко используется в компьютерных играх и в файло обменных сетях для передачи музыкальных произведений.

• AAC (Advanced Audio Coding) – формат аудио-файла с меньшей потерей качества при кодировании, чем MP3 при одинаковых размерах. Изначально создавался как преемник MP3 с улучшенным качеством кодирования, но в настоящий момент распространен существенно меньше, чем MP3.

Видео (от лат. video – ≪смотрю≫, ≪вижу≫) – под этим термином понимают широкий спектр технологий записи, обработки, передачи, хранения и воспроизведения визуального и аудиовизуального материала на мониторах.

Наиболее важные характеристики видеосигнала – это количество кадров в секунду, развертка, разрешение, соотношение сторон, цветовое разрешение, ширина видео потока, качество. Рассмотрим эти характеристики по отдельности. Количество кадров в секунду (частота) – это число неподвижных изображений, сменяющих друг друга при показе 1 секунды видеоматериала и создающих эффект движения на экране. Чем больше частота кадров, тем более плавным и естественным будет казаться движение. Минимальный показатель, при котором движение будет восприниматься однородным – примерно 10 кадров в секунду (это значение индивидуально для каждого человека). Компьютерные оцифрованные видеоматериалы хорошего качества, как правило, используют частоту 30 кадров в секунду.

Развертка видеоматериала может быть прогрессивной (построчной) или чересстрочной (интерлейсинг). При прогрессивной развертке все горизонтальные линии (строки) изображения отображаются одновременно, при чересстрочной – показываются попеременно четные и нечетные строки.

Чересстрочная развертка была изобретена для показа изображения на кинескопах и используется сейчас для передачи видео по ≪узким≫ каналам, не позволяющим передавать изображение во всем качестве. Любой видеосигнал характеризуется вертикальным и горизонтальным разрешением, измеряемым в пикселах (см. выше). Обычное аналоговое телевизионное разрешение составляет 720×576 пикселей. Новый стандарт высоко отчетливого цифрового телевидения HDTV предполагает разрешения до 1920×1080 с прогрессивной разверткой.

Соотношение ширины и высоты кадра –важнейший параметр в любом видеоматериале. Старому стандарту, который предписывает соотношение сторон как 4:3, появившемуся еще в 1910 году, на смену приходит более соответствующий естественному полю зрения человека стандарт 16:9, на который сейчас ориентируется цифровое телевидение. Количество цветов и цветовое разрешение видеосигнала описывается цветовыми моделями, рассмотренными ранее. В компьютерной технике применяется в основном RGB и HSV.

Ширина видео потока или битрейт (от англ. bitrate –частота битов) – это количество обрабатываемых бит видеоинформации за секунду времени. Чем выше ширина видео потока, тем в общем лучше качество видео.

Например, для формата Video CD битрейт составляет всего примерно 1 Мбит/с, для DVD –около 5 Мбит/с, а для формата HDTV –около 10 Мбит/с. Качество видео измеряется с помощью формальных метрик, таких, как PSNR или SSIM, или с использованием субъективного сравнения с привлечением экспертов. Из современных стандартов цифрового кодирования и сжатия видеоматериалов можно выделить следующие:

• MPEG-2 – группа стандартов цифрового кодирования видео и аудио сигналов. MPEG-2 в основном используется для кодирования видео и аудио при вещании, включая спутниковое вещание и кабельное телевидение. С некоторыми модификациями этот формат также используется как стандарт для сжатия DVD.

• MPEG-4 – новый международный стандарт сжатия цифрового видео и аудио, появившийся в 1998 году. Используется для вещания (потоковое видео), записи дисков с фильмами, видео телефонии и широковещания.

Включает в себя многие функции MPEG-2 и других стандартов, добавляя такие функции, как поддержка языка виртуальной разметки VRML для показа 3D-объектов, объектно-ориентированные файлы, поддержка управления правами и разные типы интерактивного медиа.

• OggTheora – видеокодек, разработанный Фондом Xiph. Org как часть их проекта ≪Ogg≫ (целью этого проекта является интеграция видеокодека On2 VP3, аудиокодека OggVorbis и мультимедиа-контейнера Ogg в одно мультимедийное решение, наподобие MPEG-4). Полностью открытый, свободный в лицензионном отношении мультимедиа-формат.

Основная литература:1[57-63],

Дополнительная литература: 4[85-94]

Контрольные вопросы:

1. Классификация мультимедийных продуктов.

2. Компании, выпускающие мультимедийные продукты.

3. Средства разработки мультимедийных продуктов.

Наши рекомендации