Лекция 1. ВОСПРОИЗВЕДЕНИЕ ИЗОБРАЖЕНИЯ ЗРИТЕЛЬНОЙ СИСТЕМОЙ.ОСНОВНЫЕ ПАРАМЕТРЫ ТЕЛЕВИЗИОННОГО ИЗОБРАЖЕНИЯ.

Лекция 1. ВОСПРОИЗВЕДЕНИЕ ИЗОБРАЖЕНИЯ ЗРИТЕЛЬНОЙ СИСТЕМОЙ.ОСНОВНЫЕ ПАРАМЕТРЫ ТЕЛЕВИЗИОННОГО ИЗОБРАЖЕНИЯ.

ЗРИТЕЛЬНАЯ СИСТЕМА

Оконечным уст­ройством, воспринимающим телевизионное изображение, является зрительная система Человека. Поэтому для рационального по­строения телевизионных систем необходимо учитывать свойства и характеристики зрения.

Зрительная система состоит из приемника светового излучения - глаза, нервных волокон, преобразующих и передающих зрительную информацию в мозг человека, и зрительных участков коры головно­го мозга, в которых происходит расшифровка информации и фор­мирование зрительных образов.

Лекция 1. ВОСПРОИЗВЕДЕНИЕ ИЗОБРАЖЕНИЯ ЗРИТЕЛЬНОЙ СИСТЕМОЙ.ОСНОВНЫЕ ПАРАМЕТРЫ ТЕЛЕВИЗИОННОГО ИЗОБРАЖЕНИЯ. - student2.ru

Рис. 1.1. Строение человеческого глаза

Глаз является внешним органом зрения. Он представляет собой тело примерно шарообразной формы (глазное яблоко) (рис. 1.1), покрытое оболочкой - склерой 1. Передняя часть склеры 2, назы­ваемая роговицей, прозрачна и имеет несколько более выпуклую форму. За роговицей расположена передняя камера 3, заполненная жидкостью. Передняя камера отделена от остальной части глаза радужной оболочкой 4, имеющей в центре отверстие - зрачок 5. Размер зрачка изменяется в зависимости от освещенности глаза. За зрачком находится хрусталик 6, представляющий собой прозрач­ное тело, форма которого напоминает двояковыпуклую линзу. С помощью мышцы, охватывающей хрусталик, кривизна последнего может меняться, фокусируя на задней стенке глаза изображения предметов, находящихся на расстоянии примерно от 10 см до бес­конечности. Такое свойство зрения называется аккомодацией. С внутренней стороны в глазное яб­локо входит зрительный нерв 7, со­стоящий из большого количества нервных волокон. Окончания нервных волокон покрывают изнутри глазное яблоко оболочкой 8, которая называ­ется сетчаткой. В зависимости от формы нервные окончания подраз­деляются на палочки и колбочки.

Колбочки обладают чувствительно­стью к свету и цвету, палочки - толь­ко к свету. Элементы изображения воспринимаются раздельно, если они проецируются на две рядом расположенные колбочки. Каждая колбочка подсоединена к отдель­ному окончанию нервных волокон. Палочки подсоединяются к окон­чаниям нервных волокон группами, они, обладая большей свето­чувствительностью, обеспечивают «сумеречное» зрение.

Центральная часть сетчатки (фовеа), называемая также желтым пятном, с угловыми размерами 1...3° содержит фактически только колбочки с плотностью до 1,5·105 на 1 мм2. Средний диаметр колбо­чек примерно равен 3 мкм. Плотность расположения колбочек зна­чительно уменьшается к краям желтого пятна, а размер их возрас­тает. Палочки имеют максимальную концентрацию 1,7·105 на 1 мм2 на расстоянии 10... 12° от оптической оси глаза. Плотность палочек уменьшается как к центру глаза, так и к периферии. В целом сетчат­ка содержит около 130 млн. палочек и 7 млн. колбочек.

В процессе зрительного наблюдения оптические оси глаз рефлекторно устанавливаются так, чтобы изображения подвергающихся рассматриванию объектов проецировались на центральную часть сетчатки, обладающую наибольшей разрешающей способностью.

Разрешающая способность зрения.Предельная способность человека видеть мелкие детали определяется разрешающей спо­собностью зрительной системы (остротой зрения). Для нормального зрения основную роль играет разрешение сетчатки. Однако опре­делить остроту зрения по характеристикам оптической системы гла­за и структуре сетчатки в полной мере нельзя, так как глаз пред­ставляет собой динамическую систему. Процесс зрения сопровож­дается непроизвольными движениями глазного яблока - тремором. Кроме того,, оптическая ось глаза обегает контуры отдельных дета­лей изображения, как бы анализируя наиболее информативные участки. Указанные движения глаза увеличивают остроту зрения по сравнению со статической (расчетной).

Статическая разрешающая способность глаза определяется ми­нимальным углом наблюдения δmin, при котором две тонкие черные линии на белом фоне различаются с заданной вероятностью (Р=0,95). На рис. 1.2 толщина черных линий равна промежутку ме­жду ними. Разрешающая способность зрительного аппарата зави­сит от яркости и цвета фона, контрастности деталей относительно фона, времени наблюдения. Измерения показали, что для нормаль­ного зрения усредненное значение δmin может быть принято равным одной угловой минуте (δmin ≈ 1ʹ). Острота зрения Sзр оценивается величиной, обратной разрешающей способности, т.е. Sзр= Лекция 1. ВОСПРОИЗВЕДЕНИЕ ИЗОБРАЖЕНИЯ ЗРИТЕЛЬНОЙ СИСТЕМОЙ.ОСНОВНЫЕ ПАРАМЕТРЫ ТЕЛЕВИЗИОННОГО ИЗОБРАЖЕНИЯ. - student2.ru . Острота зрения равна единице, если δmin = 1ʹ.

Из-за неоднородности структуры сетчатки острота зрения умень­шается по мере удаления на угол α от центра желтого пятна.

Лекция 1. ВОСПРОИЗВЕДЕНИЕ ИЗОБРАЖЕНИЯ ЗРИТЕЛЬНОЙ СИСТЕМОЙ.ОСНОВНЫЕ ПАРАМЕТРЫ ТЕЛЕВИЗИОННОГО ИЗОБРАЖЕНИЯ. - student2.ru

Рис. 1.2. К определению разрешающей способности зрения

Хотя поле зрения глаза весьма велико (порядка 120... 130°) основная зрительная информация от телевизионного изображения, поступающая в глаз, на практике ограничивается пространственными углами ясного зрения, в пределах которых среднее значение δmin можно считать равным единице. По экспериментальным данным фактические угловые размеры поля ясного зрения приняты равными 2αв = 12° по вертикали и 2αг = 16° по горизонтали.

Формат кадра. Размер ТВ изображения должен удовлетворять условиям оптимального наблюдение изображений в пространственном угле ясного зрения. Исходя из его размеров – 16х120, выбирают формат кадра = 4/3, что соответствует отношению ширины (b) экрана к высоте (h),(рис.1.3).


Лекция 1. ВОСПРОИЗВЕДЕНИЕ ИЗОБРАЖЕНИЯ ЗРИТЕЛЬНОЙ СИСТЕМОЙ.ОСНОВНЫЕ ПАРАМЕТРЫ ТЕЛЕВИЗИОННОГО ИЗОБРАЖЕНИЯ. - student2.ru
Рис.1.3. Определение числа строк (а) и вертикальной четкости изображения (б)
Принимая разрешение глаза ≈1 минуте, можно определить число регистрирующих информацию элементарных участков в поле ясного зрения:
Nя = (aг/d)(aв/d) = (160х60’/1’)(120x60’/1’) = 700 000
где aг и a в углы поля ясного зрения глаза в горизонтальной и вертикальной плоскости.
Оптимальное расстояние наблюдения (L).Экспериментально установлено, что наилучшее восприятие изображение обеспечивается при расстоянии до экрана = 4-5 высот экрана.
L = (4-5)h,
где L – расстояние до экрана (м), h- высота экрана (м).
Число элементов разложения изображения может быть определено как произведение числа элементов по горизонтали на количество элементов по вертикале (строк разложения),или с учетом формата кадра
N = k z2 = 4/3z2
где (z – число строк по вертикали, kz – число элементов в строке), и должно соответствовать числу элементарных участков поля ясного зрения. Так между элементами изображения 700 000 должны воспроизводиться еще промежутки, то число элементов по крайней мере удваивается N ³ 2Nя . Тогда число строк разложения должно быть

Лекция 1. ВОСПРОИЗВЕДЕНИЕ ИЗОБРАЖЕНИЯ ЗРИТЕЛЬНОЙ СИСТЕМОЙ.ОСНОВНЫЕ ПАРАМЕТРЫ ТЕЛЕВИЗИОННОГО ИЗОБРАЖЕНИЯ. - student2.ru

Однако из-за взаимного расположения деталей растра и строк разложения (рис.1.2) число передаваемых элементов по вертикали различно, так как в зависимости от этого в вертикальном направлении будут воспроизводится детали размером либо h/z, либо 2h/z. Это делает неоднозначную оценку четкости изображения по вертикали. Поэтому для уверенного различения в ТВ изображении 700000 деталей необходимо использовать еще большее строк разложения. В настоящее время только ТВ системы высокой четкости (ТВЧ) приближаются к этим требованиям, но для этого требуется значительное увеличение пропускной способности каналов связи. Поэтому в стандарте вещательного ТВ, разработанного в конце 40 годов у нас в стране было принято 625 строк разложения, из-за необходимости сокращения передаваемой полосы частот.
Число строк разложения 625 определяет номинальную четкостьТВ изображения при которой обеспечивается 95% максимальной четкости изображения. При этом различимость строчной структуры на оптимальном расстоянии рассматривания оказывается вблизи порога разрешающей способности глаза.

Четкость ТВ изображения определяется максимально возможным числом мелких деталей, различимых в этом изображении. Она определяется в первую очередь разрешающей способностью устройств ТВ тракта. А она в свою очередь зависит от выбранного числа элементов (или строк) разложения, от качества работы передающих и приемных электроннолучевых трубок, от частотных и фазовых характеристик усилителей и др. Воспроизводимая на экране четкость определяется в первую очередь числом элементов разложения. В существующем стандарте она в идеале равна:
kz2 = 4/3х6252 = 520832.
С учетом времени на обратный ход по строкам и кадрам »400 тыс. Но обычно для количественной характеристики четкости пользуются не количеством элементов разложения, а числом строк разложения, т.к. эти два параметра однозначно связаны. Естественно количество строк или элементов, необходимых для удовлетворительного воспроизведения изображения объекта зависит от характера объекта. Например, для передачи лица крупным планом требуется 120-150 строк, 2-3 человек в полный рост – 250-300, большого количества людей (хор, публика и т.д.) – 450-650.

1.2. ВРЕМЕННЫЕ ПАРАМЕТРЫ
Зрительное восприятие дискретно во времени. Одиночный световой импульс будет зарегистрирован глазом, если его длительность превышает определенную величину tкр. Причем эта величина зависит от освещенности сетчатки, т.е. Еtкр = const, и меняется от сотых долей секунды, при больших освещенностях, до десятых. После прекращения действия светового потока глаз как бы продолжает «видеть» источник с яркостью, спадающей по экспоненциальному закону.
Критической частотой мельканий называется минимальная частота повторения световых импульсов, при которой наблюдатель воспринимает их как непрерывное излучение. Она зависит от средней яркости поля наблюдения, размеров мелькающего участка и т.д. Для яркостей экранов современных ТВ критическая частота мельканий равна 46-48 Гц.
Опытным путем (из практики кино) установлено, что для получения плавного движения изображений движущихся объектов достаточно предавать 16-24 фазы их движения в секунду. В телевидении у нас принята частота смены кадров 50 Гц, которая перекрывает и критическую частоту мельканий (46-48), и критическое число фаз движения (16-24). Эта частота была выбрана с учетом ее равенства частоте промышленной сети с целью уменьшения заметности характерных помех от электросети – динамических искажений геометрии (искривление вертикальных краев изображения) и яркости (крупные горизонтальные светлые и темные полосы).
Но при такой частоте кадров и числе строк разложения 625 (прогрессивная развертка) -рис.1.4(а),полоса частот ТВ сигнала получается около 13 МГц, что 40-е годы заняло бы половину коротковолнового диапазона, используемого тогда для ТВ вещания. Поэтому для уменьшения требуемой полосы частот канала было решено использовать чересстрочную развертку, в которой ТВ кадр передается за 2 полукадра (поля – четного и нечетного) в каждом из которых передается половина строк (312.5),как показано на рис.1.4(б). Причем, в первом полукадре происходит развертка нечетных строк, а во втором – четных. Частота полей выбирается равной 50 Гц, а полный кадр имеет частоту 25 Гци хотя в каждом полукадре разворачивается лишь 312,5 строк, за счет инерционности зрения изображения дух полукадров воспринимается слитно как один кадр с 625 строками. При этом полоса частот канала снижается до 6.5МГц.
Лекция 1. ВОСПРОИЗВЕДЕНИЕ ИЗОБРАЖЕНИЯ ЗРИТЕЛЬНОЙ СИСТЕМОЙ.ОСНОВНЫЕ ПАРАМЕТРЫ ТЕЛЕВИЗИОННОГО ИЗОБРАЖЕНИЯ. - student2.ru

Рис.1.4. Принцип построчной (а) и через строчной развезвертки (б)

СИГНАЛА

ТЕЛЕВИДЕНИЯ

Краткий исторический очерк

Рассматривая историю создания полностью цифровых телевизионных систем, необходимо ясно представлять себе, что параллельно протекало несколько процессов:

– развитие методов сжатия видеоинформации для самых разных областей применения (телевидение, хранение и обработка графической информации на компьютерах, мультимедиа, видеотелефон и другой видеосервис и т. д.);

– разработка и утверждение стандартов на методы кодирования и сжатия видеоинформации;

– поиск путей построения систем телевизионного вещания высокого разрешения с сохранением стандартной ширины полосы радиоканала; – развитие и совершенствование элементной базы.

Первая практически реализованная система телевидения высокого разрешения MUSE, созданная в Японии в первой половине 80–х годов и доведенная до стадии достаточно массового применения, сохраняла аналоговый сигнал в канале связи. При этом в передающей части системы аналоговый телевизионный сигнал преобразовывался в цифровую форму и обрабатывался с целью уменьшения требуемой для передачи полосы частот. Затем полученный цифровой сигнал преобразовывался обратно в аналоговую форму и передавался в аналоговом виде по каналу связи. В приемной части принятый аналоговый сигнал снова преобразовывался в цифровую форму, обрабатывался для восстановления исходного количества элементов изображения, опять преобразовывался в аналоговую форму и поступал на аналоговый монитор для отображения принятого изображения.

В системе MUSE, имеющей количество строк 1125 при частоте полей 60 Гц, исходный аналоговый сигнал имел верхнюю граничную частоту около 25 МГц. Аналоговый сигнал на выходе передающей части системы имеет верхнюю граничную частоту 8,1 МГц. Это слишком много для передачи по стандартным радиоканалам наземного телевизионного вещания, имеющим в США и в Японии ширину 6 МГц, но приемлемо для передачи с ЧМ по спутниковым каналам связи, имеющим ширину полосы 27 МГц. Сходный принцип построения и параметры имеет западноевропейская система ТВ высокого разрешения HD–MAC.

Под телевизионной системой мы понимаем в первую очередь систему наземного телевизионного вещания в метровом или дециметровом диапазонах длин волн с приемом на индивидуальные или коллективные антенны или с доставкой потребителям телевизионного сигнала по кабелю в тех же частотных диапазонах. Кратко рассмотрим историю работ по созданию таких цифровых телевизионных систем.

После появления в Японии и Европе упомянутых выше систем телевидения высокого разрешения MUSE и HD–MAC в США в 1987 году был объявлен конкурс на лучший проект системы телевидения высокого разрешения для утверждения в качестве стандарта. В первые годы на этот конкурс были выдвинуты различные аналоговые системы.

Система MUSE и другие системы, предусматривающие передачу только по спутниковым каналам, вскоре были сняты с рассмотрения. Это объяснялось тем, что в США около 1400 компаний наземного телевизионного вещания и очень широко развитая сеть кабельных линий. Вся эта инфраструктура рассчитана на ширину полосы частот телевизионного канала 6 МГц.

Рассматривались проекты телевизионных систем высокого разрешения, в которых по одному стандартному каналу передается

обычный сигнал NTSC, а по другому дополнительный сигнал, который в приемнике с соответствующим декодером позволяет получить изображение с большим количеством строк и элементов разложения в строке. В то время никто не мог предположить, что через несколько лет удастся по стандартному каналу с шириной полосы 6 МГц передавать сигнал полностью цифровой системы телевидения как обычного, так и высокого разрешения.

Первые предложения по полностью цифровым системам телевидения появились в 1990 году. В основе этих проектов лежали достижения в методах и технике эффективного кодирования и сжатия изображений. Работы в этой области проводились не только с целью создания цифровых телевизионных систем, но и для таких применений, как видеотелефон и видеоконференции, запись видеопрограмм на цифровые лазерные компакт–диски, компьютерная графика, видеосредства мультимедиа и др. В результате были выработаны методы сжатия изображений, о которых шла речь в разделах 3 и 4 данного пособия.

С каждым годом возрастало количество проектов цифровых телевизионных систем и улучшались их характеристики. В начале 1993 года последние аналоговые системы были сняты с рассмотрения. В мае 1993 года 4 группы компаний и исследовательских организаций, представлявших близкие по существу проекты, объединились в «GrandAliance» и в дальнейшем представляли единый проект, который и должен стать основой стандарта полностью цифровой телевизионной системы в США. В числе создателей новой системы Массачусетский

Технологический Институт, корпорации Zenith, AT&T, GeneralInstruments, американские отделения Philips и Thomson и др.

Одновременно с разработчиками вели работу и организации, занимающиеся стандартизацией. Выше уже упоминался стандарт JPEG, определяющий методы и параметры кодирования неподвижных изображений. Для разработки стандартов кодирования движущихся изображений Международной организацией стандартизации (ISO) была создана рабочая группа MPEG (MotionPictureExpertsGroup – Группа Экспертов по Движущимся Изображениям). В результате ее работы был принят стандарт MPEG–1, определяющий методы кодирования движущихся изображений для запоминания в ЗУ компьютеров, в том числе на лазерных дисках CD–ROM.

В ноябре 1993 года был принят стандарт MPEG–2, предназначенный уже для телевизионного вещания и учитывающий особенности чересстрочной развертки. Следует отметить, что MPEG–2 – это не стандарт телевизионной системы, а только стандарт метода кодирования телевизионного изображения. Стандарт на систему в целом должен включать еще метод канального кодирования и модуляции несущей и ряд других параметров. Некоторые важные особенности MPEG–2 будут рассмотрены в дальнейшем изложении.

В 1994 году прошли успешные испытания оборудования цифровой телевизионной системы. В настоящее время и в Японии, и в Западной Европе ведутся работы в таком же направлении, так как признано, что полностью цифровые телевизионные системы более перспективны, чем гибридные MUSE и HD–MAC.

В нашей стране работы по цифровому телевидению ведутся в МТУСИ (бывший МЭИС), а также в ряде других высших учебных заведений и научно–исследовательских организаций.

Стандарт MPEG-4

MPEG-4 является стандартом разработанным комитетом MPEG. MPEG-4 является результатом работы сотен исследователей и разработчиков всего мира. Разработка MPEG-4 была завершена в октябре 1998 г. Международным стандартом он стал в начале 1999 г. Полностью совместимый расширенный вариант MPEG-4 версии 2 был разработан к концу 1999 г. и стал международным стандартом в начале 2000 г. Работы над этим документом продолжаются. MPEG-4 предназначен для решения трех проблем:

цифровое телевидение;

интерактивные графические приложения (syntheticcontent);

интерактивное мультимедиа WorldWideWeb.

Применение стандарта MPEG-4

Стандарт MPEG-4 предоставляет технологии для нужд разработчиков, сервис-провайдеров и конечных пользователей.

Для разработчиков MPEG-4 позволяет создавать объекты, которые обладают большей адаптивностью и гибкостью, чем это возможно сейчас с использованием разнообразных технологий, таких как цифровое телевидение, анимационная графика WWW и их расширения. Новый стандарт дает возможность лучше управлять содержимым и защищать авторские права.

Для сетевых провайдеров MPEG-4 предлагает прозрачность данных, которые могут интерпретироваться и преобразовываться в приемлемые сигнальные сообщения для любой сети посредством стандартных процедур. MPEG-4 предлагает индивидуальные QoS-дескрипторы (QualityofService) для различных сред. Передача QoS-дескрипторов MPEG-4 по схеме точка-точка оптимизирует транспортировку данных в гетерогенных средах.

Для конечных пользователей MPEG-4 предлагает более высокий уровень взаимодействия с содержимым объектов. Стандарт для транспортировки мультимедиа через новые сети, включая те, которые имеют низкую пропускную способностью, например мобильные.

Составные части стандарта MPEG-4:

представляет блоки звуковой, визуальной и аудио-визуальной информации, называемые "медийными объектами". Эти медийные объекты могут быть естественного или искусственного происхождения; то есть они могут быть записаны с помощью камеры или микрофона, а могут быть и сформированы посредством ЭВМ;

описывает композицию этих объектов при создании составных медийных объектов, которые образуют аудио-визуальные сцены;

определяет мультиплексирование и синхронизацию данных, ассоциированных с медийными объектами, так, чтобы они могли быть переданы через сетевые каналы, обеспечивая QoS, приемлемое для природы специфических медийных объектов;

определяет взаимодействие с аудио-визуальной сценой, сформированной на принимающей стороне.

Кодированное представление медийных объектов

Аудио-визуальные сцены MPEG-4 формируются из нескольких медийных объектов, организованных иерархически. На периферии иерархии находятся примитивные медийные объекты, такие как:

статические изображения (например, фон изображения);

видеообъекты (например, говорящее лицо — без фона);

аудиообъекты (например, голос данного лица);

и т.д.

MPEG-4 стандартизует число таких примитивных медиа-объектов, способных представлять как естественные, так и синтетические типы содержимого, которые могут быть 2- или 3-мерными. Кроме медиа-объектов, упомянутых выше и показанных на рис. 8.1, MPEG-4 определяет кодовое представление объектов, такое как:

текст и графика;

говорящие синтезированные головы и ассоциированный текст, использованный для синтеза речи и анимации головы;

синтезированный звук.

Медиа-объект в его кодированной форме состоит из описательных элементов, которые позволяют обрабатывать его в аудио-визуальной сцене, а также, если необходимо, ассоциировать с ним поток данных. Важно заметить, что кодированная форма каждого медиа-объекта может быть представлена независимо от его окружения или фона.

Кодовое представление медиа-объектов максимально эффективно с точки зрения получения необходимой функциональности. Примерами такой функциональности являются разумная обработка ошибок, легкое извлечение и редактирование объектов и представление объектов в масштабируемой форме.

Состав медийных объектов

На рис. 8.1 объясняется способ описания аудио-визуальных сцен в MPEG-4, состоящих из отдельных объектов. Рисунок содержит составные медиа-объекты, которые объединяют примитивные медиа-объекты. Примитивные медиа-объекты соответствуют периферии описательного дерева, в то время как составные медиа-объекты представляют собой субдеревья. В качестве примера: визуальные объекты, соответствующие говорящему человеку, и его голос объединены друг с другом, образуя новый составной медиа-объект.

Такое группирование позволяет разработчикам создавать комплексные сцены, а пользователям манипулировать отдельными объектами или группами таких объектов.

MPEG-4 предлагает стандартизованный путь описания сцен, позволяющий:

помещать медиа-объекты где угодно в заданной координатной системе;

применять преобразования для изменения геометрического или акустического вида медиа-объекта;

группировать примитивные медиа-объекты, для того чтобы образовать составные медиа-объекты;

использовать потоки данных, чтобы видоизменять атрибуты медиа-объектов (например звук, движущуюся текстуру, принадлежащую объекту; параметры анимации, управляющие синтетическим лицом);

интерактивно изменять точку присутствия пользователя на сцене (его точку наблюдения и прослушивания).

Лекция 1. ВОСПРОИЗВЕДЕНИЕ ИЗОБРАЖЕНИЯ ЗРИТЕЛЬНОЙ СИСТЕМОЙ.ОСНОВНЫЕ ПАРАМЕТРЫ ТЕЛЕВИЗИОННОГО ИЗОБРАЖЕНИЯ. - student2.ru

Рис. 8.1. Пример сцены MPEG-4

Описание сцены строится во многих отношениях так же, как и в языке моделирования виртуальной реальности VRML (VirtualRealityModelingLanguage).

Описание и синхронизация потоков данных для медийных объектов

Медиа-объектам может быть нужен поток данных, который преобразуется в один или несколько элементарных потоков. Дескриптор объекта идентифицирует все потоки, ассоциированные с медиа-объектом. Это позволяет иерархически обрабатывать кодированные данные, а также ассоциированную медиа-информацию о содержимом (называемом "информация содержимого объекта").

Каждый поток характеризуется набором дескрипторов для конфигурирования информации, например, чтобы определить необходимые ресурсы записывающего устройства и точность кодированной временной информации. Более того, дескрипторы могут содержать подсказки относительно QoS, которое необходимо для передачи (например, максимальное число бит/с, BER, приоритет и т.д.)

Синхронизация элементарных потоков осуществляется за счет временных меток блоков данных в пределах элементарных потоков. Уровень синхронизации управляет идентификацией таких блоков данных (модулей доступа) и работой с временными метками. Независимо от типа среды этот слой позволяет идентифицировать тип модуля доступа (например, видео- или аудиокадры, команды описания сцены) в элементарных потоках, восстанавливать временную базу медиа-объекта или описания сцены, и осуществлять их синхронизацию. Синтаксис этого слоя конфигурируется самыми разными способами, обеспечивая работу с широким спектром систем.

Взаимодействие с медийными объектами

Пользователь видит сцену, которая сформирована согласно дизайну разработчика. В зависимости от степени свободы, предоставленной разработчиком, пользователь имеет возможность взаимодействовать со сценой. Пользователю могут быть разрешены следующие операции:

изменить точку наблюдения/слушания на сцене;

перемещать объекты по сцене;

вызывать последовательность событий путем нажатия кнопки мыши на определенных объектах, например, запуская или останавливая поток данных;

выбирать предпочтительный язык, когда такой выбор возможен.

Аудиосистема

MPEG-4 аудио предлагает широкий перечень приложений, которые покрывают область от понятной речи до высококачественного многоканального аудио и от естественных до синтетических звуков. В частности, он поддерживает высокоэффективную презентацию аудиообъектов, включая:

* Речь. Кодирование речи может производиться при скоростях обмена от 2 Кбит/с до 24 Кбит/с.;

* Синтезированная речь. TTS-кодировщики позволяют использовать текст или текст с интонационными параметрами (вариация тона, длительность фонемы, и т.д.), в качестве входных данных для генерации синтетической речи. Это включает следующие функции:

синтез речи с использованием интонации оригинальной речи;

управление синхронизацией губ и фонемной информации;

трюковые возможности: пауза, возобновление, переход вперед/назад;

международный язык и поддержка диалектов для текста;

поддержка спецификации возраста, пола, темпа речи говорящего;

поддержка передачи меток анимационных параметров лица FAP (facialanimationparameter).

* Общие аудиосигналы. Поддержка общей кодировки аудиопотоков от низких скоростей до высококачественных.

* Синтезированный звук. Поддержка синтезированного звука осуществляется декодером структурированного звука (StructuredAudioDecoder), который позволяет использовать управление музыкальными инструментами с привлечением специального языка описания.

* Синтетический звук с ограниченной сложностью. Реализуется структурируемым аудиодекодером, который позволяет работать со стандартными волновыми форматами.

Видеосистема

Стандарт MPEG-4 Видео допускает гибридное кодирование естественных (пиксельных) изображений и видео вместе с синтезированными сценами (генерированными на ЭВМ). Например, возможно создать виртуальное присутствие участников видеоконференций. Видеостандарт содержит в себе средства и алгоритмы, поддерживающие кодирование естественных (пиксельных) статических изображений и видеопоследовательностей, а также средства поддержки сжатия искусственных 2D- и 3D- графических геометрических параметров.

Часть стандарта, связанная с "анимацией лица", позволяет посылать параметры, которые помогают специфицировать и анимировать синтезированные лица. Эти модели не являются сами частью стандарта MPEG-4, стандартизированы только параметры.

Определение и кодирование анимационных параметров лица (модельно независимое).

Позиции характерных деталей и их ориентация для определения сеток при анимации лица.

Визуальные конфигурации губ, соответствующие фонемам речи.

Определение и кодирование параметров описания лица (для калибровки модели).

3D-позиции характерных признаков (деталей).

3D-калибровочные сетки для анимации головы.

Текстурная карта лица.

Персональные характеристики.

Кодирование лицевой текстуры.

Версия 2 MPEG-4

Версия 2 MPEG-4 была зафиксирована в декабре 1999 года. Существующие средства и профайлы из версии 1 в версии 2 не заменены; новые возможности добавлены в MPEG-4 в форме новых профайлов. Системный слой версии 2 обладает обратной совместимостью с версией 1.

Версия 2 систем MPEG-4 расширяет версию 1, с тем чтобы перекрыть такие области, как BIFS-функциональность и поддержка Java( MPEG-J ).

8.2. Стандарт кодированного представления визуальной информации Н.264/AVC или MPEG-4 Part 10

H.264 – это открытый, лицензированный стандарт созданный на основе и с поддержкой эффективных на сегодняшний день технологий сжатия видеоизображения. Кодер H.264 без ущерба для качества изображения способен снизить размер цифрового видеофайла более чем на 80% по сравнению с форматом MJPEG и на 50% по сравнению с MPEG-4 Part 2, что означает гораздо меньшие требования к полосе пропускания и объему архивного пространства при том же качестве картинки или наоборот, гораздо более высокое качество картинки при использовании тех же ресурсов.

Пpoшедшийкoллективнoеутвеpждениеcocтopoныopгaнизaцийпocтaндapтизaции в oблacтителекoммуникaциoнныx и инфopмaциoнныxтеxнoлoгий, H.264 пoлучилшиpoкoерacпpocтpaнение.

H.264 пoявилcя в тaкиxнoвыxэлектpoнныxуcтpoйcтвax, кaкмoбильныетелефoны и цифpoвыевидеoплееpы, и cpaзузaвoевaлпpизнaниеcocтopoныкoнечныxпoльзoвaтелей. Пpoвaйдеpыpaзличныxуcлуг, тaкиекaкoнлaйн-xpaнилищaвидеoмaтеpиaлoв и телекoммуникaциoнныекoмпaниитaкжеиcпoльзуют H.264.

Рaзpaбoткacтaндapтa H.264

H.264 являетcяpезультaтoмcoвмеcтнoгoпpoектaгpуппыэкcпеpтoвпoкoдиpoвaниювидеo ITU-T и гpуппыэкcпеpтoвпoвoпpocaмкинoтеxники ISO/IEC (MPEG). Нaзвaние H.264 иcпoльзуетcяcocтopoны ITU-T, в тoвpемякaк ISO/IEC дaлиcтaндapтунaзвaние MPEG-4 Part 10/AVC, пocкoлькуoнпpедcтaвляетcoбoйнoвый элемент в иxпaкете MPEG-4. В пaкет MPEG-4, к пpимеpу, вxoдит и MPEG-4 Part 2 – cтaндapт, пpименяемый в видеoкoдеpax и cетевыxкaмеpaxнaбaзе IP-cиcтем.

H.264, paзpaбoтaнный для иcпpaвлениянекoтopыxнедocтaткoв в пpедыдущиxcтaндapтaxcжaтиявидеoизoбpaжений, дocтигaетcвoиx целей блaгoдapя:

· улучшениям, пoзвoляющимcнизитьcкopocтьпеpедaчидaнныx в cpеднемнa 50%, и пpедлaгaющимитaкoекaчеcтвoнепoдвижнoгoвидеoизoбpaжения, кoтopoеcpaвнимo c любым дpугимвидеocтaндapтoм

· уcтoйчивocти к oшибкaм, кoтopaяпoзвoляетвocпpoизвoдитьизoбpaжениенеcмoтpянaoшибкипpипеpедaчедaнныxпopaзличнымcетям

· низкoмууpoвнюзaдеpжки и пoлучениюлучшегoкaчеcтвaпpибoлеевыcoкoмуpoвнезaдеpжки

· пpocтoйcтpуктуpеcинтaкcиca, кoтopaяупpoщaетвнедpениеcтaндapтa

· декoдиpoвaниюнaocнoветoчнoгocoвпaдения, пpикoтopoмoпpеделяетcятoчнoекoличеcтвoчиcлoвыxpacчетoв, пpoизвoдимыxкoдеpoм и декoдеpoм, чтoпoзвoляетизбежaтьпoявлениянaкaпливaющиxcяoшибoк

Основные механизмы кодирования, используемые в стандарте Н.264

Диапазон битовых скоростей и размеров изображений, поддерживаемых стандартом Н.264/AVC, весьма широк. Возможности его видеокодирования простираются от малых битовых скоростей и малой частоты кадров с разрешением видеокадра типа «почтовая марка» для мобильной телефонии и способов передачи по обычным телефонным линиям до телевидения высокой четкости (HDTV).

По ходу разработки стандарта Н.264/AVC было применено много новых технических приемов и усовершенствований. Например, была повышена эффективность кодирования по многим параметрам и улучшены алгоритмы предсказания, а именно:

· компенсация движения на основе малых блоков;

· точность в четверть пикселя при компенсации движения;

· векторы движения, выходящие за границы кадров;

· компенсация движения изображения со многими ссылочными кадрами;

· использование порядка ссылочных кадров, отличного от хронологического порядка кадров;

· разделение метода представления кадров и возможности использования снимков для ссылок;

· взвешенное предсказание;

· улучшенный «пропущенный» и «прямой» вывод движения;

· направленное пространственное предсказание для внутреннего кодирования;

· деблокирующее фильтрование внутри цикла.

В дополнение к методам улучшенного предсказания в целях повышения эффективности кодирования были также усилены другие стороны конструкции стандарта. К наиболее важным относятся следующие моменты:

· преобразование малых размеров блоков;

· иерархическое преобразование блока;

· преобразование коротких длин слов;

· преобразование по точному совпадению;

· арифметическое энтропийное кодирование;

· контекстно-адаптивное энтропийное кодирование.

Кодек стандарта Н.264

Как и в предыдущих стандартах компрессии рекомендация Н.264 не дает конкретного описания «кодека» (то есть пары Кодер/Декодер). Вместо этого делается описание синтаксиса закодированного битового видеопотока вместе с методом его декодирования. Фактически, на практике реальные кодер и декодер будут состоять из функциональных элементов, показанных на рис. 8.2 и 8.3. За исключением деблокирующего фильтра большинство функциональных элементов (устройства прогноза, преобразования, квантования, энтропийного кодирования) присутствовали и в предыдущих стандартах (MPEG-2, MPEG-4). Однако, в стандарте Н.264 осуществлена существенная переработка всех функциональных элементов.

Лекция 1. ВОСПРОИЗВЕДЕНИЕ ИЗОБРАЖЕНИЯ ЗРИТЕЛЬНОЙ СИСТЕМОЙ.ОСНОВНЫЕ ПАРАМЕТРЫ ТЕЛЕВИЗИОННОГО ИЗОБРАЖЕНИЯ. - student2.ru

Рис. 8.2. Функциональная схема кодирующего устройства стандарта Н.264

Лекция 1. ВОСПРОИЗВЕДЕНИЕ ИЗОБРАЖЕНИЯ ЗРИТЕЛЬНОЙ СИСТЕМОЙ.ОСНОВНЫЕ ПАРАМЕТРЫ ТЕЛЕВИЗИОННОГО ИЗОБРАЖЕНИЯ. - student2.ru

Рис. 8.3. Функциональная схема декодирующего устройства стандарта Н.264

Кодер (см. рис. 8.2) имеет два направления потоков данных: прямое (слева направо) и реконструированное (справа налево). Поток данных в декодере (см. рис. 8.3) изображен в направлении справа налево для того, чтобы подчеркнуть его схожесть с потоком данных кодера.

Рассмотрим прямое направление потока данных в кодере. Входной кадр или полукадр Fn обрабатывается единицами макроблоков. Каждый макроблок кодируется в моде intra или inter, и для каждого блока макроблока, то есть подмакроблока, формируется прогноз PRED на основе реконструкции пикселей изображения (снимка). В моде intra прогноз PRED формируется с помощью пикселей текущего слоя, ранее закодированных, декодированных и реконструированных ( Лекция 1. ВОСПРОИЗВЕДЕНИЕ ИЗОБРАЖЕНИЯ ЗРИТЕЛЬНОЙ СИСТЕМОЙ.ОСНОВНЫЕ ПАРАМЕТРЫ ТЕЛЕВИЗИОННОГО ИЗОБРАЖЕНИЯ. - student2.ru ). При формировании прогноза PRED используются нефильтрованные элементы изображения. В моде inter прогноз PRED строится с помощью компенсации движения по одному или двум ссылочным кадрам. Ссылочный кадр берется в виде ранее закодированного снимка Лекция 1. ВОСПРОИЗВЕДЕНИЕ ИЗОБРАЖЕНИЯ ЗРИТЕЛЬНОЙ СИСТЕМОЙ.ОСНОВНЫЕ ПАРАМЕТРЫ ТЕЛЕВИЗИОННОГО ИЗОБРАЖЕНИЯ. - student2.ru , а ссылочный прогноз для каждой части макроблока (в моде inter) может быть взят из прошлых или будущих снимков (в порядке их отображения на телевизионном экране), которые уже были закодированы ранее, реконструированы и отфильтрованы.

Прогноз PRED вычитается из текущего блока, и их разность, которую для удобства назовем остатком, обозначается символом Dn. Далее, после блока Dn к остатку применяется соответствующее преобразование, результат квантуется, и создается блок x. Полученное множество квантованных коэффициентов переупорядочивается и кодируется энтропийным кодером. Выходные коэффициенты энтропийного кодера вместе с некоторой дополнительной информацией, необходимой при декодировании каждого блока данного макроблока (мода прогноза, параметры квантовате

Наши рекомендации