Відображення рухомих зображень: відео
Методи відображення рухомих зображень в мультимедіа. Всі методи відображення рухомих зображень, записаних на плівці чи у цифровому запам’ятовуючому пристрої, базуються на інертності глядацького сприйняття, тобто затримці реакції ока на зоровий подразнювач. Наслідком цієї реакції є виникнення залишкового зображення.
Завдяки інертності глядацького сприйняття, послідовність нерухомих зображень у разі її демонстрації з певною швидкістю (з частотою зміни зображень вище так званої частоти злиття мигтінь) сприймається оком як безперервний рухомий образ. Якщо послідовні зображення відрізняються незначно, довільна плавна зміна сприйматиметься як рух елементів зображення. Частота злиття мигтінь залежить від його яскравості стосовно середовища спостереження; і складає в середньому 40 зображень (кадрів) на секунду. За меншої частоти виникає і посилюється із її зменшенням ефект мигтіння, аж до повної втрати відчуття руху і сприйняття послідовності кадрів як послідовності нерухомих зображень.
У мультимедійних технологіях існують два способи генерування рухомих зображень:у цифровій формі:
запис послідовності кадрів, що відбивають реальні зміни (рухи) у реальному світі) за допомогою відеокамери;
створення окремих кадрів (за допомогою комп’ютера чи записуючого пристрою) з нерухомими зображеннями з наступним об’єднанням їх у швидко змінну послідовність при відтворенні.
Отриманий першим способом тип даних називають відео, другим – анімацією, чи анімованими картинками. Відео - це послідовність зображень у вигляді електричних сигналів, яка може бути перетворена в послідовність кадрів на екрані дисплея для неперервного і плавного руху об’єктів. Відеосигнал - це електричний сигнал, який являє собою телевізійне зображення.
Аналогове і цифрове відео. Історично першим методом передачі відеосигнала було аналогове відео. Низькочастотний телевізійний відеосигнал є композитним, тобто являє собою результат додавання сигналу яскравості Y (Y = 0.299R + 0.587G + 0.114B), двох колірних піднесучих, модульованих сигналами колірності U (U = R - Y) і V(V = B - Y), а також синхроімпульсів, причому частоти сигналів різниць кольорів (кольорорізнісних сигналів) лежать в межах смуги спектра сигналу яскравості. Оскільки зорова система людини менш чутлива до просторових змін кольору, як до змін яскравості, кількість кольорових відліків в кожному рядку можна зменшити вдвічі без помітної втрати якості. Саме таке представлення, що позначається, як 4:2:2 (Y:U:V), використовується в телебаченні. Зворотній процес декодування: R = Y + U, B = Y + V, G = Y - 0.509U - 0.194V здійснюється в приймачі. Композитне аналогове відео комбінує всі відеокомпоненти (яскравість, колір, синхронізацію) в один сигнал, внаслідок чого має місце неточна передача кольору, недостатньо “чиста” картинка та інші втрати у якості. У відеомагнітофонах і камерах класів VHS (Video Home System) і Video-8 використовуються композитні відеосигнали, при цьому роздільна здатність обмежена 240 телевізійними рядками.
На зміну композитному відео для підвищення якості прийшло компонентне відео Y/С, в якому компонентний відеосигнал Y/С складається з двох окремих відеосигналів Y/C: Y - сигнал яскравості та синхроімпульсів, C - кольорова складова. Подальший розвиток цього формату привів до появи різних його варіацій (S-Video тощо). Такий сигнал використовується в апаратурі класу S-VHS (Super Video Home System).
У компонентному сигналі YUV різні відеокомпоненти представлені як незалежні сигнали: Y - інформація про яскравість і синхроімпульси, U і V - кольорорізнісі сигнали. Такий сигнал використовується в професійній апаратурі класу Betacam і забезпечує роздільну здатність до 500 рядків. І, нарешті, можливе RGB-представлення, за якого взагалі відсутнє кодування й модуляція, і здійснюється найбільш проста й точна передача сигналу. Подібне представлення реально використовується тільки у високоточній науковій вимірювальній апаратурі.
Існує три основні набори стандартів аналогового широкомовного телебачення, які відрізняються у першу чергу технологією кодування зображень кольорового телебачення у широкосмугові сигнали. Відеостандарт - це метод представлення кольорового телезображення у вигляді відеосигналу для його передачі по телевізійних каналах зв’язку. В стандарт входять опис формату відеосигналу, кількість кадрів в секунду, частоти горизонтальної та вертикальної розгортки, кількість рядків у кадрі, вид модуляції, спосіб кодування передачі кольорового зображення. Найстарішим є стандарт NTSC (National Television Standards Committee), який використовується в США, Японії, Тайвані, країнах Південної Америки. У більшості країн Західної Європи, Австралії, Південній Африці прийнято стандарт PAL (Phase Alternate Line), у Росії. Україні, Франції, деяких інших країнах – стандарт SECAM (Sequential Color Memory).
Згідно стандарту NTSC кожний відеокадр складається з 525 горизонтальних рядків екрану, по яких кожну 1/30 секунди проходить електронний промінь. При створенні кадру електронний промінь робить два проходи по всьому екрану. У PAL являє застосовується додавання кольору до телевізійного сигналу чорного і білого кольору, який створює на екрані 625 рядків з частотою 25 кадрів в секунду. В SECAM передбачено 625 рядків і частота кадрів 50 Гц, але у ній, на відміну від NTSC і PAL, які використовують амплітудну модуляцію, застиосовується використовує частотна модуляція сигналу.
Телебачення високої чіткості (High Definition Television, HDTV) має стати наступним кроком розвитку телебачення. Цей стандарт забезпечує 1200 рядків розділення і коефіцієнт відносної зміни по вертикалі і горизонталі 16:9. Існують три конкуруючі між собою стандарти HDTV: один розроблений в Японії, інший в Європі (обидва в форматах аналогового телебачення), і третій, в цифровому форматі – в США.
Цифрове відео – це зображення або серія зображень, інформація в яких зберігається в цифровому вигляді. Воно використовує цифрові сигнали та стандарти, що відрізняються від стандартів телебачення та аналогового відео. Цифрове відео може записуватися або безпосередньо за допомогою відеокамери, або з сигналу з відеомагнітофону чи з широкомовного телесигналу. Існуючі технології дають змогу здійснювати оцифровування як у камері, так і у комп’ютері. Якщо оцифровування та стискання виконуються за допомогою схем, вбудованих у камеру, то цифровий сигнал, чи, інакше, потік даних (data flow) подається з камери на комп’ютер у DV-форматі через швидкісний інтерфейс FireWire. Перевагою оцифровування у камері стосовно оцифровування у комп’ютері є відсутність додаткових перетворень сигналу, які виникають внаслідок шуму при передаванні аналогового сигналу за кабелем навіть на невеликі відстані та завдяки накопиченню шумів при записі на відеострічку.
Якщо оцифровування виконується на комп’ютері, то аналоговий відеосигнал у одному з стандартів широкомовного відео подається на вхід плати оцифровування зображень, у якій він перетворюється у цифрову форму та стискається, або на зовнішній пристрій, який перетворює сигнал на цифровий і пересилає результат на комп’ютер через інтерфейс FireWire.
Перший міжнародний стандарт запису цифрового відеозображення на магнітну стрічку - Digital Video Cassette (DVC) - був прийнятий у 1955 р. Цифрова камера записує і представляє оцифроване відеозображення. На стрічці розміщується до 13 Гбайт інформації. Запис проводиться за допомогою компонентного YUV-формату представлення цифрового сигналу з роздільною здатністю 500 рядків/кадр. Це відео можна вводити в комп’ютер і записувати з нього, а також переводити в аналогову форму. Цифрове відео можна редагувати окремими кадрами без втрати якості. Оцифровування такого відео здійснюється з роздільною здатністю 720´576 для Y і 360´278 для U і V. Останнім часом з'явилося багато різних цифрових форматів представлення відеосигналу.
Поява цифрового відеозапису ознаменувала початок кардинальних змін у технології виробництва телевізійних програм, дала змогу позбутися ефекту накопичення спотворень в процесі перезапису. Проте надширока смуга частот, яку займає цифровий відеосигнал, зумовила необхідність кодування і стискання цифрових відеосигналів.
Стиснення відео. Потреба у стисканні зумовлена тим, що при роботі з цифровим відеосигналом виникає необхідність обробки і зберігання дуже великих обсягів інформації: одна хвилина цифрового відеосигналу з роздільною здатністю SIF і перенесенням кольорів true color (мільйони кольорів) займає (288 x 358) пікселів ´ 24 бита ´ 25 кадрів/с ´ 60 с = 442 Мб. Оскільки частота кадрів у NTSC - 30 кадрів/с, а в PAL/SECAM - 24 кадри/с, то для запам'ятовування 1 с повнокольорового екранного відео потрібно 20-30 Mб. До того ж послідовність кадрів потрібно вивести на екран у відповідному темпі - близько 30 Mб/с. А такої швидкості передавання інформації не має жодний з існуючих зовнішніх запам'ятовуючих пристроїв. Щоб виводити на екран комп'ютера оцифроване відео, доводиться йти на зменшення обсягу переданих даних (виведення зменшеного зображення в невеликому вікні, зниження частоти кадрової розгортки до 10-15 кадрів/с, зменшення кількості біт/піксель), тобто - на погіршення якості зображення.
Здійснити компресію ТБ-сигналу можна завдяки притаманній йому надмірності: значна частина зображення довільного ТБ-кадру зазвичай припадає на ділянки, що мають постійну або мало змінну в просторі яскравість, а різкі світлові переходи і деталі малих розмірів займають невелику частку площі зображення. Коефіцієнт кореляції сусідніх елементів зображення, що описує статистичний зв'язок між яскравостями цих елементів, близький до 1. Знаючи яскравість одного елементу, можна з високою ступінню вірогідності передбачити яскравість сусіднього. Таку надмірність можна назвати просторовою надмірністю зображення.
Зображення сусідніх кадрів в телебаченні зазвичай дуже схожі один на одний, навіть при показі рухомих об'єктів. Ця передбаченість свідчить про часову надмірність зображення. У телебаченні розрізняють статистичну надмірність, надмірність за сприйняттям, структурну і спектральну надмірності.
Статистична надмірність є наслідком певних кореляційних зв'язків, наявність яких відбиває помітну залежність певних елементів зображення від їх сусідів в просторі і в часі. Під статистичною надмірністю розуміють кореляційні зв'язки між сусідніми (по вертикалі і горизонталі) відліками ТБ-сигналу. Зниження такої надмірності до певних меж оборотне.
Надмірність за сприйняттям пов'язана з особливостями зору людини, зокрема, з тим, що колірна роздільна здатність зору нижче яскравісної. Ця особливість врахована у всіх стандартних аналогових системах колірного кодування. системах мовного телебачення NTSC, PAL і SECAM колірне розділення суттєво нижче розділення за яскравістю Те саме зафіксовано в цифровому стандарті 4:2:2, де, за визначенням, дві кольорорізнісні компоненти представлені таким самим за об'ємом інформаційним масивом, що й один сигнал яскравості. Враховуючи цю особливість нашого зору зі сприйняття дрібних деталей кольорового зображення, можна у кілька разів скоротити смугу частот при передачі і кодуванні сигналів колірності.
Спектральна надмірність є наслідком занадто високої частоти дискретизації. Зокрема, прийнята ортогональна структура дискретизації ТБ-зображення в загальному випадку не є оптимальною в частотному просторі. Можна скоротити цифровий потік, що передається, якщо перетворити структуру дискретизації на іншу, яка характеризується меншим числом відліків в кадрі, наприклад, перейти від формату 4:2:2 до формату 4:2:0 або 4:2:1.
Надмірність телевізійного сигналу покладена в основу розробки методів стиснення відеосигналів. Всі алгоритми стиснення відео працюють з оцифрованим відеосигналом, який складається з послідовності растрових зображень. Можна виділити три основні підходи до стиснення цієї послідовності:
стискати кожне окреме нерухоме зображення за технологіями стиснення растрової графіки (просторове, чи внутрішньокадрове (intra-frame) стиснення);
замість запису послідовних кадрів записувати відмінності між ними (часове, чи міжкадрове (inter-frame) стиснення);
використовувати комбінацію двох перших підходів.
Просторове стиснення є звичайним стисненням нерухомих зображень, застосованим до послідовності картинок; у ньому використовуються описані раніше алгоритми стиснення без втрат і з втратами. При цьому стиснення з втратами здійснюють після закінчення всіх операцій редагування (відеомонтажу), безпосередньо перед транспортуванням відеоматеріалу за каналом зв’язку. Значна частина методів такого стиснення базується на типовому для JPEG дискретному косинусному перетворенні, яке застосовується окремо до кожної компоненти відеосигналу. Технологія стиснення відеопослідовностей шляхом стиснення за методом JPEG кожного кадру називається Motion JPEG.
Часове стиснення ґрунтується на часовій надмірності ТБ-зображення і передбачає виділення в послідовності кадрів кількох ключових кадрів. Ці кадри часто обираються з постійним інтервалом (кожний четвертий, шостий, десятий кадр тощо). Причому рішення про розмір інтервалу приймається при активації схеми стиснення. Обрані ключові кадри або не стискаються взагалі, або піддаються лише просторовому стисненню. Всі кадри між парою ключових кадрів заміняють на різницеві кадри, для яких записується лише різниця з попереднім кадром; для більшості кадрів ці різниці будуть відмінними від нуля лише для незначної частки зображення. При значних змінах кадру (монтажному склеюванні, наїзді або панорамуванні камери) автоматично обирається новий базовий кадр. Різницеві алгоритми стиснення, застосовані до комп'ютерної графіки, дають можливість реалізувати на звичайних ПЕОМ покадровий запис рисованих мультфільмів великої тривалості
При роботі з цифровим відео особливу увагу під час обрання методу стиснення звертають на коефіцієнт стиснення, який визначається як співвідношення між об’ємами стисненого і вихідного відеоматеріалів (наприклад, коефіцієнт 181:1 означає, що стиснений файл займає в 181 разів менше місця, ніж вихідний). При стисненні якість відео залежить від використаного алгоритму. Різні варіанти Motion-JPEG працюють з коефіцієнтами від 5:1 до 100:1, хоча навіть при рівні 20:1 вже важко добитись нормальної якості зображення. Для MPEG стандартним співвідношенням вважається 200:1, при цьому зберігається непогана якість відео. Крім того, якість відео дуже сильно залежить і від параметрів цифрової відеоплати, конфігурації комп’ютера і від програмного забезпечення.
Для мультимедіа найважливішим є стандарт стиснення MPEG-4, схема обробки відео у якому ґрунтується на давнішому стандарті MPEG-1, який донині застосовують у відео на компакт-дисках та у Інтернеті.
Стандарт MPEG-1 визначає схему стиснення у неявному вигляді, можна вважати, що стиснення MPEG-1 об’єднує часове стиснення за різницевими алгоритмами на основі виділення ключових І-кадрів і запису різниць у міжключових кадрах з просторовим стисненням на основі квантування і кодування частотних коефіцієнтів, отриманих після їх дискретного косинусного перетворення. Прийнятий у 1993 р., стандарт обмежував швидкість передачі даних діапазоном 150 - 225 кбайт/с.
Стандарт MPEG-4 визначає кодування мультимедійних потоків даних, що складаються з різних типів об’єктів (відео, нерухомі зображення, анімації, текстури, тривимірні моделі тощо) і пропонує спосіб відтворення сцен у приймачі інформації за окремо переданими представленнями об’єктів різних типів. Це фактично стандарт об’єктно-орієнтованого мультимедіа, за якого кожний тип об’єктів представлено оптимально. Це забезпечує можливість більшого стиснення і спрощує відтворення, оскільки кожний тип об’єкту зберігає власну сутність і притаманні йому особливості поведінки. Затверджений в 1999 р.. стандарт розроблявся як засіб передачі потокових медіа-даних і в першу чергу відеозображень по каналах з низькою пропускною здатністю (4,8 - 64 кбіт/с).
Стандарт визначає для відеооб’єктів кілька профілів (profile). Вищі профілі передбачають розділення сцени на плани: задній (фон) та передній плани, рухомі об’єкти розділені на окремі об’єкти, які можна стискати по окремості за різними методами. Об’єкти можуть бути як природними, тобто знятими з відеокамери або сканера, так і синтезованими, тобто штучно створеними засобами комп’ютерної графіки та обробки:
· нерухомий задній фон,
· відеоперсонажі, які діють на передньому плані окремо від фону,
· синтезована на основі тексту промова,
· тривимірна каркасна модель, яку можна рухати в тривимірному просторі.
Кожний об’єкт в сцені має свої властивості, які задаються за допомогою дескриптора. З об’єктів будують власне сцени. Кожна сцена має свою систему координат. Кожен об’єкт теж має свою систему координат. Об’єкти можуть бути як елементарними, так і складними. Задається сплайн (образ об’єкту) і координати переміщення.
Оптимальний для стиснення фону метод може бути неоптимальним для стиснення людини, тому «пооб’єктне» стиснення підвищує ефективність стиснення. Поділ сцени на обєкти на нижніх профілях обмежується прямокутними завершеними кадрами. Рух моделюється як векторне перетворення вихідної сцени На нижніх профілях, реалізованих у таких системах, як QuickTime та DivX, стиснення йде практично у відповідності з MPEG-1.
В MPEG-4 визначена власна мова опису об’єктів BIFS, за структурою подібна на C++. Сцена описується ієрархічною структурою, вузлами якої є об’єкти. Сцена (структура) перебудовується зі зміню (додаванням, видаленням, зміною положення) об’єктів.
Остаточне складання сцени при передаванні даних відбувається на кінцевому
пристрої - комп’ютері або відеоприставці, що дає змогу накладати на зображення різні ефекти, задавати параметри окремих об’єктів або здійснювати зворотній зв’язок. Команди користувача, на які повинен зреагувати пристрій декодування, можуть бути і складнішими - зміна точки спостереження, видалення певних об’єктів, зміна мови для конкретного персонажа, якщо це передбачено творцями продукту. Для реалізації зворотного зв’язку користувацька сторона може передавати зворотні дані на сервер.
Відеомонтаж (редагування і компонування відео). Виділяють три види відеомонтажу: лінійний; нелінійний та змішаний.
Лінійний відеомонтаж - це процес створення відеофільму з окремо відзнятих епізодів, записаних на декількох відеоплівках. Лінійний відеомонтаж здійснюється на комп’ютері за допомогою програми відеомонтажу, яка керує монтажним контролером, але аналогові відеосигнали монтуються без перетворення їх в цифрову форму. Змонтований аналоговий відеосигнал записується на відеоплівку.
Нелінійний відеомонтаж - це створення відеофільмів з використанням оцифрованого відеоматеріалу. Весь відеоматеріал в цьому випадку знаходиться на жорсткому диску, в результаті чого забезпечується довільний доступ до довільного кадру. Першим етапом є оцифровування фрагментів аналогового відео - введення їх з відеомагнітофона, відеокамери за допомогою плати нелінійного відеомонтажу та запис оцифрованого відео на жорсткий диск. При використанні цифрової відеокамери необхідність в цій операції відпадає.
При оцифровуванні аналогового сигналу PAL або SECAM оперують з сигналом формату YUV 4:2:2 з роздільною здатністю 768х576 при 25 кадрах в секунду, швидкість передачі 768´576´25´16 біт ≈ 21 Мбайт/с. Швидкість запису на диск складає близько 10 Мбайт/с. Записати такий об’єм проблематично, тому в платах нелінійного відеомонтажу використовується апаратне стиснення (кодування) цифрового відеосигналу в реальному часі переважно на базі кодеку Motion-JPEG.
Власне відеомонтаж здійснюється за допомогою відеоредактора. Швидкість нелінійного відеомонтажу залежить від швидкодії процесора та наявного обладнання. Програма має моментальний доступ до довільного кадру з точністю до кадру; є можливість включення в сценарій комп’ютерної графіки, яскравих відеоефектів та високоякісної анімації, високоякісного стереозвуку. При монтуванні програм часто потрібно, щоби одна послідовність кадрів плавно переходила в іншу, що досягається за допомогою спеціальних ефектів. За допомогою відеофільтрів можна отримати ефекти деформації послідовності кадрів (наприклад, ніби на поверхню води падає крапля), ефект замерзання. Є ефекти, які дозволяють регулювати видимість окремих шарів; можна також накладати на зображення титри (статичні або біжучі).
Готовий змонтований матеріал запускається на розрахунок – рендерінг, в результаті якого отримується відео в одному з відомих відеоформатів (наприклад, AVI). Рендерінг здійснюється або за допомогою центрального процесора чи спеціальної плати. Відформатований потік даних записується на носій (компакт-диск, жорсткий диск) у цифровому вигляді чи перетворюється у аналогову форму для запису на відеокасету.
При змішаному відеомонтажу використовуються два типи відеомонтажу одночасно: за допомогою нелінійного відеомонтажу отримують фрагменти відео в форматі AVI, які використовуються разом з відеофрагментами на стрічці. Змішаний відеомонтаж використовується при обмежених обчислювальних ресурсах або відсутнє обладнання відеомонтажу.
Формати відеофайлів. До найвідоміших відеоформатів відносять формати AVI, Quick Time Movie, MPEG, Digital Video та Compression Engine Movie.
Формат Audio Video Interleaved AVI (.avi) розроблений Microsoft для запису та відтворення синхронізованого зі звуком відео в операційній системі Windows. Формат підтримує кілька різних стандартів стиснення (компресії) відео зображення; на основі цього формату Microsoft створено два нових формати: ASF (Advanced Streaming Format) і AAF (Advanced Authoring Format).
Один з найрозповсюдженіших форматів для запису та відтворення відео – формат Quick Time Movie (.qt, .mov), розроблений Apple для комп’ютерів Mac в межах технології QuickTime. Формат підтримує кілька різних стандартів стиснення відео, в тому числі MPEG і Indeo, а також свій власний метод компресії. Сучасні версії формати є багатоплатформеними та підтримують різноманітні методи компресії звуку та відеозображення.
Для запису цифрового відео нині активно використовуються формат для запису і відтворення відео MPEG (.mpg, .mpeg, .dat), розроблений групою експертів по рухливих зображенням (MPEG) на основі оригінального алгоритму компресії, формат стиснення цифрового відео Compression Engine Movie (.cem) на базі технології хвильового перетворення та формат Digital Video (.dv), розроблений для цифрових відеокамер і відеомагнітофонів.