Принцип формирования аналогового видеоизображения
В большинстве случаев источником сигнала для устройства оцифровки является видеокамера. Она выполняет практически всю работу считывающей головки сканера. Точно так же, как сканер, она разлагает изображение на отдельные точки и определяет их яркость, а в случае цветных камер еще и информацию о цвете отдельных точек изображения. После этого собранная таким образом информация об изображении преобразуется в стандартизованный видеосигнал.
Технически исходят из того, что изображение, как и в сканере, проецируется через оптику на небольшой полупроводниковый прибор (рис.9.1).
Этот полупроводниковый прибор называется «прибор с зарядовой связью» (ПЗС). Камеры, оснащенные подобным светочувствительным устройством, соответственно называют «ПЗС-камеры».Они уже полностью вытеснили бытовые видеокамеры первого поколения на вакуумных передающих трубках (видиконах). ПЗС — интегральная схема высокой степени интеграции, в которой на одном кристаллике кремния размером всего несколько квадратных миллиметров содержится более 400000 светочувствительных элементов. Обычно прибор имеет размер 0,5 дюйма (около 1,27 мм), и его поверхность разделена на 581 строку, каждая из которых содержит по 756 светочувствительных элементов. Таким образом, ПЗС представляет собой матрицу светочувствительных элементов. При проецировании изображения на эту матрицу происходит его разложение на отдельные точки (элементы).
Принцип работы светочувствительного элемента иллюстрирует рис.9.2. К светочувствительному элементу ПЗС прикладывается напряжение, которое вызывает образование в слое кремния под электродом потенциальной ямы, в которую из светочувствительного окисного слоя могут диффундировать электроны. Скорость, с которой электроны попадают в потенциальную яму, зависит от интенсивности света, освещающего окисный слой светочувствительного элемента. Элемент ПЗС ведет себя при этом как конденсатор, который в зависимости от падающего света заряжается в большей или меньшей степени. Через периодические промежутки времени эти миниатюрные конденсаторы разряжаются, и производится измерение величины заряда, который накопился в фазе заряда. За счет сложных соединений внутри интегральной схемы ПЗС можно определить величину заряда каждого светочувствительного элемента и, таким образом, раздельно определить яркость всех точек изображения.
В цветных камерах, предназначенных для бытового применения, с помощью дополнительных светофильтров обеспечивается раздельное попадание красной, зеленой и синей составляющих падающего света на соответствующие светочувствительные элементы. Это позволяет, имея всего один кристалл ПЗС, измерить интенсивности составляющих всех трех цветов.
В профессиональных видеокамерах свет раскладывается призмой на красную, зеленую и синюю составляющие, которые затем проецируются на три отдельных ПЗС-матрицы. За счет этого достигается значительно лучшее разделение и измерение цветовой информации. Такие камеры называют RGB-камерами, так как
они имеют отдельные выходы для сигналов красной, зеленой и синей составляющих. Высококачественные видео-АЦП рассчитаны
на непосредственную подачу этих сигналов, что исключает необходимость преобразования информации об изображении в стандартизованный видеосигнал и связанные с этим потери качества. Кроме того, в RGB-камерах
значительно слабее проявляется муар-эффект и обеспечивается лучшая цветопередача. Однако их стоимость во много раз превосходит стоимость бытовых видеокамер.
Из сравнения видеоизображений видно, что качество оцифровки зависит от типа видеосигнала. При использовании компонентного видеосигнала достигается лучший результат, чем в случае композитного. Поэтому рассмотрим подробнее, как информация об изображении попадает с камеры на видео-АЦП.
ПЗС предоставляет информацию о яркости (непосредственно) и цветности (косвенно) отдельных элементов изображения. Если не используется RGB-камера, то эту информацию необходимо перед передачей на видео-АЦП преобразовывать в стандартизованный видеосигнал. Здесь мы будем рассматривать только стандарты PAL и МККР. В этих стандартах жестко определено, из какого максимального числа элементов может состоять изображение, как кодируется информация о цветности и яркости и сколько кадров в секунду должно передаваться.
Снятый видеокамерой фильм обычно просматривают на экране телевизионного приемника. При этом устройством отображения служит электронно-лучевая трубка — кинескоп. Кинескоп представляет собой стеклянную колбу, из которой откачен воздух. На переднюю поверхность кинескопа нанесен слой люминофора, а в задней части расположен прожектор (рис.9.3 вверху).
Электронный прожектор формирует электронный луч, который управляется посредством нескольких отклоняющих катушек и, перемещаясь из верхнего левого угла экрана в правый нижний, прочерчивает горизонтальные строки в слое люминофора.
Как показано на рисунке, электронный луч в телевизионных приемниках начинает свое движение не так, как в компьютерных мониторах, из левого верхнего угла, а с середины первой строки. Когда электронный луч достигает правого конца строки, его необходимо перевести к левому концу следующей строки. Поскольку на это требуется определенное время, электронный луч во время такого движения, которое называется обратным ходом горизонтальной развертки, отключается. В противном случае во время движения луча в обратном направлении на изображении возникали бы помехи. Когда электронный луч достигает последней строки, он также отключается и возвращается к первой строке (обратный ход вертикальной развертки).
За счет энергии электронного луча происходит возбуждение люминофора кинескопа и излучение света. Длительность и яркость свечения зависит как от типа люминофора, так и от интенсивности электронного луча. Если во время движения электронного луча по слою люминофора изменять его интенсивность, на экране трубки можно получить последовательность точек различной яркости. По этому принципу работают черно-белые телевизионные приемники и монохромные мониторы.
В случае цветных экранов дело обстоит несколько сложнее, так как здесь каждая точка изображения образуется красной, зеленой и синей цветными точками. Поэтому цветные кинескопы имеют три электронных прожектора, по одному для красных, зеленых и синих цветных точек люминофора, лучи которых перемещаются по экрану параллельно.
Телевизионные стандарты и пределы качества видеоизображений. Телевизионное изображение в соответствии со стандартом PAL состоит из 625 строк. Из них 575 строк используются для получения видимого изображения. Остальные 50 строк частично используются для передачи телетекста.
Таким образом, из 625 строк телевизионного изображения информацию об изображении содержат только 575 строк. В дальнейшем будем исходить из числа строк равному 625, поскольку это позволяет определить максимально возможное разрешение изображения. При этом всегда нужно помнить, что реально в системе PAL для передачи изображения выделяется только 575 строк.
Проанализируем вначале, какие требования необходимо предъявить к телевизионному приемнику для получения движущихся изображений хорошего качества. Как и в кинофильме, в телевизионном изображении впечатление движения создается за счет того, что последовательность быстро сменяемых кадров показывает отдельные фазы движения. Имеется две причины, по которым число кадров в секунду не должно быть меньше определенного значения. Во-первых, частота кадросмен должна быть достаточно высокой, чтобы создавалось впечатление непрерывного движения. Во-вторых, необходимо максимально подавлять мелькания изображения. Исследования показали, что оба условия выполняются при демонстрации кадров с частотой не менее 50 в секунду. Частота кадросмен, называемая также частотой вертикальной развертки, должна, таким образом, составлять не менее 50 Гц. Почти такая же частота используется в кинематографии, где в секунду по два раза показываются 24 кадра.
Кадровая частота автоматически определяет число строк, которые за одну секунду должен прочертить электронный луч. Эта величина, называемая частотой строк, или частотой горизонтальной раз вертки изображения, чрезвычайно важна, так как она решающим образом влияет на характеристики составляющих видеосигнала. Чем быстрее необходимо перемещать электронный луч по экрану, чем выше требования, предъявляемые к качеству декодирующих и управляющих электронных схем, тем больше соответственно технические затраты и, в итоге, цена. Таким образом, частота строк определяет количество строк, прочерчиваемых лучом за одну секунду, а частота кадров соответствует числу кадросмен в секунду
С точки зрения телевизионной техники это означает, что телевизионные изображения для создания полного впечатления об изображении должны передаваться с частотой 50 х 652 = 31250 строк в секунду, или 31, 25 кГц и приниматься телевизионным приемником. Такой поток данных во времена принятия телевизионного стандарта был связан с большими техническими затратами. Поэтому было принято решение передавать телевизионные изображения не как полные кадры, состоящие из 625 строк, а как поля (полукадры), содержащие по 312,5 строк. Они отображаются на экране с перемежением (метод чересстрочного разложения; см. рис.9.3 внизу и рис.9.5).
Первое поле содержит информацию о нечетных строках изображения. Поэтому вначале каждая вторая строка остается пустой. Эти строки прочерчиваются лучом при его следующем проходе по экрану во втором поле, которое содержит информацию о четных строках. Благодаря такому методу удалось вдвое сократить количество видеоинформации, которую необходимо передавать и обрабатывать в единицу времени. Таким образом, телевизионные изображения при чересстрочном методе разложения представляются в виде последовательности полей. В секунду передается 50 полей.
Метод чересстрочного разложения не оказывает существенного влияния на качество телевизионного изображения, поскольку здесь, как правило, передаются подвижные изображения. В связи с тем, что каждый новый кадр отличается от предыдущего, не так уж важно, передаются ли полные кадры или поля. При передаче неподвижных изображений, таких как, например, телетекст, компромисс между техническими затратами и качеством изоб ражения становится явно заметным. Технически чрезвычайно трудно разместить строки одного поля между строками другого. Поэтому наклонные линии всегда получаются несколько зигзагообразными, а изображение в целом кажется нерезким.
Чересстрочный метод разложения порождает специфические проблемы при преобразовании динамичного видеоизображения в цифровую форму. Поскольку каждый полный кадр состоит из двух полей, сдвинутых по времени на 1/50 секунды, подвижные сцены не удается воспринимать без искажений с максимально возможным разрешением (575 строк). Например, в фильме человек поднимает руку, то за 1/50 секунды (время, которое проходит между двумя полями) рука смещается на какую-то величину. Если производить оцифровку полного кадра, то рука в первом поле окажется в несколько другом месте, чем во втором. В результате поля совмещаются неполностью и изображение получается нерезким. С этим вы, безусловно, встречались, пользуясь режимом «стоп-кадр» в старых моделях видеомагнитофонов.
Поскольку телевизионные изображения передаются по полям, при подвижных сценах только поля можно преобразовывать в цифровую форму без нарушения совмещения. Вследствие этого максимальное разрешение по вертикали уменьшается до 286 строк. Если в видео-АЦП в режиме оцифровки полей соответствующая коррекция автоматически не вводится, потребуется уменьшить наполовину и разрешение по горизонтали, поскольку в противном случае изображение при воспроизведении окажется растянутым в ширину. Обычное разрешение оцифрованного поля при этом составляет приблизительно 380 х 286 элементов. В то время как уменьшение наполовину разрешения по вертикали означает потерю качества, уменьшение разрешения по горизонтали зависит от характеристик составляющих видеосигнала. Рассмотрим это подробнее. Исследуем вначале, с каким максимальным разрешением можно произвести съемку и передачу неподвижного изображения, если отвлечься от вышеописанных проблем, связанных с передачей полей.
Ограничивающим фактором разрешения по вертикали является телевизионный стандарт, в котором определено, что полный кадр состоит из 625 строк. Максимальное разрешение телевизионного изображения в направлении оси Y составляет при этом 625 строк. Каково же горизонтальное разрешение? Ответ на этот вопрос также достаточно прост. В составляющих видеосигнала ограничение разрешения по вертикали автоматически приводит и к ограничению разрешения по горизонтали, так как нет смысла иметь лучшее разрешение по оси X, чем по оси Y. Предельное разрешение по оси Х определяется форматом кадра (отношением его ширины к высоте), который в современных телевизионных устройствах составляет 4:3. Максимальное горизонтальное разрешение составляет при этом 625 х 4/3 = около 833 элементов. Если учитывать только 575 видимых строк изображения, то максимальное горизонтальное разрешение снизится до 767 элементов.
Теперь мы знаем, что составляющие видеосигнала могут давать изображения различного качества. Поскольку вертикальное разрешение обусловлено стандартом и не допускает изменения, причины различия качества, очевидно, должны быть связаны с неодинаковым разрешением по горизонтали. Именно это и происходит на практике. Все видеокамеры и видеомагнитофоны обеспечивают получение изображений с одинаковым разрешением по вертикали — 575 (625 строк), причем кадры составляются из пар полей. По горизонтальному разрешению, то есть по числу элементов изображения, образующих одну строку, видеоустройства различаются очень сильно. Чтобы понять причины этого, нам придется еще глубже ознакомиться с основами телевизионной техники.
В телевизионной технике разрешение устройства обычно указывается в мегагерцах (МГц). Эта величина всегда относится к разрешению по горизонтали, поскольку разрешение по вертикали жестко определено стандартом. Она указывает, сколько перепадов яркости может распознать или передать данное видеоустройство Такой перепад яркости называют также линией. Одна линия — это минимальная разрешаемая деталь изображения. Она состоит из двух точек изображения, имеющих различные градации яркости.
Использование линий в качестве единицы измерения разрешения составляющих видеосигнала кажется на первый взгляд непривычным. Однако этот способ оказывается удобным при кодировании информации об изображении в видеосигнале. Обратимся к рис.9.6.
Слева внизу изображен сигнал, соответствующий равномерному светлому полю изображения. Очевидно, что такое изображение характеризуется неизменной величиной видеосигнала. При наличии линий различной яркости амплитуда видеосигнала при построении такого изображения должна изменяться. Это показано на рисунке внизу справа. Видеосигнал имеет здесь шесть скачков амплитуды. Отсюда ясно, что число скачков амплитуды должно увеличиваться с ростом числа деталей в изображении. Чем больше отображаемое число линий, тем более высокочастотым является видеосигнал. Ясно, что здесь имеется прямая зависимость между значениями разрешения в мегагерцах и линиях. Если ограничить верхнюю частоту видеосигнала,
то ограничивается и максимальное число отображаемых перепадов яркости, а следовательно и разрешение изображения.
Поскольку от этой частоты зависят технические затраты, требуемые для передачи и обработки видеосигнала, целесообразно вначале рассчитать, какая максимальная частота вообще может быть достигнута.
В соответствии с существующим телевизионным стандартом наилучшее изображение состоит из 625 строк, каждая из которых содержит 833 элемента изображения, то есть максимальное число элементов в изображении (520625). Это изображение необходимо передать в секунду 25 раз, что дает 625 х 833 х 25, то есть свыше 13 миллионов элементов в секунду и соответствует частоте 13 МГц. Чтобы получить предельное значение частоты видеосигнала (это значение, которое получается, когда все соседние элементы изображения различаются по свой интенсивности), нужно частоту элементов изображения уменьшить вдвое, поскольку перепад яркости состоит по меньшей мере из двух элементов изображения. Рассмотрим еще раз рис.9.6. Скачки амплитуды возникают на краях линий. Край, однако, всегда образуется двумя элементами изображения с различными уровнями яркости, причем в предельном случае один элемент является черным, а другой белым. Шесть скачков амплитуды в видеосигнале вызываются шестью перепадами яркости, которые состоят минимум из двух элементов изображения. Отсюда предельное значение частоты видеосигнала составляет приблизительно 6,5 МГц. Более высокие частоты в телевизионных изображениях, соответствующих существующему стандарту, не возникают. В общем случае справедливо следующее соотношение: разрешение в элементах изображения = разрешение в МГц х 128. Разрешение в линиях можно определить просто путем уменьшения вдвое разрешения, выраженного в элементах изображения. Какое разрешение достигается на практике? В обычных видеокамерах и видеомагнитофонах информация передается в составе так называемого полного цветового, или композитного телевизионного сигнала. Это сигнал, который появляется на видеовыходе или на гнезде SCART. В композитном сигнале информация о яркости и цветности изображения объединена с сигналами синхронизации, необходимыми для получения изображения на экране телевизионного приемника Монохромные камеры вводят только информацию о яркости Монохромные видеосигналы можно подавать на входы полного цветового телевизионного сигнала, и наоборот. При этом, естественно, обрабатывается лишь информация о яркости изображения.
Объединение всех сигналов существенно облегчает передачу видеоинформации. Однако это достигается ценой потери качества. Информация о яркости изображения, согласно германскому телевизионному стандарту, передается с максимальным разрешением 5 МГц, что соответствует 320 перепадам яркости в строке. Таким образом, при максимальном качестве телевизионное изображение имеет разрешение по горизонтали в 640 элементов. Большее число не допускается телевизионным стандартом. Для графической системы персонального компьютера это соответствует минимальному разрешению видеографического адаптера (VGA). Цветовое разрешение телевизионного изображения еще меньше. Информация о цвете передается с максимальной частотой 1,5 МГц (разрешение 200 элементов) на поднесущей 4,43 МГц.
Если в качестве входного сигнала видео-АЦП используется композитный видеосигнал, максимально возможное разрешение оцифрованного изображения по оси Х составляет 640 элементов. Это теоретически возможный предел, и хотя он явно невелик, на практике получаются значительно меньшие значения Так, например, из-за технических трудностей, связанных с разделением цветовой и яркостной информации, в случае непосредственной подачи композитного видеосигнала с ПЗС-камеры на высококачественный видео-АЦП разрешение находится в интервале от 3,5 до 4 МГц (около 450…500 элементов).
Не путайте реальное разрешение по горизонтали с размером оцифрованного изображения. Когда вы оцифровываете полный кадр, он имеет размеры около 768х576 элементов. В направлении оси Y числу видимых строк разложения соответствуют 576 элементов. Формата телевизионного кадра 4:3 автоматически означает, что в направлении оси Х укладывается 768 элементов. Однако фактически информацию содержат только от 640 до 450 элементов. Таким образом, увеличение изображения по оси Х оказывается бесполезным. Лучшее качество изображения при приемлемых затратах можно получить на основе компонентного принципа представления видеосигнала, который используется в видеокамерах Super-VHS. В этих устройствах сигналы цветности и яркости передаются и записываются на ленту раздельно. Поэтому потери качества вследствие совмещения и разделения сигналов яркости и цветности отсутствуют. В таких устройствах можно получить разрешение почти в 5 МГц.
При использовании композитного видеосигнала разрешение по горизонтали составляет около 4 МГц (512 элементов), в случае компонентного видеосигнала — около 5 МГц (640 элементов).
В заключение этой главы кратко рассмотрим преобразование информации об изображении в видеосигнал. Остановимся лишь на варианте цветовой системы HSV, которая известна как система YUV (рис.9.7.).
Основу сигнала составляют интенсивности красной, зеленой и синей составляющих. Y — общая яркость, которая рассчитывается по следующей формуле:
У= 0,59\ G + 0,30\ R + 0,11 х В.
Угол и длина вектора цветности, которые соответственно характеризуют цветовой тон и насыщенность, определяются векторами V и U. Они рассчитываются следующим образом:
V=R-U и U=B-Y.
Фактически в телевизионной технике эти векторы получают после деления на нормирующие масштабные коэффициенты:
V=(R- Y)/l,44 и U - (В - Y)/2,03.
Так как масштаб по обеим осям получается разным, цветовой круг для телевидения деформируется в «цветовой эллипс».
Видеосигнал состоит при этом из двух составляющих — сигнала яркости Y и сигналов цветности U и V, фазовое положение которых (угол между векторами V и U) определяет цветовой тон, а амплитуда (длина векторов V и U) соответсгвует цветовой насыщенности. Сигнал цветности вводится в сигнал яркости на поднесущей частоте 4,43 МГц, что приводит к потерям качества, описанным выше. В устройсгвах формата Super-VMS сигналы яркости и цветности передаются раздельно. В RGB-камерах вообще не производится никакого преобразования. Здесь значения интенсивностей трех цветовых составляющих непосредственно используются для дальнейшей обработки.
Система YUV в последнее время нашла применение и при цифровой обработке изображений, поскольку многие видео-АЦП позволяют сохранять цветные изображения KaKYUV-файлы. В связи с этим открываются новые возможности для сжатия данных. Наш глаз значительно чувствительнее к изменениям яркости, чем к небольшим изменениям цветности. Поэтому производить съемку и запоминание информации о цветности и яркости с одинаковым разрешением зачастую не требуется. В цифровой телевизионной технике например, на четыре значения сигнала яркости Y при передаче приходится лишь по одному значению сигналов U и V (система кодирования 4:1:1), что не вызывает существенного ухудшения качества изображения. Такая «субдискретизация» используется также в методе сжатия данных JPEG, чтобы обеспечить более высокую степень сжатия сигналов цветных изображений.
Рассмотрим некоторые теоретические моменты, которые желательно знать для понимания основ цифрового редактирования.