Системы технического зрения
Техническое зрение играет решающую роль в информационном обеспечении робота. Зрение робота можно определить как процесс выделения, идентификации и преобразования информации, полученной из трехмерных изображений. Этот процесс, называемый техническим или машинным зрением, делится на 6 основных этапов: 1) снятие информации; 2) предварительная обработка информации; 3) сегментация; 4) описание; 5) распознавание; 6) интерпретация.
Снятие информации – процесс получения визуального изображения.
Предварительная обработка информации заключается в использовании таких методов, как понижение шума или улучшение изображения отдельных деталей.
Сегментация – процесс выделения на изображении интересующих объектов.
Описание – определение главных параметров (размер, форма).
Распознавание – процесс идентификации объектов (например, гаечного ключа, болта, шайбы и т.п.).
Интерпретация – выявление принадлежности к группе распознаваемых объектов.
Выделяют три уровня технического зрения: низкий, средний, высокий.
Низкий уровень – процесс, являющийся простым с точки зрения осуществления автоматических действий, не трбующий наличия искусственного интеллекта. К низкому уровню технического зрения относится снятие и предварительная обработка информации. Этот уровень охватывает процессы, начиная непосредственно от формирования изображения и кончая процессами компенсации (уменьшение шума, выделение простейших параметров изображения, например, разрыва интенсивности).
Средний уровень содержит процессы выделения, идентификации и разметки элементов изображения, полученного на нижнем уровне. К ним относится сегментация, описание и распознавание отдельных объектов.
Высокий уровень содержит процессы, относящиеся к искусственному интеллекту. В то время, как алгоритмы, используемые на нижнем и среднем уровнях технического зрения, разработаны достаточно хорошо, знания о процессах высокого уровня еще недостаточны. Это приводит к введению ограничений и предположений для уменьшения сложности задач.
Техническое зрение отражает трехмерное пространство, используя его плоское изображение. Объемную информацию получают с помощью специальных методов: метода структурного освещения и метода стереоизображения.
Получение изображения
Визуальная информация преобразуется в электрические сигналы с помощью видеодатчиков. После пространственной дискретизации и квантования по амплитуде эти сигналы дают цифровое изображение. Рассмотрим основные методы получения изображения при использовании технического зрения в роботах, влияние дискретизации на пространственное разделение и влияние квантования по амплитуде на разделение по интенсивности.
Основными устройствами, используемыми в техническом зрении роботов, являются телевизионные камеры на основе видиконов или твердотельными приборами с зарядовой связью (ПЗС).
Видикон представляет собой цилиндрическую трубку, содержащую с одного конца электронную пушку, а с другого – экран и мишень (рис. 24.1). Электронный луч фокусируется и отклоняется с помощью напряжения, прикладываемого к катушкам. Отклоняющий контур обеспечивает сканирование луча по внутренней поверхности мишени для «считывания» изображения. Внутренняя поверхность стеклянного экрана покрыта прозрачной металлической пленкой, которая образует электрод, формирующий электрический видеосигнал. На металлическую пленку нанесен тонкий фоточувствительный слой мишени, состоящий из мелких шаровидных частиц, сопротивление которых обратно пропорционально интенсивности светового потока. За фоточувствительной мишенью расположена положительно заряженная тонкая проволочная решетка, которая тормозит электроны, испускаемые пушкой, так что они попадают на мишень со скоростью, близкой к нулю.
Рисунок 24.1. Схема трубки видикона (а) и сканирование
электронным лучом (б)
В нормальном режиме на металлическое покрытие экрана подается положительный потенциал. При отсутствии света фоточувствительный материал ведет себя как диэлектрик, так как потенциал на внутренней поверхности мишени, вызываемый электронным лучом, компенсируется положительным зарядом на металлическом покрытии. Когда на поверхностный слой мишени попадает свет, его сопротивление падает и появляется электрический ток, нейтрализующий положительный заряд. Величина тока пропорциональна числу перемещающихся электронов и, следовательно, интенсивности светового потока. Это изменение тока после его обработки в электронном блоке формирует видеосигнал.
Частота сканирования, принятая в системах технического зрения, 30 раз в секунду. Полный объем сканирования (кадр) состоит из 525 линий, 480 из которых содержат информацию об изображении. Для повышения четкости изображения сканируют полукадры (262,5 линии) с удвоенной скоростью (60 раз в секунду).
Устройства ПЗС подразделяются на два типа:
· датчики линейного сканирования;
· датчики с плоскостной структурой.
Основной частью ПЗС-датчиков является ряд кремниевых чувствительных элементов, называемых фотоячейками. Фотоны от отображаемого объекта проходят через входную прозрачную поликристаллическую кремниевую структуру и абсорбируются в кристаллах кремния, образуя пары «электрон-дырка». Полученные фотоэлектроны собираются на фотоячейках, при этом величина заряда на каждой фотоячейке пропорциональна соответствующей интенсивности светового потока. Типичный датчик линейного сканирования (рис. 24.2) состоит из ряда фоточувствительных элементов, из двух шин, используемых для передачи содержимого с фоточувствительных элементов в транспортные регистры, а также из выходной шины, служащей для передачи содержимого из транспортных регистров на усилитель. На выходе усилителя формируется сигнал напряжения, величина которого пропорциональна содержимому фотоячеек.
Рисунок 24.2. ПЗС-датчик линейного сканирования
ПЗС-датчики с плоскостной структурой аналогичны датчикам линейного сканирования с тем отличием, что в них фотоячейки расположены в форме матрицы, а между рядами фотоячеек имеется комбинация переходных транспортных регистров (рис. 24.3).
Датчики линейного сканирования имеют от 256 до 2048 фотоэлементов. Датчики с плоскостной структурой имеют от 32×32 до 1024×1024 элемента и больше.
Рисунок 24.3. ПЗС-датчик с плоскостной структурой
Обозначим через двумерное изображение (рис. 24.4)., получаемое телевизионной камерой или другим устройством, дающим изображение.
Рисунок 24.4. Обозначения координат при описании изображения
Здесь х и у – пространственные координаты (т.е. координаты плоскости изображения), а величина f в произвольной точке (х, у) пропорциональная яркости (интенсивности) изображения в этой точке.
Предположим, что непрерывное изображение дискретизировано равномерно на N рядов и M столбцов, причем каждая дискретная величина проквантована по интенсивности. Такая система, называемая цифровым изображением, может быть представлена в виде:
, (24-1)
где х и у теперь дискретные переменные:
; .
Каждый элемент системы называется элементом изображения, элементом картинки или пикселом. В соответствии с рис. 24.4 можно отметить, что является пикселом начала координат изображения, - правый от него пиксел и т. д.
Например, изображение дискретизировано в систему пикселов размером N×M с N=512, интенсивность каждого пиксела квантована по одному из 256 дискретных уровней. Для получения качественной черно-белой телевизионной картинки требуется 512×512 пикселов со 128 уровнями интенсивности. Приемлемая структура технического зрения должна иметь как минимум разрешающую способность 256×256 пикселов с 64 уровнями интенсивности.
Лекция 25
Методы освещения
В системах технического зрения используются 4 основных схемы освещения:
· метод рассеянного освещения (для объектов с гладкими поверхностями правильной формы) (рис. 25.1,а);
· теневое освещение (рис. 25.1, б) дает черно-белое (дискретное) изображение;
· метод структурного освещения (25.1, в) заключается в проецировании на рабочую поверхность световых точек, полос или решеток;
· метод направленного освещения (рис. 25.1, г) используется в основном для обследования объекта (обнаружение трещин, впадин и пр.).
Рисунок 25.1. Четыре основные схемы освещения
Метод структурного освещения имеет два важных преимущества перед другими. Первое преимущество заключается в упрощении задачи нахождения объекта за счет подачи в рабочее пространство известного светового рисунка, по искажению которого определяется наличие объекта. Второе преимущество – возможность получения пространственных характеристик объекта по анализу формы искажений светового рисунка.
Стереоизображение
При необходимости получения глубины изображения используют стереоизображение. Стереоизображение включает два отдельных вида изображаемого объекта (рис. 25.2), например пространственной точки w.
Рисунок 25.2. Схема получения стереоизображения
Расстояние между центрами двух линз называется базовой линией. Требуется определить координаты (X, Y, Z) точки w, заданной точками ее изображения и . Предполагается, что камеры идентичны и системы координат обеих камер полностью совпадают, отличаясь только расположением их начал.
Допустим, что первая камера совмещена с декартовой системой координат(рис. 25.3).
Рисунок 25.3. Вид сверху на рис. 25.2 при совмещении первой камеры
с декартовой системой координат
Тогда точка w лежит на линии с координатами:
, (25-1)
где индексы у X и Z обозначают, что к началу декартовой системы координат передвинута первая камера, а вторая камера и точка w также переместятся в этой системе. При этом сохраняется относительное расположение элементов системы, показанное на рис. 25.1. Если вместо этого к началу декартовой системы координат передвинута вторая камера, то точка w лежит на линии с координатами:
. (25-2)
Однако благодаря наличию расстояния между камерами и тому, что координаты Z точки w одинаковы в обеих системах координат камер, имеем:
(25-3)
и , (25-4)
где В –базовая линия.
Подставляя уравнения (25-3) и (25-4) в уравнения (25-1) и (25-2), получим:
(25-5)
и . (25-6)
Вычитая уравнение (25-6) из уравнения (25-5) и решая его относительно Z, получим:
. (25-7)
Отсюда видно, что координата Z точки w легко вычисляется при известной разности между соответствующими координатами и изображения, а также значений базовой линии и фокусного расстояния.