Информационный подход в восприятии, теория Д. Марра. Нейросетевые подходы

Умерший молодым в 35 лет, англо-американский ученый Дэвид Марр(В.Магг, 1945—1980) внес фундаментальный вклад в раз­витие компьютерного подхода в изучении зрительного восприя­тия. Его книга «Зрение. Информационный подход к изучению пред­ставления и обработки зрительных образов» и другие работы яви­лись конкретной и продуктивной попыткой соединить логику пси­хологического анализа механизмов зрительного восприятия и ком­пьютерное моделирование этих механизмов [80].

Информационный подход в психологии восприятия рассматри­вает человека как сложную компьютероподобную систему пере-

работки входящей сенсорной информации. Этот процесс рассмат­ривается в виде последовательных и/или параллельных стадий (эта­пов), каждый из которых выполняет специфические операции по преобразованию информации, например: кодирование, выделе­ние признаков, фильтрация, распознавание, проверка гипотез, принятие решения и др. Конечная цель информационного подхо­да в восприятии — создание структурно-функциональной моде­ли, состоящей из отдельных и связанных между собой блоков, выполняющих функцию, подобную построению перцептивного образа психикой человека.

Д. Марр в исследованиях, проведенных в Лаборатории искус­ственного интеллекта Массачусетского технологического инсти­тута (1973—1980 гг.), исходил из положения, что зрительная си­стема человека, анализируя ретинальное изображение, извлекает из него информацию подобно компьютеру, решающему по опре­деленному алгоритму какую-либо задачу. Его теорию мы можем отнести к объект-ориентированным теориям, поскольку, по мне­нию самого Д.Марра, зрение нужно рассматривать как процесс, позволяющий определить по изображению, что именно присут­ствует в окружающем мире и где это находится. В соответствии с такими исследовательскими установками реализация информаци­онного подхода в зрительном восприятии должна описывать, как компьютерная система раскладывает сетчаточный образ на эле­менты и анализирует их в момент распознавания объекта.

В соответствии с принципами последовательного анализа вхо­дящей информации в этой теории описывается ряд стадий (или операций) переработки информации, начиная с сетчаточной про­екции внешнего объекта до его опознания человеком. Этот слож­ный процесс представляется как иерархический, в котором резуль­таты обработки зрительной информации на каждой предыдущей стадии, являются исходными данными для следующей стадии. Принципиальная позиция Д.Марра заключается в том, что он, так же как и Дж. Гибсон, считал сетчаточное изображение вполне достаточным для построения перцептивного образа, поскольку в нем содержится вся необходимая для анализа стимульная инфор­мация.

В теории Д. Марра выделяются четыре иерархических уровня, или модуля, анализа информации. Первый уровень назван им об­разом, который рассматривается как пространственнно-времен-ное распределение световой энергии на сетчатке и уже является началом процесса видения.

Первоначальным эскизом, или наброском, — называется второй уровень анализа. Результатом переработки информации на этой стадии является описание структуры распределения света на сет­чатке: выделение текстуры, контуров, формы, взаимного распо­ложения объектов в пространстве, расстояния до наблюдателя.

Первоначальный эскиз образуется в результате установления раз­личий в распределении света в пространстве образа между его деталями, выделение границ или краев объектов как резких изме­нений по интенсивности.

2,5-мерный эскиз — третий уровень переработки информации. На этом уровне обрабатывается информация, проанализирован­ная на предыдущем уровне. Здесь осуществляется определение общей ориентации и глубины контуров (как фигур, выделенных на некотором фоне, или видимых поверхностей) относительно наблюдателя. Пользуясь терминологией Дж. Гибсона, на этой ста­дии извлекается информация о глубине и расстоянии объектов до точки, в которой находится наблюдатель.

Построение трехмерной модели — последняя стадия переработ­ки зрительной информации. На этом уровне анализа создается общая сцена видения ситуации в виде отдельных объектов неза­висимо от их расположения на сетчатке: у наблюдателя формиру­ется объемное изображение видимого мира, которое независимо (инвариантно) от его собственного положения в пространстве или расположения объектов друг относительно друга. На этом уровне наблюдателю презентируется мир уже распознанных предметов и их взаимное расположение.

В заключение отметим, что специфика информационного под­хода, разработанного Д.Марром, состоит в том, что процессы, происходящие в зрении, описываются по типу компьютерного алгоритма, и это его существенно отличает от психологических или нейрофизиологических трактовок и поэтому делает весьма полезным для таких современных отраслей научного и приклад­ного знания, как искусственный интеллект, создание искусст­венных органов чувств, разработка новых информационных тех­нологий анализа зрительной информации.

Идеи Д.Марра развиваются в работах других исследователей. Укажем, например, на теорию опознания формы объекта И.Би-дермана, в которой сложный объект описывается как простран­ственная композиция некоторого числа базовых компонентов (гео­метрических форм), таких как клин и цилиндр (образно назван­ных «геонами») [129; 130].

Одними из современных направлений в компьютерном моде­лировании перцептивного процесса, также входящими в инфор­мационный подход, являются так называемые нейросетевые моде­ли восприятия. Эти модели также известны в литературе послед­него десятилетия под названиями коннекционистских моделей или моделирования параллельно протекающих процессов. Основу это­го подхода заложила работа Ф. Розенблатта «Принципы нейроди-намики: перцептроны и теория мозговой деятельности» [202]. Из современных исследований в данном направлении выделим в пер­вую очередь работу Д. Рамельхарта и Дж. МакКлеланда «Парал-

дельные распределенные процессы: исследования по микрострук­туре познания», в которой изложена их широко цитируемая ней-росетевая модель [203]. В ряде других эмпирических исследований также показана продуктивность нейросетевого подхода для моде­лирования зрительного [172; 179], слухового восприятия [196], процессов перцептивного развития [140, 204].

В основе этого подхода лежит уже достаточно известная идея о том, что зрительная система состоит из конечного набора ней­ронных детекторных структур, выделяющих различные признаки объектов. Эти нейронные структуры и их взаимодействие образу­ют нейронные сети, способные выделять сложные признаки по­ступающей на рецепторы сенсорной информации. С этой точки зрения динамика нейронных структур может отображать опреде­ленное перцептивное событие. В данном подходе реализован изве­стный в психофизиологии принцип кодирования сенсорного со­бытия номером канала. Принцип распознавания зрительного об­раза с помощью простой нейросети представлен на рис. 18.

На рис. 18 показано, как работает простейшая нейронная сеть, выде­ляющая графические элементы букв и, таким образом, позволяющая их опознавать. Например, предъявление буквы X будет активировать нейро­ны-детекторы (внизу рисунка), выделяющие две перекрещивающиеся диагональные линии, в отличие от буквы А выделение горизонтального элемента будет тормозиться. Таким образом, на неком гипотетическом нейронном «экране» будет появляться строго определенный вектор воз­буждения таких нейронных элементов. В результате наша гипотетическая сеть, состоящая из нейроно-подобных элементов, «поймала» или выде­лила графическую конфигурацию, соответствующую буквам Н, А и X. Работы по нейросетевому моделированию показывают, что подобные сети могут быть очень селективными, т.е. выделять из светового потока тонкую и сложную структуру зрительной информации. Хорошим приме­ром реализации нейросетевого подхода с позиций упомянутой выше тео­рии И. Бидермана является нейросетевая модель восприятия формы объек­та, предложенная Дж.Хьюммелом и И.Бидерманом [168]. Этот подход

Н2 А т*Х

Ч| — 7 \

Рис. 18. Нейросетевая модель для распознавания букв (Н, А, X) по состав­ляющим их графическим элементам: —► — активирующие связи; • — тормозные связи

может быть также весьма продуктивным в работах по искусственному интеллекту в плане создания компьютерных систем, распознающих об­разы подобно зрению человека.

Наши рекомендации