Информационный подход в восприятии, теория Д. Марра. Нейросетевые подходы
Умерший молодым в 35 лет, англо-американский ученый Дэвид Марр(В.Магг, 1945—1980) внес фундаментальный вклад в развитие компьютерного подхода в изучении зрительного восприятия. Его книга «Зрение. Информационный подход к изучению представления и обработки зрительных образов» и другие работы явились конкретной и продуктивной попыткой соединить логику психологического анализа механизмов зрительного восприятия и компьютерное моделирование этих механизмов [80].
Информационный подход в психологии восприятия рассматривает человека как сложную компьютероподобную систему пере-
работки входящей сенсорной информации. Этот процесс рассматривается в виде последовательных и/или параллельных стадий (этапов), каждый из которых выполняет специфические операции по преобразованию информации, например: кодирование, выделение признаков, фильтрация, распознавание, проверка гипотез, принятие решения и др. Конечная цель информационного подхода в восприятии — создание структурно-функциональной модели, состоящей из отдельных и связанных между собой блоков, выполняющих функцию, подобную построению перцептивного образа психикой человека.
Д. Марр в исследованиях, проведенных в Лаборатории искусственного интеллекта Массачусетского технологического института (1973—1980 гг.), исходил из положения, что зрительная система человека, анализируя ретинальное изображение, извлекает из него информацию подобно компьютеру, решающему по определенному алгоритму какую-либо задачу. Его теорию мы можем отнести к объект-ориентированным теориям, поскольку, по мнению самого Д.Марра, зрение нужно рассматривать как процесс, позволяющий определить по изображению, что именно присутствует в окружающем мире и где это находится. В соответствии с такими исследовательскими установками реализация информационного подхода в зрительном восприятии должна описывать, как компьютерная система раскладывает сетчаточный образ на элементы и анализирует их в момент распознавания объекта.
В соответствии с принципами последовательного анализа входящей информации в этой теории описывается ряд стадий (или операций) переработки информации, начиная с сетчаточной проекции внешнего объекта до его опознания человеком. Этот сложный процесс представляется как иерархический, в котором результаты обработки зрительной информации на каждой предыдущей стадии, являются исходными данными для следующей стадии. Принципиальная позиция Д.Марра заключается в том, что он, так же как и Дж. Гибсон, считал сетчаточное изображение вполне достаточным для построения перцептивного образа, поскольку в нем содержится вся необходимая для анализа стимульная информация.
В теории Д. Марра выделяются четыре иерархических уровня, или модуля, анализа информации. Первый уровень назван им образом, который рассматривается как пространственнно-времен-ное распределение световой энергии на сетчатке и уже является началом процесса видения.
Первоначальным эскизом, или наброском, — называется второй уровень анализа. Результатом переработки информации на этой стадии является описание структуры распределения света на сетчатке: выделение текстуры, контуров, формы, взаимного расположения объектов в пространстве, расстояния до наблюдателя.
Первоначальный эскиз образуется в результате установления различий в распределении света в пространстве образа между его деталями, выделение границ или краев объектов как резких изменений по интенсивности.
2,5-мерный эскиз — третий уровень переработки информации. На этом уровне обрабатывается информация, проанализированная на предыдущем уровне. Здесь осуществляется определение общей ориентации и глубины контуров (как фигур, выделенных на некотором фоне, или видимых поверхностей) относительно наблюдателя. Пользуясь терминологией Дж. Гибсона, на этой стадии извлекается информация о глубине и расстоянии объектов до точки, в которой находится наблюдатель.
Построение трехмерной модели — последняя стадия переработки зрительной информации. На этом уровне анализа создается общая сцена видения ситуации в виде отдельных объектов независимо от их расположения на сетчатке: у наблюдателя формируется объемное изображение видимого мира, которое независимо (инвариантно) от его собственного положения в пространстве или расположения объектов друг относительно друга. На этом уровне наблюдателю презентируется мир уже распознанных предметов и их взаимное расположение.
В заключение отметим, что специфика информационного подхода, разработанного Д.Марром, состоит в том, что процессы, происходящие в зрении, описываются по типу компьютерного алгоритма, и это его существенно отличает от психологических или нейрофизиологических трактовок и поэтому делает весьма полезным для таких современных отраслей научного и прикладного знания, как искусственный интеллект, создание искусственных органов чувств, разработка новых информационных технологий анализа зрительной информации.
Идеи Д.Марра развиваются в работах других исследователей. Укажем, например, на теорию опознания формы объекта И.Би-дермана, в которой сложный объект описывается как пространственная композиция некоторого числа базовых компонентов (геометрических форм), таких как клин и цилиндр (образно названных «геонами») [129; 130].
Одними из современных направлений в компьютерном моделировании перцептивного процесса, также входящими в информационный подход, являются так называемые нейросетевые модели восприятия. Эти модели также известны в литературе последнего десятилетия под названиями коннекционистских моделей или моделирования параллельно протекающих процессов. Основу этого подхода заложила работа Ф. Розенблатта «Принципы нейроди-намики: перцептроны и теория мозговой деятельности» [202]. Из современных исследований в данном направлении выделим в первую очередь работу Д. Рамельхарта и Дж. МакКлеланда «Парал-
дельные распределенные процессы: исследования по микроструктуре познания», в которой изложена их широко цитируемая ней-росетевая модель [203]. В ряде других эмпирических исследований также показана продуктивность нейросетевого подхода для моделирования зрительного [172; 179], слухового восприятия [196], процессов перцептивного развития [140, 204].
В основе этого подхода лежит уже достаточно известная идея о том, что зрительная система состоит из конечного набора нейронных детекторных структур, выделяющих различные признаки объектов. Эти нейронные структуры и их взаимодействие образуют нейронные сети, способные выделять сложные признаки поступающей на рецепторы сенсорной информации. С этой точки зрения динамика нейронных структур может отображать определенное перцептивное событие. В данном подходе реализован известный в психофизиологии принцип кодирования сенсорного события номером канала. Принцип распознавания зрительного образа с помощью простой нейросети представлен на рис. 18.
На рис. 18 показано, как работает простейшая нейронная сеть, выделяющая графические элементы букв и, таким образом, позволяющая их опознавать. Например, предъявление буквы X будет активировать нейроны-детекторы (внизу рисунка), выделяющие две перекрещивающиеся диагональные линии, в отличие от буквы А выделение горизонтального элемента будет тормозиться. Таким образом, на неком гипотетическом нейронном «экране» будет появляться строго определенный вектор возбуждения таких нейронных элементов. В результате наша гипотетическая сеть, состоящая из нейроно-подобных элементов, «поймала» или выделила графическую конфигурацию, соответствующую буквам Н, А и X. Работы по нейросетевому моделированию показывают, что подобные сети могут быть очень селективными, т.е. выделять из светового потока тонкую и сложную структуру зрительной информации. Хорошим примером реализации нейросетевого подхода с позиций упомянутой выше теории И. Бидермана является нейросетевая модель восприятия формы объекта, предложенная Дж.Хьюммелом и И.Бидерманом [168]. Этот подход
Н2 А т*Х
Ч| — 7 \
Рис. 18. Нейросетевая модель для распознавания букв (Н, А, X) по составляющим их графическим элементам: —► — активирующие связи; • — тормозные связи
может быть также весьма продуктивным в работах по искусственному интеллекту в плане создания компьютерных систем, распознающих образы подобно зрению человека.