Коннекционистские модели
В отличие от гибридных, коннекционистские модели используют сети для описания не только активационных процессов, но и процессов переработки информации. Описание сетей тоже получается несколько иным – понятие может быть связанным не с одним каким-либо узлом, а с целым их набором. Соответственно и отношения между узлами не оказываются более отношением между понятиями. В коннекционистских моделях в основу функционирования сети положен принцип параллельности.
На сегодняшний день в когнитивизме наиболее распространенным является моделирование с помощью параллельных распределенных сетей. На Рис. 2.13 приведен фрагмент сети, примененной Д. Румелхартом и Дж. МакКлелландом для их модели овладение ребенком прошедшим временем английских глаголов, выполненной в рамках подхода параллельной распределенной переработки информации (Rumelhart, McClelland, 1986).
Рис. 2.13. Фрагмент сети модели Д. Румелхарта и Дж. МакКлелланда
Модель имеет сеть, включающую четыре слоя нейроноподобных элементов, или узлов. Один слой узлов является входным, два - промежуточными (или ассоциативными), четвертый - выходным. Возбуждение распространяется от первых слоев к следующим через дуги между узлами. Связи между первым и вторым, а также третьим и четвертым слоями рассматриваемой модели являются жестко фиксированными. Связи между вторым и третьим слоями могут изменяться в процессе обучения. Изменению в ходе обучения подвержен также порог активации элементов третьего слоя.
Если подавать на входные узлы сети активацию, сеть будет реагировать – выдавать определенный паттерн активации на выходе. Например, сеть Д. Румельхарта и Дж. МакКлелланда на входе получает инфинитив глагола, а на выходе выдает прошедшее время (каждый входной и выходной узел модели кодирует один звук). Сеть можно обучать: если она выдает неправильный ответ, по определенному алгоритму модифицируются связи между ассоциативными слоями.
Наиболее интересным в моделях такого типа является то, что они показывают весьма любопытное сходство с реальным поведением людей. В частности, модель Д. Румельхарта и Дж. МакКлелланда на определенном этапе обучения, как и дети, демонстрирует сверхгенерализацию (например, выдает gived вместо gave), на другом этапе – появление частных правил и т.д.
Показана способность параллельных распределенных сетей и к более сложной переработке информации. Так, Г. Хинтон создал модель, которая обучается определению родственных отношений (Hinton, 1986). На ее входные узлы подают имена людей и учат устанавливать между ними родственные отношения. Была показана способность этой модели к простым умозаключениям. Так, если дать ей некоторое количество отношений типа «Иван отец Петра», «Петр отец Сидора», «Иван дед Сидора», то сеть из «Джон отец Джека» и «Джек отец Джима» может сама вывести «Джон дед Джима». Интересно, что анализ функционирование отдельных узлов промежуточных слоев показывает образование понятий, таких как пол, поколение, принадлежность к семье и т.д. Другими словами, некоторые узлы срабатывали только в отношении лиц старшего поколения, другие - только в отношении женщин и т.д.
Коннекционистские модели обладают определенной привлекательностью в силу ряда причин: подобия нашей нейрофизиологической организации (или по крайней мере тому, что мы о ней сегодня знаем), способности естественным образом моделировать некоторые процессы, высокой точности и возможности компьютерного моделирования, но при этом принципиальном отличии по архитектуре от компьютера и т.д. Они позволяют объяснить такие феномены, которые оказываются непонятными для информационных моделей, лишенных сетевой составляющей. К таким феноменам относится, например, облегчающее влияние контекста на решение задач.
В то же время некоторые авторы высказывают сомнение по поводу того, что коннекционизм может стать главным средством моделирования познавательных процессов. Так, Дж. Фодор и Дж. Пылишин доказывают, что коннекционистские модели в принципе не обладают вычислительной мощью, позволяющей выполнять в полном объеме пропозициональное исчисление, и, следовательно, не могут объяснить всех возможностей познавательной системы человека.
Сети Хопфилда
Специально рассмотрим вид сетей, предложенный Дж. Хопфилдом, поскольку эти сети привлекли особое внимание в контексте проблемы творчества. В этих сетях каждый нейрон может принимать одно из двух состояний. В них нет входных, промежуточных и выходных слоев, однако, как показано на Рис. 11, есть обратные связи.
Рис. 2.14. Сеть Хопфилда
За счет обратных связей сети Хопфилда являются динамическим, то есть выход, передаваясь по сети обратной связи, модифицирует вход. Затем новый вход модифицирует выход, и процесс повторяется снова и снова. Для устойчивой сети последовательные итерации приводят к все меньшим изменениям выхода, пока в конце концов выход не становится постоянным. Для некоторых сетей процесс никогда не заканчивается, такие сети называют неустойчивыми.
Во время работы сети Хопфилда признаком нахождения решения является момент, когда достигается аттрактор, статический (когда на каждом следующем шаге повторяется устойчивое состояние) или, возможно, динамический (когда до бесконечности чередуются два разных состояния). Это конечное состояние сети и является её реакцией на данный образ.
На первом этапе сеть Хопфилда обучают. Это означает, что сеть запоминает определенное количество состояний.
матрица весовых коэффициентов настраивается детерминированным алгоритмом раз и навсегда, и затем весовые коэффициенты больше не изменяются.
Как только веса заданы, сеть может быть использована для получения запомненного выходного вектора по данному входному вектору, который может быть частично неправильным или неполным.
Обычно ответом является такое устойчивое состояние, которое совпадает с одним из запомненных при обучении векторов, однако при некоторых условиях (в частности, при слишком большом количестве запомненных образов) результатом работы может стать так называемый ложный аттрактор («химера»), состоящий из нескольких частей разных запомненных образов, а также в синхронном режиме сеть может прийти к динамическому аттрактору.
Если во время обучения сформировать матрицу весовых коэффициентов (межнейронных связей) на основании эталонных образов, то нейронная сеть в процессе работы будет менять состояния нейронов до тех пор, пока не перейдёт к одному из устойчивых состояний.
Внешнее воздействие на хопфилдовскую сеть заключается в том, что некоторые ее узлы приводятся в состояние активации. Затем сеть, предварительно обученная на распознавание определенных образов, начинает самопроизвольно эволюционировать, пока не доходит до устойчивого состояния, в котором и остается. Состояние, в которое она приходит, означает, что образ распознан. Сеть Хопфилда отличается способностью переходить от разных исходным состояний к одному и тому же конечному, то есть несколько различные образы она может распознать, как один и тот же объект. Эти конечные устойчивые состояния сети, или, пользуясь синергетической терминологией, аттракторы, задаются предварительным обучением.
Представим сеть Хопфилда, распознающую зрительные образы, каждый элемент которой соответствует определенной точке сетчатки. Допустим, сеть обучена распознавать какой-то известный портрет Ж. Пиаже, то есть возбуждение участков сетчатки при восприятии этого портрета является аттрактором системы. Если мы дадим теперь на вход сети несколько иное изображение ученого, то после большего или меньшего количества итераций система придет к состоянию, соответствующему тому портрету, на который было проведено научение, то есть «узнает» Ж. Пиаже.
На рис. 2.15 представлено распознавание зашумленного изображения сетью.
Рис. 2.15. Распознавание образа сетью Хопфилда
Однако распознавание образов – не самое интересное свойство сети Хопфилда в контексте проблематики творчества. Существеннее то, что за счет стремления к энергетическому минимуму сеть способна решать задачи на оптимизацию. Энергетическим минимумом для сети является аттрактор, т.е. такое состояние, придя в которое она перестает эволюционировать.
Классическая задача оптимизации, для решения которой может использоваться сеть Хопфилда – это задачи коммивояжера: нужно обойти все n городов и вернуться в исходный так, чтобы длина пройденного маршрута была минимальной. Для этого можно наложить, например, такие требования на сеть:
- Сеть должна состоять из нейронов, которые мы будем рассматривать как квадрат из n строк и n столбцов.
- Ответ сети должен содержать только один активный нейрон в каждой строке и каждом столбце.
- Активный нейрон в первом столбце задаёт первый город маршрута, во втором столбце — второй город маршрута, и так далее.
Оказывается, что для решения этой задачи достаточно следующих простых соображений:
- для выполнения условия 2 веса сети должны быть построены таким образом, чтобы каждый нейрон препятствовал активации других нейронов в своей строке и в своём столбце;
- для минимизации длины пути необходимо, чтобы нейрон в i-м столбце тем активнее препятствовал активации нейронов в i + 1-м и i − 1-м столбцах, чем больше расстояние между ними;
- для того чтобы сеть Хопфилда вообще работала, необходимо, чтобы все веса сети не были отрицательными.
Можно показать, что существует несложная формула вычисления веса между нейроном, соответствующим городу x на позиции в маршруте i, и нейроном, соответствующим городу y на позиции j, которая удовлетворяет перечисленным условиям. Если установить веса нейронных связей по этой формуле и привести сеть в случайное начальное состояние, то результирующие стабильное состояние даст субоптимальный путь, длина которого не слишком превосходит оптимальную. Найденное сетью решение будет локальным минимумом, а не обязательно абсолютным минимумом. Локальные минимумы – состояния системы, которые обеспечивают некоторую, но не лучшую оптимизацию состояния, удерживающую систему от дальнейшего прогресса. Найденное решение будет зависеть от случайного начального состояния. Для практического применения сеть можно запустить несколько раз, и выбрать наилучший путь. Однако в теоретическом плане интереснее аналогия, которую Дж. Хопфилд проводит между процессом работы сети и физическим понятием отжига[22]. Несколько огрубляя, можно сказать, что аналог отжига в нейронной сети происходит следующим образом. Сеть вначале «разогревают», дают ей «встряску», в результате которой она может выйти из состояния локального минимума. Далее «температура» постепенно понижается, позволяя активности стать более «рациональной» и менее случайной, пока не будет найден глобальный минимум.
Модель К. Мартиндейла
Модель творчества, основанная на сетевых представлениях и призванная синтезировать идеи Э. Крисса, С. Медника и Дж. Мендельсона, предложена К. Мартиндейлом. В этой концепции присутствует уже знакомая нам идея о существовании двух типов (процессов) творческого мышления – первичного и вторичного, а также предложенный механизм их реализации и взаимных переходов. Первичный процесс основан на аналогии, свободных ассоциациях, интуиции. Вторичный процесс мышления характеризуется абстрактностью, логичностью, контролем сознания. По преобладанию одного из процессов выделяются соответственно стадии творческого вдохновения и творческой разработки или верификации идеи. Очевидно, что первичный процесс, по К. Мартиндейлу, соответствует интуиции, по Я.А. Пономареву, а вторичный – логике.
Наибольший интерес, однако, представляет то, как К. Мартиндейл описывает сетевые процессы, соответствующие первичному и вторичному мышления. Он обращается к нейронной сетевой модели Дж. Хопфилда (Martindale, 1989; 1995).
Предполагается, что наши знания могут быть представлены в виде сети, состоящей из взаимосвязанных узлов (аналогов нейронов). Активированный в данный момент участок сети соответствует области кратковременной памяти (short-term memory), а несколько наиболее активированных узлов – области внимания. При высокой степени активации в области внимания от высокоактивированных узлов распространяется сильное латеральное торможение на другие элементы сети, за счет чего последние не могут активироваться. Таким образом, процессы фокусированного внимания тесно связаны с процессами торможения. Когда активация распространена по сети более равномерно, то одни узлы уже не так сильно подавляют другие, и те, в свою очередь, имея даже очень слабый собственный уровень активации, продолжают «работать».
В модели К. Мартиндейла каждый узел сети получает «информационный» вход от других узлов и неспецифический вход от системы активации. В этой сети активация узла рассчитывается как сумма возбуждающего входа за вычетом подавляющего входа, помноженная на вход от системы активации. Состояние более низкой активации большего количества узлов соответствует расфокусированному вниманию по Г. Мендельсону, плоской ассоциативной иерархии по С. Меднику, а также первичными процессами по Э. Криссу. Крутая ассоциативная иерархия, состояние фокусированного внимания и вторичные процессы связаны с высокой активацией небольшого количества элементов. Это проиллюстрировано на рис. 2.16.
Рис. 2.16. Крутая и плоская ассоциативная иерархии, фокусированное – расфокусированное внимание и активация сети (Martindale, 1995)
Согласно К. Мартиндейлу, разные состояния внимания характерны для разных стадий творческого процесса. Например, расфокусированное внимание характерно для стадии инкубации, которая ведет за собой инсайт, а сфокусированное – для стадии первоначальной работы над проблемой и следующей за инсайтом проверки и разработки идеи. Так все четыре стадии творческого процесса по Г. Уоллесу необходимы для того, чтобы породить по-настоящему творческую идею («новую и осмысленную»), то творческие люди, по идее К. Мартиндейла (которая, по всей видимости, была еще у Э. Крисса), должны характеризоваться способностью к более легкому переключению между первичными и вторичными процессами (или, в других терминах, между фокусированным и расфокусированным вниманием).
Далее К. Мартиндейл обращается к модели Дж. Хопфилда. На пути к решению сеть может в какой-то момент попасть в «локальный энергетический минимум», что на психологическом языке соответствует фиксации. Проблема вывода системы из локального минимума может быть решена по аналогии с физическим процессом отжига. К. Мартиндейл считает, что переходы между высокой и низкой температурами в сети можно уподобить переходами между первичными и вторичными процессами. Повышение температуры означает переход к функционированию в рамках первичных процессов (и, соответственно, проводя психофизиологическую аналогию, – низкому уровню активации коры головного мозга), постепенное охлаждение – переход ко вторичным (к более высокому уровню активации коры). Нахождение творческого решения проблемы понимается в терминах минимизации энергии.
«Наиболее ярко выраженные вторичные процессы представлены дедуктивной логикой. При таком способе мышления инсайт невозможен, т.к. вывод заложен в посылках. Вторичные процессы подобны кристаллическим образованиям: они хорошо структурированы, но вероятность встречи двух удаленных атомов равна нулю. Движение в сторону первичных процессов можно уподобить нагреванию кристалла. При достаточной температуре он превращается в жидкость. В жидком состоянии вероятность столкновения двух удаленных частиц возрастает во много раз. Если у нас есть несовершенный кристалл, то все, что нам нужно – это нагреть его до жидкого состояния, а потом постепенно опускать температуру, возвращаясь к вторичным процессам мышления. Результатом будет безупречный кристалл» (Martindale, 1995, p. 258).
Предположение о лучшей переключаемости креативных людей между полюсами фокусированного – расфокусированного внимания частично нашло подтверждение в исследовании Л.Я. Дорфмана и В.А. Гасимовой (Дорфман, Гасимова, 2006а). Для этого использовались показатели ВР, полученные в двух описанных выше заданиях – Тесте на верификацию понятий и Negative priming. Подсчитывалась разница между средними показателями ВР в заданиях двух типов, чтобы оценить расхождения между скоростью выполнения заданий в состоянии фокусированного и расфокусированного внимания. Предполагалось, что, если справедлива гипотеза о том, что более креативные испытуемые с большей легкостью переключаются между двумя полюсами внимания, то креативность должна коррелировать со степенью расхождения во ВР по двум заданиям. Креативность испытуемых измерялась с помощью теста «Необычное использование». Были получены значимые корреляции на уровне 0.2 между креативностью и разницей между ВР в тесте на расфокусированное внимание и скоростью понимания правил. Корреляций креативности с разницей между ВР в тесте на расфокусированное внимание со скоростью реакций на фигуры обнаружено не было. Авторы делают вывод, что «…креативное мышление (в сравнении с некреативным) способствовало усилению контраста между расфокусированным и фокусированным вниманием» (Дорфман, Гасимова, 2006а, с. 48).
Дополнительные эмпирические доказательства того, что уровень активации связан с креативностью, К. Мартиндейл считал нужным искать в психофизиологических работах.
Итоги и перспективы
Проведенный анализ показывает, что концепция Я.А. Пономарева затрагивает центральные пункты, вокруг которых вращалась в ХХ веке и продолжает вращаться психологическая мысль. Более того, можно утверждать, что ряд областей психологии не могут пройти мимо открытий, сделанных ученым. Таким открытием для психологии мышления, как представляется, является дуалистическое разрешение того, что было названо выше Платоновым парадоксом. Это открытие нельзя обойти перед тем, как двинуться дальше, можно его лишь сделать повторно, облечь в другие выражения и связать с другими именами. Имплицитное научение, дефокусировка внимания, первичные-вторичные процессы – фактически это все термины, в которых на Западе выражаются повторные открытия феноменов, честь обнаружения которых по праву принадлежит Я.А. Пономареву. Хочется надеяться, что эти термины не будут множиться, а последователи Якова Александровича смогут самостоятельно развивать его идеи высокими темпами.