Виды ориентировочного подкрепления
Благодаря исследованиям И. П. Павлова и его школы мы знаем, как тонко реагирует животное на малейшие изменения всех компонентов условного рефлекса. В частности это относится к изменениям подкрепления, его количественной и качественной стороны. В последнем случае дело идет о том, вполне ли совпадает предлагаемое подкрепление с тем, которое было показано животному до начала его действий; эти опыты были произведены сначала вне лабораторий И. П, Павлова. Расхождение между приманкой, которая вначале показывалась и пряталась, и тем, что потом обнаруживалось животным (и должно было служить подкреплением) всегда вызывало «нарушения» в поведении животного. Это и наблюдалось в известных опытах Тинклпо (О. L Tinklepaugh)[58], подтвержденных у нас Н. Ю. Войтонисом[59]. Когда животное обнаруживает под крышкой не тот предмет — приманку — который был ему показан в начале опыта, оно проявляет явные признаки встречи не с тем «потребным будущим», которое ожидалось. Такого рода опыты служат доказательством того, что существует не только полное, но и неполное ориентировочное подкрепление, чисто ориентировочное, потому что животное обнаруживает «замешательство» при одном восприятии подмененной приманки, еще до того, как начинает ее есть (а иногда отказывается есть и «с гневом» отбрасывает приманку).
Но существует еще один вид ориентировочного подкрепления, значение которого трудно переоценить. В отличие от подкрепления полного и неполного, но все-таки получаемого или неполучаемого, которое поэтому можно назвать альтернативным («да-нет»), этот новый вид подкрепления можно назвать «относительным ориентировочным подкреплением», так как оно возникает из учета того отношения, в котором фактический результат действия оказывается к намеченному, заданному. Так, например, животное промахивается и не достигают «цели»: сточки зрения «альтернативного подкрепления» это просто «нет», т. е.
отрицательное подкрепление; однако, если при этом животное замечает насколько и куда оно отклонилось от цели, то это служит относительным ориентировочным подкреплением и позволит ему внести надлежащую поправку в следующую «пробу».
В процессе формирования новых действий путем «проб и ошибок» успешное действие сначала возникает случайно, среди многих безуспешных проб. Постепенно число таких проб уменьшается, а потом и вовсе исчезнет. Если бы существовало только альтернативное подкрепление («да-нет») и каждая проба получала только квалификацию «правильно-неправильно», никакого прогресса в научении не могло бы наступить: неудачные пробы просто отбрасывались до появления такой же случайно удачной пробы. Допустим, что эта удачная проба сразу оставляет после себя четкую кинестетическую картину, по которой она может быть точно воспроизведена в следующий раз. Но тогда выступает другая сторона проблемы: только в исключительном случае положение животного относительно «цели» окажется точно таким же, каким оно было в прошлой, удачной пробе; между тем достаточно уже небольшого изменения этого относительного положения, чтобы точно воспроизведенное и в прошлый раз удачное действие теперь оказалось неудачным. Если к этому добавить неточное исполнение прежде удачного действия (что практически всегда имеет место), то вероятность его успешного выполнения становится еще меньше. Собственно это мы и наблюдаем, когда вслед за успешным выполнением задания следует большое число неудачных проб.
Основное положение «метода проб и ошибок» заключается в том, что удачные пробы закрепляются, а неудачные отсеиваются. Но это констатация факта, а не объяснение. В качестве объяснения оно, как мы только что видели, несостоятельно: действие, которое закрепилось как удачное, в следующий раз, по всей вероятности, станет неудачным. На том же основании оно должно быть «отсеяно» и процесс начинается «сначала». И это может повторяться многократно, «до бесконечности», раскрывая ошибку приведенного объяснения: одного закрепления удачного действия совершенно недостаточно, чтобы обеспечить его все более частое появление и окончательное утверждение. Здесь нужен еще один, и притом собственно психологический «фактор» — все более полный и тонкий учет роли небольших изменений в условиях действия, все более точное примеривание его к этим условиям и все большее приспособление действия к ним — еще до выполнения, в плане образа.
В еще большей степени эти требования относятся к неудачным пробам. Если они просто отбрасываются, то создается полная неопределенность, какой должна быть следующая проба. Но если неудачная проба не просто отбрасывается, а сопровождается учетом отклонений фактического результата от заданного, то в характеристику неудачной пробы вносится существенное дополнение: является ли она приближением к цели или удалением от нее, в какую сторону и насколько и, значит, какую поправку нужно внести, чтобы в следующей пробе достигнуть цели или хотя бы приблизиться к ней. В ряде повторений такие поправки естественно ведут ко все большему приближению к «правильному действию». В дальнейшем уже одно примеривание в плане восприятия позволяет осуществить приспособление действия к наличным обстоятельствам.
Все это полностью относится и к применению уже сформированных действий. Лишь в исключительных случаях точно воспроизводится то соотношение между индивидом и объектом, при котором в прошлый раз действие было удачным. Чтобы успешно воспользоваться этим действием в новой, актуальной ситуации, это действие нужно сначала примерить — в плане восприятия — и заранее внести необходимые поправки, чтобы приспособить к наличным (и несколько измененным) условиям.
Такие поправки предполагают информацию о фактическом результате действия и его сопоставлении с заданным. Но все это должно быть сделано заранее! Естественно, что когда «правильное действие» и его условия заранее известны и материально присутствуют (в виде ситуации, с одной стороны, и заложенной в ЭВМ программы, — с другой), то управляющее устройство может обеспечить успешное выполнение действия. Но когда правильный путь или поправка к нему еще неизвестны, то наметить их предварительно (до начала или во время исполнения) и руководить исполнением действия посредством сличения его фактического хода с намеченным можно только путем ориентировки в плане образа.
Психическое отражение поля действия и соотнесение его фактического и заданного хода в плане образа составляют обязательное условие успешного выполнения действия, у которого необходимое постоянство условий заранее не обеспечено. Тем более, что это обязательное условие всякого научения, включая и научение путем проб и ошибок.
Короче говоря, как процесс образования, так и успешное применение действий в обстановке, требующей их приспособления (по направлению, расстоянию, силе, темпу), возможны только на основе психического отражения ситуации, с помощью идеальных действий в плане этого отражения и на основе их подкрепления, не только альтернативного, но прежде всего относительного и чисто ориентировочного.
На том уровне развития животных, где автоматические реакции становятся не только недостаточными, но и опасными, новые возможности существования и развития открываются благодаря психическому отражению мира и действиям в плане этого отражения. С этого уровня филогенеза психика становится необходимым условием дальнейшего прогрессивного развития животного мира. О значении психики, сознания в общественной жизни людей, само собой разумеется, не приходится и говорить.
МЕХАНИЗМ АКТИВНЫХ ДЕЙСТВИЙ
Потребность вводится в картину окружающего мира благодаря тому, что среди ее объектов субъект опознает и выделяет «вещь», которая отвечает этой потребности. Уже благодаря этому ситуация приобретает смысловую центрацию, определенный смысл[60]. Когда же далее намечается путь к этой цели и на этом пути выделяются определенные объекты и отрезки расстояния, они получают разное «функциональное значение» в зависимости от
своего отношения к цели действия и положения на пути к ней. Так, картина наличной ситуации приобретает определенное психологическое строение с разделением на то, что имеет основной смысл или только функциональное значение. Сначала эти разные значения намечаются и сохраняются лишь в самом процессе ориентировки, в процессе соотнесения цели с отрезком пути, отделяющим ее от субъекта. Поэтому они устанавливаются в направлении от цели к субъекту, т. е. в порядке, обратном ходу действия, по так называемому «градиенту цели»[61]. Этот градиент в некотором отношении представляет собой парадоксальное явление: чтобы достичь цели, нужно каждый раз пройти весь путь от начала до конца, а закрепляется этот путь по отдельным отрезкам, начиная от конца к началу! Почему начальные отрезки пути не запоминаются по меньшей мере так же, как его завершающие части? Тем более что первые требуют большего ориентировочного напряжения, чем те, что расположены ближе к цели.
Видимо, запоминание пути определяется не только частотой его прохождения и величиной прилагаемых усилий, но в первую очередь ясностью отношения его частей к цели и, следовательно, необходимостью ориентироваться на каждом микроотрезке ситуации на его отношение к ближайшей цели[62]. В начале научения, когда промежуточные цели еще не намечены, такой ближайшей целью является только основная, конечная, с которой поэтому и начинается процесс выделения пути. В целенаправленном действии основная цель есть первое и очевидно значимое среди прочих объектов поля, которые выделяются и запоминаются лишь по мере увязки с нею.
Даже у животных цепь промежуточных ориентиров и действий может быть очень длинной, но она обязательно должна заканчиваться основным подкреплением, «конечной целью», иначе промежуточные цели теряютсвое вторичное, производное от нее значение. Этим объясняется тот факт, что образование условных рефлексов второго порядка без подкрепления первого оказывается трудным и нестойким[63]. Между тем, цепи условных рефлексов, которые завершаются «настоящим подкреплением», могут быть очень длинными (Б. Ф. Скиннер, А. В. Напалков). Подкрепление должно быть значащим, а не условным, а условный раздражитель (именно условный) сам по себе является индифферентным и никаким устойчивым значением, даже ориентировочным, не обладает; образование условной связи на одном ориентировочном подкреплении требует поддерживать ориентировочные раздражители «живыми», все время в какой-то мере «новыми», т. е. безусловными, а не условными, хотя и «чисто ориентировочными раздражителями». Условные рефлексы опираются на связь между подкреплением и тем, что ему систематически предшествует, предупреждает о нем, ведет к нему. И естественно, что эта связь намечается не от начальных отрезков и ориентиров пути, а от последнего, явственно увязанного с целью и поэтому в обратном порядке — «от конца к началу».
Этому на первый взгляд противоречит «метод гуманной дрессировки» животных, который в конце прошлого и начале нашего века открыл В. Л. Дуров[64], а значительно позже, уже в 30-е годы переоткрыл Б. Скиннер[65] (В. Skinner). Этот метод заключается в формировании сложной цепи условных рефлексов «от начала к концу», т. е. в порядке, обратном тому, о котором мы только что говорили. Но это противоречие мнимое. При научении от начала к концу экспериментатор делит весь путь на ряд последовательных шагов, из которых первый сначала получает самостоятельное и вполне «деловое» подкрепление. Переход ко второму шагу (а от него — к следующему и т. д.) намечается не самим животным, а экспериментатором — он держит новую порцию приманки так, что, следуя за нею, животное вслед за предыдущим делает очередной шаг, который тут же получает еще одно, тоже «деловое» подкрепление. В таком порядке подкрепление дается и после третьего шага, потом — после четвертого и т. д. При анализе такого метода воспитания цепи условных рефлексов приходится различать: как задача выгладит для экспериментатора и как она выступает для животного. Для экспериментатора она выгладит как движение от начала к концу, т. е. к цели, которую он наметил заранее. А для животного выступает только очередная цель, которая постепенно все дальше отодвигается по линии уже освоенных шагов.
Таким образом, и в этом случае для обоих участников опыта путь открывается «от цели к началу» (движения), только для экспериментатора такой целью представляется «конечная цель», а для животного — ближайшая, которая в следующий раз становится промежуточной. Действительный механизм остается одним и тем же: от того смыслового значения, которое имеет предмет потребности, к его ориентировочному значению (по его положению среди других вещей проблемной ситуации) и к ориентировочному значению тех промежуточных вещей, что расположены между субъектом и целью.
Благодаря соотнесениям в плане образа сначала выделяется конечная цель, а затем и промежуточные цели, и предметы на пути к завершающему подкреплению становятся ориентирами, так сказать, ориентировочными раздражителями. Если это происходит однократно, то ориентировочное значение объекта угасает после выполнения действия. Если в том же ориентировочном качестве эти объекты выступают повторно, то они превращаются в условные раздражители и по мере их закрепления процесс автоматизируется. Но различия в прочности условного значения — явление вторичное, основной же процесс — образование этого значения — в обоих случаях остается одним и тем же: выделение связи между тем, что уже имеет значение, и тем, что по времени или по ходу действия ему предшествует. Эта объективная связь выявляется и приобретает значение благодаря ориентировочно-исследовательской деятельности и вначале сохраняется только в процессе этой деятельности, являясь опорой для соотнесения в плане образа.
До сих пор мы пользовались ситуациями, в которых «заданный результат» — «потребное будущее» — (оба термина Н. А. Бернштейна) составляет предмет какой-нибудь «деловой» потребности; в этих ситуациях даже «чисто ориентировочное подкрепление» устанавливается лишь относительно «деловою» подкрепления и опирается на его силу. Но уже в жизни животных ориентировочная деятельность приобретает настолько большое значение, что выделяется в значительной мере в самостоятельную и весьма характерную деятельность. На это неоднократно указывал И. П. Павлов[66]. В этих случаях «заданным результатом», целью ориентировочно-исследовательской деятельности становится не достижение какого-нибудь определенного объекта или положения и ознакомление с ним. Этот процесс хорошо показан у П. Кроукфорта в описании первого ознакомления мыши с новым местом своего обитания: «Когда клетка с Артуром была открыта, произошло то, что происходило за тем со всеми последующими мышами, безразлично были ли они самцами или самками. Уже через несколько секунд Артур медленно выполз на пол, пробежал несколько шагов и точно тем же путем возвратился в клетку. Там он тотчас повернулся и опять побежал тем же путем, но на этот раз немного дальше. В результате он очутился возле стены. Пройдя вдоль нее несколько шагов, он повернулся и прежним путем возвратился к клетке. Последовали новые вылазки, которые становились все более и более дерзкими, так что через пятнадцать минут Артур уже бегал по всему периметру комнаты и начинал понемногу срезать углы. Затем наступил момент, когда он расстался с теперь уже знакомой стеной и приступил к исследованию неведомых внутренних областей. На каждом этапе своих исследований он «поддерживал связь» с клеткой. Позже я установил, что стоило мне во время этой фазы исследования нарочно или нечаянно произнести легкий шум, как мышь немедленно кидалась к клетке, доказывая, что она все время имела четкое представление о том, где именно находится ее убежище. Известно, что в подошвах мышиных лапок находятся железы, выделяющие жироподобные вещества, и, вероятно, они-то и дают мыши возможность с помощью обоняния точно возвращаться по собственному следу, когда у нее есть на это время. Известно также, что, убегая к убежищу, мышь полагается на свое кинестетическое чувство, на... память о всей последовательности мышечных движений. Час спустя Артур доказал, что в его голове уже хранится точный топографический план комнаты: теперь он возвращался к клетке напрямик через неисследованные участки. Когда же я бесшумно поднял клетку к себе, он пришел в большое волнение и принялся бегать по комнате, неизменно возвращаясь к тому месту, где прежде стояла клетка, которую он, по-видимому, пытался отыскать. Затем, он оставил эти поиски и продолжал исследование комнаты»[67].
Какое значение имеет такое знакомство с обстановкой, свидетельствует другое наблюдение того же автора: «Я впустил в комнату двух самцов... и увидел, как один из них замер, а потом начал агрессивные наскоки на другого, но тот каждый раз уходил и продолжал исследования. Однако в манере его ухода чувствовалось тонкое отличие. Создавалось впечатление, что этот самец рассматривает атаки своего конкурента как докучливую помеху, а не как повод для тревоги. Агрессивная мышь была настолько поглощена присутствием второй мыши, что она только и делала, что бегала за ней, а исследования почти прекратила. Через два часа исследователь кончил знакомиться с помещением. И тут его поведение резко изменилось. Он перестал убегать и начал драться. Вскоре он доказал свое превосходство в силе — а может быть, в решимости, — бывший преследователь превратился в преследуемого. Его положение оказалось крайне невыгодным, так как он плохо знал помещение, и на моих глазах он превратился в забитую подчиненную мышь»[68].
Как мы видим из этого описания, в результате обследования местности предметы и отношения между ними не приобретают значения условных раздражителей, вызывающих строго постоянную реакцию. С одним и тем же предметом могут выполняться разные действия в зависимости от задачи, в которую этот предмет включается. А задачи эти меняются в зависимости от многих переменных и определяются, во-первых, доминирующей потребностью, и, во-вторых, тем положением, которое в данный момент индивид занимает в ситуации. Но даже в том случае, когда все эти компоненты остаются постоянными, детали разыгрываемых действий постоянно меняются, и поэтому выполнение действий требует неусыпной, активной ориентировки: где находится ближайший объект, на каком расстоянии, как к нему подойти, что сделать, чтобы надежно его захватить, — все должно намечаться тут же, быстро, и немедленно осуществляться по этой наметке.
Действия, которые осуществляются по такой наметке в плане образа, являются активными. Они следуют тем отношениям вещей, которые приобретаютсвое значение — пути к цели — и тут же теряют это значение после ее достижения. Это значения одноразового действия, устанавливаемые «здесь и сейчас», приобретающие силу только в процессе ориентировки и теряющие ее вместе с переходом к следующему объекту ориентировочной деятельности.
Таким образом, механизм активных действий можно уподобить (в некотором самом общем виде) образованию ориентировочных значений, так сказать, ориентировочных раздражителей однократного действия. Отличие этих раздражителей состоит в том, что они не вызывают какой-нибудь определенной реакции, а только указывают на объективную связь между объектом А и объектом Б, связь, прослеживая которую или двигаясь вдоль которой субъект может перейти от А к Б (или в обратном направлении). Он может сделать это физически или одной «точкой взора», в границах наличной ситуации или подготавливаясь к ожидаемой. Этим значениям «указаний на» — соответствуют разные действия, которые невыпускаютна исполнительную периферию, а сначала намечаются в плане образа, следовательно, только как возможные. К исполнению они принимаются лишь после того, как будут опробованы и апробированы с помощью примеривания или экстраполяции в плане образа. Можно сказать, что эти связи являются «сугубо условными» в том смысле, что они только указывают на условия, которые открываются субъекту в плане образа и при соотнесении элементов поля, но без соотнесения с целью и «утверждения» субъектом действий не вызывают.
Выделение таких ориентировочных связей и их преходящих ориентировочных значений является естественным и неизбежным следствием того бесспорного факта, что объекты проблемной ситуации при надлежащих условиях становятся условными раздражителями на одном ориентировочном подкреплении. Но то, что со временем становится прочным, вначале является непрочным и все-таки действенным; когда возникает острая потребность, например, при очень большом эмоциональном напряжении, то ориентировочное значение определяется и даже закрепляется уже при однократном соотнесении объектов.
Таким образом, и самых общих чертах механизм активных действий оказывается тем же, что и механизм обычных условных реакций с тем, однако, существенным различием, что этот механизм: I) ограничивается выделением (иногда только наметкой) объективной связи между объектами в психическом отражении наличной ситуации и 2) не получает закрепления в своей физиологической основе (потому что срабатывает только один раз и на это рассчитан). Если же этот механизм систематически воспроизводится и связь между объектами выступает как оправдавший себя путь неоднократного действия, то он превращается в более стойкий механизм условного рефлекса; в меру этого полное воспроизведение ориентировки в данных обстоятельствах становится излишним, ориентировка «угасает», а процесс автоматизируется.