Виды ориентировочного подкрепления

Благодаря исследованиям И. П. Павлова и его школы мы знаем, как тонко реагирует животное на малейшие изменения всех компонентов условного рефлекса. В част­ности это относится к изменениям подкрепления, его количественной и качественной стороны. В последнем слу­чае дело идет о том, вполне ли совпадает предлагаемое под­крепление с тем, которое было показано животному до начала его действий; эти опыты были произведены сна­чала вне лабораторий И. П, Павлова. Расхождение между приманкой, которая вначале показывалась и пряталась, и тем, что потом обнаруживалось животным (и должно было служить подкреплением) всегда вызывало «нарушения» в поведении животного. Это и наблюдалось в известных опы­тах Тинклпо (О. L Tinklepaugh)[58], подтвержденных у нас Н. Ю. Войтонисом[59]. Когда животное обнаруживает под крышкой не тот предмет — приманку — который был ему показан в начале опыта, оно проявляет явные признаки встречи не с тем «потребным будущим», которое ожида­лось. Такого рода опыты служат доказательством того, что существует не только полное, но и неполное ориентиро­вочное подкрепление, чисто ориентировочное, потому что животное обнаруживает «замешательство» при одном восприятии подмененной приманки, еще до того, как на­чинает ее есть (а иногда отказывается есть и «с гневом» отбрасывает приманку).

Но существует еще один вид ориентировочного под­крепления, значение которого трудно переоценить. В от­личие от подкрепления полного и неполного, но все-таки получаемого или неполучаемого, которое поэтому можно назвать альтернативным («да-нет»), этот новый вид под­крепления можно назвать «относительным ориентиро­вочным подкреплением», так как оно возникает из учета того отношения, в котором фактический результат дейст­вия оказывается к намеченному, заданному. Так, например, животное промахивается и не достигают «цели»: сточки зре­ния «альтернативного подкрепления» это просто «нет», т. е.

отрицательное подкрепление; однако, если при этом жи­вотное замечает насколько и куда оно отклонилось от цели, то это служит относительным ориентировочным подкре­плением и позволит ему внести надлежащую поправку в следующую «пробу».

В процессе формирования новых действий путем «проб и ошибок» успешное действие сначала возникает случайно, среди многих безуспешных проб. Постепенно число таких проб уменьшается, а потом и вовсе исчезнет. Если бы существовало только альтернативное подкреп­ление («да-нет») и каждая проба получала только квали­фикацию «правильно-неправильно», никакого прогрес­са в научении не могло бы наступить: неудачные пробы просто отбрасывались до появления такой же случайно удачной пробы. Допустим, что эта удачная проба сразу оставляет после себя четкую кинестетическую картину, по которой она может быть точно воспроизведена в сле­дующий раз. Но тогда выступает другая сторона пробле­мы: только в исключительном случае положение живот­ного относительно «цели» окажется точно таким же, каким оно было в прошлой, удачной пробе; между тем достаточ­но уже небольшого изменения этого относительного по­ложения, чтобы точно воспроизведенное и в прошлый раз удачное действие теперь оказалось неудачным. Если к это­му добавить неточное исполнение прежде удачного дей­ствия (что практически всегда имеет место), то вероятность его успешного выполнения становится еще меньше. Соб­ственно это мы и наблюдаем, когда вслед за успешным вы­полнением задания следует большое число неудачных проб.

Основное положение «метода проб и ошибок» заклю­чается в том, что удачные пробы закрепляются, а неудачные отсеиваются. Но это констатация факта, а не объяснение. В качестве объяснения оно, как мы только что видели, несостоятельно: действие, которое закрепилось как удач­ное, в следующий раз, по всей вероятности, станет неудач­ным. На том же основании оно должно быть «отсеяно» и процесс начинается «сначала». И это может повторяться многократно, «до бесконечности», раскрывая ошибку приведенного объяснения: одного закрепления удачного действия совершенно недостаточно, чтобы обеспечить его все более частое появление и окончательное утверждение. Здесь нужен еще один, и притом собственно психологи­ческий «фактор» — все более полный и тонкий учет роли небольших изменений в условиях действия, все более точ­ное примеривание его к этим условиям и все большее приспособление действия к ним — еще до выполнения, в плане образа.

В еще большей степени эти требования относятся к неудачным пробам. Если они просто отбрасываются, то создается полная неопределенность, какой должна быть следующая проба. Но если неудачная проба не просто отбрасывается, а сопровождается учетом отклонений фактического результата от заданного, то в характеристи­ку неудачной пробы вносится существенное дополнение: является ли она приближением к цели или удалением от нее, в какую сторону и насколько и, значит, какую по­правку нужно внести, чтобы в следующей пробе достиг­нуть цели или хотя бы приблизиться к ней. В ряде повто­рений такие поправки естественно ведут ко все большему приближению к «правильному действию». В дальнейшем уже одно примеривание в плане восприятия позволяет осуществить приспособление действия к наличным об­стоятельствам.

Все это полностью относится и к применению уже сформированных действий. Лишь в исключительных случаях точно воспроизводится то соотношение между ин­дивидом и объектом, при котором в прошлый раз дейст­вие было удачным. Чтобы успешно воспользоваться этим действием в новой, актуальной ситуации, это действие нужно сначала примерить — в плане восприятия — и за­ранее внести необходимые поправки, чтобы приспосо­бить к наличным (и несколько измененным) условиям.

Такие поправки предполагают информацию о факти­ческом результате действия и его сопоставлении с задан­ным. Но все это должно быть сделано заранее! Естествен­но, что когда «правильное действие» и его условия заранее известны и материально присутствуют (в виде ситуации, с одной стороны, и заложенной в ЭВМ программы, — с дру­гой), то управляющее устройство может обеспечить ус­пешное выполнение действия. Но когда правильный путь или поправка к нему еще неизвестны, то наметить их пред­варительно (до начала или во время исполнения) и руко­водить исполнением действия посредством сличения его фактического хода с намеченным можно только путем ори­ентировки в плане образа.

Психическое отражение поля действия и соотнесение его фактического и заданного хода в плане образа состав­ляют обязательное условие успешного выполнения дей­ствия, у которого необходимое постоянство условий за­ранее не обеспечено. Тем более, что это обязательное условие всякого научения, включая и научение путем проб и ошибок.

Короче говоря, как процесс образования, так и успеш­ное применение действий в обстановке, требующей их приспособления (по направлению, расстоянию, силе, темпу), возможны только на основе психического отраже­ния ситуации, с помощью идеальных действий в плане этого отражения и на основе их подкрепления, не только альтернативного, но прежде всего относительного и чис­то ориентировочного.

На том уровне развития животных, где автоматиче­ские реакции становятся не только недостаточными, но и опасными, новые возможности существования и раз­вития открываются благодаря психическому отражению мира и действиям в плане этого отражения. С этого уров­ня филогенеза психика становится необходимым услови­ем дальнейшего прогрессивного развития животного мира. О значении психики, сознания в общественной жизни людей, само собой разумеется, не приходится и говорить.

МЕХАНИЗМ АКТИВНЫХ ДЕЙСТВИЙ

Потребность вводится в картину окружающего мира благодаря тому, что среди ее объектов субъект опознает и выделяет «вещь», которая отвечает этой потребности. Уже благодаря этому ситуация приобретает смысловую центрацию, определенный смысл[60]. Когда же далее наме­чается путь к этой цели и на этом пути выделяются оп­ределенные объекты и отрезки расстояния, они получа­ют разное «функциональное значение» в зависимости от

своего отношения к цели действия и положения на пути к ней. Так, картина наличной ситуации приобретает оп­ределенное психологическое строение с разделением на то, что имеет основной смысл или только функциональ­ное значение. Сначала эти разные значения намечаются и сохраняются лишь в самом процессе ориентировки, в процессе соотнесения цели с отрезком пути, отделяющим ее от субъекта. Поэтому они устанавливаются в направ­лении от цели к субъекту, т. е. в порядке, обратном ходу действия, по так называемому «градиенту цели»[61]. Этот градиент в некотором отношении представляет собой парадоксальное явление: чтобы достичь цели, нужно ка­ждый раз пройти весь путь от начала до конца, а закрепля­ется этот путь по отдельным отрезкам, начиная от конца к началу! Почему начальные отрезки пути не запоминаются по меньшей мере так же, как его завершающие части? Тем более что первые требуют большего ориентировочного напряжения, чем те, что расположены ближе к цели.

Видимо, запоминание пути определяется не только частотой его прохождения и величиной прилагаемых уси­лий, но в первую очередь ясностью отношения его час­тей к цели и, следовательно, необходимостью ориенти­роваться на каждом микроотрезке ситуации на его отношение к ближайшей цели[62]. В начале научения, ко­гда промежуточные цели еще не намечены, такой бли­жайшей целью является только основная, конечная, с которой поэтому и начинается процесс выделения пути. В целенаправленном действии основная цель есть пер­вое и очевидно значимое среди прочих объектов поля, ко­торые выделяются и запоминаются лишь по мере увязки с нею.

Даже у животных цепь промежуточных ориентиров и действий может быть очень длинной, но она обязательно должна заканчиваться основным подкреплением, «конеч­ной целью», иначе промежуточные цели теряютсвое вто­ричное, производное от нее значение. Этим объясняется тот факт, что образование условных рефлексов второго порядка без подкрепления первого оказывается трудным и нестойким[63]. Между тем, цепи условных рефлексов, которые завершаются «настоящим подкреплением», мо­гут быть очень длинными (Б. Ф. Скиннер, А. В. Напал­ков). Подкрепление должно быть значащим, а не услов­ным, а условный раздражитель (именно условный) сам по себе является индифферентным и никаким устойчи­вым значением, даже ориентировочным, не обладает; об­разование условной связи на одном ориентировочном подкреплении требует поддерживать ориентировочные раздражители «живыми», все время в какой-то мере «но­выми», т. е. безусловными, а не условными, хотя и «чисто ориентировочными раздражителями». Условные рефлек­сы опираются на связь между подкреплением и тем, что ему систематически предшествует, предупреждает о нем, ведет к нему. И естественно, что эта связь намечается не от начальных отрезков и ориентиров пути, а от последне­го, явственно увязанного с целью и поэтому в обратном порядке — «от конца к началу».

Этому на первый взгляд противоречит «метод гуман­ной дрессировки» животных, который в конце прошлого и начале нашего века открыл В. Л. Дуров[64], а значительно позже, уже в 30-е годы переоткрыл Б. Скиннер[65] (В. Skin­ner). Этот метод заключается в формировании сложной цепи условных рефлексов «от начала к концу», т. е. в по­рядке, обратном тому, о котором мы только что говорили. Но это противоречие мнимое. При научении от начала к концу экспериментатор делит весь путь на ряд последо­вательных шагов, из которых первый сначала получает самостоятельное и вполне «деловое» подкрепление. Пе­реход ко второму шагу (а от него — к следующему и т. д.) намечается не самим животным, а экспериментатором — он держит новую порцию приманки так, что, следуя за нею, животное вслед за предыдущим делает очередной шаг, который тут же получает еще одно, тоже «деловое» подкрепление. В таком порядке подкрепление дается и после третьего шага, потом — после четвертого и т. д. При анализе такого метода воспитания цепи условных рефлек­сов приходится различать: как задача выгладит для экспе­риментатора и как она выступает для животного. Для экс­периментатора она выгладит как движение от начала к концу, т. е. к цели, которую он наметил заранее. А для жи­вотного выступает только очередная цель, которая посте­пенно все дальше отодвигается по линии уже освоенных шагов.

Таким образом, и в этом случае для обоих участников опыта путь открывается «от цели к началу» (движения), только для экспериментатора такой целью представляет­ся «конечная цель», а для животного — ближайшая, ко­торая в следующий раз становится промежуточной. Дей­ствительный механизм остается одним и тем же: от того смыслового значения, которое имеет предмет потребно­сти, к его ориентировочному значению (по его положе­нию среди других вещей проблемной ситуации) и к ори­ентировочному значению тех промежуточных вещей, что расположены между субъектом и целью.

Благодаря соотнесениям в плане образа сначала вы­деляется конечная цель, а затем и промежуточные цели, и предметы на пути к завершающему подкреплению ста­новятся ориентирами, так сказать, ориентировочными раздражителями. Если это происходит однократно, то ориентировочное значение объекта угасает после выпол­нения действия. Если в том же ориентировочном качест­ве эти объекты выступают повторно, то они превраща­ются в условные раздражители и по мере их закрепления процесс автоматизируется. Но различия в прочности ус­ловного значения — явление вторичное, основной же процесс — образование этого значения — в обоих случа­ях остается одним и тем же: выделение связи между тем, что уже имеет значение, и тем, что по времени или по ходу действия ему предшествует. Эта объективная связь выяв­ляется и приобретает значение благодаря ориентировоч­но-исследовательской деятельности и вначале сохраня­ется только в процессе этой деятельности, являясь опорой для соотнесения в плане образа.

До сих пор мы пользовались ситуациями, в которых «заданный результат» — «потребное будущее» — (оба тер­мина Н. А. Бернштейна) составляет предмет какой-нибудь «деловой» потребности; в этих ситуациях даже «чисто ориентировочное подкрепление» устанавливается лишь относительно «деловою» подкрепления и опирается на его силу. Но уже в жизни животных ориентировочная деятель­ность приобретает настолько большое значение, что вы­деляется в значительной мере в самостоятельную и весь­ма характерную деятельность. На это неоднократно указывал И. П. Павлов[66]. В этих случаях «заданным ре­зультатом», целью ориентировочно-исследовательской деятельности становится не достижение какого-нибудь определенного объекта или положения и ознакомление с ним. Этот процесс хорошо показан у П. Кроукфорта в описании первого ознакомления мыши с новым местом своего обитания: «Когда клетка с Артуром была открыта, произошло то, что происходило за тем со всеми после­дующими мышами, безразлично были ли они самцами или самками. Уже через несколько секунд Артур медлен­но выполз на пол, пробежал несколько шагов и точно тем же путем возвратился в клетку. Там он тотчас повернулся и опять побежал тем же путем, но на этот раз немного дальше. В результате он очутился возле стены. Пройдя вдоль нее несколько шагов, он повернулся и прежним путем возвратился к клетке. Последовали новые вылаз­ки, которые становились все более и более дерзкими, так что через пятнадцать минут Артур уже бегал по всему пери­метру комнаты и начинал понемногу срезать углы. Затем наступил момент, когда он расстался с теперь уже знако­мой стеной и приступил к исследованию неведомых внут­ренних областей. На каждом этапе своих исследований он «поддерживал связь» с клеткой. Позже я установил, что стоило мне во время этой фазы исследования нарочно или нечаянно произнести легкий шум, как мышь немедленно кидалась к клетке, доказывая, что она все время имела чет­кое представление о том, где именно находится ее убежи­ще. Известно, что в подошвах мышиных лапок находятся железы, выделяющие жироподобные вещества, и, вероят­но, они-то и дают мыши возможность с помощью обоня­ния точно возвращаться по собственному следу, когда у нее есть на это время. Известно также, что, убегая к убе­жищу, мышь полагается на свое кинестетическое чувство, на... память о всей последовательности мышечных дви­жений. Час спустя Артур доказал, что в его голове уже хра­нится точный топографический план комнаты: теперь он возвращался к клетке напрямик через неисследованные участки. Когда же я бесшумно поднял клетку к себе, он пришел в большое волнение и принялся бегать по комна­те, неизменно возвращаясь к тому месту, где прежде стоя­ла клетка, которую он, по-видимому, пытался отыскать. Затем, он оставил эти поиски и продолжал исследование комнаты»[67].

Какое значение имеет такое знакомство с обстанов­кой, свидетельствует другое наблюдение того же автора: «Я впустил в комнату двух самцов... и увидел, как один из них замер, а потом начал агрессивные наскоки на друго­го, но тот каждый раз уходил и продолжал исследования. Однако в манере его ухода чувствовалось тонкое отличие. Создавалось впечатление, что этот самец рассматривает атаки своего конкурента как докучливую помеху, а не как повод для тревоги. Агрессивная мышь была настолько поглощена присутствием второй мыши, что она только и делала, что бегала за ней, а исследования почти прекра­тила. Через два часа исследователь кончил знакомиться с помещением. И тут его поведение резко изменилось. Он перестал убегать и начал драться. Вскоре он доказал свое превосходство в силе — а может быть, в решимости, — бывший преследователь превратился в преследуемого. Его положение оказалось крайне невыгодным, так как он пло­хо знал помещение, и на моих глазах он превратился в забитую подчиненную мышь»[68].

Как мы видим из этого описания, в результате обсле­дования местности предметы и отношения между ними не приобретают значения условных раздражителей, вы­зывающих строго постоянную реакцию. С одним и тем же предметом могут выполняться разные действия в за­висимости от задачи, в которую этот предмет включает­ся. А задачи эти меняются в зависимости от многих пере­менных и определяются, во-первых, доминирующей потребностью, и, во-вторых, тем положением, которое в данный момент индивид занимает в ситуации. Но даже в том случае, когда все эти компоненты остаются постоян­ными, детали разыгрываемых действий постоянно меня­ются, и поэтому выполнение действий требует неусып­ной, активной ориентировки: где находится ближайший объект, на каком расстоянии, как к нему подойти, что сделать, чтобы надежно его захватить, — все должно на­мечаться тут же, быстро, и немедленно осуществляться по этой наметке.

Действия, которые осуществляются по такой наметке в плане образа, являются активными. Они следуют тем отно­шениям вещей, которые приобретаютсвое значение — пути к цели — и тут же теряют это значение после ее достиже­ния. Это значения одноразового действия, устанавливае­мые «здесь и сейчас», приобретающие силу только в про­цессе ориентировки и теряющие ее вместе с переходом к следующему объекту ориентировочной деятельности.

Таким образом, механизм активных действий можно уподобить (в некотором самом общем виде) образованию ориентировочных значений, так сказать, ориентировоч­ных раздражителей однократного действия. Отличие этих раздражителей состоит в том, что они не вызывают ка­кой-нибудь определенной реакции, а только указывают на объективную связь между объектом А и объектом Б, связь, прослеживая которую или двигаясь вдоль которой субъект может перейти от А к Б (или в обратном направ­лении). Он может сделать это физически или одной «точ­кой взора», в границах наличной ситуации или подготав­ливаясь к ожидаемой. Этим значениям «указаний на» — соответствуют разные действия, которые невыпускаютна исполнительную периферию, а сначала намечаются в пла­не образа, следовательно, только как возможные. К испол­нению они принимаются лишь после того, как будут оп­робованы и апробированы с помощью примеривания или экстраполяции в плане образа. Можно сказать, что эти связи являются «сугубо условными» в том смысле, что они только указывают на условия, которые открываются субъ­екту в плане образа и при соотнесении элементов поля, но без соотнесения с целью и «утверждения» субъектом действий не вызывают.

Выделение таких ориентировочных связей и их прехо­дящих ориентировочных значений является естественным и неизбежным следствием того бесспорного факта, что объекты проблемной ситуации при надлежащих условиях становятся условными раздражителями на одном ориен­тировочном подкреплении. Но то, что со временем стано­вится прочным, вначале является непрочным и все-таки действенным; когда возникает острая потребность, напри­мер, при очень большом эмоциональном напряжении, то ориентировочное значение определяется и даже закрепля­ется уже при однократном соотнесении объектов.

Таким образом, и самых общих чертах механизм актив­ных действий оказывается тем же, что и механизм обыч­ных условных реакций с тем, однако, существенным раз­личием, что этот механизм: I) ограничивается выделением (иногда только наметкой) объективной связи между объ­ектами в психическом отражении наличной ситуации и 2) не получает закрепления в своей физиологической ос­нове (потому что срабатывает только один раз и на это рассчитан). Если же этот механизм систематически вос­производится и связь между объектами выступает как оправдавший себя путь неоднократного действия, то он превращается в более стойкий механизм условного реф­лекса; в меру этого полное воспроизведение ориентиров­ки в данных обстоятельствах становится излишним, ори­ентировка «угасает», а процесс автоматизируется.

Наши рекомендации