Какова должна быть связь между оперантной реакцией и подкреплением для того, чтобы произошло обусловливание?

Исходя из здравого смысла можно было бы сказать, что подкрепление данного акта поведения происходит потому, что он производит некоторые преобразования среды или положения тела животного в среде так, что этим обеспечивается удовлетворение той или иной по­требности. Однако такое рассуждение в корне противо­речит духу скиннеровской теории. Во-первых, «ошибочно говорить, что пища оказывает подкрепляющее действие потому, что мы чувствуем голод, илипотому, что мы чувствуем потребность в пище» (Skinner, 1974, р. 50). Чув­ство голода есть лишь ощущение некоторого условия, участвующего в процессе подкрепления, причем это ус­ловие действует вне зависимости от того, ощущается оно или нет. Во-вторых, — и это главное — связь между ре­акцией и возникающим после нее безусловным стиму­лом, подкрепляющим ее, является не предметной, содержательной связью, а отношением временного сле­дования. Они могут быть, конечно, связаны и содержа­тельно-предметно, когда оперантная реакция является предметной причиной возникновения в стимульном поле животного подкрепления, но таковой эта связь будет лишь по совпадению, а не по существу. С точки зрения скиннероаской схемы оперантного обусловливания ре­альный характер связи между реакцией и подкреплени­ем (и формы чувственной данности животному этой связи) несущественен, то есть теоретически не разли­чим (хотя эмпирически он, конечно, вполне может быть зафиксирован). Реакция в этой схеме будет подкреплена потому, что безусловный стимулпоследовал за ней, а не потому, что она еговызвала.

Оперантная реакция (ответ)

Центральным звеном, сердцем радикального бихевио­ризма является представление об оперантной реакции. Если в результате подкрепления оперантный рефлекс S—R не появляется, не исчезает и никак не перестраивается, а лишь увеличивается или уменьшается вероятность его появления, значит и часть его, реакция R, в прижизнен­ном опыте животного не испытывает никаких преобразо­ваний. Оперантная реакция есть, таким образом, врожденное, твердое, не изменяющееся в онтогенезе дви­гательное образование. В этом своем готовом виде она вре­мя от времени «выбрасывается» организмом в среду и затем, как пружина, вновь возвращается в исходное по­ложение. Она, так сказать, предлагает процессам приспо­собления принять себя такой, как она есть, и только назначить ей ту или иную частоту своего проявления при наличии определенной стимульной ситуации. Подобно герою авантюрного романа (см. Бахтин, 1975), она воз­вращается после столкновения с предметным миром в том же виде и состоянии, в котором ушла, ни на йоту не изменившись, а только испытав и удостоверив в этом столкновении свой неизменный состав. Реакция не де­формируется и не преображается, в ее фактуре не остает­ся никаких осадков, примесей и следов от ее выхода в свет. Это представление мы будем условно называть абст­ракцией «чистого движения»[34].

Если пренебречь некоторыми тонкостями, можно ска­зать, что наблюдать «чистые» движения мы могли бы толь­ко имея оптический прибор, вычитающий все влияния, которые оказываются на эти движения со стороны вне­шних предметов. В реальном же эмпирическом наблюде­нии мы имеем дело всегда с «фенотипом» данной реакции, который есть равнодействующая его врожденного соста­ва и сил внешней среды.

Здесь, в этом пункте своей концепции, Скиннер стал­кивается с самой, вероятно, сложной теоретической и методической проблемой — проблемой идентификации данного оперантного ответа. Она должна рассматриваться в двух аспектах — во-первых, как проблема отождествле­ния нескольких в разное время происходящих реакций, во-вторых, как проблема временных границ, начала и конца данной оперантной реакции.

На идентификации разновременных реакций осно­вывается весь массив экспериментальных исследований радикального бихевиоризма. В самом деле, если экспери­ментатор должен оценить изменение вероятности появ­ления реакции, он должен быть уверен, что наблюдаемая им сегодня реакция животного есть та же самая реакция, которую животное осуществляло вчера. Предположим, в эксперименте исследуется оперантная реакция нажатия на рычаг, причем подкрепляются только нажатия с оп­ределенной силой F. Такая реакция и будет искомым оперантным ответом Rf. Если самописец, фиксирующий силу нажатия, достигает отметки F, значит произошла данная реакция Rf. Но все дело в том, что животному доступно практически бесконечное число движений R1, R2 R3, ... Rn, с помощью которых можно произвести одинаковое нажатие экспериментального рычажка. Схематически в векторном виде это можно изобразить так:

Какова должна быть связь между оперантной реакцией и подкреплением для того, чтобы произошло обусловливание? - student2.ru

R — реакция, производящая Множество реакций, которые действуют

нажатие на рычаг с силой F - на рычаг с вертикальной силой F

Схема 2. Идентификация реакции по силе нажатия на рычаг

Что считать подкрепляемой реакцией Rf — операционально ли фиксируемыйрезультат нажатия с определенной си­лой на рычаг или те конкретные движения животного R1, R2 R3, ... Rn[35], которые приводят к этому результату? После­дние не могут считаться подкрепляемыми реакциями, по­скольку мы просто не знаем, какие (или какая) из них имели место во время данного эксперимента, и потому не можем судить, увеличилась ли их вероятность в результате подкрепления. Значит, за подкрепляемую реакцию следует принять некоторое гипотетическое движение Rf , относи­тельно которого невозможно утверждать, происходило оно в действительности или нет. Иначе говоря, об оперантной реакции мы судим только по ее результату, а не по ее ре­альному двигательному составу, и отождествляем в рамках данной экспериментальной ситуации все реакции, имею­щие один и тот же результат. Следовательно, когда дело до­ходит до эмпирического наблюдения, оказывается, что оно не дотягивается до тех теоретически постулированных сущ­ностей — оперантных реакций, которые представляют собой неизменные именно со стороны своего двигательного состава образования, изменяющие лишь вероятность свое­го возникновения в результате подкрепления. Мы никогда не можем быть уверены, что действительно произошла та же самая реакция, что и в прошлый раз, поэтому то, что мы экспериментально фиксируем в качестве оперантной реакции, ни в коем случае нельзя онтологизировать. И Скиннер, действительно, отказывается от попытки онтологизи­ровать реакцию, а вслед за ней и рефлекс (Skinner, 1931)[36].

Нормальное функционирование научной теории пред­полагает постоянное сличение теоретически выводимого и эмпирически наблюдаемого, а здесь между ними про­водится непреодолимый барьер: как теоретик, Скиннер желает свести реакцию к определенному, фиксирован­ному материальному составу; как экспериментатор, он получает нечто совсем другое. Вот и приходится, чтобы не рисковать исходными теоретическими убеждениями, отказываться сопоставлять эти две сферы, отказываться от онтологического толкования полученных эксперимен­тальных данных, то есть от того, ради чего эксперимент, собственно говоря, и существует.

Однако без онтологии в положительной науке не обой­тись, гони ее в дверь, она влетит в окно. И Скиннер вынуж­ден жертвовать казавшейся такой надежной позитивистской приземленностью и пускаться, хоть и не в далекие, но от того не становящиеся более операциональными, метафи­зические путешествия в поисках предустановленной гармо­нии между поведением, существующим само по себе, и его оперантным анализом: «При описании поведения обычно предполагается, что поведение и окружающую среду мож­но разбить на части и что они будут сохранять свою иден­тичность от эксперимента к эксперименту. Если бы это предположение не было бы в некотором смысле оправдан­ным, наука о поведении была бы невозможна... Анализ по­ведения не является актом произвольного подразделения, и мы не можем полностью определить понятия стимула и реакции просто как частей поведения и окружающей сре­ды, не принимая во внимание тех естественных линий, вдоль которых поведение и окружающая среда действительно членятся» (Skinner, 1935 а, р. 347).

Но посмотрим, в какой мере метод оперантного обус­ловливания способен членить поведение по имманентным поведению «естественным линиям». При этом мы перехо­дим к рассмотрению второго, временного аспекта пробле­мы идентификации оперантной реакции. Точнее, здесь следует говорить не о самой реакции, а о рефлексе, ибо вне рефлекса реакции нет, «вне отнесенности к своей корреля­ции со стимулами, поведение есть просто часть тотального функционирования организма» (Skinner, 1931, р. 346).

Если бы «тотальное функционирование организма» со­стояло из точечных атомарных реакций с нулевой длитель­ностью, и если бы события окружающей среды также оказывали бы точечные, моментальные воздействия на орга­низм, да к тому же, чтобы стать «стимулами», выстроились бы в колонну по одному и действовали бы друг за другом в строгой очередности, тогда в мире оперантного бихевио­ризма можно было бы ожидать законосообразности и по­рядка: стимул — реакция, стимул — реакция, стимул — реакция. Однако существует два простых факта, которые вносят смуту в этот упорядоченный стимул-реактивный марш организма от рождения до смерти. Первый из них со­стоит в том, что множество стимулов возникает и действует на организм одновременно, равно как одновременно мо­жет осуществляться и множество реакций. Второй заключа­ется в том, что и реакция, и стимул — не моментальные события, они имеют длительность.

Каким образом можно с учетом этих фактов иденти­фицировать определенный оперантный рефлекс Si — Ri, по крайней мере, установить начало и конец данного реф­лекса и его составных частей? Условимся обозначать бук­вой а начало действия стимула, а буквой b — окончание. Обозначим также начало и конец реакции буквами х и усоответственно. При таких обозначениях началом рефлекса является событиеа, а концом — событие у. Идеальной для теоретических схем радикального бихевиоризма яв­лялась бы ситуация, когда сразу же после b следуетх, и тогда весь рефлекс в проекции на временную ось склады­вается из двух интервалов — (a—b) + (х—у). Изобразив «поле стимулов» выше оси времени, а «поле реакций» — ниже, получим следующую схему (см. схему За).

Однако все оказывается не так просто. Поскольку Скиннер, верный махистскому принципу отказа от категории причинности, утверждает, что «стимулыне вызываютоперантных реакций; они просто изменяют вероятность, что эти реакции произойдут» (Skinner, 1974, р. 223), то кроме стимула S любой из имевших место до или/и во время реакции стимул S1, S2, S3, ... Sn может считаться стимулом данной реакции (см. схему 36).

Бессмысленно ставить вопрос о том, какой именно стимул является «настоящим» — мы можем принять за него любой из них и в результате получим ряд рефлексов (S1— Ri), (S2—Ri), (S3—Rn), … (Sn—Ri), вероятность которых изменится после подкрепления. Другими словами, точкаb, мо­мент окончания стимульного события, отнюдь не обяза­тельно совпадает с точкойх, моментом начала оперантной реакции, точка жеa, с которой следует отсчитывать начало рефлекса, из-за множественности стимулов и вовсе являет­ся неопределенной. Единственное, что возможно сделать для придания большей определенности началу оперантного реф­лекса, — это ограничить временную область, в которой мо­жет начаться оперантная реакция, зафиксировав момент исчезновения последнего имевшего место безусловно-рефлекторного стимула (подкрепления). Все, что произошло в окружающей среде после последнего безусловного стиму­ла, может претендовать на статус Si, — стимула оперантного рефлекса. Это ограничение, впрочем, тоже страдает нео­пределенностью, поскольку вызванная подкреплением бе­зусловная реакция может продолжаться и после того, как подкрепление исчезнет из стимульного поля, а как опреде­лить, где кончается эта безусловная реакция?

Какова должна быть связь между оперантной реакцией и подкреплением для того, чтобы произошло обусловливание? - student2.ru

Схема За. Идеальные временные отношения между сти­мулом и реакцией в оперантном рефлексе

Какова должна быть связь между оперантной реакцией и подкреплением для того, чтобы произошло обусловливание? - student2.ru

Схема 36. Проблема идентификации временных границ начала оперантного рефлекса и начала оперантной ре­акции. На схеме над временной осью изображено мно­жество стимулов разной длительности. Их объединяет лишь то, что любое а < х, то есть что начало стимула предшествует началу реакции

Не намного большей определенностью, чем начало, обла­дает и конечная точка оперантного рефлекса. По крайней мере здесь начисто отсутствует какая-либо внутренне конституиро­ванная целостность реакции, задающая присущую ей границу. Оперантный ответ может быть прерван в любой произвольно взятой точке у появлением подкрепления — безусловного сти­мула, в ответ на который сразу же (впрочем, и это «сразу же» — отнюдь не очевидная вещь) начнет развертываться уже дру­гая, безусловная, реакция. Появление подкрепления подво­дит черту под осуществляющейся оперантной реакцией. Но так как экспериментатор волен вводить подкрепление в лю­бой момент, то тем самым он может прервать реакцию в любой произвольно выбранной точке, нисколько не счита­ясь с «естественностью» такого обрыва. Если поведенческая «речь» будет застигнута подкреплением на «полуслове» или даже посредине недописанной двигательной «буквы», опе­рантной реакцией будет считаться вовсе не это «слово» и не «буква», а искусственно оторванное подкреплением их начало. Что же остается тогда не только от благих намерений Скиннера «принимать во внимание те естественные линии, вдоль которых поведение действительно членится» (Skinner, 1935 а, р. 347), но и от самих этих линий?

Можно, конечно, было бы попытаться спасти природ­ную целостность реакции как единицы поведения, если предположить, что, несмотря на появление подкрепления, реакция еще продолжается вплоть до присущей ей «есте­ственной границы» и только там останавливается. Но на такой шаг Скиннер пойти не может, ибо в этом случае придется признать, что кроме фундаментальной схемы оперантного обусловливания S0—R0=> S1—R1| (где S0—R0 — оперантный рефлекс, скажем, нажатие на рычаг при виде рычага, S1— R1 — безусловный рефлекс, например, появление пищи и реакция ее поедания, а стрелкой обозначено отношение временной последовательности) существует такой вариант отношений между оперантной реакцией R0 и подкрепляющим стимулом S1, когда действие S1, начинается до того, как завершилась реакция R0. В проекции на временную ось эти отношения можно изобразить таким образом.

Какова должна быть связь между оперантной реакцией и подкреплением для того, чтобы произошло обусловливание? - student2.ru

Схема Зв. Вариант временных отношений между оперант­ной реакцией R0 и подкреплением S1. На схеме S0—R0— оперантный рефлекс; S1— подкрепление (безусловный стимул); R1 — безусловная реакция

В этом случае совершенно непонятно, что же именно «подкрепляется» в начале действия стимула S1. Может быть, только тот фрагмент реакции (х — 1), который успел осу­ществиться до t0, начала действия подкрепления? А что подкрепляется в точке t1 — фрагмент ли реакции (1—2) или фрагмент (х — 2)? Словом, степень неопределенности становится так высока, что рассыпается краеугольный ка­мень радикального бихевиоризма — фундаментальная схе­ма оперантного обусловливания с ее основным принципом следования подкрепления за оперантной реакцией. Понятно, что это была бы слишком дорогая цена за указанную попытку спасти естественную целостность реакции как еди­ницы поведения.

Итак, вопреки декларациям Скиннера, эксперимент оказывается не прибором, с помощью которого можно объективно наблюдать естественные части поведения, а ножницами, кроящими это поведение как заблагорассу­дится. И остается только слепо верить, что ножницы эксперимента по какому-то мистическому стечению об­стоятельств точно попадают на швы между отдельными поведенческими актами.

Таким образом, и при рассмотрении временного ас­пекта обсуждаемой проблемы оказывается, что скиннеровский эксперимент не способен улавливать и идентифицировать теоретически постулируемые едини­цы поведения. Следует только оговориться, что эта неспособность метода строго очертить временные рамки реакции и решить таким образом стоящую перед ним те­оретическую проблему в какой-то мере компенсируется достаточным для многих технических целей резким суже­нием зоны протекания оперантной реакции за счет силь­ного уменьшения интервалов между следующими другзадругом подкреплениями. Поэтому, кстати сказать, в ка­честве положительного подкрепления при дрессировке жи­вотных Скиннер рекомендует пользоваться не пищей, поскольку ее невозможно быстро предъявить и посколь­ку придется ждать окончания безусловного реагирования, а условным сигналом о пище (Skinner, 1951).

Резюмируем сказанное относительно понятия оперантного рефлекса. Зона протекания оперантной реакции огра­ничивается (но не очерчивается) двумя следующими друг за другом безусловными стимулами. Это другая формули­ровка того положения, что оперантная реакция осуществ­ляется в условиях отсутствия безусловного стимула и вне данности животному связи его реакции с возможным по­явлением подкрепления. То есть оперантная реакция не осу­ществляется«ради чего-то», иначе говоря, не подлежит действию целевой причинности. Не происходит она и«пото­му что» появился некоторый стимул или возникла опреде­ленная потребность[37], то есть за ней не стоит и действующая[38] причина.Материальный состав реакции (то есть те конкрет­ные движения, которые вызвали наблюдаемое перемещение рычажка или другое действие) является неопределенным, а ее конкретнаяформа задается случайно, внешним обра­зом — прерывающим реакцию появлением подкрепления, то есть о материальной и формальной причине оперантной реакции говорить тоже не приходится. Итак, понятие операн­тной реакции ни в одном пункте не несет причинного ха­рактера. Оперантный рефлекс только вероятностен, это — поведенческая случайность.

Наши рекомендации