Какова должна быть связь между оперантной реакцией и подкреплением для того, чтобы произошло обусловливание?
Исходя из здравого смысла можно было бы сказать, что подкрепление данного акта поведения происходит потому, что он производит некоторые преобразования среды или положения тела животного в среде так, что этим обеспечивается удовлетворение той или иной потребности. Однако такое рассуждение в корне противоречит духу скиннеровской теории. Во-первых, «ошибочно говорить, что пища оказывает подкрепляющее действие потому, что мы чувствуем голод, илипотому, что мы чувствуем потребность в пище» (Skinner, 1974, р. 50). Чувство голода есть лишь ощущение некоторого условия, участвующего в процессе подкрепления, причем это условие действует вне зависимости от того, ощущается оно или нет. Во-вторых, — и это главное — связь между реакцией и возникающим после нее безусловным стимулом, подкрепляющим ее, является не предметной, содержательной связью, а отношением временного следования. Они могут быть, конечно, связаны и содержательно-предметно, когда оперантная реакция является предметной причиной возникновения в стимульном поле животного подкрепления, но таковой эта связь будет лишь по совпадению, а не по существу. С точки зрения скиннероаской схемы оперантного обусловливания реальный характер связи между реакцией и подкреплением (и формы чувственной данности животному этой связи) несущественен, то есть теоретически не различим (хотя эмпирически он, конечно, вполне может быть зафиксирован). Реакция в этой схеме будет подкреплена потому, что безусловный стимулпоследовал за ней, а не потому, что она еговызвала.
Оперантная реакция (ответ)
Центральным звеном, сердцем радикального бихевиоризма является представление об оперантной реакции. Если в результате подкрепления оперантный рефлекс S—R не появляется, не исчезает и никак не перестраивается, а лишь увеличивается или уменьшается вероятность его появления, значит и часть его, реакция R, в прижизненном опыте животного не испытывает никаких преобразований. Оперантная реакция есть, таким образом, врожденное, твердое, не изменяющееся в онтогенезе двигательное образование. В этом своем готовом виде она время от времени «выбрасывается» организмом в среду и затем, как пружина, вновь возвращается в исходное положение. Она, так сказать, предлагает процессам приспособления принять себя такой, как она есть, и только назначить ей ту или иную частоту своего проявления при наличии определенной стимульной ситуации. Подобно герою авантюрного романа (см. Бахтин, 1975), она возвращается после столкновения с предметным миром в том же виде и состоянии, в котором ушла, ни на йоту не изменившись, а только испытав и удостоверив в этом столкновении свой неизменный состав. Реакция не деформируется и не преображается, в ее фактуре не остается никаких осадков, примесей и следов от ее выхода в свет. Это представление мы будем условно называть абстракцией «чистого движения»[34].
Если пренебречь некоторыми тонкостями, можно сказать, что наблюдать «чистые» движения мы могли бы только имея оптический прибор, вычитающий все влияния, которые оказываются на эти движения со стороны внешних предметов. В реальном же эмпирическом наблюдении мы имеем дело всегда с «фенотипом» данной реакции, который есть равнодействующая его врожденного состава и сил внешней среды.
Здесь, в этом пункте своей концепции, Скиннер сталкивается с самой, вероятно, сложной теоретической и методической проблемой — проблемой идентификации данного оперантного ответа. Она должна рассматриваться в двух аспектах — во-первых, как проблема отождествления нескольких в разное время происходящих реакций, во-вторых, как проблема временных границ, начала и конца данной оперантной реакции.
На идентификации разновременных реакций основывается весь массив экспериментальных исследований радикального бихевиоризма. В самом деле, если экспериментатор должен оценить изменение вероятности появления реакции, он должен быть уверен, что наблюдаемая им сегодня реакция животного есть та же самая реакция, которую животное осуществляло вчера. Предположим, в эксперименте исследуется оперантная реакция нажатия на рычаг, причем подкрепляются только нажатия с определенной силой F. Такая реакция и будет искомым оперантным ответом Rf. Если самописец, фиксирующий силу нажатия, достигает отметки F, значит произошла данная реакция Rf. Но все дело в том, что животному доступно практически бесконечное число движений R1, R2 R3, ... Rn, с помощью которых можно произвести одинаковое нажатие экспериментального рычажка. Схематически в векторном виде это можно изобразить так:
R — реакция, производящая Множество реакций, которые действуют
нажатие на рычаг с силой F - на рычаг с вертикальной силой F
Схема 2. Идентификация реакции по силе нажатия на рычаг
Что считать подкрепляемой реакцией Rf — операционально ли фиксируемыйрезультат нажатия с определенной силой на рычаг или те конкретные движения животного R1, R2 R3, ... Rn[35], которые приводят к этому результату? Последние не могут считаться подкрепляемыми реакциями, поскольку мы просто не знаем, какие (или какая) из них имели место во время данного эксперимента, и потому не можем судить, увеличилась ли их вероятность в результате подкрепления. Значит, за подкрепляемую реакцию следует принять некоторое гипотетическое движение Rf , относительно которого невозможно утверждать, происходило оно в действительности или нет. Иначе говоря, об оперантной реакции мы судим только по ее результату, а не по ее реальному двигательному составу, и отождествляем в рамках данной экспериментальной ситуации все реакции, имеющие один и тот же результат. Следовательно, когда дело доходит до эмпирического наблюдения, оказывается, что оно не дотягивается до тех теоретически постулированных сущностей — оперантных реакций, которые представляют собой неизменные именно со стороны своего двигательного состава образования, изменяющие лишь вероятность своего возникновения в результате подкрепления. Мы никогда не можем быть уверены, что действительно произошла та же самая реакция, что и в прошлый раз, поэтому то, что мы экспериментально фиксируем в качестве оперантной реакции, ни в коем случае нельзя онтологизировать. И Скиннер, действительно, отказывается от попытки онтологизировать реакцию, а вслед за ней и рефлекс (Skinner, 1931)[36].
Нормальное функционирование научной теории предполагает постоянное сличение теоретически выводимого и эмпирически наблюдаемого, а здесь между ними проводится непреодолимый барьер: как теоретик, Скиннер желает свести реакцию к определенному, фиксированному материальному составу; как экспериментатор, он получает нечто совсем другое. Вот и приходится, чтобы не рисковать исходными теоретическими убеждениями, отказываться сопоставлять эти две сферы, отказываться от онтологического толкования полученных экспериментальных данных, то есть от того, ради чего эксперимент, собственно говоря, и существует.
Однако без онтологии в положительной науке не обойтись, гони ее в дверь, она влетит в окно. И Скиннер вынужден жертвовать казавшейся такой надежной позитивистской приземленностью и пускаться, хоть и не в далекие, но от того не становящиеся более операциональными, метафизические путешествия в поисках предустановленной гармонии между поведением, существующим само по себе, и его оперантным анализом: «При описании поведения обычно предполагается, что поведение и окружающую среду можно разбить на части и что они будут сохранять свою идентичность от эксперимента к эксперименту. Если бы это предположение не было бы в некотором смысле оправданным, наука о поведении была бы невозможна... Анализ поведения не является актом произвольного подразделения, и мы не можем полностью определить понятия стимула и реакции просто как частей поведения и окружающей среды, не принимая во внимание тех естественных линий, вдоль которых поведение и окружающая среда действительно членятся» (Skinner, 1935 а, р. 347).
Но посмотрим, в какой мере метод оперантного обусловливания способен членить поведение по имманентным поведению «естественным линиям». При этом мы переходим к рассмотрению второго, временного аспекта проблемы идентификации оперантной реакции. Точнее, здесь следует говорить не о самой реакции, а о рефлексе, ибо вне рефлекса реакции нет, «вне отнесенности к своей корреляции со стимулами, поведение есть просто часть тотального функционирования организма» (Skinner, 1931, р. 346).
Если бы «тотальное функционирование организма» состояло из точечных атомарных реакций с нулевой длительностью, и если бы события окружающей среды также оказывали бы точечные, моментальные воздействия на организм, да к тому же, чтобы стать «стимулами», выстроились бы в колонну по одному и действовали бы друг за другом в строгой очередности, тогда в мире оперантного бихевиоризма можно было бы ожидать законосообразности и порядка: стимул — реакция, стимул — реакция, стимул — реакция. Однако существует два простых факта, которые вносят смуту в этот упорядоченный стимул-реактивный марш организма от рождения до смерти. Первый из них состоит в том, что множество стимулов возникает и действует на организм одновременно, равно как одновременно может осуществляться и множество реакций. Второй заключается в том, что и реакция, и стимул — не моментальные события, они имеют длительность.
Каким образом можно с учетом этих фактов идентифицировать определенный оперантный рефлекс Si — Ri, по крайней мере, установить начало и конец данного рефлекса и его составных частей? Условимся обозначать буквой а начало действия стимула, а буквой b — окончание. Обозначим также начало и конец реакции буквами х и усоответственно. При таких обозначениях началом рефлекса является событиеа, а концом — событие у. Идеальной для теоретических схем радикального бихевиоризма являлась бы ситуация, когда сразу же после b следуетх, и тогда весь рефлекс в проекции на временную ось складывается из двух интервалов — (a—b) + (х—у). Изобразив «поле стимулов» выше оси времени, а «поле реакций» — ниже, получим следующую схему (см. схему За).
Однако все оказывается не так просто. Поскольку Скиннер, верный махистскому принципу отказа от категории причинности, утверждает, что «стимулыне вызываютоперантных реакций; они просто изменяют вероятность, что эти реакции произойдут» (Skinner, 1974, р. 223), то кроме стимула S любой из имевших место до или/и во время реакции стимул S1, S2, S3, ... Sn может считаться стимулом данной реакции (см. схему 36).
Бессмысленно ставить вопрос о том, какой именно стимул является «настоящим» — мы можем принять за него любой из них и в результате получим ряд рефлексов (S1— Ri), (S2—Ri), (S3—Rn), … (Sn—Ri), вероятность которых изменится после подкрепления. Другими словами, точкаb, момент окончания стимульного события, отнюдь не обязательно совпадает с точкойх, моментом начала оперантной реакции, точка жеa, с которой следует отсчитывать начало рефлекса, из-за множественности стимулов и вовсе является неопределенной. Единственное, что возможно сделать для придания большей определенности началу оперантного рефлекса, — это ограничить временную область, в которой может начаться оперантная реакция, зафиксировав момент исчезновения последнего имевшего место безусловно-рефлекторного стимула (подкрепления). Все, что произошло в окружающей среде после последнего безусловного стимула, может претендовать на статус Si, — стимула оперантного рефлекса. Это ограничение, впрочем, тоже страдает неопределенностью, поскольку вызванная подкреплением безусловная реакция может продолжаться и после того, как подкрепление исчезнет из стимульного поля, а как определить, где кончается эта безусловная реакция?
Схема За. Идеальные временные отношения между стимулом и реакцией в оперантном рефлексе
Схема 36. Проблема идентификации временных границ начала оперантного рефлекса и начала оперантной реакции. На схеме над временной осью изображено множество стимулов разной длительности. Их объединяет лишь то, что любое а < х, то есть что начало стимула предшествует началу реакции
Не намного большей определенностью, чем начало, обладает и конечная точка оперантного рефлекса. По крайней мере здесь начисто отсутствует какая-либо внутренне конституированная целостность реакции, задающая присущую ей границу. Оперантный ответ может быть прерван в любой произвольно взятой точке у появлением подкрепления — безусловного стимула, в ответ на который сразу же (впрочем, и это «сразу же» — отнюдь не очевидная вещь) начнет развертываться уже другая, безусловная, реакция. Появление подкрепления подводит черту под осуществляющейся оперантной реакцией. Но так как экспериментатор волен вводить подкрепление в любой момент, то тем самым он может прервать реакцию в любой произвольно выбранной точке, нисколько не считаясь с «естественностью» такого обрыва. Если поведенческая «речь» будет застигнута подкреплением на «полуслове» или даже посредине недописанной двигательной «буквы», оперантной реакцией будет считаться вовсе не это «слово» и не «буква», а искусственно оторванное подкреплением их начало. Что же остается тогда не только от благих намерений Скиннера «принимать во внимание те естественные линии, вдоль которых поведение действительно членится» (Skinner, 1935 а, р. 347), но и от самих этих линий?
Можно, конечно, было бы попытаться спасти природную целостность реакции как единицы поведения, если предположить, что, несмотря на появление подкрепления, реакция еще продолжается вплоть до присущей ей «естественной границы» и только там останавливается. Но на такой шаг Скиннер пойти не может, ибо в этом случае придется признать, что кроме фундаментальной схемы оперантного обусловливания S0—R0=> S1—R1| (где S0—R0 — оперантный рефлекс, скажем, нажатие на рычаг при виде рычага, S1— R1 — безусловный рефлекс, например, появление пищи и реакция ее поедания, а стрелкой обозначено отношение временной последовательности) существует такой вариант отношений между оперантной реакцией R0 и подкрепляющим стимулом S1, когда действие S1, начинается до того, как завершилась реакция R0. В проекции на временную ось эти отношения можно изобразить таким образом.
Схема Зв. Вариант временных отношений между оперантной реакцией R0 и подкреплением S1. На схеме S0—R0— оперантный рефлекс; S1— подкрепление (безусловный стимул); R1 — безусловная реакция
В этом случае совершенно непонятно, что же именно «подкрепляется» в начале действия стимула S1. Может быть, только тот фрагмент реакции (х — 1), который успел осуществиться до t0, начала действия подкрепления? А что подкрепляется в точке t1 — фрагмент ли реакции (1—2) или фрагмент (х — 2)? Словом, степень неопределенности становится так высока, что рассыпается краеугольный камень радикального бихевиоризма — фундаментальная схема оперантного обусловливания с ее основным принципом следования подкрепления за оперантной реакцией. Понятно, что это была бы слишком дорогая цена за указанную попытку спасти естественную целостность реакции как единицы поведения.
Итак, вопреки декларациям Скиннера, эксперимент оказывается не прибором, с помощью которого можно объективно наблюдать естественные части поведения, а ножницами, кроящими это поведение как заблагорассудится. И остается только слепо верить, что ножницы эксперимента по какому-то мистическому стечению обстоятельств точно попадают на швы между отдельными поведенческими актами.
Таким образом, и при рассмотрении временного аспекта обсуждаемой проблемы оказывается, что скиннеровский эксперимент не способен улавливать и идентифицировать теоретически постулируемые единицы поведения. Следует только оговориться, что эта неспособность метода строго очертить временные рамки реакции и решить таким образом стоящую перед ним теоретическую проблему в какой-то мере компенсируется достаточным для многих технических целей резким сужением зоны протекания оперантной реакции за счет сильного уменьшения интервалов между следующими другзадругом подкреплениями. Поэтому, кстати сказать, в качестве положительного подкрепления при дрессировке животных Скиннер рекомендует пользоваться не пищей, поскольку ее невозможно быстро предъявить и поскольку придется ждать окончания безусловного реагирования, а условным сигналом о пище (Skinner, 1951).
Резюмируем сказанное относительно понятия оперантного рефлекса. Зона протекания оперантной реакции ограничивается (но не очерчивается) двумя следующими друг за другом безусловными стимулами. Это другая формулировка того положения, что оперантная реакция осуществляется в условиях отсутствия безусловного стимула и вне данности животному связи его реакции с возможным появлением подкрепления. То есть оперантная реакция не осуществляется«ради чего-то», иначе говоря, не подлежит действию целевой причинности. Не происходит она и«потому что» появился некоторый стимул или возникла определенная потребность[37], то есть за ней не стоит и действующая[38] причина.Материальный состав реакции (то есть те конкретные движения, которые вызвали наблюдаемое перемещение рычажка или другое действие) является неопределенным, а ее конкретнаяформа задается случайно, внешним образом — прерывающим реакцию появлением подкрепления, то есть о материальной и формальной причине оперантной реакции говорить тоже не приходится. Итак, понятие оперантной реакции ни в одном пункте не несет причинного характера. Оперантный рефлекс только вероятностен, это — поведенческая случайность.