Предсказуемость и когнитивные факторы
До сих пор мы анализировали классическое обусловливание только применительно к внешним или окружающим событиям: за одним стимулом регулярно следует другой, и организм начинает их связывать между собой. Хотя этот бихевиористский взгляд доминировал много лет, уже давно находились исследователи, утверждавшие, что решающий фактор, который стоит за обусловливанием, — это то, что животное знает (Tolman, 1932). Согласно этому когнитивному взгляду, классическое обусловливание дает организму новое знание о связи между двумя стимулами; при наличии УС он научается ожидать БУС. Далее мы рассмотрим роль когнитивных факторов в классическом обусловливании.
Одновременность или предсказуемость?Со времен Павлова исследователи пытались определить, какой фактор для классического обусловливания является главным. Павлов полагал, что решающим фактором является совпадение УС и БУС во времени, то есть эти два стимула должны появиться близко по времени, чтобы выработалась ассоциация. Однако для совпадения по времени как основного фактора классического обусловливания есть альтернатива: необходимо, чтобы УС был надежным предвестником БУС. Другими словами, чтобы произошло обусловливание, БУС должен появляться с большей вероятностью при предъявлении УС, чем при его отсутствии.
В одном важном эксперименте (Rescorla, 1967) одновременность сопоставлялась с предсказуемостью. В некоторых пробах собак раздражали электрическим током (БУС), а в каких-то из этих проб электрическому удару предшествовал звуковой сигнал (УС). Процедуры для двух экспериментальных групп показаны на рис. 7.5. Число совпадающих по времени пар из звука и удара током в обеих группах было равным. Независимой переменной в группе А был звук, появлявшийся перед каждым электрическим ударом, а в группе Б наличие или отсутствие звукового сигнала перед таким ударом было равновероятно, так что звук здесь не имел реальной предсказующей силы. Предсказующая сила звука оказалась решающей: в группе А условный рефлекс сформировался быстро, а в группе Б — нет (это определялось по тому, реагирует или нет собака на звук так, как если бы она хотела избежать удара током). В других группах этого эксперимента (на рис. 7.5 не показаны) сила обусловливания была непосредственно связана с предсказательной ценностью УС, сигнализирующего о появлении БУС. Последующие эксперименты подтверждают вывод, что отношение предсказания между УС и БУС важнее, чем совпадение их по времени или частота парного предъявления УС и БУС (Rescorla, 1972).
Рис. 7.5. Эксперимент Рескорлы.На схеме показаны условия для двух экспериментальных групп. В каждой группе было 16 проб. Заметьте, что в некоторых пробах за УС следует БУС (УС + БУС); в некоторых пробах УС и БУС предъявляются по одному, а в некоторых нет ни УС, ни БУС. В правой части схемы показано число разных событий для двух групп. Количество проб с событием УС+БУС одинаково в обеих группах, как и количество проб, в которых предъявляется только УС. Различаются эти две группы количеством проб, в которых появляется только БУС (в группе А — никогда, в группе Б — с той же частотой, что и остальные типы проб). Таким образом, в группе А экспериментатор создал ситуацию, в которой звук являлся неплохим (хотя и несовершенным) предвестником скорого появления удара током, тогда как в группе Б звук не имел предсказательной ценности в отношении последующего удара. Условная реакция на УС легко выработалась в группе А и вообще не сформировалась в группе Б.
То, что делала собака в предыдущем эксперименте, можно сравнить с обычным действием ученого. Встречаясь с вероятностью важного отрицательного явления, например грозовой бури, ученый-метеоролог пытается отыскать что-либо, что предвещало бы это явление. Это не может быть просто что-то из того, что происходит одновременно с грозой, потому что такому критерию удовлетворяет множество безобидных событий (например, тучи и даже наличие деревьев). Метеоролог должен найти события, предвещающие грозу в том смысле, что они происходят перед грозой, но не происходят в другое время. Сходным образом, когда собаке в предшествующем эксперименте приходилось иметь дело со значимым отрицательным явлением в виде удара током, она тоже пыталась найти какое-то предупреждающее его событие. И подобно метеорологу, эта собака не обращается к событиям, которые просто происходят одновременно с ударом (например, вид экспериментальной установки или звук в экспериментальной группе Б); собака отыскивает явление, которое происходит всякий раз перед ударом, но не происходит в другое время (звук в экспериментальной группе А) и, следовательно, действительно предупреждает об ударе током.
Предсказуемость и эмоции.Предсказуемость важна также для эмоциональных реакций. Если определенный УС надежно предвещает наступление боли, то отсутствие этого УС предупреждает, что боли не будет и организму можно расслабиться. Следовательно, УС — это сигнал «опасности», а его отсутствие — сигнал «безопасности». Когда такие сигналы неустойчивы, эмоциональные издержки организма могут стать разорительными. Когда у крыс есть надежный предвестник грядущего удара током, они реагируют страхом только при наличии сигнала опасности; если же надежного предвестника у них нет, они непрерывно беспокоятся и у них даже может развиться язвенная болезнь (Seligman, 1975).
Здесь отчетливо видны параллели с эмоциями человека. Если зубной врач дает ребенку сигнал опасности, предупреждая, что сейчас будет больно, ребенку будет страшно, только пока процедура не кончится. Напротив, если зубной врач всегда говорит, что «больно не будет», хотя на самом деле иногда бывает больно, ребенок, не имея сигналов опасности и безопасности, может испытывать сильное беспокойство при каждом появлении зубного врача в кабинете. Во взрослом возрасте многие из нас переживали беспокойство, находясь в потенциально опасной ситуации, где не было предостерегающих сигналов. Неприятные события по определению неприятны, но неприятные и непредсказуемые события уж совсем непереносимы (этот момент подробнее обсуждается в гл. 14).
<Рис. Если знаешь, когда будет больно, беспокойство снижается.>
Биологические ограничения
В этой главе мы уже упоминали о том, что разные биологические виды научаются одному и тому же при помощи различных механизмов. Относящиеся сюда феномены были открыты этологами — биологами и психологами, изучающими поведение животных в естественном окружении. Эти феномены говорят о том, что то, чему организм может научиться путем обусловливания, определяется его биологическим устройством.
Этологический подход.Этологов, как и бихевиористов, интересует поведение животных, но они уделяют большее внимание не научению, а эволюции и генетике. Поэтому этологи придерживаются иного подхода к научению, полагая, что оно жестко ограничено генетическими задатками животного и что разные виды научаются одним и тем же вещам разными способами. (С другой стороны, ранние бихевиористы полагали, что законы научения у всех видов одинаковы.) Как отмечают этологи, когда животное учится, оно подчиняется генетически заданному «поведенческому проекту»; так же как архитектурный проект накладывает ограничения на те функции, которым может служить здание, так и поведенческий проект генетически ограничивает виды ассоциаций, которым организм может научиться. То есть животные предпрограммированы заучивать определенные вещи определенными способами.
Ограничения в классическом обусловливании.Некоторые наиболее яркие демонстрации ограничений в классическом обусловливании получены в исследованиях вкусового отвращения. В типичном эксперименте крысе дают пить раствор с добавкой, скажем, ванили. Выпив его, крыса слегка отравляется и заболевает. Когда крыса выздоравливает, ей опять предлагают ванильный раствор. Теперь крыса добросовестно избегает этого раствора, поскольку она научилась ассоциировать вкус ванили с болезненным состоянием. Довольно очевидно, что такое избегание — пример классического обусловливания: первоначальный вкус раствора — это УС, болезненные ощущения — это БУС, а после обусловливания вкус сигнализирует о возможном наступлении болезни.
Согласно ранним идеям бихевиористов, можно было бы ожидать, что свет или звук выполняет ту же сигнальную функцию, что и вкус. То есть если свет — столь же эффективный стимул, как и вкус, то ассоциацию между светом и болезненным ощущением выработать ничуть не труднее, чем ассоциацию между вкусом и болезненным ощущением. Но на самом деле оказывается иначе. Это было показано в эксперименте, представленном в табл. 7.2. На первом этапе экспериментальной группе крыс дают лизать трубку, содержащую раствор с добавкой; каждый раз, когда крыса лижет трубку, предъявляются щелчок и свет. Так крыса ощущает три стимула одновременно — вкус раствора, а также свет и щелчок. На втором этапе этих же крыс слегка отравляют. Вопрос: какие стимулы — вкус или свет + щелчок — будут ассоциироваться с болезненным ощущением? Чтобы ответить на него, на третьем, и последнем, этапе крысам экспериментальной группы снова дают ту же трубку; иногда у раствора в трубке тот же вкус, что и раньше, но нет света и щелчка, а иногда раствор безвкусный, но свет и щелчок предъявляются. Животные избегают раствора, когда они ощущают его вкус, а не при предъявлении пары свет + звук; следовательно, крысы ассоциировали с болезнью только вкус. Как показывает контрольный эксперимент, представленный в нижней части табл. 7.2, эти результаты нельзя приписать тому, что вкус — более сильный УС, чем свет + щелчок. На втором этапе крысам контрольной группы вместо мягкой отравы давали удар током. Контрольные крысы на заключительном этапе эксперимента избегали раствора только тогда, когда предъявлялся свет + щелчок, а не когда они ощущали только вкус (Garcia & Kolling, 1966).
Таблица 7.2. Эксперимент по ограничениям и вкусовому отвращению
Этап 1 | Этап 2 | Этап 3 | |
Экспериментальная группа | Вкус и свет+щелчок | Болезненное ощущение | вкус —> избегать свет+щелчок —> не избегать |
Контрольная группа | Вкус и свет+щелчок | Удар током | вкус — > не избегать свет+щелчок —> избегать |
План эксперимента, показывающего, что вкус — более сильный сигнал для болезненного ощущения, чем для удара током, тогда как свет+щелчок — более сильный сигнал для удара током, чем для болезненного ощущения (по: Garcia & Koelling, 1966).
Таким образом, вкус — более сильный сигнал для болезненного ощущения, чем для удара током, а свет + щелчок — более сильный сигнал для удара током, чем для болезненного ощущения. Почему существует такая избирательность ассоциаций? Она не согласуется с представлениями раннего бихевиоризма, что стимулы равной силы могут заменять друг друга; поскольку и вкус, и свет + щелчок могут стать эффективным УС и поскольку после проявления болезненных ощущений и раздражения от удара током и то и другое могут стать эффективным БУС, то любой из этих УС мог бы ассоциироваться с любым из БУС. Напротив, избирательность ассоциирования прекрасно согласуется с этологическим подходом и его акцентом на эволюционной адаптации животных к своему окружению. В естественных условиях обитания крысы (как и другие млекопитающие) при выборе пищи полагаются на вкус. Следовательно, может существовать генетически предопределенная, или «встроенная», связь между вкусом и пищеварительными реакциями, что благоприятствует ассоциации между вкусом и болезненными ощущениями, но не между светом и болезнью. Кроме того, в естественном окружении крысы боль, возникающая в результате таких внешних факторов, как холод или ранение, всегда вызывается внешними стимулами. Следовательно, может существовать встроенная связь между внешними стимулами и «внешней болью», благоприятствующая ассоциации между светом и ударом током, но не между вкусом и ударом током.
Если крысы научаются ассоциировать вкус с болезненными ощущениями потому, что это согласуется с их естественными способами выбора пищи, то, может быть, другим видам с иными способами выбора пищи будет трудно научиться ассоциировать вкус с болезненными ощущениями? Именно это и происходит. В естественных условиях птицы выбирают пищу по внешнему виду, а не по вкусу, и они легко научаются ассоциировать свет с болезнью, но не вкус с болезнью (Wilcoxin, Dragoin & Kral, 1971). Таким образом, здесь мы видим прекрасный пример того, как разные виды научаются одному и тому же (причине заболевания) различными способами. Короче, если мы хотим знать, что и чем можно обусловливать, нельзя брать УС и БУС порознь; мы должны рассмотреть их в сочетании и выяснить, насколько хорошо оно соответствует встроенным взаимосвязям. Такой вывод значительно отличается от того, что законы научения одинаковы для всех видов и ситуаций.
Оперантное обусловливание
В классическом обусловливании условная реакция часто напоминает обычную реакцию на безусловный стимул. Слюноотделение, например, — нормальная реакция собаки на пищу. Но если вы хотите научить организм чему-то новому, например научить собаку новому трюку, классическое обусловливание вам не поможет. Какой безусловный стимул заставит собаку сидеть или перекатываться? Чтобы обучить собаку, вам придется сначала убедить ее проделать нужный трюк, а потом вознаградить ее похвалой или пищей. Если продолжать так делать, собака со временем научится этому трюку.
Многое из поведения в реальной жизни похоже на это: реакциям научаются потому, что они действуют, или воздействуют на окружение. Такой тип научения, называемый оперантным обусловливанием, свойствен и человеку, и животным. Оставленный один в кроватке, ребенок может спонтанно брыкаться, вертеться или лопотать. Собака, оставшись одна в комнате, может метаться взад-вперед, что-то вынюхивать, может подобрать мячик, уронить его или поиграть с ним. Ни один организм не реагирует на появление или исчезновение конкретного внешнего стимула. Все они воздействуют на свое окружение. Но если организм уже осуществляет определенное поведение, вероятность того, что он повторит это действие, зависит от того, что следует за последним. Ребенок будет чаще лопотать, если за каждым таким действием следует родительское внимание, и собака будет чаще поднимать мячик, если за этим следует ласка или вознаграждение пищей. Если считать, что у ребенка есть цель вызвать родительское внимание, а у собаки цель — пища, то оперантное обусловливание сводится к научению тому, что определенное поведение ведет к достижению определенной цели (Rescorla, 1987).
Закон эффекта
Изучение оперантного обусловливания началось на рубеже нашего века с ряда экспериментов Торндайка (Е. L. Thorndike, 1898). Торндайк, на которого сильно повлияла дарвиновская теория эволюции, стремился показать, что научение у животных неотрывно от научения у человека. Типичный эксперимент проходил так. Голодного кота сажали в клетку, дверца которой была закрыта на простую задвижку, а совсем рядом с клеткой клали кусочек рыбы. Поначалу кот пытался добраться до рыбы, протягивая лапы между прутьев. Когда это не получалось, кот перемещался по клетке, предпринимая самые разные действия. В какой-то момент он случайно задевал задвижку, выходил на свободу и съедал рыбу. Затем кота сажали обратно в клетку и бросали снаружи новый кусочек рыбы. Кот совершал примерно ту же последовательность действий, пока ему опять не удавалось открыть задвижку. Эта процедура повторялась снова и снова. Продолжая пробы, кот отбрасывал многие бесполезные действия, постепенно достигая удачного открывания задвижки и выхода на свободу, как только его помещали в клетку. Этот кот научился открывать задвижку, чтобы получить пищу.
Все это выглядит так, как будто кот действует разумно, но Торндайк утверждал, что здесь присутствует мало «интеллекта». За все время не было такого момента, чтобы у кота появилась догадка о решении этой задачи. Вместо этого достижения кота постепенно улучшались с продолжением проб. Кот не догадывается, а просто ведет себя по типу проб и ошибок, и когда после совершения какого-то действия немедленно следует вознаграждение, научение этому действию закрепляется. Это закрепление Торндайк называл законом эффекта. Он утверждал, что при оперантном научении в силу закона эффекта из набора случайных реакций выбирается та, за которой идут положительные последствия. Этот процесс сходен с эволюцией, в которой закон выживания самого приспособленного выбирает из набора случайных вариаций вида именно те изменения, которые способствуют выживанию этого вида. Закон эффекта, таким образом, провозглашает выживание самых приспособленных реакций (Schwartz, 1989).
Эксперименты Скиннера
Б. Ф. Скиннер — виновник целого ряда изменений в представлениях о том, что такое оперантное обусловливание и как его изучать. Его метод исследования оперантного обусловливания был проще, чем у Торндайка (например, использовалась только одна реакция), и стал широко принятым.
<Рис. Б. Ф. Скиннер явился основоположником изучения оперантного обуславливания.>
Вариации эксперимента.В эксперименте Скиннера голодное животное (обычно крысу или голубя) помещают в ящик, подобный изображенному на рис. 7.6, с популярным названием «ящик Скиннера».
Рис. 7.6. Устройство для оперантного обусловливания.На фото показан ящик Скиннера с кассетой для подачи пищевых шариков. Компьютер используется для управления экспериментом и регистрации реакций крысы.
Ящик внутри пуст, если не считать выступающего рычага, под которым стоит тарелка для еды. Небольшая лампочка над рычагом может включаться по усмотрению экспериментатора. Оставленная одна в ящике, крыса передвигается и исследует его. Случайно она обнаруживает рычаг и нажимает на него. Частота, с которой крыса вначале нажимает на рычаг, — фоновый уровень. После установления фонового уровня экспериментатор запускает в действие кассету с пищей, расположенную снаружи ящика. Теперь каждый раз, когда крыса нажимает на рычаг, небольшой шарик пищи выпадает в тарелку. Крыса съедает его и вскоре снова нажимает на рычаг; пища подкрепляет нажатие на рычаг, и частота нажатий стремительно растет. Если кассету с пищей отсоединить, так что при нажатии на рычаг пища больше не подается, частота нажатий будет уменьшаться. Следовательно, оперантно обусловленная реакция (или просто операнта) при неподкреплении угасает точно так же, как и классически обусловленная реакция. Экспериментатор может установить критерий дифференцировки, подавая пищу только тогда, когда крыса нажимает на рычаг при горящей лампочке, и тем самым вырабатывая условную реакцию у крысы путем избирательного подкрепления. В этом примере свет служит дифференцировочным стимулом, который контролирует реакцию.
Итак, оперантное обусловливание повышает вероятность некоторой реакции, когда определенное поведение сопровождается подкреплением (обычно в виде пищи или воды). Поскольку в ящике Скиннера рычаг присутствует всегда, крыса может нажимать на него так часто или не часто, как сама выберет. Таким образом, частота реакции служит удобной мерой силы операнты: чем чаще совершается реакция за данный временной интервал, тем больше ее сила.
Следует указать на отношение между терминами «вознаграждение» и «наказание», с одной стороны, и «положительное» и «отрицательное подкрепление», с другой. Термин «вознаграждение» может использоваться синонимично с термином «положительный подкрепляющий фактор» — событие, которое увеличивает вероятность той или иной формы поведения, если оно следует за данной формой поведения. Однако наказание — это не то же самое, что отрицательный подкрепляющий фактор. Термин «отрицательное подкрепление» означает прекращение наступления нежелательных событий, следующих за той или иной формой поведения; как и положительное подкрепление, оно увеличивает вероятность соответствующей формы поведения. Наказание же имеет противоположный эффект: оно уменьшает вероятность наказуемого поведения. Наказание также может быть как положительным (воздействие неприятного стимула), так и отрицательным (лишение положительного стимула) (см. табл. 7.3).
Таблица 7.3. Типы подкрепления и наказания
Тип | Определение | Эффект | Пример |
Положительное подкрепление | Приятный стимул, следующий за желательной формой поведения | Увеличивает вероятность желательной формы поведения | Высокая оценка на экзамене |
Отрицательное подкрепление | Прекращение воздействия неприятного стимула вслед за желательной формой поведения | Увеличивает вероятность желательной формы поведения | Разрешение ребенку пойти погулять после того, как он прекратил истерику |
Положительное наказание | Воздействие неприятного стимула вслед за нежелательной формой поведения | Уменьшает вероятность нежелательной формы поведения | Низкая оценка на экзамене |
Отрицательное наказание | Прекращение воздействия приятного стимула вслед за нежелательной формой поведения | Уменьшает вероятность нежелательной формы поведения | Запрещение смотреть телевизор ребенку, который плохо себя ведет |
Применение к воспитанию детей.Хотя в оперантном обусловливании любимыми экспериментальными животными были крысы и голуби, оно применимо ко многим биологическим видам, включая нас самих. Действительно, оно может многое сказать нам о воспитании детей. Особенно ярким примером этому служит такой случай. У маленького мальчика были вспышки гневного раздражения, если он не получал достаточно внимания от родителей, особенно перед сном. Поскольку родители рано или поздно откликались, проявляемое ими внимание подкрепляло гнев ребенка. Чтобы снять эту гневную раздражительность, родителям посоветовали выполнять обычный ритуал укладывания спать, а затем игнорировать протесты ребенка, хотя это и может быть болезненно. При воздержании от подкрепления (уделения внимания) вспышки гнева должны угасать; именно это и произошло. Всего за 7 дней время, в течение которого этот ребенок плакал в постели, сократилось с 45 минут до нуля (Williams, 1959).
<Рис. Склонность детей к истерикам можно ослабить, если их поведение не подкреплять родительским вниманием.>
Еще одно применение оперантного обусловливания к воспитанию детей касается временного соотношения между реакцией и ее подкреплением. Лабораторные эксперименты показали, что немедленное подкрепление более эффективно, чем задержанное; чем больше времени проходит между оперантной реакцией и подкреплением, тем меньше сила реакции. Многие специалисты по психологии развития отмечали, что задержка подкрепления — важный фактор ухода за маленькими детьми. Если ребенок по-доброму относится к домашнему животному, его действия лучше всего можно закрепить вознаграждением (похвалой, например) немедленно, не откладывая это на потом. Сходным образом, если ребенок бьет кого-либо без провокации в свой адрес, то такое агрессивное поведение будет исключено с большей вероятностью, если его наказать немедленно, не откладывая на потом.
Формирование.Предположим, вы хотите использовать оперантное обусловливание, чтобы научить вашу собаку трюку — например, нажимать носом на звонок. Вы не можете ждать, пока собака сделает это сама собой (и тогда подкрепить это), поскольку ждать можно вечно. Если требуемое поведение действительно новое, вы должны обусловить его, используя преимущество естественных вариации в действиях животного. Чтобы научить собаку нажимать звонок носом, можно давать ей пищевое подкрепление каждый раз, когда она приближается к зоне звонка, заставляя ее с каждым подкреплением подходить ближе и ближе к нужному месту, пока наконец нос собаки не коснется звонка. Такая техника, когда подкрепляются только те отклонения в реакциях, которые нужны экспериментатору, называется формированием поведения животного.
Применяя метод формирования, животных можно научить отрабатывать трюки и последовательности действий. Два психолога с сотрудниками подготовили тысячи животных многих видов для телевизионных шоу, рекламы и окружных ярмарок (Breland & Breland, 1966). В одном популярном шоу участвовала «Присцилла, привередливая свинка». Присцилла включала телевизор, ела завтрак за столом, подбирала грязную одежду и клала ее в. корзину, пылесосила пол, выбирала свою любимую еду (среди продуктов, конкурирующих с продукцией ее спонсора!) и принимала участие в викторине, отвечая на вопросы аудитории нажатием на выключатели лампочек, показывавших «да» или «нет». Она не была особо одаренной свиньей: на самом деле, поскольку свиньи растут очень быстро, новую «Присциллу» готовили каждые 3-5 месяцев. Подлинной изобретательностью отличались все же не свиньи, а экспериментаторы, которые использовали оперантное обусловливание и формировали поведение, чтобы добиться желаемого результата. Путем формирования оперантных реакций голубей тренировали находить людей, потерявшихся в море (рис. 7.7), а морских свинок тренировали находить подводное оборудование.
<Рис. Оперантное обусловливание и формирование поведения используются в дрессировке животных для обучения их выполнению различного рода трюков.>
Рис. 7.7 Поиск и спасение с помощью голубей. Береговая охрана использовала голубей для поиска людей, потерявшихся в море. Применяя методы формирования, голубей тренировали распознавать оранжевый цвет — международный цвет спасательных жакетов. Три голубя пристегнуты в ящике из оргстекла, прикрепленном к днищу вертолета. Ящик поделен на секции, так что каждая птица смотрит в своем направлении. Когда голубь обнаруживает оранжевый объект или любой другой объект, он клюет ключ, и у пилота звенит звонок. Тогда пилот разворачивается в направлении, указанном среагировавшей птицей. Для обнаружения удаленных объектов в море голуби подходят больше, чем люди. Они могут смотреть на воду в течение долгого времени, не страдая от усталости глаз: у них превосходное цветовое зрение, а зона фокусировки у них 60-80 градусов, тогда как у человека — 2-3 градуса (по: Simmons, 1981).
Феномены и их применение
Существует ряд явлений, значительно расширяющих сферу действия оперантного обусловливания и указывающих на возможное его применение к поведению человека.
Условное подкрепление.Большинство из рассмотренных нами подкреплений называются первичными, поскольку, как и пища, они удовлетворяют основные потребности. Если бы оперантное обусловливание происходило только с первичными подкреплениями, оно не было бы таким распространенным в нашей жизни, поскольку первичные подкрепления не столь часты. Однако практически любой стимул может стать вторичным, или условным, подкреплением, если его последовательно сочетать с первичным подкреплением; условные подкрепления значительно расширяют диапазон оперантного обусловливания (так же как обусловливание второго порядка значительно расширяет диапазон классического обусловливания).
Небольшая вариация типичного эксперимента по оперантному обусловливанию иллюстрирует работу условного подкрепления. Когда крыса в ящике Скиннера нажимает на рычаг, моментально звучит тон, за которым вскоре дается пища (пища — первичное подкрепление; звук станет условным подкреплением). После того как у животного выработалась условная реакция, экспериментатор переходит к ее угашению, так что когда крыса нажимает на рычаг, не появляется ни пищи, ни звука. Через какое-то время крыса перестает нажимать на рычаг. Затем возобновляется звук, но не пища. Когда животное обнаруживает, что при нажатии рычага включается звук, частота нажатий заметно возрастает, преодолевая угасание, хотя никакой еды за этим не следует. Звук приобрел качество подкрепления сам по себе путем классического обусловливания; устойчиво сочетаясь с пищей, он сам стал сигналом пищи.
Наша жизнь изобилует условными подкреплениями. Доминируют из них два: деньги и похвала. Предположительно, деньги являются сильным подкреплением потому, что они часто сочетаются с первичными подкреплениями: можно купить пищу, выпивку, удобства — это только несколько очевидных примеров. И похвала — даже без обещания первичного подкрепления — может во многом поддерживать деятельность.
<Рис. Похвала является эффективным подкрепляющим фактором для многих людей.>
Генерализация и дифференцировка.То, что было верно для классического обусловливания, верно и для оперантного: организмы генерализуют то, что они выучили, и генерализацию можно ограничить тренировкой на дифференцировку. Если родители подкрепляют маленького ребенка за ласкание домашней собачки, он вскоре генерализует эту реакцию ласки на других собак. Поскольку это может быть опасно (соседская собачка может оказаться свирепым сторожевым псом), родители ребенка могут провести некоторую дифференцировочную тренировку, так чтобы он ласкал свою собаку, но не соседскую.
Дифференцировочная тренировка будет эффективна в той степени, в какой присутствует дифференцируемый стимул (или набор стимулов), позволяющий четко отличать случаи, где реакция должна иметь место, от случаев, где ее нужно подавить. Вышеупомянутому маленькому ребенку будет легче научиться, какую собаку ласкать, если его родители смогут указать на признак собаки, сигнализирующий о ее дружественности (виляние хвостом, например). Вообще, дифференцировочный стимул будет полезен в той степени, в какой его присутствие предсказывает, что за реакцией последует подкрепление, а его отсутствие предсказывает, что за реакцией подкрепления не последует (или наоборот). Так же, как и в классическом обусловливании, предсказательная сила стимула имеет решающее значение для обусловливания.
Режимы подкрепления.В реальной жизни отдельные эпизоды поведения подкрепляются редко; иногда за усердную работу хвалят, но часто она остается непризнанной. Если бы оперантное обусловливание происходило только при постоянном подкреплении, его роль в нашей жизни была бы ограниченной. Оказывается, однако, что после того как поведение возникло, оно может поддерживаться, если его подкреплять только часть всего времени. Это явление известно как частичное подкрепление, и его можно проиллюстрировать в лаборатории на примере голубя, который научается клевать ключ, чтобы получать пищу. После того как эта операнта сформировалась, голубь продолжает клевать ключ с высокой частотой, даже если он получает подкрепление только от случая к случаю. Иногда голуби, вознаграждавшиеся пищей в среднем один раз за 5 минут (12 раз в час), клевали ключ 6000 раз в час! Кроме того, угасание, следующее за поддержанием реакции на частичное подкрепление пищей, идет гораздо медленнее, чем угасание, следующее за поддержанием реакции на непрерывное подкрепление. Это явление известно как эффект частичного подкрепления. Данный эффект понятен на чисто интуитивном уровне, поскольку если подкрепление для поддержания реакции является лишь частичным, случаи угасания и поддержания реакции труднее отличить друг от друга.
Когда подкрепление осуществляется только часть всего времени, нам нужно знать, каков в точности его распорядок: после каждой третьей реакции? или каждые пять секунд? Оказывается, что режим подкрепления определяет схему реагирования. Некоторые расписания подкрепления называют пропорциональным режимом, потому что при этом подкрепление зависит от числа совершенных реакций. Это как на заводе, когда рабочему платят за определенный объем работы. Коэффициент пропорциональности может быть фиксированным или переменным. При режиме с фиксированной пропорцией (его называют режимом ФП) число реакций, которые должны совершиться, равно определенной величине. Если это число составляет 5 (ФП 5), то это значит, что подкрепление последует по совершении 5 реакций, если оно равно 50 (ФП 50), потребуется совершить 50 реакций, и т. д. Вообще, чем выше пропорция, тем с большей частотой организм реагирует, особенно если его первоначально тренировали при относительно низком коэффициенте (скажем, ФП 5), а затем непрерывно увеличивали коэффициент до величины, скажем, ФП 100. Это как если бы на заводе рабочему сначала платили по 5 долларов за каждые 5 зашитых швов, но потом настали тяжелые времена, и ему пришлось за те же 5 долларов делать 100 швов. Но, пожалуй, самая примечательная особенность поведения при режиме с ФП состоит в том, что сразу после очередного подкрепления в росте реакций наступает пауза (см. левую часть рис. 7.8). Заводскому рабочему трудно начать новую серию швов сразу после того, как он сделал их достаточно, чтобы получить вознаграждение.
Рис. 7.8. Типичные схемы реакций на четыре основные режима подкрепления.Каждая кривая отображает совокупное число реакций животного в зависимости от времени; наклон кривой отражает частоту его реакций. Кривые слева относятся к пропорциональному режиму. Обратите внимание на горизонтальные участки кривой для режима с ФП: они соответствуют паузам (нет роста совокупного числа реакций). Кривые справа отображают условия интервального режима. Кривая для режима с фиксированным интервалом (ФИ) опять содержит горизонтальные участки, соответствующие паузам (по: Schwartz, 1989). ФП — фиксированная пропорция; ПП — переменная пропорция, ФИ — фиксированный интервал; ПИ — переменный интервал.
При режиме с переменной пропорцией (ПП) подкрепление также дается после совершения определенного количества реакций, но их число варьируется непредсказуемо. Так, при режиме ПП 5 количество реакций, требуемых для подкрепления, иногда составляет 1, иногда 10, а в среднем 5. В отличие от поведения при режиме с ФП, при режиме с ПП не наблюдается пауз в росте реакций (см. левую часть рис. 7.8), предположительно потому, что у организма нет возможности определить, что подкрепление появится нескоро. Хороший пример режима с ПП в повседневной жизни — работа игрового автомата. Количество реакций (игр), необходимое для выдачи подкрепления (выигрыша), все время меняется, и у игрока нет способа предсказать, когда последует подкрепление. Режим ПП может порождать очень высокую частоту реакций (как, видимо, и рассчитали владельцы казино).
Помимо пропорциональных существуют интервальные режимы, в которых подкрепление выдается только по прошествии определенного времени. Такие режимы тоже бывают фиксированными и переменными. При фиксированном интервале (ФИ) организм получает подкрепление за первую реакцию по прошествии определенного времени с момента ее последнего подкрепления. Например, при режиме ФИ 2 (2 минуты) подкрепление дается только по истечении 2 минут после последней подкрепленной реакции; реакции в течение этого двухминутного интервала проходят без последствий. Особенность реагирования при режиме ФИ — пауза, возникающая сразу после подкрепления (она может быть даже длиннее, чем пауза при режиме ФП). Еще одна особенность реагирования при режиме ФИ — это возрастание частоты реакций по мере приближения окончания периода (см. правую часть рис. 7.8). Хороший пример режима ФИ в повседневной жизни — доставка почты, которая приходит только раз в день (ФИ 24 часа) или, в некоторых местах, дважды в день (ФИ 12 часов). Так, сразу после доставки почты вы не будете ее проверять снова (у вас пауза), но по мере приближения окончания интервала доставки почты вы снова начинаете ее проверять.
При режиме с переменным интервалом (ПИ) вознаграждение все еще зависит от прошествия определенного интервала, но его длительность колеблется непредсказуемо. При расписании ПИ 10 (10 м