Инструментальные условные рефлексы (или обучение методом проб и ошибок)

Начало исследований инструментальных УР связано с именем Э. Торндайка (см. 2.4.1), хотя их анализ проводился и в лаборатории И. П. Павлова.

В лаборатории И. П. Павлова «классические» УР носили название услов­ных рефлексов 1-го рода, а инструментальные — условных рефлексов 2-го ро­да. В монографии Ю. Конорски (1969) на большом экспериментальном мате­риале дается анализ сходства и различия между ними.

В опытах с «проблемными ящиками» Торндайк наблюдал, как по­саженная в ящик кошка ищет выход, пытаясь открыть дверцу разны­ми способами (рис. 3.4А) (для этого нужно было нажать на задвижку или потянуть за пружину). Кошка сначала совершает много разных действий (проб), которые в своем большинстве бывают неверными (ошибки), пока случайно не откроет ящик. При повторении опытов она выходит из ящика все быстрее и быстрее. Идея эксперимента была подсказана Торндайку К. Ллойдом-Морганом, наблюдавшим, как его собака манипулирует с задвижкой калитки, чтобы «улизнуть» из дома (рис. 3.5). Такое обучение Торндайк и назвал«методом проб и ошибок». В дальнейшем обучение животного подобным действиям получило на­званиеинструментальных (или оперантных) УР.

Торндайк первым предложил количественную оценку динамики обучения животного инструментальному навыку. Для этого он ввел так называемые «кривые научения», примеры которых приведены на рис. 3.4Б.

Между классическими и инструментальными УР существуют оп­ределенные различия.

Инструментальные условные рефлексы (или обучение методом проб и ошибок) - student2.ru

Рис. 3.4. Инструментальные УР.

А — один из вариантов «проблемного ящика», предложенный Э. Торндайком для исследования способности животного к решению задачи методом «проб и ошибок»; Б — примеры кривых научения при использовании этого метода. По оси ординат — время, затраченное на решение задачи, по оси абсцисс — последовательные предъявления теста.

При классических УР временная связь между условным сигналом и безусловной реакцией возникает непроизвольно при действии бе­зусловного раздражителя (подкрепления).

При инструментальных УР подкрепление, например пища, дает­ся только после того, как животное совершает определенное действие, которое не имеет прямой связи с безусловным раздражителем.

Ф S*,*'} В классическом УР выделение слюны происходит в ответ на контакт

j I пищи с рецепторами полости рта, и эта реакция может стать услов-—15'- норефлекторной. В отличие от этого при выработке инструмен­тального УР пищевое подкрепление изначально никак не связано ни с протягиванием лапы, ни с побежкой в лабиринте. Однако мы мо­жем давать животному пищу сразу после того, как оно сделало такое движение, и вскоре животное будет его совершать, чтобы получить подкрепление.

К категории инструментальных УР относится формирование на­выка нажатия на рычаг (или клевания кнопки, как на рис. 3.6) для получения порции пищи. После работ Б.Скиннера этот УР стал ос­новным в исследованиях бихевиористов (анализ связей «стимул-реак­ция»). К инструментальным УР относится также обучение подопыт­ного животного находить путь к пище или избегать неприятных сти­мулов в лабиринте. Инструментальным УР является иреакция избегания — навык переходить в тот отсек экспериментальной каме­ры, где отсутствует болевое подкрепление (рис. 3.7).

Включению тока предшествует включение УС — звука или света. Чтобы избежать болевого воздействия, животное перебегает в другую половину каме-

Инструментальные условные рефлексы (или обучение методом проб и ошибок) - student2.ru

Рис. 3.5. Рисунок, сделанный по фотографии «исторического» эпизода. Собака К. Л. Моргана научилась открывать задвижку калитки, полу­чая тем самым возможность «обрести свободу». Эта ситуация считает­ся прототипом торндайковского «проблемного ящика».

Инструментальные условные рефлексы (или обучение методом проб и ошибок) - student2.ru

Рис. 3.6. Камера Б. Скиннерадля обучения голубей.

В верхней части левой стенки камеры размещены 3 диска-«ключа». Они раз­личаются не только по положению, но и по цвету лампочки, которая загора­ется за каждым из них. В кормушку (ниже) подают подкрепление. Клевание ключа (или, например, каждое 5-е клевание) автоматически подает зерно в кормушку.

Инструментальные условные рефлексы (или обучение методом проб и ошибок) - student2.ru

Рис. 3.7. Челночные камеры для исследования у лабораторных крыс и мышей реакции активного избегания. А — современная установка для изучения условной реакции активного избе­гания, которая обычно состоит из 4 челночных камер с автоматизированным управлением и выводом результатов на экран монитора; Б — отдельная чел­ночная камера.

ры По прошествии небольшого периода времени (как правило, его длину варьируют, чтобы не вырабатывать у животного УР на время) ток включают в той половине камеры, куда оно перед этим перебежало УР считается вы­полненным, если животное перебегает в безопасную половину камеры во время действия УС и до включения тока.

Обширные исследования, выполненные сторонниками идей би­хевиоризма, привели к появлению целого ряда новых терминов и по­нятий и созданию специфического языка для описания закономерно­стей процесса обучения, обнаруженных только благодаря применен­ным ими подходам. Многие термины сначала использовались как чисто технические — для объективного описания данных (знакомство с ними может помочь при чтении научных статей бихевиористов). К таким терминам, в частности, относятся:

• оперантное поведение — спонтанные действия, не вызванные каким-либо очевидным стимулом;

* реактивное поведение — всякое поведение, которое совершается в ответ на определенный стимул;

« режим подкрепления (reinforcement schedule): соотношение числа реак­ций (например, нажатий на рычаг) и вознаграждений (например, кусочков пищи; подробнее см. ниже);

» постоянный (или переменный) интервал (fixed or variable interval) — вознаграждение дается через определенные интервалы времени, в период которых животное может осуществлять двигательные реак­ции (эти интервалы могут быть постоянными или варьировать по длительности), но по истечении этого интервала подкрепляется только первая реакция;

« фиксированное (или переменное) соотношение (fixed ratio or variable ratio) — подкрепление дается животному только после того, как оно

произведет какое-то количество реакции (нажатии или клевании. Можно давать подкрепление только после определенного числа ре­акций (фиксированное соотношение) или это число может каким-то образом варьировать (переменное соотношение);

« смежность (contiguity) — этим термином обозначают постулируемое возникновение связей между стимулами и возникающими на их ос­нове реакциями, а также совпадение УС с реакцией животного или УС с подкреплением, которое необходимо для возникновения УР;

» ключ (cue) — обычно это либо рычаг, на который нажимает крыса, либо освещенный кружок, по которому наносит удар клювом голубь (этот термин, обычный для работ бихевиористов, не следует путать с термином «ключевой стимул», принятым в этологии для обозначе­ния видоспецифических стимулов, вызывающих инстинктивные ре­акции (см. 2.11).

На рис. 3.6 схематически изображена камера для выработки инст­рументальных УР у голубей. Скиннер считал, что любое поведение, относящееся к категории «оперантное», можно модифицировать, если при его выполнении давать животному подкрепление. Именно такой подход он предложил как эффективный способ анализа поведения. Если для выработки классических УР необходимы сочетания услов­ных сигналов и подкрепления, то при методике свободного оперантно-го поведения, предложенной Скиннером, экспериментатор сопровож­дает подкреплением выполнение животным только определенного, намеченного им действия.

Например, крысу можно обучить нажимать на рычаг, если сначала со­провождать подкреплением любые ее действия в той части камеры, где он находится. Постепенно крыса обучается держаться вблизи рычага, и тогда подкрепление дают только, если она касается рычага мордой или лапой (для этого иногда на рычаг даже кладут пищу) Через некоторое время подкрепле­ние дается только после выполнения четких движений — нажатий (одного или нескольких) лапой на рычаг.

Такое постепенное видоизменение поведения животного в ре­зультате вмешательства экспериментатора называется методом после­довательного приближения или формированием (shaping) поведения.

Деление условных рефлексов на классические и инструменталь­ные, удобное методически, не означает, что они имеют совершенно разную природу. В их основе лежат сходные нейрофизиологические механизмы, а любое «чисто» инструментальное действие животного всегда сопровождается реакцией, которая относится к классическим УР. И наоборот, в любом «чисто» классическом УР можно обнаружить Двигательный компонент, который по своим свойствам относится к инструментальным (Борукаев, 1982).

О связи классических и инструментальных УР свидетельствует также «самоформирование» условной реакции (auloshaping). Например, если голодного голубя поместить в камеру Скиннера и в течение 5 с осве­щать ключ для клевания с интервалом в 1 мин, а после прекращения

освещения давать порцию нищи, то голубь сначала не обращает вни­мания на ключ. Однако после нескольких таких сеансов формируется инструментальная реакция, и он быстро начинает клевать ключ не­зависимо от освещения. Постепенно голубь научается клевать ключ только при его освещении, т.е. реакция становится более точной — она самоформируется. В данном случае она очень близка к классичес­кому УР, поскольку голубь клюет ключ как бы вместо зерна, даже в отсутствие подкрепления.

С помощью метода «последовательного приближения» у животных удается сформировать не только клевание ключа при его освещении, но и самые разнообразные, сложные и иногда неожиданные навыки. В опытах Скиннера голуби «играли» в пинг-понг, а крысы могли под­тянуть к себе с помощью бечевки бильярдный шар, взять его в перед­ние лапы и засунуть в трубку, расположенную на 5 см выше пола клетки (описание экспериментов П. Эпштейна, посвященных форми­рованию сложных навыков у голубей, будет дано в гл. 4.8.2).

Метод последовательного приближения составляет основу дрес­сировки цирковых и служебных животных. Примером продуктивного использования принципов бихевиоризма, и в частности роли метода последовательного приближения в формировании поведения, является работа знаменитой американской дрессировщицы дельфинов и психо­лога К. Прайор(1995).

Тезис Скиннера о том, что любые движения, на которые способно животное данного вида, равновероятно можно использовать для инст­рументального научения, был достаточно обоснованно подвергнут со­мнению в работе его коллег — К. и М. Бреландов (Breland, Breland, 1961). Некоторые виды животных при обучении манипуляциям с предметами производят «заданные» экспериментатором действия только после вы­полнения некоторых врожденных (инстинктивных) действий либо со­всем не могут им научиться. Так, например, обучая енота нажимать на рычаг, Бреланды заметили, что нажатию предшествует видоспецифи-ческое движение лап — «полоскание», характерное для этого вида при добыче пищи из ручья (за что енота и называют «полоскун»). На основа­нии таких наблюдений возникло представление о предрасположеннос­ти к определенным видам обучения (подробнее см.: Зорина и др., 1999).

В Образование инструментальных УР по механизму «последова-

В тельного приближения» играет важную роль в организации пове­дения животных не только в эксперименте, но и в естественных В условиях.

Обучение по методу последовательного приближения может про­исходить самым неожиданным образом. Об этом, в частности, свиде­тельствует получившая широкую известность в началеXX века исто­рия «умного Ганса». Это был конь, который демонстрировал способ­ность «считать», «складывать», «извлекать корни», отвечать на вопросы

Инструментальные условные рефлексы (или обучение методом проб и ошибок) - student2.ru

Рис. 3.8. Инструментальные условные рефлексы у дрессированной лоша­ди «умного Ганса». На фотографии видно, как ударами копыта по специальной доске Ганс сигнализировал «правильный» ответ (по Н. Н. Ладыгиной-Коте, 1914).

и т.п. (рис. 3.8). Столь «разумное» поведение объяснялось тем, что конь научился замечать малоуловимые движения дрессировщика, которые тот непроизвольно совершал, видя, что конь вот-вот даст правиль­ный ответ. Ориентируясь на эти условные сигналы, конь в нужный момент прекращал стучать копытом.

В начале XX века (1900—1904) барон В. фон Остен, убежденный в огром­ных умственных способностях лошадей, обучал нескольких из них различе­нию цветов, азбуке и «счету». Узнавание каждой буквы или цифры лошадь обозначала соответствующим числом ударов копыта. Друг фон Остена худож­ник Редлих обучил таким же образом свою собаку. Наиболее способным уче­ником оказался орловский рысак Ганс, который производил достаточно слож­ные арифметические подсчеты, отвечал на разнообразные вопросы, а иногда высказывался по собственной инициативе. Так, супруги Н. Н. и А. Ф. Коте, специально приехавшие для знакомства с ним в 1913 году, рассказывали, что после нескольких относительно коротких ответов на вопросы Ганс заявил:

«В поле я встретил милую госпожу Краль, которая меня кормила».

Поведение его было столь впечатляющим, что вводило в заблуждениенетолько публику, но даже членов специальных комиссий, включая Н. Н. Лады-гину-Котс. Предполагали, что хозяин подает коню некие скрытые сигналы (как дрессировщик — цирковым животным), однако его обследовали 13 экспертов (комиссия психолога К. Штумпфа) и не обнаружили никакого обмана. Они засвидетельствовали, что Ганс действительно «считает» и ника­ких скрытых сигналов ему не подают. И лишь много позднее наблюдатели постепенно заметили, что Ганс отвечает только на те вопросы, ответ на которые знает сам экспериментатор. Специальный анализ, проведенный пси­хологом О. Пфунгстом. показал, что животное реагирует на мельчайшие

непроизвольные (идеомоторные) движения экспериментатора, например цд отклонения корпуса на 2 мм, микродвижения бровей, мимику и т.п. Эта не­вольная подача сигналов происходила, по-видимому, из-за эмоционального напряжения человека, по мере того как число ударов копытом приближалось к искомому. Даже картонный щит, которым пробовал отгородиться от Ганса экспериментатор, не помогал: животное все равно улавливало какие-то толь­ко ему понятные знаки для определения правильного ответа.

Для проверки своего предположения Пфунгст специально научил Ганса реагировать на микродвижения, которые он совершал уже сознательно, и продемонстрировал комиссии механизм и природу «математических способ­ностей» этой лошади.

История «умного Ганса» оставила заметный след в развитии науки о поведении животных:

* она показала, сколь сложное поведение могло быть результа­том обучения методом проб и ошибок;

* продемонстрировала справедливость «канона Ллойда Моргана» (см. 2.3) и актуальность его применения, поскольку в основе поведения этой «мыслящей лошади» лежали чисто условнореф-лекторные, а не связанные с мышлением механизмы;

* впервые привлекла внимание к проблеме чистоты эксперимента с точки зрения возможностинеосознанного влияния экспери­ментатора на его результаты,

* заставила по-новому взглянуть на возможности восприятия жи­вотных: способность уловить едва заметные движения человека свидетельствовала об их большой наблюдательности и способ­ности концентрировать внимание.

Наши рекомендации