Принципы оперантного обусловливания

Определение оперантного обусловливания

Процедура обучения получила название - "оперантное обусловливание". Она заключалась в стремлении экспериментатора установить связь между стимулом (S) и реакцией (R) посредством подкрепления - поощрения или наказания. В схеме стимул-реакция (S-R) ключевой для Скиннера была именно реакция. Реакции рассматривались с точки зрения простоты-сложности. Простая - слюноотделение, отдергивание руки; сложная - решение математической задачи, агрессивное поведение (см. Хрестомат. 6.3).
Оперантное обусловливание - это процесс, посредством которого характеристики реакции детерминируются последствиями этой реакции.
Далее, Скиннер различал (1) реакции, которые вызываются определенными стимулами (отдергивание руки от горячего предмета) - в этом случае связь стимула и реакции безусловна; и (2) реакции, которые непосредственно не связаны со стимулом. Последние реакции продуцируются самим организмом и называются оперантами. Скиннер считал, что сами по себе стимулы не принуждают индивида реагировать на них. Исходная причина лежит в самом организме. В любом случае поведение происходит без воздействия какого-то специального побуждающего стимула. Осуществление оперантного поведения заложено в биологической природе организма. Научение рассматривалось Скиннером как процесс. Ни один (особенно сложный) оперант не возникает сразу. Процесс представляет собой поощрение оперантного поведения животного. Поощрение или наказание - это подкрепление, или стимул, который следует за реакцией и увеличивает вероятность ее появления. Когда голубь тычет клювом в диск (или крыса нажимает лапой на рычаг) - это оперантное поведение, при котором, если оно сопровождается подкреплением, увеличивается вероятность его повторения. "Оперантное обусловливание формирует поведение так же, как скульптор лепит фигуру из глины. Хотя в какой-то момент скульптор, казалось бы, создает совершенно новый объект, мы всегда можем вернуться назад, в начало процесса, к первоначальной недифференцированной болванке и выделить сколь угодно маленькие шаги, или последовательные этапы, следуя которым можно дойти до нужной кондиции. Ни в какой отдельно взятый момент не может появиться ничего такого, что очень сильно отличалось бы от того, что ему предшествовало… Оперант - это не то, что появляется в поведении уже полностью в готовом виде. Это результат непрерывного процесса формирования" (цит. по: Первин Л., Джон О. Психология личности. Теория и исследования. М., 2000. С.350).

Принципы оперантного обусловливания

Подкрепление является одним из принципов обусловливания. Уже с младенческого возраста, согласно Скиннеру, поведение людей можно регулировать с помощью подкрепляющих стимулов. Существуют два разных вида подкрепления. Некоторые, например еда или устранение боли, называются первичными подкреплениями, т.к. они обладают естественной подкрепляющей силой. Другие подкрепляющие стимулы (улыбка, внимание взрослого, одобрение, похвала) являются обусловленными подкреплениями. Они становятся таковыми в результате частого сочетания с первичными подкреплениями.
Оперантное обусловливание опирается в основном на положительное подкрепление, т.е. на такие последствия реакций, которые их поддерживают или усиливают, например, пища, денежное вознаграждение, похвала. Тем не менее Скиннер подчеркивает важность негативного подкрепления, которое приводит к угасанию реакции. Такими подкрепляющими стимулами могут быть физическое наказание, моральное воздействие, психологическое давление. При наказании неприятный стимул следует за реакцией, уменьшая вероятность того, что реакция появится вновь. Скиннер с сожалением замечал, что наказание - "это самая распространенная техника контроля над поведением, применяемая в современном мире. Схема всем известна: если мужчина ведет себя не так, как вам нравится, ударьте его кулаком, если ребенок плохо себя ведет, отшлепайте его, если люди в другой стране плохо себя ведут, сбросьте на них бомбу" (цит. по: Крэйн У. Секреты формирования личности. СПб.: Прайм-Еврознак, 2002. С. 241).
Кроме подкрепления, принципом обусловливания является его незамедлительность. Было обнаружено, что в начальной стадии эксперимента можно довести реакцию до наивысшего уровня только в том случае, если подкреплять ее немедленно. Иначе реакция, начавшая было формироваться, быстро угаснет.
При оперантном, так же как и при респондентном, обусловливании наблюдается генерализация стимулов. Генерализация - это возникшая в процессе обусловливания ассоциативная связь реакции со стимулами, похожими на те, на которые первоначально был выработан условный рефлекс. Примерами генерализации являются - страх перед всеми собаками, который сформировался вследствие нападения какой-то одной собаки, положительная реакция ребенка (улыбка, произнесение слова "папа", движение на встречу и проч.) на всех мужчин, похожих на его отца.
Формирование реакции представляет собой процесс. Реакция не возникает сразу и вдруг, она оформляется постепенно, по мере осуществления ряда подкреплений. Последовательное подкрепление - это выработка сложных действий с помощью подкрепления действий, которые постепенно все больше становятся похожими на ту окончательную форму поведения, которую предполагалось сформировать. Сплошное поведение формируется в процессе подкрепления отдельных элементов поведения, которые в совокупности складываются в сложные действия. Т.е. серия первоначально усвоенных действий в конечной форме воспринимается как целостное поведение.
Сам процесс поддерживается так называемым режимом подкрепления. Режим подкрепления - процент и интервал подкрепления реакций. Для исследования режимов подкреплений Скиннер изобрел ящик Скиннера (Skinner box), благодаря которому он наблюдал за поведением животных. Схематически это выглядит так:
S1 - R - S2,
где S1 - рычаг;
R - нажатие на рычаг;
S2 - пища (подкрепление).
Поведение контролируется при помощи изменения условий среды (или подкрепления). Их, например, можно давать (1) через определенный промежуток времени, независимо от числа реакций; (2) через определенное число реакций (нажатие на рычаг) и др.

Режимы подкрепления

Были выделены такие режимы подкрепления: непрерывное подкрепление - предъявление подкрепления каждый раз, когда субъект дает желаемую реакцию; прерывистое, или частичное, подкрепление.
Для более строгой классификации режимов подкрепления было выделено два параметра - временное подкрепление и пропорциональное подкрепление. В первом случае подкрепляют только тогда, когда истек срок, в течение которого необходимо было выполнить соответствующую деятельность, во втором подкрепляют за объем той работы (количество действий), которая должна была быть произведена.

  • На основе двух параметров были описаны четыре режима подкрепления:
    1. Режим подкрепления с постоянным соотношением. Подкрепление осуществляется в соответствии с установленным количеством (объемом) реакций. Примером такого режима может быть оплата труда за определенный, постоянный объем работ. Например, оплата труда переводчику за количество переведенных знаков, или машинистке за количество напечатанного материала.
    2. Режим подкрепления с постоянным интервалом. Подкрепление производится только тогда, когда твердо установленный, фиксированный временной интервал истек. Например, ежемесячная, понедельная, почасовая оплата, отдых после жестко установленного времени физической или умственной работы.
    3. Режим подкрепления с вариативным соотношением. В этом режиме организм подкрепляется на основе какого-то в среднем предопределенного числа реакций. Так, покупка лотерейных билетов может быть примером работы такого режима подкрепления. В данном случае покупка билета означает, что с какой-то вероятностью может выпасть выигрыш. Вероятность возрастает, если покупается не один, а несколько билетов. Однако результат в принципе мало предсказуем и непостоянен, и человеку редко удается вернуть вложенные в покупку билетов деньги. Тем не менее неопределенность результата и ожидание большого выигрыша приводят к очень медленному затуханию реакции и угасанию поведения.
    4. Режим подкрепления с вариативным интервалом. Индивид получает подкрепление после того, как проходит неопределенный интервал. Подобно режиму подкрепления с постоянным интервалом, в этом случае подкрепление зависит от времени. Интервал времени произволен. Короткие интервалы, как правило, порождают высокую скорость реагирования, а длинные - низкую. Такой режим применяется в учебном процессе, когда оценка уровня достижений производится нерегулярно.

Скиннер говорил об индивидуальности подкреплений, о вариативности развития того или иного навыка у разных людей, а также у разных животных. Более того, само подкрепление носит уникальный характер, т.к. уверенно нельзя сказать, что у данного человека или животного может выступать в качестве подкрепления.

Рост и развитие личности

По мере того, как ребенок развивается, его реакции усваиваются и остаются под контролем подкрепляющих воздействий со стороны окружающей среды. В виде подкрепляющих воздействий выступают - пища, похвала, эмоциональная поддержка и др. Эта же идея излагается Скиннером в книге "Вербальное поведение" (1957). Он считает, что овладение речью происходит по общим законам оперантного обусловливания. Ребенок получает подкрепление при произнесении определенных звуков. Подкреплением служит не пища или вода, а одобрение и поддержка взрослых.
С критическими замечаниями в адрес концепции Скиннера выступил в 1959 г. известный американский лингвист Н. Хомский. Он отрицал особую роль подкрепления в ходе овладения речью и критиковал Скиннера за пренебрежение синтаксическими правилами, которые играют роль в осознании человеком языковых конструкций. Он считал, что обучение правилам не требует особого учебного процесса, а совершается благодаря врожденному, специфическому речевому механизму, который называется "механизмом овладения речью". Таким образом, овладение речью происходит не в результате научения, а посредством естественного развития.

Психопатология

С точки зрения психологии научения нет необходимости искать объяснение симптомов болезни в скрытых глубинных причинах. Патология, согласно бихевиоризму, не недуг, а либо (1) результат неусвоенной реакции, либо (2) усвоенная неадаптивная реакция.

  • (1) Неусвоенная реакция или поведенческий дефицит возникает в результате отсутствия подкрепления при формировании необходимых навыков и умений. Депрессия также рассматривается как результат отсутствия подкрепления для формирования или даже поддержания необходимых реакций.
  • (2) Неадаптивная реакция - результат усвоения действия, неприемлемого для общества, не соответствующего нормам поведения. Такое поведение возникает как следствие подкрепления нежелательной реакции, либо в результате случайного совпадения реакции и подкрепления.

Изменение поведения также построено на принципах оперантного обусловливания, на системе модификации поведения и сопряженных с ним подкреплений.
А. Изменение поведения может происходить вследствие самоконтроля.

  • Самоконтроль включает в себя две взаимозависимые реакции:
    1. Контролирующая реакция, которая воздействует на среду, изменяя вероятность возникновения вторичных реакций ("уход" чтобы не выразить "гнев"; удаление пищи, чтобы отвыкнуть от переедания).
    2. Контролирующая реакция, направленная на наличие в ситуации стимулов, которые могут сделать желательное поведение более вероятным (наличие стола для осуществления учебного процесса).

Б. Изменение поведения может происходить и вследствие осуществления поведенческого консультирования. Во многом этот тип консультирования базируется на принципах научения.
Вольпе (Wolpe) определяет терапию поведения как терапию обусловливания, подразумевающую использование сформулированных в процессе экспериментирования принципов научения с целью изменения неадекватного поведения. Неадекватные привычки ослабляются и устраняются; адаптивные привычки, напротив, вводятся и усиливаются.

  • Цели консультирования:
    • (1) Изменение неадекватного поведения.
    • (2) Научение принятию решения.
    • (3) Предотвращение проблем путем антиципации результатов поведения.
    • (4) Устранение дефицита в поведенческом репертуаре.
  • Этапы консультирования:
    • (1) Поведенческая оценка, сбор информации о приобретенных действиях.
    • (2) Процедуры релаксации (мышечная, вербальная и т.д.).
    • (3) Систематическая десенсибилизация - связь расслабления с образом, вызывающим тревогу.
    • (4) Тренинг ассертивности
    • (5) Процедуры подкрепления.

Наши рекомендации