Награды, подкрепление и наказание.
Наградой считается всё, что увеличивает частоту поведения. Так наградой может быть позитивное событие, следующее за ответом, или уход от аверсивного события[4]. Точно так же наказание является чем-либо, что снижает частоту поведения, и может принимать форму аверсивного события, или ухода от позитивного события Thorndike E. L. Human learning. NY.: Century Company, 1931. Как уже говорилось, ранее психологи, как правило, имели тенденцию относиться к чему-либо, что увеличивает частоту поведения как к подкреплению. Следовательно, награды называют позитивным подкреплением, а уход от наказания называют негативным подкреплением. Реакции испытуемого на стимулы отражены в таблице №1.
Таблица №1. Влияние позитивных и негативных стимулов на поведение.
Итоги обуславливания | ||
Увеличение частоты поведения | Снижение частоты поведения | |
Позитивные стимулы | Предъявление положительного подкрепления | Удаление аверсивного стимула |
Негативные стимулы | Удаление положительного стимула (запрещают) | Предъявление аверсивного стимула |
Основным фактором, в определении того, будет ли поведение оперантным или нет являются последствия, вытекающие из этого поведения. Если следствием поведения является не то, что признается субъектом подкрепляющим, поведение не будет подкрепляться. Одна группа последствий, которые явно являются подкрепляющими это те, которые удовлетворяют биологические потребности. Пища является очевидным примером подобного подкрепления. Для голодного человека, еда всегда будет иметь подкрепляющий эффект. Подкрепления, которые удовлетворяют биологическую потребность или драйв известны как первичное подкрепление. Они включают в себя еду, воду, и избегание боли.
Однако существуют многие другие последствия поведения, которые люди находят подкрепляющими, даже если они не удовлетворяют биологическую потребность. К примеру, люди которые не обладают врожденным желанием иметь деньги, с течением жизни учатся принимать деньги как подкрепление. Эти и другие подкрепления называют вторичными. Вторичное подкрепления познаются путем постоянного спаривания с другими существующими подкреплениями. Процесс, при котором ряд подкреплений расширяется, известен как классическое обуславливание[5].
Некоторые условные подкрепления особенно эффективны, поскольку они могут быть связанными со многими другими подкреплениями. Они называются генерализованным подкреплением. Деньги, жетоны, одобрение и привязанность являются генерализованным подкреплением, так как они могут быть связаны с различными событиями, которые сами по себе являются подкрепляющими.
Основной принцип оперантного обуславливания прост - частота поведения возрастает, если она вознаграждается, и она будет уменьшаться, если такое поведение наказывается. Например, голодная крыса в коробке Скиннера будет в сначала вести себя в манере, которая является естественной для голодных крыс; например, бегать по клетке, пищать, пытаться спастись, и т.д. Если во время выполнения ею этих действий, один ответ - в этом случае, нажатие на рычаг, - приводит к награде обеспечения едой, крыса постепенно узнает, что, нажатие на рычаг приводит к награде пищей. Поведение будет повторяться и, таким образом, выучено. Поведение, которое приводит к награде становится особенно важным для крысы. Тот же самый процесс может быть применен к действию, что позволяет крысе уйти или избежать нежелательных раздражителей.
Другой принцип оперантного обуславливания состоит в том, что как только поведение выучено, частота награды может быть уменьшена. Для научения определённому поведению необходимо сначала подкреплять каждое появление поведения. Когда поведение выучено, с течением времени можно уменьшить частоту подкрепления и по-прежнему вызывать такое же поведение. К примеру, количество нажатий на рычаг для получения подкрепления может изменяться каждый раз, каждые десять раз, или изменить правила таким образом, то что рычаг должен быть нажат непрерывно, и т.д. Бихевиористы провели много экспериментов исследуя какой эффект оказывают различные режимы подкрепления на поведение. Эти режимы подкрепления имеют особое значение для гейм-дизайнера.
Последним из основных принципов оперантного обуславливания является то, что возможно обусловить индивида исполнять определённое поведение за пределами его обычного поведения. Если поведение является особенно сложным, например, это действие, которое требует нескольких шагов, или для его выполнения необходимо особое умение существует вероятность того, что такое поведение невозможно подкрепить напрямую. Вместо этого, можно подкрепить поведение, которое близко к желаемому, и шаг за шагом подкрепляя более похожее поведение на необходимое нам, мы получим желаемое поведение. Этот принцип известен как "формирование поведения". К примеру, видеоигры могут включать в себя различные уровни сложности, и каждый последующий уровень требует, чтобы игрок выполнил более сложный набор действий, чтобы добиться успеха.
Планирование режима подкрепления.
Основной принцип оперантного обуславливания гласит: "возможно увеличить частоту поведения подкрепляя его". Изучение оперантного обуславливания становится более интересным, когда мы посмотрим на то, как системы подкрепления могут быть структурированы таким образом, чтобы оказать наибольшее влияние на поведение Ferster, C. B. & Skinner, B. F. "Schedules of Reinforcement", 1957 New York: Appleton-Century-Crofts. Исследователи изучают как подкрепления могут быть выданы, чтобы быть наиболее эффективным.
Существует три типа режима подкрепления - непрерывный, угасающий и периодический. В непрерывном каждое повторение поведения покрепляется, угасающий является противоположностью непрерывного. Как правило, угасание часто вызывает гнев и разочарование со стороны субъекта. Мы ожидаем, что Вселенная имеет смысл и цель быть последовательной, и при появлении непредвиденных обстоятельств мы можем вспылить. Интересно, что эта реакция также наблюдалась и у многих животных. Это называется "поведенческий контраст". В одном из экспериментов шимпанзе выполняли простое задание - потянуть за рычаг. Выполнив его, шимпанзе вознаграждались кусочками листьев салата, который они любят употреблять в пищу. После выполнения серии проб шимпанзе 1 раз вознаграждали виноградом, который они любят ещё больше чем листья салата. Далее, при следующей пробе, их опять награждали листьями салата, и они были очень огорчены этим, бросая салат в экспериментатора. Новый стимул, более приятный чем предыдущий создает новые ожидания от награды, и когда эти ожидания не оправдываются, (у животных) неизбежно наступает фрустрация и гнев. Подобные эксперименты проводились на голубях, и многих других животных. Между этими двумя экстремумами лежит периодический режим, что только некоторые из повторений поведения подкрепляются. Периодический режим подкрепления включает в себя:
· Режим соотношения: в этом режиме подкрепление появляется если поведение осуществляется Х раз. Х может быть вариативным числом.
· Интервальный режим - в этом режиме первая реакция в любое время по истечении определенного промежутка времени подкрепляется.
· Режим длительности - в этом режиме поведение должно происходить на протяжении какой-либо длительности времени чтобы подкрепиться.
Все эти графики подкрепления могут быть фиксированными или вариативными. В фиксированном графике подкрепление будет появляться в течении заданного периода времени, или после фиксированного числа ответов. В вариативном графике подкрепления, время или количество ответов будет меняться вокруг определенного числа; например, подкрепление будет даваться когда действие будет выполнено от 10 до 20 раз. Если мы примем, что постоянный режим и угасающий режим подкрепления являются ничем иным как двумя экстремумами периодического режима то мы получаем восемь базовых режимов подкрепления Herrnstein, R. J. (1970). On the law of effect. Journal of the Experimental Analysis of Behavior, 13, 243-266. В примерах режимов подкрепления значительное внимание уделяется примерам как из реальной жизни, так и в игровой среде.
Фиксированное соотношение - подкрепление дается после точно определенного количества верных ответов. На рис. №1 изображен график динамики поведения животного в режиме фиксированного соотношения. Полосы перекрывающие линию динамики поведения означают момент получения подкрепления. Буквой А отмечена пост-подкрепляемая пауза (Bernstein, Roy, Srull, & Wickens, 1991; Bootzin, Bower, Crocker, & Hall, 1991)[13].
Примеры:
· Работа на фабрике, оплачиваемая по количеству произведённых деталей.
· Получение премии на работе на каждые (х) проданных товаров.
· Сбор жетонов в игре. Многие игры требуют от игрока сбора определенного количества жетонов для перехода на следующий уровень, чтобы получить дополнительное очко жизни, или другое подкрепление.
· Достижение нового уровня в RPG - ролевой игре (или "РПГ"). Некоторые RPG показывают в точности, сколько требуется опыта для достижения нового уровня. Высокий показатель определенности того, сколько потребуется работы для достижения нового уровня, заключает игрока в режим фиксированного соотношения подкрепления.
Вариативное соотношение - подкрепление дается после заданного количества верных ответов.
На рисунке №2 изображен график динамики поведения животного в режиме вариативного соотношения. Полосы перекрывающие линию динамики поведения означают момент получения подкрепления.
Примеры:
· Игровые автоматы в казино. [13].
· Покупка лотерейных билетов (Pettijohn, 1992).
· Поочерёдное закидывание и сматывание удочки перед тем как поймать рыбу. Bootzin, Bower, Crocker, & Hall, 1991;
· Сбор жетонов. Некоторые игры требуют от игрока собирать жетоны чтобы чего-то достичь, но варьируют количество требуемых жетонов.
· Получение нового уровня в РПГ. Некоторые РПГ не дают точной информации о том, сколько требуется опыта для достижения следующего уровня. Это заключает игрока в режим вариативного соотношения подкрепления.
· Крафтинг (производство каких-либо вещей или экипировки самим игроком) в РПГ. Может потребоваться множество попыток, чтобы достичь успеха, и чтобы вещь получила новый уровень, но чем больше раз вы пытаетесь, тем более вероятно что ваше поведение подкрепится.
Фиксированный интервал - первый ответ после фиксированного временного интервала подкрепляется.
На рис. №3 изображен график динамики поведения животного в режиме фиксированного интервала. Полосы перекрывающие линию динамики поведения означают момент получения подкрепления. (Peterson, 1991).
Примеры:
· Получение зарплаты каждую неделю.[13]
· Проверка почтового ящика по утрам.
· Ожидание респауна (возрождения) монстров, где респаун происходит после заданного периода времени. Заметка: в онлайн-играх другие игроки также могут ожидать этого монстра, и в этом случае они находятся в режиме фиксированного интервала и ограниченного удержания.
· Получение объектов, сокровищ, или усилений в игре, которые появляются только в фиксированные интервалы времени.
Вариативный интервал - режим, где первый ответ после вариативного временного интервала подкрепляется (Gleitman, 1981).
На рис. №4 изображен график динамики поведения животного в режиме вариативного интервала. Полосы перекрывающие линию динамики поведения означают момент получения подкрепления.
Примеры:
· Сотрудники ГАИ, следящие за соблюдением скоростного режима за чертой города.
· Ожидание приезда такси. (Baron,1992).
· Ожидание респауна монстров в игре, где респаун происходит только в вариативные интервалы времени. Заметка: в мультиплеерных играх другие игроки могут также ожидать этого монстра, и в таком случае они находятся в режиме фиксированного интервала и ограниченного удержания.
Фиксированный интервал с ограниченным удержанием- первый ответ после фиксированного интервала времени подкрепляется, обеспечивая осуществление реакции в течении заданного периода до его окончания.
Примеры:
· Ожидание респауна монстров в заполненном мире онлайн игры. Если монстр респаунится в регулярные интервалы времени - игрок должен ждать фиксированный период времени чтобы его убить. Тем не менее если монстра после определенного периода ожидания нету - высока вероятность того, что его убил другой игрок.
· Получение объектов, сокровищ, или усилений, которые появляются только в ограниченный период фиксированных временных интервалов.
Вариативный интервал с ограниченным удержанием - первый ответ после вариативного интервала времени подкрепляется, обеспечивая осуществление реакции в течении заданного периода до его окончания.
Примеры:
· Получение наград, объектов, или усилений которые появляются только на ограниченное время в случайный момент.
· Ожидание респауна монстра в заполненном людьми онлайн мире - если монстр респаунится в вариативные интервалы времени игрок должен ожидать фиксированное количество времени чтобы убить монстра, тем не менее, если если монстра нету после определенного периода ожидания - вероятно что его убил другой игрок.
Фиксированная длительность - чтобы быть подкрепленным, поведение должно осуществляться непрерывно на протяжении всего фиксированного временного интервала.
Примеры:
· Игры с ограниченным временем на прохождение уровня. Для продвижения, игроку требуется постоянно проявлять активность на протяжении фиксированного периода, к примеру стрелять в инопланетян или зачищать все предметы на уровне.
Вариативная длительность - чтобы быть подкрепленным, поведение должно осуществляться непрерывно на протяжении всего вариативного интервала времени.
Примеры:
· Симуляторы охоты. Игроку необходимо сидеть в засаде. Для успешного итога вариативной длительности поведение должно продолжаться неопределённое количество времени, и игрок должен продолжать сидеть в засаде в течении всего периода.
· Симуляторы гонок. Игрок должен водить средство передвижения всю гонку, чтобы выиграть.
1.3 Какой режим подкрепления является "наилучшим"?
Если целью является генерация наибольшего количества повторений поведения в течении наибольшей длительности - в таком случае, осознанное применение режимов соотношения подкрепления является наилучшим способом. Кроме того, вариативное соотношение подкрепления демонстрирует более длительную сопротивляемость затуханию (снижению эффективности) любого режима подкрепления, и это означает, что возможно значительно увеличить время между подкреплениями без снижения количества ответов. Таким образом, осуществляя вариативное соотношение режима подкрепления, гейм-дизайнер может обуславливать игроков продолжать совершать поведение на протяжении очень долгих интервалов времени без получения какого-либо подкрепления Ferster, C. B. & Skinner, B. F. "Schedules of Reinforcement", 1957 New York: Appleton-Century-Crofts. . Неудивительно, что игры ,которые считаются как затягивающими, или которые становятся причиной зависимости более чем вероятно пользуются вариативным соотношением режима подкрепления. Это, как бы то ни было, не означает, что этот режим подкрепления - наилучший, и могут существовать веские причины для того, чтобы пользоваться другими коэффициентами режима подкрепления.
В то время как режимы соотношения подкрепления вырабатывают наибольший уровень ответов, не означает, что этот тип подкрепления является наиболее приятным для игрока. Работники на фабриках часто получают оплату согласно режиму соотношения, то есть их зарплата зависит от количества произведённых ими деталей. Владельцы фабрик предпочитают такой способ оплаты. Работники, однако, находят такой режим зарплаты нежелательным, потому что они заставляют их работать перенапрягаясь, оставляя их нервными и истощенными после рабочего дня. . Давление профсоюзов часто приводит к смене режима заработка на почасовую систему, т.е. на режим длительности. Злоупотребление вариативным соотношением в игре может привести к тому, что игроки будут чувствовать себя перегоревшими, уставшими, и безрадостными независимо от их игрового опыта даже если они осознают что их вынуждают играть. Эта реакция - не то, чего хочет гейм-дизайнер для своих игроков. Дизайнер также желает использовать другие режимы подкрепления - интервальные, которые продолжат мотивировать игрока, но оставят его менее истощенным к концу игровой сессии.
Другие режимы подкрепления хорошо подходят для определенных ситуаций. Пока вариативное соотношение подкрепления - лучшее в поддержании поведения, фиксированное соотношение и режимы длительности - лучшие для усвоения новых видов подкрепления Ferster, C. B. & Skinner, B. F. "Schedules of Reinforcement", 1957 New York: Appleton-Century-Crofts. Экспериментаторы часто используют режим фиксированного соотношения, когда с самого начала научают поведению, и только потом переключаются на вариативный режим соотношения подкрепления. К примеру, во многих видеоиграх дизайнеру требуется сначала научить или натренировать игрока как играть в игру, и для этого фиксированное соотношение и режимы длительности - лучшие способы этого достичь.
На рисунке №5 показано сравнение динамики подкрепления поведения такими режимами как Вариативное соотношение, Фиксированное соотношение, Вариативный интервал и Фиксированный интервал. Как мы можем увидеть, количество ответов за временной период увеличивается при переходе от Фиксированного интервала к Вариативному интервалу, и от Фиксированного соотношения к Вариативному. Как уже было сказано выше, интервальные режимы имеют слабую сопротивляемость росту напряжения в системе, а следовательно им тяжелее вызывать всё более высокий уровень ответов. В дополнение, фиксированные интервалы вызывают пост-подкрепляемые паузы, таким образом они проигрывают вариативным режимам подкрепления по количеству повторений поведения Kazdin, A.E. Behavior Modification in Applied Settings, Belmont, Brooks/Cole, 1989.