Параллельные режимы подкрепления
В жизни нам часто представляются множественные режимы подкрепления, и наши действия в любой момент - результат выбора между альтернативами. Психологи пытались понять, как организмы выбирают между множествами типами режима подкрепления, и отметили поразительную согласованность наших выборов. Они обнаружили, что организмы выбирают режим подкрепления в точной пропорции по отношению к частоте, величие, или задержке подкрепления для каждого из режимов. К примеру, если голубь получает одну порцию еды за то, что ударит по синему ключу пять раз, но две порции еды за 5 ударов по красному, голуби будут бить красную кнопку в два раза чаще чем синюю. Точно также, если режим предусматривает подкрепление в два раза чаще другого, организмы выбирают этот режим над другим в соотношении 2:1. Эта связь известна под названием "закон соответствия", который гласит, что относительная скорость реакции на альтернативный выбор приблизительно равна отношению к частоте, величие и незамедлительности подкрепления получаемого за выбор этой альтернативы Miltenberger, R. G. "Behavioral Modification: Principles and Procedures". Thomson/Wadsworth, 2008. p. 86 .
Исследования пищевого поведения животных в их естественной среде дали результаты, согласующиеся с этим законом. Позже была разработана теория оптимального фуражирования, в 1966 году Р. Макартуром. Теория оптимального фуражирования гласит, что пищевое поведение зависит от соотношения между количеством энергии, затрачиваемом при поиске, получении и употреблении пищи, и количеством энергии которое обеспечивает питание. Чистая прибыль энергии определяет размер, качество, дефицит, и работу, затраченную на завладение добычей. Когда дается выбор между едой, животные выберут в точной пропорции к чистой прибыли энергии из различных вариантов питания (т.е. применяет этот закон). Постулат теории звучит так - животное стремится максимально увеличить скорость потребление энергии, которую оно получает из добычи. Поведение фуражирования животных, как например пчел, сов, и грызунов были рассчитаны с высокой точностью благодаря теории оптимального фуражирования, и её формуле , где - скорость потребления пищи, - количество энергии данного вида добычи, t1 - время поиска добычи, t2 - время обработки добычи.
1.6 Практические вопросы реализации системы вознаграждения в онлайн-игре.
При анализе дизайна онлайн-игры со стороны оперантного научения (обуславливания), необходимо определить
· Какой режим подкрепления применяется?
· Какие награды (будут) использованы в игре?
· Какое поведение подкрепляется?
В некоторых играх этот процесс прост. К примеру, очевидно, что онлайн-покер следует режиму переменного подкрепления. В других играх разгадать режим подкрепления гораздо сложнее. К примеру разные игроки могут находить различные части одной игры подкрепляющими. Например некоторые игроки в онлайн-тетрис могут находить подкрепляющим: ставить блоки идеально, другие - заполнять ряды. При этом оба игрока пользуются разным вариативным режимом подкрепления.
Вопрос о внедрении систем вознаграждения осложняет факт научения вторичным подкреплениям. Игрок, которому нравится заполнять ряды, наверняка научится наслаждаться от идеальной постановки блоков, и теперь будет оперировать двумя режимами подкрепления. Немного подкреплений выучивается, но главенствующие мотивы игры из-за них могут измениться. К примеру новые игроки могут быть мотивированы шансом исследовать игру и протестировать возможности, ею предлагаемые. Когда они исчерпывают свое первоначальное любопытство, они могут перейти к попыткам заработка очков, еще позже, они могут приступить к попыткам получить больше очков чем другие игроки.
Следующее осложнение состоит в том, что может измениться не только система наград, но и тип режима подкрепления используемый по ходу игры. К примеру, награда может изначально быть предусмотрена с фиксированным соотношением, но по ходу игры режим может измениться на переменный тип. Анализ дизайна игровых наград требуется с обеих сторон - новичка и опытного игрока.
Для примера рассмотрим онлайн-тетрис - это простая игра, но она использует множество типов подкрепления. Все они оперируют на вариативном режиме.
Позитивное подкрепление - получение очков и заполнение рядов, высокий счет очков и его улучшение, заполнение пространства блоками, выигрыш или переход на след уровень.
Негативное подкрепление - избегание проигрыша, построение столбцов из блоков, неудача в увеличении рекорда очков.