Научение посредством подкрепления

Множество исследований фокусируются на процессах принятия решений, которые люди и животные употребляют при выборе действий перед лицом награды и наказания. Всё чаще анализ поведения на уровне вычислительных операций опирается на идеи обучения с подкреплением, которое обеспечивает удобную теоретическую основу в рамках которой процесс принятия решений может быть проанализирован.

Фундаментальный вопрос в поведенческой нейробиологии касается процессов принятия решений благодаря которым люди и животные выбирают действия перед лицом награды и наказания, и их нейронным осуществлением. В бихевиоризме этот вопрос был подробно исследован с помощью классической и оперантной парадигмы обуславливания. С их помощью было собрано множество данных, в отношении того, как ассоциации контролируют различные аспекты выученного поведения. Вычислительная сторона обучения с подкреплением обеспечила нормативную структуру, в рамках которой можно понять такое обучение. Здесь оптимальный выбор действий основан на прогнозах долгосрочных последствий, например, что принятие решения направлено на достижение максимальной выгоды и минимизации потерь.

Научные данные, полученные от нейрологии, физиологии, фармакологии, и т.д. о поведении животных позволили обозначить (предварительно) нервные структуры, лежащие в основе ключевых вычислительных конструкций в этих моделях. С вычислительной точки зрения Павловское обуславливание рассматривается как прототип - экземпляр обучения предсказанию - обучение построения прогностических связей между событиями в окружающей среде. Инструментальное обуславливание, с другой стороны, включает в себя обучение выбору действий, которые увеличат вероятность полезных событий, и уменьшат вероятность аверсивных событий. С математической точки зрения, такой процесс принятия решений рассматривается как попытка оптимизировать последствия действий со стороны долгосрочной перспективы, исчисляющиеся в общем количестве вознаграждений, и/или избегания наказания.

Научение посредством подкрепления (далее - НПП) - это обучение посредством взаимодействия с окружающей средой. Субьект НПП обучается благодаря обсервации последствий своих действий, вместо простого эксплицитного обучения, субъект выбирает действия на основе прошлого опыта, и новым выборам, которое по сути своей представляет метод проб и ошибок. Различные модели предполагают разные механизмы увеличения ассоциативной связи. В данной работе мы упомянем о двух из них. Первая из них - модель Рескорлы-Вагнера является самой перспективной из всех математических моделей обучения, которая уже неоднократно применялась в эмпирических исследованиях с большим успехом. Р. Рескорла и А. Вагнер совместно разработали математическую модель процесса обучения на основе теории подкрепления, сiиспользованием разностного уравнения. При этом они оперировали теоретической физиологической переменной,iназванной ими "ассоциативная сила" и обозначенной через V. Они предполагали, что после каждого сочетания условного и безусловного раздражителей. Их предположение состояло в том, что после каждого сочетания условного и безусловного раздражите лей новое значение изменяетсяiассоциативной силы Vnew и равно предшествующемуiзначению, плюс прирост "ассоциативной силы" ∆V за счет сочетания условного и безусловного раздражителей. Иными словами: Научение посредством подкрепления - student2.ru . Они постулировали, что Научение посредством подкрепления - student2.ru , где V - текущее значение ассоциативной силы; α - относительная сила влияния условного раздражителя, варьирующаяся между 0 и 1; λ - максимум ассоциативной силы; β - относительная сила влияния безусловного раздражителя, также варьирующая между 0 и 1.При эмпирических расчетах по этой формуле необходимо задатьiначальное значение V0, значения α, β и λ. Тогда после первого сочетания условного и безусловного раздражителей Научение посредством подкрепления - student2.ru и Научение посредством подкрепления - student2.ru . Аналогичноiвычисляется значение "ассоциативной силы" при каждом из следующих сочетаний условного раздражителя и безусловного раздражителя. Особенно важным в этой модели является тот факт, что авторы допускали ненулевоеiначальное значение "ассоциативной силы" V0. В рамках данного исследования не предполагается адаптация этой модели поведения на полученных результатах, и их сравнение, по нескольким причинам. Первая - полученные результаты, какими бы они ни были не могут считаться валидными из-за репрезентативности выборки. Вторая - адаптация модели, с учётом имеющихся данных потребует использования специального программного обеспечения, использующегося в математических вычислениях, иначе - сложность задачи далеко выходит за рамки возможностей исследователя.





Тем не менее, в рамках данной работы возможен анализ одной из математических моделей, адаптация под решения которых не требует больших вычислительных мощностей. Это модель "win-stay, lose-switch", успешно применявшаяся при решении проблем, связанных с "игровыми автоматами", "дилеммой заключённого" и др. Модель утверждает, что выбор следующего действия зависит только от исхода предыдущего акта поведения. Исходы подразделяются на успешные (награды) и неудачные (наказания). Если поведение в предыдущем раунде было подкреплено, тогда субъект повторяет стратегию поведения, если поведение было наказано - то субъект переключается на другую стратегию поведения. Вероятность, с которой повторение и изменение поведение будет происходить определяется двумя свободными параметрами, Preward и Ppenalty. При адаптации метода со значением переменных Preward Научение посредством подкрепления - student2.ru и Ppenalty Научение посредством подкрепления - student2.ru для группы игроков, и Preward Научение посредством подкрепления - student2.ru и Ppenalty Научение посредством подкрепления - student2.ru для контрольной группы. Были получены результаты, приведённые в таблицах 5 и 6 в приложении. Как можно увидеть, данная модель оказалась неспособной предсказать реакции испытуемых, в первую очередь благодаря тому, что модель не учитывает величину подкрепления и наказания.

Подводя итог, вычислительные модели обучения многое сделали для улучшения нашего понимания процесса принятия решений за последние несколько десятилетий благодаря своей способности к предсказанию поведения. Совершенствование математических моделей обучения с подкреплением продолжается до сих пор, и продолжится в будущем, как и изучение данного метода исследования подкрепления и наказания.

Выводы.

Применение общих правил к конкретному случаю редко обходится без потерь, особенно в ситуациях, когда существует более чем одна непредвиденная переменная. Большинство экспериментов в поведенческой психологии предназначены для освещения одного, определённого явления, подобно рентгену, просвечивающему кости руки. Кожа, мускулы в этом случае не видны, и в результате картина будет являться неполной. Но даже видя только кости, мы способны выдвинуть жизнеспособные предположения о том, как работает рука, её возможности и ограничения. Принципы Бихевиоризма, обсуждаемые здесь должны иметь схожие преимущества и ограничения. Существует огромное множество других факторов, которые влияют на игроков, но базовые паттерны поведения и математические модели формируют фундамент. Понимая фундаментальные закономерности, которые лежат в основе игры, мы сможем сформировать более полно не только модели подкрепления игр, мотивации игроков, но и более успешные модели поведения и обучения.

СПИСОК ИСПОЛЬЗОВАННОЙ ЛИТЕРАТУРЫ

1. Thorndike E. L. Human learning. NY.: Century Company, 1931.

2. Cronbach Lee J. Essentials of Psychological Testing (Third Edition). NY.: Harper and Row, 1970

3. Kubanek. J., L. H. Snyder., R. A. Abrams. Reward and punishment act as distincs factors in guiding behavior // J. Kubanek. Elsevier Cognition. NY.: CrossMark, 2015.

4. Sharma, M., Ontañón, S., Mehta, M. and Ram, A. Drama Management and Player Modeling for Interactive Fiction Games. Computational Intelligence Journal, 26(2), 2010. р. 183-211.

5. Toma, C. L. Affirming the Self through Online Profiles: Beneficial Effects of Social Networking Sites. In Proceeding of CHI 2010, р. 1749-1752.

6. Walther, J. B. Selective self-presentation in computer-mediated communication: Hyperpersonal dimensions of technology, language, and cognition. Computers in Human Behavior, 2007.р. 1 - 23, 2538-2557.

7. Bates, B. Game Design: The Art & Business of Creating Games. Prima Publishing, Roseville, CA, 2001.

8. Kazdin, A.E. Behavior Modification in Applied Settings, Belmont, Brooks/Cole, 1989.

9. Martin, G., Pear, J., Behavior Modification, New Jersey, Prentice Hall, 1992.

10. Medler, B., John, M. and Lane, J. Data Cracker: Developing a Visual Game Analytic Tool for Analyzing Online Gameplay. In Proceedings of CHI 2011. Vancouver, BC Canada.

11. Few, S. Now You See It: Simple Visualization Techniques for Quantitative Analysis. Analytics Press, 2009.

12. Spence, R. Information Visualization. ACM Press, 2001.Age and Sex Composition: 2010. [Электронный ресурс] URL: http://www.census.gov (дата обращения 01.06.2016)

13. Video Game Industry Statistics. [Электронный ресурс] URL: http://www.esrb.org (дата обращения 25.05.2016)

14. Games market revenue worldwide in 2015, 2016 and 2018, by segment and screen (in billion U.S. dollars). [Электронный ресурс] URL: http://www.statista.com (дата обращения 24.05.2016)

15. John Hopson. Behavioral Game Design. [Электронный ресурс] URL http://www.gamasutra.com (дата обращения 19.05.2016)

16. Moos R. H. The human context: Environmental determinants on behavior. NY.: 1973.

17. Хьелл Л., Зиглер Д. Теории личности. СПБ.: Питер, 2013.

18. Романова Е.С. Психодиагностика. МСК.: Кнорус, 2015.

19. А. Н. Колмогоров, А. М. Абрамов, Ю. П. Дудницын и др. Алгебра и начала анализа: Учеб. для 10-11 кл. общеобразоват. учреждений. Под ред. А. Н. Колмогорова.- 14-е изд. М.: Просвещение, 2004

20. Christopher A. High-level reinforcement learning in strategy games. International Foundation for Autonomous Agents and Multiagent Systems, SC.: Richland, 2010.

21. Haw J. The relationship between reinforcement and gaming machine choice. Southern Cross University. [Электронный ресурс] URL.: http://epubs.scu.edu.au/cgi/viewcontent.cgi?article=1113&context=tourism_pubs (дата обращения 15.06.2016)

22. Camerer C. F. Progress and Behavioral Game Theory. [Электронный ресурс] URL.: http://www.hss.caltech.edu/content/progress-and-behavioral-game-theory (дата обращения 19.06.2016)

23. Сamerer C. F. Behavioral Game Theory: Experiments in Strategic Interaction. NY.: Newyork, 2013.

24. Drachen A., Sifa R., Bauckhage C. Guns, swords and data: Clustering of player behavior in computer games in the wild. Data of Conference: Computational Intelligence and Games, 2012.

25. Kang, Shin-Jin., Young Bin Kim., Taejung Park. Automatic player behavior analysis system using trajectory data in a massive multiplayer online game. Springer Science. Seoul, 2010.

26. Yee N. Motivations of Play in Online Games. NY.: CyberPsychology and behavior, 9, p. 772-775, 2007.

27. Banks J., Bowman N. D. Emotion, anthropomorphism, realism, control: Validation of a merged metric for player-avatar interaction (PAX). West Virginia University, Department of Communication Studies.Computers in Human Behavior, 54, p. 212-223, 2016.

28. Cуслов В. И., Чумакова Н. П. Психодиагностика: Учеб. пособие. СПБ., 1992.

29. Мельников В. М., Ямпольский Л. Т. Введение в экспериментальную психологию личности. М.: Просвещение,1985

ПРИЛОЖЕНИЯ

Приложение №1. Текст правил игры, предъявлявшийся перед началом исследования.

Мы предлагаем вам сыграть в небольшую игру и после её прохождения дать ответы на 2 психологические методики.

Среднее время игры - 20 минут.

Задача состоит в наборе как можно большего количества очков. После 1 июня будет опубликована таблица с наивысшими результатами игроков. Это простая игра, ориентированная на внимание, реакцию и счёт.

Примечание: в игру можно сыграть только один раз, все дополнительные попытки не будут учитываться.

Правила игры

Игра разделена на множество проб, которые сменяют друг друга по очереди.

Игровое поле разделено на 2 равные части по вертикали. На каждой половине расположено по 1 кругу, появляющемуся и исчезающему в одном и том же месте. Ваша задача - посчитать, какой из кругов появлялся чаще другого в ходе данной пробы. В среднем проба длится около 4 секунд, так что важно поспевать за временем. После окончания пробы экран окрасится цветом кругов - это значит, что пора сделать выбор и нажать либо кнопку "С левой", если чаще появлялся круг с левой стороны, либо "С правой", если чаще появлялся круг справа.

Всего есть три вида проб:

Если круги синие, то за правильный ответ вы получите 1, 2 или 4 очка. За неправильный - потеряете 1, 2 или 4 очка.

Если круги зеленые, то за неправильный ответ вы избежите получения 1, 2 или 4 очков за будущие ответы. За правильный - предотвратите потерю 1, 2 или 4 очков в будущем. Эти "очки избегания" накапливаются в ходе игры.

Если круги не появляются, и Вы видите просто фон зелёного и синего цвета без предъявления кругов, то от Вас всё равно потребуется сделать выбор в течении 2 секунд, за которым также последует изменение в баллах. Если фон синий - то за правильный ответ вы получите 1,2 или 4 очка. За неправильный - потеряете 1, 2 или 4 очка. Если фон зеленый, то за неверный ответ вы избежите получения 1, 2 или 4 очков. За правильный - избежите потери 1, 2 или 4 очков.

Если Вы не успеете сделать выбор за 2 секунды, то проба не будет засчитана и Вы перейдёте к следующей.

Научение посредством подкрепления - student2.ru Приложение №2. Образец того, как выглядели пробы типа 1.

Приложение №3. Образец того, как выглядела проба типа 3.

 
  Научение посредством подкрепления - student2.ru

Приложение №4. График наглядного представления результатов методики одним из испытуемых. В случае, если какая либо из величин исхода пробы не повторялась более 7 раз, результаты её влияния на поведение не учитывались. На графике это выражено пунктирными линиями. Линия обозначенная синими кругами представляет результаты задания №1, с зелёными - задания №2, сплошная синяя линия - задания №3, сплошная зелёная - задания №4.

Научение посредством подкрепления - student2.ru Результаты прохождения методик.

Опросник Эллерса для оценки мотиваци избегания неудач: 19 баллов, умерено высокий уровень мотивации избегания неудач.

Опросник Эллерса для оценки мотивации к успеху: 18 баллов, умеренно высокий уровень мотивации к успеху.

Опросник Шуберта для оценки готовности к риску: 25 баллов,

Приложение №5. График общего представления результатов методики, без учётов типов задач и величин баллов, закреплёнными за заданиями.

Научение посредством подкрепления - student2.ru

Приложение №5. График представления результатов методики по каждому из типов заданий, без учёта величин баллов. Научение посредством подкрепления - student2.ru

[1] Spil Games - компания, включающая в себя более 50 игровых вебсайтов, на которых посетители играют преимущественно в браузерные игры, и обладающая патентом на более чем 100 игр.

[2]По данным статистики сайта Twitch.tv, самого популярного сайта стриминг-игр, предоставляющего возможность игрокам вести прямую трансляцию своего игрового процесса по всему миру.

[3] Тео́рия игр — математический метод изучения стратегий в играх. Игра - понимается как процесс, в котором участвуют две и более сторон, борющихся за реализацию собственных интересов. Каждая из сторон имеет свою цель и использует некоторую стратегию, которая может вести к выигрышу или проигрышу — в зависимости от поведения других игроков. Теория игр помогает выбрать лучшие стратегии с учётом представлений о других участниках, их ресурсах и их возможных поступках. Принадлежит разделу прикладной математики.

[4]Аверсивное событие - Нечто, вызывающее неприязнь или отвращение. Это может быть стимул (например, лекарственный препарат, вызывающий тошноту), либо событие (внезапный громкий шум или удар электрическим током).

[5] Классическое обусловливание - процесс научения, при котором ранее нейтральный стимул начинает ассоциироваться с другим стимулом вследствие того, что второй стимул сопровождает первый.

[6] World of Warcraft - многопользовательская ролевая онлайн-игра, разработанная и издаваемая компанией Blizzard Entertainment. Согласно книге рекордов Гиннесса, World of Warcraft является самой популярной MMORPG в мире.

Наши рекомендации