Тема 7. Лекция 15. Иерархические игры.

С точки зрения управления наиболее адекватными являются игры, в которых игроки принимают решения не одновременно, а последовательно, т.е., если мы говорим, что есть управляющий орган – центр – и управляемые субъекты (агенты), то сначала центр определяет правила игры, а дальше агенты принимают решения, исходя из этих правил. Такие игры называются иерархическими. По определению, иерархическая игра – игра с фиксированной последовательностью ходов.

Простейшая иерархическая игра – такая, в которой есть первый игрок – центр, второй игрок – агент (см. Рис. 2.2).

  Тема 7. Лекция 15. Иерархические игры. - student2.ru Рис. 2.2. Базовая структура «центр-агент» Для иерархических игр характерно использование максимального гарантированного результата (МГР) в качестве базовой концепции решения игры. При этом «пессимистичность» МГР (взятие минимума по множеству неопределенных параметров) компенсируется возможностью передачи информации между игроками, что, очевидно, снижает неопределенность при принятии решения.

Критерии эффективности (целевые функции) первого и второго игроков обозначим[2] Тема 7. Лекция 15. Иерархические игры. - student2.ru и Тема 7. Лекция 15. Иерархические игры. - student2.ru соответственно. Выигрыши игроков зависят от их действий x1 и x2 из множеств действий Тема 7. Лекция 15. Иерархические игры. - student2.ru , Тема 7. Лекция 15. Иерархические игры. - student2.ru .С одной стороны, получается игра двух лиц в нормальной форме, поэтому, если не введено условие последовательности выбора стратегий, то возможно достижение равновесия по Нэшу и т.п.

Во всех моделях иерархических игр считается, что первый игрок (центр) имеет право первого хода. Его ход состоит в выборе стратегии Тема 7. Лекция 15. Иерархические игры. - student2.ru . Понятие стратегии существенно отличается от понятия действия и тесно связано с информированностью первого игрока о поведении второго игрока – агента. Под стратегией игрока здесь и далее понимается правило его поведения, то есть правило выбора конкретного действия в зависимости от содержания и конкретного значения той информации, которую он получит в процессе игры. Выбирать же собственно действие центр может и после выбора действия агентом.

Самая простая стратегия центра состоит в выборе непосредственно действия x1 (если поступления дополнительной информации о действии агента в процессе игры не ожидается), более сложная – в выборе функции Тема 7. Лекция 15. Иерархические игры. - student2.ru (если в процессе игры ожидается информация о действии агента). Также стратегия центра может состоять в сообщении агенту некоторой информации, например, о планах своего поведения в зависимости от выбора агентом действия. При этом агент должен быть уверен, что первый игрок может реализовать эту стратегию, то есть что первый игрок будет точно знать реализацию действия x2 на момент выбора своего действия x1.

Например, если агент (выбирающий стратегию вторым) не ожидает информации о действии центра, то реализация права первого хода центра может состоять в сообщении центром агенту функции Тема 7. Лекция 15. Иерархические игры. - student2.ru . Такое сообщение может рассматриваться, как обещание выбрать действие Тема 7. Лекция 15. Иерархические игры. - student2.ru при выборе агентом действия x2. Тогда стратегия агента состоит в выборе действия в зависимости от сообщения центра, Тема 7. Лекция 15. Иерархические игры. - student2.ru . Если при этом агент доверяет сообщению центра, он должен выбрать действие Тема 7. Лекция 15. Иерархические игры. - student2.ru , реализующее

Тема 7. Лекция 15. Иерархические игры. - student2.ru .

Игра с описанным выше порядком функционирования называется для краткости игрой Г2 (примером такой игры служит, как раз, задача стимулирования в условиях информированности центра о действии агента – см. ниже).

Если центр не ожидает информации о действии агента, и это известно агенту, то стратегия центра состоит, как уже было сказано, просто из выбора некоторого действия Тема 7. Лекция 15. Иерархические игры. - student2.ru . Стратегия агента состоит в выборе Тема 7. Лекция 15. Иерархические игры. - student2.ru (он делает ход вторым, уже зная действие центра). Такая игра называется игрой Г1 (это, например, та же задача стимулирования, но уже в условиях отсутствия у центра информации о действии агента).

Рассмотрим сначала игру Г1. Пара действий Тема 7. Лекция 15. Иерархические игры. - student2.ru в игре Г1 называется равновесием Штакельберга, если

(1) Тема 7. Лекция 15. Иерархические игры. - student2.ru ,

(2) Тема 7. Лекция 15. Иерархические игры. - student2.ru ,

то есть Тема 7. Лекция 15. Иерархические игры. - student2.ru – функция наилучшего ответа агента на действие центра.

Равновесие в игре Г1 отличается от равновесия Штакельберга (1) тем, что при определении оптимальной стратегии первого игрока вычисляется минимум по множеству Тема 7. Лекция 15. Иерархические игры. - student2.ru :

(3) Тема 7. Лекция 15. Иерархические игры. - student2.ru .

Пример. Рассмотрим Пример 2.1, в котором

f1(x1, x2) = a x1– x1 x2, f2(x1, x2) = x1 x2 – (x2)2 / 2 r.

Содержательно, центр по тем или иным причинам заинтересован (a > 0 – известная константа) в завышении цены x1 Î Тема 7. Лекция 15. Иерархические игры. - student2.ru = [0; +¥), но, в то же время, он выбирает цену, по которой он готов приобрести продукцию, производимую агентом, и сообщает эту цену агенту, после чего агент принимает решение об объеме выпуска x2.

При отсутствии технологических ограничений ( Тема 7. Лекция 15. Иерархические игры. - student2.ru = [0; +¥)) максимум функции f2(x1, x2) по x2 достигается при выборе агентом действия Тема 7. Лекция 15. Иерархические игры. - student2.ru = x1 r (отметим, что в рассматриваемом примере множество Тема 7. Лекция 15. Иерархические игры. - student2.ru состоит из единственной точки Тема 7. Лекция 15. Иерархические игры. - student2.ru , поэтому равновесия (1) и (3) совпадают).

Находим Тема 7. Лекция 15. Иерархические игры. - student2.ru = arg Тема 7. Лекция 15. Иерархические игры. - student2.ru f1(x1, Тема 7. Лекция 15. Иерархические игры. - student2.ru ) = a / 2 r, после чего вычисляем Тема 7. Лекция 15. Иерархические игры. - student2.ru = a / 2. ·

В игре Г1 агент выбирает действие в условиях полной информированности, уже зная действие центра. Максимизация выигрыша выбором своего действия является здесь частным случаем применения принципа МГР. Равновесное по Штакельбергу действие центра также дает ему гарантированный результат, если центр уверен в том, что агент выбирает свое действие в соответствии с (2) и принципом благожелательности. Таким образом, равновесные стратегии как центра, так и агента, являются для них и гарантирующими.

Однако ситуация, когда первый ход дает преимущество, все же более типична. Тогда, если порядок ходов определяется самими игроками, между ними возникает борьба за лидерство. Игре двух лиц в нормальной форме можно поставить в соответствие две игры Г1 (игры первого порядка), отличающиеся последовательностью ходов. Тогда борьба за лидерство (первый ход) определяется выгодностью перехода от исходной игры к какой-либо из иерархических игр первого порядка. Известно [8], что, если в игре двух лиц имеются хотя бы два различных оптимальных по Парето равновесия Нэша, то в этой игре имеет место борьба за первый ход.

Тем не менее, во многих случаях соответствующее игре Г1 поведение центра нельзя назвать эффективным. Поэтому, когда центр наблюдает действие агента, он заинтересован сообщить агенту о своих планах по выбору действия в зависимости от действия агента, реализуя тем самым игру Г2.

Приведем формулировку теоремы о максимальном гарантированном результате центра в игре типа Г2. К этой игре сводятся многие модели управления, например, задача стимулирования в условиях полной информированности (см. ниже). Определим необходимые для формулировки теоремы понятия.

Целевые функции игроков: Тема 7. Лекция 15. Иерархические игры. - student2.ru , Тема 7. Лекция 15. Иерархические игры. - student2.ru непрерывны на компактных множествах Тема 7. Лекция 15. Иерархические игры. - student2.ru Тема 7. Лекция 15. Иерархические игры. - student2.ru допустимых действий.

Стратегия центра – Тема 7. Лекция 15. Иерархические игры. - student2.ru , то есть предполагается следующий порядок функционирования: игрок 1 (центр), обладая правом первого хода, сообщает игроку 2 (агенту) план выбора своей стратегии в зависимости от выбранной игроком 2 стратегии x2. После этого второй игрок выбирает действие x2, максимизируя свою целевую функцию с подставленной туда стратегией первого игрока, а затем первый игрок – действие Тема 7. Лекция 15. Иерархические игры. - student2.ru .

Стратегия наказания Тема 7. Лекция 15. Иерархические игры. - student2.ru определяется из условия

Тема 7. Лекция 15. Иерархические игры. - student2.ru

Если стратегий наказания несколько, то будем называть оптимальной стратегией наказания ту из них, на которой достигается максимум выигрыша первого игрока.

Гарантированный результат второго игрока (при использовании первым игроком стратегии наказания) равен

Тема 7. Лекция 15. Иерархические игры. - student2.ru Тема 7. Лекция 15. Иерархические игры. - student2.ru

Множество действий второго игрока, обеспечивающих ему максимальный выигрыш при использовании первым игроком стратегии наказания есть E2 = {x2 | Тема 7. Лекция 15. Иерархические игры. - student2.ru =L2}.

Множество достижимости Тема 7. Лекция 15. Иерархические игры. - student2.ru – это договорное множество рассматриваемой игры, то есть множество сочетаний стратегий первого и второго игроков, которые гарантировали бы второму результат, строго больший того, что тот может получить даже при наихудших для него действиях первого игрока (то есть при использовании первым игроком стратегии наказания).

Наилучший результат первого игрока на множестве достижимости есть Тема 7. Лекция 15. Иерархические игры. - student2.ru . Принадлежность ситуации множеству достижимости гарантирует реализуемость этого результата путем использования стратегии наказания.

Определим действие первого игрока, дающее ему выигрыш Тема 7. Лекция 15. Иерархические игры. - student2.ru при выборе вторым игроком рекомендуемого действия из D:

Тема 7. Лекция 15. Иерархические игры. - student2.ru , Тема 7. Лекция 15. Иерархические игры. - student2.ru .

Вычислим Тема 7. Лекция 15. Иерархические игры. - student2.ru – гарантированный результат центра при применении им стратегии наказания (так как стратегии второго игрока ограничены множеством E2).

Определим стратегию Тема 7. Лекция 15. Иерархические игры. - student2.ru , которая реализует (с точностью до e) наилучший ответ центра на действие x2 агента (e-доминантная стратегия), то есть

Тема 7. Лекция 15. Иерархические игры. - student2.ru .

Теорема Ю.Б. Гермейера [6]. В игре Г2 наибольший гарантированный результат центра равен Тема 7. Лекция 15. Иерархические игры. - student2.ru . При K > M e-оптимальная стратегия центра Тема 7. Лекция 15. Иерархические игры. - student2.ru . При K £ M оптимальная стратегия центра заключается в применении оптимальной стратегии наказания.

Каким же образом соотносятся выигрыши центра в играх Г1 и Г2 с одинаковыми функциями выигрыша? Существуют ли более рациональные для центра методы обмена информацией, дающие ему больший выигрыш? Ответ на эти вопросы дает рассмотрение информационных расширений игры, или метаигр.

Если центр не планирует самостоятельно получить информацию о действии агента, он может первым выбрать действие, реализуя игру Г1. Однако ему можно порекомендовать и более сложное поведение. Центр может попросить агента сообщить ему свою стратегию Тема 7. Лекция 15. Иерархические игры. - student2.ru , которая основана на ожидаемой агентом информации о действии центра. Реализация права первого хода центром состоит в этом случае в сообщении агенту стратегии Тема 7. Лекция 15. Иерархические игры. - student2.ru . Эту стратегию можно интерпретировать, как обещание центра выбрать действие Тема 7. Лекция 15. Иерархические игры. - student2.ru при условии, что агент обещает выбирать свое действие в соответствии с Тема 7. Лекция 15. Иерархические игры. - student2.ru . Так образуется игра Г3.

Если центр определяет порядок обмена информацией, он может выбирать, играть ему Г1 или Г3. В обеих играх центр вынужден выбирать действие, не зная действия, выбранного агентом. Можно считать Г3, в некотором роде, усложнением игры Г1.

Аналогично тому, как, с помощью образования дополнительной «петли обратной связи», из Г1 была образована Г3, можно усложнить и игру Г2. Так образуется игра Г4. В ней агент, ожидая от центра, как и в Г2, информацию вида Тема 7. Лекция 15. Иерархические игры. - student2.ru , формирует и сообщает центру свою стратегию Тема 7. Лекция 15. Иерархические игры. - student2.ru . Центр, обладающий правом первого хода, пользуется стратегиями Тема 7. Лекция 15. Иерархические игры. - student2.ru , которые определяют, какую функцию Тема 7. Лекция 15. Иерархические игры. - student2.ru выберет центр в зависимости от сообщения агента Тема 7. Лекция 15. Иерархические игры. - student2.ru .

Таким же способом можно на основе Г3 построить игру Г5, и так далее. В каждой из построенных четных игр Г2m, m = 1, 2, …, центр использует в качестве стратегий отображения множества стратегий агента в этой игре на множество стратегий центра в игре Г2m-2. Аналогично, стратегиями агента являются отображения множества стратегий центра в Г2m на множество стратегий агента в игре Г2m-2.

Такую рефлексию можно было бы наращивать бесконечно, переходя к все более сложным схемам обмена информацией, если бы рассмотрение этих игр увеличивало выигрыш центра (в интересах которого и проводится исследование всех метаигр). Однако имеет место следующий результат.

Теорема Н.С. Кукушкина. Максимальный гарантированный результат центра в игре Г2m при m > 1 равен максимальному гарантированному результату центра в игре Г2. В играх же Г2m+1 при m > 1 максимальный гарантированный результат центра равен его максимальному гарантированному результату в игре Г3.

Таким образом, при исследовании гарантированного результата центра можно ограничиться только играми Г1, Г2 и Г3. Кроме того, известно [20, 34], что максимальный гарантированный результат центра в игре Г2 не меньше его гарантированного результата в игре Г3, а тот, в свою очередь, не меньше гарантированного выигрыша в игре Г1. Этот факт показывает, что Г2 является «идеальной» игрой для центра. Соответственно, если центр имеет возможность определять порядок и содержание обмена информацией, и, кроме того, при выборе своего действия знает действие, выбранное агентом, он должен играть Г2. Если центр на момент выбора своего действия не знает действия агента – ему наиболее выгодна игра Г3.

Темы, вопросы, упражнения, задачи практических занятий.

Наши рекомендации