Решение игры в смешанных стратегиях

Если игра не имеет седловой точки, то применение чистых стратегий не дает оптимального решения игры. В этих играх a < b. Применение минимаксных стратегий для каждого из игроков обеспечивает выигрыш, не превышающий a, и проигрыш, не меньший b. Естественным для каждого игрока является вопрос увеличения выигрыша (уменьшения проигрыша). Поиски такого решения состоят в том, что игроки применяют не одну, а несколько стратегий. Выбор стратегий осуществляется случайным образом. Случайный выбор игроком своих стратегий называется смешанной стратегией.

Смешанной стратегией SA игрока А называется применение чистых стратегий A2,…,Ai,…,Am с вероятностями p1, p2,…,pi,…,pm, причем сумма вероятностей равна 1: Решение игры в смешанных стратегиях - student2.ru рi³0, i=1, 2, ... m. (*)

В игре, матрица которой имеет размерность m´n, стратегии игрока A задаются в виде матрицы SA = Решение игры в смешанных стратегиях - student2.ru или в виде строки вероятностей SA=(p1, p2,…,pi,…,pm), с которыми игрок применяет свои первоначальные чистые стратегии. Эти наборы можно рассматривать как m-мерные вектора, для компонент которых выполняются условия (*).

Аналогично, для игрока B определяют n-мерные вектора SB=(q1, q2,...,qj,…,qn) соответствующие его смешанным стратегиям.

При использовании смешанных стратегий выигрыш игрока A определяется как математическое ожидание выигрыша, т.е.

Решение игры в смешанных стратегиях - student2.ru = Решение игры в смешанных стратегиях - student2.ru

Чистые стратегии считаются частным случаем смешанных. На основании принципа минимакса определяется оптимальное решение ( или решение) игры: это пара оптимальных стратегий S*A, S*B в общем случае смешанных, обладающих свойством: если один из игроков придерживается своей оптимальной стратегии, то для другого не может быть выгодным отклоняться от своей. Выигрыш, соответствующий оптимальному решению, называется ценой игры n, которая удовлетворяет неравенству a £ n £ b .

Справедлива следующаяосновная теорема теории игр – теорема Неймана: каждая конечная игра имеет по крайней мере одно оптимальное решение, возможно, среди смешанных стратегий.

Пусть в игре m´n найдено решение, состоящее из двух оптимальных стратегий: S*A= (р1*2*, …, рm*) и S*B= (q1*, q2*, ... ,qn*). В общем случае, некоторые из чисел рi* и qj* , (i=1,2,…,m; j=1,2,….n) могут быть равными нулю, т.е. не все стратегии, доступные игроку входят в его оптимальную смешанную стратегию.

Чистые стратегии игроков А и В, входящие в оптимальные смешанные стратегии, для которых вероятности pi и qj отличны от нуля, называются активными.

Справедливатеорема об активных стратегиях. Если один из игроков придерживается своей оптимальной смешанной стратегии, то выигрыш остается неизменным и равным цене игры v, если второй игрок не выходит за пределы своих активных стратегий

Эта теорема имеет большое практическое значений – она дает конкретные модели нахождения оптимальных стратегий при отсутствии седловой точки.

Применение оптимальной стратегии позволяет получить выигрыш, равный цене игры a£n£b.

Применение игроком A оптимальной стратегии S*Aдолжно обеспечивать ему при любых действиях игрока B выигрыш не меньше цены игры n. Поэтому выполняются следующие соотношения:

Решение игры в смешанных стратегиях - student2.ru , j=1,2,….n. (1)

Аналогично, для игрока B оптимальная стратегия S*Bдолжна обеспечить при любых стратегиях игрока A проигрыш, не превышающий величину n, т.е. справедливо соотношение

Решение игры в смешанных стратегиях - student2.ru , i=1,2,…,m. (2)

В дальнейшем соотношения (1) и (1) используются для решения игры.

Если игра m´n не имеет седловой точки, то отыскание ее решения, особенно при больших m и n, представляет собой довольно трудоемкую задачу. Иногда эту задачу удается упростить, если сократить число стратегий путем вычеркивания некоторых излишних (в частности, с помощью сокращения размерности матрицы), исключая излишние стратегии: дублирующие и заведомо невыгодные доминирующее.

Дублирующими называются стратегии, которым соответствуют одинаковые значения элементов в платежной матрице, т.е. она содержит одинаковые строки (столбцы).

Если все элементы i-ой строки матрицы меньше соответствующих элементов к-ой строки, то i-ая стратегия называется доминирующей. Аналогично, для столбцов.

Пример 3. Рассмотрим игру со следующей матрицей: Решение игры в смешанных стратегиях - student2.ru .

Из матрицы видно, что стратегия A3 в точности повторяет (дублирует) стратегию A1, поэтому любую из этих двух стратегий можно вычеркнуть. Далее, сравнивая почленно строки A1 и A2, видим, что все элементы строки A2 меньше (или равны) соответствующих элементов строки A1. Значит стратегия A2 для нас, желающих выиграть, заведомо невыгодна. Вычеркивая A3 и A2, приведем матрицу к более простому виду: Решение игры в смешанных стратегиях - student2.ru .

Таким образом, игра 4´4 сведена к игре 2´4.

Наиболее простой матричной конечной игрой является игра размером 2х2. Если игра имеет седловую точку, то оптимальное решение – это пара чистых стратегий, соответствующих этой точке.

Для игры, в которой нет седловую точки, в соответствии с основной теоремой теории игр оптимальное решение существует и определяется парой смешанных стратегий S*A= (р1*2*) и S*B= (q1*, q2*).

Для того чтобы найти их, воспользуемся теоремой об активных стратегиях. Если игрок А придерживается своей оптимальной стратегии S*A, то его средний выигрыш останется неизменным и будет равен цене игры v, какой бы активной стратегией ни пользовался игрок B. Для игры 2х2 любая чистая стратегия противника является активной, если отсутствует седловая точка. Выигрыш игрока А (проигрыш игрока В) – случайная величина, математическое ожидание (среднее значение) которой является ценой игры. Поэтому средний выигрыш игрока А (оптимальная стратегия) будет равен v и для 1-й, и для 2-й стратегии противника. Пусть игра задана платежной матрицей: Решение игры в смешанных стратегиях - student2.ru .

Средний выигрыш игрока А, если он использует оптимальную смешанную стратегию S*A= Решение игры в смешанных стратегиях - student2.ru , а игрок В – чистую стратегию В1(это соответствует 1-му столбцу платежной матрицы Р), равен цене игры v: Решение игры в смешанных стратегиях - student2.ru .

Тот же средний выигрыш получает игрок А, если 2-й игрок применяет чистую стратегию В2, т.е. Решение игры в смешанных стратегиях - student2.ru . Учитывая, что р*1 + р*2 = 1, получаем систему уравнений для определения оптимальной стратегии S*A и цены игры v:

Решение игры в смешанных стратегиях - student2.ru (*).

Решая эту систему, получим оптимальную стратегию:

р*1 = Решение игры в смешанных стратегиях - student2.ru , р*2 = Решение игры в смешанных стратегиях - student2.ru . (3)

Подставляя значения р*1 и р*2 в одно из уравнений (*), получим:
v = Решение игры в смешанных стратегиях - student2.ru . (4)

Применяя теорему об активных стратегиях при отыскании S*B - оптимальной стратегии игрока B, получаем, что при любой чистой стратегии игрока А (А1 или А2) средний проигрыш игрока В равен цене игры v, т.е. Решение игры в смешанных стратегиях - student2.ru

Тогда оптимальная стратегия S*B (q*1,q*2):

q*1= Решение игры в смешанных стратегиях - student2.ru , q*2 = Решение игры в смешанных стратегиях - student2.ru . (5)

Пример 4. Найти решение игры, заданной матрицей Решение игры в смешанных стратегиях - student2.ru из примера 1.

Решение. Имеем a=-1, b=1; матрица не имеет седловой точки.

Решение игры в смешанных стратегиях - student2.ru Решение игры в смешанных стратегиях - student2.ru

Находим оптимальные стратегии и цену игры: р*1=р*2= q*1=q*2=1/2, v =0.

Это означает, что оптимальная стратегия каждого игрока состоит в том, чтобы чередовать свои чистые стратегии случайным образом, выбирая каждое из убежищ с вероятностью 1/2, при этом средний выигрыш равен 0.

Наши рекомендации