Критерии и свойства оптимальных стратегий.

В предыдущей лекции оптимальные стратегии P0 и Q0 соответственно игроков А и В определились в виде упорядоченной пары (P0,Q0), образующей ситуацию, в которой достигается равенство V=α(P0)= β(Q0)=H(P0,Q0). В следующей теореме в терминах цены игры V, функции выигрыша Н и множеств смешанных стратегий формулируются простые категории (необходимые и достаточные условия) оптимальных стратегий каждого из игроков.

Теорема 2.10.1. Пусть V — цена игры, H(P0,Q0) — функция выигрыша, SA и SB— множество смешанных стратегий А и В.

1. Для того чтобы стратегия P0 игрока А была оптимальной необходимо и достаточно, чтобы выполнялось неравенство

H(P0,Q) ≥ V (2.10.1.)

для любого Q Критерии и свойства оптимальных стратегий. - student2.ru SB, т.е. выбор игроком А оптимальной стратегии P0 гарантирует ему выигрыш H(P0,Q0), не меньше цены игры V, при любой стратеги Q игрока В.

2. Для того чтобы стратегия Q0 игрока В была оптимальной необходимо и достаточно, чтобы выполнялось неравенство

H(P,Q0) ≤ V (2.10.2.)

для любого Р Критерии и свойства оптимальных стратегий. - student2.ru SА, т.е. выбор игроком В одной из своих оптимальных стратегий Q0

гарантирует ему проигрыш не больший цены V, при любой стратеги Р игрока А.

Доказательство: докажем утверждение 1.

Необходимость. Пусть P0 — оптимальная стратегия игрока А. Тогда, по теореме 2.9.1. фон Неймана показатель эффективности α(P0) стратегии P0 равен цене игры V [см.(2.9.1.)]:

V= α(P0) (2.10.3.)

Рассматривая α(P0) как показатель эффективности α(P0 ,SВ) стратегии P0 относительно множества SВ смешанных стратегий игрока В, будем иметь по определению (2.8.11)

Критерии и свойства оптимальных стратегий. - student2.ru Критерии и свойства оптимальных стратегий. - student2.ru (2.10.4.)

И равенства (2.10.3.) и (2.10.4.) получаем неравенство (2.10.1.) и необходимость доказана.

Достаточность. Пусть для некоторой стратегии P0 игрока А выполняется неравенство (2.10.1.). Для доказательства оптимальности стратегии P0 достаточно показать равенства

α(P0)=V (2.10.5.)

[см.(2.9.1.)].

Так как неравенство (2.10.1.) выполняется для любой стратегии Критерии и свойства оптимальных стратегий. - student2.ru игрока В, то

Критерии и свойства оптимальных стратегий. - student2.ru (2.10.6.)

Но цена игры V равна нижней цене игры Критерии и свойства оптимальных стратегий. - student2.ru , по определению (8.20) которой,

V = Критерии и свойства оптимальных стратегий. - student2.ru = Критерии и свойства оптимальных стратегий. - student2.ru α(P) ≥ α(P0) (2.10.7.)

Совокупность неравенств (2.10.6.) и (2.10.7.) эквивалентны равенству (2.10.5.).

Достаточность доказана.

Итак, утверждение 1. даказано.

Докажем утверждение 2. Рассуждения аналогичные.

Необходимость. Пусть Q0 является оптимальной стратегией игрока В. Тогда, рассматривая β(Q0) как показатель β(Q0,SА) неэффективности стратегии Q0 относительно множества SА смешанных стратегий игрока А, в силу (2.9.1.) и (2.8.12.), будем иметь:

V= β( Q0)= β(Q0,SА) = Критерии и свойства оптимальных стратегий. - student2.ru Н(Р, Q0),

откуда получаем неравенство (2.10.12.)

Достаточность. Пусть для некоторой стратегии Q0) игрока В справедливо неравенство (2.10.2.). Поскольку это неравенство выполняется для любой стратегии Р Критерии и свойства оптимальных стратегий. - student2.ru SА игрока А, то оно будет справедливо и для Критерии и свойства оптимальных стратегий. - student2.ru Н(Р, Q0), т.е.

β( Q0)= β(Q0,SА) = Критерии и свойства оптимальных стратегий. - student2.ru Н(Р, Q0) ≤ V (2.10.8.)

но (см. (2.8.21.))

Критерии и свойства оптимальных стратегий. - student2.ru (2.10.9.)

Из равенства (2.10.8.) и (2.10.9.) получаем равенство β( Q0)= V, которое ( в силу (2.9.1.)) означает, что стратегия Q0 является оптимальной.

Теорема 2.10.1. остается в силе, если в ее формулировке множества смешанных стратегий SА и SВ заменить на множество Критерии и свойства оптимальных стратегий. - student2.ru и Критерии и свойства оптимальных стратегий. - student2.ru . А именно имеет место

Теорема 2.10.2. Пусть V — цена игры, H(P,Q) — функция выигрыша, Критерии и свойства оптимальных стратегий. - student2.ru ={А1,…,Аm} и {В1,…,Вn}— множество чистых стратегий соответственно игроков А и В.

1) Для того чтобы стратегия Р0 игрока А была оптимальной необходимо и достаточно, чтобы

Н(Р, Вj)≥ V, j =1, …, n. (2.10.10.)

2) Для того чтобы стратегия Q0 игрока В была оптимальной необходимо и достаточно, чтобы

Н(Аi, Q0) ≤ V, i =1, …, m. (2.10.11.)

Доказательство. Достаточно установить эквивалентность неравенств (2.10.1.) и (2.10.10.).

Докажем эквиваленцию

(2.10.1.) Критерии и свойства оптимальных стратегий. - student2.ru (2.10.10.) (2.10.12.)

Пусть справедливо неравенство (2.10.1.). Так как это неравенство имеет место для любой стратегии Q Критерии и свойства оптимальных стратегий. - student2.ru SB игрока В, то оно, в частности, будет справедливым и для его чистых стратегий Вj Критерии и свойства оптимальных стратегий. - student2.ru Критерии и свойства оптимальных стратегий. - student2.ru , j =1, …, n, т.е. неравенство (2.10.10.) имеет место. Таким образом, импликация (2.10.1.) Критерии и свойства оптимальных стратегий. - student2.ru (2.10.10.) доказана.

Теперь пусть имеет место неравенство (2.10.10.). Тогда по формуле (2.8.10.) с учетом, что Критерии и свойства оптимальных стратегий. - student2.ru , получим:

Критерии и свойства оптимальных стратегий. - student2.ru , Q Критерии и свойства оптимальных стратегий. - student2.ru SB ,

т.е. доказано неравенство (2.10.1.). Таким образом, справедлива импликация (2.10.10.) Критерии и свойства оптимальных стратегий. - student2.ru (2.10.1.) и, следовательно, эквиваленция (10.12) доказана.

Теперь докажем эквиваленцию

(2.10.2.) Критерии и свойства оптимальных стратегий. - student2.ru (2.10.11.) (2.10.13.)

Поскольку Критерии и свойства оптимальных стратегий. - student2.ru Критерии и свойства оптимальных стратегий. - student2.ru SА, то из неравенства (10.2) следует неравенство (10.11). Обратно, пусть справедливо (2.10.11.). Тогда по формуле (1.8.9.) с учетом равенства Критерии и свойства оптимальных стратегий. - student2.ru , будем иметь:

Критерии и свойства оптимальных стратегий. - student2.ru , Р=SА ,

т.е. справедливо (2.10. 2.).

Таким образом, эквиваленция (2.10.13.) доказана.

Поскольку теоремы 2.10.1 и 2.10.2. дают необходимые и достаточные условия одного и того же утверждения, то они эквивалентны.

Пример 2.10.1. В примере 2.8.1 была рассмотрена матричная игра 2×3 с платежной матрицей

Аi Вj В1 В2 В3
А1 1/2 5/6
А2 3/4 1/2

А=

И смешанные стратегии Р0 = (3/8,5/8) и Q0 = (1/4,0,3/4) соответственно игроков А и В. В упражнении 2.9.2 было отмечено, что из примера 2.8.3 по теореме фон Неймана следует оптимальность стратегии Р0 и Q0. Установим этот факт на основании теоремы 2.10.2.Из примера 2.8.3 вытекает, что цена игры V= Критерии и свойства оптимальных стратегий. - student2.ru = Критерии и свойства оптимальных стратегий. - student2.ru = 0,625.

В примере 2.8.3. были подсчитаны значении функции выигрыша Н(Р0, В1)=0,625; Н(Р0, В2)=0,656; Н(Р0, В3)=0,625, а в примере 2.8.2 — следующие значения функции выигрыша Н(А1, Q0)=0,625; Н(А2, Q0)=0,625.

Таким образом Н(Р0, Вj) ≥ V, j =1,2,3, и потому по достаточной части утверждения 1) теоремы 2.10.2 (см.(10.10)), стратегии Р0=(3/8,5/8) является оптимальной стратегией игрока А.

Также имеют место неравенства Н(Аi, Q0) ≤ V, i =1, 2, ( которые на самом деле являются равенствами) и, следовательно, по достаточной части утверждения 2) теоремы 2.10.2(см. 2.10.11, стратегия Q0 = (1/4, 0, 3/4) является оптимальной стратегией игрока В.

Теорема 2.10.2 дает возможность установить геометрическую интерпретацию множества оптимальных стратегий игрока.

Следствие 2.10.1. Множество Критерии и свойства оптимальных стратегий. - student2.ru оптимальных стратегий игрока А является выпуклым многогранником (политопом), содержащимся в симплексе Критерии и свойства оптимальных стратегий. - student2.ru всех смешанных стратегий игрока А.

Множество Критерии и свойства оптимальных стратегий. - student2.ru оптимальных стратегий игрока В является выпуклым многогранником (политопом), содержащимся в симплексе Критерии и свойства оптимальных стратегий. - student2.ru всех смешанных стратегий игрока В.

Доказательство. Для каждой оптимальной стратегии Р0 = ( Критерии и свойства оптимальных стратегий. - student2.ru ) игрока А по необходимой части утверждения 1) теоремы 2.10.2 справедливо неравенство (2.10.10), которое в сочетании с формулой 2.8.8 можно переписать следующим образом:

Критерии и свойства оптимальных стратегий. - student2.ru

Множество точек Р0 = ( Критерии и свойства оптимальных стратегий. - student2.ru ) m – мерное пространство Rm, координаты Критерии и свойства оптимальных стратегий. - student2.ru , i =1, …, m, которых удовлетворяют этому неравенству для фиксированного j Критерии и свойства оптимальных стратегий. - student2.ru {1,…,n}, является (см. пример, 12, с. 27) замкнутым полупространством, а множество точек Р0 = ( Критерии и свойства оптимальных стратегий. - student2.ru ), координаты Критерии и свойства оптимальных стратегий. - student2.ru , i =1, …, m, которых удовлетворяют этому неравенству для всех j =1, …, n, является пересечение конечного числа n замкнутых полупространств и называется выпуклым замкнутым полиэдром (12,с.28). А так как к тому же множество оптимальных стратегий Критерии и свойства оптимальных стратегий. - student2.ru игрока А ограничено, поскольку оно является подмножеством симплекса всех его смешанных стратегий Критерии и свойства оптимальных стратегий. - student2.ru , то Критерии и свойства оптимальных стратегий. - student2.ru является выпуклым многогранником(политопом).

Это утверждение для множества оптимальных стратегий Критерии и свойства оптимальных стратегий. - student2.ru игрока В доказываются аналогично.

В теоремах 2.10.1. и 2.10.2 критерии оптимальности стратегий сформулированы в предположении, что априори известна цена игры V.

В следующей теореме в терминах смешанных стратегий дается критерий решения игры (т.е. совокупности цены игры V и пары оптимальных стратегий Р0 и Q0 соответственно игроков А и В).

Теорема 2.10.3. Для того чтобы V было ценой игры, а Р0 и Q0 – оптимальными стратегиями соответственно игроков А и В, другими словами, для того чтобы { Р0,Q0 , V }было решением игры, необходимо и достаточно выполнение двойного неравенства

Критерии и свойства оптимальных стратегий. - student2.ru (2.10.14)

Для любых Р Критерии и свойства оптимальных стратегий. - student2.ru Критерии и свойства оптимальных стратегий. - student2.ru и Q Критерии и свойства оптимальных стратегий. - student2.ru Критерии и свойства оптимальных стратегий. - student2.ru .

Доказательство. Необходимость. Пусть V – цена игр и Р0 , Q0 – оптимальные стратегии. Тогда необходимой части теоремы 2.10.1. справедливы неравенства (2.10.2) и (2.10.1), которые можно записать в виде двойного неравенства (2.10.14).

Достаточность. Пусть для некоторого числа V и некоторой стратегии Р0 игрока А и Q0 игрока В выполняется двойное неравенство (2.10.14). Так как это неравенство выполняется для любых Р Критерии и свойства оптимальных стратегий. - student2.ru Критерии и свойства оптимальных стратегий. - student2.ru и Q Критерии и свойства оптимальных стратегий. - student2.ru Критерии и свойства оптимальных стратегий. - student2.ru , то в частности оно будет выполнятся и для Р= Р0, Q= Q0:

Критерии и свойства оптимальных стратегий. - student2.ru ,

Т.е. Критерии и свойства оптимальных стратегий. - student2.ru (2.10.15)

Подставим это значение V в неравенство (2.10.14):

Критерии и свойства оптимальных стратегий. - student2.ru (2.10.16)

Поскольку неравенство (2.10.16) справедливо для любых Р Критерии и свойства оптимальных стратегий. - student2.ru Критерии и свойства оптимальных стратегий. - student2.ru и Q Критерии и свойства оптимальных стратегий. - student2.ru Критерии и свойства оптимальных стратегий. - student2.ru , то

Критерии и свойства оптимальных стратегий. - student2.ru ,

Или, в силу (2.8.12) и (2.8.11.)

Критерии и свойства оптимальных стратегий. - student2.ru .

Отсюда по определению верхней и нижней цен игры, получим:

Критерии и свойства оптимальных стратегий. - student2.ru (2.10.17)

Но, по основной теореме матричных игр фон Неймана, Критерии и свойства оптимальных стратегий. - student2.ru и потому из (2.10.17) получаем равенство:

Критерии и свойства оптимальных стратегий. - student2.ru (2.10.18)

Из (2.10.15) и (2.10.18) следует, что V – цена игры, а также справедливость равенства

Критерии и свойства оптимальных стратегий. - student2.ru , которое по определению оптимальных стратегий, означает, что Р0 и Q0 – оптимальные стратегии соответственно игроков Аи В.

Аналогично теореме 2.10.2 в формулировке 2.10.3 множества смешанных стратегий Критерии и свойства оптимальных стратегий. - student2.ru и Критерии и свойства оптимальных стратегий. - student2.ru можно заменить соответственно на множество чистых стратегий Критерии и свойства оптимальных стратегий. - student2.ru = {A1,…,AmКритерии и свойства оптимальных стратегий. - student2.ru = {В1,…,Вn}, т.е. справедлива

Теорема 2.10.4. Для того чтобы V была ценой игры, а Р0 и Q0 – оптимальными стратегиями соответственно игроков А и В, необходимо и достаточно выполнение двойного неравенства:

Критерии и свойства оптимальных стратегий. - student2.ru , i =1, …, m, j =1, …, n. (2.10.19)

Доказательство. Так же как и в доказанной теореме 10.2 достаточно установить эквивалентность неравенствам (2.10.14) и (2.10.19).

Пусть справедливы неравенства (2.10.14). Так как оно имеет место для любых Р Критерии и свойства оптимальных стратегий. - student2.ru Критерии и свойства оптимальных стратегий. - student2.ru и Q Критерии и свойства оптимальных стратегий. - student2.ru Критерии и свойства оптимальных стратегий. - student2.ru , то , в частности , оно справедливо и для любых чистых стратегий Р= Ai , i =1, …, m, и Q = Bj , j =1, …, n, т.е. справедливо двойное неравенство (2.10.19).

Докажем обратное следствие: (2.10.19) Критерии и свойства оптимальных стратегий. - student2.ru (2.10.14).

Пусть имеет место неравенство (2.10.19). Тогда из него, используя формулы (2.8.9), (2.8.10) и равенство Критерии и свойства оптимальных стратегий. - student2.ru , получим:

Критерии и свойства оптимальных стратегий. - student2.ru ,

Т.е. справедливо (2.10.14).

Пример 10.2. Предположим, что в условиях примера 2.10.1 мы априори знаем, что V=0,625 –цена игры, а Р0=(3/8,5/8) и Q0(1/4,0,3/4) – оптимальные стратегии. Покажем , как можно воспользоваться достаточной частью теоремы 2.10.4. для установления цены игры и оптимальности стратегий игроков.

Расположим указанные в примере 2.10.1 значения функции выигрыша Критерии и свойства оптимальных стратегий. - student2.ru , i =1, 2; Критерии и свойства оптимальных стратегий. - student2.ru , j =1, 2,3, в неубывающем порядке:

Критерии и свойства оптимальных стратегий. - student2.ru 0,625; Критерии и свойства оптимальных стратегий. - student2.ru 0,625; Критерии и свойства оптимальных стратегий. - student2.ru 0,625; Критерии и свойства оптимальных стратегий. - student2.ru 0,625; Критерии и свойства оптимальных стратегий. - student2.ru 0,656.

Из этой последовательности очевидно, что выполнение Критерии и свойства оптимальных стратегий. - student2.ru Критерии и свойства оптимальных стратегий. - student2.ru , i =1, 2, j =1, 2,3.

Тогда по достаточной части теоремы 2.10.4 значение V=0,625 является ценой игр, а Р0=(3/8,5/8) и Q0(1/4,0,3/4) – оптимальными стратегиями.

Сформулируем еще один критерий решения игры в терминах седловых точек функции выигрыша.

Теорема 2.10.5. Для того чтобы V было ценой игры, а Р0, Q0 – оптимальные стратегии соответственно игроков А и В необходимо и достаточно, чтобы (Р0, Q0) была седловой точкой функции выигрыша Н (Р, Q) и

Н(Р0, Q0)= V (2.10.20)

Доказательство. Необходимость. Пусть V-цена игры и Р0, Q0 – оптимальные стратегии. Следовательно, по необходимой части теоремы 2.10.3 выполняется неравенство (2.10.14). Но тогда, как было доказано и достаточной части теоремы 2.10.3, имеет место неравенство (2.10.16), которое, по определению (2.9.6)означает, что Р0, Q0 – седловая точка функции выигрыша Н (Р, Q).

Так как V – цена игры и Р0, Q0 – оптимальные стратегии, то равенство (2.10.20) выполняется по определению (§2.9).

Итак, необходимость доказана.

Достаточность. Р0, Q0 – седловая точка функции выигрыша Н (Р, Q) и имеет место равенство (2.10.20). По определению (2.9.6) седловой точки справедливо неравенство (2.10.16).Подставив в него равенство (10.20), получим неравенство (2.10.14), из которого, по достаточной части теоремы 2.10.3 вытекает, что V- цена игры, а Р0, Q0 – оптимальные стратегии соответственно игроков А и В.

Так как теоремы 2.10.3, 1.10.4, 2.10.5 представляют необходимые и достаточные условия решения игры, то они эквивалентны.

Пример 2.10.3. Для установления факта оптимальности стратегий Р0=(3/8,5/8) и Q0(1/4,0,3/4) и нахождения цены игры в условиях примера 2.8.1 примерим теорему 2.10.5.

Для этого надо сначала установить, что точка (Р0, Q0) является седловой точкой функции выигрыша Н(Р, Q).

В примере 2.8.1 было подсчитано, что Н(Р0, Q0)=0,625.

В примере 2.8.2. было подсчитано, что Критерии и свойства оптимальных стратегий. - student2.ru .

По (2.8.12):

Критерии и свойства оптимальных стратегий. - student2.ru .

По (2.8.11):

Критерии и свойства оптимальных стратегий. - student2.ru

Таком образом имеем:

Н(Р, Q0)=0,625≤0,625= Н(Р0, Q0)≤ Н(Р0, Q), Р Критерии и свойства оптимальных стратегий. - student2.ru Критерии и свойства оптимальных стратегий. - student2.ru и Q Критерии и свойства оптимальных стратегий. - student2.ru Критерии и свойства оптимальных стратегий. - student2.ru .

Последнее неравенство по определению (2.9.6) седловых точек означает, что Р0, Q0 – седловая точка функции выигрыша Н (Р, Q). Тогда по достаточной части теоремы 2.10.5 стратегии Р0, Q0 являются оптимальными стратегиями соответственно игроков А и В, а значение Н(Р0, Q0)=0,625 является ценой игры.

Теперь рассмотрим некоторые важные свойства оптимальных стратегий.

Пусть Р0=( Критерии и свойства оптимальных стратегий. - student2.ru )- оптимальная смешанная стратегия игрока А. В общем случае, некоторые из вероятностей Критерии и свойства оптимальных стратегий. - student2.ru могут быть равными нулю. Если Критерии и свойства оптимальных стратегий. - student2.ru =0, где i- одно из чисел 1,…,m, то в оптимальной смешанной стратегии Р0=( Критерии и свойства оптимальных стратегий. - student2.ru ) чистая стратегия Аi не участвует и потому называется пассивной. Чистые стратегии Аi , входящие в оптимальную стратегию Р0 с положительной вероятностью, называется активной. Таким же образом определяются активные стратегии игрока В. Понятно, что оптимальная чистая стратегия является активной. Следующая теорема об активных стратегиях играет существенную роль в решении игр.

Теорема 2.10.6. (об активных стратегиях) Пусть V – цена игры, Р0=( Критерии и свойства оптимальных стратегий. - student2.ru ) и Q0=( Критерии и свойства оптимальных стратегий. - student2.ru ) – оптимальные стратегии соответственно игроков А и В. Тогда

1) Для любой активной стратегии Критерии и свойства оптимальных стратегий. - student2.ru игрока А выполняется равенство

Критерии и свойства оптимальных стратегий. - student2.ru (2.10.21)

2) Для любой активной стратегии Критерии и свойства оптимальных стратегий. - student2.ru игрока B выполняется равенство

Критерии и свойства оптимальных стратегий. - student2.ru (2.10.22)

Доказательство: Докажем утверждение 1) теоремы. Допустим противное этому утверждению, т.е. допустим, что найдется активная стратегия Ак игрока А такая, что

Критерии и свойства оптимальных стратегий. - student2.ru (2.10.23)

Так как Q0 – оптимальная стратегия игрока В, а V- цена игры, то, по необходимой части теоремы 2.10.2,

Критерии и свойства оптимальных стратегий. - student2.ru (2.10.24)

В частности неравенство (2.10.24) будет справедливым и для i=k, т.е.

Критерии и свойства оптимальных стратегий. - student2.ru

Из этого неравенства и предположения (10.23) следует строгое неравенство.

H(Ak,Q0) < V (2.10.25)

Так как Ак - активная стратегия, то, по определению, Критерии и свойства оптимальных стратегий. - student2.ru >0 и , тогда из неравенства (2.10.25) получаем

Критерии и свойства оптимальных стратегий. - student2.ru H(Ak,Q0) < Критерии и свойства оптимальных стратегий. - student2.ru V (2.10.26)

Для остальных номеров I, отличных от к, из неравенства (2.10.24), учитывая, что Критерии и свойства оптимальных стратегий. - student2.ru =0, имеем

Критерии и свойства оптимальных стратегий. - student2.ru H(Ak,Q0) < Критерии и свойства оптимальных стратегий. - student2.ru V, Критерии и свойства оптимальных стратегий. - student2.ru (2.10.27)

Суммируя неравенства 2.10.26 и 2.10.27 и, помня, что Критерии и свойства оптимальных стратегий. - student2.ru , получим

Критерии и свойства оптимальных стратегий. - student2.ru Критерии и свойства оптимальных стратегий. - student2.ru H(Ak,Q0) < Критерии и свойства оптимальных стратегий. - student2.ru Критерии и свойства оптимальных стратегий. - student2.ru V = V Критерии и свойства оптимальных стратегий. - student2.ru Критерии и свойства оптимальных стратегий. - student2.ru = V (2/10/28)

Но по формуле (2.8.9)

Критерии и свойства оптимальных стратегий. - student2.ru Критерии и свойства оптимальных стратегий. - student2.ru H(Ai,Q0) = Н(Р0, Q0)

И потому неравенство (2.10.28) можно переписать в виде неравенства

Н(Р0, Q0)< V

Но так как V – цена игры, Р0, Q0 – оптимальные стратегии, то, по их определению должно выполняться равенство

Н(Р0, Q0) = V

Полученное противоречие доказывает утверждение 1) теоремы.

Утверждение 2) доказывается аналогично. В предложении противго утверждению 2) найдется активная стратегия Вl игрока В, для которого

Критерии и свойства оптимальных стратегий. - student2.ru (2.10.29)

Поскольку Р0- оптимальная стратегия игрока А, а V- цена игры, то по необходимой части теоремы 2.1.2,

Критерии и свойства оптимальных стратегий. - student2.ru (2.10.30)

Из этого неравенства при j=l и предположения (2.10.29) следует неравенство

H(Р0l) > V

Из которого, в силу Критерии и свойства оптимальных стратегий. - student2.ru >0, получаем

Критерии и свойства оптимальных стратегий. - student2.ru H(Р0l) > Критерии и свойства оптимальных стратегий. - student2.ru V (2.10.31)

Из неравенства (2.10.30)

Критерии и свойства оптимальных стратегий. - student2.ru H(Р0l) ≥ Критерии и свойства оптимальных стратегий. - student2.ru V, j Критерии и свойства оптимальных стратегий. - student2.ru l (2.10.31)

Просуммировав неравенства 2.10.31 и 2.10.31 и, использовав формулу 2.8.10, получим неравенство

Н(Р0, Q0) = Критерии и свойства оптимальных стратегий. - student2.ru Критерии и свойства оптимальных стратегий. - student2.ru H(Р0j) > Критерии и свойства оптимальных стратегий. - student2.ru Критерии и свойства оптимальных стратегий. - student2.ru V = V Критерии и свойства оптимальных стратегий. - student2.ru Критерии и свойства оптимальных стратегий. - student2.ru = V

Которое противоречит равенству Н(Р0, Q0) = V, определяющему оптимальные стратегии Р0 и Q0. Утверждение 2) доказано.

Теорема об активных стратегиях означает, что если один из игроков действует по своей оптимальной смешанной стратегии, то выигрыш не изменится и останется равным цене игры V, при условии, что другой игрок придерживается любой своей чистой активной стратегии.

Заметим, что активная стратегия Ak игрока А, для которой по теореме 2.10.6, хотя и выполняется равенство H(Ak,Q0) = V, может не быть оптимальной по причине невыполнения равенства Критерии и свойства оптимальных стратегий. - student2.ru . Аналогичное замечание имеет место и для активных стратегий Вl игрока В.

Пример 2.10.4. Вернемся к игре, рассмотренной в примере 2.8.1. В примере 2.10.3. было установлено, что Р0 = ( Критерии и свойства оптимальных стратегий. - student2.ru = 3/8, Критерии и свойства оптимальных стратегий. - student2.ru = 5/8) и Q0 = ( Критерии и свойства оптимальных стратегий. - student2.ru =1/4, Критерии и свойства оптимальных стратегий. - student2.ru = 0, Критерии и свойства оптимальных стратегий. - student2.ru = 3/4) являются оптимальными стратегиями, V = 0,625, цена игры.

Так как все стратегии ≥ 0, то по определению, чистые стратегии А1 и А2 являются активными стратегиями игрока А, а чистые стратегии В1 и В3 - активные стратегии игрока В. Тогда по теореме 2.10.6 об активных стратегиях,

H(A1,Q0) = H(A2,Q0) = V = 0,625

Что подтверждается прямыми вычислениями в примере 8.2, и

H(Р01) = H(Р03) = V = 0,625

Что подтверждается прямыми вычислениями в примере 8.1.

Отметим, что ни одна из этих активных стратегий не является оптимальной, поскольку из платежной матрицы игры для показателей эффективностей активных стратегий игрока А имеем:

Критерии и свойства оптимальных стратегий. - student2.ru < V=0,625; Критерии и свойства оптимальных стратегий. - student2.ru = min {1, ¾, 1/2}= ½ < V = 0.625

Теорему 2.10.6 эквивалентным образом сформулировать в терминах так называемых «смесей чистых активных стратегий». Определим это понятие.

Пусть Р0=( Критерии и свойства оптимальных стратегий. - student2.ru ) – смешанная оптимальная стратегия игрока А, I – произвольное непустое подмножество множества { Критерии и свойства оптимальных стратегий. - student2.ru >0}= { Критерии и свойства оптимальных стратегий. - student2.ru }: Ai – активная стратегия} номеров активных стратегий игрока А относительно данной смешанной оптимальной стратегии Р0.

Смешанная стратегия Р0=( Критерии и свойства оптимальных стратегий. - student2.ru ) такая, что

Критерии и свойства оптимальных стратегий. - student2.ru (2.10.33)

Называется смесью чистых активных стратегий игрока А.

Если, в частности { Критерии и свойства оптимальных стратегий. - student2.ru >0}, то смесь Р0=( Критерии и свойства оптимальных стратегий. - student2.ru ) активных стратегий называется полной. Если же множество I состоит из единственного номера к, то смесь активных стратегий превращается в активную стратегию Ак

Аналогичным образом определяются смеси чистых активных стратегий игрока В.

Теорема 2.10.7. (о смесях активных стратегий) Пусть V – цена игры, Р0=( Критерии и свойства оптимальных стратегий. - student2.ru ) и Q0=( Критерии и свойства оптимальных стратегий. - student2.ru ) – оптимальные смешанные стратегии. Тогда

1) Для любой смеси активных стратегий Р0=( Критерии и свойства оптимальных стратегий. - student2.ru ) игрока А справедливо равенство

H(Р,Q0) = V (2.10.34)

2) Для любой смеси активных стратегий Q0=( Критерии и свойства оптимальных стратегий. - student2.ru ) игрока В справедливо равенство

Н(Р0, Q) = V (2.10.35)

Доказательство. Докажем утверждение 1). По формуле 2.8.9

Н(Р0, Q) = Критерии и свойства оптимальных стратегий. - student2.ru Критерии и свойства оптимальных стратегий. - student2.ru Н(Аi, Q0) = Критерии и свойства оптимальных стратегий. - student2.ru Критерии и свойства оптимальных стратегий. - student2.ru Н(Аi, Q0) + Критерии и свойства оптимальных стратегий. - student2.ru Критерии и свойства оптимальных стратегий. - student2.ru Н(Аi, Q0) (2.10.36)

Так как Р0=( Критерии и свойства оптимальных стратегий. - student2.ru ) – смесь активных стратегий, то Критерии и свойства оптимальных стратегий. - student2.ru = 0 для Критерии и свойства оптимальных стратегий. - student2.ru и потому вторая сумма в правой части равенства 2.10.36 равна 0. В первой части равенства 2.10.36 суммирование ведется по индексу Критерии и свойства оптимальных стратегий. - student2.ru и потому Критерии и свойства оптимальных стратегий. - student2.ru > 0, а, следовательно , Аi, Критерии и свойства оптимальных стратегий. - student2.ru , - активные стратегии игрока А. Тогда, на основании утверждения 1) теоремы 2.10.6 активных стратегиях, Н(Аi, Q0) = V, Критерии и свойства оптимальных стратегий. - student2.ru . Поэтому из 2.10.36 получаем неравенство 2.10.34.

H(Р,Q0) = Критерии и свойства оптимальных стратегий. - student2.ru Критерии и свойства оптимальных стратегий. - student2.ru V = V Критерии и свойства оптимальных стратегий. - student2.ru Критерии и свойства оптимальных стратегий. - student2.ru = V

Аналогичным образом доказывается утверждение 2). А именно, по формуле 2.8.10.

Н(Р0, Q) = Критерии и свойства оптимальных стратегий. - student2.ru Критерии и свойства оптимальных стратегий. - student2.ru Н(Аi, Bj) = Критерии и свойства оптимальных стратегий. - student2.ru Критерии и свойства оптимальных стратегий. - student2.ru Н(Р0, Bj) + Критерии и свойства оптимальных стратегий. - student2.ru Н(Р0, Bj) = Критерии и свойства оптимальных стратегий. - student2.ru Критерии и свойства оптимальных стратегий. - student2.ru Н(Р0, Bj) = Критерии и свойства оптимальных стратегий. - student2.ru Критерии и свойства оптимальных стратегий. - student2.ru V = V Критерии и свойства оптимальных стратегий. - student2.ru Критерии и свойства оптимальных стратегий. - student2.ru = V

Т.е. неравенство 2.10.35 доказано.

Теорема о смесях активных стратегий говорит о том, что если один из игроков придерживается своей оптимальной смешанной стратегии, то выигрыш остается неизменным и равным цене игры V, если только другой игрок применяет смеси своих стратегий в произвольных пропорциях.

В доказательстве теоремы 2.10.7 мы использовали теорему 2.10.6. Поэтому теорему 2.10.7 можно считать следствием теоремы 2.10.6. С другой стороны, если смесь в частности представляет собой активную стратегию, то теоремы эквивалентны.

Пример 2.10.5. Рассмотрим игру в примере 2.8 с оптимальными стратегиями Р0 = ( Критерии и свойства оптимальных стратегий. - student2.ru = 3/8, Критерии и свойства оптимальных стратегий. - student2.ru = 5/8) и Q0 = ( Критерии и свойства оптимальных стратегий. - student2.ru =1/4, Критерии и свойства оптимальных стратегий. - student2.ru = 0, Критерии и свойства оптимальных стратегий. - student2.ru = 3/4) соответственно игроков А и В.

Множество номеров чистых стратегий В, которые входят в оптимальную стратегию Q0 с положительными вероятностями, J= {1, 3}.

Рассмотрим смешанную стратегию Q0 = ( Критерии и свойства оптимальных стратегий. - student2.ru =3/5, Критерии и свойства оптимальных стратегий. - student2.ru = 0, Критерии и свойства оптимальных стратегий. - student2.ru = 2/5) игрока В. Поскольку

Критерии и свойства оптимальных стратегий. - student2.ru

То смешанная стратегия Q является смесью активных стратегий В1и В3 игрока В в пропорциях соответственно 3/5 и 2/5. Тогда, по теореме 2.10.7 о смесях активных стратегий,

H(Р,Q0) = V = 0,625.

В этом можно убедиться и прямым подсчетом, например, по матричной формуле 2.8.4:

Критерии и свойства оптимальных стратегий. - student2.ru

Наконец, отметим, что смесь Q не является оптимальной стратегией игрока В, так как показатель неэффективности стратегии Q отличается от цены игры: Критерии и свойства оптимальных стратегий. - student2.ru > V.

В самом деле, по формуле 2.8.5:

Критерии и свойства оптимальных стратегий. - student2.ru

Критерии и свойства оптимальных стратегий. - student2.ru

Тогда по формуле 2.8.17:

Критерии и свойства оптимальных стратегий. - student2.ru > 0,625 = V.


Наши рекомендации