Критерии принятия решений в играх с «природой»
Ранее мы рассматривали игры, в основе которых лежало предположение, что каждый из участников сознательно стремится использовать ошибки противоположной стороны с тем, чтобы добиться наилучшего результата. Однако на практике встречаются ситуации, в которых один из игроков безразличен к выигрышу и не стремится воспользоваться промахами второго участника. Так бывает, когда в качестве одного из игроков выступает «природа». Под термином «природа» будем понимать комплекс внешних обстоятельств, при которых приходится принимать решения. Такая игра возникает, когда заранее неизвестен покупательный спрос на производимую продукцию или объем перевозок, который должна выполнить железная дорога и т.д. Игру такого типа называют игрой с «природой».
Пусть игрок А может использовать только стратегии А1, А2, …, Аm. Природа П также обладает множеством стратегий П1, П2, …, Пn. Под стратегией природы будем понимать совокупность внешних условий (или состояния природы), в которых игроку А приходится выбирать свою стратегию. Из прежнего опыта игроку А обычно известны возможные состояния природы, а иногда и вероятности, с которыми природа реализует их.
Если игрок А имеет возможность оценить последствия применения каждой своей чистой стратегии Аi в зависимости от любого состояния Пj природы, т.е. если ему известен численный результат аij для каждой допустимой комбинации (Аi;Пj), то игру можно задать платежной матрицей (aij)m×n.
Иногда выгодно от платежной матрицы перейти к матрице рисков, которая более четко выявляет преимущество одной стратегии по сравнению с другой при данном состоянии природы.
Риском называют величину ; где – максимально возможный выигрыш игрока А при состоянии Пj (максимальный элемент j-го столбца платежной матрицы).
Рассмотрим критерии, на основе которых игрок А принимает решение, анализируя матрицу выигрышей или матрицу рисков.
Максимальный критерий Вальда для чистых стратегий является критерием крайнего пессимизма, т.к. игрок А исходит из предположения, что природа «действует» против него наихудшим образом. Игрок А выбирает такую чистую стратегию Аi, при которой наименьший выигрыш будет максимальным, т.е. обеспечивается максимум . Иначе, здесь определяется обычная максимальная чистая стратегия игрока А.
Критерий минимального риска Сэвиджа, как и критерий Вальда, является критерием крайнего пессимизма. Критерий Сэвиджа рекомендует выбирать в качестве оптимальной ту чистую из стратегий Аi, при которой минимизируется величина максимального риска, т.е. .
Критерий Гурвица (критерий пессимизма-оптимизма) рекомендует рассчитывать на нечто среднее. В области чистых стратегий оптимальной считается стратегия, найденная из условия:
, где λÎ(0;1) и выбирается из субъективных соображений. При λ=1 . Критерий Гурвица превращается в критерий Вальда. При λ=0 – в критерий крайнего оптимизма. При 0 < λ < 1 получается нечто среднее между крайним пессимизмом и крайним оптимизмом.
На практике анализируют ситуацию с точки зрения нескольких критериев, и если рекомендации совпадают, то выбирают рекомендуемое решение.
Пример. Руководство SM (супермаркета) заказывает товар вида А. Спрос на данный вид товара лежит в пределах от 6 до 9 единиц. Если заказать товара недостаточно, то его можно срочно заказать еще. Если спрос будет меньше наличного товара, то нереализуемый товар хранится на складе SM. Требуется определить такой объем заказа на товар, при котором дополнительные затраты, связанные с хранением и срочным завозом, были бы минимальными, если расходы на хранение единицы товара составляют 1 млн. руб., а по срочному заказу и завозу – 2 млн. руб.
Решение. Покупательский спрос выступает в качестве второго игрока – природы, стратегии которого определяются данными спроса, т.е. П1 = 6 ед., П2 = 7 ед., П3 = 8 ед., П4 = 9 ед. Игрок А – руководство SM, стратегии которого лежат в тех же пределах. Составим платежную матрицу игры. Найдем решение игры по критериям Вальда, Сэвиджа и Гурвица при λ = 0,2.
1. Критерий Вальда.
Ai Пj | П1=6 | П2=7 | П3=8 | П4=9 | αi |
A1=6 | -2 | -4 | -6 | -6 | |
A2=7 | -1 | -2 | -4 | -4 | |
A3=8 | -2 | -1 | -2 | -2 | |
A4=9 | -3 | -2 | -1 | -3 | |
βj |
.
Оптимальной является стратегия А3, т.е. необходимо заказывать по 8 единиц товара.
2. Критерий Сэвиджа. Перейдем к матрице рисков, поместим в правом добавочном столбце значения максимального риска ri.
.
Ai Пj | П1 | П2 | П3 | П4 | ri |
A1 | 0 | 2 | 4 | 6 | 6 |
A2 | 1 | 0 | 2 | 4 | 4 |
A3 | 2 | 1 | 0 | 2 | 2 |
A4 | 3 | 2 | 1 | 0 | 3 |
. Оптимальной является также стратегия А3.
3. Критерий Гурвица. В добавочных столбцах платежной матрицы запишем оценки:
при λ = 0,2.
Ai Пj | П1 | П2 | П3 | П4 | αi | wi | hi |
A1 | 0 | -2 | -4 | -6 | -6 | 0 | -1,2 |
A2 | -1 | 0 | -2 | -4 | -4 | 0 | -0,8 |
A3 | -2 | -1 | 0 | -2 | -2 | 0 | -0,4 |
A4 | -3 | -2 | -1 | 0 | -3 | 0 | -0,6 |
, значит, оптимальной является стратегия А3. Следовательно, руководство SM имеет все основание заказывать по 8 единиц товара, т.к. все три критерия говорят в пользу стратегии А3.
Упражнения
1. Решить и привести графическую иллюстрацию игр, заданных следующими матрицами:
1.1. . 1.2. .
2. Найти оптимальные стратегии и цену игр, заданных платежными матрицами:
2.1. . 2.2. . 2.3. .
2.4. . 2.5. .
3. Для приведенных ниже платежных матриц вычислить верхнюю и нижнюю цены игры, найти максиминные и минимаксные стратегии, выявить наличие седловых точек. При наличии седловых точек выписать цену игры и оптимальные решения.
3.1. . 3.2. .
3.3. . 3.4. . 3.5. .
4. Для приведенных ниже платежных матриц матричных игр выявить доминирующие строки, доминирующие столбцы и найти для упрощенных матриц α и β. В случае равенства α = β выписать цену игры и оптимальные стратегии не только для упрощенных, но и для исходных матриц.
4.1. . 4.2. . 4.3. .