Тема 2. Лекция 5-6. Равновесия Нэша в смешанных стратегиях.

Стремление к устойчивости решений является широко распространенным способом формулирования принципов рационального поведения в теории игр. Самый популярный принцип рационального поведения в теории некооперативных игр рекомендует в качестве рациональных исходов использовать ситуации равновесия Нэша. Они характеризуются тем, что отклонение от данной ситуации равновесия одним из игроков не может увеличить его выигрыша, и, таким образом, рациональной стратегией каждого игрока должна быть реализация равновесия. Можно сказать, что ситуация называется равновесной по Нэшу, если она устойчива относительно индивидуального отклонения игроков.

Определение 12: Ситуация x*=(x1*,x2*,…,xn*) называется ситуацией равновесия по Нэшу (в чистых стратегиях),если для всех хi, Тема 2. Лекция 5-6. Равновесия Нэша в смешанных стратегиях. - student2.ru Хi„ i Тема 2. Лекция 5-6. Равновесия Нэша в смешанных стратегиях. - student2.ru N справедливо неравенство Ki (xi*,x-i*) Тема 2. Лекция 5-6. Равновесия Нэша в смешанных стратегиях. - student2.ru Ki (xi*,x-i*)

Определение 13: Совокупность всех равновесных по Нэшу ситуаций игры называется множеством равновесий Нэша.

Если ситуация Тема 2. Лекция 5-6. Равновесия Нэша в смешанных стратегиях. - student2.ru - равновесие Нэша, то никому из игроков не выгодно в одиночку отклоняться от нее. Однако возможно, что, объединившись, игроки могут улучшить свое положение выходом из равновесия Нэша.

Определение 14: Набор смешанных стратегий Тема 2. Лекция 5-6. Равновесия Нэша в смешанных стратегиях. - student2.ru из ( Тема 2. Лекция 5-6. Равновесия Нэша в смешанных стратегиях. - student2.ru

называется ситуацией равновесия Нэша в смешанных стратегиях, если для произвольной смешанной стратегии χ, любого игрока Тема 2. Лекция 5-6. Равновесия Нэша в смешанных стратегиях. - student2.ru справедливо неравенство Тема 2. Лекция 5-6. Равновесия Нэша в смешанных стратегиях. - student2.ru1*-i*) Тема 2. Лекция 5-6. Равновесия Нэша в смешанных стратегиях. - student2.ru1*-i*),

где Тема 2. Лекция 5-6. Равновесия Нэша в смешанных стратегиях. - student2.ru (.) – результат усреднения функций выигрыша игроков по используемым ими смешанным стратегиям.

Множество равновесий Нэша в чистых стратегиях можетоказаться пустым для некоторых игр, и возможное отсутствие равновесных ситуаций является большим недостатком равновесия Нэша в чистых стратегиях.

Теорема 3 (Теорема Дж. Нэша). Для произвольной дискретной игры существует, по меньшей мере, одно равновесие Нэша в смешанных стратегиях.

Доказательство. Множество смешанных стратегий каждого игрока - непустой выпуклый компакт (ограниченное и замкнутое множество) в конечномерном пространстве. Обозначим множество наилучших ответов игрока на произвольную обстановку

Ri-i) =Arg Тема 2. Лекция 5-6. Равновесия Нэша в смешанных стратегиях. - student2.ru (8)

По теореме 2, это множество представляет собой множесг всех вероятностных распределений на множестве чистых стратегий – наилучших ответов на заданную обстановку. Поэтому Ri выпуклое множество, так как оно представляет собой ограниченное линейными неравенствами подмножество выпуклого множества смешанных стратегий. Определим многозначное соответствие

R(χ) =(R1(x-1),…,Rn(x-n)), (9)

которое ставит в соответствие каждой ситуации множество - декартово произведение множеств стратегий – наилучших ответов каждого игрока на обстановку, заданную остальными компонентами ситуации. Для произвольной ситуации в смешанных стратегиях χ, R(χ) является непустым, выпуклым компактом (так как является декартовым произведением непустых, выпуклых компактов)

Для дальнейшего доказательства воспользуемся теоремой Какутани.Введем сначала определение:

Определение 15: Многозначное отображение F компакта S в себя называется полунепрерывным сверху, если для любых сходящихся последовательностей χk Тема 2. Лекция 5-6. Равновесия Нэша в смешанных стратегиях. - student2.ru S (χk Тема 2. Лекция 5-6. Равновесия Нэша в смешанных стратегиях. - student2.ru χ), и Тема 2. Лекция 5-6. Равновесия Нэша в смешанных стратегиях. - student2.ru таких что ρk Тема 2. Лекция 5-6. Равновесия Нэша в смешанных стратегиях. - student2.ru F(χk), ρ принадлежит F(χ)

Теорема 4 (теорема Какутани о неподвижной точке).Пусть S есть непустой, выпуклый компакт конечномерного пространства. Если F - полунепрерывное сверху многозначное соответствие, которое ставит в соответствие каждой точке S непустое выпуклое подмножество S, то существует такой χ* Тема 2. Лекция 5-6. Равновесия Нэша в смешанных стратегиях. - student2.ru S, χ* Тема 2. Лекция 5-6. Равновесия Нэша в смешанных стратегиях. - student2.ru F(χ*).

Покажем, что отображение R полунепрерывно сверху. Для этого рассмотрим произвольные сходящиеся последовательности χk и Тема 2. Лекция 5-6. Равновесия Нэша в смешанных стратегиях. - student2.ru из определения полунепрерывности сверху.

Из того, что Тема 2. Лекция 5-6. Равновесия Нэша в смешанных стратегиях. - student2.ruk) следует, что для произвольной смешанной σi Тема 2. Лекция 5-6. Равновесия Нэша в смешанных стратегиях. - student2.ruk, χk-i) ≥ Тема 2. Лекция 5-6. Равновесия Нэша в смешанных стратегиях. - student2.rui, χ-ik).По лемме 1 функция ожидаемого выигрыша непрерывна по совокупности переменных, поэтому Тема 2. Лекция 5-6. Равновесия Нэша в смешанных стратегиях. - student2.rui, χ-i) ≥ Тема 2. Лекция 5-6. Равновесия Нэша в смешанных стратегиях. - student2.rui, χ-i), то есть ρ Тема 2. Лекция 5-6. Равновесия Нэша в смешанных стратегиях. - student2.ru R(χ).

По теореме Какутани, существует неподвижная точка – ситуация χ*, такая, что χ* Тема 2. Лекция 5-6. Равновесия Нэша в смешанных стратегиях. - student2.ru R(χ*).

Значит, для всех игроков Тема 2. Лекция 5-6. Равновесия Нэша в смешанных стратегиях. - student2.ru*, χ*-i) ≥ Тема 2. Лекция 5-6. Равновесия Нэша в смешанных стратегиях. - student2.rui, χ-i*), где χi –произвольная смешанная стратегия. То есть χ*–это равновесие Нэша.

Аналогичные результаты можно получить и для бесконечных игр, например, справедлива

Теорема 5. Если множества стратегий игроков компактны, а функции выигрыша непрерывны по совокупности переменных (чистых стратегий игроков), то в игре существует, по крайней мере, одно равновесие Нэша в смешанных стратегиях.

На основании полученных результатов можно сформулировать одно из возможных достаточных условий существования равновесия в чистых стратегиях:

Теорема 6. Если в непрерывной игре множества стратегий Xi - выпуклые подмножества линейных метрических пространств, для каждого игрока i функция выигрыша Кi непрерывна по всем переменным и строго вогнута по переменной хi ,то в этой игре существует равновесие Нэша в чистых стратегиях.

Доказательство. Согласно теореме 2 наилучший ответ всегда достигается на чистых стратегиях. Необходимо показать, что следствием вогнутости целевых функций является единственность наилучшего ответа. Это будет означать, что наилучшим ответом может быть только чистая стратегия. Тогда и равновесие Нэша будет состоять только из чистых стратегий.

Введем обозначение Х*-i ) = Arg max Кii-i ) - множество чистых стратегий, которые являются наилучшими ответами на обстановку χ-i.Пусть имеются два наилучших ответа x*i Тема 2. Лекция 5-6. Равновесия Нэша в смешанных стратегиях. - student2.ru X*i и xi** Тема 2. Лекция 5-6. Равновесия Нэша в смешанных стратегиях. - student2.ru Xi*. Так как оба они являются лучшими ответами на обстановку χ-i значит Кi (xi*, χ-i) = Кii**, χ-i), то есть

M: =∫Ki (xi*,x-i-i(x-i)dx-i = ∫ Ki (xi**, x-i-i(x-i)dx-i.

Рассмотрим стратегию Тема 2. Лекция 5-6. Равновесия Нэша в смешанных стратегиях. - student2.ru = αxi* + (1-α)xi**, где α Тема 2. Лекция 5-6. Равновесия Нэша в смешанных стратегиях. - student2.ru (0,1).В силу выпуклости Хi,, Тема 2. Лекция 5-6. Равновесия Нэша в смешанных стратегиях. - student2.ru Xt. Ожидаемая полезность от применения этой стратегии:

Ki ( Тема 2. Лекция 5-6. Равновесия Нэша в смешанных стратегиях. - student2.ru , χ-i) = ∫ Ki ( Тема 2. Лекция 5-6. Равновесия Нэша в смешанных стратегиях. - student2.ru , x-i) χ-i(x-i)dx-i =∫ Ki ( Тема 2. Лекция 5-6. Равновесия Нэша в смешанных стратегиях. - student2.ru xi*+(1-α) xi**,x-i) χ-i(x-i)dx-i.

В силу строгой вогнутости целевой функции Кi, имеем Кi ( Тема 2. Лекция 5-6. Равновесия Нэша в смешанных стратегиях. - student2.ru-i)>α∫Ki (xi*,x-i-i(x-i)dx-i +(1-α) ∫Ki (xi**,x-i-i(x-i)dx-i.

Следовательно, Ki ( Тема 2. Лекция 5-6. Равновесия Нэша в смешанных стратегиях. - student2.ru , χ-i) > αM + (1-α)M = M, что невозможно, так как М- это максимальный ожидаемый выигрыш. Таким образом, наилучший ответ всегда один, а, значит, и равновесие Нэша будет равновесием в чистых стратегиях.

Наличие нескольких равновесий Нэша порождает некоторые проблемы, ведь в идеальном случае концепция решения должна точно предсказывать результат игры, что возможно лишь при однозначном определении рациональных стратегии всех игроков.

Одним из выходов является констатация того, что ситуации равновесия Нэша не являются точным и единственным решением, а являются лишь набором рациональных стратегии поведения, выбор из которых нельзя произвести на основе имеющихся данных.

Равновесие Нэша подвергается справедливой критике, ведь чтобы результатом игры было равновесие Нэша, все игроки должны выбрать именно равновесную ситуацию, при этом предварительно конкретизировав одну из равновесных ситуаций в случае, когда равновесий много.

Пример 12. «Решение задачи стимулирования».

Опишем решение задачи стимулирования в многоэлементной ОС. Относительно параметров ОС введем сле­дующие предположения:

А.1. Тема 2. Лекция 5-6. Равновесия Нэша в смешанных стратегиях. - student2.ru

А.2. Тема 2. Лекция 5-6. Равновесия Нэша в смешанных стратегиях. - student2.ru N 1) функция сi(.) непрерывна по всем переменным; 2) Тема 2. Лекция 5-6. Равновесия Нэша в смешанных стратегиях. - student2.ru уi Тема 2. Лекция 5-6. Равновесия Нэша в смешанных стратегиях. - student2.ru Ai сi(у) не убывает по уi , i Тема 2. Лекция 5-6. Равновесия Нэша в смешанных стратегиях. - student2.ru N; 3) Тема 2. Лекция 5-6. Равновесия Нэша в смешанных стратегиях. - student2.ru у е A’ ci(у) ≥ 0; 4) Тема 2. Лекция 5-6. Равновесия Нэша в смешанных стратегиях. - student2.ru y-i Тема 2. Лекция 5-6. Равновесия Нэша в смешанных стратегиях. - student2.ru A-i ci(0,y-i) = 0.

А.З. Функции стимулирования кусочно-непрерывны и принимают неотрицательные значения.

А.4. Функция дохода центра непрерывна по всем переменным и достигает максимума при ненулевых действиях агентов.

Если стимулирование каждого агента зависит от действий всех агентов, то определения множества равновесий Нэша PN ( Тема 2. Лекция 5-6. Равновесия Нэша в смешанных стратегиях. - student2.ru ) имеет вид:

PN(σ) = {yN Тема 2. Лекция 5-6. Равновесия Нэша в смешанных стратегиях. - student2.ru A| Тема 2. Лекция 5-6. Равновесия Нэша в смешанных стратегиях. - student2.ru i Тема 2. Лекция 5-6. Равновесия Нэша в смешанных стратегиях. - student2.ru N Тема 2. Лекция 5-6. Равновесия Нэша в смешанных стратегиях. - student2.ru yi Тема 2. Лекция 5-6. Равновесия Нэша в смешанных стратегиях. - student2.ru Ai σi(yN) – ci(yN) ≥ σi (yi, y-iN) – ci(yi, y-iN)};

РДС yid Тема 2. Лекция 5-6. Равновесия Нэша в смешанных стратегиях. - student2.ru А определяется условием: yid Тема 2. Лекция 5-6. Равновесия Нэша в смешанных стратегиях. - student2.ru Ai – доминантная стратегия i-го агента тогда и только тогда, когда

Тема 2. Лекция 5-6. Равновесия Нэша в смешанных стратегиях. - student2.ru уi Тема 2. Лекция 5-6. Равновесия Нэша в смешанных стратегиях. - student2.ru Аi Тема 2. Лекция 5-6. Равновесия Нэша в смешанных стратегиях. - student2.ru у-i Тема 2. Лекция 5-6. Равновесия Нэша в смешанных стратегиях. - student2.ru А-i σi ( уid, у-i) – с-i( уid , у-i) ≥ σii, у-i) – сii, у-i).

Если при заданной системе стимулирования у всех агентов имеется доминантная стратегия, то говорят, что данная система стимулирования реализует соответствующий вектор действий как РДС.

Если стимулирование каждого агента зависит только от его собственных действий, то определения множества равновесий Нэша PN(σ) имеет вид:

EN(σ) = {yN Тема 2. Лекция 5-6. Равновесия Нэша в смешанных стратегиях. - student2.ru A | Тема 2. Лекция 5-6. Равновесия Нэша в смешанных стратегиях. - student2.ru i Тема 2. Лекция 5-6. Равновесия Нэша в смешанных стратегиях. - student2.ru N Тема 2. Лекция 5-6. Равновесия Нэша в смешанных стратегиях. - student2.ru yi Тема 2. Лекция 5-6. Равновесия Нэша в смешанных стратегиях. - student2.ru Ai σi(yiN) –ci(yN) ≥ σi(yi) – ci(yi, y-iN)},

РДС уd ∈ А определяется условием: уid Тема 2. Лекция 5-6. Равновесия Нэша в смешанных стратегиях. - student2.ru Аi - доминантная стратегия i-го агента тогда и только тогда, когда

Тема 2. Лекция 5-6. Равновесия Нэша в смешанных стратегиях. - student2.ru уi Тема 2. Лекция 5-6. Равновесия Нэша в смешанных стратегиях. - student2.ru Аi Тема 2. Лекция 5-6. Равновесия Нэша в смешанных стратегиях. - student2.ru у-i Тема 2. Лекция 5-6. Равновесия Нэша в смешанных стратегиях. - student2.ru А-i σi ( уid, у-i) – с-i( уid , у-i) ≥ σii,) – сii, у-i).

Фиксируем произвольный вектор действий агентов у* Тема 2. Лекция 5-6. Равновесия Нэша в смешанных стратегиях. - student2.ru А' и рассмотрим следующую систему стимулирования:

σ*i(y*,y) = Тема 2. Лекция 5-6. Равновесия Нэша в смешанных стратегиях. - student2.ru

Если стимулирование каждого агента зависит только от его собственного действия, то, фиксировав для каждого агента обстановку игры, перейдем от σ* ксистеме индивидуального стимулирования следующим образом: фиксируем произвольный вектор действий агентов у* Тема 2. Лекция 5-6. Равновесия Нэша в смешанных стратегиях. - student2.ru А' и определим систему стимулирования:

σ**i(y*,yi) = Тема 2. Лекция 5-6. Равновесия Нэша в смешанных стратегиях. - student2.ru

Справедливы следующие утверждения:

1) При использовании центром системы стимулирования σ*вектор действий у* является РДС. Более того, если δi > 0, i Тема 2. Лекция 5-6. Равновесия Нэша в смешанных стратегиях. - student2.ru N, то у - единственное РДС.

2) При использовании центром системы стимулирования σ**вектор действий y* является равновесием Нэша. Более того:

2.1) если выполнено условие:

Тема 2. Лекция 5-6. Равновесия Нэша в смешанных стратегиях. - student2.ru y1≠y2 Тема 2. Лекция 5-6. Равновесия Нэша в смешанных стратегиях. - student2.ru A’ Тема 2. Лекция 5-6. Равновесия Нэша в смешанных стратегиях. - student2.ru I Тема 2. Лекция 5-6. Равновесия Нэша в смешанных стратегиях. - student2.ru N: yi1 ≠ yi2

и ci(y1) + ci(y2) > ci (yi1, y-i2) – δi ,

то y* –единственное равновесие Нэша;

2.2) если выполнено условие:

Тема 2. Лекция 5-6. Равновесия Нэша в смешанных стратегиях. - student2.ru Тема 2. Лекция 5-6. Равновесия Нэша в смешанных стратегиях. - student2.ru y1≠y2 Тема 2. Лекция 5-6. Равновесия Нэша в смешанных стратегиях. - student2.ru A’ ci(y1) + ci(y2) ≥ ci (yi1, y-i2) – δi ,

то вектор действий у* является РДС;

3) если выполнено предыдущее условие и δi > 0, i Тема 2. Лекция 5-6. Равновесия Нэша в смешанных стратегиях. - student2.ru N, то вектор действий y* является единственным РДС.

4) Вектор оптимальных реализуемых действий агентов у*, фигурирующий в качестве параметра в системах стимулирования σ* и σ** определяется в результате решения следующей задачи: y* Тема 2. Лекция 5-6. Равновесия Нэша в смешанных стратегиях. - student2.ru Arg max {H(t)– Тема 2. Лекция 5-6. Равновесия Нэша в смешанных стратегиях. - student2.ru },

а эффективность этих систем стимулирования равна следующей величине:

K* = H(y*) – Тема 2. Лекция 5-6. Равновесия Нэша в смешанных стратегиях. - student2.ru –δ, где δ: = Тема 2. Лекция 5-6. Равновесия Нэша в смешанных стратегиях. - student2.ru

5) Класс (с параметром у*) систем стимулирования σ*и σ** является δ – оптимальным.

Содержательно, при использовании системы стимулирования σ*центр использует следующий принцип декомпозиции: он предлагает i-му агенту: «выбирай действие yi*,а я компенсирую тебе затраты, независимо от того какие действия выбрали ос­тальные агенты, если же ты выберешь любое другое действие, то вознаграждение будет равно нулю». При использовании системы стимулирования σ** центр предлагает i-му агенту: «выбирай дей­ствие уi*, а я компенсирую тебе затраты, считая, что остальные агенты также выбрали соответствующие компоненты – y-i*, если же ты выберешь любое другое действие, то вознаграждение будет равно нулю». Используя такую стратегию, центр декомпозирует игру агентов.


Наши рекомендации