Шаг улучшения стратегии

Для каждого состояния i определяется альтернатива k, обеспечивающая следующее:

Шаг улучшения стратегии - student2.ru

Шаг улучшения стратегии - student2.ru

В качестве величины Шаг улучшения стратегии - student2.ru принимаются значения, получаемые на шаге 1. Результирующее оптимальное значение k для состояний i= Шаг улучшения стратегии - student2.ru формируют новую стратегию t.

Если S и t совпадают, то вычисления заканчиваются. В противном случае принимается, что S=t и производится к шагу 1. Стратегии S=(111) и t=(122) не равны, следовательно, осуществляется переход к шагу 1.

Согласно t=(122) выбираются матрица переходных вероятностей 8 и матрица дохода 8, подсчитывается матрица 8 одношаговых доходов и решается система уравнений:

Шаг улучшения стратегии - student2.ru

Решение системы заносятся в таблицу:

Шаг улучшения стратегии - student2.ru

Далее проводится улучшение стратегии, представленное ниже в таблицах:

Шаг улучшения стратегии - student2.ru

Стратегии S=(122) и t=(122) равны, следовательно, следующего шага нет.

Примечание: колонка Nus – это максимальные значения дохода.

Наши рекомендации