Некоторые конструкции целесообразных асимптотически-оптимальных симметрических автоматов

Рассмотрим некоторые конструкции автоматов и их поведение в стационарной случайной среде Некоторые конструкции целесообразных асимптотически-оптимальных симметрических автоматов - student2.ru . Стационарная случайная среда означает, что за действие среда с вероятностью Некоторые конструкции целесообразных асимптотически-оптимальных симметрических автоматов - student2.ru получает вознаграждение, а с вероятностью штраф. За второе действие Некоторые конструкции целесообразных асимптотически-оптимальных симметрических автоматов - student2.ru среда выдает поощрение с вероятностью , а с вероятностью - штраф.

1. Автоматы с линейной тактикой, предложенные М.Л. Цетлиным [3].

Рассмотрим простейший пример автомата, обладающего целесообразным поведением. Рассмотрим автомат Некоторые конструкции целесообразных асимптотически-оптимальных симметрических автоматов - student2.ru , имеющий два состояния памяти и и два действия и . Автомат сохраняет свои состояния (действия) при выигрыше и изменяет при проигрыше. Матрицы состояний имеют вид Некоторые конструкции целесообразных асимптотически-оптимальных симметрических автоматов - student2.ru , . Графы переходов состояний имеют вид

Некоторые конструкции целесообразных асимптотически-оптимальных симметрических автоматов - student2.ru

Рисунок 1

Найдем математическое ожидание выигрыша этого автомата в стационарной случайной среде С( Некоторые конструкции целесообразных асимптотически-оптимальных симметрических автоматов - student2.ru ). Обозначим через ( ) финальную вероятность действия . Тогда:

Некоторые конструкции целесообразных асимптотически-оптимальных симметрических автоматов - student2.ru ,

Некоторые конструкции целесообразных асимптотически-оптимальных симметрических автоматов - student2.ru .

Учитывая условие нормировки - Некоторые конструкции целесообразных асимптотически-оптимальных симметрических автоматов - student2.ru , имеем:

Некоторые конструкции целесообразных асимптотически-оптимальных симметрических автоматов - student2.ru ,

Некоторые конструкции целесообразных асимптотически-оптимальных симметрических автоматов - student2.ru .

Тогда математическое ожидание выигрыша Некоторые конструкции целесообразных асимптотически-оптимальных симметрических автоматов - student2.ru автомата А в среде С определяется как:

Некоторые конструкции целесообразных асимптотически-оптимальных симметрических автоматов - student2.ru

Некоторые конструкции целесообразных асимптотически-оптимальных симметрических автоматов - student2.ru .

Если автомат выбирает свои действия независимо от реакций среды и равновероятно, то математическое ожидание его выигрыша

Некоторые конструкции целесообразных асимптотически-оптимальных симметрических автоматов - student2.ru .

Очевидно, что Некоторые конструкции целесообразных асимптотически-оптимальных симметрических автоматов - student2.ru при , т.е. автомат обладает целесообразным поведением в стационарной случайной среде С ( Некоторые конструкции целесообразных асимптотически-оптимальных симметрических автоматов - student2.ru ).

Рассмотрим автомат Некоторые конструкции целесообразных асимптотически-оптимальных симметрических автоматов - student2.ru (с линейной тактикой), являющийся естественным обобщением автомата Некоторые конструкции целесообразных асимптотически-оптимальных симметрических автоматов - student2.ru . Он имеет 2m состояний и два различных действия и . Графы переходов состояний имеют вид (рисунок 2):

Некоторые конструкции целесообразных асимптотически-оптимальных симметрических автоматов - student2.ru

Рисунок 2

Рассмотрим поведение автомата Некоторые конструкции целесообразных асимптотически-оптимальных симметрических автоматов - student2.ru в стационарной случайной среде . Пусть > . Докажем целесообразность его поведения, показав, что он выбирает с большей вероятностью то действие, у которого предпочтение больше: Некоторые конструкции целесообразных асимптотически-оптимальных симметрических автоматов - student2.ru .

Имеем дискретную цепь Маркова, задающую поведение системы “автомат – среда”. Как и раньше, Некоторые конструкции целесообразных асимптотически-оптимальных симметрических автоматов - student2.ru ( ) - финальная вероятность действия . Зададим ; . Найдем финальную вероятность Некоторые конструкции целесообразных асимптотически-оптимальных симметрических автоматов - student2.ru каждого действия , а затем математическое ожидание выигрыша.

Некоторые конструкции целесообразных асимптотически-оптимальных симметрических автоматов - student2.ru

……..

Некоторые конструкции целесообразных асимптотически-оптимальных симметрических автоматов - student2.ru

……….

Некоторые конструкции целесообразных асимптотически-оптимальных симметрических автоматов - student2.ru

Некоторые конструкции целесообразных асимптотически-оптимальных симметрических автоматов - student2.ru - Условие нормировки

Некоторые конструкции целесообразных асимптотически-оптимальных симметрических автоматов - student2.ru =

Некоторые конструкции целесообразных асимптотически-оптимальных симметрических автоматов - student2.ru

Некоторые конструкции целесообразных асимптотически-оптимальных симметрических автоматов - student2.ru =

Некоторые конструкции целесообразных асимптотически-оптимальных симметрических автоматов - student2.ru

….

Некоторые конструкции целесообразных асимптотически-оптимальных симметрических автоматов - student2.ru

Некоторые конструкции целесообразных асимптотически-оптимальных симметрических автоматов - student2.ru , если

Некоторые конструкции целесообразных асимптотически-оптимальных симметрических автоматов - student2.ru

….

Некоторые конструкции целесообразных асимптотически-оптимальных симметрических автоматов - student2.ru

…

Некоторые конструкции целесообразных асимптотически-оптимальных симметрических автоматов - student2.ru

Некоторые конструкции целесообразных асимптотически-оптимальных симметрических автоматов - student2.ru > , если

Мат. ожидание выигрыша возрастает, значит эти автоматы целесообразны.

Замечание: Если рассмотреть последовательность таких автоматов, у которых память Некоторые конструкции целесообразных асимптотически-оптимальных симметрических автоматов - student2.ru , то такая последовательность автоматов называется асимптотически-оптимальной.

Автомат с линейной тактикой Некоторые конструкции целесообразных асимптотически-оптимальных симметрических автоматов - student2.ru является обобщением конструкций М.Л. Цетлина, рассмотренных выше. Автомат имеет Некоторые конструкции целесообразных асимптотически-оптимальных симметрических автоматов - student2.ru внутренних состояний и действий (параметр - глубина памяти). Состоянием автомата Некоторые конструкции целесообразных асимптотически-оптимальных симметрических автоматов - student2.ru соответствует выходное действие . При = +1 (поощрении) автомат не меняет своего действия Некоторые конструкции целесообразных асимптотически-оптимальных симметрических автоматов - student2.ru и из состояния переходит в состояние , а в состоянии остаётся. При Некоторые конструкции целесообразных асимптотически-оптимальных симметрических автоматов - student2.ru = -1 (штрафе) из состояния переходит в состояние при и в состояние Некоторые конструкции целесообразных асимптотически-оптимальных симметрических автоматов - student2.ru при , меняя своё действие на ( ) или на ( ). Граф смены состояний приведён на рисунке 3.

Некоторые конструкции целесообразных асимптотически-оптимальных симметрических автоматов - student2.ru

Рисунок 3

Автомат с линейной тактикой Некоторые конструкции целесообразных асимптотически-оптимальных симметрических автоматов - student2.ru также является целесообразным в стационарной случайной среде С( Некоторые конструкции целесообразных асимптотически-оптимальных симметрических автоматов - student2.ru ), и относится к асимптотически-оптимальной последовательности автоматов.

2. Автомат Крылова Некоторые конструкции целесообразных асимптотически-оптимальных симметрических автоматов - student2.ru .

Некоторые конструкции целесообразных асимптотически-оптимальных симметрических автоматов - student2.ru

Рисунок 4

Некоторые конструкции целесообразных асимптотически-оптимальных симметрических автоматов - student2.ru

…

Некоторые конструкции целесообразных асимптотически-оптимальных симметрических автоматов - student2.ru

…

Некоторые конструкции целесообразных асимптотически-оптимальных симметрических автоматов - student2.ru

Добавляем условие нормировки: Некоторые конструкции целесообразных асимптотически-оптимальных симметрических автоматов - student2.ru

Тогда из первого уравнения Некоторые конструкции целесообразных асимптотически-оптимальных симметрических автоматов - student2.ru получаем:

…

Некоторые конструкции целесообразных асимптотически-оптимальных симметрических автоматов - student2.ru

Итак, Некоторые конструкции целесообразных асимптотически-оптимальных симметрических автоматов - student2.ru , если . Т.е. математическое ожидание выигрыша возрастает, значит, эта конструкция обладает целесообразностью поведения.

Автоматы Крылова образуют асимптотически-оптимальную последовательность во всех стационарных случайных средах.

Аналогично, можно доказать целесообразность поведения автоматов, представленных ниже [2,3].

3. Автомат Роббинса Некоторые конструкции целесообразных асимптотически-оптимальных симметрических автоматов - student2.ru

Некоторые конструкции целесообразных асимптотически-оптимальных симметрических автоматов - student2.ru

Рисунок 5

4. Автомат Кринского Некоторые конструкции целесообразных асимптотически-оптимальных симметрических автоматов - student2.ru (“доверчивый” автомат)

Некоторые конструкции целесообразных асимптотически-оптимальных симметрических автоматов - student2.ru

Рисунок 6

5. Автомат Вайсборда Некоторые конструкции целесообразных асимптотически-оптимальных симметрических автоматов - student2.ru

Некоторые конструкции целесообразных асимптотически-оптимальных симметрических автоматов - student2.ru

Рисунок 7

Запишем финальные вероятности состояний:

Некоторые конструкции целесообразных асимптотически-оптимальных симметрических автоматов - student2.ru

….

Некоторые конструкции целесообразных асимптотически-оптимальных симметрических автоматов - student2.ru

…

Некоторые конструкции целесообразных асимптотически-оптимальных симметрических автоматов - student2.ru

Автомат обладает целесообразностью поведения, т.к. Некоторые конструкции целесообразных асимптотически-оптимальных симметрических автоматов - student2.ru , если .

6. Стохастический автомат с линейной тактикой Некоторые конструкции целесообразных асимптотически-оптимальных симметрических автоматов - student2.ru . Данная конструкция представляет собой стохастический вариант автомата с линейной тактикой М.Л. Цетлина. При входном сигнале S автомат Некоторые конструкции целесообразных асимптотически-оптимальных симметрических автоматов - student2.ru с вероятностью осуществляет те же переходы, что и автомат при таком же входном сигнале, а с вероятностью Некоторые конструкции целесообразных асимптотически-оптимальных симметрических автоматов - student2.ru автомат осуществляет такие же переходы, которые осуществляет автомат Некоторые конструкции целесообразных асимптотически-оптимальных симметрических автоматов - student2.ru при противоположном входном сигнале. При =1 стохастический автомат Некоторые конструкции целесообразных асимптотически-оптимальных симметрических автоматов - student2.ru становится детерминированным автоматом с линейной тактикой. Автомат Некоторые конструкции целесообразных асимптотически-оптимальных симметрических автоматов - student2.ru при является целесообразным в стационарной случайной среде С и относится к асимптотически-оптимальной последовательности автоматов.

Некоторые конструкции целесообразных асимптотически-оптимальных симметрических автоматов - student2.ru

Рисунок 8

7. Автомат Валаха (с избирательной тактикой) Некоторые конструкции целесообразных асимптотически-оптимальных симметрических автоматов - student2.ru

S = +1

Некоторые конструкции целесообразных асимптотически-оптимальных симметрических автоматов - student2.ru

S = ‑1

Некоторые конструкции целесообразных асимптотически-оптимальных симметрических автоматов - student2.ru

Рисунок 9

Граф смены состояний автомата Валаха аналогичен графу стохастического автомата с линейной тактикой, только при S = +1 вместо Некоторые конструкции целесообразных асимптотически-оптимальных симметрических автоматов - student2.ru , вместо : , а в случае S = -1 вместо , вместо :