Некоторые конструкции целесообразных асимптотически-оптимальных симметрических автоматов
Рассмотрим некоторые конструкции автоматов и их поведение в стационарной случайной среде . Стационарная случайная среда означает, что за действие среда с вероятностью получает вознаграждение, а с вероятностью штраф. За второе действие среда выдает поощрение с вероятностью , а с вероятностью - штраф.
1. Автоматы с линейной тактикой, предложенные М.Л. Цетлиным [3].
Рассмотрим простейший пример автомата, обладающего целесообразным поведением. Рассмотрим автомат , имеющий два состояния памяти и и два действия и . Автомат сохраняет свои состояния (действия) при выигрыше и изменяет при проигрыше. Матрицы состояний имеют вид , . Графы переходов состояний имеют вид
Рисунок 1
Найдем математическое ожидание выигрыша этого автомата в стационарной случайной среде С( ). Обозначим через ( ) финальную вероятность действия . Тогда:
,
.
Учитывая условие нормировки - , имеем:
,
.
Тогда математическое ожидание выигрыша автомата А в среде С определяется как:
.
Если автомат выбирает свои действия независимо от реакций среды и равновероятно, то математическое ожидание его выигрыша
.
Очевидно, что при , т.е. автомат обладает целесообразным поведением в стационарной случайной среде С ( ).
Рассмотрим автомат (с линейной тактикой), являющийся естественным обобщением автомата . Он имеет 2m состояний и два различных действия и . Графы переходов состояний имеют вид (рисунок 2):
Рисунок 2
Рассмотрим поведение автомата в стационарной случайной среде . Пусть > . Докажем целесообразность его поведения, показав, что он выбирает с большей вероятностью то действие, у которого предпочтение больше: .
Имеем дискретную цепь Маркова, задающую поведение системы “автомат – среда”. Как и раньше, ( ) - финальная вероятность действия . Зададим ; . Найдем финальную вероятность каждого действия , а затем математическое ожидание выигрыша.
……..
……….
- Условие нормировки
=
=
….
, если
….
…
> , если
Мат. ожидание выигрыша возрастает, значит эти автоматы целесообразны.
Замечание: Если рассмотреть последовательность таких автоматов, у которых память , то такая последовательность автоматов называется асимптотически-оптимальной.
Автомат с линейной тактикой является обобщением конструкций М.Л. Цетлина, рассмотренных выше. Автомат имеет внутренних состояний и действий (параметр - глубина памяти). Состоянием автомата соответствует выходное действие . При = +1 (поощрении) автомат не меняет своего действия и из состояния переходит в состояние , а в состоянии остаётся. При = -1 (штрафе) из состояния переходит в состояние при и в состояние при , меняя своё действие на ( ) или на ( ). Граф смены состояний приведён на рисунке 3.
Рисунок 3
Автомат с линейной тактикой также является целесообразным в стационарной случайной среде С( ), и относится к асимптотически-оптимальной последовательности автоматов.
2. Автомат Крылова .
Рисунок 4
…
…
Добавляем условие нормировки:
Тогда из первого уравнения получаем:
…
Итак, , если . Т.е. математическое ожидание выигрыша возрастает, значит, эта конструкция обладает целесообразностью поведения.
Автоматы Крылова образуют асимптотически-оптимальную последовательность во всех стационарных случайных средах.
Аналогично, можно доказать целесообразность поведения автоматов, представленных ниже [2,3].
3. Автомат Роббинса
Рисунок 5
4. Автомат Кринского (“доверчивый” автомат)
Рисунок 6
5. Автомат Вайсборда
Рисунок 7
Запишем финальные вероятности состояний:
….
…
Автомат обладает целесообразностью поведения, т.к. , если .
6. Стохастический автомат с линейной тактикой . Данная конструкция представляет собой стохастический вариант автомата с линейной тактикой М.Л. Цетлина. При входном сигнале S автомат с вероятностью осуществляет те же переходы, что и автомат при таком же входном сигнале, а с вероятностью автомат осуществляет такие же переходы, которые осуществляет автомат при противоположном входном сигнале. При =1 стохастический автомат становится детерминированным автоматом с линейной тактикой. Автомат при является целесообразным в стационарной случайной среде С и относится к асимптотически-оптимальной последовательности автоматов.
Рисунок 8
7. Автомат Валаха (с избирательной тактикой)
S = +1
S = ‑1
Рисунок 9
Граф смены состояний автомата Валаха аналогичен графу стохастического автомата с линейной тактикой, только при S = +1 вместо , вместо : , а в случае S = -1 вместо , вместо :