Обучающиеся и игровые системы.

Обучающиеся системы

Обучающиеся системы (ОС) являются одним из самых сложных и пока малоизученных классов адаптивных систем. Их сложность следует хотя бы из того, что они должны имитировать деятельность живого организма, причем высшую деятельность. Не стоит, может быть, говорить об имитации сознательной, разумной деятельности, хотя, во-первых, в обучении человека и животного много общего, во-вторых, современные обучающиеся системы, например шахматные компьютеры, вернее их программы, пытаются моделировать именно сознательную деятельность.

ОС создаются на основе принципа обучения, заключающемся в последовательном накапливании опыта формирования поведения системы при высокой степени неопределенности ее исходных состояний, по результатам которого происходит улучшение функционирования системы. Характер накопления опыта при обучении весьма многообразен, например, опыт может быть положительным и отрицательным, систематизированным и случайным, собственным или привнесенным извне, искусственным или естественным и т.д. Однако у всех способов накопления опыта есть общая черта – постепенное выделение «области знаний» из всей совокупности «незнания». Поэтому в теории обучающихся систем эта особенность нашла отражение в достаточно быстро развивающемся направлении, связанном с созданием автоматических систем классификации и распознавания образов. Под распознаванием здесь понимается установление по результатам накопленного опыта границ между определенными классами сложных ситуаций. Задачи распознавания и классификации встречаются часто не только в технических приложениях, но и в таких областях как медицинская диагностика, геологическая разведка месторождений, прогнозирование погоды и т.д.

Задача автоматического обучения распознаванию образов формулируется следующим образом: каждой возможной ситуации из множества рассматриваемых ставится в соответствие точка некоторого пространства Обучающиеся и игровые системы. - student2.ru информационных признаков. Заранее известно, что в пространстве Обучающиеся и игровые системы. - student2.ru необходимо выделить две или большее число областей или классов ситуаций. Расположение границ между областями неизвестно и нет определенных правил, по которым можно определить принадлежность той или иной точки заданных областей. Цель обучения заключается в построении поверхности, разделяющей предъявляемые точки из указанного множества на заданное число классов. Существуют два подхода к обучению

Обучение с поощрением.Классифицирующему автомату предъявляется ряд точек из множества в пространстве Обучающиеся и игровые системы. - student2.ru и сообщается информация о принадлежности этих точек определенным классам. После определенного цикла обучения на таких примерах автомат строит разделяющую поверхность и может в дальнейшем отличать принадлежность разным классам не только точек-примеров, но и любых других точек в пространстве Обучающиеся и игровые системы. - student2.ru .

Обучение без поощоения.В случае информации о принадлежности точек разделяемым классам отсутствует. Автомат по наблюдению предъявляемых точек определяет факт компактного расположения некоторых из них и затем строит разделяющие поверхности на основе выбранной меры близости компактных групп точек к разделяющей поверхности.

Объективная сложность обучения как с поощрением так и без заключается в том, что не всегда классы из близко расположенных друг к другу точек строго отделены, т.е. возможны пересечения классов, когда одни и те же точки принадлежат разным классам. Часто сами классы сформулированы нечетко и и даже человек иногда затрудняется при классификации, не то что машина.

Для хорошо разделимых классов используют достаточно простые алгоритмы автоматической классификации, основанные на аппроксимации разделяющих поверхностей отдельными участками гиперплоскостей. Для менее разделимых классов приходится использовать вероятностные методы характеристик принадлежности точек пересекающимся классам.

Одним из таких методов является метод секущих плоскостей. Пусть требуется разделить три фигуры, состоящие из набора точек. Точки появляются по порядку. Линия 1 разделяет точки 1 и 2, принадлежащие разным фигурам. Линия 2 устраняет противоречие, связанное с появление точки 3. Появление точек 4,5 не вносит противоречий, но с появлением точки 6 ее нужно отделить от 4,5, что делается линией 3. Линия 4 отделяет точку 6 от новой точки 7. Окончательно гиперплоскость формируется отрезками гиперплоскостей.

Игровые системы

Игровые системы (ИС) используются для управления различного рода операциями, представляющими в своей основе игру против организованного противника (военные операции, игры) или сил природы (случайного процесса).

Структурная схема игровой системы приведена на рис. 5.1. В системе всегда рассматривается действие двух сторон. Игровой алгоритм заключается в сравнении возможных в данной обстановке решений и выборе из большого их числа оптимального.

Сравнение вариантов делается управляющей машиной на основе заложенных в нее критериев. Эти критерии выражаются в виде функции выгоды. Установление рациональной функции выгоды представляет основную проблему при построении игровых систем. Этими проблемами занимается математическая дисциплина – теория игр. Главным ее содержанием является обоснование так называемых оптимальных стратегий игры. Наиболее полно теория игр разработана для конечных игр, для которых характерно конечное число ходов (вариантов) и, следовательно, конечное число возможных стратегий.

В настоящее время используются игровые алгоритмы двух видов.

● С набором шаблонных решений. Все решения заранее исследуются и нумеруются. Задачей является выбор решения, которое дает максимум функции выгоды. Недостаток подхода – малая гибкость и приспособляемость ИС.

● С использованием принципа динамического программирования. Задача решается по отдельным этапам. Результат выполнения команд управления на предыдущем шаге является исходным для формирования команд управления на следующем шаге.

Типовыми задачами, решаемыми ИС, являются:

● Задача преследования одного управляемого объекта другим,

● Задача приведения управляемого объекта в некоторое заданное состояние при действии неизвестных возмущений.

Обучающиеся и игровые системы. - student2.ru

Рис.5.1. Структура игровой системы

Сутью игровой задачи является конфликтная ситуация. Пусть два партнера могут управлять процессами в некоторой динамической системе, описываемой дифференциальными уравнениями

Обучающиеся и игровые системы. - student2.ru ,

где Обучающиеся и игровые системы. - student2.ru - полный вектор состояния,

Обучающиеся и игровые системы. - student2.ru - управление 1-го игрока,

Обучающиеся и игровые системы. - student2.ru - управление 2-го игрока.

Игра начинается в момент Обучающиеся и игровые системы. - student2.ru и считается законченной при Обучающиеся и игровые системы. - student2.ru , когда Обучающиеся и игровые системы. - student2.ru попадает в заданную область. Задача первого игрока – закончить игру с минимальным значением показателя качества (плата за игру)

Обучающиеся и игровые системы. - student2.ru

где Обучающиеся и игровые системы. - student2.ru и Обучающиеся и игровые системы. - student2.ru - известные функции.

Задача второго игрока – помешать приведению точки в заданную область или, по крайней мере, увеличить Обучающиеся и игровые системы. - student2.ru . Обычно задача решается в условиях ограничений на уровни управляющих воздействий Обучающиеся и игровые системы. - student2.ru .

Пусть Обучающиеся и игровые системы. - student2.ru и Обучающиеся и игровые системы. - student2.ru - допустимые стратегии, которые могут выбирать игроки. Если первый игрок выбрал стратегию Обучающиеся и игровые системы. - student2.ru , то наихудший результат для него будет при выборе вторым игроком стратегии Обучающиеся и игровые системы. - student2.ru , максимизирующей плату за игру

Обучающиеся и игровые системы. - student2.ru .

Естественно, что первый игрок будет искать такую стратегию Обучающиеся и игровые системы. - student2.ru при которой Обучающиеся и игровые системы. - student2.ru для всех допустимых стратегий. Условие выбора можно записать

Обучающиеся и игровые системы. - student2.ru .

Для второго игрока найти оптимальную максиминную стратегию Обучающиеся и игровые системы. - student2.ru из условия Обучающиеся и игровые системы. - student2.ru

В этом случае второй игрок обеспечит себе выигрыш не менее

Обучающиеся и игровые системы. - student2.ru .

Первый игрок не может иметь гарантии, что его проигрыш будет меньше, чем минимальный выигрыш Обучающиеся и игровые системы. - student2.ru , который гарантируется второму игроку. Поэтому Обучающиеся и игровые системы. - student2.ru .

В случае равенства Обучающиеся и игровые системы. - student2.ru возникает седловая точка игры, при которой

Обучающиеся и игровые системы. - student2.ru ,

а также

Обучающиеся и игровые системы. - student2.ru .

Оптимальные стратегии Обучающиеся и игровые системы. - student2.ru соответствующие седловой точке игры, определяют для каждого игрока наилучший способ действий. Отклонение от оптимальной стратегии любого из игроков (если другой придерживается своей оптимальной стратегии) может только ухудшить результат.

СПИСОК ЛИТЕРАТУРЫ

1. Сухарев А.Г., Тимохов А.В., Федоров В.В. Курс методов оптимизации. – М.: Наука, 1986.

2. Куропаткин П.В.. Оптимальные и адаптивные системы : учебное пособие / П. В. Куропаткин. — М. : Высшая школа, 1980. — 287 с.

3. Александров А.Г.. Оптимальные и адаптивные системы : учебное пособие / А. Г. Александров. — М. : Высшая школа, 1989. — 262 с.

4. Чураков Е.П.. Оптимальные и адаптивные системы : учебное пособие / Е. П. Чураков. — М. : Энергоатомиздат, 1987. — 254 с.

5. Вадутов О.С.. Адаптивные системы автоматического управления : учебное пособие / О. С. Вадутов ; Томский политехнический институт. — Томск : Изд-во ТПИ, 1991. — 95 с.

6. Красовский А.А. справочник по ТАУ

Учебное издание

ВОРОНИН Александр Васильевич

Наши рекомендации