Достаточные условия оптимальности. метод динамического программирования

Рассмотрим задачу управления дискретной стохастиче­ской системой, описываемой уравнением

достаточные условия оптимальности. метод динамического программирования - student2.ru

где по-прежнему считается, что достаточные условия оптимальности. метод динамического программирования - student2.ru — n-мерный вектор состояния; достаточные условия оптимальности. метод динамического программирования - student2.ru — m-мерный вектор управления, принимающий значения из до­пустимого множества достаточные условия оптимальности. метод динамического программирования - student2.ru ; достаточные условия оптимальности. метод динамического программирования - student2.ru - q-мерный вектор случайных возму­щений, независимых для разных моментов времени; достаточные условия оптимальности. метод динамического программирования - student2.ru — n -мерная вектор-функция. Начальное значение вектора х0 считается задан­ным.

Критерий оптимальности также зададим в виде математического ожидания от некоторой терминальной функции

достаточные условия оптимальности. метод динамического программирования - student2.ru

Однако в отличие от программирования управления будем счи­тать, что в процессе управления в любой текущий момент i может быть точно измерен полный вектор состояния достаточные условия оптимальности. метод динамического программирования - student2.ru . Ставится задача отыскания такого алгоритма (закона) управления системой (5.1), т. е. последовательности зависимостей достаточные условия оптимальности. метод динамического программирования - student2.ru , кото­рый обеспечивает перевод системы (5.1) из начального состояния х0 в некоторое конечное состояние с минимальным значением критерия (5.2).

Покажем, что применение метода динамического программиро­вания в данной задаче обеспечивает выполнение достаточных усло­вий оптимальности. Для этого введем в рассмотрение функцию будущих потерь

достаточные условия оптимальности. метод динамического программирования - student2.ru

представляющую собой минимальное значение исходного критерия (5.2), которое может быть достигнуто при оптимальном управлении системой (5.1), начиная с момента времени i из состояния достаточные условия оптимальности. метод динамического программирования - student2.ru . Сим­вол M[.../ достаточные условия оптимальности. метод динамического программирования - student2.ru ] означает условное математическое ожидание.

Раскрывая в (5.3) операцию математического ожидания, исполь­зуя правило пересчета переходных плотностей вероятностей марков­ского процесса и применяя поэтапную оптимизацию, можно записать

достаточные условия оптимальности. метод динамического программирования - student2.ru

Здесь через достаточные условия оптимальности. метод динамического программирования - student2.ru обозначена переходная плотность вероятно­стей процесса (5.1) при управлении достаточные условия оптимальности. метод динамического программирования - student2.ru , т. е. условная плотность вероятностей вектора достаточные условия оптимальности. метод динамического программирования - student2.ru при фиксированных значениях достаточные условия оптимальности. метод динамического программирования - student2.ru . Ин­тегралы всюду следует понимать как многомерные с областями интегрирования, совпадающими с областями изменения векторов достаточные условия оптимальности. метод динамического программирования - student2.ru , достаточные условия оптимальности. метод динамического программирования - student2.ru соответственно.

Другими словами, функция будущих потерь достаточные условия оптимальности. метод динамического программирования - student2.ru , определяе­мая соответственно (5.3), удовлетворяет рекуррентному соотноше­нию

достаточные условия оптимальности. метод динамического программирования - student2.ru

называемому также основным рекуррентным соотношением метода динамического программирования. Так как для последнего момен­та управления i = N по определению имеем

достаточные условия оптимальности. метод динамического программирования - student2.ru

то граничное условие для рекуррентного соотношения (5.4) может быть формально записано в виде

достаточные условия оптимальности. метод динамического программирования - student2.ru

Применяя соотношение (5.4) последовательно начиная с мо­мента i = N, получаем при i — 0 величину достаточные условия оптимальности. метод динамического программирования - student2.ru , которая согласно (5.3J представляет собой минимальное значение критерия (5.2):

достаточные условия оптимальности. метод динамического программирования - student2.ru

Другими словами, последовательность управляющих воздейст­вий достаточные условия оптимальности. метод динамического программирования - student2.ru , вычисленная в соответствии с рекур­рентным соотношением (5.4) с учетом граничного условия (5.5), оп­тимальна.

Таким образом, соотношения (5.4) с учетом (5.5) можно рас­сматривать как достаточные условия оптимальности в задаче син­теза оптимального управления системой (5.1) с критерием (5.2).

Нетрудно показать, что если критерий оптимальности вместо (5.2) имеет более общий вид

достаточные условия оптимальности. метод динамического программирования - student2.ru

то достаточные условия оптимальности могут быть представлены в виде рекуррентного соотношения

достаточные условия оптимальности. метод динамического программирования - student2.ru

с прежним граничным условием

достаточные условия оптимальности. метод динамического программирования - student2.ru

Действительно, вводя дополнительную переменную достаточные условия оптимальности. метод динамического программирования - student2.ru , опреде­ляемую согласно уравнению

достаточные условия оптимальности. метод динамического программирования - student2.ru

критерий (5.6) сведем к виду (5.2) по отношению к расширен­ному вектору состояния (х°, х):

достаточные условия оптимальности. метод динамического программирования - student2.ru

Применим формально основное рекуррентное соотношение (5.4) с учетом (5.5). Получим

достаточные условия оптимальности. метод динамического программирования - student2.ru

причем

достаточные условия оптимальности. метод динамического программирования - student2.ru

Для момента i=N функция достаточные условия оптимальности. метод динамического программирования - student2.ru может быть представлена в виде

достаточные условия оптимальности. метод динамического программирования - student2.ru

где

достаточные условия оптимальности. метод динамического программирования - student2.ru

Аналогично для момента i=N—1

достаточные условия оптимальности. метод динамического программирования - student2.ru

где

достаточные условия оптимальности. метод динамического программирования - student2.ru

Для произвольного момента

достаточные условия оптимальности. метод динамического программирования - student2.ru

где

достаточные условия оптимальности. метод динамического программирования - student2.ru

Нетрудно видеть, что компонента достаточные условия оптимальности. метод динамического программирования - student2.ru не влияет на выбор опти­мального управления. Поэтому ее можно исключить из рассмотре­ния, ограничившись рекуррентным соотношением для функции

достаточные условия оптимальности. метод динамического программирования - student2.ru

которое совпадает с соотношением (5.7).

Граничное условие для функции достаточные условия оптимальности. метод динамического программирования - student2.ru по построению имеет вид (5.8).

Наши рекомендации