Метод динамического программирования

Согласно результатам теоремы 1, пользуясь условиями (9.2.5), (9.2.6), мы можем последовательно определить функции Метод динамического программирования - student2.ru и их области определения Метод динамического программирования - student2.ru Метод динамического программирования - student2.ru .

Действительно, Метод динамического программирования - student2.ru , Метод динамического программирования - student2.ru – известны.

Пусть известны Метод динамического программирования - student2.ru и Метод динамического программирования - student2.ru Метод динамического программирования - student2.ru . Для определения Метод динамического программирования - student2.ru нужно решить задачу минимизации функции

Метод динамического программирования - student2.ru

по переменным Метод динамического программирования - student2.ru на известном множестве

Метод динамического программирования - student2.ru .

Для решения этой задачи могут быть использованы методы НЛП. Функция Метод динамического программирования - student2.ru определена в точке Метод динамического программирования - student2.ru тогда и только тогда, когда Метод динамического программирования - student2.ru . Следовательно, при определении значения функции Метод динамического программирования - student2.ru одновременно находится и область ее определения

Метод динамического программирования - student2.ru .

Так как Метод динамического программирования - student2.ru хотя бы при одном Метод динамического программирования - student2.ru , то Метод динамического программирования - student2.ru Метод динамического программирования - student2.ru .

Предположим, что из условий (9.2.5), (9.2.6) найдены функции Метод динамического программирования - student2.ru и пусть также известны функции Метод динамического программирования - student2.ru Метод динамического программирования - student2.ru на которых достигается нижняя грань в правой части (9.2.5). Тогда несложно выписать решение задач (9.1.5)-(9.1.8) и (9.2.1)-(9.2.4).

Оптимальное управление – Метод динамического программирования - student2.ru , оптимальная траектория – Метод динамического программирования - student2.ru задачи (9.1.5)–(9.1.8) определяются следующим образом: сначала из условия

Метод динамического программирования - student2.ru (9.3.1)

находим Метод динамического программирования - student2.ru . Затем, используя зависимости Метод динамического программирования - student2.ru и (9.1.6) последовательно определяем оптимальное управление и оптимальную траекторию

Метод динамического программирования - student2.ru , Метод динамического программирования - student2.ru , Метод динамического программирования - student2.ru . (9.3.2)

Оптимальное управление – Метод динамического программирования - student2.ru , оптимальная траектория – Метод динамического программирования - student2.ru задачи (9.2.1)–(9.2.4) определяются по формулам, аналогичным (9.3.2), при этом фиксируется начальное состояние:

1) Метод динамического программирования - student2.ru ; 2) Метод динамического программирования - student2.ru , Метод динамического программирования - student2.ru , Метод динамического программирования - student2.ru . (9.3.3)

Сформулируем отмеченные результаты в виде соответствующих теорем. Первая из теорем устанавливает взаимосвязь оптимального решения и рекуррентных соотношений Беллмана.

Теорема 2. Пусть из соотношений (9.2.6), (9.2.5) последовательно определены функции Метод динамического программирования - student2.ru и их области определения Метод динамического программирования - student2.ru Метод динамического программирования - student2.ru , а также функции Метод динамического программирования - student2.ru Метод динамического программирования - student2.ru , на которых достигается нижняя грань в уравнении (9.2.5), и пусть Метод динамического программирования - student2.ru определено условием (9.3.1). Тогда оптимальное управление Метод динамического программирования - student2.ru и оптимальная траектория Метод динамического программирования - student2.ru задачи (9.1.5)–(9.1.8) определяются соотношениями (9.3.1)–(9.3.2).

В теории оптимального управления и ее приложениях важное место занимает так называемая проблема синтеза, заключающаяся в построении функции Метод динамического программирования - student2.ru , выражающей собой оптимальное управление при условии, что в момент Метод динамического программирования - student2.ru объект находится в точке Метод динамического программирования - student2.ru фазового пространства. Следующая теорема показывает, что решение уравнения Беллмана (9.2.5) равносильно решению проблемы синтеза для задачи (9.2.5)-(9.2.8). А именно, функция Метод динамического программирования - student2.ru , на которой достигается нижняя грань в (9.2.5), является синтезирующей: если в момент Метод динамического программирования - student2.ru объект находится в точке Метод динамического программирования - student2.ru , то дальнейшее оптимальное движение объекта определяется условиями:

Метод динамического программирования - student2.ru Метод динамического программирования - student2.ru , Метод динамического программирования - student2.ru .

Теорема 3. Пусть из соотношений (9.2.6), (9.2.5) последовательно определены функции Метод динамического программирования - student2.ru и их области определения Метод динамического программирования - student2.ru , а также функции Метод динамического программирования - student2.ru , на которых достигается нижняя грань в уравнении (9.2.5). Тогда оптимальное управление Метод динамического программирования - student2.ru и оптимальная траектория Метод динамического программирования - student2.ru задачи (9.2.1)–(9.2.4) определяются формулами (9.3.3).

Согласно результатам теоремы 3 оптимальное управление Метод динамического программирования - student2.ru задачи (9.1.5)–(9.1.8) обладает тем свойством, что для произвольного Метод динамического программирования - student2.ru оптимальное управление Метод динамического программирования - student2.ru и оптимальная траектория Метод динамического программирования - student2.ru * задачи (9.2.1)–(9.2.4)при заданном начальном состоянии Метод динамического программирования - student2.ru совпадают с отрезками оптимального управления Метод динамического программирования - student2.ru и оптимальной траекторией Метод динамического программирования - student2.ru задачи (9.1.5)–(9.1.8). Последнее утверждение является одной из формулировок принципа оптимальности.

Существуют задачи типа (9.1.5)-( 9.1.8), когда нижняя грань в (9.2.5) или (9.3.1) не достигается. В таких задачах приходится пользоваться величинами, лишь приближенно реализующими нижнюю грань.

Наши рекомендации