Связь метода динамического программирования

С принципом максимума

Существует связь между функцией будущих потерь Связь метода динамического программирования - student2.ru и сопряженными переменными Связь метода динамического программирования - student2.ru . Рассмотрим задачу Лагранжа:

Связь метода динамического программирования - student2.ru , Связь метода динамического программирования - student2.ru , Связь метода динамического программирования - student2.ru , Связь метода динамического программирования - student2.ru .

Перепишем уравнение Беллмана в следующем виде

Связь метода динамического программирования - student2.ru .

Введем в рассмотрение расширенный вектор Связь метода динамического программирования - student2.ru , где Связь метода динамического программирования - student2.ru и Связь метода динамического программирования - student2.ru определяются уравнениями

Связь метода динамического программирования - student2.ru , Связь метода динамического программирования - student2.ru .

Расширенная вектор-функция правых частей имеет вид:

Связь метода динамического программирования - student2.ru , где Связь метода динамического программирования - student2.ru .

Введем вектор Связь метода динамического программирования - student2.ru , где Связь метода динамического программирования - student2.ru , т.е.

Связь метода динамического программирования - student2.ru , Связь метода динамического программирования - student2.ru , Связь метода динамического программирования - student2.ru .

Тогда уравнение Беллмана можно переписать в виде

Связь метода динамического программирования - student2.ru ,

где Связь метода динамического программирования - student2.ru .

Таким образом, мы пришли к принципу максимума: оптимальное управление обеспечивает максимум гамильтониану Связь метода динамического программирования - student2.ru , значение которого на оптимальной траектории равно нулю.

Получим каноническую систему уравнений. Уравнение для вектора Связь метода динамического программирования - student2.ru может быть записано сразу: Связь метода динамического программирования - student2.ru .

Уравнения для Связь метода динамического программирования - student2.ru получим, предположив, что функция Связь метода динамического программирования - student2.ru дважды дифференцируема, тогда

Связь метода динамического программирования - student2.ru .

Для любого фиксированного момента времени могут быть найдены оптимальные значения Связь метода динамического программирования - student2.ru , Связь метода динамического программирования - student2.ru , для которых гамильтониан обращается в нуль. Отсюда следует, что при фиксированных Связь метода динамического программирования - student2.ru и оптимальном управлении Связь метода динамического программирования - student2.ru величина гамильтониана достигает максимума по Связь метода динамического программирования - student2.ru в точке оптимальной траектории. Поэтому

Связь метода динамического программирования - student2.ru

Связь метода динамического программирования - student2.ru .

Откуда получаем, что Связь метода динамического программирования - student2.ru , и учитывая, что Связь метода динамического программирования - student2.ru , имеем: Связь метода динамического программирования - student2.ru .

Таким образом, вектор Связь метода динамического программирования - student2.ru , участвующий в принципе максимума, является антиградиентом функции Связь метода динамического программирования - student2.ru , связанной с функцией будущих потерь. Уравнение Беллмана эквивалентно необходимым условиям в форме принципа максимума. Результатом решения уравнения Беллмана является оптимальное управление в форме синтеза, в то время как при использовании принципа максимума определяется лишь программа оптимального управления. Однако численно решить краевую задачу и тем самым определить программу управления проще, чем решить уравнение в частных производных, т.е. построить синтез. Аналитическое решение уравнения Беллмана можно получить лишь в некоторых частных случаях.

Связь уравнения Беллмана с уравнением Гамильтона-Якоби классического вариационного исчисления

Запишем уравнение Беллмана

Связь метода динамического программирования - student2.ru .

Обозначим Связь метода динамического программирования - student2.ru . Отметим, что Связь метода динамического программирования - student2.ru отличается от гамильтониана Связь метода динамического программирования - student2.ru только знаком перед Связь метода динамического программирования - student2.ru . При поиске минимума эти записи гамильтониана эквивалентны. Имеем

Связь метода динамического программирования - student2.ru - уравнение Беллмана,

Связь метода динамического программирования - student2.ru - уравнение Гамильтона-Якоби.

Гамильтониан Связь метода динамического программирования - student2.ru содержит управление Связь метода динамического программирования - student2.ru , которое получалось бы из необходимого условия простого экстремума Связь метода динамического программирования - student2.ru . Уравнение Беллмана является развитием результатов классического вариационного исчисления, распространяющим их на системы с ограничением на управление Связь метода динамического программирования - student2.ru .

Геометрическая интерпретация решения

Уравнения Беллмана

Рассмотрим решение задачи минимизации, когда функционал содержит только терминальный член: Связь метода динамического программирования - student2.ru .

Пусть доказано существование функции Беллмана, удовлетворяющей уравнению

Связь метода динамического программирования - student2.ru .

Минимум скалярного произведения двух векторов, достигается, если они направлены в противоположные стороны. Поскольку Связь метода динамического программирования - student2.ru , можно сделать вывод, что оптимальное движение точки должно быть направлено против градиента функции Связь метода динамического программирования - student2.ru .

Связь метода динамического программирования - student2.ru
Связь метода динамического программирования - student2.ru
Связь метода динамического программирования - student2.ru
Связь метода динамического программирования - student2.ru
Связь метода динамического программирования - student2.ru
Связь метода динамического программирования - student2.ru
Связь метода динамического программирования - student2.ru
Связь метода динамического программирования - student2.ru
Связь метода динамического программирования - student2.ru
Связь метода динамического программирования - student2.ru

Рис.4.2. Семейство линий уровней функции Связь метода динамического программирования - student2.ru

На рис. 4.2 для двухмерной задачи показано семейство линий уровней функции Связь метода динамического программирования - student2.ru и положение ее минимального значения, равного 0, а также одна из траекторий движения, приводящая к этому минимуму.

Наши рекомендации