Пусть мы ищем решение задачи.

ОПТИМИЗАЦИЯ С ДИСКРЕТНЫМ ВРЕМЕНЕМ

Динамическое программирование

Система наблюдается в моментах времени Пусть мы ищем решение задачи. - student2.ru

Состояние системы характеризуется числом Пусть мы ищем решение задачи. - student2.ru . Известно значение Пусть мы ищем решение задачи. - student2.ru . Система меняет своё состояние под воздействием управлений Пусть мы ищем решение задачи. - student2.ru , которые можно свободно выбирать из заданного множества Пусть мы ищем решение задачи. - student2.ru которое назовём областью управления.Управления влияют на состояния системы по правилу

Пусть мы ищем решение задачи. - student2.ru , (1)

где Пусть мы ищем решение задачи. - student2.ru – заданная функция.

Предположим, что выбраны величины Пусть мы ищем решение задачи. - student2.ru . Тогда, начиная с Пусть мы ищем решение задачи. - student2.ru ), далее получим Пусть мы ищем решение задачи. - student2.ru ) и т.д.

Таким образом, каждому выбору управлений соответствует свой путь (или график).

Пусть имеется функция Пусть мы ищем решение задачи. - student2.ru такая, что польза от выбранного пути есть сумма:

Пусть мы ищем решение задачи. - student2.ru (*)

Эта сумма носит название целевой функции.

Иногда вместо Пусть мы ищем решение задачи. - student2.ru пишут Пусть мы ищем решение задачи. - student2.ru .

Вместе с любой заданной последовательностью Пусть мы ищем решение задачи. - student2.ru находим последовательность Пусть мы ищем решение задачи. - student2.ru и получаем соответствующие допустимые пары. При этом целевая функция принимает определенное значение.

Задача состоит в том, чтобы среди всех наборов допустимых пар Пусть мы ищем решение задачи. - student2.ru и Пусть мы ищем решение задачи. - student2.ru найти оптимальный набор пар Пусть мы ищем решение задачи. - student2.ru , Пусть мы ищем решение задачи. - student2.ru , дающий наибольшее значение целевой функции.

Задача, в краткой формулировке, записывается так:

найти

Пусть мы ищем решение задачи. - student2.ru при условиях Пусть мы ищем решение задачи. - student2.ru , Пусть мы ищем решение задачи. - student2.ru задано, (2).

Рассмотрим пример реальной задачи, которая решается по изложенной выше схеме.

Пусть Пусть мы ищем решение задачи. - student2.ru средства в момент Пусть мы ищем решение задачи. - student2.ru В каждый момент Пусть мы ищем решение задачи. - student2.ru пусть Пусть мы ищем решение задачи. - student2.ru часть, используемая для потребления, Пусть мы ищем решение задачи. - student2.ru – часть для сбережения. Средства можно употребить в дело с уровнем прироста Пусть мы ищем решение задачи. - student2.ru . После изъятия количества средств Пусть мы ищем решение задачи. - student2.ru , остаток средств Пусть мы ищем решение задачи. - student2.ru идёт в дело. При этом, с учётом прироста, получаем Пусть мы ищем решение задачи. - student2.ru .

Пусть польза от потребления Пусть мы ищем решение задачи. - student2.ru равна Пусть мы ищем решение задачи. - student2.ru .

Пусть функция Пусть мы ищем решение задачи. - student2.ru возрастает и выпукла вверх по Пусть мы ищем решение задачи. - student2.ru .

Вся полученная польза равна:

Пусть мы ищем решение задачи. - student2.ru

Итак, решается задача:

Найти Пусть мы ищем решение задачи. - student2.ru при условиях

Пусть мы ищем решение задачи. - student2.ru Пусть мы ищем решение задачи. - student2.ru

Пусть мы ищем решение задачи. - student2.ru задано, Пусть мы ищем решение задачи. - student2.ru , Пусть мы ищем решение задачи. - student2.ru .

Свойства целевой функции.

Пусть при Пусть мы ищем решение задачи. - student2.ru система имеет значение x. Наилучшее, что можно сделать в оставшийся период – выбрать Пусть мы ищем решение задачи. - student2.ru (следовательно, Пусть мы ищем решение задачи. - student2.ru ) так, чтобы максимизировать Пусть мы ищем решение задачи. - student2.ru при Пусть мы ищем решение задачи. - student2.ru .

Назовем оптимальной целевой функцией для этой задачи в момент s.

Пусть мы ищем решение задачи. - student2.ru (3)

где Пусть мы ищем решение задачи. - student2.ru , Пусть мы ищем решение задачи. - student2.ru , Пусть мы ищем решение задачи. - student2.ru , Пусть мы ищем решение задачи. - student2.ru (4)

Управления, максимизирующие (3) при условиях (4), зависят от х. В частности, Пусть мы ищем решение задачи. - student2.ru зависит от х.

Пусть мы ищем решение задачи. - student2.ru Управления, зависящие от состояния системы назовем политиками.

Если мы напишем для каждого Пусть мы ищем решение задачи. - student2.ru политику, то мы тем самым решили задачу (2)

Рассмотрим важное свойство целевой функции. При Пусть мы ищем решение задачи. - student2.ru имеем

Пусть мы ищем решение задачи. - student2.ru .

Пусть при Пусть мы ищем решение задачи. - student2.ru система в состоянии Пусть мы ищем решение задачи. - student2.ru . При выборе Пусть мы ищем решение задачи. - student2.ru при Пусть мы ищем решение задачи. - student2.ru получен выигрыш Пусть мы ищем решение задачи. - student2.ru , при этом система окажется в состоянии Пусть мы ищем решение задачи. - student2.ru

При этом наибольший полный выигрыш, который можно получить от Пусть мы ищем решение задачи. - student2.ru до Пусть мы ищем решение задачи. - student2.ru , начиная с состояния Пусть мы ищем решение задачи. - student2.ru , равен Пусть мы ищем решение задачи. - student2.ru

Следовательно, наилучшим выбором для Пусть мы ищем решение задачи. - student2.ru будет то, которое максимизирует сумму Пусть мы ищем решение задачи. - student2.ru

Теорема: Пусть Пусть мы ищем решение задачи. - student2.ru обозначает целевую функцию в момент Пусть мы ищем решение задачи. - student2.ru

Пусть мы ищем решение задачи. - student2.ru

Пусть мы ищем решение задачи. - student2.ru , Пусть мы ищем решение задачи. - student2.ru , Пусть мы ищем решение задачи. - student2.ru

для задачи найти:

Пусть мы ищем решение задачи. - student2.ru (5)

при условиях Пусть мы ищем решение задачи. - student2.ru , Пусть мы ищем решение задачи. - student2.ru – задано, Пусть мы ищем решение задачи. - student2.ru

Тогда Пусть мы ищем решение задачи. - student2.ru удовлетворяет уравнениям

Пусть мы ищем решение задачи. - student2.ru (6)

Пусть мы ищем решение задачи. - student2.ru

Пусть мы ищем решение задачи. - student2.ru (7)

Замечание: Разумеется значения Пусть мы ищем решение задачи. - student2.ru выбираются среди решений разностного уравнения (1) при фиксированном Пусть мы ищем решение задачи. - student2.ru и возможных выборах Пусть мы ищем решение задачи. - student2.ru .

Обычно эта теорема используется так: ищем функцию (7).

Максимизируются значение U*T (x). Следующий шаг – используя (6) найти JT-1(x) и соответствующую W*T-1(x). Действуя аналогично, находим все JT (x), JT-1(x),….,J0(x) и соответствующие U*T(x), U*T-1(x),…,U*0(x).

Это позволяет построить решение исходной задачи оптимизации.

Пример.

Рассмотрим задачу найти:

max Пусть мы ищем решение задачи. - student2.ru , при условиях Пусть мы ищем решение задачи. - student2.ru , t=0, 1, 2, Пусть мы ищем решение задачи. - student2.ru , Пусть мы ищем решение задачи. - student2.ru .

Здесь T=3, f(t,x,u)=1+x-u2 , g(t,x,u)=x+u.

Из (7) при T=3получаем, что J3(x) представляет собой наибольшее значение функции Пусть мы ищем решение задачи. - student2.ru , Пусть мы ищем решение задачи. - student2.ru .

Оно получается при u=0, т.е. J3(x)=1+x, Пусть мы ищем решение задачи. - student2.ru .

При s=2 функция максимизируется, обозначим ее h2(u)=1+x-u2+J3(x+u)

Так как J3(x)=1+x, J3(x+u)=1+(x+u) и h2(u)=1+x-u2+1+x+u=2+2x+u-u2; h2’(u)=1-2u, h2’(u)=0, u=1/2, h2(u) выпукла вверх, то u, u2*(x)=1/2, J2(x)=h2(u2*(x))=2+2x+1/2-1/4=2x+9/4.

При s=1 мы максимизирует функцию h1(u)=1+x-u2+2(x+u)+9/4=3x+2u-u2+13/4

h1’(u)=2-2u; h1’(u)=0, u=1.

Находим u1*(x)=1 и J1(x)=3x+2-1+13/4=3x+17/4.

При s=0 максимизируется функция

Пусть мы ищем решение задачи. - student2.ru . Пусть мы ищем решение задачи. - student2.ru

Пусть мы ищем решение задачи. - student2.ru

Пусть мы ищем решение задачи. - student2.ru

Пусть мы ищем решение задачи. - student2.ru

Укажем оптимальные значения состояния системы:

Пусть мы ищем решение задачи. - student2.ru

Пусть мы ищем решение задачи. - student2.ru

Пусть мы ищем решение задачи. - student2.ru

Оптимальное значение целевой функции:

Пусть мы ищем решение задачи. - student2.ru

Пусть мы ищем решение задачи. - student2.ru .

В простых случаях, подобных рассмотренному, задача динамической оптимизации допускает решение с использованием обычных методов анализа.

Полагая в уравнении

Пусть мы ищем решение задачи. - student2.ru Пусть мы ищем решение задачи. - student2.ru

последовательно получаем

Пусть мы ищем решение задачи. - student2.ru Пусть мы ищем решение задачи. - student2.ru Пусть мы ищем решение задачи. - student2.ru

Таким образом, максимизация целевой функции равна

Пусть мы ищем решение задачи. - student2.ru Пусть мы ищем решение задачи. - student2.ru

Пусть мы ищем решение задачи. - student2.ru

Пусть мы ищем решение задачи. - student2.ru

Пусть мы ищем решение задачи. - student2.ru

Пусть мы ищем решение задачи. - student2.ru

Пусть мы ищем решение задачи. - student2.ru - матрица 2 дифференциала

По критерию Сильвестра второй дифференциал – отрицательно определенная форма следовательно получаем тоже максимум

Подобный подход возможен в любой задаче, но он слабо реализуем при больших T.

Рассмотрим еще одну задачу :

Найти

max Пусть мы ищем решение задачи. - student2.ru

при условии Пусть мы ищем решение задачи. - student2.ru

Поскольку Пусть мы ищем решение задачи. - student2.ru и
Пусть мы ищем решение задачи. - student2.ru для Пусть мы ищем решение задачи. - student2.ru t выполняется неравенство Пусть мы ищем решение задачи. - student2.ru

Далее , Пусть мы ищем решение задачи. - student2.ru независимо от u , и поэтому Пусть мы ищем решение задачи. - student2.ru и любое решение Пусть мы ищем решение задачи. - student2.ru оптимальнее

Уравнение (1) при S=T-1 дает Пусть мы ищем решение задачи. - student2.ru

Первая производная по u функции Пусть мы ищем решение задачи. - student2.ru равна

Пусть мы ищем решение задачи. - student2.ru ,

1+ux=3/2, ux=1/2.

Пусть мы ищем решение задачи. - student2.ru

При этом Пусть мы ищем решение задачи. - student2.ru .

Итак, Пусть мы ищем решение задачи. - student2.ru ( Пусть мы ищем решение задачи. - student2.ru )

Пусть мы ищем решение задачи. - student2.ru

Рассмотрим уравнение (6) при Пусть мы ищем решение задачи. - student2.ru

Пусть мы ищем решение задачи. - student2.ru

Снова получаем

Пусть мы ищем решение задачи. - student2.ru ,

при этом Пусть мы ищем решение задачи. - student2.ru

Очевидно, что далее, продолжая процесс, получим

Пусть мы ищем решение задачи. - student2.ru

Подстановка Пусть мы ищем решение задачи. - student2.ru в разностное уравнение дает Пусть мы ищем решение задачи. - student2.ru = Пусть мы ищем решение задачи. - student2.ru

При этом Пусть мы ищем решение задачи. - student2.ru .

Примечание

Теорема справедлива и в том случае, когда область управления не фиксирована, но зависит от Пусть мы ищем решение задачи. - student2.ru и Пусть мы ищем решение задачи. - student2.ru , Пусть мы ищем решение задачи. - student2.ru . Тогда максимизация в (2), (3), (5) выполняется при Пусть мы ищем решение задачи. - student2.ru . В (6)(стр. 7),(7)(стр. 7) максимизациявыполняется при Пусть мы ищем решение задачи. - student2.ru и Пусть мы ищем решение задачи. - student2.ru , соответственно.

Часть множеств Пусть мы ищем решение задачи. - student2.ru задается набором неравенств Пусть мы ищем решение задачи. - student2.ru .

Если Пусть мы ищем решение задачи. - student2.ru - пустое множество, то принимается соглашение, по которому максимум взят по этому множеству равен - Пусть мы ищем решение задачи. - student2.ru .

Рассмотрим задачу, в которой

Пусть мы ищем решение задачи. - student2.ru = Пусть мы ищем решение задачи. - student2.ru ( Пусть мы ищем решение задачи. - student2.ru - Пусть мы ищем решение задачи. - student2.ru ), Пусть мы ищем решение задачи. - student2.ru > 0, Пусть мы ищем решение задачи. - student2.ru - заданные положительные числа

β = Пусть мы ищем решение задачи. - student2.ru , r – уровень дисконтирования, 0 < Пусть мы ищем решение задачи. - student2.ru < Пусть мы ищем решение задачи. - student2.ru , γ Пусть мы ищем решение задачи. - student2.ru (0, 1), A>0

Ищется

max ( Пусть мы ищем решение задачи. - student2.ru + Пусть мы ищем решение задачи. - student2.ru ) (I)

В соответствии со сделанным замечанием, Пусть мы ищем решение задачи. - student2.ru = (0, x)

f(t, x, u) = Пусть мы ищем решение задачи. - student2.ru Пусть мы ищем решение задачи. - student2.ru , t = 0, 1, … T-1

f(T, x, u) = Пусть мы ищем решение задачи. - student2.ru - эта функция от u не зависит, и ее максимум, равный Пусть мы ищем решение задачи. - student2.ru совпадает с ней самой, Пусть мы ищем решение задачи. - student2.ru = Пусть мы ищем решение задачи. - student2.ru (II), и любое Пусть мы ищем решение задачи. - student2.ru = (0, x) – оптимальное.

Из (6) получаем

Пусть мы ищем решение задачи. - student2.ru = Пусть мы ищем решение задачи. - student2.ru + Пусть мы ищем решение задачи. - student2.ru (x-u))] (III)

При s = T-1

Пусть мы ищем решение задачи. - student2.ru = Пусть мы ищем решение задачи. - student2.ru Пусть мы ищем решение задачи. - student2.ru + Пусть мы ищем решение задачи. - student2.ru Пусть мы ищем решение задачи. - student2.ru ] (IV),

так как

Пусть мы ищем решение задачи. - student2.ru (x-u)) = Пусть мы ищем решение задачи. - student2.ru Пусть мы ищем решение задачи. - student2.ru

Для Пусть мы ищем решение задачи. - student2.ru обозначим

g(u) = Пусть мы ищем решение задачи. - student2.ru + Пусть мы ищем решение задачи. - student2.ru Пусть мы ищем решение задачи. - student2.ru

Тогда g’(u) = (1-γ) Пусть мы ищем решение задачи. - student2.ru + (1-γ)(-1) Пусть мы ищем решение задачи. - student2.ru Пусть мы ищем решение задачи. - student2.ru

g’(u) =0 ó Пусть мы ищем решение задачи. - student2.ru = (-1) Пусть мы ищем решение задачи. - student2.ru Пусть мы ищем решение задачи. - student2.ru

Пусть мы ищем решение задачи. - student2.ru = Пусть мы ищем решение задачи. - student2.ru

Пусть мы ищем решение задачи. - student2.ru = 1 + Пусть мы ищем решение задачи. - student2.ru = Пусть мы ищем решение задачи. - student2.ru (V)

u = Пусть мы ищем решение задачи. - student2.ru

так как g’(u) = (1-γ)(-γ) Пусть мы ищем решение задачи. - student2.ru + (1-γ)(-γ) Пусть мы ищем решение задачи. - student2.ru Пусть мы ищем решение задачи. - student2.ru , Пусть мы ищем решение задачи. - student2.ru < 0,

поэтому Пусть мы ищем решение задачи. - student2.ru максимизирует g(u)

g ( Пусть мы ищем решение задачи. - student2.ru ) = Пусть мы ищем решение задачи. - student2.ru + β A Пусть мы ищем решение задачи. - student2.ru =

= Пусть мы ищем решение задачи. - student2.ru + Пусть мы ищем решение задачи. - student2.ru = Пусть мы ищем решение задачи. - student2.ru (1 + β A Пусть мы ищем решение задачи. - student2.ru ( Пусть мы ищем решение задачи. - student2.ru -1)) =

β A Пусть мы ищем решение задачи. - student2.ru = Пусть мы ищем решение задачи. - student2.ru

= Пусть мы ищем решение задачи. - student2.ru (1 + Пусть мы ищем решение задачи. - student2.ru -1) = Пусть мы ищем решение задачи. - student2.ru (VI)

Тогда ввиду (IV), (VI) (в (VI) вычитаем max y(u), подставляем в (IV))

Пусть мы ищем решение задачи. - student2.ru (x) = Пусть мы ищем решение задачи. - student2.ru

Отметим, что Пусть мы ищем решение задачи. - student2.ru имеет тот же вид, что и Пусть мы ищем решение задачи. - student2.ru

Для s= T-2

Пусть мы ищем решение задачи. - student2.ru (x) = Пусть мы ищем решение задачи. - student2.ru

По аналогии со сделанным выше находим, что максимум достигается при Пусть мы ищем решение задачи. - student2.ru = u = Пусть мы ищем решение задачи. - student2.ru , где Пусть мы ищем решение задачи. - student2.ru = 1+ Пусть мы ищем решение задачи. - student2.ru и где Пусть мы ищем решение задачи. - student2.ru (x) = Пусть мы ищем решение задачи. - student2.ru

Продолжая аналогично, находим для любого t

Пусть мы ищем решение задачи. - student2.ru (x) = Пусть мы ищем решение задачи. - student2.ru , где Пусть мы ищем решение задачи. - student2.ru = A, а для Пусть мы ищем решение задачи. - student2.ru при t<T имеем

Пусть мы ищем решение задачи. - student2.ru = 1+ Пусть мы ищем решение задачи. - student2.ru = 1 + Пусть мы ищем решение задачи. - student2.ru

Оптимальное управление:

Пусть мы ищем решение задачи. - student2.ru (x) = Пусть мы ищем решение задачи. - student2.ru , t<T

Для нахождения оптимальных Пусть мы ищем решение задачи. - student2.ru подставляем эти значения в рекурсивное уравнение

Пусть мы ищем решение задачи. - student2.ru

Предположим что для всех t тогда

Пусть мы ищем решение задачи. - student2.ru

Пусть мы ищем решение задачи. - student2.ru

Пусть мы ищем решение задачи. - student2.ru линейное уравнение первого порядка с постоянным коэффициентом

Пусть мы ищем решение задачи. - student2.ru

Пусть мы ищем решение задачи. - student2.ru

Пусть мы ищем решение задачи. - student2.ru = Пусть мы ищем решение задачи. - student2.ru

См раздел 14 страница 1 Пусть мы ищем решение задачи. - student2.ru

Пусть мы ищем решение задачи. - student2.ru

Пусть мы ищем решение задачи. - student2.ru

Пусть мы ищем решение задачи. - student2.ru

Пусть мы ищем решение задачи. - student2.ru

Уравнение Эйлера

Рассмотри задачу найти Пусть мы ищем решение задачи. - student2.ru (1) при заданном значении Пусть мы ищем решение задачи. - student2.ru и свободно изменяющихся Пусть мы ищем решение задачи. - student2.ru

С другой стороны часто можно переформулировать задачу динамического программирования в виде (1)

Если положить Пусть мы ищем решение задачи. - student2.ru получим задачу с U=R

Предположим что уравнение Пусть мы ищем решение задачи. - student2.ru при любом выборе Пусть мы ищем решение задачи. - student2.ru и Пусть мы ищем решение задачи. - student2.ru имеет единственное решение Пусть мы ищем решение задачи. - student2.ru U

Пусть мы ищем решение задачи. - student2.ru

Определим f( Пусть мы ищем решение задачи. - student2.ru )=f(t, xt, Пусть мы ищем решение задачи. - student2.ru )= Пусть мы ищем решение задачи. - student2.ru при

t<T и Пусть мы ищем решение задачи. - student2.ru .

Иными словами,

Пусть мы ищем решение задачи. - student2.ru

Пусть мы ищем решение задачи. - student2.ru

Пусть Пусть мы ищем решение задачи. - student2.ru , … , Пусть мы ищем решение задачи. - student2.ru - оптимальное решение задачи (1). Для любого заданного t производная выражения (1) по Пусть мы ищем решение задачи. - student2.ru равна 0. Положим Пусть мы ищем решение задачи. - student2.ru , тогда Пусть мы ищем решение задачи. - student2.ru , … , Пусть мы ищем решение задачи. - student2.ru удовлетворяют уравнению Эйлера:

Пусть мы ищем решение задачи. - student2.ru Пусть мы ищем решение задачи. - student2.ru Пусть мы ищем решение задачи. - student2.ru (2)

номер переменной функции F, по которой взята производная
t=0,1,…,T

Это разностное уравнение второго порядка, подобное уравнению Эйлера из вариационного исчисления.

При t = T уравнение (2) переходит в Пусть мы ищем решение задачи. - student2.ru , из которого находим

Пусть мы ищем решение задачи. - student2.ru

Эта величина подставляется в (2) при t = T-1 и получаем Пусть мы ищем решение задачи. - student2.ru и т.д., так не получим Пусть мы ищем решение задачи. - student2.ru , а Пусть мы ищем решение задачи. - student2.ru задано

Рассмотрим задачу

найти

Пусть мы ищем решение задачи. - student2.ru ,

Пусть мы ищем решение задачи. - student2.ru , Пусть мы ищем решение задачи. - student2.ru

Положим, для t=0,1,2

Пусть мы ищем решение задачи. - student2.ru

Пусть мы ищем решение задачи. - student2.ru при t=0,1,2

Пусть мы ищем решение задачи. - student2.ru

Пусть мы ищем решение задачи. - student2.ru

Пусть мы ищем решение задачи. - student2.ru

Поэтому уравнение Эйлера при t=0,1 принимает вид

Пусть мы ищем решение задачи. - student2.ru

Пусть мы ищем решение задачи. - student2.ru

При t=2 уравнение Эйлера имеет вид

Пусть мы ищем решение задачи. - student2.ru ,

так как Пусть мы ищем решение задачи. - student2.ru

Построим

Пусть мы ищем решение задачи. - student2.ru ,

Пусть мы ищем решение задачи. - student2.ru .

Пусть мы ищем решение задачи. - student2.ru не участвует в построении уравнения Эйлера: Пусть мы ищем решение задачи. - student2.ru .

При Пусть мы ищем решение задачи. - student2.ru

Пусть мы ищем решение задачи. - student2.ru и

Пусть мы ищем решение задачи. - student2.ru ,

Пусть мы ищем решение задачи. - student2.ru .

Подставим в Пусть мы ищем решение задачи. - student2.ru , учтем, что Пусть мы ищем решение задачи. - student2.ru ,

Пусть мы ищем решение задачи. - student2.ru ,

Пусть мы ищем решение задачи. - student2.ru ;

Тогда Пусть мы ищем решение задачи. - student2.ru , Пусть мы ищем решение задачи. - student2.ru .

Свести к задаче динамического программирования можно так:

Пусть мы ищем решение задачи. - student2.ru , Пусть мы ищем решение задачи. - student2.ru ;

Пусть мы ищем решение задачи. - student2.ru , Пусть мы ищем решение задачи. - student2.ru

Пусть мы ищем решение задачи. - student2.ru ,

Пусть мы ищем решение задачи. - student2.ru .

Infinite Horizon

Неограниченный период.

Проблема ставится так:

найти Пусть мы ищем решение задачи. - student2.ru (1)

при условии, что Пусть мы ищем решение задачи. - student2.ru - заданное число,

Пусть мы ищем решение задачи. - student2.ru

Пусть мы ищем решение задачи. - student2.ru .

Пусть мы ищем решение задачи. - student2.ru , Пусть мы ищем решение задачи. - student2.ruдопустимая пара последовательностей, если Пусть мы ищем решение задачи. - student2.ru - задано, Пусть мы ищем решение задачи. - student2.ru , Пусть мы ищем решение задачи. - student2.ru определяется уравнением Пусть мы ищем решение задачи. - student2.ru . При этом Пусть мы ищем решение задачи. - student2.ru , g Пусть мы ищем решение задачи. - student2.ru не зависят от переменной t явно. Таким образом (1) называется автономным рядом.

f удовлетворяет условиям ограниченности Пусть мы ищем решение задачи. - student2.ru для всех x,u, u Пусть мы ищем решение задачи. - student2.ru . Поэтому ряд в (1) сходится. Сравним с прогрессией.

Пусть π̅ = (us , us+1 , …) – последовательность управлений, гдеus+kϵU, k = 0, 1, … ;xt+1 = g(xt , ut), t = s, s+1, … ; xs = x.

Тогда польза, полученная за период t = s, s+1, … равна

Пусть мы ищем решение задачи. - student2.ru

Положим, что

Пусть мы ищем решение задачи. - student2.ru

и максимумы взяты по всем последовательностям π̅.

Таким образом, Пусть мы ищем решение задачи. - student2.ru – максимальный успех, который можно получить от t=s до +∞.

При условии, что в момент t=s система находится в состоянии x, Пусть мы ищем решение задачи. - student2.ru называется оптимальной целевой функцией для задачи (1).

Имеем Пусть мы ищем решение задачи. - student2.ru

Максимизируя Пусть мы ищем решение задачи. - student2.ru получаем одно и то же значение в обоих случаях, поскольку будущее (+∞) выглядит вполне одинаково в момент 0 и в момент s.

Из (5) следует: Пусть мы ищем решение задачи. - student2.ru

Положим, по определению Пусть мы ищем решение задачи. - student2.ru

Из (6) следует, что если мы знаем Пусть мы ищем решение задачи. - student2.ru , то мы знаем Пусть мы ищем решение задачи. - student2.ru для всех s.

Теорема. Целевая функция Пусть мы ищем решение задачи. - student2.ru в (4) для задачи (1) удовлетворяет уравнению Беллмана.

J (x) = max [f(x,u)+ßJ(g(x,u))] (8)

uÎU

Грубое рассуждение напоминает рассуждения для конечного периода Т. Предположим, что мы при t=0 находимся в состоянии х. Выбрав управление u, получаем βо f(x,u)=f(x,u) и во время t=1 попадаем в x1=g(x,u).

Выбор оптимальной последовательности управлений при t=1 и так далее даёт прибавку в последующий период J1(g(x,u))=βJ(g(x,u)). Следовательно, наилучший выбор при t=0, тот что максимизирует сумму f(x,u) +βJ(g(x,u)), поэтому максимум этой суммы равен J(x)

(8) – функциональное уравнение, можно доказать, что при условиях ограниченности (2), и полагая, что максимум в правой части (8) существует, это уравнение имеет единственное решение которое автоматически является оптимальным уравнением u(x), максимизирующее правую часть (8) — оптимальное и оно не зависит от t. Обычно решить уравнение (8) бывает непросто.

Пусть мы ищем решение задачи.

Найти

Max∑ βt(xt, vt)1- ɣ (1)

xt+1=a(1-v1)xt, t=0,1....

VtÎ(0,1)

a>0, x0>0, βÎ (0,1), ɣÎ (0,1)

β a1- ɣ <1

Пусть мы ищем решение задачи. - student2.ru , уравнение (8) имеет вид

Пусть мы ищем решение задачи. - student2.ru (ii)

Задача напоминает задачу, в которой целевая функция была пропорциональна Пусть мы ищем решение задачи. - student2.ru . Предположим, что и в этой похожей задаче Пусть мы ищем решение задачи. - student2.ru при некоторой постоянной k.

Пусть мы ищем решение задачи. - student2.ru

Или, сокращая на Пусть мы ищем решение задачи. - student2.ru > 0:

Пусть мы ищем решение задачи. - student2.ru (iii)

Положим Пусть мы ищем решение задачи. - student2.ru .

Тогда Пусть мы ищем решение задачи. - student2.ru

или Пусть мы ищем решение задачи. - student2.ru

или Пусть мы ищем решение задачи. - student2.ru , где Пусть мы ищем решение задачи. - student2.ru

Пусть мы ищем решение задачи. - student2.ru

Пусть мы ищем решение задачи. - student2.ru (IV)

Так как ϕ’’(ϑ)<0, и так как ϑϵ(0;1).

Таким образом, в предположении, что

Пусть мы ищем решение задачи. - student2.ru

найдено максимизирующее управление (iv).

При этом из (iii)следует, что

Пусть мы ищем решение задачи. - student2.ru ,

Так как Пусть мы ищем решение задачи. - student2.ru , получаем

Пусть мы ищем решение задачи. - student2.ru

Или Пусть мы ищем решение задачи. - student2.ru

Откуда

Пусть мы ищем решение задачи. - student2.ru

Пусть мы ищем решение задачи. - student2.ru

Пусть мы ищем решение задачи. - student2.ru

Тогда (iv): Пусть мы ищем решение задачи. - student2.ru

В итоге получаем:

Пусть мы ищем решение задачи. - student2.ru

Пусть мы ищем решение задачи. - student2.ru

Пусть мы ищем решение задачи. - student2.ru

В этом примере, однако

Пусть мы ищем решение задачи. - student2.ru

И условия ограниченности не выполнены.

Поэтому следует слегка изменить задачу, положив Пусть мы ищем решение задачи. - student2.ru

Тогда Пусть мы ищем решение задачи. - student2.ru

В новой задаче целевая функция равна

Пусть мы ищем решение задачи. - student2.ru ~

Где Пусть мы ищем решение задачи. - student2.ru , откуда 0< β<1.

Легко видеть, что Пусть мы ищем решение задачи. - student2.ru удовлетворяет уравнению Беллмана для новой задачи (с тем же оптимальным значением Пусть мы ищем решение задачи. - student2.ru ).

Условие ограниченности выполнено, т.к.

Пусть мы ищем решение задачи. - student2.ru Пусть мы ищем решение задачи. - student2.ru

Таким образом Пусть мы ищем решение задачи. - student2.ru в (IV) оптимальное.

Пусть мы ищем решение задачи. - student2.ru , соответствующее xz удовлетворяет уравнению

xt+1 = a(1-ut) xt = a(1-u)xu=ar xt

При условии Пусть мы ищем решение задачи. - student2.ru решением является xt = x(ar )t

Значение функции

Пусть мы ищем решение задачи. - student2.ru

Пусть мы ищем решение задачи. - student2.ru

Пусть мы ищем решение задачи. - student2.ru

Пусть мы ищем решение задачи. - student2.ru

И мы проверим, что значение целевой функции есть в такой Пусть мы ищем решение задачи. - student2.ru в (V)

Важный вопрос, а существует ли искомые максимумы?

Если выполнены (2), ФУНКЦИИ f,g непрерывны и U компактна, то максимумы в (4) и(8) существует. Кроме этого, (8) имеет единственное решение, если использовать теорему о сжимающем отображении.

Принцип максимума

Мы рассматривали метод динамического программирования. Другой метод основан на принципе максимума. Этот метод удобен, когда есть ограничения на разовую пере6менную.

Рассмотрим задачу найти

Пусть мы ищем решение задачи. - student2.ru ,

Пусть мы ищем решение задачи. - student2.ru , t=0,…,T-1 (1)

Пусть мы ищем решение задачи. - student2.ru – задано, Пусть мы ищем решение задачи. - student2.ru – свободно

Пусть U представляет собой интервал

Определим функцию Понтрягина (Hamiltonian)

Пусть мы ищем решение задачи. - student2.ru (2)

Пусть мы ищем решение задачи. - student2.ru – сопряжения (присоединения) функции

Наши рекомендации