Пусть мы ищем решение задачи.

Число: 2085

ОПТИМИЗАЦИЯ С ДИСКРЕТНЫМ ВРЕМЕНЕМ

Динамическое программирование

Система наблюдается в моментах времени Пусть мы ищем решение задачи. - student2.ru

Состояние системы характеризуется числом Пусть мы ищем решение задачи. - student2.ru . Известно значение _.Система меняет своё состояние под воздействием управлений , которые можно свободно выбирать из заданного множества Пусть мы ищем решение задачи. - student2.ru которое назовём областью управления.Управления влияют на состояния системы по правилу

Пусть мы ищем решение задачи. - student2.ru , (1)

где Пусть мы ищем решение задачи. - student2.ru – заданная функция.

Предположим, что выбраны величины Пусть мы ищем решение задачи. - student2.ru _.Тогда, начиная с ), далее получим ) и т.д.

Таким образом, каждому выбору управлений соответствует свой путь (или график).

Пусть имеется функция Пусть мы ищем решение задачи. - student2.ru такая, что польза от выбранного пути есть сумма:

Пусть мы ищем решение задачи. - student2.ru (*)

Эта сумма носит название целевой функции.

Иногда вместо Пусть мы ищем решение задачи. - student2.ru пишут .

Вместе с любой заданной последовательностью Пусть мы ищем решение задачи. - student2.ru находим последовательность и получаем соответствующие допустимые пары. При этом целевая функция принимает определенное значение.

Задача состоит в том, чтобы среди всех наборов допустимых пар Пусть мы ищем решение задачи. - student2.ru и найти оптимальный набор пар , , дающий наибольшее значение целевой функции.

Задача, в краткой формулировке, записывается так:

найти

Пусть мы ищем решение задачи. - student2.ru при условиях , задано, (2).

Рассмотрим пример реальной задачи, которая решается по изложенной выше схеме.

Пусть Пусть мы ищем решение задачи. - student2.ru средства в момент В каждый момент пусть часть, используемая для потребления, – часть для сбережения. Средства можно употребить в дело с уровнем прироста Пусть мы ищем решение задачи. - student2.ru . После изъятия количества средств , остаток средств идёт в дело. При этом, с учётом прироста, получаем .

Пусть польза от потребления Пусть мы ищем решение задачи. - student2.ru равна .

Пусть функция Пусть мы ищем решение задачи. - student2.ru возрастает и выпукла вверх по .

Вся полученная польза равна:

Пусть мы ищем решение задачи. - student2.ru

Итак, решается задача:

Найти Пусть мы ищем решение задачи. - student2.ru при условиях

Пусть мы ищем решение задачи. - student2.ru

Пусть мы ищем решение задачи. - student2.ru задано, , .

Свойства целевой функции.

Пусть при Пусть мы ищем решение задачи. - student2.ru система имеет значение x. Наилучшее, что можно сделать в оставшийся период – выбрать (следовательно, ) так, чтобы максимизировать Пусть мы ищем решение задачи. - student2.ru при .

Назовем оптимальной целевой функцией для этой задачи в момент s.

Пусть мы ищем решение задачи. - student2.ru (3)

где Пусть мы ищем решение задачи. - student2.ru , , , (4)

Управления, максимизирующие (3) при условиях (4), зависят от х. В частности, Пусть мы ищем решение задачи. - student2.ru зависит от х.

Пусть мы ищем решение задачи. - student2.ru Управления, зависящие от состояния системы назовем политиками.

Если мы напишем для каждого Пусть мы ищем решение задачи. - student2.ru политику, то мы тем самым решили задачу (2)

Рассмотрим важное свойство целевой функции. При Пусть мы ищем решение задачи. - student2.ru имеем

Пусть мы ищем решение задачи. - student2.ru .

Пусть при Пусть мы ищем решение задачи. - student2.ru система в состоянии . При выборе при получен выигрыш , при этом система окажется в состоянии

При этом наибольший полный выигрыш, который можно получить от Пусть мы ищем решение задачи. - student2.ru до , начиная с состояния , равен

Следовательно, наилучшим выбором для Пусть мы ищем решение задачи. - student2.ru будет то, которое максимизирует сумму

Теорема: Пусть Пусть мы ищем решение задачи. - student2.ru обозначает целевую функцию в момент

Пусть мы ищем решение задачи. - student2.ru

Пусть мы ищем решение задачи. - student2.ru , ,

для задачи найти:

(5)

при условиях Пусть мы ищем решение задачи. - student2.ru , – задано,

Тогда Пусть мы ищем решение задачи. - student2.ru удовлетворяет уравнениям

(6)

Пусть мы ищем решение задачи. - student2.ru

(7)

Замечание: Разумеется значения Пусть мы ищем решение задачи. - student2.ru выбираются среди решений разностного уравнения (1) при фиксированном и возможных выборах .

Обычно эта теорема используется так: ищем функцию (7).

Максимизируются значение U*_T (x). Следующий шаг – используя (6) найти J_T_-1(x) и соответствующую W*_T_-1(x). Действуя аналогично, находим все J_T (x), J_T_-1(x),….,J₀(x) и соответствующие U*_T(x), U*_T_-1(x),…,U*₀(x).

Это позволяет построить решение исходной задачи оптимизации.

Пример.

Рассмотрим задачу найти:

max Пусть мы ищем решение задачи. - student2.ru , при условиях , t=0, 1, 2, , .

Здесь T=3, f(t,x,u)=1+x-u² , g(t,x,u)=x+u.

Из (7) при T=3получаем, что J₃(x) представляет собой наибольшее значение функции Пусть мы ищем решение задачи. - student2.ru , .

Оно получается при u=0, т.е. J₃(x)=1+x, Пусть мы ищем решение задачи. - student2.ru .

При s=2 функция максимизируется, обозначим ее h₂(u)=1+x-u²+J₃(x+u)

Так как J₃(x)=1+x, J₃(x+u)=1+(x+u) и h₂(u)=1+x-u²+1+x+u=2+2x+u-u²; h₂’(u)=1-2u, h₂’(u)=0, u=1/2, h₂(u) выпукла вверх, то u, u₂*(x)=1/2, J₂(x)=h₂(u₂*(x))=2+2x+1/2-1/4=2x+9/4.

При s=1 мы максимизирует функцию h₁(u)=1+x-u²+2(x+u)+9/4=3x+2u-u²+13/4

h₁’(u)=2-2u; h₁’(u)=0, u=1.

Находим u₁*(x)=1 и J₁(x)=3x+2-1+13/4=3x+17/4.

При s=0 максимизируется функция

Пусть мы ищем решение задачи. - student2.ru .

Пусть мы ищем решение задачи. - student2.ru

Укажем оптимальные значения состояния системы:

Пусть мы ищем решение задачи. - student2.ru

Оптимальное значение целевой функции:

Пусть мы ищем решение задачи. - student2.ru

Пусть мы ищем решение задачи. - student2.ru .

В простых случаях, подобных рассмотренному, задача динамической оптимизации допускает решение с использованием обычных методов анализа.

Полагая в уравнении

Пусть мы ищем решение задачи. - student2.ru

последовательно получаем

Пусть мы ищем решение задачи. - student2.ru

Таким образом, максимизация целевой функции равна

Пусть мы ищем решение задачи. - student2.ru

Пусть мы ищем решение задачи. - student2.ru - матрица 2 дифференциала

По критерию Сильвестра второй дифференциал – отрицательно определенная форма следовательно получаем тоже максимум

Подобный подход возможен в любой задаче, но он слабо реализуем при больших T.

Рассмотрим еще одну задачу :

Найти

max Пусть мы ищем решение задачи. - student2.ru

при условии Пусть мы ищем решение задачи. - student2.ru

Поскольку Пусть мы ищем решение задачи. - student2.ru и
для t выполняется неравенство

Далее , Пусть мы ищем решение задачи. - student2.ru независимо от u , и поэтому и любое решение оптимальнее

Уравнение (1) при S=T-1 дает Пусть мы ищем решение задачи. - student2.ru

Первая производная по u функции Пусть мы ищем решение задачи. - student2.ru равна

Пусть мы ищем решение задачи. - student2.ru ,

1+ux=3/2, ux=1/2.

Пусть мы ищем решение задачи. - student2.ru

При этом Пусть мы ищем решение задачи. - student2.ru .

Итак, Пусть мы ищем решение задачи. - student2.ru ( )

Пусть мы ищем решение задачи. - student2.ru

Рассмотрим уравнение (6) при Пусть мы ищем решение задачи. - student2.ru

Пусть мы ищем решение задачи. - student2.ru

Снова получаем

Пусть мы ищем решение задачи. - student2.ru ,

при этом Пусть мы ищем решение задачи. - student2.ru

Очевидно, что далее, продолжая процесс, получим

Пусть мы ищем решение задачи. - student2.ru

Подстановка Пусть мы ищем решение задачи. - student2.ru в разностное уравнение дает =

При этом Пусть мы ищем решение задачи. - student2.ru .

Примечание

Теорема справедлива и в том случае, когда область управления не фиксирована, но зависит от Пусть мы ищем решение задачи. - student2.ru и , . Тогда максимизация в (2), (3), (5) выполняется при . В (6)(стр. 7),(7)(стр. 7) максимизациявыполняется при и , соответственно.

Часть множеств Пусть мы ищем решение задачи. - student2.ru задается набором неравенств .

Если Пусть мы ищем решение задачи. - student2.ru - пустое множество, то принимается соглашение, по которому максимум взят по этому множеству равен - .

Рассмотрим задачу, в которой

Пусть мы ищем решение задачи. - student2.ru = ( - ), > 0, - заданные положительные числа

β = Пусть мы ищем решение задачи. - student2.ru , r – уровень дисконтирования, 0 < < , γ (0, 1), A>0

Ищется

max ( Пусть мы ищем решение задачи. - student2.ru + ) (I)

В соответствии со сделанным замечанием, Пусть мы ищем решение задачи. - student2.ru = (0, x)

f(t, x, u) = Пусть мы ищем решение задачи. - student2.ru , t = 0, 1, … T-1

f(T, x, u) = Пусть мы ищем решение задачи. - student2.ru - эта функция от u не зависит, и ее максимум, равный совпадает с ней самой, = (II), и любое = (0, x) – оптимальное.

Из (6) получаем

Пусть мы ищем решение задачи. - student2.ru = + (x-u))] (III)

При s = T-1

Пусть мы ищем решение задачи. - student2.ru = + ] (IV),

так как

Пусть мы ищем решение задачи. - student2.ru (x-u)) =

Для Пусть мы ищем решение задачи. - student2.ru обозначим

g(u) = Пусть мы ищем решение задачи. - student2.ru +

Тогда g’(u) = (1-γ) Пусть мы ищем решение задачи. - student2.ru + (1-γ)(-1)

g’(u) =0 ó Пусть мы ищем решение задачи. - student2.ru = (-1)

Пусть мы ищем решение задачи. - student2.ru =

Пусть мы ищем решение задачи. - student2.ru = 1 + = (V)

u = Пусть мы ищем решение задачи. - student2.ru

так как g’(u) = (1-γ)(-γ) Пусть мы ищем решение задачи. - student2.ru + (1-γ)(-γ) , < 0,

поэтому Пусть мы ищем решение задачи. - student2.ru максимизирует g(u)

g ( Пусть мы ищем решение задачи. - student2.ru ) = + β A =

= Пусть мы ищем решение задачи. - student2.ru + = (1 + β A ( -1)) =

β A Пусть мы ищем решение задачи. - student2.ru =

= Пусть мы ищем решение задачи. - student2.ru (1 + -1) = (VI)

Тогда ввиду (IV), (VI) (в (VI) вычитаем max y(u), подставляем в (IV))

Пусть мы ищем решение задачи. - student2.ru (x) =

Отметим, что Пусть мы ищем решение задачи. - student2.ru имеет тот же вид, что и

Для s= T-2

Пусть мы ищем решение задачи. - student2.ru (x) =

По аналогии со сделанным выше находим, что максимум достигается при Пусть мы ищем решение задачи. - student2.ru = u = , где = 1+ и где (x) =

Продолжая аналогично, находим для любого t

Пусть мы ищем решение задачи. - student2.ru (x) = , где = A, а для при t<T имеем

Пусть мы ищем решение задачи. - student2.ru = 1+ = 1 +

Оптимальное управление:

Пусть мы ищем решение задачи. - student2.ru (x) = , t<T

Для нахождения оптимальных Пусть мы ищем решение задачи. - student2.ru подставляем эти значения в рекурсивное уравнение

Пусть мы ищем решение задачи. - student2.ru

Предположим что для всех t тогда

Пусть мы ищем решение задачи. - student2.ru

Пусть мы ищем решение задачи. - student2.ru линейное уравнение первого порядка с постоянным коэффициентом

Пусть мы ищем решение задачи. - student2.ru

Пусть мы ищем решение задачи. - student2.ru =

См раздел 14 страница 1 Пусть мы ищем решение задачи. - student2.ru

Пусть мы ищем решение задачи. - student2.ru

Уравнение Эйлера

Рассмотри задачу найти Пусть мы ищем решение задачи. - student2.ru (1) при заданном значении и свободно изменяющихся

С другой стороны часто можно переформулировать задачу динамического программирования в виде (1)

Если положить Пусть мы ищем решение задачи. - student2.ru получим задачу с U=R

Предположим что уравнение Пусть мы ищем решение задачи. - student2.ru при любом выборе и имеет единственное решение U

Пусть мы ищем решение задачи. - student2.ru

Определим f( Пусть мы ищем решение задачи. - student2.ru )=f(t, x_t, )= при

t<T и Пусть мы ищем решение задачи. - student2.ru .

Иными словами,

Пусть мы ищем решение задачи. - student2.ru

Пусть Пусть мы ищем решение задачи. - student2.ru , … , - оптимальное решение задачи (1). Для любого заданного t производная выражения (1) по равна 0. Положим , тогда , … , удовлетворяют уравнению Эйлера:

Пусть мы ищем решение задачи. - student2.ru (2)

номер переменной функции F, по которой взята производная

t=0,1,…,T

Это разностное уравнение второго порядка, подобное уравнению Эйлера из вариационного исчисления.

При t = T уравнение (2) переходит в Пусть мы ищем решение задачи. - student2.ru , из которого находим

Пусть мы ищем решение задачи. - student2.ru

Эта величина подставляется в (2) при t = T-1 и получаем Пусть мы ищем решение задачи. - student2.ru и т.д., так не получим , а задано

Рассмотрим задачу

найти

Пусть мы ищем решение задачи. - student2.ru ,

Положим, для t=0,1,2

Пусть мы ищем решение задачи. - student2.ru

Пусть мы ищем решение задачи. - student2.ru при t=0,1,2

Пусть мы ищем решение задачи. - student2.ru

Поэтому уравнение Эйлера при t=0,1 принимает вид

Пусть мы ищем решение задачи. - student2.ru

При t=2 уравнение Эйлера имеет вид

Пусть мы ищем решение задачи. - student2.ru ,

так как Пусть мы ищем решение задачи. - student2.ru

Построим

Пусть мы ищем решение задачи. - student2.ru ,

Пусть мы ищем решение задачи. - student2.ru .

Пусть мы ищем решение задачи. - student2.ru не участвует в построении уравнения Эйлера: .

При Пусть мы ищем решение задачи. - student2.ru

Пусть мы ищем решение задачи. - student2.ru и

Пусть мы ищем решение задачи. - student2.ru ,

Пусть мы ищем решение задачи. - student2.ru .

Подставим в Пусть мы ищем решение задачи. - student2.ru , учтем, что ,

Пусть мы ищем решение задачи. - student2.ru ,

Пусть мы ищем решение задачи. - student2.ru ;

Тогда Пусть мы ищем решение задачи. - student2.ru , .

Свести к задаче динамического программирования можно так:

Пусть мы ищем решение задачи. - student2.ru , ;

Пусть мы ищем решение задачи. - student2.ru ,

Пусть мы ищем решение задачи. - student2.ru .

Infinite Horizon

Неограниченный период.

Проблема ставится так:

найти Пусть мы ищем решение задачи. - student2.ru (1)

при условии, что Пусть мы ищем решение задачи. - student2.ru - заданное число,

Пусть мы ищем решение задачи. - student2.ru …

Пусть мы ищем решение задачи. - student2.ru .

Пусть мы ищем решение задачи. - student2.ru , – допустимая пара последовательностей, если - задано, , определяется уравнением . При этом , g не зависят от переменной t явно. Таким образом (1) называется автономным рядом.

f удовлетворяет условиям ограниченности Пусть мы ищем решение задачи. - student2.ru для всех x,u, u . Поэтому ряд в (1) сходится. Сравним с прогрессией.

Пусть π̅ = (u_s , u_s₊₁ , …) – последовательность управлений, гдеu_s₊_kϵU, k = 0, 1, … ;x_t₊₁ = g(x_t , u_t), t = s, s+1, … ; x_s = x.

Тогда польза, полученная за период t = s, s+1, … равна

Пусть мы ищем решение задачи. - student2.ru

Положим, что

Пусть мы ищем решение задачи. - student2.ru

и максимумы взяты по всем последовательностям π̅.

Таким образом, Пусть мы ищем решение задачи. - student2.ru – максимальный успех, который можно получить от t=s до +∞.

При условии, что в момент t=s система находится в состоянии x, Пусть мы ищем решение задачи. - student2.ru называется оптимальной целевой функцией для задачи (1).

Имеем Пусть мы ищем решение задачи. - student2.ru

Максимизируя Пусть мы ищем решение задачи. - student2.ru получаем одно и то же значение в обоих случаях, поскольку будущее (+∞) выглядит вполне одинаково в момент 0 и в момент s.

Из (5) следует: Пусть мы ищем решение задачи. - student2.ru

Положим, по определению Пусть мы ищем решение задачи. - student2.ru

Из (6) следует, что если мы знаем Пусть мы ищем решение задачи. - student2.ru , то мы знаем для всех s.

Теорема. Целевая функция Пусть мы ищем решение задачи. - student2.ru в (4) для задачи (1) удовлетворяет уравнению Беллмана.

J (x) = max [f(x,u)+ßJ(g(x,u))] (8)

uÎU

Грубое рассуждение напоминает рассуждения для конечного периода Т. Предположим, что мы при t=0 находимся в состоянии х. Выбрав управление u, получаем βо f(x,u)=f(x,u) и во время t=1 попадаем в x₁=g(x,u).

Выбор оптимальной последовательности управлений при t=1 и так далее даёт прибавку в последующий период J₁(g(x,u))=βJ(g(x,u)). Следовательно, наилучший выбор при t=0, тот что максимизирует сумму f(x,u) +βJ(g(x,u)), поэтому максимум этой суммы равен J(x)

(8) – функциональное уравнение, можно доказать, что при условиях ограниченности (2), и полагая, что максимум в правой части (8) существует, это уравнение имеет единственное решение которое автоматически является оптимальным уравнением u(x), максимизирующее правую часть (8) — оптимальное и оно не зависит от t. Обычно решить уравнение (8) бывает непросто.

Пусть мы ищем решение задачи.

Найти

∞

Max∑ β^t(x_t, v_t)^1-^ɣ(1)

x_t+1=a(1-v₁)x_t, t=0,1....

V_tÎ(0,1)

a>0, x₀>0, βÎ (0,1), ɣÎ (0,1)

β a^1-^ɣ <1

Пусть мы ищем решение задачи. - student2.ru , уравнение (8) имеет вид

Пусть мы ищем решение задачи. - student2.ru (ii)

Задача напоминает задачу, в которой целевая функция была пропорциональна Пусть мы ищем решение задачи. - student2.ru . Предположим, что и в этой похожей задаче при некоторой постоянной k.

Пусть мы ищем решение задачи. - student2.ru

Или, сокращая на Пусть мы ищем решение задачи. - student2.ru > 0:

Пусть мы ищем решение задачи. - student2.ru (iii)

Положим Пусть мы ищем решение задачи. - student2.ru .

Тогда Пусть мы ищем решение задачи. - student2.ru

или Пусть мы ищем решение задачи. - student2.ru

или Пусть мы ищем решение задачи. - student2.ru , где

Пусть мы ищем решение задачи. - student2.ru

Пусть мы ищем решение задачи. - student2.ru (IV)

Так как ϕ’’(ϑ)<0, и так как ϑϵ(0;1).

Таким образом, в предположении, что

Пусть мы ищем решение задачи. - student2.ru

найдено максимизирующее управление (iv).

При этом из (iii)следует, что

Пусть мы ищем решение задачи. - student2.ru ,

Так как Пусть мы ищем решение задачи. - student2.ru , получаем

Пусть мы ищем решение задачи. - student2.ru

Или Пусть мы ищем решение задачи. - student2.ru

Откуда

Пусть мы ищем решение задачи. - student2.ru

Тогда (iv): Пусть мы ищем решение задачи. - student2.ru

В итоге получаем:

Пусть мы ищем решение задачи. - student2.ru

В этом примере, однако

Пусть мы ищем решение задачи. - student2.ru

И условия ограниченности не выполнены.

Поэтому следует слегка изменить задачу, положив Пусть мы ищем решение задачи. - student2.ru

Тогда Пусть мы ищем решение задачи. - student2.ru

В новой задаче целевая функция равна

Пусть мы ищем решение задачи. - student2.ru ^~

Где Пусть мы ищем решение задачи. - student2.ru , откуда 0< β<1.

Легко видеть, что Пусть мы ищем решение задачи. - student2.ru удовлетворяет уравнению Беллмана для новой задачи (с тем же оптимальным значением ).

Условие ограниченности выполнено, т.к.

Пусть мы ищем решение задачи. - student2.ru

Таким образом Пусть мы ищем решение задачи. - student2.ru в (IV) оптимальное.

Пусть мы ищем решение задачи. - student2.ru , соответствующее x_z удовлетворяет уравнению

x_t₊₁= a(1-u_t) x_t = a(1-u)x_u=ar x_t

При условии Пусть мы ищем решение задачи. - student2.ru решением является x_t₌ x(ar )^t

Значение функции

Пусть мы ищем решение задачи. - student2.ru

И мы проверим, что значение целевой функции есть в такой Пусть мы ищем решение задачи. - student2.ru в (V)

Важный вопрос, а существует ли искомые максимумы?

Если выполнены (2), ФУНКЦИИ f,g непрерывны и U компактна, то максимумы в (4) и(8) существует. Кроме этого, (8) имеет единственное решение, если использовать теорему о сжимающем отображении.

Принцип максимума

Мы рассматривали метод динамического программирования. Другой метод основан на принципе максимума. Этот метод удобен, когда есть ограничения на разовую пере6менную.

Рассмотрим задачу найти

Пусть мы ищем решение задачи. - student2.ru ,