Принцип оптимальности Беллмана. Подчеркнем, что смысл подхода, реализуемого в динамическом программировании, заключен в замене решения исходной многомерной задачи последовательностью задач

Подчеркнем, что смысл подхода, реализуемого в динамическом программировании, заключен в замене решения исходной многомерной задачи последовательностью задач меньшей размерности.

Перечислим основные требования к задачам, выполнение которых позволяет применить данный подход:

1. объектом исследования должна служить управляемая система (объект) с заданными допустимыми состояниями и допустимыми управлениями;

2. задача должна позволять интерпретацию как многошаговый процесс, каждый шаг которого состоит из принятия решения о выборе одного из допустимых управлений, приводящих к изменению состояния системы;

3. задача не должна зависеть от количества шагов и быть определенной на каждом из них;

4. состояние системы на каждом шаге должно описываться одинаковым (по составу) набором параметров;

5. последующее состояние, в котором оказывается система после выбора решения на k-м шаге, зависит только от данного решения и исходного состояния к началу k-гошага. Данное свойство является основным с точки зрения идеологии динамического программирования и называется отсутствием последействия.

Рассмотрим вопросы применения модели динамического программирования в обобщенном виде.

Пусть решается задача управления некоторым абстрактным объектом, который может пребывать в различных состояниях. Текущее состояние объекта отождествляется с некоторым набором параметров, обозначаемым в дальнейшем Принцип оптимальности Беллмана. Подчеркнем, что смысл подхода, реализуемого в динамическом программировании, заключен в замене решения исходной многомерной задачи последовательностью задач - student2.ru и именуемый вектором состояния. Предполагается, что задано множество Принцип оптимальности Беллмана. Подчеркнем, что смысл подхода, реализуемого в динамическом программировании, заключен в замене решения исходной многомерной задачи последовательностью задач - student2.ru всех возможных состояний. Для объекта определено также множество допустимых управлений (управляющих воздействий) X, которое, не умаляя общности, можно считать числовым множеством. Управляющие воздействия могут осуществляться в дискретные моменты времени Принцип оптимальности Беллмана. Подчеркнем, что смысл подхода, реализуемого в динамическом программировании, заключен в замене решения исходной многомерной задачи последовательностью задач - student2.ru , причем управленческое решение заключается в выборе одного из управлений Принцип оптимальности Беллмана. Подчеркнем, что смысл подхода, реализуемого в динамическом программировании, заключен в замене решения исходной многомерной задачи последовательностью задач - student2.ru . Планом задачи или стратегией управления называется вектор Принцип оптимальности Беллмана. Подчеркнем, что смысл подхода, реализуемого в динамическом программировании, заключен в замене решения исходной многомерной задачи последовательностью задач - student2.ru компонентами которого служат управления, выбранные на каждом шаге процесса. Ввиду предполагаемого отсутствия последействия между каждыми двумя последовательными состояниями объекта Принцип оптимальности Беллмана. Подчеркнем, что смысл подхода, реализуемого в динамическом программировании, заключен в замене решения исходной многомерной задачи последовательностью задач - student2.ru и Принцип оптимальности Беллмана. Подчеркнем, что смысл подхода, реализуемого в динамическом программировании, заключен в замене решения исходной многомерной задачи последовательностью задач - student2.ru существует известная функциональная зависимость, включающая также выбранное управление: Принцип оптимальности Беллмана. Подчеркнем, что смысл подхода, реализуемого в динамическом программировании, заключен в замене решения исходной многомерной задачи последовательностью задач - student2.ru , Принцип оптимальности Беллмана. Подчеркнем, что смысл подхода, реализуемого в динамическом программировании, заключен в замене решения исходной многомерной задачи последовательностью задач - student2.ru . Тем самым задание начального состояния объекта Принцип оптимальности Беллмана. Подчеркнем, что смысл подхода, реализуемого в динамическом программировании, заключен в замене решения исходной многомерной задачи последовательностью задач - student2.ru и выбор плана х однозначно определяют траекторию поведения объекта, как это показано на Рис. 5.1.

Эффективность управления на каждом шаге k зависит от текущего состояния Принцип оптимальности Беллмана. Подчеркнем, что смысл подхода, реализуемого в динамическом программировании, заключен в замене решения исходной многомерной задачи последовательностью задач - student2.ru , выбранного управления Принцип оптимальности Беллмана. Подчеркнем, что смысл подхода, реализуемого в динамическом программировании, заключен в замене решения исходной многомерной задачи последовательностью задач - student2.ru и количественно оценивается с помощью функций Принцип оптимальности Беллмана. Подчеркнем, что смысл подхода, реализуемого в динамическом программировании, заключен в замене решения исходной многомерной задачи последовательностью задач - student2.ru , являющихся слагаемыми аддитивной целевой функции, характеризующей общую эффективность управления объектом. (Отметим, что в определение функции Принцип оптимальности Беллмана. Подчеркнем, что смысл подхода, реализуемого в динамическом программировании, заключен в замене решения исходной многомерной задачи последовательностью задач - student2.ru включается область допустимых значений Принцип оптимальности Беллмана. Подчеркнем, что смысл подхода, реализуемого в динамическом программировании, заключен в замене решения исходной многомерной задачи последовательностью задач - student2.ru , и эта область, как правило, зависит от текущего состояния Принцип оптимальности Беллмана. Подчеркнем, что смысл подхода, реализуемого в динамическом программировании, заключен в замене решения исходной многомерной задачи последовательностью задач - student2.ru ) Оптимальное управление, при заданном начальном состоянии Принцип оптимальности Беллмана. Подчеркнем, что смысл подхода, реализуемого в динамическом программировании, заключен в замене решения исходной многомерной задачи последовательностью задач - student2.ru сводится к выбору такого оптимального плана Принцип оптимальности Беллмана. Подчеркнем, что смысл подхода, реализуемого в динамическом программировании, заключен в замене решения исходной многомерной задачи последовательностью задач - student2.ru ,при котором достигается максимум суммы значений Принцип оптимальности Беллмана. Подчеркнем, что смысл подхода, реализуемого в динамическом программировании, заключен в замене решения исходной многомерной задачи последовательностью задач - student2.ru на соответствующей траектории.

Основной принцип динамического программирования заключается в том, что на каждом шаге следует стремиться не к изолированной оптимизации функции Принцип оптимальности Беллмана. Подчеркнем, что смысл подхода, реализуемого в динамическом программировании, заключен в замене решения исходной многомерной задачи последовательностью задач - student2.ru , а выбирать оптимальное управление Принцип оптимальности Беллмана. Подчеркнем, что смысл подхода, реализуемого в динамическом программировании, заключен в замене решения исходной многомерной задачи последовательностью задач - student2.ru в предположении об оптимальности всех последующих шагов. Формально указанный принцип реализуется путем отыскания на каждом шаге k условных оптимальных управлений Принцип оптимальности Беллмана. Подчеркнем, что смысл подхода, реализуемого в динамическом программировании, заключен в замене решения исходной многомерной задачи последовательностью задач - student2.ru , Принцип оптимальности Беллмана. Подчеркнем, что смысл подхода, реализуемого в динамическом программировании, заключен в замене решения исходной многомерной задачи последовательностью задач - student2.ru , обеспечивающих наибольшую суммарную эффективность начиная с этого шага, в предположении, что текущим является состояние Принцип оптимальности Беллмана. Подчеркнем, что смысл подхода, реализуемого в динамическом программировании, заключен в замене решения исходной многомерной задачи последовательностью задач - student2.ru .

Принцип оптимальности Беллмана. Подчеркнем, что смысл подхода, реализуемого в динамическом программировании, заключен в замене решения исходной многомерной задачи последовательностью задач - student2.ru

Рис. 5.1

Обозначим Принцип оптимальности Беллмана. Подчеркнем, что смысл подхода, реализуемого в динамическом программировании, заключен в замене решения исходной многомерной задачи последовательностью задач - student2.ru максимальное значение суммы функций Принцип оптимальности Беллмана. Подчеркнем, что смысл подхода, реализуемого в динамическом программировании, заключен в замене решения исходной многомерной задачи последовательностью задач - student2.ru на протяжении шагов от k до п (получаемое при оптимальном управлении на данном отрезке процесса), при условии, что объект в начале шага k находится в состоянии Принцип оптимальности Беллмана. Подчеркнем, что смысл подхода, реализуемого в динамическом программировании, заключен в замене решения исходной многомерной задачи последовательностью задач - student2.ru . Тогда функции Принцип оптимальности Беллмана. Подчеркнем, что смысл подхода, реализуемого в динамическом программировании, заключен в замене решения исходной многомерной задачи последовательностью задач - student2.ru должны удовлетворять рекуррентному соотношению:

где Принцип оптимальности Беллмана. Подчеркнем, что смысл подхода, реализуемого в динамическом программировании, заключен в замене решения исходной многомерной задачи последовательностью задач - student2.ru .

Соотношение (14) называют основным рекуррентным соотношением динамического программирования. Оно реализует базовый принцип динамического программирования, известный также как принцип оптимальности Беллмана:

Оптимальная стратегия управления должна удовлетворять следующему условию: каково бы ни было начальное состояние Принцип оптимальности Беллмана. Подчеркнем, что смысл подхода, реализуемого в динамическом программировании, заключен в замене решения исходной многомерной задачи последовательностью задач - student2.ru на k-м шаге и выбранное на этом шаге управление Принцип оптимальности Беллмана. Подчеркнем, что смысл подхода, реализуемого в динамическом программировании, заключен в замене решения исходной многомерной задачи последовательностью задач - student2.ru , последующие управления (управленческие решения) должны быть оптимальными по отношению к состоянию Принцип оптимальности Беллмана. Подчеркнем, что смысл подхода, реализуемого в динамическом программировании, заключен в замене решения исходной многомерной задачи последовательностью задач - student2.ru , получающемуся в результате решения, принятого на шаге k.

Основное соотношение (14) позволяет найти функции Принцип оптимальности Беллмана. Подчеркнем, что смысл подхода, реализуемого в динамическом программировании, заключен в замене решения исходной многомерной задачи последовательностью задач - student2.ru только в сочетании с начальным условием, каковым в нашем случае является равенство

Сравнение рекуррентной формулы (14) с аналогичными соотношениями в рассмотренных выше примерах указывает на их внешнее различие. Это различие обусловлено тем, что в задаче распределения ресурсов фиксированным является конечное состояние управляемого процесса. Поэтому принцип Беллмана применяется не к последующим, а к начальным этапам управления, и начальное соотношение имеет вид

Важно еще раз подчеркнуть, что сформулированный выше принцип оптимальности применим только для управления объектами, у которых выбор оптимального управления не зависит от предыстории управляемого процесса, т. е. от того, каким путем система пришла в текущее состояние. Именно это обстоятельство позволяет осуществить декомпозицию задачи и сделать возможным ее практическое решение.

В то же время, говоря о динамическом программировании как о методе решения оптимизационных задач, необходимо отметить и его слабые стороны. Так, в предложенной схеме решения задачи (3)-(4) существенным образом используется тот факт, что система ограничений содержит только одно неравенство, и, как следствие, ее состояние задается одним числом - нераспределенным ресурсом Принцип оптимальности Беллмана. Подчеркнем, что смысл подхода, реализуемого в динамическом программировании, заключен в замене решения исходной многомерной задачи последовательностью задач - student2.ru . При наличии нескольких ограничений состояние управляемого объекта на каждом шаге характеризуется уже набором параметров Принцип оптимальности Беллмана. Подчеркнем, что смысл подхода, реализуемого в динамическом программировании, заключен в замене решения исходной многомерной задачи последовательностью задач - student2.ru , и табулировать значения функций Принцип оптимальности Беллмана. Подчеркнем, что смысл подхода, реализуемого в динамическом программировании, заключен в замене решения исходной многомерной задачи последовательностью задач - student2.ru необходимо для многократно большего количества точек. Последнее обстоятельство делает применение метода динамического программирования явно нерациональным или даже просто невозможным.

Наши рекомендации

Принцип оптимальности Беллмана.

Принцип оптимальности и уравнения Беллмана

Выше было показано, что для получения решения исходной задачи можно перейти к двойственной и, решив ее, определить оптимальное решение исходной.

Принцип оптимальности беллмана

Характерные особенности многошаговых процессов принятия решений. Принцип оптимальности Беллмана.

Метод динамического программирования Р. Беллмана. Принцип оптимальности

Метод динамического программирования. Принцип оптимальности Беллмана

Принцип оптимальности Беллмана

← Предыдущая страница | Следующая страница →