Методы приближенного синтеза оптимального управления
Основной трудностью на пути применения достаточных условий оптимальности при решении задач синтеза является так называемое «проклятие размерности», заключающееся в необходимости запоминания на каждом шаге оптимизации функции будущих потерь, являющейся в общем случае функцией п переменных. Запоминание таких функций при больших п (начиная с п =3) требует огромного объема памяти и оказывается непосильной задачей даже для современных ЦВМ. В связи с этим приходится прибегать к различным приближенным методам, основанным либо на линеаризации (обычной и статистической), либо на аппроксимации функции будущих потерь. В последнем случае наличие ограничений, накладываемых на вектор управления и на вектор фазовых координат, может существенно облегчить решение задачи синтеза.
Метод линеаризации. Рассмотрим задачу синтеза оптимального управления системой
из условия обращения в минимум критерия
полагая сначала, что ограничения на вектор управления отсутствуют, а векторы образуют «белую» последовательность с корреляционными матрицами . Предположим, что возмущенное движение системы (5.30) может быть описано уравнениями в отклонениях
относительно некоторой программной траектории, определяемой уравнением
Здесь введены обозначения:
Разложим выражение (5.31) для критерия оптимальности в ряд Тейлора с точностью до членов второго порядка малости
Где
Так как зависит только от программной составляющей управления , то для выбора последовательности следует минимизировать . С этой целью обратимся к основному рекуррентному соотношению метода динамического программирования. Как и прежде, можно показать, что функция будущих потерь при некоторых предположениях может быть представлена в виде
Действительно, для момента i=N+1 соотношение (5.34) имеет место, причем
Предположим теперь, что (5.34) имеет место для (i+1)-го момента, т. е.
Тогда на основании рекуррентного соотношения (5.28) получим
где
Полагая, что матрица — положительно определенная, находим
Где
С учетом найденного управления выражение для функции принимает вид (5.34). При этом
Применяя рекуррентные соотношения (5.37) при граничных условиях (5.35), можно последовательно определить все коэффициенты обратной связи и систематические составляющие в законе (5.36). Значение функции будущих потерь в момент i = 0 определит минимальное значение .
Так как по условию , то получаем
До сих пор предполагалось, что программная траектория известна. Поэтому матрицы ΛN+1 и векторы считались также известными.
Нетрудно заметить, что величина , определяющая минимальное значение составляющей ΔJ и зависящая от указанных матриц, оказывается в конечном счете зависящей от программной траектории. Стремясь в конечном счете к достижению минимума полного критерия , выбор программной траектории следует Теперь подчинить условию
Здесь под понимается последовательность управлений , определяющая программную траекторию.
Метод статистической линеаризации. Рассмотренный выше метод применим в случаях, когда на вектор управления не накладываются ограничения. Однако он может быть распространен и на случай ограниченного управляющего воздействия, если воспользоваться дополнительно методом статистической линеаризации.
Обратимся снова к задаче синтеза оптимального управления системой (5.30) из условия обращения в минимум критерия (5.31). Однако будем теперь считать, что на вектор управления накладываются ограничения . Для простоты считаем, что множество представляет собой m-мерный параллелепипед
где — заданное значение.
Как и раньше, через обозначим программное управление, удовлетворяющее теперь ограничениям, и соответствующую траекторию движения (без учета возмущения).
Уравнения в отклонениях и выражение для приращения критерия оптимальности имеет прежний вид. Однако задачу минимизации составляющей теперь не удается решить так просто, ибо необходимо учитывать ограничения , где множества определяются неравенствами
В силу этих ограничений закон оптимального управления теперь уже не будет линейным. Однако, производя статистическую линеаризацию зависимости в каждый момент времени, можно показать, что функция будущих потерь по-прежнему имеет вид (5.34):
Действительно, для момента i=N+1 соотношение это имеет место. Полагая далее, что оно справедливо и для (i+1)-гo момента, получаем
Где
Здесь
Тогда, осуществляя минимизацию по получим следующий закон управления:
где через обозначены компоненты вектора, определяемого согласно (5.36):
Здесь
По-прежнему предполагается положительная определенность матрицы .
Произведем статистическую линеаризацию зависимости (5.39), т. е. заменим ее следующей:
где — коэффициенты статистической линеаризации зависящие от математического ожидания и среднеквадратичного отклонения величины .
Введем в рассмотрение диагональные матрицы с элементами соответственно. Тогда соотношения (5.40) могут быть переписаны в виде
Где
Так как линейно по , то, как и прежде, получаем для выражение в виде (5.38), причем
Граничные условия для этих рекуррентных соотношений по-прежнему имеют вид (5.35). Чтобы воспользоваться этими соотношениями, необходимо знать математические ожидания и среднеквадратичные отклонения компонент вектора ,так как последние определяют матрицы . С этой целью обратимся к уравнениям для математического ожидания и корреляционной матрицы вектора . Эти уравнения могут быть представлены в следующем виде:
При этом
Так как система (5.41) имеет граничные условия на правом конце, а система (5.42) — на левом, то имеем краевую задачу. Ее решение может быть получено с помощью методов последовательных приближений. Один из простейших методов может состоять в следующем:
1. Задается начальное приближение матрицы .
2. Определяется алгоритм субоптимального управления (точнее, его параметры , ) согласно (5.39) — (5.41).
3. Производится уточнение матрицы на основе статистических характеристик (5.43), полученных в соответствии с (5.42) при найденном алгоритме управления.
В качестве начального приближения матриц можно рекомендовать единичные матрицы. Нетрудно заметить, что при этом начальное приближение будет соответствовать случаю неограниченного управления.
Для иллюстрации метода рассмотрим задачу одноимпульсной однопараметрической коррекции. Математическая модель в этом случае может быть записана в виде
Предположим, что . Критерий оптимальности имеет вид . Применение достаточных условий оптимальности в данном случае позволяет найти точное решение задачи. Алгоритм коррекции имеет следующий вид:
Функция будущих потерь равна
Величина критерия оптимальности при этом вычисляется по формуле
где через Ф, Ф' обозначены интеграл вероятностей и его производная [32].
Обратимся теперь к методу статистической линеаризации. Производя статистическую линеаризацию найденного алгоритма коррекции, получаем
Вычисляя величину критерия оптимальности при данном управлении, будем иметь
Сравнивая выражения для оценок , можно установить, что максимально возможная ошибка оценки достигается при и составляет ~6% от величины .
Таким образом, использование метода статистической линеаризации совместно с методом динамического программирования позволяет получить приближенное решение задачи синтеза.
Область применения предложенного метода не ограничивается рассмотренным случаем. Метод может быть применен и в более общих случаях, например, когда вектор-функция правых частей уравнений не является дифференцируемой функцией или когда линеаризованная обычным способом система не описывает точно возмущенное движение исходной системы. В этих случаях по-прежнему можно прийти к линеаризованной системе, однако путем ее статистической линеаризации.
Метод параметров. Сущность метода параметров состоит в отыскании наилучших в том или ином смысле значений параметров и разложении функции будущих потерь с помощью использования основного рекуррентного соотношения метода динамического программирования. Ниже рассматриваются две модификации метода параметров применительно к задаче синтеза оптимального управления системой
из условия минимума критерия
1. Аппроксимация функции потерь полиномами. Предположим, что функции fi, F являются непрерывно-дифференцируемыми, а управление неограниченным. Для простоты будем считать скаляром. Представим функцию будущих потерь в виде разложения
где —однородная форма степени j. Так,
причем
Подставляя оценку в основное рекуррентное соотношение метода динамического программирования, получаем
где
Для осуществления операции минимизации по управлению можно воспользоваться методом Ньютона, согласно которому
Предполагается, конечно, что метод сходится. С целью сокращения числа итераций начальное приближение целесообразно задавать исходя из физических соображений. Если это трудно сделать, можно положить .
Функция будущих потерь на q-й итерации тогда может быть представлена в виде
Приравнивая в левой и правой частях этого выражения коэффициенты при одинаковых степенях можно получить следующие рекуррентные соотношения для определения коэффициентов в однородных формах:
Нетрудно установить, что применение данного метода к задаче управления линейной системой с квадратичным критерием оптимальности позволяет за одну итерацию получить точное решение задачи. В случае нелинейных систем метод может быть использован для получения приближенного решения задачи.
Метод наиболее удобен в случае полиномиальных функций . Пусть, например, система описывается одномерным уравнением
а критерий оптимальности имеет вид
В этом случае
где элементы выражаются через коэффициенты и статистические характеристики возмущения. Полагая начальное приближение , согласно (5.45) получаем в первом приближении следующий закон управления:
Ограничимся этим приближением. Тогда для функции будущих потерь получим
Выражения для коэффициентов в разложении
при этом принимают вид
Ограничиваясь тем или иным числом членов в разложении, можно получить с различной степенью точности искомое решение задачи.
Специфика рассмотренного метода такова, что его применение целесообразно в случаях, когда управление является неограниченным, а ожидаемая траектория движения сравнительно близка к началу координат. Если эти условия не имеют места, более предпочтительным может оказаться другой подход.
2. Наилучшее приближение функции потерь. Представим функцию потерь в виде
где - заданные функции; — параметры, подлежащие определению. Для их определения потребуем, чтобы как можно ближе было к действительной функции в некоторой области . В качестве критерия близости рассмотрим интегральную квадратичную ошибку
Минимизируя это выражение по , получаем
Вообще говоря, полученным соотношением можно воспользоваться, если функция известна. Но для приближенного решения задачи вместо можно рассмотреть функцию , получаемую с помощью основного рекуррентного соотношения с учетом представления (5.46):
Итак, подставляя в выражение для , получаем следующее рекуррентное соотношение для определения вектора параметров:
Здесь введены обозначения
Граничные условия для вектора получаются из соотношения
Последний метод является достаточно гибким. Он допускает использование различных разложений (5.46) для различных моментов времени. Так как точность метода при выбранных функциях зависит от областей , на которых производится аппроксимация, то их следует подбирать, как можно уже, но так, чтобы они содержали все возможные реализации векторов . В связи с этим подбор областей целесообразно производить последовательными приближениями, чередуя процедуру определения структуры управления при заданных областях с процедурой уточнения самих областей путем определения статистических характеристик системы при найденном алгоритме.
Комбинированный метод оптимизации. Практически при решении сложной технической задачи, связанной с оптимизацией стохастической системы при различных ограничениях, трудно рассчитывать на успех, если заранее ориентироваться лишь на один из рассмотренных методов. Это объясняется тем, что каждый из методов,, обладая тем или иным преимуществом перед другими методами,, имеет и слабые стороны, с которыми на определенной стадии решения задачи приходится сталкиваться. В связи с этим, очевидно, наиболее целесообразным является применение различных комбинированных методов.
Рассмотрим один из таких методов на примере задачи оптимизации процесса управления системой
из условия обращения в минимум критерия
при наличии ограничений
Сущность метода сводится к следующему.
1. Учет терминальных ограничений произведем с помощью множителей Лагранжа, благодаря чему от исходной задачи перейдем: к вспомогательной задаче минимизации обобщенного критерия оптимальности:
решаемой теперь уже без учета терминальных ограничений, но с последующим выбором множителей так, чтобы для оптимального решения выполнялись условия
2. В искомом управлении, характеризуемом вектором и, выделим две составляющие — программную и синтезируемую . По отношению к этим составляющим применим поэтапную оптимизацию, согласно которой
где
через , обозначены множества допустимых векторов , соответственно. В общем случае зависит от .
На первом этапе определяется функция путем минимизации обобщенного критерия оптимальности по составляющей . На втором этапе находится составляющая путем минимизации критерия .
Компонентами синтезируемой составляющей могут являться либо компоненты вектора приращения относительно программной составляющей [34], либо просто отдельные компоненты вектора и, в отношении которых желательно получить решение задачи синтеза. Для определенности здесь будем считать, что
3. Для решения задачи первого этапа применим один из приближенных методов синтеза, изложенных выше. В частности, при совместном использовании метода динамического программирования и метода статистической линеаризации получим алгоритм субоптимального управления в виде (5.39). Соответствующее значение критерия оптимальности будет равно
где определяется согласно (5.32), а с0 — с помощью системы рекуррентных соотношений (5.41), (5.42).
4. Для решения задачи второго этапа в общем случае следует применять численные методы.
5. Решение задачи заканчивается поиском вектора множителей Лагранжа . Для раскрытия зависимостей представим в виде
где
Величины могут быть вычислены одновременно с минимизацией функции по , а одновременно с определением закона . При этом возможны два подхода.
Первый основан на использовании системы (5.42) для математического ожидания и корреляционной матрицы вектора при найденном управлении. В этом случае имеем
Второй подход базируется на использовании рекуррентного соотношения для функции
Нетрудно убедиться, что функция имеет вид
где удовлетворяют рекуррентным соотношениям
Полагая i=0 и учитывая , получаем
Возможны различные модификации изложенного метода. В частности, применение метода множителей Лагранжа может быть осуществлено не перед поэтапной оптимизацией, а на первом этапе ее при определении синтезируемой составляющей управления.
Применение метода поэтапной оптимизации проиллюстрируем на примере задачи оптимизации процесса управления системой
из условия обращения в минимум критерия
Пусть начальное состояние х0 считается известным. Для простоты ограничимся случаем скалярного управления. Обозначим через последовательность программных значений управляющего воздействия, через — соответствующую траекторию . Значение критерия при этом будет равно
Учитывая, что в данном случае , согласно (5.36) — (5.37) получим следующие расчетные формулы:
из которых видно, что конкретная программа управления влияет лишь на компенсационную составляющую через вектор и соответственно на величину критерия . Коэффициенты обратной связи оказываются инвариантными относительно программы управления.
Для определения оптимальной программы, управления зададим
начальное приближение , обеспечивающее
минимум критерию . Нетрудно установить, что для всех имеет место соотношение .
Вычислим составляющие градиента . Так как и
получим
Оказывается, что все производные при этом также обращаются в нуль. Действительно, из (5.50) с учетом следует, что
и
Поэтому для любого i
Таким образом, оптимальная программа управления в данной задаче минимизирует составляющую и может рассматриваться как результат применения оптимального закона управления к осредненному процессу.