Оптимальное управление линейной дискретной системой при аддитивных возмущениях и квадратичном критерии оптимальности
Рассмотрим задачу синтеза оптимального управления при коррекции движения ЛА. Процесс коррекции опишем линейным дискретным стохастическим уравнением с аддитивным возмущением
В отличие от случая управления при полной информации будем считать, что измерению доступен не сам вектор состояния , а некоторый вектор , связанный с соотношением
где через обозначена случайная ошибка i-го измерения. В качестве критерия оптимальности по-прежнему принимаем критерий
где — заданные матрицы.
Будем считать, что , — независимые гауссовские случайные векторы с характеристиками
Определим сначала достаточные координаты в данной задаче. В главе 3 показано, что апостериорная плотность вероятностей вектора по измерениям имеет вид
Там же показано, что вектор и матрица определяемые в соответствии с (3.42), (3.43), являются соответственно апостериорным математическим ожиданием и апостериорной корреляционной матрицей вектора при заданных измерениях. Вектор дает оптимальную в смысле байесовского риска оценку вектора по всем прошлым и настоящим измерениям, матрица характеризует апостериорные среднеквадратичные отклонения ошибок этой оценки.
Из соотношений (3.42), (3.43) следует, что корреляционная матрица не зависит от конкретных измерений и управлений. Она полностью определяется свойствами системы и канала наблюдения (через матрицы , ), а также статистическими характеристиками возмущений и ошибок измерений и может быть определена заранее. Имея это в виду, можно считать, что плотность вероятностей в любой момент i полностью определяется вектором и может быть представлена в виде . С другой стороны, знание согласно (3.42), (3.43) достаточно и для определения собственной будущей эволюции. Иными словами, вектор является вектором достаточных координат в данной задаче.
Теперь можно перейти к определению алгоритма оптимального управления. С этой целью преобразуем соотношение для вектора . Представим соотношение (3.43) в следующем виде:
и подставим его в уравнение для . Учитывая также (3.42), получим
где
Последнее соотношение может быть приведено также к виду
где .
Это соотношение позволяет определить статистические свойства вектора gj-i. В частности, нетрудно установить, что
Итак, эволюция вектора достаточных координат может быть описана уравнением
причем
Воспользуемся рекуррентным соотношением (5.7). Применительно к данной задаче оно принимает вид
Это соотношение с точностью до обозначений совпадает с аналогичным соотношением для случая управления линейной системой при полной информации. Поэтому совершенно аналогично можно получить следующее выражение для функции будущих потерь:
где
и для закона оптимального управления
Граничное условие для рекуррентных соотношений (6.13) получим, рассмотрев последний шаг управления. Так как
то, принимая во внимание связь
где
из основного рекуррентного соотношения находим
причем здесь
Сравнивая полученные соотношения с соотношениями (6.13), заключаем, что последние могут быть представлены более компактно в виде
Ранее в гл. 5 было показано, что при аддитивных возмущениях алгоритм оптимального (в смысле квадратичного критерия) управления при полной информации о линейной системе совпадает с алгоритмом оптимального управления соответствующей детерминированной системой. Полученное теперь решение формально также совпадает с детерминированным. Разница заключается лишь в том, что в алгоритме управления (6.14) вместо вектора фазовых координат выступает вектор достаточных координат (вектор оптимальной оценки), определяемый в свою очередь с помощью фильтра Калмана.
Таким образом, в линейных системах с квадратичным критерием оптимальности при аддитивных гауссовских возмущениях оптимальный стохастический регулятор представляет собой последовательное соединение фильтра Калмана для получения вектора достаточных координат (оптимальной оценки) и устройства оптимального детерминированного управления. Сформулированный результат, известный в литературе также под названием теоремы разделения, находит широкое применение при получении приближенного решения нелинейных задач, когда задачу синтеза оптимального управления при неполной информации разбивают на две — задачу определения оптимальных оценок вектора фазовых координат и задачу определения оптимального управления по полным данным, решаемые независимо друг от друга (по аналогии с линейным случаем). Основанием для этого служит тот факт, что при формировании блока оптимальной оценки добиваются хорошей сходимости оценки к истинному вектору фазовых координат.