Численное решение задачи оптимального управления на основе динамического программирования

Рассмотрим применение областей достижимости для численного решения методом динамического программирования следующей задачи оптимального управления.

Первый этап продольного возмущенного движения летательного аппарата, когда изменением величины и направления скорости можно пренебречь, определяется системой дифференциальных уравнений

где аг < 0, а2 < 0. При начальных условиях

требуется обеспечить к заданному моменту времени Т минимум критерия 7 = к1[0(Т)-03]2+ /с2[(п2(Т)-ш3]2, где О3, со3 — заданные числа. Угол закладки руля ограничен:

Правый конец траектории свободен.

Для решения задачи прежде всего построим область достижимости (ОД) для управляемой системы (25.1), (25.2), (25.3) к моменту времени Т. При расчете ОД учтем, что для линейной системы (25.1) с ограничением (25.3) эта область является выпуклой.

Найдем фундаментальную матрицу решений для системы (25.1).

С этой целью прежде всего найдем общее решение, положив 8В = 0.

Систему (25.1) запишем в векторном виде:

где

Характеристическое уравнение (25.4) имеет вид

Корни этого уравнения при условии, что а^ + 4а2<0, являются комплексными и сопряженными: + ;Ь, л2 - ;Ь, где а = аг/2, Ь = ^|а^ +4а2| /2. Решение, соответствующее корню

= у1е(а+-/Ь)г; О - у2е(-а+^. Числа у3 и у2 найдем из решения системы:

Положим у2 = 1 и из первого уравнения системы (25.5) найдем

где с = -—3 = —, тогда искомое решение будет таким: (о2 = е(а+-'/)?; а2 а2

Это решение комплексное. Отделяя в нем вещественные и мнимые части, получим два вещественных решения:

Тогда общее решение системы (25.4) :

В дальнейшем для решения (25.4) используем формулу Коши. С этой целью найдем элементы фундаментальной матрицы Х(1, т) размерности 2x2.

Для получения элементов первого столбца найдем из (25.6) коэффициенты сг и с2 при условии, что в момент времени т со2(т) = 1, 0(т) = 0. Обозначив коэффициенты как

запишем их в виде

При т = 0 получим с = 1, с21 = -с/д. Подставляя эти значения в (25.6) при т = 0, убеждаемся в том, что

Теперь найдем коэффициенты сх и с2 из условия, что при сог(т) — = 0, О(т) = 1. Обозначив с1 и с2 как

запишем их в виде

При т = 0 получим с12 = 0, с22 = 1/(1. Подставляя эти значения в (25.6) при т = 0, убеждаемся в том, что ш2 =0, О = | |Э = 1. Тогда фундаментальная матрица системы (25.4) примет вид

С помощью фундаментальной матрицы решение системы (25.4) записывается как

Учитывая, что начальные условия равны нулю, из (25.7) получим г

х(г) = |Х(Г,т)В5в(т)Эт, откуда с учетом вида матрицы В находим о

Для расчета ОД в плоскости O[0][w2] введем единичный вектор I - [sin cos^]T и найдем максимальное смещение в направлении вектора I к моменту времени t, т. е. найдем максимум функционала

Функционал (25.8) можно записать в виде

где F(?,, t, т) = а3г2 (t, т) sin 2, + x21 (t, т) cos ?].

Из (25.9) следует, что оптимальное управление, обеспечивающее максимальное смещение в направлении вектора I, определяется алгоритмом:

Изменяя угол от 0 до 2л и решая задачу о максимуме функционала (25.9), получим точки границы ОД для различных моментов времени t. На рис. 25.1 построены ОД для системы (25.1), параметры которой имели следующие числовые значения: аг = -1, а2 = -1, аз = 1, 8ВМ = 1.

Для сокращения объема вычислений при выполнении последующих операций ОД аппроксимировалась многоугольником, вершинами которого являются вычисленные точки ее границы. Число точек на границе ОД не превышало 72, так как угол наклона единичного вектора I изменялся с шагом AS, = 2л /72.

Для определения оптимальной траектории, обеспечивающей попадание в точку {И3, со3} в момент времени Т, выполняются следующие операции.

  • 1. Строится ОД для момента времени Т и проверяется выполнение условия {03, w3} g G(T). Если это условие не выполняется, то задача не имеет оптимального решения. Если условие выполняется, то переходят к п. 2.
  • 2. Строится ОД для момента времени Т - At, т. е. G(T - At~).
  • 3. Решается уравнение

где х(Т) = [а)3, й3]г, при условии, что

а управление 8В(Т - ДО удовлетворяет ограничению (25.3).

При моделировании уравнение (25.10) с условиями (25.11) и (25.3) решалось следующим образом.

Система дифференциальных уравнений (25.1) записывалась в обратном направлении времени:

где т = Т - с. При т = 0 задавались условия:

Задавалось постоянное управление 8В=8В, и система (25.12) с граничными условиями (25.13) и управлением 8В интегрировалась численно на интервале времени [т = 0, т — Д1].

Если выполняется условие (25.11), то управление 8В, удовлетворяющее (25.3), принимается в качестве оптимального для последнего участка оптимальной траектории. Если условие (25.11) не выполняется, то выбирается новое значение управления 8В, удовлетворяющее (25.3), и т. д. Управление 8В дискретно изменяется от 8В - 1 до 8В = -1 с шагом Д8В.

4. Из позиции {ш2 (т = ДО, д(т = ДО } е С(Т - ДО решается уравнение

где

при условии {а)2(Т-2Д0,^(Т-2Д0,8в(Т-2Д0}еС(Т-2Д0 и т. д. до тех пор, пока оптимальная траектория не попадет в допустимую окрестность начала системы координат ООа)2-

На рис. 25.1 построена оптимальная траектория, обеспечивающая попадание к моменту времени Г = 2 с в точку с координатами {О3 — 0,3; со3 = 0,65}, а на рис. 25.2 — оптимальная программа управления. Шаг дискретизации принимался равным Дг = 0,1 с, а шаг дискретизации управления был равен Д8В = -0,2, при этом управление изменялось от 8В =1 до 8В = -1. В качестве оптимального управления из позиции {С, (1)2(1), О(т)} на каждом шаге дискретизации использовалось последнее значение 8В, при котором точка из ОД, построенной для момента времени ?, попадает в ОД, построенную для предшествующего момента времени (г - Дг).

Рис. 25.1

Рис. 25.2

 
Посмотреть оригинал
< Пред   СОДЕРЖАНИЕ   ОРИГИНАЛ     След >