Метод динамического программирования и оценки для задач оптимального управления

Метод динамического программирования используется для анализа и исследования оптимального управления динамическими системами на основе минимизации интегральных или суммарных функционалов качества замкнутых систем управления. Необходимое условие оптимальности в виде уравнения Р. Беллмана применяется для широкого класса задач анализа и оптимизации.

Словосочетание "динамическое программирование" впервые было использовано в 1940-х гг. Р. Беллманом для описания процесса нахождения решения задачи, где ответ на одну задачу может быть получен только после решения задачи, "предшествующей" ей. В 1953 г. он уточнил это определение до современного. Вклад Беллмана в динамическое программирование был увековечен в названии "уравнения Беллмана", центрального результата теории динамического программирования, который переформулирует оптимизационную задачу в рекурсивной форме.

Динамическое программирование обычно придерживается двух подходов к решению задач:

  • — нисходящее динамическое программирование: задача разбивается на подзадачи меньшего размера, они решаются и затем комбинируются для решения исходной задачи;
  • - восходящее динамическое программирование: все подзадачи, которые впоследствии понадобятся для решения исходной задачи, просчитываются заранее и затем используются для построения решения исходной задачи.

Постановки задач оптимального управления

Пусть заданы непрерывные и дискретные объекты или системы автоматического управления, определяемые совокупностью уравнений в непрерывном или дискретном времени:

где х, х, е Я", и, и, е Я'" определены на конечных интервалах времени. Функционалы качества процессов в непрерывных (слева) и дискретных (справа) системах управления имеют вид:

Требуется сформулировать необходимые условия оптимальности для вычисления оптимальных управлений в системах с обратной связью

обеспечивающие минимум интегрального (для непрерывной системы) или суммарного (для дискретной системы) функционала (2.7.2) и стабилизацию САУ.

Сформулированные задачи называются задачами оптимальной стабилизации. Для решения задачи будут использоваться необходимые условия оптимальности, следующие из метода динамического программирования Р. Беллмана.

Необходимые условия оптимальности динамического программирования как уравнения Р. Беллмана

Рассмотрим вывод функционального уравнения Беллмана как необходимого условия оптимальности для задачи оптимальной стабилизации. Пусть уравнение возмущенного движения объектов, обобщающее уравнение (2.7.1), для непрерывного времени имеет вид

а функционал качества определяется соответствующим выражением (2.7.2). Введем функцию Ляпунова — Беллмана аргументов £ и х(£) и рассмотрим ее значения для моментов + х):

Управление и должно доставлять минимум] для любого значения 5 > 0. Следовательно, уравнение (2.7.5) для любого значения 5 > 0 можно переписать с учетом определения функционала (2.7.6) в преобразованном виде:

Если У(.г(г), г) — гладкая функция, то существует предел

Учитывая это соотношение, а также независимость V от управления и, можно из функционального уравнения (2.7.7) получить преобразованное уравнение:

где со*() — значение, соответствующее теореме о среднем для интеграла в равенстве (2.7.7). После сокращения в (2.7.8) на 5 и перехода к пределу при 5 —> 0 получим необходимое условие оптимальности в виде уравнения Беллмана:

обеспечивающего минимум интегрального функционала в (2.7.2), для открытой области изменения и е Я". Если область определения ограничена, т.е. и е Д то уравнение (2.7.6) запишется в виде

Основную роль в уравнениях (2.7.9) и (2.7.10) играет функция У(лг(г), 0| которая является функцией Ляпунова, удовлетворяющей граничным условиям: У(.г(с/,), = = Ф(х(ф, ф при 1к < со; У(х(1к), ф = 0 для % = оо.

Уравнение Беллмана для дискретных систем, описываемых разностными уравнениями в (2.7.1), имеет вид

где ДУ, — приращение функции Ляпунова на траекториях дискретной системы.

Таким образом, уравнение Р. Беллмана определяет необходимые условия оптимальности для задач оптимальной стабилизации, которые требуют решения уравнений Риккати.

 
< Пред   СОДЕРЖАНИЕ     След >