Файл: Востриков. Основы теории непрерывных и дискретных систем регулирования.pdf
ВУЗ: Новосибирский государственный технический университет
Категория: Учебное пособие
Дисциплина: Основы теории управления
Добавлен: 15.02.2019
Просмотров: 19922
Скачиваний: 135
Глава 13. ОПТИМАЛЬНЫЕ СИСТЕМЫ
436
траекторию перехода из точки x(t) в точку x(T) и организовать движе-
ние из начальной точки x(0) в конечную x(T) по новой оптимальной
траектории. Это невозможно, так как для системы существует лишь
одна оптимальная траектория перехода из одной точки в другую.
13.3.2. ОСНОВНЫЕ СООТНОШЕНИЯ МЕТОДА
ДИНАМИЧЕСКОГО ПРОГРАММИРОВАНИЯ
Будем рассматривать общий класс объектов управления, который
описывается уравнением (13.1)
( , ),
,
,
.
n
m
x
f x u
x
R
u
R
m
n
Полагаем, что переменные состояния
,
1,
i
i
x
x
i
n и ресурс управ-
ления
,
1,
j
j
u
U
j
m ограничены.
Необходимо определить управляющее воздействие, которое обес-
печивало бы переход из начального состояния x(t) в конечное x(T) за
время T (рис. 13.7) в соответствии с критерием оптимальности
0
min
,
u
T
u
t
J
f
x u d .
(13.12)
x(t)
x (t+ t)
x(T)
x
1
x
n
(
)
x t
t
( )
x t
n
x
( )
x T
1
x
n
x
Рис. 13.7. Иллюстрация оптимального перехода
из одной точки в другую
13.3. Метод динамического программирования
437
Выберем на оптимальной траектории перехода промежуточную
точку x(t+ t), расположенную достаточно близко к заданной началь-
ной точке. Согласно принципу оптимальности конечный участок есть
также оптимальная траектория, поэтому представим критерий опти-
мальности (13.12) в виде суммы двух критериев, соответствующих
двум участкам движения:
1
2
0
0
min
( , )
min
( , )
u
u
t
t
T
u
u
t
t
t
J
J
J
f
x u d
f
x u d
(13.13)
или после преобразований
0
0
min
( , )
( , )
u
t
t
T
u
t
t
t
J
f
x u d
f
x u d
.
(13.14)
Рассматривая второй интеграл выражения (13.14) как функцию нижне-
го предела, обозначим его
0
(
)
( , )
T
t
t
V x t
t
f
x u d .
(13.15)
С учетом (13.15) соотношение (13.14) представим в виде
0
min
( , )
(
)
u
t
t
u
t
J
f
x u d
V x t
t
.
(13.16)
Полагая промежуток времени t достаточно малым, сделаем в
(13.16) следующие упрощения:
1) интеграл приближенно заменим произведением
0
0
( , )
( , )
t
t
t
f
x u d
f
x u
t ;
(13.17)
2) функцию
(
)
V x t
t
разложим в ряд Тейлора в окрестности за-
данной начальной точки
Глава 13. ОПТИМАЛЬНЫЕ СИСТЕМЫ
438
(
)
( )
T
V
V x t
t
V x t
x
R
x
,
(13.18)
где R – остаточные члены ряда разложения, которыми можно пренеб-
речь.
Учитывая приближенные замены (13.17) и (13.18), преобразуем вы-
ражение (13.16):
0
min
( , )
( )
u
T
u
V
J
f
x u
t
V x t
x
x
.
(13.19)
Представим min
u
u
в равенстве (13.19) в виде суммы двух состав-
ляющих следующим образом:
0
min
( , )
min
( )
u
u
T
u
u
V
J
f
x u
t
x
V x t
x
.
(13.20)
Обсудим получившееся выражение. Согласно введенному обозначе-
нию (13.15) здесь
min
( )
u
u
V x t
J ,
(13.21)
поэтому вместо (13.20) получим
0
min
( , )
0
u
T
u
V
f
x u
t
x
x
.
(13.22)
Поделим обе части равенства (13.22) на t
0
min
( , )
u
T
u
V
x
f
x u
t
x
,
а затем устремим t 0 и получим следующее уравнение:
0
min
( , )
0
u
T
u
V
f
x u
x
x
.
(13.23)
13.3. Метод динамического программирования
439
Поскольку рассматривается оптимальная траектория движения для
объекта (13.1), подставим в (13.23) вместо x правую часть уравнения
объекта и получим основное уравнение метода динамического про-
граммирования в виде
0
min
( , )
( , )
0
u
T
u
V
f
x u
f x u
x
.
(13.24)
Таким образом, оптимальным будет управление, которое миними-
зирует выражение (13.24). Однако использовать его для вычисления
0
u нельзя, так как одно уравнение (13.24) содержит m + 1 неизвестную
величину (
0
m
u
R и
1
V
R ).
13.3.3. РАСЧЕТНЫЕ СООТНОШЕНИЯ
МЕТОДА ДИНАМИЧЕСКОГО ПРОГРАММИРОВАНИЯ
В случае оптимального управления
0
u
u соотношение (13.24)
принимает вид
0
0
0
,
,
0
T
V
f
x u
f x u
x
.
(13.25)
Продифференцируем (13.25) по u вдоль оптимальной траектории
0
0
0
( , )
( , )
0
T
u u
u u
f
x u
V
f x u
u
u
x
.
(13.26)
Добавив уравнения (13.26) к (13.25), получим систему из m+1 урав-
нения с m+1 неизвестным, решая которую можно найти оптимальное
управление.
Поскольку (13.25) и (13.26) представляют собой систему уравнений
в частных производных, для определения из нее оптимального управ-
ления, как правило, приходится использовать приближенные числен-
ные методы. В результате найденное управление получается не опти-
мальным, а близким к нему.
Задача отыскания точного оптимального управления методом ди-
намического программирования носит название задачи АКОР (анали-
Глава 13. ОПТИМАЛЬНЫЕ СИСТЕМЫ
440
тического конструирования оптимальных регуляторов). Эта задача
имеет решение при наличии следующих условий [1, 3, 17].
1. Объект управления описывается линейным уравнением состоя-
ния (13.3)
x
Ax
Bu
,
n
x
R ,
m
u
R ,
m
n .
2. Переход из начальной точки (0)
x
в конечную ( )
x T рассматрива-
ется на бесконечном интервале времени (
)
T
.
3. Критерий оптимальности имеет вид квадратичной формы (13.11)
0
min
u
T
T
u
J
x Px
u Qu d
.
Оптимальное управление, полученное методом динамического про-
граммирования, для такой постановки задачи будет иметь вид
0
u
Kx .
Таким образом, оптимальным для задачи АКОР будет пропорцио-
нальный закон управления.
ПРИМЕР 13.2
Объект, модель которого имеет вид
2
,
100,
20,
x
x u
u
x
необходимо перевести из начальной точки (0) 0
x
в конечную ( )
1
x T
.
Время процесса не ограничено, а критерий оптимальности следующий:
0
2
2
0
min
5
u
u
f
J
x
u
d
.
Запишем основное уравнение метода динамического программирова-
ния (13.25)
2
2
0
0
5
2
0
T
V
x
u
x u
x