Файл: Востриков. Основы теории непрерывных и дискретных систем регулирования.pdf

Добавлен: 15.02.2019

Просмотров: 18746

Скачиваний: 127

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.
background image

Глава 13. ОПТИМАЛЬНЫЕ СИСТЕМЫ 

436 

траекторию перехода из точки x(t) в точку x(T) и организовать движе-

ние  из  начальной  точки  x(0)  в  конечную  x(T)  по  новой  оптимальной 

траектории.  Это  невозможно,  так  как  для  системы  существует  лишь 

одна оптимальная траектория перехода из одной точки в другую. 

13.3.2. ОСНОВНЫЕ СООТНОШЕНИЯ МЕТОДА 

ДИНАМИЧЕСКОГО ПРОГРАММИРОВАНИЯ 

Будем  рассматривать  общий  класс  объектов  управления,  который 

описывается уравнением (13.1) 

 

( , ),

,

,

.

n

m

x

f x u

x

R

u

R

m

n

 

Полагаем, что переменные состояния 

,

1,

i

i

x

x

i

 и ресурс управ-

ления 

,

1,

j

j

u

U

j

 ограничены. 

Необходимо  определить  управляющее  воздействие,  которое  обес-

печивало  бы  переход  из  начального  состояния  x(t)  в  конечное  x(T)  за 

время T (рис. 13.7) в соответствии с критерием оптимальности 

 

0

min

,

u

T

u

t

J

f

x u d 

 (13.12) 

 

x(t)

x (t+ t)

x(T)

x

1

x

n

 

 

(

)

x t

t

 

( )

x t

 

n

x

 

( )

x T

 

1

x

 

n

x

 

 

Рис. 13.7. Иллюстрация оптимального перехода  

из одной точки в другую 

 


background image

13.3. Метод  динамического  программирования 

437 

Выберем  на  оптимальной  траектории  перехода  промежуточную 

точку  x(t+ t),  расположенную  достаточно  близко  к  заданной  началь-
ной точке. Согласно принципу оптимальности конечный участок есть 
также  оптимальная  траектория,  поэтому  представим  критерий  опти-
мальности  (13.12)  в  виде  суммы  двух  критериев,  соответствующих 
двум участкам движения: 

 

1

2

0

0

min

( , )

min

( , )

u

u

t

t

T

u

u

t

t

t

J

J

J

f

x u d

f

x u d  

(13.13) 

или после преобразований 

 

0

0

min

( , )

( , )

u

t

t

T

u

t

t

t

J

f

x u d

f

x u d

 (13.14) 

Рассматривая второй интеграл выражения (13.14) как функцию нижне-
го предела, обозначим его 

 

0

(

)

( , )

T

t

t

V x t

t

f

x u d 

(13.15) 

С учетом (13.15) соотношение (13.14) представим в виде 

 

0

min

( , )

(

)

u

t

t

u

t

J

f

x u d

V x t

t

(13.16) 

Полагая  промежуток  времени  t  достаточно  малым,  сделаем  в 

(13.16) следующие упрощения: 

1) интеграл приближенно заменим произведением 

 

0

0

( , )

( , )

t

t

t

f

x u d

f

x u

(13.17) 

2) функцию 

(

)

V x t

t

 разложим в ряд Тейлора в окрестности за-

данной начальной точки 


background image

Глава 13. ОПТИМАЛЬНЫЕ СИСТЕМЫ 

438 

 

(

)

( )

T

V

V x t

t

V x t

x

R

x

(13.18) 

где R – остаточные члены ряда разложения, которыми можно пренеб-

речь. 

Учитывая приближенные замены (13.17) и (13.18), преобразуем вы-

ражение (13.16): 

 

0

min

( , )

( )

u

T

u

V

J

f

x u

t

V x t

x

x

(13.19) 

Представим  min

u

u

  в  равенстве  (13.19)  в  виде  суммы  двух  состав-

ляющих следующим образом: 

 

0

min

( , )

min

( )

u

u

T

u

u

V

J

f

x u

t

x

V x t

x

(13.20) 

Обсудим  получившееся  выражение.  Согласно  введенному  обозначе-

нию (13.15) здесь 

 

min

( )

u

u

V x t

(13.21) 

поэтому вместо (13.20) получим 

 

0

min

( , )

0

u

T

u

V

f

x u

t

x

x

(13.22) 

Поделим обе части равенства (13.22) на  

 

0

min

( , )

u

T

u

V

x

f

x u

t

x

а затем устремим  t   0 и получим следующее уравнение: 

 

0

min

( , )

0

u

T

u

V

f

x u

x

x

(13.23) 


background image

13.3. Метод  динамического  программирования 

439 

Поскольку  рассматривается  оптимальная  траектория  движения  для 

объекта (13.1), подставим в (13.23) вместо  x  правую часть уравнения 
объекта  и  получим  основное  уравнение  метода  динамического  про-

граммирования в виде 

 

0

min

( , )

( , )

0

u

T

u

V

f

x u

f x u

x

(13.24) 

Таким  образом,  оптимальным  будет  управление,  которое  миними-

зирует  выражение  (13.24).  Однако  использовать  его  для  вычисления 

0

 нельзя, так как одно уравнение (13.24) содержит m + 1 неизвестную 

величину (

0

m

u

 и 

1

V

). 

13.3.3. РАСЧЕТНЫЕ СООТНОШЕНИЯ  

МЕТОДА ДИНАМИЧЕСКОГО ПРОГРАММИРОВАНИЯ 

В  случае  оптимального  управления 

0

u

  соотношение  (13.24) 

принимает вид 

 

0

0

0

,

,

0

T

V

f

x u

f x u

x

 (13.25) 

Продифференцируем (13.25) по   вдоль оптимальной траектории 

 

0

0

0

( , )

( , )

0

T

u u

u u

f

x u

V

f x u

u

u

x

(13.26) 

Добавив уравнения (13.26) к (13.25), получим систему из m+1 урав-

нения с  m+1 неизвестным, решая которую можно найти оптимальное 

управление. 

Поскольку (13.25) и (13.26) представляют собой систему уравнений 

в частных производных, для определения из нее оптимального управ-

ления,  как  правило,  приходится  использовать  приближенные  числен-

ные методы. В результате найденное управление получается не опти-

мальным, а близким к нему. 

Задача  отыскания  точного  оптимального  управления  методом  ди-

намического программирования носит название задачи АКОР (анали-


background image

Глава 13. ОПТИМАЛЬНЫЕ СИСТЕМЫ 

440 

тического  конструирования  оптимальных  регуляторов).  Эта  задача 

имеет решение при наличии следующих условий [1, 3, 17]. 

1. Объект  управления  описывается  линейным  уравнением  состоя-

ния (13.3) 

 

x

Ax

Bu

,    

n

x

,    

m

u

,    

m

2. Переход из начальной точки  (0)

x

 в конечную  ( )

x T  рассматрива-

ется на бесконечном интервале времени (

)

T

3. Критерий оптимальности имеет вид квадратичной формы (13.11) 

 

0

min

u

T

T

u

J

x Px

u Qu d

Оптимальное управление, полученное методом динамического про-

граммирования, для такой постановки задачи будет иметь вид 

 

0

u

Kx 

Таким  образом,  оптимальным  для  задачи  АКОР  будет  пропорцио-

нальный закон управления. 

ПРИМЕР  13.2 

Объект, модель которого имеет вид 

2

,

100,

20,

x

x u

u

x

 

необходимо перевести  из  начальной  точки  (0) 0

x

  в  конечную  ( )

1

x T

Время процесса не ограничено, а критерий оптимальности следующий: 

0

2

2

0

min

5

u

u

f

J

x

u

d



Запишем  основное  уравнение  метода  динамического  программирова-

ния (13.25) 

2

2

0

0

5

2

0

T

V

x

u

x u

x