Điều khiển tối ưu trực tuyến cho các hệ phi tuyến liên tục

Bài báo này trình bày vấn đề của luật điều khiển tối ưu thích nghi cho các hệ phi tuyến với
nhiễu đầu vào và các tham số chưa biết. Mục tiêu chính là tìm ra luật điều khiển tối ưu thích
nghi dựa trên phương pháp quy hoạch động thích nghi (Adaptive Dynamic Programming
(ADP)), trong đó qui hoạch động thích nghi online (Online Adaptive Dynamic Programming
(OADP)) là giải thuật được phân tích và thiết kế và nó có thể ổn định hệ thống vòng kín. Bên
cạnh đó, các đặc tính hội tụ của thuật toán đề xuất được chỉ ra. Các phân tích lý thuyết và kết
quả mô phỏng chứng minh sự hiệu quả của thuật toán đề xuất.
Download
Trang 1
Trang 2
Trang 3
Trang 4
Trang 5
Trang 6
Trang 7
Trang 8
Trang 9
Trang 10
Tải về để xem bản đầy đủ
11 trang duykhanh 19380
Download
Bạn đang xem 10 trang mẫu của tài liệu "Điều khiển tối ưu trực tuyến cho các hệ phi tuyến liên tục", để tải tài liệu gốc về máy hãy click vào nút Download ở trên
Tóm tắt nội dung tài liệu: Điều khiển tối ưu trực tuyến cho các hệ phi tuyến liên tục

 u
∈Ω
= sẽ được gọi là luật 
điều khiển tối ưu chi phí. (Theo nguyên lý tối ưu Bellman)
Xét hệ không nhiễu sau:
( ) ( )i ix f x g x u= + (3)
Và xét hàm mục tiêu của ( )3 được định nghĩa như sau [1]:
( ) ( )( ) ( ) ( )( ) ( )( )21 , ,
t
J x t u t r x u x dτ τ λ ρ τ
∞
 = +
 ∫
(4)
79TẠP CHÍ KHOA HỌC, Số 34, tháng 05 năm 2019
Theo vamvoudakis, K.G and Lewis, F.L (2010), hàm mục tiêu của hệ thống khác mô hình 
toán của hệ phi tuyến. Ở phần dưới tác giả chứng minh ( ) ( )( )1 ,J x t u t là hàm mục tiêu của hệ 
phi tuyến có nhiễu (1) và từ đó chứng minh *u là tín hiệu điều khiển của hệ phi tuyến có nhiễu (1).
Ta chứng minh rằng ( ) ( )( )1 ,J x t u t với Rλ ≥ sẽ là một trong những hàm đảm bảo 
chi phí của hệ (1).
Từ việc định nghĩa ( ) ( )( ),J x t u t trong (2) và ( ) ( )( )1 ,J x t u t trong (4), ta có thể dễ 
dàng thấy ngay:
 ( ) ( )( ) ( ) ( )( )1, ,J x t u t J x t u t≤ (5) 
Ta thấy rằng trong biểu thức của 
1(x(t),u(t))J có thêm thành phần ( )( )
2
xλ ρ là một hàm 
dương ( 20 ( ( )) 0R xλ λ ρ≥ > ⇒ > ) do đó 
( ) ( )( ) ( ) ( )( )( ) ( ) ( )( )
( ) ( )( ) ( )( )
1
2
, , ,
,
t
t
J x t u t r x u d J x t u t
r x u x d
τ τ τ
τ τ λ ρ τ
∞
∞
= ≤ =
 +
 
∫
∫
Đặt ( ) ( ) ( )( )* 1min ,
uu
V t J x t u t
∈Ω
= , ta có:
 ( ) ( ) ( )( ) ( )( )2* min ,
uu
t
V t r x u x dτ τ λ ρ τ
∞
∈Ω
 = +
 ∫
 (6) 
( ) ( ) ( )( ) ( )( )
( ) ( )( ) ( )( )
2*
2
min ,
min ,
u
u
t t
u
t
u
t t
V t r x u x d
r x u x d
τ τ λ ρ τ
τ τ λ ρ τ
+∆
∈Ω
∞
∈Ω
+∆
 = +
 
 + +
 
∫
∫
 (7)
 (8)
 ( ) ( )( ) ( )( )
( ) ( )* *21
min , 0
u
t t
u
t
V t t V t
r x u x d
t t
τ τ λ ρ τ
+∆
∈Ω
 + ∆ −  + + =  ∆ ∆  
∫ (9) 
Theo định nghĩa của đạo hàm của hàm số và theo nguyên lý Bellman thì hàm mục tiêu 
là giá trị nhỏ nhất của hàm chi phí và để tối ưu thì giá trị nhỏ nhất của hàm mục tiêu phải 
bằng không.
Cho 0t +∆ → ta có:
 ( ) ( )( ) ( )( )
( ) ( )* *21
min , 0
u
t t
u
t
V t t V t
r x u x d
t t
τ τ λ ρ τ
+∆
∈Ω
 + ∆ −  + + =  ∆ ∆  
∫ (10)
( ) ( )( ) ( ) ( ) ( ) ( )( )2 *min , 0
u
T
i iu
r x t u t x V f x g x uλρ
∈Ω
 + + ∇ + =   (11)
Kí hiệu: 
x
∂
∇ =
∂

 là đúng cho mọi hàm  trong bài báo này.
Đặt: ( ) ( ) ( )( ) ( ) ( ) ( ) ( )( )* 2 *, , , T i iH x u V r x t u t x V f x g x uλρ= + + ∇ + (12) 
( ) ( ) ( )( ) ( )( ) ( )2* *min ,
u
t t
u
t
V t r x u x d V t tτ τ λ ρ τ
+∆
∈Ω
 = + + + ∆
 ∫
80 TRƯỜNG ĐẠI HỌC HẢI PHÒNG
Ta có thể thấy ngay: ( ) ( )* * *, , min , , 0
uu
H x u V H x u V
∈Ω
= = (13)
( ) ( )( )
*
*
* 1 *
, , 1
0
2
T
i
u u
H x u V
u R g x V
u
−
=
∂
= ⇒ = − ∇
∂
(14)
Theo lý thuyết quy hoạch động lúc này *u là tín hiệu điều khiển của hệ phi tuyến có 
nhiễu đầu vào.
Định lý 1 [1],[2]: Bằng việc sử dụng tín hiệu điều khiển ( ) ( )( )11
2
T
iu x R g x V
−= − ∇ và chọn
 ( ) ( ) ( )( ) ( )( )2,
t
V t r x u x dτ τ λ ρ τ
∞
 = +
 ∫
 là hàm Lyapunov, trong đó Rλ ≥ sẽ đảm bảo hệ (1) ổn định.
Chứng minh:
Đạo hàm của V được xác định theo công thức:
( ) ( ) ( ) ( ) ( )( )( ),T i iV t V f x g x u x t= ∇ + + ∆
Bằng việc sử dụng ( ) ( )( )1 *1
2
T
iu x R g x V
−= − ∇ , ta có thể suy ra:
( ) ( ) ( )( ) ( ) ( )( ) ( )2 *, ,TiV t r x t u t x g x V x tλρ= − − + ∇ ∆
( ) ( )2 2 ,T T Tx Qx u Ru x u R x tλρ= − − − − ∆ (15)
( ) ( )( ) ( )( ) ( ) ( )2 , , , ,T TT Tx Qx x u x t R u x t x t R x tλρ= − − − + ∆ + ∆ + ∆ ∆ (16)
( ) ( ) ( )( ) ( )( ) ( )( )2 , , , ,TTTx Qx x x t R x t u x t R u x tλρ= − − − ∆ ∆ − + ∆ + ∆ (17)
Với giả sử 1 và Rλ ≥ ta có:
( ) ( ) ( )( ) ( ) ( )22 2,T TV t x Qx x R x t x Qx R xλρ λ ρ≤ − − − ∆ ≤ − − −
( ) TV t x Qx≤ −
 (18)
Do đó, hệ (1) là ổn định bền.
Rất khó để giải trực tiếp phương trình HJB (13), do đó, hàm mục tiêu *V của hệ (3) có thể được 
xấp xỉ bằng mạng RBF trên tập xΩ :
 ( ) ( )
* TV w x xσ ε= + (19)
Theo lý thuyết toán học 
Xét hàm khả vi liên tục ( )f x được xấp xỉ hàm bằng vector hàm nơron (NN) truyền thẳng 
một lớp theo công thức:
81TẠP CHÍ KHOA HỌC, Số 34, tháng 05 năm 2019
 ( ) ( ) ( )
Tf x W x xϕ ε= +
Trong đó W là trọng số NN lý tưởng, ( ) : n nx R Rϕ → ; ( ) xϕ là vector hàm tác động, hn là số 
lượng nút ở lớp ẩn và ( ) xε là sai số xấp xỉ NN. Khi đó, nếu hệ ( ) ( ){ }: 1,i x iϕ = ∞ là vector cơ sở 
độc lập hoàn toàn thì ( )f x và đạo hàm của nó:
( ) ( ) ( )T
W
f x x x
x x x
ϕ ε∂  ∂  ∂
= + ∂ ∂ ∂  sẽ được xấp xỉ đều. Ngoài ra, sai số ε và đạo hàm của nó sẽ hội tụ đều 
về 0 khi hn →∞ . Hơn nữa, nếu hn hữu hạn thì ε và 
x
ε∂
∂
 sẽ bị chặn bởi các hằng số dương 
trong tập đóng.
Còn việc luyện mạng nơ ron và tìm ra thông số tác giả lập trình trên phần mềm Matlab.
Trong đó ( ) ( ): ; 0 0n Nxσ σ→ = là (NN), N là số neural ẩn, và ( )xε là sai số xấp xỉ do 
NN, Nw∈ là vector hàm trọng lượng. ( )xσ có thể được chọn sao cho với N →∞ , ta 
có: ( ) 0xε → và ( ) 0xε∇ → , do đó việc lựa chọn N hữu hạn, ta có thể giả sử:
Giả sử 2: ( ) ( ) ( )max max min max max; ; ;x x x w wε ε ε ε σ σ σ≤ ∇ ≤ ∇ ∇ ≤ ∇ ≤ ∇ ≤
Bằng việc kết hợp (13), (14) ta có thể suy ra:
( ) ( ) ( )( ) ( ) ( ) ( ) ( )( )* * * 2 * *, , , 0T i iH x u V r x t u t x V f x g x uλρ= + + ∇ + = (20)
( ) ( ) ( ) ( ) ( ) ( ) ( )2 * * 1 *1 0
4
T T TT
i i ix Qx x V f x V g x R g x Vλρ
−= + + ∇ − ∇ ∇ = (21)
Phương trình (19) có thể dẫn tới: ( )( ) ( )* TV x w xσ ε∇ = ∇ +∇ (22)
Sử dụng mạng NN vào phương trình HJB trên ta có:
( ) ( )( ) ( )
( )( ) ( ) ( ) ( )( )
2
11
4
TTT
NN i
TT T T
i i
e x Qx x x w f x
x w g x R g x x w
λρ σ
σ σ−
= + + ∇
− ∇ ∇
 (23)
( ) ( ) ( )
( ) ( ) ( ) ( )
2
11
4
T T
NN i
T TT
i i
e x Qx x w x f x
w x g x R g x x w
λρ σ
σ σ−
= + + ∇
− ∇ ∇
 (24)
Sai số của hệ NN gây ra có thể được viết lại: 
( ) ( ) ( )( ) ( ) ( ) ( ) ( )* 11
4
T T T
NN i i i ie x f x g x u x g x R g x xε ε ε
−= −∇ + + ∇ ∇ (25)
Với N →∞ , NNe có thể hội tụ về không. Nên với số N hữu hạn, NNe sẽ nằm trong một tập 
compact, do đó ta có thể giả sử maxNNe e≤ .
Sử dụng mạng NN để có những xấp xỉ sau: 
 ( ) ( ) ( )( )11ˆ ˆˆ ˆ ˆ;
2
TTT
iV w x x w u R g x Vσ σ
−= = = − ∇ (26)
82 TRƯỜNG ĐẠI HỌC HẢI PHÒNG
Khi đó, sai số xấp xỉ sẽ được sinh ra [3], [4]:
( ) ( )( ) ( ) ( )( ) ( ) ( )( )2ˆ ˆ ˆ, TTHJB i ie r x t u t x x w f x g x uλρ σ= + + ∇ + (27) 
( ) ( ) ( )
( ) ( ) ( ) ( )
2
1
ˆ
1 ˆ ˆ
4
T T
HJB i
T TT
i i
e x Qx x w x f x
w x g x R g x x w
λρ σ
σ σ−
= + + ∇
− ∇ ∇
 (28)
Vector trọng lượng được cập nhật: ˆ
ˆ
E
w
w
α ∂= −
∂

 (29)
 với 
1
2
T
HJB HJBE e e=
Định lý 2 [4]: Bằng cách sử dụng luật điều khiển (26) và vector trọng lượng được học theo 
mạng NN và cập nhật theo luật (29), thì sai lệch vector trọng lượng ˆw w w= − và trạng thái 
( )x t của hệ kín sẽ là ổn định UUB.
Chứng minh:
Đặt: ˆ ˆw w w w w= − ⇒ = −   
Xét hàm Lyapunov sau:
( ) ( ) ( ) ( ) ( ) ( ) ( ) *1 2 1 2
1
; ;
2
T
V t V t V t V t w t w t V t V
α
= + = = 
Tác giả chọn theo bài báo đã ghi trong danh mục tài liệu tham khảo.
Đạo hàm hàm ( )1V t , ta thu được:
( ) ( ) ( ) ( ) ( ) ( )1
1 1 ˆ
ˆ
T T T E
V t w t w t w t w t w t
wα α
∂
= = − =
∂


   
( ) ( ) ( )( )1 ˆT HJB i iV w e x f x g x uσ= ∇ + 
Kết hợp (14) và (26) ta có:
( )( ) ( )* 1 *1 ˆˆ
2
T
iu u R g x V V
−− = − ∇ −∇ 
( )( ) ( ) ( )( ) ( )( )11 ˆ2
T TT
iR g x x w x w xσ σ ε
−= − ∇ − ∇ −∇
( )( ) ( )( ) ( )( )112
T T
iR g x x w xσ ε
−= ∇ +∇ 
Mặt khác ta có: 
( ) ( ) ( )( ) ( ) ( ) ( )( ) ( ) ( )( )* *ˆ ˆi i i i ix f x g x u x f x g x u x g x u uσ σ σ∇ + = ∇ + +∇ −
( ) ( ) ( ) ( ) ( ) ( ) ( )( )* 11
2
T T
i i i ix f x g x u g x R g x x w xσ σ ε
− = ∇ + + ∇ +∇ 
 
 
83TẠP CHÍ KHOA HỌC, Số 34, tháng 05 năm 2019
Từ (24) và (28) suy ra:
( )( ) ( ) ( )( ) ( )
( ) ( ) ( ) ( )
( ) ( ) ( ) ( )
( )( ) ( ) ( )( ) ( )( ) ( )( )
1
1
1
ˆ
1
4 ˆ ˆ
1 ˆ
2
T TT T
HJB NN i i
T TT
i i
T TT
i i
T T TT
i i
e e x w f x x w f x
w x g x R g x x w
w x g x R g x x w
x w g x R g x x w x
σ σ
σ σ
σ σ
σ σ ε
−
−
−
 − = ∇ − ∇ 
 
 ∇ ∇
 +
 − ∇ ∇ 
+ ∇ ∇ +∇
 (29)( )( ) ( )
( ) ( ) ( ) ( ) ( )
( ) ( ) ( ) ( ) ( )
1
1
ˆ1
4 ˆ ˆ
TT
HJB NN i
T TT T
i i
T TT
i i
e e x w f x
w w x g x R g x x w
w x g x R g x x w w
σ
σ σ
σ σ
−
−
− = − ∇
 − ∇ ∇
 +
 + ∇ ∇ − 

 (30)
( ) ( )
( ) ( ) ( ) ( )
( ) ( ) ( ) ( )
1
1
1
4 ˆ
T
HJB NN i
T TT
i i
T TT
i i
e e w x f x
w x g x R g x x w
w x g x R g x x w
σ
σ σ
σ σ
−
−
− = − ∇
 ∇ ∇
 +
 + ∇ ∇ 



 (31)
( ) ( )
( ) ( ) ( ) ( )
( ) ( ) ( ) ( )
1
1
1
2
1
4
T
HJB NN i
T TT
i i
T TT
i i
e e w x f x
w x g x R g x x w
w x g x R g x x w
σ
σ σ
σ σ
−
−
− = − ∇
+ ∇ ∇
− ∇ ∇


 
 (32)
Vì ( )( ) ( )( ) ( )( )* 112
T T
iu R g x x w xσ ε
−= − ∇ +∇ nên ta có:
( ) ( ) ( ) ( ) ( ) ( )
( ) ( ) ( ) ( )
* 1
1
1
2
1
4
TT T
HJB NN i i i
T TT
i i
e e w x f x w x g x u R g x x
w x g x R g x x w
σ σ ε
σ σ
−
−
 − = − ∇ + ∇ − − ∇ 
 
− ∇ ∇
 
 
 (33)
( ) ( )( ) ( ) ( ) ( ) ( )
( ) ( ) ( ) ( )
* 1
1
1
2
1
4
TT T
HJB NN i i i i
T TT
i i
e e w x f x g u w x g x R g x x
w x g x R g x x w
σ σ ε
σ σ
−
−
= − ∇ + − ∇ ∇
− ∇ ∇
 
 
 (34)
Giả sử 3: ( ) ( ) * maxi if x g x u µ+ ≤
Kí hiệu: ( ) ( ) ( ) ( ) ( ) ( )* 1; ; ;Ti i i i i if x g x u G g x R g x x xµ σ σ ε ε−= + = ∇ = ∇ ∇ = ∇
Từ phương trình (34) ta có:
84 TRƯỜNG ĐẠI HỌC HẢI PHÒNG
( ) ( ) ( )1
1
1
2
21
4
T
NN i
i
T T
i T
i
T T
i
e w
V t w w G x
G w
w G w
σµ
µ
σ ε σ
σ ε
σ σ
 
 − + ∇
+  
  = − + ∇ ∇ ∇
   ∇ +∇ 
  
 + ∇ ∇
 


 

 
 (35)
 ( ) ( )
( ) ( ) ( ) ( )
( ) ( ) ( )
2
1
2
1
8
1 1 1 1
2 4 4 2
1
2
T T
i
T T T T T
i i i NN i
T T T
i NN i i
V t w G w
w w G w e w G w
w e w G w
σ σ
σµ σ ε σµ σ σ
σµ σ ε σµ
= − ∇ ∇
 − ∇ + ∇ ∇ + ∇ + ∇ ∇  
 − ∇ + − ∇ ∇ ∇  

 
    
  
 (36)
( ) ( )
( )
( )
( )
( ) ( ) ( )
2
1
2
3
1 4
1 18
4 2
1
2
T
i
T T T T
i i
T
i NN
T T T
i NN i i
w
V t w G w w G w
w G e
w e w G w
σµ
σ σ σ σ
σ ε
σµ σ ε σµ
 ∇ 
= − ∇ ∇ − ∇ ∇ 
 + ∇ ∇ +
  
 − ∇ + − ∇ ∇ ∇  


   

  
 (37)
Đặt:
( ) ( )
( )
3 1 1
; ;
4 4 2
1
;
2
T T T T
i i i NN
T T
i NN i
A w G w B w w G e
C w D e w G
σ σ σµ σ ε
σµ σ ε
= ∇ ∇ = ∇ + ∇ ∇ +
= ∇ = − ∇ ∇
   
 
Dễ dàng nhận thấy:
( ) ( )
( ) ( ) ( )
2 2
22 2 2
1
2 2 2
1
1 1
4 2
8 8 2 4
1
4 16 2
8
D D
V t A BA C DC A B B C
V t A B B D
 = − − − − = − + + − + + 
 
 ≤ − + − + 


 (38)( ) ( )( )
( ) ( )( )
2 2 21
min min min
2 1
max max max max max max max
4 G
3 G 2
A B w R
w R e
λ σ
σ µ σ λ ε
−
−
+ ≥ ∇
− ∇ +∇ ∇ −

 (39)
( ) ( )( )( )
( ) ( )
2
22 2 1
max max max max max max max
2
2 1
max max max max max max
16 2 3 G 2
1
2 G
2
B D w R e
e w R
σ µ σ λ ε
σ σ λ ε
−
−
+ ≤ ∇ +∇ ∇ +
 + + ∇ ∇ ∇ 
 


 (40)
Từ (39), (40), ta có bất đẳng thức ( ) ( )2 2 2 14 16 2A B B D π+ − + ≥
Với 1 0π > có thể được suy ra khi w đủ lớn, bởi vì hệ số bậc cao nhất là 
85TẠP CHÍ KHOA HỌC, Số 34, tháng 05 năm 2019
( ) ( )( )( )22 21min min minG 0Rλ σ− ∇ > . Do đó, ta hoàn toàn có thể tìm được số thực 1ϑ sao cho 
1w ϑ∀ > ta có: ( ) ( )2 2 2 14 16 2A B B D π+ − + ≥ , từ (40) ta có: ( )1 1V t π≤ − . Tương tự với 
( )2V t , từ (21) ta tính đạo hàm của nó:
 ( ) ( )( )*2 ˆ
T
i iV V f g u= ∇ + + ∆
( )( ) ( ) ( ) ( ) ( )
( ) ( )( ) ( )
2 * 1 *
* 1
1
4
1 ˆ
2
T TT
i i
T T T
i i
x Qx x V g x R g x V
V g R g x x w
λρ
σ
−
−
= − + + ∇ ∇
 + ∇ − ∇ + ∆ 
 
 (41)
 ( )( ) ( ) ( )
( ) ( ) ( )( ) ( )
2 * 1 *
* 1 *
1
4
1
2
TT T
i i
T TTT
i i i
x Qx x V g R g V
V g R g x w x V g
λρ
σ ε
−
−
= − + − ∇ ∇
+ ∇ ∇ +∇ + ∇ ∆
 (42)
Để thuận tiện ta giả sử ( )x xρ ϖ= . Từ (46) ta có:
 ( )( )
2 2
2 minV Q xλ λϖ θ≤ − + + (43)
2.2. Mô phỏng hệ chuyển mạch phi tuyến có nhiễu đầu vào
Tác giả lấy hệ dưới theo ví dụ của một bài báo đã xây dựng không phải đối tượng thực 
nên về quá trình vật lý hệ thống là chưa thể hiện hết. 
Phần lớn những bài báo trên tạp chí lớn của nhiều Nhà nghiên cứu về thuật toán ADP 
(Adaptive Dynamis Programming) và để chứng minh thuật toán thì chỉ cần chọn lựa ví dụ 
một hệ tuân theo mô hình chung của hệ phi tuyến với nhiễu đầu vào như ở dưới tác giả chọn, 
như tài liệu tham khảo [1]. Ở đây tác giả giả định nhiễu đầu vào bị chặn. Sau khi mô phỏng 
sự đáp ứng của tín hiệu là chính xác khi tham chiếu với thuật toán. Do đó kết luận của bài báo 
tác giả kết luận hoàn toàn chính xác. Với kết quả thuật toán này tác giả đã áp dụng cho mô 
hình con lắc ngược và đã được đăng trong một hội thảo chuyên ngành.
Xét hệ chuyển mạch sau:
( )
( ) ( )
1 2
2 1 3
1 2 3
2
1 2 3
2 1 3
2 3
1
0.2 sin cos 1 ,
2sin
1
sin cos 1 ,
2sin
1
2
x x
x x x x u x t
x x x
x x x
x x x x u x t
x x
 − +   
    = − − + − + ∆    
    −−   
  − +       = − − + − + ∆       −−   


86 TRƯỜNG ĐẠI HỌC HẢI PHÒNG
Trong đó,
 [ ] ( )
1 1
0 2 2
3 3
1 1
5; 3;2 ; , ;
10 10
T
i i
d x
x x t d x x
d x
 
 = − ∆ = ∆ ≤ 
  
Với, 1 2 3; ;d d d được chọn là rand() trong matlab.
Ta chọn các tham số của bộ điều khiển:
 1 0 01 0
; 0.01; 0 2 0 ; 5
0 1
0 0 3
R Qα λ
 
   = = = =       
. 
Khi đó ta có kết quả mô phỏng sau:
Hình 1. Sơ đồ cấu trúc điều khiển của hệ thống
Hình 2. Tín hiệu điều khiển của hệ thống
Hình 3. Trạng thái của hệ thống
87TẠP CHÍ KHOA HỌC, Số 34, tháng 05 năm 2019
Hình 4. Nhiễu của hệ thống
Hình 5. Sự hội tụ của ma trận trọng lượng
3. KẾT LUẬN
Bài báo đã trình bày về lý thuyết và ứng dụng của thuật toán ADP trong điều khiển hệ 
phi tuyến. Tác giả đã thiết kế thuật toán và mô phỏng ví dụ đơn giản trên phần mềm Matlab. 
Để áp dụng vào một đối tượng có mô hình phức tạp nhiễu bất định cần thêm những nghiên 
cứu nữa từ tác giả. Đối tượng điều khiển ở đây có thể phát triển với hệ phức tạp, quy mô lớn, 
đặc biệt đã có những nghiên cứu bước đầu đối với hệ multi agency.
TÀI LIỆU THAM KHẢO
1. Vamvoudakis, K.G. and Lewis, F.L. (2010), “Online actor-critic algorithm to solve the 
continuous-time infinite horizon optimal control problem,” Automatica, 46, pp.878-888.
2. Vamvoudakis, K.G. (2011), Online learning algorithms for differential dynamic games 
and optimal control, Ph.D. Thesis, Univ. Texas at Arlington.
3. Frank Lewis, Derong Liu (2012) Reinforcement learning and approximate dynamic 
programming for feedback control, IEEE Press, Wiley, 
4. Derong Liu, Qinglai Wei, Ding Wang, Xiong Yang (2016), Adaptive dynamic 
programming with applications in optimal control, Springer, 
5. Nguyễn Doãn Phước (2001) Lý thuyết điều khiển tuyến tính, NXB KH& KT. 
6. Nguyễn Phùng Quang (2006), MATLAB và Simulink dành cho kỹ sư điều khiển tự động, 
Nhà xuất bản Khoa học và Kỹ thuật.
File đính kèm:
dieu_khien_toi_uu_truc_tuyen_cho_cac_he_phi_tuyen_lien_tuc.pdf