劉秋麗 李金娜
摘 ?要:針對離散系統(tǒng)魯棒非策略Q-學(xué)習(xí)算法的研究的必要性進(jìn)行了分析和驗證。首先提出了最優(yōu)控制問題,然后利用Q-學(xué)習(xí)算法設(shè)計了基于數(shù)據(jù)驅(qū)動的最優(yōu)控制器,并重點分析了非策略Q-學(xué)習(xí)算法在不確定性離散系統(tǒng)的最優(yōu)控制問題中是否有效。最后通過仿真實驗得出結(jié)論,在不確定環(huán)境下應(yīng)該設(shè)計魯棒非策略Q-學(xué)習(xí)算法以保證系統(tǒng)的穩(wěn)定性。
關(guān)鍵詞:最優(yōu)控制;非策略Q-學(xué)習(xí);離散系統(tǒng);魯棒性
中圖分類號:TP181;TP13 ? ? ?文獻(xiàn)標(biāo)識碼:A 文章編號:2096-4706(2020)12-0010-04
Abstract:The necessity of robust non-strategic Q-learning research for discrete systems is analyzed and verified. First,the optimal control problem is proposed,and then the optimal controller based on data driving is designed using Q-learning method,and the focus is on whether the non-strategic Q-learning algorithm is effective in the optimal control problem of uncertain discrete systems. Finally,it is concluded through simulation experiments that a robust non-strategic Q-learning algorithm should be designed in an uncertain environment to ensure the stability of the system.
Keywords:optimal control;non-strategic Q-learning;discrete systems;robustness
0 ?引 ?言
強(qiáng)化學(xué)習(xí)算法是一種通過與環(huán)境進(jìn)行試錯交互尋找能夠帶來最大累積獎賞策略的學(xué)習(xí)方法[1]。目前強(qiáng)化學(xué)習(xí)的方法廣泛應(yīng)用于控制領(lǐng)域中,以達(dá)到最優(yōu)控制的效果。強(qiáng)化學(xué)習(xí)分為策略(On-policy)學(xué)習(xí)和非策略(Off-policy)學(xué)習(xí)。如果在學(xué)習(xí)過程中,動作選擇的行為策略和學(xué)習(xí)改進(jìn)的目標(biāo)策略一致,該方法就被稱為策略學(xué)習(xí),否則被稱為非策略學(xué)習(xí)[2]。
Q-學(xué)習(xí)是強(qiáng)化學(xué)習(xí)算法的一種,又稱為動作相關(guān)啟發(fā)式動態(tài)規(guī)劃(ADHDP),是一種近似動態(tài)規(guī)劃(ADP)方案法,它結(jié)合了自適應(yīng)批評理論[3,4]。Q-學(xué)習(xí)算法的優(yōu)點之一是能夠在不了解環(huán)境的情況下評估效用和更新控制策略[2,5]。
筆者研究了一些用強(qiáng)化學(xué)習(xí)算法求解線性DT系統(tǒng)的線性二次調(diào)節(jié)問題,如貪婪HDP迭代算法[6]和非線性DT系統(tǒng)的迭代自適應(yīng)動態(tài)規(guī)劃(ADP)[7],還有具有時滯的非線性系統(tǒng)啟發(fā)式動態(tài)規(guī)劃(HDP)[8]和線性系統(tǒng)的輸入和輸出數(shù)據(jù)的策略迭代(PI)和值迭代(VI)[9]算法。然而,上述文獻(xiàn)并沒有分析和驗證魯棒強(qiáng)化學(xué)習(xí)算法研究的必要性,理論上非策略Q-學(xué)習(xí)算法需要考慮系統(tǒng)的魯棒性,否則絕大多數(shù)控制器很難維持系統(tǒng)的穩(wěn)定性。這是本文研究魯棒非策略Q-學(xué)習(xí)問題的動機(jī)。
1 ?最優(yōu)控制問題闡述
以下是對線性二次調(diào)節(jié)問題的非策略Q-學(xué)習(xí)的闡述。
研究目標(biāo):尋找一種最優(yōu)控制率,能夠使式(2)中性能指標(biāo)xk+1越小,并保證式(1)中系統(tǒng)J能夠在不確定的環(huán)境下保持穩(wěn)定。若不考慮不確定性,對于標(biāo)準(zhǔn)型式(3),可以參考現(xiàn)有文獻(xiàn)[10]來分析非策略Q-學(xué)習(xí)算法在不確定性離散系統(tǒng)的最優(yōu)控制問題中是否有效。
2 ?非策略Q-學(xué)習(xí)算法設(shè)計
以下是對非策略Q-學(xué)習(xí)算法的設(shè)計。根據(jù)Q-函數(shù)與值函數(shù)之間的關(guān)系,基于非策略Q-函數(shù)的Bellman方程,得到一種非策略Q-函數(shù)學(xué)習(xí)算法。
然后實現(xiàn)非策略Q-學(xué)習(xí)算法1,經(jīng)過30次迭代后算法收斂,得到最優(yōu)Q-函數(shù)矩陣H*和最優(yōu)控制器增益K*,結(jié)果同式(16)(17)。
在不考慮不確定性時,即bound=0時,系統(tǒng)狀態(tài)x1和x2都收斂于0,說明原有的非策略Q-學(xué)習(xí)算法1對于系統(tǒng)的適應(yīng)性較好。具體系統(tǒng)狀態(tài)仿真曲線如圖1所示。
在不考慮不確定性時,即bound=0時,當(dāng)非策略Q-學(xué)習(xí)算法1迭代次數(shù)為10時,滿足學(xué)習(xí)的H與理論最優(yōu)解的差 <ε、學(xué)習(xí)的K與理論最優(yōu)解的差 ≤ε。仿真結(jié)果中常數(shù)ε(ε>0)趨于0,得到最優(yōu)控制策略。具體的學(xué)習(xí)的H和學(xué)習(xí)的K收斂到理論最優(yōu)解的過程如圖2所示。
在考慮不確定性時,取bound=0.4,系統(tǒng)狀態(tài)x1和x2在時間為20 s后便不再收斂于0,出現(xiàn)了大幅度發(fā)散的狀況,說明原有的非策略Q-學(xué)習(xí)算法1對于系統(tǒng)的適應(yīng)性較差。具體系統(tǒng)狀態(tài)仿真曲線如圖3所示。
在考慮不確定性時,取bound=0.4,當(dāng)非策略Q-學(xué)習(xí)算法1迭代次數(shù)為20時,學(xué)習(xí)的H與理論最優(yōu)解的差 和學(xué)習(xí)的K與理論最優(yōu)解的差 ?的結(jié)果不再收斂于0,得到的最優(yōu)控制策略將不能夠使系統(tǒng)保持穩(wěn)定狀態(tài)。具體的學(xué)習(xí)的H和學(xué)習(xí)的K收斂到理論最優(yōu)解的過程如圖4所示。
分析得到:在bound≠0時,非策略Q-學(xué)習(xí)算法1考慮了系統(tǒng)的不確定性,并且隨著不確定性ΔAk的增加,系統(tǒng)狀態(tài)穩(wěn)定性受到了一定程度的影響,可見算法1對不確定性ΔAk的容忍范圍是有限的;如果不確定性ΔAk過大,系統(tǒng)的穩(wěn)定性將無法得到保障。
4 ?結(jié) ?論
針對系統(tǒng)模型參數(shù)未知的離散系統(tǒng),本文重點分析和驗證了魯棒非策略Q-算法研究的必要性,提出了最優(yōu)控制問題,并且在非策略Q-學(xué)習(xí)算法設(shè)計過程中考慮了不確定性。文章通過仿真實驗得出結(jié)論,在研究不確定環(huán)境下的離散控制系統(tǒng)時,應(yīng)該設(shè)計魯棒非策略Q-學(xué)習(xí)算法以保證系統(tǒng)的穩(wěn)定性。
參考文獻(xiàn):
[1] 劉全,傅啟明,龔聲蓉,等.最小狀態(tài)變元平均獎賞的強(qiáng)化學(xué)習(xí)方法 [J].通信學(xué)報,2011,32(1):66-71.
[2] KIUMARSI B,LEWIS F L,MODARES H,et al. Reinforcement Q -learning for optimal tracking control of linear discrete-time systems with unknown dynamics [J]. Automatica,2014,50(4):1167-1175.
[3] WATKINS C J C H. Learning from delayed rewards [D]. Cambridge:University of Cambridge,1989.
[4] MILLER W T,SUTTON R S,WERBOS P J. A Menu of Designs for Reinforcement Learning Over Time [J]. Neural networks for control,1995(3):67-95.
[5] AL-TAMIMI A,LEWIS F L,ABU-KHALAF M. Model-free Q -learning designs for linear discrete-time zero-sum games with application to H-infinity control [J]. Automatica,2006,43(3):473-481.
[6] ZHANG H G,WEI Q L,LUO Y H. A novel infinite-time optimal tracking control scheme for a class of discrete-time nonlinear systems via the greedy HDP iteration algorithm [J]. IEEE Transactions on Systems,Man,and Cybernetics,Part B:Cybernetics,2008,38(4):937-942.
[7] WANG D,LIU D,WEI Q. Adaptive dynamic programming for finite-horizon optimal tracking control of a class of nonlinear systems [C]//中國自動化學(xué)會控制理論專業(yè)委員會.中國自動化學(xué)會控制理論專業(yè)委員會B卷.2011:2450-2455.
[8] ZHANG H G,SONG R Z,WEI Q L,et al. Optimal tracking control for a class of nonlinear discrete-time systems with time delays based on heuristic dynamic programming [J]. IEEE transactions on neural networks,2011,22(12):1851-1862.
[9] KIUMARSI B,LEWIS F L,NAGHIBI-SISTANI M,et al. Optimal Tracking Control of Unknown Discrete-Time Linear Systems Using Input-Output Measured Data [J]. IEEE transactions on cybernetics,2015,45(12):2770-2779.
[10] 李金娜,尹子軒.基于非策略Q-學(xué)習(xí)的網(wǎng)絡(luò)控制系統(tǒng)最優(yōu)跟蹤控制 [J].控制與決策,2019,34(11):2343-2349.
[11] LI J N,YUAN D C,DING Z T. Optimal tracking control for discrete-time systems by model-free off-policy Q-learning approach [C]. 2017 11th Asian Control Conference(ASCC),2017:7-12.
作者簡介:劉秋麗(1997—),女,漢族,河南鄲城人,本科,研究方向:自動化;李金娜(1977—),女,漢族,山東單縣人,教授,碩士生導(dǎo)師,博士,研究方向:數(shù)據(jù)驅(qū)動控制、運(yùn)行優(yōu)化控制、強(qiáng)化學(xué)習(xí)、網(wǎng)絡(luò)控制。