一種基于學(xué)習(xí)的高超聲速飛行器智能控制方法

2023-03-18 13:17:56夏紅偉

宇航學(xué)報 2023年2期

王冠，夏紅偉

(哈爾濱工業(yè)大學(xué)航天學(xué)院，哈爾濱 150001)

0 引言

吸氣式高超聲速飛行器采用超燃沖壓發(fā)動機，具可重復(fù)使用、飛行能力強的特點,其動力學(xué)控制作為高超聲速飛行器研制中的關(guān)鍵問題之一，在近年得到了廣泛關(guān)注[1]。

隨著控制理論的發(fā)展，傳統(tǒng)比例-積分-導(dǎo)數(shù)(PID)控制[2]、滑?？刂芠3]、容錯控制[4]等控制方法在高超聲速飛行器控制領(lǐng)域的研究已經(jīng)取得了一定成果。為了解決存在未知動態(tài)且無法精確建模的高超聲速飛行器控制問題，一些學(xué)者采用自適應(yīng)和神經(jīng)網(wǎng)絡(luò)技術(shù)，提出了新穎的控制方法。文獻[5]針對帶攻角約束的高超聲速飛行器控制問題，提出一種基于非對稱時變障礙函數(shù)的自適應(yīng)控制方法，在保證良好跟蹤性能的同時能夠滿足攻角約束限制。文獻[6]利用神經(jīng)網(wǎng)絡(luò)技術(shù)逼近未知非仿射動態(tài)，結(jié)合漏斗控制與低通濾波器，提出一種不需要虛擬控制律的控制策略，確保了跟蹤誤差的瞬態(tài)性能和穩(wěn)態(tài)性能，但其設(shè)計相對復(fù)雜且參數(shù)較多。自適應(yīng)控制和神經(jīng)網(wǎng)絡(luò)控制在處理模型參數(shù)不確定性方面具有先天優(yōu)勢，但學(xué)習(xí)能力較有限，通常需要引入大量的參數(shù)更新律，強烈依賴于神經(jīng)網(wǎng)絡(luò)的更新規(guī)律，極大地增加了控制算法的結(jié)構(gòu)復(fù)雜度和控制參數(shù)整定難度[4-9]。如何處理控制效果與算法復(fù)雜度之間的矛盾，是當下高超聲速飛行器控制領(lǐng)域亟待解決的關(guān)鍵問題之一。與傳統(tǒng)控制方法相比，確定學(xué)習(xí)能夠從動力學(xué)系統(tǒng)的神經(jīng)網(wǎng)絡(luò)控制過程中實現(xiàn)未知動態(tài)的學(xué)習(xí)[10]。在對未知動態(tài)的知識獲取、存儲以及利用方面具有明顯優(yōu)勢，越來越多研究工作將確定學(xué)習(xí)的思想應(yīng)用于解決工程實際問題[11-12]。例如，文獻[13]利用確定學(xué)習(xí)理論對機械手系統(tǒng)的未知動態(tài)進行知識獲取，提出一種預(yù)設(shè)性能神經(jīng)學(xué)習(xí)控制器，實現(xiàn)了機械手在預(yù)設(shè)性能約束下的跟蹤控制。高超聲速飛行器動力學(xué)模型的強非線性、強不確定性、飛行工況的復(fù)雜性，以及現(xiàn)有算力、可靠性等因素都制約著自適應(yīng)和神經(jīng)網(wǎng)絡(luò)控制在實際工程中的落地應(yīng)用，考慮到上述問題，將確定學(xué)習(xí)思想引入高超聲速飛行器的控制設(shè)計中，在減輕線上控制計算負擔(dān)方面具有極大潛力。此外，實際工程還要求考慮超燃沖壓發(fā)動機的可執(zhí)行范圍存在一定限度，即燃油閥開度的上限和下限約束，保障高超聲速飛行器的穩(wěn)定飛行控制。因此，在實際工程中必須考慮燃油閥開度受限下的控制問題。文獻[14]通過構(gòu)造自適應(yīng)輔助系統(tǒng)提出一種基于上界估計的自適應(yīng)飛行控制策略，在保證預(yù)設(shè)跟蹤性能的同時克服了燃油閥開度受限的問題。目前，常見的處理手段包括構(gòu)造輔助系統(tǒng)[14]、構(gòu)造輔助線性矩陣不等式[15]等，能夠有效處理輸入受限問題，但是以上方法對模型依賴性強、參數(shù)調(diào)節(jié)相對復(fù)雜。

需要指出的是，上述控制策略通常采用時間觸發(fā)的方式，為了保證系統(tǒng)的穩(wěn)定性并達到預(yù)期性能，控制量的更新周期一般相對較小。這種機制可能造成不必要的通信和計算資源消耗，更嚴重的情況是加速高超聲速飛行器元器件的老化和系統(tǒng)能源的損耗。為了解決基于時間觸發(fā)控制帶來的資源浪費，近年來學(xué)者們基于事件觸發(fā)機制做了大量工作[16-17]。文獻[18]針對無人機系統(tǒng)提出的事件觸發(fā)控制方案與傳統(tǒng)的時間觸發(fā)采樣方案相比，能夠顯著降低網(wǎng)絡(luò)利用率，同時獲得令人滿意的控制性能。盡管在現(xiàn)有文獻中事件觸發(fā)控制研究已經(jīng)得到了一定發(fā)展，但在高超聲速飛行器控制領(lǐng)域中仍有待研究，該類控制問題逐漸引起學(xué)界的關(guān)注。

基于上述分析，本文針對高超聲速飛行器控制問題，提出一種基于學(xué)習(xí)的智能控制方法。針對輸入受限的速度子系統(tǒng)，提出一種基于近端策略優(yōu)化算法(Proximal policy optimization, PPO)的智能權(quán)值分配控制方案?？紤]通信資源有限的高度子系統(tǒng)，提出一種基于事件觸發(fā)的確定學(xué)習(xí)控制方案。該方案包含離線學(xué)習(xí)訓(xùn)練和在線觸發(fā)控制兩個階段。該控制方案設(shè)計分為兩個步驟：離線學(xué)習(xí)訓(xùn)練階段和在線觸發(fā)控制階段。第一步，首先在具有充足通信資源的離線控制測試端，利用徑向基函數(shù)(Radial basis function, RBF)神經(jīng)網(wǎng)絡(luò)設(shè)計控制器，獲取高超聲速飛行器系統(tǒng)的未知動態(tài)知識。第二步，對于高超聲速飛行器的遠程在線控制階段，結(jié)合存儲的經(jīng)驗知識構(gòu)建在線觸發(fā)控制器。隨后，結(jié)合高超聲速飛行器動力學(xué)模型與李雅普諾夫理論驗證了所提出的控制方案能夠保證跟蹤性能和閉環(huán)系統(tǒng)的穩(wěn)定性。

本文的主要貢獻總結(jié)如下：1)利用強化學(xué)習(xí)來解決輸入受限下的速度跟蹤控制問題，將經(jīng)過離線學(xué)習(xí)訓(xùn)練獲得的智能體應(yīng)用于在線控制，降低了速度子系統(tǒng)控制器的計算量；2)利用確定學(xué)習(xí)思想來解決高超聲速飛行器的高度跟蹤控制問題，在本地系統(tǒng)資源充足的情況下，經(jīng)過離線學(xué)習(xí)訓(xùn)練獲取系統(tǒng)的未知動態(tài)知識，利用經(jīng)驗知識進行在線控制階段方案設(shè)計，降低了由神經(jīng)網(wǎng)絡(luò)權(quán)值的在線頻繁更新帶來的計算負擔(dān)；3)與已有的神經(jīng)自適應(yīng)控制方案[9]不同，所提出的方案在保證在線暫態(tài)跟蹤性能的同時，通過結(jié)合事件觸發(fā)機制實現(xiàn)了更少的觸發(fā)次數(shù)，避免不必要的通信資源浪費。

1 系統(tǒng)描述和預(yù)備知識

1.1 高超聲速飛行器的縱向模型

本文采用高超聲速飛行器縱向動力學(xué)模型[19]

(1)

該模型包含5個狀態(tài)量X=[V,h,γ,α,Q]T，V，h，γ，α和Q分別表示飛行器的速度、高度、航跡角、攻角和俯仰角速度；m和g分別表示飛行器的質(zhì)量和重力加速度，Iyy表示轉(zhuǎn)動慣量；T，D和L分別表示發(fā)動機推力、阻力和升力，Myy表示俯仰力矩，具體表達式為

(2)

1.2 預(yù)備知識

為了實現(xiàn)離線學(xué)習(xí)控制的知識獲取以及存儲，給出幾個必要的引理。

引理 1[10].對于緊集上的未知平滑非線性函數(shù)fi(xi)，可利用RBF神經(jīng)網(wǎng)絡(luò)對其進行逼近：

(3)

(4)

(5)

式中：εi為任意小的逼近誤差，且常值神經(jīng)網(wǎng)絡(luò)權(quán)值可通過如下方式計算

(6)

式中：tb>ta>T,[ta,tb]為系統(tǒng)穩(wěn)態(tài)后的時間段。

1.3 控制目標

對于輸入受限的速度子系統(tǒng)，設(shè)計基于強化學(xué)習(xí)的智能控制方案，使得輸出速度V穩(wěn)定跟蹤參考信號Vr。對于通信資源有限的高度子系統(tǒng)，設(shè)計基于事件觸發(fā)的確定學(xué)習(xí)控制方案，使得輸出高度h穩(wěn)定跟蹤參考信號hr。

2 控制器設(shè)計

本節(jié)首先針對速度子系統(tǒng)進行強化學(xué)習(xí)訓(xùn)練設(shè)計，實現(xiàn)速度參考信號的跟蹤；然后通過設(shè)計高度子系統(tǒng)跟蹤控制器，使得高度緊密地跟蹤參考軌跡；在此基礎(chǔ)上進行離線神經(jīng)網(wǎng)絡(luò)訓(xùn)練，獲取并存儲神經(jīng)網(wǎng)絡(luò)權(quán)值；最后結(jié)合獲取的經(jīng)驗知識，構(gòu)造在線觸發(fā)控制器。圖1為本文所提出的智能控制方案示意圖。

圖1 基于學(xué)習(xí)的高超聲速飛行器智能控制方法示意圖Fig.1 Schematic diagram of learning-based intelligent controller design for hypersonic flight vehicle

2.1 速度子系統(tǒng)

定義Vr為速度參考信號，則速度跟蹤誤差為eV=V-Vr，其導(dǎo)數(shù)可表示為

(7)

在速度子系統(tǒng)中，考慮實際系統(tǒng)中燃油閥開度飽和的要求，將控制指令輸入表示成如下形式：

(8)

式中：Φc表示理想的燃油閥開度指令；Φmin表示燃油閥開度的下界，源于熱管理系統(tǒng)中主動冷卻功能的需求；Φmax表示燃油閥開度的上界，為了避免發(fā)生熱阻現(xiàn)象而危害系統(tǒng)的穩(wěn)定性。

基于上述分析，可將式(8)改寫成基于權(quán)值分配的形式：

Φ=ωΦΦmin+(1-ωΦ)Φmax

(9)

式中：ωΦ∈[0,1]是一個表示權(quán)重的正常數(shù)。

為了實現(xiàn)燃油閥開度指令的快速響應(yīng)以及抗飽和需求，本文提出了基于PPO算法的智能權(quán)值分配控制器。PPO算法是一種Actor-Critic方法[21]，結(jié)合廣義優(yōu)勢估計方法，可將其優(yōu)勢函數(shù)表示為：

(10)

設(shè)置目標函數(shù)為

(11)

式中：πθ是以θ為參數(shù)的隨機策略網(wǎng)絡(luò)。

本文對于速度子系統(tǒng)的智能控制設(shè)計中，將PPO算法中的舊策略πθold與高超聲速飛行器模型進行多次交互，產(chǎn)生用于強化學(xué)習(xí)訓(xùn)練的數(shù)據(jù)。

(12)

注1.與文獻[22]中所采用的智能PID參數(shù)整定相比，本文所提出的基于PPO算法的智能權(quán)值分配控制器考慮了控制輸入的幅值約束，在獎勵函數(shù)設(shè)計中兼顧了工程實際意義。

2.2 高度子系統(tǒng)

在具有充足通信資源的離線控制測試端，首先通過利用高斯RBF神經(jīng)網(wǎng)絡(luò)設(shè)計神經(jīng)自適應(yīng)控制器，獲取高超聲速飛行器動力學(xué)系統(tǒng)的動態(tài)知識。

2.2.1(h-γ)子系統(tǒng)

定義高度誤差變量為eh=h-hr，并考慮到sinγ≈γ，對其求導(dǎo)得

(13)

式中：gh=V。

設(shè)計如下的航跡角虛擬控制律

(14)

然后定義航跡角誤差變量為eγ=γ-γd，結(jié)合式(1)對其求導(dǎo)得

(15)

設(shè)計鴨翼控制律為

(16)

其更新律設(shè)計如下

(17)

2.2.2(α-Q)子系統(tǒng)

定義期望攻角α*，設(shè)計攻角虛擬控制律：

αd=α*-eγ

(18)

定義攻角跟蹤誤差eα=α-αd，結(jié)合上式可將eα的導(dǎo)數(shù)表示為

(19)

對此，設(shè)計俯仰角速度的虛擬控制律：

(20)

定義俯仰角速度跟蹤誤差為eQ=Q-Qd，則其導(dǎo)數(shù)可寫為

(21)

設(shè)計升降舵控制律為

(22)

其更新律設(shè)計如下：

(23)

以上完成了基本神經(jīng)自適應(yīng)控制的推導(dǎo)，在此基礎(chǔ)上將進行離線神經(jīng)網(wǎng)絡(luò)訓(xùn)練并獲取權(quán)值知識。

2.3 利用存儲的經(jīng)驗知識構(gòu)造在線觸發(fā)控制器

對于高超聲速飛行器的遠程控制階段，調(diào)用存儲的經(jīng)驗知識，構(gòu)建通信資源占用較低的在線觸發(fā)控制器。在給出控制器設(shè)計過程之前，給出以下假設(shè)：

隨后，對于(h-γ)子系統(tǒng)設(shè)計虛擬控制律及更新律設(shè)計為

(24)

設(shè)計基于事件觸發(fā)的鴨翼偏角實際控制律δc為

(25)

對于(α-Q)子系統(tǒng)，設(shè)計虛擬控制律及更新律為

(26)

設(shè)計基于事件觸發(fā)的升降舵偏角實際控制律δe為

(27)

注2.與文獻[9]相比，本文所提出的基于事件觸發(fā)的確定學(xué)習(xí)控制器式(24)～(27)所需的在線計算量更少，更加易于實施。此外，由于事件觸發(fā)機制的引入，能夠使系統(tǒng)在獲得較好的暫態(tài)跟蹤性能的同時，節(jié)省控制器-執(zhí)行器信道間的通信資源。

3 穩(wěn)定性分析

為保證所設(shè)計控制器的收斂性，基于李雅普諾夫穩(wěn)定性分析保證系統(tǒng)有界性。分析和相關(guān)引理如下。

引理 3[23].對于任意的κ>0和φ∈R，如下不等式成立：

(28)

定理 1.對于本文研究的高超聲速飛行器高度子系統(tǒng)，在假設(shè)1以及虛擬控制器(24),(26)，實際控制器及事件觸發(fā)條件(25),(27)的作用下，通過選擇適當?shù)脑O(shè)計參數(shù)，閉環(huán)系統(tǒng)中的所有信號是最終一致有界的，且能夠排除芝諾現(xiàn)象。

證.選取如下李雅普諾夫函數(shù)：

(29)

對于鴨翼偏角指令，由事件觸發(fā)條件式(25)可得，在區(qū)間t∈[tk,tk+1)中存在如下關(guān)系：

vc(t)=(1+βc1(t)mc1)δc(t)+βc2(t)mc2

(30)

式中：βc1(t)和βc2(t)為滿足|βc1(t)|≤1和|βc2(t)|≤1的變量。因此可以得到

(31)

(32)

(33)

(34)

相似地，對于升降舵偏角指令可以得到

(35)

因此，結(jié)合式(24)和(26)，LA的導(dǎo)數(shù)可表示為

(36)

進而，結(jié)合引理2以及楊氏不等式，并應(yīng)用如下的不等式：

(37)

可得

(38)

接下來，將證明所提出的方案可以避免芝諾現(xiàn)象，即觸發(fā)事件不會在有限時間內(nèi)無限次觸發(fā)。為了實現(xiàn)這一目標，只需證明存在一個常數(shù)t*滿足?k∈+,tk+1-tk≥t*。對于(h-γ)子系統(tǒng)，由Ec(t)=vc(tk)-δc(t), ?t∈[tk,tk+1)，可得

(39)

4 仿真校驗

以第1.1節(jié)縱向運動模型(1)作為被控對象，分別按照以下幾個步驟對所提控制方案進行仿真研究。首先利用第2.1節(jié)的方案進行速度子系統(tǒng)強化學(xué)習(xí)訓(xùn)練，然后利用第2.2節(jié)的離線學(xué)習(xí)方案進行訓(xùn)練并獲取經(jīng)驗知識，最后利用第2.3節(jié)的觸發(fā)控制方案進行驗證。

4.1 利用存儲的經(jīng)驗知識構(gòu)造在線觸發(fā)控制器

在訓(xùn)練過程中，Actor和Critic網(wǎng)絡(luò)均采用3×64×128×1的全連接結(jié)構(gòu)，超參數(shù)選取如表1所示，隱藏層激活函數(shù)為線性修正單元(Rectified linear unit, ReLU)函數(shù)，動作網(wǎng)絡(luò)均值激活函數(shù)為雙曲正切函數(shù)。

表1 PPO算法超參數(shù)設(shè)置Table 1 Hyperparameter settings of the PPO algorithm

4.2 離線訓(xùn)練與知識獲取

為了更清晰地展示訓(xùn)練效果，圖2展示了離線訓(xùn)練100 s內(nèi)的輸出跟蹤曲線和神經(jīng)網(wǎng)絡(luò)逼近效果。圖2(a)給出了訓(xùn)練過程中高度的跟蹤效果，可以看出經(jīng)過一個暫態(tài)過程，高度狀態(tài)可以很好地跟蹤參考信號。圖2(b)描述了所定義的訓(xùn)練效果，神經(jīng)網(wǎng)絡(luò)具有較好的收斂效果，因此可以根據(jù)式(25)來存儲控制過程中的經(jīng)驗知識。

4.3 對比仿真

本部分將對比文獻[9]中的神經(jīng)自適應(yīng)方法控制效果從而驗證文中提出控制方案的有效性及優(yōu)點。圖3～圖6展示了兩種方案對比的仿真結(jié)果。其中，圖3給出了速度與高度跟蹤的效果對比，兩種方法均能夠?qū)崿F(xiàn)對參考指令的跟蹤，本文的方案具有更高的跟蹤精度。圖4(a)(b)(c)分別給出了速度子系統(tǒng)和高度子系統(tǒng)控制輸入曲線。圖5給出了姿態(tài)角變化曲線。圖6描述了由控制器到執(zhí)行器間的觸發(fā)情況，可以看出在事件觸發(fā)機制的作用下，所提方案可以在一定程度上減少觸發(fā)次數(shù)，從而節(jié)省通信資源。表2展示了本文方法和對比方法在觸發(fā)次數(shù)以及CPU耗時方面的對比結(jié)果。通過表2可知，由于學(xué)習(xí)控制的過程中不需要對神經(jīng)網(wǎng)絡(luò)權(quán)值參數(shù)進行在線調(diào)節(jié)，計算量大大降低，通信資源占用更少，所提的學(xué)習(xí)控制方法節(jié)約了近4/5的計算時間。

圖3 速度和高度跟蹤效果Fig.3 Velocity and altitude tracking performances

圖4 控制輸入曲線Fig.4 Curves of the system inputs

圖5 姿態(tài)角變化曲線Fig.5 Curves of the attitude angles

圖6 事件觸發(fā)時間間隔Fig.6 Curves of the event interval time

表2 性能對比Table 2 Performance comparison

5 結(jié) 論

針對吸氣式高超聲速飛行器的飛行控制問題，本文提出一種基于學(xué)習(xí)的智能控制方法，將離線學(xué)習(xí)訓(xùn)練獲取的智能體和經(jīng)驗知識應(yīng)用于在線控制，分別解決了輸入受限下的速度跟蹤控制問題和有限通信資源條件下的高度跟蹤控制問題。利用李雅普諾夫理論證明了該控制器能夠保證高度跟蹤誤差收斂到零的小鄰域內(nèi)，且不會發(fā)生芝諾現(xiàn)象。仿真結(jié)果驗證了此方案能夠在節(jié)省通信資源、減少算法計算量的同時，實現(xiàn)良好的飛行跟蹤效果。