一種非仿射高超聲速飛行器的智能控制方法*

2021-11-24 02:15:18馬長波茹海忠馬廣程夏紅偉

飛控與探測 2021年4期

王冠，馬長波，茹海忠，馬廣程，夏紅偉

(1.哈爾濱工業(yè)大學(xué) 航天學(xué)院·哈爾濱·150001；2.上海衛(wèi)星工程研究所·上?！?01109)

0 引言

高超聲速飛行器(Hypersonic Flight Vehicle, HFV)是一類速度不低于馬赫數(shù)5的臨近空間飛行器。與傳統(tǒng)飛行器相比，HFV在速度、飛行包線和突防能力等方面具備明顯的優(yōu)勢。控制系統(tǒng)作為HFV的重要子系統(tǒng)，是使其完成既定任務(wù)和安全飛行的重要保障。然而，HFV在飛行過程中具有快時變、強非線性、強耦合性等特點，這使其控制系統(tǒng)的設(shè)計成為HFV在實現(xiàn)工程應(yīng)用時所面臨的具有巨大挑戰(zhàn)性的核心問題之一。

近年來，許多先進(jìn)的控制技術(shù)已被應(yīng)用于HFV控制，如自適應(yīng)控制[1]、滑?？刂芠2]、魯棒控制[3]、容錯控制[4]、模糊控制[5]、神經(jīng)網(wǎng)絡(luò)控制[6]等，并取得了較好的效果。上述控制研究大都基于仿射模型而設(shè)計控制器，模型中的氣動系數(shù)根據(jù)已知曲線擬合模型進(jìn)行近似。然而，HFV實際受到的氣動力與攻角、控制舵偏角等因素呈非仿射關(guān)系，將其描述為仿射模型，會造成一定程度的控制精度損失。損失嚴(yán)重時，在某些情況下，將不能正確描述飛行器的氣動特性。因此，目前針對HFV非仿射模型的研究受到了越來越多的關(guān)注。BU[7]利用神經(jīng)網(wǎng)絡(luò)估計了未知的非仿射動態(tài)，設(shè)計了基于反步法的控制器。WANG等[8]建立了縱向通道的半分解半仿射模型形式，在考慮了執(zhí)行機構(gòu)死區(qū)的前提下設(shè)計了預(yù)設(shè)性能控制器。HU等[9]通過反饋線性化方法設(shè)計了魯棒自適應(yīng)模糊控制器，利用中值定理處理了氣動阻力表達(dá)式中的非仿射形式項，進(jìn)而得到了仿射模型。SHEN等[10]針對非仿射縱向短周期姿態(tài)模型，設(shè)計了自適應(yīng)滑模模糊控制器，并取得了較好的控制效果。

隨著未來HFV任務(wù)需求的發(fā)展和控制復(fù)雜度的增大，上述以經(jīng)典控制理論為基礎(chǔ)發(fā)展起來的控制方法面臨一定的技術(shù)瓶頸[11]。近年來，深度學(xué)習(xí)、強化學(xué)習(xí)等機器學(xué)習(xí)手段逐漸地受到控制科學(xué)領(lǐng)域研究學(xué)者的關(guān)注，人工智能技術(shù)的飛速發(fā)展為飛行器自主智能飛行的實現(xiàn)提供了新的可能。早在20世紀(jì)末期，華裔科學(xué)家吳恩達(dá)[12]利用強化學(xué)習(xí)中智能體不斷與環(huán)境進(jìn)行交互的特點，對智能直升機進(jìn)行了相關(guān)應(yīng)用的研究，利用策略梯度算法對無人直升機懸停進(jìn)行了控制。近幾年興起的深度確定性策略梯度算法(Deep Deterministic Policy Gradient, DDPG)[13]則是深度強化學(xué)習(xí)中具有代表性的算法之一。KOCH等[14]利用強化學(xué)習(xí)訓(xùn)練了四旋翼角速率內(nèi)環(huán)控制器，并獲得了部分性能優(yōu)于PID控制器的效果。本文針對HFV的非仿射模型，進(jìn)行了基于DDPG算法的飛行控制研究。不同于無人直升機和四旋翼，本文的研究對象HFV是一種非傳統(tǒng)的飛行器，其具有面臨的飛行環(huán)境復(fù)雜、模型非線性程度高、強耦合以及參數(shù)不確定等特點，上述特點增加了將機器學(xué)習(xí)方法直接應(yīng)用于HFV控制中的難度。此外，從目前的技術(shù)途徑來看，無論是傳統(tǒng)的最優(yōu)控制，還是深度強化學(xué)習(xí)，在飛行器實時自主控制方面均存在不足。傳統(tǒng)控制方法與新興人工智能的關(guān)系不是替代關(guān)系，而是應(yīng)該相輔相成。以反步控制為例，其具有算法簡單易實現(xiàn)、穩(wěn)定可靠的優(yōu)勢，這都是當(dāng)前智能控制技術(shù)所欠缺的特點。因此，本文研究了基于反步控制框架的智能控制器，將傳統(tǒng)飛行控制與人工智能技術(shù)進(jìn)行了創(chuàng)新結(jié)合，這是實現(xiàn)智能控制發(fā)展的一個重要方向，也是解決HFV智能飛行控制的一種可靠思路。

基于以上分析，本文針對HFV非仿射模型研究了基于強化學(xué)習(xí)的反步控制方法。在本文其余部分，首先給出了HFV的數(shù)學(xué)模型，然后利用反步法的思想，依次設(shè)計了俯仰角速度虛擬控制指令和升降襟副翼控制律，并借助Lyapunov方法分析了閉環(huán)系統(tǒng)的穩(wěn)定性。在此基礎(chǔ)上，利用DDPG算法，設(shè)計了針對反步控制的智能參數(shù)整定和控制律補償方案。最后，通過仿真實驗對其控制效果進(jìn)行了驗證。

1 數(shù)學(xué)模型和問題描述

1.1 HFV縱向通道非線性模型

本文以文獻(xiàn)[15]給出的一類HFV為研究對象，研究了其縱向非線性模型的控制問題。其模型可描述為

(1)

式中，攻角α、俯仰角速率Q和航跡傾角γ是HFV短周期運動的三個狀態(tài)變量；Iyy是俯仰通道轉(zhuǎn)動慣量；MA和MT分別是由氣動力和推力產(chǎn)生的俯仰力矩；Δ是由環(huán)境干擾、模型不確定性等因素造成的額外擾動。MA和MT可表示為

(2)

1.2 問題描述

本文的研究目標(biāo)為：設(shè)計升降襟副翼控制律δa和δe，使得攻角α能夠跟蹤給定的參考指令αd。為實現(xiàn)此目標(biāo)，本文以反步法為基礎(chǔ)，在考慮外部擾動的情況下，以俯仰角速度作為虛擬控制量，設(shè)計了虛擬控制律，進(jìn)而完成了升降襟副翼控制律的設(shè)計。由于反步法對參數(shù)比較敏感，對其的調(diào)整在很大程度上依賴于控制人員的經(jīng)驗，通常需要經(jīng)過反復(fù)的試驗，才能達(dá)到較好的控制效果。此外，對于處于復(fù)雜飛行環(huán)境和執(zhí)行復(fù)雜飛行任務(wù)的HFV而言，較多的控制量將導(dǎo)致其參數(shù)整定工作耗時且繁瑣，往往會給控制器的設(shè)計帶來諸多不便。在反步控制的基礎(chǔ)上，利用強化學(xué)習(xí)進(jìn)行智能參數(shù)整定和控制律補償，將使俯仰角速度能夠較好地跟蹤俯仰角速度虛擬控制指令，進(jìn)而實現(xiàn)HFV的飛行控制。

2 控制器設(shè)計

本節(jié)主要介紹控制器設(shè)計的具體方案。首先，利用反步法分別設(shè)計了俯仰角速度虛擬控制律和升降襟副翼控制律；然后，給出了所采用的DDPG算法的原理；最后，將其與反步控制結(jié)合，提出了本文所研究的智能控制器。

2.1 俯仰角速度虛擬控制律設(shè)計

首先，定義x1=α-αd。根據(jù)式(1)可得

(3)

(4)

式中，H和V為HFV的高度和速度，可由相應(yīng)的傳感器測量得到。

對于式(3)，設(shè)計虛擬控制律Qd

(5)

式中，k1為控制增益。定義誤差變量x2=Q-Qd。結(jié)合式(5)，可將式(3)寫為

(6)

(7)

2.2 升降襟副翼控制律設(shè)計

對于誤差變量x2的動態(tài)，文獻(xiàn)[11]給出的CD的表達(dá)式包含控制量u的二次項。根據(jù)文獻(xiàn)[11]和式(2)，這些分量會對攻角和俯仰角速度動態(tài)產(chǎn)生一定的影響，其影響隨馬赫數(shù)增加而愈發(fā)明顯，對其進(jìn)行簡單忽略并不合理?；诖?，x2的動態(tài)可描述為

(8)

式中，未知函數(shù)f(·)是連續(xù)可導(dǎo)的非仿射控制函數(shù)，為由氣動系數(shù)不準(zhǔn)確和外部干擾所導(dǎo)致的擾動項。同時，選定u0(x)作為控制輸入的理想值

(9)

式中，k2>0為控制增益。

假設(shè)|u-f(x1,x2,u,Δ)|

(10)

(11)

式中，σ>0為收斂系數(shù)。

(12)

對于W=W1+W2的導(dǎo)數(shù)而言

≤0

(13)

因此，在假設(shè)未知函數(shù)有界時，可以通過以上控制設(shè)計進(jìn)行實現(xiàn)。需要指出的是，在上述反步控制器中，控制參數(shù)的值將直接影響控制輸入的大小，進(jìn)而影響到控制的效果。

2.3 基于深度強化學(xué)習(xí)的HFV控制策略

(14)

DDPG算法借鑒了深度Q網(wǎng)絡(luò)算法的優(yōu)秀經(jīng)驗，將記憶回放單元以(si,ai,ri+1,si+1)的形式存儲為樣本，而后模擬人類大腦的回憶過程進(jìn)行了采樣學(xué)習(xí)。對于動作價值網(wǎng)絡(luò)的訓(xùn)練，是要最小化損失函數(shù)

(15)

其中，yi=ri+γfQ(si+1,μ(si+1)|θQ)，N為樣本總數(shù)。不同于深度Q網(wǎng)絡(luò)算法直接將策略網(wǎng)絡(luò)的參數(shù)賦值給目標(biāo)網(wǎng)絡(luò)，DDPG算法采用的是更加平滑的、類似慣性更新的思想，以進(jìn)行目標(biāo)網(wǎng)絡(luò)的參數(shù)更新。τ為慣性更新率

(16)

以上介紹了DDPG算法的基本原理。下面利用控制器補償?shù)乃枷?，結(jié)合強化學(xué)習(xí)，設(shè)計了如下控制器

u=u0+uL

(17)

其中，uL為補償指令。所設(shè)計的智能控制器的結(jié)構(gòu)如圖1所示。

圖1 控制器結(jié)構(gòu)Fig.1 The structure of the controller

至此，本小節(jié)基于反步法的控制律設(shè)計并結(jié)合DDPG算法原理提出了一種HFV智能控制器。其主要思想為：一方面，利用參數(shù)整定機制取代耗時的試錯方法，可以根據(jù)當(dāng)前的飛行條件決定關(guān)鍵的控制參數(shù)；另一方面，通過生成合理的補償指令，可實現(xiàn)對HFV的安全高效控制。

3 仿真試驗及結(jié)果分析

3.1 訓(xùn)練流程

為驗證上述方法的有效性，首先需要采用DDPG算法進(jìn)行訓(xùn)練。在本文中，狀態(tài)集選為st=(α,Q,V,H)，動作集選為αt=(k1,k2,uL)。此外，獎勵函數(shù)可設(shè)為如下形式

(18)

其中，kα和kδ是獎勵函數(shù)中兩個目標(biāo)的權(quán)重；αmax和δmax是攻角和舵偏角的上界值，其目的是將不同量級上的狀態(tài)進(jìn)行歸一化處理。

本文所考慮的訓(xùn)練場景基于表1中HFV的狀態(tài)約束。在每輪訓(xùn)練開始時，智能體根據(jù)系統(tǒng)隨機產(chǎn)生的初始狀態(tài)，不斷地對外部環(huán)境進(jìn)行試探，并進(jìn)行對整個狀態(tài)空間的探索，以找到行動值更高的行動。

表1 HFV的狀態(tài)約束

Actor網(wǎng)絡(luò)和Critic網(wǎng)絡(luò)均采用了全連接結(jié)構(gòu)。其中，Actor網(wǎng)絡(luò)使用了三層神經(jīng)網(wǎng)絡(luò)，其輸入為系統(tǒng)的狀態(tài)集st，輸出k1、k2為反步法的控制參數(shù)，uL為控制器的補償指令；Critic網(wǎng)絡(luò)使用了兩層神經(jīng)網(wǎng)絡(luò)，其輸入為系統(tǒng)的狀態(tài)和動作集，輸出為擬合行動值Q(s,a)。tanh函數(shù)g1(z)的輸出位于(-1,1)之間，這樣可保證控制輸入約束在一定范圍。因此，本文中Actor網(wǎng)絡(luò)的輸出層采用了tanh函數(shù)。除此之外，其余網(wǎng)絡(luò)均采用了可為神經(jīng)網(wǎng)絡(luò)提供更快處理速度的Relu函數(shù)g2(z)。在所選用的DDPG中，訓(xùn)練的相關(guān)參數(shù)設(shè)置如表2所示。

表2 訓(xùn)練參數(shù)設(shè)置

(19)

在本文中，kα=0.8，kδ=0.2。設(shè)計算法的仿真時長為T=100s，步長dt=0.2s。因此，在一個回合訓(xùn)練中有500個數(shù)據(jù)。通過訓(xùn)練得到的獎勵如圖2所示。由圖2可以看出，累積獎勵在300回合左右基本收斂，展現(xiàn)了快速學(xué)習(xí)的過程。DDPG是采用深度神經(jīng)網(wǎng)絡(luò)進(jìn)行函數(shù)擬合的一類新興的強化學(xué)習(xí)算法，適合解決復(fù)雜大維度應(yīng)用場景問題，并已在圍棋AlphaZero算法中得到了技術(shù)驗證[16]。需要指出的是，智能控制的實際應(yīng)用可能存在的缺點包括了由隨機動作探索引發(fā)的學(xué)習(xí)效率低下以及訓(xùn)練樣本的海量需求。本文關(guān)于HFV智能控制的探索工作主要針對縱向通道的控制問題，這極大地簡化了訓(xùn)練的復(fù)雜程度。

圖2 總回報獎勵曲線Fig.2 Total reward curve

3.2 仿真結(jié)果

針對式(1)中的HFV動力學(xué)模型進(jìn)行了仿真實驗。其中，式(2)所采用的氣動參數(shù)可參考文獻(xiàn)[16]。所選取的飛行任務(wù)是HFV在巡航狀態(tài)下，飛行速度設(shè)置為V=3060m/s，飛行高度設(shè)置為h=20000 m，飛行狀態(tài)初始條件為α(0)=2.66°，q(0)=0[(°)·s-1]，跟蹤指定的攻角參考軌跡αd(t)=5+2e-0.3t-2.5e-0.05t(°)。

首先，將訓(xùn)練出的神經(jīng)網(wǎng)絡(luò)移植到所提出的控制器中，在當(dāng)前任務(wù)中所產(chǎn)生的控制參數(shù)和補償指令如圖3所示。

(a)控制參數(shù)

(b)控制指令補償圖3 控制參數(shù)和補償指令Fig.3 Control parameters and compensation commands

接下來，將式(10)對應(yīng)的控制方法(記為對比方法1)和文獻(xiàn)[7]對應(yīng)的控制方法(記為對比方法2)作為對照，進(jìn)行仿真實驗。圖4分別給出了其攻角、俯仰角速度、升降襟副翼偏轉(zhuǎn)角的狀態(tài)曲線。由仿真結(jié)果可以看出，上述三種方法均可取得較好的攻角跟蹤控制效果。其中，對比方法2和本文方法的控制效果要優(yōu)于對比方法1。對比方法2在控制初始階段會產(chǎn)生較為明顯的抖振，并且兩種對比方法的控制效果均依賴于參數(shù)調(diào)整。本文方法能夠在較短的時間內(nèi)實現(xiàn)攻角跟蹤，這是由于相比于對比方法，本文方法經(jīng)強化學(xué)習(xí)而得到的控制參數(shù)是隨系統(tǒng)狀態(tài)可調(diào)整的，且對控制器具備較好的補償作用。

(a)攻角

(b)俯仰角速度

(c)升降襟副翼偏轉(zhuǎn)角圖4 對比實驗Fig.4 Comparative simulations

最后，為了驗證對參數(shù)不確定性的適應(yīng)能力，考慮氣動參數(shù)在標(biāo)稱值±20%內(nèi)變化，對該任務(wù)執(zhí)行了600次的蒙特卡洛仿真實驗，實驗結(jié)果如圖5所示。由圖5可以看出，本文方法具有較好的魯棒性。