王 佳,曾慶華
(中山大學(xué) 航空航天學(xué)院, 廣州 510006)
RLV再入過程一般可分為再入段、末端能量管理段和自動著陸段。RLV再入段制導(dǎo)精度、魯棒性和可靠性直接影響再入過程是否能夠順利完成;再入段高度跨度大,環(huán)境復(fù)雜,由于大氣擾動、飛行器氣動模型和再入段初值的偏差,嚴(yán)重影響了RLV的制導(dǎo)精度[1]。自SpaceX公司2015年12月22日成功實現(xiàn)可重復(fù)使用運載火箭的垂直回收,火箭回收以其低成本的優(yōu)勢掀起了國內(nèi)的研究熱潮,RLV再入段的彈道優(yōu)化和制導(dǎo)也成為研究熱點。
彈道優(yōu)化是指在各種約束條件下,求解滿足預(yù)設(shè)性能指標(biāo)最小的彈道。彈道優(yōu)化本質(zhì)上是最優(yōu)控制問題,其數(shù)值求解方法有間接法和直接法。間接法需要推導(dǎo)最優(yōu)控制問題的一階必要條件,得到關(guān)于最優(yōu)控制的Hamiltonian邊值問題(HBVP),再用數(shù)值方法參數(shù)化HBVP,間接法求解精度高,但是必須提供解析形式的最優(yōu)必要條件和精確的初值,對多約束問題求解比較困難[2]。RLV再入段彈道優(yōu)化包含過程約束、終端約束和控制量約束等,工程上存在初值不穩(wěn)定的問題,不適宜用間接法求解;直接法避免了推導(dǎo)一階必要條件,求解易收斂[3]。偽譜法屬于直接法的一種,已經(jīng)廣泛應(yīng)用于飛行器軌跡優(yōu)化[4],文獻[5]用Gauss偽譜法求解月球定點著陸優(yōu)化問題;文獻[6]用Gauss偽譜法求解火星大氣進入的軌跡優(yōu)化問題; 文獻[7]將Radau偽譜法用于解決航天飛機再入段彈道優(yōu)化問題;文獻[8]將hp自適應(yīng)偽譜法應(yīng)用于再入軌跡優(yōu)化;文獻[9]將hp自適應(yīng)偽譜法用于飛行器多階段的軌跡優(yōu)化。本文采用hp自適應(yīng)偽譜法進行RLV再入段彈道優(yōu)化,將RLV再入段連續(xù)最優(yōu)控制問題的求解轉(zhuǎn)化為求解非線性規(guī)劃(NLP)問題[10]。hp自適應(yīng)偽譜法結(jié)合Radau偽譜法和hp有限元法,與Radau偽譜法相比,能夠自動減少配點數(shù)目,從而降低NLP問題求解規(guī)模并提高計算效率,對初值的敏感程度較Gauss偽譜法要低。
飛行器制導(dǎo)分為標(biāo)準(zhǔn)彈道制導(dǎo)和預(yù)測校正制導(dǎo)。標(biāo)準(zhǔn)彈道制導(dǎo)包括彈道生成和在線彈道跟蹤,在初始偏差較小時可以實現(xiàn)較高精度的制導(dǎo)[11];文獻[12]研究了運載器大氣層內(nèi)的制導(dǎo)問題,利用線性二次型調(diào)節(jié)器(LQR)方法對規(guī)劃彈道進行跟蹤,LQR方法多用于多輸入多輸出系統(tǒng)[13],存在狀態(tài)和初值偏差時仍能取得較好的制導(dǎo)效果;文獻[14]提出了軌跡線性化的制導(dǎo)方案,該方案對參考彈道依賴性小、制導(dǎo)精度較高。但是標(biāo)準(zhǔn)彈道制導(dǎo)精度很容易受到環(huán)境干擾和初值偏差的影響[15],魯棒性能較弱。預(yù)測校正制導(dǎo)無需儲存標(biāo)準(zhǔn)彈道,根據(jù)預(yù)測的終端狀態(tài)與目標(biāo)參數(shù)之差實時產(chǎn)生制導(dǎo)指令?;趥巫V法的預(yù)測制導(dǎo)方法能夠根據(jù)當(dāng)前飛行器的狀態(tài)實時產(chǎn)生制導(dǎo)指令,有效地消除環(huán)境和氣動干擾,屬于最優(yōu)閉環(huán)制導(dǎo)。文獻[16]研究了基于偽譜法的再入飛行器最優(yōu)閉環(huán)制導(dǎo)問題,該方法可以有效應(yīng)對各類干擾;文獻[17]研究了偽譜法在巡航導(dǎo)彈的應(yīng)用,該方法對初值擾動和陣風(fēng)干擾不敏感,有效減小了導(dǎo)彈的脫靶量。但是偽譜法計算量大,求解耗時較長,且在大的初值估計誤差和干擾下很可能造成無法收斂的情況,因此很難在工程上得到應(yīng)用。文獻[18]基于BP神經(jīng)網(wǎng)絡(luò)研究了滑翔飛行器的制導(dǎo)問題,制導(dǎo)周期較短,但采用了多個神經(jīng)網(wǎng)絡(luò)控制器,結(jié)構(gòu)復(fù)雜,且只對單個變量進行拉偏仿真驗證,未體現(xiàn)控制器抗組合干擾性能。
基于精確模型設(shè)計的制導(dǎo)方案難以克服組合干擾,無法同時滿足飛行器對過程約束、控制變量約束、終端位置、終端速度和落點姿態(tài)的要求。hp自適應(yīng)偽譜法能夠在初值偏差和任意干擾條件下規(guī)劃出滿足性能指標(biāo)和約束條件的最優(yōu)彈道,本文充分發(fā)揮hp自適應(yīng)偽譜法求解精度高的優(yōu)勢,解決了預(yù)測制導(dǎo)周期長的問題,利用BP神經(jīng)網(wǎng)絡(luò)強大的學(xué)習(xí)和快速預(yù)測的能力,設(shè)計了用于RLV再入段制導(dǎo)的神經(jīng)網(wǎng)絡(luò)制導(dǎo)控制器,實現(xiàn)方法簡便。在飛行過程中,RLV受到外界環(huán)境干擾和初始偏差的影響,實際飛行路線偏離優(yōu)化彈道,基于實時獲取的捷聯(lián)導(dǎo)航信息,所設(shè)計的神經(jīng)網(wǎng)絡(luò)制導(dǎo)控制器可在0.01 s內(nèi)產(chǎn)生制導(dǎo)指令引導(dǎo)RLV飛向目標(biāo)點。
對RLV再入段的空間彈道方程作一些簡化假設(shè):1) 將地球視為均質(zhì)圓球;2) 忽略地球扁率和地球自轉(zhuǎn)的影響。
RLV再入段只受氣動力作用,發(fā)射系下的數(shù)學(xué)模型為
(1)
其中,φ、ψ為俯仰角和偏航角;X、Y、Z為氣動力;R0為地球半徑;m為RLV質(zhì)量;x、y、z、vx、vy、vz為RLV的位置和速度;r為地心矢徑;μ為地球引力常數(shù);g為地球引力。
RLV運動時滿足下列約束條件:
1) 邊界約束
(2)
2) 路徑(控制)約束:
(3)
3) 過程約束包括熱流密度約束、動壓約束和總過載約束,分別為
(4)
4) 目標(biāo)函數(shù)。針對上述非線性系統(tǒng),hp自適應(yīng)偽譜法優(yōu)化的原理是:滿足邊界條件、控制約束和動力學(xué)模型的同時找到控制量攻角α和側(cè)滑角β,滿足:
J=min(ka·α2+kb·β2)
(5)
J最小化控制量的加權(quán)平方和,其中ka和kb是權(quán)重,當(dāng)α、β約束范圍不同時,可以通過調(diào)整ka和kb改變α、β的權(quán)重。
上述RLV再入段的最優(yōu)控制問題,可以通過GPOPS Version5.0軟件求解。
關(guān)于RLV再入段彈道優(yōu)化的最優(yōu)控制問題可表述為:在滿足邊界和路徑約束的條件下,尋找控制變量u=[α,β]T,使以下積分性能指標(biāo)最?。?/p>
(6)
其中,t∈[t0,tf],x=[x,y,z,vx,vy,vz]T,Φ和g分別為終端和積分指標(biāo)函數(shù)。
求解最優(yōu)控制問題需滿足下列約束:
1) 運動模型
(7)
2) 邊界約束
E(x(t0),t0,x(tf),tf)=0
(8)
3) 路徑(控制)約束
Cmin≤C(x(t),u(t),t)≤Cmax
(9)
hp自適應(yīng)偽譜法將控制量和狀態(tài)量在一系列離散點上離散化,構(gòu)造離散點處的拉格朗日多項式逼近控制量和狀態(tài)量,狀態(tài)量的導(dǎo)數(shù)可通過對全局插值多項式求導(dǎo)獲得。
將時間t分為K個子區(qū)間對應(yīng)RLV再入段的k個階段,有?t∈[tk-1,tk],t0=t1<… (10) 其中,k=1,2,…,K。構(gòu)造離散點處的拉格朗日多項式逼近狀態(tài)量x和控制量u: (11) 將式(11)代入式(7)運動方程,將狀態(tài)量x和控制量u在Legendre-Gauss-Radau(LGR)點離散化: (12) 式(13)、式(14)是對RLV再入段約束條件的離散化。 邊界約束: (13) 路徑(控制)約束: (14) 式(6)所述性能指標(biāo)函數(shù)在LGR點離散化后,近似為 (15) 如圖1所示,前向神經(jīng)網(wǎng)絡(luò)是一種3層網(wǎng)絡(luò)結(jié)構(gòu),包括輸入層、輸出層和隱含層,BP神經(jīng)網(wǎng)絡(luò)(Back Propagation Neuron Network)是一種誤差反向傳播的前向神經(jīng)網(wǎng)絡(luò),因其能逼近任意非線性函數(shù)和良好的學(xué)習(xí)能力而應(yīng)用廣泛[19]。 圖1 BP神經(jīng)網(wǎng)絡(luò)模型 假設(shè)BP神經(jīng)網(wǎng)絡(luò)的輸入層、隱含層和輸出層神經(jīng)元分別用變量i、j、k表示,其中,i=1,2,…,P、j=1,2,…,Q、k=1,2,…,R神經(jīng)網(wǎng)絡(luò)的輸入數(shù)據(jù)用X=[x1,x2,…,xP]表示,神經(jīng)網(wǎng)絡(luò)的輸出數(shù)據(jù)用Y=[y1,y2,…,yR]表示。隱含層任意神經(jīng)元的輸入為netj,輸出為yj: (16) 其中,mji是輸入層和隱含層任意兩神經(jīng)元之間的權(quán)值,netj經(jīng)過激活函數(shù)y=f(·)輸出yj,常用的激活函數(shù)有線性函數(shù)、斜坡函數(shù)、閾值函數(shù)、S型函數(shù)和雙極S型函數(shù),可根據(jù)研究對象選擇合適的激活函數(shù)。 輸出層任意神經(jīng)元的輸入為netk,輸出為yk: (17) 其中,mkj是輸出層和隱含層任意兩神經(jīng)元之間的權(quán)值。當(dāng)BP神經(jīng)網(wǎng)絡(luò)正向傳播輸出與期望值的誤差未達到期望精度,就會反向傳播修正權(quán)值,直到BP神經(jīng)網(wǎng)絡(luò)的輸出達到期望精度。 設(shè)計神經(jīng)網(wǎng)絡(luò)制導(dǎo)控制器,關(guān)鍵在于通過偽譜法產(chǎn)生大量關(guān)于RLV狀態(tài)量x、y、z、vx、vy、vz和控制量α、β的數(shù)據(jù)對構(gòu)成樣本庫,樣本庫反映了RLV再入段狀態(tài)量和控制量之間的非線性模型, BP神經(jīng)網(wǎng)絡(luò)通過學(xué)習(xí)樣本庫逼近非線性模型。對任意狀態(tài)量x、y、z、vx、vy、vz,神經(jīng)網(wǎng)絡(luò)控制器都可以預(yù)測出控制量α、β。圖2給出了設(shè)計神經(jīng)網(wǎng)絡(luò)制導(dǎo)控制器的方法和將其用于在線指導(dǎo)的總體方案。 圖2 神經(jīng)網(wǎng)絡(luò)制導(dǎo)控制器制導(dǎo)總體方案框圖 制導(dǎo)總體方案實現(xiàn)步驟: 1) 對RLV的質(zhì)量、氣動系數(shù)、初始位置和偏差同時進行拉偏,產(chǎn)生多組干擾數(shù)據(jù),構(gòu)成干擾庫; 2) 基于干擾庫數(shù)據(jù),多次利用hp自適應(yīng)偽譜法優(yōu)化彈道獲得關(guān)于狀態(tài)量和控制量的數(shù)據(jù)對,構(gòu)成樣本庫; 3) BP神經(jīng)網(wǎng)絡(luò)訓(xùn)練樣本庫獲得神經(jīng)網(wǎng)絡(luò)制導(dǎo)控制器,用神經(jīng)網(wǎng)絡(luò)控制器去逼近狀態(tài)量和控制量之間的復(fù)雜非線性模型,其中步驟1)~3)都是離線完成; 4) 將神經(jīng)網(wǎng)絡(luò)制導(dǎo)控制器與RLV再入段運動模型構(gòu)成閉環(huán),飛行狀態(tài)下RLV的運動狀態(tài)量x、y、z、vx、vy、vz反饋到神經(jīng)網(wǎng)絡(luò)制導(dǎo)控制器,神經(jīng)網(wǎng)絡(luò)制導(dǎo)控制器再根據(jù)當(dāng)前飛行狀態(tài)實時產(chǎn)生制導(dǎo)指令α、β; 5) RLV將狀態(tài)量x、y、z、vx、vy、vz反饋給神經(jīng)網(wǎng)絡(luò)制導(dǎo)控制器后,神經(jīng)網(wǎng)絡(luò)制控制器需要對狀態(tài)量進行歸一化、預(yù)測控制量、對控制量反歸一化得到控制指令α、β。定義神經(jīng)網(wǎng)絡(luò)制導(dǎo)控制器從獲取RLV反饋狀態(tài)量到產(chǎn)生控制量α、β經(jīng)歷的時間T為制導(dǎo)周期,利用神經(jīng)網(wǎng)絡(luò)制導(dǎo)控制器進行飛行彈道積分仿真驗證,評估其制導(dǎo)周期和魯棒性。 對RLV質(zhì)量m、氣動系數(shù)CA、CN、CZ、初始位置和初始速度x0、y0、z0、vx0、vy0、vz0施加組合干擾,10個干擾項的極值見表1。 表1 干擾項 在干擾項極值內(nèi)產(chǎn)生100組隨機組合干擾,為了在偽譜法優(yōu)化階段產(chǎn)生狀態(tài)量x、y、z、vx、vy、vz的最大值和最小值,以防止神經(jīng)網(wǎng)絡(luò)制導(dǎo)控制器制導(dǎo)開始時對RLV反饋的狀態(tài)量歸一化時超出區(qū)間(0,1),需要對10個干擾項施加極限干擾得到20組極限單項干擾,上述問題得到解決,干擾庫由這120組干擾數(shù)據(jù)構(gòu)成。 生成樣本庫框圖如圖3。RLV飛行任務(wù)是以目標(biāo)速度(vxf,vyf,vzf)到達目標(biāo)位置(xf,yf,zf),基于GPOPS軟件建立偽譜法優(yōu)化程序;將120組干擾施加到偽譜法優(yōu)化模型,利用偽譜法產(chǎn)生120條優(yōu)化彈道,由于hp自適應(yīng)偽譜法得到的數(shù)據(jù)點比較少,不能較好的覆蓋飛行全過程,無法精確反映出任意彈道狀態(tài)點上的非線性模型,所以需要對偽譜法產(chǎn)生的狀態(tài)量和控制量進行插值,或者以步長0.01對偽譜法產(chǎn)生的控制量進行四階龍格庫塔積分計算,得到大約85.5萬個關(guān)于狀態(tài)量x、y、z、vx、vy、vz和控制量α、β的樣本對,構(gòu)成樣本庫。 圖3 偽譜法產(chǎn)生樣本庫框圖 BP神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)樣本庫的算法流程如圖4所示。對樣本庫進行數(shù)據(jù)歸一化處理,目的在于:樣本數(shù)據(jù)范圍大小在模式分類中的作用程度差別較大,會降低神經(jīng)網(wǎng)絡(luò)收斂速度,使訓(xùn)練時間變長,要避免輸入神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)范圍過大;初始化神經(jīng)網(wǎng)絡(luò)隱藏層神經(jīng)元個數(shù)、權(quán)值、閾值、迭代次數(shù)、學(xué)習(xí)率和目標(biāo)誤差ξ;神經(jīng)網(wǎng)絡(luò)正向傳播計算隱含層和輸出層的輸出,當(dāng)神經(jīng)網(wǎng)絡(luò)預(yù)測值和真實值的差小于目標(biāo)誤差ξ則輸出保存權(quán)值,否則誤差開始反向傳播修正權(quán)值矩陣,再次進行訓(xùn)練,學(xué)習(xí)完所有樣本后輸出神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)和權(quán)值矩陣;當(dāng)樣本庫訓(xùn)練BP神經(jīng)網(wǎng)絡(luò)的擬合度(Regression)>λ,再用檢測樣本對神經(jīng)網(wǎng)絡(luò)模型進行檢驗,剔除過擬合和欠擬合的神經(jīng)網(wǎng)絡(luò)模型,最終得到神經(jīng)網(wǎng)絡(luò)制導(dǎo)控制器。 圖4 BP神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)算法流程框圖 用偽譜法的彈道優(yōu)化計算軟件環(huán)境:Win10 64 bit操作系統(tǒng)、MATLAB R2019a;仿真計算硬件環(huán)境Intel Corei7-7700處理器、16.0 GB RAM。RLV彈道優(yōu)化約束條件如表2所示。 表2 約束條件 圖5~圖10表示了標(biāo)準(zhǔn)條件下hp自適應(yīng)偽譜法所得優(yōu)化彈道參數(shù),圖5~圖10同時給出了基于偽譜法產(chǎn)生的控制指令進行彈道積分計算得到的結(jié)果,圖11給出了過載和動壓曲線。 圖5 位置x曲線 圖6 位置y曲線 圖7 位置z曲線 圖8 速度vx曲線 圖9 速度vy曲線 圖10 速度vz曲線 圖11 過載和動壓變化曲線 表3給出了標(biāo)準(zhǔn)條件下彈道積分和偽譜法優(yōu)化所得狀態(tài)終端值satea、sateb的相對偏差ERR,ERR定義為式(18)。 ERR=|satea-sateb|/satea (18) 表3 終端值相對偏差 可以看出,偽譜法和彈道積分計算結(jié)果一致,終端值最大相對偏差小于0.2%,由圖11可知過載和動壓小于上限值,表明通過偽譜法可以得到有效滿足終端狀態(tài)的控制指令。 圖12給出了120組干擾數(shù)據(jù)的偽譜法彈道優(yōu)化的結(jié)果。 可以看出RLV飛行時間為68~76 s,位置和速度準(zhǔn)確收斂到終端值。對偽譜法產(chǎn)生的狀態(tài)量和控制量插值得到樣本庫,用樣本庫訓(xùn)練BP神經(jīng)網(wǎng)絡(luò)得到神經(jīng)網(wǎng)絡(luò)制導(dǎo)控制器。 圖12 偽譜法彈道優(yōu)化曲線 隨機產(chǎn)生200組組合干擾驗證神經(jīng)網(wǎng)絡(luò)制導(dǎo)控制器的制導(dǎo)效果,xi、yi、zi、vxi、vyi、vzi表示每組數(shù)據(jù)的終端位置和速度,仿真終止條件為|yi-yf|≤2,總位置偏差L和總速度偏差V定義為式(19)和式(20): (19) (20) 可以看出,不同組合干擾條件下RLV終端位置和終端速度能夠收斂到同一區(qū)域。由于組合干擾包含初值偏差,RLV的起始位置和速度成分散狀態(tài),圖13表明:RLV位置從起點(圖右下方)逐漸向終端位置(圖左上方)收斂,圖14表明RLV速度從起點(圖14左上方)向終端速度收斂(圖14右下方)。圖15給出了200次仿真的終端位置偏差。 圖13 RLV空間運動曲線 200次仿真的平均總速度偏差為5.42 m/s,平均總位置偏差為13.48 m,最大總位置偏差為45 m,說明RLV終端位置分布在以目標(biāo)點(538 925, -17 937, 17 175)為圓心,半徑為45 m的圓球區(qū)域內(nèi)。 假設(shè)RLV飛行過程中還存大氣環(huán)境干擾,同時對大氣壓強和密度施加幅值為理論值50%的正弦干擾進行仿真,結(jié)果見表4。 圖14 RLV速度曲線 圖15 位置偏差曲線 表4 終端值絕對偏差 可以看出,存在大氣環(huán)境等其他干擾時,神經(jīng)網(wǎng)絡(luò)制導(dǎo)控制器能夠保持比較穩(wěn)定的制導(dǎo)效果。無論是初值偏差、氣動系數(shù)偏差和還是環(huán)境干擾,最終都將導(dǎo)致RLV的飛行狀態(tài)發(fā)生變化產(chǎn)生控制量,這些擾動對于神經(jīng)網(wǎng)絡(luò)制導(dǎo)控制器來說相當(dāng)于黑箱,所以能夠有效克服不同類型的組合干擾。 本文提出基于偽譜法的神經(jīng)網(wǎng)絡(luò)制導(dǎo)控制器,充分利用hp自適應(yīng)偽譜法和BP神經(jīng)網(wǎng)絡(luò)的優(yōu)勢,具有強魯棒性能和求解速度快的特點。所提出的制導(dǎo)方案能夠有效適應(yīng)各類干擾影響,終端位置和速度誤差較小,具有較強的魯棒性能;制導(dǎo)周期小于0.01 s,可滿足工程應(yīng)用需求。1.3 BP神經(jīng)網(wǎng)絡(luò)原理
2 神經(jīng)網(wǎng)絡(luò)制導(dǎo)控制器設(shè)計
2.1 建立干擾庫
2.2 基于偽譜法生成樣本庫
2.3 BP神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)樣本庫
3 仿真驗證
3.1 偽譜法計算
3.2 神經(jīng)網(wǎng)絡(luò)制導(dǎo)控制器制導(dǎo)仿真
4 結(jié)論