郭宗易,楊曉宏,胡冠杰,郭建國,王國慶
(1. 西北工業(yè)大學(xué)航天學(xué)院精確制導(dǎo)與控制研究所,西安 710072; 2. 中國運載火箭技術(shù)研究院研發(fā)部,北京 100076)
高超聲速飛行器已成為目前世界各國搶占戰(zhàn)略優(yōu)勢的利器。對于其制導(dǎo)控制系統(tǒng)設(shè)計,傳統(tǒng)設(shè)計方法是分為控制回路和制導(dǎo)回路兩個子系統(tǒng),不考慮兩者之間的耦合關(guān)系[1]。這種分離設(shè)計的理論基礎(chǔ)是要求制導(dǎo)控制系統(tǒng)滿足頻譜分離條件,即姿態(tài)控制系統(tǒng)的時間常數(shù)遠(yuǎn)遠(yuǎn)小于制導(dǎo)系統(tǒng)的時間常數(shù),但事實上高超聲速飛行器制導(dǎo)環(huán)節(jié)和姿態(tài)控制環(huán)節(jié)并不總是滿足該條件,因此在舵偏角的反饋控制設(shè)計中使用了姿態(tài)、過載和視線角信息等以便獲得更好的系統(tǒng)性能,即制導(dǎo)控制一體化設(shè)計(Integrated guidance and control, IGC)考慮了導(dǎo)彈制導(dǎo)系統(tǒng)與控制系統(tǒng)之間的耦合關(guān)系,根據(jù)彈目相對運動關(guān)系和導(dǎo)彈自身運動信息直接產(chǎn)生舵偏指令,驅(qū)使飛行器擊中目標(biāo)[2],并顯著減小脫靶量,有效提高制導(dǎo)控制系統(tǒng)的可靠性和穩(wěn)定性[3-5]。由于飛行器的高效打擊需求和導(dǎo)引頭的探測能力約束,在打擊過程中需要考慮落角約束和視場角約束。目前已有較多制導(dǎo)律設(shè)計的相關(guān)文獻(xiàn)如文獻(xiàn)[6-8]考慮了這兩種約束,主要采用方法有障礙李雅普諾夫函數(shù)法[6]、解析法[7]和多階段切換法[8]等,但并未考慮姿態(tài)系統(tǒng)。目前,制導(dǎo)控制一體化方法大多采用滑模變結(jié)構(gòu)、最優(yōu)控制方法、反演設(shè)計方法等傳統(tǒng)控制方法,比如Li等[9]針對一體化系統(tǒng),采用滑模變結(jié)構(gòu)方法進(jìn)行控制,變結(jié)構(gòu)項會使控制量產(chǎn)生高頻抖振,影響系統(tǒng)的打擊精度,增加能耗,降低系統(tǒng)性能;Park等[10]采用最優(yōu)控制方法,存在模型精確度不高、魯棒性較差的問題;Pei等[11]采用反演法,保證了系統(tǒng)的穩(wěn)定性,但存在“計算膨脹”問題,存在高階導(dǎo)數(shù),控制器結(jié)構(gòu)復(fù)雜。以上方法多考慮落角約束或視場角約束其中一種約束情形,并未完全覆蓋兩種約束。
工程實際當(dāng)中,往往需要系統(tǒng)在保證穩(wěn)定性的同時,有較高的靈活性和自適應(yīng)性,傳統(tǒng)的控制方法難以滿足復(fù)雜要求[12]。隨著人工智能技術(shù)的快速發(fā)展,自適應(yīng)動態(tài)規(guī)劃方法開始被提出并應(yīng)用到控制系統(tǒng)設(shè)計[13-14]。自適應(yīng)動態(tài)規(guī)劃(ADP)方法是一種基于強(qiáng)化學(xué)習(xí)理論的先進(jìn)智能控制方法,基于神經(jīng)網(wǎng)絡(luò)的函數(shù)泛化能力,通過近似求解非線性哈密頓-雅可比-貝爾曼(Hamilton-Jacobi-Bellman,HJB)方程獲得最優(yōu)控制律[15],應(yīng)用范圍廣,自適應(yīng)性自調(diào)節(jié)能力強(qiáng),而且能夠與干擾觀測等技術(shù)結(jié)合實現(xiàn)較好的魯棒性。由于ADP的強(qiáng)適應(yīng)能力,近幾年,基于ADP方法的控制策略被應(yīng)用于飛行器控制問題研究中[16-17]。郭建國等[18]針對高超聲速飛行器的姿態(tài)模型,設(shè)計反步法和ADP結(jié)合的非線性優(yōu)化學(xué)習(xí)控制方法,實現(xiàn)系統(tǒng)的近似最優(yōu)跟蹤。
綜上分析,目前同時考慮落角約束與視場角約束的制導(dǎo)控制一體化方法研究較少。因此,本文提出一種基于自適應(yīng)動態(tài)規(guī)劃的新型制導(dǎo)控制一體化策略,其新穎之處在于:(1)不同于以往的制導(dǎo)約束設(shè)計方法,本文將視場角約束、落角約束和命中精度要求集成到視場角指令,從而將約束問題轉(zhuǎn)化為跟蹤問題,保證在精確跟蹤的同時即可滿足這兩種約束,而且便于結(jié)合考慮姿態(tài)系統(tǒng);(2)引入基于自適應(yīng)非線性擾動觀測器的不確定性估計值,設(shè)計基于ADP的制導(dǎo)控制一體化方法,既能夠通過保證精確跟蹤實現(xiàn)高超聲速飛行器的精準(zhǔn)打擊和對落角視場角約束的滿足,又考慮制導(dǎo)控制模型中不確定性等多種實際因素,具有更好的技術(shù)優(yōu)勢和更強(qiáng)的應(yīng)用潛力。仿真驗證了本文提出方法的有效性,并與現(xiàn)有方法開展了對比研究,本文方法可以在滿足落角約束和視場角約束下實現(xiàn)精準(zhǔn)打擊。
首先,建立飛行器二維平面模型如下所示。
圖1 縱向平面彈目幾何關(guān)系Fig.1 Two-dimensional engagement geometry
如圖1所示,M, T分別表示導(dǎo)彈和靜止目標(biāo);qe,θM和σM表示視線角,彈道傾角和視場角;R表示彈目相對距離;VM表示導(dǎo)彈速度。運動學(xué)方程為
(1)
飛行器姿態(tài)方程為
(2)
(3)
(4)
高超聲速飛行器需要考慮視場約束與落角約束來滿足探測約束與打擊毀傷效果。因此,本文的目標(biāo)是針對一體化模型(4),設(shè)計一種可以滿足視場角約束和落角約束的制導(dǎo)控制一體化控制器,即
(5)
定義落角的誤差為
eq=qe-θd
(6)
那么飛行中需要控制上式中的變量eq,保證打擊目標(biāo)時的落角。式(6)對彈目相對距離R求導(dǎo),可得
(7)
基于式(7),本文提出視場角指令為
(8)
式中:sat(·)為飽和函數(shù),當(dāng)|x|≤1時,sat(x)=x,否則sat(x)=sgn(x)。ρ和φ1為參數(shù),滿足以下條件:
(9)
(10)
如果|eq(R)|>φ1,求解式(10)可得
eq(R)=
(11)
式中:R0和R1由R0=R(t=0), |eq(R1)|=φ1求得。式(11)的解表明|eq(R)|是嚴(yán)格遞減的,因為R也是嚴(yán)格遞減的。此外,式(11)中第2式表示當(dāng)R趨于零時,eq(R)趨于零。
如果|eq(R0)|≤φ1,用R0代替式(11)第2式中的R1可得eq(R)的解。因此,在|eq(R0)|>φ1和|eq(R0)|≤φ1的情況下,當(dāng)R趨近于0時,eq(R)收斂于0,滿足落角約束,從而保證精確跟蹤時必然滿足兩種約束。
考慮系統(tǒng)(4)具有非匹配不確定性,本文引入文獻(xiàn)[19]提出的自適應(yīng)干擾觀測器。以下是基本假設(shè):
假設(shè)1.擾動di(t)(i=1,2,3)有界,滿足
(12)
式中:μi是正常數(shù)。
設(shè)計自適應(yīng)干擾觀測器如式(13)所示
(13)
定義估計誤差為
(14)
對于模型(4),定義新變量ψ為
(15)
對式(15)求導(dǎo)可得
(16)
式中:
g(ψ)=b, Δψ=c1d1+c2d2+d3。首先給出假設(shè):
假設(shè) 2.[15]非線性不確定項Δψ滿足條件Δψ=GT(ψ)d(ψ),其中G(·)是表示不確定性結(jié)構(gòu)的固定函數(shù),d(·)(d(0)=0)是不確定函數(shù),且存在已知函數(shù)h(·)(h(0)=0)滿足dT(ψ)d(ψ)≤hT(ψ)h(ψ)。
本節(jié)依據(jù)系統(tǒng)(16)通過構(gòu)建單個網(wǎng)絡(luò)即評價網(wǎng)絡(luò)來實現(xiàn),將ADP方法引入一體化非線性系統(tǒng)控制,設(shè)計一個控制輸入u,使它不僅能穩(wěn)定閉環(huán)系統(tǒng),還能最小化形式如下的代價函數(shù)
(17)
定義哈密頓函數(shù)為
(18)
(19)
將式(19)代入HJB方程可得
(20)
由于解析求解方程(20)較為困難,接下來引入基于單一評價網(wǎng)絡(luò)的ADP方法來求解最優(yōu)控制策略。
根據(jù)神經(jīng)網(wǎng)絡(luò)的全局逼近性質(zhì),最優(yōu)代價函數(shù)V*(ψ)可以精確地表示為
V*(ψ)=WTσ(ψ)+ε(ψ)
(21)
式中:理想權(quán)值向量W∈Rl,σ∈Rl為神經(jīng)網(wǎng)絡(luò)激活函數(shù),l是隱含層中神經(jīng)元的個數(shù);ε(ψ)代表神經(jīng)網(wǎng)絡(luò)的近似誤差。于是有
(22)
將式(22)代入式(19)可以得到最優(yōu)控制形式為
(23)
由于理想權(quán)值未知,將估計的權(quán)值寫為如下形式來構(gòu)建評價神經(jīng)網(wǎng)絡(luò)進(jìn)而逼近代價函數(shù)。
(24)
考慮式(24),可以得到近似控制函數(shù)為
(25)
將式(25)用于式(16),得到
(26)
(27)
(28)
利用估計的權(quán)值向量,導(dǎo)出近似哈密頓函數(shù)為
(29)
(30)
假設(shè)3.[15]針對式(16),選取一個連續(xù)可微的李雅普諾夫函數(shù)Js(ψ),滿足
(31)
(32)
(33)
(34)
(35)
(36)
證.選擇李雅普諾夫函數(shù)為
(37)
對時間求導(dǎo)并代入式(36)可得
(38)
(39)
使用關(guān)系式:
(40)
(41)
則有
(42)
式中:φ+,φ-和φ1均是非零常數(shù)。同理,式(39)其余項可按同樣方式處理,得到
(43)
式中:
(44)
(45)
式中:φi,i=1,2,…,6為非零常數(shù),保證λ7>0。
(46)
因此,如果有以下的不等式存在
(47)
(48)
(49)
因此,如果有以下的不等式存在
(50)
(51)
定理1分析了新變量ψ的收斂性,而下面的定理2則分析了閉環(huán)系統(tǒng)中狀態(tài)x1和x2的穩(wěn)定性。
定理2.考慮如式(4)所示的干擾觀測器,在控制輸入(25)與評價網(wǎng)絡(luò)的權(quán)值式(30)作用下,閉環(huán)系統(tǒng)中視場角實現(xiàn)對指令(8)的有界跟蹤。
(52)
將式(52)代入式(4)可得
(53)
(54)
(55)
式中:q1>0,q2>0。
根據(jù)式(53)對Vx求導(dǎo),得到
(56)
(q2|x2+d1|-μ12)
(57)
(58)
根據(jù)李雅普諾夫穩(wěn)定性理論,閉環(huán)系統(tǒng)是穩(wěn)定的,收斂范圍為
|x1|≤ε1和|x2+d1|≤ε2
(59)
因此,視場角誤差eσM=x1/a1是有界收斂的,閉環(huán)系統(tǒng)中視場角實現(xiàn)對指令(8)的有界跟蹤。同時,ε1越小,則x1越接近零,根據(jù)以上分析,在控制命令(25)下,可以保證脫靶量趨向0的情況下同時滿足視場角和落角的約束。
圖2 不同落角約束下,視場角、舵偏角、視線角和相對距離的變化曲線Fig.2 Curves of look angles, δz, qe, and R under different θd values
圖3 不同落角約束下,評價網(wǎng)絡(luò)的權(quán)值更新Fig.3 Curves of weight updating of critic network
圖4 與考慮落角約束的文獻(xiàn)[20]方法的對比Fig.4 Comparison with the method in the reference [20] considering the impact angle constraint
圖5 與考慮視場角約束的文獻(xiàn)[21]方法的對比Fig.5 Comparison with the method in the reference [21] considering the field-of-view constraint
表1 結(jié)果比較Table 1 The results comparison
圖6 2000次蒙特卡洛仿真下的脫靶量結(jié)果Fig.6 Results of the miss distance under 2000 Monte-Carlo tests
本文針對考慮視場角約束和落角約束的高超聲速飛行器高精度打擊問題,提出一種基于自適應(yīng)動態(tài)規(guī)劃的新型制導(dǎo)控制一體化策略?,F(xiàn)有一體化方法較少同時考慮兩種約束,而本文方法將視場角約束、落角約束和命中精度要求集成到視場角指令,從而將約束問題轉(zhuǎn)化為跟蹤問題,通過自適應(yīng)動態(tài)規(guī)劃的強(qiáng)化學(xué)習(xí)思想得到最優(yōu)策略,保證在精確跟蹤的同時即可滿足這兩種約束。數(shù)學(xué)仿真驗證了提出方法的有效性及相比于現(xiàn)有方法的優(yōu)勢。后續(xù)研究中將考慮彈道設(shè)計以及落速和時間約束,從而實現(xiàn)更好的打擊效果,促進(jìn)高超聲速飛行器制導(dǎo)控制技術(shù)發(fā)展。