吉瑞萍, 張程祎, 梁 彥,*, 王躍東
(1. 西北工業(yè)大學(xué)自動化學(xué)院, 陜西 西安 710072;2. 信息融合技術(shù)教育部重點實驗室, 陜西 西安 710072)
彈道導(dǎo)彈因其速度快、射程遠(yuǎn)、抗電磁干擾、高突防,甚至能運載核彈頭等特點,已成為國防安全面臨的最大威脅之一。為建立有效的導(dǎo)彈防御系統(tǒng),相關(guān)學(xué)者進(jìn)行了大量研究。在導(dǎo)彈防御系統(tǒng)的眾多技術(shù)環(huán)節(jié)中,彈道導(dǎo)彈長周期軌跡預(yù)報是至關(guān)重要的一環(huán),因為其可以為防御系統(tǒng)提供響應(yīng)時間,并為攔截器提供制導(dǎo)信息。
彈道導(dǎo)彈的整個軌跡通常分為3個基本階段:主動段、自由段和再入段。由于彈道導(dǎo)彈在后兩個階段受力相對簡單 (自由段僅受重力影響,再入段受氣動阻力和重力影響),傳統(tǒng)的軌跡預(yù)報方法大多集中在這兩個階段,根據(jù)解析法、數(shù)值積分法或函數(shù)逼近法推斷導(dǎo)彈的未來狀態(tài)。解析法將自由段軌跡近似為以地球為中心的橢圓,然后通過描述橢圓信息的開普勒模型進(jìn)行軌跡預(yù)報。數(shù)值積分法根據(jù)一定的積分準(zhǔn)則外推彈道導(dǎo)彈的動力學(xué)方程,進(jìn)而得到目標(biāo)軌跡的預(yù)報值。函數(shù)逼近法則是使用多個基函數(shù)的線性組合來對彈道進(jìn)行逼近,從而預(yù)報未來彈道。自由段與再入段的軌跡可預(yù)測性使得大多數(shù)攔截方法主要面向這兩個階段。然而,彈道導(dǎo)彈在自由段會釋放多枚彈頭和誘餌,后兩階段的攔截將面臨目標(biāo)識別的困難。相比之下,主動段攔截的優(yōu)勢在于:目標(biāo)導(dǎo)彈具有大而明亮的尾焰,使得導(dǎo)引頭容易追蹤目標(biāo)位置,且無欺騙式干擾,攔截發(fā)生于敵國境內(nèi)?;谏鲜隹紤],有學(xué)者開展了彈道導(dǎo)彈主動段攔截方面的研究工作。為了給主動段攔截提供精確可靠的目標(biāo)預(yù)報信息,本文對彈道導(dǎo)彈主動段長周期軌跡預(yù)報這一問題進(jìn)行研究。
彈道導(dǎo)彈在主動段受到推力、氣動阻力和重力等未知力的影響,因此該階段的軌跡預(yù)報相比自由段和再入段更具挑戰(zhàn)性。受力的復(fù)雜性使得主動段軌跡不能用橢圓來近似。若考慮使用數(shù)值積分法從某一時刻的狀態(tài)估計開始外推彈道導(dǎo)彈動力學(xué)模型,由于經(jīng)驗?zāi)P汀⒘繙y等建模誤差的存在,目標(biāo)狀態(tài)積分初值與彈道參數(shù)估計誤差的累積傳播會使長周期軌跡預(yù)報變得不可靠。函數(shù)逼近法原則上能夠用于彈道導(dǎo)彈主動段軌跡預(yù)報,但是需要根據(jù)主動段軌跡數(shù)據(jù)特征選擇合適的逼近函數(shù)空間,從而在預(yù)報精度與計算復(fù)雜度上獲得折中。因此,有必要研究有效的彈道導(dǎo)彈主動段軌跡預(yù)報方法。
近年來,已經(jīng)開發(fā)了許多機(jī)器學(xué)習(xí)方法從大量數(shù)據(jù)中提取感興趣的知識,并且在航空航天領(lǐng)域獲得了廣泛的應(yīng)用。例如,文獻(xiàn)[20]針對衛(wèi)星通信非合作接收成對載波多址復(fù)用混合信號盲分離中高復(fù)雜度束縛,提出了一種基于前饋神經(jīng)網(wǎng)絡(luò)的分離算法;文獻(xiàn)[21]將神經(jīng)網(wǎng)絡(luò)和卡爾曼濾波器相結(jié)合,解決了航天器狀態(tài)估計和過程動態(tài)不確定性的估計問題。不同于一般的神經(jīng)網(wǎng)絡(luò),循環(huán)神經(jīng)網(wǎng)絡(luò)及其重要變體——長短時記憶(long short-term memeory, LSTM)網(wǎng)絡(luò),由于能夠有效提取序列上下文信息,在處理復(fù)雜時間序列問題上具有明顯優(yōu)勢。例如,文獻(xiàn)[22]設(shè)計了一種基于深度LSTM的機(jī)動目標(biāo)跟蹤方法估計與飛機(jī)運動序列一致的真實狀態(tài);文獻(xiàn)[23]針對現(xiàn)有衛(wèi)星通信系統(tǒng)無法適應(yīng)信道時變問題,利用LSTM神經(jīng)網(wǎng)絡(luò)建立了信噪比預(yù)測模型調(diào)整系統(tǒng)的調(diào)制與編碼方案;文獻(xiàn)[24]建立了基于LSTM的戰(zhàn)場意圖識別模型,以實現(xiàn)對戰(zhàn)場敵方目標(biāo)戰(zhàn)術(shù)意圖的自動識別。
考慮到LSTM在處理時間序列上的優(yōu)勢,本文提出了一種基于LSTM的彈道導(dǎo)彈主動段長周期軌跡預(yù)報方法。首先,根據(jù)彈道導(dǎo)彈主動段動力學(xué)模型及彈道參數(shù)典型取值生成軌跡庫,為待設(shè)計的網(wǎng)絡(luò)構(gòu)建多樣化訓(xùn)練樣本。其次,設(shè)計了基于深度LSTM的彈道導(dǎo)彈長周期軌跡預(yù)報算法。最后,與基于數(shù)值積分法、多項式擬合及反向傳播神經(jīng)網(wǎng)絡(luò)的3種軌跡預(yù)報方法的實驗對比表明了所提方法在彈道導(dǎo)彈主動段軌跡預(yù)報上的優(yōu)越性。
本文的目的是根據(jù)對彈道導(dǎo)彈連續(xù)跟蹤至?xí)r刻的狀態(tài)估計值實現(xiàn)其主動段未來任意>時刻的軌跡預(yù)報。為此,需要首先確定彈道導(dǎo)彈主動段動力學(xué)模型與量測模型。
如前所述,彈道導(dǎo)彈在主動段受到推力、氣動阻力與重力的作用。當(dāng)采用常用的地心地固 (earth-centered earth-fixed, ECEF)坐標(biāo)系描述其運動時,彈道導(dǎo)彈還受到科氏力與向心力的影響。因此,根據(jù)牛頓力學(xué)定律,彈道導(dǎo)彈主動段動力學(xué)模型為
(1)
式中:=[,,]與=[,,]為目標(biāo)在ECEF坐標(biāo)系的位置與速度;,,,,分別為推力、氣動阻力、重力、科氏力與向心力加速度。
與文獻(xiàn)[7]類似,進(jìn)行下述假設(shè)獲得加速度的解析表達(dá)式:
(1) 推力與速度方向一致;
(2) 火箭排氣速度和歸一化質(zhì)量燃燒率為常數(shù);
(3) 彈道系數(shù)為常數(shù)。
基于以上假設(shè),有
(2)
式中:代表時間;()=e- 為空氣密度;和為已知常數(shù);=‖‖-為目標(biāo)高度,為地球半徑;為地球重力常數(shù);為地球自轉(zhuǎn)角速度;=[0,0,]。
將式(2)代入式(1),得到彈道導(dǎo)彈主動段位置與速度的衍化公式為
(3)
=(-)
(4)
式中:=[,,]和分別為目標(biāo)與雷達(dá)在ECEF坐標(biāo)系中的位置;為ECEF至ENU坐標(biāo)系的旋轉(zhuǎn)矩陣,表示為
(5)
式中:和分別為雷達(dá)的經(jīng)度與緯度。
因此,ENU坐標(biāo)系中的量測模型為
(6)
式中:為協(xié)方差矩陣等于的零均值高斯白噪聲。
彈道導(dǎo)彈主動段動力學(xué)模型,即式(3),能夠為彈道數(shù)據(jù)庫的生成提供依據(jù);此外,還可以為用于目標(biāo)狀態(tài)估計的跟蹤器的設(shè)計提供指導(dǎo)。但是,由于該模型中存在火箭排氣速度、歸一化質(zhì)量燃燒率、彈道系數(shù)等未知參數(shù),無法將其直接用于非合作導(dǎo)彈的軌跡預(yù)報。雖然可以通過期望最大化等方法獲得目標(biāo)狀態(tài)和未知參數(shù)的聯(lián)合估計,但是無論選擇何種跟蹤器,這些估計值總是或多或少地帶有估計誤差。這里,采用靈敏度指標(biāo)(定義為歸一化狀態(tài)變化率與歸一化控制變化率的比值)來定量分析軌跡控制變量 (即彈道參數(shù)和初始彈道導(dǎo)彈狀態(tài))的估計不確定性對外推彈道的影響。
圖1描繪了相對于1%的軌跡控制變化量,方向上位置和速度分量的增量靈敏度。圖1(a)表明,彈道導(dǎo)彈軌跡相對于排氣速度和歸一化質(zhì)量燃燒率的靈敏度高于彈道系數(shù)的靈敏度,這與文獻(xiàn)[7]的結(jié)果一致。另外,如圖1(b)所示,彈道軌跡對初始彈道狀態(tài)也具有很高的靈敏度 (對和方向上狀態(tài)分量的靈敏度分析可以獲得類似結(jié)果)。因此,基于跟蹤器輸出的導(dǎo)彈狀態(tài)與彈道參數(shù)估計值對動力學(xué)方程外推的軌跡預(yù)報方案是不可行的。
圖1 x方向上狀態(tài)分量對1%軌跡控制變化量的靈敏度
事實上,式(3)中的非線性及未知參數(shù)隱含在生成的彈道數(shù)據(jù)中。如果能夠獲得大量軌跡數(shù)據(jù),就有可能學(xué)習(xí)出彈道導(dǎo)彈狀態(tài)隨時間的變化關(guān)系。因此,與其嘗試獲取盡可能準(zhǔn)確的彈道導(dǎo)彈狀態(tài)和未知參數(shù)估計值對彈道進(jìn)行外推預(yù)報,本文考慮利用LSTM網(wǎng)絡(luò)學(xué)習(xí)彈道導(dǎo)彈主動段軌跡庫中相鄰時刻目標(biāo)狀態(tài)的變化關(guān)系,即構(gòu)建的網(wǎng)絡(luò)實現(xiàn)如下功能:
(7)
彈道導(dǎo)彈主動段軌跡數(shù)據(jù)來源有兩種:通過監(jiān)視、偵察、情報收集等手段獲取部分關(guān)鍵彈道數(shù)據(jù);利用主動段動力學(xué)模型及彈道參數(shù)典型取值生成目標(biāo)導(dǎo)彈的彈道數(shù)據(jù)。由于神經(jīng)網(wǎng)絡(luò)訓(xùn)練需要大量樣本,本文采用第二種方法為基于LSTM的網(wǎng)絡(luò)提供豐富的樣本數(shù)據(jù)。
由于彈道參數(shù)與導(dǎo)彈類型相關(guān),因此需對目標(biāo)導(dǎo)彈的彈道參數(shù)在可行范圍內(nèi)遍歷取值,以生成多條可行軌跡。另外,彈道導(dǎo)彈如果存在多級發(fā)動機(jī)助推,彈道參數(shù)還會面臨分級突變的問題。考慮到多級彈道導(dǎo)彈助推器的分離高度速度等關(guān)鍵信息難以獲取,本文構(gòu)建單級中程彈道導(dǎo)彈主動段軌跡庫以驗證所提方法的有效性。
通過對文獻(xiàn)[27]中彈道參數(shù)的標(biāo)稱值進(jìn)行拉偏以實現(xiàn)彈道參數(shù)遍歷,并求解彈道導(dǎo)彈主動段動力學(xué)模型,生成了滿足中程導(dǎo)彈飛行時間與高度要求的10 000條主動段軌跡,如圖2所示。圖2表明建立的彈道軌跡庫可以覆蓋從指定位置發(fā)射的彈道導(dǎo)彈的大范圍攻擊區(qū)域。此外,表1總結(jié)了生成彈道導(dǎo)彈主動段軌跡庫的參數(shù)設(shè)置。
圖2 彈道導(dǎo)彈主動段軌跡庫
表1 彈道導(dǎo)彈主動段軌跡標(biāo)稱參數(shù)
圖3 基于LSTM的彈道導(dǎo)彈主動段軌跡預(yù)報方案
3.1.1 軌跡分段
實際情況中,當(dāng)對彈道導(dǎo)彈僅進(jìn)行較短時長的持續(xù)觀測時,就可能有對其進(jìn)行長周期軌跡預(yù)報的需求。因此,為使LSTM網(wǎng)絡(luò)在在線預(yù)報與離線訓(xùn)練時的數(shù)據(jù)長度相匹配,需要將訓(xùn)練集中每一條完整的主動段軌跡分割成長度為的若干軌跡片斷 (假設(shè)軌跡預(yù)報的最短持續(xù)觀測時長為個采樣周期)。這里以一條長度為的軌跡進(jìn)行分段示例說明,如圖4所示。
圖4 軌跡分段示例
3.1.2 數(shù)據(jù)歸一化
彈道導(dǎo)彈在主動段時,狀態(tài)不同維度之間量級相差很大,如圖2表明目標(biāo)位置至少為10量級,而目標(biāo)速度是從零開始累積的。如果將導(dǎo)彈狀態(tài)估計值直接輸入LSTM網(wǎng)絡(luò)并與網(wǎng)絡(luò)中的隨機(jī)權(quán)重矩陣進(jìn)行前向計算,目標(biāo)狀態(tài)中的速度特征將會被位置特征“淹沒”。此外,量級過大的位置輸入也會使第一層LSTM網(wǎng)絡(luò)中單元的激活函數(shù)工作在飽和區(qū)域,這將阻礙損失函數(shù)的反向傳播。為此,需要對用于彈道導(dǎo)彈軌跡預(yù)報的LSTM網(wǎng)絡(luò)的輸入輸出數(shù)據(jù)進(jìn)行歸一化,以確保網(wǎng)絡(luò)的損失函數(shù)可以收斂到令人滿意的值。
本文對長度為的輸入輸出導(dǎo)彈軌跡序列采用最大值歸一化,即
(8)
(9)
本文設(shè)計的深度LSTM網(wǎng)絡(luò)包括3個LSTM層、一個最大輸出(Maxout)層和一個全連接(fully connected, FC)層,如圖5所示。3層LSTM網(wǎng)絡(luò)用于充分挖掘彈道導(dǎo)彈狀態(tài)之間的時序關(guān)系。Maxout層在第3層LSTM網(wǎng)絡(luò)的輸出空間中生成一個最大子集,其將網(wǎng)絡(luò)中對輸入數(shù)據(jù)不敏感的部分丟棄,僅訓(xùn)練對輸入數(shù)據(jù)敏感的剩余網(wǎng)絡(luò),以保證網(wǎng)絡(luò)更容易學(xué)習(xí)到輸入軌跡序列中的信息。FC層將Maxout層的輸出轉(zhuǎn)換為與軌跡預(yù)報序列具有相同維度的數(shù)據(jù)。
圖5 基于LSTM的彈道導(dǎo)彈主動段軌跡預(yù)報訓(xùn)練模型
在誤差反向傳播階段,采用Adam算法對網(wǎng)絡(luò)進(jìn)行優(yōu)化直至收斂,其中損失函數(shù)定義為訓(xùn)練軌跡樣本的正則化平方誤差:
(10)
式中:為單步訓(xùn)練的小批量樣本數(shù);為自定義的懲罰項系數(shù);為網(wǎng)絡(luò)中待學(xué)習(xí)的參數(shù)。
由于任意相鄰軌跡序列均存在長度為-2的重合預(yù)報時刻,對于預(yù)報長度為-的彈道導(dǎo)彈軌跡序列,+1≤≤-1之間的時刻由于神經(jīng)網(wǎng)絡(luò)的遞歸外推會生成(2≤≤)個不同的預(yù)報值,因此需要將其平均以獲得時刻軌跡預(yù)報的更新估計。將各時刻更新后的軌跡預(yù)報值按時間順序排列,即可獲得完整的彈道導(dǎo)彈軌跡預(yù)報序列。
基于LSTM的彈道導(dǎo)彈主動段在線軌跡預(yù)報與更新方案如圖6所示。
圖6 基于LSTM的彈道導(dǎo)彈主動段軌跡在線預(yù)報方案
本節(jié)驗證基于LSTM的彈道導(dǎo)彈主動段軌跡預(yù)報(LSTM-based trajectory prediction, LSTM-TP)方法性能,包括參數(shù)設(shè)置、網(wǎng)絡(luò)收斂性分析與實驗結(jié)果3部分內(nèi)容。
實驗中涉及到的參數(shù)包括用于網(wǎng)絡(luò)訓(xùn)練的超參數(shù)與樣本參數(shù),各參數(shù)取值如表2~表4所示。
表2 不同網(wǎng)絡(luò)層神經(jīng)元節(jié)點數(shù)設(shè)置
表3 網(wǎng)絡(luò)訓(xùn)練參數(shù)設(shè)置
表4 樣本參數(shù)設(shè)置
為了分析網(wǎng)絡(luò)參數(shù)對平均預(yù)報均方根誤差 (average prediction root mean square error, APRMSE)和平均在線運行時間的影響,表3中列出了不同網(wǎng)絡(luò)參數(shù)取值下驗證集上的預(yù)報性能??梢钥闯?當(dāng)網(wǎng)絡(luò)參數(shù)選為表3中第1列數(shù)值時,在驗證集上的整體預(yù)報性能是最優(yōu)的。此外,表5還表明增加網(wǎng)絡(luò)結(jié)點數(shù)會增加LSTM-TP的平均運行時間,但不一定能提升APRMSE;增加訓(xùn)練迭代步數(shù)也不一定能提升APRMSE。
表5 不同網(wǎng)絡(luò)參數(shù)下驗證集預(yù)報性能分析
LSTM-TP網(wǎng)絡(luò)訓(xùn)練過程中在驗證集上的損失如圖7所示,其中學(xué)習(xí)率以每5 000步指數(shù)衰減形式從10開始降低??梢钥闯?網(wǎng)絡(luò)在驗證集上的損失可以收斂到較好結(jié)果。
圖7 LSTM-TP網(wǎng)絡(luò)訓(xùn)練過程中在驗證集上的損失
共進(jìn)行了兩組實驗驗證。第1組將LSTM-TP方法與基于數(shù)值積分法、多項式擬合及反向傳播(back propagation, BP)神經(jīng)網(wǎng)絡(luò)的彈道導(dǎo)彈軌跡預(yù)報方法進(jìn)行了對比。第2組驗證軌跡估計序列長度對LSTM-TP方法的影響。所有軌跡預(yù)報方法用到的目標(biāo)狀態(tài)估計序列均由URTSS-EM(uscented Rauch-Tung-Striebel smoother with expectation-maximization)算法提供,因為其可以較好地解決具有未知參數(shù)的非線性狀態(tài)估計問題。此外,量測模型中取值參考文獻(xiàn)[32],即徑向距、方位角、俯仰角的觀測誤差標(biāo)準(zhǔn)差分別為15 m, 0.1°, 0.15°。
4.3.1 實驗驗證1
本組實驗中,跟蹤器提供的彈道導(dǎo)彈狀態(tài)估計序列長度=10(采樣周期為1 s),需預(yù)報11~80 s之間的目標(biāo)狀態(tài)。不同軌跡預(yù)報方法對彈道導(dǎo)彈位置與速度的預(yù)報均方根誤差如圖8所示。
圖8 不同軌跡預(yù)報方法性能對比
可以看出,4種方法在彈道導(dǎo)彈主動段的長周期軌跡預(yù)報中均存在不同程度的發(fā)散。其中數(shù)值積分法的發(fā)散程度最高,這是因為目標(biāo)狀態(tài)初值與彈道參數(shù)的估計誤差會在動力學(xué)模型的積分外推中累積傳播。多項式擬合法對累積至當(dāng)前采樣時刻的目標(biāo)狀態(tài)估計值進(jìn)行最小二乘回歸,并用該回歸模型對未來時刻目標(biāo)狀態(tài)進(jìn)行預(yù)報,預(yù)報精度優(yōu)于數(shù)值積分法。BP神經(jīng)網(wǎng)絡(luò)與LSTM-TP方法由于利用了離線軌跡數(shù)據(jù),預(yù)報效果整體上優(yōu)于前兩種方法。相比于BP神經(jīng)網(wǎng)絡(luò),LSTM-TP能夠提取軌跡序列的時序特征,因此在彈道導(dǎo)彈主動段長周期軌跡預(yù)報中性能最優(yōu)。
此外,表6中統(tǒng)計了4種軌跡預(yù)報方法的平均在線運行時間。雖然LSTM-TP方法的計算復(fù)雜度是最高的,但0.5 s的運行時間仍然能夠滿足彈道導(dǎo)彈主動段長周期軌跡預(yù)報的實際運行需求。
表6 4種軌跡預(yù)報方法平均在線運行時間
4.3.2 實驗驗證2
本組實驗中,跟蹤器提供的彈道導(dǎo)彈狀態(tài)估計序列長度分別為=5和=10(采樣周期均為1 s)。與第1組實驗相同,仍需預(yù)報11~80 s之間的目標(biāo)狀態(tài)。LSTM-TP方法在不同估計序列長度下的軌跡預(yù)報性能如圖9所示。
圖9 不同估計序列長度LSTM-TP軌跡預(yù)報性能對比
圖9表明,用序列長度=10的數(shù)據(jù)訓(xùn)練的LSTM-TP網(wǎng)絡(luò)的性能要優(yōu)于用=5的數(shù)據(jù)訓(xùn)練的網(wǎng)絡(luò)。這是因為用于訓(xùn)練的時間序列的長度越長,LSTM網(wǎng)絡(luò)記憶的時間信息就越多,對時間序列的擬合效果也就越好。因此,LSTM-TP方法在實際應(yīng)用中,應(yīng)積累盡可能長的彈道導(dǎo)彈軌跡估計序列,再進(jìn)行長周期軌跡預(yù)報。
本文研究了彈道導(dǎo)彈主動段長周期軌跡預(yù)報問題,提出的解決方案為基于LSTM的深度神經(jīng)網(wǎng)絡(luò)。得益于深度神經(jīng)網(wǎng)絡(luò)強(qiáng)大的非線性擬合能力與LSTM對時間序列的記憶功能,設(shè)計的LSTM-TP方法通過對目標(biāo)當(dāng)前狀態(tài)估計序列的連續(xù)外推實現(xiàn)了未來軌跡的遞歸預(yù)報。最后,在彈道導(dǎo)彈主動段軌跡庫上證明了所提軌跡預(yù)報方法的有效性。