邱瀟頎,高長生,荊武興
(哈爾濱工業(yè)大學(xué)航天工程系,哈爾濱 150001)
近幾十年,在攔截彈制導(dǎo)律設(shè)計領(lǐng)域,比例導(dǎo)引(Proportional navigation,PN)因其結(jié)構(gòu)簡單、易于實(shí)現(xiàn)的特點(diǎn)得到了廣泛應(yīng)用。對于無機(jī)動或弱機(jī)動性的目標(biāo),PN具備較好的攔截性能。但是,近年來飛速發(fā)展的導(dǎo)彈突防技術(shù)大大提升了進(jìn)攻導(dǎo)彈的機(jī)動性,使得PN在面對此類高速、高機(jī)動性目標(biāo)時顯得力不從心,攔截效率顯著下降。為了應(yīng)對目標(biāo)的強(qiáng)機(jī)動性,增強(qiáng)比例導(dǎo)引(Augmented proportional navigation,APN)應(yīng)運(yùn)而生。APN通過將目標(biāo)的加速度信息疊加到PN制導(dǎo)指令上,實(shí)現(xiàn)對目標(biāo)機(jī)動的補(bǔ)償。然而APN需要實(shí)時獲取目標(biāo)的加速度信息,這給實(shí)際應(yīng)用增加了難度。
當(dāng)前,各類改進(jìn)型的PN、最優(yōu)控制和非線性控制等技術(shù)被廣泛用于先進(jìn)制導(dǎo)律的設(shè)計中。Lee等基于對剩余時間的精確估計,在PN中引出角度誤差反饋項,設(shè)計了一種攔截角控制導(dǎo)引律,使導(dǎo)彈能以特定角度命中目標(biāo);Jeon等著眼于多枚導(dǎo)彈對單一目標(biāo)的協(xié)同打擊問題,通過在PN中加入命中時間誤差反饋項,提出了撞擊時間控制導(dǎo)引律。文獻(xiàn)[6]基于最優(yōu)控制理論和雙曲正切函數(shù),設(shè)計了考慮角度約束的最優(yōu)三維制導(dǎo)律,有效解決了傳統(tǒng)導(dǎo)引律初始段過載指令過大的問題。Li等針對大初始航向誤差的情況,基于非線性模型設(shè)計了包含角度約束的機(jī)動目標(biāo)最優(yōu)攔截制導(dǎo)律,避免了線性最優(yōu)導(dǎo)引律在面對較大初始航向誤差時制導(dǎo)指令易發(fā)散的弊端。文獻(xiàn)[8]提出了一種在特定時間攔截非機(jī)動目標(biāo)的非線性次優(yōu)三維制導(dǎo)律,同時避免了在制導(dǎo)律中引入剩余時間項。張浩等基于線性二次型微分對策理論,設(shè)計了面向具備主動防御能力目標(biāo)的攔截制導(dǎo)律,促使攔截彈在規(guī)避敵方防御彈的同時能夠有效殺傷目標(biāo)。在基于非線性控制理論的制導(dǎo)律設(shè)計中,滑模和自適應(yīng)方法應(yīng)用最為廣泛。結(jié)合非奇異快速終端滑??刂婆c自適應(yīng)算法,黃景帥等提出了一種無需目標(biāo)加速度信息的自適應(yīng)制導(dǎo)律,能夠保證誤差的有限時間收斂性。文獻(xiàn)[12]利用神經(jīng)網(wǎng)絡(luò)來搭建目標(biāo)加速度預(yù)測模型,并在此基礎(chǔ)上設(shè)計了攔截高超聲速目標(biāo)的最優(yōu)滑模制導(dǎo)律,在節(jié)省燃料的同時減小了攔截末端的指令加速度。同樣利用神經(jīng)網(wǎng)絡(luò)技術(shù),司玉潔等針對執(zhí)行器飽和問題,設(shè)計了一種自適應(yīng)滑模制導(dǎo)律,一定程度上提升了制導(dǎo)律的魯棒性。然而,上述導(dǎo)引律中的大多數(shù)是基于精確動力學(xué)模型推導(dǎo)所得,且需要剩余飛行時間或目標(biāo)加速度等信息,這勢必會增加其應(yīng)用難度。
強(qiáng)化學(xué)習(xí)(Reinforcement learning,RL)為攔截彈制導(dǎo)律的設(shè)計提供了一種新思路。其作為人工智能領(lǐng)域的一個重要分支,近些年發(fā)展迅速。RL通??捎神R爾可夫決策過程(Markov decision process,MDP)來描述,包含智能體和環(huán)境兩部分。智能體不需要任何監(jiān)督信號或精確的環(huán)境模型,而是通過與環(huán)境進(jìn)行交互來改善自身策略,因此RL被認(rèn)為是區(qū)別于監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)的第三種機(jī)器學(xué)習(xí)范式。隨著深度學(xué)習(xí)(DL)技術(shù)的成熟,結(jié)合DL和RL的深度強(qiáng)化學(xué)習(xí)(DRL)算法開始逐漸涌現(xiàn),例如深度確定性策略梯度(Deep deterministic policy gradient,DDPG)、雙延遲深度確定性策略梯度(Twin delayed deep deterministic policy gradient,TD3)以及近端策略優(yōu)化(Proximal policy optimization,PPO)等。當(dāng)前,DRL技術(shù)被廣泛應(yīng)用于行星探測、多彈/機(jī)協(xié)同制導(dǎo)、巡飛彈突防制導(dǎo)等領(lǐng)域,展現(xiàn)了良好的性能和廣泛的應(yīng)用前景。而在攔截彈制導(dǎo)律設(shè)計方面,國內(nèi)外眾多學(xué)者先后開展相關(guān)研究,但仍處于起步階段。考慮到紅外導(dǎo)引頭僅能獲取目標(biāo)角度信息的限制,Gaudet等結(jié)合PPO算法和元學(xué)習(xí)技術(shù),設(shè)計了面向大氣層外機(jī)動目標(biāo)的離散動作空間攔截導(dǎo)引律,然而這種離散動作并不適合于大氣層內(nèi)攔截。He等探索了將DDPG算法應(yīng)用于攔截彈制導(dǎo)律設(shè)計的可能性,通過對比從零學(xué)習(xí)和基于先驗(yàn)知識的兩種學(xué)習(xí)模式,指出后者有助于提升學(xué)習(xí)效率,并可能提供更好的攔截性能。然而DDPG算法所固有的收斂速度較慢、學(xué)習(xí)穩(wěn)定性差等缺陷難以避免。
本文針對DDPG算法的上述固有缺陷,通過引入雙重Q網(wǎng)絡(luò)和延遲更新來改善算法學(xué)習(xí)效率,進(jìn)而提出了一種基于TD3算法的攔截大氣層內(nèi)高速機(jī)動目標(biāo)的深度強(qiáng)化學(xué)習(xí)制導(dǎo)律。首先將攻防雙方交戰(zhàn)運(yùn)動學(xué)模型描述為適用于深度強(qiáng)化學(xué)習(xí)算法的馬爾可夫決策形式,引入獎勵整形函數(shù)來進(jìn)一步提升算法學(xué)習(xí)速度,并通過在訓(xùn)練過程中隨機(jī)初始化攻防雙方的狀態(tài)來提升算法所學(xué)到最終制導(dǎo)律的泛化能力。仿真結(jié)果驗(yàn)證了本文制導(dǎo)律的可行性,與PN、APN等傳統(tǒng)導(dǎo)引律相比,它不僅能夠降低對攔截彈中制導(dǎo)精度的要求,而且脫靶量更小。在多種不同工況下的蒙特卡洛仿真結(jié)果表明,該制導(dǎo)律具備良好的魯棒性和泛化性。
本節(jié)給出典型攔截場景下交戰(zhàn)雙方的運(yùn)動模型,并將其描述為適合于深度強(qiáng)化學(xué)習(xí)算法的馬爾可夫決策過程。在此之前,我們做出如下三點(diǎn)假設(shè):
攔截彈和進(jìn)攻彈雙方均被視為質(zhì)點(diǎn)運(yùn)動模型;
忽略攔截彈導(dǎo)引頭及其控制系統(tǒng)的動態(tài)特性,視為理想制導(dǎo)過程;
攔截彈和進(jìn)攻彈的飛行速度均視作常值。
以上三點(diǎn)假設(shè)在導(dǎo)彈制導(dǎo)律設(shè)計中被廣泛采納。假設(shè)1和假設(shè)2代表了一種將制導(dǎo)回路和控制回路分開處理的思想:其中制導(dǎo)系統(tǒng)作為外回路,來生成由內(nèi)部控制回路負(fù)責(zé)跟蹤的制導(dǎo)指令。假設(shè)3則是考慮到攔截高速機(jī)動目標(biāo)的末制導(dǎo)階段持續(xù)時間較短,速度變化并不顯著,因此將其視為常值。
本文研究了如圖1所示的縱向平面內(nèi)交戰(zhàn)場景。圖中M表示進(jìn)攻方導(dǎo)彈,D代表防御方攔截彈,而T為進(jìn)攻方所要打擊的固定目標(biāo)。顯然在此場景下,進(jìn)攻彈M需要在躲避攔截彈D的同時命中目標(biāo)T;而攔截彈D的任務(wù)就是要盡可能地攔截M從而保護(hù)T免遭殺傷。
圖1 交戰(zhàn)場景Fig.1 Engagement scenario
在圖1中,笛卡爾慣性坐標(biāo)系-T-代表交戰(zhàn)所發(fā)生的縱向平面,其中目標(biāo)T位于坐標(biāo)原點(diǎn)。,,分別表示目標(biāo)-進(jìn)攻彈,目標(biāo)-攔截彈和攔截彈-進(jìn)攻彈之間的距離;,,則代表相應(yīng)的視線角。和分別為攔截彈和進(jìn)攻彈的彈道傾角,以正向?yàn)榛鶞?zhǔn),逆時針轉(zhuǎn)動為正。攔截彈和進(jìn)攻彈的飛行速度在圖中分別由與表示;而它們的法向加速度則被分別表示為和。
忽略重力的影響,上述場景下目標(biāo)-進(jìn)攻彈之間的交戰(zhàn)運(yùn)動學(xué)為:
(1)
同樣可以得到目標(biāo)-攔截彈之間的交戰(zhàn)運(yùn)動學(xué)為:
(2)
而攻防雙方的彈道傾角可分別表示為:
(3)
(4)
需要說明的是,這里并未直接采用攔截彈-進(jìn)攻彈之間的相對運(yùn)動模型的原因是便于執(zhí)行如圖4所示的狀態(tài)隨機(jī)初始化,以提升深度強(qiáng)化學(xué)習(xí)算法所學(xué)到最終策略的泛化能力。此外,在算法訓(xùn)練中為進(jìn)攻彈M設(shè)計如下機(jī)動策略,以契合其躲避攔截彈D并打擊目標(biāo)T的戰(zhàn)術(shù)目的:
=
(5)
式(5)所示進(jìn)攻彈M的機(jī)動模式意味著:當(dāng)攔截彈D迫近到≤時,M會執(zhí)行一個持續(xù)時間為、頻率為的方波機(jī)動,以躲避D的追擊;而在其他時間,M則是依據(jù)與目標(biāo)T的相對運(yùn)動關(guān)系,按照比例導(dǎo)引律來打擊目標(biāo)。顯然這種機(jī)動模式與M的戰(zhàn)術(shù)目的相一致。
圖2 MDP中智能體與環(huán)境交互過程Fig.2 Agent-environment interaction in MDP
在某一訓(xùn)練回合中,智能體模塊在每一時刻觀測到此時的交戰(zhàn)狀態(tài),并依據(jù)當(dāng)前策略(|)來決定所采取的動作~(|)。其中(|)定義為:
(6)
之后環(huán)境中的交戰(zhàn)運(yùn)動學(xué)方程在此動作的作用下向前積分一步,得到下一時刻狀態(tài)+1的同時,智能體模塊將獲得一個來自環(huán)境的獎勵+1。循環(huán)執(zhí)行此交互過程直至該回合結(jié)束。在一個回合中,從時間到終止時刻,智能體所獲得的總獎勵可定義為:
(7)
式中:={,,+1,+1, …,,}表示某一回合所對應(yīng)的狀態(tài)-動作軌跡;∈[0, 1]為折扣因子。
()=Ε[|=]
(8)
(,)=Ε[|=,=]
(9)
從而可將強(qiáng)化學(xué)習(xí)算法所優(yōu)化的目標(biāo)函數(shù)定義為:
?()=Ε[|=]
(10)
此時,強(qiáng)化學(xué)習(xí)便可以通過最大化如式(10)所示的性能指標(biāo)來獲取最優(yōu)策略(|)。為此,可以采用一個參數(shù)化的策略函數(shù)(|;)來近似最優(yōu)策略(|),進(jìn)而通過調(diào)整參數(shù)來提升性能指標(biāo)的值,從而實(shí)現(xiàn)對策略(|;)的優(yōu)化。這可以通過式(11)所示的梯度上升法來實(shí)現(xiàn),
(11)
(12)
為了進(jìn)一步降低算法訓(xùn)練過程中的方差,可以引入一個基線函數(shù)(),從而可以將式(12)改寫為:
(13)
更進(jìn)一步,利用動作價值函數(shù)(,)的參數(shù)化近似(,;)和狀態(tài)價值函數(shù)()的參數(shù)化近似(;),來分別替代式(13)中的和()兩項,便可以得到執(zhí)行者-評價者(Actor-Critic)算法的梯度更新方向?yàn)椋?/p>
(14)
式中:(,;)=(,;)-(;)稱作優(yōu)勢函數(shù)。
在引入經(jīng)驗(yàn)回放機(jī)制后,用于更新價值函數(shù)網(wǎng)絡(luò)參數(shù)的損失函數(shù)可以定義為:
(15)
式中:|B|代表數(shù)據(jù)集B的長度。
與深度Q學(xué)習(xí)不同的地方在于上式中的表達(dá)式,TD3算法在計算時選用了兩個價值函數(shù)目標(biāo)網(wǎng)絡(luò)中輸出較小的那一個,以避免對價值函數(shù)的過估計;并且在策略目標(biāo)網(wǎng)絡(luò)輸出的動作~(|;)的基礎(chǔ)上疊加了一個隨機(jī)噪聲,以提升算法穩(wěn)定性。因此式(15)中的表達(dá)式為:
(16)
式中:~((0,),-,),其中函數(shù)定義為:
相應(yīng)地,策略網(wǎng)絡(luò)(|;)參數(shù)更新的損失函數(shù)可表示為:
(17)
參數(shù)和便可分別按照式(18)、(19)更新,以最小化損失函數(shù)()與()。
(18)
(19)
為了保證訓(xùn)練的穩(wěn)定性,TD3算法中三個目標(biāo)網(wǎng)絡(luò)的參數(shù)可按下式進(jìn)行軟更新:
(20)
式中:被稱為慣性因子。
需要補(bǔ)充的是,為了保證算法在訓(xùn)練中具有足夠的探索性以避免陷入局部最優(yōu)點(diǎn),與DDPG算法類似,需要在動作~(|;)的基礎(chǔ)上疊加一個隨機(jī)噪聲N~((0,),-,)。
基于上文所介紹的TD3算法和式(1)~(4)所示的攻防雙方交戰(zhàn)運(yùn)動學(xué)方程,圖3展示了本文所設(shè)計的深度強(qiáng)化學(xué)習(xí)制導(dǎo)律全系統(tǒng)結(jié)構(gòu)框架。如圖所示,系統(tǒng)環(huán)境是在交戰(zhàn)運(yùn)動學(xué)模型的基礎(chǔ)上,又附加了狀態(tài)隨機(jī)初始化和隨機(jī)航向誤差而搭建起來的。在訓(xùn)練中引入隨機(jī)初始化和隨機(jī)航向誤差均是為了提升算法所學(xué)習(xí)到最終策略的魯棒性和泛化能力。
圖3 系統(tǒng)結(jié)構(gòu)框圖Fig.3 Block diagram of the system
1)訓(xùn)練場景
為了保證TD3算法的訓(xùn)練速度,需要對攻防雙方的初始狀態(tài)做出如圖4所示的限制。其中為初始視線角TM與TD的下界,而則為上界;和分別為初始目標(biāo)-攔截彈距離的上界與下界,而和則是初始目標(biāo)-進(jìn)攻彈距離TM的邊界。此外,將攔截彈的初始航向誤差表示為,即攔截彈的初始航向角為:
(21)
式(21)意味著當(dāng)=0時,攔截彈的航向滿足進(jìn)攻彈不機(jī)動時的碰撞三角。
圖4 訓(xùn)練場景Fig.4 Training scenario
表1 訓(xùn)練場景邊界Table 1 Limits of the training scenario
2)狀態(tài)空間與動作空間
在深度強(qiáng)化學(xué)習(xí)算法中,策略網(wǎng)絡(luò)(|;)直接將狀態(tài)量映射為動作,也就是說策略網(wǎng)絡(luò)本身相當(dāng)于一個如式(22)所示的非線性函數(shù)
=()
(22)
對于本文所研究的交戰(zhàn)場景,攔截彈的戰(zhàn)術(shù)目的就是盡最大可能攔截進(jìn)攻彈,因此可將狀態(tài)空間設(shè)計為攔截彈-進(jìn)攻彈之間的相對狀態(tài),即:
(23)
而當(dāng)假設(shè)速度為常值時,攔截彈的運(yùn)動狀態(tài)便僅由其法向加速度控制,因此可將動作空間設(shè)計為:
(24)
(25)
3)獎勵函數(shù)
設(shè)計一個合適的獎勵函數(shù)對于強(qiáng)化學(xué)習(xí)算法來說至關(guān)重要,會直接影響到算法的訓(xùn)練速度甚至是可行性。為了解決稀疏獎勵所造成的算法收斂性差、學(xué)習(xí)速度慢等問題,本文引入了獎勵函數(shù)整形。所設(shè)計的獎勵函數(shù)為:
=+
(26)
其中:
=exp(-(Δ))+
式中:和均為超參數(shù); Δ=-DM。
4)網(wǎng)絡(luò)結(jié)構(gòu)
策略網(wǎng)絡(luò)和價值函數(shù)網(wǎng)絡(luò)均由包含三個隱含層的全連接神經(jīng)網(wǎng)絡(luò)來實(shí)現(xiàn),其中隱含層的激活函數(shù)選取為ReLU函數(shù),其定義為:
(27)
表2 網(wǎng)絡(luò)結(jié)構(gòu)Table 2 Architecture of the networks
為驗(yàn)證所提出基于TD3算法的攔截彈制導(dǎo)策略的有效性,本節(jié)開展了數(shù)值仿真。首先通過合理地選取超參數(shù),得到了訓(xùn)練過程曲線。之后在多種不同工況下對所提出制導(dǎo)方案展開測試,并基于蒙特卡洛仿真與比例導(dǎo)引(PN)和增強(qiáng)比例導(dǎo)引(APN)兩種經(jīng)典制導(dǎo)方案作對比,體現(xiàn)本文方案的性能。
本文中所有的仿真實(shí)驗(yàn)均是基于Python 3.7和Tensorflow 2.4框架開展的。硬件信息為Intel i7-10700K@3.80 GHz,RTX2070 8 GB,DDR4 16 GB,512 GB SSD。
強(qiáng)化學(xué)習(xí)訓(xùn)練環(huán)境由四階龍格庫塔積分器進(jìn)行更新,當(dāng)攔截彈-進(jìn)攻彈的距離大于500 m時,積分步長為0.01 s;反之,積分步長取為0.0001 s。攔截彈和進(jìn)攻彈的制導(dǎo)周期均取為0.05 s;總的訓(xùn)練回合數(shù)取為=50000。附加在動作值上的隨機(jī)噪聲N的界限在前5000個回合內(nèi)由0.05逐漸衰減為0;而只有當(dāng)經(jīng)驗(yàn)池中的經(jīng)驗(yàn)數(shù)量大于50000時,才會開始更新網(wǎng)絡(luò)參數(shù)。訓(xùn)練中相關(guān)超參數(shù)的具體數(shù)值如表3所示。
表3 訓(xùn)練所需超參數(shù)Table 3 Hyper-parameters needed in training
在訓(xùn)練過程中,為了保證算法所得到最終策略的泛化能力,攔截彈和進(jìn)攻彈的初始狀態(tài)分別在圖4所示的可行域內(nèi)隨機(jī)初始化,且攔截彈的初始航向偏差也按照表1給出的范圍隨機(jī)選取。圖5展示了算法的訓(xùn)練過程,其中圖5(a)給出了訓(xùn)練過程中智能體每次與環(huán)境交互所得平均獎勵的變化曲線;圖5(b)則給出了經(jīng)過不同回合數(shù)的訓(xùn)練后,所得到的策略在1000次蒙特卡洛仿真測試下的性能表現(xiàn)。綜合圖5可見:在算法訓(xùn)練的最初15000個回合內(nèi),智能體處在探索階段,所獲得的獎勵值徘徊在低位,此時所得策略的攔截成功率幾乎為0,性能很差;而在訓(xùn)練進(jìn)行到第15000~35000回合中間時,智能體所獲得的獎勵開始逐漸增加,同時策略的攔截成功率也逐步提升、脫靶概率顯著下降,這說明在此階段策略得以優(yōu)化;而在訓(xùn)練進(jìn)行到35000回合以后,獎勵值平穩(wěn)地維持在高位,同時所得策略的攔截成功率也始終保持在較高水平,這說明此時算法逐漸收斂。此外由圖5(a)中的算法對比曲線可見,本文所采用的TD3算法相對DDPG在學(xué)習(xí)速度上有明顯提升,能夠更早地改善智能體策略并達(dá)到收斂。
圖5 訓(xùn)練曲線Fig.5 Training curves
為測試算法訓(xùn)練所得攔截彈制導(dǎo)策略的性能,選用第41600回合所得到的策略網(wǎng)絡(luò)模型,開展如下測試。
1)訓(xùn)練場景下的測試
首先在與訓(xùn)練場景相同的參數(shù)設(shè)置下開展測試,驗(yàn)證制導(dǎo)策略的有效性。為了充分測試深度強(qiáng)化學(xué)習(xí)制導(dǎo)律的性能,以式(28)所示的PN和APN導(dǎo)引律作對比,本文進(jìn)行了1000次的蒙特卡洛仿真。圖6給出了這三種制導(dǎo)方案的脫靶量散布,表4則給出了脫靶量散布的統(tǒng)計特性。
(28)
綜合圖6和表4可以看出,相對于PN和APN兩種制導(dǎo)律,基于TD3的制導(dǎo)策略脫靶量更小??紤]到當(dāng)前末端攔截彈多采取直接碰撞來襲目標(biāo)的殺傷方式,顯然較小的脫靶量更利于實(shí)現(xiàn)這種碰撞殺傷。此外,方差的數(shù)值彰顯了本文制導(dǎo)策略在面對不同交戰(zhàn)條件時性能的平穩(wěn)性,不會出現(xiàn)過大波動。
圖6 不同導(dǎo)引律脫靶量Fig.6 Miss distances under different guidance laws
2)未學(xué)習(xí)場景下的測試
本小節(jié)將強(qiáng)化學(xué)習(xí)訓(xùn)練所得到的制導(dǎo)策略應(yīng)用于多種未學(xué)習(xí)場景,并開展蒙特卡洛仿真實(shí)驗(yàn),以驗(yàn)證該策略的魯棒性和泛化能力。測試主要分為三部分。第一部分是測試制導(dǎo)策略應(yīng)對不同初始航向誤差時的性能。改變的取值范圍,經(jīng)過1000次蒙特卡洛仿真后所得不同制導(dǎo)策略的性能對比如圖7所示。第二部分為測試當(dāng)來襲導(dǎo)彈的機(jī)動模式改變時,本文制導(dǎo)策略的性能。將進(jìn)攻彈的機(jī)動模式改為正弦機(jī)動,而非訓(xùn)練時所采用的方波機(jī)動,即:
(29)
此時的蒙特卡洛仿真結(jié)果如圖8所示。第三部分測試則是減小進(jìn)攻彈的機(jī)動頻率。由橫向位移的計算公式Δ2可知,當(dāng)機(jī)動頻率降低時進(jìn)攻彈的橫向位移會增大,即擁有更大的機(jī)動范圍。此時三種制導(dǎo)策略的性能表現(xiàn)如圖9所示。
圖7 目標(biāo)方波機(jī)動時性能對比Fig.7 Performance comparison of square wave maneuvering targets
圖8 目標(biāo)正弦機(jī)動時性能對比Fig.8 Performance comparison of sinusoidal maneuvering targets
由圖7可見,在面臨不同的初始航向誤差時,相對于PN和APN,本文所提出的深度強(qiáng)化學(xué)習(xí)制導(dǎo)律均具備更高的攔截概率、更低的脫靶幾率。進(jìn)一步觀察圖7可以發(fā)現(xiàn),本文制導(dǎo)策略的優(yōu)勢在較大時更加顯著,即該策略能夠應(yīng)對更大的初始航向誤差。以上分析說明本文所提出的末段制導(dǎo)策略可以降低對攔截彈中制導(dǎo)精度的要求,這在一定程度上有助于簡化攔截彈中制導(dǎo)律設(shè)計。
圖9 目標(biāo)不同機(jī)動頻率下的攔截概率Fig.9 Interception probabilities after changing the maneuvering frequency
綜合圖8和圖9的仿真結(jié)果,可以看到無論來襲導(dǎo)彈的規(guī)避機(jī)動模式發(fā)生怎樣的改變,基于TD3算法的制導(dǎo)策略相對于另外兩種均具備更好的性能表現(xiàn)。進(jìn)一步觀察圖9可見,隨著目標(biāo)機(jī)動頻率的降低即機(jī)動范圍的增大,TD3策略相對于PN和APN的優(yōu)勢趨于顯著,這說明它不僅能夠克服攔截彈自身的初始航向誤差,同時能夠有效應(yīng)對來襲導(dǎo)彈較大范圍地規(guī)避機(jī)動。以上分析驗(yàn)證了本文所設(shè)計的深度強(qiáng)化學(xué)習(xí)制導(dǎo)律能夠在多種復(fù)雜工況下保持優(yōu)異的性能,具備良好的魯棒性和泛化能力。
本文提出了一種適用于大氣層內(nèi)攔截高速機(jī)動目標(biāo)的深度強(qiáng)化學(xué)習(xí)制導(dǎo)律。將攔截交戰(zhàn)運(yùn)動學(xué)模型描述為馬爾可夫決策過程,并設(shè)計了合適的訓(xùn)練場景、狀態(tài)空間、動作空間和網(wǎng)絡(luò)結(jié)構(gòu),分別引入獎勵函數(shù)整形和隨機(jī)初始化來提升算法的訓(xùn)練速度及最終策略的魯棒性。仿真結(jié)果驗(yàn)證了本文制導(dǎo)策略的可行性。相對于PN和APN,本文方法脫靶量更小、性能表現(xiàn)更為穩(wěn)定并降低了對中制導(dǎo)精度的要求,在多個未學(xué)習(xí)場景下的測試結(jié)果彰顯了此策略良好的魯棒性和泛化能力。此外,該制導(dǎo)策略對計算能力要求較低,便于在彈載計算機(jī)上運(yùn)行。