攔截大氣層內(nèi)機(jī)動目標(biāo)的深度強(qiáng)化學(xué)習(xí)制導(dǎo)律

2022-06-10 05:47:56邱瀟頎高長生荊武興

宇航學(xué)報 2022年5期

邱瀟頎，高長生，荊武興

(哈爾濱工業(yè)大學(xué)航天工程系，哈爾濱 150001)

0 引言

近幾十年，在攔截彈制導(dǎo)律設(shè)計領(lǐng)域，比例導(dǎo)引(Proportional navigation，PN)因其結(jié)構(gòu)簡單、易于實(shí)現(xiàn)的特點(diǎn)得到了廣泛應(yīng)用。對于無機(jī)動或弱機(jī)動性的目標(biāo)，PN具備較好的攔截性能。但是，近年來飛速發(fā)展的導(dǎo)彈突防技術(shù)大大提升了進(jìn)攻導(dǎo)彈的機(jī)動性，使得PN在面對此類高速、高機(jī)動性目標(biāo)時顯得力不從心，攔截效率顯著下降。為了應(yīng)對目標(biāo)的強(qiáng)機(jī)動性，增強(qiáng)比例導(dǎo)引(Augmented proportional navigation，APN)應(yīng)運(yùn)而生。APN通過將目標(biāo)的加速度信息疊加到PN制導(dǎo)指令上，實(shí)現(xiàn)對目標(biāo)機(jī)動的補(bǔ)償。然而APN需要實(shí)時獲取目標(biāo)的加速度信息，這給實(shí)際應(yīng)用增加了難度。

當(dāng)前，各類改進(jìn)型的PN、最優(yōu)控制和非線性控制等技術(shù)被廣泛用于先進(jìn)制導(dǎo)律的設(shè)計中。Lee等基于對剩余時間的精確估計，在PN中引出角度誤差反饋項，設(shè)計了一種攔截角控制導(dǎo)引律，使導(dǎo)彈能以特定角度命中目標(biāo)；Jeon等著眼于多枚導(dǎo)彈對單一目標(biāo)的協(xié)同打擊問題，通過在PN中加入命中時間誤差反饋項，提出了撞擊時間控制導(dǎo)引律。文獻(xiàn)[6]基于最優(yōu)控制理論和雙曲正切函數(shù)，設(shè)計了考慮角度約束的最優(yōu)三維制導(dǎo)律，有效解決了傳統(tǒng)導(dǎo)引律初始段過載指令過大的問題。Li等針對大初始航向誤差的情況，基于非線性模型設(shè)計了包含角度約束的機(jī)動目標(biāo)最優(yōu)攔截制導(dǎo)律，避免了線性最優(yōu)導(dǎo)引律在面對較大初始航向誤差時制導(dǎo)指令易發(fā)散的弊端。文獻(xiàn)[8]提出了一種在特定時間攔截非機(jī)動目標(biāo)的非線性次優(yōu)三維制導(dǎo)律，同時避免了在制導(dǎo)律中引入剩余時間項。張浩等基于線性二次型微分對策理論，設(shè)計了面向具備主動防御能力目標(biāo)的攔截制導(dǎo)律，促使攔截彈在規(guī)避敵方防御彈的同時能夠有效殺傷目標(biāo)。在基于非線性控制理論的制導(dǎo)律設(shè)計中，滑模和自適應(yīng)方法應(yīng)用最為廣泛。結(jié)合非奇異快速終端滑?？刂婆c自適應(yīng)算法，黃景帥等提出了一種無需目標(biāo)加速度信息的自適應(yīng)制導(dǎo)律，能夠保證誤差的有限時間收斂性。文獻(xiàn)[12]利用神經(jīng)網(wǎng)絡(luò)來搭建目標(biāo)加速度預(yù)測模型，并在此基礎(chǔ)上設(shè)計了攔截高超聲速目標(biāo)的最優(yōu)滑模制導(dǎo)律，在節(jié)省燃料的同時減小了攔截末端的指令加速度。同樣利用神經(jīng)網(wǎng)絡(luò)技術(shù)，司玉潔等針對執(zhí)行器飽和問題，設(shè)計了一種自適應(yīng)滑模制導(dǎo)律，一定程度上提升了制導(dǎo)律的魯棒性。然而，上述導(dǎo)引律中的大多數(shù)是基于精確動力學(xué)模型推導(dǎo)所得，且需要剩余飛行時間或目標(biāo)加速度等信息，這勢必會增加其應(yīng)用難度。

強(qiáng)化學(xué)習(xí)(Reinforcement learning，RL)為攔截彈制導(dǎo)律的設(shè)計提供了一種新思路。其作為人工智能領(lǐng)域的一個重要分支，近些年發(fā)展迅速。RL通?？捎神R爾可夫決策過程(Markov decision process，MDP)來描述，包含智能體和環(huán)境兩部分。智能體不需要任何監(jiān)督信號或精確的環(huán)境模型，而是通過與環(huán)境進(jìn)行交互來改善自身策略，因此RL被認(rèn)為是區(qū)別于監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)的第三種機(jī)器學(xué)習(xí)范式。隨著深度學(xué)習(xí)(DL)技術(shù)的成熟，結(jié)合DL和RL的深度強(qiáng)化學(xué)習(xí)(DRL)算法開始逐漸涌現(xiàn)，例如深度確定性策略梯度(Deep deterministic policy gradient，DDPG)、雙延遲深度確定性策略梯度(Twin delayed deep deterministic policy gradient，TD3)以及近端策略優(yōu)化(Proximal policy optimization，PPO)等。當(dāng)前，DRL技術(shù)被廣泛應(yīng)用于行星探測、多彈/機(jī)協(xié)同制導(dǎo)、巡飛彈突防制導(dǎo)等領(lǐng)域，展現(xiàn)了良好的性能和廣泛的應(yīng)用前景。而在攔截彈制導(dǎo)律設(shè)計方面，國內(nèi)外眾多學(xué)者先后開展相關(guān)研究，但仍處于起步階段。考慮到紅外導(dǎo)引頭僅能獲取目標(biāo)角度信息的限制，Gaudet等結(jié)合PPO算法和元學(xué)習(xí)技術(shù)，設(shè)計了面向大氣層外機(jī)動目標(biāo)的離散動作空間攔截導(dǎo)引律，然而這種離散動作并不適合于大氣層內(nèi)攔截。He等探索了將DDPG算法應(yīng)用于攔截彈制導(dǎo)律設(shè)計的可能性，通過對比從零學(xué)習(xí)和基于先驗(yàn)知識的兩種學(xué)習(xí)模式，指出后者有助于提升學(xué)習(xí)效率，并可能提供更好的攔截性能。然而DDPG算法所固有的收斂速度較慢、學(xué)習(xí)穩(wěn)定性差等缺陷難以避免。

本文針對DDPG算法的上述固有缺陷，通過引入雙重Q網(wǎng)絡(luò)和延遲更新來改善算法學(xué)習(xí)效率，進(jìn)而提出了一種基于TD3算法的攔截大氣層內(nèi)高速機(jī)動目標(biāo)的深度強(qiáng)化學(xué)習(xí)制導(dǎo)律。首先將攻防雙方交戰(zhàn)運(yùn)動學(xué)模型描述為適用于深度強(qiáng)化學(xué)習(xí)算法的馬爾可夫決策形式,引入獎勵整形函數(shù)來進(jìn)一步提升算法學(xué)習(xí)速度，并通過在訓(xùn)練過程中隨機(jī)初始化攻防雙方的狀態(tài)來提升算法所學(xué)到最終制導(dǎo)律的泛化能力。仿真結(jié)果驗(yàn)證了本文制導(dǎo)律的可行性，與PN、APN等傳統(tǒng)導(dǎo)引律相比，它不僅能夠降低對攔截彈中制導(dǎo)精度的要求，而且脫靶量更小。在多種不同工況下的蒙特卡洛仿真結(jié)果表明，該制導(dǎo)律具備良好的魯棒性和泛化性。

1 問題描述

本節(jié)給出典型攔截場景下交戰(zhàn)雙方的運(yùn)動模型，并將其描述為適合于深度強(qiáng)化學(xué)習(xí)算法的馬爾可夫決策過程。在此之前，我們做出如下三點(diǎn)假設(shè)：

攔截彈和進(jìn)攻彈雙方均被視為質(zhì)點(diǎn)運(yùn)動模型；

忽略攔截彈導(dǎo)引頭及其控制系統(tǒng)的動態(tài)特性，視為理想制導(dǎo)過程；

攔截彈和進(jìn)攻彈的飛行速度均視作常值。

以上三點(diǎn)假設(shè)在導(dǎo)彈制導(dǎo)律設(shè)計中被廣泛采納。假設(shè)1和假設(shè)2代表了一種將制導(dǎo)回路和控制回路分開處理的思想：其中制導(dǎo)系統(tǒng)作為外回路，來生成由內(nèi)部控制回路負(fù)責(zé)跟蹤的制導(dǎo)指令。假設(shè)3則是考慮到攔截高速機(jī)動目標(biāo)的末制導(dǎo)階段持續(xù)時間較短，速度變化并不顯著，因此將其視為常值。

1.1 交戰(zhàn)場景

本文研究了如圖1所示的縱向平面內(nèi)交戰(zhàn)場景。圖中M表示進(jìn)攻方導(dǎo)彈，D代表防御方攔截彈，而T為進(jìn)攻方所要打擊的固定目標(biāo)。顯然在此場景下，進(jìn)攻彈M需要在躲避攔截彈D的同時命中目標(biāo)T；而攔截彈D的任務(wù)就是要盡可能地攔截M從而保護(hù)T免遭殺傷。

圖1 交戰(zhàn)場景Fig.1 Engagement scenario

在圖1中，笛卡爾慣性坐標(biāo)系-T-代表交戰(zhàn)所發(fā)生的縱向平面，其中目標(biāo)T位于坐標(biāo)原點(diǎn)。,,分別表示目標(biāo)-進(jìn)攻彈，目標(biāo)-攔截彈和攔截彈-進(jìn)攻彈之間的距離；,,則代表相應(yīng)的視線角。和分別為攔截彈和進(jìn)攻彈的彈道傾角，以正向?yàn)榛鶞?zhǔn)，逆時針轉(zhuǎn)動為正。攔截彈和進(jìn)攻彈的飛行速度在圖中分別由與表示；而它們的法向加速度則被分別表示為和。

忽略重力的影響，上述場景下目標(biāo)-進(jìn)攻彈之間的交戰(zhàn)運(yùn)動學(xué)為：

(1)

同樣可以得到目標(biāo)-攔截彈之間的交戰(zhàn)運(yùn)動學(xué)為：

(2)

而攻防雙方的彈道傾角可分別表示為：

(3)

(4)

需要說明的是，這里并未直接采用攔截彈-進(jìn)攻彈之間的相對運(yùn)動模型的原因是便于執(zhí)行如圖4所示的狀態(tài)隨機(jī)初始化，以提升深度強(qiáng)化學(xué)習(xí)算法所學(xué)到最終策略的泛化能力。此外，在算法訓(xùn)練中為進(jìn)攻彈M設(shè)計如下機(jī)動策略，以契合其躲避攔截彈D并打擊目標(biāo)T的戰(zhàn)術(shù)目的：

(5)

式(5)所示進(jìn)攻彈M的機(jī)動模式意味著：當(dāng)攔截彈D迫近到≤時，M會執(zhí)行一個持續(xù)時間為、頻率為的方波機(jī)動，以躲避D的追擊；而在其他時間，M則是依據(jù)與目標(biāo)T的相對運(yùn)動關(guān)系，按照比例導(dǎo)引律來打擊目標(biāo)。顯然這種機(jī)動模式與M的戰(zhàn)術(shù)目的相一致。

1.2 馬爾可夫決策過程

圖2 MDP中智能體與環(huán)境交互過程Fig.2 Agent-environment interaction in MDP

在某一訓(xùn)練回合中，智能體模塊在每一時刻觀測到此時的交戰(zhàn)狀態(tài)，并依據(jù)當(dāng)前策略(|)來決定所采取的動作～(|)。其中(|)定義為：

(6)

之后環(huán)境中的交戰(zhàn)運(yùn)動學(xué)方程在此動作的作用下向前積分一步，得到下一時刻狀態(tài)+1的同時，智能體模塊將獲得一個來自環(huán)境的獎勵+1。循環(huán)執(zhí)行此交互過程直至該回合結(jié)束。在一個回合中，從時間到終止時刻,智能體所獲得的總獎勵可定義為：

(7)

式中：={,,+1,+1, …,,}表示某一回合所對應(yīng)的狀態(tài)-動作軌跡；∈[0, 1]為折扣因子。

2 基于深度強(qiáng)化學(xué)習(xí)的制導(dǎo)律設(shè)計

2.1 深度強(qiáng)化學(xué)習(xí)

()=Ε[|=]

(8)

(,)=Ε[|=,=]

(9)

從而可將強(qiáng)化學(xué)習(xí)算法所優(yōu)化的目標(biāo)函數(shù)定義為：

?()=Ε[|=]

(10)

此時，強(qiáng)化學(xué)習(xí)便可以通過最大化如式(10)所示的性能指標(biāo)來獲取最優(yōu)策略(|)。為此，可以采用一個參數(shù)化的策略函數(shù)(|;)來近似最優(yōu)策略(|)，進(jìn)而通過調(diào)整參數(shù)來提升性能指標(biāo)的值，從而實(shí)現(xiàn)對策略(|;)的優(yōu)化。這可以通過式(11)所示的梯度上升法來實(shí)現(xiàn)，

(11)

(12)

為了進(jìn)一步降低算法訓(xùn)練過程中的方差，可以引入一個基線函數(shù)()，從而可以將式(12)改寫為：

(13)

更進(jìn)一步，利用動作價值函數(shù)(,)的參數(shù)化近似(,;)和狀態(tài)價值函數(shù)()的參數(shù)化近似(;)，來分別替代式(13)中的和()兩項，便可以得到執(zhí)行者-評價者(Actor-Critic)算法的梯度更新方向?yàn)椋?/p>

(14)

式中：(,;)=(,;)-(;)稱作優(yōu)勢函數(shù)。

在引入經(jīng)驗(yàn)回放機(jī)制后，用于更新價值函數(shù)網(wǎng)絡(luò)參數(shù)的損失函數(shù)可以定義為：

(15)

式中：|B|代表數(shù)據(jù)集B的長度。

與深度Q學(xué)習(xí)不同的地方在于上式中的表達(dá)式，TD3算法在計算時選用了兩個價值函數(shù)目標(biāo)網(wǎng)絡(luò)中輸出較小的那一個，以避免對價值函數(shù)的過估計；并且在策略目標(biāo)網(wǎng)絡(luò)輸出的動作～(|;)的基礎(chǔ)上疊加了一個隨機(jī)噪聲，以提升算法穩(wěn)定性。因此式(15)中的表達(dá)式為：

(16)

式中：～((0,),-,)，其中函數(shù)定義為：

相應(yīng)地，策略網(wǎng)絡(luò)(|;)參數(shù)更新的損失函數(shù)可表示為：

(17)

參數(shù)和便可分別按照式(18)、(19)更新，以最小化損失函數(shù)()與()。

(18)

(19)

為了保證訓(xùn)練的穩(wěn)定性，TD3算法中三個目標(biāo)網(wǎng)絡(luò)的參數(shù)可按下式進(jìn)行軟更新：

(20)

式中：被稱為慣性因子。

需要補(bǔ)充的是，為了保證算法在訓(xùn)練中具有足夠的探索性以避免陷入局部最優(yōu)點(diǎn)，與DDPG算法類似，需要在動作～(|;)的基礎(chǔ)上疊加一個隨機(jī)噪聲N～((0,),-,)。

2.2 制導(dǎo)律設(shè)計

基于上文所介紹的TD3算法和式(1)～(4)所示的攻防雙方交戰(zhàn)運(yùn)動學(xué)方程，圖3展示了本文所設(shè)計的深度強(qiáng)化學(xué)習(xí)制導(dǎo)律全系統(tǒng)結(jié)構(gòu)框架。如圖所示，系統(tǒng)環(huán)境是在交戰(zhàn)運(yùn)動學(xué)模型的基礎(chǔ)上，又附加了狀態(tài)隨機(jī)初始化和隨機(jī)航向誤差而搭建起來的。在訓(xùn)練中引入隨機(jī)初始化和隨機(jī)航向誤差均是為了提升算法所學(xué)習(xí)到最終策略的魯棒性和泛化能力。

圖3 系統(tǒng)結(jié)構(gòu)框圖Fig.3 Block diagram of the system

1)訓(xùn)練場景

為了保證TD3算法的訓(xùn)練速度，需要對攻防雙方的初始狀態(tài)做出如圖4所示的限制。其中為初始視線角TM與TD的下界，而則為上界；和分別為初始目標(biāo)-攔截彈距離的上界與下界，而和則是初始目標(biāo)-進(jìn)攻彈距離TM的邊界。此外，將攔截彈的初始航向誤差表示為，即攔截彈的初始航向角為：

(21)

式(21)意味著當(dāng)=0時，攔截彈的航向滿足進(jìn)攻彈不機(jī)動時的碰撞三角。

圖4 訓(xùn)練場景Fig.4 Training scenario

表1 訓(xùn)練場景邊界Table 1 Limits of the training scenario

2)狀態(tài)空間與動作空間

在深度強(qiáng)化學(xué)習(xí)算法中，策略網(wǎng)絡(luò)(|;)直接將狀態(tài)量映射為動作，也就是說策略網(wǎng)絡(luò)本身相當(dāng)于一個如式(22)所示的非線性函數(shù)

=()

(22)

對于本文所研究的交戰(zhàn)場景，攔截彈的戰(zhàn)術(shù)目的就是盡最大可能攔截進(jìn)攻彈，因此可將狀態(tài)空間設(shè)計為攔截彈-進(jìn)攻彈之間的相對狀態(tài)，即：

(23)

而當(dāng)假設(shè)速度為常值時，攔截彈的運(yùn)動狀態(tài)便僅由其法向加速度控制，因此可將動作空間設(shè)計為：

(24)

(25)

3)獎勵函數(shù)

設(shè)計一個合適的獎勵函數(shù)對于強(qiáng)化學(xué)習(xí)算法來說至關(guān)重要，會直接影響到算法的訓(xùn)練速度甚至是可行性。為了解決稀疏獎勵所造成的算法收斂性差、學(xué)習(xí)速度慢等問題，本文引入了獎勵函數(shù)整形。所設(shè)計的獎勵函數(shù)為：

(26)

其中：

=exp(-(Δ))+

式中：和均為超參數(shù); Δ=-DM。

4)網(wǎng)絡(luò)結(jié)構(gòu)

策略網(wǎng)絡(luò)和價值函數(shù)網(wǎng)絡(luò)均由包含三個隱含層的全連接神經(jīng)網(wǎng)絡(luò)來實(shí)現(xiàn)，其中隱含層的激活函數(shù)選取為ReLU函數(shù)，其定義為：

(27)

表2 網(wǎng)絡(luò)結(jié)構(gòu)Table 2 Architecture of the networks

3 仿真校驗(yàn)

為驗(yàn)證所提出基于TD3算法的攔截彈制導(dǎo)策略的有效性，本節(jié)開展了數(shù)值仿真。首先通過合理地選取超參數(shù)，得到了訓(xùn)練過程曲線。之后在多種不同工況下對所提出制導(dǎo)方案展開測試，并基于蒙特卡洛仿真與比例導(dǎo)引(PN)和增強(qiáng)比例導(dǎo)引(APN)兩種經(jīng)典制導(dǎo)方案作對比，體現(xiàn)本文方案的性能。

3.1 訓(xùn)練過程

本文中所有的仿真實(shí)驗(yàn)均是基于Python 3.7和Tensorflow 2.4框架開展的。硬件信息為Intel i7-10700K@3.80 GHz,RTX2070 8 GB,DDR4 16 GB,512 GB SSD。

強(qiáng)化學(xué)習(xí)訓(xùn)練環(huán)境由四階龍格庫塔積分器進(jìn)行更新，當(dāng)攔截彈-進(jìn)攻彈的距離大于500 m時，積分步長為0.01 s；反之，積分步長取為0.0001 s。攔截彈和進(jìn)攻彈的制導(dǎo)周期均取為0.05 s；總的訓(xùn)練回合數(shù)取為=50000。附加在動作值上的隨機(jī)噪聲N的界限在前5000個回合內(nèi)由0.05逐漸衰減為0；而只有當(dāng)經(jīng)驗(yàn)池中的經(jīng)驗(yàn)數(shù)量大于50000時，才會開始更新網(wǎng)絡(luò)參數(shù)。訓(xùn)練中相關(guān)超參數(shù)的具體數(shù)值如表3所示。

表3 訓(xùn)練所需超參數(shù)Table 3 Hyper-parameters needed in training

在訓(xùn)練過程中，為了保證算法所得到最終策略的泛化能力，攔截彈和進(jìn)攻彈的初始狀態(tài)分別在圖4所示的可行域內(nèi)隨機(jī)初始化，且攔截彈的初始航向偏差也按照表1給出的范圍隨機(jī)選取。圖5展示了算法的訓(xùn)練過程，其中圖5(a)給出了訓(xùn)練過程中智能體每次與環(huán)境交互所得平均獎勵的變化曲線；圖5(b)則給出了經(jīng)過不同回合數(shù)的訓(xùn)練后，所得到的策略在1000次蒙特卡洛仿真測試下的性能表現(xiàn)。綜合圖5可見：在算法訓(xùn)練的最初15000個回合內(nèi)，智能體處在探索階段，所獲得的獎勵值徘徊在低位，此時所得策略的攔截成功率幾乎為0，性能很差；而在訓(xùn)練進(jìn)行到第15000～35000回合中間時，智能體所獲得的獎勵開始逐漸增加，同時策略的攔截成功率也逐步提升、脫靶概率顯著下降，這說明在此階段策略得以優(yōu)化；而在訓(xùn)練進(jìn)行到35000回合以后，獎勵值平穩(wěn)地維持在高位，同時所得策略的攔截成功率也始終保持在較高水平，這說明此時算法逐漸收斂。此外由圖5(a)中的算法對比曲線可見，本文所采用的TD3算法相對DDPG在學(xué)習(xí)速度上有明顯提升，能夠更早地改善智能體策略并達(dá)到收斂。

圖5 訓(xùn)練曲線Fig.5 Training curves

3.2 測試過程

為測試算法訓(xùn)練所得攔截彈制導(dǎo)策略的性能，選用第41600回合所得到的策略網(wǎng)絡(luò)模型，開展如下測試。

1)訓(xùn)練場景下的測試

首先在與訓(xùn)練場景相同的參數(shù)設(shè)置下開展測試，驗(yàn)證制導(dǎo)策略的有效性。為了充分測試深度強(qiáng)化學(xué)習(xí)制導(dǎo)律的性能，以式(28)所示的PN和APN導(dǎo)引律作對比，本文進(jìn)行了1000次的蒙特卡洛仿真。圖6給出了這三種制導(dǎo)方案的脫靶量散布，表4則給出了脫靶量散布的統(tǒng)計特性。

(28)

綜合圖6和表4可以看出，相對于PN和APN兩種制導(dǎo)律，基于TD3的制導(dǎo)策略脫靶量更小?？紤]到當(dāng)前末端攔截彈多采取直接碰撞來襲目標(biāo)的殺傷方式，顯然較小的脫靶量更利于實(shí)現(xiàn)這種碰撞殺傷。此外，方差的數(shù)值彰顯了本文制導(dǎo)策略在面對不同交戰(zhàn)條件時性能的平穩(wěn)性，不會出現(xiàn)過大波動。

圖6 不同導(dǎo)引律脫靶量Fig.6 Miss distances under different guidance laws

2)未學(xué)習(xí)場景下的測試

本小節(jié)將強(qiáng)化學(xué)習(xí)訓(xùn)練所得到的制導(dǎo)策略應(yīng)用于多種未學(xué)習(xí)場景，并開展蒙特卡洛仿真實(shí)驗(yàn)，以驗(yàn)證該策略的魯棒性和泛化能力。測試主要分為三部分。第一部分是測試制導(dǎo)策略應(yīng)對不同初始航向誤差時的性能。改變的取值范圍，經(jīng)過1000次蒙特卡洛仿真后所得不同制導(dǎo)策略的性能對比如圖7所示。第二部分為測試當(dāng)來襲導(dǎo)彈的機(jī)動模式改變時，本文制導(dǎo)策略的性能。將進(jìn)攻彈的機(jī)動模式改為正弦機(jī)動，而非訓(xùn)練時所采用的方波機(jī)動，即：

(29)

此時的蒙特卡洛仿真結(jié)果如圖8所示。第三部分測試則是減小進(jìn)攻彈的機(jī)動頻率。由橫向位移的計算公式Δ2可知，當(dāng)機(jī)動頻率降低時進(jìn)攻彈的橫向位移會增大，即擁有更大的機(jī)動范圍。此時三種制導(dǎo)策略的性能表現(xiàn)如圖9所示。

圖7 目標(biāo)方波機(jī)動時性能對比Fig.7 Performance comparison of square wave maneuvering targets

圖8 目標(biāo)正弦機(jī)動時性能對比Fig.8 Performance comparison of sinusoidal maneuvering targets

由圖7可見，在面臨不同的初始航向誤差時，相對于PN和APN，本文所提出的深度強(qiáng)化學(xué)習(xí)制導(dǎo)律均具備更高的攔截概率、更低的脫靶幾率。進(jìn)一步觀察圖7可以發(fā)現(xiàn)，本文制導(dǎo)策略的優(yōu)勢在較大時更加顯著，即該策略能夠應(yīng)對更大的初始航向誤差。以上分析說明本文所提出的末段制導(dǎo)策略可以降低對攔截彈中制導(dǎo)精度的要求，這在一定程度上有助于簡化攔截彈中制導(dǎo)律設(shè)計。

圖9 目標(biāo)不同機(jī)動頻率下的攔截概率Fig.9 Interception probabilities after changing the maneuvering frequency

綜合圖8和圖9的仿真結(jié)果，可以看到無論來襲導(dǎo)彈的規(guī)避機(jī)動模式發(fā)生怎樣的改變，基于TD3算法的制導(dǎo)策略相對于另外兩種均具備更好的性能表現(xiàn)。進(jìn)一步觀察圖9可見，隨著目標(biāo)機(jī)動頻率的降低即機(jī)動范圍的增大，TD3策略相對于PN和APN的優(yōu)勢趨于顯著，這說明它不僅能夠克服攔截彈自身的初始航向誤差，同時能夠有效應(yīng)對來襲導(dǎo)彈較大范圍地規(guī)避機(jī)動。以上分析驗(yàn)證了本文所設(shè)計的深度強(qiáng)化學(xué)習(xí)制導(dǎo)律能夠在多種復(fù)雜工況下保持優(yōu)異的性能，具備良好的魯棒性和泛化能力。

4 結(jié) 論

本文提出了一種適用于大氣層內(nèi)攔截高速機(jī)動目標(biāo)的深度強(qiáng)化學(xué)習(xí)制導(dǎo)律。將攔截交戰(zhàn)運(yùn)動學(xué)模型描述為馬爾可夫決策過程，并設(shè)計了合適的訓(xùn)練場景、狀態(tài)空間、動作空間和網(wǎng)絡(luò)結(jié)構(gòu)，分別引入獎勵函數(shù)整形和隨機(jī)初始化來提升算法的訓(xùn)練速度及最終策略的魯棒性。仿真結(jié)果驗(yàn)證了本文制導(dǎo)策略的可行性。相對于PN和APN，本文方法脫靶量更小、性能表現(xiàn)更為穩(wěn)定并降低了對中制導(dǎo)精度的要求，在多個未學(xué)習(xí)場景下的測試結(jié)果彰顯了此策略良好的魯棒性和泛化能力。此外，該制導(dǎo)策略對計算能力要求較低，便于在彈載計算機(jī)上運(yùn)行。

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看