• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      攔截大氣層內(nèi)機(jī)動目標(biāo)的深度強(qiáng)化學(xué)習(xí)制導(dǎo)律

      2022-06-10 05:47:56邱瀟頎高長生荊武興
      宇航學(xué)報 2022年5期
      關(guān)鍵詞:制導(dǎo)機(jī)動深度

      邱瀟頎,高長生,荊武興

      (哈爾濱工業(yè)大學(xué)航天工程系,哈爾濱 150001)

      0 引 言

      近幾十年,在攔截彈制導(dǎo)律設(shè)計領(lǐng)域,比例導(dǎo)引(Proportional navigation,PN)因其結(jié)構(gòu)簡單、易于實(shí)現(xiàn)的特點(diǎn)得到了廣泛應(yīng)用。對于無機(jī)動或弱機(jī)動性的目標(biāo),PN具備較好的攔截性能。但是,近年來飛速發(fā)展的導(dǎo)彈突防技術(shù)大大提升了進(jìn)攻導(dǎo)彈的機(jī)動性,使得PN在面對此類高速、高機(jī)動性目標(biāo)時顯得力不從心,攔截效率顯著下降。為了應(yīng)對目標(biāo)的強(qiáng)機(jī)動性,增強(qiáng)比例導(dǎo)引(Augmented proportional navigation,APN)應(yīng)運(yùn)而生。APN通過將目標(biāo)的加速度信息疊加到PN制導(dǎo)指令上,實(shí)現(xiàn)對目標(biāo)機(jī)動的補(bǔ)償。然而APN需要實(shí)時獲取目標(biāo)的加速度信息,這給實(shí)際應(yīng)用增加了難度。

      當(dāng)前,各類改進(jìn)型的PN、最優(yōu)控制和非線性控制等技術(shù)被廣泛用于先進(jìn)制導(dǎo)律的設(shè)計中。Lee等基于對剩余時間的精確估計,在PN中引出角度誤差反饋項,設(shè)計了一種攔截角控制導(dǎo)引律,使導(dǎo)彈能以特定角度命中目標(biāo);Jeon等著眼于多枚導(dǎo)彈對單一目標(biāo)的協(xié)同打擊問題,通過在PN中加入命中時間誤差反饋項,提出了撞擊時間控制導(dǎo)引律。文獻(xiàn)[6]基于最優(yōu)控制理論和雙曲正切函數(shù),設(shè)計了考慮角度約束的最優(yōu)三維制導(dǎo)律,有效解決了傳統(tǒng)導(dǎo)引律初始段過載指令過大的問題。Li等針對大初始航向誤差的情況,基于非線性模型設(shè)計了包含角度約束的機(jī)動目標(biāo)最優(yōu)攔截制導(dǎo)律,避免了線性最優(yōu)導(dǎo)引律在面對較大初始航向誤差時制導(dǎo)指令易發(fā)散的弊端。文獻(xiàn)[8]提出了一種在特定時間攔截非機(jī)動目標(biāo)的非線性次優(yōu)三維制導(dǎo)律,同時避免了在制導(dǎo)律中引入剩余時間項。張浩等基于線性二次型微分對策理論,設(shè)計了面向具備主動防御能力目標(biāo)的攔截制導(dǎo)律,促使攔截彈在規(guī)避敵方防御彈的同時能夠有效殺傷目標(biāo)。在基于非線性控制理論的制導(dǎo)律設(shè)計中,滑模和自適應(yīng)方法應(yīng)用最為廣泛。結(jié)合非奇異快速終端滑??刂婆c自適應(yīng)算法,黃景帥等提出了一種無需目標(biāo)加速度信息的自適應(yīng)制導(dǎo)律,能夠保證誤差的有限時間收斂性。文獻(xiàn)[12]利用神經(jīng)網(wǎng)絡(luò)來搭建目標(biāo)加速度預(yù)測模型,并在此基礎(chǔ)上設(shè)計了攔截高超聲速目標(biāo)的最優(yōu)滑模制導(dǎo)律,在節(jié)省燃料的同時減小了攔截末端的指令加速度。同樣利用神經(jīng)網(wǎng)絡(luò)技術(shù),司玉潔等針對執(zhí)行器飽和問題,設(shè)計了一種自適應(yīng)滑模制導(dǎo)律,一定程度上提升了制導(dǎo)律的魯棒性。然而,上述導(dǎo)引律中的大多數(shù)是基于精確動力學(xué)模型推導(dǎo)所得,且需要剩余飛行時間或目標(biāo)加速度等信息,這勢必會增加其應(yīng)用難度。

      強(qiáng)化學(xué)習(xí)(Reinforcement learning,RL)為攔截彈制導(dǎo)律的設(shè)計提供了一種新思路。其作為人工智能領(lǐng)域的一個重要分支,近些年發(fā)展迅速。RL通??捎神R爾可夫決策過程(Markov decision process,MDP)來描述,包含智能體和環(huán)境兩部分。智能體不需要任何監(jiān)督信號或精確的環(huán)境模型,而是通過與環(huán)境進(jìn)行交互來改善自身策略,因此RL被認(rèn)為是區(qū)別于監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)的第三種機(jī)器學(xué)習(xí)范式。隨著深度學(xué)習(xí)(DL)技術(shù)的成熟,結(jié)合DL和RL的深度強(qiáng)化學(xué)習(xí)(DRL)算法開始逐漸涌現(xiàn),例如深度確定性策略梯度(Deep deterministic policy gradient,DDPG)、雙延遲深度確定性策略梯度(Twin delayed deep deterministic policy gradient,TD3)以及近端策略優(yōu)化(Proximal policy optimization,PPO)等。當(dāng)前,DRL技術(shù)被廣泛應(yīng)用于行星探測、多彈/機(jī)協(xié)同制導(dǎo)、巡飛彈突防制導(dǎo)等領(lǐng)域,展現(xiàn)了良好的性能和廣泛的應(yīng)用前景。而在攔截彈制導(dǎo)律設(shè)計方面,國內(nèi)外眾多學(xué)者先后開展相關(guān)研究,但仍處于起步階段。考慮到紅外導(dǎo)引頭僅能獲取目標(biāo)角度信息的限制,Gaudet等結(jié)合PPO算法和元學(xué)習(xí)技術(shù),設(shè)計了面向大氣層外機(jī)動目標(biāo)的離散動作空間攔截導(dǎo)引律,然而這種離散動作并不適合于大氣層內(nèi)攔截。He等探索了將DDPG算法應(yīng)用于攔截彈制導(dǎo)律設(shè)計的可能性,通過對比從零學(xué)習(xí)和基于先驗(yàn)知識的兩種學(xué)習(xí)模式,指出后者有助于提升學(xué)習(xí)效率,并可能提供更好的攔截性能。然而DDPG算法所固有的收斂速度較慢、學(xué)習(xí)穩(wěn)定性差等缺陷難以避免。

      本文針對DDPG算法的上述固有缺陷,通過引入雙重Q網(wǎng)絡(luò)和延遲更新來改善算法學(xué)習(xí)效率,進(jìn)而提出了一種基于TD3算法的攔截大氣層內(nèi)高速機(jī)動目標(biāo)的深度強(qiáng)化學(xué)習(xí)制導(dǎo)律。首先將攻防雙方交戰(zhàn)運(yùn)動學(xué)模型描述為適用于深度強(qiáng)化學(xué)習(xí)算法的馬爾可夫決策形式,引入獎勵整形函數(shù)來進(jìn)一步提升算法學(xué)習(xí)速度,并通過在訓(xùn)練過程中隨機(jī)初始化攻防雙方的狀態(tài)來提升算法所學(xué)到最終制導(dǎo)律的泛化能力。仿真結(jié)果驗(yàn)證了本文制導(dǎo)律的可行性,與PN、APN等傳統(tǒng)導(dǎo)引律相比,它不僅能夠降低對攔截彈中制導(dǎo)精度的要求,而且脫靶量更小。在多種不同工況下的蒙特卡洛仿真結(jié)果表明,該制導(dǎo)律具備良好的魯棒性和泛化性。

      1 問題描述

      本節(jié)給出典型攔截場景下交戰(zhàn)雙方的運(yùn)動模型,并將其描述為適合于深度強(qiáng)化學(xué)習(xí)算法的馬爾可夫決策過程。在此之前,我們做出如下三點(diǎn)假設(shè):

      攔截彈和進(jìn)攻彈雙方均被視為質(zhì)點(diǎn)運(yùn)動模型;

      忽略攔截彈導(dǎo)引頭及其控制系統(tǒng)的動態(tài)特性,視為理想制導(dǎo)過程;

      攔截彈和進(jìn)攻彈的飛行速度均視作常值。

      以上三點(diǎn)假設(shè)在導(dǎo)彈制導(dǎo)律設(shè)計中被廣泛采納。假設(shè)1和假設(shè)2代表了一種將制導(dǎo)回路和控制回路分開處理的思想:其中制導(dǎo)系統(tǒng)作為外回路,來生成由內(nèi)部控制回路負(fù)責(zé)跟蹤的制導(dǎo)指令。假設(shè)3則是考慮到攔截高速機(jī)動目標(biāo)的末制導(dǎo)階段持續(xù)時間較短,速度變化并不顯著,因此將其視為常值。

      1.1 交戰(zhàn)場景

      本文研究了如圖1所示的縱向平面內(nèi)交戰(zhàn)場景。圖中M表示進(jìn)攻方導(dǎo)彈,D代表防御方攔截彈,而T為進(jìn)攻方所要打擊的固定目標(biāo)。顯然在此場景下,進(jìn)攻彈M需要在躲避攔截彈D的同時命中目標(biāo)T;而攔截彈D的任務(wù)就是要盡可能地攔截M從而保護(hù)T免遭殺傷。

      圖1 交戰(zhàn)場景Fig.1 Engagement scenario

      在圖1中,笛卡爾慣性坐標(biāo)系-T-代表交戰(zhàn)所發(fā)生的縱向平面,其中目標(biāo)T位于坐標(biāo)原點(diǎn)。,,分別表示目標(biāo)-進(jìn)攻彈,目標(biāo)-攔截彈和攔截彈-進(jìn)攻彈之間的距離;,,則代表相應(yīng)的視線角。和分別為攔截彈和進(jìn)攻彈的彈道傾角,以正向?yàn)榛鶞?zhǔn),逆時針轉(zhuǎn)動為正。攔截彈和進(jìn)攻彈的飛行速度在圖中分別由與表示;而它們的法向加速度則被分別表示為和。

      忽略重力的影響,上述場景下目標(biāo)-進(jìn)攻彈之間的交戰(zhàn)運(yùn)動學(xué)為:

      (1)

      同樣可以得到目標(biāo)-攔截彈之間的交戰(zhàn)運(yùn)動學(xué)為:

      (2)

      而攻防雙方的彈道傾角可分別表示為:

      (3)

      (4)

      需要說明的是,這里并未直接采用攔截彈-進(jìn)攻彈之間的相對運(yùn)動模型的原因是便于執(zhí)行如圖4所示的狀態(tài)隨機(jī)初始化,以提升深度強(qiáng)化學(xué)習(xí)算法所學(xué)到最終策略的泛化能力。此外,在算法訓(xùn)練中為進(jìn)攻彈M設(shè)計如下機(jī)動策略,以契合其躲避攔截彈D并打擊目標(biāo)T的戰(zhàn)術(shù)目的:

      =

      (5)

      式(5)所示進(jìn)攻彈M的機(jī)動模式意味著:當(dāng)攔截彈D迫近到≤時,M會執(zhí)行一個持續(xù)時間為、頻率為的方波機(jī)動,以躲避D的追擊;而在其他時間,M則是依據(jù)與目標(biāo)T的相對運(yùn)動關(guān)系,按照比例導(dǎo)引律來打擊目標(biāo)。顯然這種機(jī)動模式與M的戰(zhàn)術(shù)目的相一致。

      1.2 馬爾可夫決策過程

      圖2 MDP中智能體與環(huán)境交互過程Fig.2 Agent-environment interaction in MDP

      在某一訓(xùn)練回合中,智能體模塊在每一時刻觀測到此時的交戰(zhàn)狀態(tài),并依據(jù)當(dāng)前策略(|)來決定所采取的動作~(|)。其中(|)定義為:

      (6)

      之后環(huán)境中的交戰(zhàn)運(yùn)動學(xué)方程在此動作的作用下向前積分一步,得到下一時刻狀態(tài)+1的同時,智能體模塊將獲得一個來自環(huán)境的獎勵+1。循環(huán)執(zhí)行此交互過程直至該回合結(jié)束。在一個回合中,從時間到終止時刻,智能體所獲得的總獎勵可定義為:

      (7)

      式中:={,,+1,+1, …,,}表示某一回合所對應(yīng)的狀態(tài)-動作軌跡;∈[0, 1]為折扣因子。

      2 基于深度強(qiáng)化學(xué)習(xí)的制導(dǎo)律設(shè)計

      2.1 深度強(qiáng)化學(xué)習(xí)

      ()=Ε[|=]

      (8)

      (,)=Ε[|=,=]

      (9)

      從而可將強(qiáng)化學(xué)習(xí)算法所優(yōu)化的目標(biāo)函數(shù)定義為:

      ?()=Ε[|=]

      (10)

      此時,強(qiáng)化學(xué)習(xí)便可以通過最大化如式(10)所示的性能指標(biāo)來獲取最優(yōu)策略(|)。為此,可以采用一個參數(shù)化的策略函數(shù)(|;)來近似最優(yōu)策略(|),進(jìn)而通過調(diào)整參數(shù)來提升性能指標(biāo)的值,從而實(shí)現(xiàn)對策略(|;)的優(yōu)化。這可以通過式(11)所示的梯度上升法來實(shí)現(xiàn),

      (11)

      (12)

      為了進(jìn)一步降低算法訓(xùn)練過程中的方差,可以引入一個基線函數(shù)(),從而可以將式(12)改寫為:

      (13)

      更進(jìn)一步,利用動作價值函數(shù)(,)的參數(shù)化近似(,;)和狀態(tài)價值函數(shù)()的參數(shù)化近似(;),來分別替代式(13)中的和()兩項,便可以得到執(zhí)行者-評價者(Actor-Critic)算法的梯度更新方向?yàn)椋?/p>

      (14)

      式中:(,;)=(,;)-(;)稱作優(yōu)勢函數(shù)。

      在引入經(jīng)驗(yàn)回放機(jī)制后,用于更新價值函數(shù)網(wǎng)絡(luò)參數(shù)的損失函數(shù)可以定義為:

      (15)

      式中:|B|代表數(shù)據(jù)集B的長度。

      與深度Q學(xué)習(xí)不同的地方在于上式中的表達(dá)式,TD3算法在計算時選用了兩個價值函數(shù)目標(biāo)網(wǎng)絡(luò)中輸出較小的那一個,以避免對價值函數(shù)的過估計;并且在策略目標(biāo)網(wǎng)絡(luò)輸出的動作~(|;)的基礎(chǔ)上疊加了一個隨機(jī)噪聲,以提升算法穩(wěn)定性。因此式(15)中的表達(dá)式為:

      (16)

      式中:~((0,),-,),其中函數(shù)定義為:

      相應(yīng)地,策略網(wǎng)絡(luò)(|;)參數(shù)更新的損失函數(shù)可表示為:

      (17)

      參數(shù)便可分別按照式(18)、(19)更新,以最小化損失函數(shù)()與()。

      (18)

      (19)

      為了保證訓(xùn)練的穩(wěn)定性,TD3算法中三個目標(biāo)網(wǎng)絡(luò)的參數(shù)可按下式進(jìn)行軟更新:

      (20)

      式中:被稱為慣性因子。

      需要補(bǔ)充的是,為了保證算法在訓(xùn)練中具有足夠的探索性以避免陷入局部最優(yōu)點(diǎn),與DDPG算法類似,需要在動作~(|;)的基礎(chǔ)上疊加一個隨機(jī)噪聲N~((0,),-,)。

      2.2 制導(dǎo)律設(shè)計

      基于上文所介紹的TD3算法和式(1)~(4)所示的攻防雙方交戰(zhàn)運(yùn)動學(xué)方程,圖3展示了本文所設(shè)計的深度強(qiáng)化學(xué)習(xí)制導(dǎo)律全系統(tǒng)結(jié)構(gòu)框架。如圖所示,系統(tǒng)環(huán)境是在交戰(zhàn)運(yùn)動學(xué)模型的基礎(chǔ)上,又附加了狀態(tài)隨機(jī)初始化和隨機(jī)航向誤差而搭建起來的。在訓(xùn)練中引入隨機(jī)初始化和隨機(jī)航向誤差均是為了提升算法所學(xué)習(xí)到最終策略的魯棒性和泛化能力。

      圖3 系統(tǒng)結(jié)構(gòu)框圖Fig.3 Block diagram of the system

      1)訓(xùn)練場景

      為了保證TD3算法的訓(xùn)練速度,需要對攻防雙方的初始狀態(tài)做出如圖4所示的限制。其中為初始視線角TMTD的下界,而則為上界;和分別為初始目標(biāo)-攔截彈距離的上界與下界,而和則是初始目標(biāo)-進(jìn)攻彈距離TM的邊界。此外,將攔截彈的初始航向誤差表示為,即攔截彈的初始航向角為:

      (21)

      式(21)意味著當(dāng)=0時,攔截彈的航向滿足進(jìn)攻彈不機(jī)動時的碰撞三角。

      圖4 訓(xùn)練場景Fig.4 Training scenario

      表1 訓(xùn)練場景邊界Table 1 Limits of the training scenario

      2)狀態(tài)空間與動作空間

      在深度強(qiáng)化學(xué)習(xí)算法中,策略網(wǎng)絡(luò)(|;)直接將狀態(tài)量映射為動作,也就是說策略網(wǎng)絡(luò)本身相當(dāng)于一個如式(22)所示的非線性函數(shù)

      =()

      (22)

      對于本文所研究的交戰(zhàn)場景,攔截彈的戰(zhàn)術(shù)目的就是盡最大可能攔截進(jìn)攻彈,因此可將狀態(tài)空間設(shè)計為攔截彈-進(jìn)攻彈之間的相對狀態(tài),即:

      (23)

      而當(dāng)假設(shè)速度為常值時,攔截彈的運(yùn)動狀態(tài)便僅由其法向加速度控制,因此可將動作空間設(shè)計為:

      (24)

      (25)

      3)獎勵函數(shù)

      設(shè)計一個合適的獎勵函數(shù)對于強(qiáng)化學(xué)習(xí)算法來說至關(guān)重要,會直接影響到算法的訓(xùn)練速度甚至是可行性。為了解決稀疏獎勵所造成的算法收斂性差、學(xué)習(xí)速度慢等問題,本文引入了獎勵函數(shù)整形。所設(shè)計的獎勵函數(shù)為:

      =+

      (26)

      其中:

      =exp(-(Δ))+

      式中:和均為超參數(shù); Δ=-DM。

      4)網(wǎng)絡(luò)結(jié)構(gòu)

      策略網(wǎng)絡(luò)和價值函數(shù)網(wǎng)絡(luò)均由包含三個隱含層的全連接神經(jīng)網(wǎng)絡(luò)來實(shí)現(xiàn),其中隱含層的激活函數(shù)選取為ReLU函數(shù),其定義為:

      (27)

      表2 網(wǎng)絡(luò)結(jié)構(gòu)Table 2 Architecture of the networks

      3 仿真校驗(yàn)

      為驗(yàn)證所提出基于TD3算法的攔截彈制導(dǎo)策略的有效性,本節(jié)開展了數(shù)值仿真。首先通過合理地選取超參數(shù),得到了訓(xùn)練過程曲線。之后在多種不同工況下對所提出制導(dǎo)方案展開測試,并基于蒙特卡洛仿真與比例導(dǎo)引(PN)和增強(qiáng)比例導(dǎo)引(APN)兩種經(jīng)典制導(dǎo)方案作對比,體現(xiàn)本文方案的性能。

      3.1 訓(xùn)練過程

      本文中所有的仿真實(shí)驗(yàn)均是基于Python 3.7和Tensorflow 2.4框架開展的。硬件信息為Intel i7-10700K@3.80 GHz,RTX2070 8 GB,DDR4 16 GB,512 GB SSD。

      強(qiáng)化學(xué)習(xí)訓(xùn)練環(huán)境由四階龍格庫塔積分器進(jìn)行更新,當(dāng)攔截彈-進(jìn)攻彈的距離大于500 m時,積分步長為0.01 s;反之,積分步長取為0.0001 s。攔截彈和進(jìn)攻彈的制導(dǎo)周期均取為0.05 s;總的訓(xùn)練回合數(shù)取為=50000。附加在動作值上的隨機(jī)噪聲N的界限在前5000個回合內(nèi)由0.05逐漸衰減為0;而只有當(dāng)經(jīng)驗(yàn)池中的經(jīng)驗(yàn)數(shù)量大于50000時,才會開始更新網(wǎng)絡(luò)參數(shù)。訓(xùn)練中相關(guān)超參數(shù)的具體數(shù)值如表3所示。

      表3 訓(xùn)練所需超參數(shù)Table 3 Hyper-parameters needed in training

      在訓(xùn)練過程中,為了保證算法所得到最終策略的泛化能力,攔截彈和進(jìn)攻彈的初始狀態(tài)分別在圖4所示的可行域內(nèi)隨機(jī)初始化,且攔截彈的初始航向偏差也按照表1給出的范圍隨機(jī)選取。圖5展示了算法的訓(xùn)練過程,其中圖5(a)給出了訓(xùn)練過程中智能體每次與環(huán)境交互所得平均獎勵的變化曲線;圖5(b)則給出了經(jīng)過不同回合數(shù)的訓(xùn)練后,所得到的策略在1000次蒙特卡洛仿真測試下的性能表現(xiàn)。綜合圖5可見:在算法訓(xùn)練的最初15000個回合內(nèi),智能體處在探索階段,所獲得的獎勵值徘徊在低位,此時所得策略的攔截成功率幾乎為0,性能很差;而在訓(xùn)練進(jìn)行到第15000~35000回合中間時,智能體所獲得的獎勵開始逐漸增加,同時策略的攔截成功率也逐步提升、脫靶概率顯著下降,這說明在此階段策略得以優(yōu)化;而在訓(xùn)練進(jìn)行到35000回合以后,獎勵值平穩(wěn)地維持在高位,同時所得策略的攔截成功率也始終保持在較高水平,這說明此時算法逐漸收斂。此外由圖5(a)中的算法對比曲線可見,本文所采用的TD3算法相對DDPG在學(xué)習(xí)速度上有明顯提升,能夠更早地改善智能體策略并達(dá)到收斂。

      圖5 訓(xùn)練曲線Fig.5 Training curves

      3.2 測試過程

      為測試算法訓(xùn)練所得攔截彈制導(dǎo)策略的性能,選用第41600回合所得到的策略網(wǎng)絡(luò)模型,開展如下測試。

      1)訓(xùn)練場景下的測試

      首先在與訓(xùn)練場景相同的參數(shù)設(shè)置下開展測試,驗(yàn)證制導(dǎo)策略的有效性。為了充分測試深度強(qiáng)化學(xué)習(xí)制導(dǎo)律的性能,以式(28)所示的PN和APN導(dǎo)引律作對比,本文進(jìn)行了1000次的蒙特卡洛仿真。圖6給出了這三種制導(dǎo)方案的脫靶量散布,表4則給出了脫靶量散布的統(tǒng)計特性。

      (28)

      綜合圖6和表4可以看出,相對于PN和APN兩種制導(dǎo)律,基于TD3的制導(dǎo)策略脫靶量更小??紤]到當(dāng)前末端攔截彈多采取直接碰撞來襲目標(biāo)的殺傷方式,顯然較小的脫靶量更利于實(shí)現(xiàn)這種碰撞殺傷。此外,方差的數(shù)值彰顯了本文制導(dǎo)策略在面對不同交戰(zhàn)條件時性能的平穩(wěn)性,不會出現(xiàn)過大波動。

      圖6 不同導(dǎo)引律脫靶量Fig.6 Miss distances under different guidance laws

      2)未學(xué)習(xí)場景下的測試

      本小節(jié)將強(qiáng)化學(xué)習(xí)訓(xùn)練所得到的制導(dǎo)策略應(yīng)用于多種未學(xué)習(xí)場景,并開展蒙特卡洛仿真實(shí)驗(yàn),以驗(yàn)證該策略的魯棒性和泛化能力。測試主要分為三部分。第一部分是測試制導(dǎo)策略應(yīng)對不同初始航向誤差時的性能。改變的取值范圍,經(jīng)過1000次蒙特卡洛仿真后所得不同制導(dǎo)策略的性能對比如圖7所示。第二部分為測試當(dāng)來襲導(dǎo)彈的機(jī)動模式改變時,本文制導(dǎo)策略的性能。將進(jìn)攻彈的機(jī)動模式改為正弦機(jī)動,而非訓(xùn)練時所采用的方波機(jī)動,即:

      (29)

      此時的蒙特卡洛仿真結(jié)果如圖8所示。第三部分測試則是減小進(jìn)攻彈的機(jī)動頻率。由橫向位移的計算公式Δ2可知,當(dāng)機(jī)動頻率降低時進(jìn)攻彈的橫向位移會增大,即擁有更大的機(jī)動范圍。此時三種制導(dǎo)策略的性能表現(xiàn)如圖9所示。

      圖7 目標(biāo)方波機(jī)動時性能對比Fig.7 Performance comparison of square wave maneuvering targets

      圖8 目標(biāo)正弦機(jī)動時性能對比Fig.8 Performance comparison of sinusoidal maneuvering targets

      由圖7可見,在面臨不同的初始航向誤差時,相對于PN和APN,本文所提出的深度強(qiáng)化學(xué)習(xí)制導(dǎo)律均具備更高的攔截概率、更低的脫靶幾率。進(jìn)一步觀察圖7可以發(fā)現(xiàn),本文制導(dǎo)策略的優(yōu)勢在較大時更加顯著,即該策略能夠應(yīng)對更大的初始航向誤差。以上分析說明本文所提出的末段制導(dǎo)策略可以降低對攔截彈中制導(dǎo)精度的要求,這在一定程度上有助于簡化攔截彈中制導(dǎo)律設(shè)計。

      圖9 目標(biāo)不同機(jī)動頻率下的攔截概率Fig.9 Interception probabilities after changing the maneuvering frequency

      綜合圖8和圖9的仿真結(jié)果,可以看到無論來襲導(dǎo)彈的規(guī)避機(jī)動模式發(fā)生怎樣的改變,基于TD3算法的制導(dǎo)策略相對于另外兩種均具備更好的性能表現(xiàn)。進(jìn)一步觀察圖9可見,隨著目標(biāo)機(jī)動頻率的降低即機(jī)動范圍的增大,TD3策略相對于PN和APN的優(yōu)勢趨于顯著,這說明它不僅能夠克服攔截彈自身的初始航向誤差,同時能夠有效應(yīng)對來襲導(dǎo)彈較大范圍地規(guī)避機(jī)動。以上分析驗(yàn)證了本文所設(shè)計的深度強(qiáng)化學(xué)習(xí)制導(dǎo)律能夠在多種復(fù)雜工況下保持優(yōu)異的性能,具備良好的魯棒性和泛化能力。

      4 結(jié) 論

      本文提出了一種適用于大氣層內(nèi)攔截高速機(jī)動目標(biāo)的深度強(qiáng)化學(xué)習(xí)制導(dǎo)律。將攔截交戰(zhàn)運(yùn)動學(xué)模型描述為馬爾可夫決策過程,并設(shè)計了合適的訓(xùn)練場景、狀態(tài)空間、動作空間和網(wǎng)絡(luò)結(jié)構(gòu),分別引入獎勵函數(shù)整形和隨機(jī)初始化來提升算法的訓(xùn)練速度及最終策略的魯棒性。仿真結(jié)果驗(yàn)證了本文制導(dǎo)策略的可行性。相對于PN和APN,本文方法脫靶量更小、性能表現(xiàn)更為穩(wěn)定并降低了對中制導(dǎo)精度的要求,在多個未學(xué)習(xí)場景下的測試結(jié)果彰顯了此策略良好的魯棒性和泛化能力。此外,該制導(dǎo)策略對計算能力要求較低,便于在彈載計算機(jī)上運(yùn)行。

      猜你喜歡
      制導(dǎo)機(jī)動深度
      裝載機(jī)動臂的疲勞壽命計算
      深度理解一元一次方程
      12萬畝機(jī)動地不再“流浪”
      機(jī)動三輪車的昨天、今天和明天
      深度觀察
      深度觀察
      深度觀察
      基于MPSC和CPN制導(dǎo)方法的協(xié)同制導(dǎo)律
      基于在線軌跡迭代的自適應(yīng)再入制導(dǎo)
      帶有攻擊角約束的無抖振滑模制導(dǎo)律設(shè)計
      改则县| 泰和县| 敦煌市| 澎湖县| 华宁县| 龙口市| 扎鲁特旗| 日喀则市| 衡山县| 安丘市| 阜新| 玛多县| 乐山市| 牡丹江市| 千阳县| 泸定县| 石家庄市| 纳雍县| 新民市| 天峨县| 桃园市| 确山县| 兰州市| 桦川县| 紫金县| 奎屯市| 抚远县| 商水县| 海原县| 安阳市| 鲁山县| 浠水县| 读书| 德阳市| 阜新市| 日照市| 太康县| 资中县| 平罗县| 县级市| 恩平市|