• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于深度強(qiáng)化學(xué)習(xí)的巡飛彈突防控制決策

      2021-06-24 05:50:16高昂董志明葉紅兵宋敬華郭齊勝
      兵工學(xué)報(bào) 2021年5期
      關(guān)鍵詞:飛彈航跡決策

      高昂,董志明,葉紅兵,宋敬華,郭齊勝

      (1.陸軍裝甲兵學(xué)院 演訓(xùn)中心,北京 100072;2.湘南學(xué)院,湖南 郴州 423099)

      0 引言

      按照全域機(jī)動(dòng),全域力量投送,創(chuàng)造領(lǐng)域優(yōu)勢,確保行動(dòng)自由的“多域戰(zhàn)”作戰(zhàn)理念,巡飛彈這種飛航式智能彈藥成為軍事領(lǐng)域的重要發(fā)展方向[1-3]。巡飛彈如何在動(dòng)態(tài)對(duì)抗環(huán)境中有效規(guī)避威脅、提高生存力是其執(zhí)行作戰(zhàn)任務(wù)成功與否的關(guān)鍵[4-5]。目前,巡飛彈航跡規(guī)劃方法主要分為基于知識(shí)、推理、規(guī)劃,仿生優(yōu)化,學(xué)習(xí)3類方法[6]。第1類方法缺乏探索及發(fā)現(xiàn)框架之外新知識(shí)能力;第2類方法適用于求解旅行商這類靜態(tài)環(huán)境下的路徑規(guī)劃問題,難以應(yīng)用于動(dòng)態(tài)對(duì)抗、決策實(shí)時(shí)性要求較高的環(huán)境;深度強(qiáng)化學(xué)習(xí)(DRL)屬于第3類方法,DRL可以突破專家先驗(yàn)知識(shí)的限制,直接從高維戰(zhàn)場空間中感知信息,并通過與環(huán)境不斷交互優(yōu)化模型。目前,采用DRL方法進(jìn)行飛行器航跡規(guī)劃的工作并不多。文獻(xiàn)[7]在航跡終端約束條件下,基于DRL實(shí)現(xiàn)無人機(jī)從終端附近任意位置向目標(biāo)點(diǎn)自主機(jī)動(dòng);文獻(xiàn)[8]在城市環(huán)境中,基于DRL實(shí)現(xiàn)無人機(jī)從靜態(tài)障礙物中通過,并到達(dá)指定目標(biāo)區(qū)域。盡管飛行器控制在自主化方面已經(jīng)取得了一定進(jìn)展,但上述方法仍需要在更復(fù)雜的環(huán)境下進(jìn)行進(jìn)一步測試,例如動(dòng)態(tài)環(huán)境中的航跡規(guī)劃對(duì)飛行器來說仍然具有挑戰(zhàn)性。本文考慮了存在潛在敵人威脅條件下,飛行器自主航跡規(guī)劃問題,其難點(diǎn)在于飛行器在完成任務(wù)之前,并不知道威脅的數(shù)量、位置、策略,因此,必須學(xué)習(xí)一個(gè)合適的策略來對(duì)動(dòng)態(tài)環(huán)境做出反應(yīng)。具體來說,假設(shè)敵人的地空導(dǎo)彈雷達(dá)能夠探測到一定范圍內(nèi)的巡飛彈,并能夠影響巡飛彈在一定空間內(nèi)的生存概率,因此巡飛彈必須學(xué)會(huì)在保證其自身不被摧毀的前提下完成突防任務(wù)。

      1 基于馬爾可夫決策過程的巡飛彈突防控制決策模型

      巡飛彈的作戰(zhàn)運(yùn)用方式為,當(dāng)其收到控制平臺(tái)發(fā)出的敵目標(biāo)信息后,會(huì)繞過威脅區(qū)域,選擇高效飛行搜尋路線,對(duì)固定目標(biāo)實(shí)施打擊。本節(jié)將巡飛彈機(jī)動(dòng)突防建模為馬爾可夫決策過程(MDP),建立巡飛彈飛行運(yùn)動(dòng)模型,設(shè)計(jì)巡飛彈狀態(tài)空間、動(dòng)作空間、獎(jiǎng)勵(lì)函數(shù)。MDP可由元組(S,A,P,R,γ)描述,S表示有限狀態(tài)集;A表示有限動(dòng)作集;P=P(st+1|st,a)表示狀態(tài)st下,采取動(dòng)作a后,轉(zhuǎn)移到下一狀態(tài)st+1的概率,t為仿真時(shí)間;巡飛彈在與環(huán)境交互過程中,在每個(gè)時(shí)間步長內(nèi),根據(jù)狀態(tài)st執(zhí)行動(dòng)作a,通過與環(huán)境交互,生成下一時(shí)間步長的狀態(tài)st+1;R(s,a)表示狀態(tài)s下采取動(dòng)作a獲得的累積獎(jiǎng)勵(lì),r(s,a)表示狀態(tài)s下采取動(dòng)作a獲得的即時(shí)獎(jiǎng)勵(lì);γ為折扣因子,用來計(jì)算累積獎(jiǎng)勵(lì)E.定義狀態(tài)值函數(shù)vπ(s)和狀態(tài)- 行為值函數(shù)qπ(s,a)分別如(1)式和(2)式。

      (1)

      式中:k為仿真時(shí)間間隔;vπ(s)能夠衡量策略π下狀態(tài)s有多好。相應(yīng)地,狀態(tài)- 行為值函數(shù)定義為

      (2)

      由上述可以看出,qπ(s,a)衡量的是采用策略π時(shí),在狀態(tài)s下采取動(dòng)作a有多好。

      1.1 巡飛彈飛行運(yùn)動(dòng)模型

      巡飛彈的空間質(zhì)心運(yùn)動(dòng)采用3自由度質(zhì)點(diǎn)運(yùn)動(dòng)模型[9-10],假設(shè)巡飛彈發(fā)動(dòng)機(jī)推力和速度方向一致,采用北東地大地坐標(biāo)系,建立巡飛彈質(zhì)點(diǎn)動(dòng)力學(xué)運(yùn)動(dòng)模型fm(t)如(3)式所示,系統(tǒng)轉(zhuǎn)移概率P(·|s,a)=1.

      (3)

      式中:x、y、z表示大地坐標(biāo)系下坐標(biāo)分量;v表示速度矢量;vx、vy、vz分別表示巡飛彈在x軸、y軸、z軸3個(gè)方向的分量速度;g表示重力加速度;β、φ、φ分別表示航跡傾角、航向角、滾轉(zhuǎn)角;nx、nz分別表示巡飛彈切向過載和法向過載。

      假設(shè)巡飛彈在Oxy平面以固定速度v高速突防,則控制巡飛彈航跡傾角β=0°,滾轉(zhuǎn)角φ=0°,運(yùn)動(dòng)模型簡化為

      (4)

      圖1 巡飛彈飛行航跡示意圖Fig.1 Schematic diagram of flight path of loitering munition

      1.2 狀態(tài)空間設(shè)計(jì)

      (5)

      式中:α=x(t)-xg,β=y(t)-yg;xg、yg分別為目標(biāo)區(qū)域中心點(diǎn)的經(jīng)度、緯度坐標(biāo)。

      1.3 動(dòng)作空間設(shè)計(jì)

      根據(jù)巡飛彈飛行運(yùn)動(dòng)模型控制量的定義,飛行動(dòng)作空間定義如 (6) 式所示。

      Af={Δφ},Δφ=φ(t)-φ(t-1),
      -φmax<Δφ<φmax,

      (6)

      式中:Δφ表示兩個(gè)相鄰仿真時(shí)間步長間航向角的改變量。設(shè)置巡飛彈作戰(zhàn)條令與交戰(zhàn)規(guī)則如圖2所示,主要為巡飛彈可接戰(zhàn)臨機(jī)出現(xiàn)目標(biāo),武器控制狀態(tài)為對(duì)地自由開火,即發(fā)現(xiàn)目標(biāo)即摧毀,開火動(dòng)作不受算法控制。

      圖2 巡飛彈作戰(zhàn)條令與交戰(zhàn)規(guī)則設(shè)置Fig.2 Doctrine and engagement rules of loitering munition

      1.4 獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)

      巡飛彈的突防目的是機(jī)動(dòng)到目標(biāo)地域執(zhí)行任務(wù),設(shè)巡飛彈完成突防控制任務(wù)的條件,如(7)式所示。

      (7)

      式中:在巡飛彈初始發(fā)射時(shí)刻,t=0 s,t為離散值,以1 s為1個(gè)仿真時(shí)間步長;maxt為每輪訓(xùn)練最大仿真時(shí)間;d(t)表示t時(shí)刻,巡飛彈與目標(biāo)區(qū)域中心位置AT的距離;l表示巡飛彈的探測半徑。目標(biāo)區(qū)域的范圍是以目標(biāo)點(diǎn)AT為圓心,以l為半徑的圓形區(qū)域,如圖3所示。根據(jù)巡飛彈突防控制任務(wù)完成的條件,設(shè)計(jì)巡飛彈突防控制評(píng)價(jià)函數(shù),如(8)式所示。

      圖3 巡飛彈突防場景幾何關(guān)系示意圖Fig.3 Schematic diagram of geometric relationship of loitering munition penetration scene

      (8)

      (9)

      2 基于深度強(qiáng)化學(xué)習(xí)的巡飛彈突防控制決策模型求解

      強(qiáng)化學(xué)習(xí)是在給定的MDP中尋找最優(yōu)策略π*(a|s)=P(at=a|st=s)的過程。DRL主要是在給出狀態(tài)s和qπ(s,a),或s和vπ(s)的值后,可以借助深度神經(jīng)網(wǎng)絡(luò)(DNN)較強(qiáng)的擬合能力,通過模型實(shí)現(xiàn)s→qπ(s,a)或s→vπ(s,a)的映射關(guān)系。

      2.1 基于演員- 評(píng)論家的巡飛彈突防決策框架

      DRL基本可分為基于策略梯度(PG)與基于值函數(shù)兩類,基于PG的DRL夠直接優(yōu)化策略的期望總獎(jiǎng)勵(lì)值并在策略空間搜索最優(yōu)策略,適用范圍更廣[12-13],因此,本節(jié)基于PG設(shè)計(jì)算法框架。

      圖4 巡飛彈決策網(wǎng)絡(luò)結(jié)構(gòu)Fig.4 Network structure of loitering munition penetration decision

      巡飛彈在戰(zhàn)場環(huán)境中的狀態(tài)、動(dòng)作、獎(jiǎng)勵(lì)值探索軌跡τ可描述為

      τ={s1,a1,r1,s2,a2,r2,…,st,at,rt,st+1,
      at+1,rt+1,…,sT,aT,rT},

      式中:st、at、tt分別為仿真時(shí)間,巡飛彈的狀態(tài)、動(dòng)作、獎(jiǎng)勵(lì)值;t=1,2,3,…,T,T為仿真終止時(shí)間。

      如圖5所示,τ發(fā)生的概率為

      圖5 巡飛彈探索軌跡示意圖Fig.5 Schematic diagram of loitering munition exploration trajectory

      (10)

      因此,在巡飛彈的突防策略為π情況下,所能獲得的期望獎(jiǎng)勵(lì)為

      (11)

      本節(jié)期望通過調(diào)整巡飛彈的突防策略π,使得期望獎(jiǎng)勵(lì)最大,于是對(duì)期望函數(shù)使用梯度提升方法更新巡飛彈策略網(wǎng)絡(luò)參數(shù)θ,求解過程如下:

      (12)

      式中:N表示仿真的最大經(jīng)驗(yàn)序列數(shù);Tn表示第n經(jīng)驗(yàn)序列的仿真終止時(shí)間。

      利用該梯度調(diào)整策略參數(shù)θ,如 (13) 式:

      (13)

      式中:η為學(xué)習(xí)率。

      (14)

      因此,采用Q函數(shù)來估算R的期望值,同時(shí),創(chuàng)建一個(gè)評(píng)價(jià)網(wǎng)絡(luò)來計(jì)算Q函數(shù)值。為提升巡飛彈突防學(xué)習(xí)效率,設(shè)計(jì)巡飛彈評(píng)價(jià)網(wǎng)絡(luò)結(jié)構(gòu)如圖6所示,輸入層為t時(shí)刻巡飛彈狀態(tài)空間、動(dòng)作值,輸出為Q函數(shù)值。

      圖6 巡飛彈評(píng)價(jià)網(wǎng)絡(luò)結(jié)構(gòu)Fig.6 Network structure of loitering munition evaluation

      此時(shí),巡飛彈策略網(wǎng)絡(luò)的參數(shù)梯度變?yōu)?/p>

      (15)

      巡飛彈評(píng)價(jià)網(wǎng)絡(luò)根據(jù)估計(jì)的Q值和實(shí)際Q值的平方誤差進(jìn)行更新,對(duì)評(píng)價(jià)網(wǎng)絡(luò)來說,其損失值為

      (16)

      設(shè)計(jì)巡飛彈突防控制決策算法框架設(shè)計(jì)如圖7所示。

      圖7 巡飛彈突防控制決策算法框架Fig.7 Algorithm framework of loitering munition penetration control

      以上為基于演員- 評(píng)論家(AC)的DRL框架建模,屬于PG方法類,但可以進(jìn)行單步更新,比傳統(tǒng)PG效率更高。

      2.2 基于深度確定性策略梯度的巡飛彈突防控制決策求解

      深度確定性策略梯度(DDPG)是AC框架下的算法[14],但融合了DQN的優(yōu)勢,提高了AC的穩(wěn)定性、收斂性,其流程示意圖8[15]所示。圖8中:s′、a′分別表示更新后的狀態(tài)值、動(dòng)作值。

      圖8 DDPG算法流程圖Fig.8 Flow chart of DDPG algorithm

      根據(jù)上述流程,基于DDPG的巡飛彈突防控制決策算法訓(xùn)練流程如表1所示。

      表1 巡飛彈突防控制決策算法訓(xùn)練流程Tab.1 Training process of loitering munition penetration control algorithm

      巡飛彈突防控制決策算法流程訓(xùn)練完畢后,得到最優(yōu)決策網(wǎng)絡(luò)μ(s|θμ),直接使用μ(s|θμ)輸出作為決策結(jié)果,即a=μ(s|θμ),s∈S.

      3 實(shí)驗(yàn)設(shè)計(jì)及結(jié)果分析

      圖9所示為巡飛彈突防敵地空導(dǎo)彈防御陣地,到某地域?qū)嵤皵厥住毙袆?dòng)仿真實(shí)驗(yàn)。

      圖9 巡飛彈突防想定示意圖Fig.9 Schematic diagram of loitering munition penetration scenario

      3.1 實(shí)驗(yàn)場景及武器性能參數(shù)設(shè)置

      實(shí)驗(yàn)場景主要對(duì)巡飛彈及3個(gè)地空導(dǎo)彈陣地的初始位置,以及與巡飛彈突防相關(guān)的紅方和藍(lán)方主要武器性能參數(shù)進(jìn)行了設(shè)置。由表2可知:地空導(dǎo)彈的火力射程為6.0~7.6 km,巡飛彈的飛行高度為3.658 km,當(dāng)巡飛彈進(jìn)入地空導(dǎo)彈火力范圍時(shí),即進(jìn)入威脅區(qū)域;巡飛彈的偵察距離為10 km,地空導(dǎo)彈的火力范圍為10 km,當(dāng)巡飛彈距地空導(dǎo)彈陣地發(fā)射點(diǎn)10 km時(shí),會(huì)相互探測到對(duì)方的位置坐標(biāo)。導(dǎo)彈的爬升速度為323 m/s,爬升至巡飛彈的飛行高度需要約11.3 s時(shí)間,此時(shí),巡飛彈以250 km/h速度可機(jī)動(dòng)約785 m. 由于導(dǎo)彈的巡航速度為2 185 km/h,遠(yuǎn)大于巡飛彈的機(jī)動(dòng)速度,因此,在導(dǎo)彈爬升至巡飛彈飛行高度前,巡飛彈如果沒有規(guī)避到地空導(dǎo)彈陣地火力范圍以外,就會(huì)面臨被摧毀的危險(xiǎn);目標(biāo)區(qū)域設(shè)置為:以目標(biāo)點(diǎn)坐標(biāo)為圓心,巡飛彈偵察距離為半徑圓形區(qū)域,是因?yàn)檫@里假定巡飛彈進(jìn)入該區(qū)域,即可在一定探測時(shí)間發(fā)現(xiàn)目標(biāo),并自動(dòng)鎖定將其摧毀。

      表2 實(shí)驗(yàn)場景及主要武器性能參數(shù)設(shè)置表Tab.2 Experimental scene and weapon performance parameter setting

      3.2 仿真流程及參數(shù)設(shè)置

      實(shí)驗(yàn)軟件環(huán)境:ubuntu18.04+pytorch. 硬件環(huán)境:Intel core i7+GeForce GTX 1060Ti+64G. actor、critic神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)分別采用2層、3層隱藏層的全連接神經(jīng)網(wǎng)絡(luò),隱藏單元數(shù)分別為(256,128)、(256,128,64),并使用relu激活函數(shù)。網(wǎng)絡(luò)主要超參數(shù)設(shè)置:actor、critic網(wǎng)絡(luò)學(xué)習(xí)率η=0.001,折扣因子Γ=0.99,目標(biāo)網(wǎng)絡(luò)更新系數(shù)τ=0.001,經(jīng)驗(yàn)回放池容量D=100 000,當(dāng)經(jīng)驗(yàn)回放池?cái)?shù)據(jù)達(dá)到scale=10 000規(guī)模時(shí),開始采用更新策略網(wǎng)絡(luò),采樣數(shù)據(jù)規(guī)模batchsize=1 000,探索噪聲ε=0.2.

      3.3 實(shí)驗(yàn)結(jié)果分析

      圖10 訓(xùn)練數(shù)據(jù)統(tǒng)計(jì)圖Fig.10 Statistical graph of training data

      圖11(a)為巡飛彈評(píng)價(jià)網(wǎng)絡(luò)損失函數(shù)值曲線,由評(píng)價(jià)網(wǎng)絡(luò)損失值函數(shù)(16)式可知:橫坐標(biāo)為訓(xùn)練周期;縱坐標(biāo)為目標(biāo)評(píng)價(jià)網(wǎng)絡(luò)與主評(píng)價(jià)網(wǎng)絡(luò)對(duì)巡飛彈狀態(tài)- 動(dòng)作值的估計(jì)在每個(gè)訓(xùn)練周期內(nèi)的累積偏差,即損失值。本文以1 s為仿真時(shí)間步長,巡飛彈在每個(gè)時(shí)間步長內(nèi)與環(huán)境交互采集一次數(shù)據(jù),當(dāng)經(jīng)驗(yàn)回放池?cái)?shù)據(jù)量達(dá)到規(guī)模scale=10 000之后,每batchsize=1 000條經(jīng)驗(yàn)數(shù)據(jù)根據(jù)(16)式計(jì)算一次損失函數(shù)值,從圖11(a)中可以看出,評(píng)價(jià)網(wǎng)絡(luò)的損失值隨訓(xùn)練進(jìn)行不斷減小,并趨近于0,這說明評(píng)價(jià)網(wǎng)絡(luò)對(duì)巡飛彈狀態(tài)- 動(dòng)作的估計(jì)值趨于準(zhǔn)確。圖11(b)為巡飛彈策略網(wǎng)絡(luò)訓(xùn)練目標(biāo)變化圖,橫坐標(biāo)為訓(xùn)練周期,縱坐標(biāo)為策略網(wǎng)絡(luò)在每次訓(xùn)練時(shí)目標(biāo),巡飛彈根據(jù)(21)式更新訓(xùn)練目標(biāo)網(wǎng)絡(luò)。從圖11(b)中可以看出,策略網(wǎng)絡(luò)訓(xùn)練目標(biāo)隨訓(xùn)練進(jìn)行,逐漸維持在一個(gè)較小的值,說明巡飛彈突防控制策略在逐步優(yōu)化并趨于穩(wěn)定。

      圖11 巡飛彈突防控制決策模型最優(yōu)策略求解過程Fig.11 Process of solving the optimal policy of loitering munition penetration control decision model

      統(tǒng)計(jì)巡飛彈每訓(xùn)練M輪的平均獎(jiǎng)勵(lì)值,即

      (21)

      表3 巡飛彈突防平均獎(jiǎng)勵(lì)值統(tǒng)計(jì)Tab.3 Average reward values of loitering munition penetration

      訓(xùn)練完成后,取Ne=3 500的巡飛彈策略模型π3 500進(jìn)行1 000次突防仿真測試,數(shù)據(jù)統(tǒng)計(jì)結(jié)果如圖12所示。

      圖12 巡飛彈突防仿真測試數(shù)據(jù)統(tǒng)計(jì)Fig.12 Data statistics of penetration simulation test for loitering munition

      巡飛彈決策控制模型測試統(tǒng)計(jì)結(jié)果如表4所示,1 000次突防仿真測試實(shí)驗(yàn),共成功突防821次,成功率為82.1%,平均決策時(shí)間1.48 ms,滿足巡飛彈控制決策指標(biāo)要求。

      表4 決策控制模型測試統(tǒng)計(jì)結(jié)果Tab.4 Statistical results of decision control model test

      從1 000次突防仿真測試實(shí)驗(yàn)中,選擇3組具有代表性的巡飛彈突防軌跡樣例,如圖13所示。巡飛彈的初始位置在圖13中綠色圓形區(qū)域內(nèi)隨機(jī)初始化,進(jìn)而反應(yīng)訓(xùn)練結(jié)果在該發(fā)射區(qū)域的泛化性能。目標(biāo)區(qū)域?yàn)閳D13中橙色圓形區(qū)域,巡飛彈進(jìn)入該區(qū)域成功摧毀目標(biāo),即為成功完成突防任務(wù)。圖13中藍(lán)色區(qū)域?yàn)榈乜諏?dǎo)彈威脅區(qū)域,巡飛彈實(shí)施突防任務(wù)時(shí)需要即時(shí)調(diào)整突防路線,避開威脅區(qū)域。從圖13中可以看出有紅、綠、藍(lán)3條不同顏色的巡飛彈突防軌跡,分別記為1號(hào)、2號(hào)、3號(hào)突防路線。

      圖13 巡飛彈突防仿真測試軌跡樣例Fig.13 Sample trajectories of loitering munition in penetration simulation test

      圖14 巡飛彈突防仿真測試獎(jiǎng)勵(lì)值曲線Fig.14 Reward curves of loitering munition in penetration simulation test

      圖15為巡飛彈動(dòng)作控制參數(shù)變化曲線,結(jié)合圖13可知:在1號(hào)突防路線中,巡飛彈在突破威脅區(qū)之前,Δφ>0 rad,并且Δφ逐漸增大,后逐漸減小,實(shí)現(xiàn)向東平穩(wěn)轉(zhuǎn)向;巡飛彈臨近威脅區(qū)域,Δφ減小至0 rad,并且隨著距離的進(jìn)一步臨近,Δφ繼續(xù)減小,實(shí)現(xiàn)向西平穩(wěn)轉(zhuǎn)向,從而在威脅區(qū)西側(cè)邊緣繞過;巡飛彈突破威脅區(qū)域,Δφ逐漸增大至大于0 rad,實(shí)現(xiàn)向東平穩(wěn)轉(zhuǎn)向之后,始終控制航向與任務(wù)方向保持一致,機(jī)動(dòng)至目標(biāo)區(qū),實(shí)現(xiàn)突防。

      圖15 巡飛彈動(dòng)作控制參數(shù)變化曲線Fig.15 Sample diagram of penetration trajectories

      在2號(hào)突防路線中,巡飛彈在突破威脅區(qū)前,Δφ>0 rad,進(jìn)而向東機(jī)動(dòng)至臨近威脅區(qū)域,隨后控制航向與任務(wù)方向保持一致;Δφ在沒有大的變動(dòng)情況下,始終朝目標(biāo)區(qū)域方向機(jī)動(dòng),從防御體系漏洞突破威脅區(qū),實(shí)現(xiàn)突防。

      在3號(hào)突防路線中,Δφ的變動(dòng)范圍較大,特別是在即將進(jìn)入威脅區(qū)時(shí),Δφ>0 rad持續(xù)增大,后持續(xù)減小至Δφ<0 rad,從而在威脅區(qū)東側(cè)邊緣繞過;在突破威脅區(qū)后,又調(diào)整Δφ,向目標(biāo)區(qū)域機(jī)動(dòng),實(shí)現(xiàn)突防。

      綜上所述,3組具有代表性的突防仿真樣例中,巡飛彈均能從發(fā)射區(qū)域的任意位置機(jī)動(dòng)至目標(biāo)區(qū)域,并將目標(biāo)摧毀,決策網(wǎng)絡(luò)具有較好的泛化能力,獎(jiǎng)勵(lì)值均層指數(shù)級(jí)增長。由此可以看出,本文所提模型可有效實(shí)現(xiàn)巡飛彈突防控制決策,在一定程度上提高了巡飛彈的自主性。

      4 結(jié)論

      本文針對(duì)巡飛彈動(dòng)態(tài)突防控制決策問題,采用MDP描述了巡飛彈飛行運(yùn)動(dòng)模型,設(shè)計(jì)了飛行狀態(tài)空間、動(dòng)作空間、獎(jiǎng)勵(lì)函數(shù)等,提出基于DRL的LMPCD模型及其求解方法。仿真實(shí)驗(yàn)結(jié)果表明,巡飛彈在動(dòng)態(tài)對(duì)抗環(huán)境中,能夠?qū)崿F(xiàn)自主突防,證明了模型及求解方法的有效性。該方法可為預(yù)測“藍(lán)軍”巡飛彈突防路線提供了技術(shù)借鑒,以及該方法以實(shí)際武器裝備可獲取的數(shù)據(jù)為輸入,對(duì)下一步在真實(shí)環(huán)境中應(yīng)用具有重要軍事意義。

      參考文獻(xiàn)(References)

      [1] 龐艷珂,韓磊,張民權(quán),等.攻擊型巡飛彈技術(shù)現(xiàn)狀及發(fā)展趨勢[J].兵工學(xué)報(bào),2010,31(增刊2):149-152.

      PANG Y K,HAN L,ZHANG M Q,et al.Status and development trends of loitering attack missiles [J].Acta Armamentarii,2010,31(S2):149-152.(in Chinese)

      [2] 郭美芳,范寧軍,袁志華.巡飛彈戰(zhàn)場運(yùn)用策略[J].兵工學(xué)報(bào),2006,27(5):944-947.

      GUO M F,FAN N J,YUAN Z H.Battlefield operational strategy of loitering munition [J].Acta Armamentarii,2006,27(5):944-947.(in Chinese)

      [3] 劉楊,王華,王昊宇.巡飛彈發(fā)展背后的作戰(zhàn)理論與概念支撐[J].飛航導(dǎo)彈,2018 (10):51-55.

      LIU Y,WANG H,WANG H Y.Operational theory and conceptual support behind the development of loitering munition [J].Aero-dynamic Missile Journal,2018 (10):51-55.(in Chinese)

      [4] 郝峰,張棟,唐碩,等.基于改進(jìn)RRT算法的巡飛彈快速航跡規(guī)劃方法[J].飛行力學(xué),2019,37(3):58-63.

      HAO F,ZHANG D,TANG S,et al.A rapid route planning me-thod of loitering munitions based on improved RRT algorithm [J].Flight Mechanics,2019,37(3):58-63.(in Chinese)

      [5] 歐繼洲,黃波.巡飛彈在陸上無人作戰(zhàn)體系中的應(yīng)用初探[J].飛航導(dǎo)彈,2019(5):20-24.

      OU J Z ,HUANG B.Application of loitering munition in land unmanned combat system [J].Aerodynamic Missile Journal,2019(5):20-24.(in Chinese)

      [6] 王瓊,劉美萬,任偉建,等.無人機(jī)航跡規(guī)劃常用算法綜述[J].吉林大學(xué)學(xué)報(bào)(信息科學(xué)版),2019,37(1):58-67.

      WANG Q,LIU M W,REN W J,et al.Overview of common algorithms for UAV path planning [J].Journal of Jilin University (Information Science Edition),2019,37(1):58-67.(in Chinese)

      [7] 張堃,李珂,時(shí)昊天,等.基于深度強(qiáng)化學(xué)習(xí)的UAV航路自主引導(dǎo)機(jī)動(dòng)控制決策算法[J].系統(tǒng)工程與電子技術(shù),2020,42(7):1567-1574.

      ZHANG K,LI K,SHI H T,et al.Autonomous guidance maneuver control and decision-making algorithm based on deep reinforcement learning UAV route [J].Journal of Systems Engineering and Electronics,2020,42(7):1567-1574.(in Chinese)

      [8] Bouhamed O,Ghazzai H,Besbes H,et al.Autonomous UAV navigation:a DDPG-based deep reinforcement learning approach[EB/OL].[2020-07-11].http:∥arxiv.org/pdf/1509.02971.pdf.

      [9] 張建生.國外巡飛彈發(fā)展概述[J].飛航導(dǎo)彈,2015(6):19-26.

      ZHANG J S.Overview of foreign cruise missile development [J].Aerodynamic Missile Journal,2015 (6):19-26.(in Chinese)

      [10] 李增彥,李小民,劉秋生.風(fēng)場環(huán)境下的巡飛彈航跡跟蹤運(yùn)動(dòng)補(bǔ)償算法[J].兵工學(xué)報(bào),2016,37(12):2377-2384.

      LI Z Y,LI X M,LIU Q S.Trajectory tracking algorithm for motion compensation of loitering munition under wind environment [J].Acta Armamentarii,2016,37(12):2377-2384.(in Chinese)

      [11] 黎珍惜,黎家勛.基于經(jīng)緯度快速計(jì)算兩點(diǎn)間距離及測量誤差[J].測繪與空間地理信息,2013,36(11):235-237.

      LI Z X,LI J X.Quickly calculate the distance between two points and measurement error based on latitude and longitude[J].Geomatics &Spatial Information Technology,2013,36(11):235-237.

      [12] 劉建偉,高峰,羅雄麟.基于值函數(shù)和策略梯度的深度強(qiáng)化學(xué)習(xí)綜述[J].計(jì)算機(jī)學(xué)報(bào),2019,42(6):1406-1438.

      LIU J W,GAO F,LUO X L.A review of deep reinforcement learning based on value function and strategy gradient [J].Chinese Journal of Computers,2019,42(6):1406-1438.(in Chinese)

      [13] 劉全,翟建偉,章宗長.深度強(qiáng)化學(xué)習(xí)綜述[J].計(jì)算機(jī)學(xué)報(bào),2018,41(1):1-27.

      LIU Q,ZHAI J W,ZHANG Z C.A survey on deep reinforcement learning [J].Chinese Journal of Computers,2018,41(1):1-27.(in Chinese)

      [14] KONDA V R,TSITSIKLIS J N.Actor-Critic algorithms[C]∥Proceedings of Advances in Neural Information Processing Systems.Denver,CO,US:NIPS Foundation,2000:1008-1014.

      [15] LILLICRAP T P,HUNT J J,PRITZEL A,et al.Continuous control with deep reinforcement learning[EB/OL].[2020-07-11].http:∥arxiv.org/pdf/1509.02971.pdf.

      猜你喜歡
      飛彈航跡決策
      戰(zhàn)場新秀巡飛彈
      為可持續(xù)決策提供依據(jù)
      夢的航跡
      青年歌聲(2019年12期)2019-12-17 06:32:32
      決策為什么失誤了
      徒手抓飛彈 一點(diǎn)不奇怪
      自適應(yīng)引導(dǎo)長度的無人機(jī)航跡跟蹤方法
      不同動(dòng)力型式的巡飛彈總體參數(shù)對(duì)比分析
      視覺導(dǎo)航下基于H2/H∞的航跡跟蹤
      基于航跡差和航向差的航跡自動(dòng)控制算法
      關(guān)于抗美援朝出兵決策的幾點(diǎn)認(rèn)識(shí)
      軍事歷史(1997年5期)1997-08-21 02:36:06
      兴化市| 云龙县| 明星| 衡南县| 嘉黎县| 海晏县| 广德县| 土默特右旗| 汉源县| 东平县| 鹤庆县| 东城区| 会东县| 洮南市| 平远县| 宜黄县| 上蔡县| 波密县| 句容市| 吉首市| 崇明县| 平阳县| 古浪县| 嘉善县| 思茅市| 伊春市| 乌兰浩特市| 苗栗县| 新密市| 滦平县| 商城县| 托克托县| 汝城县| 汤阴县| 巫山县| 巴楚县| 大化| 莱西市| 壤塘县| 苏尼特右旗| 射洪县|