• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于深度強(qiáng)化學(xué)習(xí)的來(lái)襲導(dǎo)彈智能攔截與平臺(tái)機(jī)動(dòng)策略?xún)?yōu)化技術(shù)

      2024-11-19 00:00:00呂振瑞沈欣李少博田鵬司迎利
      航空兵器 2024年5期

      摘 要: 目前空中作戰(zhàn)環(huán)境日益復(fù)雜, 新作戰(zhàn)方式對(duì)空中平臺(tái)生存能力提出了巨大挑戰(zhàn), 需要采用新型硬殺傷手段來(lái)防御先進(jìn)的空空導(dǎo)彈。 為了提升發(fā)射空空導(dǎo)彈攔截來(lái)襲導(dǎo)彈這一硬殺傷手段的勝率和效率, 提出了一種基于強(qiáng)化學(xué)習(xí)的載機(jī)平臺(tái)智能機(jī)動(dòng)策略和攔截彈發(fā)射策略。 首先, 設(shè)計(jì)了導(dǎo)彈威脅評(píng)估技術(shù), 構(gòu)建了仿真環(huán)境, 并確定了策略模型的狀態(tài)和獎(jiǎng)勵(lì)函數(shù); 其次, 通過(guò)設(shè)定不同的來(lái)襲空空導(dǎo)彈攻擊角度和位置, 在不同載機(jī)平臺(tái)姿態(tài)下, 訓(xùn)練了機(jī)動(dòng)與攔截策略, 實(shí)現(xiàn)了對(duì)來(lái)襲目標(biāo)的主動(dòng)攔截和載機(jī)平臺(tái)的有效機(jī)動(dòng)。 實(shí)驗(yàn)表明, 相較于運(yùn)籌學(xué)博弈策略5.8%的平均逃離概率, 使用基于強(qiáng)化學(xué)習(xí)的機(jī)動(dòng)、 攔截策略后, 逃離概率可提升至56.8%; 同時(shí), 攔截彈利用率提高了約13.3%, 且響應(yīng)時(shí)間始終保持在24 ms以?xún)?nèi)。 設(shè)計(jì)的策略能夠自適應(yīng)不同數(shù)量的來(lái)襲導(dǎo)彈, 顯著提高了載機(jī)平臺(tái)的生存能力和對(duì)來(lái)襲導(dǎo)彈的攔截成功率, 并支持在空戰(zhàn)多維狀態(tài)空間中的持續(xù)優(yōu)化。

      關(guān)鍵詞: 攔截彈; 機(jī)動(dòng)策略; 強(qiáng)化學(xué)習(xí); 攔截策略; 逃離概率; 響應(yīng)時(shí)間; 空空導(dǎo)彈

      中圖分類(lèi)號(hào): TJ760

      文獻(xiàn)標(biāo)識(shí)碼: A

      文章編號(hào): 1673-5048(2024)05-0056-11

      DOI: 10.12132/ISSN.1673-5048.2024.0045

      0 引 言

      隨著新型戰(zhàn)斗機(jī)、 新型空空導(dǎo)彈等空戰(zhàn)武器裝備技術(shù)的迅速發(fā)展, 以及遠(yuǎn)中近距等作戰(zhàn)模式的不斷涌現(xiàn), 空中平臺(tái)的防御難度大幅增加, 生存能力遭到了嚴(yán)峻的考驗(yàn)。 伴隨空空導(dǎo)彈的機(jī)動(dòng)能力和抗干擾能力的不斷提升, 以干擾、 機(jī)動(dòng)逃逸等為主要自衛(wèi)手段的戰(zhàn)斗機(jī)傳統(tǒng)軟防御手段的有效性大打折扣, 甚至面臨失效風(fēng)險(xiǎn), 故需要通過(guò)直接攔截來(lái)襲導(dǎo)彈等硬殺傷式防御來(lái)提升載機(jī)的生存能力。 在防御過(guò)程中, 來(lái)襲導(dǎo)彈的攻擊空間運(yùn)動(dòng)受我方載機(jī)平臺(tái)運(yùn)動(dòng)方式的制約, 載機(jī)平臺(tái)、 來(lái)襲導(dǎo)彈、 攔截彈三分空間運(yùn)動(dòng)相互強(qiáng)耦合, 載機(jī)平臺(tái)的機(jī)動(dòng)策略將對(duì)主動(dòng)攔截效果產(chǎn)生直接的影響。 因此, 載機(jī)平臺(tái)需要采取智能博弈機(jī)動(dòng)策略, 產(chǎn)生及時(shí)且高效的機(jī)動(dòng), 可以有效改變來(lái)襲導(dǎo)彈攻擊彈道, 同時(shí)在博弈過(guò)程中, 載機(jī)平臺(tái)采取智能化攔截彈發(fā)射策略, 適時(shí)發(fā)射一枚或多枚攔截彈進(jìn)行硬式殺傷防御, 能夠大幅提升載機(jī)平臺(tái)的生存能力。

      為持續(xù)優(yōu)化機(jī)動(dòng)與發(fā)射策略, 相關(guān)研究建模策略的優(yōu)化模型, 采用動(dòng)態(tài)規(guī)劃與強(qiáng)化學(xué)習(xí)相結(jié)合的方式運(yùn)行得到優(yōu)化求解結(jié)果, 具體包括以下2個(gè)方面:

      動(dòng)態(tài)規(guī)劃算法。 通過(guò)自適應(yīng)動(dòng)態(tài)規(guī)劃(Adaptive Dynamic Programming, ADP)[1]、 神經(jīng)動(dòng)態(tài)規(guī)劃(Neural Dynamic Programming, NDP)[2]等算法, 可用于貝爾曼方程求解[3]、 序貫決策[4]、 連續(xù)時(shí)間線(xiàn)性系統(tǒng)決策[5]、 未知非線(xiàn)性系統(tǒng)穩(wěn)定決策[6]、 導(dǎo)彈制導(dǎo)決策[7]等。

      強(qiáng)化學(xué)習(xí)算法。 通過(guò)基于模型的強(qiáng)化學(xué)習(xí)[8]、 基于高效擴(kuò)散策略的離線(xiàn)強(qiáng)化學(xué)習(xí)[9]、 密集型強(qiáng)化學(xué)習(xí)[10]等算法, 可用于機(jī)器人連續(xù)高效控制[11-12]、 優(yōu)化導(dǎo)彈的末端制導(dǎo)策略[13]、 整合和適應(yīng)性制導(dǎo)及控制[14-15]、 空戰(zhàn)目標(biāo)分配決策[16-17]、 飛機(jī)路徑規(guī)劃[18]等。

      雖然上述優(yōu)化算法能在一定程度上解決特定場(chǎng)景的

      收稿日期: 2024-03-12

      作者簡(jiǎn)介: 呂振瑞(1987-), 男, 寧夏吳忠人, 碩士, 高級(jí)工程師。

      *通信作者: 司迎利(1985-), 男, 甘肅靜寧人, 碩士, 高級(jí)工程師。

      優(yōu)化問(wèn)題, 但在面向策略?xún)?yōu)化的動(dòng)態(tài)規(guī)劃、 強(qiáng)化學(xué)習(xí)等算法設(shè)計(jì)中仍存在明顯不足: 一方面, 這些算法難以在空戰(zhàn)中直接使用, 如當(dāng)前使用的最優(yōu)控制策略[19]、 策略迭代方法[20]等均屬于間接控制, 其實(shí)際優(yōu)化效果依賴(lài)于預(yù)置的專(zhuān)家先驗(yàn)知識(shí)及其復(fù)雜的預(yù)處理過(guò)程, 由于策略需要多次迭代以收斂至最優(yōu)策略, 在空戰(zhàn)等復(fù)雜、 動(dòng)態(tài)決策場(chǎng)景下面臨高昂的計(jì)算成本, 同時(shí)也難以獲得精確、 全面的空戰(zhàn)專(zhuān)家知識(shí); 另一方面, 這些算法在空戰(zhàn)中的實(shí)際優(yōu)化效果不足, 泛化性有限, 如當(dāng)前使用的自適應(yīng)PID[21]、 模型參考自適應(yīng)[22]、 隨機(jī)生成動(dòng)作向量?jī)?yōu)化[23]、 在線(xiàn)自適應(yīng)優(yōu)化強(qiáng)化學(xué)習(xí)[24-26]、 非線(xiàn)性系統(tǒng)的實(shí)時(shí)優(yōu)化[27]、 仿射非線(xiàn)性連續(xù)系統(tǒng)優(yōu)化[28]、 ADP方法[29]、 改進(jìn)型Actor-Critic網(wǎng)絡(luò)和獎(jiǎng)勵(lì)函數(shù)[30]等均可提升動(dòng)態(tài)規(guī)劃、 強(qiáng)化學(xué)習(xí)算法性能, 但需要持續(xù)的在線(xiàn)學(xué)習(xí)和實(shí)時(shí)性能。 在處理高維度和連續(xù)動(dòng)作空間時(shí), 通常面臨樣本效率低和探索不足的挑戰(zhàn), 其優(yōu)化效果和泛化能力會(huì)受到數(shù)據(jù)質(zhì)量和多樣性的限制, 難以有效應(yīng)對(duì)新空戰(zhàn)場(chǎng)景, 也難以在復(fù)雜、 動(dòng)態(tài)空戰(zhàn)場(chǎng)景下保障決策魯棒性。

      航空兵器 2024年第31卷第5期

      呂振瑞, 等: 基于深度強(qiáng)化學(xué)習(xí)的來(lái)襲導(dǎo)彈智能攔截與平臺(tái)機(jī)動(dòng)策略?xún)?yōu)化技術(shù)

      綜上, 將動(dòng)態(tài)規(guī)劃、 強(qiáng)化學(xué)習(xí)等算法應(yīng)用于空中平臺(tái)防御尤其是硬殺傷式防御手段, 仍然面臨許多挑戰(zhàn)。 本文針對(duì)上述問(wèn)題, 探索一種基于深度強(qiáng)化學(xué)習(xí)的智能化空中平臺(tái)防御策略。 通過(guò)對(duì)策略迭代、 學(xué)習(xí)算法和獎(jiǎng)勵(lì)函數(shù)的改進(jìn), 提高載機(jī)平臺(tái)的防御效果, 并在空戰(zhàn)仿真環(huán)境中實(shí)驗(yàn)驗(yàn)證攔截的有效性。

      1 載機(jī)平臺(tái)動(dòng)力學(xué)方程

      航跡坐標(biāo)系的原點(diǎn)O固連于飛機(jī)的質(zhì)心處。 Oxh軸沿飛機(jī)飛行速度方向, 向前為正; Oyh軸在通過(guò)Oxh的鉛垂面內(nèi)與Oxh軸垂直, 向上為正; Ozh軸垂直于Oxhyh平面, 指向飛機(jī)右向?yàn)檎?構(gòu)成右手系。

      切向過(guò)載nx: 角標(biāo)x表示Oxh軸方向, 沿載機(jī)的飛行速度方向, 用于控制載機(jī)的水平軸向加速度, 取nxmax=2。

      法向過(guò)載nf: 角標(biāo)f代表法向, 表示垂直于飛機(jī)機(jī)翼平面和飛機(jī)飛行方向, 由速度方向垂直的ny與nz共同確定, nf=ny+nz, 取nfmax=Nmax, Nmax代表飛機(jī)的法向過(guò)載最大值。

      載機(jī)的轉(zhuǎn)彎坡度角: γs=arccos1nf, 角標(biāo)s代表側(cè)傾含義。

      在載機(jī)航跡坐標(biāo)系Oxhyhzh(見(jiàn)圖1)下建立的載機(jī)3自由度質(zhì)點(diǎn)動(dòng)力學(xué)方程如式(1)所示。

      V·=g(nx-sinθ)

      θ·=gV(nfcosγs-cosθ)

      ψ·s=-gVcosθnfsinγs(1)

      假設(shè)載機(jī)做無(wú)側(cè)滑運(yùn)動(dòng), 忽略載機(jī)側(cè)滑角的影響, 則側(cè)滑角β為零, 側(cè)力F為零。

      忽略載機(jī)迎角的影響, 則迎角α為零, 俯仰角等于航跡傾斜角θ與迎角α之和, 則θ =。

      假設(shè)載機(jī)運(yùn)動(dòng)時(shí)不計(jì)風(fēng)速, 則航跡坐標(biāo)系的Oxh軸、 速度坐標(biāo)系的Oxa軸與機(jī)體坐標(biāo)系的Oxb軸一致, 即γs=γ, ψs=ψ。

      假設(shè)載機(jī)質(zhì)量m為常數(shù), 且重力加速度g不隨飛行高度的變化而變化。

      2 來(lái)襲導(dǎo)彈威脅能力評(píng)估

      來(lái)襲空空導(dǎo)彈目標(biāo)威脅評(píng)估的目的是明確來(lái)襲空空導(dǎo)彈目標(biāo)對(duì)載機(jī)是否構(gòu)成威脅, 以及威脅程度的大小, 然后按威脅程度排序。 針對(duì)攔截來(lái)襲導(dǎo)彈的空戰(zhàn)場(chǎng)景, 來(lái)襲導(dǎo)彈包括角度、 距離和速度3方面威脅, 并對(duì)這些威脅進(jìn)行量化計(jì)算, 通過(guò)模糊理論[31]進(jìn)行加權(quán)平均, 計(jì)算出最終的威脅系數(shù)。

      2.1 威脅模型建模

      來(lái)襲導(dǎo)彈威脅度超實(shí)時(shí)評(píng)估模型的建模依賴(lài)于載機(jī)和來(lái)襲導(dǎo)彈的相對(duì)運(yùn)動(dòng)模型, 本文采用距離-角度-速度勢(shì)場(chǎng)函數(shù)。 如圖2所示, 來(lái)襲導(dǎo)彈彈體的重心與載機(jī)重心的連線(xiàn)定義為視線(xiàn); 來(lái)襲導(dǎo)彈彈體的正方向與視線(xiàn)的夾角稱(chēng)為來(lái)襲導(dǎo)彈的進(jìn)入角qm; 來(lái)襲導(dǎo)彈的速度矢量為Vm; 載機(jī)的速度矢量為Vu。

      (1) 距離勢(shì)場(chǎng)函數(shù)(距離威脅度)

      距離勢(shì)場(chǎng)函數(shù)Ud為載機(jī)和導(dǎo)彈之間的距離威脅模型, 用于評(píng)估導(dǎo)彈對(duì)載機(jī)的威脅程度。 這個(gè)威脅程度取決于二者之間的距離D, 如式(2)所示。

      Ud=kd1D+σ-1Dbound2(D+σ)2 if D<Dbound

      0 if D≥Dbound (2)

      D=x2+y2+z2(3)

      式中: kd為正的系數(shù); D為導(dǎo)彈與載機(jī)的距離; x, y, z為分別表示載機(jī)與導(dǎo)彈在x, y, z三維坐標(biāo)軸上的坐標(biāo)差; σ為小量(防止分母為0和乘數(shù)為0, 造成(0, 0)點(diǎn)突變); Dbound為距離邊界, 即導(dǎo)彈最大攻擊范圍, 大于此值, 威脅度為0。

      距離威脅值隨載機(jī)與來(lái)襲導(dǎo)彈相對(duì)距離變化的函數(shù)如圖3所示, 紅色線(xiàn)條表示D<Dbound條件下的距離威脅值, 綠色線(xiàn)條表示D≥Dbound條件下的距離威脅值, 即我方載機(jī)在來(lái)襲導(dǎo)彈攻擊區(qū)外的范圍, 此時(shí)威脅值為0。

      在載機(jī)規(guī)避導(dǎo)彈問(wèn)題中, 由于距離勢(shì)場(chǎng)函數(shù)考慮高度的影響, 而載機(jī)爬升性能并沒(méi)有導(dǎo)彈強(qiáng), 來(lái)襲導(dǎo)彈在發(fā)射后, 急速提高速度, 短期速度增加能力比載機(jī)高。 因此, 使用距離勢(shì)場(chǎng)函數(shù)時(shí), 可以去掉高度的影響, 即D=x2+y2。

      (2) 進(jìn)入角的勢(shì)場(chǎng)函數(shù)(角度威脅度)

      來(lái)襲導(dǎo)彈對(duì)載機(jī)的威脅不僅可以從距離角度考慮, 也可以從導(dǎo)彈進(jìn)入角(導(dǎo)彈速度方向與視線(xiàn)方向的夾角)考慮。 設(shè)導(dǎo)彈進(jìn)入角為qm, 導(dǎo)彈速度為vx, vy, vz, 下標(biāo)x, y, z表示導(dǎo)彈速度矢量在三維坐標(biāo)軸x, y, z軸上的分解。 同樣不考慮高度的影響, 導(dǎo)彈進(jìn)入角計(jì)算公式如下:

      cosqm=Vm·P|Vm|·|P|=xvx+yvyx2+y2·v2x+v2y(4)

      式中: Vm為導(dǎo)彈速度矢量; P為載機(jī)與導(dǎo)彈的視線(xiàn)矢量。

      導(dǎo)彈進(jìn)入角的勢(shì)場(chǎng)函數(shù)如式(5)所示。

      Ua=ka·1qm+σ-11802·(qm+σ)2 if D<Dbound

      0 if D≥Dbound(5)

      式中: ka為正的系數(shù), 下標(biāo)a表示“角度”。 角度威脅值隨載機(jī)與來(lái)襲導(dǎo)彈相對(duì)角度變化的函數(shù)如圖4所示, 圖中綠色線(xiàn)條表示式(5)在D<Dbound條件下的角度威脅值, 黃色線(xiàn)條表示D≥Dbound條件下的角度威脅值。 隨著進(jìn)入角變小, 角度威脅值呈對(duì)數(shù)趨勢(shì)下降。 當(dāng)進(jìn)入角大于來(lái)襲導(dǎo)彈的最大攻擊范圍時(shí), 角度威脅值為0。

      (3) 速度威脅度

      速度威脅度是一個(gè)根據(jù)導(dǎo)彈相對(duì)于載機(jī)的速度計(jì)算得到的值, 它用來(lái)量化導(dǎo)彈的速度對(duì)載機(jī)的威脅程度。 速度威脅度的計(jì)算根據(jù)相對(duì)速度的不同區(qū)間而變化, 具體定義如式(6)所示。

      TS=

      1 if vivj>1.5

      -0.5+vivj if 0.6<vivj≤1.5

      0.1 ifvivj≤0.6 (6)

      式中: vi為來(lái)襲導(dǎo)彈的預(yù)估速度; vj為我方載機(jī)的預(yù)估速度。 我方載機(jī)相對(duì)于來(lái)襲導(dǎo)彈的運(yùn)動(dòng)速度越大, 則受威脅程度越低。 速度威脅值隨載機(jī)與來(lái)襲導(dǎo)彈相對(duì)速度變化的函數(shù)如圖5所示, 圖中綠色線(xiàn)條表示vivj≤0.6條件下的速度威脅值, 紫色線(xiàn)條表示0.6<vivj≤1.5條件下的速度威脅值, 紅色線(xiàn)條表示vivj>1.5條件下的速度威脅值。

      2.2 威脅值計(jì)算

      本文使用實(shí)時(shí)環(huán)境數(shù)據(jù)計(jì)算出的三個(gè)威脅值, 通過(guò)層次分析法(AHP)輸出的權(quán)重矩陣完成綜合威脅值的計(jì)算, 然后, 根據(jù)專(zhuān)家經(jīng)驗(yàn)設(shè)立置信區(qū)間, 從而為飛行員實(shí)時(shí)提供威脅值的等級(jí)評(píng)價(jià)。

      綜合威脅值的計(jì)算公式如式(7)所示。

      T=ρ1Ua+ρ2Ud+ρ3TS(7)

      式中: ρ1+ρ2+ρ3=1。

      式(7)表示我方載機(jī)的總體受威脅態(tài)勢(shì)為角度威脅態(tài)勢(shì)、 距離威脅態(tài)勢(shì)與速度威脅態(tài)勢(shì)的加權(quán)求和。 總體受威脅態(tài)勢(shì)越大, 則我方載機(jī)被來(lái)襲導(dǎo)彈擊中的幾率越大; 反之, 總體受威脅態(tài)勢(shì)越小, 我方載機(jī)被來(lái)襲導(dǎo)彈擊中的幾率越小。

      AHP方法通過(guò)將威脅值中的角度威脅、 速度威脅和距離威脅進(jìn)行兩兩比較, 建立成對(duì)比較矩陣的方法, 進(jìn)行比較。 矩陣中的一個(gè)值表示行列兩個(gè)因子對(duì)某因素的影響大小, 稱(chēng)為成對(duì)比較判斷矩陣, 簡(jiǎn)稱(chēng)判斷矩陣。

      本文使用的判斷矩陣如表1所示。

      在層次分析法中, 判斷矩陣經(jīng)歸一化處理后, 生成的權(quán)重即表示同一層次內(nèi)不同因素對(duì)于上一層次某因素的相對(duì)重要性, 這個(gè)過(guò)程稱(chēng)為層次單排序。 為確保模型的準(zhǔn)確性, 進(jìn)行一致性檢驗(yàn)。 一致性檢驗(yàn)是為了驗(yàn)證判斷矩陣的合理性。 如果判斷矩陣未通過(guò)一致性檢驗(yàn), 則需要返回上一步重新構(gòu)建判斷矩陣, 直到通過(guò)一致性檢驗(yàn)為止。 一致性指標(biāo)和隨機(jī)一致性比率的計(jì)算依賴(lài)于A(yíng)HP中的隨機(jī)一致性指標(biāo)表[31]。

      在實(shí)際的實(shí)驗(yàn)仿真中, 根據(jù)所提供的判斷矩陣并通過(guò)一致性檢驗(yàn)后, 本文確定的權(quán)重值如下: 角度威脅態(tài)勢(shì)的權(quán)重ρ1為0.085, 速度威脅態(tài)勢(shì)的權(quán)重ρ2為0.148, 距離威脅態(tài)勢(shì)的權(quán)重ρ3為0.767。 這些權(quán)重反映了綜合威脅值計(jì)算中各因素的相對(duì)重要性。

      將ρ1, ρ2, ρ3作為權(quán)重矩陣的輸出, 將其與3個(gè)威脅值Ua, Ud, TS點(diǎn)乘, 即可得到綜合威脅值。

      3 載機(jī)平臺(tái)機(jī)動(dòng)與攔截策略?xún)?yōu)化

      深度強(qiáng)化學(xué)習(xí)可以自動(dòng)提取高效特征, 便于實(shí)現(xiàn)端到端的策略生成。 機(jī)動(dòng)策略模塊和攔截策略模塊都使用深度強(qiáng)化學(xué)習(xí)的方法來(lái)生成策略。

      3.1 強(qiáng)化學(xué)習(xí)

      強(qiáng)化學(xué)習(xí)的輸入數(shù)據(jù)為環(huán)境向量和動(dòng)作向量, 對(duì)于一般問(wèn)題, 每一個(gè)時(shí)刻選取的動(dòng)作可以是任意的, 每個(gè)動(dòng)作間沒(méi)有強(qiáng)關(guān)聯(lián)的信息。 但對(duì)載機(jī)平臺(tái), 后一刻的動(dòng)作和前一刻的動(dòng)作是相關(guān)的, 在前一刻使用的動(dòng)作, 后一刻許多動(dòng)作就不能立即使用, 需要通過(guò)其他中間機(jī)動(dòng)進(jìn)行過(guò)渡。 例如, 將俯仰角或過(guò)載降為一個(gè)合適的數(shù)值, 才能滿(mǎn)足機(jī)動(dòng)的要求。 在利用強(qiáng)化學(xué)習(xí)生成載機(jī)平臺(tái)機(jī)動(dòng)策略過(guò)程中, 需首先將動(dòng)作庫(kù)的限制全部實(shí)現(xiàn), 才能保證學(xué)習(xí)過(guò)程合理高效, 防止無(wú)效動(dòng)作的產(chǎn)生。

      實(shí)現(xiàn)載機(jī)平臺(tái)機(jī)動(dòng)策略和智能化攔截策略的強(qiáng)化學(xué)習(xí)過(guò)程, 都基于馬爾科夫決策過(guò)程(Markov Decision Process, MDP), 其立即獎(jiǎng)勵(lì)與狀態(tài)和動(dòng)作都有關(guān), 如圖6所示。 給定一個(gè)狀態(tài)下的一個(gè)動(dòng)作, 馬爾可夫決策過(guò)程的下一個(gè)狀態(tài)不固定唯一。

      作為空中機(jī)動(dòng)策略的動(dòng)作空間具有高維、 連續(xù)性強(qiáng)的特征, 使用傳統(tǒng)的表格式強(qiáng)化學(xué)習(xí)難以設(shè)計(jì)高質(zhì)量、 高效的特征進(jìn)行學(xué)習(xí)。 使用深度強(qiáng)化學(xué)習(xí)方法, 利用人工神經(jīng)網(wǎng)絡(luò)對(duì)空戰(zhàn)環(huán)境的向量進(jìn)行特征提取, 并根據(jù)獎(jiǎng)勵(lì)函數(shù)提供的TD-target信息進(jìn)行梯度的更新。

      基于值函數(shù)的DRL是采用了深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network, DNN)的逼近獎(jiǎng)勵(lì)值函數(shù)。 類(lèi)似地, 用DNN逼近策略并利用策略梯度方法求得最優(yōu)策略, 被稱(chēng)為基于策略梯度的DRL。

      值函數(shù)是RL中的基本概念, 時(shí)間差分學(xué)習(xí)(TD Learning)和Q學(xué)習(xí) (Q-learning)則分別是學(xué)習(xí)狀態(tài)值函數(shù)和動(dòng)作值函數(shù)的經(jīng)典算法。 本文的載機(jī)平臺(tái)機(jī)動(dòng)與智能攔截策略基于值函數(shù)的強(qiáng)化學(xué)習(xí)算法, Q-learning是經(jīng)典的值強(qiáng)化學(xué)習(xí)算法。

      Q-learning運(yùn)用歷史存放的經(jīng)驗(yàn)來(lái)學(xué)習(xí)。 如果狀態(tài)和動(dòng)作空間是離散而有限的, 學(xué)習(xí)趨近于無(wú)限次(即學(xué)習(xí)率的和趨近于無(wú)窮大), 此時(shí)可以收斂到最優(yōu)策略Q(學(xué)習(xí)率的二次和趨近于無(wú)窮大)。 對(duì)于單步的SARSA (state- action-reward-state′-action′)算法, 不管采用epsilon貪婪策略還是貪心策略, 都證明能收斂到Q, 即

      Q^(s, a)←Q^(s, a)+α[(r+γmaxa′Q^(s′, a′))-Q^(s, a)](8)

      式中: 左側(cè)取值表示當(dāng)前狀態(tài)-動(dòng)作對(duì)的Q值, 代表在狀態(tài)s下采取動(dòng)作a的預(yù)期效用; 右側(cè)表示Q^(s′, a′)下一個(gè)狀態(tài)-動(dòng)作對(duì)的Q值, 這是在下一個(gè)狀態(tài)s′采取動(dòng)作a′的效用; α是學(xué)習(xí)率, 它決定了新信息取代舊信息的程度, 其值為0意味著智能體不學(xué)習(xí)任何東西, 而其值為1則意味著智能體僅考慮最新的信息; γ表示折扣因子, 它量化了對(duì)未來(lái)獎(jiǎng)勵(lì)的重視程度, 其值為0會(huì)使智能體短視, 只考慮當(dāng)前獎(jiǎng)勵(lì), 而接近1的值會(huì)使其追求長(zhǎng)期的高額獎(jiǎng)勵(lì)。

      估計(jì)準(zhǔn)確的值函數(shù)是基于值的強(qiáng)化學(xué)習(xí)算法的核心。 時(shí)間差分(Temporal Difference, TD)是強(qiáng)化學(xué)習(xí)中估計(jì)值函數(shù)的一個(gè)核心方法, 它結(jié)合了動(dòng)態(tài)規(guī)劃和蒙特卡洛方法的思想。 與動(dòng)態(tài)規(guī)劃相似, 時(shí)間差分在估算的過(guò)程中使用了自舉法, 但它和蒙特卡洛一樣, 不需要在學(xué)習(xí)過(guò)程中了解環(huán)境的全部信息。

      時(shí)間差分利用差異值學(xué)習(xí), 即目標(biāo)值和估計(jì)值在不同時(shí)間步上的差異。 使用自舉法的原因是它需要從觀(guān)察到的回報(bào)和對(duì)下一個(gè)狀態(tài)的估值中來(lái)構(gòu)造目標(biāo)。 具體來(lái)說(shuō), 最基本的時(shí)間差分使用式(9)進(jìn)行更新。

      V(St)←V(St)+α[Rt+1+γV(St+1)-V(St)](9)

      該方法稱(chēng)為T(mén)D(0), 或者是單步TD。 也可以通過(guò)將目標(biāo)值改為在N步未來(lái)中的折扣回報(bào)和N步過(guò)后的估計(jì)狀態(tài)價(jià)值來(lái)實(shí)現(xiàn)N步TD。 時(shí)間差分的目標(biāo)值可以在每一步都算出, 也就意味著它每一步都可以學(xué)習(xí)。 由于學(xué)習(xí)是來(lái)自狀態(tài)轉(zhuǎn)移的信息, 而不需要具體動(dòng)作信息, 其在實(shí)踐中往往收斂得更快。

      與直接使用真實(shí)Reward估計(jì)作為值函數(shù)的優(yōu)化目標(biāo)相比, 時(shí)間差分算法在每一步都可以學(xué)習(xí), 進(jìn)行實(shí)時(shí)的機(jī)動(dòng)動(dòng)作選取, 并預(yù)測(cè)下一刻的近似空戰(zhàn)博弈狀態(tài)。 根據(jù)預(yù)測(cè)結(jié)果和真實(shí)結(jié)果, 更新網(wǎng)絡(luò)參數(shù), 從而完成對(duì)更高獎(jiǎng)勵(lì)動(dòng)作的更準(zhǔn)確估計(jì)。 整個(gè)過(guò)程遞歸執(zhí)行。

      在此基礎(chǔ)上, 本文設(shè)計(jì)了深度神經(jīng)網(wǎng)絡(luò)用于擬合值函數(shù), 并使用時(shí)間差分法構(gòu)造神經(jīng)網(wǎng)絡(luò)的損失函數(shù)。

      3.2 獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)

      距離獎(jiǎng)勵(lì): 在規(guī)避過(guò)程中, 導(dǎo)彈與載機(jī)的距離越大, 載機(jī)獲得的獎(jiǎng)勵(lì)就越高, 鼓勵(lì)載機(jī)向遠(yuǎn)離導(dǎo)彈的方向機(jī)動(dòng)。 距離優(yōu)勢(shì)分兩部分進(jìn)行整合, 包括相對(duì)距離的改變與初始距離相比所帶來(lái)的優(yōu)勢(shì)獎(jiǎng)勵(lì), 以及相對(duì)距離改變得到的絕對(duì)獎(jiǎng)勵(lì)。 初始距離獎(jiǎng)勵(lì)定義如式(10)所示。

      rd0=C1×D/D0(10)

      式中: D0為載機(jī)與導(dǎo)彈的初始距離; D為初始距離獎(jiǎng)勵(lì)函數(shù)自變量, 表示來(lái)襲導(dǎo)彈和載機(jī)之間的距離; C1為初始距離獎(jiǎng)勵(lì)的權(quán)重系數(shù), 用于調(diào)整初始距離獎(jiǎng)勵(lì)在整體獎(jiǎng)勵(lì)函數(shù)中的重要性, 本文的實(shí)驗(yàn)中選取C1=10。

      初始距離獎(jiǎng)勵(lì)值隨載機(jī)與來(lái)襲導(dǎo)彈的距離變化函數(shù)如圖7所示。 由于載機(jī)平臺(tái)的機(jī)動(dòng)能力與來(lái)襲導(dǎo)彈間存在差距, 所以本文只考慮博弈過(guò)程中來(lái)襲導(dǎo)彈與載機(jī)之間相對(duì)距離D, 相對(duì)于初始距離D0, 初始距離始終較大, 即0<D<D0, 表明載機(jī)平臺(tái)一定被導(dǎo)彈追蹤并且接近的情況。 初始距離獎(jiǎng)勵(lì)反映一個(gè)單位時(shí)間內(nèi), 載機(jī)位置的危險(xiǎn)程度。 在其他環(huán)境條件不變的情況下, 若載機(jī)與來(lái)襲導(dǎo)彈的初始距離大, 則說(shuō)明載機(jī)處于一種相對(duì)安全的狀態(tài)。

      除絕對(duì)距離獎(jiǎng)勵(lì)外, 相對(duì)距離獎(jiǎng)勵(lì)反映載機(jī)相對(duì)于來(lái)襲導(dǎo)彈初始位置的位移大小, 并設(shè)置緊急逃離距離參數(shù), 在提高獎(jiǎng)勵(lì)函數(shù)非線(xiàn)性特性的同時(shí), 一定程度上提升了機(jī)動(dòng)策略的泛化性。 相對(duì)距離獎(jiǎng)勵(lì)定義如式(11)所示。

      rd=C2×lnDDdanger 20<D<15 000(11)

      式中: Ddanger為來(lái)襲導(dǎo)彈距離載機(jī)呈危險(xiǎn)態(tài)勢(shì)的經(jīng)驗(yàn)值, 設(shè)置為2 000 m; C2為相對(duì)距離獎(jiǎng)勵(lì)的權(quán)重系數(shù), 用于調(diào)整相對(duì)距離獎(jiǎng)勵(lì)在整體獎(jiǎng)勵(lì)函數(shù)中的重要性, 本文實(shí)驗(yàn)中選取C2=10。 相對(duì)距離獎(jiǎng)勵(lì)的函數(shù)如圖8所示。

      威脅度獎(jiǎng)勵(lì): 在規(guī)避過(guò)程中, 選取威脅度最大的導(dǎo)彈作為當(dāng)前的威脅值獎(jiǎng)勵(lì), 威脅越大, 懲罰(負(fù)獎(jiǎng)勵(lì))就越大。 因?yàn)橥{度是綜合評(píng)價(jià)標(biāo)準(zhǔn), 載機(jī)的機(jī)動(dòng)策略主要的目標(biāo)就是要在一定時(shí)間內(nèi)降低威脅度, 所以利用威脅度對(duì)載機(jī)機(jī)動(dòng)的趨勢(shì)進(jìn)行指引, 具體如式(12)所示。

      rT=C3×max(Ti) i∈index(missiles) if Tit>Ti(t-1)

      C4×max(Ti) i∈index(missiles) if Tit≤Ti(t-1) (12)

      式中: 當(dāng)前時(shí)刻下的威脅值Tit比上一時(shí)刻的威脅值Ti(t-1)小時(shí), 可獲得一個(gè)正的獎(jiǎng)勵(lì); 反之則給一個(gè)負(fù)的獎(jiǎng)勵(lì)(懲罰); C3為威脅度懲罰權(quán)重系數(shù), 值小于0, 用于調(diào)整威脅度懲罰在整體獎(jiǎng)勵(lì)函數(shù)中的重要性, 本文的實(shí)驗(yàn)中選取C3=-20; C4為威脅度獎(jiǎng)勵(lì)的權(quán)重系數(shù), 用于調(diào)整威脅度獎(jiǎng)勵(lì)在整體獎(jiǎng)勵(lì)函數(shù)中的重要性, 本文的實(shí)驗(yàn)中選取C4=5。

      機(jī)動(dòng)不合規(guī)懲罰: 在機(jī)動(dòng)策略的訓(xùn)練中, 由于經(jīng)驗(yàn)是通過(guò)隨機(jī)動(dòng)作選取的, 所以不可避免地會(huì)出現(xiàn)與限制條件相沖突的動(dòng)作, 在這種情況下, 需要給一個(gè)懲罰(負(fù)獎(jiǎng)勵(lì)), 降低機(jī)動(dòng)不合規(guī)出現(xiàn)的概率。

      rp=C5(13)

      式中: C5為機(jī)動(dòng)不合規(guī)懲罰, 作為一個(gè)可以調(diào)整的超參數(shù), 調(diào)整C5可以調(diào)整機(jī)動(dòng)不合規(guī)懲罰對(duì)于整體獎(jiǎng)勵(lì)函數(shù)而言的重要性, 本文中取C5=-100。

      稀疏獎(jiǎng)勵(lì): 當(dāng)博弈結(jié)束時(shí), 查看結(jié)束標(biāo)志, 如果機(jī)動(dòng)躲避成功, 則獲得一個(gè)正的大獎(jiǎng)勵(lì), 如果被擊中, 則獲得一個(gè)負(fù)的大懲罰。

      rs=C6 if escapeFlag=1

      -C6 if escapeFlag=0(14)

      式中: C6為稀疏獎(jiǎng)勵(lì)的絕對(duì)值, 作為一個(gè)可以調(diào)整的超參數(shù), 調(diào)整C6可以調(diào)整稀疏獎(jiǎng)勵(lì)對(duì)于整體獎(jiǎng)勵(lì)函數(shù)的重要程度。

      智能化攔截彈發(fā)射策略的獎(jiǎng)勵(lì)函數(shù)需要在機(jī)動(dòng)策略的基礎(chǔ)上, 增加與攔截彈相關(guān)的獎(jiǎng)勵(lì)與懲罰, 能夠激勵(lì)攔截彈正確發(fā)射, 同時(shí)避免攔截彈不必要的浪費(fèi)。

      攔截彈威脅獎(jiǎng)勵(lì): 通過(guò)計(jì)算攔截彈對(duì)其鎖定的來(lái)襲導(dǎo)彈的威脅度來(lái)計(jì)算一個(gè)獎(jiǎng)勵(lì)值, 攔截彈對(duì)其鎖定的來(lái)襲導(dǎo)彈的威脅度越高, 總的獎(jiǎng)勵(lì)值越大。 當(dāng)攔截彈試圖攔截發(fā)射范圍之外的來(lái)襲導(dǎo)彈時(shí), 發(fā)射獎(jiǎng)勵(lì)為0。 此獎(jiǎng)勵(lì)隨著攔截過(guò)程的進(jìn)行, 實(shí)時(shí)計(jì)算威脅度并更新, 以此實(shí)現(xiàn)攔截彈發(fā)射策略根據(jù)上一刻打擊效果自適應(yīng)推演能力。 定義如式(15)所示。

      rI.T=C7∑i∈I, j∈MTi(mj) if d(I.T)<Ibound and I.T=j

      0 if d(I.T)≥Ibound and I.T=j (15)

      式中: Ibound表示攔截彈的攔截邊界, 即最大距離; 對(duì)于每個(gè)攔截彈I(Interceptor), I.T為攔截彈I鎖定導(dǎo)彈的索引, d(I.T)為攔截彈I與I.T號(hào)來(lái)襲導(dǎo)彈的距離。 式(15)表示當(dāng)攔截彈鎖定的來(lái)襲目標(biāo)距離d(I.T)小于攔截彈的最大攔截距離且I.T=j時(shí), 給予獎(jiǎng)勵(lì)。 C7為攔截彈威脅獎(jiǎng)勵(lì)的權(quán)重系數(shù), 用于調(diào)整攔截彈威脅獎(jiǎng)勵(lì)在整體獎(jiǎng)勵(lì)函數(shù)中的重要性, 本文的實(shí)驗(yàn)中選取C7=10。

      攔截威脅度獎(jiǎng)勵(lì)的函數(shù)如圖9所示, 圖中藍(lán)色線(xiàn)條表示d(I.T)<Ibound以及 I.T=j條件下的攔截彈威脅獎(jiǎng)勵(lì)值, 黑色線(xiàn)條表示d(I.T)≥Ibound以及I.T=j條件下的攔截彈威脅獎(jiǎng)勵(lì)值。

      剩余攔截彈獎(jiǎng)勵(lì): 載機(jī)的載彈量是評(píng)價(jià)戰(zhàn)機(jī)性能的重要指標(biāo), 由于攜帶的導(dǎo)彈過(guò)多會(huì)影響載機(jī)的機(jī)動(dòng)性能。 在空戰(zhàn)中, 攜帶的導(dǎo)彈是重要的戰(zhàn)斗資源, 所以在攔截過(guò)程中, 需要節(jié)約攔截彈資源, 在成功攔截來(lái)襲目標(biāo)基礎(chǔ)上, 發(fā)射盡量少的攔截彈。 隨著攔截過(guò)程的進(jìn)行, 實(shí)時(shí)更新攔截彈總體的數(shù)量狀態(tài), 以此實(shí)現(xiàn)智能攔截彈發(fā)射過(guò)程, 在與來(lái)襲導(dǎo)彈的博弈過(guò)程中不斷調(diào)整更新能力, 如式(16)所示。

      rIR=C8∑i∈I1 if I.Attacking=-1(16)

      式中: 攔截彈的Attacking標(biāo)志位為-1, 即式中的I.Attacking=-1, 表示隨載機(jī)飛行, 即掛載在載機(jī)上。 載機(jī)當(dāng)前掛載的攔截彈越多, 剩余攔截彈獎(jiǎng)勵(lì)越大。 C8代表剩余攔截彈獎(jiǎng)勵(lì)的超參數(shù), 用于調(diào)整剩余攔截彈獎(jiǎng)勵(lì)在總體獎(jiǎng)勵(lì)中的權(quán)值比例, 本文中取C8=0.5。

      對(duì)于每個(gè)攔截彈, I.Attacking表示攔截彈I的隨機(jī)飛行標(biāo)志。 I.Attacking=-1, 表示隨載機(jī)飛行; I.Attacking=0表示已經(jīng)發(fā)射, 用于攔截來(lái)襲導(dǎo)彈。

      表2展示了所有獎(jiǎng)勵(lì)的取值范圍。

      3.3 策略訓(xùn)練過(guò)程

      訓(xùn)練參數(shù)初始化: 初始化兩個(gè)完全相同的人工神經(jīng)網(wǎng)絡(luò), 一個(gè)人工神經(jīng)網(wǎng)絡(luò)代表動(dòng)作選取的在線(xiàn)人工神經(jīng)網(wǎng)絡(luò), 另一個(gè)用于平滑訓(xùn)練的目標(biāo)網(wǎng)絡(luò)。 每隔一段時(shí)間, 將在線(xiàn)網(wǎng)絡(luò)的參數(shù)全部賦值給目標(biāo)網(wǎng)絡(luò)。

      智能化機(jī)動(dòng)與攔截策略訓(xùn)練結(jié)構(gòu)如圖10所示, 使用目標(biāo)網(wǎng)絡(luò)技術(shù)降低DQN的估計(jì)誤差。 目標(biāo)網(wǎng)絡(luò)實(shí)現(xiàn)打亂

      相關(guān)性的機(jī)制, 會(huì)使DQN中出現(xiàn)兩個(gè)結(jié)構(gòu)完全相同但參數(shù)不同的網(wǎng)絡(luò), 預(yù)測(cè)Q估計(jì)的網(wǎng)絡(luò)在線(xiàn)人工神經(jīng)網(wǎng)絡(luò)使用的是最新的參數(shù), 而預(yù)測(cè)Q現(xiàn)實(shí)的神經(jīng)網(wǎng)絡(luò)目標(biāo)網(wǎng)絡(luò)參數(shù)使用的是舊參數(shù), 表示當(dāng)前網(wǎng)絡(luò)在線(xiàn)人工神經(jīng)網(wǎng)絡(luò)的輸出, 用來(lái)評(píng)估當(dāng)前狀態(tài)動(dòng)作對(duì)的值函數(shù)。 引入目標(biāo)網(wǎng)絡(luò)后, 在一段時(shí)間里目標(biāo)Q值保持不變, 可在一定程度降低當(dāng)前Q值和目標(biāo)Q值的相關(guān)性, 提高了算法穩(wěn)定性。

      3.4 算法改進(jìn)

      均方差裁剪機(jī)制: 為了避免訓(xùn)練過(guò)程中的梯度爆炸現(xiàn)象, 對(duì)平方誤差進(jìn)行裁剪, 這等同于將均方誤差替換成δ=1情況下的Huber損失。 Huber損失如式(17)所示。

      Lδ(x)=12x2 x≤δδx-12δ 其他 (17)

      鼓勵(lì)探索機(jī)制: 使用Noisy DQN向動(dòng)作價(jià)值函數(shù)中引入一種噪聲, 以一種可控的方式來(lái)探索更多的動(dòng)作。 Noisy DQN通過(guò)在神經(jīng)網(wǎng)絡(luò)的輸出層中引入一個(gè)隨機(jī)噪聲變量, 訓(xùn)練時(shí)生成具有一定隨機(jī)性的動(dòng)作價(jià)值函數(shù)。 噪聲變量是可學(xué)習(xí)的參數(shù), 其值由神經(jīng)網(wǎng)絡(luò)自適應(yīng)地學(xué)習(xí)和更新, 而噪聲在預(yù)測(cè)時(shí)被去除, 從而提升策略的魯棒性。 Noisy DQN能夠在保持動(dòng)作價(jià)值函數(shù)的確定性和準(zhǔn)確性的同時(shí), 探索更多的動(dòng)作, 從而提高算法的穩(wěn)定性。 訓(xùn)練偽代碼如算法1所示。

      算法1: Noisy Double DQN算法

      輸入: Env為博弈環(huán)境; Nf為列表x的最大長(zhǎng)度; ε為網(wǎng)絡(luò)隨機(jī)變量的集合; B為經(jīng)驗(yàn)回放緩存; ζ為初始化網(wǎng)絡(luò)參數(shù); ζ-為初始化目標(biāo)網(wǎng)絡(luò)參數(shù); NB為經(jīng)驗(yàn)回放緩存大?。?NT為訓(xùn)練的小批量大?。?N-為更新目標(biāo)網(wǎng)絡(luò)的頻率。

      輸出: Q(., ε; ζ)為狀態(tài)-動(dòng)作價(jià)值函數(shù)

      1: For episode e∈{1, 2, …, M}do

      2: x←[] /* x為狀態(tài)向量列表

      3: 初始化狀態(tài)序列x0~Env

      4: x[0]←x0

      5: For t∈{1, 2, …}do/*l[-1]為列表l的最后一個(gè)元素

      6: Set x←x[-1]

      7: 從噪聲網(wǎng)絡(luò)中采樣ξ~ε

      8: 選取一個(gè)動(dòng)作a←arg maxb∈A Q(x, b, ξ; ζ-)

      9: 抽樣下一狀態(tài)y~P(·|x, a), 獲取獎(jiǎng)勵(lì)r←R(x, a), 給x增添元素x:x[-1]←y

      10: if |x|>Nf then

      11: 刪除x中最舊的元素

      12: end if

      13: 將元組(x, a, r, y)加入回放緩存B[-1]←(x, a, r, y)

      14: if |B|>NB then

      15: 刪除B中最舊的元素

      16: end if

      17: 從回放記憶中均勻隨機(jī)采樣一個(gè)batch的轉(zhuǎn)換樣本數(shù)據(jù)((xj, aj, rj, yj)~D)NTj=1

      18: for j∈{1, 2, …, NT} do

      19: 從噪聲網(wǎng)絡(luò)中采樣ξj~ε

      20: 從目標(biāo)噪聲網(wǎng)絡(luò)中采樣ξ′j~ε

      21: if y是一個(gè)終止?fàn)顟B(tài)then

      22: yj←rj

      23: else

      24: yj←rj+maxb∈AQ(yj, b, ξ′j~ε)

      25: 以(yj-Q(xj, aj, ξj; ζ))2作為損失函數(shù)進(jìn)行梯度下降

      26: end if

      27: if t≡0(mod N-)then

      28: 更新目標(biāo)網(wǎng)絡(luò): ζ-←ζ

      29: end if

      4 仿真分析

      4.1 強(qiáng)化學(xué)習(xí)算法結(jié)果分析

      訓(xùn)練深度策略模型的超參數(shù)如表3所示。

      機(jī)動(dòng)與攔截策略步均Reward值如圖11所示, 其橫坐標(biāo)表示訓(xùn)練的迭代序號(hào), 縱坐標(biāo)表示當(dāng)代模型在一局博弈中獲取的步均獎(jiǎng)勵(lì)值。 在訓(xùn)練初期處于低位, 隨著訓(xùn)練的進(jìn)行逐漸處于高位且平穩(wěn), 并保持每一步的回報(bào)基本在10左右。 步均Reward的曲線(xiàn)用滑動(dòng)平均值進(jìn)行平滑, 實(shí)驗(yàn)中的滑動(dòng)窗口取值為20。 陰影部分表示滑動(dòng)值與真實(shí)值的差距。

      步均Reward反映的是智能體每一步對(duì)整個(gè)博弈過(guò)程的影響程度, 主要是對(duì)普通獎(jiǎng)勵(lì)(即過(guò)程獎(jiǎng)勵(lì))的效果反映。 在訓(xùn)練初期, 步均Reward處于低位, 并且震蕩很大, 說(shuō)明此時(shí)模型的狀態(tài)不穩(wěn)定, 效果不佳, 主要原因在于經(jīng)驗(yàn)回放緩存獲取的數(shù)據(jù)量不夠。 當(dāng)數(shù)據(jù)量達(dá)到一定數(shù)量時(shí), 模型效果顯著提升, 反映在曲線(xiàn)上的10 000次迭代, 此時(shí)經(jīng)驗(yàn)回放緩存獲取的數(shù)據(jù)量已經(jīng)可以使模型獲得比較好的效果。 但是, 由于訓(xùn)練量不夠, 此時(shí)模型參數(shù)還不穩(wěn)定; 當(dāng)繼續(xù)訓(xùn)練到50 000次迭代, 模型的震蕩明顯下降, 此時(shí)的步均Reward也趨于一個(gè)高的穩(wěn)定位置, 說(shuō)明模型訓(xùn)練取得了好的結(jié)果, 策略使得智能體每一步都能獲取到一個(gè)相對(duì)穩(wěn)定且較高的獎(jiǎng)勵(lì)。

      機(jī)動(dòng)與攔截策略每局評(píng)估的Reward值如圖12所示。 與平均Reward值類(lèi)似, 橫坐標(biāo)表示訓(xùn)練的迭代序號(hào), 縱坐標(biāo)表示當(dāng)代模型在一局博弈中獲取的獎(jiǎng)勵(lì)值。 局均Reward值比步均Reward過(guò)渡得更平滑, 每一局的Reward平均在8 000~9 000左右。

      局均Reward反映的是智能體每一局(即每一次博弈)的整體效果, 包括普通獎(jiǎng)勵(lì)(即過(guò)程獎(jiǎng)勵(lì))和稀疏獎(jiǎng)勵(lì)。 使用了與步均Reward曲線(xiàn)相同的滑動(dòng)平均方法。 相對(duì)于步均Reward, 在訓(xùn)練初期, 局均Reward處于低位, 并且震蕩更大, 說(shuō)明此時(shí)模型的狀態(tài)不穩(wěn)定, 每次博弈產(chǎn)生的結(jié)果隨機(jī)性很大; 當(dāng)達(dá)到一定數(shù)據(jù)量時(shí), 模型效果顯著提升, 反映在曲線(xiàn)上的10 000次迭代, 此時(shí)經(jīng)驗(yàn)回放緩存獲取的數(shù)據(jù)量可以使模型獲得比較好的效果, 但主要是改進(jìn)了過(guò)程獎(jiǎng)勵(lì)的效果, 而對(duì)于稀疏獎(jiǎng)勵(lì)而言, 模型還不夠穩(wěn)定; 當(dāng)繼續(xù)訓(xùn)練到50 000次迭代, 模型的震蕩明顯下降, 所得到的局均Reward也趨于一個(gè)高的穩(wěn)定位置, 證明此時(shí)模型的稀疏獎(jiǎng)勵(lì)也回歸到一個(gè)相對(duì)穩(wěn)定的值上, 說(shuō)明模型訓(xùn)練取得了好的結(jié)果, 策略使得智能體每一局都能獲取到一個(gè)穩(wěn)定的獎(jiǎng)勵(lì), 并且使智能體在博弈過(guò)程中能夠取得一個(gè)相對(duì)大的獎(jiǎng)勵(lì)。

      策略模型訓(xùn)練時(shí)的Loss值變化如圖13所示, 橫坐標(biāo)表示訓(xùn)練的迭代序號(hào), 縱坐標(biāo)表示當(dāng)代模型的時(shí)間差

      分損失, 時(shí)間差分的計(jì)算遵循第3.1節(jié)的方法。 在訓(xùn)練初期, Loss值比較大, 且震蕩嚴(yán)重, 隨著訓(xùn)練迭代次數(shù)的增加逐漸處于低位并且平穩(wěn), 證明模型收斂。

      4.2 仿真結(jié)果分析

      4.2.1 攔截率測(cè)試

      本研究通過(guò)與傳統(tǒng)的基于固定規(guī)則的運(yùn)籌博弈策略進(jìn)行多方面的比較, 全面評(píng)估基于強(qiáng)化學(xué)習(xí)的智能機(jī)動(dòng)與攔截策略的有效性。

      運(yùn)籌學(xué)博弈策略: 基于一套既定的決策規(guī)則及威脅度評(píng)估, 其綜合考量了來(lái)襲導(dǎo)彈的距離、 角度和速度。 該策略源于超視距空戰(zhàn)的運(yùn)籌學(xué)與博弈理論, 采用if-then規(guī)則實(shí)施適應(yīng)性決策, 以最大化載機(jī)平臺(tái)的逃逸概率。

      強(qiáng)化學(xué)習(xí)智能攔截策略(本文方法): 依靠持續(xù)的環(huán)境互動(dòng)和學(xué)習(xí)過(guò)程, 自動(dòng)調(diào)整其行動(dòng)策略以達(dá)成最佳決策。 這一策略并不基于預(yù)設(shè)規(guī)則, 而是利用算法在廣泛的模擬戰(zhàn)斗中學(xué)習(xí)評(píng)估威脅并作出響應(yīng), 從而增強(qiáng)了其在復(fù)雜戰(zhàn)場(chǎng)環(huán)境中的適應(yīng)性和泛化能力。

      為了確保研究結(jié)果的可靠性和適用性, 本文統(tǒng)計(jì)和分析10 000局空空博弈的仿真實(shí)驗(yàn)結(jié)果, 每處理100局來(lái)襲導(dǎo)彈場(chǎng)景進(jìn)行一次統(tǒng)計(jì), 共完成100次重復(fù)實(shí)驗(yàn)。

      對(duì)于3枚來(lái)襲導(dǎo)彈, 每100局統(tǒng)計(jì)一次逃避的次數(shù), 共進(jìn)行100次實(shí)驗(yàn)。 10 000局空空博弈中載機(jī)平臺(tái)的逃逸率統(tǒng)計(jì)實(shí)驗(yàn)結(jié)果如圖14所示。 可以看出, 使用運(yùn)籌學(xué)博弈策略, 載機(jī)平臺(tái)平均逃離的概率在5.8%左右。 使用機(jī)動(dòng)與攔截策略, 載機(jī)平臺(tái)平均逃離的概率在56.8%左右。 使用機(jī)動(dòng)與攔截策略模型在每100局中的逃避率均優(yōu)于不使用機(jī)動(dòng)與攔截策略模型的運(yùn)籌學(xué)攔截機(jī)動(dòng)策略。

      因此, 機(jī)動(dòng)與攔截策略模型對(duì)于3枚來(lái)襲導(dǎo)彈的情況有指導(dǎo)意義, 可以有效提升載機(jī)平臺(tái)的生存率。 對(duì)于被3枚來(lái)襲導(dǎo)彈鎖定的情況, 載機(jī)平臺(tái)自身的危險(xiǎn)系數(shù)非常高, 在實(shí)際中逃離的概率比較低, 而且每局使用的環(huán)境完全隨機(jī), 使用機(jī)動(dòng)與攔截策略模型所帶來(lái)的效果在56.8%左右, 證明所得到的策略模型有著很好的泛化性, 可以根據(jù)環(huán)境或者來(lái)襲導(dǎo)彈的攻擊態(tài)勢(shì)不同, 提供有效的策略。 在躲避攔截的同時(shí), 還能夠保留一定的打擊力量, 確保飛行員奪取空戰(zhàn)對(duì)抗的優(yōu)勢(shì), 可以提升載機(jī)平臺(tái)在空空導(dǎo)彈規(guī)避博弈時(shí)的安全性, 提高載機(jī)平臺(tái)的生存能力。

      4.2.2 攔截效率測(cè)試

      為展示基于強(qiáng)化學(xué)習(xí)的智能機(jī)動(dòng)與攔截策略對(duì)攔截彈利用率的提升效果, 在仿真環(huán)境中, 設(shè)定載機(jī)每局?jǐn)y帶6枚攔截彈, 通過(guò)統(tǒng)計(jì)博弈后剩余的攔截彈數(shù)量, 分析策略在實(shí)際操作中節(jié)省攔截彈的效能。

      進(jìn)行10 000次實(shí)驗(yàn), 輸出每100次的平均剩余攔截彈量, 如圖15所示。 對(duì)比運(yùn)籌學(xué)博弈策略和使用智能化機(jī)動(dòng)與攔截策略的效果可以看出: 3枚來(lái)襲導(dǎo)彈情況下, 基于相同空空博弈場(chǎng)景, 智能化攔截或機(jī)動(dòng)逃離的耗彈量在5個(gè)左右, 而運(yùn)籌學(xué)博弈策略的剩余導(dǎo)彈量基本歸零。 在10 000局的測(cè)試中, 每一局平均節(jié)省0.8枚攔截彈, 證明智能化攔截彈發(fā)射策略具有更優(yōu)的攔截效率。

      在機(jī)載智能化攔截模型中, 攔截成功時(shí)使用攔截彈數(shù)量不多于5枚, 而運(yùn)籌學(xué)博弈方法則每次實(shí)驗(yàn)基本都需要全部發(fā)射6枚導(dǎo)彈才能攔截到其中一部分來(lái)襲導(dǎo)彈。 說(shuō)明機(jī)載智能化攔截模型在大規(guī)模的攔截場(chǎng)景下攔截目標(biāo)時(shí), 可以節(jié)約一定成本, 減少攔截彈的發(fā)射量。

      4.2.3 響應(yīng)效率測(cè)試

      進(jìn)行10 000次實(shí)驗(yàn), 每100次輸出一個(gè)平均響應(yīng)時(shí)長(zhǎng), 如圖16所示, 測(cè)試環(huán)境使用AMD Ryzen 5 5600G CPU, 16G RAM。

      對(duì)于2枚來(lái)襲導(dǎo)彈, 可以看出, 每回合的平均響應(yīng)時(shí)間在24 ms以下, 在通用計(jì)算機(jī)上運(yùn)行的響應(yīng)速度在300 ms以?xún)?nèi)。 通過(guò)10 000次的響應(yīng)測(cè)試可以看出, 響應(yīng)速度都在正常范圍內(nèi), 沒(méi)有異常數(shù)據(jù)產(chǎn)生, 即通過(guò)DDQN或N3D訓(xùn)練出的載機(jī)平臺(tái)機(jī)動(dòng)與攔截策略, 響應(yīng)速度快, 模型穩(wěn)定且效率高。

      綜上, 使用深度強(qiáng)化學(xué)習(xí)方法訓(xùn)練出的機(jī)載智能化攔截模型相對(duì)于傳統(tǒng)的運(yùn)籌博弈方法, 能夠在實(shí)際應(yīng)用中取得更好的效果, 具有更高的逃離率(逃離率是指目標(biāo)成功逃脫的概率), 并且使用更少的導(dǎo)彈就能完成攔截任務(wù)。 該方法具有以下優(yōu)勢(shì):

      (1) 相對(duì)于運(yùn)籌博弈方法, 深度強(qiáng)化學(xué)習(xí)顯著提升了逃離率。 在實(shí)際應(yīng)用中, 目標(biāo)往往具有一定的逃避能力, 需要攔截模型具備一定的適應(yīng)性和靈活性。 深度強(qiáng)化學(xué)習(xí)通過(guò)不斷學(xué)習(xí)和優(yōu)化, 能夠逐漸適應(yīng)不同的目標(biāo)逃避策略, 提高攔截成功率, 顯著降低來(lái)襲導(dǎo)彈對(duì)載機(jī)帶來(lái)的風(fēng)險(xiǎn)。

      (2) 使用更少的導(dǎo)彈能夠降低攔截成本, 在空空對(duì)抗中尤其重要。 在保證戰(zhàn)斗力的前提下, 盡可能地節(jié)省導(dǎo)彈的使用量對(duì)于載機(jī)來(lái)說(shuō)非常重要。 使用深度強(qiáng)化學(xué)習(xí)方法訓(xùn)練出的機(jī)載智能化攔截模型能夠顯著減少導(dǎo)彈的使用量, 從而大大降低攔截成本, 提高戰(zhàn)斗效益。

      (3) 在實(shí)際應(yīng)用中, 攔截模型需要能夠快速響應(yīng)不同的目標(biāo)和環(huán)境變化, 以保障飛行安全。 機(jī)載智能化攔截模型能夠通過(guò)實(shí)時(shí)的狀態(tài)觀(guān)測(cè)和決策反饋, 快速做出適應(yīng)性的調(diào)整和優(yōu)化, 保證模型的實(shí)時(shí)性和可靠性。

      5 結(jié) 論

      采用深度強(qiáng)化學(xué)習(xí)方法, 實(shí)現(xiàn)對(duì)空空博弈環(huán)境的特征提取、 經(jīng)驗(yàn)緩存和策略?xún)?yōu)化, 能有效地訓(xùn)練和測(cè)試攔截和機(jī)動(dòng)算法模型, 實(shí)現(xiàn)載機(jī)平臺(tái)有效逃離和對(duì)來(lái)襲導(dǎo)彈的有效攔截。 在載機(jī)平臺(tái)機(jī)動(dòng)限制和攔截彈類(lèi)型與發(fā)射角度限制下, 根據(jù)來(lái)襲導(dǎo)彈彈道和平臺(tái)機(jī)動(dòng)策略, 構(gòu)建基于攔截導(dǎo)彈發(fā)射目標(biāo)及數(shù)量的博弈策略快速生成算法, 結(jié)合具體的作戰(zhàn)場(chǎng)景, 對(duì)多種不同打擊效果的博弈策略進(jìn)行深度融合, 形成最優(yōu)策略模型, 通過(guò)基于法則分析和強(qiáng)化學(xué)習(xí)計(jì)算, 證明攔截彈發(fā)射策略的有效性。 通過(guò)設(shè)計(jì)攔截彈的相關(guān)屬性和參數(shù), 可以實(shí)現(xiàn)不同攔截彈參數(shù)下的策略生成。 利用仿真分析對(duì)載機(jī)平臺(tái)機(jī)動(dòng)與攔截模型進(jìn)行收斂性能、 機(jī)動(dòng)與攔截性能、 實(shí)時(shí)性指標(biāo)的測(cè)評(píng), 證明所提出的機(jī)動(dòng)與攔截模型可以有效攔截威脅目標(biāo), 同時(shí)提高了攔截與機(jī)動(dòng)策略的效率和魯棒性。

      參考文獻(xiàn):

      [1] Prokhorov D V, Wunsch D C. Adaptive Critic Designs [J]. IEEE Transactions on Neural Networks, 1997, 8(5): 997-1007.

      [2] Nobleheart W, Shivanapura L G, Chakravarthy A, et al. Single Network Adaptive Critic (SNAC) Architecture for Optimal Tracking Control of a Morphing Aircraft during a Pull-up Maneuver[C]∥Proceedings of the AIAA Guidance, Navigation, and Control (GNC) Conference, 2013.

      [3] Wang Y, O’Donoghue B, Boyd S. Approximate Dynamic Programming via Iterated Bellman Inequalities[J]. International Journal of Robust and Nonlinear Control, 2015, 25(10): 1472-1496.

      [4] Bertsekas D P, Tsitsiklis J N. Neuro-Dynamic Programming: An Overview[C]∥Proceedings of 34th IEEE Conference on Decision and Control, 1995.

      [5] Zhu L M, Modares H, Peen G O, et al. Adaptive Suboptimal Output-Feedback Control for Linear Systems Using Integral Reinforcement Learning[J]. IEEE Transactions on Control Systems Techno-logy, 2015, 23(1): 264-273.

      [6] Bhasin S. Reinforcement Learning and Optimal Control Methods for Uncertain Nonlinear Systems[D]. Gainesville: University of Florida, 2011.

      [7] 孫景亮, 劉春生. 基于自適應(yīng)動(dòng)態(tài)規(guī)劃的導(dǎo)彈制導(dǎo)律研究綜述[J]. 自動(dòng)化學(xué)報(bào), 2017, 43(7): 1101-1113.

      Sun Jingliang, Liu Chunsheng. An Overview on the Adaptive Dynamic Programming Based Missile Guidance Law[J]. Acta Automatica Sinica, 2017, 43(7): 1101-1113.(in Chinese)

      [8] Moerland T M, Broekens J, Plaat A, et al. Model-Based Reinforcement Learning: A Survey[J]. Foundations and Trends in Machine Learning, 2023, 16(1): 1-118.

      [9] Kang B, Ma X, Du C, et al. Efficient Diffusion Policies for Offline Reinforcement Learning[EB/OL]. (2023-05-31) [2024-03-11]. https:∥arxiv.org/abs/2305.20081.

      [10] Feng S, Sun H W, Yan X T, et al. Dense Reinforcement Learning for Safety Validation of Autonomous Vehicles[J]. Nature, 2023, 615: 620-627.

      [11] Rosete-Beas E, Mees O, Kalweit G, et al. Latent Plans for Task-Agnostic Offline Reinforcement Learning[EB/OL]. (2022-09-19) [2024-03-11]. https:∥arxiv.org/abs/2209. 08959.

      [12] Luo J L, Dong P, Wu J, et al. Action-Quantized Offline Reinforcement Learning for Robotic Skill Learning[EB/OL]. (2023-10-18) [2024-03-11]. https:∥ arxiv.org/pdf/2310.11731.pdf.

      [13] Deng T B, Huang H, Fang Y W, et al. Reinforcement Learning-Based Missile Terminal Guidance of Maneuvering Targets with Decoys[J]. Chinese Journal of Aeronautics, 2023, 36(12): 309-324.

      [14] Gaudet B, Furfaro R. Integrated and Adaptive Guidance and Control for Endoatmospheric Missiles via Reinforcement Meta-Learning[C]∥Proceedings of the AIAA SCITECH 2023 Forum, 2023.

      [15] Gaudet B, Furfaro R. Line of Sight Curvature for Missile Guidance using Reinforcement Meta-Learning[C]∥AIAA SCITECH 2023 Forum, 2023.

      [16] Wang Z, Hao Y T. Reinforcement Learning Adaptive Risk-Sensitive Fault-Tolerant IGC Method for a Class of STT Missile with Non-Affine Characteristics, Stochastic Disturbance and Unknown Uncertainties[J/OL].Nonlinear Dynamics, doi:10.1007/s11071-024-09776-5.

      [17] Merkulov G, Iceland E, Michaeli S, et al. Reinforcement Learning Based Decentralized Weapon-Target Assignment and Guidance[C]∥Proceedings of the AIAA SCITECH 2024 Forum, 2024.

      [18] Alpdemir M N. A Hierarchical Reinforcement Learning Framework for UAV Path Planning in Tactical Environments[J]. Turkish Journal of Science and Technology, 2023, 18(1): 243-259.

      [19] Dierks T, Jagannthan S. Optimal Control of Affine Nonlinear Discrete-Time Systems[C]∥17th Mediterranean Conference on Control and Automation, 2009.

      [20] Liu D R, Wei Q L. Policy Iteration Adaptive Dynamic Programming Algorithm for Discrete-Time Nonlinear Systems[J]. IEEE Transactions on Neural Networks and Learning Systems, 2014, 25(3): 621-634.

      [21] He P G, Jagannathan S. Reinforcement Learning Neural-Network-Based Controller for Nonlinear Discrete-Time Systems with Input Constraints[J]. IEEE Transactions on Systems, Man and Cybernetics, Part B (Cybernetics), 2007, 37(2): 425-436.

      [22] 郭紅霞, 吳捷, 王春茹. 基于強(qiáng)化學(xué)習(xí)的模型參考自適應(yīng)控制[J]. 控制理論與應(yīng)用, 2005, 22(2): 291-294.

      Guo Hongxia, Wu Jie, Wang Chunru. Model Reference Adaptive Control Based on Reinforcement Learning[J]. Control Theory & Applications, 2005, 22(2): 291-294.(in Chinese)

      [23] 高瑞娟, 吳梅. 基于改進(jìn)強(qiáng)化學(xué)習(xí)的PID參數(shù)整定原理及應(yīng)用[J]. 現(xiàn)代電子技術(shù),11555a921fb0fc25916d5ccf1f9d2fd81258f4412e866a329e828e33f9371c2e 2014, 37(4): 1-4.

      Gao Ruijuan, Wu Mei. Principle and Application of PID Parameter Tuning Based on Improved Reinforcement Learning[J]. Mo-dern Electronics Technique, 2014, 37(4): 1-4.(in Chinese)

      [24] Jagannathan S, He P G. Neural-Network-Based State Feedback Control of a Nonlinear Discrete-Time System in Nonstrict Feedback Form[J]. IEEE Transactions on Neural Networks, 2008, 19(12): 2073-2087.

      [25] Vrabie D, Lewis F. Neural Network Approach to Continuous-Time Direct Adaptive Optimal Control for Partially Unknown Nonlinear Systems[J]. Neural Networks, 2009, 22(3): 237-246.

      [26] Vamvoudakis K G, Lewis F L. Online Actor-Critic Algorithm to Solve the Continuous-Time Infinite Horizon Optimal Control Pro-blem[J]. Automatica, 2010, 46(5): 878-888.

      [27] Han D C, Balakrishnan S N. State-Constrained Agile Missile Control with Adaptive-Critic-Based Neural Networks[J]. IEEE Tran-sactions on Control Systems Technology, 2002, 10(4): 481-489.

      [28] Milovanovic M B, Antic D S, Milojkovic M T, et al. Adaptive Control of Nonlinear MIMO System with Orthogonal Endocrine Intelligent Controller[J]. IEEE Transactions on Cybernetics, 2022, 52(2): 1221-1232.

      [29] Chen K L. Intelligent Control Using Neural Networks[J]. IEEE Control Systems, 1992, 12(2): 11-18.

      [30] 陳宇軒, 王國(guó)強(qiáng), 羅賀, 等. 基于A(yíng)ctor-Critic算法的多無(wú)人機(jī)協(xié)同空戰(zhàn)目標(biāo)重分配方法[J]. 無(wú)線(xiàn)電工程, 2022, 52(7): 1266-1275.

      Chen Yuxuan, Wang Guoqiang, Luo He, et al. Target Re-Assignment Method for Multi-UAV Cooperative Air Combat Based on Actor-Critic Algorithm[J]. Radio Engineering, 2022, 52(7): 1266-1275.(in Chinese)

      [31] Vaidya O S, Kumar S. Analytic Hierarchy Process: An Overview of Applications[J]. European Journal of Operational Research, 2006, 169(1): 1-29.

      Optimization Technology for Intelligent Interception of

      Incoming Missiles and Platform Maneuvering Strategies

      Based on Deep Reinforcement Learning

      Lü Zhenrui1, 2, Shen Xin3, Li Shaobo4, Tian Peng1, 2, Si Yingli1, 2*

      (1. China Airborne Missile Academy, Luoyang 471009, China;

      2. National Key Laboratory of Air-based Information Perception and Fusion, Luoyang 471009, China;

      3. The First Military Representative Office of Air Force Equipment Department in Luoyang, Luoyang 471009, China;

      4. Xi’an Jiaotong University, Xi’an 710049, China)

      Abstract: Facing the increasing complexity of aerial combat environments and challenges to the survivability of air platforms from new combat methods, it is necessary to adopt new hard-kill methods to counter advanced air-to-air missiles. In order to improve the success rate and efficiency of launching air-to-air missiles to intercept incoming missiles as a hard kill method, this study proposes intelligent maneuvering strategies for aircraft platforms and missile interception strategies based on reinforcement learning. Firstly, this paper designs the missile threat assessment technology, constructs the simulation environments, and determines the strategy model state and reward function. By setting various attack angles and positions of incoming air-to-air missiles and training maneuvering and intelligent interception strategies under different aircraft platform postures, this paper achieves active interception of incoming targets and effective maneuvering of the aircraft platform. Experiments show that compared to the average escape probability of 5.8% in operations research game strategies, after using maneuver and interception strategies based on reinforcement learning, the average escape probability can increase to 56.8%; Meanwhile, the utilization rate of interceptors has increased by approximately 13.3%, and the response time has remained within 24 ms. The designed strategy can adapt to different numbers of incoming missiles, can significantly improve the survival ability of the carrier platform and the success rate of intercepting incoming missiles. This study can support continuous optimization in a high-dimensional state space of air combat.

      Key words: interception missile; maneuvering strategy; reinforcement learning; interception strategy; escape probability; response time; air-to-air missile

      乌鲁木齐市| 甘肃省| 泽库县| 台北市| 湘乡市| 沂水县| 察隅县| 平塘县| 弥渡县| 分宜县| 商都县| 牙克石市| 龙陵县| 云霄县| 布尔津县| 衡东县| 鄂伦春自治旗| 日喀则市| 伊宁市| 磐安县| 汉源县| 晋中市| 遂平县| 阜康市| 龙门县| 那曲县| 黔南| 灯塔市| 唐河县| 九寨沟县| 定兴县| 磐石市| 牡丹江市| 宁都县| 嵩明县| 芒康县| 渭源县| 涞水县| 上杭县| 尼玛县| 特克斯县|