• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于深度強(qiáng)化學(xué)習(xí)的艦艇空中威脅行為建模

      2020-11-26 07:41:56房霄曾賁宋祥祥賈正軒
      現(xiàn)代防御技術(shù) 2020年5期
      關(guān)鍵詞:投彈艦艇防空

      房霄,曾賁,宋祥祥,賈正軒

      (北京電子工程總體研究所,北京 100854)

      0 引言

      在空中、水面、水下等方面作戰(zhàn)中,空中威脅是當(dāng)前海軍艦艇作戰(zhàn)所面臨的最為嚴(yán)重的威脅,快速機(jī)動(dòng)的各式作戰(zhàn)飛機(jī)以及低空掠海反艦導(dǎo)彈能夠?yàn)檎麄€(gè)作戰(zhàn)編隊(duì)帶來(lái)毀滅性的打擊,因此海軍艦艇對(duì)空方面作戰(zhàn)是海軍遠(yuǎn)海作戰(zhàn)的基礎(chǔ)和保障。

      隨著海戰(zhàn)場(chǎng)作戰(zhàn)樣式和武器裝備越來(lái)越復(fù)雜,海軍艦艇對(duì)空方面作戰(zhàn)無(wú)論從指揮訓(xùn)練還是對(duì)抗操作訓(xùn)練都面臨極大挑戰(zhàn)。這里面最為核心的就是對(duì)空中威脅場(chǎng)景的構(gòu)建。當(dāng)前主要的方式是對(duì)抗樣式預(yù)先設(shè)計(jì)和規(guī)劃好,在執(zhí)行過(guò)程中不能根據(jù)戰(zhàn)場(chǎng)條件變化進(jìn)行實(shí)時(shí)調(diào)整,與實(shí)戰(zhàn)狀態(tài)下的空中威脅相差甚遠(yuǎn),無(wú)法為我海軍艦艇防空作戰(zhàn)提供足夠的訓(xùn)練支撐。

      同時(shí)近些年智能化的快速發(fā)展,AI智能越來(lái)越多的出現(xiàn)在美軍的訓(xùn)練過(guò)程中,美軍模擬訓(xùn)練正向?qū)崙?zhàn)化、智能化、體系化發(fā)展。其中智能化的訓(xùn)練是其實(shí)現(xiàn)實(shí)戰(zhàn)化訓(xùn)練的重要手段和標(biāo)志。特別是,智能化不僅為未來(lái)戰(zhàn)場(chǎng)帶來(lái)了徹底的顛覆,也為在智能化條件下的部隊(duì)訓(xùn)練帶來(lái)巨大挑戰(zhàn)。NVIDA公共事務(wù)部副總裁安托尼羅賓就指出:“AI將在創(chuàng)建合成環(huán)境,模擬對(duì)手軍隊(duì),創(chuàng)建挑戰(zhàn)性想定,等等模擬和訓(xùn)練的各個(gè)方面大顯身手,能夠有效推動(dòng)戰(zhàn)斗人員學(xué)習(xí)更多新技能”。

      本文就是在這樣的背景下,利用深度強(qiáng)化學(xué)習(xí)技術(shù)開(kāi)展了對(duì)于海軍艦艇空中威脅行為建模的方法研究,構(gòu)建了攻防對(duì)抗場(chǎng)景并進(jìn)行了單機(jī)突防的仿真驗(yàn)證,初步驗(yàn)證了深度強(qiáng)化學(xué)習(xí)方法在空中威脅行為構(gòu)建場(chǎng)景的可行性,為后續(xù)深入開(kāi)展編隊(duì)聯(lián)合防空訓(xùn)練場(chǎng)景構(gòu)建提供支撐。

      1 艦艇空中威脅場(chǎng)景分析

      1.1 空襲體系的隱蔽與突襲戰(zhàn)術(shù)

      空襲體系攻擊的隱蔽性包括廣泛利用現(xiàn)代空襲兵器的低空飛行性能,利用地形和地物的遮擋繞過(guò)預(yù)警雷達(dá)場(chǎng),從而使防空方的指控中心、防空導(dǎo)彈和高炮來(lái)不及作好戰(zhàn)斗準(zhǔn)備,防空殲擊機(jī)來(lái)不及起飛迎敵。

      為了對(duì)抗隱蔽飛行的空襲兵器和高速飛行的空襲武器,客觀上要求防空體系指控中心和防空兵器進(jìn)一步縮短戰(zhàn)斗準(zhǔn)備時(shí)間。

      由于現(xiàn)代巡航導(dǎo)彈的隱身性能和應(yīng)用地形匹配技術(shù),被攻擊方在沒(méi)有準(zhǔn)備的情況下發(fā)現(xiàn)它們的概率很低,即使個(gè)別被發(fā)現(xiàn),甚至被擊毀,也不會(huì)影響大批巡航導(dǎo)彈飛向擬攻擊的目標(biāo)。

      1.2 對(duì)防空體系的火力壓制戰(zhàn)術(shù)

      現(xiàn)代空襲體系突防的基本戰(zhàn)術(shù)已不是逃避攻擊,而是首先摧毀防空方的防空體系和防空兵器,用硬殺傷的方法奪出制電磁權(quán)和制空權(quán)。

      攜帶空地反輻射導(dǎo)彈的防空壓制飛機(jī),投放空地反輻射導(dǎo)彈有2種方法:一是按預(yù)先測(cè)定的防空雷達(dá)所在位置的坐標(biāo)和輻射電磁波的頻率,或者按預(yù)警機(jī)或偵察機(jī)臨時(shí)測(cè)定的參數(shù),從視線外發(fā)射空艦反輻導(dǎo)彈進(jìn)行打擊;二是在沒(méi)有預(yù)先給定的防空雷達(dá)坐標(biāo)和輻射頻率時(shí),由載機(jī)自行探測(cè)目標(biāo),在防空雷達(dá)視線內(nèi)捕獲目標(biāo)并發(fā)射空艦反輻射導(dǎo)彈,由空艦反輻射導(dǎo)彈的導(dǎo)引頭自行跟蹤目標(biāo),載機(jī)迅速轉(zhuǎn)彎、降高退出防空雷達(dá)的視線。

      1.3 大規(guī)模高密度攻擊戰(zhàn)術(shù)

      對(duì)于海上大型艦船編隊(duì)(如航母編隊(duì))和戰(zhàn)區(qū)中心地帶,現(xiàn)代空襲一次出動(dòng)約100~300架飛機(jī),并配以數(shù)百架無(wú)人機(jī),再加上從地面、艦艇上發(fā)射的巡航導(dǎo)彈,可能達(dá)到2 000個(gè)以上的空襲兵器(含飛機(jī)上發(fā)射的空艦導(dǎo)彈),一次空襲作戰(zhàn)過(guò)程只有10~15 min。時(shí)間短,空中目標(biāo)多,從而形成多層次的飽和攻擊。防空體系面臨提高火力強(qiáng)度(單位時(shí)間射擊目標(biāo)數(shù))的強(qiáng)烈要求[1]。

      2 典型的空中威脅建模方法

      2.1 典型方法

      對(duì)于海軍艦艇空中威脅的模擬,一般從4個(gè)方面考慮,分別為平臺(tái)運(yùn)動(dòng)特征模擬、探測(cè)能力模擬、決策能力模擬以及武器能力模擬。

      (1) 平臺(tái)運(yùn)動(dòng)特征模擬

      平臺(tái)運(yùn)動(dòng)特征模擬典型的方法為點(diǎn)跡建航法和六自由度建模法。點(diǎn)跡建航法主要思路為將空襲平臺(tái)抽象為一個(gè)質(zhì)點(diǎn),通過(guò)構(gòu)建質(zhì)點(diǎn)運(yùn)動(dòng)約束實(shí)現(xiàn)質(zhì)點(diǎn)的運(yùn)動(dòng)模擬,考慮的約束一般包括平臺(tái)升限、速度、轉(zhuǎn)彎半徑等條件。六自由度建模相比點(diǎn)跡建航法,能夠更加精細(xì)地實(shí)現(xiàn)對(duì)飛行器運(yùn)動(dòng)特征的模擬[2]。

      (2) 探測(cè)能力模擬

      探測(cè)能力模擬主要模擬機(jī)載平臺(tái)探測(cè)雷達(dá)威力。分為雷達(dá)威力包絡(luò)模擬以及信號(hào)注入模擬等。在航空兵仿真模擬中應(yīng)用較多,在防空模擬訓(xùn)練中應(yīng)用較少。

      (3) 決策能力模擬

      決策能力模擬主要模擬作戰(zhàn)中的指揮決策過(guò)程,往往體現(xiàn)了戰(zhàn)役的戰(zhàn)術(shù)意圖以及飛行員或指揮員的戰(zhàn)斗意志,在某些場(chǎng)景下往往采用博弈論或者優(yōu)化算法對(duì)指揮決策行為進(jìn)行建模。比較典型的方法為應(yīng)用粒子群優(yōu)化算法尋找最優(yōu)突防路徑以模擬飛行員突防尋優(yōu)過(guò)程。但隨著艦艇數(shù)量及飛機(jī)數(shù)量的遞增,該優(yōu)化問(wèn)題的求解空間將逐漸增大至不可求解,而且極大消耗計(jì)算資源,很難適用于計(jì)算資源有限的武器裝備模擬訓(xùn)練中。

      (4) 武器能力模擬

      武器能力模擬則較為常用,一般也會(huì)采用點(diǎn)跡建航法和六自由度建模法進(jìn)行建模。和飛行器不同的是,大部分打擊武器的軌跡具備有較為明顯的彈道特征,比如TBM類武器,ARM武器,在進(jìn)行建模時(shí),會(huì)采用彈道擬合法,通過(guò)數(shù)據(jù)模型與實(shí)際靶彈數(shù)據(jù)進(jìn)行擬合,抽象出彈道擬合公式進(jìn)行彈道的模擬[2]。

      2.2 存在問(wèn)題

      艦艇編隊(duì)防空作戰(zhàn)模擬訓(xùn)練的主要目的是作為實(shí)戰(zhàn)訓(xùn)練的補(bǔ)充在優(yōu)化訓(xùn)練成本的基礎(chǔ)上實(shí)現(xiàn)常態(tài)化、實(shí)戰(zhàn)化的作戰(zhàn)訓(xùn)練。然而隨著防空武器的信息化程度的快速發(fā)展,原有的目標(biāo)威脅建模方法已經(jīng)很難滿足部隊(duì)實(shí)戰(zhàn)化訓(xùn)練需求,主要表現(xiàn)在:

      (1) 威脅建模方法不足,隨著場(chǎng)景的復(fù)雜化,已經(jīng)無(wú)法通過(guò)常規(guī)手段建立可靠、好用的模型;

      (2) 對(duì)抗實(shí)戰(zhàn)程度不高,在防空訓(xùn)練過(guò)程中,假想敵往往由于對(duì)藍(lán)軍進(jìn)攻戰(zhàn)術(shù)戰(zhàn)法和兵器的不了解而模擬的比較簡(jiǎn)單;

      (3) 對(duì)抗過(guò)程不夠完善,沒(méi)有考慮敵方進(jìn)攻條件下的對(duì)抗過(guò)程,比如對(duì)于敵方反輻射導(dǎo)彈攻擊下的要地防衛(wèi),或者在復(fù)雜干擾環(huán)境下的電磁對(duì)抗等。

      3 面向艦艇空中威脅行為建模的智能設(shè)計(jì)技術(shù)

      近年來(lái),在大數(shù)據(jù)、云計(jì)算、機(jī)器視覺(jué)等技術(shù)突飛猛進(jìn)的基礎(chǔ)上,人工智能的應(yīng)用前景得到了空前的發(fā)展,并逐步向著自主學(xué)習(xí)、數(shù)據(jù)驅(qū)動(dòng)、虛實(shí)融合的方向演化,進(jìn)而逐漸在應(yīng)對(duì)多維度的復(fù)雜設(shè)計(jì)問(wèn)題上實(shí)現(xiàn)了顛覆性的突破,甚至在一些領(lǐng)域上超越了人類,如面向圍棋/中國(guó)象棋/國(guó)際象棋、DOTA2/星際爭(zhēng)霸II等博弈對(duì)抗的系統(tǒng)設(shè)計(jì)上已經(jīng)完美超越人類。

      特別地,DeepMind公司推出基于深度強(qiáng)化學(xué)習(xí)、聯(lián)盟學(xué)習(xí)等新一代人工智能技術(shù)的AlphaStar智能體,在DOTA2/星際爭(zhēng)霸II這類博弈對(duì)抗游戲中,通過(guò)保持資源要素的合理調(diào)配、作戰(zhàn)單元的臨機(jī)決策為前提,短期、長(zhǎng)期的目標(biāo)規(guī)劃,最終以精妙的戰(zhàn)術(shù)規(guī)劃、靈巧的進(jìn)攻方式擊敗對(duì)手。類比到艦艇編隊(duì)模擬訓(xùn)練場(chǎng)景中,諸如不完備信息條件下的對(duì)抗博弈,長(zhǎng)遠(yuǎn)規(guī)劃策略學(xué)習(xí)以及大規(guī)模交戰(zhàn)及決策空間求解等問(wèn)題已經(jīng)在AlphaStar智能體上有所突破[3]。

      因此,本文采用基于深度強(qiáng)化學(xué)習(xí)的方法,擬突破典型的空中威脅建模方法的約束,驗(yàn)證人工智能技術(shù)在軍事模擬領(lǐng)域的可行性。

      3.1 場(chǎng)景定義

      為簡(jiǎn)化問(wèn)題求解,本文考慮的作戰(zhàn)場(chǎng)景為單機(jī)突防單艦防御的場(chǎng)景,在該場(chǎng)景下,單機(jī)按特定策略飛行靠近艦艇、飛抵可投彈區(qū)域、完成投彈并成功脫離戰(zhàn)場(chǎng)。而艦艇則以發(fā)現(xiàn)來(lái)襲敵機(jī),并對(duì)其進(jìn)行防空打擊為作戰(zhàn)任務(wù)。

      在此設(shè)定下,所需解決的問(wèn)題可以抽象為在考慮飛機(jī)模型、艦艇模型以及交戰(zhàn)條件模型約束下,對(duì)單機(jī)突防任務(wù)的策略進(jìn)行尋優(yōu)。

      3.1.1 飛機(jī)模型

      為進(jìn)一步簡(jiǎn)化問(wèn)題求解,本文將飛機(jī)模型考慮為質(zhì)點(diǎn)模型。此外,考慮飛機(jī)飛行性能以及投彈能力的限制,本文對(duì)于飛機(jī)運(yùn)動(dòng)及投彈過(guò)程采取如下限制:

      (1) 運(yùn)動(dòng)特征模型

      飛機(jī)采用點(diǎn)跡模擬法,飛機(jī)最小轉(zhuǎn)彎半徑限制,設(shè)為Rmin,即任意時(shí)刻飛機(jī)的轉(zhuǎn)彎半徑R須滿足R≥Rmin。飛機(jī)飛行高度約束為H∈[Hmax,Hmin]。飛機(jī)加速度約束為單軸加速度ax,ay,az必須滿足ax,ay,az∈[amax,amin],運(yùn)動(dòng)坐標(biāo)系為北天東坐標(biāo)系。飛行合速度限制在v∈[vmax,vmin]范圍內(nèi)。

      (2) 投彈能力模型

      設(shè)定飛機(jī)在投彈過(guò)程中需沿當(dāng)前速度方向繼續(xù)飛行ts以保持發(fā)射過(guò)程穩(wěn)定,且與艦艇間的夾角θ滿足θ∈[θf(wàn)ire,θmin]方可完成投彈動(dòng)作。

      3.1.2 艦艇模型

      對(duì)艦艇模型從探測(cè)模型、防御模型2個(gè)方面進(jìn)行描述。

      探測(cè)模型主要用于模擬艦艇配備探測(cè)制導(dǎo)雷達(dá)發(fā)現(xiàn)跟蹤空中威脅目標(biāo)的能力。在艦艇北天東坐標(biāo)系下,考慮雷達(dá)探測(cè)半徑約束,雷達(dá)探測(cè)范圍描述為

      (1)

      (2) 防御模型

      在本文中,艦艇防空打擊采用簡(jiǎn)單策略實(shí)現(xiàn):探測(cè)到來(lái)襲目標(biāo),則艦艇即發(fā)射防空導(dǎo)彈對(duì)目標(biāo)進(jìn)行攔截,攔截導(dǎo)彈預(yù)計(jì)飛行時(shí)間按導(dǎo)彈平均飛行速度以及目標(biāo)首次被探測(cè)到時(shí)艦艇與目標(biāo)距離進(jìn)行折算,記作tintercept,該值即為預(yù)計(jì)防空攔截時(shí)間。通過(guò)該時(shí)間的計(jì)算以及交戰(zhàn)條件模型中的突防成功條件的比較,實(shí)現(xiàn)對(duì)目標(biāo)的防空攔截。

      3.1.3 交戰(zhàn)條件模型

      交戰(zhàn)條件模型主要涉及如下幾個(gè)方面:

      (1) 飛機(jī)投彈條件

      設(shè)計(jì)基于多維疲勞量表(MFI-20)的問(wèn)卷,并分發(fā)給在船船員,取得了有效問(wèn)卷370份,將其數(shù)據(jù)用于分析海員疲勞。將MFI-20和NASA-TLX(NASA任務(wù)負(fù)載)運(yùn)用于海員疲勞研究中,數(shù)據(jù)分析結(jié)果表明:船員的MFI-20五維平均疲勞度均大于常用閾值,任務(wù)平均值負(fù)擔(dān)和主觀感覺(jué)也較普通人的數(shù)值大。為深入探究海員疲勞,進(jìn)行探索性因子分析(Exploratory Factor Analysis, EFA)。基于EFA,通過(guò)使用AMOS軟件程序建立結(jié)構(gòu)方程模型(Structural Equation Modeling, SEM),確定了MFI/TLX與其影響因素之間的6個(gè)意義因果關(guān)系路徑。

      飛機(jī)距艦的距離記作Dplane-ship,滿足Dplane-ship≤Dfire的條件,距海滿足H∈[Hmax,Hfire],且需滿足飛機(jī)速度方向的矢量與飛機(jī)和艦艇位置的夾角θ∈[θf(wàn)ire,θmin]的條件下方可執(zhí)行投彈動(dòng)作。

      (2) 飛機(jī)突防成功條件

      基于艦艇模型中的防御模型,考慮飛機(jī)的生存時(shí)間以其第一次被雷達(dá)檢測(cè)到的位置與艦艇位置之間的距離除以導(dǎo)彈飛行速度進(jìn)行近似。飛機(jī)被雷達(dá)探測(cè)到以后,記作tdetected。飛機(jī)突防任務(wù)成功的條件為完成投彈動(dòng)作以后,需在滿足tdetected≤tintercept的前提下,脫離雷達(dá)的探測(cè)范圍。

      3.2 智能體建模方法

      采用深度強(qiáng)化學(xué)習(xí)、聯(lián)盟學(xué)習(xí)等新一代智能技術(shù),構(gòu)建空中威脅智能體自學(xué)習(xí)的決策模型,并面向并行突防場(chǎng)景,充分生成不同初始狀態(tài)下的作戰(zhàn)場(chǎng)景,讓空中威脅智能體并行地對(duì)抗不同作戰(zhàn)場(chǎng)景下的艦艇,進(jìn)而認(rèn)知足夠多的對(duì)抗樣式,從而尋找不同對(duì)抗場(chǎng)景下的防御突破點(diǎn),形成滿足各對(duì)抗條件下的最優(yōu)決策集合,建模架構(gòu)如圖1所示[4]。

      圖1 智能體建模架構(gòu)Fig.1 Frame diagram of the agent modeling

      3.2.1 基于空中威脅的臨機(jī)決策建模技術(shù)

      本文采用深度強(qiáng)化學(xué)習(xí)算法完成空中威脅智能體的建模過(guò)程,提升空中威脅智能體的決策能力。框架如圖2所示[5]。智能體通過(guò)在環(huán)境中不斷地探索生成動(dòng)作、感知狀態(tài)和獲得回報(bào),從大數(shù)據(jù)中獲得復(fù)雜因素的關(guān)聯(lián)性和問(wèn)題處理的完備性,加強(qiáng)其對(duì)復(fù)雜關(guān)聯(lián)關(guān)系的擬合能力。

      在本文中,考慮常規(guī)強(qiáng)化學(xué)習(xí)的配置,其中空中威脅智能體會(huì)與對(duì)抗場(chǎng)景產(chǎn)生互動(dòng)。在每一個(gè)仿真間隔t,空中威脅智能體都會(huì)觀測(cè)到一組態(tài)勢(shì)信息st∈S,分析判斷之后,讓空中威脅做出一組動(dòng)作at∈A,然后會(huì)收到環(huán)境反饋的獎(jiǎng)勵(lì)值r(st,at)∈R,經(jīng)過(guò)一段時(shí)間的迭代訓(xùn)練,智能體會(huì)形成一個(gè)決策集合π∶S→A[6]。

      其中,每一個(gè)態(tài)勢(shì)信息都對(duì)應(yīng)空中威脅的一組動(dòng)作。這樣的一個(gè)態(tài)勢(shì)信息與動(dòng)作的映射函數(shù)反映出一種期望回饋,即依據(jù)每次獲取到的態(tài)勢(shì)信息st∈S,從策略π中尋找最優(yōu)的決策,直至對(duì)抗結(jié)束所產(chǎn)生的所有累計(jì)獎(jiǎng)勵(lì)的值函數(shù)。

      (2)

      式中:γ∈[0,1]為衰減因子。

      同樣地,這個(gè)預(yù)期回饋也可以評(píng)估一個(gè)策略π。因此,可以使用Qπ得到一種對(duì)π的更新方式。目標(biāo)為使J(θ)最大化。

      J(θ)=E[Qπ(s,πθ(s))].

      (3)

      根據(jù)確定型策略梯度算法[7-8]可得策略πθ的參數(shù)更新算法為

      (4)

      進(jìn)而規(guī)定πθ的更新方向,從而就能確定策略集合π的最終形態(tài),既扮演決策執(zhí)行者的身份[9],也稱之為actor網(wǎng)絡(luò)。同時(shí),為了更好地評(píng)價(jià)其πθ的演進(jìn)方向與真實(shí)疊加產(chǎn)生的Qπ(s,a)之間的關(guān)系,可以設(shè)置一位評(píng)價(jià)者(critic網(wǎng)絡(luò))[10-12],通過(guò)其觀測(cè)、評(píng)估actor的決策質(zhì)量,校正actor的演化方向。使用Bellman方程[13]。

      (τπQ)(s,a)=r(s,a)+λE[Qπ(s′,π(s′))],

      (5)

      式中:s′為下一次的態(tài)勢(shì)信息。

      通過(guò)最小化TD誤差[5]的方式,修正值函數(shù)與Bellman方程推導(dǎo)出來(lái)的期望值之間的誤差,即二者標(biāo)準(zhǔn)差。

      L(w)=E[(Qw(s,a)-(τπθ′Qw′)(s,a))2].

      (6)

      依據(jù)Bellman方程的更新方式,確實(shí)能夠找到最優(yōu)解,但事實(shí)上這種建模方式不夠合理,單純利用期望值進(jìn)行迭代,從某種程度上來(lái)說(shuō)損失了Qπ作為分布的信息,因此,采用N-Step的分布Bellman方程[14]。

      λNZ(sN,π(sN))|s0,a0],

      (7)

      式中:Z(s,a)表示在狀態(tài)s下執(zhí)行動(dòng)作a之后回報(bào)形成隨機(jī)變量,具有概率分布的特性,則上述推導(dǎo)出來(lái)的更新的方程修改為

      (8)

      式中:d表示分部之間的距離度量,采用交叉熵[15]求取。

      3.2.2 基于并行作戰(zhàn)場(chǎng)景的分布式建模技術(shù)

      本文采用Ring-AllReduce[9]分布式架構(gòu),所有智能體組成單向環(huán)形架構(gòu),既第N-1個(gè)智能體的梯度傳輸給第N個(gè)智能體,當(dāng)所有智能體在其負(fù)責(zé)交互的仿真環(huán)境中收斂達(dá)到穩(wěn)定,即可實(shí)現(xiàn)分布式訓(xùn)練,如圖3所示。

      3.3 算法流程

      根據(jù)并行作戰(zhàn)場(chǎng)景構(gòu)建和智能體建模,選取了速度、距離、發(fā)射角度、是否被探測(cè)等數(shù)據(jù)作為每時(shí)刻獲取的態(tài)勢(shì)信息。

      st={vx,vy,vz,ax,ay,az,H,θf(wàn)ire,
      detected,tdetected,approch,fire,back},

      (9)

      式中:(vx,vy,vz)為飛機(jī)的速度;(ax,ay,az)為飛機(jī)的加速度;H為飛機(jī)距海平面的高度;θf(wàn)ire為飛機(jī)投彈的夾角;tdetected為飛機(jī)被探測(cè)的時(shí)間總長(zhǎng)且滿足tdetected≤tintercept的條件;approch為飛機(jī)是否達(dá)到投彈的條件;detected,fire,back均為標(biāo)記變量,分別表示飛機(jī)是否被探測(cè)、飛機(jī)是否完成投彈,以及飛機(jī)是否脫離探測(cè)區(qū)域。具體算法流程如圖4所示。

      4 結(jié)果分析

      在初始飛機(jī)位置、投彈條件等可隨機(jī)設(shè)置情況下,開(kāi)展訓(xùn)練任務(wù)。在訓(xùn)練過(guò)程中,智能體通過(guò)每一時(shí)刻收獲的態(tài)勢(shì)信息,在未輸入任何先驗(yàn)知識(shí)的情況下,經(jīng)過(guò)回饋函數(shù)的動(dòng)態(tài)指導(dǎo),動(dòng)態(tài)調(diào)整其自身認(rèn)知決策的能力。

      經(jīng)過(guò)一段時(shí)間的訓(xùn)練,得到空中威脅智能體的收斂模型,為更方便地檢驗(yàn)算法的穩(wěn)定性,隨機(jī)選取投彈條件

      (10)

      不同智能體隨機(jī)抽取的14條飛行軌跡如圖5,6所示。其中綠色軌跡表示在智能體能夠完成任務(wù)時(shí)所生成的軌跡,其余各顏色的軌跡表示智能體訓(xùn)練不充分時(shí)決策出的飛行軌跡。從圖6中可以看出,智能體存在逐步進(jìn)化的現(xiàn)象。

      對(duì)最終收斂結(jié)果進(jìn)行詳細(xì)分析,能夠清楚看到飛機(jī)自行迭代出的投彈策略,在飛機(jī)滿足對(duì)艦攻擊條件后盡早投彈,在完成投彈后迅速降高逃逸,以避免防空導(dǎo)彈打擊。通過(guò)表1逃出探測(cè)區(qū)時(shí)間與生存時(shí)間的對(duì)比,可以看出序號(hào)14逃逸的時(shí)間占比最少,也相對(duì)合理。

      通過(guò)智能體飛行決策軌跡趨勢(shì)能夠直觀看出智能體能夠通過(guò)降低高度躲避雷達(dá)跟蹤并盡量深入到武器發(fā)射區(qū)內(nèi)執(zhí)行投彈過(guò)程。同時(shí)由于投彈限制,為了確保生存,智能體在投彈結(jié)束后會(huì)盡快降低高度以躲避艦艇防空導(dǎo)彈打擊。學(xué)習(xí)的結(jié)果收斂且基本滿足預(yù)期。

      圖3 Ring-allreduce分布式架構(gòu)示意圖Fig.3 Distributed architecture of ring-allreduce

      圖6 飛行軌跡對(duì)比圖2(雷達(dá)坐標(biāo)系RH圖)Fig.6 Flight path comparison chart 2(RH view of Radar coordinate system)

      表1 逃出探測(cè)區(qū)時(shí)間與生存時(shí)間對(duì)比表Table 1 Comparison of escape time and survival time

      5 結(jié)束語(yǔ)

      隨著深度強(qiáng)化學(xué)習(xí)、聯(lián)盟學(xué)習(xí)等一大批新型智能技術(shù)發(fā)展,其在解決不完備信息條件下的對(duì)抗博弈,長(zhǎng)遠(yuǎn)規(guī)劃策略學(xué)習(xí)以及大規(guī)模交戰(zhàn)及決策空間等問(wèn)題的能力正在逐步得到認(rèn)可。而在軍事模擬訓(xùn)練領(lǐng)域,復(fù)雜程度雖然遠(yuǎn)遠(yuǎn)高于棋類游戲,但是人工智能技術(shù)依然成為了解決戰(zhàn)爭(zhēng)決策問(wèn)題的一把金鑰匙。

      本文就在在這樣的背景下,基于海軍艦艇防空訓(xùn)練問(wèn)題,構(gòu)建了單機(jī)單艦的突防場(chǎng)景并開(kāi)展了并行分布式場(chǎng)景仿真和空中威脅模型的迭代學(xué)習(xí)。通過(guò)大量學(xué)習(xí)并得到了相對(duì)收斂的結(jié)果。同時(shí)結(jié)果也基本符合單機(jī)單艦的突防過(guò)程,證明了基于深度學(xué)習(xí)的方法在海軍艦艇防空模擬訓(xùn)練的可行性。

      然而在開(kāi)展驗(yàn)證過(guò)程中,也發(fā)現(xiàn)了一些問(wèn)題,比如學(xué)習(xí)收斂速度在復(fù)雜場(chǎng)景條件下的急劇降低還有在多智能體的協(xié)同問(wèn)題。后續(xù)的主要工作一方面將集中在優(yōu)化并行仿真架構(gòu),提升學(xué)習(xí)的收斂速度。另一方面將主要開(kāi)展多智能體的建模,利用人工智能架構(gòu)實(shí)現(xiàn)多機(jī)編隊(duì)攻擊場(chǎng)景以及復(fù)雜對(duì)抗場(chǎng)景的學(xué)習(xí)和實(shí)現(xiàn)。

      猜你喜歡
      投彈艦艇防空
      外掛裝置助投彈電阻值不合格故障分析與預(yù)防
      艦艇入列
      美173空降旅與克羅地亞防空?qǐng)F(tuán)正在進(jìn)行實(shí)戰(zhàn)演練,發(fā)射FIM-92毒刺防空導(dǎo)彈
      軍事文摘(2022年11期)2022-06-24 09:22:46
      海戰(zhàn)中的蒙面殺手——隱形艦艇
      防空營(yíng)打靶記
      投彈小能手
      LY-70:防空領(lǐng)域的“變形金剛”
      基于分解進(jìn)化算法的飛行器投彈規(guī)劃*
      飛機(jī)投彈中的平拋運(yùn)動(dòng)分析
      艦艇遠(yuǎn)航中開(kāi)展音樂(lè)健身操訓(xùn)練探討
      溆浦县| 延庆县| 临猗县| 延寿县| 原阳县| 富顺县| 桃园县| 雷波县| 金平| 广灵县| 福海县| 阿勒泰市| 苏尼特左旗| 万山特区| 兴义市| 平远县| 东方市| 西林县| 休宁县| 正阳县| 安庆市| 扎兰屯市| 武威市| 郯城县| 石河子市| 金华市| 勐海县| 白城市| 康马县| 乾安县| 东乡| 广丰县| 吉首市| 延寿县| 高雄市| 金堂县| 金阳县| 黎平县| 关岭| 招远市| 铁力市|