馬也,范文慧,常天慶
(1.陸軍裝甲兵學院 兵器與控制系,北京 100072;2.清華大學 自動化系,北京 100084)
無人集群的概念來源于無人機集群的研究,隨著人工智能及自動化技術(shù)的進步,無人機器人、無人機、無人車及其他無人裝備迅速發(fā)展,使得無人集群的種類范圍大大擴展。由于無人集群具有裝備及可完成任務數(shù)量多、無需人在環(huán)、可自主協(xié)同、無中心更靈活的組織方式、可方便回收等特點,受到美國為首等強國的高度重視,將其發(fā)展為無人集群系統(tǒng)(USS)并應用在軍事中,成為未來戰(zhàn)爭的重要作戰(zhàn)形式之一。目前,有專家在聯(lián)合作戰(zhàn)、協(xié)同偵察和戰(zhàn)場通信等軍事領域中研究探索無人集群系統(tǒng)的應用潛力。無人集群系統(tǒng)彌補了單一無人裝備戰(zhàn)斗力不足,可完成任務單一等問題,智能體(Agent)仿真技術(shù)中的Agent同樣具有協(xié)同合作、自主性及與環(huán)境互動的能力。同時,Agent技術(shù)可應用在強化學習等多種智能算法中。將無人集群技術(shù)與Agent技術(shù)相結(jié)合,能夠擴展無人集群的研究方法及思路。
無人集群的自主兵力部署及協(xié)同任務分配是無人集群作戰(zhàn)的重點研究方向之一,是其自主及適應性的體現(xiàn)。在防御作戰(zhàn)中,利用有限的兵力發(fā)揮最大的作戰(zhàn)效能是防御作戰(zhàn)中的研究疑難點,高效合理的兵力部署是實現(xiàn)其目標的手段。針對兵力部署問題,多使用粒子群優(yōu)化算法、遺傳算法、Memetic算法、線性規(guī)劃算法等多種智能算法進行優(yōu)化。以上方法存在模型構(gòu)建復雜、陣地區(qū)域及武器種類單一、算法有早熟及局部最優(yōu)、未對結(jié)果進行進一步論證測試等問題。
無人集群任務分配是任務規(guī)劃的一部分,能夠協(xié)調(diào)集群的一致性,保證高效完成作戰(zhàn)任務。目前的作戰(zhàn)任務分配領域大多以人為主,根據(jù)戰(zhàn)場經(jīng)驗進行規(guī)劃,而無人集群作戰(zhàn)使作戰(zhàn)方式逐步無人化,由此任務分配算法的研究逐步引起學者的關注。其中Agent技術(shù)與任務規(guī)劃結(jié)合的方法取得較多成果,主要成果有基于馬爾可夫過程的Agent任務分配算法,可以解決機器人在位置環(huán)境中的任務規(guī)劃問題;基于Agent技術(shù)的分層任務規(guī)劃方法,可以解決局部個體的任務分配方式等。上述方法的任務分配效率不高,隨著強化學習算法在智能決策方面的突出表現(xiàn),將其引用可突破任務分配問題的瓶頸。其中效果較好的強化學習算法有Team-Q算法、Distributed-Q算法等Agent技術(shù)任務分配方法。這些方法均從個體的角度進行考慮,未能協(xié)調(diào)多個個體并獨立完成任務的問題。
本文針對無人集群作戰(zhàn)的重點構(gòu)建防御作戰(zhàn)情景下的無人集群作戰(zhàn)仿真模型。從作戰(zhàn)方案中的兵力部署及任務分配兩個方面,提出一種自適應遺傳算法來解決無人集群兵力部署問題,對算法的目標函數(shù)及相應參數(shù)進行改進,提高算法性能,完成無人集群的戰(zhàn)場兵力部署。為進一步驗證算法的結(jié)果,提出一種基于深度強化學習的無人集群任務分配方法。增加自適應調(diào)節(jié)權(quán)重因子,根據(jù)算法運行效果實時調(diào)整Q值并得出無人集群防御作戰(zhàn)結(jié)果。通過上述算法對無人集群防御作戰(zhàn)的優(yōu)化,使防御作戰(zhàn)成功率得到提高。
兵力部署及任務分配為無人集群作戰(zhàn)中的重點研究方向之一,合理的兵力部署可使有限的兵力發(fā)揮出最高的作戰(zhàn)效能,有利于提高我方作戰(zhàn)勝率。無人集群任務分配能夠協(xié)調(diào)集群一致性,保證作戰(zhàn)任務合理高效分配,更好地完成作戰(zhàn)任務。針對無人集群作戰(zhàn)中兵力部署和任務分配這兩個重點方面,構(gòu)建無人集群防御作戰(zhàn)模型。模型架構(gòu)如圖1所示。
圖1 無人集群防御作戰(zhàn)模型架構(gòu)Fig.1 Unmanned swarm defensiv combat model architecture
由圖1可見,無人集群防御作戰(zhàn)模型主要由四部分構(gòu)成,分別用于對戰(zhàn)斗區(qū)域及兵力進行設置、構(gòu)建目標函數(shù)、完成自適應遺傳算法的設置解決兵力部署、通過強化學習算法完成防御任務分配及攻防對抗。
作戰(zhàn)過程中,防御方會根據(jù)地形、敵方主攻方向、防御目標等因素劃分戰(zhàn)斗區(qū)域。綜合考慮各方影響,在某些區(qū)域集中兵力進行高強度戰(zhàn)斗,某些區(qū)域作為佯攻區(qū)域。假設一個防御作戰(zhàn)戰(zhàn)場分為(≥1)個戰(zhàn)斗區(qū)域,每個戰(zhàn)斗區(qū)域內(nèi)包含(≥1)個防御重點。設戰(zhàn)斗強度因數(shù)為(≤1),作戰(zhàn)重要程度因數(shù)為。模型通過戰(zhàn)斗強度因數(shù)表示戰(zhàn)斗區(qū)域的戰(zhàn)斗強度,在主要戰(zhàn)斗區(qū)域,=1,非主要戰(zhàn)斗區(qū)域<1,相同戰(zhàn)斗區(qū)域內(nèi)的不同防御要點其戰(zhàn)斗強度因數(shù)相同。通過戰(zhàn)斗區(qū)域的作戰(zhàn)重要程度因數(shù)表示作戰(zhàn)區(qū)域的作戰(zhàn)重要程度。戰(zhàn)斗區(qū)域的戰(zhàn)斗強度及作戰(zhàn)重要程度都將對兵力部署方案造成一定影響。
包含(=1,2,…,)個防御重點的第個戰(zhàn)斗區(qū)域的作戰(zhàn)重要程度因數(shù)計算方法如(1)式所示:
(1)
式中:為第個戰(zhàn)斗區(qū)域的作戰(zhàn)重要程度因數(shù);()為第個防御重點的戰(zhàn)斗強度因數(shù)。
無人集群裝備的戰(zhàn)斗能力通過單件裝備的武器效能指數(shù)量化,武器效能指數(shù)是度量不同型號種類武器裝備戰(zhàn)斗能力的標準。模型中的無人集群裝備種類及兵力效能指數(shù)參考歷史數(shù)據(jù)及現(xiàn)有情況分析分為5種類型,包括類步槍型、類機關槍型、類迫擊炮型、類榴彈炮型及類坦克型無人裝備。無人集群裝備類型、數(shù)量及單件武器戰(zhàn)斗效能指數(shù)如表1所示。
表1 無人集群裝備兵力設計Tab.1 Unmanned swarm equipment force design
單件無人集群裝備戰(zhàn)斗效能指數(shù)為,該類裝備總戰(zhàn)斗效能指數(shù)為與該類裝備數(shù)量的乘積。為方便模型構(gòu)建及后續(xù)優(yōu)化算法的使用,將每件無人集群裝備視作一個Agent。模型將根據(jù)武器效能指數(shù)決定裝備有效防御戰(zhàn)區(qū)的概率并得出作戰(zhàn)對抗勝負結(jié)果。
無人集群的防御作戰(zhàn)效能可通過目標函數(shù)進行描述,該函數(shù)可同時用于遺傳算法兵力部署優(yōu)化。為方便描述武器裝備類型,將5類裝備分別用數(shù)字1~5代替,設單件裝備可有效防御戰(zhàn)區(qū)的概率為,則第′類單件裝備有效防御第個戰(zhàn)斗區(qū)域的概率′的計算方法如(2)式所示:
(2)
式中:(′)為第′類單件裝備的總戰(zhàn)斗效能指數(shù);()表示第類武器的總數(shù);()為第類武器所有裝備的總戰(zhàn)斗效能指數(shù)。第類多件裝備有效防御第個戰(zhàn)斗區(qū)域的概率′計算方法如(3)式所示:
(3)
式中:(′)表示在第個戰(zhàn)斗區(qū)域中第′類武器數(shù)量占第類武器總數(shù)量()的比例,其約束條件為
(4)
′的數(shù)學期望如(5)式所示:
(5)
根據(jù)上述分析,無人集群防御作戰(zhàn)的目標函數(shù)構(gòu)建為
(6)
構(gòu)建好的目標函數(shù)將用于進行無人集群的兵力部署,通過遺傳算法對其進行優(yōu)化,得出兵力部署方案。
根據(jù)無人集群的兵力部署問題設計遺傳算法的優(yōu)化過程。傳統(tǒng)遺傳算法容易出現(xiàn)過早收斂而陷入局部最優(yōu)的情況,為避免出現(xiàn)此類問題,本文提出一種自適應遺傳算法,對目標函數(shù)、交叉率及變異率3個方面進行優(yōu)化。
定義一個防御作戰(zhàn)實例,對無人集群裝備進行兵力部署。無人集群的裝備種類和數(shù)量見表1。防御作戰(zhàn)戰(zhàn)場設有3個戰(zhàn)斗區(qū)域,其中一個主要戰(zhàn)斗區(qū)域、兩個次要戰(zhàn)斗區(qū)域,每個區(qū)域分別包含4、3、2個防御重點,戰(zhàn)斗區(qū)域分布示意如圖2所示。
圖2 戰(zhàn)斗區(qū)域分布示意圖Fig.2 Battle area distribution diagram
設主要戰(zhàn)斗區(qū)域的戰(zhàn)斗強度因數(shù)為1,兩個次要戰(zhàn)斗區(qū)域的戰(zhàn)斗強度因數(shù)分別為08和07。根據(jù)(1)式和(2)式分別計算作戰(zhàn)重要程度因數(shù)及有效防御概率′,具體數(shù)值如表2所示,保留小數(shù)點后3位。
表2 兩類參數(shù)數(shù)值Tab.2 Two types of parameter values
根據(jù)無人集群防御作戰(zhàn)的任務和目標函數(shù)的設置,遺傳算法的個體數(shù)目為40、最大遺傳代數(shù)為200、變量維數(shù)為15、其上下界為[0,1]。為改變算法的局部搜索能力,使用格雷碼進行編碼,編碼位數(shù)為20。適應度值分配采用線性排序方式,按照排序適應度因數(shù)進行排序。其排序適應度因數(shù)的計算方式如(7)式所示:
(7)
式中:()為種群中的待計算個體;()為排序種群的位置;()為種群中的個體數(shù)量。
標準遺傳算法在運行過程中,種群中個體的適應度值將逐漸趨于相似數(shù)值,難以繼續(xù)優(yōu)化,造成在算法過早收斂而未能找到最優(yōu)解。為解決此類問題,本文對遺傳函數(shù)的目標函數(shù)進行優(yōu)化,優(yōu)化后目標函數(shù)如(8)式所示:
(8)
式中:為遺傳算法的代數(shù)。隨著算法的運行,對目標函數(shù)進行一個適當補償,以提高高適應度的優(yōu)勢個體被遺傳的概率,達到算法自適應的調(diào)整的目的。
在個體進行交叉和變異的過程中,若采用固定概率,則優(yōu)秀個體和不良個體的交叉、變異可能性相同,不利于優(yōu)秀個體的遺傳。因此對算法的交叉及變異率進行改進,交叉率的計算方法如(9)式所示:
(9)
式中:為當前個體的適應度;為當前群體最大適應度;為每一代的平均適應度。變異率的計算方式如(10)式所示:
=01×
(10)
對交叉和變異率的改進能夠使群體中具有較高適應度個體的交叉及變異率較小,更容易遺傳給子代,適應度較群體較低的個體將更容易被進化。通過以上改進,遺傳算法能夠自適應地進行無人集群兵力部署的優(yōu)化。
根據(jù)21節(jié)及22節(jié)的算法設定,自適應遺傳算法的運行流程如圖3所示。
圖3 自適應遺傳算法運行流程圖Fig.3 Fflow chart of adaptive genetic algorithm
首先根據(jù)算法參數(shù)設置進行種群初始化,隨后按照格雷碼進行編碼,計算適應度值,在算法未終止之前,一直循環(huán)選擇、交叉、變異及最優(yōu)解的計算,待滿足終止條件后,進行解碼及結(jié)果輸出。算法的終止條件設置為最大遺傳代數(shù),當達到該代數(shù)時停止計算。算法的偽代碼如表3所示。
表3 自適應遺傳算法偽代碼Tab.3 Pseudo code of adaptive genetic algorithm
為與標準遺傳算法進行對比,將標準遺傳算法的變異率及交叉率設置為0.03和0.7。進行100次重復實驗,取其平均值。標準遺傳算法的平均最佳適應度曲線如圖4所示。
圖4 標準遺傳算法平均最佳適應度曲線Fig.4 Average optimal adaptive curve of standard genetic algorithm
由圖4可見,遺傳算法的代數(shù)運行到40代時適應度值變化不再明顯,進化過程受到阻礙,由此造成算法得到局部最優(yōu)的結(jié)果。本文提出的自適應遺傳算法平均最佳適應度曲線如圖5所示。
圖5 自適應遺傳算法平均最佳適應度曲線Fig.5 Average optimal adaptive curve of adaptive genetic algorithm
在增加了自適應參數(shù)調(diào)整后,適應度曲線呈現(xiàn)緩慢上升趨勢,保證了更高適應度的優(yōu)秀個體遺傳,防止過早收斂及局部最優(yōu)情況的出現(xiàn)。
對算法的100次重復實驗進行平均,得到的()值及其對應的無人裝備武器數(shù)量如表4所示。
表4 算法運行結(jié)果Tab.4 Algorithm operation results
經(jīng)過自適應遺傳算法的優(yōu)化,得到最佳的無人集群兵力部署方案為:在第1戰(zhàn)斗區(qū)域分別部署各類無人集群裝備397、32、17、13、50件;第2戰(zhàn)斗區(qū)域分別部署各類無人集群裝備320、25、13、11、28件;第3戰(zhàn)斗區(qū)域分別部署各類無人集群裝備283、23、10、6、22件。
為進一步檢驗無人集群防御作戰(zhàn)的兵力部署方案,本文提出一種改進的深度Q網(wǎng)絡(DQN)深度強化學習算法,對無人集群任務分配進行優(yōu)化,利用算法給出的方案進行防御作戰(zhàn),最終得到無人集群防御作戰(zhàn)結(jié)果。
防御作戰(zhàn)任務即為防御方一定數(shù)量的無人集群裝備Agent與攻擊方一定數(shù)量的作戰(zhàn)裝備Agent進行作戰(zhàn)。每輪對戰(zhàn)在本模型中,攻擊方采用和防御方一樣的兵力構(gòu)成,同樣包含5種無人集群裝備。分三波依次攻擊3個戰(zhàn)斗區(qū)域,若每波還有兵力剩余,則并入下一波進行攻擊。雙方作戰(zhàn)流程按照OODA環(huán)進行循環(huán)戰(zhàn)斗,直到一方Agent數(shù)量為0?;贠ODA環(huán)的戰(zhàn)斗按照偵察(Observation)、判斷(Orientation)、決策(Decision)和行動(Action)4部分依次進行。本模型的觀察部分即觀測對方現(xiàn)有Agent的數(shù)量及種類,判斷部分和決策部分則為無人集群任務分配部分,由深度強化學習算法完成,行動部分則按照任務分配方案進行作戰(zhàn)。其作戰(zhàn)流程如圖6所示。
圖6 無人集群防御作戰(zhàn)流程Fig.6 Flow chart of unmanned swarm defensive combat
Agent的屬性為={,},其中為Agent的數(shù)量、為Agent戰(zhàn)斗效能指數(shù),=,在11節(jié)中定義。
任務的屬性包括任務數(shù)量、任務優(yōu)先級、任務執(zhí)行質(zhì)量及任務收益。任務數(shù)量為攻擊方Agent個數(shù),在防御作戰(zhàn)的過程中,任務數(shù)量將實時變化,取決于當前進攻方還能有效作戰(zhàn)的Agent數(shù)量。任務優(yōu)先級與每類Agent的有關,越高則優(yōu)先級越高。任務執(zhí)行質(zhì)量為Agent在攻擊對方時是否能成功的概率,其計算方式如(11)式所示:
=1-(1-)()
(11)
任務收益函數(shù)與任務執(zhí)行質(zhì)量及Agent的戰(zhàn)斗效能指數(shù)相關,對分配給Agent的任務進行價值衡量,其計算方法如(12)式所示:
(12)
式中:為當前行動方與選定任務方的之差;為當前Agent是否參與任務的標志因數(shù),當參與任務時=1,不參與任務則=0。
攻擊方的策略原則為:任意選擇小于等于自己的Agent進行攻擊。防御方的策略由任務分配算法得到。只有不小于對方時才有可能成功攻擊對方,成功攻擊的概率由(11)式進行判定,否則攻擊無效。
DQN算法是包含預測網(wǎng)絡和目標網(wǎng)絡兩個神經(jīng)網(wǎng)絡的強化學習結(jié)構(gòu),兩個網(wǎng)絡分別用于動作選擇和動作執(zhí)行后的獎勵更新。網(wǎng)絡的損失函數(shù)根據(jù)Q-learning構(gòu)建。Q-learning的Q值更新方法如(13)式所示:
(,)=(,)+(+max(′,′)-(,))
(13)
式中:為狀態(tài);為動作;′與′為下一時刻的狀態(tài)和動作;為學習率,∈[0,1];為隨機數(shù);為折扣因數(shù)。在DQN算法中,網(wǎng)絡的權(quán)重參數(shù)為,因此使用(,,)代替動作值函數(shù)(,)。傳統(tǒng)DQN算法中,神經(jīng)網(wǎng)絡在計算Q值時容易出現(xiàn)過度估計問題,造成Q值高于實際值,使算法無法收斂至最佳狀態(tài)。為解決上述問題,本文提出一種自適應權(quán)重Q值更新方法。其計算方式如(14)式所示:
(,,)=(,,)+(+
(max(′,′,)+
max(′,′,))-(1-)(,,))
(14)
式中:(,,)為更新后的Q值;為自適應調(diào)節(jié)權(quán)重因子,∈[0,1],
(15)
()為損失函數(shù),
()=E[(+max(′,′,)-
(,,))]
(16)
根據(jù)(16)式,網(wǎng)絡參數(shù)的梯度計算方式為
(17)
算法的目標函數(shù)采用隨機梯度下降法進行優(yōu)化。改進的自適應權(quán)重Q值更新方法可根據(jù)損失函數(shù)進行自適應調(diào)整,當=0為原DQN算法。策略選擇使用貪婪策略進行策略更新,策略原理如圖7所示。
圖7 ε貪婪策略原理Fig.7 ε greedy strategy principle
策略在非零概率的規(guī)則下進行選擇,在概率為時隨機選擇行為,在概率為1-時根據(jù)網(wǎng)絡權(quán)重選擇當前最佳Q值對應的行為。
算法的回報計算方法如(18)式所示:
(18)
式中:、表示所有進攻方和防御方的總戰(zhàn)斗效能指數(shù);和為一輪攻擊后當前進攻方和防御方剩余的總戰(zhàn)斗效能指數(shù)。
算法的行為集合為防御方可能會選擇進攻方的5類無人集群裝備中的某一類,即={,,,,},狀態(tài)空間為防御方的五類無人集群裝備,={,,,,}。設計深度強化學習算法神經(jīng)網(wǎng)絡結(jié)構(gòu)如圖8所示,輸入層為防御方當前狀態(tài)空間,輸出為對應的任務分配動作Q值。
圖8 算法神經(jīng)網(wǎng)絡結(jié)構(gòu)Fig.8 Neural network structure of algorithm
本文提出的深度強化學習算法流程如圖9所示。
圖9 深度強化學習算法流程Fig.9 Flow chart of deep reinforcement learning algorithm
首先構(gòu)建經(jīng)驗池,用于存放算法產(chǎn)生的各類樣本及數(shù)據(jù),對其進行初始化,方便后續(xù)進行經(jīng)驗回放。隨后對預測網(wǎng)絡及目標網(wǎng)絡權(quán)重、強化學習所需的參數(shù)、模型狀態(tài)集合以及行動集合進行初始化。初始化完成后開始算法迭代。通過貪婪策略對動作進行選擇,根據(jù)規(guī)則可隨機選擇或通過網(wǎng)絡選擇Q值最大的動作。其次根據(jù)動作執(zhí)行及環(huán)境反饋得到獎勵,獲得新狀態(tài),將各類參數(shù)存入經(jīng)驗池。隨機取出少量經(jīng)驗用于目標網(wǎng)絡更新Q值,并通過梯度下降法更新權(quán)重。在迭代過程中使用預測網(wǎng)絡的參數(shù)更新目標網(wǎng)絡的參數(shù)。算法的偽代碼如表5所示。
表5 深度強化學習算法偽代碼Tab.5 Pseudo code of deep reinforcement learning algorithm
3.4.1 無人集群任務分配算法結(jié)果
模型采用2層全連接神經(jīng)網(wǎng)絡結(jié)構(gòu),每層神經(jīng)元數(shù)量為(40,40),訓練10 000個回合,每個回合為一個episode,代表一次完整的任務分配和防御作戰(zhàn)過程。重復實驗100次。模型仿真參數(shù)如表6所示。
表6 模型參數(shù)Tab.6 Model parameters
按照遺傳算法給出的最優(yōu)無人集群部署方案進行部署:第1戰(zhàn)斗區(qū)域分別部署各類無人集群裝備397、32、17、13、50件;第2戰(zhàn)斗區(qū)域分別部署各類無人集群裝備320、25、13、11、28件;第3戰(zhàn)斗區(qū)域分別部署各類無人集群裝備283、23、10、6、22件。
進攻和防御均采取該方案,經(jīng)過仿真實驗,Q值在各種狀態(tài)下均能收斂。防御方第1類無人集群裝備的Q值誤差如圖10所示。
圖10 防御方第1類無人集群裝備Q值誤差Fig.10 Q value error of the first class unmanned swarm equipment of the defensive side
Q值在最初幾回合較大的誤差波動后,隨著回合數(shù)的增加逐步趨向于穩(wěn)定。其中,防御方第1類無人集群裝備的深度強化學習獎勵曲線如圖11所示。為進一步清晰觀察獎勵曲線的變化,在圖11中添加強力曲線在1~200回合的局部放大圖。從中可見,隨著回合數(shù)的增長,初期獎勵曲線迅速增加,隨后呈現(xiàn)出趨勢較微弱的緩慢增長。
圖11 防御方第1類無人集群裝備獎勵曲線Fig.11 Reward value curve of the first class unmanned swarm equipment of the defensive side
3.4.2 防御作戰(zhàn)結(jié)果
通過防御作戰(zhàn)對無人集群的兵力部署算法進行效果驗證,進攻方采用最優(yōu)部署方案,且與防御方裝備數(shù)量相等。防御方采用本文算法與標準遺傳算法兩種方式進行兵力部署,并分別利用本文提出的深度強化學習算法進行防御作戰(zhàn),對比作戰(zhàn)成功率。對手的全部無人集群裝備被損毀即為作戰(zhàn)成功,損毀標準根據(jù)(11)式得到。作戰(zhàn)成功率由100次重復試驗的平均值得來,使用橫坐標對應的訓練回合數(shù)得到的任務分配結(jié)果進行作戰(zhàn)。標準遺傳算法的變異率及交叉率分別設置為0.03和0.7。本文提出的自適應算法根據(jù)數(shù)據(jù)適應度自行調(diào)整,結(jié)果如圖12所示。
圖12 采用不同遺傳算法計算兵力部署方案的防御作戰(zhàn)效果對比Fig.12 Comparison of the force deployment effects of different genetic algorithms in defensive combat
根據(jù)仿真結(jié)果,本文提出的無人集群兵力部署算法可增加無人集群防御作戰(zhàn)的成功率,較標準算法可提高23%。同時,本文還使用其他文獻提出的拍賣算法、粒子群優(yōu)化算法及蟻群算法進行兵力部署,并將部署方案用于無人集群防御作戰(zhàn),將防御作戰(zhàn)成功率與本文算法進行對比,算法對比結(jié)果如表7所示。
表7 算法對比結(jié)果Tab.7 Algorithm comparison results
對比結(jié)果表明,本文算法得出的兵力部署方案在進行無人集群防御作戰(zhàn)時的成功率最高,蟻群算法與粒子群優(yōu)化算法效果相近,拍賣算法次之,但均低于本文算法。本文算法能夠更好地結(jié)合無人集群防御作戰(zhàn)戰(zhàn)場及武器裝備的特點,利用有限兵力設計最優(yōu)兵力部署方案,同時提高防御作戰(zhàn)的成功率。
其次,對本文提出的無人集群任務分配算法效果進行驗證,進行攻防雙方防御作戰(zhàn)。雙方均采用自適應遺傳算法得到的最佳裝備部署方案進行作戰(zhàn),且數(shù)量相等。對比本文提出的深度強化學習算法與標準強化學習算法的防御作戰(zhàn)效果,其結(jié)果如圖13所示,取100次實驗平均值。
圖13 深度強化學習算法防御作戰(zhàn)效果對比圖Fig.13 Comprison of defense combat effects of deep reinforcement learning algorithm
圖13顯示,標準強化學習算法因未對Q值進行過度估計修正,前期出現(xiàn)一定的波動,后續(xù)慢慢趨于穩(wěn)定,但總體效果仍低于改進后的算法。本文提出的深度強化學習算法能夠提高無人集群防御作戰(zhàn)的成功率,提高效果為7%。
3.4.3 不同兵力下的防御作戰(zhàn)結(jié)果
通過對無人集群兵力部署算法和任務分配算法的防御作戰(zhàn)驗證,均對防御作戰(zhàn)的效果進行了提升,證明了本文算法的有效性。為進一步對模型的防御作戰(zhàn)能力進行測試,對進攻方兵力數(shù)量的變化進行研究。在進攻方與防御方均為最優(yōu)兵力部署的情況下,將進攻方兵力設置為多于防御方兵力0%、10%、20%及30% 4種情況,分別進行防御作戰(zhàn)防真,成功率計算方法與前述方法相同,取100次實驗平均值,仿真結(jié)果如圖14所示。圖14表明,在進攻方與我方兵力相同時,因我方采用基于深度強化學習的任務分配方式,防御作戰(zhàn)成功率接近100%,隨著進攻方兵力的逐步增加,防御方的作戰(zhàn)成功率逐步下降,當進攻方兵力比我方多30%時,防御方已經(jīng)不能成功防御,需要對防御方兵力進行提升。
圖14 多種進攻方兵力防御作戰(zhàn)結(jié)果Fig.14 Defensive combat results of a variety of offensive-side forces
模型還對不同的兵力部署方案進行測試,防御方兵力部署方案除了2.2節(jié)和2.3節(jié)中提到的自適應遺傳算法最優(yōu)兵力部署方案,還分別采取兵力平均部署及隨機部署方案。使用兩種不同的兵力部署方法,由深度學習算法進行任務分配及防御作戰(zhàn)仿真。其中,平均部署方案的仿真結(jié)果如圖15所示,取100次實驗平均值。圖15的結(jié)果顯示,當雙方兵力相同時,最終能取得72.7%的作戰(zhàn)成功率,進攻方兵力比防御方多10%時,雖然成功率只有45%,但并非不能防御作戰(zhàn)。在進攻方兵力比防御方多20%時,防御作戰(zhàn)不能成功。
圖15 平均兵力部署方案防御作戰(zhàn)結(jié)果Fig.15 Defensive combat results of average force deployment plan
最后,防御方采用隨機部署方案,使用深度強化學習進行任務分配及防御作戰(zhàn)效果如圖16所示,取100次實驗平均值。由圖16可見,當防御方采用隨機兵力部署方案時,在雙方兵力相同的狀態(tài)下,其成功防御的作戰(zhàn)成功率僅為56%,即有將近一半的可能性會防御失敗。在進攻方兵力比我方多10%時,已經(jīng)幾乎不能防御成功。
圖16 隨機兵力部署方案防御作戰(zhàn)結(jié)果Fig.16 Defensive combat results of random force deployment plan
將上述3種不同兵力部署方案的防御作戰(zhàn)效果進行匯總,結(jié)果如表8所示。
表8 多種兵力部署方案防御作戰(zhàn)結(jié)果Tab.8 Defensive combat results of a variety of force deployment plans
由最優(yōu)部署、平均兵力部署及隨機兵力部署進行防御作戰(zhàn)仿真的結(jié)果可知:最優(yōu)兵力部署方案的防御作戰(zhàn)效果最為顯著,平均兵力部署方案次之,隨機兵力部署方案最差。在進攻方兵力數(shù)量多于防御方數(shù)量時,最優(yōu)部署方案在進攻方兵力多20%時,還具有42%的防御成功率;其他兩個方案,在進攻方兵力多于20%及10%時已經(jīng)幾乎喪失防御能力。仿真實驗結(jié)果也進一步表明,在防御方兵力有限的情況下,對進攻方的防御能力在兵力多于30%時達到極限,需要采用除兵力規(guī)劃及任務分配之外的優(yōu)化方案進行優(yōu)化,如采用增援力量、提高自身防御兵力數(shù)等。
本文構(gòu)建了基于多智能體技術(shù)的無人集群防御作戰(zhàn)模型,提出了一種無人集群兵力部署自適應遺傳算法以及一種基于DQN的無人集群任務分配算法,對部署好的無人集群進行了任務分配和防御作戰(zhàn)。得出主要結(jié)論如下:
1)本文提出的模型及算法可對無人集群防御作戰(zhàn)的兵力部署及任務分配進行優(yōu)化,優(yōu)化后的防御作戰(zhàn)成功率的提高率分別為23%和7%。
2)模型還研究了最優(yōu)兵力部署方案、平均兵力部署方案及隨機兵力部署方案3種方案下進攻方不同兵力的防御作戰(zhàn)效果。其中,經(jīng)過優(yōu)化的最優(yōu)兵力部署方案取得了最優(yōu)的防御作戰(zhàn)效果,防御作戰(zhàn)成功率最高可達97%。
3)對部署好的無人集群進行任務分配和防御作戰(zhàn)。結(jié)果表明,該無人集群兵力部署與任務分配技術(shù)可有效提高防御作戰(zhàn)的成功率。