基于DDPG算法的無人機集群追擊任務

2020-11-06 06:44:34張耀中許佳林姚康佳劉潔凌

航空學報 2020年10期

張耀中，許佳林，姚康佳,劉潔凌

1.西北工業(yè)大學電子信息學院，西安 710072 2.西安北方光電科技防務有限公司，西安 710043

無人機與有人飛機相比，具有體積小、造價低、使用方便、對作戰(zhàn)環(huán)境要求低、戰(zhàn)場生存能力強等優(yōu)點。在過去的幾十年里，伴隨著導航、傳感器、能量存儲與制造等相關技術的發(fā)展，無人機在軍用和民用領域都得到了廣泛的應用。

隨著無人機在相關領域應用的不斷推進，單架無人機在執(zhí)行任務時暴露出了靈活性差和任務完成率低的短板，因此使用多架無人機構(gòu)成集群協(xié)同執(zhí)行相關任務必將成為無人機未來應用的重要發(fā)展方向。無人機集群可以看作是一個多Agent 系統(tǒng)(Multi-Agent Systems,MAS)，其目標是協(xié)調(diào)集群內(nèi)的無人機實現(xiàn)一個共同的任務目標。

當前對無人機集群的眾多研究都集中在協(xié)同任務決策方面，通過蟻群算法、狼群算法等有關的群體智能算法來實現(xiàn)對多架無人機的指揮控制。但這些方法有著計算時間過長、靈活性不足、智能化程度低的缺點，無法很好地滿足無人機集群對于無中心化、自主化、自治化的要求。相比而言，人工智能領域中的深度強化學習方法憑借著其強大的高維度信息感知、理解以及非線性處理能力，有望使無人機集群在面向戰(zhàn)場復雜任務時有足夠的智能協(xié)同完成作戰(zhàn)任務。

目前，已經(jīng)有諸多學者使用深度強化學習方法對無人機集群的相關問題進行了探索性研究。其中，Pham等基于深度強化學習算法對無人機的自主導航過程進行了研究，并應用于自主目標區(qū)域覆蓋問題，在一定程度上解決了無人機集群聯(lián)合行動下的協(xié)同任務規(guī)劃問題和高維度狀態(tài)空間的挑戰(zhàn)[1-2]；Qi和Zhu使用深度強化學習研究了智能體的環(huán)境感知問題，實現(xiàn)了對相鄰智能體的意圖感知[3]；李高壘[4]和魏航[5]使用深度強化學習方法研究了影響無人機自主空戰(zhàn)的相關因素，為未來智能空戰(zhàn)提供了理論依據(jù)。Yamaguchi引入反饋控制律研究多機器人的協(xié)調(diào)運動問題，采用隊形矢量法控制機器人群體隊形實現(xiàn)了對目標的追擊[6]。目前已有部分學者采用人工智能算法來解決無人機對目標的追擊問題，如Gadre采用Q學習算法在柵格化環(huán)境下研究了智能體的追擊問題，并與動態(tài)規(guī)劃算法進行對比，取得了較好的效果[7]。蘇治寶等通過對未知環(huán)境中多移動智能體追擊單目標問題的研究，采用強化學習中的Q學習算法給出了相應的解決方案[8]。通過對相關文獻的分析可以看出，目前在無人機集群應用方面的研究還不夠完善，所研究問題的規(guī)模都比較小，而且大多采用柵格化的任務環(huán)境，導致應用環(huán)境過于簡單。

與此同時，一些軍事強國，如美、英、俄羅斯等都在開展將人工智能技術應用于無人機集群任務的相關實驗驗證，美國已經(jīng)開展了多個智能化無人機集群項目，2016年美軍在加州進行的無人機集群實驗，成功地將人工智能技術應用到無人機集群的行為決策中，實現(xiàn)了無人機集群在空中自主協(xié)作，組成無人機集群隊形，并完成預定任務，充分體現(xiàn)了無人機集群的無中心化、自主化、自治化，這一實驗表明美軍在無人機集群自組網(wǎng)以及任務決策方面已經(jīng)達到了實用化水平[9]。因此，進行無人機集群的應用研究具有一定的理論意義和使用價值。

本文在現(xiàn)有研究的基礎上，以無人機集群對敵方來襲目標的追擊任務為場景[10]，基于深度確定性策略梯度網(wǎng)絡(Deep Deterministic Policy Gradient,DDPG)算法建立了人工神經(jīng)網(wǎng)絡模型，設計了一種引導型回報函數(shù)有效解決了深度強化學習在長周期任務下的稀疏回報問題，通過引入基于滑動平均值的軟更新策略減少了DDPG算法中Eval網(wǎng)絡和Target網(wǎng)絡在訓練過程中的參數(shù)震蕩，提高了算法的訓練效率。仿真實驗結(jié)果表明，訓練完成后的無人機集群能夠較好地執(zhí)行對敵方來襲目標的追擊任務，表現(xiàn)了人工智能算法在提升無人機集群指揮決策能力上的應用潛力。

1 任務場景描述

如圖1所示，在任務場景中出現(xiàn)敵方目標，目標的初始位置已知，保持高度和速度恒定飛行，我方派出無人機集群進行追擊攔截。設定雙方都處于同一個水平面內(nèi)，不考慮高度因素。不同于以往將任務環(huán)境網(wǎng)格化的離散處理方案，本文構(gòu)建了連續(xù)的二維戰(zhàn)場地圖作為無人機集群追擊問題的任務環(huán)境，集群中的無人機、被追擊目標的位置，均采用連續(xù)的空間位置坐標表示。

圖1 無人機集群執(zhí)行追擊任務示意圖Fig.1 Schematic diagram of UAV swarm for pursuit task

本文針對任務場景中只有一個目標出現(xiàn)的情況，且不考慮目標針對無人機集群進行機動規(guī)避等行為，目標按照自身預定的運動策略進行飛行。無人機集群的任務是圍堵目標，實現(xiàn)對目標的打擊或者驅(qū)離，當無人機集群與目標之間的距離滿足一定的態(tài)勢要求后，視為無人機集群完成追擊任務[11-12]。

2 無人機集群模型

2.1 無人機運動控制模型

為了便于問題分析，將集群中的無人機看作質(zhì)點運動模型，使用兩個方向的加速度來控制無人機的運動過程，如圖2所示。

圖2 無人機的運動學模型Fig.2 Kinematic model of UAV

無人機的質(zhì)點運動方程表示為

(1)

(2)

(3)

針對式(1)～式(3)建立的無人機運動控制模型，為了便于強化學習算法的實現(xiàn)，采用2個方向的加速度作為控制量對無人機的運動行為進行控制，如圖3所示。

由圖3可知，無人機的行為空間包含切向加速度a∥和法向加速度a⊥2個維度，無人機的行為即深度強化學習算法的輸出可以是這2個維度中滿足范圍要求的任意值，限定無人機的行為空間滿足：

圖3 無人機加速度控制模型圖Fig.3 Diagram of UAV acceleration control model

(4)

同時，對無人機的速度做出限制，規(guī)定無人機的速度v∈[3,7] m/s。

2.2 無人機傳感器探測模型

設定集群中的無人機具有對任務場景的全局探測能力，為了模擬傳感器的真實探測效果，對無人機的傳感器探測結(jié)果加入一個服從正態(tài)分布ε～N(μ,σ2)的隨機誤差。誤差的參數(shù)為

(5)

式中：di_t為無人機到目標的距離。

因此，集群中每架無人機對目標位置的探測結(jié)果為

(6)

式中：(xg,yg)為無人機探測到的目標位置；(x′g,y′g) 為目標的真實位置；εx、εy為服從正態(tài)分布N(0,σ2)的隨機誤差。

無人機對目標速度的探測結(jié)果計算為

(7)

式中：(xg_old，yg_old)為上一時刻探測到的目標位置；(xg_now，yg_now)為當前時刻探測到的目標位置。

2.3 集群內(nèi)無人機信息交互模型

集群內(nèi)的無人機之間需要進行信息交互以便使無人機集群具有更好的協(xié)作行為決策，每架無人機都有固定的通信范圍，在通信范圍內(nèi)的無人機之間可以進行通信，為了便于仿真分析，設定每架無人機最多可以與通信范圍內(nèi)距離最近的3架無人機進行信息交互，如圖4所示。

圖4 集群內(nèi)信息交互關系示意圖Fig.4 Schematic diagram of interaction within swarm

圖5 無人機間態(tài)勢信息關系圖Fig.5 Situational relationship between UAVs

3 深度確定性策略梯度網(wǎng)絡算法

DDPG算法是一種結(jié)合了基于值迭代和策略迭代的深度強化學習算法[13-14]。該算法的優(yōu)勢在于可以針對無限大小的狀態(tài)空間和行為空間實現(xiàn)智能體對最優(yōu)策略的學習，使無人機集群在針對具體任務的學習過程中具有更優(yōu)良的性能表現(xiàn)。DDPG算法是在傳統(tǒng)的“演員-評論家”算法的基礎上改進形成的，下面對算法網(wǎng)絡的結(jié)構(gòu)進行詳細分析。

3.1 “演員-評論家”算法

“演員-評論家”算法主要由2個不同的網(wǎng)絡模塊組成，分別是演員網(wǎng)絡模塊和評論家網(wǎng)絡模塊。

演員網(wǎng)絡模塊主要通過對輸入環(huán)境的狀態(tài)觀測，利用人工神經(jīng)網(wǎng)絡得到智能體行為的選擇概率，完成智能體與環(huán)境的交互過程，并且用交互得到的環(huán)境回報對人工神經(jīng)網(wǎng)絡的參數(shù)進行更新，用來維護和更新智能體的動作選取策略。

評論家網(wǎng)絡模塊則通過對輸入環(huán)境的狀態(tài)及行為進行觀測，來評估每個環(huán)境狀態(tài)與行為的價值，即估計演員網(wǎng)絡模塊的價值，通過實際網(wǎng)絡價值與預測網(wǎng)絡價值的誤差來更新當前神經(jīng)網(wǎng)絡。評論家網(wǎng)絡模塊輸出的價值可以對演員網(wǎng)絡模塊的行為選取策略進行指導，這也是“演員-評論家”算法的由來。

由上述可知，對于“演員-評論家”算法2個不同的網(wǎng)絡模塊：演員網(wǎng)絡模塊和評論家網(wǎng)絡模塊分別需要建立各自的人工神經(jīng)網(wǎng)絡。演員網(wǎng)絡模塊的人工神經(jīng)網(wǎng)絡實現(xiàn)了從觀測狀態(tài)到智能體行為選取概率的映射，其訓練過程需要結(jié)合評論家網(wǎng)絡模塊的誤差進行。而評論家網(wǎng)絡模塊的人工神經(jīng)網(wǎng)絡是通過對環(huán)境狀態(tài)和行為選取的觀測得到相應的評分，形成環(huán)境狀態(tài)與行為到對應評分的映射。“演員-評論家”算法的模型結(jié)構(gòu)如圖6所示。

圖6 “演員-評論家”算法的模型結(jié)構(gòu)Fig.6 Model structure of “Actor-Critics” algorithm

3.2 DDPG算法的網(wǎng)絡架構(gòu)

DDPG算法融合了“演員-評論家”算法和深度Q網(wǎng)絡算法，是一種新型的深度強化學習算法[15-16]，算法的網(wǎng)絡架構(gòu)如圖7所示。

圖7 DDPG算法的網(wǎng)絡架構(gòu)圖Fig.7 Network architecture of DDPG algorithm

如圖7所示，DDPG算法主要由環(huán)境、記憶回放單元、演員網(wǎng)絡模塊和評論家網(wǎng)絡模塊構(gòu)成。其中，環(huán)境是智能體的交互空間，也是智能體的探索空間，智能體在與環(huán)境的交互過程中得到交互樣本，并將交互樣本存儲到記憶回放單元中用于智能體的訓練過程。為了優(yōu)化算法的學習過程，DDPG算法吸取了深度Q網(wǎng)絡算法的思想，對于算法中的網(wǎng)絡部分分別構(gòu)建了一對結(jié)構(gòu)完全相同的人工神經(jīng)網(wǎng)絡，分別稱為Eval神經(jīng)網(wǎng)絡和Target神經(jīng)網(wǎng)絡。其中Eval神經(jīng)網(wǎng)絡用于訓練更新網(wǎng)絡參數(shù)，Target神經(jīng)網(wǎng)絡則使用周期性軟更新策略對Eval神經(jīng)網(wǎng)絡進行跟隨，并協(xié)助Eval神經(jīng)網(wǎng)絡進行訓練。

演員網(wǎng)絡模塊的神經(jīng)網(wǎng)絡用來完成對智能體行為選取概率的確定，智能體進行行為決策時，將依據(jù)演員網(wǎng)絡模塊提供的行為選擇概率來選取行為與環(huán)境進行交互。評論家網(wǎng)絡模塊的神經(jīng)網(wǎng)絡通過接收環(huán)境狀態(tài)和智能體行為，用來生成對“狀態(tài)-行為”的價值評估。其中Eval神經(jīng)網(wǎng)絡用來判斷當前狀態(tài)與行為的價值，Target神經(jīng)網(wǎng)絡接收下一時刻的狀態(tài)和演員部分Target神經(jīng)網(wǎng)絡輸出的下一時刻行為，并進行價值判斷。

DDPG算法中演員和評論家2部分的神經(jīng)網(wǎng)絡有著不同的功能和結(jié)構(gòu)，相應的訓練方式也不同，使用不同的損失函數(shù)進行訓練。對于評論家網(wǎng)絡而言，使用TD-error對Eval神經(jīng)網(wǎng)絡的參數(shù)進行訓練，訓練過程使用最小化損失函數(shù)Loss進行更新，即

TD-error=reward(st,at)+

(8)

Loss=(TD-error)2

(9)

對于演員網(wǎng)絡模塊中神經(jīng)網(wǎng)絡的訓練過程，通過最大化<狀態(tài)，行為>相對應的價值判斷來實現(xiàn)，因此使用對狀態(tài)和行為的評價均值作為損失函數(shù)，即

Loss=-mean(v(s,a;θcritic))

(10)

3.3 DDPG算法中探索與經(jīng)驗的平衡

在DDPG算法中，如果只是依據(jù)算法輸出的行為選擇策略來決定無人機的當前行為，容易導致算法對任務環(huán)境探索的不充分，因此需要對DDPG算法策略增加一定的探索性[17]。根據(jù)DDPG算法的特點，增強算法探索性的實現(xiàn)方法是在無人機行為選取過程中增加一定的隨機噪聲[18-19]，即

action=action′+Noise

(11)

式中：action為無人機當前時刻選擇的行為；action′為DDPG算法中演員網(wǎng)絡模塊輸出的無人機行為；Noise為隨機噪聲。

由于DDPG算法輸出的是無人機在2個方向上加速度的連續(xù)控制量，因此采用上述方法增強DDPG算法的探索性具備良好的可行性，設定隨機噪聲服從正態(tài)分布：

Noise～N(μ,σ2)

(12)

噪聲的期望值μ=0、方差σ與迭代輪次相關，隨著網(wǎng)絡訓練迭代次數(shù)的增加σ將逐漸減小，為了保證無人機集群具備足夠的探索能力，確保在無人機探索初期其行為選擇能夠選取到行為空間中的任意值，對隨機噪聲方差初始值的設計為

σ0=(actionmax-actionmin)/4

(13)

σ=Kepisodeσ0

(14)

式中：K=0.999 5；episode為算法訓練代數(shù)。

3.4 DDPG算法的網(wǎng)絡結(jié)構(gòu)

由前述分析可知，DDPG算法由一對結(jié)構(gòu)完全相同的神經(jīng)網(wǎng)絡，即“演員”部分人工神經(jīng)網(wǎng)絡(Actor網(wǎng)絡)和“評論家”部分人工神經(jīng)網(wǎng)絡(Critic網(wǎng)絡)構(gòu)成[19-20]，所構(gòu)建網(wǎng)絡的Tensorboard輸出如圖8所示。

圖8 DDPG算法網(wǎng)絡結(jié)構(gòu)(Tensorboard)Fig.8 Network structure of DDPG algorithm (Tensorboard)

3.4.1 “演員”網(wǎng)絡模塊的人工神經(jīng)網(wǎng)絡結(jié)構(gòu)

“演員”網(wǎng)絡模塊的人工神經(jīng)網(wǎng)絡用來輸出無人機的行為，在無人機集群追擊任務環(huán)境中，無人機集群的狀態(tài)空間為自身位置(xi,yi)、速度(vx_i,vy_i)、探測得到的目標位置(xg,yg)、速度(vx_g,vy_g)以及通過信息交互得到的其他無人機的相關信息(xij,yij)、(vx_ij,vy_ij)和其他無人機的探測信息(xij_get,yij_get)、(vx_ij_get,vy_ij_get)，共32個維度作為無人機的狀態(tài)空間，如圖9所示。

對“演員”網(wǎng)絡模塊中的Target和Eval人工神經(jīng)網(wǎng)絡，構(gòu)建了2個結(jié)構(gòu)完全相同的6層全連接人工神經(jīng)網(wǎng)絡，每層網(wǎng)絡的人工神經(jīng)元個數(shù)分別為[100,100,300,100,100,2]，最后一層神經(jīng)網(wǎng)絡為二維度的輸出層，對應無人機的切向加速度a∥與法向加速度a⊥。輸出神經(jīng)元使用tanh(x)作為激活函數(shù)，實現(xiàn)網(wǎng)絡輸出與無人機行為的映射，其他各層的神經(jīng)元使用relu(x)作為激活函數(shù)。并且使用RMSProp(Root Mean Square Prop)算法作為訓練的優(yōu)化器?！把輪T”網(wǎng)絡模塊中人工神經(jīng)網(wǎng)絡的結(jié)構(gòu)如圖10所示。圖中“演員”

圖10 “演員”網(wǎng)絡模塊中人工神經(jīng)網(wǎng)絡結(jié)構(gòu)Fig.10 Network structure in “Actor” network module

網(wǎng)絡模塊中，w1，w2，…，w6和b1，b2，…，b6代表了6層網(wǎng)絡中的權重值和偏置值。

3.4.2 “評論家”網(wǎng)絡模塊的人工神經(jīng)網(wǎng)絡結(jié)構(gòu)

“評論家”網(wǎng)絡模塊的人工神經(jīng)網(wǎng)絡通過對“狀態(tài)-行為”的價值評估，指導“演員”網(wǎng)絡模塊中神經(jīng)網(wǎng)絡的訓練過程[21-23]。因此，評論家網(wǎng)絡模塊中神經(jīng)網(wǎng)絡的輸入狀態(tài)為無人機集群的狀態(tài)信息與行為信息，網(wǎng)絡的狀態(tài)空間構(gòu)成如圖11所示。

圖11 “評論家”網(wǎng)絡模塊的狀態(tài)空間構(gòu)成Fig.11 State space of “Critic” network module

對“評論家”網(wǎng)絡模塊中的Target和Eval人工神經(jīng)網(wǎng)絡，構(gòu)建了2個結(jié)構(gòu)完全相同的5層全連接人工神經(jīng)網(wǎng)絡，每層網(wǎng)絡的人工神經(jīng)元個數(shù)分別為[100,300,100,10,1]。輸出層的神經(jīng)元使用tanh (x)作為激活函數(shù)，隱藏層的神經(jīng)元使用relu(x)作為激活函數(shù)，并且使用RMSProp(Root Mean Square Prop)算法作為訓練的優(yōu)化器。神經(jīng)網(wǎng)絡的結(jié)構(gòu)如圖12所示。

圖12 “評論家”網(wǎng)絡模塊中的人工神經(jīng)網(wǎng)絡結(jié)構(gòu)Fig.12 Network structure in “Critic” network module

在“演員”網(wǎng)絡模塊和“評論家”網(wǎng)絡模塊中同時存在Target和Eval人工神經(jīng)網(wǎng)絡，其中Eval神經(jīng)網(wǎng)絡用于訓練過程，而Target神經(jīng)網(wǎng)絡則周期性的跟隨訓練網(wǎng)絡相應參數(shù)的變化而更新。對于Target神經(jīng)網(wǎng)絡的參數(shù)更新使用基于滑動平均值的軟更新策略，即

θTarget=kθTarget+(1-k)θEval

(15)

式中：θTarget為Target神經(jīng)網(wǎng)絡參數(shù)；θEval為Eval神經(jīng)網(wǎng)絡參數(shù)；k為滑動因子，經(jīng)驗取值為0.2。

3.5 DDPG算法的稀疏回報問題

對于連續(xù)的狀態(tài)空間和行為空間，無人機進行隨機初始化之后要經(jīng)歷一段很長時間與環(huán)境的交互過程才能達到最終狀態(tài)。此時，僅在無人機集群到達最終狀態(tài)之后給予相應回報的方式，有著回報周期過長的缺陷，容易導致強化學習過程無法進行有效學習，即存在著稀疏回報問題。

為了解決稀疏回報問題，對無人機集群的學習目標進行了相應的修改，增加有效回報，從而加快學習速度，構(gòu)建不同情形下無人機的回報函數(shù)來指導深度強化學習的學習方向，即

(16)

對于式(16)中的無人機集群回報函數(shù)，由無人機與目標之間的距離變化情況、無人機的速度方向以及無人機的速度大小共同表示。當無人機與目標之間的距離變小時對應的回報函數(shù)為正值；由無人機的速度大小與速度方向相結(jié)合構(gòu)成了回報函數(shù)，在相同速度大小的情況下，速度矢量的方向越指向目標，無人機的回報就越高；同理，在無人機速度方向指向目標的情況下，無人機的速度越大回報越高；對于無人機速度方向遠離目標的情況下，無人機的速度越大，其負向回報越高。

由于無人機集群從初始狀態(tài)出發(fā)，需要運行較長時間才能到達目標狀態(tài)，如果在長時間的中間狀態(tài)下無法得到環(huán)境的有效回報，容易導致算法訓練過程中的梯度消失，從而導致訓練過程無法收斂。無人機集群采用上述引導型回報函數(shù)時，訓練過程中會根據(jù)無人機的任一狀態(tài)產(chǎn)生一個與當前<狀態(tài)，行為>相對應的價值回報，從而引導無人機集群逐漸向目標狀態(tài)轉(zhuǎn)移。因此，式(16) 能較準確地反應無人機的行為收益，算法的訓練結(jié)果表明，通過采用引導型回報函數(shù)能夠較好地解決深度強化學習中的稀疏回報問題。

3.6 DDPG算法程序流程

使用DDPG算法對無人機集群的追擊任務進行訓練，程序?qū)崿F(xiàn)流程如圖13所示。

圖13 DDPG算法的程序流程圖Fig.13 Algorithm flow chart of DDPG algorithm

4 仿真實驗

設定仿真場景中只存在一個勻速前進的目標，當集群中的任意一架無人機追擊到目標之后，視為無人機集群完成了對目標的追擊任務，即到達了任務的最終狀態(tài)。

4.1 訓練過程

仿真中使用5架完全相同的無人機構(gòu)成集群進行訓練。為了便于觀察算法的訓練狀態(tài)，防止訓練過程中出現(xiàn)梯度消失等現(xiàn)象，對人工神經(jīng)網(wǎng)絡的收斂性能進行了監(jiān)測，分別選取“演員”和“評論家”網(wǎng)絡模塊中的神經(jīng)網(wǎng)絡參數(shù)進行統(tǒng)計觀察，得到相關統(tǒng)計信息如圖14～圖17所示。

圖14 “演員”網(wǎng)絡模型Eval網(wǎng)絡參數(shù)均值變化曲線Fig.14 Curve of average change in Eval network parameters in “Actor” network module

圖15 “演員”網(wǎng)絡模塊Target網(wǎng)絡參數(shù)方差變化曲線Fig.15 Curve of variance in Target network parameters in “Actor” network module

圖16 “評論家”網(wǎng)絡模塊Eval網(wǎng)絡參數(shù)均值變化曲線Fig.16 Curve of average change in Eval network parameters in “Critic” network module

圖17 “評論家”網(wǎng)絡模塊Target網(wǎng)絡參數(shù)方差變化曲線Fig.17 Curve of variance in Target network parameters in “Critic” network module

圖14～圖17數(shù)據(jù)曲線圖分別是對“演員”和“評論家”網(wǎng)絡模塊中的神經(jīng)網(wǎng)絡參數(shù)取均值和方差進行統(tǒng)計的結(jié)果，圖中實線為網(wǎng)絡參數(shù)統(tǒng)計的真實值，虛線則是對統(tǒng)計數(shù)據(jù)進行周期為3的滑動平均處理的結(jié)果，用來表明參數(shù)統(tǒng)計的變化趨勢。由上述參數(shù)統(tǒng)計曲線圖可以看出人工神經(jīng)網(wǎng)絡在訓練過程中很好地實現(xiàn)了收斂。

圖18截取自TensorBoard的“評論家”網(wǎng)絡模塊中的神經(jīng)網(wǎng)絡參數(shù)分布變化直方圖，由遠及近(顏色由深變淺)表現(xiàn)了神經(jīng)網(wǎng)絡在不同訓練階段各個神經(jīng)元參數(shù)分布的變化情況，橫向表示神經(jīng)元各個參數(shù)取值，從神經(jīng)網(wǎng)絡的參數(shù)統(tǒng)計變化曲線圖與參數(shù)分布變化直方圖可以看出，人工神經(jīng)網(wǎng)絡的參數(shù)分布情況在訓練過程中逐漸收斂到穩(wěn)定的分布狀態(tài)。

圖18 “評論家”網(wǎng)絡模塊Eval網(wǎng)絡參數(shù)分布變化曲線Fig.18 Eval network parameter distribution curves in “Critic” network module

無人機集群在不同訓練輪次下的平均回報值變化趨勢如圖19所示。

由圖19可見，在算法的訓練過程中，無人機集群的行為收益值保持比較平穩(wěn)的狀態(tài)緩慢增加，說明無人機集群行為隨著訓練過程的不斷進行有著越來越好的表現(xiàn)。

圖19 無人機集群在不同訓練輪次下的平均回報值Fig.19 Mean value of rewards under different training epochs for UAV swarm

隨著算法訓練回合的增加，無人機集群在環(huán)境中的回合總回報變化趨勢如圖20所示。

圖20 無人機集群在不同迭代輪次下的回合總回報Fig.20 Total rewards under different training epochs for UAV swarm

無人機集群在不同訓練輪次下的任務完成率如圖21所示。

從圖21可以看出，完成訓練后無人機集群執(zhí)行對敵來襲目標追擊任務的成功率可以達到95%左右。

圖21 無人機集群在不同迭代輪次下的任務成功率Fig.21 Task completion rate under different training epochs for UAV swarm

4.2 驗證過程

使用5架相同無人機構(gòu)成集群完成所創(chuàng)建神經(jīng)網(wǎng)絡的訓練后，對訓練完成的模型進行了測試驗證。使用訓練完成的無人機集群執(zhí)行對目標的追擊任務，生成5架無人機集群及目標的初始狀態(tài)，得到無人機集群追擊任務的軌跡圖如圖22所示。

如圖22所示，使用訓練完成的神經(jīng)網(wǎng)絡模型很好地實現(xiàn)了5架無人機構(gòu)成集群執(zhí)行對目標的追擊任務。為了驗證模型對于動態(tài)數(shù)量無人機集群的適用性，分別使用10架和20架無人機構(gòu)成集群，對無人機集群的追擊任務進行驗證，得到無人機集群軌跡圖如圖23和圖24所示。

圖23 10架無人機執(zhí)行追擊任務的軌跡Fig.23 Trajectory of 10 UAVs on pursuit mission

圖24 20架無人機執(zhí)行追擊任務的軌跡Fig.24 Trajectories of 20 UAVs on pursuit mission

由圖22～圖24可以看出，基于5架無人機訓練得到的模型能很好地應用于10和20架無人機用來執(zhí)行對敵來襲目標的追擊任務中，可以看出，DDPG算法對無人機集群的行為決策有著良好的適應能力和泛化能力。

為了進一步驗證本文基于改進DDPG算法無人機集群模型的泛化能力和適應能力，對具有不同程度的逃逸策略的機動目標使用訓練完成的集群模型進行了實驗驗證，得到無人機集群軌跡圖如圖25所示。由圖25仿真結(jié)果可以看出，對于具有簡單逃逸策略的來襲目標，無人機集群很好地完成了預定的追擊任務。

圖25 簡單逃逸策略下對20架無人機的追擊任務軌跡Fig.25 Trajectories of 20 UAVs on pursuit mission with simple escape strategy target

在圖26的追擊任務場景中，當目標采用大機動逃逸運動策略時，由于來襲目標快速逃逸出了設定的任務邊界導致目標逃逸成功，但是訓練完成后的無人機集群仍然很好地完成了對預定目標的追擊任務。

圖26 大機動逃逸策略下對20架無人機的追擊任務軌跡Fig.26 Trajectories of 20 UAVs on pursuit mission with big maneuver escape strategy target

仿真實驗表明，深度強化學習能夠很好地滿足了無人機集群對于無中心化、自主化和自治化的要求。將人工智能算法應用在無人機集群的任務決策中具有很好的發(fā)展前景。

5 結(jié) 論

本文基于深度強化學習中的DDPG算法對無人機集群追擊任務進行了研究，為了平衡DDPG算法“探索-經(jīng)驗”的矛盾，在訓練過程中對無人機行為加入了自適應的噪聲單元，以增強算法的探索能力。為了提升算法性能，引入基于滑動平均值的軟更新策略減少了DDPG算法中Eval神經(jīng)網(wǎng)絡和Target神經(jīng)網(wǎng)絡在訓練過程中的參數(shù)震蕩，提高了算法的收斂速度。為解決深度強化學習中的“稀疏回報”問題，設計了指導型回報函數(shù)，避免了無人機集群在長周期訓練條件下無法有效學習的問題，提升了算法的收斂性。

訓練完成后的無人機集群能夠很好地執(zhí)行追擊任務。同時驗證了在不改變網(wǎng)絡模型和狀態(tài)空間結(jié)構(gòu)的前提下，訓練完成的模型能直接應用于更多無人機構(gòu)成的集群追擊任務中和具有不同程度逃逸策略的機動目標追擊任務中。仿真結(jié)果表明使用DDPG算法針對無人機集群的追擊任務可以求解出良好的行為策略，體現(xiàn)了基于人工神經(jīng)網(wǎng)絡的強化學習算法在提升無人機集群指揮決策模型的泛化能力上的巨大應用潛力。