改進(jìn)DDPG無人機(jī)航跡規(guī)劃算法

2022-04-21 05:24:12高敬鵬胡欣瑜江志燁

計(jì)算機(jī)工程與應(yīng)用 2022年8期

高敬鵬，胡欣瑜，江志燁

1.電子信息系統(tǒng)復(fù)雜電磁環(huán)境效應(yīng)國(guó)家重點(diǎn)實(shí)驗(yàn)室，河南洛陽 471003

2.哈爾濱工程大學(xué) 信息與通信工程學(xué)院，哈爾濱 150001

3.北京航天長(zhǎng)征飛行器研究所試驗(yàn)物理與計(jì)算數(shù)學(xué)國(guó)家級(jí)重點(diǎn)實(shí)驗(yàn)室，北京 100076

航跡規(guī)劃是無人機(jī)（unmanned aerial vehicle，UAV）完成電子對(duì)抗作戰(zhàn)任務(wù)的有效技術(shù)手段。面對(duì)地形及敵方雷達(dá)威脅，UAV飛行時(shí)亟需合理的規(guī)劃算法獲取航跡以規(guī)避危險(xiǎn)并完成任務(wù)。實(shí)際飛行過程存在未知?jiǎng)討B(tài)威脅，更要求UAV具備實(shí)時(shí)決策能力[1]，因此在未知威脅環(huán)境如何實(shí)時(shí)規(guī)劃UAV航跡是亟待解決的難題。

群智能算法是當(dāng)前規(guī)劃航跡的主要手段，結(jié)合約束條件，設(shè)計(jì)目標(biāo)函數(shù)，利用迭代技術(shù)解算最優(yōu)航跡。文獻(xiàn)[2]提出一種自適應(yīng)遺傳算法實(shí)現(xiàn)UAV低空三維航跡規(guī)劃，可以有效適用于靜態(tài)地形威脅環(huán)境，然而其忽略了未知威脅對(duì)實(shí)際飛行過程的影響。文獻(xiàn)[3]提出一種基于改進(jìn)蟻群的UAV三維航跡重規(guī)劃算法，相較其他算法，減少了規(guī)劃時(shí)間，然而隨著威脅數(shù)目增多，算法迭代計(jì)算復(fù)雜度升高，處理速度下降，難以滿足無人機(jī)飛行航跡實(shí)時(shí)控制的需求。另外，若以離散航點(diǎn)兩兩連接形成的直線段為航跡，無人機(jī)在航點(diǎn)切換處飛行，不符合自身飛行動(dòng)力學(xué)原理，將導(dǎo)致飛行誤差，故在航跡規(guī)劃的基礎(chǔ)上，利用航跡優(yōu)化技術(shù)將離散航點(diǎn)優(yōu)化為一條滿足無人機(jī)運(yùn)動(dòng)約束的飛行航跡[4]。文獻(xiàn)[5]利用改進(jìn)A*算法完成離散航跡點(diǎn)的規(guī)劃，并通過插值平均處理優(yōu)化航跡，卻也增大了解算航跡的時(shí)間成本。文獻(xiàn)[6]提出一種改進(jìn)RRT航跡規(guī)劃算法，在得到航跡節(jié)點(diǎn)的基礎(chǔ)上，采用B樣條曲線平滑方法生成曲率連續(xù)的航跡，也造成整體耗時(shí)增多。雖然傳統(tǒng)以及基于群智能優(yōu)化的航跡規(guī)劃算法均能夠獲得最優(yōu)航跡，但依賴于航跡優(yōu)化技術(shù)配合且解算目標(biāo)函數(shù)速度慢加大了實(shí)時(shí)規(guī)劃難度。因此現(xiàn)階段選擇高效算法對(duì)于實(shí)現(xiàn)UAV航跡實(shí)時(shí)規(guī)劃尤為重要。

近年來，隨著機(jī)器學(xué)習(xí)的發(fā)展，深度強(qiáng)化學(xué)習(xí)因其出色的泛化性和適配性被成功應(yīng)用于規(guī)劃領(lǐng)域[7]。2013年，DeepMind團(tuán)隊(duì)[8]提出基于深度Q網(wǎng)絡(luò)（deep Q-network，DQN）的深度強(qiáng)化學(xué)習(xí)（deep reinforcement learning，DRL）方法，利用神經(jīng)網(wǎng)絡(luò)擬合Q值函數(shù)，能夠解決高維狀態(tài)空間的離散動(dòng)作決策問題。文獻(xiàn)[9]設(shè)計(jì)一種改進(jìn)DQN算法，在三維空間規(guī)劃移動(dòng)機(jī)器人路徑，控制智能體輸出離散動(dòng)作，但無人機(jī)實(shí)際飛行是需要連續(xù)精準(zhǔn)控制的，故其方法無法拓展至航跡規(guī)劃領(lǐng)域。2015年，Lillicrap等人[10]提出基于連續(xù)控制模型的深度確定性策略梯度（deep deterministic policy gradient，DDPG）算法，使智能體能在復(fù)雜環(huán)境根據(jù)自身狀態(tài)決策輸出連續(xù)動(dòng)作。文獻(xiàn)[11]利用DDPG算法決策無人機(jī)機(jī)動(dòng)著陸的連續(xù)動(dòng)作，這與航跡規(guī)劃中無人機(jī)連續(xù)飛行需求不謀而合，故DDPG算法可用于無人機(jī)航跡規(guī)劃。然而DDPG算法收斂性能受網(wǎng)絡(luò)權(quán)重參數(shù)影響較大[12]，適配網(wǎng)絡(luò)參數(shù)及優(yōu)化模型將導(dǎo)致訓(xùn)練耗時(shí)長(zhǎng)。文獻(xiàn)[13]提出混合噪聲優(yōu)化DDPG算法實(shí)現(xiàn)無人機(jī)對(duì)機(jī)動(dòng)目標(biāo)的連續(xù)跟蹤，DDPG算法收斂性能得以提升，但仍存在訓(xùn)練耗時(shí)長(zhǎng)的弊端。因此實(shí)際應(yīng)用中如何降低網(wǎng)絡(luò)訓(xùn)練時(shí)間成本成為DDPG算法仍待解決的問題。

為解決在未知威脅環(huán)境無人機(jī)難以實(shí)時(shí)規(guī)劃航跡且模型訓(xùn)練機(jī)制冗余的問題，本文提出一種改進(jìn)DDPG無人機(jī)航跡規(guī)劃算法。結(jié)合實(shí)際環(huán)境，搭建飛行場(chǎng)景模型，將DRL方法引入航跡規(guī)劃領(lǐng)域，根據(jù)任務(wù)和飛行需求，設(shè)計(jì)狀態(tài)空間、動(dòng)作空間和獎(jiǎng)勵(lì)函數(shù)，利用人工蜂群改進(jìn)DDPG算法，更新網(wǎng)絡(luò)模型參數(shù)，訓(xùn)練并應(yīng)用改進(jìn)DDPG網(wǎng)絡(luò)模型，實(shí)現(xiàn)無人機(jī)航跡實(shí)時(shí)規(guī)劃。

1 無人機(jī)航跡規(guī)劃系統(tǒng)模型

為完成無人機(jī)航跡實(shí)時(shí)控制，并提升DDPG算法訓(xùn)練效率，本文提出改進(jìn)DDPG無人機(jī)航跡規(guī)劃算法，其系統(tǒng)模型如圖1所示。首先，構(gòu)建環(huán)境空間，包括靜態(tài)地形以及雷達(dá)探測(cè)威脅。其次，設(shè)計(jì)航跡規(guī)劃問題的強(qiáng)化學(xué)習(xí)要素，根據(jù)無人機(jī)運(yùn)動(dòng)模型設(shè)計(jì)狀態(tài)空間，依據(jù)飛行動(dòng)力學(xué)理論設(shè)計(jì)動(dòng)作空間，結(jié)合非稀疏化思想，考慮無人機(jī)與環(huán)境的交互情況設(shè)計(jì)獎(jiǎng)勵(lì)函數(shù)。隨后，結(jié)合所設(shè)計(jì)的強(qiáng)化學(xué)習(xí)要素，構(gòu)成經(jīng)驗(yàn)數(shù)組，利用人工蜂群算法，優(yōu)化DDPG算法網(wǎng)絡(luò)參數(shù)更新機(jī)制，訓(xùn)練改進(jìn)DDPG無人機(jī)航跡規(guī)劃網(wǎng)絡(luò)模型。最后，應(yīng)用改進(jìn)DDPG算法，實(shí)現(xiàn)無人機(jī)從實(shí)時(shí)飛行狀態(tài)到實(shí)時(shí)飛行動(dòng)作的決策映射，形成航跡。

圖1 無人機(jī)航跡規(guī)劃系統(tǒng)模型Fig.1 Model of UAV track planning system

2 強(qiáng)化學(xué)習(xí)與航跡規(guī)劃

無人機(jī)與環(huán)境發(fā)生交互得到飛行動(dòng)作的航跡規(guī)劃過程可以視為序列決策過程，使用馬爾科夫決策過程可以對(duì)其建模，利用強(qiáng)化學(xué)習(xí)算法能夠?qū)ζ淝蠼狻?/p>

2.1 馬爾科夫決策過程模型

馬爾科夫決策過程中每個(gè)t時(shí)刻狀態(tài)的變化都只與t-1時(shí)刻狀態(tài)和動(dòng)作有關(guān)，與t-1時(shí)刻之前的狀態(tài)和動(dòng)作無關(guān)，其定義為一個(gè)四元組集合：

式中，S表示智能體在環(huán)境中的所有狀態(tài)集合，A表示智能體在對(duì)應(yīng)狀態(tài)下可執(zhí)行的動(dòng)作集合，P表示智能體的狀態(tài)轉(zhuǎn)移概率矩陣，R表示智能體得到的獎(jiǎng)勵(lì)回報(bào)集合，r t(st,at,st+1)∈R表示智能體通過動(dòng)作at，從狀態(tài)st轉(zhuǎn)移至狀態(tài)st+1獲得獎(jiǎng)勵(lì)回報(bào)值。

2.2 無人機(jī)飛行環(huán)境設(shè)計(jì)

為更好地模擬無人機(jī)實(shí)際飛行，本節(jié)設(shè)定規(guī)劃空間，搭建空間中靜態(tài)地形和雷達(dá)威脅模型，將其作為無人機(jī)執(zhí)行任務(wù)應(yīng)考慮的威脅因素，為無人機(jī)飛行構(gòu)建環(huán)境基礎(chǔ)。

2.2.1規(guī)劃空間

在規(guī)劃空間中，無人機(jī)以原點(diǎn)為起點(diǎn)，依據(jù)實(shí)時(shí)規(guī)劃的航跡，避開地形威脅和雷達(dá)探測(cè)威脅，到達(dá)任務(wù)目的地。設(shè)定無人機(jī)在三維飛行空間的位置坐標(biāo)(x,y,z),x和y分別表示無人機(jī)在經(jīng)緯方向的坐標(biāo)點(diǎn)，z表示其在空間的海拔高度，則無人機(jī)的三維規(guī)劃空間數(shù)學(xué)模型C可表示為：

式中，x m和ym分別為無人機(jī)在經(jīng)緯方向最大飛行范圍，zmin和zmax分別為其在空間中最小和最大飛行高度。

2.2.2地形和雷達(dá)威脅

考慮到無人機(jī)實(shí)際飛行環(huán)境存在地形威脅和未知位置雷達(dá)探測(cè)威脅，所以需要模擬靜態(tài)地形以及不同位置的雷達(dá)威脅數(shù)學(xué)模型。靜態(tài)地形模型可表示為：

式中，H(x,y)為地形起伏高度，x和y表示地面水平方向的點(diǎn)坐標(biāo)，υ、κ、χ、δ是模型的常系數(shù)，通過改變這些系數(shù)數(shù)值大小即能模擬起伏地貌的實(shí)際地形。

威脅輻射源的探測(cè)范圍決定了其對(duì)無人機(jī)的威脅程度，常用的方法通過計(jì)算威脅高度數(shù)據(jù)，將其等效為地形模型[14]。雷達(dá)對(duì)不同距離的目標(biāo)有不同的探測(cè)能力，因而在建立雷達(dá)威脅模型時(shí)，應(yīng)將雷達(dá)與目標(biāo)間距離D和檢測(cè)概率Pd納入考慮范圍?；诖?，本文結(jié)合雷達(dá)原理，依據(jù)文獻(xiàn)[15]推導(dǎo)目標(biāo)和雷達(dá)間任意距離與檢測(cè)概率的關(guān)系Pd(D)為：

式中，Dmax表示雷達(dá)最大探測(cè)距離，Pf表示虛警概率。

利用上述將威脅源等效為地形模型的方法，把雷達(dá)威脅范圍處理為地形高程數(shù)據(jù)后數(shù)學(xué)表達(dá)式為：

式中，Hradar(x,y)為整合后的雷達(dá)威脅高程，K r表示與雷達(dá)相關(guān)的性能系數(shù)，Dmax為雷達(dá)的最大作用半徑，(x0,y0)為雷達(dá)中心坐標(biāo)。最后，將靜態(tài)地形和雷達(dá)威脅模型疊加后得：

式中，H′(x,y)表示整體高程數(shù)據(jù)。

2.3 航跡規(guī)劃問題的強(qiáng)化學(xué)習(xí)要素設(shè)計(jì)

無人機(jī)航跡規(guī)劃問題的強(qiáng)化學(xué)習(xí)基本要素主要體現(xiàn)為其在飛行空間的狀態(tài)，由一個(gè)狀態(tài)轉(zhuǎn)換到下一狀態(tài)對(duì)應(yīng)的動(dòng)作以及執(zhí)行動(dòng)作后與環(huán)境交互所得獎(jiǎng)勵(lì)。

2.3.1狀態(tài)空間

無人機(jī)在飛行時(shí)，應(yīng)具有實(shí)時(shí)感知環(huán)境信息并決策航跡的能力，從而避開地形和未知雷達(dá)威脅?？紤]到以上需求，利用無人機(jī)能夠根據(jù)傳感器和情報(bào)等途徑獲取飛行信息的特點(diǎn)，本文設(shè)計(jì)無人機(jī)當(dāng)前位置、相對(duì)威脅距離和飛行速度方向三方面信息為狀態(tài)，將其在任意時(shí)刻狀態(tài)信息聯(lián)合，用公式表示為：

式中，pu,t和pt,t分別為終點(diǎn)和無人機(jī)位置，vu,t為無人機(jī)速度，[x u,t,yu,t,zu,t]為t時(shí)刻無人機(jī)在飛行空間的坐標(biāo)位置，[dx t,dyt,dzt]為無人機(jī)和終點(diǎn)的相對(duì)距離，[vx,t,vy,t,vz,t]為無人機(jī)飛行時(shí)三個(gè)方向的分速度。

2.3.2動(dòng)作空間

從無人機(jī)飛行動(dòng)力學(xué)角度出發(fā)，為避開地形和雷達(dá)威脅并安全到達(dá)終點(diǎn)，其需要在飛行時(shí)改變速度方向。本文設(shè)定無人機(jī)按照恒定速率飛行，因而調(diào)整其飛行角度即可改變速度方向，并規(guī)定飛行角度精度，以期形成平滑的航跡，滿足飛行動(dòng)力學(xué)要求。所以將其在任意時(shí)刻的動(dòng)作信息聯(lián)合，用公式表示為：

式中，φt和?t分別表示無人機(jī)飛行的方向角和俯仰角。

2.3.3獎(jiǎng)勵(lì)函數(shù)

強(qiáng)化學(xué)習(xí)算法的收斂性依賴于合理的獎(jiǎng)勵(lì)設(shè)置，本文結(jié)合非稀疏思想設(shè)計(jì)獎(jiǎng)勵(lì)函數(shù)，使無人機(jī)執(zhí)行每一步到達(dá)終點(diǎn)的趨勢(shì)更加明顯。無人機(jī)在規(guī)劃空間內(nèi)飛行的首要目的是到達(dá)任務(wù)終點(diǎn)，其航程受到自身攜帶燃料限制，同時(shí)飛行過程要避免被雷達(dá)探測(cè)，因此本文獎(jiǎng)勵(lì)函數(shù)的設(shè)計(jì)主要考慮以下3個(gè)方面。

（1）到達(dá)正獎(jiǎng)勵(lì)rappr。無人機(jī)航跡規(guī)劃的首要任務(wù)是成功到達(dá)任務(wù)目的地，因而當(dāng)任務(wù)終點(diǎn)在無人機(jī)的探測(cè)范圍內(nèi)時(shí)，系統(tǒng)反饋正獎(jiǎng)勵(lì)以使到達(dá)趨勢(shì)更加明顯，具體表示為：

式中，N^(·)表示歸一化，‖‖·表示取模長(zhǎng)，ρmax為無人機(jī)最大探測(cè)距離。

（2）航程負(fù)獎(jiǎng)勵(lì)rpath。實(shí)際飛行時(shí)，無人機(jī)飛行航程受到燃料等能源限制，所以設(shè)置航程負(fù)獎(jiǎng)勵(lì)rpath，使無人機(jī)經(jīng)歷越短的航程便能到達(dá)終點(diǎn)，具體表示為：式中，d表示無人機(jī)已經(jīng)飛過的航程，Lmax表示無人機(jī)攜帶燃料對(duì)應(yīng)的最大飛行航程。

（3）威脅負(fù)獎(jiǎng)勵(lì)rthreat。依據(jù)前文建立的威脅模型，若無人機(jī)進(jìn)入雷達(dá)威脅區(qū)域則視為被敵方雷達(dá)發(fā)現(xiàn)，因此設(shè)置威脅負(fù)獎(jiǎng)勵(lì)rthreat，以降低無人機(jī)進(jìn)入雷達(dá)探測(cè)區(qū)域的概率，具體表示為：

式中，pr,t表示雷達(dá)位置坐標(biāo)，Dr,max表示雷達(dá)最大探測(cè)距離。

將任意時(shí)刻獎(jiǎng)勵(lì)綜合表示為：

綜上所述，本文結(jié)合無人機(jī)實(shí)際飛行需求，設(shè)計(jì)基于航跡規(guī)劃問題的強(qiáng)化學(xué)習(xí)基本要素，為構(gòu)建網(wǎng)絡(luò)訓(xùn)練經(jīng)驗(yàn)集奠定基礎(chǔ)。

2.4 DDPG與航跡規(guī)劃

在眾多強(qiáng)化學(xué)習(xí)算法中，DDPG算法因其能在連續(xù)動(dòng)作空間確定性選擇唯一動(dòng)作的優(yōu)點(diǎn)受到青睞。又由前文設(shè)計(jì)的強(qiáng)化學(xué)習(xí)基本要素可知，航跡規(guī)劃問題是基于高維狀態(tài)空間以及連續(xù)動(dòng)作決策的，因此采用DDPG算法可以很好地完成無人機(jī)航跡決策。

DDPG網(wǎng)絡(luò)中包含Actor策略網(wǎng)絡(luò)和Critic值函數(shù)網(wǎng)絡(luò)。Actor網(wǎng)絡(luò)用來擬合策略函數(shù)，進(jìn)而提取可執(zhí)行的動(dòng)作，其網(wǎng)絡(luò)權(quán)重參數(shù)為θ，輸入為狀態(tài)st，輸出為動(dòng)作at；Critic網(wǎng)絡(luò)通過內(nèi)部的值函數(shù)信息估計(jì)Actor策略網(wǎng)絡(luò)中對(duì)應(yīng)梯度更新的方向，其網(wǎng)絡(luò)權(quán)重參數(shù)為ω，輸入為狀態(tài)st和動(dòng)作at，輸出為評(píng)估值Q。

Actor網(wǎng)絡(luò)更新采用策略梯度下降法，具體表示為：

式中，m為經(jīng)驗(yàn)數(shù)據(jù)(s,a,r,s′)的采樣個(gè)數(shù)。Critic網(wǎng)絡(luò)采用均方誤差損失函數(shù)進(jìn)行參數(shù)更新：

式中，γ為獎(jiǎng)勵(lì)折扣因子。

另外，DDPG算法分別復(fù)制Actor策略網(wǎng)絡(luò)和Critic值函數(shù)網(wǎng)絡(luò)作為目標(biāo)網(wǎng)絡(luò)，使智能體對(duì)任務(wù)策略進(jìn)行穩(wěn)定學(xué)習(xí)，其網(wǎng)絡(luò)權(quán)重參數(shù)分別表示為θ′和ω′。結(jié)合軟迭代思想，緩慢更新目標(biāo)網(wǎng)絡(luò)，使智能體在訓(xùn)練時(shí)，學(xué)習(xí)過程穩(wěn)定性大幅度增強(qiáng)。Actor目標(biāo)網(wǎng)絡(luò)具體更新方式為：

式中，τ用來控制Actor目標(biāo)網(wǎng)絡(luò)權(quán)重θ′的更新速度。同樣，利用式（15）的方式更新Critic目標(biāo)網(wǎng)絡(luò)參數(shù)ω′。

此外，DDPG算法利用隨機(jī)噪聲，增加Actor策略網(wǎng)絡(luò)在連續(xù)動(dòng)作空間的探索能力，形成策略映射μ′：

式中，N為該噪聲隨機(jī)過程。

本文設(shè)計(jì)Actor策略網(wǎng)絡(luò)和Critic值函數(shù)網(wǎng)絡(luò)均由兩個(gè)全連接層FC構(gòu)成，網(wǎng)絡(luò)結(jié)構(gòu)簡(jiǎn)單且運(yùn)算方便，時(shí)間復(fù)雜度低。故結(jié)合Actor網(wǎng)絡(luò)輸入狀態(tài)，輸出動(dòng)作，Critic網(wǎng)絡(luò)輸入狀態(tài)和動(dòng)作，輸出Q值的特點(diǎn)，根據(jù)上文選定的9維狀態(tài)和2維動(dòng)作，設(shè)計(jì)DDPG網(wǎng)絡(luò)結(jié)構(gòu)如表1所示。表中ReLu和tanh為神經(jīng)網(wǎng)絡(luò)常用的兩種非線性激活函數(shù)。

表1 DDPG網(wǎng)絡(luò)結(jié)構(gòu)Table 1 Network structure of DDPG

依據(jù)DDPG網(wǎng)絡(luò)訓(xùn)練原理，采用表1設(shè)計(jì)的網(wǎng)絡(luò)結(jié)構(gòu)，根據(jù)式（13）至式（16），訓(xùn)練DDPG網(wǎng)絡(luò)。訓(xùn)練完成后，獲取從飛行狀態(tài)到飛行動(dòng)作端到端的決策映射，其Actor在線網(wǎng)絡(luò)策略映射公式如下：

式中，μθ(·)為已訓(xùn)練Actor在線網(wǎng)絡(luò)的策略映射關(guān)系，θ是其網(wǎng)絡(luò)權(quán)重參數(shù)，st為無人機(jī)實(shí)時(shí)飛行狀態(tài)，at即為由映射關(guān)系μθ(·)得到的實(shí)時(shí)飛行動(dòng)作。

在實(shí)際應(yīng)用中，無人機(jī)實(shí)時(shí)采集飛行狀態(tài)，遷移已訓(xùn)練Actor在線網(wǎng)絡(luò)，即可得到實(shí)時(shí)飛行動(dòng)作，實(shí)現(xiàn)航跡規(guī)劃。

3 基于改進(jìn)DDPG的無人機(jī)航跡規(guī)劃算法

DDPG網(wǎng)絡(luò)訓(xùn)練過程中，學(xué)習(xí)率的改變會(huì)直接影響網(wǎng)絡(luò)收斂性能，傳統(tǒng)方法通過調(diào)試學(xué)習(xí)率，直至網(wǎng)絡(luò)具有較好的收斂效果，但調(diào)整至合適的學(xué)習(xí)率將會(huì)耗費(fèi)大量時(shí)間成本。群智能算法通過不斷迭代更新求解適應(yīng)度函數(shù)最優(yōu)值的思想，與神經(jīng)網(wǎng)絡(luò)優(yōu)化權(quán)重參數(shù)的思想異曲同工，因此結(jié)合群智能算法尋優(yōu)DDPG網(wǎng)絡(luò)權(quán)重參數(shù)能夠避免學(xué)習(xí)率對(duì)網(wǎng)絡(luò)收斂性能的影響，最終解決網(wǎng)絡(luò)訓(xùn)練時(shí)間長(zhǎng)的問題。

3.1 改進(jìn)人工蜂群算法

人工蜂群（artificial bee colony，ABC）算法具備尋優(yōu)能力強(qiáng)以及收斂速度快等優(yōu)點(diǎn)，故本文采用ABC算法優(yōu)化DDPG網(wǎng)絡(luò)更新機(jī)制。但直接采用ABC算法需在一次完整DDPG網(wǎng)絡(luò)訓(xùn)練中，利用不同的蜂群尋優(yōu)策略和值函數(shù)兩類網(wǎng)絡(luò)的最佳更新方式，必然導(dǎo)致計(jì)算冗余。為彌補(bǔ)該缺陷，本文設(shè)計(jì)一種二維人工蜂群（two dimensional artificial bee colony，2D-ABC）算法，改進(jìn)初始解和位置更新公式，共享種群行為機(jī)制，減少計(jì)算復(fù)雜度，提升訓(xùn)練效率。

2D-ABC算法將蜂群分為二維開采蜂、二維隨從蜂和二維偵察蜂，二維蜜源每一維位置分別對(duì)應(yīng)兩個(gè)優(yōu)化問題可能解，每一維蜜源花粉量分別對(duì)應(yīng)兩個(gè)解的適應(yīng)度。二維蜂群采蜜的行為機(jī)制有以下三種，

（1）初始化種群。蜜蜂群體派出SN個(gè)二維開采蜂，開采蜂和隨從蜂各占蜂群總數(shù)的一半，蜜源數(shù)與開采蜂相同，依據(jù)式（18）隨機(jī)產(chǎn)生SN個(gè)二維初始解：

式中，φk為第k維中區(qū)間[0,1]的隨機(jī)數(shù)。

（3）隨從蜂采蜜。二維隨從蜂根據(jù)對(duì)應(yīng)維蜜源花蜜量的多少選擇每一維較優(yōu)的標(biāo)記蜜源，并在其附近按照式（20）探索第k維新蜜源，選擇概率表達(dá)式為：

本文提出2D-ABC算法流程如圖2所示，其改進(jìn)DDPG算法具體步驟描述如下：

圖2 2D-ABC算法流程圖Fig.2 Flow chart of 2D-ABC algorithm

步驟1初始化二維蜜源和二維蜂群。根據(jù)式（18），在M維空間隨機(jī)初始化SN個(gè)二維蜜源位置，第一維和第二維蜜源位置分別代表Actor在線網(wǎng)絡(luò)和Critic在線網(wǎng)絡(luò)權(quán)重參數(shù)。同時(shí)，設(shè)置開采蜂和隨從蜂數(shù)目均為2×SN，第一維和第二維蜂群的工作對(duì)象分別為第一維和第二維蜜源。

步驟2計(jì)算二維適應(yīng)度。將Critic在線網(wǎng)絡(luò)權(quán)重更新的均方誤差損失函數(shù)，即式（14）作為第一維適應(yīng)度函數(shù)，得到第一維蜜源評(píng)價(jià)值；將Actor在線網(wǎng)絡(luò)權(quán)重更新的策略梯度下降函數(shù)，即式（13）作為第二維適應(yīng)度函數(shù)，得到第二維蜜源評(píng)價(jià)值。

步驟3二維開采蜂開采蜜源。根據(jù)式（19），開采蜂分別在每一維蜜源位置附近開采，獲得新蜜源位置。

步驟4根據(jù)式（13）和式（14），再次分別計(jì)算每一維新位置蜜源評(píng)價(jià)值，并與原位置蜜源評(píng)價(jià)值相比較，進(jìn)行貪婪選擇，保留更優(yōu)的二維蜜源。

步驟5隨從蜂選擇蜜源。二維隨從蜂依據(jù)式（20）得到的概率，選擇每一維新蜜源。

步驟6再次執(zhí)行步驟4。

步驟7在Limit次蜜源位置更新后，若每一維有放棄的蜜源則利用觀察蜂替換開采蜂，并隨機(jī)選擇新蜜源，若無則從已保留的優(yōu)質(zhì)蜜源得到每一維最優(yōu)蜜源位置，即最優(yōu)的Actor網(wǎng)絡(luò)和Critic網(wǎng)絡(luò)權(quán)重參數(shù)。

3.2 改進(jìn)DDPG算法模型訓(xùn)練及應(yīng)用

本文融合2D-ABC算法尋優(yōu)與DDPG算法模型更新機(jī)制，將Actor在線網(wǎng)絡(luò)權(quán)重更新的策略梯度下降函數(shù)和Critic在線網(wǎng)絡(luò)權(quán)重更新的均方誤差損失函數(shù)作為適應(yīng)度函數(shù)，利用2D-ABC算法分別尋優(yōu)每一回合DDPG算法Actor和Critic在線網(wǎng)絡(luò)權(quán)重參數(shù)，完成改進(jìn)DDPG算法模型的訓(xùn)練，從而提升網(wǎng)絡(luò)訓(xùn)練效率，降低總體的訓(xùn)練時(shí)間成本。改進(jìn)DDPG算法模型訓(xùn)練及應(yīng)用結(jié)構(gòu)框圖如圖3所示，具體訓(xùn)練步驟如下：

圖3 改進(jìn)DDPG算法模型訓(xùn)練及應(yīng)用結(jié)構(gòu)框圖Fig.3 Training and application structure diagram of improved DDPG algorithm model

步驟1結(jié)合式（7）至式（12），設(shè)計(jì)航跡規(guī)劃問題的強(qiáng)化學(xué)習(xí)要素。

步驟2初始化狀態(tài)s，清空經(jīng)驗(yàn)回放池。

步驟3根據(jù)狀態(tài)s，Actor在線網(wǎng)絡(luò)得到對(duì)應(yīng)動(dòng)作a，智能體執(zhí)行動(dòng)作a，并得到新狀態(tài)s′以及與環(huán)境交互后的獎(jiǎng)勵(lì)r。

步驟4將經(jīng)驗(yàn)數(shù)組存入經(jīng)驗(yàn)回放池，并從經(jīng)驗(yàn)回放池中采樣m個(gè)經(jīng)驗(yàn)數(shù)組，送入Critic值函數(shù)網(wǎng)絡(luò)，計(jì)算得在線Q值Qω(s,a)和目標(biāo)Q值Qω′(s′,a′)。

步驟5根據(jù)式（13）和式（14），結(jié)合Critic值函數(shù)網(wǎng)絡(luò)的在線Q值和目標(biāo)Q值，利用2D-ABC算法求得最優(yōu)Actor網(wǎng)絡(luò)權(quán)重參數(shù)和最優(yōu)Critic網(wǎng)絡(luò)權(quán)重參數(shù)。

步驟6根據(jù)式（15），通過軟迭代更新Actor網(wǎng)絡(luò)以及Critic網(wǎng)絡(luò)權(quán)重參數(shù)。

步驟7判斷是否滿足DDPG網(wǎng)絡(luò)訓(xùn)練結(jié)束條件，結(jié)束訓(xùn)練。

最后，與改進(jìn)前方法相同，無人機(jī)實(shí)時(shí)采集飛行狀態(tài)，根據(jù)式（17），獲取該狀態(tài)下的決策映射，執(zhí)行飛行動(dòng)作，實(shí)現(xiàn)航跡規(guī)劃。

4 仿真與分析

對(duì)本文提出的改進(jìn)DDPG無人機(jī)航跡規(guī)劃算法進(jìn)行仿真分析，無人機(jī)飛行約束參數(shù)、相關(guān)威脅仿真參數(shù)和改進(jìn)DDPG算法參數(shù)分別如表2、表3和表4所示。本文設(shè)定無人機(jī)航跡規(guī)劃空間大小為15 km×15 km×7.5 km，且假設(shè)無人機(jī)飛行恒定速率，同時(shí)設(shè)置算法測(cè)試500次，另外忽略自然環(huán)境干擾因素影響。本文涉及仿真的實(shí)驗(yàn)設(shè)備及環(huán)境滿足：Intel?CoreTMi7-9700k CPU，32 GB雙通道內(nèi)存，Windows 10 64位操作系統(tǒng)，Python 3.5，TensorFlow 1.7.0。

表2 無人機(jī)飛行約束參數(shù)Table 2 Fight constraint parameters of UAV

表3 相關(guān)威脅仿真參數(shù)Table 3 Simulation parameters of related threat

表4 改進(jìn)DDPG算法參數(shù)Table 4 Parameters of improved DDPG

為驗(yàn)證改進(jìn)DDPG算法有效性和在未知環(huán)境的適應(yīng)性，本文選取網(wǎng)絡(luò)訓(xùn)練時(shí)長(zhǎng)、測(cè)試成功率和航跡偏差率為評(píng)估指標(biāo)，評(píng)估算法的訓(xùn)練和測(cè)試結(jié)果。其中，網(wǎng)絡(luò)訓(xùn)練時(shí)長(zhǎng)用于評(píng)估算法訓(xùn)練效率，測(cè)試成功率用于評(píng)估無人機(jī)滿足航程約束情況下依照航跡決策順利達(dá)到終點(diǎn)的能力，其計(jì)算公式為：

航跡偏差率TE用于評(píng)估無人機(jī)在成功到達(dá)終點(diǎn)前提下的航跡質(zhì)量，其計(jì)算公式為：

式中，F(xiàn)為測(cè)試次數(shù)，αi和βi分別為設(shè)定相同條件下用智能算法解算得第i條航跡長(zhǎng)度和改進(jìn)DDPG算法決策得第i條航跡長(zhǎng)度，航跡偏差率越低航跡質(zhì)量越高，本文設(shè)定航跡偏差率低于7.5%時(shí)航跡質(zhì)量達(dá)標(biāo)。

由于訓(xùn)練次數(shù)多，且算法隨機(jī)波動(dòng)較大，直接顯示所有訓(xùn)練回合獎(jiǎng)勵(lì)收斂曲線效果不佳，為更好展示算法訓(xùn)練效果，本文將每20個(gè)訓(xùn)練回合所得獎(jiǎng)勵(lì)和取平均并作歸一化處理，將10 000次迭代收斂曲線等效處理為500次迭代收斂曲線。圖4和表5分別給出了在網(wǎng)絡(luò)結(jié)構(gòu)設(shè)置如表1，超參數(shù)設(shè)置如表4，設(shè)定4組不同Actor網(wǎng)絡(luò)和Critic網(wǎng)絡(luò)學(xué)習(xí)率情況下，DDPG算法的獎(jiǎng)勵(lì)收斂曲線和訓(xùn)練時(shí)長(zhǎng)表。

圖4 四種不同學(xué)習(xí)率情況下DDPG算法的獎(jiǎng)勵(lì)收斂曲線Fig.4 Reward convergence curve of DDPG under four different learning rates

表5 四種不同學(xué)習(xí)率情況下DDPG網(wǎng)絡(luò)訓(xùn)練時(shí)長(zhǎng)Table 5 Network training duration under four different learning rates

由圖4可知，隨著學(xué)習(xí)率的增大，DDPG算法收斂速度明顯加快，當(dāng)Actor網(wǎng)絡(luò)和Critic網(wǎng)絡(luò)學(xué)習(xí)率分別為2×10－5和10－4時(shí)，歸一化獎(jiǎng)勵(lì)值在5 600次訓(xùn)練回合左右才趨于穩(wěn)定，而當(dāng)Actor網(wǎng)絡(luò)和Critic網(wǎng)絡(luò)學(xué)習(xí)率分別為4×10－5和4×10－4時(shí)，歸一化獎(jiǎng)勵(lì)值在3 800次訓(xùn)練回合左右即逐漸收斂。另外，不同學(xué)習(xí)率情況下，歸一化獎(jiǎng)勵(lì)最終收斂值也不同，當(dāng)Actor網(wǎng)絡(luò)和Critic網(wǎng)絡(luò)學(xué)習(xí)率分別為2×10－5和2×10－4時(shí)，歸一化獎(jiǎng)勵(lì)值在0.8上下波動(dòng)，而當(dāng)Actor網(wǎng)絡(luò)和Critic網(wǎng)絡(luò)學(xué)習(xí)率分別為4×10－5和4×10－4時(shí)，歸一化獎(jiǎng)勵(lì)值在0.6上下浮動(dòng)，且浮動(dòng)幅度較大。這是因?yàn)閷W(xué)習(xí)率是強(qiáng)化學(xué)習(xí)算法學(xué)習(xí)能力的數(shù)值體現(xiàn)，過高會(huì)導(dǎo)致算法早期樣本過擬合，過低會(huì)導(dǎo)致樣本利用率低使算法收斂慢，因此降低學(xué)習(xí)率對(duì)網(wǎng)絡(luò)性能的影響尤為重要。

由表5可知，僅調(diào)試4組學(xué)習(xí)率情況下網(wǎng)絡(luò)總訓(xùn)練時(shí)間累計(jì)140 h 34 min 44 s，訓(xùn)練耗時(shí)長(zhǎng)，而調(diào)整至合適的學(xué)習(xí)率需要大量的訓(xùn)練時(shí)間，本文提出改進(jìn)DDPG算法優(yōu)化網(wǎng)絡(luò)更新機(jī)制，提升算法訓(xùn)練效率。

圖5給出了網(wǎng)絡(luò)結(jié)構(gòu)和參數(shù)設(shè)置分別如表1和表4情況下改進(jìn)DDPG算法歸一化獎(jiǎng)勵(lì)收斂曲線。

圖5 改進(jìn)DDPG算法獎(jiǎng)勵(lì)收斂曲線Fig.5 Reward convergence curve of improved DDPG

由圖5可知，改進(jìn)DDPG算法歸一化獎(jiǎng)勵(lì)值在4 400次訓(xùn)練回合左右即趨于收斂，且穩(wěn)定在0.9左右。另外，記錄其經(jīng)歷10 000次訓(xùn)練回合耗費(fèi)時(shí)長(zhǎng)為69 h 40 min 34 s，對(duì)比表5結(jié)果可知，改進(jìn)DDPG算法整體訓(xùn)練時(shí)長(zhǎng)僅為原算法在表5所設(shè)4組學(xué)習(xí)率情況下平均訓(xùn)練時(shí)長(zhǎng)的1.98倍。這是因?yàn)樗崴惴總€(gè)訓(xùn)練回合內(nèi)利用ABC算法迭代更新尋優(yōu)網(wǎng)絡(luò)參數(shù)，導(dǎo)致網(wǎng)絡(luò)訓(xùn)練復(fù)雜度增加，引起單個(gè)訓(xùn)練回合耗時(shí)增長(zhǎng)的代價(jià)。得益于改進(jìn)DDPG算法網(wǎng)絡(luò)訓(xùn)練不依賴于學(xué)習(xí)率的優(yōu)勢(shì)，僅一次訓(xùn)練就能完成對(duì)模型權(quán)重參數(shù)的尋優(yōu)，因此總體上網(wǎng)絡(luò)訓(xùn)練時(shí)長(zhǎng)大幅度減少，所提算法具有一定的有效性。

圖6給出了在無人機(jī)仿真參數(shù)設(shè)置如表2，威脅模型仿真參數(shù)設(shè)置如表3的情況下，在兩種隨機(jī)位置多雷達(dá)環(huán)境中，無人機(jī)利用改進(jìn)DDPG算法航跡規(guī)劃測(cè)試效果圖。

圖6 改進(jìn)DDPG算法航跡規(guī)劃效果圖Fig.6 Track planning effect chart by using improved DDPG

由圖6可知，無人機(jī)能以連續(xù)平滑的航跡飛行，有效避開實(shí)際環(huán)境地形和不同位置未知雷達(dá)探測(cè)威脅，成功到達(dá)任務(wù)終點(diǎn)，驗(yàn)證了所提算法應(yīng)用的可行性。

盡管智能算法解算航跡速率慢導(dǎo)致測(cè)試成功率不盡如人意，但迭代計(jì)算的特點(diǎn)決定了其能在不限時(shí)間內(nèi)得到更優(yōu)航跡。本文以智能算法在測(cè)試回合內(nèi)解得航跡為參照，用航跡偏差率評(píng)估改進(jìn)DDPG算法每次測(cè)試形成航跡的質(zhì)量。蟻群算法具有啟發(fā)式概率搜索特點(diǎn)，易于找到全局最優(yōu)解，在規(guī)劃領(lǐng)域廣泛應(yīng)用，因此選擇蟻群算法作為對(duì)比算法。表6給出在相同飛行環(huán)境內(nèi)無人機(jī)利用改進(jìn)DDPG算法進(jìn)行航跡決策和用蟻群算法解算航跡的測(cè)試結(jié)果對(duì)比。其中蟻群算法種群數(shù)量為40，全局信息素濃度更新率為0.5，局部信息素濃度更新率為0.4，信息素濃度重要程度因子為1.5，啟發(fā)值重要程度因子為5。

表6 不同算法航跡規(guī)劃測(cè)試結(jié)果Table 6 Test results of different algorithms for track planning %

由表6可知，500次測(cè)試中，用蟻群算法解算航跡無人機(jī)測(cè)試成功率僅48.2%，而改進(jìn)DDPG算法成功率高達(dá)97.2%。這是由于大量的訓(xùn)練增強(qiáng)了改進(jìn)DDPG算法學(xué)習(xí)能力，能夠?qū)崟r(shí)決策無人機(jī)飛行航跡，獲得較高飛行成功率。同時(shí)，以蟻群算法獲得最優(yōu)航跡為參照，改進(jìn)DDPG算法所得航跡偏差率僅為3.78%，其原因是所提算法采取的航跡決策使無人機(jī)飛行航跡有效且平滑，形成的航跡滿足航跡質(zhì)量需求，進(jìn)一步驗(yàn)證了所提算法在工程應(yīng)用的可行性。

5 結(jié)語

本文提出一種改進(jìn)DDPG無人機(jī)航跡規(guī)劃算法，解決了用傳統(tǒng)算法解算航跡速度慢的問題，同時(shí)優(yōu)化了DDPG網(wǎng)絡(luò)權(quán)重參數(shù)更新過程。所提算法將深度強(qiáng)化學(xué)習(xí)應(yīng)用于航跡規(guī)劃領(lǐng)域，為無人機(jī)飛行提供連續(xù)確定性動(dòng)作決策，并設(shè)計(jì)2D-ABC算法，改進(jìn)DDPG算法模型更新機(jī)制。仿真結(jié)果表明，所提算法無需調(diào)整學(xué)習(xí)率的過程，提升了無人機(jī)在未知威脅環(huán)境飛行的實(shí)時(shí)反應(yīng)能力，降低了訓(xùn)練的時(shí)間成本，且在達(dá)到97.2%飛行成功率前提下，保證了航跡質(zhì)量。忽略自然干擾因素影響，所提算法相比典型智能算法，憑借連續(xù)飛行動(dòng)作輸出和實(shí)時(shí)航跡決策的優(yōu)勢(shì)，在無人機(jī)航跡規(guī)劃領(lǐng)域更具可行性。面對(duì)實(shí)際環(huán)境天氣、風(fēng)力和氣流等變化影響，可聯(lián)合卡爾曼濾波等技術(shù)完善飛行動(dòng)作，使得所提算法在自然環(huán)境應(yīng)用可行。下一步工作，本團(tuán)隊(duì)將研究所提算法的優(yōu)化技術(shù)，同時(shí)探討超參數(shù)對(duì)于深度強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)模型性能的影響。

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看