• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      改進(jìn)DDPG無人機(jī)航跡規(guī)劃算法

      2022-04-21 05:24:12高敬鵬胡欣瑜江志燁
      關(guān)鍵詞:蜜源航跡威脅

      高敬鵬,胡欣瑜,江志燁

      1.電子信息系統(tǒng)復(fù)雜電磁環(huán)境效應(yīng)國(guó)家重點(diǎn)實(shí)驗(yàn)室,河南 洛陽 471003

      2.哈爾濱工程大學(xué) 信息與通信工程學(xué)院,哈爾濱 150001

      3.北京航天長(zhǎng)征飛行器研究所 試驗(yàn)物理與計(jì)算數(shù)學(xué)國(guó)家級(jí)重點(diǎn)實(shí)驗(yàn)室,北京 100076

      航跡規(guī)劃是無人機(jī)(unmanned aerial vehicle,UAV)完成電子對(duì)抗作戰(zhàn)任務(wù)的有效技術(shù)手段。面對(duì)地形及敵方雷達(dá)威脅,UAV飛行時(shí)亟需合理的規(guī)劃算法獲取航跡以規(guī)避危險(xiǎn)并完成任務(wù)。實(shí)際飛行過程存在未知?jiǎng)討B(tài)威脅,更要求UAV具備實(shí)時(shí)決策能力[1],因此在未知威脅環(huán)境如何實(shí)時(shí)規(guī)劃UAV航跡是亟待解決的難題。

      群智能算法是當(dāng)前規(guī)劃航跡的主要手段,結(jié)合約束條件,設(shè)計(jì)目標(biāo)函數(shù),利用迭代技術(shù)解算最優(yōu)航跡。文獻(xiàn)[2]提出一種自適應(yīng)遺傳算法實(shí)現(xiàn)UAV低空三維航跡規(guī)劃,可以有效適用于靜態(tài)地形威脅環(huán)境,然而其忽略了未知威脅對(duì)實(shí)際飛行過程的影響。文獻(xiàn)[3]提出一種基于改進(jìn)蟻群的UAV三維航跡重規(guī)劃算法,相較其他算法,減少了規(guī)劃時(shí)間,然而隨著威脅數(shù)目增多,算法迭代計(jì)算復(fù)雜度升高,處理速度下降,難以滿足無人機(jī)飛行航跡實(shí)時(shí)控制的需求。另外,若以離散航點(diǎn)兩兩連接形成的直線段為航跡,無人機(jī)在航點(diǎn)切換處飛行,不符合自身飛行動(dòng)力學(xué)原理,將導(dǎo)致飛行誤差,故在航跡規(guī)劃的基礎(chǔ)上,利用航跡優(yōu)化技術(shù)將離散航點(diǎn)優(yōu)化為一條滿足無人機(jī)運(yùn)動(dòng)約束的飛行航跡[4]。文獻(xiàn)[5]利用改進(jìn)A*算法完成離散航跡點(diǎn)的規(guī)劃,并通過插值平均處理優(yōu)化航跡,卻也增大了解算航跡的時(shí)間成本。文獻(xiàn)[6]提出一種改進(jìn)RRT航跡規(guī)劃算法,在得到航跡節(jié)點(diǎn)的基礎(chǔ)上,采用B樣條曲線平滑方法生成曲率連續(xù)的航跡,也造成整體耗時(shí)增多。雖然傳統(tǒng)以及基于群智能優(yōu)化的航跡規(guī)劃算法均能夠獲得最優(yōu)航跡,但依賴于航跡優(yōu)化技術(shù)配合且解算目標(biāo)函數(shù)速度慢加大了實(shí)時(shí)規(guī)劃難度。因此現(xiàn)階段選擇高效算法對(duì)于實(shí)現(xiàn)UAV航跡實(shí)時(shí)規(guī)劃尤為重要。

      近年來,隨著機(jī)器學(xué)習(xí)的發(fā)展,深度強(qiáng)化學(xué)習(xí)因其出色的泛化性和適配性被成功應(yīng)用于規(guī)劃領(lǐng)域[7]。2013年,DeepMind團(tuán)隊(duì)[8]提出基于深度Q網(wǎng)絡(luò)(deep Q-network,DQN)的深度強(qiáng)化學(xué)習(xí)(deep reinforcement learning,DRL)方法,利用神經(jīng)網(wǎng)絡(luò)擬合Q值函數(shù),能夠解決高維狀態(tài)空間的離散動(dòng)作決策問題。文獻(xiàn)[9]設(shè)計(jì)一種改進(jìn)DQN算法,在三維空間規(guī)劃移動(dòng)機(jī)器人路徑,控制智能體輸出離散動(dòng)作,但無人機(jī)實(shí)際飛行是需要連續(xù)精準(zhǔn)控制的,故其方法無法拓展至航跡規(guī)劃領(lǐng)域。2015年,Lillicrap等人[10]提出基于連續(xù)控制模型的深度確定性策略梯度(deep deterministic policy gradient,DDPG)算法,使智能體能在復(fù)雜環(huán)境根據(jù)自身狀態(tài)決策輸出連續(xù)動(dòng)作。文獻(xiàn)[11]利用DDPG算法決策無人機(jī)機(jī)動(dòng)著陸的連續(xù)動(dòng)作,這與航跡規(guī)劃中無人機(jī)連續(xù)飛行需求不謀而合,故DDPG算法可用于無人機(jī)航跡規(guī)劃。然而DDPG算法收斂性能受網(wǎng)絡(luò)權(quán)重參數(shù)影響較大[12],適配網(wǎng)絡(luò)參數(shù)及優(yōu)化模型將導(dǎo)致訓(xùn)練耗時(shí)長(zhǎng)。文獻(xiàn)[13]提出混合噪聲優(yōu)化DDPG算法實(shí)現(xiàn)無人機(jī)對(duì)機(jī)動(dòng)目標(biāo)的連續(xù)跟蹤,DDPG算法收斂性能得以提升,但仍存在訓(xùn)練耗時(shí)長(zhǎng)的弊端。因此實(shí)際應(yīng)用中如何降低網(wǎng)絡(luò)訓(xùn)練時(shí)間成本成為DDPG算法仍待解決的問題。

      為解決在未知威脅環(huán)境無人機(jī)難以實(shí)時(shí)規(guī)劃航跡且模型訓(xùn)練機(jī)制冗余的問題,本文提出一種改進(jìn)DDPG無人機(jī)航跡規(guī)劃算法。結(jié)合實(shí)際環(huán)境,搭建飛行場(chǎng)景模型,將DRL方法引入航跡規(guī)劃領(lǐng)域,根據(jù)任務(wù)和飛行需求,設(shè)計(jì)狀態(tài)空間、動(dòng)作空間和獎(jiǎng)勵(lì)函數(shù),利用人工蜂群改進(jìn)DDPG算法,更新網(wǎng)絡(luò)模型參數(shù),訓(xùn)練并應(yīng)用改進(jìn)DDPG網(wǎng)絡(luò)模型,實(shí)現(xiàn)無人機(jī)航跡實(shí)時(shí)規(guī)劃。

      1 無人機(jī)航跡規(guī)劃系統(tǒng)模型

      為完成無人機(jī)航跡實(shí)時(shí)控制,并提升DDPG算法訓(xùn)練效率,本文提出改進(jìn)DDPG無人機(jī)航跡規(guī)劃算法,其系統(tǒng)模型如圖1所示。首先,構(gòu)建環(huán)境空間,包括靜態(tài)地形以及雷達(dá)探測(cè)威脅。其次,設(shè)計(jì)航跡規(guī)劃問題的強(qiáng)化學(xué)習(xí)要素,根據(jù)無人機(jī)運(yùn)動(dòng)模型設(shè)計(jì)狀態(tài)空間,依據(jù)飛行動(dòng)力學(xué)理論設(shè)計(jì)動(dòng)作空間,結(jié)合非稀疏化思想,考慮無人機(jī)與環(huán)境的交互情況設(shè)計(jì)獎(jiǎng)勵(lì)函數(shù)。隨后,結(jié)合所設(shè)計(jì)的強(qiáng)化學(xué)習(xí)要素,構(gòu)成經(jīng)驗(yàn)數(shù)組,利用人工蜂群算法,優(yōu)化DDPG算法網(wǎng)絡(luò)參數(shù)更新機(jī)制,訓(xùn)練改進(jìn)DDPG無人機(jī)航跡規(guī)劃網(wǎng)絡(luò)模型。最后,應(yīng)用改進(jìn)DDPG算法,實(shí)現(xiàn)無人機(jī)從實(shí)時(shí)飛行狀態(tài)到實(shí)時(shí)飛行動(dòng)作的決策映射,形成航跡。

      圖1 無人機(jī)航跡規(guī)劃系統(tǒng)模型Fig.1 Model of UAV track planning system

      2 強(qiáng)化學(xué)習(xí)與航跡規(guī)劃

      無人機(jī)與環(huán)境發(fā)生交互得到飛行動(dòng)作的航跡規(guī)劃過程可以視為序列決策過程,使用馬爾科夫決策過程可以對(duì)其建模,利用強(qiáng)化學(xué)習(xí)算法能夠?qū)ζ淝蠼狻?/p>

      2.1 馬爾科夫決策過程模型

      馬爾科夫決策過程中每個(gè)t時(shí)刻狀態(tài)的變化都只與t-1時(shí)刻狀態(tài)和動(dòng)作有關(guān),與t-1時(shí)刻之前的狀態(tài)和動(dòng)作無關(guān),其定義為一個(gè)四元組集合:

      式中,S表示智能體在環(huán)境中的所有狀態(tài)集合,A表示智能體在對(duì)應(yīng)狀態(tài)下可執(zhí)行的動(dòng)作集合,P表示智能體的狀態(tài)轉(zhuǎn)移概率矩陣,R表示智能體得到的獎(jiǎng)勵(lì)回報(bào)集合,r t(st,at,st+1)∈R表示智能體通過動(dòng)作at,從狀態(tài)st轉(zhuǎn)移至狀態(tài)st+1獲得獎(jiǎng)勵(lì)回報(bào)值。

      2.2 無人機(jī)飛行環(huán)境設(shè)計(jì)

      為更好地模擬無人機(jī)實(shí)際飛行,本節(jié)設(shè)定規(guī)劃空間,搭建空間中靜態(tài)地形和雷達(dá)威脅模型,將其作為無人機(jī)執(zhí)行任務(wù)應(yīng)考慮的威脅因素,為無人機(jī)飛行構(gòu)建環(huán)境基礎(chǔ)。

      2.2.1規(guī)劃空間

      在規(guī)劃空間中,無人機(jī)以原點(diǎn)為起點(diǎn),依據(jù)實(shí)時(shí)規(guī)劃的航跡,避開地形威脅和雷達(dá)探測(cè)威脅,到達(dá)任務(wù)目的地。設(shè)定無人機(jī)在三維飛行空間的位置坐標(biāo)(x,y,z),x和y分別表示無人機(jī)在經(jīng)緯方向的坐標(biāo)點(diǎn),z表示其在空間的海拔高度,則無人機(jī)的三維規(guī)劃空間數(shù)學(xué)模型C可表示為:

      式中,x m和ym分別為無人機(jī)在經(jīng)緯方向最大飛行范圍,zmin和zmax分別為其在空間中最小和最大飛行高度。

      2.2.2地形和雷達(dá)威脅

      考慮到無人機(jī)實(shí)際飛行環(huán)境存在地形威脅和未知位置雷達(dá)探測(cè)威脅,所以需要模擬靜態(tài)地形以及不同位置的雷達(dá)威脅數(shù)學(xué)模型。靜態(tài)地形模型可表示為:

      式中,H(x,y)為地形起伏高度,x和y表示地面水平方向的點(diǎn)坐標(biāo),υ、κ、χ、δ是模型的常系數(shù),通過改變這些系數(shù)數(shù)值大小即能模擬起伏地貌的實(shí)際地形。

      威脅輻射源的探測(cè)范圍決定了其對(duì)無人機(jī)的威脅程度,常用的方法通過計(jì)算威脅高度數(shù)據(jù),將其等效為地形模型[14]。雷達(dá)對(duì)不同距離的目標(biāo)有不同的探測(cè)能力,因而在建立雷達(dá)威脅模型時(shí),應(yīng)將雷達(dá)與目標(biāo)間距離D和檢測(cè)概率Pd納入考慮范圍?;诖?,本文結(jié)合雷達(dá)原理,依據(jù)文獻(xiàn)[15]推導(dǎo)目標(biāo)和雷達(dá)間任意距離與檢測(cè)概率的關(guān)系Pd(D)為:

      式中,Dmax表示雷達(dá)最大探測(cè)距離,Pf表示虛警概率。

      利用上述將威脅源等效為地形模型的方法,把雷達(dá)威脅范圍處理為地形高程數(shù)據(jù)后數(shù)學(xué)表達(dá)式為:

      式中,Hradar(x,y)為整合后的雷達(dá)威脅高程,K r表示與雷達(dá)相關(guān)的性能系數(shù),Dmax為雷達(dá)的最大作用半徑,(x0,y0)為雷達(dá)中心坐標(biāo)。最后,將靜態(tài)地形和雷達(dá)威脅模型疊加后得:

      式中,H′(x,y)表示整體高程數(shù)據(jù)。

      2.3 航跡規(guī)劃問題的強(qiáng)化學(xué)習(xí)要素設(shè)計(jì)

      無人機(jī)航跡規(guī)劃問題的強(qiáng)化學(xué)習(xí)基本要素主要體現(xiàn)為其在飛行空間的狀態(tài),由一個(gè)狀態(tài)轉(zhuǎn)換到下一狀態(tài)對(duì)應(yīng)的動(dòng)作以及執(zhí)行動(dòng)作后與環(huán)境交互所得獎(jiǎng)勵(lì)。

      2.3.1狀態(tài)空間

      無人機(jī)在飛行時(shí),應(yīng)具有實(shí)時(shí)感知環(huán)境信息并決策航跡的能力,從而避開地形和未知雷達(dá)威脅??紤]到以上需求,利用無人機(jī)能夠根據(jù)傳感器和情報(bào)等途徑獲取飛行信息的特點(diǎn),本文設(shè)計(jì)無人機(jī)當(dāng)前位置、相對(duì)威脅距離和飛行速度方向三方面信息為狀態(tài),將其在任意時(shí)刻狀態(tài)信息聯(lián)合,用公式表示為:

      式中,pu,t和pt,t分別為終點(diǎn)和無人機(jī)位置,vu,t為無人機(jī)速度,[x u,t,yu,t,zu,t]為t時(shí)刻無人機(jī)在飛行空間的坐標(biāo)位置,[dx t,dyt,dzt]為無人機(jī)和終點(diǎn)的相對(duì)距離,[vx,t,vy,t,vz,t]為無人機(jī)飛行時(shí)三個(gè)方向的分速度。

      2.3.2動(dòng)作空間

      從無人機(jī)飛行動(dòng)力學(xué)角度出發(fā),為避開地形和雷達(dá)威脅并安全到達(dá)終點(diǎn),其需要在飛行時(shí)改變速度方向。本文設(shè)定無人機(jī)按照恒定速率飛行,因而調(diào)整其飛行角度即可改變速度方向,并規(guī)定飛行角度精度,以期形成平滑的航跡,滿足飛行動(dòng)力學(xué)要求。所以將其在任意時(shí)刻的動(dòng)作信息聯(lián)合,用公式表示為:

      式中,φt和?t分別表示無人機(jī)飛行的方向角和俯仰角。

      2.3.3獎(jiǎng)勵(lì)函數(shù)

      強(qiáng)化學(xué)習(xí)算法的收斂性依賴于合理的獎(jiǎng)勵(lì)設(shè)置,本文結(jié)合非稀疏思想設(shè)計(jì)獎(jiǎng)勵(lì)函數(shù),使無人機(jī)執(zhí)行每一步到達(dá)終點(diǎn)的趨勢(shì)更加明顯。無人機(jī)在規(guī)劃空間內(nèi)飛行的首要目的是到達(dá)任務(wù)終點(diǎn),其航程受到自身攜帶燃料限制,同時(shí)飛行過程要避免被雷達(dá)探測(cè),因此本文獎(jiǎng)勵(lì)函數(shù)的設(shè)計(jì)主要考慮以下3個(gè)方面。

      (1)到達(dá)正獎(jiǎng)勵(lì)rappr。無人機(jī)航跡規(guī)劃的首要任務(wù)是成功到達(dá)任務(wù)目的地,因而當(dāng)任務(wù)終點(diǎn)在無人機(jī)的探測(cè)范圍內(nèi)時(shí),系統(tǒng)反饋正獎(jiǎng)勵(lì)以使到達(dá)趨勢(shì)更加明顯,具體表示為:

      式中,N^(·)表示歸一化,‖‖·表示取模長(zhǎng),ρmax為無人機(jī)最大探測(cè)距離。

      (2)航程負(fù)獎(jiǎng)勵(lì)rpath。實(shí)際飛行時(shí),無人機(jī)飛行航程受到燃料等能源限制,所以設(shè)置航程負(fù)獎(jiǎng)勵(lì)rpath,使無人機(jī)經(jīng)歷越短的航程便能到達(dá)終點(diǎn),具體表示為:式中,d表示無人機(jī)已經(jīng)飛過的航程,Lmax表示無人機(jī)攜帶燃料對(duì)應(yīng)的最大飛行航程。

      (3)威脅負(fù)獎(jiǎng)勵(lì)rthreat。依據(jù)前文建立的威脅模型,若無人機(jī)進(jìn)入雷達(dá)威脅區(qū)域則視為被敵方雷達(dá)發(fā)現(xiàn),因此設(shè)置威脅負(fù)獎(jiǎng)勵(lì)rthreat,以降低無人機(jī)進(jìn)入雷達(dá)探測(cè)區(qū)域的概率,具體表示為:

      式中,pr,t表示雷達(dá)位置坐標(biāo),Dr,max表示雷達(dá)最大探測(cè)距離。

      將任意時(shí)刻獎(jiǎng)勵(lì)綜合表示為:

      綜上所述,本文結(jié)合無人機(jī)實(shí)際飛行需求,設(shè)計(jì)基于航跡規(guī)劃問題的強(qiáng)化學(xué)習(xí)基本要素,為構(gòu)建網(wǎng)絡(luò)訓(xùn)練經(jīng)驗(yàn)集奠定基礎(chǔ)。

      2.4 DDPG與航跡規(guī)劃

      在眾多強(qiáng)化學(xué)習(xí)算法中,DDPG算法因其能在連續(xù)動(dòng)作空間確定性選擇唯一動(dòng)作的優(yōu)點(diǎn)受到青睞。又由前文設(shè)計(jì)的強(qiáng)化學(xué)習(xí)基本要素可知,航跡規(guī)劃問題是基于高維狀態(tài)空間以及連續(xù)動(dòng)作決策的,因此采用DDPG算法可以很好地完成無人機(jī)航跡決策。

      DDPG網(wǎng)絡(luò)中包含Actor策略網(wǎng)絡(luò)和Critic值函數(shù)網(wǎng)絡(luò)。Actor網(wǎng)絡(luò)用來擬合策略函數(shù),進(jìn)而提取可執(zhí)行的動(dòng)作,其網(wǎng)絡(luò)權(quán)重參數(shù)為θ,輸入為狀態(tài)st,輸出為動(dòng)作at;Critic網(wǎng)絡(luò)通過內(nèi)部的值函數(shù)信息估計(jì)Actor策略網(wǎng)絡(luò)中對(duì)應(yīng)梯度更新的方向,其網(wǎng)絡(luò)權(quán)重參數(shù)為ω,輸入為狀態(tài)st和動(dòng)作at,輸出為評(píng)估值Q。

      Actor網(wǎng)絡(luò)更新采用策略梯度下降法,具體表示為:

      式中,m為經(jīng)驗(yàn)數(shù)據(jù)(s,a,r,s′)的采樣個(gè)數(shù)。Critic網(wǎng)絡(luò)采用均方誤差損失函數(shù)進(jìn)行參數(shù)更新:

      式中,γ為獎(jiǎng)勵(lì)折扣因子。

      另外,DDPG算法分別復(fù)制Actor策略網(wǎng)絡(luò)和Critic值函數(shù)網(wǎng)絡(luò)作為目標(biāo)網(wǎng)絡(luò),使智能體對(duì)任務(wù)策略進(jìn)行穩(wěn)定學(xué)習(xí),其網(wǎng)絡(luò)權(quán)重參數(shù)分別表示為θ′和ω′。結(jié)合軟迭代思想,緩慢更新目標(biāo)網(wǎng)絡(luò),使智能體在訓(xùn)練時(shí),學(xué)習(xí)過程穩(wěn)定性大幅度增強(qiáng)。Actor目標(biāo)網(wǎng)絡(luò)具體更新方式為:

      式中,τ用來控制Actor目標(biāo)網(wǎng)絡(luò)權(quán)重θ′的更新速度。同樣,利用式(15)的方式更新Critic目標(biāo)網(wǎng)絡(luò)參數(shù)ω′。

      此外,DDPG算法利用隨機(jī)噪聲,增加Actor策略網(wǎng)絡(luò)在連續(xù)動(dòng)作空間的探索能力,形成策略映射μ′:

      式中,N為該噪聲隨機(jī)過程。

      本文設(shè)計(jì)Actor策略網(wǎng)絡(luò)和Critic值函數(shù)網(wǎng)絡(luò)均由兩個(gè)全連接層FC構(gòu)成,網(wǎng)絡(luò)結(jié)構(gòu)簡(jiǎn)單且運(yùn)算方便,時(shí)間復(fù)雜度低。故結(jié)合Actor網(wǎng)絡(luò)輸入狀態(tài),輸出動(dòng)作,Critic網(wǎng)絡(luò)輸入狀態(tài)和動(dòng)作,輸出Q值的特點(diǎn),根據(jù)上文選定的9維狀態(tài)和2維動(dòng)作,設(shè)計(jì)DDPG網(wǎng)絡(luò)結(jié)構(gòu)如表1所示。表中ReLu和tanh為神經(jīng)網(wǎng)絡(luò)常用的兩種非線性激活函數(shù)。

      表1 DDPG網(wǎng)絡(luò)結(jié)構(gòu)Table 1 Network structure of DDPG

      依據(jù)DDPG網(wǎng)絡(luò)訓(xùn)練原理,采用表1設(shè)計(jì)的網(wǎng)絡(luò)結(jié)構(gòu),根據(jù)式(13)至式(16),訓(xùn)練DDPG網(wǎng)絡(luò)。訓(xùn)練完成后,獲取從飛行狀態(tài)到飛行動(dòng)作端到端的決策映射,其Actor在線網(wǎng)絡(luò)策略映射公式如下:

      式中,μθ(·)為已訓(xùn)練Actor在線網(wǎng)絡(luò)的策略映射關(guān)系,θ是其網(wǎng)絡(luò)權(quán)重參數(shù),st為無人機(jī)實(shí)時(shí)飛行狀態(tài),at即為由映射關(guān)系μθ(·)得到的實(shí)時(shí)飛行動(dòng)作。

      在實(shí)際應(yīng)用中,無人機(jī)實(shí)時(shí)采集飛行狀態(tài),遷移已訓(xùn)練Actor在線網(wǎng)絡(luò),即可得到實(shí)時(shí)飛行動(dòng)作,實(shí)現(xiàn)航跡規(guī)劃。

      3 基于改進(jìn)DDPG的無人機(jī)航跡規(guī)劃算法

      DDPG網(wǎng)絡(luò)訓(xùn)練過程中,學(xué)習(xí)率的改變會(huì)直接影響網(wǎng)絡(luò)收斂性能,傳統(tǒng)方法通過調(diào)試學(xué)習(xí)率,直至網(wǎng)絡(luò)具有較好的收斂效果,但調(diào)整至合適的學(xué)習(xí)率將會(huì)耗費(fèi)大量時(shí)間成本。群智能算法通過不斷迭代更新求解適應(yīng)度函數(shù)最優(yōu)值的思想,與神經(jīng)網(wǎng)絡(luò)優(yōu)化權(quán)重參數(shù)的思想異曲同工,因此結(jié)合群智能算法尋優(yōu)DDPG網(wǎng)絡(luò)權(quán)重參數(shù)能夠避免學(xué)習(xí)率對(duì)網(wǎng)絡(luò)收斂性能的影響,最終解決網(wǎng)絡(luò)訓(xùn)練時(shí)間長(zhǎng)的問題。

      3.1 改進(jìn)人工蜂群算法

      人工蜂群(artificial bee colony,ABC)算法具備尋優(yōu)能力強(qiáng)以及收斂速度快等優(yōu)點(diǎn),故本文采用ABC算法優(yōu)化DDPG網(wǎng)絡(luò)更新機(jī)制。但直接采用ABC算法需在一次完整DDPG網(wǎng)絡(luò)訓(xùn)練中,利用不同的蜂群尋優(yōu)策略和值函數(shù)兩類網(wǎng)絡(luò)的最佳更新方式,必然導(dǎo)致計(jì)算冗余。為彌補(bǔ)該缺陷,本文設(shè)計(jì)一種二維人工蜂群(two dimensional artificial bee colony,2D-ABC)算法,改進(jìn)初始解和位置更新公式,共享種群行為機(jī)制,減少計(jì)算復(fù)雜度,提升訓(xùn)練效率。

      2D-ABC算法將蜂群分為二維開采蜂、二維隨從蜂和二維偵察蜂,二維蜜源每一維位置分別對(duì)應(yīng)兩個(gè)優(yōu)化問題可能解,每一維蜜源花粉量分別對(duì)應(yīng)兩個(gè)解的適應(yīng)度。二維蜂群采蜜的行為機(jī)制有以下三種,

      (1)初始化種群。蜜蜂群體派出SN個(gè)二維開采蜂,開采蜂和隨從蜂各占蜂群總數(shù)的一半,蜜源數(shù)與開采蜂相同,依據(jù)式(18)隨機(jī)產(chǎn)生SN個(gè)二維初始解:

      式中,φk為第k維中區(qū)間[0,1]的隨機(jī)數(shù)。

      (3)隨從蜂采蜜。二維隨從蜂根據(jù)對(duì)應(yīng)維蜜源花蜜量的多少選擇每一維較優(yōu)的標(biāo)記蜜源,并在其附近按照式(20)探索第k維新蜜源,選擇概率表達(dá)式為:

      本文提出2D-ABC算法流程如圖2所示,其改進(jìn)DDPG算法具體步驟描述如下:

      圖2 2D-ABC算法流程圖Fig.2 Flow chart of 2D-ABC algorithm

      步驟1初始化二維蜜源和二維蜂群。根據(jù)式(18),在M維空間隨機(jī)初始化SN個(gè)二維蜜源位置,第一維和第二維蜜源位置分別代表Actor在線網(wǎng)絡(luò)和Critic在線網(wǎng)絡(luò)權(quán)重參數(shù)。同時(shí),設(shè)置開采蜂和隨從蜂數(shù)目均為2×SN,第一維和第二維蜂群的工作對(duì)象分別為第一維和第二維蜜源。

      步驟2計(jì)算二維適應(yīng)度。將Critic在線網(wǎng)絡(luò)權(quán)重更新的均方誤差損失函數(shù),即式(14)作為第一維適應(yīng)度函數(shù),得到第一維蜜源評(píng)價(jià)值;將Actor在線網(wǎng)絡(luò)權(quán)重更新的策略梯度下降函數(shù),即式(13)作為第二維適應(yīng)度函數(shù),得到第二維蜜源評(píng)價(jià)值。

      步驟3二維開采蜂開采蜜源。根據(jù)式(19),開采蜂分別在每一維蜜源位置附近開采,獲得新蜜源位置。

      步驟4根據(jù)式(13)和式(14),再次分別計(jì)算每一維新位置蜜源評(píng)價(jià)值,并與原位置蜜源評(píng)價(jià)值相比較,進(jìn)行貪婪選擇,保留更優(yōu)的二維蜜源。

      步驟5隨從蜂選擇蜜源。二維隨從蜂依據(jù)式(20)得到的概率,選擇每一維新蜜源。

      步驟6再次執(zhí)行步驟4。

      步驟7在Limit次蜜源位置更新后,若每一維有放棄的蜜源則利用觀察蜂替換開采蜂,并隨機(jī)選擇新蜜源,若無則從已保留的優(yōu)質(zhì)蜜源得到每一維最優(yōu)蜜源位置,即最優(yōu)的Actor網(wǎng)絡(luò)和Critic網(wǎng)絡(luò)權(quán)重參數(shù)。

      3.2 改進(jìn)DDPG算法模型訓(xùn)練及應(yīng)用

      本文融合2D-ABC算法尋優(yōu)與DDPG算法模型更新機(jī)制,將Actor在線網(wǎng)絡(luò)權(quán)重更新的策略梯度下降函數(shù)和Critic在線網(wǎng)絡(luò)權(quán)重更新的均方誤差損失函數(shù)作為適應(yīng)度函數(shù),利用2D-ABC算法分別尋優(yōu)每一回合DDPG算法Actor和Critic在線網(wǎng)絡(luò)權(quán)重參數(shù),完成改進(jìn)DDPG算法模型的訓(xùn)練,從而提升網(wǎng)絡(luò)訓(xùn)練效率,降低總體的訓(xùn)練時(shí)間成本。改進(jìn)DDPG算法模型訓(xùn)練及應(yīng)用結(jié)構(gòu)框圖如圖3所示,具體訓(xùn)練步驟如下:

      圖3 改進(jìn)DDPG算法模型訓(xùn)練及應(yīng)用結(jié)構(gòu)框圖Fig.3 Training and application structure diagram of improved DDPG algorithm model

      步驟1結(jié)合式(7)至式(12),設(shè)計(jì)航跡規(guī)劃問題的強(qiáng)化學(xué)習(xí)要素。

      步驟2初始化狀態(tài)s,清空經(jīng)驗(yàn)回放池。

      步驟3根據(jù)狀態(tài)s,Actor在線網(wǎng)絡(luò)得到對(duì)應(yīng)動(dòng)作a,智能體執(zhí)行動(dòng)作a,并得到新狀態(tài)s′以及與環(huán)境交互后的獎(jiǎng)勵(lì)r。

      步驟4將經(jīng)驗(yàn)數(shù)組存入經(jīng)驗(yàn)回放池,并從經(jīng)驗(yàn)回放池中采樣m個(gè)經(jīng)驗(yàn)數(shù)組,送入Critic值函數(shù)網(wǎng)絡(luò),計(jì)算得在線Q值Qω(s,a)和目標(biāo)Q值Qω′(s′,a′)。

      步驟5根據(jù)式(13)和式(14),結(jié)合Critic值函數(shù)網(wǎng)絡(luò)的在線Q值和目標(biāo)Q值,利用2D-ABC算法求得最優(yōu)Actor網(wǎng)絡(luò)權(quán)重參數(shù)和最優(yōu)Critic網(wǎng)絡(luò)權(quán)重參數(shù)。

      步驟6根據(jù)式(15),通過軟迭代更新Actor網(wǎng)絡(luò)以及Critic網(wǎng)絡(luò)權(quán)重參數(shù)。

      步驟7判斷是否滿足DDPG網(wǎng)絡(luò)訓(xùn)練結(jié)束條件,結(jié)束訓(xùn)練。

      最后,與改進(jìn)前方法相同,無人機(jī)實(shí)時(shí)采集飛行狀態(tài),根據(jù)式(17),獲取該狀態(tài)下的決策映射,執(zhí)行飛行動(dòng)作,實(shí)現(xiàn)航跡規(guī)劃。

      4 仿真與分析

      對(duì)本文提出的改進(jìn)DDPG無人機(jī)航跡規(guī)劃算法進(jìn)行仿真分析,無人機(jī)飛行約束參數(shù)、相關(guān)威脅仿真參數(shù)和改進(jìn)DDPG算法參數(shù)分別如表2、表3和表4所示。本文設(shè)定無人機(jī)航跡規(guī)劃空間大小為15 km×15 km×7.5 km,且假設(shè)無人機(jī)飛行恒定速率,同時(shí)設(shè)置算法測(cè)試500次,另外忽略自然環(huán)境干擾因素影響。本文涉及仿真的實(shí)驗(yàn)設(shè)備及環(huán)境滿足:Intel?CoreTMi7-9700k CPU,32 GB雙通道內(nèi)存,Windows 10 64位操作系統(tǒng),Python 3.5,TensorFlow 1.7.0。

      表2 無人機(jī)飛行約束參數(shù)Table 2 Fight constraint parameters of UAV

      表3 相關(guān)威脅仿真參數(shù)Table 3 Simulation parameters of related threat

      表4 改進(jìn)DDPG算法參數(shù)Table 4 Parameters of improved DDPG

      為驗(yàn)證改進(jìn)DDPG算法有效性和在未知環(huán)境的適應(yīng)性,本文選取網(wǎng)絡(luò)訓(xùn)練時(shí)長(zhǎng)、測(cè)試成功率和航跡偏差率為評(píng)估指標(biāo),評(píng)估算法的訓(xùn)練和測(cè)試結(jié)果。其中,網(wǎng)絡(luò)訓(xùn)練時(shí)長(zhǎng)用于評(píng)估算法訓(xùn)練效率,測(cè)試成功率用于評(píng)估無人機(jī)滿足航程約束情況下依照航跡決策順利達(dá)到終點(diǎn)的能力,其計(jì)算公式為:

      航跡偏差率TE用于評(píng)估無人機(jī)在成功到達(dá)終點(diǎn)前提下的航跡質(zhì)量,其計(jì)算公式為:

      式中,F(xiàn)為測(cè)試次數(shù),αi和βi分別為設(shè)定相同條件下用智能算法解算得第i條航跡長(zhǎng)度和改進(jìn)DDPG算法決策得第i條航跡長(zhǎng)度,航跡偏差率越低航跡質(zhì)量越高,本文設(shè)定航跡偏差率低于7.5%時(shí)航跡質(zhì)量達(dá)標(biāo)。

      由于訓(xùn)練次數(shù)多,且算法隨機(jī)波動(dòng)較大,直接顯示所有訓(xùn)練回合獎(jiǎng)勵(lì)收斂曲線效果不佳,為更好展示算法訓(xùn)練效果,本文將每20個(gè)訓(xùn)練回合所得獎(jiǎng)勵(lì)和取平均并作歸一化處理,將10 000次迭代收斂曲線等效處理為500次迭代收斂曲線。圖4和表5分別給出了在網(wǎng)絡(luò)結(jié)構(gòu)設(shè)置如表1,超參數(shù)設(shè)置如表4,設(shè)定4組不同Actor網(wǎng)絡(luò)和Critic網(wǎng)絡(luò)學(xué)習(xí)率情況下,DDPG算法的獎(jiǎng)勵(lì)收斂曲線和訓(xùn)練時(shí)長(zhǎng)表。

      圖4 四種不同學(xué)習(xí)率情況下DDPG算法的獎(jiǎng)勵(lì)收斂曲線Fig.4 Reward convergence curve of DDPG under four different learning rates

      表5 四種不同學(xué)習(xí)率情況下DDPG網(wǎng)絡(luò)訓(xùn)練時(shí)長(zhǎng)Table 5 Network training duration under four different learning rates

      由圖4可知,隨著學(xué)習(xí)率的增大,DDPG算法收斂速度明顯加快,當(dāng)Actor網(wǎng)絡(luò)和Critic網(wǎng)絡(luò)學(xué)習(xí)率分別為2×10-5和10-4時(shí),歸一化獎(jiǎng)勵(lì)值在5 600次訓(xùn)練回合左右才趨于穩(wěn)定,而當(dāng)Actor網(wǎng)絡(luò)和Critic網(wǎng)絡(luò)學(xué)習(xí)率分別為4×10-5和4×10-4時(shí),歸一化獎(jiǎng)勵(lì)值在3 800次訓(xùn)練回合左右即逐漸收斂。另外,不同學(xué)習(xí)率情況下,歸一化獎(jiǎng)勵(lì)最終收斂值也不同,當(dāng)Actor網(wǎng)絡(luò)和Critic網(wǎng)絡(luò)學(xué)習(xí)率分別為2×10-5和2×10-4時(shí),歸一化獎(jiǎng)勵(lì)值在0.8上下波動(dòng),而當(dāng)Actor網(wǎng)絡(luò)和Critic網(wǎng)絡(luò)學(xué)習(xí)率分別為4×10-5和4×10-4時(shí),歸一化獎(jiǎng)勵(lì)值在0.6上下浮動(dòng),且浮動(dòng)幅度較大。這是因?yàn)閷W(xué)習(xí)率是強(qiáng)化學(xué)習(xí)算法學(xué)習(xí)能力的數(shù)值體現(xiàn),過高會(huì)導(dǎo)致算法早期樣本過擬合,過低會(huì)導(dǎo)致樣本利用率低使算法收斂慢,因此降低學(xué)習(xí)率對(duì)網(wǎng)絡(luò)性能的影響尤為重要。

      由表5可知,僅調(diào)試4組學(xué)習(xí)率情況下網(wǎng)絡(luò)總訓(xùn)練時(shí)間累計(jì)140 h 34 min 44 s,訓(xùn)練耗時(shí)長(zhǎng),而調(diào)整至合適的學(xué)習(xí)率需要大量的訓(xùn)練時(shí)間,本文提出改進(jìn)DDPG算法優(yōu)化網(wǎng)絡(luò)更新機(jī)制,提升算法訓(xùn)練效率。

      圖5給出了網(wǎng)絡(luò)結(jié)構(gòu)和參數(shù)設(shè)置分別如表1和表4情況下改進(jìn)DDPG算法歸一化獎(jiǎng)勵(lì)收斂曲線。

      圖5 改進(jìn)DDPG算法獎(jiǎng)勵(lì)收斂曲線Fig.5 Reward convergence curve of improved DDPG

      由圖5可知,改進(jìn)DDPG算法歸一化獎(jiǎng)勵(lì)值在4 400次訓(xùn)練回合左右即趨于收斂,且穩(wěn)定在0.9左右。另外,記錄其經(jīng)歷10 000次訓(xùn)練回合耗費(fèi)時(shí)長(zhǎng)為69 h 40 min 34 s,對(duì)比表5結(jié)果可知,改進(jìn)DDPG算法整體訓(xùn)練時(shí)長(zhǎng)僅為原算法在表5所設(shè)4組學(xué)習(xí)率情況下平均訓(xùn)練時(shí)長(zhǎng)的1.98倍。這是因?yàn)樗崴惴總€(gè)訓(xùn)練回合內(nèi)利用ABC算法迭代更新尋優(yōu)網(wǎng)絡(luò)參數(shù),導(dǎo)致網(wǎng)絡(luò)訓(xùn)練復(fù)雜度增加,引起單個(gè)訓(xùn)練回合耗時(shí)增長(zhǎng)的代價(jià)。得益于改進(jìn)DDPG算法網(wǎng)絡(luò)訓(xùn)練不依賴于學(xué)習(xí)率的優(yōu)勢(shì),僅一次訓(xùn)練就能完成對(duì)模型權(quán)重參數(shù)的尋優(yōu),因此總體上網(wǎng)絡(luò)訓(xùn)練時(shí)長(zhǎng)大幅度減少,所提算法具有一定的有效性。

      圖6給出了在無人機(jī)仿真參數(shù)設(shè)置如表2,威脅模型仿真參數(shù)設(shè)置如表3的情況下,在兩種隨機(jī)位置多雷達(dá)環(huán)境中,無人機(jī)利用改進(jìn)DDPG算法航跡規(guī)劃測(cè)試效果圖。

      圖6 改進(jìn)DDPG算法航跡規(guī)劃效果圖Fig.6 Track planning effect chart by using improved DDPG

      由圖6可知,無人機(jī)能以連續(xù)平滑的航跡飛行,有效避開實(shí)際環(huán)境地形和不同位置未知雷達(dá)探測(cè)威脅,成功到達(dá)任務(wù)終點(diǎn),驗(yàn)證了所提算法應(yīng)用的可行性。

      盡管智能算法解算航跡速率慢導(dǎo)致測(cè)試成功率不盡如人意,但迭代計(jì)算的特點(diǎn)決定了其能在不限時(shí)間內(nèi)得到更優(yōu)航跡。本文以智能算法在測(cè)試回合內(nèi)解得航跡為參照,用航跡偏差率評(píng)估改進(jìn)DDPG算法每次測(cè)試形成航跡的質(zhì)量。蟻群算法具有啟發(fā)式概率搜索特點(diǎn),易于找到全局最優(yōu)解,在規(guī)劃領(lǐng)域廣泛應(yīng)用,因此選擇蟻群算法作為對(duì)比算法。表6給出在相同飛行環(huán)境內(nèi)無人機(jī)利用改進(jìn)DDPG算法進(jìn)行航跡決策和用蟻群算法解算航跡的測(cè)試結(jié)果對(duì)比。其中蟻群算法種群數(shù)量為40,全局信息素濃度更新率為0.5,局部信息素濃度更新率為0.4,信息素濃度重要程度因子為1.5,啟發(fā)值重要程度因子為5。

      表6 不同算法航跡規(guī)劃測(cè)試結(jié)果Table 6 Test results of different algorithms for track planning %

      由表6可知,500次測(cè)試中,用蟻群算法解算航跡無人機(jī)測(cè)試成功率僅48.2%,而改進(jìn)DDPG算法成功率高達(dá)97.2%。這是由于大量的訓(xùn)練增強(qiáng)了改進(jìn)DDPG算法學(xué)習(xí)能力,能夠?qū)崟r(shí)決策無人機(jī)飛行航跡,獲得較高飛行成功率。同時(shí),以蟻群算法獲得最優(yōu)航跡為參照,改進(jìn)DDPG算法所得航跡偏差率僅為3.78%,其原因是所提算法采取的航跡決策使無人機(jī)飛行航跡有效且平滑,形成的航跡滿足航跡質(zhì)量需求,進(jìn)一步驗(yàn)證了所提算法在工程應(yīng)用的可行性。

      5 結(jié)語

      本文提出一種改進(jìn)DDPG無人機(jī)航跡規(guī)劃算法,解決了用傳統(tǒng)算法解算航跡速度慢的問題,同時(shí)優(yōu)化了DDPG網(wǎng)絡(luò)權(quán)重參數(shù)更新過程。所提算法將深度強(qiáng)化學(xué)習(xí)應(yīng)用于航跡規(guī)劃領(lǐng)域,為無人機(jī)飛行提供連續(xù)確定性動(dòng)作決策,并設(shè)計(jì)2D-ABC算法,改進(jìn)DDPG算法模型更新機(jī)制。仿真結(jié)果表明,所提算法無需調(diào)整學(xué)習(xí)率的過程,提升了無人機(jī)在未知威脅環(huán)境飛行的實(shí)時(shí)反應(yīng)能力,降低了訓(xùn)練的時(shí)間成本,且在達(dá)到97.2%飛行成功率前提下,保證了航跡質(zhì)量。忽略自然干擾因素影響,所提算法相比典型智能算法,憑借連續(xù)飛行動(dòng)作輸出和實(shí)時(shí)航跡決策的優(yōu)勢(shì),在無人機(jī)航跡規(guī)劃領(lǐng)域更具可行性。面對(duì)實(shí)際環(huán)境天氣、風(fēng)力和氣流等變化影響,可聯(lián)合卡爾曼濾波等技術(shù)完善飛行動(dòng)作,使得所提算法在自然環(huán)境應(yīng)用可行。下一步工作,本團(tuán)隊(duì)將研究所提算法的優(yōu)化技術(shù),同時(shí)探討超參數(shù)對(duì)于深度強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)模型性能的影響。

      猜你喜歡
      蜜源航跡威脅
      貴州寬闊水國(guó)家級(jí)自然保護(hù)區(qū)蜜源植物資源調(diào)查研究*
      林下拓蜜源 蜂業(yè)上臺(tái)階
      人類的威脅
      夢(mèng)的航跡
      青年歌聲(2019年12期)2019-12-17 06:32:32
      受到威脅的生命
      指示蜜源的導(dǎo)蜜鳥
      面對(duì)孩子的“威脅”,我們要會(huì)說“不”
      家教世界(2017年11期)2018-01-03 01:28:49
      自適應(yīng)引導(dǎo)長(zhǎng)度的無人機(jī)航跡跟蹤方法
      視覺導(dǎo)航下基于H2/H∞的航跡跟蹤
      Why Does Sleeping in Just Make Us More Tired?
      昔阳县| 遵义市| 安西县| 大埔区| 弋阳县| 万山特区| 甘泉县| 怀来县| 武宣县| 襄城县| 威远县| 普宁市| 西林县| 衢州市| 馆陶县| 伊川县| 延长县| 安徽省| 南平市| 彭州市| 唐河县| 东乌| 琼中| 济宁市| 修水县| 红河县| 金山区| 同江市| 巴东县| 包头市| 司法| 枝江市| 丰镇市| 杭锦后旗| 恭城| 措勤县| 南漳县| 江都市| 凉山| 两当县| 康定县|