段世紅,何 昊,徐 誠,殷 楠,王 然
(1.北京科技大學(xué)計算機(jī)與通信工程學(xué)院,北京 100083;2.北京科技大學(xué)順德研究生院,廣東佛山 528399)
信源導(dǎo)航在應(yīng)急救援、工業(yè)巡檢及其他危險作業(yè)中具有重要應(yīng)用意義.在幫助尋找礦井中的幸存者、在核電站中尋找輻射源、在海洋里尋找石油泄漏源等應(yīng)用中,非常需要小型、靈活的機(jī)器人在這些復(fù)雜環(huán)境中實(shí)現(xiàn)完全自主的導(dǎo)航與搜索,快速部署智能體.
梯度方法是尋源問題領(lǐng)域最早研究的算法,也是解決尋源問題的有效的方法之一.梯度方法利用信號場中信號的梯度變化信息引導(dǎo)智能體移動到信號源所在位置.路永鑫等人[1]提出一種梯度下降法和改進(jìn)A*算法相結(jié)合的應(yīng)急機(jī)器人路徑規(guī)劃方法.該方法在運(yùn)動過程中結(jié)合梯度下降法進(jìn)行局部動態(tài)路徑規(guī)劃,解決了傳感器探測能力局限性和災(zāi)情蔓延產(chǎn)生新危險源等情況下的風(fēng)險規(guī)避困難問題.但是梯度下降法容易陷入局部最優(yōu),且梯度計算復(fù)雜度較高,效率較低.
由于梯度下降相關(guān)算法存在上述問題,近年來解決路徑規(guī)劃問題的方法大多是啟發(fā)式群智能算法[2~7].即通過模擬一些自然現(xiàn)象或生物行為過程來解決路徑規(guī)劃問題,如粒子群優(yōu)化算法[3]、蟻群算法[4]、遺傳算法[5]和克隆選擇算法[6]等.其中,文獻(xiàn)[7]提出了一種改進(jìn)的移動機(jī)器人路徑規(guī)劃優(yōu)化人工蜂群算法,利用貝塞爾曲線描述路徑,將路徑優(yōu)化問題轉(zhuǎn)化為生成貝塞爾曲線點(diǎn)的位置優(yōu)化問題.這些生物群體式的群啟發(fā)式算法能較好地避開局部最優(yōu)值,但都依賴相關(guān)參數(shù)的設(shè)置,極大地影響了算法解決實(shí)際問題的能力.面對動態(tài)環(huán)境中的路徑規(guī)劃問題,無法預(yù)測計劃中可能進(jìn)一步出現(xiàn)的約束和沖突.
動態(tài)環(huán)境中的路徑規(guī)劃可以表述為一個序列決策問題.序列是許多信息系統(tǒng)的重要組成部分,在許多應(yīng)用和系統(tǒng)上起著重要的作用,例如,蜂窩碼分多址系統(tǒng)[8]利用擴(kuò)頻序列來區(qū)分來自不同用戶的信號;脈沖壓縮雷達(dá)系統(tǒng)[9]利用相位編碼序列調(diào)制的探測脈沖來實(shí)現(xiàn)遠(yuǎn)距離物體的高分辨率探測.此外,有許多關(guān)于動態(tài)環(huán)境中路徑規(guī)劃和運(yùn)動預(yù)測的文獻(xiàn)并有大量調(diào)查[10~12].例如,陳勁峰等[13]提出動態(tài)環(huán)境下基于改進(jìn)人工勢場法的路徑規(guī)劃算法,并表明改進(jìn)的人工勢場法可解決局部最小值和目標(biāo)不可達(dá)問題,且有良好的動態(tài)避障能力.但是有研究發(fā)現(xiàn)當(dāng)周圍環(huán)境變得越來越復(fù)雜時,機(jī)器人失去了尋找路徑的能力,并選擇停止或者不規(guī)則行動[14].為了克服上述問題,Helbing 等[15]提出了一個社會能力模型(Social Force Model,SFM),將智能體之間的協(xié)作和交互描述為高斯過程,預(yù)測智能體在導(dǎo)航期間的未來運(yùn)動.
由以上分析可知,梯度方法效率較低且不易推廣,生物群體式的啟發(fā)式算法容易陷入局部最優(yōu)且難以完全實(shí)現(xiàn)自主決策.強(qiáng)化學(xué)習(xí)(Reinforcement Learning,RL)可以實(shí)現(xiàn)自主學(xué)習(xí)和決策,是機(jī)器學(xué)習(xí)的一個重要分支[16],其通過不斷學(xué)習(xí)求出馬爾可夫決策過程(Markov Decision Process,MDP)[17,18]的解.強(qiáng)化學(xué)習(xí)的一個顯著特征是“從互動中學(xué)習(xí)”,智能體通過一系列離散時間步驟與環(huán)境進(jìn)行交互.在時間t下,智能體觀察到環(huán)境處于狀態(tài)St,基于對St的觀察,智能體采取行動a,這導(dǎo)致智能體接收到獎勵R(St,a),并且環(huán)境變成新的狀態(tài)St+1.蒙特卡洛樹搜索(Monte-Carlo Tree Search,MCTS)是一種強(qiáng)化學(xué)習(xí)方法[19],在面臨決策問題的多種選擇下選出最優(yōu)的決策結(jié)果.文獻(xiàn)[20]提出了一種基于全擴(kuò)展的MCTS 方法,通過減少模擬的步數(shù)來加快樹的搜索效率.受此啟發(fā),由于MCTS 的性能受其有效搜索深度的約束[21],本文希望能夠?qū)v史序列決策信息作為MCTS 的先驗(yàn)知識,減少M(fèi)CTS 的搜索深度,以促進(jìn)MCTS 根據(jù)歷史最優(yōu)決策信息做出最佳決策.此外,圍棋領(lǐng)域最強(qiáng)大的AlphaGo 算法[22],讓人類領(lǐng)略到深度強(qiáng)化學(xué)習(xí)的威力,其主要是將深度學(xué)習(xí)與強(qiáng)化學(xué)習(xí)融合,對算法進(jìn)行優(yōu)化,使之能夠在短時間內(nèi)做出正確的決策.許多研究亦可證明,深度強(qiáng)化學(xué)習(xí)在路徑規(guī)劃領(lǐng)域?qū)μ岣咧悄荏w的導(dǎo)航能力是有效的[23,24].
出于上述考慮,本文充分利用深度強(qiáng)化學(xué)習(xí)的強(qiáng)大優(yōu)勢,面向部分可觀測環(huán)境下的信源導(dǎo)航問題提出一個健壯且有效的算法,即基于深度序列蒙特卡洛樹搜索的信源導(dǎo)航(Deep Sequential Monte-Carlo Tree Search,DS-MCTS)方法.進(jìn)一步根據(jù)該方法提出一個結(jié)合長短期記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)和蒙特卡洛樹搜索的集成信源導(dǎo)航框架.對智能體在信源導(dǎo)航過程中的序列軌跡信息和決策信息采樣保存,序列動作預(yù)測(Sequential Action Prediction,SAP)網(wǎng)絡(luò)利用歷史序列信息給MCTS方法提供先驗(yàn)知識,獎勵分配預(yù)測(Reward Allocation Prediction,RAP)網(wǎng)絡(luò)在訓(xùn)練中提高獎勵分配精度,促進(jìn)MCTS 方法最優(yōu)化決策.本文還將提出的DS-MCTS 方法在模擬信號場中進(jìn)行了相關(guān)實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明,該方法能夠在部分可觀測環(huán)境下有效的進(jìn)行路徑規(guī)劃,并且具有非常穩(wěn)定的性能.同時,也能證明深度學(xué)習(xí)與強(qiáng)化學(xué)習(xí)融合是機(jī)器人應(yīng)用中一組有前途的算法,快速發(fā)展的深度強(qiáng)化學(xué)習(xí)領(lǐng)域使得應(yīng)用更加健壯和準(zhǔn)確.
本文主要貢獻(xiàn)包括以下幾個方面.
(1)提出基于DS-MCTS 方法和框架,將該方法和框架應(yīng)用于智能體信源導(dǎo)航過程中.研究表明,本文提出的方法和框架能較大程度地利用序列數(shù)據(jù)優(yōu)化信源導(dǎo)航過程中的決策以及提高智能體的信源導(dǎo)航成功率,解決了傳統(tǒng)MCTS過程缺乏對歷史信息的提取利用問題,避免復(fù)雜環(huán)境下智能體陷入局部最優(yōu).
(2)提出了序列動作預(yù)測(SAP)網(wǎng)絡(luò),利用LSTM和全連接層的特性,根據(jù)智能體的歷史軌跡數(shù)據(jù)信息預(yù)測當(dāng)前時刻下智能體的動作可能性,為蒙特卡洛樹搜索決策提供先驗(yàn)知識,促進(jìn)最優(yōu)化決策.
(3)提出了端到端的獎勵分配預(yù)測(RAP)網(wǎng)絡(luò),解決之前模擬階段過于復(fù)雜的仿真計算問題,提高M(jìn)CTS方法中的獎勵分配精度以及搜索效率.
信源導(dǎo)航問題主要是指智能體在部分可觀測的信號場中尋找信號源的問題.未知環(huán)境下的信源搜索可以定義為一個部分可觀測馬爾科夫決策過程(Partially Observable Markov Decision Process,POMDP).POMDP
模型是馬爾科夫決策模型的擴(kuò)展,在強(qiáng)化學(xué)習(xí)中,MDP是對完全可觀測的環(huán)境進(jìn)行描述的,也就是觀測到的狀態(tài)內(nèi)容完整地決定了決策需要的特征[25].但是很多情況下,系統(tǒng)的完整的狀態(tài)信息難以獲取,特別是測量環(huán)境信息的傳感器信號容易受到噪聲的影響.同時,POMDP 假設(shè)系統(tǒng)的狀態(tài)信息不能直接觀測得到,是部分可知的,即系統(tǒng)狀態(tài)僅部分可見情況下的馬爾可夫決策過程,這符合本文信源導(dǎo)航問題的實(shí)際情況.所以在本文所提出的方法中,智能體根據(jù)自身傳感器獲得的部分環(huán)境信息經(jīng)由蒙特卡洛樹搜索輸出角度移動到下一步的目標(biāo)位置,直至找到信號源,整個過程可以建模為一個POMDP 模型,其由八元組(S,A,Z,T,O,R,γ,b0)組成.
S:智能體的連續(xù)狀態(tài)空間,其中狀態(tài)由位置表示.St是智能體在t時刻的位置,St=(xt,yt),S={Si,Si+1,…,St}可以理解成智能體的軌跡信息.
A:動作的離散集合.At是智能體在t時刻的運(yùn)動方向,A={Ai,Ai+1,…,At}代表智能體的歷史運(yùn)動方向信息,其中
Z:觀測到的環(huán)境信息.t時刻下的觀測信息Zt=IS_t+ω,IS_t表示St位置下信號強(qiáng)度,ω是觀測噪聲.
T:S×A→S',狀態(tài)轉(zhuǎn)變函數(shù),可以理解成智能體的運(yùn)動方程,表示為
其中,v是智能體的前進(jìn)速度,At是動作方向,xt-1和yt-1是智能體上一時刻于信號場的橫坐標(biāo)和縱坐標(biāo).
O:S×A→O(Z),觀測模型,例如O(Zt+1=Z|St+1=s,At=a).
R:S×A→R,智能體在狀態(tài)s下采取動作a獲得的獎勵R(s,a).
γ:折扣因子,0 ≤γ ≤1.
b0:智能體初始信念狀態(tài).
首先在狀態(tài)、動作空間上訓(xùn)練SAP 網(wǎng)絡(luò),再將訓(xùn)練好的網(wǎng)絡(luò)用于智能體在下一時間步的蒙特卡洛樹搜索決策上,并在后續(xù)路徑規(guī)劃上遞歸應(yīng)用.圖1 為集成信源導(dǎo)航框架圖,概述了如何使用SAP 網(wǎng)絡(luò)根據(jù)t的前m時刻的軌跡信息和歷史運(yùn)動方向信息,預(yù)測下一時刻的動作方向概率pt.在創(chuàng)建搜索樹的過程中,對每個擴(kuò)展節(jié)點(diǎn)進(jìn)行模擬,參考pt后通過RAP 網(wǎng)絡(luò)給出預(yù)測獎勵值,同時不斷訓(xùn)練RAP網(wǎng)絡(luò).
圖1 集成信源導(dǎo)航框架圖
動態(tài)環(huán)境中的路徑規(guī)劃可以表述為一個順序決策問題.在信源導(dǎo)航過程中倘若把整個過程分為若干個連續(xù)的階段,各個階段的決策結(jié)果前后銜接,這樣可通過歷史決策序列為下一時刻做出最佳決策提供有效信息.此外,由于信號源環(huán)境部分可觀測,且在探索過程中獎勵函數(shù)是稀疏的,稀疏的獎勵計劃往往需要長期的信息收集,希望能夠通過神經(jīng)網(wǎng)絡(luò)來近似真實(shí)獎勵值.為此,本文提出集成信源導(dǎo)航框架來解決這一問題,體現(xiàn)DS-MCTS方法的有效性.
框架主要分為3個部分.一是SAP網(wǎng)絡(luò).核心是長短期記憶神經(jīng)網(wǎng)絡(luò),能夠使神經(jīng)元在管道中保持前后序列記憶.滑動窗口單步向前移動更新歷史數(shù)據(jù)信息,解決了梯度消失問題,通過對智能體軌跡和歷史動作選擇輸出先驗(yàn)動作概率知識,促進(jìn)MCTS算法做出最佳策略.二是MCTS 算法.在先驗(yàn)動作概率信息下,經(jīng)過樹搜索給出唯一最佳動作方向決策.三是RAP 網(wǎng)絡(luò).端到端輸出預(yù)測獎勵值,在樹搜索模擬階段通過不斷訓(xùn)練,使得模擬獎勵逼近真實(shí)獎勵,提高獎勵分配的精度,提升MCTS 算法的決策效率,降低樹搜索模擬階段的復(fù)雜度.
MCTS 方法是一種用于決策問題的啟發(fā)式搜索算法[26~28],最著名的是在博弈游戲中使用,如AlphaGo[22].MCTS 方法的核心思想是通過迭代地對動作空間進(jìn)行隨機(jī)采樣并根據(jù)采樣結(jié)果構(gòu)建搜索樹來找到最優(yōu)決策.在搜索樹中,每個節(jié)點(diǎn)表示決策域的一個狀態(tài),指向其子節(jié)點(diǎn)的鏈接表示導(dǎo)致后續(xù)狀態(tài)的動作.如圖2所示,在每次迭代中,MCTS 方法執(zhí)行4 個步驟即選擇、擴(kuò)展、模擬和反向傳播.蒙特卡洛樹搜索過程根據(jù)智能體的軌跡信息,迭代搜索過程以得到動作策略π,蒙特卡洛樹搜索從根節(jié)點(diǎn)開始,樹中每擴(kuò)展節(jié)點(diǎn)都會包含信息{I(n),s(n),a(n),p(n),R(n),N(n)}.其 中,I(n)表示節(jié)點(diǎn)n所處位置s(n)的信號值,a(n)表示節(jié)點(diǎn)n的父節(jié)點(diǎn)到節(jié)點(diǎn)n的動作方向,p(n)表示節(jié)點(diǎn)n的先驗(yàn)動作選擇概率,R(n)表示節(jié)點(diǎn)n的累積獎勵,N(n)表示節(jié)點(diǎn)n的被訪問次數(shù).MCTS 方法主要分為以下幾個步驟:
圖2 蒙特卡洛樹搜索示意圖
(1)選擇:從根節(jié)點(diǎn)開始,應(yīng)用樹的上限置信度公式(Upper Confidence bound apply to Trees,UCT)[29]來選擇子節(jié)點(diǎn),UCT平衡了節(jié)點(diǎn)的探索和利用.UCT公式為
其中,N(nh)表示n節(jié)點(diǎn)的父節(jié)點(diǎn)被遍歷的次數(shù).
(2)擴(kuò)展:如果節(jié)點(diǎn)n不是終止節(jié)點(diǎn),有節(jié)點(diǎn)n未擴(kuò)展過的可選動作集合,隨機(jī)選擇集合中的動作,根據(jù)式(1)生成子節(jié)點(diǎn)的位置信息,以此擴(kuò)展搜索樹,并將子節(jié)點(diǎn)相關(guān)信息初始化.
(3)模擬:擴(kuò)展子節(jié)點(diǎn)后,RAP 網(wǎng)絡(luò)預(yù)測更新該節(jié)點(diǎn)的獎勵值.
(4)反向傳播:該步驟中,獎勵值和訪問次數(shù)被傳播回根節(jié)點(diǎn),更新每個節(jié)點(diǎn)的統(tǒng)計信息:
步驟(1)~(4)反復(fù)執(zhí)行,直到達(dá)到最大迭代次數(shù),在根節(jié)點(diǎn)下根據(jù)式(2)選擇其最佳子節(jié)點(diǎn)以及對應(yīng)的動作a,作為該時間步MCTS方法輸出的策略.
本文提出的SAP 網(wǎng)絡(luò)如圖3 所示,其結(jié)構(gòu)主要由LSTM 和全連接網(wǎng)絡(luò)組成.LSTM 是一種特殊的RNN,克服RNN 的“梯度消失”問題.在智能體信源導(dǎo)航過程中,有一個長度為m的變長滑動窗口.每個時刻滑動窗口往前移動一步,與此同時將當(dāng)前時刻前m時間步的軌跡信息和對應(yīng)的動作方向作為輸入,輸出智能體下一時刻針對動作選擇的概率信息,作為MCTS方法的先驗(yàn)知識.因?yàn)榘ㄖ悄荏w軌跡在內(nèi)的歷史信息能夠反映智能體在這一小段時間的運(yùn)動趨勢,通過訓(xùn)練SAP網(wǎng)絡(luò)學(xué)習(xí)智能體的動作選擇概率來預(yù)測運(yùn)動趨勢,這樣能大大提高智能體的信源導(dǎo)航效率并避免局部最優(yōu).此外,使用已知的歷史信息作為輸入已經(jīng)被證明可以學(xué)習(xí)智能體的動作和下一個時刻位置之間的關(guān)系[30].該網(wǎng)絡(luò)是從現(xiàn)實(shí)世界的相互作用中學(xué)習(xí)得到的,然后用來模擬連續(xù)動作的轉(zhuǎn)換.網(wǎng)絡(luò)包括接受輸入的非線性嵌入層和LSTM 層,非線性嵌入層使用校正線性單元激活,輸出通過線性層傳遞,映射到智能體在下一時刻各個動作方向上的概率,表示為
圖3 SAP網(wǎng)絡(luò)結(jié)構(gòu)圖
其中,WSAP表示要配置的SAP網(wǎng)絡(luò)的參數(shù).
本文使用m個時間變長的編碼序列,訓(xùn)練過程是將式(4)的損失降至最低,即
其中,A表示運(yùn)動方向集合,p'a表示a方向的預(yù)測概率,pa表示a方向的真實(shí)概率.
本文提出的RAP 網(wǎng)絡(luò)如圖4 所示,使用智能體的軌跡信息和預(yù)測的動作方向概率作為輸入,預(yù)測當(dāng)前位置應(yīng)該被分配的獎勵值.如圖1 所示,RAP 嵌入MCTS 方法中,應(yīng)用于MCTS 方法的模擬階段.傳統(tǒng)MCTS 的模擬階段需要一直模擬到達(dá)終止?fàn)顟B(tài),加入RAP 網(wǎng)絡(luò)可以并行單步模擬估計節(jié)點(diǎn)的獎勵值,所有節(jié)點(diǎn)在模擬階段直接通過RAP 網(wǎng)絡(luò)就可直接獲得獎勵值[31].這樣能將模擬階段的步驟簡化并大大提高搜索的性能.蒙特卡洛樹搜索過程中的行走軌跡也將會及時更新到智能體的軌跡信息中,蒙特卡洛樹當(dāng)前節(jié)點(diǎn)的預(yù)測獎勵值通過式(5)得出:
圖4 RAP網(wǎng)絡(luò)結(jié)構(gòu)圖
其中,IS_t表示t時刻智能體在位置St的信號強(qiáng)度,WRAP表示要配置的RAP網(wǎng)絡(luò)的參數(shù).
RAP 網(wǎng)絡(luò)是用來預(yù)測當(dāng)前位置的獎勵值,通過不斷訓(xùn)練RAP網(wǎng)絡(luò)提高預(yù)測精度,訓(xùn)練的損失函數(shù)為
其中,R't為當(dāng)前位置的真實(shí)獎勵值,α是權(quán)重系數(shù),Ic_pos和Il_pos分別為當(dāng)前位置和上一時刻位置的信號強(qiáng)度,Dc_pos和Dl_pos分別是當(dāng)前時刻和上一時刻距離信號源的曼哈頓距離,D的計算方式為
其中,Ps表示信號源所處的位置.
本節(jié)對本文提出的DS-MCTS 方法進(jìn)行實(shí)驗(yàn)驗(yàn)證,以評估所提出的方法的性能表現(xiàn),驗(yàn)證其有效性.
實(shí)驗(yàn)?zāi)M一個信號源在大小20 m×20 m 的信號場中,本文將信源強(qiáng)度建模為離信源距離的函數(shù),智能體在信號場各位置觀測到的信號強(qiáng)度由式(9)[32]給出:
其中,P代表信號點(diǎn)的位置,Ps代表信號源位置.R為模擬智能體對于真實(shí)信號的實(shí)際接收情況而加入的噪聲和Y分別服從正態(tài)分布,即
本文模擬這樣一個信號場去訓(xùn)練智能體尋找信號源,將信號場區(qū)域劃分成方形網(wǎng)格,簡化搜索區(qū)域.這一方法把信號場區(qū)域簡化為一個二維數(shù)組,數(shù)組的每一個元素是信號場的一個方塊.初始化智能體在信號場中的起始位置,信號源位置固定,智能體采樣信源導(dǎo)航過程中的軌跡信息和信號強(qiáng)度信息,通過訓(xùn)練SAP和RAP 網(wǎng)絡(luò),能得到一個策略,可以使智能體決策朝著離信號源梯度上升最快方向行動,并且該策略適用于不同的信源環(huán)境.
對于SAP 網(wǎng)絡(luò),網(wǎng)絡(luò)結(jié)構(gòu)如表1 所示,采用兩層LSTM 疊加,再通過具有8 個神經(jīng)元的全連接層預(yù)測動作概率信息.間隔100 個采樣樣本訓(xùn)練一次,batch size設(shè)置為10,學(xué)習(xí)速率設(shè)置為0.000 1.輸入為智能體當(dāng)前時刻的前m時間步的位置和動作信息,每一時間間隔類似于單步滑動窗口,輸出為每個動作方向的概率,為MCTS方法提供先驗(yàn)知識.
表1 SAP網(wǎng)絡(luò)結(jié)構(gòu)
對于RAP 網(wǎng)絡(luò),網(wǎng)絡(luò)結(jié)構(gòu)如表2 所示,采用三層全連接神經(jīng)網(wǎng)絡(luò)疊加.間隔2 000 個采樣樣本訓(xùn)練一次,batch size 設(shè)置為50,學(xué)習(xí)速率設(shè)置為0.000 1,訓(xùn)練中MCTS 方法迭代次數(shù)設(shè)置為200,深度設(shè)置為4.輸入為智能體當(dāng)前節(jié)點(diǎn)的前m時間步的位置和信號強(qiáng)度信息以及先驗(yàn)動作概率信息,輸出為當(dāng)前節(jié)點(diǎn)模擬的預(yù)測獎勵值,通過訓(xùn)練不斷提高獎勵分配精度,提高M(jìn)CTS方法的決策效率.
表2 RAP網(wǎng)絡(luò)結(jié)構(gòu)
圖5 仿真實(shí)驗(yàn)信源導(dǎo)航路徑圖
圖6 和圖7 分別表示RAP 網(wǎng)絡(luò)和SAP 網(wǎng)絡(luò)的訓(xùn)練損失曲線圖.RAP 網(wǎng)絡(luò)訓(xùn)練損失收斂于大概300 個epoch 時,SAP 訓(xùn)練損失收斂于100 個epoch 左右,且之后都保持在一個較低的損失.特別注意的是,雖然SAP損失在圖中表示的波動較大,實(shí)際上收斂于(0.5,0.7)區(qū)間,明顯較之前損失低且穩(wěn)定,同時也說明兩個神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)結(jié)構(gòu)和參數(shù)設(shè)計合理,能夠快速的訓(xùn)練網(wǎng)絡(luò),促進(jìn)DS-MCTS方法對信源導(dǎo)航的高效決策.
圖6 RAP網(wǎng)絡(luò)訓(xùn)練損失圖
圖7 SAP網(wǎng)絡(luò)訓(xùn)練損失圖
圖8 表示智能體在訓(xùn)練期間每次迭代信源導(dǎo)航的步數(shù)圖線,該實(shí)驗(yàn)信號源位置保持不變設(shè)置為[10,10],智能體的位置每次迭代均隨機(jī)生成(距離信號源不低于10),信號場分布均值為1,方差為1.7,智能體可選8個動作方向.由圖8 可知,智能體在開始25 次迭代次數(shù)中,步數(shù)顯著較高,說明智能體并未找到一條最優(yōu)信源導(dǎo)航路徑或者未能在迭代終止條件前成功尋找到信號源.同時,通過信源導(dǎo)航期間中不斷的訓(xùn)練SAP 和RAP 網(wǎng)絡(luò),在迭代60 次之后,步數(shù)穩(wěn)定在20 步左右,說明智能體能以較快速度收斂到信號源,以及本文提出的DS-MCTS 方法能夠在學(xué)習(xí)中不斷優(yōu)化.實(shí)驗(yàn)中智能體通過多次迭代學(xué)習(xí)到一個對于當(dāng)前信源環(huán)境的最佳路徑規(guī)劃策略,并在之后的迭代步數(shù)中應(yīng)用該策略尋找信號源,說明本方法具有非常穩(wěn)定的性能表現(xiàn).
圖8 迭代步數(shù)圖
本文在對所提出的DS-MCTS 方法進(jìn)行驗(yàn)證的同時,還使用梯度下降法(Gradient Descent,GD)[33]、蒙特卡洛樹與高斯過程(Monte Carlo Tree Search with Gaussian Process,MCTS-GP)結(jié)合方法[34]作對比.在相同的信源環(huán)境下,隨機(jī)進(jìn)行100次仿真實(shí)驗(yàn),每次實(shí)驗(yàn)的初始位置隨機(jī)設(shè)定.分別對3 種方法進(jìn)行信源導(dǎo)航實(shí)驗(yàn),并將每次實(shí)驗(yàn)迭代的步數(shù)從小到大排序,結(jié)果如圖9 和表3所示.
表3 不同方法信源導(dǎo)航結(jié)果比較
圖9 不同方法對比實(shí)驗(yàn)步數(shù)
可以看出,單純梯度下降法雖然決策效率較高,但是相對于另外兩種方法,成功率明顯降低,難以滿足應(yīng)用需求;DS-MCTS和MCTS-GP的尋源成功率相近,但是本文提出DS-MCTS方法平均步數(shù)更低,執(zhí)行時間更少,效率更高;MCTS-GP 方法由于引入高斯過程預(yù)測模擬階段的獎勵,從而導(dǎo)致計算開銷大,決策時間顯著增加,在實(shí)際場景中難以滿足應(yīng)用實(shí)時性的需求,不利于推廣.由此可見,本文所提出的DS-MCTS 方法在點(diǎn)源環(huán)境下尋源具有良好的魯棒性和較高的效率.
本文探討了尋源的研究前景和研究意義,提出了DS-MCTS 方法和框架,并通過實(shí)驗(yàn)驗(yàn)證本文提出方法框架能大大提高智能體的信源導(dǎo)航成功率并降低信源搜索過程的導(dǎo)航時間.此外,本文提出的網(wǎng)絡(luò)還展示智能體在信源導(dǎo)航過程中能夠利用歷史數(shù)據(jù)信息準(zhǔn)確預(yù)測智能體的動作趨勢,為MCTS 算法決策提供先驗(yàn)知識,提升決策效果.同時,在MCTS 模擬階段中加入端到端的RAP 網(wǎng)絡(luò),提高了搜索效率以及獎勵分配精度,促進(jìn)蒙特卡洛樹最優(yōu)化決策.在后續(xù)研究中,如何在保持信源搜索效率的同時提高定位精度,將會是一個主要工作方向.