張 鳳,顧琦然,袁 帥
沈陽建筑大學(xué) 電氣與控制工程學(xué)院,沈陽 110168
路徑規(guī)劃是移動機(jī)器人的自主導(dǎo)航中十分關(guān)鍵的技術(shù)之一。為實(shí)現(xiàn)對移動機(jī)器人的運(yùn)動軌跡進(jìn)行有效的控制,使其能夠順利地通過各種障礙到達(dá)目的地,通常需要使用路徑規(guī)劃算法來保證獲得最優(yōu)路徑。傳統(tǒng)的路徑規(guī)劃方法過于依賴環(huán)境模型。而在深度強(qiáng)化學(xué)習(xí)中,深度學(xué)習(xí)能夠?qū)Ω呔S信息進(jìn)行有效的處理,從而使機(jī)器人能夠與周圍的環(huán)境進(jìn)行持續(xù)的互動;在馬爾可夫決策過程的基礎(chǔ)上,強(qiáng)化學(xué)習(xí)能夠在復(fù)雜的環(huán)境中,實(shí)現(xiàn)移動機(jī)器人的連續(xù)決策來規(guī)劃出實(shí)時(shí)路徑。深度強(qiáng)化學(xué)習(xí)已成為工業(yè)機(jī)器人和室內(nèi)移動機(jī)器人的路徑規(guī)劃方案之一[1],其最初用于游戲仿真領(lǐng)域中,Deep-Mind團(tuán)隊(duì)在2013年首次提出DQN(deep Q-network)模型[2]。當(dāng)前,DQN 算法已成為路徑規(guī)劃的主要算法之一,可是傳統(tǒng)的DQN算法存在著獎勵(lì)稀疏、樣本利用率低且過估計(jì)等問題。且針對這些問題,國內(nèi)外許多學(xué)者進(jìn)行了大量的研究。
對于獎勵(lì)稀疏問題,文獻(xiàn)[3]提出了一種基于DQN的路徑規(guī)劃算法,在此基礎(chǔ)上對實(shí)際目標(biāo)進(jìn)行采樣,加速訓(xùn)練,并在一定程度上解決了獎勵(lì)稀缺性問題。文獻(xiàn)[4]根據(jù)人的喜好來學(xué)習(xí)獎勵(lì)函數(shù),通過不使用獎勵(lì)功能,而是通過選擇路徑來獲得人類的喜好。文獻(xiàn)[5]采用虛擬計(jì)數(shù)方法,通過信息增益,將狀態(tài)頻率轉(zhuǎn)換為虛擬計(jì)數(shù),并將其作為附加的內(nèi)部獎勵(lì)。
文獻(xiàn)[6-12]分別通過RSV-DuDQN、二次主動采樣方法、NDQN、LSTM、重采樣優(yōu)選機(jī)制、輸入深度圖像等對DQN算法進(jìn)行改進(jìn),使DQN的性能得到了一定的改善,同時(shí)也解決了DQN的低采樣率問題。
對于DQN 過估計(jì)問題,許多學(xué)者也提出了不同的解決辦法。文獻(xiàn)[13]提出一種DTDDQN算法,通過融合DDQN 與平均DQN 進(jìn)行參數(shù)訓(xùn)練,使機(jī)器人在選擇動作時(shí)不會過估計(jì)。文獻(xiàn)[14]在DQN算法基礎(chǔ)上與Sarsa算法進(jìn)行融合,用于減少過估計(jì)對DQN 產(chǎn)生的不良影響。文獻(xiàn)[15]提出一種EN-DRQN 算法,使得機(jī)器人可以發(fā)現(xiàn)許多新穎狀態(tài),并作出合理的決策。文獻(xiàn)[16]提出使用重放緩沖器存儲網(wǎng)絡(luò)輸出以改進(jìn)DQN 算法,使機(jī)器人驅(qū)動功率提升。文獻(xiàn)[17]在DQN 中引入修正函數(shù)來改善評估功能,使?fàn)顟B(tài)-動作值的最優(yōu)與非最優(yōu)的差異增大,來解決過估計(jì)問題。文獻(xiàn)[18]提出了一種分散的傳感器級避碰策略,能夠?yàn)榇笮蜋C(jī)器人系統(tǒng)找到有效的、無碰撞的路徑。文獻(xiàn)[19]提出在Gazebo仿真環(huán)境中對DQN 進(jìn)行訓(xùn)練提升機(jī)器人的環(huán)境適應(yīng)性,降低過估計(jì)影響。
上述方法,一定程度上提高了DQN算法的性能,但只是針對過估計(jì)、樣本利用率低和稀疏獎勵(lì)中的單一問題進(jìn)行了有效改進(jìn),為了更有效地綜合性解決此類問題,提出一種基于CDM-D3QN-PER 的端到端路徑規(guī)劃算法。在機(jī)器人感知端引入LSTM,通過“門”篩選關(guān)鍵信息解決點(diǎn)云信息的長序列數(shù)據(jù)問題;其次,使用PER對具有較高優(yōu)先級的樣本進(jìn)行訓(xùn)練,解決樣本質(zhì)量的問題;接著融合CDM,增加機(jī)器人的內(nèi)在好奇心,避免出現(xiàn)機(jī)器人因缺乏反饋而陷入困境的問題,提高環(huán)境探索率。最后,利用Gazebo平臺對算法進(jìn)行驗(yàn)證,并在兩種不同的復(fù)雜仿真環(huán)境下,分別對DQN、DDQN、D3QN和CDM-D3QN-PER進(jìn)行了比較。實(shí)驗(yàn)表明,CDM-D3QNPER算法的穩(wěn)定性和到達(dá)目標(biāo)點(diǎn)次數(shù)得到有效提升,該算法使移動機(jī)器人在與環(huán)境交互中可更高效地獲取最優(yōu)路徑,在路經(jīng)規(guī)劃技術(shù)中具有一定的研究意義。
DQN 算法的兩個(gè)創(chuàng)新點(diǎn),即經(jīng)驗(yàn)回放與設(shè)立單獨(dú)的目標(biāo)網(wǎng)絡(luò)。DQN 針對Q-learning 做出一下改進(jìn):(1)DQN 中的數(shù)值函數(shù)是由深度CNN 逼近的。(2)在DQN中引入了一種基于經(jīng)驗(yàn)回放的訓(xùn)練模型。(3)DQN獨(dú)立地設(shè)定了用于分別處理時(shí)差算法TD誤差的目標(biāo)網(wǎng)絡(luò)。Q-learning中的參數(shù)更新公式如式(1)所示:
其中,TD 目標(biāo)r+γmaxa′Q( )s′,a′;θ在計(jì)算時(shí)用到了網(wǎng)絡(luò)參數(shù)θ。
Double DQN 主要是解決DQN 過估計(jì)問題[20]。該方法的關(guān)鍵在于利用不需要的值函數(shù),分別對TD 對象的行為進(jìn)行選擇以及對TD對象的行為評價(jià)。
在Q-learning中,TD對象的動作選擇是在下一種狀態(tài)下,被確定為最大的狀態(tài)動作。動作評價(jià)是在選擇下一種狀態(tài)下的最佳動作,從而構(gòu)建目標(biāo)。DDQN使用不同的數(shù)值函數(shù)來選取和評價(jià)動作。其更新公式見式(2):
由上式可以看出,動作的選擇采用θ網(wǎng)絡(luò),a*=arg maxaQ(St+1,a;θt)。動作評估采用θ′ ,1+γQ(St+1,a*;θ′t)。
Dueling DQN[21]把神經(jīng)網(wǎng)絡(luò)中Q價(jià)值的輸出分成兩部分,第一部分是狀態(tài)價(jià)值V,這部分價(jià)值由狀態(tài)直接決定和Action 無關(guān)。第二部分就是動作價(jià)值和狀態(tài)價(jià)值的差值A(chǔ),每一個(gè)Action都存在一個(gè)差值。這兩部分構(gòu)成倒數(shù)第二層的神經(jīng)網(wǎng)絡(luò),節(jié)點(diǎn)數(shù)為Action數(shù)加1。然后最后一層的Q值就可以直接由V和A相加構(gòu)成:
在實(shí)際操作中,需要減去一個(gè)平均值:
傳統(tǒng)DQN算法在復(fù)雜環(huán)境中因?yàn)槿狈﹃P(guān)鍵信息且獎勵(lì)稀疏,規(guī)劃任務(wù)很難成功,為了提高路徑規(guī)劃任務(wù),提出了一種基于改進(jìn)的雙Q網(wǎng)絡(luò)移動機(jī)器人路徑規(guī)劃方法——CDM-D3QN-PER算法。該算法在DDQN與Dueling DQN 融合的D3QN 模型的基礎(chǔ)上,加入LSTM、CDM 和PER。CDM-D3QN-PER 算法模型如圖1所示。
(1)移動機(jī)器人通過激光傳感器搜集環(huán)境信息,并將當(dāng)前時(shí)刻的狀態(tài)信息送入可專用于處理雷達(dá)產(chǎn)生的長序列點(diǎn)云信息的LSTM中。
(2)雙目相機(jī)將收集到的圖像信息經(jīng)過卷積神經(jīng)網(wǎng)絡(luò)處理,兩者信息與Concat 函數(shù)結(jié)合,輸入到D3QN 的輸入端進(jìn)行訓(xùn)練。
(3)獲取到Q值和當(dāng)前最優(yōu)執(zhí)行動作A,切換到下一時(shí)刻狀態(tài),將當(dāng)前和下一刻狀態(tài)信息輸入到CDM 模型,計(jì)算出前向損失函數(shù)與預(yù)測損失函數(shù)。
(4)將當(dāng)前和預(yù)測狀態(tài)信息輸入到CDM,獲取反向損失函數(shù),將兩個(gè)損失函數(shù)整體優(yōu)化并與預(yù)測損失函數(shù)對比,提高移動機(jī)器人環(huán)境探索效率,獲取更多獎勵(lì)值。不斷重復(fù)進(jìn)行以上過程,累積獎勵(lì)值最大化,直至得到最優(yōu)動作值函數(shù)Q對應(yīng)的最優(yōu)動作。
CDM-D3QN-PER算法具體流程如下所示:
CDM-D3QN-PER算法中采用內(nèi)在好奇心模塊(ⅠCM)和隨即網(wǎng)絡(luò)蒸餾(RND)結(jié)合的隨即網(wǎng)絡(luò)蒸餾(CDM)算法獲取內(nèi)在獎勵(lì)值。算法模型如圖2所示。
圖2 CDM模型Fig.2 CDM model
ⅠCM 模型通過對前時(shí)間狀態(tài)信息st和下一時(shí)間狀態(tài)信息st+1進(jìn)行特征提取計(jì)算出前向損失函數(shù)LF。輸入當(dāng)前動作at和預(yù)測動作a?t,計(jì)算出反向損失函數(shù)LI。RND模型通過輸入下一時(shí)間狀態(tài)信息st+1計(jì)算出預(yù)測損失函數(shù)LP。
二者結(jié)合后的CDM 算法既保留了ⅠCM 把無用信息過濾掉的優(yōu)勢,確定特征提取后的信息都是有用的信息并保持探索,同時(shí)兼顧了RND 判斷當(dāng)前狀態(tài)是否已經(jīng)探索過。
其中前向模型(forward model)利用L2范數(shù)作為損失函數(shù):
反向模型(inverse model)的損失函數(shù)為:
預(yù)測模型(predict model)的損失函數(shù)可表示為:
最后,機(jī)器人的學(xué)習(xí)目的是:
在D3QN算法中添加改進(jìn)后的內(nèi)在好奇心機(jī)制,將激光雷達(dá)采集的狀態(tài)信息st作為CDM 模型的輸入數(shù)據(jù),在訓(xùn)練時(shí)不斷優(yōu)化網(wǎng)絡(luò)參數(shù),通過好奇心驅(qū)動機(jī)器人在路徑規(guī)劃任務(wù)中主動探索未知狀態(tài)。
激光雷達(dá)能夠適應(yīng)不同的光照環(huán)境,長短時(shí)記憶網(wǎng)絡(luò)(LSTM)利用點(diǎn)云數(shù)據(jù)處理激光雷達(dá)采集到的環(huán)境與機(jī)器人狀態(tài)數(shù)據(jù),以解決長序列訓(xùn)練中的梯度消失、爆炸等問題。在路徑規(guī)劃中,收集到的數(shù)據(jù)經(jīng)過該網(wǎng)絡(luò)處理后得到統(tǒng)一的障礙物狀態(tài)與機(jī)器人自身狀態(tài)輸入到D3QN網(wǎng)絡(luò)中,再次經(jīng)過全連接層處理后輸出的便是用于選取最優(yōu)動作的動作值函數(shù)Q,LSTM 的結(jié)構(gòu)模型如圖3所示。
圖3 LSTM模型Fig.3 LSTM model
LSTM通過三個(gè)“門”機(jī)制完成信息的去留:
(1)首先,確定細(xì)胞狀態(tài)丟棄的信息由一個(gè)叫“遺忘之門”的sigmoid 單元進(jìn)行處理。在0 到1 之間,通過觀察ht-1和xt信息,可以輸出向量的保存還是放棄。
(2)利用ht-1和xt通過輸入門的操作來決定更新信息。通過輸入門得到新的機(jī)器人狀態(tài)信息。
(3)在更新狀態(tài)之后,要根據(jù)輸入的和來判斷輸出的狀態(tài),通過輸出端的sigmoid層獲得一個(gè)判定條件,再通過tanh層獲得-1的矢量,再用輸出端獲得的判定條件乘以這個(gè)矢量。
各單元門的工作原理公式如式(9)~(13)所示:
在路徑規(guī)劃中,DQN 的取樣方法采用了在經(jīng)驗(yàn)回放中均勻取樣,這種方法并不高效,對于機(jī)器人而言,由于這些數(shù)據(jù)的偏重性不同,針對該問題使用優(yōu)先經(jīng)驗(yàn)回放(PER)。該算法是指在均勻取樣中,給有較高學(xué)習(xí)效率的樣品以較大的取樣加權(quán)。定義采樣的概率為:
其中,Pα j對于第j個(gè)傳輸樣本的優(yōu)先權(quán),α被用來調(diào)整優(yōu)先度(當(dāng)α取零時(shí)化成均勻取樣),下面兩種方式的不同是優(yōu)先權(quán)的定義不同:
其中,δi為DQN的TD-error,?用于防止概率為0。
PER 將當(dāng)前狀態(tài)信息、下一個(gè)狀態(tài)信息、動作值等環(huán)境交互信息通過存儲到記憶回放單元中,并對其中的樣本以概率P進(jìn)行優(yōu)先級排序。
當(dāng)記憶回放單元里的樣本被儲存到一定容量時(shí),通過提取其中部分概率P高的樣本,將樣本中的當(dāng)前狀態(tài)信息輸入到Q網(wǎng)絡(luò)中,以獲取當(dāng)前狀態(tài)信息的Q值。
由于深度強(qiáng)化學(xué)習(xí)的訓(xùn)練要求有海量的數(shù)據(jù)支持,而且在實(shí)際操作中很可能會破壞硬件設(shè)備,所以大部分的訓(xùn)練都是在仿真環(huán)境中進(jìn)行。為了減少虛擬和真實(shí)場景中機(jī)器人可視測量的差異,即將激光測距技術(shù)應(yīng)用于實(shí)驗(yàn)環(huán)境中。
實(shí)驗(yàn)環(huán)境為CPU服務(wù)器,TensorFlow框架,Python3.6,Gazebo7.0,采用Jackal 四輪機(jī)器人在Gazebo 搭建仿真環(huán)境中進(jìn)行訓(xùn)練,其機(jī)器人帶有激光測距技術(shù)。Jackal四輪機(jī)器人通過對運(yùn)動中的實(shí)時(shí)定位進(jìn)行分析,并對其與障礙物及目標(biāo)點(diǎn)的距離進(jìn)行分析,將激光傳感器收集到相對自己坐標(biāo)的坐標(biāo)數(shù)據(jù)作為輸入,輸出連續(xù)的轉(zhuǎn)向指令,通過激光測距傳感器來實(shí)現(xiàn)探索最優(yōu)路徑。
在實(shí)驗(yàn)中,先把移動機(jī)器人的前向速度設(shè)置為:3 m/s,角速度為:0.03 rad/s,其余速度為:0.05 m/s。再構(gòu)建有障礙和無障礙的室內(nèi)環(huán)境進(jìn)行訓(xùn)練,來檢驗(yàn)DQN、DDQN、D3QN和CDM-D3QN-PER的算法性能。
如圖4、5 所示,仿真環(huán)境1 是四面圍墻都是完全封閉的,可以讓機(jī)器人在這里接受訓(xùn)練,從而達(dá)到躲避圍墻和抵達(dá)目的地的能力。仿真環(huán)境2是加入了5個(gè)正方體障礙物,分別是4個(gè)有規(guī)則和1個(gè)無規(guī)則,進(jìn)一步提高了機(jī)器人的路徑規(guī)劃難度,并使其具備了規(guī)避靜止障礙的能力,從而可以進(jìn)一步驗(yàn)證算法的穩(wěn)定性。
圖4 仿真環(huán)境1Fig.4 Simulation environment 1
圖5 仿真環(huán)境2Fig.5 Simulation environment 2
表1 為CDM-D3QN-PER 參數(shù)設(shè)置。在這里,探索因子ε起初值為1,ε∈(0.1,1),跟隨機(jī)器人的迭代數(shù)增大呈線性下降趨勢。經(jīng)網(wǎng)絡(luò)中的參數(shù)更新是基于均方根的隨機(jī)梯度遞減算法,根據(jù)每個(gè)緩存器的優(yōu)先回放機(jī)制,從緩沖區(qū)中抽取最小比特尺寸為32 的采樣更新網(wǎng)絡(luò)。為達(dá)到路徑規(guī)劃的目的,將運(yùn)動進(jìn)行離散化,其基礎(chǔ)運(yùn)動包括:向前、向左轉(zhuǎn)、向右轉(zhuǎn)、左轉(zhuǎn)彎、右轉(zhuǎn)彎。在基礎(chǔ)動作上修改不同速度值,使其增加到11 個(gè)離散的可執(zhí)行動作,動作名稱與速度值分別為A1(1,-1)、A2(1,-0.5)、A3(1,0)、A4(1,0.5)、A5(1,1)、A6(0.5,-1)、A7(0.5,0)、A8(0.5,1)、A9(0,-1)、A10(0,0)、A11(0,1)。
表1 仿真參數(shù)設(shè)置Table 1 Simulation parameters setting
獎賞值設(shè)置如式(17)所示:
在獎勵(lì)設(shè)定中,獎勵(lì)設(shè)定包含正、負(fù)兩個(gè)獎勵(lì),以1為單位的紅色圓筒為目標(biāo)點(diǎn),作用距離為0.8 m,移動機(jī)器人以影響距離閾值檢測到目標(biāo)位置,獲得+20 正獎勵(lì),持續(xù)訓(xùn)練,直到超過時(shí)間或者沖撞,才能繼續(xù)進(jìn)行下一輪;如果機(jī)器人在最小的影響范圍內(nèi)與障礙物發(fā)生碰撞,則獲得負(fù)值-20,本次訓(xùn)練結(jié)束,繼續(xù)進(jìn)行下一輪,完成指定的訓(xùn)練次數(shù)結(jié)束。訓(xùn)練次數(shù)是600回合。
(1)無障礙環(huán)境仿真分析
DQN、DDQN、D3QN 和CDM-D3QN-PER 這4 種算法的獎勵(lì)值隨訓(xùn)練步數(shù)的變化趨勢如圖6所示,可以明顯驗(yàn)證出CDM-D3QN-PER 算法的獎勵(lì)得分更加穩(wěn)定,在300回合逐漸穩(wěn)定收斂。D3QN在410回合開始穩(wěn)定收斂??蒁QN、DDQN 算法波動性較大,尤其是DQN幾乎完全波動,且兩者獎勵(lì)值均未出現(xiàn)穩(wěn)定收斂。
圖6 無障礙仿真環(huán)境累積獎勵(lì)值Fig.6 Accumulated reward value for empty simulation environment
由表2可知,CDM-D3QN-PER算法在301~600回合中,平均獎勵(lì)值穩(wěn)定達(dá)到了30左右,且均為正數(shù)并穩(wěn)定變化,在401~500 回合達(dá)到最大平均值30.82,其收斂效果遠(yuǎn)遠(yuǎn)超過其他3種算法。D3QN在401回合后平均獎勵(lì)值才剛剛穩(wěn)定在30左右,并在401~500回合達(dá)到最大平均獎勵(lì)值29.82。DDQN 在201~300 回合達(dá)到最大平均獎勵(lì)值15.60,且最終平均獎勵(lì)值為負(fù)數(shù)。DQN 平均獎勵(lì)值均為負(fù)數(shù),在101~200 回合達(dá)到最大平均獎勵(lì)值-5.59。
表2 無障礙環(huán)境的平均獎勵(lì)值Table 2 Average reward value of empty environment
以上結(jié)果表明,CDM-D3QN-PER 算法可以在較少的回合數(shù)中完成對移動機(jī)器人的訓(xùn)練,并獲得較高的平均獎勵(lì)值,在該算法下移動機(jī)器人可以更好地與無障礙環(huán)境進(jìn)行交互。
(2)有障礙環(huán)境仿真分析
從圖7可以看出,除了CDM-D3QN-PER算法在350回合左右開始穩(wěn)定收斂并已經(jīng)完全掌握躲避障礙物的能力,并且可以成功到達(dá)指定目標(biāo)點(diǎn),獲得相應(yīng)正向獎勵(lì)+20,其獎勵(lì)值穩(wěn)定在20 到40 以內(nèi)。D3QN 在450 回合剛剛開始收斂,其余兩種算法的獎勵(lì)值均一直在正負(fù)值波動。
圖7 有障礙仿真環(huán)境累積獎勵(lì)值Fig.7 Cumulative reward value of obstacle simulation environment
表3 表明,DQN 算法的平均獎勵(lì)值均為負(fù)值,說明移動機(jī)器人幾乎無法到達(dá)指定目標(biāo)點(diǎn)獲取最優(yōu)路徑。DDQN算法除了在前100回合獲得短暫的正值,且為最高平均獎勵(lì)值5.60。D3QN 在101~200 回合中為負(fù)值1.19,其余皆為正值,并在401~500 回合中獲得最高平均獎勵(lì)值11.39,雖然與DQN、DDQN 相比訓(xùn)練效果有提升,但是仍然會產(chǎn)生碰撞。CDM-D3QN-PER 算法雖然因?yàn)榄h(huán)境增加了障礙物訓(xùn)練效果略微有些影響,但平均獎勵(lì)值全為正值,最高平均獎勵(lì)值為26.01。而DQN 和DDQN 算法的總平均獎勵(lì)值皆為負(fù)數(shù),這表示移動機(jī)器人訓(xùn)練效果欠佳,不適合復(fù)雜度較高的有障礙環(huán)境,并且D3QN 的訓(xùn)練效果也遠(yuǎn)不如CDM-D3QNPER穩(wěn)定。
表3 有障礙環(huán)境的平均獎勵(lì)值Table 3 Average reward value of obstacle environment
以上結(jié)果表明,CDM-D3QN-PER算法可以在較少的迭代次數(shù)下達(dá)成對移動機(jī)器人在有障礙仿真環(huán)境的訓(xùn)練效果,并獲得較高的平均獎勵(lì)值,獲得最優(yōu)路徑。
移動機(jī)器人訓(xùn)練時(shí),獲取的正獎勵(lì)值越多,說明機(jī)器人的動作策略越準(zhǔn)確,在路徑規(guī)劃過程中,越容易繞開障礙物到達(dá)指定的目標(biāo)點(diǎn),最后得到的路徑也是越接近最優(yōu)的。
以成功率P(如式(18)所示),即移動機(jī)器人到達(dá)指定位置這一指標(biāo)分析,CDM-D3QN-PER 比其他3 種算法有明顯提高,CDM-D3QN-PER 在無障礙環(huán)境下600 回合中,有501 次到達(dá)了目標(biāo)點(diǎn),是DQN 算法到達(dá)次數(shù)的2.84 倍;在有障礙環(huán)境下,600 回合中,有428 次到達(dá)了目標(biāo)點(diǎn),是DQN算法到達(dá)次數(shù)的2.80倍。
在所有的600 回合中,Ng代表了成功完成任務(wù)的回合數(shù),N代表了訓(xùn)練中的全部回合。
本文在傳統(tǒng)DQN 算法的基礎(chǔ)上,提出了基于CDM-D3QN-PER 的路徑規(guī)劃方法。首先,該方法以D3QN 模型為基礎(chǔ),使Q 值函數(shù)的估計(jì)更加準(zhǔn)確。其次,在輸入端將多傳感器信息輸入到LSTM和CNN中,使環(huán)境信息得到更有效的處理。然后,PER 算法的利用給重要的樣本設(shè)置了優(yōu)先級,提高了樣本的利用率和網(wǎng)絡(luò)收斂的速度。最后,融入CDM 算法增加了機(jī)器人的內(nèi)在獎勵(lì)值,提高了對環(huán)境的探索率。實(shí)驗(yàn)結(jié)果表明,CDM-D3QN-PER 算法的收斂性遠(yuǎn)優(yōu)于其余三種算法,在移動機(jī)器人路徑規(guī)劃中具有更好的自適應(yīng)能力和穩(wěn)定性。