江未來(lái),徐國(guó)強(qiáng),王耀南
(1. 湖南大學(xué)電氣與信息工程學(xué)院,長(zhǎng)沙 410082;2. 湖南大學(xué)機(jī)器人視覺(jué)感知與控制技術(shù)國(guó)家工程研究中心,長(zhǎng)沙 410082)
深度強(qiáng)化學(xué)習(xí)已被成功應(yīng)用于機(jī)器人、無(wú)人駕駛及電力系統(tǒng)等領(lǐng)域,是當(dāng)前人工智能領(lǐng)域研究熱點(diǎn)之一。深度強(qiáng)化學(xué)習(xí)算法由于具有一定的自主學(xué)習(xí)和環(huán)境泛化能力,可有效應(yīng)對(duì)靜態(tài)或動(dòng)態(tài)環(huán)境下的無(wú)人機(jī)自主避障與目標(biāo)追蹤任務(wù),相較于傳統(tǒng)的避障與追蹤算法在智能性和靈活性方面體現(xiàn)出明顯的優(yōu)勢(shì),得到了國(guó)內(nèi)外學(xué)者的廣泛研究。
文獻(xiàn)[9-10]將比例-積分-微分(PID)算法與Q-Learning算法結(jié)合,實(shí)現(xiàn)無(wú)人機(jī)在靜態(tài)環(huán)境下的目標(biāo)搜索,但是Q-Learning算法僅適用于解決離散低維狀態(tài)空間問(wèn)題,未考慮狀態(tài)的連續(xù)變化。文獻(xiàn)[11-12]采用目標(biāo)檢測(cè)識(shí)別網(wǎng)絡(luò),實(shí)現(xiàn)對(duì)目標(biāo)物體的定位與識(shí)別,利用位置信息作為決策網(wǎng)絡(luò)的輸入,從而輸出當(dāng)前動(dòng)作,讓無(wú)人機(jī)具備一定的自主避障能力,但是整個(gè)系統(tǒng)對(duì)運(yùn)算能力要求高,避障與追蹤的成功率難以保證。深度Q網(wǎng)絡(luò)(DQN)算法是由DeepMind團(tuán)隊(duì)在Q-learning算法的基礎(chǔ)上提出來(lái)的,它首次將深度學(xué)習(xí)與強(qiáng)化學(xué)習(xí)結(jié)合在一起,在許多電動(dòng)游戲中達(dá)到人類(lèi)玩家甚至超越人類(lèi)玩家的水準(zhǔn)。文獻(xiàn)[14-17]采用DQN算法實(shí)現(xiàn)無(wú)人機(jī)在二維環(huán)境中對(duì)目標(biāo)無(wú)人機(jī)的快速追蹤,同時(shí)可以準(zhǔn)確避障,但是其泛化能力有待進(jìn)一步提高。
針對(duì)上述算法在實(shí)現(xiàn)動(dòng)態(tài)環(huán)境下無(wú)人機(jī)自主避障與目標(biāo)追蹤的過(guò)程中所存在的成功率低、環(huán)境泛化能力弱等問(wèn)題,本文提出了一種改進(jìn)型深度強(qiáng)化學(xué)習(xí)算法——多經(jīng)驗(yàn)池深度Q網(wǎng)絡(luò)(MP-DQN)。首先,對(duì)DQN算法內(nèi)部的探索策略進(jìn)行改進(jìn),提出了一種鼓舞式探索策略——-inspire,使得無(wú)人機(jī)對(duì)環(huán)境進(jìn)行合理探索。其次,提出了一種多經(jīng)驗(yàn)池機(jī)制,對(duì)成功與失敗經(jīng)驗(yàn)數(shù)據(jù)進(jìn)行劃分,相較于單個(gè)經(jīng)驗(yàn)池,該機(jī)制可以提升采樣數(shù)據(jù)的質(zhì)量,避免算法陷入局部最優(yōu)。另外,在獎(jiǎng)勵(lì)函數(shù)中設(shè)計(jì)了方向獎(jiǎng)懲,引導(dǎo)算法快速收斂。再者,為了提高無(wú)人機(jī)對(duì)環(huán)境的適應(yīng)性,增加了無(wú)人機(jī)對(duì)環(huán)境的感知能力。最后,仿真結(jié)果驗(yàn)證了所提方法的有效性。
為了便于問(wèn)題的分析與求解,本文對(duì)無(wú)人機(jī)自主避障與目標(biāo)追蹤問(wèn)題進(jìn)行了抽象和簡(jiǎn)化,做出如下假設(shè):
1)假設(shè)無(wú)人機(jī)處于定高飛行,則將三維空間壓縮至二維平面;
2)假設(shè)無(wú)人機(jī)的運(yùn)動(dòng)速度大小恒定;
3)假設(shè)無(wú)人機(jī)輸出的動(dòng)作為上、下、左、右。
滿(mǎn)足以上假設(shè)后,設(shè)定無(wú)人機(jī)在一片城市區(qū)域內(nèi)運(yùn)動(dòng)。采用柵格法將該區(qū)域離散化,并設(shè)定每個(gè)柵格的大小大于無(wú)人機(jī)的尺寸,確保無(wú)人機(jī)可以安全通過(guò),如圖1所示。
圖1 自主避障與目標(biāo)追蹤示意圖
圖1中三角形表示追蹤者,圓形表示逃避者,正方形表示障礙物,陰影區(qū)域表示追蹤者可以感知到的環(huán)境范圍,實(shí)線(xiàn)箭頭表示追蹤者可以執(zhí)行的動(dòng)作,虛線(xiàn)箭頭表示追蹤者的運(yùn)動(dòng)軌跡(這里假定逃避者處于靜止?fàn)顟B(tài))。逃避者可以在柵格環(huán)境中保持靜止或隨機(jī)運(yùn)動(dòng)狀態(tài),同時(shí)能夠自主躲避環(huán)境中的障礙物以及追蹤者的追擊,但是要保證其逃逸速度小于追蹤者的運(yùn)動(dòng)速度。追蹤者可以獲取到自身和逃避者的位置信息,并同時(shí)感知到周?chē)系K物信息。
本文的研究目標(biāo)是讓追蹤者僅在簡(jiǎn)單的環(huán)境中訓(xùn)練后,即可在不同復(fù)雜度與規(guī)格的地圖中以盡可能短的路徑實(shí)時(shí)追蹤處于靜止或運(yùn)動(dòng)狀態(tài)的逃避者,同時(shí)精準(zhǔn)規(guī)避環(huán)境中的障礙物。
無(wú)人機(jī)在柵格環(huán)境中只能感知部分的環(huán)境信息,因此將其建模為部分可觀(guān)測(cè)的馬爾可夫決策過(guò)程(Partially observable Markov process, POMDP)。下面對(duì)模型中的觀(guān)測(cè)空間、動(dòng)作空間以及獎(jiǎng)勵(lì)函數(shù)進(jìn)行定義。
假定當(dāng)前追蹤者的坐標(biāo)為(,),逃避者的坐標(biāo)為(,),為了降低觀(guān)測(cè)空間的維度,采用二者之間的相對(duì)位置,作為位置觀(guān)測(cè)信息,即
(1)
式中:表示柵格環(huán)境寬度;表示柵格環(huán)境長(zhǎng)度。
追蹤者可以感知周?chē)糠汁h(huán)境,分別是上、下、左、右四個(gè)柵格的障礙物信息。具體的信息描述方式為
(2)
因此,追蹤者的觀(guān)測(cè)空間可以具體表示為
=[,,,,,]
(3)
式中:,表示相對(duì)位置信息;,,,表示障礙物觀(guān)測(cè)信息。
追蹤者的運(yùn)動(dòng)速度大小恒定,但是運(yùn)動(dòng)方向可變。策略π的輸出即為追蹤者的運(yùn)動(dòng)方向。定義追蹤者的動(dòng)作集合為,可表示為
={(0,-1),(0,1),(-1,0),(1,0)}
(4)
式中:四個(gè)元素分別表示上、下、左、右動(dòng)作向量。
當(dāng)追蹤者在環(huán)境邊界處欲跨出邊界時(shí),其位置仍然保持當(dāng)前位置不變。追蹤者在每個(gè)時(shí)刻的位置更新方式為
(5)
式中:(,)表示追蹤者在時(shí)刻位置坐標(biāo);(Δ, Δ)表示在時(shí)刻采取的動(dòng)作;(+1,+1)表示下一個(gè)時(shí)刻位置坐標(biāo)。
獎(jiǎng)勵(lì)函數(shù)是引導(dǎo)追蹤者進(jìn)行有效學(xué)習(xí)的關(guān)鍵,設(shè)計(jì)合理的獎(jiǎng)勵(lì)函數(shù)可以提升追蹤者的收斂速度與學(xué)習(xí)的穩(wěn)定性。稀疏獎(jiǎng)勵(lì)是一種簡(jiǎn)單的獎(jiǎng)勵(lì)函數(shù),它僅在追蹤者處于終止?fàn)顟B(tài)時(shí)才會(huì)給予回報(bào)。當(dāng)追蹤者任務(wù)成功時(shí)反饋正向獎(jiǎng)勵(lì),從而激勵(lì)追蹤者不斷強(qiáng)化采取的動(dòng)作序列。當(dāng)任務(wù)失敗時(shí)則施加懲罰,提醒追蹤者規(guī)避某些錯(cuò)誤行為。但是稀疏獎(jiǎng)勵(lì)需要追蹤者不斷探索環(huán)境,直至獲得正向獎(jiǎng)勵(lì)時(shí)追蹤者才能得到有效更新,這會(huì)降低學(xué)習(xí)效率,并且極易收斂至局部最優(yōu)解,甚至對(duì)于復(fù)雜環(huán)境,追蹤者由于難以探索到目標(biāo)狀態(tài)而導(dǎo)致算法無(wú)法收斂。因此,需要設(shè)計(jì)一種連續(xù)獎(jiǎng)勵(lì)函數(shù),不斷引導(dǎo)追蹤者靠近目標(biāo)。
本文設(shè)計(jì)的獎(jiǎng)勵(lì)函數(shù)包括四個(gè)部分:終止獎(jiǎng)懲、步進(jìn)獎(jiǎng)懲、距離獎(jiǎng)懲和方向獎(jiǎng)懲。終止獎(jiǎng)懲的函數(shù)形式為
(6)
式中:為正實(shí)數(shù),即追蹤者完成任務(wù)時(shí)給予獎(jiǎng)勵(lì),任務(wù)失敗則施加懲罰。步進(jìn)獎(jiǎng)懲的函數(shù)形式為
(7)
式中:,均為正實(shí)數(shù),并且>,即當(dāng)追蹤者采取跨出邊界的行為時(shí)獲得的懲罰比區(qū)域內(nèi)運(yùn)動(dòng)時(shí)獲得的懲罰大,其主要目的在于激勵(lì)追蹤者不要跨出指定區(qū)域,同時(shí)保持較短的追蹤路徑。距離獎(jiǎng)懲的函數(shù)形式為
(8)
式中:表示上一個(gè)時(shí)刻追蹤者距離逃避者的歐氏距離;表示當(dāng)前時(shí)刻的歐氏距離;表示距離的期望,本文設(shè)=0,即實(shí)現(xiàn)完全追蹤;表示距離獎(jiǎng)懲范圍,為正實(shí)數(shù)。式(8)表示當(dāng)追蹤者靠近逃避者時(shí)會(huì)獲得獎(jiǎng)勵(lì),遠(yuǎn)離則會(huì)受到懲罰,并且越靠近逃避者獎(jiǎng)懲力度越大。方向獎(jiǎng)懲的函數(shù)形式為
(9)
式中:表示追蹤者的運(yùn)動(dòng)方向與追蹤者和逃避者連線(xiàn)方向之間的夾角,為正實(shí)數(shù),具體描述如圖2所示。當(dāng)<π2時(shí),表示追蹤者正在靠近逃避者,從而獲取環(huán)境給予的獎(jiǎng)勵(lì)。反之當(dāng)>π2時(shí),表示追蹤者正在遠(yuǎn)離逃避者,從而受到環(huán)境施加的懲罰。
圖2 方向角示意圖
綜合以上四種獎(jiǎng)懲函數(shù),最終的獎(jiǎng)勵(lì)函數(shù)為
=+++
(10)
在DQN算法中,追蹤者與環(huán)境交互的經(jīng)驗(yàn)數(shù)據(jù)都會(huì)被放置在經(jīng)驗(yàn)池中,并且在每一輪迭代,追蹤者都會(huì)不斷從經(jīng)驗(yàn)池中隨機(jī)采樣數(shù)據(jù)來(lái)學(xué)習(xí)。因此,經(jīng)驗(yàn)池中數(shù)據(jù)的好壞決定網(wǎng)絡(luò)學(xué)習(xí)的效率。當(dāng)追蹤者陷入局部最優(yōu)時(shí),相關(guān)動(dòng)作序列被不斷強(qiáng)化,此時(shí)追蹤者已經(jīng)難以從經(jīng)驗(yàn)池中學(xué)習(xí)到有效知識(shí),致使其難以脫離局部最優(yōu)解。針對(duì)這個(gè)問(wèn)題,本文對(duì)DQN算法進(jìn)行改進(jìn),提出一種MP-DQN算法,具體改進(jìn)點(diǎn)包括-inspire探索策略和多經(jīng)驗(yàn)池。
追蹤者對(duì)未知環(huán)境的探索可以促進(jìn)追蹤者尋找全局最優(yōu)解。在前期學(xué)習(xí)過(guò)程中,追蹤者可以以較大的探索率探索環(huán)境。隨著迭代的進(jìn)行,追蹤者可能已經(jīng)逐漸找到最優(yōu)策略,應(yīng)當(dāng)減小探索率,強(qiáng)化追蹤者學(xué)習(xí)到的經(jīng)驗(yàn)知識(shí)。因此通常DQN算法采用的是變的-greedy策略,即隨著迭代次數(shù)的增加而緩慢增加,追蹤者的動(dòng)作選擇遵循
綜上所述,采取氧氣霧化吸入布地奈德混懸液聯(lián)合復(fù)方異丙托溴銨溶液治療喘息性支氣管炎療效明顯,副作用小,值得臨床推廣。通過(guò)精細(xì)有效的護(hù)理,使患兒家長(zhǎng)熟練掌握霧化吸入的方法,加強(qiáng)對(duì)于患兒及家長(zhǎng)的有關(guān)常識(shí)的宣教,確?;純杭凹议L(zhǎng)能夠積極配合治療,能夠極大程度地提升霧化吸入治療的效果。
(11)
但是在復(fù)雜的環(huán)境中,前期探索可能無(wú)法支持追蹤者找到最優(yōu)策略,或者雖已找到最優(yōu)策略,但由于還未得到強(qiáng)化,追蹤者再次陷入局部最優(yōu)。針對(duì)這個(gè)問(wèn)題,本文在-greedy策略上做了進(jìn)一步優(yōu)化,提出-inspire策略。其基本思想是如果追蹤者在一段時(shí)間內(nèi)始終沒(méi)有完成任務(wù),則會(huì)減小,提升追蹤者的探索能力,直到追蹤者完成一次任務(wù)后才會(huì)緩慢增加,再次削弱追蹤者的探索能力。具體描述為
(12)
式中:表示追蹤者連續(xù)任務(wù)失敗的次數(shù);表示追蹤者連續(xù)任務(wù)失敗的最大次數(shù);表示設(shè)定的遺忘探索率。當(dāng)追蹤者連續(xù)失敗的次數(shù)達(dá)到設(shè)定的閾值時(shí),強(qiáng)制=,從而提高探索能力,鼓勵(lì)追蹤者探索環(huán)境,搜索全局最優(yōu)解。
單純提升探索能力,雖然在一定程度上可以激勵(lì)追蹤者完成任務(wù),但是算法收斂過(guò)程波動(dòng)劇烈,而且如果任務(wù)難度較大,追蹤者可能一直處于探索狀態(tài),始終無(wú)法得到強(qiáng)化。為了進(jìn)一步保證追蹤者在可以脫離局部最優(yōu)解的前提下仍然能夠穩(wěn)定收斂,本文提出了多經(jīng)驗(yàn)池機(jī)制。前面分析過(guò),當(dāng)追蹤者陷入局部最優(yōu)時(shí),單個(gè)經(jīng)驗(yàn)池中的數(shù)據(jù)對(duì)于追蹤者來(lái)說(shuō)可學(xué)習(xí)性不強(qiáng),引入多個(gè)經(jīng)驗(yàn)池后可以有效保證數(shù)據(jù)的質(zhì)量。
MP-DQN算法中包括三個(gè)經(jīng)驗(yàn)池:失敗經(jīng)驗(yàn)池P、成功經(jīng)驗(yàn)池P和臨時(shí)經(jīng)驗(yàn)池P。失敗經(jīng)驗(yàn)池存儲(chǔ)追蹤者任務(wù)失敗時(shí)產(chǎn)生的經(jīng)驗(yàn)數(shù)據(jù),設(shè)其容量大小為。成功經(jīng)驗(yàn)池存儲(chǔ)追蹤者任務(wù)成功時(shí)產(chǎn)生的經(jīng)驗(yàn)數(shù)據(jù)或者是追蹤者能夠多次避開(kāi)周?chē)系K物的經(jīng)驗(yàn)數(shù)據(jù),設(shè)其容量大小為。而臨時(shí)經(jīng)驗(yàn)池則存儲(chǔ)當(dāng)前世代追蹤者產(chǎn)生的臨時(shí)經(jīng)驗(yàn)數(shù)據(jù),設(shè)其容量大小為。當(dāng)臨時(shí)經(jīng)驗(yàn)池溢出時(shí),如果追蹤者仍然沒(méi)有到達(dá)終止?fàn)顟B(tài),則認(rèn)為過(guò)去的決策對(duì)現(xiàn)在具有積極影響,故將從臨時(shí)經(jīng)驗(yàn)池中溢出的數(shù)據(jù)存入成功經(jīng)驗(yàn)池,然后根據(jù)最終任務(wù)的成敗決定剩余所有數(shù)據(jù)的存儲(chǔ)位置。
MP-DQN算法更新時(shí)需要的數(shù)據(jù)分別從失敗經(jīng)驗(yàn)池與成功經(jīng)驗(yàn)池中按照一定的比例采樣獲取。這樣即使追蹤者陷入局部最優(yōu),仍然可以從成功經(jīng)驗(yàn)池中獲取任務(wù)成功的經(jīng)驗(yàn)數(shù)據(jù)來(lái)學(xué)習(xí),從而幫助追蹤者快速脫離局部最優(yōu)。假設(shè)追蹤者每次從成功經(jīng)驗(yàn)池中采樣數(shù)據(jù)的比例為,隨機(jī)采樣的總數(shù)據(jù)量為,則從成功經(jīng)驗(yàn)池與失敗經(jīng)驗(yàn)池中采樣的數(shù)據(jù)量分別為
(13)
式中:表示從成功經(jīng)驗(yàn)池中采樣的數(shù)據(jù)量;表示從失敗經(jīng)驗(yàn)池中采樣的數(shù)據(jù)量;表示當(dāng)前成功經(jīng)驗(yàn)池中的總數(shù)據(jù)量。具體算法流程如圖3所示。
圖3 MP-DQN算法結(jié)構(gòu)框圖
圖4 MP-DQN算法網(wǎng)絡(luò)結(jié)構(gòu)
MP-DQN算法的具體實(shí)現(xiàn)流程如下:
初始化:臨時(shí)經(jīng)驗(yàn)池P(最大容量為)
成功經(jīng)驗(yàn)池P(最大容量為)
失敗經(jīng)驗(yàn)池P(最大容量為)
MP-DQN中評(píng)估網(wǎng)絡(luò)參數(shù)
MP-DQN中目標(biāo)網(wǎng)絡(luò)參數(shù)
執(zhí)行:
1)repeat
2)隨機(jī)初始化狀態(tài)
3)while≤do:
4)根據(jù)-inspire策略選擇動(dòng)作,追蹤者執(zhí)行該動(dòng)作并獲得環(huán)境反饋的即時(shí)獎(jiǎng)勵(lì)和新的觀(guān)測(cè)信息′
5)將經(jīng)驗(yàn)(,,,′,done)存入P,若P溢出,將溢出的數(shù)據(jù)存入P
7)計(jì)算目標(biāo)值:
8)更新評(píng)估網(wǎng)絡(luò)參數(shù)以減?。?/p>
10)軟更新目標(biāo)網(wǎng)絡(luò)參數(shù):=+(1-)
11)if done:
12)如果追蹤者任務(wù)成功,將P中的數(shù)據(jù)一次性全部放入P;如果追蹤者任務(wù)失敗,則將P中的數(shù)據(jù)一次性全部放入P
13)end if
14)end while
15)until最大訓(xùn)練回合數(shù)
本文在Python環(huán)境下,基于Tensorflow 2.2與CUDA10.2框架構(gòu)建MP-DQN算法網(wǎng)絡(luò)。評(píng)估網(wǎng)絡(luò)更新參數(shù)時(shí)采用的優(yōu)化器為Adma,學(xué)習(xí)率設(shè)置為0.01,目標(biāo)網(wǎng)絡(luò)軟更新時(shí)的學(xué)習(xí)率設(shè)置為0.01,網(wǎng)絡(luò)學(xué)習(xí)時(shí)隨機(jī)采樣的總數(shù)據(jù)量設(shè)置為32,每次從成功經(jīng)驗(yàn)池與失敗經(jīng)驗(yàn)池中采樣數(shù)據(jù)比例設(shè)置為0.85。為了保證網(wǎng)絡(luò)可以收斂,設(shè)置迭代的最大幕數(shù)為1000。為了平衡未來(lái)與即時(shí)獎(jiǎng)勵(lì),折扣系數(shù)設(shè)置為0.9。對(duì)于-inspire策略,最小探索率設(shè)置為0,最大探索率設(shè)置為0.99,探索率增量Δ設(shè)置為0.001,追蹤者連續(xù)任務(wù)失敗的最大次數(shù)設(shè)置為50,遺忘探索率設(shè)置為0.8。成功經(jīng)驗(yàn)池與失敗經(jīng)驗(yàn)池的最大容量相同,均設(shè)置為2000。如果追蹤者在15步以?xún)?nèi)仍然沒(méi)有進(jìn)入終止?fàn)顟B(tài),則認(rèn)為之前的決策具有一定的價(jià)值,需要將經(jīng)驗(yàn)數(shù)據(jù)保存到成功經(jīng)驗(yàn)池中,故將臨時(shí)經(jīng)驗(yàn)池的最大容量設(shè)置為15。針對(duì)獎(jiǎng)勵(lì)函數(shù),終止獎(jiǎng)懲中設(shè)置為20,步進(jìn)獎(jiǎng)懲中設(shè)置為1,設(shè)置為0.5,距離獎(jiǎng)懲中設(shè)置為2,方差設(shè)置為0.5,方向獎(jiǎng)懲中設(shè)置為5。
仿真環(huán)境為一個(gè)12×12的柵格地圖。逃避者在環(huán)境中做隨機(jī)運(yùn)動(dòng),可以自主躲避障礙物與追蹤者,其運(yùn)動(dòng)速度設(shè)定為追蹤者速度一半。實(shí)驗(yàn)規(guī)定最大步數(shù)為60步,超過(guò)該閾值則終止當(dāng)前世代。追蹤者每次任務(wù)成功后,逃避者下一次都會(huì)隨機(jī)選擇一個(gè)出生點(diǎn),以增強(qiáng)任務(wù)的隨機(jī)性。分別采用DQN、DDQN以及MP-DQN算法進(jìn)行測(cè)試,測(cè)試結(jié)果如圖5、6、7所示。
圖5 三種算法累計(jì)獎(jiǎng)勵(lì)曲線(xiàn)
圖5是三種算法在每個(gè)回合的累計(jì)獎(jiǎng)勵(lì)曲線(xiàn),MP-DQN和DQN均在200步左右時(shí)收斂,但MP-DQN算法的收斂速度稍快,DDQN算法效果最差。圖6為追蹤者在訓(xùn)練階段的成功率曲線(xiàn),MP-DQN算法的成功率始終最高;另外對(duì)訓(xùn)練好的追蹤者進(jìn)行測(cè)試,MP-DQN算法的成功率仍然最高,并且始終為1。圖7為追蹤者和逃避者某一次的運(yùn)動(dòng)路徑,其中小三角形和圓形分別表示追蹤者與逃避者運(yùn)動(dòng)路徑上的點(diǎn),追蹤者不僅可以準(zhǔn)確避障,還能夠快速追蹤逃避者。因此,MP-DQN算法可以有效提高追蹤者的收斂速度及避障與追蹤的成功率。
圖6 三種算法訓(xùn)練成功率曲線(xiàn)
圖7 12×12柵格地圖追蹤路徑
采用4.1所述的仿真環(huán)境,分別討論獎(jiǎng)勵(lì)函數(shù)中包含(with_angle_reward)與不含方向獎(jiǎng)懲(without_angle_reward)情形,觀(guān)察其對(duì)追蹤者的任務(wù)執(zhí)行是否存在影響。利用MP-DQN算法進(jìn)行對(duì)比實(shí)驗(yàn),仿真結(jié)果如圖8、9、10所示。
圖8 方向獎(jiǎng)懲-累計(jì)獎(jiǎng)勵(lì)曲線(xiàn)
圖8是累計(jì)獎(jiǎng)勵(lì)曲線(xiàn),通過(guò)對(duì)比可以看出加入方向獎(jiǎng)懲后算法大約在200步時(shí)已經(jīng)基本收斂,而在去掉方向獎(jiǎng)懲后算法大約在400步時(shí)才進(jìn)入收斂狀態(tài)。圖9是累計(jì)步數(shù)曲線(xiàn),可以明顯看出加入方向獎(jiǎng)懲后,追蹤者可以以較少的步數(shù)追趕上逃避者,實(shí)現(xiàn)快速追蹤。圖10是追蹤者在訓(xùn)練階段的追蹤成功率曲線(xiàn),通過(guò)對(duì)比發(fā)現(xiàn)加入方向獎(jiǎng)懲后顯著提升了追蹤者的收斂速度和避障與追蹤的成功率;另外在測(cè)試階段,加入方向獎(jiǎng)懲的追蹤者成功率同樣更高。因此,方向獎(jiǎng)懲函數(shù)可以有效提高算法的整體性能。
圖9 方向獎(jiǎng)懲-累計(jì)步數(shù)曲線(xiàn)
圖10 方向獎(jiǎng)懲-訓(xùn)練成功率曲線(xiàn)
為了驗(yàn)證具備感知能力的無(wú)人機(jī)擁有環(huán)境泛化能力,本節(jié)利用前面已經(jīng)訓(xùn)練好的追蹤者,命名為追蹤者1號(hào),將其應(yīng)用到全新的12×12的柵格地圖以及更大規(guī)模的16×16的柵格地圖中。為了進(jìn)行對(duì)比,本文重新訓(xùn)練一個(gè)不具備環(huán)境感知能力的追蹤者,命名為追蹤者2號(hào)。分別將它們?cè)谏鲜霏h(huán)境中測(cè)試1000輪。最后統(tǒng)計(jì)它們的追蹤成功率,結(jié)果顯示追蹤者1號(hào)的成功率始終為1,而追蹤者2號(hào)的成功率幾乎為0,即追蹤者1號(hào)具備更強(qiáng)的環(huán)境泛化能力。主要原因在于追蹤者2號(hào)在環(huán)境中學(xué)習(xí)時(shí),學(xué)會(huì)的是整張地圖的環(huán)境信息,而不是避障能力。當(dāng)環(huán)境信息發(fā)生變化時(shí),以前的知識(shí)不具有普遍性,因而追蹤成功率低。而追蹤者1號(hào)在環(huán)境中學(xué)習(xí)時(shí),通過(guò)感知周?chē)h(huán)境,再結(jié)合自身與逃避者之間的相對(duì)位置信息,通過(guò)不斷訓(xùn)練最終學(xué)習(xí)到了避障及追蹤的能力。因此,即使面對(duì)新的環(huán)境,也可以保證穩(wěn)定的避障及追蹤性能。圖11為追蹤者1號(hào)和逃避者在16×16的柵格地圖中某一次的運(yùn)動(dòng)路徑。
圖11 16×16柵格地圖追蹤路徑
針對(duì)深度強(qiáng)化學(xué)習(xí)算法在實(shí)現(xiàn)動(dòng)態(tài)環(huán)境下無(wú)人機(jī)自主避障與目標(biāo)追蹤的過(guò)程中所存在的成功率低、環(huán)境泛化能力弱等問(wèn)題,本文做了以下工作:提出了改進(jìn)型深度強(qiáng)化學(xué)習(xí)算法MP-DQN;在獎(jiǎng)勵(lì)函數(shù)中設(shè)計(jì)了方向獎(jiǎng)懲函數(shù);賦予無(wú)人機(jī)環(huán)境感知能力。仿真結(jié)果表明,MP-DQN算法較DQN和DDQN算法具有更快的收斂速度和更高的避障與追蹤成功率;引入方向獎(jiǎng)懲后,顯著提升了算法的整體性能,包括追蹤路徑、收斂速度和追蹤速度;擁有環(huán)境感知能力的無(wú)人機(jī)只需在簡(jiǎn)單的地圖中訓(xùn)練即可應(yīng)用于不同規(guī)格及復(fù)雜度的環(huán)境,具備良好的環(huán)境泛化能力。