一種無(wú)人機(jī)自主避障與目標(biāo)追蹤方法

2022-07-12 14:18:50江未來(lái)徐國(guó)強(qiáng)王耀南

宇航學(xué)報(bào) 2022年6期

江未來(lái)，徐國(guó)強(qiáng)，王耀南

(1. 湖南大學(xué)電氣與信息工程學(xué)院，長(zhǎng)沙 410082；2. 湖南大學(xué)機(jī)器人視覺(jué)感知與控制技術(shù)國(guó)家工程研究中心，長(zhǎng)沙 410082)

0 引言

深度強(qiáng)化學(xué)習(xí)已被成功應(yīng)用于機(jī)器人、無(wú)人駕駛及電力系統(tǒng)等領(lǐng)域，是當(dāng)前人工智能領(lǐng)域研究熱點(diǎn)之一。深度強(qiáng)化學(xué)習(xí)算法由于具有一定的自主學(xué)習(xí)和環(huán)境泛化能力，可有效應(yīng)對(duì)靜態(tài)或動(dòng)態(tài)環(huán)境下的無(wú)人機(jī)自主避障與目標(biāo)追蹤任務(wù)，相較于傳統(tǒng)的避障與追蹤算法在智能性和靈活性方面體現(xiàn)出明顯的優(yōu)勢(shì)，得到了國(guó)內(nèi)外學(xué)者的廣泛研究。

文獻(xiàn)[9-10]將比例-積分-微分(PID)算法與Q-Learning算法結(jié)合，實(shí)現(xiàn)無(wú)人機(jī)在靜態(tài)環(huán)境下的目標(biāo)搜索，但是Q-Learning算法僅適用于解決離散低維狀態(tài)空間問(wèn)題，未考慮狀態(tài)的連續(xù)變化。文獻(xiàn)[11-12]采用目標(biāo)檢測(cè)識(shí)別網(wǎng)絡(luò)，實(shí)現(xiàn)對(duì)目標(biāo)物體的定位與識(shí)別，利用位置信息作為決策網(wǎng)絡(luò)的輸入，從而輸出當(dāng)前動(dòng)作，讓無(wú)人機(jī)具備一定的自主避障能力，但是整個(gè)系統(tǒng)對(duì)運(yùn)算能力要求高，避障與追蹤的成功率難以保證。深度Q網(wǎng)絡(luò)(DQN)算法是由DeepMind團(tuán)隊(duì)在Q-learning算法的基礎(chǔ)上提出來(lái)的，它首次將深度學(xué)習(xí)與強(qiáng)化學(xué)習(xí)結(jié)合在一起，在許多電動(dòng)游戲中達(dá)到人類(lèi)玩家甚至超越人類(lèi)玩家的水準(zhǔn)。文獻(xiàn)[14-17]采用DQN算法實(shí)現(xiàn)無(wú)人機(jī)在二維環(huán)境中對(duì)目標(biāo)無(wú)人機(jī)的快速追蹤，同時(shí)可以準(zhǔn)確避障，但是其泛化能力有待進(jìn)一步提高。

針對(duì)上述算法在實(shí)現(xiàn)動(dòng)態(tài)環(huán)境下無(wú)人機(jī)自主避障與目標(biāo)追蹤的過(guò)程中所存在的成功率低、環(huán)境泛化能力弱等問(wèn)題，本文提出了一種改進(jìn)型深度強(qiáng)化學(xué)習(xí)算法——多經(jīng)驗(yàn)池深度Q網(wǎng)絡(luò)(MP-DQN)。首先，對(duì)DQN算法內(nèi)部的探索策略進(jìn)行改進(jìn)，提出了一種鼓舞式探索策略——-inspire，使得無(wú)人機(jī)對(duì)環(huán)境進(jìn)行合理探索。其次，提出了一種多經(jīng)驗(yàn)池機(jī)制，對(duì)成功與失敗經(jīng)驗(yàn)數(shù)據(jù)進(jìn)行劃分，相較于單個(gè)經(jīng)驗(yàn)池，該機(jī)制可以提升采樣數(shù)據(jù)的質(zhì)量，避免算法陷入局部最優(yōu)。另外，在獎(jiǎng)勵(lì)函數(shù)中設(shè)計(jì)了方向獎(jiǎng)懲，引導(dǎo)算法快速收斂。再者，為了提高無(wú)人機(jī)對(duì)環(huán)境的適應(yīng)性，增加了無(wú)人機(jī)對(duì)環(huán)境的感知能力。最后，仿真結(jié)果驗(yàn)證了所提方法的有效性。

1 無(wú)人機(jī)自主避障與目標(biāo)追蹤問(wèn)題描述

為了便于問(wèn)題的分析與求解，本文對(duì)無(wú)人機(jī)自主避障與目標(biāo)追蹤問(wèn)題進(jìn)行了抽象和簡(jiǎn)化，做出如下假設(shè)：

1)假設(shè)無(wú)人機(jī)處于定高飛行，則將三維空間壓縮至二維平面；

2)假設(shè)無(wú)人機(jī)的運(yùn)動(dòng)速度大小恒定；

3)假設(shè)無(wú)人機(jī)輸出的動(dòng)作為上、下、左、右。

滿(mǎn)足以上假設(shè)后，設(shè)定無(wú)人機(jī)在一片城市區(qū)域內(nèi)運(yùn)動(dòng)。采用柵格法將該區(qū)域離散化，并設(shè)定每個(gè)柵格的大小大于無(wú)人機(jī)的尺寸，確保無(wú)人機(jī)可以安全通過(guò)，如圖1所示。

圖1 自主避障與目標(biāo)追蹤示意圖

圖1中三角形表示追蹤者，圓形表示逃避者，正方形表示障礙物，陰影區(qū)域表示追蹤者可以感知到的環(huán)境范圍，實(shí)線(xiàn)箭頭表示追蹤者可以執(zhí)行的動(dòng)作，虛線(xiàn)箭頭表示追蹤者的運(yùn)動(dòng)軌跡(這里假定逃避者處于靜止?fàn)顟B(tài))。逃避者可以在柵格環(huán)境中保持靜止或隨機(jī)運(yùn)動(dòng)狀態(tài)，同時(shí)能夠自主躲避環(huán)境中的障礙物以及追蹤者的追擊，但是要保證其逃逸速度小于追蹤者的運(yùn)動(dòng)速度。追蹤者可以獲取到自身和逃避者的位置信息，并同時(shí)感知到周?chē)系K物信息。

本文的研究目標(biāo)是讓追蹤者僅在簡(jiǎn)單的環(huán)境中訓(xùn)練后，即可在不同復(fù)雜度與規(guī)格的地圖中以盡可能短的路徑實(shí)時(shí)追蹤處于靜止或運(yùn)動(dòng)狀態(tài)的逃避者，同時(shí)精準(zhǔn)規(guī)避環(huán)境中的障礙物。

2 無(wú)人機(jī)自主避障與目標(biāo)追蹤問(wèn)題建模

無(wú)人機(jī)在柵格環(huán)境中只能感知部分的環(huán)境信息，因此將其建模為部分可觀(guān)測(cè)的馬爾可夫決策過(guò)程(Partially observable Markov process, POMDP)。下面對(duì)模型中的觀(guān)測(cè)空間、動(dòng)作空間以及獎(jiǎng)勵(lì)函數(shù)進(jìn)行定義。

2.1 觀(guān)測(cè)空間

假定當(dāng)前追蹤者的坐標(biāo)為(,)，逃避者的坐標(biāo)為(,)，為了降低觀(guān)測(cè)空間的維度，采用二者之間的相對(duì)位置,作為位置觀(guān)測(cè)信息，即

(1)

式中：表示柵格環(huán)境寬度；表示柵格環(huán)境長(zhǎng)度。

追蹤者可以感知周?chē)糠汁h(huán)境，分別是上、下、左、右四個(gè)柵格的障礙物信息。具體的信息描述方式為

(2)

因此，追蹤者的觀(guān)測(cè)空間可以具體表示為

=[,,,,,]

(3)

式中：,表示相對(duì)位置信息；,,,表示障礙物觀(guān)測(cè)信息。

2.2 動(dòng)作空間

追蹤者的運(yùn)動(dòng)速度大小恒定，但是運(yùn)動(dòng)方向可變。策略π的輸出即為追蹤者的運(yùn)動(dòng)方向。定義追蹤者的動(dòng)作集合為，可表示為

={(0,-1),(0,1),(-1,0),(1,0)}

(4)

式中：四個(gè)元素分別表示上、下、左、右動(dòng)作向量。

當(dāng)追蹤者在環(huán)境邊界處欲跨出邊界時(shí)，其位置仍然保持當(dāng)前位置不變。追蹤者在每個(gè)時(shí)刻的位置更新方式為

(5)

式中：(,)表示追蹤者在時(shí)刻位置坐標(biāo)；(Δ, Δ)表示在時(shí)刻采取的動(dòng)作；(+1,+1)表示下一個(gè)時(shí)刻位置坐標(biāo)。

2.3 獎(jiǎng)勵(lì)函數(shù)

獎(jiǎng)勵(lì)函數(shù)是引導(dǎo)追蹤者進(jìn)行有效學(xué)習(xí)的關(guān)鍵，設(shè)計(jì)合理的獎(jiǎng)勵(lì)函數(shù)可以提升追蹤者的收斂速度與學(xué)習(xí)的穩(wěn)定性。稀疏獎(jiǎng)勵(lì)是一種簡(jiǎn)單的獎(jiǎng)勵(lì)函數(shù)，它僅在追蹤者處于終止?fàn)顟B(tài)時(shí)才會(huì)給予回報(bào)。當(dāng)追蹤者任務(wù)成功時(shí)反饋正向獎(jiǎng)勵(lì)，從而激勵(lì)追蹤者不斷強(qiáng)化采取的動(dòng)作序列。當(dāng)任務(wù)失敗時(shí)則施加懲罰，提醒追蹤者規(guī)避某些錯(cuò)誤行為。但是稀疏獎(jiǎng)勵(lì)需要追蹤者不斷探索環(huán)境，直至獲得正向獎(jiǎng)勵(lì)時(shí)追蹤者才能得到有效更新，這會(huì)降低學(xué)習(xí)效率，并且極易收斂至局部最優(yōu)解，甚至對(duì)于復(fù)雜環(huán)境，追蹤者由于難以探索到目標(biāo)狀態(tài)而導(dǎo)致算法無(wú)法收斂。因此，需要設(shè)計(jì)一種連續(xù)獎(jiǎng)勵(lì)函數(shù)，不斷引導(dǎo)追蹤者靠近目標(biāo)。

本文設(shè)計(jì)的獎(jiǎng)勵(lì)函數(shù)包括四個(gè)部分：終止獎(jiǎng)懲、步進(jìn)獎(jiǎng)懲、距離獎(jiǎng)懲和方向獎(jiǎng)懲。終止獎(jiǎng)懲的函數(shù)形式為

(6)

式中：為正實(shí)數(shù)，即追蹤者完成任務(wù)時(shí)給予獎(jiǎng)勵(lì)，任務(wù)失敗則施加懲罰。步進(jìn)獎(jiǎng)懲的函數(shù)形式為

(7)

式中：,均為正實(shí)數(shù)，并且>，即當(dāng)追蹤者采取跨出邊界的行為時(shí)獲得的懲罰比區(qū)域內(nèi)運(yùn)動(dòng)時(shí)獲得的懲罰大，其主要目的在于激勵(lì)追蹤者不要跨出指定區(qū)域，同時(shí)保持較短的追蹤路徑。距離獎(jiǎng)懲的函數(shù)形式為

(8)

式中：表示上一個(gè)時(shí)刻追蹤者距離逃避者的歐氏距離；表示當(dāng)前時(shí)刻的歐氏距離；表示距離的期望，本文設(shè)=0，即實(shí)現(xiàn)完全追蹤；表示距離獎(jiǎng)懲范圍，為正實(shí)數(shù)。式(8)表示當(dāng)追蹤者靠近逃避者時(shí)會(huì)獲得獎(jiǎng)勵(lì)，遠(yuǎn)離則會(huì)受到懲罰，并且越靠近逃避者獎(jiǎng)懲力度越大。方向獎(jiǎng)懲的函數(shù)形式為

(9)

式中：表示追蹤者的運(yùn)動(dòng)方向與追蹤者和逃避者連線(xiàn)方向之間的夾角，為正實(shí)數(shù)，具體描述如圖2所示。當(dāng)<π2時(shí)，表示追蹤者正在靠近逃避者，從而獲取環(huán)境給予的獎(jiǎng)勵(lì)。反之當(dāng)>π2時(shí)，表示追蹤者正在遠(yuǎn)離逃避者，從而受到環(huán)境施加的懲罰。

圖2 方向角示意圖

綜合以上四種獎(jiǎng)懲函數(shù)，最終的獎(jiǎng)勵(lì)函數(shù)為

=+++

(10)

3 MP-DQN算法

在DQN算法中，追蹤者與環(huán)境交互的經(jīng)驗(yàn)數(shù)據(jù)都會(huì)被放置在經(jīng)驗(yàn)池中，并且在每一輪迭代，追蹤者都會(huì)不斷從經(jīng)驗(yàn)池中隨機(jī)采樣數(shù)據(jù)來(lái)學(xué)習(xí)。因此，經(jīng)驗(yàn)池中數(shù)據(jù)的好壞決定網(wǎng)絡(luò)學(xué)習(xí)的效率。當(dāng)追蹤者陷入局部最優(yōu)時(shí)，相關(guān)動(dòng)作序列被不斷強(qiáng)化，此時(shí)追蹤者已經(jīng)難以從經(jīng)驗(yàn)池中學(xué)習(xí)到有效知識(shí)，致使其難以脫離局部最優(yōu)解。針對(duì)這個(gè)問(wèn)題，本文對(duì)DQN算法進(jìn)行改進(jìn)，提出一種MP-DQN算法，具體改進(jìn)點(diǎn)包括-inspire探索策略和多經(jīng)驗(yàn)池。

3.1 ε-inspire探索策略

追蹤者對(duì)未知環(huán)境的探索可以促進(jìn)追蹤者尋找全局最優(yōu)解。在前期學(xué)習(xí)過(guò)程中，追蹤者可以以較大的探索率探索環(huán)境。隨著迭代的進(jìn)行，追蹤者可能已經(jīng)逐漸找到最優(yōu)策略，應(yīng)當(dāng)減小探索率，強(qiáng)化追蹤者學(xué)習(xí)到的經(jīng)驗(yàn)知識(shí)。因此通常DQN算法采用的是變的-greedy策略，即隨著迭代次數(shù)的增加而緩慢增加，追蹤者的動(dòng)作選擇遵循

綜上所述,采取氧氣霧化吸入布地奈德混懸液聯(lián)合復(fù)方異丙托溴銨溶液治療喘息性支氣管炎療效明顯,副作用小,值得臨床推廣。通過(guò)精細(xì)有效的護(hù)理,使患兒家長(zhǎng)熟練掌握霧化吸入的方法,加強(qiáng)對(duì)于患兒及家長(zhǎng)的有關(guān)常識(shí)的宣教,確?；純杭凹议L(zhǎng)能夠積極配合治療,能夠極大程度地提升霧化吸入治療的效果。

(11)

但是在復(fù)雜的環(huán)境中，前期探索可能無(wú)法支持追蹤者找到最優(yōu)策略，或者雖已找到最優(yōu)策略，但由于還未得到強(qiáng)化，追蹤者再次陷入局部最優(yōu)。針對(duì)這個(gè)問(wèn)題，本文在-greedy策略上做了進(jìn)一步優(yōu)化，提出-inspire策略。其基本思想是如果追蹤者在一段時(shí)間內(nèi)始終沒(méi)有完成任務(wù)，則會(huì)減小，提升追蹤者的探索能力，直到追蹤者完成一次任務(wù)后才會(huì)緩慢增加，再次削弱追蹤者的探索能力。具體描述為

(12)

式中：表示追蹤者連續(xù)任務(wù)失敗的次數(shù)；表示追蹤者連續(xù)任務(wù)失敗的最大次數(shù)；表示設(shè)定的遺忘探索率。當(dāng)追蹤者連續(xù)失敗的次數(shù)達(dá)到設(shè)定的閾值時(shí)，強(qiáng)制=，從而提高探索能力，鼓勵(lì)追蹤者探索環(huán)境，搜索全局最優(yōu)解。

3.2 多經(jīng)驗(yàn)池

單純提升探索能力，雖然在一定程度上可以激勵(lì)追蹤者完成任務(wù)，但是算法收斂過(guò)程波動(dòng)劇烈，而且如果任務(wù)難度較大，追蹤者可能一直處于探索狀態(tài)，始終無(wú)法得到強(qiáng)化。為了進(jìn)一步保證追蹤者在可以脫離局部最優(yōu)解的前提下仍然能夠穩(wěn)定收斂，本文提出了多經(jīng)驗(yàn)池機(jī)制。前面分析過(guò)，當(dāng)追蹤者陷入局部最優(yōu)時(shí)，單個(gè)經(jīng)驗(yàn)池中的數(shù)據(jù)對(duì)于追蹤者來(lái)說(shuō)可學(xué)習(xí)性不強(qiáng)，引入多個(gè)經(jīng)驗(yàn)池后可以有效保證數(shù)據(jù)的質(zhì)量。

MP-DQN算法中包括三個(gè)經(jīng)驗(yàn)池：失敗經(jīng)驗(yàn)池P、成功經(jīng)驗(yàn)池P和臨時(shí)經(jīng)驗(yàn)池P。失敗經(jīng)驗(yàn)池存儲(chǔ)追蹤者任務(wù)失敗時(shí)產(chǎn)生的經(jīng)驗(yàn)數(shù)據(jù)，設(shè)其容量大小為。成功經(jīng)驗(yàn)池存儲(chǔ)追蹤者任務(wù)成功時(shí)產(chǎn)生的經(jīng)驗(yàn)數(shù)據(jù)或者是追蹤者能夠多次避開(kāi)周?chē)系K物的經(jīng)驗(yàn)數(shù)據(jù),設(shè)其容量大小為。而臨時(shí)經(jīng)驗(yàn)池則存儲(chǔ)當(dāng)前世代追蹤者產(chǎn)生的臨時(shí)經(jīng)驗(yàn)數(shù)據(jù)，設(shè)其容量大小為。當(dāng)臨時(shí)經(jīng)驗(yàn)池溢出時(shí)，如果追蹤者仍然沒(méi)有到達(dá)終止?fàn)顟B(tài)，則認(rèn)為過(guò)去的決策對(duì)現(xiàn)在具有積極影響，故將從臨時(shí)經(jīng)驗(yàn)池中溢出的數(shù)據(jù)存入成功經(jīng)驗(yàn)池，然后根據(jù)最終任務(wù)的成敗決定剩余所有數(shù)據(jù)的存儲(chǔ)位置。

MP-DQN算法更新時(shí)需要的數(shù)據(jù)分別從失敗經(jīng)驗(yàn)池與成功經(jīng)驗(yàn)池中按照一定的比例采樣獲取。這樣即使追蹤者陷入局部最優(yōu)，仍然可以從成功經(jīng)驗(yàn)池中獲取任務(wù)成功的經(jīng)驗(yàn)數(shù)據(jù)來(lái)學(xué)習(xí)，從而幫助追蹤者快速脫離局部最優(yōu)。假設(shè)追蹤者每次從成功經(jīng)驗(yàn)池中采樣數(shù)據(jù)的比例為，隨機(jī)采樣的總數(shù)據(jù)量為，則從成功經(jīng)驗(yàn)池與失敗經(jīng)驗(yàn)池中采樣的數(shù)據(jù)量分別為

(13)

式中：表示從成功經(jīng)驗(yàn)池中采樣的數(shù)據(jù)量；表示從失敗經(jīng)驗(yàn)池中采樣的數(shù)據(jù)量；表示當(dāng)前成功經(jīng)驗(yàn)池中的總數(shù)據(jù)量。具體算法流程如圖3所示。

圖3 MP-DQN算法結(jié)構(gòu)框圖

3.3 算法結(jié)構(gòu)與實(shí)現(xiàn)

圖4 MP-DQN算法網(wǎng)絡(luò)結(jié)構(gòu)

MP-DQN算法的具體實(shí)現(xiàn)流程如下:

初始化：臨時(shí)經(jīng)驗(yàn)池P(最大容量為)

成功經(jīng)驗(yàn)池P(最大容量為)

失敗經(jīng)驗(yàn)池P(最大容量為)

MP-DQN中評(píng)估網(wǎng)絡(luò)參數(shù)

MP-DQN中目標(biāo)網(wǎng)絡(luò)參數(shù)

執(zhí)行：

1)repeat

2)隨機(jī)初始化狀態(tài)

3)while≤do:

4)根據(jù)-inspire策略選擇動(dòng)作，追蹤者執(zhí)行該動(dòng)作并獲得環(huán)境反饋的即時(shí)獎(jiǎng)勵(lì)和新的觀(guān)測(cè)信息′

5)將經(jīng)驗(yàn)(,,,′,done)存入P，若P溢出，將溢出的數(shù)據(jù)存入P

7)計(jì)算目標(biāo)值：

8)更新評(píng)估網(wǎng)絡(luò)參數(shù)以減?。?/p>

10)軟更新目標(biāo)網(wǎng)絡(luò)參數(shù):=+(1-)

11)if done:

12)如果追蹤者任務(wù)成功，將P中的數(shù)據(jù)一次性全部放入P；如果追蹤者任務(wù)失敗，則將P中的數(shù)據(jù)一次性全部放入P

13)end if

14)end while

15)until最大訓(xùn)練回合數(shù)

4 仿真校驗(yàn)

本文在Python環(huán)境下，基于Tensorflow 2.2與CUDA10.2框架構(gòu)建MP-DQN算法網(wǎng)絡(luò)。評(píng)估網(wǎng)絡(luò)更新參數(shù)時(shí)采用的優(yōu)化器為Adma，學(xué)習(xí)率設(shè)置為0.01，目標(biāo)網(wǎng)絡(luò)軟更新時(shí)的學(xué)習(xí)率設(shè)置為0.01，網(wǎng)絡(luò)學(xué)習(xí)時(shí)隨機(jī)采樣的總數(shù)據(jù)量設(shè)置為32，每次從成功經(jīng)驗(yàn)池與失敗經(jīng)驗(yàn)池中采樣數(shù)據(jù)比例設(shè)置為0.85。為了保證網(wǎng)絡(luò)可以收斂，設(shè)置迭代的最大幕數(shù)為1000。為了平衡未來(lái)與即時(shí)獎(jiǎng)勵(lì)，折扣系數(shù)設(shè)置為0.9。對(duì)于-inspire策略，最小探索率設(shè)置為0，最大探索率設(shè)置為0.99，探索率增量Δ設(shè)置為0.001，追蹤者連續(xù)任務(wù)失敗的最大次數(shù)設(shè)置為50，遺忘探索率設(shè)置為0.8。成功經(jīng)驗(yàn)池與失敗經(jīng)驗(yàn)池的最大容量相同，均設(shè)置為2000。如果追蹤者在15步以?xún)?nèi)仍然沒(méi)有進(jìn)入終止?fàn)顟B(tài)，則認(rèn)為之前的決策具有一定的價(jià)值，需要將經(jīng)驗(yàn)數(shù)據(jù)保存到成功經(jīng)驗(yàn)池中，故將臨時(shí)經(jīng)驗(yàn)池的最大容量設(shè)置為15。針對(duì)獎(jiǎng)勵(lì)函數(shù)，終止獎(jiǎng)懲中設(shè)置為20，步進(jìn)獎(jiǎng)懲中設(shè)置為1，設(shè)置為0.5，距離獎(jiǎng)懲中設(shè)置為2，方差設(shè)置為0.5，方向獎(jiǎng)懲中設(shè)置為5。

4.1 MP-DQN算法驗(yàn)證

仿真環(huán)境為一個(gè)12×12的柵格地圖。逃避者在環(huán)境中做隨機(jī)運(yùn)動(dòng)，可以自主躲避障礙物與追蹤者，其運(yùn)動(dòng)速度設(shè)定為追蹤者速度一半。實(shí)驗(yàn)規(guī)定最大步數(shù)為60步，超過(guò)該閾值則終止當(dāng)前世代。追蹤者每次任務(wù)成功后，逃避者下一次都會(huì)隨機(jī)選擇一個(gè)出生點(diǎn)，以增強(qiáng)任務(wù)的隨機(jī)性。分別采用DQN、DDQN以及MP-DQN算法進(jìn)行測(cè)試，測(cè)試結(jié)果如圖5、6、7所示。

圖5 三種算法累計(jì)獎(jiǎng)勵(lì)曲線(xiàn)

圖5是三種算法在每個(gè)回合的累計(jì)獎(jiǎng)勵(lì)曲線(xiàn)，MP-DQN和DQN均在200步左右時(shí)收斂，但MP-DQN算法的收斂速度稍快，DDQN算法效果最差。圖6為追蹤者在訓(xùn)練階段的成功率曲線(xiàn)，MP-DQN算法的成功率始終最高；另外對(duì)訓(xùn)練好的追蹤者進(jìn)行測(cè)試，MP-DQN算法的成功率仍然最高，并且始終為1。圖7為追蹤者和逃避者某一次的運(yùn)動(dòng)路徑，其中小三角形和圓形分別表示追蹤者與逃避者運(yùn)動(dòng)路徑上的點(diǎn)，追蹤者不僅可以準(zhǔn)確避障，還能夠快速追蹤逃避者。因此，MP-DQN算法可以有效提高追蹤者的收斂速度及避障與追蹤的成功率。

圖6 三種算法訓(xùn)練成功率曲線(xiàn)

圖7 12×12柵格地圖追蹤路徑

4.2 方向獎(jiǎng)懲驗(yàn)證

采用4.1所述的仿真環(huán)境，分別討論獎(jiǎng)勵(lì)函數(shù)中包含(with_angle_reward)與不含方向獎(jiǎng)懲(without_angle_reward)情形，觀(guān)察其對(duì)追蹤者的任務(wù)執(zhí)行是否存在影響。利用MP-DQN算法進(jìn)行對(duì)比實(shí)驗(yàn)，仿真結(jié)果如圖8、9、10所示。

圖8 方向獎(jiǎng)懲-累計(jì)獎(jiǎng)勵(lì)曲線(xiàn)

圖8是累計(jì)獎(jiǎng)勵(lì)曲線(xiàn)，通過(guò)對(duì)比可以看出加入方向獎(jiǎng)懲后算法大約在200步時(shí)已經(jīng)基本收斂，而在去掉方向獎(jiǎng)懲后算法大約在400步時(shí)才進(jìn)入收斂狀態(tài)。圖9是累計(jì)步數(shù)曲線(xiàn)，可以明顯看出加入方向獎(jiǎng)懲后，追蹤者可以以較少的步數(shù)追趕上逃避者，實(shí)現(xiàn)快速追蹤。圖10是追蹤者在訓(xùn)練階段的追蹤成功率曲線(xiàn)，通過(guò)對(duì)比發(fā)現(xiàn)加入方向獎(jiǎng)懲后顯著提升了追蹤者的收斂速度和避障與追蹤的成功率；另外在測(cè)試階段，加入方向獎(jiǎng)懲的追蹤者成功率同樣更高。因此，方向獎(jiǎng)懲函數(shù)可以有效提高算法的整體性能。

圖9 方向獎(jiǎng)懲-累計(jì)步數(shù)曲線(xiàn)

圖10 方向獎(jiǎng)懲-訓(xùn)練成功率曲線(xiàn)

4.3 泛化能力驗(yàn)證

為了驗(yàn)證具備感知能力的無(wú)人機(jī)擁有環(huán)境泛化能力，本節(jié)利用前面已經(jīng)訓(xùn)練好的追蹤者，命名為追蹤者1號(hào)，將其應(yīng)用到全新的12×12的柵格地圖以及更大規(guī)模的16×16的柵格地圖中。為了進(jìn)行對(duì)比，本文重新訓(xùn)練一個(gè)不具備環(huán)境感知能力的追蹤者，命名為追蹤者2號(hào)。分別將它們?cè)谏鲜霏h(huán)境中測(cè)試1000輪。最后統(tǒng)計(jì)它們的追蹤成功率，結(jié)果顯示追蹤者1號(hào)的成功率始終為1，而追蹤者2號(hào)的成功率幾乎為0，即追蹤者1號(hào)具備更強(qiáng)的環(huán)境泛化能力。主要原因在于追蹤者2號(hào)在環(huán)境中學(xué)習(xí)時(shí)，學(xué)會(huì)的是整張地圖的環(huán)境信息，而不是避障能力。當(dāng)環(huán)境信息發(fā)生變化時(shí)，以前的知識(shí)不具有普遍性，因而追蹤成功率低。而追蹤者1號(hào)在環(huán)境中學(xué)習(xí)時(shí)，通過(guò)感知周?chē)h(huán)境，再結(jié)合自身與逃避者之間的相對(duì)位置信息，通過(guò)不斷訓(xùn)練最終學(xué)習(xí)到了避障及追蹤的能力。因此，即使面對(duì)新的環(huán)境，也可以保證穩(wěn)定的避障及追蹤性能。圖11為追蹤者1號(hào)和逃避者在16×16的柵格地圖中某一次的運(yùn)動(dòng)路徑。

圖11 16×16柵格地圖追蹤路徑

5 結(jié) 論

針對(duì)深度強(qiáng)化學(xué)習(xí)算法在實(shí)現(xiàn)動(dòng)態(tài)環(huán)境下無(wú)人機(jī)自主避障與目標(biāo)追蹤的過(guò)程中所存在的成功率低、環(huán)境泛化能力弱等問(wèn)題，本文做了以下工作：提出了改進(jìn)型深度強(qiáng)化學(xué)習(xí)算法MP-DQN；在獎(jiǎng)勵(lì)函數(shù)中設(shè)計(jì)了方向獎(jiǎng)懲函數(shù)；賦予無(wú)人機(jī)環(huán)境感知能力。仿真結(jié)果表明，MP-DQN算法較DQN和DDQN算法具有更快的收斂速度和更高的避障與追蹤成功率；引入方向獎(jiǎng)懲后，顯著提升了算法的整體性能，包括追蹤路徑、收斂速度和追蹤速度；擁有環(huán)境感知能力的無(wú)人機(jī)只需在簡(jiǎn)單的地圖中訓(xùn)練即可應(yīng)用于不同規(guī)格及復(fù)雜度的環(huán)境，具備良好的環(huán)境泛化能力。

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看