• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      一種無(wú)人機(jī)自主避障與目標(biāo)追蹤方法

      2022-07-12 14:18:50江未來(lái)徐國(guó)強(qiáng)王耀南
      宇航學(xué)報(bào) 2022年6期
      關(guān)鍵詞:獎(jiǎng)懲柵格成功率

      江未來(lái),徐國(guó)強(qiáng),王耀南

      (1. 湖南大學(xué)電氣與信息工程學(xué)院,長(zhǎng)沙 410082;2. 湖南大學(xué)機(jī)器人視覺(jué)感知與控制技術(shù)國(guó)家工程研究中心,長(zhǎng)沙 410082)

      0 引 言

      深度強(qiáng)化學(xué)習(xí)已被成功應(yīng)用于機(jī)器人、無(wú)人駕駛及電力系統(tǒng)等領(lǐng)域,是當(dāng)前人工智能領(lǐng)域研究熱點(diǎn)之一。深度強(qiáng)化學(xué)習(xí)算法由于具有一定的自主學(xué)習(xí)和環(huán)境泛化能力,可有效應(yīng)對(duì)靜態(tài)或動(dòng)態(tài)環(huán)境下的無(wú)人機(jī)自主避障與目標(biāo)追蹤任務(wù),相較于傳統(tǒng)的避障與追蹤算法在智能性和靈活性方面體現(xiàn)出明顯的優(yōu)勢(shì),得到了國(guó)內(nèi)外學(xué)者的廣泛研究。

      文獻(xiàn)[9-10]將比例-積分-微分(PID)算法與Q-Learning算法結(jié)合,實(shí)現(xiàn)無(wú)人機(jī)在靜態(tài)環(huán)境下的目標(biāo)搜索,但是Q-Learning算法僅適用于解決離散低維狀態(tài)空間問(wèn)題,未考慮狀態(tài)的連續(xù)變化。文獻(xiàn)[11-12]采用目標(biāo)檢測(cè)識(shí)別網(wǎng)絡(luò),實(shí)現(xiàn)對(duì)目標(biāo)物體的定位與識(shí)別,利用位置信息作為決策網(wǎng)絡(luò)的輸入,從而輸出當(dāng)前動(dòng)作,讓無(wú)人機(jī)具備一定的自主避障能力,但是整個(gè)系統(tǒng)對(duì)運(yùn)算能力要求高,避障與追蹤的成功率難以保證。深度Q網(wǎng)絡(luò)(DQN)算法是由DeepMind團(tuán)隊(duì)在Q-learning算法的基礎(chǔ)上提出來(lái)的,它首次將深度學(xué)習(xí)與強(qiáng)化學(xué)習(xí)結(jié)合在一起,在許多電動(dòng)游戲中達(dá)到人類(lèi)玩家甚至超越人類(lèi)玩家的水準(zhǔn)。文獻(xiàn)[14-17]采用DQN算法實(shí)現(xiàn)無(wú)人機(jī)在二維環(huán)境中對(duì)目標(biāo)無(wú)人機(jī)的快速追蹤,同時(shí)可以準(zhǔn)確避障,但是其泛化能力有待進(jìn)一步提高。

      針對(duì)上述算法在實(shí)現(xiàn)動(dòng)態(tài)環(huán)境下無(wú)人機(jī)自主避障與目標(biāo)追蹤的過(guò)程中所存在的成功率低、環(huán)境泛化能力弱等問(wèn)題,本文提出了一種改進(jìn)型深度強(qiáng)化學(xué)習(xí)算法——多經(jīng)驗(yàn)池深度Q網(wǎng)絡(luò)(MP-DQN)。首先,對(duì)DQN算法內(nèi)部的探索策略進(jìn)行改進(jìn),提出了一種鼓舞式探索策略——-inspire,使得無(wú)人機(jī)對(duì)環(huán)境進(jìn)行合理探索。其次,提出了一種多經(jīng)驗(yàn)池機(jī)制,對(duì)成功與失敗經(jīng)驗(yàn)數(shù)據(jù)進(jìn)行劃分,相較于單個(gè)經(jīng)驗(yàn)池,該機(jī)制可以提升采樣數(shù)據(jù)的質(zhì)量,避免算法陷入局部最優(yōu)。另外,在獎(jiǎng)勵(lì)函數(shù)中設(shè)計(jì)了方向獎(jiǎng)懲,引導(dǎo)算法快速收斂。再者,為了提高無(wú)人機(jī)對(duì)環(huán)境的適應(yīng)性,增加了無(wú)人機(jī)對(duì)環(huán)境的感知能力。最后,仿真結(jié)果驗(yàn)證了所提方法的有效性。

      1 無(wú)人機(jī)自主避障與目標(biāo)追蹤問(wèn)題描述

      為了便于問(wèn)題的分析與求解,本文對(duì)無(wú)人機(jī)自主避障與目標(biāo)追蹤問(wèn)題進(jìn)行了抽象和簡(jiǎn)化,做出如下假設(shè):

      1)假設(shè)無(wú)人機(jī)處于定高飛行,則將三維空間壓縮至二維平面;

      2)假設(shè)無(wú)人機(jī)的運(yùn)動(dòng)速度大小恒定;

      3)假設(shè)無(wú)人機(jī)輸出的動(dòng)作為上、下、左、右。

      滿(mǎn)足以上假設(shè)后,設(shè)定無(wú)人機(jī)在一片城市區(qū)域內(nèi)運(yùn)動(dòng)。采用柵格法將該區(qū)域離散化,并設(shè)定每個(gè)柵格的大小大于無(wú)人機(jī)的尺寸,確保無(wú)人機(jī)可以安全通過(guò),如圖1所示。

      圖1 自主避障與目標(biāo)追蹤示意圖

      圖1中三角形表示追蹤者,圓形表示逃避者,正方形表示障礙物,陰影區(qū)域表示追蹤者可以感知到的環(huán)境范圍,實(shí)線(xiàn)箭頭表示追蹤者可以執(zhí)行的動(dòng)作,虛線(xiàn)箭頭表示追蹤者的運(yùn)動(dòng)軌跡(這里假定逃避者處于靜止?fàn)顟B(tài))。逃避者可以在柵格環(huán)境中保持靜止或隨機(jī)運(yùn)動(dòng)狀態(tài),同時(shí)能夠自主躲避環(huán)境中的障礙物以及追蹤者的追擊,但是要保證其逃逸速度小于追蹤者的運(yùn)動(dòng)速度。追蹤者可以獲取到自身和逃避者的位置信息,并同時(shí)感知到周?chē)系K物信息。

      本文的研究目標(biāo)是讓追蹤者僅在簡(jiǎn)單的環(huán)境中訓(xùn)練后,即可在不同復(fù)雜度與規(guī)格的地圖中以盡可能短的路徑實(shí)時(shí)追蹤處于靜止或運(yùn)動(dòng)狀態(tài)的逃避者,同時(shí)精準(zhǔn)規(guī)避環(huán)境中的障礙物。

      2 無(wú)人機(jī)自主避障與目標(biāo)追蹤問(wèn)題建模

      無(wú)人機(jī)在柵格環(huán)境中只能感知部分的環(huán)境信息,因此將其建模為部分可觀(guān)測(cè)的馬爾可夫決策過(guò)程(Partially observable Markov process, POMDP)。下面對(duì)模型中的觀(guān)測(cè)空間、動(dòng)作空間以及獎(jiǎng)勵(lì)函數(shù)進(jìn)行定義。

      2.1 觀(guān)測(cè)空間

      假定當(dāng)前追蹤者的坐標(biāo)為(,),逃避者的坐標(biāo)為(,),為了降低觀(guān)測(cè)空間的維度,采用二者之間的相對(duì)位置,作為位置觀(guān)測(cè)信息,即

      (1)

      式中:表示柵格環(huán)境寬度;表示柵格環(huán)境長(zhǎng)度。

      追蹤者可以感知周?chē)糠汁h(huán)境,分別是上、下、左、右四個(gè)柵格的障礙物信息。具體的信息描述方式為

      (2)

      因此,追蹤者的觀(guān)測(cè)空間可以具體表示為

      =[,,,,,]

      (3)

      式中:,表示相對(duì)位置信息;,,,表示障礙物觀(guān)測(cè)信息。

      2.2 動(dòng)作空間

      追蹤者的運(yùn)動(dòng)速度大小恒定,但是運(yùn)動(dòng)方向可變。策略π的輸出即為追蹤者的運(yùn)動(dòng)方向。定義追蹤者的動(dòng)作集合為,可表示為

      ={(0,-1),(0,1),(-1,0),(1,0)}

      (4)

      式中:四個(gè)元素分別表示上、下、左、右動(dòng)作向量。

      當(dāng)追蹤者在環(huán)境邊界處欲跨出邊界時(shí),其位置仍然保持當(dāng)前位置不變。追蹤者在每個(gè)時(shí)刻的位置更新方式為

      (5)

      式中:(,)表示追蹤者在時(shí)刻位置坐標(biāo);(Δ, Δ)表示在時(shí)刻采取的動(dòng)作;(+1,+1)表示下一個(gè)時(shí)刻位置坐標(biāo)。

      2.3 獎(jiǎng)勵(lì)函數(shù)

      獎(jiǎng)勵(lì)函數(shù)是引導(dǎo)追蹤者進(jìn)行有效學(xué)習(xí)的關(guān)鍵,設(shè)計(jì)合理的獎(jiǎng)勵(lì)函數(shù)可以提升追蹤者的收斂速度與學(xué)習(xí)的穩(wěn)定性。稀疏獎(jiǎng)勵(lì)是一種簡(jiǎn)單的獎(jiǎng)勵(lì)函數(shù),它僅在追蹤者處于終止?fàn)顟B(tài)時(shí)才會(huì)給予回報(bào)。當(dāng)追蹤者任務(wù)成功時(shí)反饋正向獎(jiǎng)勵(lì),從而激勵(lì)追蹤者不斷強(qiáng)化采取的動(dòng)作序列。當(dāng)任務(wù)失敗時(shí)則施加懲罰,提醒追蹤者規(guī)避某些錯(cuò)誤行為。但是稀疏獎(jiǎng)勵(lì)需要追蹤者不斷探索環(huán)境,直至獲得正向獎(jiǎng)勵(lì)時(shí)追蹤者才能得到有效更新,這會(huì)降低學(xué)習(xí)效率,并且極易收斂至局部最優(yōu)解,甚至對(duì)于復(fù)雜環(huán)境,追蹤者由于難以探索到目標(biāo)狀態(tài)而導(dǎo)致算法無(wú)法收斂。因此,需要設(shè)計(jì)一種連續(xù)獎(jiǎng)勵(lì)函數(shù),不斷引導(dǎo)追蹤者靠近目標(biāo)。

      本文設(shè)計(jì)的獎(jiǎng)勵(lì)函數(shù)包括四個(gè)部分:終止獎(jiǎng)懲、步進(jìn)獎(jiǎng)懲、距離獎(jiǎng)懲和方向獎(jiǎng)懲。終止獎(jiǎng)懲的函數(shù)形式為

      (6)

      式中:為正實(shí)數(shù),即追蹤者完成任務(wù)時(shí)給予獎(jiǎng)勵(lì),任務(wù)失敗則施加懲罰。步進(jìn)獎(jiǎng)懲的函數(shù)形式為

      (7)

      式中:,均為正實(shí)數(shù),并且>,即當(dāng)追蹤者采取跨出邊界的行為時(shí)獲得的懲罰比區(qū)域內(nèi)運(yùn)動(dòng)時(shí)獲得的懲罰大,其主要目的在于激勵(lì)追蹤者不要跨出指定區(qū)域,同時(shí)保持較短的追蹤路徑。距離獎(jiǎng)懲的函數(shù)形式為

      (8)

      式中:表示上一個(gè)時(shí)刻追蹤者距離逃避者的歐氏距離;表示當(dāng)前時(shí)刻的歐氏距離;表示距離的期望,本文設(shè)=0,即實(shí)現(xiàn)完全追蹤;表示距離獎(jiǎng)懲范圍,為正實(shí)數(shù)。式(8)表示當(dāng)追蹤者靠近逃避者時(shí)會(huì)獲得獎(jiǎng)勵(lì),遠(yuǎn)離則會(huì)受到懲罰,并且越靠近逃避者獎(jiǎng)懲力度越大。方向獎(jiǎng)懲的函數(shù)形式為

      (9)

      式中:表示追蹤者的運(yùn)動(dòng)方向與追蹤者和逃避者連線(xiàn)方向之間的夾角,為正實(shí)數(shù),具體描述如圖2所示。當(dāng)<π2時(shí),表示追蹤者正在靠近逃避者,從而獲取環(huán)境給予的獎(jiǎng)勵(lì)。反之當(dāng)>π2時(shí),表示追蹤者正在遠(yuǎn)離逃避者,從而受到環(huán)境施加的懲罰。

      圖2 方向角示意圖

      綜合以上四種獎(jiǎng)懲函數(shù),最終的獎(jiǎng)勵(lì)函數(shù)為

      =+++

      (10)

      3 MP-DQN算法

      在DQN算法中,追蹤者與環(huán)境交互的經(jīng)驗(yàn)數(shù)據(jù)都會(huì)被放置在經(jīng)驗(yàn)池中,并且在每一輪迭代,追蹤者都會(huì)不斷從經(jīng)驗(yàn)池中隨機(jī)采樣數(shù)據(jù)來(lái)學(xué)習(xí)。因此,經(jīng)驗(yàn)池中數(shù)據(jù)的好壞決定網(wǎng)絡(luò)學(xué)習(xí)的效率。當(dāng)追蹤者陷入局部最優(yōu)時(shí),相關(guān)動(dòng)作序列被不斷強(qiáng)化,此時(shí)追蹤者已經(jīng)難以從經(jīng)驗(yàn)池中學(xué)習(xí)到有效知識(shí),致使其難以脫離局部最優(yōu)解。針對(duì)這個(gè)問(wèn)題,本文對(duì)DQN算法進(jìn)行改進(jìn),提出一種MP-DQN算法,具體改進(jìn)點(diǎn)包括-inspire探索策略和多經(jīng)驗(yàn)池。

      3.1 ε-inspire探索策略

      追蹤者對(duì)未知環(huán)境的探索可以促進(jìn)追蹤者尋找全局最優(yōu)解。在前期學(xué)習(xí)過(guò)程中,追蹤者可以以較大的探索率探索環(huán)境。隨著迭代的進(jìn)行,追蹤者可能已經(jīng)逐漸找到最優(yōu)策略,應(yīng)當(dāng)減小探索率,強(qiáng)化追蹤者學(xué)習(xí)到的經(jīng)驗(yàn)知識(shí)。因此通常DQN算法采用的是變的-greedy策略,即隨著迭代次數(shù)的增加而緩慢增加,追蹤者的動(dòng)作選擇遵循

      綜上所述,采取氧氣霧化吸入布地奈德混懸液聯(lián)合復(fù)方異丙托溴銨溶液治療喘息性支氣管炎療效明顯,副作用小,值得臨床推廣。通過(guò)精細(xì)有效的護(hù)理,使患兒家長(zhǎng)熟練掌握霧化吸入的方法,加強(qiáng)對(duì)于患兒及家長(zhǎng)的有關(guān)常識(shí)的宣教,確?;純杭凹议L(zhǎng)能夠積極配合治療,能夠極大程度地提升霧化吸入治療的效果。

      (11)

      但是在復(fù)雜的環(huán)境中,前期探索可能無(wú)法支持追蹤者找到最優(yōu)策略,或者雖已找到最優(yōu)策略,但由于還未得到強(qiáng)化,追蹤者再次陷入局部最優(yōu)。針對(duì)這個(gè)問(wèn)題,本文在-greedy策略上做了進(jìn)一步優(yōu)化,提出-inspire策略。其基本思想是如果追蹤者在一段時(shí)間內(nèi)始終沒(méi)有完成任務(wù),則會(huì)減小,提升追蹤者的探索能力,直到追蹤者完成一次任務(wù)后才會(huì)緩慢增加,再次削弱追蹤者的探索能力。具體描述為

      (12)

      式中:表示追蹤者連續(xù)任務(wù)失敗的次數(shù);表示追蹤者連續(xù)任務(wù)失敗的最大次數(shù);表示設(shè)定的遺忘探索率。當(dāng)追蹤者連續(xù)失敗的次數(shù)達(dá)到設(shè)定的閾值時(shí),強(qiáng)制=,從而提高探索能力,鼓勵(lì)追蹤者探索環(huán)境,搜索全局最優(yōu)解。

      3.2 多經(jīng)驗(yàn)池

      單純提升探索能力,雖然在一定程度上可以激勵(lì)追蹤者完成任務(wù),但是算法收斂過(guò)程波動(dòng)劇烈,而且如果任務(wù)難度較大,追蹤者可能一直處于探索狀態(tài),始終無(wú)法得到強(qiáng)化。為了進(jìn)一步保證追蹤者在可以脫離局部最優(yōu)解的前提下仍然能夠穩(wěn)定收斂,本文提出了多經(jīng)驗(yàn)池機(jī)制。前面分析過(guò),當(dāng)追蹤者陷入局部最優(yōu)時(shí),單個(gè)經(jīng)驗(yàn)池中的數(shù)據(jù)對(duì)于追蹤者來(lái)說(shuō)可學(xué)習(xí)性不強(qiáng),引入多個(gè)經(jīng)驗(yàn)池后可以有效保證數(shù)據(jù)的質(zhì)量。

      MP-DQN算法中包括三個(gè)經(jīng)驗(yàn)池:失敗經(jīng)驗(yàn)池P、成功經(jīng)驗(yàn)池P和臨時(shí)經(jīng)驗(yàn)池P。失敗經(jīng)驗(yàn)池存儲(chǔ)追蹤者任務(wù)失敗時(shí)產(chǎn)生的經(jīng)驗(yàn)數(shù)據(jù),設(shè)其容量大小為。成功經(jīng)驗(yàn)池存儲(chǔ)追蹤者任務(wù)成功時(shí)產(chǎn)生的經(jīng)驗(yàn)數(shù)據(jù)或者是追蹤者能夠多次避開(kāi)周?chē)系K物的經(jīng)驗(yàn)數(shù)據(jù),設(shè)其容量大小為。而臨時(shí)經(jīng)驗(yàn)池則存儲(chǔ)當(dāng)前世代追蹤者產(chǎn)生的臨時(shí)經(jīng)驗(yàn)數(shù)據(jù),設(shè)其容量大小為。當(dāng)臨時(shí)經(jīng)驗(yàn)池溢出時(shí),如果追蹤者仍然沒(méi)有到達(dá)終止?fàn)顟B(tài),則認(rèn)為過(guò)去的決策對(duì)現(xiàn)在具有積極影響,故將從臨時(shí)經(jīng)驗(yàn)池中溢出的數(shù)據(jù)存入成功經(jīng)驗(yàn)池,然后根據(jù)最終任務(wù)的成敗決定剩余所有數(shù)據(jù)的存儲(chǔ)位置。

      MP-DQN算法更新時(shí)需要的數(shù)據(jù)分別從失敗經(jīng)驗(yàn)池與成功經(jīng)驗(yàn)池中按照一定的比例采樣獲取。這樣即使追蹤者陷入局部最優(yōu),仍然可以從成功經(jīng)驗(yàn)池中獲取任務(wù)成功的經(jīng)驗(yàn)數(shù)據(jù)來(lái)學(xué)習(xí),從而幫助追蹤者快速脫離局部最優(yōu)。假設(shè)追蹤者每次從成功經(jīng)驗(yàn)池中采樣數(shù)據(jù)的比例為,隨機(jī)采樣的總數(shù)據(jù)量為,則從成功經(jīng)驗(yàn)池與失敗經(jīng)驗(yàn)池中采樣的數(shù)據(jù)量分別為

      (13)

      式中:表示從成功經(jīng)驗(yàn)池中采樣的數(shù)據(jù)量;表示從失敗經(jīng)驗(yàn)池中采樣的數(shù)據(jù)量;表示當(dāng)前成功經(jīng)驗(yàn)池中的總數(shù)據(jù)量。具體算法流程如圖3所示。

      圖3 MP-DQN算法結(jié)構(gòu)框圖

      3.3 算法結(jié)構(gòu)與實(shí)現(xiàn)

      圖4 MP-DQN算法網(wǎng)絡(luò)結(jié)構(gòu)

      MP-DQN算法的具體實(shí)現(xiàn)流程如下:

      初始化:臨時(shí)經(jīng)驗(yàn)池P(最大容量為)

      成功經(jīng)驗(yàn)池P(最大容量為)

      失敗經(jīng)驗(yàn)池P(最大容量為)

      MP-DQN中評(píng)估網(wǎng)絡(luò)參數(shù)

      MP-DQN中目標(biāo)網(wǎng)絡(luò)參數(shù)

      執(zhí)行:

      1)repeat

      2)隨機(jī)初始化狀態(tài)

      3)while≤do:

      4)根據(jù)-inspire策略選擇動(dòng)作,追蹤者執(zhí)行該動(dòng)作并獲得環(huán)境反饋的即時(shí)獎(jiǎng)勵(lì)和新的觀(guān)測(cè)信息

      5)將經(jīng)驗(yàn)(,,,′,done)存入P,若P溢出,將溢出的數(shù)據(jù)存入P

      7)計(jì)算目標(biāo)值:

      8)更新評(píng)估網(wǎng)絡(luò)參數(shù)以減?。?/p>

      10)軟更新目標(biāo)網(wǎng)絡(luò)參數(shù):=+(1-)

      11)if done:

      12)如果追蹤者任務(wù)成功,將P中的數(shù)據(jù)一次性全部放入P;如果追蹤者任務(wù)失敗,則將P中的數(shù)據(jù)一次性全部放入P

      13)end if

      14)end while

      15)until最大訓(xùn)練回合數(shù)

      4 仿真校驗(yàn)

      本文在Python環(huán)境下,基于Tensorflow 2.2與CUDA10.2框架構(gòu)建MP-DQN算法網(wǎng)絡(luò)。評(píng)估網(wǎng)絡(luò)更新參數(shù)時(shí)采用的優(yōu)化器為Adma,學(xué)習(xí)率設(shè)置為0.01,目標(biāo)網(wǎng)絡(luò)軟更新時(shí)的學(xué)習(xí)率設(shè)置為0.01,網(wǎng)絡(luò)學(xué)習(xí)時(shí)隨機(jī)采樣的總數(shù)據(jù)量設(shè)置為32,每次從成功經(jīng)驗(yàn)池與失敗經(jīng)驗(yàn)池中采樣數(shù)據(jù)比例設(shè)置為0.85。為了保證網(wǎng)絡(luò)可以收斂,設(shè)置迭代的最大幕數(shù)為1000。為了平衡未來(lái)與即時(shí)獎(jiǎng)勵(lì),折扣系數(shù)設(shè)置為0.9。對(duì)于-inspire策略,最小探索率設(shè)置為0,最大探索率設(shè)置為0.99,探索率增量Δ設(shè)置為0.001,追蹤者連續(xù)任務(wù)失敗的最大次數(shù)設(shè)置為50,遺忘探索率設(shè)置為0.8。成功經(jīng)驗(yàn)池與失敗經(jīng)驗(yàn)池的最大容量相同,均設(shè)置為2000。如果追蹤者在15步以?xún)?nèi)仍然沒(méi)有進(jìn)入終止?fàn)顟B(tài),則認(rèn)為之前的決策具有一定的價(jià)值,需要將經(jīng)驗(yàn)數(shù)據(jù)保存到成功經(jīng)驗(yàn)池中,故將臨時(shí)經(jīng)驗(yàn)池的最大容量設(shè)置為15。針對(duì)獎(jiǎng)勵(lì)函數(shù),終止獎(jiǎng)懲中設(shè)置為20,步進(jìn)獎(jiǎng)懲中設(shè)置為1,設(shè)置為0.5,距離獎(jiǎng)懲中設(shè)置為2,方差設(shè)置為0.5,方向獎(jiǎng)懲中設(shè)置為5。

      4.1 MP-DQN算法驗(yàn)證

      仿真環(huán)境為一個(gè)12×12的柵格地圖。逃避者在環(huán)境中做隨機(jī)運(yùn)動(dòng),可以自主躲避障礙物與追蹤者,其運(yùn)動(dòng)速度設(shè)定為追蹤者速度一半。實(shí)驗(yàn)規(guī)定最大步數(shù)為60步,超過(guò)該閾值則終止當(dāng)前世代。追蹤者每次任務(wù)成功后,逃避者下一次都會(huì)隨機(jī)選擇一個(gè)出生點(diǎn),以增強(qiáng)任務(wù)的隨機(jī)性。分別采用DQN、DDQN以及MP-DQN算法進(jìn)行測(cè)試,測(cè)試結(jié)果如圖5、6、7所示。

      圖5 三種算法累計(jì)獎(jiǎng)勵(lì)曲線(xiàn)

      圖5是三種算法在每個(gè)回合的累計(jì)獎(jiǎng)勵(lì)曲線(xiàn),MP-DQN和DQN均在200步左右時(shí)收斂,但MP-DQN算法的收斂速度稍快,DDQN算法效果最差。圖6為追蹤者在訓(xùn)練階段的成功率曲線(xiàn),MP-DQN算法的成功率始終最高;另外對(duì)訓(xùn)練好的追蹤者進(jìn)行測(cè)試,MP-DQN算法的成功率仍然最高,并且始終為1。圖7為追蹤者和逃避者某一次的運(yùn)動(dòng)路徑,其中小三角形和圓形分別表示追蹤者與逃避者運(yùn)動(dòng)路徑上的點(diǎn),追蹤者不僅可以準(zhǔn)確避障,還能夠快速追蹤逃避者。因此,MP-DQN算法可以有效提高追蹤者的收斂速度及避障與追蹤的成功率。

      圖6 三種算法訓(xùn)練成功率曲線(xiàn)

      圖7 12×12柵格地圖追蹤路徑

      4.2 方向獎(jiǎng)懲驗(yàn)證

      采用4.1所述的仿真環(huán)境,分別討論獎(jiǎng)勵(lì)函數(shù)中包含(with_angle_reward)與不含方向獎(jiǎng)懲(without_angle_reward)情形,觀(guān)察其對(duì)追蹤者的任務(wù)執(zhí)行是否存在影響。利用MP-DQN算法進(jìn)行對(duì)比實(shí)驗(yàn),仿真結(jié)果如圖8、9、10所示。

      圖8 方向獎(jiǎng)懲-累計(jì)獎(jiǎng)勵(lì)曲線(xiàn)

      圖8是累計(jì)獎(jiǎng)勵(lì)曲線(xiàn),通過(guò)對(duì)比可以看出加入方向獎(jiǎng)懲后算法大約在200步時(shí)已經(jīng)基本收斂,而在去掉方向獎(jiǎng)懲后算法大約在400步時(shí)才進(jìn)入收斂狀態(tài)。圖9是累計(jì)步數(shù)曲線(xiàn),可以明顯看出加入方向獎(jiǎng)懲后,追蹤者可以以較少的步數(shù)追趕上逃避者,實(shí)現(xiàn)快速追蹤。圖10是追蹤者在訓(xùn)練階段的追蹤成功率曲線(xiàn),通過(guò)對(duì)比發(fā)現(xiàn)加入方向獎(jiǎng)懲后顯著提升了追蹤者的收斂速度和避障與追蹤的成功率;另外在測(cè)試階段,加入方向獎(jiǎng)懲的追蹤者成功率同樣更高。因此,方向獎(jiǎng)懲函數(shù)可以有效提高算法的整體性能。

      圖9 方向獎(jiǎng)懲-累計(jì)步數(shù)曲線(xiàn)

      圖10 方向獎(jiǎng)懲-訓(xùn)練成功率曲線(xiàn)

      4.3 泛化能力驗(yàn)證

      為了驗(yàn)證具備感知能力的無(wú)人機(jī)擁有環(huán)境泛化能力,本節(jié)利用前面已經(jīng)訓(xùn)練好的追蹤者,命名為追蹤者1號(hào),將其應(yīng)用到全新的12×12的柵格地圖以及更大規(guī)模的16×16的柵格地圖中。為了進(jìn)行對(duì)比,本文重新訓(xùn)練一個(gè)不具備環(huán)境感知能力的追蹤者,命名為追蹤者2號(hào)。分別將它們?cè)谏鲜霏h(huán)境中測(cè)試1000輪。最后統(tǒng)計(jì)它們的追蹤成功率,結(jié)果顯示追蹤者1號(hào)的成功率始終為1,而追蹤者2號(hào)的成功率幾乎為0,即追蹤者1號(hào)具備更強(qiáng)的環(huán)境泛化能力。主要原因在于追蹤者2號(hào)在環(huán)境中學(xué)習(xí)時(shí),學(xué)會(huì)的是整張地圖的環(huán)境信息,而不是避障能力。當(dāng)環(huán)境信息發(fā)生變化時(shí),以前的知識(shí)不具有普遍性,因而追蹤成功率低。而追蹤者1號(hào)在環(huán)境中學(xué)習(xí)時(shí),通過(guò)感知周?chē)h(huán)境,再結(jié)合自身與逃避者之間的相對(duì)位置信息,通過(guò)不斷訓(xùn)練最終學(xué)習(xí)到了避障及追蹤的能力。因此,即使面對(duì)新的環(huán)境,也可以保證穩(wěn)定的避障及追蹤性能。圖11為追蹤者1號(hào)和逃避者在16×16的柵格地圖中某一次的運(yùn)動(dòng)路徑。

      圖11 16×16柵格地圖追蹤路徑

      5 結(jié) 論

      針對(duì)深度強(qiáng)化學(xué)習(xí)算法在實(shí)現(xiàn)動(dòng)態(tài)環(huán)境下無(wú)人機(jī)自主避障與目標(biāo)追蹤的過(guò)程中所存在的成功率低、環(huán)境泛化能力弱等問(wèn)題,本文做了以下工作:提出了改進(jìn)型深度強(qiáng)化學(xué)習(xí)算法MP-DQN;在獎(jiǎng)勵(lì)函數(shù)中設(shè)計(jì)了方向獎(jiǎng)懲函數(shù);賦予無(wú)人機(jī)環(huán)境感知能力。仿真結(jié)果表明,MP-DQN算法較DQN和DDQN算法具有更快的收斂速度和更高的避障與追蹤成功率;引入方向獎(jiǎng)懲后,顯著提升了算法的整體性能,包括追蹤路徑、收斂速度和追蹤速度;擁有環(huán)境感知能力的無(wú)人機(jī)只需在簡(jiǎn)單的地圖中訓(xùn)練即可應(yīng)用于不同規(guī)格及復(fù)雜度的環(huán)境,具備良好的環(huán)境泛化能力。

      猜你喜歡
      獎(jiǎng)懲柵格成功率
      成功率超70%!一張冬棚賺40萬(wàn)~50萬(wàn)元,羅氏沼蝦今年將有多火?
      基于模糊馬爾可夫鏈的獎(jiǎng)懲系統(tǒng)*
      基于鄰域柵格篩選的點(diǎn)云邊緣點(diǎn)提取方法*
      如何提高試管嬰兒成功率
      如何提高試管嬰兒成功率
      論如何正確對(duì)待高校學(xué)生獎(jiǎng)懲工作
      我國(guó)納稅信用體系建設(shè)研究
      獎(jiǎng)懲
      不同剖面形狀的柵格壁對(duì)柵格翼氣動(dòng)特性的影響
      研究發(fā)現(xiàn):面試排第四,成功率最高等4則
      海峽姐妹(2015年5期)2015-02-27 15:11:00
      丹东市| 广州市| 外汇| 时尚| 田林县| 贵溪市| 同江市| 杭锦后旗| 兰州市| 吴川市| 朝阳区| 珠海市| 新安县| 西贡区| 壶关县| 安仁县| 麻阳| 华安县| 嵩明县| 瓦房店市| 涪陵区| 五峰| 茌平县| 建水县| 大宁县| 海宁市| 宁远县| 轮台县| 白山市| 玉山县| 恩平市| 广安市| 玛沁县| 彩票| 文水县| 封开县| 湘乡市| 浠水县| 九江市| 昆山市| 怀柔区|