• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于強(qiáng)化學(xué)習(xí)的ICRA RoboMaster AI策略研究

      2020-11-06 05:59:06陳明陽(yáng)劉博茆意風(fēng)
      中阿科技論壇(中英阿文) 2020年9期
      關(guān)鍵詞:神經(jīng)網(wǎng)絡(luò)機(jī)器人比賽

      陳明陽(yáng) 劉博 茆意風(fēng)

      摘要:本文使用蒙特卡洛樹搜索(MCTS)算法代替?zhèn)鹘y(tǒng)Alpha-Beta搜索算法,采用改變其他對(duì)稱方面來訓(xùn)練非對(duì)稱情況下的策略,研究對(duì)比和分析,認(rèn)為確實(shí)可以找到一種通用的自我強(qiáng)化學(xué)習(xí)方法。

      關(guān)鍵詞:ICRA RoboMaster比賽;強(qiáng)化學(xué)習(xí);DQN;Actor-critic算法

      中圖分類號(hào): TP181 ? ? ? ? ? ? ?文獻(xiàn)標(biāo)識(shí)碼:A

      1 背景

      強(qiáng)化學(xué)習(xí)(Reinforcement Learning,RL)是智能體(Agent)以“試錯(cuò)”的方式進(jìn)行學(xué)習(xí),通過與環(huán)境進(jìn)行交互獲得的獎(jiǎng)賞指導(dǎo)行為,目標(biāo)是使智能體獲得最大的獎(jiǎng)賞,它被引入機(jī)器學(xué)習(xí)使其更接近于最初的目標(biāo)——人工智能,是人工神經(jīng)網(wǎng)絡(luò)研究的概念,比較晦澀難懂。因此,本文借助備受青年人歡迎的ICRA RoboMaster(以下簡(jiǎn)稱ICRA比賽)訓(xùn)練研究強(qiáng)化學(xué)習(xí)的理論問題,把抽象問題具體化、簡(jiǎn)單化。

      ICRA比賽的主題為“移動(dòng)操控挑戰(zhàn)賽”,比賽主要考察移動(dòng)機(jī)器人定位技術(shù)、物體抓取技術(shù)、目標(biāo)識(shí)別技術(shù),以及這些技術(shù)構(gòu)成系統(tǒng)的整體穩(wěn)定性等。通過以ICRA比賽為載體,建立研究強(qiáng)化學(xué)習(xí)的理論模型,利用研究訓(xùn)練和優(yōu)化機(jī)器人在比賽中的路徑和戰(zhàn)斗能力,實(shí)現(xiàn)驗(yàn)證和優(yōu)化RL理論的目的。為了使計(jì)算機(jī)更加智能化,采用訓(xùn)練AlphaGo的方法,即使用兩個(gè)代理機(jī)器人互相戰(zhàn)斗,通過控制運(yùn)動(dòng)軌跡和動(dòng)作,更新優(yōu)化策略,實(shí)現(xiàn)機(jī)器人動(dòng)作升級(jí)。首先設(shè)置一個(gè)超級(jí)敵人并訓(xùn)練機(jī)器人去擊敗它,然后也升級(jí)敵人,重新訓(xùn)練機(jī)器人去戰(zhàn)斗。通過這種不斷反復(fù)改進(jìn)和提升的方法,可以獲取更優(yōu)良的性能。

      采用Actor-critic算法,提出并分析一類基于隨機(jī)平穩(wěn)策略的馬爾可夫決策過程優(yōu)化算法,也是兩個(gè)時(shí)間尺度的算法,其中,Critic使用具有線性近似結(jié)構(gòu)的時(shí)域?qū)W習(xí),并且基于Critic提供的信息,在近似梯度方向上更新和優(yōu)化Actor動(dòng)作。通過研究表明,Critic的特征能夠跨越由Actor的選擇所規(guī)定的子空間,提出收斂性和有待解決的問題策略。

      采用一個(gè)通用的強(qiáng)化學(xué)習(xí)算法,通過自我發(fā)揮和學(xué)習(xí),不斷優(yōu)化算法,即研究在AlphaGo中應(yīng)用的策略和AlphaZero的變化。由于AlphaZero不會(huì)增加訓(xùn)練數(shù)據(jù),也不會(huì)在MCTS期間變換板的位置。因此,使用蒙特卡洛樹搜索(MCTS)算法代替Alpha-Beta搜索算法,采用通過改變其他對(duì)稱方面來訓(xùn)練非對(duì)稱情況下的策略,找到一種通用的自我游戲強(qiáng)化學(xué)習(xí)方法。

      2 虛擬機(jī)器人環(huán)境——PyGame

      2.1 設(shè)置虛擬機(jī)器人環(huán)境——PyGame

      PyGame是一個(gè)基于Python的虛擬格斗游戲環(huán)境,在此過程中接收來自鍵盤和鼠標(biāo)的輸入,應(yīng)用編程接口和預(yù)定義的類降低了虛擬環(huán)境創(chuàng)建的難度。ICRA比賽的真實(shí)環(huán)境為8米*5米的場(chǎng)地,兩個(gè)機(jī)器人的出場(chǎng)地位于左上角和右下角,補(bǔ)充場(chǎng)地位于黃色十字區(qū)域。機(jī)器人在補(bǔ)給區(qū)被修復(fù),當(dāng)它們站在補(bǔ)給區(qū)時(shí),它們的生命值會(huì)持續(xù)上升,ICRA比賽的真實(shí)現(xiàn)場(chǎng)環(huán)境如圖1所示。

      在圖1中,機(jī)器人無法通過的障礙物被顯示為深灰色矩形。通過研究決定,采用重新創(chuàng)建ICRA比賽的新戰(zhàn)斗環(huán)境,其中,障礙物和補(bǔ)給區(qū)域與原來的位置相同。為了增加決策的復(fù)雜性,增設(shè)彈藥重裝區(qū),機(jī)器人可以在此區(qū)域進(jìn)行重新裝彈,避免子彈耗盡。

      獎(jiǎng)勵(lì)規(guī)則設(shè)置如下:在所有迭代開始時(shí),獎(jiǎng)勵(lì)被初始化為零。如果敵人被擊中,那么射手的獎(jiǎng)勵(lì)將增加10點(diǎn),而敵人將減少20點(diǎn)。如果敵人被摧毀,獎(jiǎng)勵(lì)會(huì)激增到100點(diǎn),如果玩家被摧毀,獎(jiǎng)勵(lì)本身會(huì)下降到200點(diǎn)。彈藥和生命點(diǎn)不會(huì)影響?yīng)剟?lì),而生存時(shí)間將以對(duì)數(shù)形式加入獎(jiǎng)勵(lì)。

      強(qiáng)化學(xué)習(xí)就是智能系統(tǒng)從環(huán)境到行為映射的學(xué)習(xí),使獎(jiǎng)勵(lì)信號(hào)(強(qiáng)化信號(hào))函數(shù)值最大,由于外部給出的信息很少,強(qiáng)化學(xué)習(xí)系統(tǒng)必須依靠自身的經(jīng)歷進(jìn)行自我學(xué)習(xí)。通過這種學(xué)習(xí)獲取知識(shí),改進(jìn)行動(dòng)方案以適應(yīng)環(huán)境。本研究運(yùn)用AlphaZero強(qiáng)化學(xué)習(xí)的方式,不斷完善機(jī)器人獎(jiǎng)勵(lì)機(jī)制。

      2.2 優(yōu)化Q學(xué)習(xí)的算法

      Q-learning是強(qiáng)化學(xué)習(xí)中的一個(gè)決策算法,是讓計(jì)算機(jī)實(shí)現(xiàn)從一開始完全隨機(jī)地進(jìn)行操作,通過不斷地嘗試,從錯(cuò)誤中學(xué)習(xí),最后找到規(guī)律,學(xué)會(huì)了達(dá)到目的的方法。計(jì)算機(jī)在不斷的嘗試中更新自己的行為,從而一步步學(xué)習(xí)如何操作自己的行為得到高分。它主要包含四個(gè)元素:Agent、環(huán)境狀態(tài)、行動(dòng)、獎(jiǎng)勵(lì)。強(qiáng)化學(xué)習(xí)的目標(biāo)就是獲得最多的累計(jì)獎(jiǎng)勵(lì)。

      計(jì)算機(jī)就是Agent,它試圖通過采取行動(dòng)來操縱環(huán)境,并且從一個(gè)狀態(tài)轉(zhuǎn)變到另一個(gè)狀態(tài),當(dāng)它完成任務(wù)時(shí)給高分(獎(jiǎng)勵(lì)),但是當(dāng)它沒完成任務(wù)時(shí),給低分(無獎(jiǎng)勵(lì))。這也是強(qiáng)化學(xué)習(xí)的核心思想,所以強(qiáng)化學(xué)習(xí)具有分?jǐn)?shù)導(dǎo)向性。

      我們實(shí)現(xiàn)的深度Q學(xué)習(xí)是基于PyTorch的卷積神經(jīng)網(wǎng)絡(luò)。網(wǎng)絡(luò)的輸入是模型訓(xùn)練過程中PyGame環(huán)境的一個(gè)截圖,輸出是給定輸入環(huán)境下的一個(gè)預(yù)測(cè)動(dòng)作。該動(dòng)作包括四個(gè)方向的移動(dòng)(上、下、左、打),兩個(gè)槍操作方向(順時(shí)針、逆時(shí)針)和射擊。該神經(jīng)網(wǎng)絡(luò)為三層卷積神經(jīng)網(wǎng)絡(luò),具有不同大小的核和漏項(xiàng)。激活層被分配給非線性ReLU層,我們選擇時(shí)間誤差作為損失函數(shù)(Loss Function),兩者具有相同的損失函數(shù)。把具有相同的最佳點(diǎn)作為傳統(tǒng)的Q-learning函數(shù)。下面列出了這個(gè)損失函數(shù)的梯度下降:

      ψk+1=ψk-η∨ψ(qψk(x,u)-target(x;ψk)

      因此,Q-learning的目標(biāo)函數(shù)為:

      Q(st,a)←Q(st,a)+at+1+γmaxQ(st+1,p)-Q(st,a)

      本模型的目標(biāo)是利用神經(jīng)網(wǎng)絡(luò)的非線性特性來模擬這個(gè)函數(shù),該模型產(chǎn)生Q-learning函數(shù)的估計(jì),使用蒙特卡洛樹搜索(MCTS)在Q-learning中找到相同的最優(yōu)值。

      2.3 Actor-critic模型設(shè)計(jì)

      Actor(機(jī)器人)為了得到盡量高的獎(jiǎng)賞(Reward),需要一個(gè)策略:輸入state,輸出action,然后用神經(jīng)網(wǎng)絡(luò)來近似這個(gè)函數(shù),剩下的任務(wù)就是如何訓(xùn)練神經(jīng)網(wǎng)絡(luò),得到更高的reward。Critic(評(píng)委):因?yàn)閍ctor基于策略policy,所以需要評(píng)委critic計(jì)算出對(duì)應(yīng)actor的value來反饋給actor,判斷它的優(yōu)點(diǎn)和缺點(diǎn),在此過程中需要使用到之前的Q值,這個(gè)Q值可以用神經(jīng)網(wǎng)絡(luò)來近似。

      本研究實(shí)現(xiàn)Actor-critic模型設(shè)定在PyTorch中完成,模型的輸入是抽象的狀態(tài)元組,狀態(tài)元組代表在某一時(shí)刻機(jī)器人的狀態(tài),包括機(jī)器人的位置、速度、運(yùn)行狀況和子彈數(shù)量等。Critic模型采用價(jià)值函數(shù)進(jìn)行估計(jì),其中,選擇Q值作為估計(jì)的目標(biāo)值。而Actor模型是決策制定,該模型按照Critic建議的方向更新政策分配,其中,Critic函數(shù)和Actor函數(shù)都屬于神經(jīng)網(wǎng)絡(luò)模擬。

      2.4 多人戰(zhàn)斗模型設(shè)計(jì)

      上述模型設(shè)計(jì)是在單人環(huán)境中實(shí)現(xiàn),通過計(jì)算機(jī)自動(dòng)控制敵人,電腦玩家可以忽略障礙物的封鎖,并且擁有無限數(shù)量的彈藥。優(yōu)化后的虛擬環(huán)境中可以實(shí)現(xiàn)2人戰(zhàn)斗,兩個(gè)玩家在后端由兩個(gè)獨(dú)立的模型控制,通過重新部署AlphaGo戰(zhàn)略,試圖找出讓機(jī)器人從零開始學(xué)習(xí)規(guī)則的策略。

      3 仿真結(jié)果

      3.1 DQN模型結(jié)果

      我們采用Deep Q-learning算法(以下簡(jiǎn)稱DQN),它是基于價(jià)值的算法,這種算法中只有一個(gè)值函數(shù)網(wǎng)絡(luò)。DQN中關(guān)鍵點(diǎn)是引用值函數(shù)近似和損失函數(shù),強(qiáng)化學(xué)習(xí)是一個(gè)反復(fù)迭代的過程,每一次迭代要解決兩個(gè)問題:給定一個(gè)策略求值函數(shù)和根據(jù)值函數(shù)來更新策略。DQN每次迭代更新神經(jīng)網(wǎng)絡(luò)的參數(shù),首先會(huì)定義一個(gè)損失函數(shù)(Loss Function),然后使用梯度下降的優(yōu)化算法(GradientDescent,GD)來更新參數(shù)。

      異步策略學(xué)習(xí)(Off-policy Learning)是Q-learning的特點(diǎn),DQN中也沿用了這一特點(diǎn)。DQN中使用經(jīng)驗(yàn)回放,即用一個(gè)記憶來存儲(chǔ)經(jīng)歷過的數(shù)據(jù),每次更新參數(shù)的時(shí)候從記憶中抽取一部分的數(shù)據(jù)來用于更新,以此來打破數(shù)據(jù)間的關(guān)聯(lián)。

      本試驗(yàn)通過采用DQN模型仿真結(jié)果對(duì)比,DQN的訓(xùn)練效果明顯優(yōu)于Actor-critic的訓(xùn)練效果,并且卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)在決策過程中更能有效地找到合適的動(dòng)作,這是因?yàn)閳D像的復(fù)雜性使模型更容易判斷游戲情況,優(yōu)化后的圖像包含許多有用信息,如封鎖區(qū)域和不同的供電區(qū)域位置。然而,有時(shí)這種模式會(huì)以錯(cuò)誤的方式表現(xiàn),比如向空中射擊和在進(jìn)入近距離戰(zhàn)斗前浪費(fèi)彈藥,采用的DQN模型獎(jiǎng)勵(lì)功能如圖2所示。

      3.2 Actor-critic結(jié)果

      由于選擇有限維數(shù)的狀態(tài)元組,模型只能感知機(jī)器人的當(dāng)前狀態(tài),無法告訴模型上電區(qū)域和障礙物的位置。此外,這種方法的訓(xùn)練難度大于前一種方法,這意味著訓(xùn)練時(shí)間較短,可能會(huì)導(dǎo)致模型無法收斂到更大的期望回報(bào)。從圖3中可以看出,該模型在提高獎(jiǎng)勵(lì)期望方面并不有效。

      3.3 多人戰(zhàn)斗模型結(jié)果

      從獎(jiǎng)勵(lì)情節(jié)中可以看到,有時(shí)玩家能夠找到消滅敵人的策略,而有時(shí)兩名玩家在空白區(qū)域徘徊。這是因?yàn)橛?xùn)練時(shí)間有限,導(dǎo)致模型無法探索虛擬環(huán)境中的所有可能性,圖4和圖5列出了兩個(gè)玩家的獎(jiǎng)勵(lì)結(jié)果。

      4 結(jié)語(yǔ)

      通過研究ICRA比賽為載體,進(jìn)一步應(yīng)用和驗(yàn)證強(qiáng)化學(xué)習(xí)算法,實(shí)現(xiàn)驗(yàn)證和優(yōu)化Q學(xué)習(xí)基礎(chǔ)理論研究為目的。選擇ICRA比賽更新強(qiáng)化學(xué)習(xí)策略,一是由于ICRA比賽比較直觀和深受歡迎,二是機(jī)器人比賽是多項(xiàng)綜合技術(shù)的融合,是對(duì)強(qiáng)化學(xué)習(xí)基礎(chǔ)理論的考驗(yàn)。與無模型的深度強(qiáng)化學(xué)習(xí)算法相比,還存在一定距離。在后續(xù)的工作中,需要更多的時(shí)間和更先進(jìn)的設(shè)備完善本模型,PyGame環(huán)境每次都需要截屏,這會(huì)浪費(fèi)大量的計(jì)算資源,因此以后選擇更加簡(jiǎn)練的環(huán)境,以此來提高效率。未來,可以通過調(diào)整該模型的神經(jīng)網(wǎng)絡(luò)和學(xué)習(xí)策略來實(shí)施進(jìn)一步優(yōu)化。同時(shí),隨著機(jī)器人在環(huán)境中收集樣本的增加,將其與無模型的強(qiáng)化學(xué)習(xí)方法(Model-free RL)結(jié)合,將能在動(dòng)態(tài)系統(tǒng)環(huán)境下實(shí)現(xiàn)更好的控制效果。

      (責(zé)任編輯:武多多)

      參考文獻(xiàn):

      [1]柯良軍,王小強(qiáng).強(qiáng)化學(xué)習(xí)[M].北京:清華大學(xué)出版社,2019.

      [2]周炯槃,龐沁華,續(xù)大我,等.通信原理[M].3版.北京:北京郵電大學(xué)出版社,2008.

      [3]聞欣研.MATLAB從入門到精通[M].3版.北京:清華大學(xué)出版社,2017.

      [4]田寶玉,楊潔,賀志強(qiáng),等.信息論基礎(chǔ)[M].2版.北京:人民郵電出版社,2016.?

      [5]劉寶玲,李立華,張曉瑩,等.通信電子電路[M].北京:高等教育出版社,2007.

      猜你喜歡
      神經(jīng)網(wǎng)絡(luò)機(jī)器人比賽
      神經(jīng)網(wǎng)絡(luò)抑制無線通信干擾探究
      電子制作(2019年19期)2019-11-23 08:42:00
      發(fā)芽比賽
      大灰狼(2019年4期)2019-05-14 16:38:38
      選美比賽
      比賽
      最瘋狂的比賽
      智慧少年(2016年2期)2016-06-24 06:12:54
      基于神經(jīng)網(wǎng)絡(luò)的拉矯機(jī)控制模型建立
      復(fù)數(shù)神經(jīng)網(wǎng)絡(luò)在基于WiFi的室內(nèi)LBS應(yīng)用
      機(jī)器人來幫你
      認(rèn)識(shí)機(jī)器人
      機(jī)器人來啦
      石首市| 博爱县| 海兴县| 涞水县| 广平县| 高州市| 增城市| 新乡县| 尉氏县| 岐山县| 宿州市| 兴山县| 洪江市| 万安县| 板桥市| 乌什县| 开化县| 安福县| 岳阳市| 星子县| 剑川县| 嵊州市| 邵阳县| 图木舒克市| 兴安盟| 行唐县| 平顺县| 定州市| 肃南| 永年县| 桃园县| 南漳县| 青海省| 广河县| 中卫市| 开远市| 汨罗市| 葫芦岛市| 昭通市| 株洲市| 广德县|