• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      OpenAI發(fā)布訓(xùn)練 實(shí)體機(jī)器人的最新模擬環(huán)境

      2018-05-14 10:55:09
      機(jī)器人產(chǎn)業(yè) 2018年2期
      關(guān)鍵詞:冰球經(jīng)驗(yàn)機(jī)器人

      最近,OpenAI發(fā)布了8個(gè)模擬機(jī)器人環(huán)境,以及一個(gè)事后經(jīng)驗(yàn)回放(Hindsight Experience Replay)的基線實(shí)現(xiàn),所有這些都是基于過去一年的研究而開發(fā),并已經(jīng)使用這些環(huán)境對(duì)在物理機(jī)器人上運(yùn)行的模型進(jìn)行訓(xùn)練。同時(shí),OpenAI還發(fā)布了一系列用于機(jī)器人研究的請(qǐng)求。

      該版本包括四個(gè)使用了Fetch研究平臺(tái)的環(huán)境和四個(gè)使用了ShadowHand機(jī)器人的環(huán)境??梢哉f,這些環(huán)境中所包含的操作任務(wù)要比目前在Gym中可用的MuJoCo連續(xù)控制環(huán)境要困難得多,因?yàn)樗羞@些現(xiàn)在都可以使用最近發(fā)布的算法(如PPO)得以輕松解決。此外,新發(fā)布的環(huán)境使用真實(shí)機(jī)器人模型,并要求智能體解決實(shí)際任務(wù)。

      環(huán)境

      該版本配備了8個(gè)使用MuJoCo物理模擬器的Gym機(jī)器人環(huán)境。這些環(huán)境是:Fetch(4個(gè))和ShadowHand(4個(gè))。

      目標(biāo)

      所有新任務(wù)都有一個(gè)“目標(biāo)”的概念,例如在滑動(dòng)任務(wù)中冰球的期望位置,或用手在方塊操控任務(wù)中操控方塊的期望方向。默認(rèn)情況下,如果沒有達(dá)到預(yù)期目標(biāo),所有環(huán)境都會(huì)使用-1的稀疏獎(jiǎng)勵(lì),如果達(dá)到預(yù)期目標(biāo)(在一定的范圍內(nèi)),則為0。這與舊的Gym連續(xù)控制問題中所使用的形狀獎(jiǎng)勵(lì)形成鮮明對(duì)比,例如帶有形狀獎(jiǎng)勵(lì)的Walker2d-v2。

      OpenAI還為每個(gè)環(huán)境引入了一個(gè)密集獎(jiǎng)勵(lì)的變體。同時(shí),還認(rèn)為稀疏獎(jiǎng)勵(lì)在機(jī)器人應(yīng)用中更具實(shí)際性,并鼓勵(lì)每個(gè)人使用稀疏獎(jiǎng)勵(lì)變體。

      事后經(jīng)驗(yàn)回放

      除了這些新的機(jī)器人環(huán)境外,OpenAI還發(fā)布了事后經(jīng)驗(yàn)回放(Hindsight Experience Replay)(簡稱為HER)的代碼,這是一種可從失敗中汲取經(jīng)驗(yàn)教訓(xùn)的強(qiáng)化學(xué)習(xí)算法。研究結(jié)果表明,僅需要稀疏獎(jiǎng)勵(lì),HER便可以從大多數(shù)新機(jī)器人問題中學(xué)習(xí)成功的策略。下面,OpenAI還展示了未來研究的一些潛在方向,從而可以進(jìn)一步提高HER算法在這些任務(wù)上的性能表現(xiàn)。

      理解HER

      要想理解HER的作用是什么,我們先來看看FetchSlide的上下文,這是一個(gè)需要學(xué)習(xí)如何在桌子上滑動(dòng)冰球并擊中目標(biāo)的任務(wù)。第一次嘗試很可能不會(huì)成功,除非我們很幸運(yùn),否則接下來的幾次嘗試也未必會(huì)成功。典型的強(qiáng)化學(xué)習(xí)算法不會(huì)從這樣的經(jīng)驗(yàn)中學(xué)到任何東西,因?yàn)樗鼈冎猾@得一個(gè)不包含任何學(xué)習(xí)信號(hào)的恒定獎(jiǎng)勵(lì)(在這種情況下為-1)。

      HER形式的關(guān)鍵洞察力在于直覺上人類是怎么做的:盡管我們?cè)谀硞€(gè)特定目標(biāo)上還沒有取得成功,但我們至少實(shí)現(xiàn)了一個(gè)不同的成果。那么我們?yōu)槭裁床患僭O(shè)想要實(shí)現(xiàn)的目標(biāo)就是開始時(shí)的目標(biāo),而不是我們最初設(shè)定的目標(biāo)?通過這種替代,強(qiáng)化學(xué)習(xí)算法可以獲得學(xué)習(xí)信號(hào),因?yàn)樗呀?jīng)實(shí)現(xiàn)了一些目標(biāo),即使它不是我們?cè)鞠脒_(dá)到的目標(biāo)。如果我們重復(fù)這一過程,我們最終將學(xué)會(huì)該如何實(shí)現(xiàn)任意目標(biāo),包括我們真正想要實(shí)現(xiàn)的目標(biāo)。

      這種方法使得我們?nèi)W(xué)習(xí)如何在桌子上滑動(dòng)一個(gè)冰球,盡管獎(jiǎng)勵(lì)是完全稀疏的,盡管實(shí)際上我們可能從未在早期達(dá)到過預(yù)期目標(biāo)。我們將這種技術(shù)稱為事后經(jīng)驗(yàn)回放,因?yàn)樗鼤?huì)在事件結(jié)束后,對(duì)事件中選擇的目標(biāo)進(jìn)行經(jīng)驗(yàn)回放(在諸如DQN和DDPG之類的off-policy強(qiáng)化學(xué)習(xí)算法中經(jīng)常使用的技術(shù))。因此,HER可以與任何off-policy強(qiáng)化學(xué)習(xí)算法結(jié)合使用(例如,HER可以與DDPG結(jié)合,我們將其寫為“DDPG + HER”)。

      結(jié)果

      我們發(fā)現(xiàn)HER在基于目標(biāo)的、具有稀疏獎(jiǎng)勵(lì)的環(huán)境中運(yùn)行得非常好。我們?cè)谛氯蝿?wù)中對(duì)DDPG + HER和vanilla DDPG進(jìn)行了對(duì)比。這種對(duì)比涵蓋了每個(gè)環(huán)境的稀疏和密集獎(jiǎng)勵(lì)版本。

      帶有稀疏獎(jiǎng)勵(lì)的DDPG + HER明顯優(yōu)于其他所有配置,并且僅需要很少的獎(jiǎng)勵(lì),便可以從這項(xiàng)具有挑戰(zhàn)性的任務(wù)上學(xué)習(xí)成功的策略。有趣的是,帶有密集獎(jiǎng)勵(lì)的DDPG + HER也能夠?qū)W習(xí),但表現(xiàn)性能較差。在這兩種情況下,vanilla DDPG大多不能進(jìn)行學(xué)習(xí)。我們發(fā)現(xiàn)這種趨勢(shì)在大多數(shù)環(huán)境中都是正確的。

      Requests for Research:

      HER版本

      盡管HER是一種很有發(fā)展前景的方式,可以用像文中所提出的機(jī)器人環(huán)境那樣的稀疏獎(jiǎng)勵(lì)來學(xué)習(xí)復(fù)雜的、基于目標(biāo)的任務(wù),但仍有很大的提升空間。與最近發(fā)布的Requests for Research 2.0要求類似,我們對(duì)于如何具體改進(jìn)HER和通用強(qiáng)化學(xué)習(xí)有一些想法。

      自動(dòng)事后目標(biāo)創(chuàng)建(Automatic hindsight goal creation):我們現(xiàn)在有一個(gè)硬編碼策略以選擇我們想要替換的事后目標(biāo)。如果這個(gè)策略可以被學(xué)習(xí),那將是很有趣的。

      無偏差HER:目標(biāo)替換以無原則的方式改變了經(jīng)驗(yàn)分配。這種偏差在理論上會(huì)導(dǎo)致不穩(wěn)定性,盡管我們?cè)趯?shí)踐中并沒有發(fā)現(xiàn)這種情況。不過,例如通過利用重要性抽樣,可以推導(dǎo)出HER的無偏差版本。

      HER + HRL:將HER與層級(jí)強(qiáng)化學(xué)習(xí)(HRL)中的最新想法進(jìn)一步結(jié)合起來會(huì)很有趣。它不僅可以將HER用于目標(biāo),還可以應(yīng)用于由更高級(jí)別策略生成的操作中。例如,如果較高級(jí)別要求較低級(jí)別實(shí)現(xiàn)目標(biāo)A,但卻實(shí)現(xiàn)了目標(biāo)B,則我們可以假設(shè)較高級(jí)別最初就是要求我們實(shí)現(xiàn)目標(biāo)B。

      更豐富的值函數(shù):將最近的研究進(jìn)行擴(kuò)展將會(huì)非常有趣,并在附加的輸入上(如折扣因子或成功閾值)調(diào)整值函數(shù)。

      更快的信息傳播:大多數(shù)off-policy深度強(qiáng)化學(xué)習(xí)算法使用目標(biāo)網(wǎng)絡(luò)來穩(wěn)定訓(xùn)練。然而,由于變化需要時(shí)間來進(jìn)行傳播,這將會(huì)對(duì)訓(xùn)練的速度產(chǎn)生影響,并且我們?cè)趯?shí)驗(yàn)中注意到,它往往是決定DDPG + HER學(xué)習(xí)速度的最重要因素。研究其他不引起這種減速的穩(wěn)定訓(xùn)練的方法是很有趣的。

      HER +多步返回:由于我們替換了目標(biāo),因此在HER中所使用的經(jīng)驗(yàn)極其off-policy。這使得它很難與多步返回一起使用。但是,多步返回是可取的,因?yàn)樗鼈冊(cè)试S更快地傳遞關(guān)于返回的信息。

      on-policy HER:目前,由于我們?nèi)〈四繕?biāo),所以HER只能與off-policy算法一起使用,這使得經(jīng)驗(yàn)極其off-policy。然而,像PPO這樣的最新技術(shù)算法表現(xiàn)出非常吸引人的穩(wěn)定性特征。研究HER是否可以與這種on-policy算法相結(jié)合是非常有趣的,例如通過重要性采樣,在這方面已經(jīng)有一些初步結(jié)果。

      具有高頻行動(dòng)的強(qiáng)化學(xué)習(xí):目前的強(qiáng)化算法對(duì)采取動(dòng)作的頻率非常敏感,這就是為什么在Atari上通常使用跳幀技術(shù)。在連續(xù)控制領(lǐng)域,隨著所采取行動(dòng)的頻率趨于無窮大,性能趨于零,這是由兩個(gè)因素造成的:不一致的探索,以及引導(dǎo)更多時(shí)間來向后傳播有關(guān)返回信息的必要性。

      將HER與強(qiáng)化學(xué)習(xí)的最新進(jìn)展的結(jié)合:最近有大量研究改進(jìn)了強(qiáng)化學(xué)習(xí)的不同方面。首先,HER可以與優(yōu)先經(jīng)驗(yàn)回放、分布式強(qiáng)化學(xué)習(xí)、熵正則化強(qiáng)化學(xué)習(xí)或反向課程生成相結(jié)合。

      使用基于目標(biāo)的環(huán)境

      引入“目標(biāo)”的概念需要對(duì)現(xiàn)有的Gym API進(jìn)行一些反向兼容的更改:

      所有基于目標(biāo)的環(huán)境都使用gym.spaces.Dict觀察空間。預(yù)期環(huán)境包含一個(gè)智能體試圖實(shí)現(xiàn)的期望目標(biāo)(desired_goal)、其目前達(dá)到的目標(biāo)(achieved_goal),以及實(shí)際觀察(observation),例如機(jī)器人的狀態(tài)。

      我們展示了環(huán)境的獎(jiǎng)勵(lì)函數(shù),從而允許通過改變的目標(biāo)以對(duì)獎(jiǎng)勵(lì)進(jìn)行重新計(jì)算。這使得對(duì)目標(biāo)進(jìn)行替換的HER風(fēng)格的算法成為可能。

      猜你喜歡
      冰球經(jīng)驗(yàn)機(jī)器人
      2021年第20期“最值得推廣的經(jīng)驗(yàn)”評(píng)選
      黨課參考(2021年20期)2021-11-04 09:39:46
      冰球守門員髖關(guān)節(jié)損傷與治療
      我國冰球“貫通化”后備人才培養(yǎng)模式的思考
      經(jīng)驗(yàn)
      2018年第20期“最值得推廣的經(jīng)驗(yàn)”評(píng)選
      黨課參考(2018年20期)2018-11-09 08:52:36
      冰球
      幼兒100(2018年26期)2018-09-26 06:18:48
      冰與火的運(yùn)動(dòng)——冰球
      機(jī)器人來幫你
      認(rèn)識(shí)機(jī)器人
      機(jī)器人來啦
      额尔古纳市| 元谋县| 遂昌县| 沐川县| 宜兴市| 茶陵县| 崇文区| 南华县| 崇信县| 滨州市| 凤山县| 临城县| 东安县| 惠水县| 和顺县| 廉江市| 吉安县| 湘阴县| 大关县| 巴青县| 游戏| 阳谷县| 大埔区| 静安区| 莲花县| 萍乡市| 鄱阳县| 页游| 河南省| 贞丰县| 甘谷县| 黄山市| 乌苏市| 民乐县| 遂宁市| 金昌市| 泽库县| 荆州市| 吉木萨尔县| 宜州市| 尼木县|