最近,OpenAI發(fā)布了8個(gè)模擬機(jī)器人環(huán)境,以及一個(gè)事后經(jīng)驗(yàn)回放(Hindsight Experience Replay)的基線實(shí)現(xiàn),所有這些都是基于過去一年的研究而開發(fā),并已經(jīng)使用這些環(huán)境對(duì)在物理機(jī)器人上運(yùn)行的模型進(jìn)行訓(xùn)練。同時(shí),OpenAI還發(fā)布了一系列用于機(jī)器人研究的請(qǐng)求。
該版本包括四個(gè)使用了Fetch研究平臺(tái)的環(huán)境和四個(gè)使用了ShadowHand機(jī)器人的環(huán)境??梢哉f,這些環(huán)境中所包含的操作任務(wù)要比目前在Gym中可用的MuJoCo連續(xù)控制環(huán)境要困難得多,因?yàn)樗羞@些現(xiàn)在都可以使用最近發(fā)布的算法(如PPO)得以輕松解決。此外,新發(fā)布的環(huán)境使用真實(shí)機(jī)器人模型,并要求智能體解決實(shí)際任務(wù)。
環(huán)境
該版本配備了8個(gè)使用MuJoCo物理模擬器的Gym機(jī)器人環(huán)境。這些環(huán)境是:Fetch(4個(gè))和ShadowHand(4個(gè))。
目標(biāo)
所有新任務(wù)都有一個(gè)“目標(biāo)”的概念,例如在滑動(dòng)任務(wù)中冰球的期望位置,或用手在方塊操控任務(wù)中操控方塊的期望方向。默認(rèn)情況下,如果沒有達(dá)到預(yù)期目標(biāo),所有環(huán)境都會(huì)使用-1的稀疏獎(jiǎng)勵(lì),如果達(dá)到預(yù)期目標(biāo)(在一定的范圍內(nèi)),則為0。這與舊的Gym連續(xù)控制問題中所使用的形狀獎(jiǎng)勵(lì)形成鮮明對(duì)比,例如帶有形狀獎(jiǎng)勵(lì)的Walker2d-v2。
OpenAI還為每個(gè)環(huán)境引入了一個(gè)密集獎(jiǎng)勵(lì)的變體。同時(shí),還認(rèn)為稀疏獎(jiǎng)勵(lì)在機(jī)器人應(yīng)用中更具實(shí)際性,并鼓勵(lì)每個(gè)人使用稀疏獎(jiǎng)勵(lì)變體。
事后經(jīng)驗(yàn)回放
除了這些新的機(jī)器人環(huán)境外,OpenAI還發(fā)布了事后經(jīng)驗(yàn)回放(Hindsight Experience Replay)(簡稱為HER)的代碼,這是一種可從失敗中汲取經(jīng)驗(yàn)教訓(xùn)的強(qiáng)化學(xué)習(xí)算法。研究結(jié)果表明,僅需要稀疏獎(jiǎng)勵(lì),HER便可以從大多數(shù)新機(jī)器人問題中學(xué)習(xí)成功的策略。下面,OpenAI還展示了未來研究的一些潛在方向,從而可以進(jìn)一步提高HER算法在這些任務(wù)上的性能表現(xiàn)。
理解HER
要想理解HER的作用是什么,我們先來看看FetchSlide的上下文,這是一個(gè)需要學(xué)習(xí)如何在桌子上滑動(dòng)冰球并擊中目標(biāo)的任務(wù)。第一次嘗試很可能不會(huì)成功,除非我們很幸運(yùn),否則接下來的幾次嘗試也未必會(huì)成功。典型的強(qiáng)化學(xué)習(xí)算法不會(huì)從這樣的經(jīng)驗(yàn)中學(xué)到任何東西,因?yàn)樗鼈冎猾@得一個(gè)不包含任何學(xué)習(xí)信號(hào)的恒定獎(jiǎng)勵(lì)(在這種情況下為-1)。
HER形式的關(guān)鍵洞察力在于直覺上人類是怎么做的:盡管我們?cè)谀硞€(gè)特定目標(biāo)上還沒有取得成功,但我們至少實(shí)現(xiàn)了一個(gè)不同的成果。那么我們?yōu)槭裁床患僭O(shè)想要實(shí)現(xiàn)的目標(biāo)就是開始時(shí)的目標(biāo),而不是我們最初設(shè)定的目標(biāo)?通過這種替代,強(qiáng)化學(xué)習(xí)算法可以獲得學(xué)習(xí)信號(hào),因?yàn)樗呀?jīng)實(shí)現(xiàn)了一些目標(biāo),即使它不是我們?cè)鞠脒_(dá)到的目標(biāo)。如果我們重復(fù)這一過程,我們最終將學(xué)會(huì)該如何實(shí)現(xiàn)任意目標(biāo),包括我們真正想要實(shí)現(xiàn)的目標(biāo)。
這種方法使得我們?nèi)W(xué)習(xí)如何在桌子上滑動(dòng)一個(gè)冰球,盡管獎(jiǎng)勵(lì)是完全稀疏的,盡管實(shí)際上我們可能從未在早期達(dá)到過預(yù)期目標(biāo)。我們將這種技術(shù)稱為事后經(jīng)驗(yàn)回放,因?yàn)樗鼤?huì)在事件結(jié)束后,對(duì)事件中選擇的目標(biāo)進(jìn)行經(jīng)驗(yàn)回放(在諸如DQN和DDPG之類的off-policy強(qiáng)化學(xué)習(xí)算法中經(jīng)常使用的技術(shù))。因此,HER可以與任何off-policy強(qiáng)化學(xué)習(xí)算法結(jié)合使用(例如,HER可以與DDPG結(jié)合,我們將其寫為“DDPG + HER”)。
結(jié)果
我們發(fā)現(xiàn)HER在基于目標(biāo)的、具有稀疏獎(jiǎng)勵(lì)的環(huán)境中運(yùn)行得非常好。我們?cè)谛氯蝿?wù)中對(duì)DDPG + HER和vanilla DDPG進(jìn)行了對(duì)比。這種對(duì)比涵蓋了每個(gè)環(huán)境的稀疏和密集獎(jiǎng)勵(lì)版本。
帶有稀疏獎(jiǎng)勵(lì)的DDPG + HER明顯優(yōu)于其他所有配置,并且僅需要很少的獎(jiǎng)勵(lì),便可以從這項(xiàng)具有挑戰(zhàn)性的任務(wù)上學(xué)習(xí)成功的策略。有趣的是,帶有密集獎(jiǎng)勵(lì)的DDPG + HER也能夠?qū)W習(xí),但表現(xiàn)性能較差。在這兩種情況下,vanilla DDPG大多不能進(jìn)行學(xué)習(xí)。我們發(fā)現(xiàn)這種趨勢(shì)在大多數(shù)環(huán)境中都是正確的。
Requests for Research:
HER版本
盡管HER是一種很有發(fā)展前景的方式,可以用像文中所提出的機(jī)器人環(huán)境那樣的稀疏獎(jiǎng)勵(lì)來學(xué)習(xí)復(fù)雜的、基于目標(biāo)的任務(wù),但仍有很大的提升空間。與最近發(fā)布的Requests for Research 2.0要求類似,我們對(duì)于如何具體改進(jìn)HER和通用強(qiáng)化學(xué)習(xí)有一些想法。
自動(dòng)事后目標(biāo)創(chuàng)建(Automatic hindsight goal creation):我們現(xiàn)在有一個(gè)硬編碼策略以選擇我們想要替換的事后目標(biāo)。如果這個(gè)策略可以被學(xué)習(xí),那將是很有趣的。
無偏差HER:目標(biāo)替換以無原則的方式改變了經(jīng)驗(yàn)分配。這種偏差在理論上會(huì)導(dǎo)致不穩(wěn)定性,盡管我們?cè)趯?shí)踐中并沒有發(fā)現(xiàn)這種情況。不過,例如通過利用重要性抽樣,可以推導(dǎo)出HER的無偏差版本。
HER + HRL:將HER與層級(jí)強(qiáng)化學(xué)習(xí)(HRL)中的最新想法進(jìn)一步結(jié)合起來會(huì)很有趣。它不僅可以將HER用于目標(biāo),還可以應(yīng)用于由更高級(jí)別策略生成的操作中。例如,如果較高級(jí)別要求較低級(jí)別實(shí)現(xiàn)目標(biāo)A,但卻實(shí)現(xiàn)了目標(biāo)B,則我們可以假設(shè)較高級(jí)別最初就是要求我們實(shí)現(xiàn)目標(biāo)B。
更豐富的值函數(shù):將最近的研究進(jìn)行擴(kuò)展將會(huì)非常有趣,并在附加的輸入上(如折扣因子或成功閾值)調(diào)整值函數(shù)。
更快的信息傳播:大多數(shù)off-policy深度強(qiáng)化學(xué)習(xí)算法使用目標(biāo)網(wǎng)絡(luò)來穩(wěn)定訓(xùn)練。然而,由于變化需要時(shí)間來進(jìn)行傳播,這將會(huì)對(duì)訓(xùn)練的速度產(chǎn)生影響,并且我們?cè)趯?shí)驗(yàn)中注意到,它往往是決定DDPG + HER學(xué)習(xí)速度的最重要因素。研究其他不引起這種減速的穩(wěn)定訓(xùn)練的方法是很有趣的。
HER +多步返回:由于我們替換了目標(biāo),因此在HER中所使用的經(jīng)驗(yàn)極其off-policy。這使得它很難與多步返回一起使用。但是,多步返回是可取的,因?yàn)樗鼈冊(cè)试S更快地傳遞關(guān)于返回的信息。
on-policy HER:目前,由于我們?nèi)〈四繕?biāo),所以HER只能與off-policy算法一起使用,這使得經(jīng)驗(yàn)極其off-policy。然而,像PPO這樣的最新技術(shù)算法表現(xiàn)出非常吸引人的穩(wěn)定性特征。研究HER是否可以與這種on-policy算法相結(jié)合是非常有趣的,例如通過重要性采樣,在這方面已經(jīng)有一些初步結(jié)果。
具有高頻行動(dòng)的強(qiáng)化學(xué)習(xí):目前的強(qiáng)化算法對(duì)采取動(dòng)作的頻率非常敏感,這就是為什么在Atari上通常使用跳幀技術(shù)。在連續(xù)控制領(lǐng)域,隨著所采取行動(dòng)的頻率趨于無窮大,性能趨于零,這是由兩個(gè)因素造成的:不一致的探索,以及引導(dǎo)更多時(shí)間來向后傳播有關(guān)返回信息的必要性。
將HER與強(qiáng)化學(xué)習(xí)的最新進(jìn)展的結(jié)合:最近有大量研究改進(jìn)了強(qiáng)化學(xué)習(xí)的不同方面。首先,HER可以與優(yōu)先經(jīng)驗(yàn)回放、分布式強(qiáng)化學(xué)習(xí)、熵正則化強(qiáng)化學(xué)習(xí)或反向課程生成相結(jié)合。
使用基于目標(biāo)的環(huán)境
引入“目標(biāo)”的概念需要對(duì)現(xiàn)有的Gym API進(jìn)行一些反向兼容的更改:
所有基于目標(biāo)的環(huán)境都使用gym.spaces.Dict觀察空間。預(yù)期環(huán)境包含一個(gè)智能體試圖實(shí)現(xiàn)的期望目標(biāo)(desired_goal)、其目前達(dá)到的目標(biāo)(achieved_goal),以及實(shí)際觀察(observation),例如機(jī)器人的狀態(tài)。
我們展示了環(huán)境的獎(jiǎng)勵(lì)函數(shù),從而允許通過改變的目標(biāo)以對(duì)獎(jiǎng)勵(lì)進(jìn)行重新計(jì)算。這使得對(duì)目標(biāo)進(jìn)行替換的HER風(fēng)格的算法成為可能。