OpenAI發(fā)布訓(xùn)練實(shí)體機(jī)器人的最新模擬環(huán)境

2018-05-14 10:55:09

機(jī)器人產(chǎn)業(yè) 2018年2期

最近，OpenAI發(fā)布了8個(gè)模擬機(jī)器人環(huán)境，以及一個(gè)事后經(jīng)驗(yàn)回放（Hindsight Experience Replay）的基線實(shí)現(xiàn)，所有這些都是基于過去一年的研究而開發(fā)，并已經(jīng)使用這些環(huán)境對(duì)在物理機(jī)器人上運(yùn)行的模型進(jìn)行訓(xùn)練。同時(shí)，OpenAI還發(fā)布了一系列用于機(jī)器人研究的請(qǐng)求。

該版本包括四個(gè)使用了Fetch研究平臺(tái)的環(huán)境和四個(gè)使用了ShadowHand機(jī)器人的環(huán)境?？梢哉f，這些環(huán)境中所包含的操作任務(wù)要比目前在Gym中可用的MuJoCo連續(xù)控制環(huán)境要困難得多，因?yàn)樗羞@些現(xiàn)在都可以使用最近發(fā)布的算法（如PPO）得以輕松解決。此外，新發(fā)布的環(huán)境使用真實(shí)機(jī)器人模型，并要求智能體解決實(shí)際任務(wù)。

環(huán)境

該版本配備了8個(gè)使用MuJoCo物理模擬器的Gym機(jī)器人環(huán)境。這些環(huán)境是：Fetch（4個(gè)）和ShadowHand（4個(gè)）。

目標(biāo)

所有新任務(wù)都有一個(gè)“目標(biāo)”的概念，例如在滑動(dòng)任務(wù)中冰球的期望位置，或用手在方塊操控任務(wù)中操控方塊的期望方向。默認(rèn)情況下，如果沒有達(dá)到預(yù)期目標(biāo)，所有環(huán)境都會(huì)使用-1的稀疏獎(jiǎng)勵(lì)，如果達(dá)到預(yù)期目標(biāo)（在一定的范圍內(nèi)），則為0。這與舊的Gym連續(xù)控制問題中所使用的形狀獎(jiǎng)勵(lì)形成鮮明對(duì)比，例如帶有形狀獎(jiǎng)勵(lì)的Walker2d-v2。

OpenAI還為每個(gè)環(huán)境引入了一個(gè)密集獎(jiǎng)勵(lì)的變體。同時(shí)，還認(rèn)為稀疏獎(jiǎng)勵(lì)在機(jī)器人應(yīng)用中更具實(shí)際性，并鼓勵(lì)每個(gè)人使用稀疏獎(jiǎng)勵(lì)變體。

事后經(jīng)驗(yàn)回放

除了這些新的機(jī)器人環(huán)境外，OpenAI還發(fā)布了事后經(jīng)驗(yàn)回放（Hindsight Experience Replay）（簡稱為HER）的代碼，這是一種可從失敗中汲取經(jīng)驗(yàn)教訓(xùn)的強(qiáng)化學(xué)習(xí)算法。研究結(jié)果表明，僅需要稀疏獎(jiǎng)勵(lì)，HER便可以從大多數(shù)新機(jī)器人問題中學(xué)習(xí)成功的策略。下面，OpenAI還展示了未來研究的一些潛在方向，從而可以進(jìn)一步提高HER算法在這些任務(wù)上的性能表現(xiàn)。

理解HER

要想理解HER的作用是什么，我們先來看看FetchSlide的上下文，這是一個(gè)需要學(xué)習(xí)如何在桌子上滑動(dòng)冰球并擊中目標(biāo)的任務(wù)。第一次嘗試很可能不會(huì)成功，除非我們很幸運(yùn)，否則接下來的幾次嘗試也未必會(huì)成功。典型的強(qiáng)化學(xué)習(xí)算法不會(huì)從這樣的經(jīng)驗(yàn)中學(xué)到任何東西，因?yàn)樗鼈冎猾@得一個(gè)不包含任何學(xué)習(xí)信號(hào)的恒定獎(jiǎng)勵(lì)（在這種情況下為-1）。

HER形式的關(guān)鍵洞察力在于直覺上人類是怎么做的：盡管我們?cè)谀硞€(gè)特定目標(biāo)上還沒有取得成功，但我們至少實(shí)現(xiàn)了一個(gè)不同的成果。那么我們?yōu)槭裁床患僭O(shè)想要實(shí)現(xiàn)的目標(biāo)就是開始時(shí)的目標(biāo)，而不是我們最初設(shè)定的目標(biāo)？通過這種替代，強(qiáng)化學(xué)習(xí)算法可以獲得學(xué)習(xí)信號(hào)，因?yàn)樗呀?jīng)實(shí)現(xiàn)了一些目標(biāo)，即使它不是我們?cè)鞠脒_(dá)到的目標(biāo)。如果我們重復(fù)這一過程，我們最終將學(xué)會(huì)該如何實(shí)現(xiàn)任意目標(biāo)，包括我們真正想要實(shí)現(xiàn)的目標(biāo)。

這種方法使得我們?nèi)W(xué)習(xí)如何在桌子上滑動(dòng)一個(gè)冰球，盡管獎(jiǎng)勵(lì)是完全稀疏的，盡管實(shí)際上我們可能從未在早期達(dá)到過預(yù)期目標(biāo)。我們將這種技術(shù)稱為事后經(jīng)驗(yàn)回放，因?yàn)樗鼤?huì)在事件結(jié)束后，對(duì)事件中選擇的目標(biāo)進(jìn)行經(jīng)驗(yàn)回放（在諸如DQN和DDPG之類的off-policy強(qiáng)化學(xué)習(xí)算法中經(jīng)常使用的技術(shù)）。因此，HER可以與任何off-policy強(qiáng)化學(xué)習(xí)算法結(jié)合使用（例如，HER可以與DDPG結(jié)合，我們將其寫為“DDPG + HER”）。

結(jié)果

我們發(fā)現(xiàn)HER在基于目標(biāo)的、具有稀疏獎(jiǎng)勵(lì)的環(huán)境中運(yùn)行得非常好。我們?cè)谛氯蝿?wù)中對(duì)DDPG + HER和vanilla DDPG進(jìn)行了對(duì)比。這種對(duì)比涵蓋了每個(gè)環(huán)境的稀疏和密集獎(jiǎng)勵(lì)版本。

帶有稀疏獎(jiǎng)勵(lì)的DDPG + HER明顯優(yōu)于其他所有配置，并且僅需要很少的獎(jiǎng)勵(lì)，便可以從這項(xiàng)具有挑戰(zhàn)性的任務(wù)上學(xué)習(xí)成功的策略。有趣的是，帶有密集獎(jiǎng)勵(lì)的DDPG + HER也能夠?qū)W習(xí)，但表現(xiàn)性能較差。在這兩種情況下，vanilla DDPG大多不能進(jìn)行學(xué)習(xí)。我們發(fā)現(xiàn)這種趨勢(shì)在大多數(shù)環(huán)境中都是正確的。

Requests for Research：

HER版本

盡管HER是一種很有發(fā)展前景的方式，可以用像文中所提出的機(jī)器人環(huán)境那樣的稀疏獎(jiǎng)勵(lì)來學(xué)習(xí)復(fù)雜的、基于目標(biāo)的任務(wù)，但仍有很大的提升空間。與最近發(fā)布的Requests for Research 2.0要求類似，我們對(duì)于如何具體改進(jìn)HER和通用強(qiáng)化學(xué)習(xí)有一些想法。

自動(dòng)事后目標(biāo)創(chuàng)建（Automatic hindsight goal creation）：我們現(xiàn)在有一個(gè)硬編碼策略以選擇我們想要替換的事后目標(biāo)。如果這個(gè)策略可以被學(xué)習(xí)，那將是很有趣的。

無偏差HER：目標(biāo)替換以無原則的方式改變了經(jīng)驗(yàn)分配。這種偏差在理論上會(huì)導(dǎo)致不穩(wěn)定性，盡管我們?cè)趯?shí)踐中并沒有發(fā)現(xiàn)這種情況。不過，例如通過利用重要性抽樣，可以推導(dǎo)出HER的無偏差版本。

HER + HRL：將HER與層級(jí)強(qiáng)化學(xué)習(xí)（HRL）中的最新想法進(jìn)一步結(jié)合起來會(huì)很有趣。它不僅可以將HER用于目標(biāo)，還可以應(yīng)用于由更高級(jí)別策略生成的操作中。例如，如果較高級(jí)別要求較低級(jí)別實(shí)現(xiàn)目標(biāo)A，但卻實(shí)現(xiàn)了目標(biāo)B，則我們可以假設(shè)較高級(jí)別最初就是要求我們實(shí)現(xiàn)目標(biāo)B。

更豐富的值函數(shù)：將最近的研究進(jìn)行擴(kuò)展將會(huì)非常有趣，并在附加的輸入上（如折扣因子或成功閾值）調(diào)整值函數(shù)。

更快的信息傳播：大多數(shù)off-policy深度強(qiáng)化學(xué)習(xí)算法使用目標(biāo)網(wǎng)絡(luò)來穩(wěn)定訓(xùn)練。然而，由于變化需要時(shí)間來進(jìn)行傳播，這將會(huì)對(duì)訓(xùn)練的速度產(chǎn)生影響，并且我們?cè)趯?shí)驗(yàn)中注意到，它往往是決定DDPG + HER學(xué)習(xí)速度的最重要因素。研究其他不引起這種減速的穩(wěn)定訓(xùn)練的方法是很有趣的。

HER +多步返回：由于我們替換了目標(biāo)，因此在HER中所使用的經(jīng)驗(yàn)極其off-policy。這使得它很難與多步返回一起使用。但是，多步返回是可取的，因?yàn)樗鼈冊(cè)试S更快地傳遞關(guān)于返回的信息。

on-policy HER：目前，由于我們?nèi)〈四繕?biāo)，所以HER只能與off-policy算法一起使用，這使得經(jīng)驗(yàn)極其off-policy。然而，像PPO這樣的最新技術(shù)算法表現(xiàn)出非常吸引人的穩(wěn)定性特征。研究HER是否可以與這種on-policy算法相結(jié)合是非常有趣的，例如通過重要性采樣，在這方面已經(jīng)有一些初步結(jié)果。

具有高頻行動(dòng)的強(qiáng)化學(xué)習(xí)：目前的強(qiáng)化算法對(duì)采取動(dòng)作的頻率非常敏感，這就是為什么在Atari上通常使用跳幀技術(shù)。在連續(xù)控制領(lǐng)域，隨著所采取行動(dòng)的頻率趨于無窮大，性能趨于零，這是由兩個(gè)因素造成的：不一致的探索，以及引導(dǎo)更多時(shí)間來向后傳播有關(guān)返回信息的必要性。

將HER與強(qiáng)化學(xué)習(xí)的最新進(jìn)展的結(jié)合：最近有大量研究改進(jìn)了強(qiáng)化學(xué)習(xí)的不同方面。首先，HER可以與優(yōu)先經(jīng)驗(yàn)回放、分布式強(qiáng)化學(xué)習(xí)、熵正則化強(qiáng)化學(xué)習(xí)或反向課程生成相結(jié)合。

使用基于目標(biāo)的環(huán)境

引入“目標(biāo)”的概念需要對(duì)現(xiàn)有的Gym API進(jìn)行一些反向兼容的更改：

所有基于目標(biāo)的環(huán)境都使用gym.spaces.Dict觀察空間。預(yù)期環(huán)境包含一個(gè)智能體試圖實(shí)現(xiàn)的期望目標(biāo)（desired_goal）、其目前達(dá)到的目標(biāo)（achieved_goal），以及實(shí)際觀察（observation），例如機(jī)器人的狀態(tài)。

我們展示了環(huán)境的獎(jiǎng)勵(lì)函數(shù)，從而允許通過改變的目標(biāo)以對(duì)獎(jiǎng)勵(lì)進(jìn)行重新計(jì)算。這使得對(duì)目標(biāo)進(jìn)行替換的HER風(fēng)格的算法成為可能。

OpenAI發(fā)布訓(xùn)練 實(shí)體機(jī)器人的最新模擬環(huán)境

OpenAI發(fā)布訓(xùn)練實(shí)體機(jī)器人的最新模擬環(huán)境