DeepMind打造全新學(xué)習(xí)范式“SAC-X”

2018-05-14 10:55:09

機(jī)器人產(chǎn)業(yè) 2018年2期

在機(jī)器學(xué)習(xí)和深度學(xué)習(xí)技術(shù)的協(xié)助下，AI對(duì)于解析數(shù)據(jù)的能力并不會(huì)有人懷疑，但它們并不善于自行探索。谷歌旗下知名AI研究機(jī)構(gòu)DeepMind為機(jī)器人建立了一個(gè)全新的學(xué)習(xí)范式“調(diào)度輔助控制”（SAC-X），為機(jī)器人提供一個(gè)簡單的目標(biāo)，并在完成時(shí)提供獎(jiǎng)勵(lì)。

調(diào)度輔助控制（Scheduled Auxiliary Control，SAC-X）是強(qiáng)化學(xué)習(xí)（RL）上下文中一種新型的學(xué)習(xí)式。SAC-X能夠在存在多個(gè)稀疏獎(jiǎng)勵(lì)信號(hào)的情況下，從頭開始（from scratch）學(xué)習(xí)復(fù)雜行為。為此，智能體配備了一套通用的輔助任務(wù)，它試圖通過off-policy強(qiáng)化學(xué)習(xí)同時(shí)從中進(jìn)行學(xué)習(xí)。實(shí)際上，我們方法所蘊(yùn)涵的關(guān)鍵思想在于，主動(dòng)（學(xué)習(xí)）調(diào)度和輔助策略的執(zhí)行，使得智能體能夠有效地對(duì)其環(huán)境進(jìn)行探索，使其能夠在稀疏獎(jiǎng)勵(lì)強(qiáng)化學(xué)習(xí)中表現(xiàn)突出。我們?cè)谌舾蓚€(gè)具有挑戰(zhàn)性的機(jī)器人操作環(huán)境下進(jìn)行實(shí)驗(yàn)，實(shí)驗(yàn)結(jié)果證明了我們的方法是非常有效的。

考慮下面的場(chǎng)景：一個(gè)學(xué)習(xí)智能體必須控制一個(gè)機(jī)器人手臂以打開盒子，并將一個(gè)方塊放置在其中。盡管為這個(gè)任務(wù)定義一個(gè)獎(jiǎng)勵(lì)是非常簡單和直接的，例如，使用諸如力傳感器這樣的盒子內(nèi)的簡單機(jī)制對(duì)所放置的方塊進(jìn)行檢測(cè)，但是潛在的學(xué)習(xí)問題的解決還是存在一定難度的。智能體必須能夠發(fā)現(xiàn)一個(gè)長序列的“正確”行為，以便找到產(chǎn)生稀疏獎(jiǎng)勵(lì)的環(huán)境配置——即包含在盒子內(nèi)的方塊?？梢哉f，發(fā)現(xiàn)這種稀疏的獎(jiǎng)勵(lì)信號(hào)是一個(gè)非常艱難的探索問題，而想要通過隨機(jī)探索獲得這種成功幾乎是不可能的。

在過去的幾十年里，為了幫助解決上述的探索問題，科學(xué)家們已經(jīng)開發(fā)了許多種研究方法。這些方法包括：獎(jiǎng)賞塑形（reward shaping）、課程學(xué)習(xí)（curriculum learning）、從模擬到現(xiàn)實(shí)的已學(xué)習(xí)策略的遷移、從演示中進(jìn)行的學(xué)習(xí)、模型指導(dǎo)下的學(xué)習(xí)以及反向強(qiáng)化學(xué)習(xí)等?？梢赃@樣說，所有這些方法都依賴于特定任務(wù)的先驗(yàn)知識(shí)的可用性。除此之外，它們還往往將控制策略偏向某種潛在意義上并不理想的方向。例如，使用由實(shí)驗(yàn)者設(shè)計(jì)的獎(jiǎng)賞塑形，不可避免地會(huì)偏向智能體所能夠找到的解決方案。與此相反，當(dāng)使用稀疏任務(wù)公式時(shí)，智能體可以發(fā)現(xiàn)全新的、潛在意義上更為優(yōu)異的解決方案。因此，可以這樣說，我們更傾向于開發(fā)在學(xué)習(xí)期間支持智能體的方法，但是保留智能體從稀疏獎(jiǎng)勵(lì)中進(jìn)行學(xué)習(xí)的能力。理想情況下，我們的新方法應(yīng)該減少用于處理稀疏獎(jiǎng)勵(lì)的特定的先驗(yàn)任務(wù)知識(shí)。

在本文中，我們引入了一種稱之為調(diào)度輔助控制（SAC-X）的新方法，將其作為實(shí)現(xiàn)這種方法策略的第一步。它基于四個(gè)主要原則：

1.每個(gè)狀態(tài)動(dòng)作對(duì)都與一個(gè)獎(jiǎng)勵(lì)向量相配對(duì)，由（通常而言是稀疏的）外部提供的獎(jiǎng)勵(lì)和（通常而言是稀疏的）內(nèi)部輔助獎(jiǎng)勵(lì)組成。

2.每個(gè)獎(jiǎng)勵(lì)條目都有一個(gè)指定的策略，在下文中稱為“意圖（intention）”，該策略經(jīng)過訓(xùn)練以最大化其相應(yīng)的累積獎(jiǎng)勵(lì)。

3.有一個(gè)高級(jí)調(diào)度程序，在提高智能體對(duì)外部任務(wù)的性能的目標(biāo)考慮下，選擇個(gè)體意圖并加以執(zhí)行。

4.學(xué)習(xí)是在off-policy過程中執(zhí)行的（與策略執(zhí)行異步），意圖之間的經(jīng)驗(yàn)是共享的，以便有效地使用信息。

盡管本文所提出的方法通常來說適用于更為廣泛的問題，但我們主要在一個(gè)具有稀疏獎(jiǎng)勵(lì)的典型機(jī)器人操作應(yīng)用程序上對(duì)我們的方法加以討論：將各種目標(biāo)堆疊起來和清理桌子。

這些任務(wù)中的輔助獎(jiǎng)勵(lì)是基于智能體對(duì)于控制其自身的感官觀察（例如圖像、本體感受、觸覺傳感器）的掌握程度而定義的。它們被設(shè)計(jì)成在一個(gè)真實(shí)的機(jī)器人裝置中非常易于實(shí)現(xiàn)。我們?cè)谝粋€(gè)原始感官層面上定義了輔助獎(jiǎng)勵(lì)，例如，是否檢測(cè)到觸摸?；蛘?，可選擇性地在一個(gè)需要少量實(shí)體的預(yù)先計(jì)算的較高級(jí)別上對(duì)它們進(jìn)行定義，例如，是否有任何目標(biāo)移動(dòng)，或者在圖像平面上是否有兩個(gè)目標(biāo)彼此相接近?；谶@些基本的輔助任務(wù)，智能體必須有效地對(duì)其環(huán)境進(jìn)行探索，直到觀察到更多有趣的外部獎(jiǎng)勵(lì)。其實(shí)，這種方式主要是受到人類在孩童時(shí)代玩游戲階段的啟發(fā)。

在本文中，我們展示了SAC-X在模擬機(jī)器人操作任務(wù)方面的能力，例如使用機(jī)器人手臂進(jìn)行堆疊和整理桌面。所有任務(wù)都是通過稀疏的、易于定義的獎(jiǎng)勵(lì)進(jìn)行定義的，并使用相同的一組輔助獎(jiǎng)勵(lì)函數(shù)加以解決。另外，我們經(jīng)過試驗(yàn)證明，我們的方法具有樣本高效性，從而使得我們能夠在一個(gè)真實(shí)的機(jī)器人上從頭開始學(xué)習(xí)。

我們引入SAC-X，一種能夠同時(shí)在一組輔助任務(wù)中學(xué)習(xí)意圖策略的方法，并對(duì)這些策略進(jìn)行積極的調(diào)度和執(zhí)行以探索其觀察空間，從而尋找外部定義的目標(biāo)任務(wù)的稀疏獎(jiǎng)勵(lì)。通過使用簡單的輔助任務(wù)，SAC-X可以從以“純粹”、稀疏、方式性進(jìn)行定義的獎(jiǎng)勵(lì)中學(xué)習(xí)復(fù)雜的目標(biāo)任務(wù)：只指定最終目標(biāo)，而不是解決方案路徑。

在實(shí)驗(yàn)中，通過使用一組常見的簡單且稀疏的輔助任務(wù)以及一個(gè)真實(shí)的機(jī)器人，我們展示了SAC-X在若干個(gè)具有挑戰(zhàn)性的機(jī)器人模擬任務(wù)上的優(yōu)異表現(xiàn)。所學(xué)到的意圖是具有高度反應(yīng)性的、可靠的，并表現(xiàn)出豐富且具有魯棒性的行為。我們認(rèn)為，這是實(shí)現(xiàn)將強(qiáng)化學(xué)習(xí)應(yīng)用到現(xiàn)實(shí)世界領(lǐng)域的重要一步。