呂惠
Google機(jī)器人最近實(shí)現(xiàn)了在開放詞匯的條件下執(zhí)行自然語言命令,真正實(shí)現(xiàn)了“聽懂人話”,相關(guān)數(shù)據(jù)集已開源。
上圖中這個男人正在對著一個機(jī)器人不斷發(fā)出自然語言指令,如“把綠色的星推到紅色塊之間”“把藍(lán)色的方塊移動到左下角”,機(jī)器人對每一次輸入的指令都可以實(shí)時完成。
自上世紀(jì)60年代開始,機(jī)器人專家就開始嘗試讓機(jī)器人聽懂人的“自然語言指令”,并執(zhí)行具體的行動。理想情況下,未來的機(jī)器人將對用戶能夠用自然語言描述的任何相關(guān)任務(wù)做出實(shí)時反應(yīng)。特別是在開放的人類環(huán)境中,用戶可能需要在機(jī)器人行為發(fā)生時自定義行為,提供快速糾正,比如“停止,將手臂向上移動一點(diǎn)”或是指定限制如“慢慢向右移動”。
此外,實(shí)時語言可以使人和機(jī)器人更容易在復(fù)雜的長期任務(wù)中進(jìn)行協(xié)作,人們可以迭代和交互式地指導(dǎo)機(jī)器人操作,偶爾會有語言反饋。
目前的相關(guān)工作大體可以分為3個部分:
機(jī)器人本體需要存在于現(xiàn)實(shí)世界;
能夠響應(yīng)大量且豐富的自然語言命令;
能夠執(zhí)行交互式的語言命令,即機(jī)器人需要在任務(wù)執(zhí)行的過程中接受新的自然語言指令。
對于第3點(diǎn)來說,目前機(jī)器人領(lǐng)域在交互式方面的發(fā)展速度仍然非常緩慢,也讓機(jī)器人缺乏“生命感”。
最近Google發(fā)表了一篇論文,提出了一個全新的框架,可以生產(chǎn)真實(shí)世界的、實(shí)時交互的、執(zhí)行自然語言指令的機(jī)器人,并且相關(guān)數(shù)據(jù)集、環(huán)境、基準(zhǔn)測試和策略都已開放使用。
通過對幾十萬個語言標(biāo)注軌跡的數(shù)據(jù)集進(jìn)行行為克隆訓(xùn)練,產(chǎn)生的策略可以熟練地執(zhí)行比以前工作實(shí)現(xiàn)了多一個數(shù)量級的命令。在現(xiàn)實(shí)世界中,研究人員估計該方法在87 000個不同的自然語言字符串上有93.5 %的成功率。
并且同樣的策略能夠被人類通過自然語言進(jìn)行實(shí)時引導(dǎo),以解決廣泛的精確的長距離重新排列目標(biāo),例如“用積木做一個笑臉”等。
隨論文共同發(fā)布的數(shù)據(jù)集包括近60萬個語言標(biāo)記的軌跡,比之前的可用數(shù)據(jù)集也要大一個數(shù)量級。
想要讓機(jī)器人融入現(xiàn)實(shí)世界中,最重要是能夠處理開放式的自然語言指令,但從機(jī)器學(xué)習(xí)的角度來看,讓機(jī)器人學(xué)習(xí)開放詞匯表語言是一個巨大的挑戰(zhàn)。
開放代表模型需要執(zhí)行大量任務(wù),包括小的糾正指令等?,F(xiàn)有的多任務(wù)學(xué)習(xí)設(shè)置利用精心設(shè)計的模仿學(xué)習(xí)數(shù)據(jù)集或復(fù)雜的強(qiáng)化學(xué)習(xí)獎勵功能來驅(qū)動每個任務(wù)的學(xué)習(xí),通過這種方式設(shè)計的預(yù)定義集合注定不會很大。
因此,在開放詞匯表任務(wù)中一個關(guān)鍵的問題是:應(yīng)該如何擴(kuò)展機(jī)器人數(shù)據(jù)的收集過程,使其能夠涵蓋真實(shí)環(huán)境中成千上萬的行動,以及如何將所有這些行為與最終用戶可能實(shí)際提供的自然語言指令聯(lián)系起來?
在交互式語言中,Google提出的大規(guī)模仿真學(xué)習(xí)框架關(guān)鍵是創(chuàng)建大型、多語言條件的機(jī)器人演示數(shù)據(jù)集的可伸縮性。
和以前設(shè)置中需要定義所有的技能,然后收集每個技能策劃的示范不同的是,研究人員不斷在跨多個機(jī)器人在無場景重置或低級別技能分割的情況下收集數(shù)據(jù)。
所有的數(shù)據(jù),包括失敗的數(shù)據(jù)(如把塊從桌子上敲下來knocking blocks off a table),都要經(jīng)過一個hindsight language relabeling的過程才能與文本配對。
在這個過程中,標(biāo)注人員需要觀看長長的機(jī)器人視頻來識別盡可能多的行為,標(biāo)記每個行為的開始和結(jié)束時間,并使用無限制形式的自然語言來描述每個片段。
最重要的是,與之前設(shè)置的引導(dǎo)相比,所有用于訓(xùn)練的技能都是從數(shù)據(jù)本身自下而上顯示出來的,而非由研究人員預(yù)先確定的。
研究人員有意將學(xué)習(xí)方法和架構(gòu)盡可能簡化,機(jī)器人策略網(wǎng)絡(luò)是一個交叉注意力Transformer,將5 Hz的視頻和文本映射到5 Hz的機(jī)器人動作,在沒有輔助損失的情況下使用標(biāo)準(zhǔn)的監(jiān)督式學(xué)習(xí)行為克隆目標(biāo)。
在測試時,新的自然語言命令可以通過speech-to-text以高達(dá)5 Hz的速率發(fā)送到策略網(wǎng)絡(luò)中。
在標(biāo)注過程中,研究人員收集了一個Language-Table數(shù)據(jù)集,其中包含超過44萬實(shí)際和18萬模擬的機(jī)器人執(zhí)行自然語言命令的演示,以及機(jī)器人在演示過程中采取的動作順序。
這也是當(dāng)下最大的基于語言條件的機(jī)器人演示數(shù)據(jù)集,直接提升了一個數(shù)量級。
Language-Table推出了一個模擬仿真學(xué)習(xí)基準(zhǔn),可以用它來進(jìn)行模型選擇,或者用來評估不同方法訓(xùn)練得到的機(jī)器人執(zhí)行指令的能力。
在實(shí)驗(yàn)中,研究人員發(fā)現(xiàn),當(dāng)機(jī)器人能夠跟隨實(shí)時輸入的自然語言指令時,機(jī)器人的能力就會顯得特別強(qiáng)大。在項(xiàng)目網(wǎng)站中,研究人員展示了用戶可以僅使用自然語言就能引導(dǎo)機(jī)器人通過復(fù)雜的長視野序列來解決需要較長時間才能精確協(xié)調(diào)控制的目標(biāo)。比如在桌子上有許多blcoks,命令可以是“用綠眼睛做一個笑臉”或者“把所有的放在一條垂直線上”等。
因?yàn)闄C(jī)器人被訓(xùn)練去跟隨開放的詞匯語言,所以在實(shí)驗(yàn)中能夠看到機(jī)器人可以對一系列不同的口頭修正做出反應(yīng),如“輕輕地向右移動紅色的星星”。
最后,研究人員探索了實(shí)時語言的優(yōu)勢,例如可以讓機(jī)器人數(shù)據(jù)采集變得更加高效,一個人類操作員可以同時使用口頭語言控制四個機(jī)器人,有可能在未來擴(kuò)大機(jī)器人數(shù)據(jù)收集的規(guī)模,而不需要為每個機(jī)器人配備一個標(biāo)注員。
雖然該項(xiàng)目目前僅限于桌面上的一套固定的物體,但交互式語言的實(shí)驗(yàn)結(jié)果可以初步表明,大規(guī)模模仿學(xué)習(xí)確實(shí)可以生產(chǎn)出實(shí)時交互式機(jī)器人,能夠遵循自由形式的終端用戶命令。
為了推動物理機(jī)器人實(shí)時語言控制技術(shù)的進(jìn)步,研究人員開源了Language-Table,也是目前最大的基于語言條件下的真實(shí)世界機(jī)器人演示數(shù)據(jù)集,也可以作為相關(guān)的模擬基準(zhǔn)。
研究人員認(rèn)為,這個數(shù)據(jù)集的作用可能不僅僅局限于機(jī)器人控制領(lǐng)域,而且可能為研究語言和動作條件視頻預(yù)測、機(jī)器人視頻條件語言建模,或者在更廣泛的機(jī)器學(xué)習(xí)環(huán)境中研究其他許多有趣的活躍問題提供一個新起點(diǎn)。