• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      DeepMind打造全新學(xué)習(xí)范式“SAC-X”

      2018-05-14 10:55:09
      機(jī)器人產(chǎn)業(yè) 2018年2期
      關(guān)鍵詞:意圖定義調(diào)度

      在機(jī)器學(xué)習(xí)和深度學(xué)習(xí)技術(shù)的協(xié)助下,AI對(duì)于解析數(shù)據(jù)的能力并不會(huì)有人懷疑,但它們并不善于自行探索。谷歌旗下知名AI研究機(jī)構(gòu)DeepMind為機(jī)器人建立了一個(gè)全新的學(xué)習(xí)范式“調(diào)度輔助控制”(SAC-X),為機(jī)器人提供一個(gè)簡單的目標(biāo),并在完成時(shí)提供獎(jiǎng)勵(lì)。

      調(diào)度輔助控制(Scheduled Auxiliary Control,SAC-X)是強(qiáng)化學(xué)習(xí)(RL)上下文中一種新型的學(xué)習(xí)式。SAC-X能夠在存在多個(gè)稀疏獎(jiǎng)勵(lì)信號(hào)的情況下,從頭開始(from scratch)學(xué)習(xí)復(fù)雜行為。為此,智能體配備了一套通用的輔助任務(wù),它試圖通過off-policy強(qiáng)化學(xué)習(xí)同時(shí)從中進(jìn)行學(xué)習(xí)。實(shí)際上,我們方法所蘊(yùn)涵的關(guān)鍵思想在于,主動(dòng)(學(xué)習(xí))調(diào)度和輔助策略的執(zhí)行,使得智能體能夠有效地對(duì)其環(huán)境進(jìn)行探索,使其能夠在稀疏獎(jiǎng)勵(lì)強(qiáng)化學(xué)習(xí)中表現(xiàn)突出。我們?cè)谌舾蓚€(gè)具有挑戰(zhàn)性的機(jī)器人操作環(huán)境下進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果證明了我們的方法是非常有效的。

      考慮下面的場(chǎng)景:一個(gè)學(xué)習(xí)智能體必須控制一個(gè)機(jī)器人手臂以打開盒子,并將一個(gè)方塊放置在其中。盡管為這個(gè)任務(wù)定義一個(gè)獎(jiǎng)勵(lì)是非常簡單和直接的,例如,使用諸如力傳感器這樣的盒子內(nèi)的簡單機(jī)制對(duì)所放置的方塊進(jìn)行檢測(cè),但是潛在的學(xué)習(xí)問題的解決還是存在一定難度的。智能體必須能夠發(fā)現(xiàn)一個(gè)長序列的“正確”行為,以便找到產(chǎn)生稀疏獎(jiǎng)勵(lì)的環(huán)境配置——即包含在盒子內(nèi)的方塊??梢哉f,發(fā)現(xiàn)這種稀疏的獎(jiǎng)勵(lì)信號(hào)是一個(gè)非常艱難的探索問題,而想要通過隨機(jī)探索獲得這種成功幾乎是不可能的。

      在過去的幾十年里,為了幫助解決上述的探索問題,科學(xué)家們已經(jīng)開發(fā)了許多種研究方法。這些方法包括:獎(jiǎng)賞塑形(reward shaping)、課程學(xué)習(xí)(curriculum learning)、從模擬到現(xiàn)實(shí)的已學(xué)習(xí)策略的遷移、從演示中進(jìn)行的學(xué)習(xí)、模型指導(dǎo)下的學(xué)習(xí)以及反向強(qiáng)化學(xué)習(xí)等??梢赃@樣說,所有這些方法都依賴于特定任務(wù)的先驗(yàn)知識(shí)的可用性。除此之外,它們還往往將控制策略偏向某種潛在意義上并不理想的方向。例如,使用由實(shí)驗(yàn)者設(shè)計(jì)的獎(jiǎng)賞塑形,不可避免地會(huì)偏向智能體所能夠找到的解決方案。與此相反,當(dāng)使用稀疏任務(wù)公式時(shí),智能體可以發(fā)現(xiàn)全新的、潛在意義上更為優(yōu)異的解決方案。因此,可以這樣說,我們更傾向于開發(fā)在學(xué)習(xí)期間支持智能體的方法,但是保留智能體從稀疏獎(jiǎng)勵(lì)中進(jìn)行學(xué)習(xí)的能力。理想情況下,我們的新方法應(yīng)該減少用于處理稀疏獎(jiǎng)勵(lì)的特定的先驗(yàn)任務(wù)知識(shí)。

      在本文中,我們引入了一種稱之為調(diào)度輔助控制(SAC-X)的新方法,將其作為實(shí)現(xiàn)這種方法策略的第一步。它基于四個(gè)主要原則:

      1.每個(gè)狀態(tài)動(dòng)作對(duì)都與一個(gè)獎(jiǎng)勵(lì)向量相配對(duì),由(通常而言是稀疏的)外部提供的獎(jiǎng)勵(lì)和(通常而言是稀疏的)內(nèi)部輔助獎(jiǎng)勵(lì)組成。

      2.每個(gè)獎(jiǎng)勵(lì)條目都有一個(gè)指定的策略,在下文中稱為“意圖(intention)”,該策略經(jīng)過訓(xùn)練以最大化其相應(yīng)的累積獎(jiǎng)勵(lì)。

      3.有一個(gè)高級(jí)調(diào)度程序,在提高智能體對(duì)外部任務(wù)的性能的目標(biāo)考慮下,選擇個(gè)體意圖并加以執(zhí)行。

      4.學(xué)習(xí)是在off-policy過程中執(zhí)行的(與策略執(zhí)行異步),意圖之間的經(jīng)驗(yàn)是共享的,以便有效地使用信息。

      盡管本文所提出的方法通常來說適用于更為廣泛的問題,但我們主要在一個(gè)具有稀疏獎(jiǎng)勵(lì)的典型機(jī)器人操作應(yīng)用程序上對(duì)我們的方法加以討論:將各種目標(biāo)堆疊起來和清理桌子。

      這些任務(wù)中的輔助獎(jiǎng)勵(lì)是基于智能體對(duì)于控制其自身的感官觀察(例如圖像、本體感受、觸覺傳感器)的掌握程度而定義的。它們被設(shè)計(jì)成在一個(gè)真實(shí)的機(jī)器人裝置中非常易于實(shí)現(xiàn)。我們?cè)谝粋€(gè)原始感官層面上定義了輔助獎(jiǎng)勵(lì),例如,是否檢測(cè)到觸摸?;蛘?,可選擇性地在一個(gè)需要少量實(shí)體的預(yù)先計(jì)算的較高級(jí)別上對(duì)它們進(jìn)行定義,例如,是否有任何目標(biāo)移動(dòng),或者在圖像平面上是否有兩個(gè)目標(biāo)彼此相接近?;谶@些基本的輔助任務(wù),智能體必須有效地對(duì)其環(huán)境進(jìn)行探索,直到觀察到更多有趣的外部獎(jiǎng)勵(lì)。其實(shí),這種方式主要是受到人類在孩童時(shí)代玩游戲階段的啟發(fā)。

      在本文中,我們展示了SAC-X在模擬機(jī)器人操作任務(wù)方面的能力,例如使用機(jī)器人手臂進(jìn)行堆疊和整理桌面。所有任務(wù)都是通過稀疏的、易于定義的獎(jiǎng)勵(lì)進(jìn)行定義的,并使用相同的一組輔助獎(jiǎng)勵(lì)函數(shù)加以解決。另外,我們經(jīng)過試驗(yàn)證明,我們的方法具有樣本高效性,從而使得我們能夠在一個(gè)真實(shí)的機(jī)器人上從頭開始學(xué)習(xí)。

      我們引入SAC-X,一種能夠同時(shí)在一組輔助任務(wù)中學(xué)習(xí)意圖策略的方法,并對(duì)這些策略進(jìn)行積極的調(diào)度和執(zhí)行以探索其觀察空間,從而尋找外部定義的目標(biāo)任務(wù)的稀疏獎(jiǎng)勵(lì)。通過使用簡單的輔助任務(wù),SAC-X可以從以“純粹”、稀疏、方式性進(jìn)行定義的獎(jiǎng)勵(lì)中學(xué)習(xí)復(fù)雜的目標(biāo)任務(wù):只指定最終目標(biāo),而不是解決方案路徑。

      在實(shí)驗(yàn)中,通過使用一組常見的簡單且稀疏的輔助任務(wù)以及一個(gè)真實(shí)的機(jī)器人,我們展示了SAC-X在若干個(gè)具有挑戰(zhàn)性的機(jī)器人模擬任務(wù)上的優(yōu)異表現(xiàn)。所學(xué)到的意圖是具有高度反應(yīng)性的、可靠的,并表現(xiàn)出豐富且具有魯棒性的行為。我們認(rèn)為,這是實(shí)現(xiàn)將強(qiáng)化學(xué)習(xí)應(yīng)用到現(xiàn)實(shí)世界領(lǐng)域的重要一步。

      猜你喜歡
      意圖定義調(diào)度
      原始意圖、對(duì)抗主義和非解釋主義
      法律方法(2022年2期)2022-10-20 06:42:20
      陸游詩寫意圖(國畫)
      制定法解釋與立法意圖的反事實(shí)檢驗(yàn)
      法律方法(2021年3期)2021-03-16 05:56:58
      《調(diào)度集中系統(tǒng)(CTC)/列車調(diào)度指揮系統(tǒng)(TDCS)維護(hù)手冊(cè)》正式出版
      一種基于負(fù)載均衡的Kubernetes調(diào)度改進(jìn)算法
      虛擬機(jī)實(shí)時(shí)遷移調(diào)度算法
      成功的定義
      山東青年(2016年1期)2016-02-28 14:25:25
      燕山秋意圖
      修辭學(xué)的重大定義
      SVC的RTP封裝及其在NS2包調(diào)度中的應(yīng)用研究
      历史| 尚义县| 宜宾市| 习水县| 洛扎县| 库尔勒市| 婺源县| 泰宁县| 吉隆县| 葵青区| 晋中市| 阿尔山市| 大庆市| 庆安县| 建宁县| 绥化市| 徐水县| 盐池县| 武宣县| 阳原县| 特克斯县| 金川县| 天门市| 当阳市| 高安市| 北票市| 盐池县| 交口县| 麦盖提县| 鹰潭市| 渭源县| 清流县| 汤阴县| 宿松县| 剑川县| 德惠市| 田阳县| 荆门市| 临海市| 甘孜县| 仙居县|