• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      強(qiáng)化學(xué)習(xí)中的策略重用:研究進(jìn)展

      2022-03-11 01:50:48唐文泉
      關(guān)鍵詞:狀態(tài)文獻(xiàn)函數(shù)

      何 立, 沈 亮, 李 輝,2,*, 王 壯, 唐文泉

      (1. 四川大學(xué)計(jì)算機(jī)(軟件)學(xué)院, 四川 成都 610065; 2. 四川大學(xué)視覺(jué)合成圖形圖像技術(shù)國(guó)家級(jí)重點(diǎn)實(shí)驗(yàn)室, 四川 成都 610065; 3. 江西洪都航空工業(yè)集團(tuán)有限責(zé)任公司, 江西 南昌 330024)

      0 引 言

      深度學(xué)習(xí)(deep learning, DL)被認(rèn)為是解決連續(xù)決策任務(wù)的一個(gè)有原則和有效的方法,在這個(gè)方法中,學(xué)習(xí)智能體通過(guò)與環(huán)境進(jìn)行交互,不斷試錯(cuò)來(lái)提高其性能。近年來(lái),隨著強(qiáng)化學(xué)習(xí)(reinforcement learning, RL)的快速發(fā)展,將RL算法嵌入DL框架組合而成的新結(jié)構(gòu)深度RL(deep RL, DRL)進(jìn)一步推動(dòng)了RL的發(fā)展。

      無(wú)論是在學(xué)術(shù)界還是在工業(yè)界,DRL都被廣泛應(yīng)用以解決之前難以解決的任務(wù),比如,其在控制、游戲中的人機(jī)對(duì)抗等領(lǐng)域都取得了不錯(cuò)的成績(jī)。尤其是當(dāng)AlphaStar和AlphaGo在與頂級(jí)人類玩家的對(duì)弈中取得勝利,這些足以說(shuō)明DRL取得的巨大成功。

      雖然RL在不斷發(fā)展和進(jìn)步,但在將其應(yīng)用到諸多場(chǎng)景中的時(shí)候,依然面臨著困難和挑戰(zhàn),例如高采樣復(fù)雜度和脆弱的收斂性等。除此之外,RL問(wèn)題中的環(huán)境模型一般來(lái)說(shuō)是未知的,智能體只有在保證與環(huán)境充分交互的前提下,才能利用與環(huán)境交互得到的知識(shí)來(lái)提升自身的性能。由于環(huán)境反饋的信息存在部分可觀測(cè)性、獎(jiǎng)勵(lì)稀疏性、延遲性以及高維度的觀測(cè)值和動(dòng)作空間等問(wèn)題,智能體在不借助任何先驗(yàn)知識(shí)的情況下收斂到最優(yōu)策略是非常困難和耗時(shí)的。遷移學(xué)習(xí)(transfer learning, TL)是一種用相關(guān)的、類似的數(shù)據(jù)來(lái)訓(xùn)練相似問(wèn)題的方法,能夠?qū)W(xué)習(xí)到的知識(shí)從一個(gè)場(chǎng)景遷移到另一個(gè)場(chǎng)景。這種利用外部專業(yè)知識(shí)來(lái)加速智能體的學(xué)習(xí)過(guò)程的思想,在很大程度上能夠彌補(bǔ)RL缺乏先驗(yàn)知識(shí)的問(wèn)題。將TL應(yīng)用在RL中的一個(gè)顯著效果是保證了RL訓(xùn)練結(jié)果的復(fù)用性和時(shí)效性。主要原因是TL能夠復(fù)用現(xiàn)有的知識(shí),不會(huì)丟棄已有的大量工作和成果,而這一點(diǎn)是RL無(wú)法做到的。此外,對(duì)于新問(wèn)題,TL能夠快速遷移和應(yīng)用已有的成果,體現(xiàn)時(shí)效性的優(yōu)勢(shì)。

      策略重用(policy reuse, PR)作為一種TL方法,通過(guò)將源任務(wù)中的最優(yōu)策略遷移到目標(biāo)任務(wù)中來(lái)解決上述RL中的問(wèn)題,也因而成為RL領(lǐng)域的一個(gè)熱門研究課題。

      本綜述所作的貢獻(xiàn):從策略結(jié)構(gòu)的角度出發(fā),對(duì)現(xiàn)有的RL中的PR方法進(jìn)行了總結(jié)、分析和對(duì)比,并擴(kuò)展到了DRL和多智能體領(lǐng)域,為研究者提供了新的研究思路和未來(lái)研究方向的建議。

      1 基本概念

      本節(jié)簡(jiǎn)述了RL、DRL和PR的基本概念,并且說(shuō)明了這篇綜述中所需要使用到的一些關(guān)鍵術(shù)語(yǔ)。

      1.1 RL

      典型的RL問(wèn)題是訓(xùn)練一個(gè)RL智能體與一個(gè)滿足馬爾可夫決策過(guò)程(Markov decision process,MDP)標(biāo)準(zhǔn)的環(huán)境交互。在每次與環(huán)境的交互中,智能體從初始狀態(tài)開始,識(shí)別自身所處的狀態(tài),并遵循某種策略執(zhí)行相應(yīng)的動(dòng)作,環(huán)境則會(huì)產(chǎn)生該“狀態(tài)-動(dòng)作”對(duì)的獎(jiǎng)勵(lì)。執(zhí)行完動(dòng)作后,MDP將會(huì)依據(jù)轉(zhuǎn)移函數(shù)過(guò)渡到下一個(gè)狀態(tài)。智能體在與環(huán)境的交互過(guò)程中累積折扣獎(jiǎng)勵(lì),這一系列的相互作用稱為一個(gè)episode。RL問(wèn)題就是重復(fù)訓(xùn)練大量的episode直至智能體學(xué)習(xí)到最優(yōu)策略。圖1表示RL的基本框架。

      圖1 RL基本框架Fig.1 Basic framework of RL

      在目前的RL問(wèn)題中,都是采用MDP來(lái)描述RL任務(wù)。MDP表示為一個(gè)五元組=〈,,,,〉,其中:是狀態(tài)空間;是動(dòng)作空間;:××→[0,1]是智能體在狀態(tài)∈下采取動(dòng)作∈轉(zhuǎn)移到下一個(gè)狀態(tài)′∈的概率分布;:×→是智能體在狀態(tài)下采取動(dòng)作轉(zhuǎn)移到下一個(gè)狀態(tài)′所得到的環(huán)境反饋的即時(shí)獎(jiǎng)勵(lì);是折扣因子,∈(0,1],用于平衡瞬時(shí)獎(jiǎng)勵(lì)和長(zhǎng)期獎(jiǎng)勵(lì)對(duì)總獎(jiǎng)勵(lì)的影響。

      (1)

      (2)

      與狀態(tài)值函數(shù)類似,每個(gè)策略還關(guān)聯(lián)一個(gè)在狀態(tài)和動(dòng)作上定義的函數(shù),用于評(píng)估“狀態(tài)-動(dòng)作”對(duì)的表現(xiàn),表示為

      (3)

      (4)

      上述兩種方法都是基于值函數(shù)(value based,VB)的RL方法,其中的經(jīng)典算法有Q-learning、Sarsa等。與上述方法不同,基于策略梯度(policy pradient,PG)的方法用參數(shù)化后的策略來(lái)替代函數(shù),再用梯度下降方法來(lái)近似求解最優(yōu)策略。這類RL方法中的經(jīng)典算法有PG、確定性PG(deterministic PG, DPG)。

      1.2 DRL

      傳統(tǒng)RL方法常會(huì)遭遇“維度災(zāi)難”,即狀態(tài)和動(dòng)作空間有時(shí)候會(huì)非常復(fù)雜,×的維度過(guò)于龐大。比如Q-learning,通過(guò)將“狀態(tài)-動(dòng)作”對(duì)的值存入表格,讀取表格數(shù)據(jù)來(lái)進(jìn)行學(xué)習(xí)。一旦×的維度過(guò)大,表格的規(guī)模也會(huì)相應(yīng)增大,算法迭代收斂的時(shí)間就會(huì)非常長(zhǎng),甚至無(wú)法收斂。除此之外,還有學(xué)習(xí)速度慢、獎(jiǎng)勵(lì)稀疏和泛化性差等問(wèn)題。

      DRL通過(guò)利用深度神經(jīng)網(wǎng)絡(luò)近似值函數(shù)和策略,以解決高維度狀態(tài)和動(dòng)作空間的問(wèn)題。深度Q網(wǎng)絡(luò)(deep Q-network,DQN)是一種經(jīng)典的基于值函數(shù)的DRL方法,用神經(jīng)網(wǎng)絡(luò)近似值函數(shù),而且不再用表格去存儲(chǔ)值,取而代之的是用經(jīng)驗(yàn)回放池(experience replay buffer,ERB)存儲(chǔ)智能體與環(huán)境交互后的經(jīng)驗(yàn)單元〈,,,′〉,以便智能體通過(guò)從ERB中采樣的方式訓(xùn)練和更新神經(jīng)網(wǎng)絡(luò)參數(shù)。

      VB方法的缺點(diǎn)在于難以解決連續(xù)動(dòng)作空間的問(wèn)題,PG方法則沒(méi)有這方面的困擾。具有代表性的方法如深度DPG (deep DPG, DDPG)。其基于行動(dòng)者-評(píng)論者(actor-critic,AC)框架,包含4個(gè)神經(jīng)網(wǎng)絡(luò):Actor當(dāng)前網(wǎng)絡(luò)負(fù)責(zé)策略網(wǎng)絡(luò)參數(shù)的迭代更行,根據(jù)當(dāng)前狀態(tài)選擇動(dòng)作,與環(huán)境交互生成下一個(gè)狀態(tài)′和獎(jiǎng)勵(lì);Actor目標(biāo)網(wǎng)絡(luò)定期復(fù)制網(wǎng)絡(luò)參數(shù),根據(jù)從經(jīng)驗(yàn)池采樣的下一狀態(tài)′來(lái)選擇下一動(dòng)作′;Critic當(dāng)前網(wǎng)絡(luò)負(fù)責(zé)價(jià)值網(wǎng)絡(luò)參數(shù)的更新,用于計(jì)算當(dāng)前的值;Critic目標(biāo)網(wǎng)絡(luò)定期復(fù)制網(wǎng)絡(luò)參數(shù),計(jì)算目標(biāo)值。除了DDPG,還有異步優(yōu)勢(shì)行動(dòng)者-評(píng)論者(asynchronous advantage actor-critic,A3C)算法和近端策略優(yōu)化(proximal policy optimization,PPO)等算法。

      1.3 PR

      DRL雖然在一定程度上解決了高維度狀態(tài)和動(dòng)作空間的問(wèn)題,但是其在解決兩個(gè)相似問(wèn)題的時(shí)候,依然需要從零訓(xùn)練,學(xué)習(xí)速度慢、資源消耗大和難以復(fù)用的問(wèn)題仍然存在。比如現(xiàn)有兩個(gè)RL問(wèn)題,表示為=〈,,,,〉和=〈,,,,〉,這兩個(gè)問(wèn)題之間的差異僅僅在于獎(jiǎng)勵(lì)函數(shù)。然而狀態(tài)值函數(shù)()和函數(shù)(,)高度依賴MDP,這意味著,無(wú)論是基于值的方法還是基于策略的方法,只要問(wèn)題稍稍改變,()和(,)等過(guò)去的知識(shí)都不再適用,之前的學(xué)習(xí)結(jié)果就會(huì)失效,而重新訓(xùn)練的代價(jià)卻是巨大的。對(duì)于此類RL問(wèn)題,高昂的訓(xùn)練代價(jià)和事倍功半的效率的缺陷日益突出,這加速了將TL方法應(yīng)用在RL中的進(jìn)程。

      PR作為一種可以遷移RL訓(xùn)練結(jié)果的TL方法,通過(guò)重用過(guò)去的經(jīng)驗(yàn)知識(shí)來(lái)加速新任務(wù)的學(xué)習(xí),很大程度上解決了上述RL面臨的問(wèn)題。

      為了便于說(shuō)明和理解,將MDP等同于領(lǐng)域、任務(wù)或環(huán)境等概念。

      PR的雛形源于文獻(xiàn)[17],其所提出的方法基于行為遷移(behavior transfer,BT),通過(guò)將學(xué)習(xí)到的值函數(shù)從一個(gè)任務(wù)轉(zhuǎn)移到另一個(gè)相似的任務(wù)來(lái)加速學(xué)習(xí)。將給定的任務(wù)1的初始策略定義為

      (,,,,,)?

      (5)

      此策略從開始。則使用作為與任務(wù)1相似的任務(wù)2的初始策略,來(lái)學(xué)習(xí)任務(wù)2的最優(yōu)策略:

      (,,,,,π)?

      (6)

      這種方法需要對(duì)值函數(shù)進(jìn)行轉(zhuǎn)換,存在一定的局限性,但是對(duì)后續(xù)PR方法的發(fā)展起到很大的啟發(fā)作用。

      (7)

      式中:,分別表示最大episode數(shù)、每個(gè)episode中的最大步數(shù);,表示第個(gè)episode中第步智能體接收的瞬時(shí)獎(jiǎng)勵(lì)。

      PR過(guò)程中,智能體與環(huán)境的交互過(guò)程如圖2所示,其中紅色虛線圓圈中的MDP元素可能會(huì)在源和目標(biāo)任務(wù)之間發(fā)生變化。

      圖2 智能體與環(huán)境交互過(guò)程Fig.2 Process of interaction between agent and environment

      2 任務(wù)間映射的方法

      在介紹PR的方法之前,首先需要明確:PR效果的好壞很大程度上決定于源任務(wù)和目標(biāo)任務(wù)之間的相似性。然而擁有完全相同的狀態(tài)空間和動(dòng)作空間的任務(wù)過(guò)于理想化,因而研究如何準(zhǔn)確地進(jìn)行源任務(wù)和目標(biāo)任務(wù)之間的映射也是PR中的熱門方向。

      早期工作中,文獻(xiàn)[19]假設(shè)目標(biāo)任務(wù)中的動(dòng)作和狀態(tài)在源任務(wù)種存在唯一對(duì)應(yīng)的關(guān)系,如圖3所示。其中,分別是狀態(tài)和動(dòng)作上的映射函數(shù),是源任務(wù)向目標(biāo)任務(wù)映射值的函數(shù)。在此基礎(chǔ)上,文獻(xiàn)[20]將手動(dòng)設(shè)置的專家建議作為一種離線知識(shí)在源任務(wù)和目標(biāo)任務(wù)之間傳遞,這個(gè)專家建議依據(jù)值的大小給動(dòng)作進(jìn)行排名,以便智能體在目標(biāo)任務(wù)中選擇更好的動(dòng)作。然而以上兩種映射方法最大的問(wèn)題在于默認(rèn)了目標(biāo)任務(wù)中的狀態(tài)和動(dòng)作的映射在源任務(wù)中是唯一的,這顯然是不切實(shí)際的。同時(shí),這種映射需要人工去完成,不具有通用性。因此,文獻(xiàn)[21-23]的工作是研究如何讓智能體自動(dòng)學(xué)習(xí)映射函數(shù),將狀態(tài)表示分為特定于智能體和特定于任務(wù),文獻(xiàn)[21]和文獻(xiàn)[22]在上學(xué)習(xí)映射函數(shù)并用該映射來(lái)設(shè)計(jì)即時(shí)獎(jiǎng)勵(lì)。該方法的好處是從上映射的狀態(tài)空間可以同時(shí)用于具有不同動(dòng)作空間但共享相似的狀態(tài)空間的智能體上。

      圖3 源和目標(biāo)任務(wù)間的映射Fig.3 Mapping between source and target tasks

      總而言之,當(dāng)前任務(wù)間映射的工作都基于源和目標(biāo)任務(wù)之間存在一對(duì)一的映射這種假設(shè)。所映射的內(nèi)容包括狀態(tài)、函數(shù)或轉(zhuǎn)移函數(shù)。這些映射的知識(shí)除了能夠直接應(yīng)用在目標(biāo)任務(wù)上,還能夠作為額外獎(jiǎng)勵(lì)或最小化的損失函數(shù),以這種形式來(lái)引導(dǎo)智能體在目標(biāo)任務(wù)中的學(xué)習(xí)。表1總結(jié)了主要的任務(wù)間映射方法。

      表1 任務(wù)間映射方法總結(jié)

      3 PR的分類

      本文從是否基于策略結(jié)構(gòu)的角度將目前存在的PR方法分為策略重構(gòu)、獎(jiǎng)勵(lì)設(shè)計(jì)、問(wèn)題轉(zhuǎn)換和相似性度量等方面。但是在部分RL問(wèn)題中,解決方案往往結(jié)合了多種PR方法,以取得更好的效果。下面將分別從這幾個(gè)方面系統(tǒng)地介紹和分析PR方法。

      3.1 策略重構(gòu)類

      在改變策略結(jié)構(gòu)的前提下,根據(jù)改變策略結(jié)構(gòu)方法的不同,PR方法又可分為外部協(xié)助、概率探索和策略蒸餾/整合等方面。

      3.1.1 外部協(xié)助

      在完成重用過(guò)去的策略這項(xiàng)工作時(shí),只要在可接受的范圍內(nèi),外部協(xié)助往往能夠在促進(jìn)學(xué)習(xí)目標(biāo)任務(wù)方面表現(xiàn)出不錯(cuò)的效果。該外部協(xié)助可能來(lái)自不同的源頭,具有不同的質(zhì)量,可能來(lái)自人類專家、專家演示以及近似最優(yōu)或次優(yōu)的專家策略等。總的來(lái)說(shuō),這些外部協(xié)助都是依靠人類來(lái)完成的。大部分這種結(jié)合外部協(xié)助的PR方法都是針對(duì)特定的目標(biāo)域而言,即源任務(wù)和目標(biāo)任務(wù)是相同的。當(dāng)然也有針對(duì)不同目標(biāo)域的工作,如文獻(xiàn)[31]在針對(duì)轉(zhuǎn)移函數(shù)不同的任務(wù)時(shí),通過(guò)偏差修正的方法來(lái)使智能體盡量不偏離專家策略,以此來(lái)保證重用的有效性。

      文獻(xiàn)[32]提出了一種利用人力為每個(gè)狀態(tài)都綁定一個(gè)策略來(lái)構(gòu)成一個(gè)稱為“提示”的二元組〈π,〉的空間提示PR方法。這相當(dāng)于為每個(gè)狀態(tài)都打上標(biāo)簽,當(dāng)智能體處于某個(gè)狀態(tài)時(shí),就使用對(duì)應(yīng)的策略,這樣能夠保證每個(gè)提示可以解決一個(gè)任務(wù)。顯然,當(dāng)狀態(tài)空間過(guò)大時(shí),為每個(gè)狀態(tài)都指定一個(gè)策略是不現(xiàn)實(shí)的。作者考慮到這點(diǎn),將綁定了策略的狀態(tài)作為參考狀態(tài)(reference state,RS),用一個(gè)變量reach來(lái)估計(jì)策略在其參考狀態(tài)周圍的表現(xiàn)。將reach與每個(gè)提示聯(lián)系起來(lái),綜合考慮當(dāng)前狀態(tài)(current state,CS)與參考狀態(tài)之間的距離和策略的表現(xiàn)來(lái)相應(yīng)地增加reach的值,再依據(jù)reach的大小來(lái)選擇提示,該文中用曼哈頓距離作為度量reach的標(biāo)準(zhǔn):

      (8)

      在狀態(tài)空間定義的其他度量均可。

      專家演示是一種通過(guò)利用提供的演示進(jìn)行有效的探索來(lái)幫助智能體學(xué)習(xí)的方法。就目前來(lái)說(shuō),專家演示在利用外部協(xié)助的PR方法上應(yīng)用得最為廣泛,發(fā)展得也最為迅速。其主要原因是這種方式直接簡(jiǎn)便、效果顯著。根據(jù)何時(shí)將演示用于知識(shí)遷移,該類方法可以分為離線方法、在線方法和在線離線相結(jié)合。離線方法是在應(yīng)用專家演示之前對(duì)RL中的元素進(jìn)行預(yù)訓(xùn)練,如值函數(shù)()和策略。Kurenkov 等人提出了在智能體學(xué)習(xí)的過(guò)程中重用專家演示這種離線知識(shí),使其快速實(shí)現(xiàn)高性能的方法。文獻(xiàn)[36]使用預(yù)訓(xùn)練后的值函數(shù)加速了DDPG算法的學(xué)習(xí)過(guò)程,并在理論上論證了他們方法的可行性。Silver等人在著名的AlphaGo項(xiàng)目中用預(yù)先訓(xùn)練的策略選擇動(dòng)作,來(lái)幫助其擊敗人類頂級(jí)圍棋選手。不同于文獻(xiàn)[36],文獻(xiàn)[37]用演示來(lái)初始化值函數(shù)或策略,Schaal等人[38]的工作則用演示來(lái)初始化任務(wù)的動(dòng)態(tài)模型。這些方法雖然在一定程度上加快了收斂,但是這一切都是建立在人類能夠提供準(zhǔn)確的經(jīng)驗(yàn)的基礎(chǔ)上,也就是說(shuō)這些專家演示本身未必最優(yōu),并且預(yù)訓(xùn)練的過(guò)程可能漫長(zhǎng)和繁雜,從總的學(xué)習(xí)過(guò)程來(lái)看,該方法并沒(méi)有在學(xué)習(xí)時(shí)間上有較大的縮減。對(duì)于在線學(xué)習(xí)方法,則是拋棄了預(yù)訓(xùn)練的過(guò)程,將專家演示直接用于RL階段,使智能體的行為偏向于有利的探索。然而當(dāng)不能保證演示的質(zhì)量的時(shí)候,學(xué)習(xí)的效果可能不盡如人意。文獻(xiàn)[40]利用RL提供的理論保證,通過(guò)專家演示和獎(jiǎng)勵(lì)設(shè)計(jì)的過(guò)程來(lái)加速學(xué)習(xí)。這種方法的優(yōu)勢(shì)在于利用人類的輸入的同時(shí)不會(huì)對(duì)演示的最優(yōu)性做出錯(cuò)誤的假設(shè)。除此之外,該方法需要的演示更少,對(duì)演示的次優(yōu)具有更強(qiáng)的魯棒性。除此之外,現(xiàn)在的很多研究都是將離線預(yù)培訓(xùn)和在線學(xué)習(xí)的方法結(jié)合起來(lái),如Nair等人的工作建立在DDPG框架和事后經(jīng)驗(yàn)回放(hindsight experience buffer,HEB)上,用DDPG框架來(lái)從演示中學(xué)習(xí)。該方法還通過(guò)利用行為克隆損失(behavior cloning loss,BCL)解決了演示次優(yōu)的問(wèn)題,對(duì)具有較高值的演示動(dòng)作進(jìn)行損失懲罰:

      (9)

      式中:Ⅱ[·]表示值損失的懲罰值;||是專家演示的模。

      利用專家演示來(lái)加速學(xué)習(xí)面臨著一些挑戰(zhàn),第一個(gè)是不完美的演示。這雖然是意料之中的情況,但是這種對(duì)環(huán)境有偏差的演示會(huì)對(duì)最終的學(xué)習(xí)效果造成一定的影響。目前針對(duì)不完美演示的解決方法包括改變目標(biāo)函數(shù)。例如,文獻(xiàn)[42]所提出的hinge-loss函數(shù),允許少數(shù)違反(,())-max()(,)≥1性質(zhì)的情況的發(fā)生。第二個(gè)挑戰(zhàn)是過(guò)擬合。這個(gè)問(wèn)題是由人類能夠提供的專家演示總是有限的而導(dǎo)致的。因?yàn)樵谶@些有限數(shù)量的演示當(dāng)中,可能沒(méi)有包含對(duì)目標(biāo)域中出現(xiàn)的所有狀態(tài)的指導(dǎo)。目前解決這種問(wèn)題的方案包括使用熵正則化目標(biāo)來(lái)鼓勵(lì)智能體的探索。一般來(lái)說(shuō),專家演示可以通過(guò)離線預(yù)訓(xùn)練和在線學(xué)習(xí)來(lái)更好地初始化目標(biāo)任務(wù)的學(xué)習(xí)以及實(shí)現(xiàn)有效的探索。但是如何使用次優(yōu)、有限的專家演示加速學(xué)習(xí),會(huì)是PR方法中的一個(gè)重要研究方向。

      312 概率探索

      鑒于以上兩個(gè)缺陷,Fernández 等人提出了一種在重用策略庫(kù)的過(guò)程中同時(shí)增加探索的動(dòng)作選擇策略π-reuse,該策略庫(kù)包含過(guò)去任務(wù)的策略。他們?cè)趯W(xué)習(xí)的過(guò)程中逐漸降低重用過(guò)去策略的概率,相應(yīng)的在增大的那部分概率中使用-greedy探索策略去探索目標(biāo)任務(wù),公式化表達(dá)如下:

      (10)

      式中:,分別表示過(guò)去的策略和正在學(xué)的新策略。這種方法能保證智能體在學(xué)習(xí)最優(yōu)目標(biāo)策略的時(shí)候能夠充分探索,避免收斂到次優(yōu)策略。同時(shí)還使用一個(gè)參數(shù)封裝探索策略的所有參數(shù),然后用該值來(lái)衡量所重用策略的有用性,再依此判斷是否要將該策略放入策略庫(kù)中。作者定義了最有用的重用策略。

      =argmax(),=1,2,…,

      (11)

      這種方法為PR中的概率探索方法的后續(xù)相關(guān)研究提供了思路。但這種方法有一個(gè)限制,就是要經(jīng)常性地評(píng)估,即每個(gè)專家策略對(duì)目標(biāo)任務(wù)的期望回報(bào)。改進(jìn)前的算法時(shí)間復(fù)雜度為(log),改進(jìn)后為(),這無(wú)疑增加了算法的復(fù)雜度。另外,雖然允許單個(gè)目標(biāo)狀態(tài)在任務(wù)之間是不同的,但是要求,和都不變,這種限制過(guò)于苛刻。文獻(xiàn)[46]克服了這種嚴(yán)格的限制,通過(guò)狀態(tài)映射和動(dòng)作映射::→和:→,將轉(zhuǎn)換為可以在目標(biāo)任務(wù)中執(zhí)行的新策略:

      (12)

      但是這種任務(wù)映射一方面需要人工定義,當(dāng)狀態(tài)空間和動(dòng)作空間過(guò)大時(shí),人工的耗費(fèi)難以接受;另一方面,這種任務(wù)映射不具有通用性。比如說(shuō),對(duì)于3個(gè)任務(wù)=〈,,,,〉,=〈,,,,〉和=〈,,,,〉,,是任務(wù)1,2之間的映射組,則其只適用于任務(wù)1,2之間,將其用于任務(wù)1,3或者任務(wù)2,3就行不通。

      李學(xué)俊等人將上述提到的概率探索方法應(yīng)用到RoboCup 2D Keepaway的高層搶球動(dòng)作決策中,通過(guò)將4v3任務(wù)的策略遷移到5v4任務(wù)的學(xué)習(xí)中,縮短了訓(xùn)練的時(shí)間,并且相較于普通的RL方法能夠更快地收斂到令人滿意的策略。

      文獻(xiàn)[48]提出了一種建立隨機(jī)抽象策略來(lái)概括過(guò)去知識(shí)的方法。這種方法將源任務(wù)之前所有的解決方案歸納為單個(gè)抽象策略,該策略以抽象后的狀態(tài)和動(dòng)作的關(guān)系∑=∪表示,然后在新任務(wù)的學(xué)習(xí)過(guò)程中使用,以便讓智能體在學(xué)習(xí)的早期就能表現(xiàn)出較好的效果。除此之外,文獻(xiàn)[48]還提出了一種基于PR的Q學(xué)習(xí)(PR Q-learning,PRQL)算法的通用框架,允許學(xué)習(xí)者通過(guò)協(xié)調(diào)利用過(guò)去的經(jīng)驗(yàn)、隨機(jī)探索和利用在新任務(wù)學(xué)習(xí)過(guò)程中獲得的新知識(shí)來(lái)表現(xiàn)出更適當(dāng)?shù)谋憩F(xiàn)。

      Narayan等人提出了一種通過(guò)使用類似-greedy的方法有概率地構(gòu)建任務(wù)子空間并探索子空間生成子策略的方法。這種方法在一定程度上既保證了最后學(xué)出來(lái)的目標(biāo)策略的最優(yōu)性,又加速了學(xué)習(xí)的過(guò)程。當(dāng)然,這種方法中不僅僅包括概率探索,還包括策略整合,這些將在后文中進(jìn)行說(shuō)明。

      上述的探索策略都屬于非定向探索,這種探索方法的特點(diǎn)是局部的,隨機(jī)選擇動(dòng)作,比如說(shuō)ε-greedy。相比之下,定向探索使用了全局信息來(lái)系統(tǒng)地確定要嘗試的動(dòng)作。文獻(xiàn)[50]通過(guò)任務(wù)間映射結(jié)合可證明有效的延遲Q學(xué)習(xí)(delayed Q-learning,DQL)算法分析動(dòng)作值的遷移,表達(dá)式如下:

      (13)

      式中:是任務(wù)間映射函數(shù);是領(lǐng)域。該算法使用定向探索策略“不確定行為優(yōu)先探索(optimism in the face of uncertainty,OFU)”在目標(biāo)任務(wù)中學(xué)習(xí)更快,同時(shí)可以避免最優(yōu)性的損失,即“正遷移”。但該方法有一個(gè)缺陷是:如果不解決兩個(gè)任務(wù),就沒(méi)有通用的方法來(lái)獲得任務(wù)之間適合的任務(wù)間映射。OFU定向探索策略的工作示意圖如圖4所示。

      圖4 OFU定向策略工作示意圖Fig.4 Work diagram of OFU directional policy

      3.1.3 策略蒸餾/整合

      對(duì)于重用策略,研究人員首先想到的就是直接重用源策略(值),但是這種方法的弊端在前文中已經(jīng)說(shuō)明了:容易導(dǎo)致負(fù)遷移。為了剔除源策略中不適用于目標(biāo)任務(wù)的部分,文獻(xiàn)[43]只使用在相似問(wèn)題中學(xué)到的策略的一部分,并在學(xué)習(xí)中保持策略的這部分不變。這種方法雖然提高了學(xué)習(xí)的速度,但是犧牲了策略的最優(yōu)性。

      假設(shè)有一系列狀態(tài)空間和動(dòng)作空間相同,轉(zhuǎn)移函數(shù)和獎(jiǎng)勵(lì)函數(shù)不同的任務(wù)。這類任務(wù)的特點(diǎn)是變化的范圍是未知和無(wú)窮的,可以利用學(xué)習(xí)策略中的共同結(jié)構(gòu)來(lái)加速目標(biāo)策略的學(xué)習(xí)。文獻(xiàn)[54]提出了一種利用神經(jīng)網(wǎng)絡(luò)擬合一個(gè)概率模型的采樣軌跡去學(xué)習(xí)策略空間結(jié)構(gòu)的增量學(xué)習(xí)框架(incremental learning of policy space structure, ILPSS)。該軌跡用成功(“+”)或失敗(“-”) 來(lái)標(biāo)記是否到達(dá)目標(biāo)狀態(tài),在后續(xù)的學(xué)習(xí)中只重用成功的軌跡。并將學(xué)習(xí)到的策略片段分配給概率模型當(dāng)作一個(gè)“選項(xiàng)”,在之后的任務(wù)中用來(lái)生成更多的采樣軌跡,具體流程如圖5所示。

      圖5 ILPSS工作流程圖Fig.5 Work flow chart of ILPSS

      Rusu等人提出了一種根據(jù)專家網(wǎng)絡(luò)和學(xué)生網(wǎng)絡(luò)值的誤差來(lái)確定值的回歸目標(biāo)函數(shù),來(lái)使學(xué)生網(wǎng)絡(luò)逼近專家網(wǎng)絡(luò)的多任務(wù)PR方法,如圖6所示,可以將多個(gè)任務(wù)最優(yōu)策略整合到單個(gè)策略中,通過(guò)重用整合后的單個(gè)策略來(lái)達(dá)到加速學(xué)習(xí)的目的。但是當(dāng)任務(wù)的參數(shù)規(guī)模和狀態(tài)空間龐大的時(shí)候,需要消耗大量的計(jì)算去訓(xùn)練多任務(wù)策略網(wǎng)絡(luò)。Yin等人提出了一種使用特定任務(wù)的高層次卷積特征作為多任務(wù)策略網(wǎng)絡(luò)輸入的策略蒸餾框架,并利用一個(gè)稱作“分層優(yōu)先經(jīng)驗(yàn)重放”的采樣框架有選擇性地從每個(gè)任務(wù)的經(jīng)驗(yàn)回放池選擇經(jīng)驗(yàn)放到神經(jīng)網(wǎng)絡(luò)上學(xué)習(xí)。文獻(xiàn)[57]提出了一種在一組相關(guān)源任務(wù)上訓(xùn)練單個(gè)策略網(wǎng)絡(luò)并將其重用在新任務(wù)中的“Actor-Mimic”方法。這種方法雖然能夠加速新任務(wù)的學(xué)習(xí),但是必須要在源任務(wù)和新任務(wù)之間具有一定相似性的情況下才能實(shí)現(xiàn),因?yàn)槿蝿?wù)間的相似性度量方法直接影響著PR的效果。另外,上面所提到的幾種策略蒸餾方法都有一個(gè)共同的問(wèn)題:同時(shí)訓(xùn)練多項(xiàng)任務(wù)會(huì)對(duì)單個(gè)任務(wù)的表現(xiàn)產(chǎn)生負(fù)面影響。這種負(fù)面影響可能來(lái)自其他任務(wù)的梯度,在極端情況下,一個(gè)任務(wù)甚至可能支配其他的任務(wù)。為了抵消這種負(fù)面的影響,Teh等人讓每個(gè)源任務(wù)單獨(dú)訓(xùn)練并將單個(gè)任務(wù)中獲得的知識(shí)蒸餾到共享策略中,然后再由共享策略提取出共同的結(jié)構(gòu)重用到其他的任務(wù)中,如圖7所示。學(xué)習(xí)過(guò)程就是最大化一個(gè)聯(lián)合目標(biāo)函數(shù)的過(guò)程,其中聯(lián)合目標(biāo)函數(shù)為

      (14)

      式中:是共享策略,是單個(gè)源策略;和是熵正則化因子。這種方法雖然消除了多任務(wù)訓(xùn)練對(duì)單任務(wù)訓(xùn)練所產(chǎn)生的影響,但是其在將單個(gè)任務(wù)中的知識(shí)蒸餾到共享策略中以及將共享策略中提取出的共同結(jié)構(gòu)重用到其他任務(wù)的過(guò)程中增加了計(jì)算量。

      圖6 多任務(wù)策略蒸餾Fig.6 Multi-task policy distillation

      圖7 共享策略工作過(guò)程Fig.7 Working process of shared policy

      國(guó)內(nèi)學(xué)者在這方面也有類似的研究。常田等人提出了隨機(jī)集成策略遷移(stochastic ensemble policy transfer, SEPT)方法。該方法取消了在源策略庫(kù)中每次選擇一個(gè)策略的方式,取而代之的是利用終止概率計(jì)算出源策略的概率權(quán)重,再依據(jù)概率權(quán)重從策略庫(kù)中集成出專家策略。最后通過(guò)策略蒸餾的方式將專家策略遷移到目標(biāo)任務(wù)上去。這種方法避免了估計(jì)源策略在目標(biāo)任務(wù)上的性能的不可靠性和度量目標(biāo)任務(wù)間的相似性時(shí)所帶來(lái)的誤差。

      文獻(xiàn)[48]則換了一種思路,使用貝葉斯變更點(diǎn)檢測(cè)算法尋找環(huán)境發(fā)生變化的位置,以此變更點(diǎn)為起點(diǎn)向后擴(kuò)展步構(gòu)造一個(gè)子空間并將其視為子任務(wù)。然后將在子任務(wù)探索得到的子策略與源策略整合為一個(gè)完整策略去解決目標(biāo)任務(wù)。為了解決只在子任務(wù)中探索而造成的次優(yōu)問(wèn)題,使用了類似-greedy的方法,即在目標(biāo)任務(wù)中探索的時(shí)候以一定的概率強(qiáng)制建立子空間(不管此處是否為變更點(diǎn)),這樣目標(biāo)任務(wù)中的其他狀態(tài)也能夠被探索到,因而最后學(xué)出來(lái)的策略是最優(yōu)的。無(wú)論是重用完整的源策略還是部分源策略,抑或是將多個(gè)源策略蒸餾、整合為一個(gè)最優(yōu)的源策略,這些從策略結(jié)構(gòu)出發(fā)的方法都面臨著一個(gè)共同的問(wèn)題:源任務(wù)和目標(biāo)任務(wù)之間需要具有極高的相似性。即使通過(guò)借助外部的幫助,或者增加概率去探索目標(biāo)任務(wù)的未知領(lǐng)域來(lái)減緩收斂到次優(yōu)策略的情況,但這些方法自身也存在著協(xié)助有限、次優(yōu)或者增加探索而導(dǎo)致的學(xué)習(xí)時(shí)間過(guò)長(zhǎng)等問(wèn)題。如何使策略重構(gòu)得更加契合目標(biāo)任務(wù)是此類PR方法的核心問(wèn)題。表2總結(jié)分析了具有代表性的策略重構(gòu)類的PR方法。

      表2 策略重構(gòu)類方法總結(jié)

      3.2 獎(jiǎng)勵(lì)設(shè)計(jì)類

      獎(jiǎng)勵(lì)設(shè)計(jì)是另一種通過(guò)定義策略之間的相似性或從源策略去定義目標(biāo)任務(wù)策略的方式去加速RL速度的方法。智能體除了學(xué)習(xí)環(huán)境反饋中的獎(jiǎng)勵(lì)外,還額外學(xué)習(xí)一個(gè)包含了先驗(yàn)知識(shí)的獎(jiǎng)勵(lì)設(shè)計(jì)函數(shù):××→來(lái)生成輔助獎(jiǎng)勵(lì),給予智能體在有益狀態(tài)時(shí)以更高的獎(jiǎng)勵(lì)來(lái)加速收斂。獎(jiǎng)勵(lì)函數(shù)的改變將導(dǎo)致任務(wù)的改變:

      =(,,,,)→=(,,,,)

      (15)

      式中:=+。智能體將在新的MDP中學(xué)習(xí)目標(biāo)策略。

      文獻(xiàn)[61]提出了用定義在狀態(tài)空間上的勢(shì)函數(shù)的差值作為獎(jiǎng)勵(lì)設(shè)計(jì)函數(shù)的方法基于勢(shì)函數(shù)的獎(jiǎng)勵(lì)設(shè)計(jì)(potential based reward shaping,PBRS):

      (,,′)=(′)-()

      (16)

      在此基礎(chǔ)上,文獻(xiàn)[62]提出了將其擴(kuò)展到基于勢(shì)函數(shù)的狀態(tài)-動(dòng)作對(duì)建議(potential based state-action advice,PBA)的方法:

      (,,′,′)=(′,′)-(,)

      (17)

      這個(gè)方法的一個(gè)限制是需要遵循策略來(lái)學(xué)習(xí),如式(17)所示,′是通過(guò)遵循策略轉(zhuǎn)換到下一個(gè)狀態(tài)′時(shí)要執(zhí)行的動(dòng)作。上述的方法都是基于靜態(tài)的勢(shì)函數(shù),文獻(xiàn)[63]提出了一種將狀態(tài)和時(shí)間結(jié)合起來(lái)的基于動(dòng)態(tài)勢(shì)函數(shù)(dynamic potential based,DPB)的方法:

      (,,′,′)=(′,′)-(,)

      (18)

      證明了這種動(dòng)態(tài)方法依然保證了策略的不變性:

      (19)

      式中:是當(dāng)前時(shí)間。在此基礎(chǔ)上,Harutyunyan等人又提出了一種能將任何先驗(yàn)知識(shí)作為額外獎(jiǎng)勵(lì)加入基于動(dòng)態(tài)勢(shì)函數(shù)的建議(dynamic potential based advice,DPBA)的方法。基本原理是:給定來(lái)自先驗(yàn)知識(shí)的任意額外獎(jiǎng)勵(lì)函數(shù),其必須滿足以下條件才可作為額外獎(jiǎng)勵(lì)添加到原始即時(shí)函數(shù)上:

      (′,′)-(,)=(,)=(,)

      (20)

      如果是動(dòng)態(tài)的,則其貝爾曼方程是:

      (,)=(,)+(′,′)

      (21)

      由此可知獎(jiǎng)勵(lì)設(shè)計(jì)函數(shù)(,)是(,)的否定:

      (,)=(′,′)-(,)=-(,)

      (22)

      故可以將的否定作為獎(jiǎng)勵(lì)函數(shù)來(lái)訓(xùn)練額外的狀態(tài)-動(dòng)作值函數(shù)和策略,的更新方式如下:

      (,)←(,)+()

      (23)

      因此,動(dòng)態(tài)獎(jiǎng)勵(lì)設(shè)計(jì)函數(shù)為

      (,)=+1(′,′)-(,)

      (24)

      DPBA方法最大的優(yōu)點(diǎn)在于提供了一個(gè)能將任意先驗(yàn)知識(shí)作為額外獎(jiǎng)勵(lì)的框架,這大大提高了獎(jiǎng)勵(lì)設(shè)計(jì)類方法在PR上的通用性。

      文獻(xiàn)[65]提出了一種使用獎(jiǎng)勵(lì)設(shè)計(jì)遷移策略(policy transfer using reward shaping,PTS):在使用映射函數(shù),完成了源任務(wù)和目標(biāo)任務(wù)之間狀態(tài)和動(dòng)作映射工作的基礎(chǔ)上,利用獎(jiǎng)勵(lì)設(shè)計(jì)將專家策略從源任務(wù)重用在目標(biāo)任務(wù)上,那么額外的獎(jiǎng)勵(lì)正好是被映射的狀態(tài)和動(dòng)作被源任務(wù)的專家策略采取的概率(((),()))。另一項(xiàng)工作則利用神經(jīng)網(wǎng)絡(luò)訓(xùn)練鑒別器去區(qū)分樣本是來(lái)自專家策略還是目標(biāo)策略,而鑒別器的損失被用來(lái)設(shè)計(jì)獎(jiǎng)勵(lì)函數(shù)以鼓勵(lì)智能體去模仿專家策略。這種方法涉及到PR方法的兩個(gè)方面:獎(jiǎng)勵(lì)設(shè)計(jì)和外部協(xié)助。文獻(xiàn)[67]所做的工作中的其中一項(xiàng)是通過(guò)定義一個(gè)設(shè)計(jì)獎(jiǎng)勵(lì)函數(shù)強(qiáng)度的參數(shù)來(lái)針對(duì)不同的目標(biāo)任務(wù)調(diào)整獎(jiǎng)勵(lì)函數(shù)的大小。Zheng等人提出用外在獎(jiǎng)勵(lì)優(yōu)化內(nèi)在獎(jiǎng)勵(lì)并使用內(nèi)外獎(jiǎng)勵(lì)的和去更新策略的方法:學(xué)習(xí)策略梯度的內(nèi)在獎(jiǎng)勵(lì)(learning intrinsic rewards for policy gradient,LIRPG),基于該算法的智能體學(xué)習(xí)過(guò)程的抽象表示如圖8所示。此方法的優(yōu)點(diǎn)在于該算法適用于大部分的RL算法。

      圖8 LIRPG智能體學(xué)習(xí)過(guò)程的抽象表示Fig.8 Abstract representation of learning process of LIRPG agent

      以上所述的工作都屬于利用外在的知識(shí)來(lái)設(shè)計(jì)獎(jiǎng)勵(lì)函數(shù),Marom等人轉(zhuǎn)換了思路,考慮了額外的獎(jiǎng)勵(lì)源于自身的情況,提出了信念獎(jiǎng)勵(lì)設(shè)計(jì)(belief reward shaping,BRS)的概念,利用貝葉斯獎(jiǎng)勵(lì)設(shè)計(jì)框架來(lái)產(chǎn)生隨著經(jīng)驗(yàn)衰減的來(lái)自Critic網(wǎng)絡(luò)自身的勢(shì)值。

      總的說(shuō)來(lái),獎(jiǎng)勵(lì)設(shè)計(jì)方法從基于狀態(tài)和狀態(tài)-動(dòng)作值的靜態(tài)勢(shì)函數(shù),到加入時(shí)間變化過(guò)程的動(dòng)態(tài)勢(shì)函數(shù),再到能將任意先驗(yàn)知識(shí)作為輔助獎(jiǎng)勵(lì)添加到原始獎(jiǎng)勵(lì)函數(shù)的框架,獎(jiǎng)勵(lì)設(shè)計(jì)方法已被應(yīng)用到實(shí)際上生活中的諸多場(chǎng)景,如訓(xùn)練機(jī)器人、口語(yǔ)對(duì)話系統(tǒng)等。如今,將獎(jiǎng)勵(lì)設(shè)計(jì)應(yīng)用在PR的方法還不是很成熟,主要的問(wèn)題在于構(gòu)造的獎(jiǎng)勵(lì)函數(shù)并不能夠完美契合目標(biāo)任務(wù),從而導(dǎo)致智能體在學(xué)習(xí)目標(biāo)策略的過(guò)程中采取一些投機(jī)取巧方式的情況發(fā)生,或者收斂到次優(yōu)策略。表3對(duì)比分析了獎(jiǎng)勵(lì)設(shè)計(jì)類的PR方法。

      表3 獎(jiǎng)勵(lì)設(shè)計(jì)類方法總結(jié)

      3.3 問(wèn)題轉(zhuǎn)換類

      PR的核心問(wèn)題是源策略的選擇問(wèn)題,智能體能否以最快的速度尋找到目標(biāo)任務(wù)的最優(yōu)策略一定程度上取決于所選擇的源策略契合目標(biāo)任務(wù)的程度。因此,關(guān)于PR的有些工作聚焦于將源策略的選擇問(wèn)題轉(zhuǎn)化為其他較易解決的問(wèn)題。

      (25)

      (26)

      由于該方法只學(xué)習(xí)了源策略的選項(xiàng)間策略,容易導(dǎo)致次優(yōu)問(wèn)題,為了避免這個(gè)問(wèn)題,用原始策略來(lái)擴(kuò)展源策略庫(kù),然而這種方法需要手動(dòng)添加原始策略,在很大程度上限制了其通用性,不能用于解決連續(xù)動(dòng)作空間問(wèn)題。為了解決文獻(xiàn)[73]中存在的問(wèn)題,文獻(xiàn)[74]提出了一種由Agent模塊和Option模塊兩個(gè)主要模塊組成的策略遷移框架(policy transfer framework,PTF),如圖9所示。其中,Agent模塊用于在Option模塊的指導(dǎo)下學(xué)習(xí)目標(biāo)策略,Option模塊用于學(xué)習(xí)選擇對(duì)Agent有用的源策略。同時(shí)利用一個(gè)加權(quán)因子(,)控制從源策略中重用策略的程度,其中(,)定義為

      (,)=()(1-(,|))

      (27)

      圖9 PTFFig.9 PTF

      這個(gè)框架能夠與大多數(shù)RL算法結(jié)合,在離散和連續(xù)動(dòng)作空間中都能應(yīng)用。然而,相較之前的方法,這種方法新增了兩個(gè)網(wǎng)絡(luò)用于控制Agent何時(shí)選擇源策略以及重用程度,這必然會(huì)增加算法的復(fù)雜度和計(jì)算量。

      Yang等人提出了一種基于多智能體選項(xiàng)的策略遷移框架(multiagent option-based policy transfer, MAOPT)來(lái)提高多智能體選項(xiàng)的效率。該框架通過(guò)將多智能體策略遷移建模為選項(xiàng)學(xué)習(xí)問(wèn)題來(lái)學(xué)習(xí)為每個(gè)智能體提供建議以及何時(shí)終止建議。該方法在離散和連續(xù)狀態(tài)空間問(wèn)題上都表現(xiàn)良好。

      問(wèn)題轉(zhuǎn)化類的方法旨在將難以解決的源策略選擇問(wèn)題轉(zhuǎn)化為其他易解決或相對(duì)熟悉的領(lǐng)域問(wèn)題。但這種問(wèn)題轉(zhuǎn)換的前提是存在適合的轉(zhuǎn)換模型,不準(zhǔn)確的轉(zhuǎn)換反而會(huì)導(dǎo)致次優(yōu)問(wèn)題的出現(xiàn)。

      3.4 相似性度量類

      目前已經(jīng)有很多關(guān)于PR的工作,但是大多數(shù)方法都依賴于源任務(wù)和目標(biāo)任務(wù)極度相似的假設(shè)。然而這種假設(shè)在實(shí)踐過(guò)程中并不一定能夠滿足。如果源任務(wù)和目標(biāo)任務(wù)無(wú)關(guān),PR將會(huì)導(dǎo)致學(xué)習(xí)速度變慢,乃至在目標(biāo)任務(wù)中的表現(xiàn)很差。因此,定義源任務(wù)和目標(biāo)任務(wù)之間的相似性來(lái)選擇最優(yōu)的源策略是必要的?,F(xiàn)有的工作中,度量源和目標(biāo)任務(wù)的MDP之間相似性的方法居多,也有度量策略之間相似性的方法。

      Fernández等人利用距離度量?jī)蓚€(gè)源任務(wù)最優(yōu)策略的相似性來(lái)選擇重用最有用的源策略,定義和證明了此種度量方法。

      (28)

      因而用距離度量來(lái)定義策略在策略中的作用為

      (29)

      由于該方法需要比較應(yīng)用兩個(gè)策略后的結(jié)果來(lái)判斷哪個(gè)策略更適合用來(lái)重用,計(jì)算量較大,不適用于大規(guī)模的PR場(chǎng)景。

      相較于度量策略相似性的工作,更多的工作集中在度量任務(wù)MDP之間的相似性。在早期的工作中,文獻(xiàn)[76-78]使用了一種交互模擬形式的度量方法,該方法將MDP之間的差異進(jìn)行了量化。然而這個(gè)工作需要手動(dòng)定義任務(wù)之間的度量,并且只適用于離散狀態(tài)空間以及需要巨大的計(jì)算量。文獻(xiàn)[19]提出的方法是半自動(dòng)的,要求人類用戶為算法定義相關(guān)的源任務(wù)和目標(biāo)任務(wù)之間的關(guān)系,再用算法來(lái)比較源和目標(biāo)任務(wù)之間的相似性。顯然,為了實(shí)現(xiàn)完全自主的PR方法,智能體必須能夠選擇與目標(biāo)任務(wù)相關(guān)的源任務(wù)以及學(xué)習(xí)源和目標(biāo)任務(wù)之間的關(guān)系,如任務(wù)間映射。Taylor和Ammar等人將工作聚焦于如何使智能體選擇與目標(biāo)任務(wù)相關(guān)的源任務(wù)。而這正是重用先驗(yàn)知識(shí)成功與否的關(guān)鍵。

      朱斐等人針對(duì)不穩(wěn)定環(huán)境下的RL問(wèn)題,提出了一種基于公式集的策略搜索算法。該方法用MDP分布表示不穩(wěn)定的環(huán)境,利用自模擬度量構(gòu)造的MDP分布之間的距離度量公式作為標(biāo)準(zhǔn),并結(jié)合小公式集的構(gòu)造方法,將求解的策略在不同的MDP分布之間進(jìn)行遷移。從理論上證明了遷移之后的策略的最優(yōu)性邊界。這種方法為在不穩(wěn)定環(huán)境下的RL問(wèn)題中進(jìn)行PR提供了思路,但是該算法中MDP分布之間的距離計(jì)算公式并不適用于龐大的狀態(tài)空間和連續(xù)狀態(tài)空間的問(wèn)題。

      文獻(xiàn)[81]提出了一種從通過(guò)智能體與環(huán)境交互收集的樣本中估計(jì)源和目標(biāo)任務(wù)之間相似性的度量方法,該方法能夠捕獲和聚類具有多重差異的多維數(shù)據(jù)集之間的動(dòng)態(tài)相似性,包括不同的獎(jiǎng)勵(lì)函數(shù)和轉(zhuǎn)移函數(shù)。此方法的基本原理是:首先使用受限玻爾茲曼機(jī)(restricted Boltzmann machine,RBM)模型對(duì)源任務(wù)中收集的數(shù)據(jù)進(jìn)行建模,產(chǎn)生一組能夠描述源MDP的相關(guān)的和信息性的特征。然后在目標(biāo)任務(wù)上測(cè)試這些特征,以此評(píng)估MDP的相似性。這種方法實(shí)現(xiàn)了智能體自主學(xué)習(xí)度量源和目標(biāo)任務(wù)之間相似性并依此選擇合適的源策略進(jìn)行PR的工作。但是這種方法一個(gè)最主要的缺陷是可能會(huì)導(dǎo)致經(jīng)驗(yàn)過(guò)擬合的問(wèn)題,即在給定特定MDP參數(shù)的情況下效果良好,而在使用其他參數(shù)或在不同的MDP上時(shí)效果難以達(dá)到預(yù)期。

      Wang等人將工作的重點(diǎn)放在了多任務(wù)遷移上,提出了一種稱為“啟發(fā)式自適應(yīng)PR”的框架。這種框架通過(guò)快速選擇最合適的策略及其有用的部分,來(lái)促進(jìn)存儲(chǔ)在策略庫(kù)中的源策略的有效重用。同時(shí),通過(guò)使用KL散度衡量策略之間的差異來(lái)篩選策略,保證了策略的質(zhì)量,并完成策略庫(kù)的重建。該方法有效避免了重用源策略中不相關(guān)的部分而導(dǎo)致的負(fù)遷移,并在每個(gè)回合中將策略庫(kù)中的“不良策略”移除以保證策略庫(kù)的健壯性和有效性。美中不足的是,該方法并不適用于連續(xù)動(dòng)作空間問(wèn)題。

      Song等人的工作主要是提出了兩個(gè)度量有限個(gè)MDP之間距離的方法。第一個(gè)方法是Hausdorff度量方法,用于利用Hausdorff矩陣度量不同任務(wù)狀態(tài)集之間的距離。具體定義如下。

      給定兩個(gè)MDP:=〈,,,,〉和=〈,,,,〉,其Hausdorff距離為

      (30)

      式中:′為兩個(gè)狀態(tài)之間的距離。這種方法存在錯(cuò)誤度量的問(wèn)題:如果相似的多維數(shù)據(jù)集中至少存在一個(gè)異常值,可能會(huì)被錯(cuò)誤地視為不相似的數(shù)據(jù)集。因此又提出了第二個(gè)方法:Kantorovich度量方法,該方法利用Kantorovich矩陣度量概率分布之間的距離。具體定義如下。

      給定兩個(gè)MDP:=〈,,,,〉和=〈,,,,〉,其Kantorovich距離為

      (31)

      使用這種方法時(shí),即使存在異常值,對(duì)總數(shù)據(jù)集的影響也不大。與此工作類似,文獻(xiàn)[48]同樣是計(jì)算概率分布之間的距離,它基于Jensen-Shannon距離(Jensen-Shannon distance,JSD)定義了一個(gè)輕量級(jí)的度量來(lái)計(jì)算共享相同狀態(tài)-動(dòng)作的問(wèn)題中的任務(wù)相似性。JSD定義為Jensen-Shannon散度的平方根:

      (32)

      式中:是KL散度;和是源任務(wù)和目標(biāo)任務(wù)中相應(yīng)狀態(tài)-動(dòng)作對(duì)的分布;=(+)2。

      相似性度量類方法的目標(biāo)只有一個(gè):為目標(biāo)任務(wù)選擇最好的源策略進(jìn)行重用?,F(xiàn)有的方法五花八門,沒(méi)有統(tǒng)一的度量標(biāo)準(zhǔn),該方向未來(lái)的工作可能會(huì)著力于尋找一個(gè)統(tǒng)一的度量標(biāo)準(zhǔn)。表4總結(jié)了目前的相似性度量類方法。

      表4 相似性度量類方法總結(jié)

      以上分析的幾類方法,有效地加速了RL算法的收斂,但在一定程度上也提升了算法的復(fù)雜度和計(jì)算量。為方便了解和對(duì)比,分析、對(duì)比了這幾類方法的優(yōu)缺點(diǎn),如表5所示。

      表5 PR方法對(duì)比

      4 DRL中的PR

      近些年隨著DL的飛速發(fā)展,DL和RL相結(jié)合的方法DRL在一定程度上解決了以前傳統(tǒng)RL方法難以解決的問(wèn)題。適用于傳統(tǒng)RL算法的PR方法,在更換了RL框架的情況下,依然適用。在上面介紹的各類PR方法中,某些方法不僅適用于傳統(tǒng)RL框架,同樣適用于DRL框架。

      文獻(xiàn)[39]將專家演示這類依靠外部協(xié)助的PR方法應(yīng)用在最經(jīng)典的DRL算法DQN上,稱為學(xué)習(xí)演示的深度Q學(xué)習(xí)。另一項(xiàng)基于DQN算法的工作是文獻(xiàn)[65],其工作與獎(jiǎng)勵(lì)設(shè)計(jì)技術(shù)關(guān)系密切,基于一組專家演示來(lái)構(gòu)建勢(shì)函數(shù),并且狀態(tài)-動(dòng)作對(duì)的勢(shì)值由給定狀態(tài)-動(dòng)作對(duì)和專家經(jīng)驗(yàn)之間的最高相似性來(lái)度量,這種額外獎(jiǎng)勵(lì)鼓勵(lì)智能體做出類似專家的動(dòng)作。文獻(xiàn)[55-56]提出的策略蒸餾方法同樣是基于DQN算法框架的。其中文獻(xiàn)[55]的工作是利用專家網(wǎng)絡(luò)和學(xué)生網(wǎng)絡(luò)值的誤差來(lái)使得學(xué)生網(wǎng)絡(luò)逼近專家網(wǎng)絡(luò)從而進(jìn)行多任務(wù)PR。而文獻(xiàn)[56]的工作則是將特定任務(wù)的高層次卷積特征作為多任務(wù)策略網(wǎng)絡(luò)的輸入,再有選擇地采樣每個(gè)任務(wù)的經(jīng)驗(yàn)放到神經(jīng)網(wǎng)絡(luò)上學(xué)習(xí)。

      PR方法不僅僅應(yīng)用到基于值函數(shù)框架的DRL中,也適用于基于策略梯度框架的DRL。文獻(xiàn)[89]基于信任域策略優(yōu)化(trust region policy optimization,TRPO)算法框架,提出了一種結(jié)合生成對(duì)抗網(wǎng)絡(luò)(generative adversarial networks,GAN)和獎(jiǎng)勵(lì)設(shè)計(jì)函數(shù)-log(1-(,))的算法生成對(duì)抗模仿學(xué)習(xí)(generative adversarial imitation learning,GAIL)。該算法可以利用GAN的對(duì)抗訓(xùn)練直接顯示地得到策略,更加高效。Kang等人提出的學(xué)習(xí)演示的策略優(yōu)化(policy optimization from demonstration,POfD)算法擴(kuò)展了GAIL,該算法基于TRPO和PPO,將GAN中的鑒別器獎(jiǎng)勵(lì)與環(huán)境獎(jiǎng)勵(lì)結(jié)合,訓(xùn)練智能體去獲得最大化累積的環(huán)境獎(jiǎng)勵(lì):

      (33)

      式中:分別是當(dāng)前策略和專家策略的占用度量,是由策略導(dǎo)出的狀態(tài)-動(dòng)作分布。

      以上算法,無(wú)論是GAIL還是POfD,都屬于on-policy的RL框架。文獻(xiàn)[68]提出的學(xué)習(xí)演示的DDPG(DDPG from demonstrations,DDPGfD)算法則是off-policy的RL框架,該算法基于DDPG,指導(dǎo)智能體從專家演示中學(xué)習(xí)策略。另一項(xiàng)基于DDPG框架的工作是文獻(xiàn)[40],與DDPGfD的不同在于智能體的功能通過(guò)行為克隆損失得到加強(qiáng),鼓勵(lì)其模仿所提供的演示行為。文獻(xiàn)[58]提出的方法基于A3C框架,同時(shí)利用策略蒸餾提取多個(gè)教師策略網(wǎng)絡(luò)中的經(jīng)驗(yàn)并轉(zhuǎn)移到學(xué)習(xí)策略網(wǎng)絡(luò)以實(shí)現(xiàn)多任務(wù)PR。Schmitt等人做的工作與文獻(xiàn)[58]類似,使用教師和學(xué)生策略網(wǎng)絡(luò)之間的交叉熵來(lái)設(shè)計(jì)獎(jiǎng)勵(lì),并設(shè)計(jì)了一個(gè)動(dòng)態(tài)衰減系數(shù)來(lái)減輕獎(jiǎng)勵(lì)增加所帶來(lái)的負(fù)面影響,從而使學(xué)生策略在迭代優(yōu)化一定次數(shù)后能夠獨(dú)立于教師策略。

      飛速發(fā)展的DRL算法已經(jīng)能夠面對(duì)高維的狀態(tài)或動(dòng)作空間的問(wèn)題,但是面對(duì)相似問(wèn)題需要從頭學(xué)習(xí)的問(wèn)題依然需要依靠PR方法來(lái)解決。表6總結(jié)了主流的應(yīng)用了PR方法的DRL框架。

      表6 PR方法中的DRL框架總結(jié)

      5 多智能體場(chǎng)景

      相對(duì)于單智能體而言,多智能體環(huán)境是非穩(wěn)態(tài)的,多智能體RL(multi-agent RL,MARL)遵循隨機(jī)博弈(stochastic game,SG)過(guò)程。對(duì)于MDP而言,其轉(zhuǎn)移函數(shù)不僅與當(dāng)前狀態(tài)、當(dāng)前動(dòng)作以及下一個(gè)狀態(tài)′有關(guān),還與時(shí)間有關(guān),因此更加復(fù)雜,更具有挑戰(zhàn)性。

      在多智能體環(huán)境中,傳統(tǒng)的RL算法或多智能體算法沒(méi)有過(guò)多關(guān)注對(duì)方的策略,僅僅只是聚焦于對(duì)手的行為,這類方法的弊端在于容易被對(duì)手的行為所誤導(dǎo),但是根據(jù)對(duì)手的策略來(lái)行動(dòng)能夠避免此問(wèn)題。然而在多智能體環(huán)境中,對(duì)手的策略多且雜,如何快速地根據(jù)對(duì)手策略制定自己的策略正是MARL-PR算法所要解決的問(wèn)題。文獻(xiàn)[95]提出的貝葉斯PR(Bayesian PR,BPR),可以根據(jù)對(duì)手的策略來(lái)指定自己的策略,提出了一個(gè)當(dāng)智能體面對(duì)未知任務(wù)時(shí)使用策略蒸餾來(lái)選擇最優(yōu)策略的框架。該框架使用了一個(gè)信念模型(),以獎(jiǎng)勵(lì)為標(biāo)準(zhǔn)來(lái)衡量當(dāng)前的任務(wù)和過(guò)去已經(jīng)解決的任務(wù)之間的相似程度,最優(yōu)策略就是信念模型下期望獎(jiǎng)勵(lì)最大的策略。然而該信念模型存在光靠獎(jiǎng)勵(lì)難以準(zhǔn)確區(qū)分對(duì)手的問(wèn)題,文獻(xiàn)[96]提出了一種方法深度BPR:用參數(shù)為的神經(jīng)網(wǎng)絡(luò)去近似對(duì)手的策略的修正信念模型,配合引入的對(duì)手模型同時(shí)去檢測(cè)對(duì)手以達(dá)到精確檢測(cè)的目的。如果檢測(cè)發(fā)現(xiàn)對(duì)手用的是之前未用過(guò)的策略,則開始學(xué)習(xí)新策略并在學(xué)習(xí)完成后放入策略庫(kù)。文獻(xiàn)[97]提出的算法Bayes-Pepper結(jié)合了兩個(gè)框架Pepper和BPR,該算法先從多智能體算法中獲得隨機(jī)的動(dòng)作策略,然后計(jì)算可能的對(duì)手的信念,并隨著交互的進(jìn)行而更新,從而使智能體可以針對(duì)對(duì)手快速選擇適當(dāng)?shù)牟呗?。文獻(xiàn)[99]將BPR擴(kuò)展到對(duì)抗性設(shè)置,特別是擴(kuò)展到從一種固定策略轉(zhuǎn)換為另一種靜態(tài)策略的對(duì)手。當(dāng)Agent檢測(cè)當(dāng)前策略不是最優(yōu)時(shí),該擴(kuò)展功能可以在線學(xué)習(xí)新模型。

      然而以上方法都假定對(duì)手在一組平穩(wěn)策略中隨機(jī)改變其策略,在實(shí)踐中,對(duì)手可以通過(guò)采用更高級(jí)的推理策略來(lái)表現(xiàn)出更復(fù)雜的行為,此時(shí)這些方法就難以打敗這些復(fù)雜的對(duì)手。文獻(xiàn)[100]提出一種貝葉斯心理策略理論(Bayesian theory of mind on policy, Bayes-ToMoP)方法,不僅能快速準(zhǔn)確地檢測(cè)到非平穩(wěn)對(duì)手,而且還能檢測(cè)到更復(fù)雜的對(duì)手,并據(jù)此計(jì)算出最佳對(duì)策。

      相較于單智能體DRL算法,多智能體算法更加切合現(xiàn)實(shí)環(huán)境和需求。面對(duì)不穩(wěn)定的環(huán)境,單智能體算法難以收斂,也不能通過(guò)改變智能體本身的策略去適應(yīng)不穩(wěn)定的動(dòng)態(tài)環(huán)境。多智能體算法的提出在一定程度上緩解了這些問(wèn)題。然而,隨著智能體數(shù)量的增加,多智能體算法的聯(lián)結(jié)動(dòng)作空間大小爆炸性增長(zhǎng),而這帶來(lái)的是龐大的計(jì)算量。除此之外,多智能體系統(tǒng)中各個(gè)智能體的任務(wù)存在差異,但彼此之間又存在耦合,相互影響,獎(jiǎng)勵(lì)設(shè)計(jì)比較困難,而這直接影響了學(xué)習(xí)到的策略的好壞。而且探索問(wèn)題也是多智能體算法急需解決的問(wèn)題之一。多智能體環(huán)境中,各智能體需要同時(shí)考慮自己對(duì)環(huán)境的探索和應(yīng)對(duì)同伴策略變化進(jìn)行的探索,而且各智能體的探索都可能影響同伴的策略,這使得學(xué)習(xí)的過(guò)程復(fù)雜且緩慢。PR方法的加入部分緩解了這些問(wèn)題,但是現(xiàn)有的方法還不夠成熟。接下來(lái)可以研究更加通用的PR方法,通過(guò)重用相似環(huán)境的源策略來(lái)更快地發(fā)現(xiàn)對(duì)手策略,加速探索過(guò)程和降低計(jì)算損耗。

      6 應(yīng)用

      機(jī)器人學(xué)習(xí)領(lǐng)域一直是RL的重要研究方向,但一直存在實(shí)驗(yàn)代價(jià)過(guò)大的問(wèn)題,比如機(jī)器人學(xué)習(xí)在復(fù)雜的山路進(jìn)行作業(yè)的時(shí)候,經(jīng)常存在損壞的風(fēng)險(xiǎn)。而在相似的地況進(jìn)行作業(yè)時(shí),從頭學(xué)習(xí)不僅效率低,而且損耗大。文獻(xiàn)[101]提出讓不同機(jī)器人之間共享學(xué)習(xí)到的策略來(lái)進(jìn)行協(xié)同訓(xùn)練的PR方法很大程度上緩解了這個(gè)問(wèn)題。其方法是在DQN框架下實(shí)現(xiàn)多個(gè)機(jī)器人智能體之間的策略遷移,通過(guò)在一個(gè)經(jīng)驗(yàn)池中共享演示和異步執(zhí)行策略的更新。文獻(xiàn)[102]則把注意力集中在機(jī)器人面臨未知任務(wù)時(shí)的學(xué)習(xí)方法上,通過(guò)在所選的多個(gè)源任務(wù)上訓(xùn)練一個(gè)通用策略結(jié)合專家策略來(lái)讓機(jī)器人更快地適應(yīng)目標(biāo)任務(wù)。

      除了機(jī)器人領(lǐng)域,游戲也是PR廣泛應(yīng)用的領(lǐng)域。最典型的游戲應(yīng)用就是AlphaGo。這是一款圍棋游戲,先利用專家演示離線訓(xùn)練智能體,再通過(guò)學(xué)習(xí)用蒙特卡羅樹搜索法來(lái)選擇最優(yōu)策略。在星際爭(zhēng)霸這款實(shí)時(shí)戰(zhàn)略游戲中也使用了PR。除此之外,OpenAI訓(xùn)練了一個(gè)擊敗了人類職業(yè)玩家的Dota2游戲智能體,其中也用到了PR的方法。文獻(xiàn)[31]將PR應(yīng)用在Minecraft上,文獻(xiàn)[51-52]則在Atari上應(yīng)用了PR方法。另外,在導(dǎo)航游戲和山地車游戲上也有應(yīng)用。在這些通用平臺(tái)上的應(yīng)用且有不錯(cuò)的效果,足以說(shuō)明PR的有效性。表7總結(jié)了常見的PR方法的應(yīng)用場(chǎng)景。

      表7 PR方法應(yīng)用總結(jié)

      7 總結(jié)及展望

      本綜述從是否基于策略重構(gòu)的角度將目前RL中存在的PR方法進(jìn)行分類并介紹。除此之外,還總結(jié)了在結(jié)構(gòu)不同的任務(wù)之間的映射方法以及應(yīng)用了PR的領(lǐng)域。本文提供了一個(gè)關(guān)于RL中PR方法的新的分類思路,希望能夠?yàn)樽龃朔矫嫜芯康娜颂峁┮稽c(diǎn)幫助。

      依據(jù)現(xiàn)在RL中的PR研究進(jìn)程,基于模型的PR方法會(huì)是未來(lái)的一個(gè)發(fā)展趨勢(shì)。基于模型的方法能夠結(jié)合大多數(shù)的RL算法,實(shí)現(xiàn)策略重構(gòu)、獎(jiǎng)勵(lì)設(shè)計(jì)等方法的自動(dòng)化,大大提高PR的效率和通用性。除此之外,任務(wù)的相似性度量方法現(xiàn)階段良莠不齊,設(shè)計(jì)和制定一套通用高效的度量標(biāo)準(zhǔn)對(duì)于PR的發(fā)展也起到了至關(guān)重要的作用。另外,雖然PR能夠較好地解決RL收斂速度慢、資源消耗大以及復(fù)用性的問(wèn)題,但也提升了算法的復(fù)雜度和計(jì)算,如何在解決傳統(tǒng)RL問(wèn)題的基礎(chǔ)上避免算法復(fù)雜度和計(jì)算的提高也是PR方法迫切需要解決的問(wèn)題。最后,目前PR在多智能體內(nèi)的研究進(jìn)展緩慢,其主要原因在于多智能體場(chǎng)景的復(fù)雜性。然而多智能體場(chǎng)景更加貼近現(xiàn)實(shí),優(yōu)質(zhì)的多智能體PR方法能夠在很大程度上提高工業(yè)制造的效率。鑒于這個(gè)原因,相信多智能體PR會(huì)是未來(lái)的一大研究熱點(diǎn)。

      猜你喜歡
      狀態(tài)文獻(xiàn)函數(shù)
      二次函數(shù)
      Hostile takeovers in China and Japan
      速讀·下旬(2021年11期)2021-10-12 01:10:43
      第3講 “函數(shù)”復(fù)習(xí)精講
      二次函數(shù)
      函數(shù)備考精講
      Cultural and Religious Context of the Two Ancient Egyptian Stelae An Opening Paragraph
      大東方(2019年12期)2019-10-20 13:12:49
      狀態(tài)聯(lián)想
      生命的另一種狀態(tài)
      The Application of the Situational Teaching Method in English Classroom Teaching at Vocational Colleges
      The Role and Significant of Professional Ethics in Accounting and Auditing
      商情(2017年1期)2017-03-22 16:56:36
      石柱| 海丰县| 普陀区| 巩留县| 兰溪市| 盖州市| 崇明县| 凉城县| 靖边县| 漯河市| 化德县| 东乡族自治县| 甘谷县| 肇东市| 青海省| 蒙自县| 汪清县| 太湖县| 仲巴县| 闸北区| 永城市| 英吉沙县| 禹城市| 乡城县| 连州市| 古丈县| 乌苏市| 浮梁县| 巨野县| 南溪县| 隆林| 白山市| 湘西| 元氏县| 阜新市| 苗栗县| 开阳县| 永胜县| 大足县| 卢氏县| 富民县|