顧 揚(yáng) 程玉虎 王雪松
由于兼具了強(qiáng)化學(xué)習(xí)優(yōu)良的決策能力以及深度學(xué)習(xí)強(qiáng)大的表征能力和泛化性能,深度強(qiáng)化學(xué)習(xí)已成為解決復(fù)雜環(huán)境下感知決策問(wèn)題的一個(gè)可行方案[1].近年來(lái),深度強(qiáng)化學(xué)習(xí)已經(jīng)在機(jī)器人控制[2]、電力系統(tǒng)優(yōu)化[3]、網(wǎng)絡(luò)安全[4]、視頻游戲[5-6]、醫(yī)療健康[7]、自動(dòng)駕駛[8-9]等領(lǐng)域取得了成功應(yīng)用.
隨著深度強(qiáng)化學(xué)習(xí)理論和方法的發(fā)展,學(xué)者們嘗試開發(fā)智能體去處理一些數(shù)據(jù)采集困難,對(duì)硬件設(shè)備安全構(gòu)成威脅的學(xué)習(xí)任務(wù)[10].2020 年之前,參考機(jī)器學(xué)習(xí)中批量學(xué)習(xí)的方法,學(xué)者們提出了一種無(wú)需進(jìn)行探索、經(jīng)驗(yàn)緩存固定的深度強(qiáng)化學(xué)習(xí),并命名為批強(qiáng)化學(xué)習(xí)[11].2020 年后,隨著批強(qiáng)化學(xué)習(xí)熱度的提升,Levine 等[10]將此類算法重新命名為離線強(qiáng)化學(xué)習(xí).離線強(qiáng)化學(xué)習(xí)有著行為策略下固定大小的經(jīng)驗(yàn)緩存,可以避免在線探索帶來(lái)的環(huán)境噪聲和危險(xiǎn)行為[12].一方面,離線強(qiáng)化學(xué)習(xí)可以從在線強(qiáng)化學(xué)習(xí)的經(jīng)典算法中汲取靈感[13],有較長(zhǎng)遠(yuǎn)的發(fā)展前景.另一方面,離線強(qiáng)化學(xué)習(xí)中,大部分算法通過(guò)引入模仿學(xué)習(xí)[14]來(lái)減小分布偏移,降低了強(qiáng)化學(xué)習(xí)與其他機(jī)器學(xué)習(xí)方法之間的壁壘.但一個(gè)值得關(guān)注的問(wèn)題是: 習(xí)得策略下,智能體對(duì)離線經(jīng)驗(yàn)緩存分布之外的(Out-of-distribution,OOD)狀態(tài)評(píng)估會(huì)包含誤差,從而表現(xiàn)并不理想.
針對(duì)這一問(wèn)題,研究者們提出了許多解決方案.Fujimoto 等[15]率先提出了第一個(gè)能夠從任意批數(shù)據(jù)(離線數(shù)據(jù))中學(xué)習(xí)而無(wú)需探索的批約束深度Q學(xué)習(xí)(Batch-constrained deep Q-learning,BCQ).BCQ 采用Q 學(xué)習(xí)技術(shù),在選取最大化Q 值對(duì)應(yīng)的動(dòng)作時(shí),希望只考慮實(shí)際出現(xiàn)在離線數(shù)據(jù)集中的狀態(tài)-動(dòng)作對(duì),而不考慮分布外的動(dòng)作.為此,Kumar等[16]利用變分自編碼器來(lái)生成與離線數(shù)據(jù)集分布相近的動(dòng)作,并結(jié)合一個(gè)擾動(dòng)網(wǎng)絡(luò)模型對(duì)生成的動(dòng)作進(jìn)行調(diào)優(yōu),從而使動(dòng)作具有多樣性.測(cè)試階段,在生成的動(dòng)作空間中選擇使Q 值最大的那些動(dòng)作.由于BCQ 不涉及對(duì)未知狀態(tài)-動(dòng)作對(duì)的考慮,因此不會(huì)在策略與值函數(shù)上引入額外的偏差,同時(shí),動(dòng)作與值函數(shù)分開學(xué)習(xí),也避免了誤差累積.然而,Kumar 等[16]指出: 由于BCQ 對(duì)策略施加的約束較強(qiáng),因此當(dāng)離線數(shù)據(jù)集質(zhì)量較差時(shí),BCQ 只能有限地改善策略性能.進(jìn)一步,Kumar 等[16]分析了分布偏移導(dǎo)致的自舉誤差,提出了使用兩個(gè)獨(dú)立值函數(shù)結(jié)構(gòu)的自舉誤差累積消減算法(Bootstrapping error accumulation reduction,BEAR),利用支持集匹配的思想來(lái)防止自舉誤差累積.此外,BEAR 通過(guò)約束當(dāng)前策略與行為策略之間的最大均值差異(Maximum mean discrepancy,MMD)[17]來(lái)使習(xí)得策略盡可能接近行為策略以緩解分布偏移問(wèn)題.然而,由于需要計(jì)算MMD 距離,BEAR 的計(jì)算代價(jià)較大.Jaques 等[18]通過(guò)減小習(xí)得策略和行為策略之間的KL 散度,使學(xué)習(xí)到的策略逼近行為策略.與之類似,Maran 等[19]使用Wasserstein 距離來(lái)描述策略間差異,將減小策略分布間的Wasserstein 距離作為正則化項(xiàng)添加到優(yōu)化目標(biāo)中.為評(píng)估不同行為策略正則化項(xiàng)的重要性,Wu 等[20]引入一個(gè)通用的算法框架,稱為行為正則化Actor-Critic.該框架涵蓋了BCQ、BEAR 等,同時(shí)提供了多種實(shí)際選擇方案,使研究人員能夠以模塊化的方式比較不同變體的性能.進(jìn)一步,Wu 等[20]提出兩類正則化方法:BRAC-v 與BRAC-p,前者是對(duì)值函數(shù)進(jìn)行正則化,后者則是對(duì)策略進(jìn)行正則化.值得注意的是,值函數(shù)正則化雖然可以提高OOD 狀態(tài)評(píng)估的準(zhǔn)確程度,但也會(huì)在值函數(shù)更新過(guò)程中增加噪聲,使習(xí)得策略難以收斂.策略正則化雖然能有效降低分布偏移且提高習(xí)得策略的穩(wěn)定性,但會(huì)增大習(xí)得策略陷入局部最優(yōu)的概率.
上述離線強(qiáng)化學(xué)習(xí)方法都傾向于通過(guò)降低分布偏移來(lái)提高習(xí)得策略的質(zhì)量,但忽視了離線數(shù)據(jù)集質(zhì)量對(duì)離線強(qiáng)化學(xué)習(xí)性能的影響.類似的,在在線強(qiáng)化學(xué)習(xí)方法中,經(jīng)驗(yàn)的好壞對(duì)智能體的訓(xùn)練起到非常重要的作用.因此,如何讓智能體高效地選擇樣本也是提高強(qiáng)化學(xué)習(xí)算法性能的一個(gè)有效措施.Schaul 等[21]在在線強(qiáng)化學(xué)習(xí)(深度Q 網(wǎng)絡(luò))中采用了優(yōu)先經(jīng)驗(yàn)回放技術(shù),主要思路為: 通過(guò)時(shí)序差分(Temporal difference,TD)誤差估計(jì)經(jīng)驗(yàn)池(經(jīng)驗(yàn)緩存區(qū))中樣本的重要程度并賦予樣本不同的優(yōu)先級(jí),使那些在訓(xùn)練過(guò)程中對(duì)智能體更加重要的樣本更容易被選擇.Horgan 等[22]在優(yōu)先經(jīng)驗(yàn)回放技術(shù)的基礎(chǔ)上提出了分布式經(jīng)驗(yàn)池的思想,進(jìn)一步提升了強(qiáng)化學(xué)習(xí)智能體在復(fù)雜環(huán)境中的表現(xiàn).
離線經(jīng)驗(yàn)緩存的質(zhì)量主要會(huì)通過(guò)以下兩個(gè)方面來(lái)影響離線強(qiáng)化學(xué)習(xí)的訓(xùn)練: 1) 行為策略下生成的離線經(jīng)驗(yàn)緩存中會(huì)包含折扣回報(bào)低于平均水平的失誤經(jīng)驗(yàn),這些經(jīng)驗(yàn)所占比例往往不高.因此,訓(xùn)練過(guò)程中智能體容易忽視失誤經(jīng)驗(yàn),無(wú)法在對(duì)應(yīng)的場(chǎng)景下做出最優(yōu)的行為.2) 離線經(jīng)驗(yàn)緩存中的樣本根據(jù)其是否有利于策略優(yōu)化可以分為正樣本與負(fù)樣本,負(fù)樣本更多的存在于失誤經(jīng)驗(yàn)集合中,過(guò)多采樣負(fù)樣本進(jìn)行訓(xùn)練會(huì)導(dǎo)致習(xí)得策略的質(zhì)量不理想.于是,參考在線強(qiáng)化學(xué)習(xí)采用的優(yōu)先經(jīng)驗(yàn)回放技術(shù),離線強(qiáng)化學(xué)習(xí)也需要通過(guò)優(yōu)化采樣模型來(lái)改善強(qiáng)化學(xué)習(xí)智能體的訓(xùn)練效果,從而提高習(xí)得策略的質(zhì)量.為此,本文提出兩種離線優(yōu)先采樣模型: 1) 基于時(shí)序差分誤差的采樣模型,可以提高值函數(shù)的估計(jì)精度,有效地應(yīng)對(duì)可能出現(xiàn)的OOD 狀態(tài).2) 基于鞅的采樣模型,可以對(duì)經(jīng)驗(yàn)數(shù)據(jù)進(jìn)行篩選,使智能體自主地優(yōu)先學(xué)習(xí)對(duì)策略優(yōu)化有利的正樣本.進(jìn)一步,將這兩種采樣模型與BCQ 相結(jié)合,提出基于時(shí)序差分誤差的優(yōu)先BCQ (TD-PBCQ)和基于鞅的優(yōu)先BCQ (M-PBCQ).D4RL 和Torcs 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明: 1) TD-PBCQ 適用于行為策略基本收斂,且離線經(jīng)驗(yàn)緩存中包含少量失誤經(jīng)驗(yàn)的離線強(qiáng)化學(xué)習(xí)任務(wù).2) M-PBCQ 適用于離線經(jīng)驗(yàn)緩存中包含較多失誤經(jīng)驗(yàn)的離線強(qiáng)化學(xué)習(xí)任務(wù).
為提高離策略深度強(qiáng)化學(xué)習(xí)算法在離線強(qiáng)化學(xué)習(xí)場(chǎng)景下的工作效果,Fujimoto 等[15]通過(guò)構(gòu)建編碼器網(wǎng)絡(luò)和擾動(dòng)網(wǎng)絡(luò)來(lái)生成更好的策略,提出了批約束深度Q 學(xué)習(xí).在BCQ 中,編碼器網(wǎng)絡(luò)和擾動(dòng)網(wǎng)絡(luò)輸出的動(dòng)作可表示為狀態(tài)到動(dòng)作的映射μBCQ:
通過(guò)變分自編碼器V AEω和擾動(dòng)網(wǎng)絡(luò)ξ?,BCQ可以在不與環(huán)境進(jìn)行交互的限制條件下,遍歷到一個(gè)受限域區(qū)間內(nèi)的多個(gè)動(dòng)作,因此BCQ 有概率學(xué)習(xí)到比行為策略更好的策略.在值函數(shù)更新部分,BCQ 使用了兩個(gè)Q 值網(wǎng)絡(luò)Q θ1和Q θ2來(lái)降低過(guò)估計(jì)誤差,其目標(biāo)值的計(jì)算方法為:
其中,λ為在區(qū)間 (0,1) 取值的參數(shù),可以通過(guò)選擇不同的λ來(lái)調(diào)節(jié)未來(lái)時(shí)間步不確定性給值函數(shù)更新帶來(lái)的影響.當(dāng) Φ=0 且n=1 時(shí),BCQ 會(huì)退化為行為克隆算法,機(jī)械地學(xué)習(xí)所有離線經(jīng)驗(yàn)數(shù)據(jù).當(dāng)Φ趨向于動(dòng)作的上下限且n →∞時(shí),BCQ 等價(jià)于在線Q 學(xué)習(xí),會(huì)產(chǎn)生較大的外推誤差.BCQ 通過(guò)在線強(qiáng)化學(xué)習(xí)使值函數(shù)估計(jì)逼近最優(yōu)值函數(shù),通過(guò)行為克隆算法減小測(cè)試時(shí)OOD 狀態(tài)出現(xiàn)的概率.
BCQ 算法定義了外推誤差,主要用于描述強(qiáng)化學(xué)習(xí)算法由于經(jīng)驗(yàn)數(shù)據(jù)不足導(dǎo)致的估計(jì)誤差.在離線強(qiáng)化學(xué)習(xí)場(chǎng)景下應(yīng)用離策略算法,離線值函數(shù)和在線值函數(shù)Qπ之間的差異為:
其中,P π(s) 為策略π下遍歷到狀態(tài)s的概率.
假設(shè)離線經(jīng)驗(yàn)緩存為B,其中包含的樣本數(shù)為M,對(duì)應(yīng)的行為策略為πB.行為克隆(Behavior clone,BC)可以高效地學(xué)習(xí)B中狀態(tài)到動(dòng)作的映射,但B中經(jīng)驗(yàn)數(shù)據(jù)相關(guān)性較高,BC 的訓(xùn)練很容易過(guò)擬合,因此訓(xùn)練得到的策略魯棒性很差.與行為克隆算法相比,離線強(qiáng)化學(xué)習(xí)算法的樣本效率雖然不高,但會(huì)根據(jù)經(jīng)驗(yàn)數(shù)據(jù)學(xué)習(xí)狀態(tài)值等指標(biāo)來(lái)評(píng)價(jià)狀態(tài)和動(dòng)作的好壞.這些指標(biāo)可以幫助智能體在訪問(wèn)OOD狀態(tài)時(shí)做出合理的動(dòng)作,因此離線深度強(qiáng)化學(xué)習(xí)習(xí)得策略的魯棒性更高.但是,離線深度強(qiáng)化學(xué)習(xí)仍面臨著這樣一個(gè)問(wèn)題: 經(jīng)驗(yàn)數(shù)據(jù)分布不理想會(huì)導(dǎo)致學(xué)習(xí)過(guò)程中產(chǎn)生累積誤差.
假設(shè)離線數(shù)據(jù)集中存在兩類狀態(tài)s+和s-,其中狀態(tài)s-對(duì)應(yīng)的經(jīng)驗(yàn)即為失誤經(jīng)驗(yàn).離線經(jīng)驗(yàn)緩存B中s+被采樣的概率越大,意味著s+有更高的概率被采樣,由s+計(jì)算得到的損失會(huì)主導(dǎo)模型的訓(xùn)練,離線強(qiáng)化學(xué)習(xí)算法對(duì)s+的狀態(tài)值的估計(jì)越準(zhǔn)確.如果s-被采樣的概率很小,由失誤經(jīng)驗(yàn)計(jì)算得到的梯度很容易被忽略,進(jìn)而導(dǎo)致智能體無(wú)法在狀態(tài)s-做出正確的行為.因此,增強(qiáng)對(duì)狀態(tài)s-的學(xué)習(xí)有利于逼近真實(shí)的策略評(píng)價(jià)指標(biāo).
對(duì)于優(yōu)先經(jīng)驗(yàn)回放(Prioritized experience replay,PER)來(lái)說(shuō),樣本的采樣概率定義為[21]:
其中,υ為對(duì)應(yīng)的經(jīng)驗(yàn)數(shù)據(jù),p(υ) 為經(jīng)驗(yàn)數(shù)據(jù)υ對(duì)應(yīng)的優(yōu)先級(jí).o為指數(shù)參數(shù),用于決定優(yōu)先級(jí)使用的程度.如果取o=0,則采樣模型在B中均勻采樣.我們考慮將優(yōu)先經(jīng)驗(yàn)回放引入離線強(qiáng)化學(xué)習(xí)算法中,并命名為基于時(shí)序差分誤差的采樣模型.
在基于時(shí)序差分誤差的采樣模型中,p(υ)=|δυ|+σ,σ為優(yōu)先級(jí)修正系數(shù),用來(lái)避免優(yōu)先級(jí)為0 的經(jīng)驗(yàn)被采樣的概率為0.如果使用一步更新的Q 學(xué)習(xí)算法,則B中經(jīng)驗(yàn)數(shù)據(jù)υ對(duì)應(yīng)的TD 誤差δυ為:
由于離線經(jīng)驗(yàn)緩存的數(shù)據(jù)分布是固定的,離線經(jīng)驗(yàn)優(yōu)先級(jí)的計(jì)算比在線場(chǎng)景下的確定性更強(qiáng).離線訓(xùn)練中,PER 會(huì)使智能體更多地關(guān)注失誤經(jīng)驗(yàn),減少信息的浪費(fèi).然而,如果失誤經(jīng)驗(yàn)中包含較多的負(fù)樣本,PER 反而會(huì)增大負(fù)樣本的采樣概率,阻礙策略的優(yōu)化.
鞅論是現(xiàn)代概率論的一個(gè)重要內(nèi)容,也是隨機(jī)過(guò)程和數(shù)理統(tǒng)計(jì)研究的重要工具.實(shí)際上,在強(qiáng)化學(xué)習(xí)算法的發(fā)展過(guò)程中,鞅論和強(qiáng)化學(xué)習(xí)之間一直存在著很深的聯(lián)系,很多鞅論的方法被用于理論證明強(qiáng)化學(xué)習(xí)算法的有效性.例如,Mandl[23]找到了有限控制Markov 過(guò)程中存在的鞅過(guò)程.Hernández-Lerma 和Ozak[24]研究了離散Markov 過(guò)程,并給出了策略優(yōu)化的等價(jià)命題,其中研究的很多值迭代過(guò)程與鞅有關(guān).Even-Dar 和Mansour[25]使用Azuma 不等式來(lái)約束鞅的變化偏差,估計(jì)值函數(shù)在某更新步完成優(yōu)化的概率,進(jìn)而估計(jì)策略優(yōu)化所需的時(shí)間.Hu 等[26]使用杜布分解來(lái)簡(jiǎn)化下鞅過(guò)程,使得復(fù)雜系統(tǒng)更容易被智能體學(xué)習(xí).Chow 等[27]利用上鞅收斂性來(lái)確保Lyapunov 函數(shù)的收斂,并用于求解約束MDP 問(wèn)題.為此,本文嘗試通過(guò)分析采樣數(shù)據(jù)對(duì)應(yīng)的軌跡是否為下鞅來(lái)推斷經(jīng)驗(yàn)數(shù)據(jù)是否有利于策略優(yōu)化.
進(jìn)一步,可以得出
由此可以得出: 如果 E [r(st+1)|st]=r(st),則有 E [V(st+1)|st]=V(st).
通過(guò)定理1 可以看出: 如果回報(bào)函數(shù)為鞅,即E[r(st+1)|st]=r(st),說(shuō)明經(jīng)驗(yàn)對(duì)應(yīng)的路徑和值函數(shù)更新過(guò)程都為鞅.由停時(shí)定理和鞅的一致收斂性可知,對(duì)任意停時(shí)T<∞,總有 E [VT]=E[V0].也就是說(shuō),此時(shí)無(wú)論訓(xùn)練多少步,值函數(shù)的期望都不會(huì)發(fā)生變化.當(dāng)且僅當(dāng) E [V(st+1)|st]>V(st) 時(shí),值函數(shù)更新才滿足強(qiáng)化學(xué)習(xí)的策略優(yōu)化條件.于是,可以通過(guò)估計(jì) E [V(st+1)|st] 與V(st) 之間的大小差異來(lái)評(píng)估經(jīng)驗(yàn)數(shù)據(jù)對(duì)策略優(yōu)化的有利程度.
為了更好地解釋鞅與策略優(yōu)化之間的關(guān)系,以格子世界環(huán)境為例加以闡述.如圖1(a)所示環(huán)境示意圖,智能體從O出發(fā),到達(dá)目標(biāo)G終止一個(gè)情節(jié).如圖1(b)所示最優(yōu)值函數(shù)熱圖,由于到達(dá)G點(diǎn)情節(jié)被終止,因此G點(diǎn)的狀態(tài)值并不會(huì)迭代更新,導(dǎo)致其數(shù)值較小.本次實(shí)驗(yàn)使用基于線性函數(shù)逼近的Q 學(xué)習(xí)在迷宮中訓(xùn)練300 個(gè)迭代步,每隔50 次迭代繪制一張值函數(shù)熱圖.共進(jìn)行了兩個(gè)批次的訓(xùn)練,值函數(shù)迭代更新過(guò)程如圖2 所示.圖2 中,相比于訓(xùn)練批次2,訓(xùn)練批次1 的值函數(shù)明顯更趨近于最優(yōu)值函數(shù).于是,可以得出如下觀點(diǎn):
圖1 格子世界實(shí)驗(yàn)圖 Fig.1 Experimental diagram of grid-world
圖2 值函數(shù)更新熱圖Fig.2 Heatmap of value function updating
1) 圖2 中每一個(gè)像素點(diǎn)s的亮度用于描述對(duì)應(yīng)狀態(tài)值V(s) 的大小.如果熱圖中像素點(diǎn)s′比s的亮度高,則說(shuō)明V(s′)>V(s).
2) 值函數(shù)的更新會(huì)按照被訪問(wèn)的先后順序s →s′,從亮點(diǎn)逐級(jí)反向傳播,即有效的值函數(shù)更新從滿足 E [V(s′)|s]>V(s) 的狀態(tài)s開始.如圖2 所示,批次1 中滿足 E [V(s′)|s]>V(s) 的狀態(tài)數(shù)量明顯高于批次2 中的狀態(tài)數(shù)量.因此,經(jīng)驗(yàn)緩存中,滿足 E [V(s′)|s]>V(s) 的經(jīng)驗(yàn)數(shù)據(jù)占比越高,越有利于值函數(shù)的學(xué)習(xí).
3) 如圖2(b)所示,前150 次迭代沒有亮點(diǎn)出現(xiàn),值函數(shù)熱圖維持不變.因此,如果狀態(tài)值滿足E[V(s′)|s]≤V(s),值函數(shù)優(yōu)化效率很低.150 次迭代后,批次2 的熱圖中雖然出現(xiàn)了亮點(diǎn),但亮度十分有限.說(shuō)明訓(xùn)練批次2 的經(jīng)驗(yàn)緩存中,滿足E[V(s′)|s]≤V(s)的經(jīng)驗(yàn)數(shù)據(jù)占比較高,從而會(huì)產(chǎn)生累積誤差,不利于值函數(shù)的學(xué)習(xí).
綜上所述,我們認(rèn)為經(jīng)驗(yàn)緩存中包含越多符合E[V(s′)|s]>V(s)的經(jīng)驗(yàn)數(shù)據(jù)越有利于值函數(shù)和策略的優(yōu)化,這一觀點(diǎn)在離線強(qiáng)化學(xué)習(xí)場(chǎng)景中同樣適用.
由于負(fù)樣本會(huì)一直存在于離線經(jīng)驗(yàn)緩存B中,其對(duì)習(xí)得策略的不良影響會(huì)隨著重復(fù)采樣而增強(qiáng).于是,為減少對(duì)負(fù)樣本的采樣頻率,提出基于鞅的采樣模型.設(shè)策略π下狀態(tài)-動(dòng)作對(duì) (s,a) 被采樣的概率為由于強(qiáng)化學(xué)習(xí)會(huì)貪心地選擇動(dòng)作,因此狀態(tài)s下選擇不同動(dòng)作的概率差異一般會(huì)較大,可以得到推論1.
推論 1.在離線強(qiáng)化學(xué)習(xí)場(chǎng)景下,均勻采樣學(xué)習(xí)得到的策略有概率不為離線經(jīng)驗(yàn)中的最優(yōu)策略.
推論1 說(shuō)明: 離線經(jīng)驗(yàn)緩存中如果折扣回報(bào)低的經(jīng)驗(yàn)數(shù)據(jù)占比很高,則離線強(qiáng)化學(xué)習(xí)算法就有高概率陷入局部最優(yōu).
根據(jù)第3.1 節(jié)的描述可知,如果 (s,a,r,s′) 對(duì)應(yīng)的軌跡為下鞅,則認(rèn)為 (s,a,r,s′) 更有利于策略的優(yōu)化.如果 (s,a,r,s′) 對(duì)應(yīng)的軌跡為鞅或上鞅,則頻繁地采樣 (s,a,r,s′) 以更新網(wǎng)絡(luò)參數(shù)反而會(huì)出現(xiàn)如圖2(b)一樣的誤差累積狀況,從而阻礙值函數(shù)的優(yōu)化.為此,可以考慮基于 E [V(st+1)|st] 與V(st)之間的數(shù)值差異來(lái)設(shè)計(jì)一種樣本評(píng)估方法,得到下述推論.
推論 2.經(jīng)驗(yàn)數(shù)據(jù)有利于值函數(shù)優(yōu)化的程度與鞅差 E [V(s′)|s]-V(s) 正相關(guān).
證明.設(shè)在第k個(gè)迭代步,值函數(shù)優(yōu)化的幅度為 ΔVk:=Vk+1(s)-Vk(s),使用期望狀態(tài)值來(lái)計(jì)算目標(biāo)值,則有:
由于同一狀態(tài)下即時(shí)回報(bào)r(s) 是一個(gè)常數(shù),且γ大于 0,因此得到:
如果 ΔVk很大,則說(shuō)明當(dāng)前的狀態(tài)值過(guò)于低估了數(shù)據(jù) (s,a,r,s′),優(yōu)先學(xué)習(xí)這個(gè)數(shù)據(jù)可以讓值函數(shù)找到優(yōu)化的方向,并可在此基礎(chǔ)上更準(zhǔn)確地判斷其他數(shù)據(jù)的 ΔV,使得整個(gè)策略向著一個(gè)好的方向發(fā)展.反之,如果 ΔVk很小,則說(shuō)明數(shù)據(jù)(s,a,r,s′)所在的過(guò)程更可能是上鞅,此時(shí)狀態(tài)值會(huì)隨更新迭代變小或維持原樣,不利于策略的優(yōu)化.
推論2 表明在值函數(shù)的優(yōu)化過(guò)程中,應(yīng)當(dāng)著重學(xué)習(xí) E [V(s′)|s]-V(s) 數(shù)值較高的數(shù)據(jù) (s,a,r,s′),并降低對(duì)數(shù)值過(guò)低數(shù)據(jù)的采樣頻率.在實(shí)際訓(xùn)練過(guò)程中,鑒于增加額外的網(wǎng)絡(luò)用于學(xué)習(xí) E [V(s′)|s] 和V(s)會(huì)比較耗時(shí),此處考慮使用一種近似的簡(jiǎn)便計(jì)算方法來(lái)求取基于鞅的優(yōu)先級(jí).
推論 3.對(duì)于數(shù)據(jù)基于鞅的優(yōu)先級(jí)為:
證明.對(duì)于離線強(qiáng)化學(xué)習(xí)來(lái)說(shuō),其狀態(tài)值迭代公式為:
對(duì)應(yīng)地,有利于值函數(shù)優(yōu)化的程度可以表征為:
其中,β=1/(1-γ) 為大于0、小于1 的常數(shù),離線經(jīng)驗(yàn)數(shù)據(jù)對(duì)訓(xùn)練的有利程度與EB[V(s′)]/βr(s,a)的大小正相關(guān).當(dāng)值函數(shù)估計(jì)存在誤差時(shí),EB[V(s′)]/β-r(s,a)的值會(huì)很小,使得優(yōu)先級(jí)差異不大,難以區(qū)分.可以進(jìn)一步推導(dǎo)出:
因此,推論3 成立.
綜上所述,基于鞅的采樣模型使用基于鞅的優(yōu)先級(jí)來(lái)決定數(shù)據(jù)υ被采樣的概率:
其中,σ為優(yōu)先級(jí)修正系數(shù),用于避免樣本的采樣概率完全為0.
將基于時(shí)序差分誤差的采樣模型和基于鞅的采樣模型分別與BCQ 相結(jié)合,得到兩種離線強(qiáng)化學(xué)習(xí)方法: TD-PBCQ 和M-PBCQ.為表述方便,算法1 給出BCQ 的偽代碼.
算法 1.BCQ
TD-PBCQ 通過(guò)變分自編碼器生成n個(gè)動(dòng)作,并根據(jù)這些動(dòng)作進(jìn)行目標(biāo)值的計(jì)算和網(wǎng)絡(luò)的優(yōu)化.考慮到目標(biāo)值中會(huì)包含一定的擾動(dòng),優(yōu)先級(jí)δ改寫為:
將BCQ 偽代碼中的步驟1)、2)、3)替換為算法2 中的步驟,即可得到TD-PBCQ 的偽代碼.
算法 2.TD-PBCQ
由式(12)可以看出,基于鞅的采樣模型需要計(jì)算 E [V(s′)].由于擾動(dòng)網(wǎng)絡(luò)會(huì)生成置信區(qū)間內(nèi)的n個(gè)動(dòng)作,如果使用貪心策略,則可以認(rèn)為E[V(s′)]=因此,將這些狀態(tài)-動(dòng)作對(duì)應(yīng)的Q值取平均作為期望狀態(tài)值E[V(s′)],使得對(duì)基于鞅的優(yōu)先級(jí)評(píng)估更加保守.為此,基于鞅的優(yōu)先級(jí)可改寫為:
將BCQ 偽代碼中的步驟1)、2)、3)替換為算法3 中的步驟,即可得到M-PBCQ 的偽代碼.
算法 3.M-PBCQ
1) 計(jì)算重要性采樣權(quán)重: M-PBCQ 不計(jì)算重要性采樣權(quán)重
2) 更新優(yōu)先級(jí): 根據(jù)式(18)計(jì)算優(yōu)先級(jí)uj,根據(jù)式(16)更新經(jīng)驗(yàn)數(shù)據(jù)的優(yōu)先級(jí)
3) 累積Q 值網(wǎng)絡(luò)參數(shù)變化 Δθ和擾動(dòng)網(wǎng)絡(luò)參數(shù)變化 Δ?:
累積Q 值網(wǎng)絡(luò)參數(shù)變化
累積擾動(dòng)網(wǎng)絡(luò)參數(shù)變化
首先,將TD-PBCQ、M-PBCQ 和BCQ 在D4RL提供的公用離線數(shù)據(jù)集上,針對(duì)Ant、HalfCheetah、Hopper、Walker2d 等任務(wù)在中等(medium)和專家(expert)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn).然后,將TD-PBCQ、M-PBCQ 和BCQ 在Torcs 任務(wù)的離線經(jīng)驗(yàn)緩存上進(jìn)行實(shí)驗(yàn).實(shí)驗(yàn)中,具體的參數(shù)設(shè)置如表1 所示.
表1 參數(shù)設(shè)置Table 1 Parameter settings
當(dāng)離線數(shù)據(jù)集中的經(jīng)驗(yàn)數(shù)據(jù)為medium 等級(jí)時(shí),TD-PBCQ、M-PBCQ 和BCQ 在D4RL 任務(wù)上取得的回報(bào)曲線如圖3 所示,其中實(shí)線為平均回報(bào)曲線,陰影區(qū)域?yàn)槠骄?jiǎng)勵(lì)的標(biāo)準(zhǔn)差.圖4 給出了medium 離線數(shù)據(jù)集中各路徑所對(duì)應(yīng)總回報(bào)的統(tǒng)計(jì)直方圖.由圖3、4 可以得出如下結(jié)論:
圖3 平均回報(bào)曲線對(duì)比(medium 經(jīng)驗(yàn)數(shù)據(jù))Fig.3 Comparison of average reward curves(medium experience data)
圖4 回報(bào)的統(tǒng)計(jì)直方圖(medium 經(jīng)驗(yàn)數(shù)據(jù))Fig.4 Statistical histogram of reward(medium experience data)
1) 在Ant、HalfCheetah 和Walker2d 中TDPBCQ 取得了最高的回報(bào).這是由于: Ant、HalfCheetah 和Walker2d 任務(wù)中medium 離線經(jīng)驗(yàn)數(shù)據(jù)的回報(bào)統(tǒng)計(jì)直方圖是右偏的,且最高峰在最右側(cè).此種情況下,TD-PBCQ 通過(guò)降低時(shí)序差分誤差,得到了更準(zhǔn)確的值函數(shù);BCQ 和M-PBCQ 均是更傾向于最優(yōu)路徑的學(xué)習(xí),值函數(shù)估計(jì)誤差的累積使得其最終性能不如TD-PBCQ.也就是說(shuō),如果策略沒有收斂,且離線經(jīng)驗(yàn)都分布在緩存中最優(yōu)路徑周圍,TD-PBCQ 可以取得更好的實(shí)驗(yàn)效果.
2) 在Hopper 任務(wù)中,M-PBCQ 的平均回報(bào)收斂到1 600 以上,而BCQ 和TD-PBCQ 的平均回報(bào)均在1 600 以下.由圖4(c)可以看出,與其他3 個(gè)任務(wù)不同,Hopper 任務(wù)中medium 離線經(jīng)驗(yàn)緩存中的路徑總回報(bào)大都分布在1 100~1 600 的中等水平區(qū)間內(nèi).因此,Hopper 任務(wù)中medium 的離線經(jīng)驗(yàn)緩存中有較多負(fù)樣本,導(dǎo)致BCQ 和TD-PBCQ陷入局部最優(yōu).但是,M-PBCQ 能夠減弱負(fù)樣本對(duì)策略優(yōu)化的負(fù)面影響,使得習(xí)得策略明顯優(yōu)于離線經(jīng)驗(yàn)緩存中的平均水平.
3) 在所有4 個(gè)測(cè)試任務(wù)上,TD-PBCQ 和MPBCQ 的平均回報(bào)曲線都要高于BCQ.這是由于:medium 策略并不是最優(yōu)策略,如果使用均勻采樣,正、負(fù)樣本有相同的概率被選擇,因此BCQ 的性能被抑制.也就是說(shuō),改變采樣模型可以有效降低離線強(qiáng)化學(xué)習(xí)中的誤差累積,提高算法的學(xué)習(xí)性能.
expert 策略等價(jià)于最優(yōu)策略,收集得到的經(jīng)驗(yàn)數(shù)據(jù)集也基本上都分布在最優(yōu)路徑的周圍.當(dāng)離線數(shù)據(jù)集中的經(jīng)驗(yàn)數(shù)據(jù)為expert 等級(jí)時(shí),TD-PBCQ、M-PBCQ 和BCQ 在D4RL 任務(wù)上取得的回報(bào)曲線如圖5 所示.圖6 給出了expert 離線數(shù)據(jù)集中各路徑所對(duì)應(yīng)總回報(bào)的統(tǒng)計(jì)直方圖.由圖5、6 可以看出:
圖5 平均回報(bào)曲線對(duì)比(expert 經(jīng)驗(yàn)數(shù)據(jù))Fig.5 Comparison of average reward curves(expert experience data)
圖6 回報(bào)的統(tǒng)計(jì)直方圖(expert 經(jīng)驗(yàn)數(shù)據(jù))Fig.6 Statistical histogram of reward(expert experience data)
1) TD-PBCQ 在Ant 和Hopper 任務(wù)上取得了最高的回報(bào).這是由于: Ant 和Hopper 任務(wù)中expert 離線經(jīng)驗(yàn)數(shù)據(jù)的回報(bào)統(tǒng)計(jì)直方圖是右偏的且最高的峰在最右側(cè).另外,這兩個(gè)任務(wù)中的expert行為策略并沒有完全收斂,都有一定概率訪問(wèn)遠(yuǎn)離主要路徑的經(jīng)驗(yàn)數(shù)據(jù).在此類離線強(qiáng)化學(xué)習(xí)任務(wù)中,TD-PBCQ 有效減小了值估計(jì)誤差,因此取得了最好的實(shí)驗(yàn)效果.
2) 如果策略完全收斂到最優(yōu)策略,TD-PBCQ的訓(xùn)練會(huì)過(guò)擬合,影響實(shí)驗(yàn)效果.從圖6(b)可以看出,HalfCheetah 任務(wù)中回報(bào)統(tǒng)計(jì)直方圖左側(cè)的數(shù)據(jù)非常少.TD-PBCQ 由于過(guò)度采樣左側(cè)的數(shù)據(jù)導(dǎo)致值函數(shù)的訓(xùn)練過(guò)擬合,算法性能受到抑制,最終表現(xiàn)不如BCQ.
3) 從圖6(d)可以看出,Walker2d 任務(wù)中的離線經(jīng)驗(yàn)數(shù)據(jù)基本都分布在最優(yōu)路徑上.BCQ、TDPBCQ 和M-PBCQ 的平均回報(bào)曲線較為相似,最后都取得了超過(guò)4 500 的平均回報(bào).這是因?yàn)樵诮?jīng)過(guò)多次迭代后,BCQ 和TD-PBCQ 的采樣模型均為均勻采樣,抑制了回報(bào)的上升趨勢(shì).然而,M-PBCQ 可以一直降低對(duì)負(fù)樣本的采樣頻率,因而以較小的優(yōu)勢(shì)強(qiáng)于BCQ 和TD-PBCQ.
Torcs 是一款開源3D 賽車模擬游戲,其賽道較長(zhǎng)、路況復(fù)雜且沒有公開的經(jīng)驗(yàn)數(shù)據(jù)集.在實(shí)驗(yàn)過(guò)程中,使用中等行為策略收集了平均回報(bào)為7 820的離線數(shù)據(jù).表2 和圖7 給出了BCQ、TD-PBCQ和M-PBCQ 在Torcs 任務(wù)上的實(shí)驗(yàn)結(jié)果,可以得出:
表2 Torcs 任務(wù)上平均回報(bào)對(duì)比Table 2 Comparison of average reward on Torcs task
圖7 平均回報(bào)曲線對(duì)比(Torcs)Fig.7 Comparison of average reward curves (Torcs)
1) 如圖7 所示,50 000 步之前,TD-PBCQ 學(xué)習(xí)到了優(yōu)于BCQ 的策略.然而,TD-PBCQ 習(xí)得策略的穩(wěn)定性并不高.在93 000 個(gè)訓(xùn)練步后,隨著TD誤差的降低,基于TD 誤差的采樣模型會(huì)退化為均勻采樣.因此,負(fù)樣本對(duì)算法訓(xùn)練的不良影響逐漸變強(qiáng),使得習(xí)得策略發(fā)生了退化.
2) 相比于TD-PBCQ 和BCQ,M-PBCQ 的習(xí)得策略有著明顯的優(yōu)勢(shì),這是因?yàn)殡x線優(yōu)先采樣模型可以降低負(fù)樣本對(duì)訓(xùn)練的影響,使智能體學(xué)習(xí)到更好的策略.另一方面,與基于TD 誤差的采樣模型不同,基于鞅的采樣模型不會(huì)退化為均勻采樣,一些不利于策略優(yōu)化的經(jīng)驗(yàn)數(shù)據(jù)在整個(gè)訓(xùn)練過(guò)程中被采樣的頻率都會(huì)受到限制,因此M-PBCQ 的穩(wěn)定性更好.
強(qiáng)化學(xué)習(xí)通過(guò)智能體與環(huán)境在線交互來(lái)學(xué)習(xí)最優(yōu)策略,近年來(lái)已成為求解復(fù)雜環(huán)境下感知決策問(wèn)題的重要手段.然而,在線收集數(shù)據(jù)的方式可能會(huì)引發(fā)安全、時(shí)間或成本等問(wèn)題,極大限制了強(qiáng)化學(xué)習(xí)在實(shí)際中的應(yīng)用.幸運(yùn)的是,離線強(qiáng)化學(xué)習(xí)能夠僅從歷史經(jīng)驗(yàn)數(shù)據(jù)中學(xué)習(xí)策略,而無(wú)需與環(huán)境產(chǎn)生交互,這種數(shù)據(jù)驅(qū)動(dòng)的方式為實(shí)現(xiàn)通用人工智能提供了新契機(jī).然而,離線數(shù)據(jù)集的質(zhì)量將影響算法的學(xué)習(xí)性能,想要從離線數(shù)據(jù)集中學(xué)到一個(gè)好的策略并非易事.為此,本文圍繞如何從離線數(shù)據(jù)集中高效地選擇有價(jià)值的樣本展開研究,利用時(shí)序差分誤差和鞅來(lái)構(gòu)造樣本優(yōu)先級(jí),提出兩種離線優(yōu)先采樣模型: 基于時(shí)序差分誤差的采樣模型和基于鞅的采樣模型.在智能體訓(xùn)練過(guò)程中,這兩種采樣模型可以有針對(duì)性地選擇經(jīng)驗(yàn)數(shù)據(jù),引導(dǎo)值函數(shù)估計(jì)和策略優(yōu)化.進(jìn)一步,將所提兩種采樣模型與BCQ 相結(jié)合,提出基于時(shí)序差分誤差的優(yōu)先BCQ 和基于鞅的優(yōu)先BCQ.需要指出的是,所提離線優(yōu)先采樣模型具有通用性,可以方便地與其他離線強(qiáng)化學(xué)習(xí)方法相結(jié)合.