唐麗麗,朱海軍,朱斐
(1.蘇州農(nóng)業(yè)職業(yè)技術(shù)學(xué)院,江蘇蘇州215008;2.蘇州大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,江蘇蘇州215006)
在傳統(tǒng)的監(jiān)督學(xué)習(xí)和非監(jiān)督學(xué)習(xí)方法中,往往需要訓(xùn)練集:預(yù)先給定樣本,給出其標(biāo)簽,然后通過(guò)對(duì)樣本的特征選取、降維、擬合等操作,建立模型,進(jìn)而進(jìn)行測(cè)試評(píng)估.然而,在很多序列決策問(wèn)題和控制問(wèn)題中,很難預(yù)先獲得上述的樣本,例如,在機(jī)器人控制問(wèn)題中,由于無(wú)法預(yù)先了解機(jī)器的環(huán)境,所以在機(jī)器人的移動(dòng)過(guò)程中,也很難預(yù)知機(jī)器人的移動(dòng)方向,而是需要根據(jù)實(shí)際環(huán)境,自動(dòng)找到向哪個(gè)方向前進(jìn);在人機(jī)圍棋對(duì)弈中,如果把每走一步看成是一個(gè)決策的過(guò)程,那么如果機(jī)器能根據(jù)當(dāng)前的盤面情況,向后多考慮幾步,則會(huì)得到更好的決策.而在這些應(yīng)用中,都有一個(gè)特點(diǎn):決策智能體根據(jù)實(shí)際環(huán)境和狀態(tài)決定最優(yōu)決策.
強(qiáng)化學(xué)習(xí)[1]通過(guò)不斷與未知環(huán)境進(jìn)行交互,采取動(dòng)作,改變所處狀態(tài),尋求能得到最大長(zhǎng)期獎(jiǎng)賞的策略.由于強(qiáng)化學(xué)習(xí)具有能夠在無(wú)標(biāo)簽數(shù)據(jù)上實(shí)現(xiàn)自主在線學(xué)習(xí)、獲得最優(yōu)決策的優(yōu)點(diǎn),近年來(lái),強(qiáng)化學(xué)習(xí)方法受到大量的關(guān)注,并在很多領(lǐng)域,如自動(dòng)控制、機(jī)器人控制、網(wǎng)絡(luò)路由、市場(chǎng)決策、網(wǎng)頁(yè)索引等,獲得了成功的應(yīng)用.然而,傳統(tǒng)的強(qiáng)化學(xué)習(xí)在解決大規(guī)??臻g問(wèn)題時(shí),受到“維數(shù)災(zāi)難”的限制,影響效果,甚至算法有時(shí)會(huì)失效[2].包括核方法在內(nèi)的很多函數(shù)逼近方法能有效地解決“維數(shù)災(zāi)難”問(wèn)題[3?5].由于核方法無(wú)需事先確定逼近器參數(shù),有更大的自由度,因此在實(shí)時(shí)控制問(wèn)題中具有很好的非線性逼近效果.然而隨著強(qiáng)化學(xué)習(xí)方法學(xué)習(xí)過(guò)程中數(shù)據(jù)樣本的不斷增大,函數(shù)逼近器的維度也隨之增長(zhǎng),需要大量計(jì)算時(shí)間.稀疏化方法是解決這一問(wèn)題的常見方法,它根據(jù)一定規(guī)則從數(shù)據(jù)樣本集挑選合適的樣本,進(jìn)而在計(jì)算時(shí)間與計(jì)算精度之間取得平衡.常見的稀疏化方法包括:近似線性依賴[6](approximately linear dependence,ALD)、核主成份分析[7](kernel principal component analysis,KPCA)和新穎規(guī)則[8](the novelty criterion,NC).
根據(jù)策略的表示方法不同,強(qiáng)化學(xué)習(xí)可以分為值函數(shù)方法與策略梯度方法.值函數(shù)方法通過(guò)函數(shù)近似評(píng)估狀態(tài)的值函數(shù),然后通過(guò)學(xué)到的值函數(shù)去間接表示策略.常用的值函數(shù)方法包括蒙特卡羅方法(Monte Carlo method)與時(shí)間差分方法(time diあerence,TD)等.其中,Sijen等人提出了現(xiàn)代強(qiáng)化學(xué)習(xí)方法的核心算法——真在線時(shí)間差分[9](true online time diあerence,TOTD(λ)),效果要好于原先的TD(λ)算法.值函數(shù)方法通常傾向于尋找確定性策略,很難處理連續(xù)動(dòng)作空間問(wèn)題.值函數(shù)方法通過(guò)離散化動(dòng)作來(lái)處理連續(xù)動(dòng)作空間問(wèn)題,如連續(xù)動(dòng)作Q學(xué)習(xí)算法[10](continuous action Q-learning,CAQ),其效果不如策略梯度方法.策略梯度方法通過(guò)一組與值函數(shù)無(wú)關(guān)的策略參數(shù)直接表示策略,其參數(shù)沿著獎(jiǎng)賞函數(shù)最大化的梯度方向更新[11].章鵬等人對(duì)動(dòng)作的上下界進(jìn)行加權(quán)求最優(yōu),使用線性函數(shù)逼近器近似求解動(dòng)作,加快算法的求解速度和穩(wěn)定性[12];一些強(qiáng)化學(xué)習(xí)的概念和技術(shù),如增量式方法、資格跡等,均被應(yīng)用于策略梯度方法;同時(shí),還有不少研究者從優(yōu)化梯度求解的角度出發(fā),進(jìn)一步改進(jìn)算法,如將更為有效的自然梯度方法和最小二乘法結(jié)合[13,14],提出了自然梯度行動(dòng)者-評(píng)論家算法(Natural actor-critic,NAC)[15],也有不少應(yīng)用,如季策等人使用自然梯度解決非平穩(wěn)環(huán)境中的瞬時(shí)盲源分離等[16].
本文針對(duì)連續(xù)狀態(tài)動(dòng)作空間問(wèn)題,在真在線時(shí)間差分算法的向前觀點(diǎn)與新型資格跡的基礎(chǔ)上,改進(jìn)了帶資格跡的增量式行動(dòng)者-評(píng)論家算法,提出了基于核的在線策略梯度算法(True Online Kernel-based Policy Gradient Algorithm,TOKAC).TOKAC算法在評(píng)論家部分采用真在線時(shí)間差分算法來(lái)對(duì)值函數(shù)實(shí)現(xiàn)評(píng)估,在行動(dòng)者部分根據(jù)改進(jìn)的方法完成更新.
在強(qiáng)化學(xué)習(xí)算法的框架中,序列決策問(wèn)題通常采用馬爾科夫決策過(guò)程進(jìn)行建模.馬爾科夫決策過(guò)程模型可以描述為四元組<X,U,P,R>,其中X表示狀態(tài)空間,U表示動(dòng)作空間,P表示狀態(tài)遷移模型,R表示獎(jiǎng)賞模型.在t時(shí)刻,智能體根據(jù)當(dāng)前狀態(tài)xt以及策略h(·|xt)選擇并執(zhí)行動(dòng)作u;環(huán)境根據(jù)遷移模型P以及獎(jiǎng)賞模型R反饋給出下一個(gè)狀態(tài)xt+1和立即獎(jiǎng)賞rt+1;智能體根據(jù)狀態(tài)xt+1以及策略h(·|xt+1)確定下一步交互動(dòng)作;不斷地重復(fù)直到情節(jié)結(jié)束.
強(qiáng)化學(xué)習(xí)算法的最終目標(biāo)是學(xué)習(xí)最優(yōu)策略h?,算法學(xué)習(xí)的過(guò)程中通過(guò)累計(jì)獎(jiǎng)賞Rh來(lái)比較策略h的優(yōu)劣
其中,Eh表示關(guān)于策略h的累計(jì)獎(jiǎng)賞期望,折扣因子0<γ≤1,T表示情節(jié)的最大步數(shù).
強(qiáng)化學(xué)習(xí)方法使用狀態(tài)值函數(shù)對(duì)狀態(tài)進(jìn)行評(píng)估,使用狀態(tài)動(dòng)作對(duì)值函數(shù)對(duì)策略進(jìn)行評(píng)估.在求解狀態(tài)x的最優(yōu)動(dòng)作的過(guò)程中,需要計(jì)算狀態(tài)值函數(shù)Vh(x)以及狀態(tài)動(dòng)作對(duì)值函數(shù)Qh(x,u)
在使用強(qiáng)化學(xué)習(xí)算法解決大規(guī)模問(wèn)題時(shí),性能會(huì)有較大下降.基于核方法的強(qiáng)化學(xué)習(xí)算法是解決這類問(wèn)題的一種有效方法.核方法利用核函數(shù)通過(guò)非線性映射實(shí)現(xiàn)函數(shù)逼近.核函數(shù)k(xi,xj)表示非線性映射間的內(nèi)積〈?(xi),?(xj)〉.確定了核函數(shù)k(·,·)就可以處理非線性函數(shù)逼近.
隨著數(shù)據(jù)樣本的不斷擴(kuò)大,需要對(duì)數(shù)據(jù)進(jìn)行篩選,然而由于隨機(jī)篩選可能會(huì)導(dǎo)致函數(shù)逼近的精度下降,因此需要對(duì)數(shù)據(jù)進(jìn)行稀疏化處理.對(duì)于某樣本數(shù)據(jù)集合{x1,x2,...,xn},在t時(shí)刻,近似線性依賴方法構(gòu)建數(shù)據(jù)字典Dt={d1,d2,···,dmt};在處理樣本st+1時(shí),需要計(jì)算ζt+1
運(yùn)用k(xi,xj)=〈?(xi),?(xj)〉計(jì)算ζt+1,如下
其中,矩陣Kt=[k(di,dj)](1≤i,j≤mt),核向量kt(xt+1)=[k(d1,xt+1),k(d1,xt+1),···,k(d1,xt+1)]?,參數(shù)向量c=[c1,c2,···,cmt]?.如果ζt+1大于閾值μ,則將樣本xt+1加入數(shù)據(jù)字典.
相應(yīng)的,狀態(tài)值函數(shù)Vh(x)的近似表示為
策略梯度方法通過(guò)策略參數(shù)θ直接表示策略,并沿著獎(jiǎng)賞函數(shù)Jh最大化的方向更新策略參數(shù).策略參數(shù)的更新公式如下
式(1)可以表示為
累計(jì)獎(jiǎng)賞Rh關(guān)于策略參數(shù)θ的梯度如下
對(duì)于任意關(guān)于狀態(tài)x的函數(shù)b(x)都滿足公式(10)
所以,累計(jì)獎(jiǎng)賞函數(shù)R對(duì)策略參數(shù)θ的導(dǎo)數(shù)即公式(9)可以改寫為
其中,
從公式(7)與(11)可以看出,對(duì)策略參數(shù)的更新最重要的是Q(x,u)?b(x)值的計(jì)算.采用w?Ψs,a逼近Q(x,u)?b(x)的值,其均方誤差如下
對(duì)于任意狀態(tài)x∈X,誤差εh,x為
求解均方誤差εh,x對(duì)函數(shù)b(x)的導(dǎo)數(shù),并令其等于0.
可得
因此,對(duì)于任意策略h,當(dāng)函數(shù)b(x)=Vh(x)的時(shí)候,均方誤差εh最?。纱丝芍?,采用函數(shù)逼近近似求解優(yōu)勢(shì)函數(shù)Ah(x,u)=Qh(x,u)?Vh(x)更具現(xiàn)實(shí)意義,所以公式(9)表示的梯度可以重寫為
時(shí)間差分方法結(jié)合了蒙特卡羅方法與動(dòng)態(tài)規(guī)劃方法的優(yōu)點(diǎn),可以在環(huán)境未知的情況下任意時(shí)間步更新值函數(shù).為了進(jìn)一步提高時(shí)間差分方法的學(xué)習(xí)速率,研究人員提出了n步-累計(jì)獎(jiǎng)賞
由于n步-累計(jì)獎(jiǎng)賞考慮了更多的真實(shí)獎(jiǎng)賞,所以比1步-累計(jì)獎(jiǎng)賞更準(zhǔn)確.由于n存在多種可能,故而將其加權(quán)求和,提出λ-累計(jì)獎(jiǎng)賞
上述的λ-累計(jì)獎(jiǎng)賞更新值函數(shù)是傳統(tǒng)的向前觀點(diǎn).根據(jù)式(19)可以看出,利用該向前觀點(diǎn)更新值函數(shù)必須等到情節(jié)結(jié)束才能更新,而且需要保存該情節(jié)中所有遇到的狀態(tài).向后觀點(diǎn)是利用當(dāng)前時(shí)間差分誤差對(duì)之前遇到的所有狀態(tài)的值函數(shù)進(jìn)行更新,通過(guò)引入資格跡[1]來(lái)描述歷史狀態(tài)對(duì)當(dāng)前時(shí)間差分誤差的影響.TOTD(λ)結(jié)合二者,提出了λ-累計(jì)獎(jiǎng)賞
策略梯度方法通過(guò)與值函數(shù)獨(dú)立的策略參數(shù)求解最優(yōu)策略.而行動(dòng)者-評(píng)論家方法計(jì)算了值函數(shù)參數(shù)和策略參數(shù)這兩套參數(shù).本文提出了一種基于核的在線策略梯度算法,在評(píng)論家部分采用TOTD(λ)求解值函數(shù)參數(shù),在行動(dòng)者部分借鑒TOTD(λ)的向前觀點(diǎn)與向后觀點(diǎn)改進(jìn)策略參數(shù)的更新方式.算法包括評(píng)論家部分和行動(dòng)者部分.在評(píng)論家部分,使用TOTD(λ)方法評(píng)估策略,加快策略提高速度.TOTD(λ)算法利用λ-累計(jì)獎(jiǎng)賞對(duì)值函數(shù)參數(shù)v進(jìn)行更新,更新公式如下
其中,0<k≤t,vt,0為參數(shù)v的初始值.參數(shù)vi,j(i?j)為臨時(shí)中間參數(shù).從公式(21)可以看出,需要t次計(jì)算才能計(jì)算出參數(shù)vt=vt,t,并且需要保存所有觀察樣本.為了能夠在線計(jì)算,通常采用向后觀點(diǎn)對(duì)值函數(shù)進(jìn)行更新,即將當(dāng)前值函數(shù)的時(shí)間差分誤差對(duì)之前遇到的狀態(tài)值函數(shù)進(jìn)行更新.將向前觀點(diǎn)與向后觀點(diǎn)統(tǒng)一,得到TOTD(λ)算法.其更新規(guī)則如下
其中,δ表示時(shí)間差分誤差,ev表示資格跡,其反映了當(dāng)前狀態(tài)之前所遇到的所有狀態(tài)對(duì)當(dāng)前差分值的“貢獻(xiàn)度”.
真在線策略梯度的行動(dòng)者部分采用參數(shù)θ表示策略h分布,并沿著目標(biāo)函數(shù)的梯度方向更新策略參數(shù).當(dāng)?shù)竭_(dá)局部最優(yōu)解時(shí),梯度?Rh/?θ=0,所以算法的核心問(wèn)題是梯度?Rh/?θ=0的求解.
為了加快行動(dòng)者部分的學(xué)習(xí),采用向前觀點(diǎn)更新策略參數(shù)θ,其更新公式如下
其中,βk?1是策略參數(shù)的學(xué)習(xí)步長(zhǎng),更新公式采用經(jīng)驗(yàn)梯度替代了原來(lái)的期望梯度?Jπ/?θ.
從公式(25)可以看出,求解θt需要進(jìn)行t次計(jì)算,而且需要保留已觀察的樣本.為了簡(jiǎn)化計(jì)算過(guò)程,借助資格跡對(duì)策略參數(shù)進(jìn)行更新.資格跡的更新公式如下
策略參數(shù)更新公式如下
λ?累計(jì)獎(jiǎng)賞與時(shí)間差分誤差相關(guān),而且該時(shí)間差分誤差使用時(shí)間步t-1的值函數(shù)參數(shù)vt?1估計(jì)狀態(tài)st的值函數(shù),與評(píng)論家部分的時(shí)間差分誤差相關(guān),關(guān)系如下
由于對(duì)于間步t,策略參數(shù)更新為
運(yùn)用λ-累計(jì)獎(jiǎng)賞更新策略參數(shù)θt,t是等同于利用資格跡對(duì)策略參數(shù)θt的更新.
根據(jù)上述算法描述,基于核的在線策略梯度算法如下.
基于核的在線策略梯度算法(True Online Kernel-based Policy Gradient Algorithm,TOKAC)
輸入:核函數(shù)k,閾值threshold,步長(zhǎng)參數(shù)α、β,折扣因子γ,參數(shù)λ,樣本集{x},策略h
輸出:策略參數(shù)θ
本節(jié)通過(guò)兩個(gè)具有代表性的連續(xù)狀態(tài)、連續(xù)動(dòng)作問(wèn)題平衡桿實(shí)驗(yàn)、爬山小車(Mountain Car)實(shí)驗(yàn)來(lái)驗(yàn)證TOKAC算法的可行性.兩個(gè)實(shí)驗(yàn)中算法均采用高斯核函數(shù).
其中,di是近似線性依賴方法構(gòu)建的數(shù)據(jù)字典D中的數(shù)據(jù),σ是高斯核的寬度.
平衡桿問(wèn)題是一個(gè)經(jīng)典的強(qiáng)化學(xué)習(xí)問(wèn)題.如圖1所示,桿子矗立在小車上,并且可以隨意轉(zhuǎn)動(dòng).需要對(duì)小車施加水平方向的力,保證木桿平衡.借助馬爾科夫決策過(guò)程對(duì)平衡問(wèn)題進(jìn)行建模.狀態(tài)為其中,θ是桿子與垂直線的角度,是角度θ的角速度.對(duì)小車施加左右的力a∈[?50,50],狀態(tài)會(huì)發(fā)生轉(zhuǎn)移.動(dòng)態(tài)性模型如下
圖1 平衡桿問(wèn)題
其中,表示角加速度.時(shí)間步t,智能體采取動(dòng)作at,如果角度?π/2<θt+1<π/2,則獎(jiǎng)賞r=0,否則,r=?1.當(dāng)木桿在3 000個(gè)時(shí)間步內(nèi)倒下,則認(rèn)為操作失敗情節(jié)結(jié)束.如果木桿一直沒(méi)有倒下,并保持3 000個(gè)時(shí)間步,則認(rèn)為操作成功情節(jié)結(jié)束.
在平衡桿實(shí)驗(yàn)中,將本文提出的TOKAC算法與各類能夠解決連續(xù)問(wèn)題的算法進(jìn)行對(duì)比,包括CACLA、IAC、NAC.其中,CACLA是一個(gè)求解確定性策略的行動(dòng)者-評(píng)論家算法;IAC是一個(gè)增量式策略梯度方法.算法都采用核方法以及近似線性依賴稀疏化方法進(jìn)行函數(shù)逼近,其參數(shù)設(shè)置為σ=0.35、μ=0.001;IAC以及TOKAC算法的參數(shù)設(shè)置均為σ=5.0、λ=0.3、γ=0.9、α0=0.7、β0=0.5、αc=9 000、βc=9 000;其中NAC算法采用LSTD算法評(píng)估策略,其遺忘因子為0.3,學(xué)習(xí)步長(zhǎng)為0.8.比較結(jié)果如圖2所示.
通過(guò)比較情節(jié)的最大步數(shù)來(lái)比較算法學(xué)習(xí)到的策略的好壞.本文算法TOKAC的收斂速度最快,并且收斂后的結(jié)果較為穩(wěn)定.通過(guò)比較可發(fā)現(xiàn)IAC算法收斂較快,但是收斂效果不如NAC算法.這主要是因?yàn)樽匀惶荻饶軌蛴行Ь徑馓荻裙烙?jì)過(guò)程中方差較大的問(wèn)題.本文方法在樣本量比較少的情況下學(xué)習(xí)速度更快.這主要是因?yàn)門OKAC采用的TOTD學(xué)習(xí)比IAC采用的時(shí)間差分學(xué)習(xí)以及NAC采用的LSTD學(xué)習(xí)速度更快.此外,策略梯度算法表現(xiàn)要好于CACLA算法,這主要是因?yàn)椴呗蕴荻人惴ǔ浞掷脮r(shí)間差分誤差進(jìn)行學(xué)習(xí),而CACLA僅僅利用時(shí)間差分誤差判斷是否更新策略參數(shù).
圖2 各類算法處理平衡桿問(wèn)題的效果圖
爬山小車是一個(gè)經(jīng)典的情節(jié)式的連續(xù)空間強(qiáng)化學(xué)習(xí)問(wèn)題,小車需要在最短的時(shí)間內(nèi)從坡底到達(dá)坡頂.由于動(dòng)力不足,小車只能來(lái)回加速多次到達(dá)靠近坡頂?shù)奈恢茫缓笤偌铀?,如圖3所示.通過(guò)馬爾科夫決策過(guò)程對(duì)問(wèn)題進(jìn)行建模,狀態(tài)是[x,v]?,其中小車的位置x∈[?1.2,0.5],小車的速度v∈[?0.07,0.07].對(duì)小車施加水平方向的力a∈[?1,1],狀態(tài)發(fā)生遷移,遷移模型如下
其中,重力相關(guān)系數(shù)g=0.25×10?2.當(dāng)小車水平位置x<0.5時(shí),獎(jiǎng)賞r=-1,否則,小車到達(dá)終點(diǎn),獎(jiǎng)賞r=0.
圖3 爬山小車環(huán)境示意圖
圖4 不同算法處理爬山小車問(wèn)題的效果
在本實(shí)驗(yàn)中,本文算法與兩種增量式的策略梯度算法IAC以及IAC-E進(jìn)行比較.IAC算法采用TD(0)算法評(píng)估策略;IAC-E算法采用TD(λ)評(píng)估策略,而且策略更新過(guò)程也用了資格跡.三種算法的參數(shù)設(shè)置幾乎都一樣,核方法相關(guān)參數(shù)σ=[0.3,0.02]?、μ=0.001;學(xué)習(xí)步長(zhǎng)相關(guān)參數(shù)α0=0.7、β0=0.3、αc=500、βc=500;折扣因子γ=0.9.帶資格跡的算法λ=0.3.圖4中曲線代表每個(gè)算法學(xué)習(xí)500個(gè)樣本后的策略表現(xiàn).可以發(fā)現(xiàn)本文算法比IAC-E算法收斂速度快.這主要是因?yàn)楸疚乃惴ú捎玫男滦唾Y格跡效果要好于IAC-E采用的累加資格跡.眾所周知,資格跡能夠有效解決時(shí)間信度分配問(wèn)題,進(jìn)而提高算法學(xué)習(xí)速度.本文算法的評(píng)論家部分與行動(dòng)者部分均采用新型資格跡,故而學(xué)習(xí)速度要快于IAC-E算法.此外,兩個(gè)帶資格跡的算法學(xué)習(xí)速度也要高于不帶資格跡的算法IAC.
本文以IAC-E算法工作為基礎(chǔ),提出了一種基于核的在線策略梯度算法,在算法的評(píng)論家部分,利用TOTD(λ)算法進(jìn)行策略評(píng)估;在算法的行動(dòng)者部分,借助真在線思想改進(jìn)策略參數(shù)的更新.并通過(guò)平衡桿與爬山小車實(shí)驗(yàn)分析本文算法與其他各類算法的優(yōu)劣,可以看出本文所提出的算法在收斂速度以及收斂后的穩(wěn)定性方面,具有較優(yōu)表現(xiàn)好.
同時(shí),本文工作也有進(jìn)一步展開的空間.例如,通過(guò)平衡桿實(shí)驗(yàn)發(fā)現(xiàn)TOKAC算法的學(xué)習(xí)速度不如NAC算法,這主要是自然梯度效果要好于常規(guī)梯度.后續(xù)工作希望結(jié)合自然梯度提高算法學(xué)習(xí)速度.
參考文獻(xiàn):
[1]Wiering M,Van Otterlo M.Reinforcement Learning:State-of-the-Art[M].Springer Publishing Company,2012.
[2]朱斐,劉全,傅啟明,等.一種用于連續(xù)動(dòng)作空間的最小二乘行動(dòng)者-評(píng)論家方法[J].計(jì)算機(jī)研究與發(fā)展,2014,51(3):548-558.
[3]傅啟明,劉全,王輝,等.一種基于線性函數(shù)逼近的離策略Q(λ)算法[J].計(jì)算機(jī)學(xué)報(bào),2014,37(3):677-686.
[4]焦李成,楊淑媛,劉芳,等.神經(jīng)網(wǎng)絡(luò)七十年:回顧與展望[J].計(jì)算機(jī)學(xué)報(bào),2016,39(8):1697-1716.
[5]陳興國(guó),高陽(yáng),范順國(guó),等.基于核方法的連續(xù)動(dòng)作Actor-Critic學(xué)習(xí)[J].模式識(shí)別與人工智能,2014,27(2):103-110.
[6]Engel Y,Mannor S,Meir R.Bayes meets Bellman:The Gaussian process approach to temporal diあerence learning[C]//ICML.2003,20(1):154.
[7]殷俊,周靜波,金忠.基于余弦角距離的主成分分析與核主成分分析[J].計(jì)算機(jī)工程與應(yīng)用,2011,47(3):9-12.
[8]Ozeki K.Kernel Aきne Projection Algorithm[M]//Theory of Aきne Projection Algorithms for Adaptive Filtering.Springer Japan,2016.
[9]Seijen H,Sutton R.True online TD(λ)[C]//International Conference on Machine Learning,2014:692-700.
[10]Mill′an JDR,Posenato D,Dedieu E.Continuous-action Q-learning[J].Machine Learning,2002,49(2-3):247-265.
[11]王學(xué)寧,徐昕,吳濤,等.策略梯度強(qiáng)化學(xué)習(xí)中的最優(yōu)回報(bào)基線[J].計(jì)算機(jī)學(xué)報(bào),2005,28(6):1021-1026.
[12]章鵬,劉全,鐘珊,等.增量式雙自然策略梯度的行動(dòng)者評(píng)論家算法[J].通信學(xué)報(bào),2017,38(4):166-177.
[13]Xu X,Hu D,Lu X.Kernel-Based Least Squares Policy Iteration for Reinforcement Learning[J].IEEE Transactions on Neural Networks,2007,18(4):973-992.
[14]Grondman I,Busoniu L,Lopes G A D,et al.A survey of actor-critic reinforcement learning:Standard and natural policy gradients[J].IEEE Transactions on Systems,Man,and Cybernetics,Part C(Applications and Reviews),2012,42(6):1291-1307.
[15]Bhatnagar S,Sutton R,Ghavamzadeh M,et al.Natural actor-critic algorithms[J].Automatica,2009,45(11):2471-2482.
[16]季策,楊坤,陶奕名,等.一種非平穩(wěn)環(huán)境下的自適應(yīng)變步長(zhǎng)盲源分離算法[J].控制與決策,2016,31(4):735-739.