劉 曉
(中航工業(yè)西安航空計(jì)算技術(shù)研究所,陜西 西安 710065)
強(qiáng)化學(xué)習(xí)是一種介于監(jiān)督學(xué)習(xí)和非監(jiān)督學(xué)習(xí)之間的機(jī)器學(xué)習(xí)方法,屬于無教師指導(dǎo)的試錯(cuò)學(xué)習(xí)[1-2]。在強(qiáng)化學(xué)習(xí)框架下,一個(gè)學(xué)習(xí)主體(agent)通過與一個(gè)隨機(jī)環(huán)境不斷地交互,學(xué)習(xí)選擇最佳的行為策略。根據(jù)環(huán)境向agent提供的信息種類的不同,強(qiáng)化學(xué)習(xí)可以分為聯(lián)想強(qiáng)化學(xué)習(xí)和非聯(lián)想強(qiáng)化學(xué)習(xí)兩種。在非聯(lián)想強(qiáng)化學(xué)習(xí)中,agent從環(huán)境接收的信息只有強(qiáng)化信號(hào)(即對(duì)agent所選擇的動(dòng)作的評(píng)價(jià),如成功或失?。?。在聯(lián)想強(qiáng)化學(xué)習(xí)中,除強(qiáng)化信號(hào)外,agent還可接收環(huán)境的狀態(tài)信息。換句話說,在聯(lián)想強(qiáng)化學(xué)習(xí)模型中,一個(gè)動(dòng)作的好壞與環(huán)境的狀態(tài)有關(guān)。agent的任務(wù)就是發(fā)現(xiàn)輸出動(dòng)作與輸入狀態(tài)之間的關(guān)聯(lián)性[3-5]。
實(shí)現(xiàn)聯(lián)想強(qiáng)化學(xué)習(xí)的方法有很多,如查表法(lookup-table)、人工神經(jīng)網(wǎng)絡(luò)(ANN)以及學(xué)習(xí)自動(dòng)機(jī)(LA)等[3-8]。查表法需要的存儲(chǔ)量大,效率低,且缺乏泛化能力。ANN可實(shí)現(xiàn)復(fù)雜的非線性映射,但主流的ANN學(xué)習(xí)算法都基于梯度計(jì)算,容易陷入局部最優(yōu),對(duì)噪聲也較為敏感。LA[6-8]是一種自適應(yīng)決策器,通過與其相連的隨機(jī)環(huán)境的反復(fù)交互,學(xué)習(xí)選擇最適合該環(huán)境的輸出動(dòng)作。根據(jù)是否接收環(huán)境的狀態(tài)信息,LA也可以分為聯(lián)想型和非聯(lián)想型兩種。本文的主要目標(biāo)有兩個(gè),一是提出一種新的非聯(lián)想型LA,二是利用該LA解決聯(lián)想強(qiáng)化學(xué)習(xí)問題。
一個(gè)LA總與一個(gè)隨機(jī)環(huán)境相連。根據(jù)某種概率分布,LA從一個(gè)備選動(dòng)作集里選擇一個(gè)動(dòng)作,并輸出給環(huán)境,環(huán)境則向自動(dòng)機(jī)反饋一個(gè)評(píng)價(jià)信號(hào)。根據(jù)該評(píng)價(jià)信號(hào),自動(dòng)機(jī)對(duì)其概率分布進(jìn)行更新,以提高表現(xiàn)好的動(dòng)作的被選概率。作為一種重要的機(jī)器學(xué)習(xí)方法,LA已被應(yīng)用于許多不同的領(lǐng)域,例如汽車懸掛控制[9]、發(fā)動(dòng)機(jī)怠速控制[10]、數(shù)字濾波器設(shè)計(jì)[11]、磁懸浮軸承控制器的參數(shù)整定[12]、噪聲容忍模式分類[13]、自適應(yīng)網(wǎng)頁爬?。?4]、移動(dòng)無線網(wǎng)絡(luò)中的運(yùn)動(dòng)預(yù)測[15]、圖像中圓的檢測[16]以及糖尿病病人最佳胰島素劑量的確定[17]等。
根據(jù)動(dòng)作集的性質(zhì),LA可以分為兩大類[7,8]:有限動(dòng)作學(xué)習(xí)自動(dòng)機(jī)(FALA)和連續(xù)動(dòng)作學(xué)習(xí)自動(dòng)機(jī)(CALA)。FALA只有有限多個(gè)離散的動(dòng)作,對(duì)于實(shí)值優(yōu)化問題,若使用FALA,必須先將動(dòng)作空間離散化。離散化的粒度如果太粗,最優(yōu)解有可能沒有被包含在動(dòng)作集里;粒度太細(xì),又會(huì)造成動(dòng)作數(shù)過多,學(xué)習(xí)速度減慢。CALA的動(dòng)作集可以是一個(gè)連續(xù)區(qū)間或者整個(gè)實(shí)數(shù)軸。現(xiàn)有的LA絕大多數(shù)都是FALA,CALA僅有幾種,主要有Santharam,Sastry和Thathachar[18]提出的CALA(以下以提出者名字的首字母為后綴將其簡記為CALA-SST),Beigy和 Meybodi[19]提出的CALA(簡記為CALA-BM),以及由Frost,Howell,Gordon和吳青華[9]提出的“連續(xù)動(dòng)作強(qiáng)化學(xué)習(xí)自動(dòng)機(jī)(CARLA)”。
CALA-SST和CALA-BM都采用高斯分布概率模型,二者的動(dòng)作集均為整個(gè)實(shí)數(shù)軸。CALA-SST每次要輸出兩個(gè)動(dòng)作,一個(gè)根據(jù)高斯分布隨機(jī)產(chǎn)生,另一個(gè)則直接取高斯分布的均值。根據(jù)這兩個(gè)動(dòng)作及環(huán)境的評(píng)價(jià)信號(hào),學(xué)習(xí)算法對(duì)高斯分布的均值和標(biāo)準(zhǔn)差進(jìn)行更新。為防止標(biāo)準(zhǔn)差減小到0甚至出現(xiàn)負(fù)值,在標(biāo)準(zhǔn)差的更新方程中引入了一個(gè)懲罰項(xiàng),使得標(biāo)準(zhǔn)差永遠(yuǎn)不會(huì)小于一個(gè)預(yù)定的最小值。與CALA-SST不同,CALA-BM每次只輸出一個(gè)動(dòng)作(按高斯分布隨機(jī)產(chǎn)生)。該算法在對(duì)高斯分布的均值進(jìn)行更新時(shí),要求環(huán)境的評(píng)價(jià)信號(hào)必須處于0到1之間(如果不在此區(qū)間,需先做歸一化處理)。在CALA-BM中,高斯分布的標(biāo)準(zhǔn)差是直接根據(jù)學(xué)習(xí)時(shí)間計(jì)算的,單調(diào)減小并最終趨于0,故不利于對(duì)環(huán)境變化的跟蹤。由于按照高斯分布產(chǎn)生動(dòng)作,CALA-SST和CALA-BM有可能輸出絕對(duì)數(shù)值非常大的動(dòng)作,當(dāng)自動(dòng)機(jī)應(yīng)用于實(shí)時(shí)控制領(lǐng)域時(shí),會(huì)有安全性隱患。與前兩種CALA不同,CARLA的動(dòng)作集是一個(gè)有限區(qū)間,并采用一種非參數(shù)化的概率模型。其初始動(dòng)作概率為均勻分布,在學(xué)習(xí)過程中,通過一個(gè)對(duì)稱的高斯型“鄰近函數(shù)”,將表現(xiàn)較好的動(dòng)作的獎(jiǎng)賞“傳播”給相鄰的動(dòng)作。由于采用非參數(shù)化概率模型,該方法對(duì)概率分布的計(jì)算、存儲(chǔ)和更新相當(dāng)復(fù)雜,實(shí)現(xiàn)代價(jià)很高。
為克服現(xiàn)有算法的不足,本文提出一種新型的CALA,其動(dòng)作集為一個(gè)可變的實(shí)數(shù)區(qū)間[αL,αR]。在任一時(shí)刻k,自動(dòng)機(jī)以均勻分布方式從當(dāng)前的區(qū)間上隨機(jī)選擇一個(gè)動(dòng)作αk并輸出給環(huán)境,環(huán)境則給出一個(gè)二值的評(píng)價(jià)信號(hào)βk。根據(jù)該評(píng)價(jià)信號(hào),自動(dòng)機(jī)對(duì)其動(dòng)作區(qū)間的兩個(gè)端點(diǎn)αL和αR進(jìn)行調(diào)整,以遠(yuǎn)離失敗的動(dòng)作,趨向成功的動(dòng)作(即對(duì)前者進(jìn)行懲罰,對(duì)后者進(jìn)行獎(jiǎng)勵(lì))。
下面給出該算法的形式化描述。算法參數(shù):
λ1:大于0小于1的常數(shù),控制區(qū)間外擴(kuò)的幅度;λ2:大于0小于1的常數(shù)(應(yīng)小于λ1),控制區(qū)間內(nèi)縮的幅度;θ:大于0小于1的常數(shù),控制在強(qiáng)化信號(hào)為失敗的情況下區(qū)間端點(diǎn)調(diào)整的幅度;ε:足夠小且大于0的常數(shù),控制解的精度,并防止區(qū)間長度無限縮小。
初始化:
給區(qū)間端點(diǎn)αL和αR分別賦初值,并置k=0。
學(xué)習(xí)過程:
1)按照下式產(chǎn)生一個(gè)動(dòng)作αk,并輸出給環(huán)境:αk=αL+rk(αR-αL),其中rk為0到1之間均勻分布的隨機(jī)數(shù)(每次都重新產(chǎn)生)。
2)接收環(huán)境反饋的強(qiáng)化信號(hào)βk,其中βk∈{0,1},0表示成功,1表示失敗。
3)更新動(dòng)作區(qū)間(等價(jià)于更新概率分布):
令cL=αL+Δ,cR=αR-Δ,其中Δ=(αR-αL)/3;
當(dāng)βk=0時(shí):
若αk<cL則令αL=αL-λ1(cL-αk),否則令αL=αL+λ2(1-ε/Δ)(αk-cL);
若αk>cR則令αR=αR+λ1(αk-cR),否則令αR=αR-λ2(1-ε/Δ)(cR-αk);
當(dāng)βk=1時(shí):
若αk<cL則令αL=αL+θλ2(1-ε/Δ)(cL-αk),否則,若αk>cR則令αL=αL-θλ1(αk-cL);
若αk>cR則令αR=αR-θλ2(1-ε/Δ)(αk-cR),否則,若αk<cL則令αR=αR+θλ1(cR-αk);
4)令k=k+1,轉(zhuǎn)1)。
上述算法對(duì)動(dòng)作區(qū)間進(jìn)行更新的基本原理是:先確定三等分當(dāng)前區(qū)間的兩個(gè)分界點(diǎn)cL和cR。然后,根據(jù)βk的取值和αk位于左、中、右哪個(gè)1/3段,對(duì)區(qū)間的左右端點(diǎn)分別進(jìn)行調(diào)整。當(dāng)βk為成功時(shí),將兩個(gè)端點(diǎn)均朝αk所在段的方向移動(dòng);當(dāng)βk為失敗時(shí),若αk落于中間的1/3段,兩個(gè)端點(diǎn)均保持不變,否則均朝αk所在位置相反一側(cè)的方向移動(dòng)。移動(dòng)的幅度分別與αk跟cL和cR之間的距離成正比,具體的比例系數(shù)則由參數(shù)λ1,λ2,θ和ε控制。其中λ2通??扇ˇ?的1/3,以使左端點(diǎn)向右、右端點(diǎn)向左的移動(dòng)(收縮)比左端點(diǎn)向左、右端點(diǎn)向右的移動(dòng)(擴(kuò)張)更謹(jǐn)慎一些。ε的作用是防止動(dòng)作區(qū)間收縮為一個(gè)點(diǎn),以保持對(duì)環(huán)境變化的跟蹤能力。θ的作用是使對(duì)失敗動(dòng)作的“懲罰”比對(duì)成功動(dòng)作的“獎(jiǎng)勵(lì)”要輕一些。
顯然,在區(qū)間左、右移動(dòng)時(shí),由于兩個(gè)端點(diǎn)移動(dòng)的幅度不同,整個(gè)區(qū)間的長度實(shí)際上是擴(kuò)張的;而當(dāng)兩個(gè)端點(diǎn)均向內(nèi)移動(dòng)時(shí),區(qū)間會(huì)收縮。自動(dòng)機(jī)正是通過對(duì)其動(dòng)作區(qū)間的自適應(yīng)調(diào)整(可形象地稱之為“調(diào)焦”和“變焦”),以發(fā)現(xiàn)和跟蹤最好的動(dòng)作,將其“包圍”、“夾逼”在一個(gè)長度逐漸縮小的區(qū)間的中心。故我們將該自動(dòng)機(jī)稱作“聚焦區(qū)間學(xué)習(xí)自動(dòng)機(jī)(focused interval learning automaton)”,簡記為FILA。為體現(xiàn)算法對(duì)成功的動(dòng)作進(jìn)行獎(jiǎng)勵(lì)、對(duì)失敗的動(dòng)作進(jìn)行懲罰的“獎(jiǎng)罰(reward-penalty)”式學(xué)習(xí)的特點(diǎn),再在“FILA”的后面加上“RP”,記做“FILA/RP”。
聯(lián)想強(qiáng)化學(xué)習(xí)的概念是由文獻(xiàn)[3]首先提出來的,我們借用該文所給的兩個(gè)聯(lián)想強(qiáng)化學(xué)習(xí)問題進(jìn)行仿真實(shí)驗(yàn)。其中,學(xué)習(xí)系統(tǒng)有兩個(gè)輸入矢量:x(1)=[1,1]T,x(2)=[1,0]T。這兩個(gè)矢量是線性獨(dú)立的,但并不正交。在任一時(shí)刻,兩個(gè)矢量以各0.5的概率呈現(xiàn)給學(xué)習(xí)系統(tǒng)。學(xué)習(xí)系統(tǒng)可以選擇的響應(yīng)動(dòng)作也有兩個(gè):—1和+1。兩個(gè)問題的區(qū)別是,不同輸入矢量下各動(dòng)作成功的概率不同(具體情況見后)。
我們采用非聯(lián)想型LA求解上述聯(lián)想強(qiáng)化學(xué)習(xí)問題?,F(xiàn)構(gòu)造一個(gè)簡單的、包含一個(gè)二維參數(shù)矢量w的線性閾值判別函數(shù)。令wk為k時(shí)刻的參數(shù)矢量,該判別函數(shù)按照如下規(guī)則產(chǎn)生對(duì)于輸入xk的響應(yīng):若wkTxk>0,令αk?。?,否則?。?。LA的任務(wù),就是尋找wk的最佳取值。由于wk是二維的,故我們使用兩個(gè)LA,每個(gè)LA負(fù)責(zé)一個(gè)參數(shù)。
我們分別用FILA/RP以及兩種現(xiàn)有的基于參數(shù)化概率模型的CALA,即CALA-SST和CALA-BM,進(jìn)行仿真實(shí)驗(yàn)。原CALA-BM[19]根據(jù)公式σk=1/[floor(k/10)]1/3計(jì)算k時(shí)刻高斯分布的標(biāo)準(zhǔn)差,在具體實(shí)現(xiàn)時(shí)存在兩個(gè)問題:一是當(dāng)k<10時(shí)會(huì)出現(xiàn)“除法溢出”;二是σk的衰減速率過快且無法控制。為此,我們對(duì)原算法進(jìn)行了如下“改造”:一是將下取整函數(shù)floor替換為上取整函數(shù)ceil;二是像CALA-SST那樣,引入一個(gè)新的參數(shù)σ(0),并按照σk=σ(0)/[ceil(k/10)]1/3計(jì)算σk,使σk的衰減速度可以被控制。
三種算法各有一些內(nèi)部參數(shù),這些參數(shù)的取值對(duì)算法性能有很大的影響。我們先對(duì)每種算法各做了若干次初始實(shí)驗(yàn),嘗試不同的參數(shù)組合,然后取效果最好的參數(shù)組合進(jìn)行正式的仿真。最終選取的參數(shù)如下:CALA-BM的學(xué)習(xí)步長a=0.015,高斯分布的初始均值μ(0)=0,我們新引入的參數(shù)σ(0)=3;對(duì)于CALASST,λ=0.000 4,K=7,σL=0.02,μ(0)=0,σ(0)=1;對(duì)于FILA/RP,取λ1=3λ2且λ2=0.01,θ=0.15,ε=0.02,初始動(dòng)作區(qū)間取[-1,1]。
問題1:在問題1(對(duì)應(yīng)文獻(xiàn)[3]的Task 1)中,兩個(gè)輸入矢量下不同動(dòng)作的成功概率如下:
顯然,對(duì)x(1)應(yīng)選擇動(dòng)作“-1”作為響應(yīng);對(duì)x(2),則應(yīng)選擇“+1”。在這種情況下,學(xué)習(xí)系統(tǒng)將獲得最大的期望成功概率:0.85。若未經(jīng)學(xué)習(xí)、隨機(jī)地選取動(dòng)作,則期望的成功概率只有0.5。如果學(xué)習(xí)系統(tǒng)對(duì)一個(gè)輸入矢量能正確響應(yīng),但對(duì)另一個(gè)反應(yīng)錯(cuò)誤,則成功概率的期望值也是0.5。
我們用三種算法各仿真100次,每次仿真20 000步。在仿真的每一步,都計(jì)算當(dāng)前實(shí)際獲得的成功率Rk=sk/k,其中sk表示截止k時(shí)刻累計(jì)獲得的成功次數(shù)。該指標(biāo)可以反映算法的在線學(xué)習(xí)性能。
仿真結(jié)果見圖1。其中圖1(a)-(c)依次對(duì)應(yīng)算法CALA-SST,CALA-BM 和FILA/RP,每幅圖均為相應(yīng)算法100次仿真所產(chǎn)生的Rk曲線的“疊加效果”。圖1(d)則是各算法100條Rk曲線的平均結(jié)果。
(a)-(c)performance of CALA-SST,CALA-BM and FILA/RP respectively,100 simulations per algorithm;(d)average performanceFig.1 Simulation results on Task 1(a)-(c)分別為CALA-SST,CALA-BM 和FILA/RP的性能,每種算法各仿真100次;(d)各算法的平均性能圖1 針對(duì)問題1的仿真結(jié)果
由圖1(a)-(c)不難看出,F(xiàn)ILA/RP的學(xué)習(xí)軌跡比較整齊和緊湊,而CALA-SST尤其是CALA-BM的學(xué)習(xí)軌跡則顯得有些凌亂和分散。這說明,與后兩種算法相比,F(xiàn)ILA/RP各次運(yùn)行結(jié)果的一致性更好。CALA-BM還有幾條“不太合群”的Rk曲線,其上升速度非常緩慢。另外,CALA-SST和CALA-BM各有兩條走向怪異的曲線:CALA-SST是由高到低的“逆向演化”,越學(xué)習(xí)越退步;CALA-BM則一直“停滯”在很低的水平,毫無上升的趨勢。在仿真結(jié)束時(shí)(k=20 000),CALA-SST和CALA-BM最差的成功率分別為0.524 6和0.494 5,F(xiàn)ILA/RP則達(dá)到0.816 9,比前二者分別提高55.7%和65.2%。由圖1(d)可以看出,除學(xué)習(xí)初期的一小段時(shí)間(大約2 000步),F(xiàn)ILA/RP的平均成功率總是最高的,CALA-SST和CALA-BM則基本不相上下。仿真結(jié)束時(shí),CALA-SST和CALA-BM的成功率分別為0.815 8和0.815 6,而FILA/RP則為0.831 3比前兩個(gè)均高出1.9%
問題2:對(duì)于問題2(對(duì)應(yīng)文獻(xiàn)[3]中的Task 2),兩個(gè)輸入矢量下不同動(dòng)作的成功概率如下:
在該問題中,對(duì)x(1)應(yīng)選擇“+1”,對(duì)x(2)則應(yīng)選擇“-1”,此時(shí)學(xué)習(xí)系統(tǒng)將獲得0.65的最大期望成功概率。對(duì)于該問題,隨機(jī)選擇動(dòng)作只能得到0.525的期望成功概率。由于對(duì)x(1)來說兩種動(dòng)作的成功概率均小于0.5,而對(duì)x(2)來說兩者又都大于0.5,因此該問題要比Task 1復(fù)雜許多。若一個(gè)算法對(duì)x(2)能正確響應(yīng)但對(duì)x(1)反應(yīng)錯(cuò)誤,則其期望成功概率將是0.55,達(dá)不到0.65的最高值。相反,若一個(gè)算法能正確響應(yīng)x(1)但對(duì)x(2)反應(yīng)錯(cuò)誤,則只能獲得0.5的期望成功概率。這比不學(xué)習(xí)的隨機(jī)選擇還要差,因?yàn)楹笳叩钠谕晒Ω怕势鸫a有0.525。
Task 2的仿真結(jié)果見圖2。
(a)-(c)performance of CALA-SST,CALA-BM and FILA/RP respectively,100 simulations per algorithm;(d)average performanceFig.2 Simulation results on Task 2(a)-(c)分別為CALA-SST,CALA-BM 和FILA/RP的性能,每種算法各仿真100次;(d)各算法的平均性能圖2 針對(duì)問題2的仿真結(jié)果
比較圖2和圖1,不難看出:對(duì)于Task 2,三種算法的表現(xiàn)均有所變差。這是意料之中的,因?yàn)門ask 2比Task 1復(fù)雜。不過,相對(duì)于另兩種算法,F(xiàn)ILA/RP要好得多。由圖2(a)-(c)不難看出,CALA-SST和CALA-BM的學(xué)習(xí)軌跡都相當(dāng)散亂,這表明它們仿真結(jié)果的一致性變得更差。仔細(xì)觀察可以發(fā)現(xiàn),CALASST和CALA-BM的Rk曲線基本上都分化為“三簇”。最上面的一簇對(duì)應(yīng)正確的收斂,但曲線分布范圍較寬,收斂速度的一致性差。中間和最下面的兩簇包含的Rk曲線較少,對(duì)應(yīng)的成功率分別為0.55和0.5。這正是前面分析過的對(duì)某一種輸入矢量能正確響應(yīng)、但對(duì)另一種輸入矢量反應(yīng)錯(cuò)誤的情形。FILA/RP則只有朝向正確方向收斂的一簇。在最差情況下,CALA-SST和CALA-BM在仿真結(jié)束時(shí)的成功率分別為0.496 3和0.499 9,而FILA/RP則達(dá)到0.611 9(而且仍在上升),比前兩者分別高出23.3%和22.4%。圖2(d)給出的平均成功率曲線,更清晰地反映了三種算法的總體性能。除剛開始的一段時(shí)間外,F(xiàn)ILA/RP的平均成功率顯著高于CALA-SST和CALA-BM。在仿真結(jié)束時(shí),后兩種算法的平均Rk分別為0.597 7和0.595 6(比FILA/RP最差的還要低),而FILA/RP則達(dá)到0.629 5,比前兩者分別提高了5.3%和5.7%。
本文提出一種新的連續(xù)動(dòng)作學(xué)習(xí)自動(dòng)機(jī)(CALA),即基于獎(jiǎng)-罰式學(xué)習(xí)的聚焦區(qū)間學(xué)習(xí)自動(dòng)機(jī)(FILA/RP)。該自動(dòng)機(jī)依據(jù)均勻分布方式產(chǎn)生輸出動(dòng)作,并利用環(huán)境反饋的成功失敗信號(hào)對(duì)動(dòng)作區(qū)間進(jìn)行自適應(yīng)調(diào)整。在學(xué)習(xí)過程中,自動(dòng)機(jī)只需要存儲(chǔ)和更新動(dòng)作區(qū)間的兩個(gè)端點(diǎn)。相對(duì)于采用非參數(shù)化概率模型的CARLA來說,其算法簡單,時(shí)空開銷小。由于動(dòng)作集為一個(gè)有限區(qū)間,新算法不會(huì)像CALA-SST和CALA-BM那樣產(chǎn)生不可預(yù)期的、絕對(duì)數(shù)值過大的輸出動(dòng)作,因而更適合安全關(guān)鍵應(yīng)用場合。
通過兩個(gè)經(jīng)典的聯(lián)想強(qiáng)化學(xué)習(xí)問題的仿真實(shí)驗(yàn),我們演示了新算法相對(duì)于CALA-SST和CALA-BM的優(yōu)越性。與后兩者相比,F(xiàn)ILA/RP的學(xué)習(xí)精度、特別是每次仿真結(jié)果的一致性都更好。對(duì)于兩個(gè)測試問題,新算法都能100%的正確收斂,其平均及最壞情況下的成功率均明顯高于現(xiàn)有算法。利用更多的問題對(duì)新算法的學(xué)習(xí)性能進(jìn)行進(jìn)一步的仿真測試,并嘗試將其應(yīng)用于實(shí)際工程問題,如模式識(shí)別和自適應(yīng)控制等,將是下一步研究的方向。
[1] Sutton R S,Barto A G.Reinforcement Learning:An Introduction[M].Cambridge:MIT Press,1998.
[2] 陳學(xué)松,楊宜民.強(qiáng)化學(xué)習(xí)研究綜述[J].計(jì)算機(jī)應(yīng)用研究,2010,27(8):2834-2838,2844.
[3] Barto A G,Anandan P.Pattern-recognizing Stochastic Learning Automata[J].IEEE Trans.on Systems,Man,and Cybernetics,1985,15(3):360-375.
[4] Narendra K S,Mukhopadhyay S.Associative Learning in Random Environments Using Neural Networks[J].IEEE Trans.on Neural Networks,1991,2(1):20-31.
[5] Gullapalli V.Direct Associative Reinforcement Learning Methods for Dynamic Systems Control[J].Neurocomputing,1995,9(3):271-292.
[6] Narendra K S,Thathachar M A L.Learning Automata:An Introduction[M].Englewood Cliffs,NJ:Prentice Hall,1989.
[7] Thathachar M A L,Sastry P S.Varieties of Learning Automata:An Overview[J].IEEE Trans.on Systems,Man,and Cybernetics,Part B:Cybernetics,2002,32(6):711-722.
[8] Thathachar M A L,Sastry P S.Networks of Learning Automata:Techniques for Online Stochastic Optimization[M].Boston:Kluwer Academic,2004.
[9] Howell M N,F(xiàn)rost G P,Gordon T J,et al.Continuous Action Reinforcement Learning Applied to Vehicle Suspension Control[J].Mechatronics,1997,7(3):263-276.
[10] Howell M N,Best M C.On-line PID Turning for Engine Idle-speed Control using Continuous Action Reinforcement Learning Automata[J].Control Engineering Practice,2000,8(2):147-154.
[11] Howell M N,Gordon T J.Continuous Action Reinforcement Learning Automata and Their Application to Adaptive Digital Filter Design[J].Engineering Applications of Artificial Intelligence,2001,14(5):549-561.
[12] Zvacek V C.Magnetic Bearing Controller Tuning Through CARLA Learning Method[D].Doctoral Dissertation,University of Applied Sciences,Merseburg,Czech Republic,2004.
[13] Sastry P S,Nagendra G D,Mamwani N.A Team of Continuous-action Learning Automata for Noise-tolerant Learning of Half-spaces[J].IEEE Trans.on Systems,Man,and Cybernetics,Part B:Cybernetics,2010,40(1):19-28.
[14] Torkestani J A.An Adaptive Focused Web Crawling Algorithm based on Learning Automata[J].Applied Intelligence,2012,37(4):586-601.
[15] Torkestani J A.Mobility Prediction in Mobile Wireless Networks[J].Journal of Network and Computer Applications,2012,35(5):1633-1645.
[16] Cuevas E,Wario F,Zaldivar D,et al.Circle Detection on Images Using Learning Automata[M].Artificial Intelligence,Evolutionary Computing and Metaheuristics.Berlin Heidelberg:Springer,2013:545-570.
[17] Torkestani J A,Pisheh E G.A Learning Automata-based Blood glucose Regulation Mechanism in Type 2 Diabetes[J].Control Engineering Practice,2014,26:151-159.
[18] Santharam G,Sastry P S,Thathachar M A L.Continuous Action set Learning Automata for Stochastic Optimization[J].Journal of the Franklin Institute,1994,331B(5):607-628.
[19] Beigy H,Meybodi M R.A New Continuous Action-set Learning Automaton for Function Optimization[J].Journal of the Franklin Institute,2006,343(1):27-47.