基于連續(xù)動(dòng)作學(xué)習(xí)自動(dòng)機(jī)的聯(lián)想強(qiáng)化學(xué)習(xí)

2015-05-10 06:53:52劉曉

山西大學(xué)學(xué)報(bào)(自然科學(xué)版) 2015年3期

劉曉

（中航工業(yè)西安航空計(jì)算技術(shù)研究所，陜西西安 710065）

0 引言

強(qiáng)化學(xué)習(xí)是一種介于監(jiān)督學(xué)習(xí)和非監(jiān)督學(xué)習(xí)之間的機(jī)器學(xué)習(xí)方法，屬于無教師指導(dǎo)的試錯(cuò)學(xué)習(xí)［1－2］。在強(qiáng)化學(xué)習(xí)框架下，一個(gè)學(xué)習(xí)主體（agent）通過與一個(gè)隨機(jī)環(huán)境不斷地交互，學(xué)習(xí)選擇最佳的行為策略。根據(jù)環(huán)境向agent提供的信息種類的不同，強(qiáng)化學(xué)習(xí)可以分為聯(lián)想強(qiáng)化學(xué)習(xí)和非聯(lián)想強(qiáng)化學(xué)習(xí)兩種。在非聯(lián)想強(qiáng)化學(xué)習(xí)中，agent從環(huán)境接收的信息只有強(qiáng)化信號(hào)（即對(duì)agent所選擇的動(dòng)作的評(píng)價(jià)，如成功或失?。?。在聯(lián)想強(qiáng)化學(xué)習(xí)中，除強(qiáng)化信號(hào)外，agent還可接收環(huán)境的狀態(tài)信息。換句話說，在聯(lián)想強(qiáng)化學(xué)習(xí)模型中，一個(gè)動(dòng)作的好壞與環(huán)境的狀態(tài)有關(guān)。agent的任務(wù)就是發(fā)現(xiàn)輸出動(dòng)作與輸入狀態(tài)之間的關(guān)聯(lián)性［3－5］。

實(shí)現(xiàn)聯(lián)想強(qiáng)化學(xué)習(xí)的方法有很多，如查表法（lookup-table）、人工神經(jīng)網(wǎng)絡(luò)（ANN）以及學(xué)習(xí)自動(dòng)機(jī)（LA）等［3－8］。查表法需要的存儲(chǔ)量大，效率低，且缺乏泛化能力。ANN可實(shí)現(xiàn)復(fù)雜的非線性映射，但主流的ANN學(xué)習(xí)算法都基于梯度計(jì)算，容易陷入局部最優(yōu)，對(duì)噪聲也較為敏感。LA［6－8］是一種自適應(yīng)決策器，通過與其相連的隨機(jī)環(huán)境的反復(fù)交互，學(xué)習(xí)選擇最適合該環(huán)境的輸出動(dòng)作。根據(jù)是否接收環(huán)境的狀態(tài)信息，LA也可以分為聯(lián)想型和非聯(lián)想型兩種。本文的主要目標(biāo)有兩個(gè)，一是提出一種新的非聯(lián)想型LA，二是利用該LA解決聯(lián)想強(qiáng)化學(xué)習(xí)問題。

1 學(xué)習(xí)自動(dòng)機(jī)

一個(gè)LA總與一個(gè)隨機(jī)環(huán)境相連。根據(jù)某種概率分布，LA從一個(gè)備選動(dòng)作集里選擇一個(gè)動(dòng)作，并輸出給環(huán)境，環(huán)境則向自動(dòng)機(jī)反饋一個(gè)評(píng)價(jià)信號(hào)。根據(jù)該評(píng)價(jià)信號(hào)，自動(dòng)機(jī)對(duì)其概率分布進(jìn)行更新，以提高表現(xiàn)好的動(dòng)作的被選概率。作為一種重要的機(jī)器學(xué)習(xí)方法，LA已被應(yīng)用于許多不同的領(lǐng)域，例如汽車懸掛控制［9］、發(fā)動(dòng)機(jī)怠速控制［10］、數(shù)字濾波器設(shè)計(jì)［11］、磁懸浮軸承控制器的參數(shù)整定［12］、噪聲容忍模式分類［13］、自適應(yīng)網(wǎng)頁爬?。?4］、移動(dòng)無線網(wǎng)絡(luò)中的運(yùn)動(dòng)預(yù)測［15］、圖像中圓的檢測［16］以及糖尿病病人最佳胰島素劑量的確定［17］等。

根據(jù)動(dòng)作集的性質(zhì)，LA可以分為兩大類［7，8］：有限動(dòng)作學(xué)習(xí)自動(dòng)機(jī)（FALA）和連續(xù)動(dòng)作學(xué)習(xí)自動(dòng)機(jī)（CALA）。FALA只有有限多個(gè)離散的動(dòng)作，對(duì)于實(shí)值優(yōu)化問題，若使用FALA，必須先將動(dòng)作空間離散化。離散化的粒度如果太粗，最優(yōu)解有可能沒有被包含在動(dòng)作集里；粒度太細(xì)，又會(huì)造成動(dòng)作數(shù)過多，學(xué)習(xí)速度減慢。CALA的動(dòng)作集可以是一個(gè)連續(xù)區(qū)間或者整個(gè)實(shí)數(shù)軸。現(xiàn)有的LA絕大多數(shù)都是FALA，CALA僅有幾種，主要有Santharam，Sastry和Thathachar［18］提出的CALA（以下以提出者名字的首字母為后綴將其簡記為CALA-SST），Beigy和 Meybodi［19］提出的CALA（簡記為CALA-BM），以及由Frost，Howell，Gordon和吳青華［9］提出的“連續(xù)動(dòng)作強(qiáng)化學(xué)習(xí)自動(dòng)機(jī)（CARLA）”。

CALA-SST和CALA-BM都采用高斯分布概率模型，二者的動(dòng)作集均為整個(gè)實(shí)數(shù)軸。CALA-SST每次要輸出兩個(gè)動(dòng)作，一個(gè)根據(jù)高斯分布隨機(jī)產(chǎn)生，另一個(gè)則直接取高斯分布的均值。根據(jù)這兩個(gè)動(dòng)作及環(huán)境的評(píng)價(jià)信號(hào)，學(xué)習(xí)算法對(duì)高斯分布的均值和標(biāo)準(zhǔn)差進(jìn)行更新。為防止標(biāo)準(zhǔn)差減小到0甚至出現(xiàn)負(fù)值，在標(biāo)準(zhǔn)差的更新方程中引入了一個(gè)懲罰項(xiàng)，使得標(biāo)準(zhǔn)差永遠(yuǎn)不會(huì)小于一個(gè)預(yù)定的最小值。與CALA-SST不同，CALA-BM每次只輸出一個(gè)動(dòng)作（按高斯分布隨機(jī)產(chǎn)生）。該算法在對(duì)高斯分布的均值進(jìn)行更新時(shí)，要求環(huán)境的評(píng)價(jià)信號(hào)必須處于0到1之間（如果不在此區(qū)間，需先做歸一化處理）。在CALA-BM中，高斯分布的標(biāo)準(zhǔn)差是直接根據(jù)學(xué)習(xí)時(shí)間計(jì)算的，單調(diào)減小并最終趨于0，故不利于對(duì)環(huán)境變化的跟蹤。由于按照高斯分布產(chǎn)生動(dòng)作，CALA-SST和CALA-BM有可能輸出絕對(duì)數(shù)值非常大的動(dòng)作，當(dāng)自動(dòng)機(jī)應(yīng)用于實(shí)時(shí)控制領(lǐng)域時(shí)，會(huì)有安全性隱患。與前兩種CALA不同，CARLA的動(dòng)作集是一個(gè)有限區(qū)間，并采用一種非參數(shù)化的概率模型。其初始動(dòng)作概率為均勻分布，在學(xué)習(xí)過程中，通過一個(gè)對(duì)稱的高斯型“鄰近函數(shù)”，將表現(xiàn)較好的動(dòng)作的獎(jiǎng)賞“傳播”給相鄰的動(dòng)作。由于采用非參數(shù)化概率模型，該方法對(duì)概率分布的計(jì)算、存儲(chǔ)和更新相當(dāng)復(fù)雜，實(shí)現(xiàn)代價(jià)很高。

2 一種新的連續(xù)動(dòng)作集學(xué)習(xí)自動(dòng)機(jī)

為克服現(xiàn)有算法的不足，本文提出一種新型的CALA，其動(dòng)作集為一個(gè)可變的實(shí)數(shù)區(qū)間［αL，αR］。在任一時(shí)刻k，自動(dòng)機(jī)以均勻分布方式從當(dāng)前的區(qū)間上隨機(jī)選擇一個(gè)動(dòng)作αk并輸出給環(huán)境，環(huán)境則給出一個(gè)二值的評(píng)價(jià)信號(hào)βk。根據(jù)該評(píng)價(jià)信號(hào)，自動(dòng)機(jī)對(duì)其動(dòng)作區(qū)間的兩個(gè)端點(diǎn)αL和αR進(jìn)行調(diào)整，以遠(yuǎn)離失敗的動(dòng)作，趨向成功的動(dòng)作（即對(duì)前者進(jìn)行懲罰，對(duì)后者進(jìn)行獎(jiǎng)勵(lì)）。

下面給出該算法的形式化描述。算法參數(shù)：

λ1：大于0小于1的常數(shù)，控制區(qū)間外擴(kuò)的幅度；λ2：大于0小于1的常數(shù)（應(yīng)小于λ1），控制區(qū)間內(nèi)縮的幅度；θ：大于0小于1的常數(shù)，控制在強(qiáng)化信號(hào)為失敗的情況下區(qū)間端點(diǎn)調(diào)整的幅度；ε：足夠小且大于0的常數(shù)，控制解的精度，并防止區(qū)間長度無限縮小。

初始化：

給區(qū)間端點(diǎn)αL和αR分別賦初值，并置k＝0。

學(xué)習(xí)過程：

1）按照下式產(chǎn)生一個(gè)動(dòng)作αk，并輸出給環(huán)境：αk＝αL＋rk（αR－αL），其中rk為0到1之間均勻分布的隨機(jī)數(shù)（每次都重新產(chǎn)生）。

2）接收環(huán)境反饋的強(qiáng)化信號(hào)βk，其中βk∈｛0，1｝，0表示成功，1表示失敗。

3）更新動(dòng)作區(qū)間（等價(jià)于更新概率分布）：

令cL＝αL＋Δ，cR＝αR－Δ，其中Δ＝（αR－αL）／3；

當(dāng)βk＝0時(shí)：

若αk＜cL則令αL＝αL－λ1（cL－αk），否則令αL＝αL＋λ2（1－ε／Δ）（αk－cL）；

若αk＞cR則令αR＝αR＋λ1（αk－cR），否則令αR＝αR－λ2（1－ε／Δ）（cR－αk）；

當(dāng)βk＝1時(shí)：

若αk＜cL則令αL＝αL＋θλ2（1－ε／Δ）（cL－αk），否則，若αk＞cR則令αL＝αL－θλ1（αk－cL）；

若αk＞cR則令αR＝αR－θλ2（1－ε／Δ）（αk－cR），否則，若αk＜cL則令αR＝αR＋θλ1（cR－αk）；

4）令k＝k＋1，轉(zhuǎn)1）。

上述算法對(duì)動(dòng)作區(qū)間進(jìn)行更新的基本原理是：先確定三等分當(dāng)前區(qū)間的兩個(gè)分界點(diǎn)cL和cR。然后，根據(jù)βk的取值和αk位于左、中、右哪個(gè)1／3段，對(duì)區(qū)間的左右端點(diǎn)分別進(jìn)行調(diào)整。當(dāng)βk為成功時(shí)，將兩個(gè)端點(diǎn)均朝αk所在段的方向移動(dòng)；當(dāng)βk為失敗時(shí)，若αk落于中間的1／3段，兩個(gè)端點(diǎn)均保持不變，否則均朝αk所在位置相反一側(cè)的方向移動(dòng)。移動(dòng)的幅度分別與αk跟cL和cR之間的距離成正比，具體的比例系數(shù)則由參數(shù)λ1，λ2，θ和ε控制。其中λ2通?？扇ˇ?的1／3，以使左端點(diǎn)向右、右端點(diǎn)向左的移動(dòng)（收縮）比左端點(diǎn)向左、右端點(diǎn)向右的移動(dòng)（擴(kuò)張）更謹(jǐn)慎一些。ε的作用是防止動(dòng)作區(qū)間收縮為一個(gè)點(diǎn)，以保持對(duì)環(huán)境變化的跟蹤能力。θ的作用是使對(duì)失敗動(dòng)作的“懲罰”比對(duì)成功動(dòng)作的“獎(jiǎng)勵(lì)”要輕一些。

顯然，在區(qū)間左、右移動(dòng)時(shí)，由于兩個(gè)端點(diǎn)移動(dòng)的幅度不同，整個(gè)區(qū)間的長度實(shí)際上是擴(kuò)張的；而當(dāng)兩個(gè)端點(diǎn)均向內(nèi)移動(dòng)時(shí)，區(qū)間會(huì)收縮。自動(dòng)機(jī)正是通過對(duì)其動(dòng)作區(qū)間的自適應(yīng)調(diào)整（可形象地稱之為“調(diào)焦”和“變焦”），以發(fā)現(xiàn)和跟蹤最好的動(dòng)作，將其“包圍”、“夾逼”在一個(gè)長度逐漸縮小的區(qū)間的中心。故我們將該自動(dòng)機(jī)稱作“聚焦區(qū)間學(xué)習(xí)自動(dòng)機(jī)（focused interval learning automaton）”，簡記為FILA。為體現(xiàn)算法對(duì)成功的動(dòng)作進(jìn)行獎(jiǎng)勵(lì)、對(duì)失敗的動(dòng)作進(jìn)行懲罰的“獎(jiǎng)罰（reward-penalty）”式學(xué)習(xí)的特點(diǎn)，再在“FILA”的后面加上“RP”，記做“FILA／RP”。

3 關(guān)于聯(lián)想強(qiáng)化學(xué)習(xí)的仿真實(shí)驗(yàn)

聯(lián)想強(qiáng)化學(xué)習(xí)的概念是由文獻(xiàn)［3］首先提出來的，我們借用該文所給的兩個(gè)聯(lián)想強(qiáng)化學(xué)習(xí)問題進(jìn)行仿真實(shí)驗(yàn)。其中，學(xué)習(xí)系統(tǒng)有兩個(gè)輸入矢量：x（1）＝［1，1］T，x（2）＝［1，0］T。這兩個(gè)矢量是線性獨(dú)立的，但并不正交。在任一時(shí)刻，兩個(gè)矢量以各0.5的概率呈現(xiàn)給學(xué)習(xí)系統(tǒng)。學(xué)習(xí)系統(tǒng)可以選擇的響應(yīng)動(dòng)作也有兩個(gè)：—1和＋1。兩個(gè)問題的區(qū)別是，不同輸入矢量下各動(dòng)作成功的概率不同（具體情況見后）。

我們采用非聯(lián)想型LA求解上述聯(lián)想強(qiáng)化學(xué)習(xí)問題?，F(xiàn)構(gòu)造一個(gè)簡單的、包含一個(gè)二維參數(shù)矢量w的線性閾值判別函數(shù)。令wk為k時(shí)刻的參數(shù)矢量，該判別函數(shù)按照如下規(guī)則產(chǎn)生對(duì)于輸入xk的響應(yīng)：若wkTxk＞0，令αk?。?，否則?。?。LA的任務(wù)，就是尋找wk的最佳取值。由于wk是二維的，故我們使用兩個(gè)LA，每個(gè)LA負(fù)責(zé)一個(gè)參數(shù)。

我們分別用FILA／RP以及兩種現(xiàn)有的基于參數(shù)化概率模型的CALA，即CALA-SST和CALA-BM，進(jìn)行仿真實(shí)驗(yàn)。原CALA-BM［19］根據(jù)公式σk＝1／［floor（k／10）］1／3計(jì)算k時(shí)刻高斯分布的標(biāo)準(zhǔn)差，在具體實(shí)現(xiàn)時(shí)存在兩個(gè)問題：一是當(dāng)k＜10時(shí)會(huì)出現(xiàn)“除法溢出”；二是σk的衰減速率過快且無法控制。為此，我們對(duì)原算法進(jìn)行了如下“改造”：一是將下取整函數(shù)floor替換為上取整函數(shù)ceil；二是像CALA-SST那樣，引入一個(gè)新的參數(shù)σ（0），并按照σk＝σ（0）／［ceil（k／10）］1／3計(jì)算σk，使σk的衰減速度可以被控制。

三種算法各有一些內(nèi)部參數(shù)，這些參數(shù)的取值對(duì)算法性能有很大的影響。我們先對(duì)每種算法各做了若干次初始實(shí)驗(yàn)，嘗試不同的參數(shù)組合，然后取效果最好的參數(shù)組合進(jìn)行正式的仿真。最終選取的參數(shù)如下：CALA-BM的學(xué)習(xí)步長a＝0.015，高斯分布的初始均值μ（0）＝0，我們新引入的參數(shù)σ（0）＝3；對(duì)于CALASST，λ＝0.000 4，K＝7，σL＝0.02，μ（0）＝0，σ（0）＝1；對(duì)于FILA／RP，取λ1＝3λ2且λ2＝0.01，θ＝0.15，ε＝0.02，初始動(dòng)作區(qū)間取［－1，1］。

問題1：在問題1（對(duì)應(yīng)文獻(xiàn)［3］的Task 1）中，兩個(gè)輸入矢量下不同動(dòng)作的成功概率如下：

顯然，對(duì)x（1）應(yīng)選擇動(dòng)作“－1”作為響應(yīng)；對(duì)x（2），則應(yīng)選擇“＋1”。在這種情況下，學(xué)習(xí)系統(tǒng)將獲得最大的期望成功概率：0.85。若未經(jīng)學(xué)習(xí)、隨機(jī)地選取動(dòng)作，則期望的成功概率只有0.5。如果學(xué)習(xí)系統(tǒng)對(duì)一個(gè)輸入矢量能正確響應(yīng)，但對(duì)另一個(gè)反應(yīng)錯(cuò)誤，則成功概率的期望值也是0.5。

我們用三種算法各仿真100次，每次仿真20 000步。在仿真的每一步，都計(jì)算當(dāng)前實(shí)際獲得的成功率Rk＝sk／k，其中sk表示截止k時(shí)刻累計(jì)獲得的成功次數(shù)。該指標(biāo)可以反映算法的在線學(xué)習(xí)性能。

仿真結(jié)果見圖1。其中圖1（a）－（c）依次對(duì)應(yīng)算法CALA-SST，CALA-BM 和FILA／RP，每幅圖均為相應(yīng)算法100次仿真所產(chǎn)生的Rk曲線的“疊加效果”。圖1（d）則是各算法100條Rk曲線的平均結(jié)果。

（a）－（c）performance of CALA-SST，CALA-BM and FILA／RP respectively，100 simulations per algorithm；（d）average performanceFig.1 Simulation results on Task 1（a）－（c）分別為CALA-SST，CALA-BM 和FILA／RP的性能，每種算法各仿真100次；（d）各算法的平均性能圖1 針對(duì)問題1的仿真結(jié)果

由圖1（a）－（c）不難看出，F(xiàn)ILA／RP的學(xué)習(xí)軌跡比較整齊和緊湊，而CALA-SST尤其是CALA-BM的學(xué)習(xí)軌跡則顯得有些凌亂和分散。這說明，與后兩種算法相比，F(xiàn)ILA／RP各次運(yùn)行結(jié)果的一致性更好。CALA-BM還有幾條“不太合群”的Rk曲線，其上升速度非常緩慢。另外，CALA-SST和CALA-BM各有兩條走向怪異的曲線：CALA-SST是由高到低的“逆向演化”，越學(xué)習(xí)越退步；CALA-BM則一直“停滯”在很低的水平，毫無上升的趨勢。在仿真結(jié)束時(shí)（k＝20 000），CALA-SST和CALA-BM最差的成功率分別為0.524 6和0.494 5，F(xiàn)ILA／RP則達(dá)到0.816 9，比前二者分別提高55.7%和65.2%。由圖1（d）可以看出，除學(xué)習(xí)初期的一小段時(shí)間（大約2 000步），F(xiàn)ILA／RP的平均成功率總是最高的，CALA-SST和CALA-BM則基本不相上下。仿真結(jié)束時(shí)，CALA-SST和CALA-BM的成功率分別為0.815 8和0.815 6，而FILA／RP則為0.831 3比前兩個(gè)均高出1.9%

問題2：對(duì)于問題2（對(duì)應(yīng)文獻(xiàn)［3］中的Task 2），兩個(gè)輸入矢量下不同動(dòng)作的成功概率如下：

在該問題中，對(duì)x（1）應(yīng)選擇“＋1”，對(duì)x（2）則應(yīng)選擇“－1”，此時(shí)學(xué)習(xí)系統(tǒng)將獲得0.65的最大期望成功概率。對(duì)于該問題，隨機(jī)選擇動(dòng)作只能得到0.525的期望成功概率。由于對(duì)x（1）來說兩種動(dòng)作的成功概率均小于0.5，而對(duì)x（2）來說兩者又都大于0.5，因此該問題要比Task 1復(fù)雜許多。若一個(gè)算法對(duì)x（2）能正確響應(yīng)但對(duì)x（1）反應(yīng)錯(cuò)誤，則其期望成功概率將是0.55，達(dá)不到0.65的最高值。相反，若一個(gè)算法能正確響應(yīng)x（1）但對(duì)x（2）反應(yīng)錯(cuò)誤，則只能獲得0.5的期望成功概率。這比不學(xué)習(xí)的隨機(jī)選擇還要差，因?yàn)楹笳叩钠谕晒Ω怕势鸫a有0.525。

Task 2的仿真結(jié)果見圖2。

（a）－（c）performance of CALA-SST，CALA-BM and FILA／RP respectively，100 simulations per algorithm；（d）average performanceFig.2 Simulation results on Task 2（a）－（c）分別為CALA-SST，CALA-BM 和FILA／RP的性能，每種算法各仿真100次；（d）各算法的平均性能圖2 針對(duì)問題2的仿真結(jié)果

比較圖2和圖1，不難看出：對(duì)于Task 2，三種算法的表現(xiàn)均有所變差。這是意料之中的，因?yàn)門ask 2比Task 1復(fù)雜。不過，相對(duì)于另兩種算法，F(xiàn)ILA／RP要好得多。由圖2（a）－（c）不難看出，CALA-SST和CALA-BM的學(xué)習(xí)軌跡都相當(dāng)散亂，這表明它們仿真結(jié)果的一致性變得更差。仔細(xì)觀察可以發(fā)現(xiàn)，CALASST和CALA-BM的Rk曲線基本上都分化為“三簇”。最上面的一簇對(duì)應(yīng)正確的收斂，但曲線分布范圍較寬，收斂速度的一致性差。中間和最下面的兩簇包含的Rk曲線較少，對(duì)應(yīng)的成功率分別為0.55和0.5。這正是前面分析過的對(duì)某一種輸入矢量能正確響應(yīng)、但對(duì)另一種輸入矢量反應(yīng)錯(cuò)誤的情形。FILA／RP則只有朝向正確方向收斂的一簇。在最差情況下，CALA-SST和CALA-BM在仿真結(jié)束時(shí)的成功率分別為0.496 3和0.499 9，而FILA／RP則達(dá)到0.611 9（而且仍在上升），比前兩者分別高出23.3%和22.4%。圖2（d）給出的平均成功率曲線，更清晰地反映了三種算法的總體性能。除剛開始的一段時(shí)間外，F(xiàn)ILA／RP的平均成功率顯著高于CALA-SST和CALA-BM。在仿真結(jié)束時(shí)，后兩種算法的平均Rk分別為0.597 7和0.595 6（比FILA／RP最差的還要低），而FILA／RP則達(dá)到0.629 5，比前兩者分別提高了5.3%和5.7%。

4 結(jié)束語

本文提出一種新的連續(xù)動(dòng)作學(xué)習(xí)自動(dòng)機(jī)（CALA），即基于獎(jiǎng)－罰式學(xué)習(xí)的聚焦區(qū)間學(xué)習(xí)自動(dòng)機(jī)（FILA／RP）。該自動(dòng)機(jī)依據(jù)均勻分布方式產(chǎn)生輸出動(dòng)作，并利用環(huán)境反饋的成功失敗信號(hào)對(duì)動(dòng)作區(qū)間進(jìn)行自適應(yīng)調(diào)整。在學(xué)習(xí)過程中，自動(dòng)機(jī)只需要存儲(chǔ)和更新動(dòng)作區(qū)間的兩個(gè)端點(diǎn)。相對(duì)于采用非參數(shù)化概率模型的CARLA來說，其算法簡單，時(shí)空開銷小。由于動(dòng)作集為一個(gè)有限區(qū)間，新算法不會(huì)像CALA-SST和CALA-BM那樣產(chǎn)生不可預(yù)期的、絕對(duì)數(shù)值過大的輸出動(dòng)作，因而更適合安全關(guān)鍵應(yīng)用場合。

通過兩個(gè)經(jīng)典的聯(lián)想強(qiáng)化學(xué)習(xí)問題的仿真實(shí)驗(yàn)，我們演示了新算法相對(duì)于CALA-SST和CALA-BM的優(yōu)越性。與后兩者相比，F(xiàn)ILA／RP的學(xué)習(xí)精度、特別是每次仿真結(jié)果的一致性都更好。對(duì)于兩個(gè)測試問題，新算法都能100%的正確收斂，其平均及最壞情況下的成功率均明顯高于現(xiàn)有算法。利用更多的問題對(duì)新算法的學(xué)習(xí)性能進(jìn)行進(jìn)一步的仿真測試，并嘗試將其應(yīng)用于實(shí)際工程問題，如模式識(shí)別和自適應(yīng)控制等，將是下一步研究的方向。

［1］ Sutton R S，Barto A G.Reinforcement Learning：An Introduction［M］.Cambridge：MIT Press，1998.

［2］陳學(xué)松，楊宜民.強(qiáng)化學(xué)習(xí)研究綜述［J］.計(jì)算機(jī)應(yīng)用研究，2010，27（8）：2834-2838，2844.

［3］ Barto A G，Anandan P.Pattern-recognizing Stochastic Learning Automata［J］.IEEE Trans.on Systems，Man，and Cybernetics，1985，15（3）：360-375.

［4］ Narendra K S，Mukhopadhyay S.Associative Learning in Random Environments Using Neural Networks［J］.IEEE Trans.on Neural Networks，1991，2（1）：20-31.

［5］ Gullapalli V.Direct Associative Reinforcement Learning Methods for Dynamic Systems Control［J］.Neurocomputing，1995，9（3）：271-292.

［6］ Narendra K S，Thathachar M A L.Learning Automata：An Introduction［M］.Englewood Cliffs，NJ：Prentice Hall，1989.

［7］ Thathachar M A L，Sastry P S.Varieties of Learning Automata：An Overview［J］.IEEE Trans.on Systems，Man，and Cybernetics，Part B：Cybernetics，2002，32（6）：711-722.

［8］ Thathachar M A L，Sastry P S.Networks of Learning Automata：Techniques for Online Stochastic Optimization［M］.Boston：Kluwer Academic，2004.

［9］ Howell M N，F(xiàn)rost G P，Gordon T J，et al.Continuous Action Reinforcement Learning Applied to Vehicle Suspension Control［J］.Mechatronics，1997，7（3）：263-276.

［10］ Howell M N，Best M C.On-line PID Turning for Engine Idle-speed Control using Continuous Action Reinforcement Learning Automata［J］.Control Engineering Practice，2000，8（2）：147-154.

［11］ Howell M N，Gordon T J.Continuous Action Reinforcement Learning Automata and Their Application to Adaptive Digital Filter Design［J］.Engineering Applications of Artificial Intelligence，2001，14（5）：549-561.

［12］ Zvacek V C.Magnetic Bearing Controller Tuning Through CARLA Learning Method［D］.Doctoral Dissertation，University of Applied Sciences，Merseburg，Czech Republic，2004.

［13］ Sastry P S，Nagendra G D，Mamwani N.A Team of Continuous-action Learning Automata for Noise-tolerant Learning of Half-spaces［J］.IEEE Trans.on Systems，Man，and Cybernetics，Part B：Cybernetics，2010，40（1）：19-28.

［14］ Torkestani J A.An Adaptive Focused Web Crawling Algorithm based on Learning Automata［J］.Applied Intelligence，2012，37（4）：586-601.

［15］ Torkestani J A.Mobility Prediction in Mobile Wireless Networks［J］.Journal of Network and Computer Applications，2012，35（5）：1633-1645.

［16］ Cuevas E，Wario F，Zaldivar D，et al.Circle Detection on Images Using Learning Automata［M］.Artificial Intelligence，Evolutionary Computing and Metaheuristics.Berlin Heidelberg：Springer，2013：545-570.

［17］ Torkestani J A，Pisheh E G.A Learning Automata-based Blood glucose Regulation Mechanism in Type 2 Diabetes［J］.Control Engineering Practice，2014，26：151-159.

［18］ Santharam G，Sastry P S，Thathachar M A L.Continuous Action set Learning Automata for Stochastic Optimization［J］.Journal of the Franklin Institute，1994，331B（5）：607-628.