• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于Q學(xué)習(xí)參數(shù)辨識的動物學(xué)習(xí)能力評價方法

      2022-11-04 07:10:12馮浩然尚志剛楊莉芳靳富麗馬佐豪
      科學(xué)技術(shù)與工程 2022年27期
      關(guān)鍵詞:馬爾科夫決策狀態(tài)

      馮浩然, 尚志剛*, 楊莉芳, 靳富麗, 馬佐豪

      (1.鄭州大學(xué)電氣工程學(xué)院, 鄭州 450000; 2.河南省腦科學(xué)與腦機(jī)接口技術(shù)重點實驗室, 鄭州 450000)

      馬爾科夫決策理論是數(shù)學(xué)上表達(dá)強(qiáng)化學(xué)習(xí)的理想化形式,被廣泛應(yīng)用于動物的行為決策研究中[1]。如何評價動物在馬爾科夫決策任務(wù)中利用過去經(jīng)驗與重視未來獎勵的學(xué)習(xí)能力,對于動物行為學(xué)與心理學(xué)研究至關(guān)重要[2-4]。

      早期的學(xué)者已經(jīng)在不同行為決策問題中對動物的學(xué)習(xí)能力進(jìn)行了探索。Paterson[5]通過簡單行為決策任務(wù)分析了豬、山羊、牛是否能從已知事件推斷未知事件,并發(fā)現(xiàn)不同物種之間存在認(rèn)知與決策能力的差異。Kilgour[6]使用Hebb-Williams迷宮比較了綿羊、牛、豬、山羊、狗在一系列路徑選擇問題中的學(xué)習(xí)能力。但是早期的研究只關(guān)注與評價不同物種之間學(xué)習(xí)能力,實驗范式設(shè)計過于簡單,沒有對實驗對象的學(xué)習(xí)能力進(jìn)行量化處理。近20年來,強(qiáng)化學(xué)習(xí)理論得到發(fā)展,而馬爾科夫決策理論框架作為交互式學(xué)習(xí)問題的高度抽象,使動物行為決策問題研究得到進(jìn)一步發(fā)展[7-8]。在馬爾科夫決策任務(wù)中,Watkins等[9]提出的Q-learning模型作為一種離線差分算法,克服了模型對策略估計的困難,是價值學(xué)習(xí)研究中最常見的數(shù)學(xué)模型。在Q-learning模型中,智能體根據(jù)策略在狀態(tài)st執(zhí)行動作at,環(huán)境反饋獎勵rt,并到達(dá)新的狀態(tài)st+1。根據(jù)獎勵更新狀態(tài)-動作對的Q值,智能體一直重復(fù)上述操作,直到訓(xùn)練結(jié)束[10]。

      Rose等[11]訓(xùn)練鴿子完成基于視覺線索的馬爾科夫決策任務(wù),建立了Q-learning模型模擬鴿子行為,并證明了獎勵大小對學(xué)習(xí)過程的影響可以通過Q-learning模型準(zhǔn)確地反映。Ito等[12]分析了大鼠在隨機(jī)獎勵的馬爾科夫決策任務(wù)中的行為策略,在比較多種數(shù)學(xué)模型后,發(fā)現(xiàn)Q-learning模型能夠更好地預(yù)測大鼠的行為決策。師黎等[13]提出了一種動態(tài)學(xué)習(xí)率的Q-learning模型,完成了鴿子顏色刺激-抉擇認(rèn)知訓(xùn)練,以學(xué)習(xí)率α的動態(tài)變化準(zhǔn)確地描述了鴿子的行為決策。陶夢妍[14]引入主觀價值因素,提出了一種新的動態(tài)強(qiáng)化學(xué)習(xí)模型,提高了動物行為的預(yù)測精度。阮曉鋼等[15]受嚙齒類動物利用嗅覺線索進(jìn)行空間導(dǎo)航的啟發(fā),提出了一種基于氣味獎勵引導(dǎo)的Q-learning環(huán)境認(rèn)知策略,有助于增強(qiáng)動物對于環(huán)境的認(rèn)知能力。對于馬爾科夫決策任務(wù)中動物行為決策問題的探索,現(xiàn)階段研究已經(jīng)取得了一些進(jìn)展,但是,大多數(shù)只是利用Q-learning模型對動物的行為決策進(jìn)行描述或預(yù)測,而個體間學(xué)習(xí)能力的差異才是導(dǎo)致行為決策不同的根本原因,關(guān)于學(xué)習(xí)能力評價的研究卻少有涉及。

      在馬爾科夫決策任務(wù)中,動物的學(xué)習(xí)能力與諸多因素有關(guān)。為最大化累計獎勵,動物既需要合理利用過去積累經(jīng)驗對當(dāng)前動作做出選擇,又需要考慮當(dāng)前動作對未來狀態(tài)的影響[16-17]。在Q-learning模型中,學(xué)習(xí)率α(0<α≤1)表示智能體權(quán)衡當(dāng)前學(xué)習(xí)結(jié)果與過去積累經(jīng)驗的比值,α越接近0,表示智能體利用過去積累經(jīng)驗對當(dāng)前動作做出選擇的能力越強(qiáng),α越接近1,表示智能體利用過去積累經(jīng)驗的比重越少。折扣因子γ(0<γ≤1)表示智能體對未來獎勵的重視程度,γ越接近1,表示智能體越重視未來獎勵,γ越接近0,表示智能體“目光短淺”,只看重即時獎勵。在馬爾科夫決策理論框架下,智能體的“目標(biāo)”是最大化累計獎勵,為完成該“目標(biāo)”,一個學(xué)習(xí)能力強(qiáng)的智能體應(yīng)充分利用過去積累的經(jīng)驗知識,同時考慮未來獎勵,其模型參數(shù)應(yīng)呈現(xiàn)“學(xué)習(xí)率α較小,折扣因子γ較大”的特點,而對于學(xué)習(xí)能力較差的智能體,其Q-learning模型參數(shù)應(yīng)該與之有所區(qū)別。

      為了探究馬爾科夫決策任務(wù)中不同個體之間利用過去經(jīng)驗與重視未來獎勵的學(xué)習(xí)能力差異,首先選擇色彩辨識能力與認(rèn)知能力都很優(yōu)秀的家鴿作為實驗動物[18-20],然后確定家鴿在該任務(wù)中對最優(yōu)策略的習(xí)得程度,最后用Q-learning模型參數(shù)對(α,γ)評價不同家鴿的學(xué)習(xí)能力。

      1 材料與方法

      1.1 實驗動物

      實驗動物選用成年家鴿(質(zhì)量:400~550 g; 平均年齡:2.1歲),雌雄不拘,身體健康。飼養(yǎng)環(huán)境為3 m×3 m×2 m的鴿舍,食物與水供應(yīng)充足,體重保持在正常體重的85%以上。實驗動物經(jīng)鄭州大學(xué)生命科學(xué)倫理審查委員會審查,符合各項規(guī)定。

      1.2 實驗設(shè)備及范式設(shè)計

      如圖1所示,所有實驗均在馬爾科夫決策任務(wù)訓(xùn)練箱中進(jìn)行。訓(xùn)練箱前端兩側(cè)各有一個按鍵,中間有一個食盒,箱體內(nèi)部右上方有一個提示燈。按鍵底部安裝有背光燈,按鍵在亮燈狀態(tài)下可以被按下。當(dāng)動作選擇正確時,食盒會進(jìn)入訓(xùn)練箱并持續(xù)2 000 ms。提示燈閃爍2次標(biāo)志實驗開始。

      為了探究馬爾科夫決策任務(wù)中家鴿的學(xué)習(xí)能力差異,設(shè)計了含有狀態(tài)轉(zhuǎn)移概率的馬爾科夫決策任務(wù)。如圖2所示,實驗開始后,進(jìn)入1 500 ms的等待期,然后兩個按鍵同時亮起紅燈或綠燈,概率P均為50%。每次亮燈狀態(tài)下家鴿均有兩個動作選擇:啄左鍵或啄右鍵。若1 500 ms等待期后按鍵同時亮紅燈,那么該狀態(tài)下兩個動作選擇均不會得到獎勵,但會影響下一次狀態(tài)轉(zhuǎn)移概率。紅燈狀態(tài)下,啄右鍵,下一次亮綠燈概率為80%,啄左鍵,下一次亮紅燈概率為80%。若1 500 ms等待期后按鍵同時亮綠燈,那么該狀態(tài)下兩個動作選擇均會得到獎勵,同時影響下一次狀態(tài)轉(zhuǎn)移概率。綠燈狀態(tài)下,啄左鍵,下一次亮綠燈概率為90%,啄右鍵,下一次亮紅燈概率為90%。在進(jìn)入下一次亮燈狀態(tài)之前都會有1 500 ms的試次間隔時期(inter-tribal interval, ITI)。由于每次啄鍵動作都會影響下一次亮燈狀態(tài),所以除即時獎勵外,家鴿還需要考慮狀態(tài)轉(zhuǎn)移概率,選擇最優(yōu)策略,使累計獎勵最大化。因此,考慮到上述情況,最優(yōu)策略是在紅燈狀態(tài)下啄右鍵,綠燈狀態(tài)下啄左鍵(所有實驗動物在實驗前均完成預(yù)訓(xùn)練,該過程包括建立對訓(xùn)練箱、按鍵、食盒等設(shè)備的認(rèn)知,理解“亮燈狀態(tài)下啄鍵”的任務(wù)需求)。

      圖1 訓(xùn)練箱功能示意圖Fig.1 Schematic diagram of training box function

      圖2 馬爾科夫決策任務(wù)范式流程圖Fig.2 Flow chart of Markov decision-making tasks

      1.3 數(shù)據(jù)獲取與處理

      在所有行為學(xué)數(shù)據(jù)中,未啄鍵試次被認(rèn)為是無效試次,同時,以“均值±3×標(biāo)準(zhǔn)差”作為響應(yīng)時間閾值,響應(yīng)時間過長被認(rèn)為是注意力不集中,響應(yīng)時間過短被認(rèn)為是誤啄,剩余試次被認(rèn)為是有效試次。該任務(wù)范式下家鴿的行為學(xué)數(shù)據(jù)如表1所示。

      表1 家鴿行為學(xué)數(shù)據(jù)表Table 1 Behavioral data sheet of pigeons

      1.4 Q-learning建模

      已有研究證明動物對外部環(huán)境的學(xué)習(xí)是受價值引導(dǎo),并以此影響其行為決策。選用Watkins等[9]提出的Q-learning模型對家鴿在馬爾科夫決策任務(wù)中的行為決策進(jìn)行建模。首先,設(shè)置Q值查找表與Reward表。在該任務(wù)范式中,存在2種狀態(tài):紅燈狀態(tài)與綠燈狀態(tài),2種動作:啄左鍵與啄右鍵,共組成4種狀態(tài)-動作對,故Q矩陣與R矩陣應(yīng)為2×2矩陣,其中,矩陣的行表示狀態(tài),列表示動作。Q查找表如式(1)所示,由于智能體初始狀態(tài)沒有經(jīng)驗知識,故Q查找表各初值定義為0。

      (1)

      Reward表如式(2)所示,在該實驗范式中,紅燈狀態(tài)下兩個動作都沒有獎勵,故第一行各值定義為0,綠燈狀態(tài)下兩個動作都有獎勵,故第二行各值定義為1。

      (2)

      然后,智能體會嘗試探索最優(yōu)策略π*(s),以使累計獎勵最大化Bellman最優(yōu)方程將最優(yōu)策略π*(s)的探索描述為

      (3)

      π*(s)=argmax[Q*(s,a)]

      (4)

      Qt+1(st,at)=Qt(st,at)+αΔQ(st,at)

      (5)

      ΔQ(st,at)=Rt+1+γmaxQ(st+1,a′)-

      Qt(st,at)

      (6)

      式中:α為學(xué)習(xí)率(0<α≤1);γ為折扣因子(0<γ≤1)。接下來,采用網(wǎng)格搜索法,以0.01為步長,將學(xué)習(xí)率α與折扣因子γ進(jìn)行取值,共得到10 000組(α,γ)參數(shù)對,即

      (α,γ)=

      (7)

      1.5 參數(shù)對(α,γ)評價指標(biāo)

      不同的學(xué)習(xí)率α與折扣因子γ對Q-learning模型的行為預(yù)測結(jié)果及收斂性等因素有不同的影響。因此,在得到10 000組參數(shù)對(α,γ)之后,需要進(jìn)行評估與篩選。首先,參數(shù)對(α,γ)應(yīng)使Q-learning模型具有較高的行為預(yù)測正確率;其次,根據(jù)Q-learning收斂定理,如果每個動作在每個狀態(tài)下無限次的執(zhí)行,并且適當(dāng)?shù)乃p學(xué)習(xí)率α,那么Q值將以1的概率收斂到最優(yōu)Q值,但是,由于無法進(jìn)行無限次實驗,需對收斂性進(jìn)行評估;同時,在Q值趨于收斂時,Q-learning模型對不同狀態(tài)下的動作預(yù)測應(yīng)趨于穩(wěn)定,參數(shù)對(α,γ)應(yīng)使Q-learning模型具有較好的動態(tài)預(yù)測穩(wěn)定性。綜上,設(shè)置了三個參數(shù)對(α,γ)評價指標(biāo),分別為①行為預(yù)測正確率、②收斂性、③動態(tài)預(yù)測穩(wěn)定性。

      在評價指標(biāo)①中,通過訓(xùn)練集數(shù)據(jù)對Q-learning模型進(jìn)行訓(xùn)練,并使用測試集數(shù)據(jù)檢驗Q-learning模型的行為預(yù)測正確率,設(shè)置正確率閾值,篩選出能使Q-learning模型行為預(yù)測正確率大于正確率閾值的參數(shù)對(α,γ)。在評價指標(biāo)②中,以方差衡量Q值的收斂性,方差越小,Q值的收斂性越好,設(shè)置方差閾值,篩選出能使Q-learning模型各Q值方差小于方差閾值的參數(shù)對(α,γ)。在評價指標(biāo)③中,以累計誤差衡量訓(xùn)練后的Q-learning模型在測試集數(shù)據(jù)上的動態(tài)預(yù)測穩(wěn)定性。Q-learning模型每更新一次即實時預(yù)測,若當(dāng)前動作預(yù)測正確,累計誤差不變;若當(dāng)前動作預(yù)測錯誤,累計誤差累加“1”(“累計誤差”初始值為0),設(shè)置累計誤差閾值,篩選出能使Q-learning模型動態(tài)預(yù)測累計誤差小于累計誤差閾值的參數(shù)對(α,γ)。最后,將滿足三個評價指標(biāo)的參數(shù)對(α,γ)取交集,得到最能反映家鴿自身行為決策的參數(shù)對(α,γ),以參數(shù)對(α,γ)的不同表征家鴿在馬爾科夫決策任務(wù)中利用過去經(jīng)驗與重視未來獎勵的學(xué)習(xí)能力差異。

      2 結(jié)果

      2.1 行為學(xué)數(shù)據(jù)分析

      為了直觀表現(xiàn)不同家鴿在馬爾科夫決策任務(wù)中對最優(yōu)策略的習(xí)得程度,對整個實驗過程中家鴿的動作選擇情況進(jìn)行分析,結(jié)果如圖3所示。

      從圖3中可以看出,實驗初期,家鴿選擇動作時隨機(jī)性較大,沒有習(xí)得某一固定策略,仍處于探索階段,獎勵試次占比曲線偏低。實驗中期,家鴿的動作選擇呈現(xiàn)出一定的規(guī)律性,逐漸習(xí)得最優(yōu)策略,獎勵試次占比曲線逐漸升高。實驗后期,家鴿的動作選擇情況趨于穩(wěn)定,獎勵試次占比曲線穩(wěn)定在0.9以上。但是,由于不同個體在馬爾科夫決策任務(wù)中的學(xué)習(xí)能力存在差異,所以三只家鴿對最優(yōu)策略的習(xí)得程度有所區(qū)別。根據(jù)獎勵試次占比曲線是否連續(xù)兩個session大于90%,將家鴿的行為學(xué)數(shù)據(jù)劃分為“學(xué)習(xí)期”與“習(xí)得期”。在“習(xí)得期”,P003在紅燈狀態(tài)下只啄右鍵,在綠燈狀態(tài)下只啄左鍵,說明其完全習(xí)得了最優(yōu)策略;P004在紅燈狀態(tài)下右鍵占比曲線波動較大,綠燈狀態(tài)下左鍵占比曲線的收斂性也不如P003與P008,說明其并未完全習(xí)得最優(yōu)策略;P008在紅燈狀態(tài)下只啄右鍵,在綠燈狀態(tài)下大部分試次啄左鍵,但是少數(shù)試次也會啄右鍵(在300~320 trails,綠燈狀態(tài)下左鍵占比曲線有所下降),說明其已經(jīng)習(xí)得紅燈狀態(tài)下的最優(yōu)動作,但對于綠燈狀態(tài)下的最優(yōu)動作并未完全習(xí)得。因此,在該馬爾科夫決策任務(wù)中,P003的學(xué)習(xí)能力最強(qiáng),P008的學(xué)習(xí)能力次之,P004的學(xué)習(xí)能力最差。

      2.2 參數(shù)對(α,γ)評估

      在評價指標(biāo)①中,為了直觀表現(xiàn)不同參數(shù)對(α,γ)對Q-learning模型行為預(yù)測正確率的影響,取“學(xué)習(xí)期”數(shù)據(jù)為訓(xùn)練集,“習(xí)得期”數(shù)據(jù)為測試集,設(shè)置0.8為正確率閾值,對所有參數(shù)對(α,γ)進(jìn)行評估,結(jié)果如圖4所示。

      從圖4中可以看出,在評價指標(biāo)①中參數(shù)對(α,γ)具有區(qū)域性分布的特點,行為預(yù)測正確率最高分別達(dá)到1、0.939 8、0.801 6。以0.8作為正確率閾值,圖4中的黃色區(qū)域為篩選后的參數(shù)對(α,γ)。在該馬爾科夫決策任務(wù)中,由于家鴿個體間利用過去經(jīng)驗與重視未來獎勵的學(xué)習(xí)能力存在差異,導(dǎo)致其對于最優(yōu)策略的習(xí)得程度有所不同。因此,在不同家鴿的行為學(xué)數(shù)據(jù)上,參數(shù)對(α,γ)分布特點有所差異,圖4(a)中,篩選出的參數(shù)對(α,γ)表示P003具有較小的學(xué)習(xí)率α(0.01≤α≤0.48)與較大的折扣因子γ(0.01≤γ≤1),說明P003能夠充分利用過去積累經(jīng)驗對當(dāng)前動作做出選擇,同時重視未來獎勵;圖4(b)中,篩選出的參數(shù)對(α,γ)表示P008具有較大的學(xué)習(xí)率α(0.52≤α≤1)與較大的折扣因子γ(0.01≤γ≤1),說明P004雖然能夠重視未來獎勵,但是其選擇當(dāng)前動作時忽視過去積累經(jīng)驗;圖4(c)中,篩選出的參數(shù)對(α,γ)表示P008的學(xué)習(xí)率α與折扣因子γ的取值范圍較廣,說明P008利用過去積累經(jīng)驗對當(dāng)前動作做出選擇的能力較差,但是能夠重視未來獎勵。

      在評價指標(biāo)②中,為了直觀表現(xiàn)不同參數(shù)對(α,γ)對各Q值收斂性的影響,對Q-learning模型更新過程中各Q值的方差進(jìn)行分析,設(shè)置0.02為方差閾值,對所有參數(shù)對(α,γ)進(jìn)行評估。以P003行為學(xué)數(shù)據(jù)為例,結(jié)果如圖5所示。方差越小,收斂性越好。Q(sr,al)、Q(sr,ar)、Q(sg,al)、Q(sg,ar)分別表示紅燈狀態(tài)下啄左鍵、紅燈狀態(tài)下啄右鍵、綠燈狀態(tài)下啄左鍵、綠燈狀態(tài)下啄右鍵的Q值。

      圖3 馬爾科夫決策任務(wù)中家鴿動作選擇情況Fig.3 Pigeons’ action selection in Markov decision-making tasks

      圖4 評價指標(biāo)①中參數(shù)對(α,γ)評估情況Fig.4 Evaluation of parameter pairs (α,γ) in evaluation index①

      從圖5中可以看出,Q(sr,al)、Q(sr,ar)、Q(sg,al)、Q(sg,ar)的收斂性均隨著參數(shù)對(α,γ)的增大而變差,以0.02作為方差閾值,圖中的黃色區(qū)域之外為篩選后的參數(shù)對(α,γ)。結(jié)果表明,當(dāng)折扣因子γ取值過大時(0.68≤γ≤1),Q-learning模型的收斂性較差,無法滿足該評價指標(biāo)。

      在評價指標(biāo)③中,為了直觀表現(xiàn)不同參數(shù)對(α,γ)對Q-learning模型動態(tài)預(yù)測穩(wěn)定性的影響,對經(jīng)過訓(xùn)練的Q-learning模型進(jìn)行動態(tài)預(yù)測分析,設(shè)置0.15為累計誤差閾值,對所有參數(shù)對(α,γ)進(jìn)行評估。結(jié)果如圖6所示,累計誤差越高,顏色越偏向藍(lán)色表示累計誤差越低。

      圖5 評價指標(biāo)②中參數(shù)對(α,γ)評估情況(以P003為例)Fig.5 Evaluation of parameter pairs (α,γ) in evaluation index②(take P003 as an example)

      從圖6中可以看出,當(dāng)學(xué)習(xí)率α取值較小時,Q-learning模型在家鴿測試集數(shù)據(jù)上的動態(tài)預(yù)測累計誤差較小。結(jié)果表明,以0.15作為累計誤差閾值,所有參數(shù)對(α,γ)均能使Q-learning模型在P003的測試集數(shù)據(jù)上具有較好的動態(tài)預(yù)測穩(wěn)定性,P004、P008的測試集數(shù)據(jù)篩選出的參數(shù)對(α,γ)為藍(lán)色區(qū)域。

      圖6 評價指標(biāo)③中參數(shù)對(α,γ)評估情況Fig.6 Evaluation of parameter pairs (α,γ) in evaluation index③

      2.3 學(xué)習(xí)能力評價

      為了篩選最符合家鴿動作選擇情況的參數(shù)對(α,γ),設(shè)置了三個評價指標(biāo),并對各指標(biāo)評估結(jié)果取交集,得到了在該任務(wù)中能夠反應(yīng)不同家鴿學(xué)習(xí)能力的模型參數(shù)對(α,γ),結(jié)果如圖7所示。橫坐標(biāo)表示折扣因子γ的取值情況,縱坐標(biāo)表示學(xué)習(xí)率α的取值情況,三個圖層分別為表征P003、P004、P008在該任務(wù)中學(xué)習(xí)能力的參數(shù)對(α,γ)。

      從圖7中可以看出,篩選后的Q-learning模型參數(shù)對(α,γ)在P003行為學(xué)數(shù)據(jù)中主要分布在(α≤0.23,γ≤0.56)區(qū)域;在P004行為學(xué)數(shù)據(jù)中主要分布在(α=1,γ≤0.08)區(qū)域;在P008行為學(xué)數(shù)據(jù)中主要分布在(α≤0.14,γ≤0.35)區(qū)域內(nèi)。圖3與圖7綜合分析,可以看出P003的學(xué)習(xí)率α較小,折扣因子γ較大,說明其能夠充分利用過去積累經(jīng)驗對當(dāng)前動作做出選擇,同時能夠重視未來獎勵,因此在馬爾科夫決策任務(wù)中利用過去經(jīng)驗與重視未來獎勵的學(xué)習(xí)能力最強(qiáng);P008的學(xué)習(xí)率α較小,但是折扣因子γ的取值范圍小于P003,說明其能夠利用過去積累經(jīng)驗,但是對未來獎勵的重視程度不及P003,因此其利用過去經(jīng)驗與重視未來獎勵的學(xué)習(xí)能力次之;P004的學(xué)習(xí)率α過大,折扣因子γ過小,說明其對當(dāng)前動作進(jìn)行選擇時忽視了過去積累經(jīng)驗,同時不重視未來獎勵,因此其利用過去經(jīng)驗與重視未來獎勵的學(xué)習(xí)能力最差。

      圖7 參數(shù)對(α,γ)分布情況Fig.7 Distribution of parameter pairs (α,γ)

      3 結(jié)論

      為了評價動物在馬爾科夫決策任務(wù)中利用過去經(jīng)驗與重視未來獎勵的學(xué)習(xí)能力,訓(xùn)練家鴿執(zhí)行含有狀態(tài)轉(zhuǎn)移概率的馬爾科夫決策任務(wù),提出了一種以Q-learning模型參數(shù)對其學(xué)習(xí)能力進(jìn)行評價的方法。首先,針對Q-learning模型的主要參數(shù)學(xué)習(xí)率α與折扣因子γ采用網(wǎng)格搜索法,以0.01為步長,將參數(shù)對(α,γ)分為10 000組。然后,為篩選能使Q-learning模型預(yù)測效果最佳的參數(shù)對(α,γ),設(shè)置了三個評價指標(biāo)。最后,通過將家鴿的行為學(xué)數(shù)據(jù)與Q-learning模型參數(shù)綜合分析,得出如下結(jié)論。

      (1)表征動物行為決策的最佳Q-learning模型參數(shù)可以通過三個評價指標(biāo)篩選后得到,分別為行為預(yù)測正確率、收斂性、動態(tài)預(yù)測穩(wěn)定性。

      (2)在馬爾科夫決策任務(wù)中,動物利用過去經(jīng)驗與重視未來獎勵的學(xué)習(xí)能力可以通過Q-learning模型參數(shù)進(jìn)行評價。其中,學(xué)習(xí)率表征了動物利用過去積累經(jīng)驗做出選擇的能力,折扣因子表征了動物對未來獎勵的重視程度。

      猜你喜歡
      馬爾科夫決策狀態(tài)
      為可持續(xù)決策提供依據(jù)
      基于疊加馬爾科夫鏈的邊坡位移預(yù)測研究
      基于改進(jìn)的灰色-馬爾科夫模型在風(fēng)機(jī)沉降中的應(yīng)用
      狀態(tài)聯(lián)想
      決策為什么失誤了
      生命的另一種狀態(tài)
      熱圖
      家庭百事通(2016年3期)2016-03-14 08:07:17
      堅持是成功前的狀態(tài)
      山東青年(2016年3期)2016-02-28 14:25:52
      馬爾科夫鏈在教學(xué)評價中的應(yīng)用
      基于馬爾科夫法的土地格局變化趨勢研究
      河南科技(2014年11期)2014-02-27 14:10:11
      新疆| 上饶市| 黄平县| 梓潼县| 万宁市| 宁南县| 盘锦市| 高安市| 灵石县| 比如县| 建德市| 呼和浩特市| 三门峡市| 丹阳市| 汕尾市| 宣城市| 定边县| 潼南县| 邢台市| 获嘉县| 金堂县| 瑞昌市| 疏勒县| 西宁市| 宝兴县| 军事| 河北区| 阳谷县| 奇台县| 巩留县| 泾川县| 台东县| 汝州市| 清涧县| 宽甸| 阳曲县| 洛隆县| 卓尼县| 卓资县| 英德市| 拉孜县|