• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于Actor-Critic強(qiáng)化學(xué)習(xí)的倒立擺智能控制方法

      2019-01-11 03:14:04邱宇宸
      關(guān)鍵詞:擺桿小車神經(jīng)網(wǎng)絡(luò)

      邱宇宸

      (南京市第二十九中學(xué),江蘇 南京 210036)

      自從Deepmind推出的智能圍棋手擊敗人類圍棋專業(yè)選手李世石后,強(qiáng)化學(xué)習(xí)理論引起全世界人工智能學(xué)者的關(guān)注[1]。強(qiáng)化學(xué)習(xí)是一種有別于監(jiān)督學(xué)習(xí)和非監(jiān)督學(xué)習(xí)的一種智能學(xué)習(xí)方法,亦叫弱監(jiān)督學(xué)習(xí)[2-4]。該方法主要基于馬爾科夫隨機(jī)過(guò)程的基礎(chǔ)上,基于環(huán)境的稀疏反饋(獎(jiǎng)勵(lì))學(xué)習(xí)到期望的動(dòng)作準(zhǔn)則[5]。強(qiáng)化學(xué)習(xí)的方法,目前被廣泛用于離散系統(tǒng)的優(yōu)化控制,如機(jī)器人路徑探索與規(guī)劃,以及設(shè)計(jì)復(fù)雜游戲自動(dòng)玩家[3,4]。顯然,這些都是未知建?;蚴遣豢山5膭?dòng)態(tài)。

      倒立擺作為經(jīng)典的機(jī)器系統(tǒng),是測(cè)試和驗(yàn)證控制算法及理論的代表性設(shè)備[6-9]。實(shí)際上,在倒立擺模型物理信息明確的情況下,傳統(tǒng)的控制方法已經(jīng)得到非常理想的控制效果。但如果其模型信息未知,比如擺的質(zhì)量、初始化狀態(tài)等,傳統(tǒng)的控制理論可能無(wú)法奏效。本文將提出一種基于Actor-Critic強(qiáng)化學(xué)習(xí)的倒立擺智能控制方法,為模型不確定的機(jī)器設(shè)備的控制提供參考方案。

      一、倒立擺物理模型

      圖1 倒立擺模型示意圖

      在忽略空氣助力的情況下,倒立擺系統(tǒng)的動(dòng)力學(xué)模型可表示為:

      (1)

      (2)

      以上兩個(gè)式子中,變量的物理意義分別為:M:小車質(zhì)量,m:擺桿質(zhì)量,b:小車摩擦系數(shù),l:擺桿長(zhǎng)度,I:擺桿慣量, :擺桿與垂直向上方向的夾角。其中,(1)式是小車水平受力平衡得到,(2)式則是通過(guò)擺桿的力學(xué)平衡建立。

      二、Actor-Critic算法原理

      Actor-Critic算法原理的結(jié)構(gòu)如圖2所示。在理論上,Actor-Critic算法是強(qiáng)化學(xué)習(xí)算法的一種,主要是針對(duì)符合馬爾科夫過(guò)程設(shè)計(jì)。算法工作流程如下:(1)策略網(wǎng)絡(luò)Actor根據(jù)環(huán)境狀態(tài)輸出動(dòng)作;(2)環(huán)境根據(jù)動(dòng)作更新狀態(tài)并給出獎(jiǎng)勵(lì);(3)評(píng)價(jià)網(wǎng)絡(luò)Critic根據(jù)環(huán)境狀態(tài)和Actor輸出的動(dòng)作進(jìn)行評(píng)價(jià);(4)根據(jù)Critic的評(píng)價(jià),策略網(wǎng)絡(luò)Actor調(diào)整自身的動(dòng)作策略(5)評(píng)價(jià)網(wǎng)絡(luò)Critic則根據(jù)獎(jiǎng)勵(lì)值更新評(píng)價(jià)準(zhǔn)則。循環(huán)執(zhí)行該過(guò)程,直到兩個(gè)網(wǎng)絡(luò)收斂。圖中的TD error意為前后兩次采樣時(shí)間評(píng)價(jià)網(wǎng)絡(luò)的打分的差值[5]。通過(guò)TD error來(lái)訓(xùn)練強(qiáng)化學(xué)習(xí)模型的方法實(shí)現(xiàn)學(xué)習(xí)機(jī)的單步更新,縮短了訓(xùn)練的時(shí)間[6]。

      圖2 Actor-Critic算法原理圖

      本質(zhì)上,策略網(wǎng)絡(luò)Actor和評(píng)價(jià)網(wǎng)絡(luò)Critic可分別理解為解析式未知的動(dòng)作函數(shù)和值函數(shù),因此可以采用神經(jīng)網(wǎng)絡(luò)的方法對(duì)這兩個(gè)函數(shù)進(jìn)行學(xué)習(xí)逼近。當(dāng)網(wǎng)絡(luò)收斂時(shí),即學(xué)到了相應(yīng)函數(shù)的“黑盒”表達(dá)。文中策略網(wǎng)絡(luò)Actor和評(píng)價(jià)網(wǎng)絡(luò)Critic分別由兩個(gè)RBF神經(jīng)網(wǎng)絡(luò)構(gòu)成。

      RBF神經(jīng)網(wǎng)絡(luò)是仿生學(xué)、應(yīng)用數(shù)學(xué)結(jié)合的產(chǎn)物[10-12],也是目前主流的人工智能算法之一。通過(guò)非線性映射及加權(quán)組合,RBF神經(jīng)網(wǎng)絡(luò)能以任意精度逼近任意連續(xù)函數(shù)[13,14]。其結(jié)構(gòu)實(shí)際為三層前向網(wǎng)絡(luò),如圖3所示。

      圖3 RBF神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖

      設(shè)網(wǎng)絡(luò)的輸入向量為x,輸出向量為y,則網(wǎng)絡(luò)的映射關(guān)系可表示為:

      y=θTφ(x)

      (3)

      其中φ(x)為輸入的2階范數(shù)的徑向基函數(shù)值,φ(x)=[φ1,φ2,…,φn],對(duì)于每個(gè)有:

      (4)

      式中,b表示徑向基函數(shù)的寬度,c表示函數(shù)的中心。此外,θ=[θ1,θ2,…,θn]為權(quán)向量。在訓(xùn)練過(guò)程中,RBF神經(jīng)網(wǎng)絡(luò)的性能指標(biāo)函數(shù)?。?/p>

      (5)

      其中yd(t)為期望輸出。

      根據(jù)BP訓(xùn)練算法,網(wǎng)絡(luò)參數(shù)的更新公式如下:

      θj(t)=θj(t-1)+η(yd(t)-

      y(t) )φj+α(θj(t-1)-θj(t-2) )

      (6)

      (7)

      bj(t)=bj(t-1)+ηΔbj(t)+

      α(bj(t-1)-bj(t-2))

      (8)

      (9)

      cji(t)=cji(t-1)+ηΔcji(t)+

      α(cji(t-1)-cji(t-2))

      (10)

      三、實(shí)驗(yàn)與分析

      所提出的算法將通過(guò)MATLAB平臺(tái)進(jìn)行仿真實(shí)驗(yàn)。倒立擺物理模型則依照第三節(jié)的模型公式通過(guò)歐拉公式進(jìn)行差分建模,采樣時(shí)間為0.01秒。倒立擺的模型參數(shù)為:M= 1.0kg,m=0.1kg,b=0.0005,l=0.5m,I= 1kg·m2。擺桿的初始偏角為小于2.5°的隨機(jī)值,小車的初始位移為0。小車的最大移動(dòng)位移為2.4m,擺桿的最大擺角為15°。

      在控制算法上,Actor網(wǎng)絡(luò)和Critic網(wǎng)絡(luò)的學(xué)習(xí)率均為0.25,動(dòng)量因子均為0.1。Actor網(wǎng)絡(luò)為4-6-1結(jié)構(gòu),Critic網(wǎng)絡(luò)為5-6-1結(jié)構(gòu)。環(huán)境的獎(jiǎng)勵(lì)模式為:當(dāng)小車超出最大位移或是擺桿超過(guò)最大角度時(shí),獎(jiǎng)勵(lì)為-1;否則獎(jiǎng)勵(lì)為0。當(dāng)控制器使倒立擺系統(tǒng)保持5000個(gè)采樣周期不倒,則認(rèn)為算法訓(xùn)練成功。

      仿真實(shí)驗(yàn)結(jié)果圖4-7所示。從四個(gè)實(shí)驗(yàn)可以看出,所提出的算法能在有限的嘗試次數(shù)內(nèi)學(xué)習(xí)到保持倒立擺平衡的方法。從各個(gè)圖的控制曲線上看,最初都存在震蕩,但最終都會(huì)趨于收斂,使得擺桿偏角為0且小車的位移為0,證明了所設(shè)計(jì)算法的有效性和可行性。

      圖4 第一次實(shí)驗(yàn)(第198次嘗試達(dá)到目的)

      圖5 第二次實(shí)驗(yàn)(第150次嘗試達(dá)到目的)

      圖6 第三次實(shí)驗(yàn)(第184次嘗試達(dá)到目的)

      圖7 第四次實(shí)驗(yàn)(第50次嘗試達(dá)到目的)

      猜你喜歡
      擺桿小車神經(jīng)網(wǎng)絡(luò)
      限位條件下直軌倒立擺擺起控制量的分析研究
      快樂(lè)語(yǔ)文(2020年36期)2021-01-14 01:10:32
      自制小車來(lái)比賽
      一種圓織機(jī)擺桿裝置
      塑料包裝(2019年6期)2020-01-15 07:55:48
      神經(jīng)網(wǎng)絡(luò)抑制無(wú)線通信干擾探究
      電子制作(2019年19期)2019-11-23 08:42:00
      磁浮列車Z 向支撐擺桿斷裂失效成因分析
      劉老師想開小車
      文苑(2018年22期)2018-11-19 02:54:18
      發(fā)射平臺(tái)擺桿機(jī)構(gòu)可靠性分析
      兩輪自平衡小車的設(shè)計(jì)與實(shí)現(xiàn)
      電子制作(2018年8期)2018-06-26 06:43:02
      基于神經(jīng)網(wǎng)絡(luò)的拉矯機(jī)控制模型建立
      渝中区| 巩留县| 黎平县| 怀化市| 萝北县| 新巴尔虎右旗| 牟定县| 罗源县| 乌兰县| 柘荣县| 毕节市| 河间市| 萍乡市| 板桥市| 淄博市| 古蔺县| 石门县| 浪卡子县| 武义县| 女性| 昆山市| 桂林市| 淳化县| 边坝县| 马山县| 杭锦旗| 德格县| 长岛县| 岑溪市| 白山市| 汶上县| 巴东县| 合作市| 巨鹿县| 济南市| 九龙城区| 昌江| 阳城县| 峨边| 平泉县| 元谋县|