• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      探究磁導航AGV深度強化學習路徑跟蹤控制方法

      2020-12-07 08:46:44楊雯
      魅力中國 2020年3期
      關鍵詞:磁條驅動輪梯度

      楊雯

      (山東愛普電氣設備有限公司,山東 濟南 250101)

      引言

      自動引導小車AGV(automatedguidedvehicle),是現(xiàn)代物流系統(tǒng)中的重要成員,它具有自動化集成度高、柔性好、可靠性高、自動導航運行、安裝便利及使用方便等特點。AGV的導航方式眾多,包括視覺導航、GPS導航、激光導航、磁帶導引。其中磁帶導引由于實現(xiàn)簡單,造價便宜,抗干擾能力強在工程領域應用最廣。

      一、AGV總體結構和控制系統(tǒng)組成

      本文設計的磁導航AGV由本體結構、電氣控制單元和傳感器檢測單元三部分組成。AGV本體結構為六輪式結構,由位于車體中部驅動單元的兩驅動輪和前后四個萬向輪組成。兩驅動輪由兩個步進電機通過差速驅動實現(xiàn)AGV直行、轉向、避障等運動。

      電控單元中采用西門子S7-200系列PLCCPU224XP作為主控制器,用PTO脈沖輸出方式完成AGV加速啟動和減速停止時的步進電機控制,PWM脈沖輸出方式完成軌跡跟蹤時的電機控制。傳感器檢測單元由用于磁條路徑檢測的磁傳感器和用于避障的超聲波傳感器和接觸式防撞傳感器組成,其中磁傳感器為AGV的“眼睛”,通過讀取磁條獲取小車位置和偏移狀態(tài)信息,主控制單元通過對其所得到的信息進行分析,得到不同偏移狀態(tài)時的電機控制量,從而達到對AGV準確控制的目的。

      二、路徑跟蹤深度強化學習控制策略

      路徑跟蹤問題馬爾科夫建模強化學習是一類用于解決馬爾可夫決策過程MDP)問題的算法集合,需將目標任務轉化為MDP問題才能應用強化學習算法。包括4個部分的設計,分別為智能體、狀態(tài)空間、動作空間與獎勵函數(shù),智能體在本文中即為第一章所描述的AGV模型。

      (一)智能體狀態(tài)空間設計

      考慮到磁導航AGV通常只能得到磁感應器中心點與磁條中心點的偏差距離這一外界信息。所以在感應信息缺乏的情況下,若只利用傳感器當前的觀測信號作為狀態(tài)表示,其狀態(tài)表示只能反映AGV車身一點與磁條的距離,并不能體現(xiàn)AGV車身方向與磁條路徑方向之間的夾角。上述問題也被稱為混淆狀態(tài)問題,該狀態(tài)表示不滿足馬爾科夫特性。于是考慮加入最近N步的歷史狀態(tài)共同構建狀態(tài)表示。

      (二)智能體動作空間設計

      由于AGV由轉向驅動輪驅動,因此對AGV的控制輸出為驅動輪轉動力矩與驅動輪轉向力矩,兩個力矩分別控制主動輪的轉速與方向。伺服電機可輸出的力矩范圍是比較大的,若直接使用輸出力矩大小作為智能體的動作輸出空間可能導致兩個問題,其一是由于連續(xù)的動作行為是被獨立隨機選擇的所以在訓練的過程中智能體可能會連續(xù)輸出兩個差距較大的力矩值,這種情況可能會對電機的使用壽命造成影響,其二是智能體的動作空間越大其訓練的時間也會越長,原因是導致探索的狀態(tài)空間變大了。

      (三)策略函數(shù)參數(shù)更新方法

      策略函數(shù)的更新使用了確定性策略梯度算法。確定性策略的梯度的存在,確定性策略梯度的提出避免了算法在動作空間上的積分計算,使得策略梯度的估計效率大大的超過了隨機策略梯度算法。與隨機策略不同的是確定性策略的動作輸出不存在隨機性,無法對狀態(tài)空間進行探索,所以在使用確定性策略算法時需要在輸出動作時加入隨機的探索噪音以實現(xiàn)對狀態(tài)空間的探索。

      三、算法執(zhí)行流程

      算法在應用前需要進行一段時間的訓練,并在算法收斂后結束該階段。最終得到的策略函數(shù)即為將當前AGV的狀態(tài)輸入映射為動作輸出的路徑跟蹤控制器。訓練階段結束后只保留策略函數(shù)部分作為AGV的路徑跟蹤控制器?;静襟E如下:(1)獲取AGV狀態(tài)信號st輸入到策略函數(shù)網絡中;(2)策略函數(shù)接收輸入狀態(tài)信號st后生成動作at作為輸出,在加入探索噪音后返回給AGV執(zhí)行;(3)AGV執(zhí)行動作at后得到獎勵rt與下一個狀態(tài)st+1,組合前一時刻狀態(tài)信號st并加入歷史信號后組成經驗樣本e(St,at,rt,St+1)存儲到大小為1×10 4的經驗緩存池中;(4)從經驗緩存池中隨機采樣一個batch的經驗樣本用于訓練;(5)使用采樣的經驗樣本,用式(12)計算損失函數(shù);(6)通過隨機梯度下降的優(yōu)化方法最小化損失函數(shù)來更新值函數(shù)逼近網絡QSt,at|()ω的參數(shù)ω;(7)通過確定性策略梯度算法式來更新策略函數(shù)網絡μst|()θ的參數(shù)θ。

      結語

      仿真結果及分析路徑跟蹤仿真中使用了兩個半徑分別為6m與4m的圓弧連接3段直線作為跟蹤路徑。首先在訓練階段中,考慮到磁條傳感器的寬度通常為20cm,其最大測量誤差為±10cm。所以將誤差允許范圍限定為±10cm,當AGV的跟蹤誤差大于±10cm時則判定出軌并結束本次跟蹤任務,將AGV重置為誤差在±10cm范圍內的隨機初始狀態(tài),進入下次迭代。AGV每次出軌或是行駛完跟蹤路徑的全程則為一次完整的。在模型性能驗證中,AGV的起點坐標為(9.9.0),初始誤差設置為0.1m,去除探索噪音只保留策略函數(shù)部分作為控制輸出。

      猜你喜歡
      磁條驅動輪梯度
      基于正交試驗的整車驅動輪滾動阻力因素分析
      電驅動輪輪轂設計及有限元分析
      一個改進的WYL型三項共軛梯度法
      管外爬行機器人驅動輪動力特性與模態(tài)分析
      一種自適應Dai-Liao共軛梯度法
      一種新型掘進機行走驅動輪設計方案
      一類扭積形式的梯度近Ricci孤立子
      透視眼
      刮磁條
      地溫梯度判定地熱異常的探討
      河南科技(2014年3期)2014-02-27 14:05:45
      武鸣县| 湖州市| 苍溪县| 奎屯市| 琼中| 宝鸡市| 襄城县| 建昌县| 咸阳市| 乐清市| 南靖县| 桑日县| 泰和县| 大连市| 龙井市| 丹东市| 察哈| 和田市| 石家庄市| 娄底市| 象州县| 汶川县| 平和县| 盐池县| 扎鲁特旗| 安阳县| 神农架林区| 石泉县| 平利县| 饶平县| 乐昌市| 华安县| 梁山县| 营口市| 莎车县| 永昌县| 渭南市| 罗田县| 大城县| 东源县| 彩票|