• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      煤礦井下掘進(jìn)機(jī)器人路徑規(guī)劃方法研究

      2024-04-28 07:06:12張旭輝鄭西利楊文娟李語陽
      煤田地質(zhì)與勘探 2024年4期
      關(guān)鍵詞:碰撞檢測(cè)巷道機(jī)器人

      張旭輝,鄭西利,楊文娟,*,李語陽,麻 兵,董 征,陳 鑫

      (1.西安科技大學(xué) 機(jī)械工程學(xué)院,陜西 西安 710054;2.陜西省礦山機(jī)電裝備智能監(jiān)測(cè)重點(diǎn)實(shí)驗(yàn)室,陜西 西安 710054)

      目前,煤礦機(jī)器人的研究還存在諸多難題,特別是煤礦掘進(jìn)機(jī)器人受巷道特殊的非結(jié)構(gòu)化環(huán)境及復(fù)雜工藝流程制約,自主化、智能化水平相對(duì)較低[1-3]。在非全斷面巷道作業(yè)時(shí),主要依靠人工操作將掘進(jìn)機(jī)器人移機(jī)進(jìn)行二次截割以完成斷面成形任務(wù),但由于井下環(huán)境惡劣,人工移機(jī)操作難度大、效率低下,并且存在較大的安全隱患。因此,研究掘進(jìn)機(jī)器人的自主移機(jī)是實(shí)現(xiàn)煤礦無人化開采的重要一環(huán)[4-6],而非全斷面巷道作業(yè)條件下的掘進(jìn)機(jī)器人路徑規(guī)劃是實(shí)現(xiàn)自主移機(jī)的前提,同時(shí)對(duì)提高掘進(jìn)工作面智能化水平、掘進(jìn)作業(yè)效率及巷道斷面成形質(zhì)量均具有重要意義。

      煤礦掘進(jìn)機(jī)器人是一種特殊的履帶式機(jī)器人[7-8],其工作環(huán)境為狹長巷道,作業(yè)時(shí)極易發(fā)生碰撞,因此研究掘進(jìn)機(jī)器人與巷道側(cè)壁的碰撞檢測(cè),對(duì)機(jī)器人規(guī)劃一條安全、無碰撞的可行路徑具有重要意義[9]。針對(duì)機(jī)器人碰撞檢測(cè)問題,國內(nèi)外學(xué)者進(jìn)行了大量研究。碰撞檢測(cè)主要關(guān)注在二維或三維環(huán)境中,確定兩個(gè)或多個(gè)物體在運(yùn)動(dòng)過程中是否相互接觸或相交。常見的三維碰撞檢測(cè)方法主要有圖像空間法[10-11]、空間剖分法[12-13]和層次包圍盒法[14-15]。圖像空間法可以將三維模型在預(yù)設(shè)的二維平面上進(jìn)行投影,再基于二維空間中圖像采樣及對(duì)應(yīng)深度信息判斷三維模型相交情況,該方法受限于圖像分辨率,檢測(cè)結(jié)果不夠精確??臻g剖分法主要是利用某種規(guī)則把空間分割成若干個(gè)子空間,然后在子空間內(nèi)對(duì)碰撞檢測(cè)進(jìn)行單獨(dú)處理,同時(shí)采用降低子空間內(nèi)無關(guān)對(duì)象相交測(cè)試的方法來縮短碰撞檢測(cè)所需的時(shí)間,該方法可在一定程度上處理多設(shè)備間的碰撞檢測(cè),但在處理形體過大或復(fù)雜物體的碰撞檢測(cè)時(shí)具有局限性。層次包圍盒法通過將被檢測(cè)對(duì)象的包圍盒進(jìn)行層次化組織,形成一個(gè)樹結(jié)構(gòu),從而實(shí)現(xiàn)更加快速和準(zhǔn)確的碰撞檢測(cè),該方法在機(jī)器人碰撞檢測(cè)方面應(yīng)用廣泛。

      針對(duì)掘進(jìn)機(jī)器人路徑規(guī)劃問題,眾多學(xué)者進(jìn)行了深入研究。在機(jī)器人路徑規(guī)劃方面,常見的方法主要有4 類:人工勢(shì)場(chǎng)和模糊邏輯法等傳統(tǒng)方法[16-17]、A*算法和柵格法等圖形學(xué)方法[18-20]、蟻群算法和粒子群優(yōu)化算法等智能仿生學(xué)方法[21-23]以及策略梯度法和模仿學(xué)習(xí)法等強(qiáng)化學(xué)習(xí)方法[24-25]?;趥鹘y(tǒng)方法的路徑規(guī)劃描述簡單易于實(shí)現(xiàn),但容易陷入局部最優(yōu)解。基于圖形學(xué)方法的路徑規(guī)劃可提供建模方法,但大多將機(jī)器人以質(zhì)點(diǎn)處理,且搜索效率低下。基于智能仿生學(xué)方法的路徑規(guī)劃具有仿生學(xué)特點(diǎn),更加智能高效,但收斂速度較慢。以上研究集中在移動(dòng)機(jī)器人的避障路徑規(guī)劃,研究對(duì)象以小型移動(dòng)機(jī)器人為主,在掘進(jìn)機(jī)器人機(jī)身路徑規(guī)劃方面研究較少。由于煤礦巷道成形精度取決于截割軌跡,對(duì)掘進(jìn)機(jī)器人機(jī)身路徑規(guī)劃和截割臂控制精度提出更高的要求。為保證狹長巷道中掘進(jìn)機(jī)器人路徑的可行性,須考慮掘進(jìn)機(jī)器人自身大小,從而得到合理的規(guī)劃路徑。

      因此,通過對(duì)虛擬環(huán)境碰撞檢測(cè)、智能體全局路徑規(guī)劃等內(nèi)容展開研究,提出一種基于深度強(qiáng)化學(xué)習(xí)的掘進(jìn)機(jī)器人機(jī)身路徑規(guī)劃方法,在井下非結(jié)構(gòu)化環(huán)境條件下為機(jī)器人規(guī)劃安全可行路徑。首先,利用深度相機(jī)構(gòu)建三維巷道模型,采用包圍盒技術(shù)實(shí)現(xiàn)掘進(jìn)機(jī)器人運(yùn)動(dòng)模型與三維巷道模型之間的碰撞檢測(cè),形成掘進(jìn)機(jī)器人路徑規(guī)劃過程中的邊界避障策略。其次,基于獎(jiǎng)懲機(jī)制構(gòu)建智能體,并采用深度強(qiáng)化學(xué)習(xí)技術(shù)對(duì)其進(jìn)行訓(xùn)練,完成掘進(jìn)機(jī)器人機(jī)身路徑規(guī)劃。最后,搭建掘進(jìn)機(jī)器人路徑規(guī)劃實(shí)驗(yàn)平臺(tái),對(duì)所提方法進(jìn)行驗(yàn)證。以實(shí)現(xiàn)煤礦井下非全斷面作業(yè)條件下的掘進(jìn)機(jī)器人自主移機(jī)路徑規(guī)劃,為井下掘進(jìn)機(jī)設(shè)備的智能化和自動(dòng)化奠定基礎(chǔ)。

      1 掘進(jìn)機(jī)器人路徑規(guī)劃總體方案

      巷道斷面成形作業(yè)時(shí)機(jī)身移動(dòng)多為人工操控,導(dǎo)致掘進(jìn)效率低下、安全性差。解決非全斷面巷道作業(yè)掘進(jìn)機(jī)器人自主移機(jī)難題,需要實(shí)現(xiàn)對(duì)掘進(jìn)機(jī)器人工況環(huán)境的實(shí)時(shí)監(jiān)測(cè)、掘進(jìn)機(jī)器人與掘進(jìn)工作面間的碰撞檢測(cè)以及掘進(jìn)機(jī)器人運(yùn)動(dòng)路徑的自主規(guī)劃。

      因此,在掘進(jìn)機(jī)器人機(jī)身上布置多源傳感器實(shí)現(xiàn)掘進(jìn)工作面環(huán)境實(shí)時(shí)監(jiān)測(cè),在虛擬環(huán)境中構(gòu)建掘進(jìn)機(jī)器人與工作面間的碰撞檢測(cè)模型,生成巷道邊界受限條件下的避障策略,再利用深度強(qiáng)化學(xué)習(xí)方法訓(xùn)練智能體得到掘進(jìn)機(jī)器人全局路徑,并采用虛實(shí)結(jié)合的方式實(shí)現(xiàn)虛實(shí)空間中掘進(jìn)機(jī)器人運(yùn)動(dòng)路徑同步規(guī)劃。

      掘進(jìn)工作面環(huán)境以狹長直行巷道為主,且針對(duì)掘進(jìn)機(jī)器人巷道施工時(shí)左右移機(jī)路徑規(guī)劃問題,提出的路徑規(guī)劃總體方案如圖1 所示,包括傳感檢測(cè)單元、碰撞檢測(cè)單元和路徑規(guī)劃單元。

      圖1 掘進(jìn)機(jī)器人路徑規(guī)劃總體方案Fig.1 Overall scheme for path planning of cantilever roadheader robot

      該方案中,傳感檢測(cè)單元通過多源傳感器采集掘進(jìn)機(jī)器人位姿數(shù)據(jù),深度相機(jī)掃描得到巷道環(huán)境三維點(diǎn)云數(shù)據(jù)并實(shí)時(shí)傳輸至Unity3D 平臺(tái)中實(shí)例化,實(shí)現(xiàn)虛擬環(huán)境巷道實(shí)時(shí)重建;構(gòu)建掘進(jìn)機(jī)器人運(yùn)動(dòng)學(xué)模型,進(jìn)行運(yùn)動(dòng)學(xué)分析。碰撞檢測(cè)單元根據(jù)巷道重建模型建立掘進(jìn)機(jī)器人與巷道側(cè)壁間的碰撞檢測(cè)模型,并使用層次包圍盒法進(jìn)行虛擬環(huán)境碰撞檢測(cè),形成巷道邊界受限下的避障策略。路徑規(guī)劃單元基于掘進(jìn)機(jī)器人運(yùn)動(dòng)特性定義其狀態(tài)空間與動(dòng)作空間,根據(jù)獎(jiǎng)懲機(jī)制將掘進(jìn)機(jī)器人模型作為智能體,進(jìn)行獎(jiǎng)懲函數(shù)設(shè)計(jì),再結(jié)合邊界避障策略采用深度強(qiáng)化學(xué)習(xí)技術(shù)對(duì)智能體進(jìn)行訓(xùn)練,實(shí)現(xiàn)非全斷面巷道作業(yè)條件下的掘進(jìn)機(jī)器人路徑規(guī)劃。

      2 巷道邊界受限下的避障策略

      掘進(jìn)機(jī)器人在非全斷面巷道作業(yè)條件下的移機(jī)過程,存在轉(zhuǎn)彎和直行兩種運(yùn)動(dòng)方式,在狹長巷道中,掘進(jìn)機(jī)器人的轉(zhuǎn)彎過程極易與巷道側(cè)壁發(fā)生碰撞。因此,需要對(duì)掘進(jìn)機(jī)器人進(jìn)行運(yùn)動(dòng)學(xué)分析,并建立虛擬碰撞檢測(cè)模型,采用層次包圍盒算法實(shí)現(xiàn)掘進(jìn)機(jī)器人邊界避障功能。

      2.1 掘進(jìn)機(jī)器人運(yùn)動(dòng)學(xué)分析

      掘進(jìn)機(jī)器人的轉(zhuǎn)彎過程是通過左右輪履帶差速驅(qū)動(dòng)完成的。若掘進(jìn)機(jī)器人運(yùn)動(dòng)過程中,左右輪履帶和地面無橫向滑移,且履帶轉(zhuǎn)動(dòng)速度地面平行時(shí),可以將機(jī)器人的運(yùn)動(dòng)過程看作是二維運(yùn)動(dòng)學(xué)求解[26]。

      掘進(jìn)機(jī)器人運(yùn)動(dòng)學(xué)模型如圖2 所示,建立巷道平面坐標(biāo)系XOY,以掘進(jìn)機(jī)器人的機(jī)身質(zhì)心O0為原點(diǎn),建立掘進(jìn)機(jī)器人坐標(biāo)系X0O0Y0,其中O0Y0軸平行于掘進(jìn)機(jī)器人本體中心線,以朝向截割頭方向?yàn)檎较?,O0X0軸垂直于O0Y0軸,以指向掘進(jìn)機(jī)器人右側(cè)方向?yàn)檎较颉?/p>

      圖2 掘進(jìn)機(jī)器人運(yùn)動(dòng)學(xué)模型Fig.2 Kinematic model of cantilever roadheader robot

      假設(shè)掘進(jìn)機(jī)器人機(jī)身寬度為D,兩輪履帶寬度相等均為b,左輪履帶線速度為 υl,右輪履帶線速度為 υr,掘進(jìn)機(jī)器人轉(zhuǎn)向角為θ,掘進(jìn)機(jī)器人質(zhì)心在巷道平面坐標(biāo)系XOY下的坐標(biāo)為 (x0,y0),掘進(jìn)機(jī)器人運(yùn)動(dòng)到目標(biāo)點(diǎn)k過程中的線速度為 υ,角速度為ω,瞬時(shí)曲率半徑為R,則掘進(jìn)機(jī)器人在巷道平面坐標(biāo)系XOY中的位姿可描述為P=[x0,y0,θ]T。

      根據(jù)圖中幾何關(guān)系,可得掘進(jìn)機(jī)器人左右輪履帶線速度和瞬時(shí)曲率半徑之間的關(guān)系為:

      兩式相減得:

      由此可得掘進(jìn)機(jī)器人的角速度為:

      從而可得掘進(jìn)機(jī)器人左右輪履帶線速度和掘進(jìn)機(jī)器人運(yùn)動(dòng)速度之間的關(guān)系為:

      又由圖2 中幾何關(guān)系,可得掘進(jìn)機(jī)器人運(yùn)動(dòng)到目標(biāo)點(diǎn)k過程中的運(yùn)動(dòng)學(xué)方程為:

      2.2 基于RGB-D 相機(jī)的巷道環(huán)境重建

      在進(jìn)行掘進(jìn)機(jī)器人的機(jī)身移動(dòng)路徑規(guī)劃時(shí),為了觀測(cè)巷道實(shí)際環(huán)境,采用RTABMAP 算法搭載RGB-D 相機(jī)對(duì)巷道環(huán)境進(jìn)行實(shí)時(shí)三維重建,巷道重建過程如圖3所示。

      圖3 巷道重建過程Fig.3 Roadway reconstruction process

      RTABMAP 算法是一種結(jié)合了外觀信息和深度信息的實(shí)時(shí)三維環(huán)境建模算法,能夠在實(shí)時(shí)場(chǎng)景中構(gòu)建稠密的三維地圖[27]。該算法通過創(chuàng)建里程計(jì)節(jié)點(diǎn),RGB-D相機(jī)輸出的圖像提供視覺里程計(jì),并對(duì)所有節(jié)點(diǎn)的里程計(jì)位姿進(jìn)行修正來維護(hù)機(jī)器人的全局位姿。

      在掘進(jìn)機(jī)器人機(jī)身前側(cè)安裝Kinect v2 相機(jī),并為其添加云臺(tái),使得該相機(jī)能夠全方位旋轉(zhuǎn)。當(dāng)掘進(jìn)機(jī)器人施工行進(jìn)時(shí),深度相機(jī)掃描得到巷道環(huán)境的三維點(diǎn)云數(shù)據(jù),將其進(jìn)行處理后實(shí)時(shí)存儲(chǔ)至數(shù)據(jù)庫,通過Unity3D平臺(tái)實(shí)時(shí)讀取數(shù)據(jù)庫中的最新數(shù)據(jù),進(jìn)行坐標(biāo)匹配形成新的點(diǎn)云坐標(biāo),并對(duì)其進(jìn)行實(shí)例化,實(shí)現(xiàn)虛擬環(huán)境中巷道模型的實(shí)時(shí)更新,從而完成巷道模型的實(shí)時(shí)重建,為掘進(jìn)機(jī)器人與巷道側(cè)壁之間的碰撞檢測(cè)提供了條件。

      2.3 虛擬環(huán)境碰撞檢測(cè)模型建立

      掘進(jìn)機(jī)器人與巷道側(cè)壁之間的碰撞檢測(cè)是掘進(jìn)機(jī)器人移機(jī)過程中的重要一環(huán),本文采用層次包圍盒算法檢測(cè)掘進(jìn)機(jī)器人與巷道側(cè)壁之間的碰撞行為。層次包圍盒算法計(jì)算時(shí)間短[28],能夠通過建立簡單的立體幾何形狀近似代替復(fù)雜的三維模型,可以有效降低碰撞檢測(cè)原有模型的計(jì)算復(fù)雜性。

      為確保掘進(jìn)機(jī)器人的安全運(yùn)動(dòng)空間,對(duì)巷道側(cè)壁添加了膨脹1.2 倍的盒形碰撞器(Box Collider),其中膨脹倍數(shù)為碰撞檢測(cè)的安全閾值。掘進(jìn)機(jī)器人模型形狀復(fù)雜,若只采用一種包圍盒近似代替其形狀,會(huì)因?yàn)槟P桶o密性差,冗余空間大,造成碰撞檢測(cè)的誤判。因此,為提高掘進(jìn)機(jī)器人與巷道側(cè)壁之間碰撞檢測(cè)的準(zhǔn)確性,同時(shí)采用多種包圍盒對(duì)掘進(jìn)機(jī)器人模型進(jìn)行混合包圍,由于掘進(jìn)機(jī)器人機(jī)身形體較為規(guī)則,則機(jī)身部分采用盒型碰撞器進(jìn)行包圍,截割臂部分形體復(fù)雜,采用網(wǎng)格碰撞器(Mesh Collider)進(jìn)行包圍,添加效果如圖4 所示,碰撞檢測(cè)效果如圖5 所示。

      圖4 包圍盒添加效果Fig.4 Bounding box

      圖5 碰撞檢測(cè)效果Fig.5 Collision detection

      在路徑規(guī)劃過程中,當(dāng)掘進(jìn)機(jī)器人與巷道側(cè)壁的包圍盒發(fā)生接觸或相交時(shí),觸發(fā)碰撞效果,被碰撞的物體顏色變?yōu)榧t色,掘進(jìn)機(jī)器人動(dòng)作停止,訓(xùn)練場(chǎng)景重置,退出觸發(fā)碰撞效果時(shí),被碰撞的物體恢復(fù)原來顏色,重新進(jìn)行路徑規(guī)劃過程;當(dāng)掘進(jìn)機(jī)器人與巷道側(cè)壁的包圍盒未發(fā)生接觸或相交時(shí),掘進(jìn)機(jī)器人處于安全運(yùn)動(dòng)空間內(nèi),則繼續(xù)執(zhí)行路徑規(guī)劃過程。

      3 基于智能體的掘進(jìn)機(jī)器人路徑規(guī)劃

      煤礦井下掘進(jìn)工作面通常是狹長巷道,而掘進(jìn)機(jī)器人形體較大,運(yùn)動(dòng)方式復(fù)雜,因此需要考慮掘進(jìn)機(jī)器人的形體大小進(jìn)行路徑規(guī)劃。傳統(tǒng)的路徑規(guī)劃方法大多將機(jī)器人當(dāng)作質(zhì)點(diǎn)處理,難以適應(yīng)井下巷道空間受限條件下的掘進(jìn)機(jī)器人路徑規(guī)劃。本文采用深度強(qiáng)化學(xué)習(xí)(Deep Reinforcement Learning,DRL)技術(shù)對(duì)掘進(jìn)機(jī)器人進(jìn)行路徑規(guī)劃,提出了基于柔性動(dòng)作-評(píng)價(jià)(Soft Actor-Critic,SAC)算法的后見經(jīng)驗(yàn)回放(Hindsight Experience Replay,HER) HER-SAC 算法,并定義智能體狀態(tài)空間與動(dòng)作空間,設(shè)計(jì)獎(jiǎng)懲函數(shù),使智能體能夠快速找到安全的可行路徑。

      3.1 改進(jìn)SAC 算法

      SAC 算法是一種基于策略梯度(Policy Gradient)和Q-learning 的混合算法,其核心思想是在最大化累積獎(jiǎng)勵(lì)的同時(shí)還會(huì)最大化熵,通過增加策略熵的期望來增強(qiáng)智能體探索的能力,提升隨機(jī)策略性能[29]。SAC 算法的目標(biāo)函數(shù)為:

      在SAC 算法中,策略被表示為一個(gè)神經(jīng)網(wǎng)絡(luò),它通過接收當(dāng)前狀態(tài)作為輸入,輸出動(dòng)作的概率分布。Q值函數(shù)也被表示為一個(gè)神經(jīng)網(wǎng)絡(luò),它接收當(dāng)前狀態(tài)和動(dòng)作作為輸入,輸出一個(gè)Q值。為了減少過估計(jì)的風(fēng)險(xiǎn),SAC算法使用了兩個(gè)Q值函數(shù)。因此,SAC 算法有5 個(gè)網(wǎng)絡(luò)結(jié)構(gòu),即1 個(gè)Actor 網(wǎng)絡(luò)(策略網(wǎng)絡(luò))、2 個(gè)VCritic 網(wǎng)絡(luò)(狀態(tài)價(jià)值估計(jì)V和TargetV網(wǎng)絡(luò))、2 個(gè)QCritic 網(wǎng)絡(luò)(動(dòng)作-狀態(tài)價(jià)值估計(jì)Q0和Q1網(wǎng)絡(luò)),如圖6 所示。

      圖6 SAC 算法網(wǎng)絡(luò)Fig.6 Network of the SAC algorithm

      將任意狀態(tài)st作為輸入,Actor 網(wǎng)絡(luò)輸出所有動(dòng)作的概率為π(a|st),并且根據(jù)概率采樣獲得動(dòng)作at∈a,將動(dòng)作at作用于Agent,得到該狀態(tài)下的獎(jiǎng)勵(lì)值rt,并移至下一狀態(tài)st+1,從而獲得當(dāng)前狀態(tài)下的經(jīng)驗(yàn)元組(st,at,rt,st+1),然后將該元組回放入經(jīng)驗(yàn)池。

      在QCritic 網(wǎng)絡(luò)更新過程中,通過對(duì)經(jīng)驗(yàn)池采樣獲取數(shù)據(jù) (st,at,rt,st+1) 來更新參數(shù)λ,狀態(tài)st下的預(yù)測(cè)價(jià)值估計(jì)以網(wǎng)絡(luò)輸出的動(dòng)作at的Q(st,at)值來代替,基于最優(yōu)Bellman 方程可以得到狀態(tài)st下的真實(shí)價(jià)值估計(jì):

      通過均方損失函數(shù)(MSELoss 函數(shù))對(duì)QCritic 網(wǎng)絡(luò)訓(xùn)練,則其損失函數(shù)為:

      VCritic 網(wǎng)絡(luò)的更新主要是從經(jīng)驗(yàn)池采樣獲取數(shù)據(jù)(st,at,rt,st+1) 來更新參數(shù)β,并采用均方損失函數(shù)對(duì)VCritic 網(wǎng)絡(luò)進(jìn)行訓(xùn)練。在進(jìn)行Actor 網(wǎng)絡(luò)的更新時(shí),通過梯度下降訓(xùn)練得到的損失函數(shù)為:

      由于掘進(jìn)機(jī)器人屬于履帶式機(jī)器人,在狹長巷道中的運(yùn)動(dòng)方式復(fù)雜且路徑規(guī)劃過程目標(biāo)單一,難以達(dá)到訓(xùn)練效果。同時(shí)為避免獎(jiǎng)勵(lì)稀疏,提高智能體的學(xué)習(xí)效率,將后見經(jīng)驗(yàn)回放引入SAC 算法,提出HER-SAC 算法,通過將失敗的經(jīng)驗(yàn)轉(zhuǎn)化為成功的經(jīng)驗(yàn)來增加訓(xùn)練數(shù)據(jù),從而加快訓(xùn)練速度。

      訓(xùn)練智能體時(shí)做如下規(guī)定:

      (1)定義多目標(biāo)集合G,對(duì)于任意目標(biāo)g∈G,都有fg(s)∈{0,1} 。該函數(shù)表示當(dāng)fg(s)=1時(shí),狀態(tài)s到達(dá)目標(biāo)g;fg(s)=0時(shí),狀態(tài)s未到達(dá)目標(biāo)g。

      (2)目標(biāo)g可以是狀態(tài)s,也可以是狀態(tài)s的映射。

      (3)將目標(biāo)g下的獎(jiǎng)勵(lì)函數(shù)定義為一個(gè)二值獎(jiǎng)勵(lì)函數(shù)rg(s,a)=-[fg(s)=0],當(dāng)狀態(tài)s未到達(dá)目標(biāo)g時(shí)就返回-1。

      根據(jù)環(huán)境給予的目標(biāo)g和初始狀態(tài)s1,智能體與環(huán)境交互采集樣本得到軌跡:{s1,a1,r1,s2,···,sT},并將其以狀態(tài)元組 (st‖g,at,rt,st+1‖g)的形式回放入經(jīng)驗(yàn)池,此時(shí)這條軌跡的數(shù)據(jù)是基于目標(biāo)g的。在這條軌跡中隨機(jī)選取n個(gè)當(dāng)前遍歷狀態(tài)之后的狀態(tài)組成目標(biāo)子集G′,將這輪樣本當(dāng)前狀態(tài)的目標(biāo)依次修改為其他目標(biāo)g′∈G′,得到新的獎(jiǎng)勵(lì)值r′=(s,a),則狀態(tài)st對(duì)應(yīng)的狀態(tài)元組變?yōu)?(st‖g′,at,,st+1‖g′),然后將這條軌跡基于目標(biāo)g′的所有狀態(tài)元組進(jìn)行回放,則經(jīng)驗(yàn)池中存放的樣本數(shù)目變?yōu)樵日鎸?shí)采樣數(shù)目的n+1 倍,大大增加了訓(xùn)練樣本。其中,st‖g為當(dāng)前狀態(tài)st與本輪樣本目標(biāo)g的附加拼接。

      同時(shí),策略是與目標(biāo)相關(guān)的,其輸入是當(dāng)前狀態(tài)和本輪需要完成的目標(biāo),可表示為π(st‖g)。由于本文針對(duì)的懸臂式掘進(jìn)機(jī)的移機(jī)路徑規(guī)劃屬于單目標(biāo)任務(wù),因此所有策略是基于目標(biāo)g得到的,采樣的數(shù)據(jù)也是不斷向著目標(biāo)g的方向進(jìn)行的。

      算法流程見表1。

      表1 HER-SAC 算法流程Table 1 HER-SAC algorithm workflow

      3.2 定義智能體狀態(tài)空間與動(dòng)作空間

      狀態(tài)空間代表智能體感知的環(huán)境信息,它是智能體做出決策并對(duì)其長期效益進(jìn)行評(píng)價(jià)的基礎(chǔ),合理地進(jìn)行狀態(tài)空間設(shè)計(jì)可以保證算法穩(wěn)定收斂,提升算法性能[30]。掘進(jìn)機(jī)器人在非全斷面巷道作業(yè)條件下的移機(jī)過程中需要明確其目標(biāo)位置、與巷道側(cè)壁的安全運(yùn)動(dòng)范圍,從而采取合理的動(dòng)作與巷道側(cè)壁不發(fā)生碰撞,安全到達(dá)目標(biāo)位置。因此,智能體的狀態(tài)空間可定義為St={Tt,Ot,αt,Dt},其中Tt為智能體需要到達(dá)的目標(biāo)位置,Ot為智能體的實(shí)時(shí)位置,αt為智能體的實(shí)時(shí)航向角,Dt為智能體與巷道側(cè)壁發(fā)生碰撞情況。

      動(dòng)作空間是機(jī)器人與環(huán)境交互的方式[31]。由于掘進(jìn)機(jī)器人存在轉(zhuǎn)向和直行兩種運(yùn)動(dòng)方式,因此,智能體的動(dòng)作空間可定義為At={υt,ωt},其中 υt為智能體前向運(yùn)動(dòng)速度,ωt為智能體運(yùn)動(dòng)角速度。

      3.3 獎(jiǎng)懲函數(shù)設(shè)計(jì)

      智能體在尋優(yōu)探索的過程中,獎(jiǎng)勵(lì)函數(shù)的構(gòu)成,決定了算法尋優(yōu)的方向和智能體學(xué)習(xí)的動(dòng)作[32]。設(shè)計(jì)獎(jiǎng)懲函數(shù)是為了使智能體通過獎(jiǎng)懲機(jī)制快速找到安全到達(dá)目標(biāo)位置的最優(yōu)路徑。本文設(shè)置獎(jiǎng)懲函數(shù)有如下內(nèi)容:

      (1)通過智能體的實(shí)時(shí)位置與目標(biāo)位置的距離來判斷是否到達(dá)目標(biāo)位置,若成功到達(dá)目標(biāo)位置,獲得獎(jiǎng)勵(lì)Rarrive=1.5,結(jié)束該回合;為避免獎(jiǎng)勵(lì)過于稀疏,在智能體運(yùn)動(dòng)過程中,記智能體上一時(shí)刻與目標(biāo)位置的橫向距離為xt-1,智能體當(dāng)前時(shí)刻與目標(biāo)位置的橫向距離為xt,若xt

      (2)智能體通過包圍盒之間的相交檢測(cè)判斷是否發(fā)生碰撞,為保證智能體的安全運(yùn)動(dòng)空間,將巷道側(cè)壁的包圍盒膨脹了1.2 倍。當(dāng)觸發(fā)碰撞時(shí),獲得懲罰Rcollision=-0.5,結(jié)束該回合。

      (3)根據(jù)實(shí)際巷道作業(yè)規(guī)程,掘進(jìn)機(jī)器人前后移動(dòng)距離不能過長,因此,需要對(duì)智能體添加前后移動(dòng)距離約束,若智能體的實(shí)時(shí)位置超出前后移動(dòng)距離約束范圍,獲得懲罰Rz=-0.5,結(jié)束該回合。

      (4)為縮短智能體到達(dá)目標(biāo)位置的時(shí)間,提高訓(xùn)練效率,在智能體動(dòng)作后的每一步設(shè)置外部獎(jiǎng)勵(lì)Rt=-0.005。

      因此,本文的獎(jiǎng)勵(lì)函數(shù)為:

      3.4 智能體訓(xùn)練結(jié)果分析

      在Unity3D 平臺(tái)中建立智能體,基于Python 語言設(shè)計(jì)HER-SAC 算法,通過本地Socket 實(shí)現(xiàn)Unity3D與Python 的交互,進(jìn)行智能體的訓(xùn)練。HER-SAC 算法主要參數(shù)設(shè)置見表2。

      表2 HER-SAC 算法主要參數(shù)設(shè)置Table 2 Main parameters of the HER-SAC algorithm

      為了更清楚地觀察訓(xùn)練結(jié)果,在相同場(chǎng)景條件下分別使用HER-SAC、SAC、PPO 3 種算法對(duì)智能體進(jìn)行訓(xùn)練,結(jié)果如圖7 所示。圖7a 為智能體的累積獎(jiǎng)勵(lì)變化曲線,智能體獲得的獎(jiǎng)勵(lì)值越大,則其在訓(xùn)練過程中采取正確動(dòng)作的概率越大;圖7b 為智能體訓(xùn)練時(shí)的回合長度變化曲線,每回合的長度值越大,則其在訓(xùn)練過程中采取正確動(dòng)作的步數(shù)越多;圖7c 為智能體在訓(xùn)練過程中的Actor 網(wǎng)絡(luò)損失值變化曲線,Actor 網(wǎng)絡(luò)的目標(biāo)函數(shù)是為了最大化熵和獎(jiǎng)勵(lì)值,因此其損失值為負(fù)值,絕對(duì)值越大,說明最大化熵的程度越大,智能體采取的策略越隨機(jī);圖7d 為智能體在訓(xùn)練過程中的Critic 網(wǎng)絡(luò)損失值變化曲線,損失值越小,說明智能體所獲實(shí)際獎(jiǎng)勵(lì)值越接近理論獎(jiǎng)勵(lì)值。

      圖7 訓(xùn)練結(jié)果Fig.7 Training results

      由圖7a 可以看出,當(dāng)訓(xùn)練迭代次數(shù)比較小時(shí),智能體易與巷道側(cè)壁發(fā)生碰撞,獲得的獎(jiǎng)勵(lì)較少,訓(xùn)練迭代次數(shù)逐漸增大時(shí),智能體在3 種算法下所獲獎(jiǎng)勵(lì)迅速增加,其中HER-SAC 算法在獲得最大獎(jiǎng)勵(lì)值時(shí)所需迭代次數(shù)最少,最快達(dá)到收斂。由圖7b 可以看出,訓(xùn)練迭代次數(shù)逐漸增大時(shí),智能體在3 種算法下的回合長度值不斷增大,其中HER-SAC 算法的回合長度值增大的速度最快,達(dá)到最大回合長度值的迭代次數(shù)最小。由圖7c可以看出,訓(xùn)練迭代次數(shù)逐漸增大時(shí),HER-SAC 算法策略損失值的絕對(duì)值不斷增大,最快達(dá)到收斂。由圖7d 可以看出,訓(xùn)練迭代次數(shù)逐漸增大時(shí),智能體在3 種算法下的損失值均逐漸減小,其中HER-SAC 算法的損失值最小時(shí)的迭代次數(shù)最少,最先達(dá)到收斂。

      通過對(duì)比3 種算法的平均獎(jiǎng)勵(lì)值、最高獎(jiǎng)勵(lì)值、達(dá)到最高獎(jiǎng)勵(lì)值的步數(shù)及魯棒性指標(biāo)進(jìn)行算法的性能分析,對(duì)比結(jié)果見表3,其中算法的魯棒性指標(biāo)通過智能體的平均獎(jiǎng)勵(lì)值與標(biāo)準(zhǔn)差進(jìn)行描述。

      表3 3 種算法性能對(duì)比分析Table 3 Comparative analysis of the performance of three algorithms

      由表3 可以看出,3 種算法在性能方面,SAC 算法相比于PPO 算法的平均獎(jiǎng)勵(lì)值和最高獎(jiǎng)勵(lì)值更高,達(dá)到最高獎(jiǎng)勵(lì)值的步數(shù)更少,魯棒性方面更優(yōu),而HERSAC 算法在4 個(gè)指標(biāo)的性能上均超過了另兩種算法。與PPO 算法相比,HER-SAC 算法的平均獎(jiǎng)勵(lì)值提高了5.86%,最高獎(jiǎng)勵(lì)值提高了0.39%,達(dá)到最高獎(jiǎng)勵(lì)值的步數(shù)縮短了9.89%,所獲獎(jiǎng)勵(lì)的標(biāo)準(zhǔn)差降低了11.75%;與SAC 算法相比,HER-SAC 算法的平均獎(jiǎng)勵(lì)值提高了5.15%,最高獎(jiǎng)勵(lì)值提高了0.28%,達(dá)到最高獎(jiǎng)勵(lì)值的步數(shù)縮短了6.69%,所獲獎(jiǎng)勵(lì)的標(biāo)準(zhǔn)差降低了7.64%。

      4 實(shí)驗(yàn)與結(jié)果分析

      4.1 掘進(jìn)機(jī)器人路徑規(guī)劃實(shí)驗(yàn)環(huán)境搭建

      為了進(jìn)一步驗(yàn)證本文所提方法的可靠性,基于Unity3D 平臺(tái)搭建掘進(jìn)機(jī)器人路徑規(guī)劃實(shí)驗(yàn)平臺(tái),采用虛實(shí)結(jié)合的方式對(duì)掘進(jìn)機(jī)器人的機(jī)身路徑規(guī)劃功能進(jìn)行驗(yàn)證。

      實(shí)驗(yàn)平臺(tái)分為軟件平臺(tái)和硬件平臺(tái),其中軟件平臺(tái)主要由設(shè)備狀態(tài)監(jiān)測(cè)模塊、環(huán)境監(jiān)測(cè)模塊、掘進(jìn)機(jī)器人位姿參數(shù)顯示模塊和遠(yuǎn)程控制模塊組成,如圖8 所示,硬件平臺(tái)采用履帶式機(jī)器人代替掘進(jìn)機(jī)器人,以實(shí)驗(yàn)室樓道作為巷道環(huán)境,如圖9 所示。

      圖8 路徑規(guī)劃實(shí)驗(yàn)軟件平臺(tái)Fig.8 Experimental software platform for path planning

      圖9 路徑規(guī)劃實(shí)驗(yàn)硬件平臺(tái)Fig.9 Path planning experimental hardware

      4.2 掘進(jìn)機(jī)器人虛實(shí)同動(dòng)實(shí)驗(yàn)驗(yàn)證

      虛實(shí)結(jié)合的方式能夠有效應(yīng)用的前提是虛實(shí)空間中機(jī)器人的位姿時(shí)刻保持一致,因此需要對(duì)虛實(shí)空間中機(jī)器人動(dòng)作的同步性進(jìn)行測(cè)試。

      上述實(shí)驗(yàn)平臺(tái)中巷道環(huán)境尺寸為200 cm×200 cm,掘進(jìn)機(jī)器人尺寸為70.0 cm×68.5 cm,以巷道左下角作為坐標(biāo)原點(diǎn),寬度方向作為x軸,長度方向作為y軸,建立巷道坐標(biāo)系。通過軟件平臺(tái)中的遠(yuǎn)程控制模塊下發(fā)控制指令,遠(yuǎn)程控制機(jī)器人動(dòng)作,機(jī)器人機(jī)身上的傳感器數(shù)據(jù)傳輸至軟件平臺(tái)中對(duì)虛擬空間中的機(jī)器人位姿進(jìn)行動(dòng)態(tài)修正,從而保證虛實(shí)空間中的機(jī)器人動(dòng)作保持一致。通過實(shí)時(shí)觀測(cè)虛實(shí)空間中機(jī)器人執(zhí)行一次路徑規(guī)劃任務(wù)過程中的位姿數(shù)據(jù),以t=1 s 的采樣周期,采集31 個(gè)位置處的x方向坐標(biāo)數(shù)據(jù)、y方向坐標(biāo)數(shù)據(jù)和航向角數(shù)據(jù)進(jìn)行對(duì)比,如圖10 所示。

      圖10 掘進(jìn)機(jī)虛實(shí)空間位姿對(duì)比Fig.10 Comparison of the virtual and real space movements of cantilever roadheader robot

      由圖10 可以看出,掘進(jìn)機(jī)器人在運(yùn)動(dòng)過程中物理空間和虛擬空間的x方向坐標(biāo)、y方向坐標(biāo)和航向角基本保持一致。

      為了更清楚地對(duì)比機(jī)器人在虛實(shí)空間中的位姿數(shù)據(jù),將機(jī)器人在此過程中經(jīng)過的路徑起點(diǎn)、路徑終點(diǎn)和路徑關(guān)鍵點(diǎn)處的(x,y)坐標(biāo)和航向角數(shù)據(jù)進(jìn)行對(duì)比分析,見表4。x方向坐標(biāo)的誤差在1.57 cm 以內(nèi),y方向坐標(biāo)的誤差在1.79 cm 以內(nèi),航向角的誤差在0.78°以內(nèi),滿足虛實(shí)同動(dòng)的性能要求。

      表4 虛實(shí)空間數(shù)據(jù)對(duì)比分析Table 4 Comparative analysis of virtual and real space data

      4.3 掘進(jìn)機(jī)器人路徑規(guī)劃實(shí)驗(yàn)結(jié)果及分析

      通過上述實(shí)驗(yàn)驗(yàn)證了機(jī)器人在虛實(shí)空間中的動(dòng)作同步性,因此本文通過虛實(shí)結(jié)合的方式可直觀地展示路徑規(guī)劃結(jié)果。

      以上述實(shí)驗(yàn)平臺(tái)為基礎(chǔ),設(shè)置掘進(jìn)機(jī)器人初始位置坐標(biāo)為(90,100),在此條件不變的情況下,通過調(diào)整目標(biāo)位置設(shè)置兩種場(chǎng)景并分別使用SAC 算法和HERSAC 算法對(duì)掘進(jìn)機(jī)器人進(jìn)行路徑規(guī)劃。

      第一種場(chǎng)景(近距離)中的目標(biāo)位置的坐標(biāo)為(115,100),距離機(jī)器人初始位置較近,分別將虛擬空間和物理空間中機(jī)器人的路徑結(jié)果記錄如圖11 所示;第二種場(chǎng)景(遠(yuǎn)距離)中將目標(biāo)位置的坐標(biāo)設(shè)置為(145,100),距離機(jī)器人初始位置較遠(yuǎn),分別將虛擬空間和物理空間中機(jī)器人的路徑結(jié)果記錄如圖12 所示。

      圖11 近距離路徑規(guī)劃結(jié)果Fig.11 Results of short path planning

      圖12 遠(yuǎn)距離路徑規(guī)劃結(jié)果Fig.12 Results of long path planning

      由圖11 可以看出,近距離條件下,兩種算法規(guī)劃的路徑效果良好,HER-SAC 算法相比SAC 算法路徑縱向移動(dòng)距離更短,路徑的平滑性更好;由圖12 可以看出,遠(yuǎn)距離條件下,HER-SAC 算法相比SAC 算法效果更好,縱向移動(dòng)距離更短,路徑更加平滑。

      為進(jìn)一步分析本文所提算法的性能,分別統(tǒng)計(jì)了兩種算法在兩種場(chǎng)景下的路徑長度、拐點(diǎn)數(shù)及路徑終點(diǎn)與目標(biāo)位置的距離,見表5。近距離條件下,HER-SAC算法比SAC 算法,路徑長度更短,拐點(diǎn)數(shù)更少,終點(diǎn)更接近目標(biāo)位置;遠(yuǎn)距離條件下,HER-SAC 算法的路徑長度更短,拐點(diǎn)數(shù)更少,終點(diǎn)與目標(biāo)位置的距離更小,達(dá)到最優(yōu)路徑,而SAC 算法的路徑長度較長,拐點(diǎn)數(shù)較多,并非最優(yōu)路徑。

      表5 路徑結(jié)果對(duì)比Table 5 Comparison of results between long and short path planing

      綜上所述,本文所提算法在兩種場(chǎng)景下規(guī)劃出的路徑更加平滑,路徑長度更短,能夠更好地適應(yīng)不同的目標(biāo)位置,高效地完成路徑規(guī)劃任務(wù),為掘進(jìn)機(jī)器人的移機(jī)軌跡跟蹤控制奠定基礎(chǔ)。

      5 結(jié)論

      a.根據(jù)煤礦井下非結(jié)構(gòu)化環(huán)境特征及掘進(jìn)機(jī)器人運(yùn)動(dòng)特性,提出了巷道邊界受限下的避障策略,基于獎(jiǎng)懲機(jī)制建立了智能體,采用深度強(qiáng)化學(xué)習(xí)方法實(shí)現(xiàn)了掘進(jìn)機(jī)器人的移機(jī)路徑規(guī)劃,實(shí)驗(yàn)結(jié)果表明該方法能夠獲得長度更短、更加平滑的路徑。

      b.將后見經(jīng)驗(yàn)回放引入SAC 算法中,提出了HERSAC 算法,根據(jù)初始環(huán)境目標(biāo)獲得多目標(biāo)子集,增加經(jīng)驗(yàn)池樣本數(shù)據(jù),提高了算法的收斂速度和訓(xùn)練效率。用3 種算法在同一場(chǎng)景條件下進(jìn)行訓(xùn)練,訓(xùn)練結(jié)果表明該算法相比另外兩種算法性能達(dá)到最優(yōu),能夠更高效地完成路徑規(guī)劃任務(wù)。

      c.采用虛實(shí)結(jié)合的方式對(duì)所提方法進(jìn)一步驗(yàn)證,通過對(duì)比分析不同場(chǎng)景下2 種算法的路徑結(jié)果,驗(yàn)證了本文所述方法的準(zhǔn)確度和魯棒性,為煤礦掘進(jìn)設(shè)備自動(dòng)化提供了新方法。由于實(shí)際煤礦井下巷道環(huán)境復(fù)雜多變,后續(xù)還需深入研究巷道環(huán)境構(gòu)建、機(jī)器人運(yùn)動(dòng)控制等內(nèi)容,實(shí)現(xiàn)非全斷面巷道智能化作業(yè),提高掘進(jìn)效率。

      符號(hào)注釋:

      at為t時(shí)刻的動(dòng)作;為策略π在下一步采取的所有可能動(dòng)作;B為從經(jīng)驗(yàn)池中取一個(gè)batch(批量)的樣本數(shù)據(jù)量;Eπ為策略π在狀態(tài)st+1下的累積回報(bào)期望;為策略π在狀態(tài)-動(dòng)作對(duì) (st,at)下的回報(bào)期望;為策略π在狀態(tài)st下采取動(dòng)作的回報(bào)期望;H(π(·|st)) 為策略π在狀態(tài)st下的熵;P˙為掘進(jìn)機(jī)器人的位姿矩陣;Q(st,at;λ)為QCritic網(wǎng)絡(luò)輸出的狀態(tài)動(dòng)作對(duì)(st,at)下的預(yù)測(cè)價(jià)值估計(jì);Q(st,;λ)為QCritic網(wǎng)絡(luò)輸出的狀態(tài)動(dòng)作對(duì)(st,)下的預(yù)測(cè)價(jià)值估計(jì);rt為狀態(tài)-動(dòng)作對(duì) (st,at) 的回報(bào)值;r(st,at) 為狀態(tài)-動(dòng)作對(duì) (st,at)下的回報(bào)值;st為t時(shí)刻的狀態(tài);t為時(shí)間步數(shù);T為時(shí)間參數(shù);、分別為掘進(jìn)機(jī)器人在巷道平面坐標(biāo)系XOY下沿x軸、y軸方向上的線速度;α為正則化系數(shù);β為Actor 網(wǎng)絡(luò)參數(shù);γ為折扣因子;為掘進(jìn)機(jī)器人運(yùn)動(dòng)角速度;λ為QCritic 網(wǎng)絡(luò)參數(shù);π為一個(gè)狀態(tài)下采取一個(gè)動(dòng)作的概率;lnπ(;β) 為策略π在狀態(tài)st下的熵;ρπ為t=0 到T所有狀態(tài)-動(dòng)作對(duì)的集合。

      猜你喜歡
      碰撞檢測(cè)巷道機(jī)器人
      全新預(yù)測(cè)碰撞檢測(cè)系統(tǒng)
      基于FLAC3D的巷道分步開挖支護(hù)穩(wěn)定性模擬研究
      基于BIM的鐵路信號(hào)室外設(shè)備布置與碰撞檢測(cè)方法
      Unity3D中碰撞檢測(cè)問題的研究
      BIM技術(shù)下的某辦公樓項(xiàng)目管線碰撞檢測(cè)
      采空側(cè)巷道圍巖加固與巷道底臌的防治
      機(jī)器人來幫你
      認(rèn)識(shí)機(jī)器人
      機(jī)器人來啦
      認(rèn)識(shí)機(jī)器人
      阳朔县| 德昌县| 寿宁县| 广宗县| 十堰市| 新余市| 临桂县| 清水河县| 城口县| 平昌县| 新巴尔虎左旗| 泰安市| 乌恰县| 林甸县| 仁布县| 禹城市| 鄂州市| 霸州市| 南乐县| 乌兰浩特市| 长岭县| 巴楚县| 铁力市| 牡丹江市| 额尔古纳市| 仙游县| 远安县| 漾濞| 翼城县| 桐乡市| 汕尾市| 黑水县| 萨嘎县| 平度市| 无为县| 杭州市| 颍上县| 庆元县| 四平市| 隆尧县| 云梦县|