• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      復(fù)雜場景點云數(shù)據(jù)的6D位姿估計深度學習網(wǎng)絡(luò)

      2022-05-31 06:19:42陳海永李龍騰
      電子與信息學報 2022年5期
      關(guān)鍵詞:位姿實例語義

      陳海永 李龍騰 陳 鵬 孟 蕊

      (河北工業(yè)大學 天津 300130)

      1 引言

      隨著技術(shù)的進步,機器人在抓取、裝配、包裝、加工、物流分揀等方面得到日益廣泛的應(yīng)用。其中抓取裝配操作是機器人最常見的應(yīng)用場景,面臨的一大挑戰(zhàn)是復(fù)雜環(huán)境下對象的準確抓取問題。在傳統(tǒng)的結(jié)構(gòu)化環(huán)境中,通過預(yù)先由人工尋找示教點編入程序,再按固定程序運行的方式,雖然可達到很高的精度與成功率,但由于缺少環(huán)境感知與交互,難以在非結(jié)構(gòu)化或半結(jié)構(gòu)化等復(fù)雜場景下完成精密抓取裝配作業(yè)。

      可靠的機器人抓取裝配系統(tǒng),需要準確地獲得目標在場景點云中的位置和姿態(tài),即6D位姿?,F(xiàn)有的方法,主要分為類別級識別和實例級識別。類別級姿態(tài)估計是指,同類物體擁有不同外形或是在有某類下新的物體加入的情況下也能完成物體識別與姿態(tài)估計任務(wù);實例級識別則反之,每類物體需要有固定的外形形狀,如CAD模型等。而工業(yè)零件大都為具有標準生產(chǎn)模型的剛性物體,幾乎無類內(nèi)的變化,降低了識別難度,但工業(yè)場景中的大多數(shù)零件有弱紋理、顏色相近或相同的特點, 在這種情況下,RGB顏色信息變得不再可靠。因此,為了提高識別的可靠性,本文從僅包含3D幾何信息的點云入手,從物體的邊緣信息、幾何關(guān)系中挖掘物體6D位姿;另外待抓取物體因為經(jīng)常在雜亂的場景中,物體間相互遮擋和堆疊不可避免,這對基于視覺引導(dǎo)的機器人抓取等任務(wù)仍帶來較大困難[1]。

      目前,基于傳統(tǒng)算法的姿態(tài)估計大都采用人工設(shè)計的3D幾何描述子如FPFH (Fast Point Feature Histograms)[2],SHOT (Signature of Histograms of OrienTations)[3]等,從點云中提取目標局部特征,進而在場景點云特征中,將提取到的特征與模板預(yù)提取特征進行查詢匹配,來獲得物體的6D位姿,但是這些方法需要待識別的物體有豐富的幾何信息。Drost等人[4]將點對特征(Point Pair Feature, PPF)描述子與投票方案有效結(jié)合,來解決物體6D位姿估計。這是點云物體識別最成功的方法之一,許多學者也提出了它的改進型如文獻[5,6]。該方法成功應(yīng)用到了工業(yè)機器人抓取任務(wù)中,如文獻[7–9]。但這類方法受限于每類物體模板的數(shù)量,且其單純通過閾值判斷物體的姿態(tài)估計結(jié)果,在堆疊雜亂場景中并不穩(wěn)定。

      近年來,由于深度卷積神經(jīng)網(wǎng)絡(luò)擁有強大的特征提取能力,傳統(tǒng)的人工設(shè)計的點云特征描述子逐漸被學習型的描述子取代。Lyu等人[10]提出了將點云對應(yīng)映射為2D圖片,進而進行訓練識別的方法,這種方式往往造成點云物體的幾何信息丟失,在PointNet這一開創(chuàng)性3維特征提取網(wǎng)絡(luò)被提出之后,研究人員開始探索適用于各種 3D 應(yīng)用場景的PointNet變體。對于3D對象的物體檢測和位姿估計任務(wù),VoxelNet[11]和 Frustrum-PointNets[12]設(shè)計了類似PointNet 的結(jié)構(gòu)實現(xiàn)了3D目標檢測任務(wù)。

      對于一些復(fù)雜場景,點云數(shù)據(jù)的預(yù)先分割具有重要意義,是場景理解中關(guān)鍵步驟。復(fù)雜場景點云分割研究始終圍繞點云的特點,致力于尋找高效、魯棒、普適的分割方法。Pham等人[13]提出了基于PointNet[14]的語義圖和點特征相似矩陣,通過添加一個提出對象實例的過程來擴展語義分割框架,并通過多值條件隨機場實現(xiàn)了語義與實例的相互約束與劃分。Gao等人[15]提出了一種基于點云深度網(wǎng)絡(luò)回歸物體6D位姿估計的網(wǎng)絡(luò)CloudPose,利用兩個分離的網(wǎng)絡(luò)分別回歸平移向量與旋轉(zhuǎn)向量,達到僅從無序點云中回歸物體6D位姿的目的。

      本文提出的位姿估計方法與CloudPose比較相近,其直接通過高維特征回歸預(yù)測。不同的是,本文在其基礎(chǔ)上融合了輸入點云的多尺度特征,針對物體識別中遇到的存在弱紋理、對稱等問題的識別效果進行了提升。

      為了解決上述的分割依賴和弱紋理、散亂擺放干擾問題,本文提出一種僅使用點云中的3D幾何信息,對目標物體進行6D位姿估計的深度學習網(wǎng)絡(luò),解決弱紋理、部分堆疊干擾等復(fù)雜場景下的物體識別問題。主要的貢獻包括:(1) 提出了一種實例級散亂堆疊零件快速批量生成仿真數(shù)據(jù)集的方法,解決了難以獲取大量帶標注點云數(shù)據(jù)的問題;(2)提出了一種新穎的基于點云坐標數(shù)據(jù)的實例分割方法,解決了工業(yè)場景下弱紋理工件難以識別的問題;(3) 提出了一個改進的物體6D位姿估計網(wǎng)絡(luò),為復(fù)雜場景下機器人抓取裝配任務(wù)提供6維姿態(tài)信息。

      2 數(shù)據(jù)集生成

      深度學習是數(shù)據(jù)驅(qū)動的方法,需要大量的數(shù)據(jù)做訓練,使網(wǎng)絡(luò)學習到足夠穩(wěn)健的特征[16]。但是,在面向如圖1的工業(yè)抓取裝配任務(wù)時,所用到的點云數(shù)據(jù)是3維的,物體位姿標簽難以人工標注,特別是在較復(fù)雜且有一定遮擋的場景中。因此,缺乏3維標簽樣本是目前6D位姿估計深度學習模型構(gòu)建的難題之一。

      圖1 機器人抓取裝配系統(tǒng)

      為此,本文利用文獻[17]提出的Blensor仿真軟件,快速批量生成工業(yè)零件在抓取平面上各種位姿下的表面點云。Blensor是在開源3維圖形圖像軟件Blender基礎(chǔ)上二次開發(fā)而來的,具有多種傳感器類別,與文獻[18]使用Blensor中的Kinect虛擬3維相機獲取RGB-D數(shù)據(jù)作為樣本不同,本文選擇其中的ToF虛擬3維相機進行仿真,且僅獲取點云數(shù)據(jù)而無顏色信息。借助Blender里的物理引擎渲染,可以模擬剛體的自由下落、碰撞效果等,將生成物體從平面上方某一位置自由落體掉落至抓取平面,得到精確的剛體變換。

      數(shù)據(jù)集生成的具體步驟圖2所示,每一步的具體操作流程如下:

      圖2 數(shù)據(jù)集生成流程圖

      (1) 隨機導(dǎo)入4~7個可重復(fù)的零件的CAD網(wǎng)格模型,并在預(yù)設(shè)的抓取平面上方,隨機產(chǎn)生各模型的6自由度位姿,用于初始化零件的位態(tài),待拍攝平面為長寬均為256 mm的正方形區(qū)域,并在四周設(shè)置了碰撞擋板,防止物體從平面掉落導(dǎo)致穿模而無法獲取準確數(shù)據(jù)。

      (2) 為仿真場景中模型加入物理引擎,設(shè)定對應(yīng)剛體碰撞參數(shù),動態(tài)參數(shù)。保留零件在重力作用下,工件自由落體的最后狀態(tài),以模擬工件在平面上的散亂、有堆疊的擺放。

      (3) 添加傳感器模型。設(shè)定傳感器分辨率、焦距等。以提高數(shù)據(jù)集與實際傳感器采集數(shù)據(jù)的相似程度。

      (4) 保存?zhèn)鞲衅髯鴺讼迪聢鼍皟?nèi)的表面點云作為數(shù)據(jù)集樣本及各零件的6自由度姿態(tài)信息與點級語義信息,作為數(shù)據(jù)集標簽。

      (5) 進一步地,針對每個場景下有多個同類工件的點云,依據(jù)語義信息,將該類工件分離出來,并將點云模型通過6自由度姿態(tài)信息變換到實際位置,使用KNN(K近鄰點算法)算法,獲取變換后的每個點云模型在原場景中臨近的1個或多個點,并提取為單個實例,從而獲得整個場景點云的準確實例標簽。

      (6) 最后,針對嚴重遮擋,或因碰撞、穿模而無法在場景點云中有效呈現(xiàn)物體的標簽,予以去除。嚴重遮擋判定閾值為所有生成物體表面點云統(tǒng)計均值的30%,以保證識別抓取的可靠性。

      本文所涉及的數(shù)據(jù)集有7類物體,其中,主要的待抓取工件為物體A, B, C,此外,為了提高模型在面對對稱物體,大小尺寸不同的物體時的魯棒性,本文通過載入若干包含單軸對稱、360°對稱等干擾物體到場景中,7類物體的 CAD模型中,物體最大長度在90~220 mm,如圖3(a)所示,由上述得到的場景點云,如圖3(b)所示。

      圖3 工件CAD模型圖及仿真場景點云樣本示例

      3 物體6D位姿估計深度學習網(wǎng)絡(luò)

      為了解決3D物體識別與位姿估計場景下,前景點與背景點之間、不同物體間的點會出現(xiàn)互相影響的問題,本文設(shè)計了6D位姿估計深度學習網(wǎng)絡(luò),利用實例分割網(wǎng)絡(luò)將點云的前景點和背景點解耦,進而實例聚類,生成統(tǒng)一的點云切片,送入后續(xù)網(wǎng)絡(luò)進行位姿估計。其結(jié)構(gòu)主要包括點云實例分割模塊、實例聚類生成模塊、切片點云的6D位姿估計模塊3個部分,其基本結(jié)構(gòu)如圖4所示。

      圖4 網(wǎng)絡(luò)整體架構(gòu)圖

      3.1 點云語義及實例

      預(yù)先將每個物體實例分割出來,會使得最終的位姿估計結(jié)果對噪聲、自遮擋等影響因素的魯棒性更好,從而獲得一個更好的結(jié)果。對于點云分割方法,JSIS3D[13]認為目標語義與目標實例是相互依賴的關(guān)系,即在實例預(yù)測中所提取到的邊緣與形狀信息能夠輔助該點的語義類別預(yù)測,文中提出了一個兩階段的分割網(wǎng)絡(luò)結(jié)構(gòu),首先,面對室內(nèi)場景數(shù)據(jù)集,JSIS3D使用滑動窗口結(jié)構(gòu),在每個滑窗中,利用MT-PNet對輸入點云進行語義類別及實例特征的提取,并將特征輸出為兩個分支:語義分割結(jié)果以及實例嵌入特征,進而送入后續(xù)的MV-CRF網(wǎng)絡(luò)進行實例預(yù)測。

      但該網(wǎng)絡(luò)在面對本文涉及的數(shù)據(jù)集,即工業(yè)抓取裝配場景時,也存在一定的問題,首先,滑窗會將被檢測物體進行切分,容易導(dǎo)致部分滑窗中被識別物體的點數(shù)丟失過多,且不同于室內(nèi)場景,工件的抓取場景的實際尺寸不會過大,不需要滑動窗口結(jié)構(gòu);另外,在利用PointNet骨干網(wǎng)絡(luò)提取點級特征時,將獲得的高維特征向量通過最大池化操作,形成一個全局特征,這樣會使得場景中每個工件的點與點之間的形狀特征沒有被網(wǎng)絡(luò)學習到,使得最終分割精度有所降低。

      本文基于MTP-Net,將僅能學習劃窗內(nèi)部全局特征的點云分割網(wǎng)絡(luò),修改為學習局部與全局特征的分割網(wǎng)絡(luò),相比于原結(jié)構(gòu),強化了網(wǎng)絡(luò)對場景下各類非規(guī)則工件的外觀及形狀特征的學習能力,并針對實例分割部分進行了調(diào)整,提升了實例特征輸出的維度,并將其命名為多尺度聯(lián)合分割網(wǎng)絡(luò)(Multiscale Point Cloud Segmentation Net,MPCS-Net),其網(wǎng)絡(luò)結(jié)構(gòu)如圖5所示。

      圖5 MPCS-Net 網(wǎng)絡(luò)圖

      MPCS-Net網(wǎng)絡(luò)輸入為僅有3維坐標的點云,通過FPS采樣(最遠點采樣)進行輸入點云數(shù)據(jù)的預(yù)處理,將原始點云下采樣至N個點,相比于原網(wǎng)絡(luò)使用的PointNet骨干網(wǎng)絡(luò),本文通過PointNet++作為骨干網(wǎng)絡(luò)進行特征提取,提升了對局部特征的識別能力,在特征提取過程中,不斷采樣特征點,提取高維特征,其前4層采樣點數(shù)分別為[4096,512, 128, 16],并通過多層感知機(Multi-Layer Perceptron, MLP)在SA(Set Abstraction)與FP(Feature Propagation)層提取多維度特征,其中,SA層用于點云的采樣、點組合、組合點處的局部特征提取任務(wù),而FP層則用于將多尺度的特征進行傳遞,最終輸出每個點的預(yù)測特征,最終輸出N×128維的特征向量,并分成了兩個不同分支,對點云數(shù)據(jù)中逐點進行語義標簽預(yù)測與實例特征生成,相比于原網(wǎng)絡(luò)將語義與實例損失函數(shù)直接求和的方式,本文改進的點云分割模塊的損失函數(shù),由兩個分支的損失函數(shù)加權(quán)求和而成

      3.2 特征聚類與采樣

      針對點云分割網(wǎng)絡(luò)輸出的實例特征,進行特征聚類,生成實例點云,并將聚類后的實例點云的點數(shù)統(tǒng)一控制在M個點,結(jié)合語義標簽送入下一環(huán)節(jié),其流程圖如圖6所示。

      圖6 特征聚類與采樣模塊流程圖

      首先,對于送入的N×128的高維特征,使用MeanShift算法進行特征聚類,生成逐點實例預(yù)測,在評估時,會出現(xiàn)雖預(yù)測的是同一個實例,但是預(yù)測編號不一致,導(dǎo)致評估為錯誤的數(shù)據(jù)關(guān)聯(lián)問題,受到文獻[20]啟發(fā),引入KM(Kuhn-Munkras)算法,按照點數(shù)的接近程度設(shè)定其初始匹配權(quán)重,其目的在于使得點數(shù)越相近的兩組點擁有越高的連接權(quán)重,從而使得同一實例的預(yù)測標簽與真實標簽數(shù)值相同。在聚類生成實例后,由于每個實例的點個數(shù)都不相同,需將其采樣至統(tǒng)一值,送入后續(xù)網(wǎng)絡(luò),這里采用PointNet++中提出的最遠點采樣(Farthest Point Sampling, FPS)與球查詢方法,其中若實例的點數(shù)大于M,使用FPS采樣法,相比于其他點云采樣方式,該方法可以更好地覆蓋空間中的所有點,盡可能地保留源點云的特征,便于后續(xù)的網(wǎng)絡(luò)分析,而實例的點數(shù)小于M時, 則使用球查詢的方法,將點云圍繞中心點劃分成 N個球形區(qū)域,將預(yù)測實例的點與輸入的原始點云合并,并在每個預(yù)測點的查詢半徑內(nèi)查找距離最近的原始點,循環(huán)查找直至找到M個點,將查找到的原始點集作為實例送入后續(xù)進行分析。

      3.3 切片點云數(shù)據(jù)的6D位姿估計

      在6D物體位姿估計任務(wù)中,輸入的物體表面點云處于拍攝相機的相機坐標系下,其目的是找到待估計物體從物體坐標系變換到相機坐標系的變換關(guān)系,即旋轉(zhuǎn)和平移參數(shù),從而進行后續(xù)的處理,如機械臂抓取等,而平移與旋轉(zhuǎn)彼此相對獨立,其中,平移參數(shù)一般以3×1的平移向量T表示,代表了物體變換時沿著3個坐標軸的位移,旋轉(zhuǎn)指定了圍繞3個坐標軸的旋轉(zhuǎn),本文在網(wǎng)絡(luò)中采用了旋轉(zhuǎn)向量的輸出方式。

      受到文獻[15]啟發(fā),本文提出了一種基于切片點云數(shù)據(jù),多尺度特征融合的位姿估計回歸方法,將其命名為多層特征姿態(tài)估計網(wǎng)(Multi-layer Feature Pose Estimation Net, MFPE-Net)其輸入數(shù)據(jù)維度為M×(3+k),其中k為物體種類的總數(shù),在輸入中以O(shè)ne-Hot形式存在,并通過兩個分支分別對旋轉(zhuǎn)與平移向量進行回歸,網(wǎng)絡(luò)基本結(jié)構(gòu)如圖7所示。

      圖7 MFPE-Net結(jié)構(gòu)圖

      其中,姿態(tài)特征提取模塊基于改進的Point-Net結(jié)構(gòu),將輸入點云通過MLP(多層感知機)提取特征后,將多個維度的特征拼接起來獲得512維度的多層次特征,實現(xiàn)網(wǎng)絡(luò)對物體多層特征的學習感知,進而通過全連接層將特征維度升至1024維,送入池化層后獲取全局特征,進而通過尺寸為[512,256, 3]的MLP回歸物體的旋轉(zhuǎn)或平移向量。

      在網(wǎng)絡(luò)的優(yōu)化環(huán)節(jié),參考了文獻[21],引入了RAdam (Rectified Adam)優(yōu)化器,RAdam是一種可以根據(jù)方差的散度動態(tài)地開閉自適應(yīng)學習速率的優(yōu)化器,使得網(wǎng)絡(luò)在訓練時具有更好的魯棒性與學習率的動態(tài)調(diào)整性能,從而獲取更好的訓練結(jié)果,模塊基本結(jié)構(gòu)如圖8所示。

      圖8 姿態(tài)特征提取模塊結(jié)構(gòu)圖

      4 實驗及分析

      本文在訓練時采用分別訓練、統(tǒng)一測試的方法,在點云語義與實例分割網(wǎng)絡(luò)、位姿估計網(wǎng)絡(luò)的訓練中,均采用生成數(shù)據(jù)集中得到的準確標簽,以使得兩個網(wǎng)絡(luò)獲得更好的訓練效果,而在測試環(huán)節(jié),位姿估計網(wǎng)絡(luò)的輸入為點云分割網(wǎng)絡(luò)輸出特征進行特征聚類與采樣后生成的點云切片。

      4.1 點云分割網(wǎng)絡(luò)

      本文在所提出的網(wǎng)絡(luò)上,對圖3(a)所示的5類物體,以及其他2類干擾物體,共7類物體進行訓練和測試,其基本配置如表1所示。

      表1 訓練基本配置表

      訓練使用的計算機配置是酷睿i9-9820X CPU、32 GB內(nèi)存,單張NVIDIA GeForce RTX 2080ti顯卡,經(jīng)過特征聚類的點云實例分割的效果圖如圖9所示。

      圖9 點云實例分割網(wǎng)絡(luò)效果圖

      表2展示了本文提出的多尺度點云分割網(wǎng)絡(luò)的語義分割部分與PointNet++, MT-PNet, MV-CRF的語義分割精度結(jié)果,而表3展示了本文提出網(wǎng)絡(luò)的實例分割部分與MT-PNet, MV-CRF的實例分割的精度對比,可以看到,針對工業(yè)抓取數(shù)據(jù)集,本文提出方法的誤差明顯較小,平均94%以上的實例分割精度使得輸出實例足夠完整,可以滿足后續(xù)的位姿估計網(wǎng)絡(luò)對輸入數(shù)據(jù)的要求。

      表2 語義分割精度(%)和平均時間(s)

      表3 實例分割精度(%)和平均時間(s)

      在單個場景點云的識別時間對比上,本文骨干網(wǎng)絡(luò)采用了CUDA版本的PointNet++,故在精度提升明顯的情況下,僅有略小的時間增加。在實例分割部分,運行在CPU的實例特征聚類算法占據(jù)了大部分的運算時間。總體來說,本文提出的分割網(wǎng)絡(luò),每次運算時間根據(jù)場景內(nèi)物體數(shù)量的不同會有浮動,每個場景內(nèi),出現(xiàn)4~7個不同種類、不同大小的物體時,運算時間在3.5~7 s內(nèi)浮動。

      進行實例特征聚類時,需采用無需輸入總體聚類數(shù)量的方法,本文在常見的無需聚類數(shù)量的方法中進行了測試,包括已經(jīng)選用的MeanShift算法,以及基于密度聚類的DBSCAN(Density-Based Spatial Clustering of Applications with Noise)算法,以及基于層次凝聚的HAC(Hierarchical Agglomerative Clustering)聚類算法,具體結(jié)果如表4所示。

      由表4,在使用DBSCAN方法時,需要指定聚類半徑和最小聚類點數(shù),因本文涉及的物體存在大小尺度不一的情況,故在設(shè)定一個聚類半徑后,很難適配大小不同的工件,存在一定聚類誤差而基于層次凝聚的HAC算法在實際使用時,存在計算時間偏長、計算結(jié)果較差的問題,故不采用。

      表4 不同實例聚類方法精度(%)

      最終確定使用MeanShift算法,該方法對于其中涉及的窗口半徑r的比較魯棒,r在一定范圍內(nèi)聚類表現(xiàn)均良好,能夠保證每類工件均保持較好的分割結(jié)果。

      在實例特征進行特征聚類過程中,會出現(xiàn)聚類實例數(shù)量多于實際實例數(shù)量的情況,會導(dǎo)致在最終的準確率評判環(huán)節(jié),因序號不對應(yīng)導(dǎo)致的比對錯誤情況,最終會出現(xiàn)較大誤差,經(jīng)實驗驗證,引入的KM算法會在這種情況下將預(yù)測正確的點簇的實例序號與真實序號對應(yīng),不會因某一實例的預(yù)測不準影響后續(xù)的預(yù)測評估過程。

      對預(yù)測實例進行可視化評估時,發(fā)現(xiàn)會小概率出現(xiàn)將某一物體中的一部分預(yù)測成多類的情況,如圖10所示,這也是導(dǎo)致聚類實例的數(shù)量與實際實例數(shù)量不符的主要原因,此類問題也會導(dǎo)致實例聚類輸出的錯誤結(jié)果影響后續(xù)姿態(tài)估計網(wǎng)絡(luò)的判斷流程。

      圖10 實例預(yù)測出現(xiàn)錯誤情況圖

      本文采用的解決辦法是對每一組輸出點簇進行數(shù)量判斷,對于數(shù)量過于小的點簇,不進行查詢以及后續(xù)的保存處理,避免這類小概率錯誤的分割結(jié)果影響后續(xù)的位姿估計任務(wù)。

      此外,在實例特征聚類階段,本文網(wǎng)絡(luò)直接輸出的高維特征已經(jīng)具有一定程度的聚類效果,通過PCA降維方法將原有的高維特征降維至3維數(shù)據(jù),并進行特征可視化后,其結(jié)果如圖11所示。

      圖11 高維實例特征降維結(jié)果

      4.2 點云位姿估計網(wǎng)絡(luò)

      在4.1節(jié)輸出的結(jié)果上,進行特征聚類與采樣后,送入本階段網(wǎng)絡(luò)進行姿態(tài)估計,由于每個場景內(nèi)的物體為隨機產(chǎn)生,故每次生成數(shù)據(jù)的每類物體總數(shù)量并不固定,均在8000個左右,在進行數(shù)據(jù)清洗后,同樣按照9:1的比例進行訓練集與測試集的劃分,其測試結(jié)果如圖12所示,圖中顯示為將未進行采樣的模型經(jīng)過解算位姿變換后與未經(jīng)采樣的場景。

      圖12 待抓取物體位姿估計效果

      對于物體位姿估計常用的評價指標是平均點對距離,即將3D模型點云分別做真實位姿和預(yù)測位姿的剛體變換后點對的平均歐氏距離。由于對稱物體真實位姿變換與預(yù)測位姿變換后的3D模型點云之間點對的對應(yīng)關(guān)系不確定,因此區(qū)分非對稱物體和對稱物體,平均點對距離的計算也相應(yīng)分為了針對非對稱物體的AD[23]和針對對稱物體的AD-S,具體如式(9, 10, 11)所示

      6D位姿估計的預(yù)測質(zhì)量評估,通常表示為平均點對距離誤差(AD/AD-S)小于各物體對應(yīng)模型直徑d的10%的度量上準確率,本文采用的精配準方法均為迭代最近點法(Iterative Closest Point,ICP),本文將所提出的方法與其他3種做比較:分別是FPFH+RANSAC+ICP[2], PPF+3D-Hough+ICP[4]和CloudPose+ICP[15]方法。其中前兩種是在傳統(tǒng)的基于人工描述子的配準方法中常見的識別方案,第3種是基于直接在點云數(shù)據(jù)上使用深度學習方法進行位姿估計。為了全面比較本文提出網(wǎng)絡(luò)的性能,在輸入數(shù)據(jù)形式上4種方法也有不同,F(xiàn)PFH+RANSAC+ICP和CloudPose+ICP是在已經(jīng)在真實標簽下分割好的點云塊上進行識別,并且已知該點云塊對應(yīng)的語義,而PPF+3D-Hough+ICP和本文提出的網(wǎng)絡(luò)均在整個場景點云上做出多個物體的位姿估計。

      如表5所示,是上述幾種方法的6D位姿估計準確率,可以看到,相比其他方法,本文提出方法的誤差明顯較小,在更多的物體上獲得了最優(yōu)的識別精度(非對稱與對稱物體分別采用AD和AD-S進行比較),從結(jié)果上看,本文提出的網(wǎng)絡(luò)效果更加穩(wěn)定。通過實驗觀察發(fā)現(xiàn),基于人工設(shè)計特征的傳統(tǒng)方法,由于點云配準方法的描述子對點云法線估計的計算依賴性較強,當場景點云中物體法線與模型點云法線有較大差異時,配準錯誤的情況會經(jīng)常出現(xiàn)。

      表5 姿態(tài)估計精度(%)

      物體A、物體D是尺寸最大的兩類物體,在場景點云中有更多的點能夠描述,而且表面幾何特征也較豐富,因此在不同度量下幾種方法的識別誤差都比較小。

      物體B主體為片狀結(jié)構(gòu),存在大量局部特征的錯誤地關(guān)聯(lián)在了其他含平面的干擾物體上的情況,而且傳統(tǒng)粗配準的體素下采樣方式?jīng)]有將空洞和邊緣特征很好利用到,自身片狀正反面易混淆,因而出現(xiàn)表現(xiàn)較多的誤識別情況,本文采用的方法會將物體B完整分割出來,避免以上情況的發(fā)生。

      物體C在幾何上不具有對稱性,但是前兩種方法均出現(xiàn)ADS指標明顯高于AD指標的情況,說明在特征上物體上有局部特征難以準確區(qū)分的位置,造成點對相關(guān)性配對錯誤,容易以60°的錯誤旋轉(zhuǎn)或者是鏡像式的錯誤旋轉(zhuǎn)進行預(yù)測,從而影響估計位姿估計結(jié)果,如圖13(a)(b)所示,而本文提出的物體6D位姿估計網(wǎng)絡(luò),通過多層特征融合,加強了網(wǎng)絡(luò)對物體細節(jié)特征的識別能力,降低了上述識別錯誤情況的發(fā)生。

      圖13 物體C配準的情況

      且從表5也可看出,針對非對稱物體A, B, C,D,本文提出的網(wǎng)絡(luò)識別精度(AD)均為最優(yōu)或者處于領(lǐng)先位置,針對對稱結(jié)構(gòu)的物體E, F, G,本文提出的網(wǎng)絡(luò)也具有很高的識別率(AD-S),證明了本文提出的方法的有效性,更加適配有高精度識別抓取需求的場景。

      如表6所示,針對對比的幾種方法進行了時效性的測試,其中,傳統(tǒng)方法FPFH, PPF的輸入為完整場景點云,在保證精度的前提下,完成下采樣后的場景點云數(shù)量為300000,模板點云數(shù)量為30000,所列出時間為在場景點云中完成單個工件的識別任務(wù)的所需時間,且PPF算法未計入線下離線建模的時間;而CloudPose其原始輸入即為分割后的點云切片,故使用MPCS-Net作為場景點云的分割網(wǎng)絡(luò),而本文提出的網(wǎng)絡(luò)時效參數(shù)則是MPCSNet與MFPE-Net的總體時間,對于場景中出現(xiàn)的多個物體,所列時間為分割網(wǎng)絡(luò)以及姿態(tài)估計網(wǎng)絡(luò)的時間總和,平攤至每個點云實例后的運算時間;可以看出,本文所提出的網(wǎng)絡(luò)大幅度優(yōu)于傳統(tǒng)方法,在與CloudPose方法進行對比時,因網(wǎng)絡(luò)復(fù)雜度相近,故時效基本一致。

      表6 單個實例識別時間(s)

      5 結(jié)束語

      本文針對現(xiàn)有的基于點云的位姿估計方法存在的不足,提出了一種基于深度學習的復(fù)雜點云場景下的6D位姿估計方法。通過物理引擎生成模擬數(shù)據(jù)集的方法解決了大體量點云數(shù)據(jù)集獲取困難的問題,以純幾何點云坐標直接將完整場景點云作為輸入,通過點云的語義與實例分割部分,可以提取輸入點云的局部與全局特征,提升了網(wǎng)絡(luò)對場景的理解能力,并通過多層特征融合的位姿估計網(wǎng)絡(luò)輸出準確姿態(tài),在一定程度上解決了物體的堆疊和自遮擋問題,且針對各種對稱物體具有魯棒性,經(jīng)過模擬真實場景的數(shù)據(jù)集的實驗驗證,本文提出的方法在整體精度和穩(wěn)定性上具有明顯優(yōu)勢,具有更高的魯棒性,由于數(shù)據(jù)在預(yù)處理時剔除了遮擋過于嚴重的部分,本文提出的網(wǎng)絡(luò)只解決了輕度遮擋以及物體自遮擋的情況,因此在解決嚴重遮擋的問題上仍具有提升空間,下一步工作將結(jié)合真實數(shù)據(jù)構(gòu)建的數(shù)據(jù)集,以提升本網(wǎng)絡(luò)的實用價值及魯棒性。

      猜你喜歡
      位姿實例語義
      語言與語義
      基于共面直線迭代加權(quán)最小二乘的相機位姿估計
      基于CAD模型的單目六自由度位姿測量
      “上”與“下”語義的不對稱性及其認知闡釋
      小型四旋翼飛行器位姿建模及其仿真
      認知范疇模糊與語義模糊
      完形填空Ⅱ
      完形填空Ⅰ
      基于幾何特征的快速位姿識別算法研究
      語義分析與漢俄副名組合
      外語學刊(2011年1期)2011-01-22 03:38:33
      梧州市| 庆阳市| 双鸭山市| 黄大仙区| 如东县| 富源县| 永嘉县| 镇巴县| 霍林郭勒市| 青岛市| 弥勒县| 民和| 萝北县| 民乐县| 科尔| 探索| 巴林右旗| 永修县| 信阳市| 宣汉县| 五指山市| 乐业县| 盐亭县| 南川市| 揭东县| 布拖县| 大邑县| 桑日县| 钟山县| 安陆市| 丹阳市| 林甸县| 耿马| 武山县| 丰顺县| 南康市| 文安县| 阜康市| 沈丘县| 顺平县| 宜宾市|