• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于渲染技術(shù)改進的一套點云配準流程

      2023-09-26 07:19:40梁昊天鄔義杰
      關(guān)鍵詞:特征描述位姿視圖

      梁昊天,鄔義杰

      (浙江大學工程師學院,杭州 310027)

      0 引言

      隨著激光雷達、RGBD相機等高精度傳感器的快速發(fā)展,點云數(shù)據(jù)變得更易獲取、成本得到控制[1]。相較于二維圖片,點云能提供豐富的幾何、形狀和尺度信息,使機器人對周圍環(huán)境的理解更加深刻,因而其已成為計算機表示三維世界的主要數(shù)據(jù)格式之一[2]。 由于傳感器只能在其有限的視野范圍內(nèi)捕獲掃描,因此需要配準算法來生成大型三維場景。 點云配準是估計兩點云之間的變換矩陣的問題。 應用變換矩陣,我們可以將關(guān)于同一三維場景或?qū)ο蟮牟糠謷呙韬喜⒊梢粋€完整的三維點云[3]。點云配準在眾多計算機視覺應用中起著關(guān)鍵而不可替代的作用,如三維重建、三維定位、位姿估計、自動駕駛等[4]。

      點云配準按點云來源分類可分為同源配準和跨源配準,按配準策略分類可分為基于優(yōu)化的配準方法、基于特征對應的配準方法和端到端學習的配準方法[5]。

      基于優(yōu)化的配準方法借助優(yōu)化的策略估計剛體變換矩陣。大部分基于優(yōu)化的配準方法包含兩個步驟:對應點搜索和變換估計,兩個步驟迭代進行。其中,BESL等[6]提出的迭代最近點(iterative closest point,ICP)算法,該算法基于奇異值分解(singular value decomposition,SVD),思想簡單、精度高,然而其計算開銷大,且使用需要滿足兩個前提條件,即兩個點云間存在包含關(guān)系且兩個點云初始位置不能相差太大。YANG、BRENNER等[7-9]對其提出了改進。

      不同于經(jīng)典的基于優(yōu)化的配準算法,基于特征對應的配準方法分為三步:對點云中的點進行特征提取、在特征空間中搜索點對、無需迭代的一步估計(如隨機抽樣一致性算法(random sample consencus,RANSAC)[10]、TEASER++算法[11]等)獲得剛體變換矩陣。點的特征描述是其中關(guān)鍵的一環(huán),傳統(tǒng)的特征描述子有FPFH[12]、PPF[13]等。使用深度神經(jīng)網(wǎng)絡學習的特征描述子如3DMatch[14]、PPFNet[15]、FCGF[16]等及將注意力機制應用于點云處理的Point Transformer[17],希望通過深度學習的方法得到具有更強的特征表達能力和更高的魯棒性的特征描述子。其劣勢在于:①深度學習需要大量的訓練數(shù)據(jù);②當訓練數(shù)據(jù)與測試數(shù)據(jù)存在尺度、精度差異時,配準效果會大幅下降;③通過獨立的訓練過程學習的特征提取網(wǎng)絡確定的是點的配對關(guān)系而非配準結(jié)果。

      端到端學習的配準方法使用端到端的深度神經(jīng)網(wǎng)絡解決配準問題,如DGR[18]、DeepGMR[19]、FMR[20]等。網(wǎng)絡的輸入是兩個原始點云,輸出是對齊兩個點云的剛體變換矩陣。

      渲染技術(shù)通常用于計算機生成場景與模型的可視化,在眾多計算機圖形領域起著不可或缺的作用,如工業(yè)設計、醫(yī)學影像等[21]。在深度學習領域,也有使用渲染技術(shù)生成訓練集的案例,如HODAN等[22]提出一種使用三維模型合成擬真度較高的圖像的方法,并利用這些生成的PBR(physically-based rendering)圖像訓練卷積神經(jīng)網(wǎng)絡在真實照片中目標檢測的能力。這種物理渲染方法獲得的訓練集由于2D目標檢測框、實例分割掩膜、6D位姿數(shù)據(jù)都可以自動生成,相較于時間、人工成本極高的人工標注真實數(shù)據(jù)集,具有極大的優(yōu)勢。

      本文提出了一套點云配準實現(xiàn)及評價的算法流程,其核心是改造的將自注意力機制應用于點云處理的Point Transformer點云特征提取網(wǎng)絡模型,InfoNCE[23]作為其損失函數(shù),通過應用渲染技術(shù),將ShapeNet[24]數(shù)據(jù)集模型在不同視角下投影成外參已知的深度圖,生成其訓練集。在點云的特征空間內(nèi)KDTree的方式互相尋找其最近鄰點,構(gòu)成點對關(guān)系。使用RANSAC算法由點對估計點云剛體變換矩陣,作為粗配準結(jié)果。在ICP算法的基礎上開發(fā)了Rendering-ICP算法作為精配準環(huán)節(jié),優(yōu)化得出最終的剛體變換矩陣,即位姿估計結(jié)果。最后,在Linemod數(shù)據(jù)集上與FPFH、PPF、FCGF的點云描述子進行對比測試,使用基于渲染的可見表面差異(visible surface discrepancy,VSD)的回歸作為6D位姿估計評價指標進行評價,驗證了本文算法的優(yōu)勢。

      1 6D位姿估計應用場景描述

      物體的6D位姿是指物體坐標系到相機參考坐標系的幾何映射。最常見的,該映射是由三維旋轉(zhuǎn)(物體方向)和三維平移(物體位置)定義的。推斷物體的6D位姿是機器人與外界環(huán)境交互的一個關(guān)鍵性問題。

      在實際應用中,物體的6D位姿估計通常包含兩個階段:①將目標物體從實際場景中識別并分離出來;②根據(jù)分離后的物體信息判斷其6D位姿。第一步由基于卷積神經(jīng)網(wǎng)絡的實例分割方法完成(如Mask-RCNN[25]等),本文不再贅述,本文給出第二個階段使用點云配準方法的解決思路。

      本文選用Linemod[26]數(shù)據(jù)集作為本文算法的應用場景,Linemod數(shù)據(jù)集包含了15個物體,提供了這15個物體的模型文件和真實采集的每個模型200張用于測試的RGBD圖像,及采集所用深度相機的內(nèi)參、用于評估6D位姿估計結(jié)果的真值變換矩陣等。已知相機內(nèi)參如表1所示。

      表1 Linemod數(shù)據(jù)集采集所用Kinect相機內(nèi)參

      由相機內(nèi)參,對一張深度圖,已知其上坐標為(u,v)的某個像素點的深度值有效(非零),值為d,則可以計算得該像素點對應的點云點空間坐標(x,y,z),如式(1)~式(3)所示:

      (1)

      (2)

      (3)

      圖1a、圖1b分別為Linemod數(shù)據(jù)集的測試集的一張RGB圖像與深度圖像樣例,及這兩張圖像合成的點云圖。

      (a) Linemod數(shù)據(jù)集測試集RGB圖(左)、深度圖(右)

      目標物體的實例分割結(jié)果由前置的Mask-RCNN算法獲得,將實例分割獲得的RGB圖像二值掩膜與深度圖點乘獲得濾除了背景的目標物體深度圖,由相機內(nèi)參計算得獨立的待估計6D位姿的目標物體點云。從而,將6D位姿估計問題轉(zhuǎn)換為計算目標物體模型點云到實際采集點云中目標物體局部點云的空間變換矩陣,即模型點云和局部點云之間的配準問題。為此,本文設計了一套基于深度學習的點云配準流程。

      2 渲染技術(shù)應用于深度學習的網(wǎng)絡訓練

      2.1 網(wǎng)絡模型設計

      基于優(yōu)化的配準算法不適用于初始位姿相差大的配準場景,而端到端學習的配準算法則存在解釋性差、對模態(tài)不同的輸入點云配準效果差等問題,因而本文選用基于特征對應的配準方法。傳統(tǒng)的特征描述子對模型特征的描述注重局部幾何特征,對全局信息的把握較弱,對抗噪聲的魯棒性差,而基于深度學習的特征描述子則可以通過合理的網(wǎng)絡結(jié)構(gòu)和大量充分的訓練解決上述問題。

      Transformer和自注意力機制對自然語言處理和機器視覺領域都產(chǎn)生了革命性的影響。自注意力算子可以分為兩種類型:標量注意力和向量注意力。本文使用向量注意力作為基礎,設X={xi}i作為特征向量的集合。通常,注意力權(quán)重是可針對單個特征通道進行調(diào)節(jié)的向量,其計算如下:

      (4)

      式中:yi表示輸出的特征,φ、ψ和α表示逐點特征變換(如線性投影或MLP),δ表示位置編碼函數(shù),β表示關(guān)系函數(shù)(如差),γ表示為特征聚合生成注意力向量的映射函數(shù)(如MLP),ρ表示歸一化函數(shù)(如softmax),⊙表示Hadamard乘積,即對應位置元素相乘。

      自注意力機制對點云對象具有天然的適配性,這是由于點云是不規(guī)則地嵌入在三維空間中。本文使用的Point Transformer層基于向量的自注意力機制,其使用差作為關(guān)系函數(shù),并對每個注意力向量γ和特征變換α添加一個位置編碼,如下:

      (5)

      本文基于Point Transformer改進了一套點云的特征描述學習網(wǎng)絡。Point Transformer原本被設計用于點云的語義分割與點云分類任務,通過改造其輸出頭的全局池化層和多層感知器,使得網(wǎng)絡的輸入是一個點云對象,輸出則是該點云中逐點的特征描述。網(wǎng)絡包含5個下采樣階段和5個上采樣階段,對逐步下采樣的點云進行特征編碼操作,其中各個階段的下采樣率分別為[1,4,4,4,4],因此每個階段產(chǎn)生的點云的點數(shù)分別為[N,N/4,N/16,N/64,N/256],其中N為輸入點云的點數(shù)。而后對逐步上采樣的點云進行特征解碼操作,之前解碼器階段的特征與相應編碼器階段的特征進行插值匯總,通過解碼器后作為當前層的解碼后的特征。通過五層編碼器和解碼器之后的逐點特征作為最后的網(wǎng)絡輸出。這樣的網(wǎng)絡結(jié)構(gòu)設計保證了點云中每個點的特征都包含了5個不同采樣率下對全局信息的把握。

      (6)

      式中:f是對數(shù)雙線性模型。

      (7)

      2.2 訓練集的構(gòu)建

      Transformer架構(gòu)解決了卷積神經(jīng)網(wǎng)絡需要深層次的卷積網(wǎng)絡對相距較遠的元素進行交互的限制,然而其訓練的難度也更大。點云配準的數(shù)據(jù)集如3DMatch等,多為室內(nèi)場景點云,與本文算法對中小型物體6D姿態(tài)估計的應用場景存在尺度差異,適用性較差。因而,本文設計了一套利用渲染技術(shù)生成點云特征對比學習數(shù)據(jù)集的算法。

      2.2.1 渲染技術(shù)生成點云特征對比學習數(shù)據(jù)集

      ShapeNet數(shù)據(jù)集包含了約300萬個模型,其子集ShapeNetCore包含了來自55類的約5萬個模型,根據(jù)模型類型和大小篩選后保留了其中約2萬個模型,作為原始模型。對每一個原始模型,以其中心點為空間零點與視點球面球心,其隨機2~5倍直徑作為視點球面半徑,生成16個同心視點球面,在每個視點球面上隨機取1個點,作為模擬的相機位置,相機朝向模型中心點并適當擾動,將觀察到的原始模型渲染成RGB圖像和深度圖像,稱為一個視圖,如圖2所示。

      圖2 渲染生成的ShapeNet模型的16個視圖

      對這樣一個渲染的視圖,其相機內(nèi)參是自定義的,外參是由相機在空間確定的,因而可以通過相機內(nèi)參重建視圖的點云,通過相機外參獲取視圖點云與模型點云間,視圖點云與視圖點云間的真值配準結(jié)果。這樣的一組初始點云對和其真值配準結(jié)果構(gòu)成了訓練數(shù)據(jù)集中的一條原始數(shù)據(jù)。

      2.2.2 渲染生成數(shù)據(jù)集的數(shù)據(jù)增強

      與渲染生成的視圖點云數(shù)據(jù)相比,由于深度相機分辨率、自然噪聲等影響,真實采集的視圖點云數(shù)據(jù)具有深度分層,噪聲干擾,深度信息缺失等特點,如圖3所示。因此,對渲染數(shù)據(jù)集中的視圖點云須進行數(shù)據(jù)增強操作,使網(wǎng)絡對模型和視圖間不同模態(tài)特征一致性的學習達到更加魯棒的效果。

      圖3 深度相機采集的真實點云的分層現(xiàn)象

      針對以上的真實采集點云數(shù)據(jù)的特點,本文分別設計了對深度圖進行深度分層、添加柏林噪聲和生成隨機多邊形孔洞的數(shù)據(jù)增強操作,圖4b~圖4d分別是圖4a的原始點云經(jīng)上述操作處理后的效果。

      (a) 原始點云 (b) 深度分層 (c) 柏林噪聲 (d) 隨機多邊形孔洞

      2.3 網(wǎng)絡的訓練

      本文所用的實驗平臺為NVIDIA DGX系統(tǒng),軟件平臺為Python 3.8.10,PyTorch 1.10.0,CUDA 11.3。使用8個NVIDIA GeForce RTX 3090 GPU對網(wǎng)絡進行多卡訓練。網(wǎng)絡訓練的優(yōu)化器使用Adam,各參數(shù)設置如表2所示,訓練30個epoch。

      表2 Point Transformer訓練參數(shù)設置表

      3 配準方法完成物體的6D位姿估計

      3.1 點云特征的可視化

      通過訓練好的Point Transformer網(wǎng)絡對點云的特征提取,點云中的每一個點獲得了一個獨特的64維的特征表達。將64維的特征使用主成分分析(principal component analysis,PCA)方法降維至3維,并標準化至RGB通道,作為顏色表示,可視化效果如圖5所示。

      (a) 臺鉗(左:模型、右:視圖) (b) 茶杯(左:模型、右:視圖)

      3.2 特征空間中搜索互相最近鄰點對

      一個視圖的目標物體的點云與目標物體完整模型的點云在相同位置應具有相似的特征表達。對物體模型的每個點的64維特征表達建立一個KDTree搜索空間,歐式距離作為距離的度量指標。設x(x1,x2,…,xn)和y=(y1,y2,…,yn)是n維空間中的兩點,其歐氏距離計算如下:

      (8)

      對于一個視圖點云中的每個點,在特征空間中尋找其在模型點云中的最近鄰點(與其具有最小歐式距離的點)。將模型與視圖互換進行同樣的操作。如果分別來自模型點云和視圖點云的兩個點在特征空間中互為最近鄰,則認為它們構(gòu)成一個點對。

      3.3 由點對推理變換矩陣構(gòu)成粗配準結(jié)果

      在特征空間搜索到的互相最近鄰點對,由于模型點云和視圖點云間存在模態(tài)差異,并非完全正確,錯誤點對的存在是不可忽略的。因而本文使用RANSAC(隨機抽樣一致性)算法由點對估計點云剛體變換矩陣。RANSAC算法的思想在于假設與驗證,即:①從所有互相最近鄰點對中隨機選取3組,假定它們是正確的,并基于其求解剛體變換矩陣;②計算剩余的點對在該剛體變換矩陣下的誤差,如果誤差值小于預定誤差閾值,則被認為是樣本內(nèi)點,否則為樣本外點。統(tǒng)計內(nèi)點的數(shù)量;③重復上述步驟,直到達到設定的最大迭代次數(shù);④統(tǒng)計不同剛體變換矩陣下的樣本內(nèi)點數(shù),內(nèi)點數(shù)最多的矩陣即為最佳數(shù)學模型。使用最小二乘法對該模型的所有內(nèi)點重新估計剛體變換矩陣,作為最終的粗配準結(jié)果。

      3.4 Rendering-ICP算法優(yōu)化配準結(jié)果

      RANSAC算法獲得的粗配準結(jié)果在精度上仍不可避免的存在一定誤差,因而一般需要使用精配準算法(如ICP算法)優(yōu)化配準精度,而在實際測試中發(fā)現(xiàn)局部視圖點云對完整模型點云的配準受不重合部分的影響較大,如圖6a和圖6b所示,鉆孔機的上半部分近似于圓柱體,當視圖點云的上半部分被包裹于模型點云之中時,受模型視圖不重合部分無關(guān)點的影響,迭代最近點的優(yōu)化策略失效,進而導致ICP算法失效。因此,開發(fā)了Rendering-ICP算法,即根據(jù)粗配準結(jié)果,從待估計位姿的視圖點云的相機觀測點觀測渲染的模型點云,保留可見點,剔除不可見點,將模型點云投影成局部視圖,以排除模型不重合部分對配準的干擾。ICP算法與Rendering-ICP算法的配準效果對比如圖6c和圖6d所示。

      (a) 粗配準結(jié)果(軸測圖) (b) 粗配準結(jié)果(正視圖) (c) ICP精配準結(jié)果 (d) Rendering-ICP精配準結(jié)果

      4 實驗驗證與結(jié)果分析

      (9)

      對每個單獨目標的6D位姿估計結(jié)果,其eVSD若小于設定的錯誤閾值,則視為正確的結(jié)果,否則視為錯誤,在實驗中,選取閾值為0.3。則VSD的回歸RecallVSD計算如下:

      (10)

      式中:TP為正確的結(jié)果數(shù),FN為錯誤的結(jié)果數(shù)。

      FPFH、PPF、FCGF算法與Point Transformer算法在Linemod數(shù)據(jù)集上6D位姿估計結(jié)果的評價指標如表3所示。

      表3 點云描述子在Linemod數(shù)據(jù)集上的VSD回歸評價結(jié)果

      對Linemod數(shù)據(jù)集中15個物體的VSD回歸結(jié)果單獨分析,結(jié)果如圖7所示。

      圖7 點云描述子在Linemod數(shù)據(jù)集上逐物體的VSD回歸評價結(jié)果

      通過表3和圖7可以看出Point Transformer點云描述網(wǎng)絡模型在設計的訓練集訓練后的性能顯著優(yōu)于其他算法。

      5 結(jié)束語

      本文針對點云的特征描述子在深度學習訓練中訓練集構(gòu)造困難的問題,創(chuàng)新性地提出了應用渲染技術(shù)將點云模型在不同視角投影后重建,構(gòu)建成點云配準訓練集的方法。立足于6D位姿估計應用場景,改造了被設計用于點云語義分割的Point Transformer作為點云的特征描述子,設計了局部視圖點云到整體模型點云的配準訓練集,并結(jié)合真實采集點云的特征,設計了深度分層、柏林噪音、隨機多邊形孔洞等數(shù)據(jù)增強方法,增強了學習的點云特征的魯棒性。使用訓練好的模型處理點云對象,推理每個點的64維特征,并做了可視化呈現(xiàn)。在特征空間中搜索互相最近鄰點構(gòu)建點對,RANSAC方法獲取粗配準結(jié)果,在ICP算法基礎上創(chuàng)新的Rendering-ICP算法作為精配準算法獲得最后的配準結(jié)果,即6D位姿估計結(jié)果。最后與FPFH、PPF、FCGF等算法進行了對比實驗,VSD的回歸作為評價指標,證明了本文算法的優(yōu)勢。

      點云配準的應用場景很多,由于著眼于6D位姿估計場景,渲染的訓練集均為直徑不超過1米的物體局部視圖到全局點云的配準,因而本文訓練出的Point Transformer點云特征描述子是針對小型物體特化的。在后續(xù)研究中,可以著眼于訓練集的擴充和泛化性的增強,將本文的算法應用于室內(nèi)場景、室外大型場景三維點云重建等。

      猜你喜歡
      特征描述位姿視圖
      船舶尾流圖像的數(shù)字化處理和特征描述技術(shù)
      5.3 視圖與投影
      視圖
      目標魯棒識別的抗旋轉(zhuǎn)HDO 局部特征描述
      自動化學報(2017年4期)2017-06-15 20:28:54
      Y—20重型運輸機多視圖
      SA2型76毫米車載高炮多視圖
      用于三維點云表示的擴展點特征直方圖算法*
      基于共面直線迭代加權(quán)最小二乘的相機位姿估計
      基于CAD模型的單目六自由度位姿測量
      小型四旋翼飛行器位姿建模及其仿真
      新邵县| 新河县| 苏尼特左旗| 禹州市| 松阳县| 祥云县| 偏关县| 抚州市| 安仁县| 奉新县| 资兴市| 都匀市| 凉城县| 华阴市| 丁青县| 红原县| 毕节市| 那曲县| 合江县| 衡阳市| 公安县| 湖口县| 深水埗区| 墨竹工卡县| 大兴区| 昌平区| 泗阳县| 宣汉县| 平原县| 板桥市| 大名县| 潞城市| 台东县| 乌恰县| 云林县| 五大连池市| 龙口市| 阿巴嘎旗| 泽库县| 突泉县| 桓仁|