• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于局部注意力和位姿迭代優(yōu)化的自監(jiān)督單目深度估計算法

      2022-06-23 02:45:42趙霖趙滟靳捷
      信號處理 2022年5期
      關鍵詞:單目位姿像素

      趙霖 趙滟 靳捷

      (中國航天系統(tǒng)科學與工程研究院,北京 100048)

      1 引言

      估計場景的三維幾何結構是計算機視覺的一項基本任務。經(jīng)過幾十年的發(fā)展,當前已有包括雙目相機、結構光相機、光飛行時間(TOF)相機以及激光雷達等多種三維重建方法。然而,在設備安裝環(huán)境受限和成本控制要求高的場合中,往往需要使用單個相機進行場景結構的三維重建,即進行單目深度估計。單目深度估計在諸多領域有著廣泛的應用前景,如智能制造、智能安防、機器人和自動駕駛[1]。

      與傳統(tǒng)多視角立體幾何不同,單目深度估計算法僅能利用單張圖像中的信息進行深度推理,對深度信息進行建模的難度較大。因此,手工設計的傳統(tǒng)算法模型難以獲得良好的深度估計結果[2]。隨著深度學習技術的快速發(fā)展,研究者們發(fā)現(xiàn)卷積神經(jīng)網(wǎng)絡(Convolutional Neural Network,CNN)能夠很好地建模圖像中的深度線索,從而實現(xiàn)高性能的單目深度估計[3]。EIGEN 等人[3]將單目深度估計建模為回歸問題,利用多尺度結構的CNN 回歸像素深度,并設計出尺度不變的損失函數(shù)對網(wǎng)絡進行訓練,為單目深度估計領域的后續(xù)工作奠定了基礎。隨后,LAINA 等人[4]、CHEN 等人[5]、FU 等人[6]分別從網(wǎng)絡結構、損失函數(shù)設計和問題建模方式等方面進行了研究,使得單目深度估計領域取得了快速發(fā)展。然而,這些方法都是基于全監(jiān)督學習,需要大量帶有稠密深度真值的數(shù)據(jù)來進行網(wǎng)絡訓練。因此,這類方法的泛化性受到了極大地限制。

      為突破訓練數(shù)據(jù)的限制,研究者們在多視幾何原理的基礎上提出了單目深度估計網(wǎng)絡的自監(jiān)督訓練方法。ZHOU 等人[7]發(fā)表了自監(jiān)督單目深度估計的開山之作SfMLearner,通過聯(lián)合優(yōu)化深度估計網(wǎng)絡和位姿估計網(wǎng)絡,可以利用單目視頻序列實現(xiàn)自監(jiān)督訓練,而不需要額外的深度標簽。隨后,GODARD 等人[8]提出了MonoDepth2,在SfMLearner的基礎上引入了雙目圖像輔助訓練,同時結合SSIM損失、多尺度監(jiān)督和自動掩碼等技術大幅提升了自監(jiān)督單目深度估計網(wǎng)絡的性能。BIAN 等人[9]則針對自監(jiān)督訓練中的遮擋和尺度不一致問題提出了SC-SfMLearner,通過增加尺度一致性約束有效提升深度估計網(wǎng)絡的性能。SONG 等人[10]利用多尺度特征提取和注意力機制增強了網(wǎng)絡對圖像細節(jié)的感知能力,緩解了深度估計網(wǎng)絡在細節(jié)部分估計模糊的問題。盡管自監(jiān)督單目深度估計取得了快速發(fā)展,現(xiàn)有的算法仍然存在諸多問題。首先,現(xiàn)有的深度估計網(wǎng)絡不能很好地捕捉圖像中的上下文信息,因此無法充分利用深度線索實現(xiàn)高質(zhì)量的深度推理。其次,現(xiàn)有的位姿估計網(wǎng)絡在面對復雜運動時很有可能會失效,從而影響深度估計網(wǎng)絡的性能。

      為此,本文針對自監(jiān)督單目深度估計算法中深度估計精度有限的問題,提出了一種基于局部注意力機制和迭代優(yōu)化的自監(jiān)督單目深度估計框架。在KITTI 數(shù)據(jù)集上的實驗表明,本文提出的改進自監(jiān)督單目深度估計算法有效提升了深度估計的精度。同時,定性實驗結果也表明了本文方法進一步泛化應用于智能制造等場景的良好潛力。

      2 本文方法

      針對現(xiàn)有的自監(jiān)督單目深度估計算法存在的問題,本文在SC-SfMLearner[9]的基礎上,從深度估計網(wǎng)絡和位姿估計網(wǎng)絡兩方面進行改進。對于深度估計網(wǎng)絡,本文引入局部注意力機制融合特征圖中的圖像上下文信息,從而提升深度估計網(wǎng)絡的性能。對于位姿估計網(wǎng)絡,本文引入迭代優(yōu)化來增強位姿估計網(wǎng)絡對復雜運動的擬合能力,使自監(jiān)督訓練更加魯棒,從而提升深度估計網(wǎng)絡的性能。

      接下來,本節(jié)將分別介紹單目深度估計的自監(jiān)督訓練原理,引入局部注意力機制的深度估計網(wǎng)絡和基于迭代優(yōu)化的位姿估計網(wǎng)絡。

      2.1 自監(jiān)督單目深度估計框架

      自監(jiān)督單目深度估計是在多視角立體幾何的基礎上,將深度估計問題轉(zhuǎn)化為新視角合成問題,通過對比合成圖像和真實圖像的一致性產(chǎn)生監(jiān)督信號,進而實現(xiàn)自監(jiān)督訓練,其整體訓練框架如圖1所示。

      自監(jiān)督單目深度估計框架包含兩個主要網(wǎng)絡模型,即深度估計網(wǎng)絡和位姿估計網(wǎng)絡。遵循前人工作[8-10]的設定,本文采用三幀圖像作為一組訓練數(shù)據(jù)。給定一組訓練圖像{I0,I-1,I+1},其中I0表示目標幀,I-1和I+1表示時序上與目標幀相鄰的兩個參考幀。深度估計網(wǎng)絡用于推理輸入的目標幀圖像I0的深度D0,是訓練的主要目標。位姿估計網(wǎng)絡以兩幀圖像{I0,I-1}或{I0,I+1}作為輸入,推理兩幀圖像間的相對位姿變換關系T0,-1或T0,1,用于生成自監(jiān)督信號。

      自監(jiān)督訓練的基礎是可微的投影函數(shù)h。以圖像對{I0,I+1}為例,投影函數(shù)根據(jù)D0和T0,1將I0投影至參考幀視角下,得到合成圖像:

      投影過程遵循多視角立體幾何的約束,即對于合成圖像中任意像素位置p,可以利用其深度D0(p)和圖像間的相對位姿變換關系得到其在參考幀中的對應像素位置p′:

      式中K表示相機內(nèi)參。對所有像素位置進行遍歷后,即可得到合成圖像。由于雙線性插值以及圖像梯度的存在,損失函數(shù)到D0和T0,1之間的梯度是連續(xù)的,因此整個框架可以進行端到端訓練:

      自監(jiān)督訓練的關鍵是損失函數(shù)的設計。基礎的自監(jiān)督損失函數(shù)由兩部分組成,分別是重投影光度損失Lphoto和平滑損失Lsmooth:

      式中β為權重參數(shù),用于調(diào)整重投影光度損失和平滑損失對訓練的影響。其中重投影光度誤差的定義為:

      其中α為權重參數(shù),式中各項定義為:

      SSIM(·,·)表示結構相似性函數(shù)[11]。

      然而,重投影光度損失在紋理缺失區(qū)域極易失效。因此,需要引入平滑損失Lsmooth保證深度估計網(wǎng)絡能在紋理缺失區(qū)域產(chǎn)生合理的深度預測值:

      其中|I0|表示圖像中的像素數(shù)量。?1和?2分別表示一階與二階梯度。表示以原始圖像為參考的權重,用于抑制平滑損失造成的圖像中邊緣處的深度估計結果的過渡平滑。

      為進一步保證深度預測的一致性,本文在基礎自監(jiān)督損失函數(shù)的基礎上引入了尺度一致?lián)p失[9]:

      2.2 基于局部注意力機制的深度估計網(wǎng)絡

      深度估計網(wǎng)絡是自監(jiān)督單目深度估計訓練的主要目標。由于單目深度估計需要高度依賴圖像中的深度線索進行深度推理,因此網(wǎng)絡聚合局部上下文信息的能力顯得尤為重要。普通的卷積結構能夠聚合圖像中的上下文信息,但聚合能力和聚合感受野有限。為提升網(wǎng)絡的信息聚合能力,本文提出一種基于局部注意力機制的信息聚合技術,用于將高分辨率特征圖解碼為像素深度值,其設計如圖2所示。

      由于圖像大多為水平拍攝,行像素之間的深度具有高度的相關性,因此本文首先對行信息進行聚合,即對每個像素p=(i,j)T取pleft=(i,j-l)T與pright=(i,j+l)T之間的像素作為p的參考圖像塊進行信息聚合,由此獲得每行中L=2l+1 的深度線索感知范圍。隨后再對聚合后的特征圖進行3×3卷積,進一步融合列信息。經(jīng)過信息聚合后的像素將會在高分辨率特征圖上具有3×(L+2)范圍的感受野,相比于普通的3×3 卷積具有更強的深度線索捕捉能力。

      深度估計網(wǎng)絡結構如圖3 所示。為保證深度估計網(wǎng)絡的特征映射能力,本文采用“編碼器-解碼器”結構的骨干特征網(wǎng)絡,并使用殘差鏈接提升網(wǎng)絡的細節(jié)保持能力。整個深度估計網(wǎng)絡以ResNet50[12]作為編碼器主體,編碼器逐步將原始圖像編碼為1/2 至1/32 分辨率的5 個尺度的特征圖,用作解碼器的輸入。解碼器由卷積與上采樣組成,共包含5 層上采樣解碼層和1 層深度解碼層,除1/32 分辨率的解碼層外,每一個解碼層都接受來自上一解碼層和編碼器的特征作為輸入,最后的深度解碼層采用本文提出的信息聚合技術,將高分辨率特征圖解碼為原圖尺寸的深度圖?!熬幋a器-解碼器”結構能夠在獲得高分辨率特征的同時提升特征的感受野,從而增強特征的深度線索感知能力。

      2.3 基于迭代優(yōu)化的位姿估計網(wǎng)絡

      位姿估計網(wǎng)絡的性能將極大的影響自監(jiān)督訓練的效果。位姿估計網(wǎng)絡用于估計兩張圖像之間的相對位姿變換關系T,對于深度圖中的所有像素而言,T是一個全局變量,因此T的誤差將會從整體上影響自監(jiān)督訓練的效果。

      本文的基礎位姿估計模塊采用“編碼器-解碼器”結構,如圖4所示。模塊以ResNet18[12]作為編碼器主體,最終得到1/32分辨率的特征圖作為解碼器的輸入。解碼器通過卷積與池化操作,將特征解碼為一個6維向量v,表示圖像間的6-DOF位姿變換,其中前3維表示平移,后3維以歐拉角的形式表示旋轉(zhuǎn)。實際使用時,需要將向量v轉(zhuǎn)換為位姿矩陣T:

      其中,r0,r1和r2分別為旋轉(zhuǎn)向量r中的三個歐拉角,即r=[r0,r1,r2]T。

      為了提升位姿估計網(wǎng)絡的穩(wěn)定性,本文采用殘差學習的方式對位姿進行迭代優(yōu)化,如圖5 所示。因為位姿初值與位姿殘差之間的數(shù)據(jù)分布差異較大,本文的位姿估計網(wǎng)絡由兩個結構相同的基礎位姿估計模塊組成,分別用于初始位姿估計和位姿殘差估計。初始位姿估計模塊的輸入為原始的目標幀與參考幀,得到初始位姿估計后,結合深度估計結果由投影函數(shù)得到合成目標幀。迭代過程中,位姿殘差估計模塊的輸入為原始目標幀以及上一輪迭代后更新的合成目標幀,輸出為位姿殘差,該殘差會被用于更新當前位姿并重新合成目標幀用于下一輪迭代。最終的相機相對位姿由初始位姿和若干位姿殘差共同計算得到:

      式中表示初始位姿,表示位姿殘差。為保證初始位姿網(wǎng)絡的收斂,自監(jiān)督損失將分別使用初始位姿和最終位姿T0,1計算損失并求平均用于網(wǎng)絡優(yōu)化。

      3 實驗驗證

      3.1 數(shù)據(jù)集、測試指標與模型參數(shù)

      本文在基準數(shù)據(jù)集KITTI[13]上進行網(wǎng)絡訓練和測試。KITTI 是針對自動駕駛場景的室外街景數(shù)據(jù)集,包含單目視頻序列以及對應的稀疏激光雷達點云。訓練時,由單目視頻序列中抽取訓練圖像對,測試時,則使用單張圖像作為輸入,對應的稀疏激光雷達點云作為真值。為保證對比公平,本文按照EIGEN 等人[14]對數(shù)據(jù)集的劃分,選擇697張圖像作為測試集,其余圖像作為訓練集和驗證集。

      測試模型使用Pytorch 框架[15]實現(xiàn),在單張NVIDIA RTX 3090 上進行訓練。訓練使用Adam[16]優(yōu)化器,學習率設置為0.0001,批尺寸(batch size)設置為4,總計訓練100000 個batch。訓練過程中,信息聚合感受野L=7,位姿迭代次數(shù)設置為2,即,權重α=0.15,β=0.1,γ=0.5。

      由于單目深度估計缺乏尺度信息,在測試前,需要將預測深度與深度真值進行尺度對齊:

      本文采用四項誤差指標以及三項準確率指標作為評測指標,包括絕對值相對誤差(Absolute Relative Error,abs rel),平方相對誤差(Square Rela?tive Error,sq rel),均方誤差(Root Mean Squared Er?ror,rmse),對數(shù)均方誤差(Root Mean Squared Error in logarithmic space,rmse log)以及三項不同閾值的準確率acct,其中t∈{1,2,3}。各指標具體定義如下:

      3.2 基準數(shù)據(jù)集評測

      本文與目前最先進的自監(jiān)督單目深度估計算法進行了比較,結果如表1 所示。結果表明,本文算法能取得比之前的單目深度估計模型等準確的深度推理結果。本文算法在兩項相對誤差指標(abs rel 和sq rel)上顯著降低,較之前最優(yōu)的算法分別降低了2%(0.110→0.108)和8%(0.824→0.756),在均方誤差(rmse)和準確率指標上取得了與之前算法相當甚至更優(yōu)的性能。值得注意的是,MLDA-Net[10]采用了多尺度的注意力機制來提升深度估計網(wǎng)絡的性能,而本文僅使用單一尺度的注意力機制結合更好的位姿估計結果,即可獲得更好的深度估計結果,這證明了本文方法的有效性。

      表1 在KITTI數(shù)據(jù)集上的測試結果Tab.1 Results on KITTI dataset

      本文還展示了本文算法在KITTI 數(shù)據(jù)集上的定性結果,如圖6 所示。得益于更強的深度線索捕獲能力,本文算法相比于其他算法能夠得到更好地保持物體的完整性和深度的一致性。同時由于采用位姿優(yōu)化得到了更好相機位姿變換,使得訓練出的深度估計網(wǎng)絡能夠更準確地進行深度估計。

      3.3 消融實驗

      本文進一步進行消融實驗驗證各模塊的有效性。結果如表2 所示,基于局部注意力機制的信息聚合以及迭代優(yōu)化均能有效提升深度估計網(wǎng)絡的性能。比較模型1 和模型2 可以發(fā)現(xiàn),信息聚合使得模型在相對誤差指標上有了顯著降低,說明基于局部注意力機制的信息聚合能夠有效提升網(wǎng)絡的深度線索捕捉能力,更好地利用高分辨率特征圖,從而降低深度估計的誤差。而比較模型2 和模型3、4 可以發(fā)現(xiàn),迭代優(yōu)化能夠提升位姿估計網(wǎng)絡的性能,但多次迭代提升幅度有限,這是由于自動駕駛場景的位姿模式較為固定,因此較少次數(shù)的迭代即可獲得較為準確的位姿估計結果。

      表2 消融實驗結果Tab.2 Results of ablation study

      3.4 智能制造場景定性實驗

      本文進一步在智能制造場景中進行了實驗,驗證本文算法的泛化能力,結果如圖7 所示。即使完全沒有在相關場景中進行模型微調(diào),本文算法依然能夠完整地感知到物體的輪廓,并給出合理的深度估計值。同時,由于本文為自監(jiān)督算法,能夠很容易地收集大量訓練數(shù)據(jù)對模型進行訓練和微調(diào),從而達到更好的深度估計效果。由此,本文方法具備推廣應用到智能制造場景的良好潛力。

      4 結論

      本文面向單目深度估計任務,提出了一種改進的自監(jiān)督訓練框架。首先,根據(jù)單目深度估計高度依賴圖像中的深度線索這一特點,設計了基于局部注意力機制的信息聚合技術,用于提升深度估計網(wǎng)絡的深度線索感知能力,從而直接提升深度估計的準確率。其次,針對位姿估計網(wǎng)絡性能有限的問題,設計了基于迭代優(yōu)化位姿估計網(wǎng)絡,為自監(jiān)督訓練提供更好的位姿估計值,從而間接提升深度估計網(wǎng)絡的性能。實驗結果表明,本文算法在KITTI 數(shù)據(jù)集上取得了最優(yōu)的單目深度估計性能。

      猜你喜歡
      單目位姿像素
      趙運哲作品
      藝術家(2023年8期)2023-11-02 02:05:28
      像素前線之“幻影”2000
      “像素”仙人掌
      一種單目相機/三軸陀螺儀/里程計緊組合導航算法
      單目SLAM直線匹配增強平面發(fā)現(xiàn)方法
      基于共面直線迭代加權最小二乘的相機位姿估計
      基于CAD模型的單目六自由度位姿測量
      高像素不是全部
      CHIP新電腦(2016年3期)2016-03-10 14:22:03
      小型四旋翼飛行器位姿建模及其仿真
      基于單目立體視覺的三坐標在線識別技術研究
      北川| 托里县| 车险| 宜黄县| 三明市| 南靖县| 惠水县| 永清县| 延津县| 温州市| 庆阳市| 浪卡子县| 沂源县| 河津市| 黎川县| 昌吉市| 通许县| 新建县| 高雄市| 政和县| 阜新市| 宜都市| 云林县| 布尔津县| 思南县| 阜阳市| 邻水| 伊宁市| 通山县| 福清市| 祁东县| 景洪市| 长宁区| 栖霞市| 咸丰县| 安新县| 灌南县| 石棉县| 自治县| 邻水| 家居|