• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于改進熱圖損失函數(shù)的目標6D姿態(tài)估計算法

      2022-07-07 01:55:30林林王延杰孫海超
      液晶與顯示 2022年7期
      關(guān)鍵詞:熱圖關(guān)鍵點姿態(tài)

      林林王延杰*孫海超

      基于改進熱圖損失函數(shù)的目標6D姿態(tài)估計算法

      林林1,2,王延杰1*,孫海超1

      (1.中國科學(xué)院 長春光學(xué)精密機械與物理研究所,吉林 長春 130033;2.中國科學(xué)院大學(xué),北京 100049)

      針對傳統(tǒng)熱圖回歸使用的均方誤差(MSE)損失函數(shù)訓(xùn)練熱圖回歸網(wǎng)絡(luò)的精度不高且訓(xùn)練緩慢的問題,本文提出了用于熱圖回歸的損失函數(shù)Heatmap Wing Loss(HWing Loss)。該損失函數(shù)對于不同的像素值有不同的損失函數(shù)值,前景像素的損失函數(shù)梯度更大,可以使網(wǎng)絡(luò)更加關(guān)注前景像素,使熱圖回歸更加準確快速。同時根據(jù)熱圖分布特性,使用基于高斯分布的關(guān)鍵點推理方法減小熱圖推斷關(guān)鍵點時的量化誤差。以此兩點為基礎(chǔ),構(gòu)造新的基于關(guān)鍵點定位的單目標姿態(tài)估計的算法。實驗結(jié)果表明,相比于使用MSE Loss的算法,使用HWing Loss的姿態(tài)估計算法有更高的ADD(-S)準確率,在LINEMOD數(shù)據(jù)集上達到了88.8%,性能優(yōu)于近期其他的基于深度學(xué)習(xí)的姿態(tài)估計算法。本文算法在RTX3080 GPU上最快能以25 fps的速度運行,兼具速度與性能優(yōu)勢。

      深度學(xué)習(xí);姿態(tài)估計;損失函數(shù);熱圖

      1 引言

      隨著計算機視覺技術(shù)的不斷發(fā)展,僅從圖像中檢測物體已經(jīng)不能滿足智能機器人對環(huán)境感知的需要,基于圖像的物體6D姿態(tài)測量成為了新的研究熱點。用RGB-D圖像估計物體的姿態(tài)雖然精度高,但是計算復(fù)雜難以應(yīng)用。使用單RGB圖像配合目標的三維模型可以解決單目相機成像時的尺度不確定問題,也可以得到較好的結(jié)果,但在實際應(yīng)用場景下,目標的背景較為復(fù)雜,而且會有很多遮擋現(xiàn)象出現(xiàn),這都給姿態(tài)估計問題造成了很大的影響。因此,如何從單張圖像中快速準確地在復(fù)雜場景下獲得目標的6D姿態(tài)是一個非常值得深入研究的課題。

      傳統(tǒng)姿態(tài)估計算法通常使用手工特征[1-3]建立圖像模板與圖像之間的對應(yīng)關(guān)系,很難處理無紋理對象,速度也較慢。隨著深度學(xué)習(xí)的發(fā)展,基于CNN的姿態(tài)估計算法取得了優(yōu)異的性能。Deep-6DPose[4]、AAE[5]等端到端算法是將圖像輸入到神經(jīng)網(wǎng)絡(luò)中直接輸出目標姿態(tài),但是這種方法的泛化能力并不好,網(wǎng)絡(luò)無法學(xué)習(xí)到足夠的特征以表達目標姿態(tài)。近期研究的兩階段算法如yolo-6d[6]、BetaPose[7]、Pix2Pose[8]、PVNet[9]等在精度上相比于端到端算法展現(xiàn)了較大的優(yōu)勢。其中BetaPose[7]為這類方法提供了一個簡單高效的基礎(chǔ)架構(gòu),即先使用神經(jīng)網(wǎng)絡(luò)回歸熱圖定位關(guān)鍵點,再使用PP算法計算目標姿態(tài)。

      熱圖是一種特殊的圖像,圖像上每個像素值代表關(guān)鍵點出現(xiàn)在該位置的概率值,可以用于神經(jīng)網(wǎng)絡(luò)回歸關(guān)鍵點時的中間表示,利用預(yù)測得到的熱圖極大值及其鄰域推斷得到關(guān)鍵點位置。因此,熱圖的前景像素的預(yù)測精度對于關(guān)鍵點定位任務(wù)至關(guān)重要,這個部分即使出現(xiàn)了很小的預(yù)測誤差,也會導(dǎo)致很大的關(guān)鍵點偏離。相反,預(yù)測熱圖的背景像素值并不重要,預(yù)測時只需使其逐步趨向于零值即可。而BetaPose并沒有利用好熱圖的相關(guān)特性:首先,在回歸熱圖時,使用傳統(tǒng)的MSE Loss損失函數(shù)。MSE Loss對于不同位置的像素值沒有區(qū)分,訓(xùn)練被大量無意義的背景像素主導(dǎo),導(dǎo)致回歸的熱圖精度不高。其次,在使用預(yù)測的熱圖定位關(guān)鍵點時,只簡單地取最大值點,存在量化誤差。這兩點影響了算法最終的結(jié)果。

      本文對BetaPose進行了改進。首先針對MSE Loss損失函數(shù)對像素沒有區(qū)分的問題,提出適用于熱圖回歸的損失函數(shù)Heatmap Wing Loss(HWing Loss),該損失函數(shù)更加關(guān)注前景像素誤差,可以有效提高熱圖回歸的質(zhì)量。其次,使用基于高斯分布的關(guān)鍵點推理方法,減小熱圖推斷關(guān)鍵點時的量化誤差。以此兩點為基礎(chǔ),構(gòu)造了新的單目標姿態(tài)估計算法。實驗結(jié)果表明,相比于其他姿態(tài)估計算法,本文算法在LINEMOD數(shù)據(jù)集上有更高的ADD(-S)準確率。

      2 適用于熱圖回歸的損失函數(shù)

      2.1 熱圖以及傳統(tǒng)損失函數(shù)

      如前文所述,熱圖絕大多數(shù)像素都是背景像素,對關(guān)鍵點至關(guān)重要的像素非常少,如圖1所示,其中圖1(a)為目標圖像,紅色部分為目標的關(guān)鍵點,圖1(b)為該關(guān)鍵點對應(yīng)的熱圖,圖1(c)為圖1(b)熱圖的局部放大圖。因此,我們希望用合適的損失函數(shù)使網(wǎng)絡(luò)訓(xùn)練可以對不同像素進行區(qū)分,使前景像素訓(xùn)練收斂速度更快,同時要對前景像素的小誤差有更高的敏感度。

      圖1 關(guān)鍵點熱圖

      在熱圖回歸中,常使用損失函數(shù)MSE Loss即均方誤差損失函數(shù)。但MSE Loss梯度隨著誤差增大而增大,大誤差的損失梯度要高于小誤差,這導(dǎo)致神經(jīng)網(wǎng)絡(luò)更關(guān)注于大誤差部分,而忽略小誤差部分。

      Adaptive Wing Loss[10](AWing Loss)提高了小誤差的敏感度,并對前景像素與背景像素做了區(qū)分。但AWing Loss前景像素梯度只在誤差為0值附近大于背景像素,這導(dǎo)致在網(wǎng)絡(luò)訓(xùn)練的大部分時期,網(wǎng)絡(luò)都是向著背景像素誤差減小方向前進,與熱圖前景像素更重要的特性背道而馳。MSE Loss和AWing Loss的表達式如式(1)、(2)所示。

      .(2)

      2.2 Heatmap Wing Loss

      根據(jù)熱圖本身特性,理想的熱圖損失函數(shù)應(yīng)該有以下特性:(1)大誤差部分具有恒定梯度,不會導(dǎo)致產(chǎn)生梯度爆炸的問題。(2)背景像素的小誤差部分無需精準的預(yù)測,只需要逐步回歸到零值,損失函數(shù)的特性與MSE Loss損失函數(shù)類似。(3)前景圖像的小誤差部分的回歸精確程度是熱圖回歸的關(guān)鍵,對小誤差要有更大的梯度。損失函數(shù)特性與AWing Loss函數(shù)類似。并且在整個訓(xùn)練過程中前景像素的梯度都應(yīng)該大于背景像素的梯度,這也有利于網(wǎng)絡(luò)向著重要的前景像素損失降低方向訓(xùn)練。本文在AWing Loss的基礎(chǔ)上提出適用于熱圖回歸的損失函數(shù)Heatmap Wing Loss(HWing Loss),其表達式如公式(3)所示。

      為了提升前景像素損失函數(shù)的梯度,讓整個網(wǎng)絡(luò)訓(xùn)練過程能以前景像素主導(dǎo),HWing Loss相比于AWing Loss做了兩點改進。

      圖3 HWing Loss示意圖

      3 目標姿態(tài)估計算法

      本文姿態(tài)估計算法為兩階段算法:第一階段預(yù)測熱圖,用于定位目標關(guān)鍵點;第二階段由關(guān)鍵點計算目標姿態(tài)。具體流程如圖4所示。首先將輸入圖像裁剪為×大小,輸入熱圖回歸網(wǎng)絡(luò),得到輸出的熱圖,由預(yù)測熱圖推理關(guān)鍵點位置,最后使用PP算法計算得到姿態(tài)。

      圖4 姿態(tài)估計算法流程圖

      3.1 熱圖回歸網(wǎng)絡(luò)

      本文使用HRNet[11-12]作為骨干網(wǎng)絡(luò)構(gòu)造熱圖回歸網(wǎng)絡(luò)。為減小網(wǎng)絡(luò)運算量,使用步長為2的卷積將特征圖由×降至/2×/2,輸入到HRNet中。而為了減小特征網(wǎng)絡(luò)輸出計算關(guān)鍵點位置時,由于特征圖與原圖尺度不一致需要縮放產(chǎn)生的誤差,將HRNet輸出的特征進行上采樣至原圖大小,并與原圖進行拼接,經(jīng)過最后一個卷積塊的運算,得到原圖大小的熱圖。我們使用××3大小的圖像作為輸入,每張圖像定義個關(guān)鍵點時,網(wǎng)絡(luò)的輸出為××的熱圖,在訓(xùn)練時使用上文提出的HWing Loss進行像素級的監(jiān)督。

      由于熱圖的前景像素部分只占整個圖像的不足1%,即使我們使用了HWing Loss提高網(wǎng)絡(luò)對前景像素的關(guān)注度,在訓(xùn)練時,整個損失仍然會以重要性不高的背景像素為主,導(dǎo)致網(wǎng)絡(luò)不能更精確地得到前景像素的預(yù)測。因此,我們使用文獻[10]中的策略,在計算網(wǎng)絡(luò)損失時,對前景像素與背景像素給予不同的權(quán)重。如圖5所示,首先將熱圖進行灰度膨脹操作,在訓(xùn)練損失計算時,對膨脹熱圖像素值高于0.2的部分給予10倍的權(quán)重,使網(wǎng)絡(luò)更加關(guān)注于前景像素的誤差。

      圖5 加權(quán)損失示意圖

      3.2 關(guān)鍵點推斷

      在傳統(tǒng)方法中,通常使用熱圖的最大值位置作為關(guān)鍵點的預(yù)測值。但是由于圖像是離散的,而關(guān)鍵點的位置很有可能不在像素點位置,這就導(dǎo)致了只用最大值位置作為關(guān)鍵點預(yù)測值會產(chǎn)生量化誤差,影響最終姿態(tài)估計結(jié)果。

      Zhang等[13]提出了基于高斯分布的熱圖推理關(guān)鍵點的方法,但在二維圖像上進行運算耗時較多。本文對其進行一維簡化。

      考慮到熱圖是由二維高斯函數(shù)生成,根據(jù)高斯函數(shù)的可分離性,二維高斯函數(shù)可以分解為兩個一維高斯函數(shù)。

      極值點在處的一維高斯函數(shù)為:

      為降低逼近難度,對高斯函數(shù)進行對數(shù)運算,將高斯函數(shù)變?yōu)槎魏瘮?shù),同時,可以保持極值點位置。

      聯(lián)立式(9)、(11)、(12)可得:

      同理,對方向坐標有:

      我們使用公式(13)、(14)進行關(guān)鍵點優(yōu)化。

      3.3 姿態(tài)計算

      獲取圖像關(guān)鍵點后,結(jié)合已知的三維關(guān)鍵點以及相機的內(nèi)參,可以通過求解PP問題計算得到姿態(tài)。我們使用EPP算法[14]進行PP問題的求解。

      4 實驗與結(jié)果

      4.1 數(shù)據(jù)集

      實驗中使用的數(shù)據(jù)集包括LINEMOD數(shù)據(jù)集和Occlusion LINEMOD數(shù)據(jù)集。

      LINEMOD數(shù)據(jù)集是6D目標姿態(tài)估計的標準數(shù)據(jù)集,這個數(shù)據(jù)集包含多個姿態(tài)估計場景,比如復(fù)雜背景、無紋理目標的場景。每一幅圖像的中心都有一個標記了平移、旋轉(zhuǎn)和類別的目標,同時該數(shù)據(jù)集還提供了每個目標的3D模型。在LINEMOD 數(shù)據(jù)集中共有15 783張圖像和13類目標,每個目標特征大約有1 200個實例。

      Occlusion LINEMOD數(shù)據(jù)集是對LINEMOD數(shù)據(jù)集的擴展,每一幅圖像包含一個被標記的目標,大部分圖像中的目標被部分遮擋。在實驗中,Occlusion LINEMOD數(shù)據(jù)集僅用來測試,只用LINEMOD 數(shù)據(jù)集進行訓(xùn)練。

      4.2 性能評估

      我們使用ADD(-S)指標評估算法性能,其中ADD指標度量的是模型頂點之間3D平均距離。如果3D模型頂點的坐標與估計的坐標之間的平均距離小于目標直徑的10%,預(yù)測就是正確的。對于對稱對象,使用ADD-S指標度量,其平均距離是基于最近的點距離計算的。性能評估時以測試集中預(yù)測正確的圖像數(shù)量與總數(shù)的百分比數(shù)計算。

      4.3 實驗參數(shù)

      本文使用PyTorch搭建訓(xùn)練環(huán)境。在LINEMOD數(shù)據(jù)集中每個類別隨機選擇30%的圖像作為訓(xùn)練集,其余70%作為測試集。為了防止過擬合及增大訓(xùn)練空間,我們在訓(xùn)練集內(nèi)添加合成圖像。對于每個對象,我們渲染了10 000張視點均勻采樣的圖像。同時用剪切和粘貼策略合成了另外30 000張圖像,每幅合成圖像的背景隨機采樣自SUN397[15]。

      4.4 單目標姿態(tài)估計

      我們在LINEMOD數(shù)據(jù)集上進行了單目標姿態(tài)估計測試,部分結(jié)果如圖6所示??梢钥闯觯瑹o論是復(fù)雜背景還是無紋理目標,本文算法都有出色的姿態(tài)估計結(jié)果。

      為驗證本文算法的有效性,我們將本文算法與近期算法進行對比。作為對比的BetaPose[7]?、yolo-6d[6]??、PVNet[9]是兩階段算法,區(qū)別在于關(guān)鍵點間接表示形式。BetaPose[7]與本文相同,使用熱圖,yolo-6d[6]直接回歸關(guān)鍵點坐標。PVNet[9]使用圖像像素點指向關(guān)鍵點的方向向量作為關(guān)鍵點的間接表達方式,該算法基于目標分割,在網(wǎng)絡(luò)回歸時需要增加單獨的圖像分割分支。PoseCNN[16]是端到端算法,可以直接從圖像中計算得到姿態(tài)。DeepIM[17]在PoseCNN后增加了迭代優(yōu)化的后處理部分。ADD(-S)指標測試結(jié)果如表1所示,其中eggbox和glue為對稱對象,使用ADD(-S)度量,其余對象使用ADD度量。加粗數(shù)字為本類別中準確率最高的結(jié)果。

      圖6 部分單目標姿態(tài)估計結(jié)果(綠色框為真實姿態(tài)的目標三維邊界框,藍色框為估計姿態(tài)的目標三維邊界框)

      表1單目標姿態(tài)估計ADD(-S)指標測試結(jié)果

      Tab.1 Single object pose estimation ADD(-S) metric test results

      *對稱對象

      由測試結(jié)果可以看出,本文算法在無需后優(yōu)化算法(細化算法,在粗姿態(tài)的基礎(chǔ)上繼續(xù)迭代優(yōu)化)中有著最高的平均準確率,并且在13個類別中的8個類別準確率領(lǐng)先于其他算法。相比于同樣使用熱圖回歸關(guān)鍵點的BetaPose,本文算法的準確率提升了16.2%,主要原因在于我們使用的熱圖回歸損失函數(shù)HWing Loss可以提升熱圖回歸的質(zhì)量。本文算法相比于PVNet的平均準確率雖然只領(lǐng)先2.5%,但是PVNet需要額外分割圖像,訓(xùn)練收斂困難。并且PVNet使用像素級的方向向量作為關(guān)鍵點的間接表達方式,關(guān)鍵點推理階段計算復(fù)雜度較高。同時,本文算法的準確率相比于PoseCNN提升了26.1%;而PoseCNN使用DeepIM優(yōu)化后,算法準確率仍然不及本文算法。可以說本文算法有非常優(yōu)秀的單目標姿態(tài)估計準確性。

      表2 關(guān)鍵點定位誤差與姿態(tài)估計誤差

      *對稱對象

      圖7 圖像關(guān)鍵點誤差與三維關(guān)鍵點偏離中心距離關(guān)系

      以cat類別為例,圖7展示了cat類別的32個圖像關(guān)鍵點的定位誤差均值、方差與三維關(guān)鍵點偏離目標中心的關(guān)系??梢钥闯鲭S著三維關(guān)鍵點偏離目標中心,圖像關(guān)鍵點定位誤差的均值與方差都趨向于增大。但是三維更加分散的關(guān)鍵點選取有利于提升PP算法計算姿態(tài)時的魯棒性,因此從整體上看,由于三維關(guān)鍵點偏離目標中心導(dǎo)致的圖像關(guān)鍵點定位誤差增大是可以接受的。

      在姿態(tài)估計誤差上,算法在13個類別的平均平移誤差為1.02 cm,平均旋轉(zhuǎn)誤差為2.16°。姿態(tài)估計誤差主要來源于關(guān)鍵點誤差,包括關(guān)鍵點的絕對定位誤差與關(guān)鍵點中的離群點。其次,數(shù)據(jù)集中的相機內(nèi)參與姿態(tài)真值的不準確同樣會影響最后測量的準確性。

      4.5 遮擋目標姿態(tài)估計

      本文在Occlusion LINEMOD 數(shù)據(jù)集上進行了遮擋目標的姿態(tài)估計測試。在目標被部分遮擋的情況下,本文算法可以正確估計目標的姿態(tài),如圖8(a)~(d)所示。但是當(dāng)目標存在大面積遮擋或者或在極端角度時,過少的圖像特征導(dǎo)致估計失敗,如圖8(e)~(h)所示。

      圖8 部分遮擋目標姿態(tài)估計結(jié)果(綠色框為真實姿態(tài)的目標三維邊界框,藍色框為估計姿態(tài)的目標三維邊界框)

      表3展示了本文算法遮擋目標姿態(tài)估計ADD(-S)測試結(jié)果與近期其他算法的對比。其中Oberweger等[18]使用熱圖作為關(guān)鍵點回歸的中間形式,并且利用圖像分塊提升了算法對遮擋的魯棒性。其余4個算法與單目標姿態(tài)估計對比算法相同。glue使用ADD(-S)度量,其余使用ADD度量。加粗數(shù)字為本類別中準確率最高的結(jié)果。

      表3遮擋目標姿態(tài)估計ADD(-S)指標測試結(jié)果

      Tab.3 Occluded object pose estimation ADD(-S) metric test results

      *對稱對象

      由表3可以看出,與單目標姿態(tài)估計結(jié)果類似,本文算法在無需后優(yōu)化算法中有著最高的平均準確率。Oberweger等[18]雖然對遮擋目標進行了優(yōu)化,但是本文算法的平均準確率仍然高出9.4%。PVNet[9]基于目標分割,對遮擋目標姿態(tài)估計有天然的優(yōu)勢,但其平均準確率比本文低了1.2%,可以看出本文算法的性能優(yōu)越性。但是相比于后處理算法DeepIM[17],本文算法在準確率上有所不足。但是DeepIM在使用中要先利用PoseCNN算法獲得姿態(tài)初始估計,再進行迭代后優(yōu)化,復(fù)雜的處理流程導(dǎo)致算法無法達到實時處理速度。相比之下,本文算法可以直接通過PP算法計算得到姿態(tài),更加簡潔高效。PoseCNN在使用后處理算法優(yōu)化后,平均準確率可以提升27.2%,可以說本文算法擁有巨大的準確率提升潛力。

      4.6 運行時間實驗

      4.7 多目標姿態(tài)估計問題

      本文算法同樣可以處理多目標姿態(tài)估計問題,可以使用自上而下的姿態(tài)估計方法,將多目標姿態(tài)估計問題轉(zhuǎn)化為多目標檢測問題與多個單目標姿態(tài)估計。即首先通過yolo-v5網(wǎng)絡(luò)同時檢測圖像中的不同目標,獲取不同目標的類別標簽及目標框。將不同目標分別裁剪后,輸入相應(yīng)類別的姿態(tài)估計網(wǎng)絡(luò)中進行姿態(tài)估計。而得益于本文算法將目標檢測與姿態(tài)估計分離的設(shè)計,本文算法在進行多目標姿態(tài)估計時可以具有與單目標姿態(tài)估計相同的準確性,不會使準確性下降。

      4.8 損失函數(shù)對比實驗

      為驗證本文提出的HWing Loss的有效性,本文進行了不同損失函數(shù)的對比實驗。使用MSE Loss代替HWing Loss訓(xùn)練熱圖回歸網(wǎng)絡(luò),訓(xùn)練參數(shù)與4.3節(jié)中HWing Loss訓(xùn)練參數(shù)相同,同樣訓(xùn)練30個輪次,測試結(jié)果如表4所示。

      表4對比實驗ADD(-S)指標測試對比結(jié)果

      Tab.4 Comparison results of comparative experiment ADD (-S) metric test

      *對稱對象

      可以看出在ADD(-S)指標中,使用HWing Loss相比于使用MSE Loss,平均準確率提升7.1%,每個類別都有所提升。作為對比,表4同時給出了網(wǎng)絡(luò)分別使用HWing Loss與MSE Loss訓(xùn)練第10輪的實驗結(jié)果??梢钥闯?,使用HWing Loss訓(xùn)練的網(wǎng)絡(luò)在訓(xùn)練10輪后的平均準確率已經(jīng)超越了使用MSE Loss訓(xùn)練30輪的網(wǎng)絡(luò)。

      究其原因是HWing Loss能在訓(xùn)練熱圖回歸網(wǎng)絡(luò)時,能更關(guān)注熱圖前景像素的誤差,并且相比于MSE Loss,HWing Loss在小誤差部分有更高的梯度,可以使網(wǎng)絡(luò)更加快速收斂。

      表5給出了使用不同損失函數(shù)訓(xùn)練網(wǎng)絡(luò)預(yù)測得到的熱圖與預(yù)期熱圖的平均像素誤差。可以看出,使用HWing Loss訓(xùn)練網(wǎng)絡(luò)預(yù)測熱圖雖然全局平均誤差更大,但是在數(shù)量更少且更加重要的前景像素上誤差更小。而且誤差下降速度更快,10輪訓(xùn)練的結(jié)果已經(jīng)優(yōu)于使用MSE Loss訓(xùn)練30輪結(jié)果,與表4中平均準確率結(jié)果一致。由此可以看出,本文提出的HWing Loss相比于MSE Loss更加適合回歸熱圖的訓(xùn)練。

      表5不同損失函數(shù)對預(yù)測熱圖誤差的影響

      Tab.5 Influence of different loss function on the error of predicting HeatMap

      5 結(jié)論

      本文分析了用于關(guān)鍵點回歸熱圖的性質(zhì),并指出MSE Loss不利于熱圖回歸的問題。為了解決這個問題,本文提出適用于熱圖回歸的Heatmap Wing Loss。同時利用熱圖性質(zhì),改進熱圖推斷關(guān)鍵點的方法。以此為基礎(chǔ),改進基于關(guān)鍵點定位的單目標姿態(tài)估計的算法,經(jīng)實驗驗證,本文的單目標姿態(tài)估計算法在LINEMOD數(shù)據(jù)集上的ADD(-S)指標平均準確率達到了88.8%,相比于近期其他算法有更好的姿態(tài)估計準確率。算法運行速率最快可達到25 fps,適用于實時處理。

      [1] RUBLEE E, RABAUD V, KONOLIGE K,. ORB: an efficient alternative to SIFT or SURF[C]//2011Barcelona: IEEE, 2011: 2564-2571.

      [2] BAY H, ESS A, TUYTELAARS T,. Speeded-up robust features (SURF)[J]., 2008, 110(3): 346-359.

      [3] 丁南南,劉艷瀅,朱明.尺度相互作用墨西哥帽小波提取圖像特征點[J].液晶與顯示,2012,27(1):125-129.

      DING N N, LIU Y Y, ZHU M. Extracting image feature points using scale-interaction of mexican-hat wavelets[J]., 2012, 27(1): 125-129. (in Chinese)

      [4] DO T T, CAI M, PHAM T,. Deep-6DPose: recovering 6D object pose from a single RGB image[EB/OL]. (2018-02-28). https://arxiv.org/abs/1802.10367v1.

      [5] SUNDERMEYER M, MARTON Z C, DURNER M,. Augmented autoencoders: implicit 3D orientation learning for 6D object detection[J]., 2020, 128(3): 714-729.

      [6] TEKIN B, SINHA S N, FUA P,. Real-time seamless single shot 6D object pose prediction[C]//2018. Salt Lake City: IEEE, 2018: 292-301.

      [7] ZHAO Z L, PENG G, WANG H Y,. Estimating 6D pose from localizing designated surface keypoints[EB/OL]. (2018-12-04). https://arxiv.org/abs/1812.01387.

      [8] PARK K, PATTEN T, VINCZE M. Pix2Pose: pixel-wise coordinate regression of objects for 6D pose estimation[C]/2019. Seoul: IEEE, 2019: 7667-7676.

      [9] PENG S D, LIU Y, HUANG Q X,. PVNet: pixel-wise voting network for 6DoF pose estimation[C]//2019. Long Beach: IEEE, 2019: 4556-4565.

      [10] WANG X Y, BO L F, LI F X. Adaptive wing loss for robust face alignmentheatmap regression[C]//2019. Seoul: IEEE, 2019: 6970-6980.

      [11] SUN K, XIAO B, LIU D,. Deep high-resolution representation learning for human pose estimation[C]//Long Beach: IEEE, 2019: 5693-5703.

      [12] WANG J D, SUN K, CHENG T H,. Deep high-resolution representation learning for visual recognition[J]., 2021, 43(10): 3349-3364.

      [13] ZHANG F, ZHU X T, DAI H B,. Distribution-aware coordinate representation for human pose estimation[C]//2020. Seattle: IEEE, 2020: 7091-7100.

      [14] LEPETIT V, MORENO-NOGUER F, FUA P. EPP: an accurate() solution to the PP problem[J]., 2009, 81(2): 155-166.

      [15] XIAO J X, HAYS J, EHINGER K A,. SUN database: large-scale scene recognition from abbey to zoo[C]//2010. San Francisco: IEEE, 2010: 3485-3492.

      [16] XIANG Y, SCHMIDT T, NARAYANAN V,. PoseCNN: a convolutional neural network for 6D object pose estimation in cluttered scenes[C]/14Pittsburgh:IEEE, 2018.

      [17] LI Y, WANG G, JI X Y,. DeepIM: deep iterative matching for 6D pose estimation[J]., 2020, 128(3): 657-678.

      [18] OBERWEGER M, RAD M, LEPETIT V. Making deep heatmaps robust to partial occlusions for 3D object pose estimation[C]//15Munich: Springer, 2018: 125-141.

      Object 6D pose estimation algorithm based on improved heatmap loss function

      LIN Lin1,2,WANG Yan-jie1*,SUN Hai-chao1

      (1,,,130033,;2,100049,)

      In view of the problem of low precision and slow training of heatmap regression network trained by mean square error (MSE) loss function used in traditional heatmap regression, the loss function Heatmap Wing Loss (HWing Loss) for heatmap regression is proposed in this thesis. In terms of different pixel values, the loss function has different loss function values, and the loss function gradient of foreground pixels is larger, which can make the network focus more on the foreground pixels and make the heatmap regression more accurate and faster. In line with the distribution characteristics of the heatmap, the keypoint inference method based on the Gaussian distribution is adopted in this thesis to reduce the quantization error when the heatmap infers the keypoints. By taking the two points as the basis, it constructs a new monocular pose estimation algorithm based on keypoint positioning. According to the experiments, in contrast with the algorithm using MSE Loss, the pose estimation algorithm using HWing Loss has a higher ADD(-S) accuracy rate, which reaches 88.8% on the LINEMOD dataset. Meanwhile, the performance is better than other recent pose estimation algorithms based on deep learning. The algorithm in this thesis can run at the fastest speed of 25 fps on RTX3080 GPU, in which the high speed and performance can be both embodied.

      deep learning; pose estimation; loss function; heatmap

      TP391.4

      A

      10.37188/CJLCD.2021-0317

      1007-2780(2022)07-0913-11

      2021-12-03;

      2022-01-09.

      吉林省科技發(fā)展計劃(No.20210201132GX)

      Supported by Department of Science and Technology of Jilin Province (No.20210201132GX)

      ,E-mail: wangyj@ciomp.ac.cn

      林林(1997—),男,內(nèi)蒙古赤峰人,碩士研究生,2019年于中國科學(xué)技術(shù)大學(xué)獲得學(xué)士學(xué)位,主要從事計算機視覺方面的研究。E-mail:linlin19@mails.ucas.ac.cn

      王延杰(1963—),男,吉林長春人,碩士,研究員,1999年于中國科學(xué)院長春光學(xué)精密機械與物理研究所獲得碩士學(xué)位,主要從事數(shù)字圖像處理方面的研究。E-mails:wangyj@ciomp.ac.cn

      猜你喜歡
      熱圖關(guān)鍵點姿態(tài)
      聚焦金屬關(guān)鍵點
      肉兔育肥抓好七個關(guān)鍵點
      攀爬的姿態(tài)
      全新一代宋的新姿態(tài)
      汽車觀察(2018年9期)2018-10-23 05:46:40
      跑與走的姿態(tài)
      中國自行車(2018年8期)2018-09-26 06:53:44
      熱圖
      攝影之友(2016年12期)2017-02-27 14:13:20
      熱圖
      每月熱圖
      攝影之友(2016年8期)2016-05-14 11:30:04
      熱圖
      家庭百事通(2016年3期)2016-03-14 08:07:17
      醫(yī)聯(lián)體要把握三個關(guān)鍵點
      萝北县| 简阳市| 永寿县| 漳平市| 辽阳市| 新竹市| 广南县| 恩施市| 永善县| 抚远县| 治县。| 桓台县| 宁南县| 巴彦县| 会昌县| 海丰县| 股票| 义乌市| 郧西县| 吴川市| 邻水| 宾阳县| 平远县| 九台市| 神池县| 罗城| 南郑县| 昭通市| 长岭县| 朝阳县| 乐亭县| 保山市| 桑植县| 清远市| 文昌市| 岱山县| 宣化县| 普兰县| 尖扎县| 瓮安县| 将乐县|