• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于密集深度插值的3D人體姿態(tài)估計(jì)方法

      2021-07-09 08:00:56陳夢(mèng)婷王興剛劉文予
      關(guān)鍵詞:力圖軀干關(guān)鍵點(diǎn)

      陳夢(mèng)婷, 王興剛, 劉文予

      (華中科技大學(xué) 電子信息與通信學(xué)院,湖北 武漢 430074)

      0 引言

      人體姿態(tài)估計(jì)一直是計(jì)算機(jī)視覺領(lǐng)域[1]中一個(gè)非?;A(chǔ)卻又非常具有挑戰(zhàn)性的任務(wù)。在給定圖像或視頻的情況下,預(yù)測(cè)人體關(guān)鍵點(diǎn)的2D或3D位置信息,這對(duì)于虛擬現(xiàn)實(shí)、增強(qiáng)現(xiàn)實(shí)、自動(dòng)駕駛等需要空間推理的應(yīng)用場(chǎng)景而言是至關(guān)重要的。得益于深度卷積神經(jīng)網(wǎng)絡(luò)(DCNN)的快速發(fā)展以及大規(guī)模手動(dòng)注釋的數(shù)據(jù)集的獲取,目前在2D人體姿態(tài)估計(jì)方面已經(jīng)取得了重大進(jìn)展。

      反觀3D人體姿態(tài)估計(jì)的進(jìn)展仍然有限,主要是由于在不受限制的環(huán)境中難以獲得人體關(guān)節(jié)3D位置的真實(shí)標(biāo)簽?,F(xiàn)有的數(shù)據(jù)集(例如Human3.6M[2])是使用Mocap系統(tǒng)在受限的室內(nèi)實(shí)驗(yàn)室環(huán)境中收集的,這樣采集得到的數(shù)據(jù)集無論是在視角還是在光照和場(chǎng)景的變化上都比較單一。雖然深度卷積神經(jīng)網(wǎng)絡(luò)能夠很好地?cái)M合這類數(shù)據(jù)集,但將這樣訓(xùn)練得到的模型運(yùn)用到僅有2D標(biāo)注的不受限的場(chǎng)景圖片上時(shí)(例如MPII[3]、MPI-INF-3DHP[4]),模型的表現(xiàn)往往不盡如人意。

      研究發(fā)現(xiàn),雖然人體是一個(gè)可以活動(dòng)的結(jié)構(gòu),但是單個(gè)軀干(比如上臂、大腿等)可以近似看作是剛體結(jié)構(gòu)。雖然數(shù)據(jù)集僅僅標(biāo)注了關(guān)鍵點(diǎn)的3D信息,本文可以利用軀干兩端的深度,通過密集插值估算出整個(gè)軀干的深度信息,從而構(gòu)成密集深度插值特征圖。本文將這個(gè)深度特征圖作為模型訓(xùn)練的中間監(jiān)督,這樣可以為模型提供一個(gè)更加結(jié)構(gòu)化的學(xué)習(xí)目標(biāo),而不僅僅是學(xué)習(xí)離散關(guān)鍵點(diǎn)的信息,從而有效提高模型的泛化能力,避免過擬合。而且在3個(gè)維度的學(xué)習(xí)過程中,深度學(xué)習(xí)往往是最具有難度的,通過密集深度特征圖,可以讓模型學(xué)習(xí)到結(jié)構(gòu)化的深度信息,從而緩解因?yàn)檎趽酢⒁曈X變形帶來的誤差。

      1 相關(guān)工作

      1.1 2D人體姿態(tài)估計(jì)

      樹形結(jié)構(gòu)模型最早被用來解決2D人體姿態(tài)估計(jì)問題,比如pictoral structures[5]和mixtures of body parts[6],其主要思路是設(shè)計(jì)一個(gè)用于檢測(cè)人體關(guān)節(jié)的一元項(xiàng),加上用于模擬人體2個(gè)關(guān)節(jié)之間的成對(duì)關(guān)系的成對(duì)項(xiàng)。還有傳統(tǒng)方法中建立四肢之間外觀的對(duì)稱性模型或是設(shè)計(jì)兩臂之間的排斥邊緣,以解決重復(fù)計(jì)數(shù)問題[7]。最近,DCNN取得了令人矚目的進(jìn)展[8]。相較于直接回歸關(guān)鍵點(diǎn)的坐標(biāo)[8],目前更常見的做法是使用熱力圖,即以人體關(guān)節(jié)位置為中心的二維高斯生成的特征圖作為模型回歸的目標(biāo)。常見的主干網(wǎng)絡(luò)有ResNet[9]、hourglass[10]和multi-stage網(wǎng)絡(luò)[11]。本文使用最新的HRNet[12]作為網(wǎng)絡(luò)的主干架構(gòu)。

      1.2 3D人體姿態(tài)估計(jì)

      3D人體姿態(tài)估計(jì)與2D人體姿態(tài)估計(jì)一直有很多相關(guān)之處。Lee等[13]首先研究了從相應(yīng)的2D投影中來推斷3D關(guān)鍵點(diǎn)的方法。后來的方法有的是利用最近臨近算法來完善姿態(tài)推斷[14],有的是提取手工特征來完成回歸[15]。

      后來越來越多的研究致力于利用深度神經(jīng)網(wǎng)絡(luò)來完成這一任務(wù)??梢源笾路譃閱坞A段方法和兩階段方法。單階段的方法希望可以直接由輸入圖像得到3D人體姿態(tài)的估計(jì)結(jié)果。Pavlakos等[16]提出了3D關(guān)節(jié)的體積表示,并使用了從粗粒度到精粒度的策略來迭代地精修預(yù)測(cè)結(jié)果。此類方法都需要具有相應(yīng)3D標(biāo)注的圖像。由于缺乏帶有3D標(biāo)注的室外場(chǎng)景圖像,這些方法往往會(huì)在跨域數(shù)據(jù)集上效果較差。Yang等[17]將3D姿態(tài)估計(jì)器看作是生成器,并使用對(duì)抗學(xué)習(xí)的方法生成令判別器無法區(qū)分的3D姿態(tài),以保證預(yù)測(cè)結(jié)果結(jié)構(gòu)上的真實(shí)性。而兩階段方法主要是先學(xué)習(xí)一個(gè)2D人體姿態(tài)估計(jì)的模型,再學(xué)習(xí)從2D到3D的映射模型。比如在2D人體姿態(tài)估計(jì)模型的后面加一個(gè)優(yōu)化模型[18]或者是回歸模型[19-20]來完成對(duì)3D姿態(tài)的估計(jì)。比如Martinez等[20]引入了一種簡(jiǎn)單而有效的方法,可以僅通過對(duì)關(guān)鍵點(diǎn)的2D預(yù)測(cè)得到3D關(guān)鍵點(diǎn)的預(yù)測(cè)結(jié)果。Fang等[21]通過姿勢(shì)語法網(wǎng)絡(luò)進(jìn)一步擴(kuò)展了這種方法。這類方法往往能更好地泛化到其他室外場(chǎng)景數(shù)據(jù)集上。

      2 密集插值姿態(tài)估計(jì)網(wǎng)絡(luò)

      2.1 密集深度插值

      作為3D關(guān)鍵點(diǎn)任務(wù)檢測(cè),數(shù)據(jù)集只有離散的關(guān)鍵點(diǎn)的3D標(biāo)注信息,所以很多方法僅僅通過2D的熱力圖作為中間特征,來幫助最后的3D回歸。本文發(fā)現(xiàn),雖然人體是非常靈活的結(jié)構(gòu),但是單獨(dú)去看人體的某個(gè)軀干(比如左小臂、右大腿),可以近似地把它們看作一個(gè)剛體。因此,當(dāng)僅僅只知道軀干兩端點(diǎn)的深度信息時(shí),可以近似估計(jì)出整個(gè)軀干的深度。

      如圖1所示,此處以一個(gè)小臂為例。Pw和Pe代表關(guān)鍵點(diǎn)手腕w(wrist)和手肘e(elbow)的2D位置,它們構(gòu)成第m個(gè)軀干。這兩點(diǎn)的深度真實(shí)值分別為Dm(Pw)和Dm(Pe)。那么Pw和Pe連線上的任意點(diǎn)P′的深度Dm(P′)都可以通過線性插值進(jìn)行估算:

      圖1 密集深度插值示意圖Figure 1 Diagram of dense depth interpretation map

      (1)

      不僅僅是兩點(diǎn)連線上的點(diǎn),本文對(duì)于位于軀干上的點(diǎn)P1都可以給出估計(jì)深度,只要P1滿足:

      (2)

      除了上述矩形空間,本文對(duì)關(guān)鍵點(diǎn)附近的區(qū)域點(diǎn)P2也進(jìn)行了深度估計(jì):

      (3)

      (4)

      所有滿足式(3)范圍內(nèi)的點(diǎn)的深度等于Dm(Pe);所有滿足式(4)范圍內(nèi)的點(diǎn)的深度等于Dm(Pw)。最后得到的范圍區(qū)域以及對(duì)應(yīng)的預(yù)估深度圖如圖1所示。

      每個(gè)軀干由一個(gè)單獨(dú)的特征通道表示,本文采用一共有16個(gè)關(guān)鍵點(diǎn)組成的15個(gè)軀干,因此密集深度插值構(gòu)成的目標(biāo)特征共有15個(gè)通道,如圖2所示。每個(gè)通道僅有部分屬于軀干的點(diǎn)才有深度回歸的目標(biāo),其他點(diǎn)因?yàn)闆]有目標(biāo)值,所以在計(jì)算損失函數(shù)時(shí)不考慮。最后構(gòu)造得到的目標(biāo)特征圖用D表示,它的第m個(gè)通道為Dm,代表第m個(gè)軀干的連續(xù)深度分布。

      圖2 人體軀干示意圖Figure 2 Diagram of human body

      2.2 輔助2D熱力圖

      上述密集深度插值特征既包含了軀干在2D平面的位置信息,還包括了軀干的連續(xù)深度值。但是相對(duì)而言學(xué)習(xí)起來比較困難。為了能夠更好地學(xué)習(xí)擬合該特征圖,本文用另外兩個(gè)2D熱力圖作為輔助分支,如圖3所示。

      圖3 輔助2D熱力圖示意圖Figure 3 Diagram of auxiliary 2D heat map

      在關(guān)鍵點(diǎn)熱力圖中,每個(gè)關(guān)鍵點(diǎn)單獨(dú)占一個(gè)通道。假設(shè)Pk是第k個(gè)點(diǎn)在圖像中的真實(shí)位置,且Pk∈R2。那么第k個(gè)關(guān)鍵點(diǎn)在位置P的置信度為

      (5)

      其中,σ控制山峰的陡峭程度。由此構(gòu)造得到的輔助2D熱力圖如圖3 (b)所示。

      上述輔助2D熱力圖僅僅表征了關(guān)鍵點(diǎn)的2D位置,為了能更好地輔助軀干的深度圖,本文構(gòu)造了另一個(gè)代表軀干位置置信度的熱力圖。同樣,本文以Pw和Pe代表關(guān)鍵點(diǎn)手腕w(wrist)和手肘e(elbow)的2D位置為例,它們構(gòu)成第m個(gè)軀干。對(duì)于所有滿足式(2)的點(diǎn)P1屬于第m個(gè)軀干的置信度為

      (6)

      對(duì)于所有滿足式(3)或式(4)的點(diǎn)P2,它們的置信度分別為

      (7)

      由此構(gòu)造得到的輔助熱力圖如圖3(c)所示。

      2.3 整體網(wǎng)絡(luò)結(jié)構(gòu)

      當(dāng)獲取了上述3個(gè)目標(biāo)特征圖后,網(wǎng)絡(luò)的整體框架如圖4所示。整個(gè)訓(xùn)練過程分為2個(gè)階段。第一個(gè)階段是輸入圖像到中間特征的訓(xùn)練。這里的Backbone使用的是HRNet[12]結(jié)構(gòu),本文的最后一個(gè)模塊分成3個(gè)不同的分支,來分別預(yù)測(cè)3個(gè)特征圖,之前的所有網(wǎng)絡(luò)都是共享參數(shù)。對(duì)于關(guān)鍵點(diǎn)和軀干的熱力圖,本文使用的是均方誤差(MSE)損失函數(shù)。輔助關(guān)鍵點(diǎn)熱力圖的損失函數(shù)為

      圖4 模型整體框架圖Figure 4 Diagram of model structure

      (8)

      因?yàn)閷?duì)于軀干而言,不同的軀干的長(zhǎng)度差異較大,為了避免因非0值的數(shù)量造成的差異,本文設(shè)置權(quán)重因子來平衡這種差異:

      (9)

      (10)

      對(duì)于密集深度插值特征圖,因?yàn)橹豢紤]軀干位置的深度,其他位置不參與損失函數(shù)的計(jì)算,所以通過軀干的輔助熱力圖對(duì)不考慮的點(diǎn)的損失函數(shù)設(shè)置為0,并且也通過權(quán)重因子來平衡不同軀干的權(quán)重:

      (11)

      L1=LD+w2D(LS+LQ)。

      (12)

      式中:w2D是輔助2D任務(wù)所占的權(quán)重。

      第一階段訓(xùn)練完成之后,用將第一階段模型預(yù)測(cè)得到的3個(gè)輸出作為輸入,通過網(wǎng)絡(luò)直接回歸最后的3D姿態(tài)。使用的網(wǎng)絡(luò)是由卷積層、最大池化層、ReLU層以及全連接層組合得到。最后得到關(guān)鍵點(diǎn)的3D位置預(yù)測(cè),采用兩階段的訓(xùn)練方式,主要是為了防止回歸網(wǎng)絡(luò)過擬合,中間監(jiān)督失去作用,從而使網(wǎng)絡(luò)的泛化性能變差。

      3 實(shí)驗(yàn)結(jié)果

      3.1 數(shù)據(jù)集

      在3個(gè)最常見的人體姿態(tài)估計(jì)數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)。Human3.6M[1]數(shù)據(jù)集是最大的3D人體姿態(tài)估計(jì)數(shù)據(jù)集,它包含了3.6×106張圖片,來自11個(gè)人。每人會(huì)表演15個(gè)日常動(dòng)作,比如:吃、坐下、行走和拍照等。數(shù)據(jù)集的3D姿態(tài)真實(shí)標(biāo)簽由Mocap系統(tǒng)獲取,2D姿態(tài)真實(shí)標(biāo)簽可以通過已知的攝像機(jī)內(nèi)外部參數(shù)投影得到。參照Human3.6M上的標(biāo)準(zhǔn)協(xié)議,評(píng)估指標(biāo)為在對(duì)齊根關(guān)節(jié)深度后,所有關(guān)節(jié)的真實(shí)值與預(yù)測(cè)值的平均位置誤差(MPJPE),單位為mm。

      MPI-INF-3DHP[4]數(shù)據(jù)集是最近提出的由Mocap系統(tǒng)構(gòu)建的3D人體姿態(tài)數(shù)據(jù)集。本文僅使用該數(shù)據(jù)集的測(cè)試集,其中包含來自6個(gè)人的7個(gè)動(dòng)作,共2 929張樣本。本文用3DPCK(閾值150 mm)和AUC兩個(gè)指標(biāo)來定量評(píng)估模型的泛化能力。

      MPII[3]數(shù)據(jù)集是2D人體姿態(tài)估計(jì)任務(wù)中使用最廣泛的數(shù)據(jù)集之一。它包含從YouTube視頻中收集的2.5萬張圖像。數(shù)據(jù)集提供了2D標(biāo)注,但沒有3D的標(biāo)注。因此,直接使用此數(shù)據(jù)集進(jìn)行3D姿態(tài)估計(jì)訓(xùn)練是不可行的,故本文將此數(shù)據(jù)集用于多任務(wù)網(wǎng)絡(luò)的訓(xùn)練。

      3.2 實(shí)驗(yàn)結(jié)果

      在目前最常用的3D人體姿態(tài)估計(jì)數(shù)據(jù)集Human3.6M上進(jìn)行了評(píng)估。和之前的許多方法一樣,在第一階段的訓(xùn)練過程中,聯(lián)合MPII數(shù)據(jù)一起訓(xùn)練。因?yàn)镸PII只有2D標(biāo)注, 所以只參與輔助2D分支的訓(xùn)練。詳細(xì)的結(jié)果和對(duì)比如表1所示??梢钥闯?,本文方法和之前的方法相比,結(jié)構(gòu)更加清晰簡(jiǎn)單,而且具有更好的性能。

      表1 在Human3.6M上的MPJPE比較結(jié)果Table 1 Results of MPJPE on Human3.6M mm

      3.3 跨域泛化結(jié)果

      本文使用數(shù)據(jù)集MPI-INF-3DHP來驗(yàn)證模型到另一個(gè)全新的3D人體姿態(tài)估計(jì)數(shù)據(jù)集上的跨域遷移能力,該數(shù)據(jù)集的所有數(shù)據(jù)都不會(huì)參與訓(xùn)練過程,比較結(jié)果如表2所示。可以看出,通過密集插值特征圖訓(xùn)練得到的模型具有更強(qiáng)的泛化遷移能力。

      表2 在MPI-INF-3DHP上的跨域驗(yàn)證實(shí)驗(yàn)結(jié)果Table 2 Results of domain transfer on MPI-INF-3DHP mm

      模型在數(shù)據(jù)集MPI-INF-3DHP[4]上的可視化結(jié)果如圖5所示??梢钥闯觯词乖诔霈F(xiàn)物體遮擋或者姿態(tài)比較獨(dú)特的時(shí)候,本文的模型也可以給出精確的結(jié)果。

      圖5 在數(shù)據(jù)集MPI-INF-3DHP上的可視化結(jié)果Figure 5 Visualization on MPI-INF-3DHP

      3.4 消融實(shí)驗(yàn)

      首先比較了分兩個(gè)階段訓(xùn)練與單階段聯(lián)合訓(xùn)練的區(qū)別,實(shí)驗(yàn)結(jié)果如表3所示??梢钥闯?,如果采用單一階段的訓(xùn)練方式,在Human3.6M上的MPJPE結(jié)果會(huì)有細(xì)微提升,但是如用訓(xùn)練好的模型直接在數(shù)據(jù)集MPI-INF-3DHP做跨域驗(yàn)證時(shí),3DPCK和AUC都有大幅度下降,說明只有分兩階段訓(xùn)練,才能強(qiáng)制模型去學(xué)習(xí)有用的結(jié)構(gòu)化信息,而不是直接去擬合離散關(guān)鍵點(diǎn)。這也進(jìn)一步證明了本文所提出的密集深度插值特征圖可以為模型帶來更強(qiáng)的泛化能力。

      表3 不同訓(xùn)練方式在Human3.6M和 MPI-INF-3DHP上的結(jié)果Table 3 Results of different training strategy on Human3.6M and MPI-INF-3DHP mm

      4 結(jié)論

      提出了一種基于線性插值的密集深度插值特征圖作為3D人體姿態(tài)估計(jì)任務(wù)的中間監(jiān)督,并通過兩個(gè)輔助2D熱力圖來降低學(xué)習(xí)難度。通過在公認(rèn)基準(zhǔn)Human3.6M上的實(shí)驗(yàn)證明了該特征圖的有效性和簡(jiǎn)潔性。并通過在MPI-INF-DHP上的跨域驗(yàn)證實(shí)驗(yàn)展示了模型強(qiáng)大的泛化遷移能力。由此可以看出,用結(jié)構(gòu)化的深度信息作為學(xué)習(xí)目標(biāo)可以有效地提高模型的性能。這種結(jié)構(gòu)化也可以直接拓展到整個(gè)3D空間,將這種插值結(jié)構(gòu)信息的作用發(fā)揮到最大,這也是本文未來的研究目標(biāo)之一。

      猜你喜歡
      力圖軀干關(guān)鍵點(diǎn)
      聚焦金屬關(guān)鍵點(diǎn)
      肉兔育肥抓好七個(gè)關(guān)鍵點(diǎn)
      喬·拜登力圖在外交政策講話中向世界表明美國回來了
      英語文摘(2021年4期)2021-07-22 02:36:30
      樹與人
      詩選刊(2019年9期)2019-11-20 10:24:01
      血栓彈力圖在惡性腫瘤相關(guān)靜脈血栓栓塞癥中的應(yīng)用進(jìn)展
      時(shí)空觀指導(dǎo)下的模塊整合教學(xué)——以《20世紀(jì)四五十年代力圖稱霸的美國》為例
      角度法評(píng)價(jià)軀干冠狀面失平衡
      正常成人軀干皮膚溫度覺閾值測(cè)定
      大面積燒傷患者血栓彈力圖檢測(cè)的臨床意義
      醫(yī)聯(lián)體要把握三個(gè)關(guān)鍵點(diǎn)
      堆龙德庆县| 鄂尔多斯市| 万宁市| 建昌县| 电白县| 哈尔滨市| 瓦房店市| 松原市| 拜泉县| 泰和县| 苍山县| 旺苍县| 清涧县| 白银市| 信宜市| 镇坪县| 民乐县| 鹤庆县| 澄迈县| 邢台县| 安龙县| 梁平县| 邓州市| 宝丰县| 资阳市| 汝阳县| 佛冈县| 龙南县| 兴业县| 珠海市| 汝城县| 湘潭县| 万安县| 海晏县| 汝阳县| 广汉市| 峡江县| 禹州市| 昌黎县| 宁波市| 桂阳县|