• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      多尺度高分辨率保持和視角不變的手姿態(tài)估計

      2021-07-28 12:36:50楊文姬黃麗芳
      計算機工程與應(yīng)用 2021年14期
      關(guān)鍵詞:熱圖集上分辨率

      熊 杰,彭 軍,楊文姬,黃麗芳

      1.江西農(nóng)業(yè)大學(xué) 計算機與信息工程學(xué)院,南昌330045

      2.江西農(nóng)業(yè)大學(xué) 軟件學(xué)院,南昌330045

      3.浙江大學(xué)CAD&CG國家重點實驗室,杭州310058

      4.江鈴控股有限公司,南昌330052

      基于視覺的手姿態(tài)估計在人機交互、AR(增強現(xiàn)實)、VR(虛擬現(xiàn)實)和機器人操作等方面有著重要的作用。然而在手姿態(tài)的估計過程中會因為手的固有特性而存在自遮擋、自相似和高自由度等難題。為解決這些問題,有些研究者從深度圖像[1-6]或多視角相機系統(tǒng)[7]中估計3D 手姿態(tài),但由于其便捷性不足以及普適性不高等種種原因,不能被廣泛推廣到實際應(yīng)用場景中。因此直接從單張彩色圖像中估計手姿態(tài)顯得尤為重要[8-12]。

      從單張彩色圖像估計3D 手姿態(tài)的流程主要有三種,第一種是直接從圖像中估計出3D姿態(tài)[11],第二種是先估計2D 熱圖(亦可當(dāng)作估計2D 手姿態(tài)),然后利用CNN 學(xué)習(xí)2D 熱圖到3D 姿態(tài)的映射[8,13-14],最后一種是聯(lián)合估計2D姿態(tài)和3D姿態(tài)[9-10],其中第二種流程如圖1所示,本文也采取該流程進(jìn)行2D和3D手姿態(tài)估計。在該流程中,很多研究者專注于3D姿態(tài)估計的創(chuàng)新[8,13]而缺少了對2D姿態(tài)估計的重視,然而3D姿態(tài)估計的結(jié)果依賴于2D姿態(tài),因此提高2D姿態(tài)估計的精度對于估計3D姿態(tài)是有幫助的。

      圖1 手姿態(tài)估計流程圖

      目前2D 手姿態(tài)估計主要是通過估計2D 關(guān)鍵點熱圖的方式來實現(xiàn)?,F(xiàn)有2D關(guān)鍵點熱圖估計大多數(shù)采用卷積姿勢機(Convolutional Pose Machine,CPM)[8,13]或沙漏網(wǎng)絡(luò)(Hourglass Network,HNet)[10,14]進(jìn)行。如文獻(xiàn)[10,14]使用了HNet,該網(wǎng)絡(luò)由一個串聯(lián)的對稱的高到低和低到高分辨率子網(wǎng)絡(luò)的結(jié)構(gòu)組成,即先將經(jīng)過前期卷積處理的特征圖通過高到低分辨率子網(wǎng)絡(luò)進(jìn)行下采樣得到尺度較小的特征圖,然后使用最近鄰上采樣逐步恢復(fù)到原始分辨率,并在恢復(fù)過程中以跳躍連接的方式與下采樣中的相應(yīng)尺度特征圖的低層次特征進(jìn)行融合,以達(dá)到多尺度特征融合的目的。然而HNet 不能在整個訓(xùn)練過程中始終保持高分辨率表示,從而導(dǎo)致得到的高分辨率表示不夠穩(wěn)定,不利于手關(guān)節(jié)的精準(zhǔn)定位。文獻(xiàn)[8,13]采用CPM 進(jìn)行2D 關(guān)鍵點熱圖估計,其先通過VGG 網(wǎng)絡(luò)將輸入下采樣到一定大小的特征圖,然后對該特征圖進(jìn)行多階段的熱圖估計,具體地將上一階段的輸出作為下一階段的輸入以逐步提高估計精度,并在每個階段中進(jìn)行中間監(jiān)督來解決梯度消失問題。該方法在一定程度上能夠維持高分辨率表示,但在多階段學(xué)習(xí)過程中分辨率唯一,沒有多尺度特征表示和多尺度融合,因此不能很好地描述手姿態(tài)不同方面的信息。

      針對現(xiàn)有的HNet不能始終保持高分辨率表示以及CPM 沒有進(jìn)行多尺度特征融合等問題,本文引用一種新的網(wǎng)絡(luò)架構(gòu)——高分辨率網(wǎng)絡(luò)(High-Resolution Network,HRNet)[15]用于提升手關(guān)節(jié)2D熱圖估計的準(zhǔn)確性,進(jìn)而有利于后續(xù)的3D 姿態(tài)估計。該網(wǎng)絡(luò)采用并行結(jié)構(gòu)連接高低分辨率子網(wǎng)絡(luò),并在不同分辨率子網(wǎng)絡(luò)間進(jìn)行反復(fù)融合以增強各自分辨率表示的特征。為了融合更多的分辨率子網(wǎng)絡(luò),形成了多個階段,每個階段是在前階段基礎(chǔ)上融入新的低分辨率子網(wǎng)絡(luò)并進(jìn)行并行連接而構(gòu)成。

      該網(wǎng)絡(luò)以并行的方式連接多個分辨率子網(wǎng)絡(luò),因此能始終保持高分辨率表示且得到的高分辨率表示也更穩(wěn)定。此外,在所有分辨率表示下進(jìn)行反復(fù)的融合來增強各分辨率表示特征,使最終輸出的高分辨率表示是豐富的,因此能使熱圖預(yù)測得更精準(zhǔn)。

      為了獲得3D 姿態(tài),在得到2D 熱圖后,使用全局旋轉(zhuǎn)視角不變的方法[8]將2D 熱圖映射到3D 姿態(tài)。最后,在三個公開數(shù)據(jù)集(RHD、STB、Dexter+Object)上定量或定性地驗證了本文方法在2D 手姿態(tài)估計和3D 手姿態(tài)估計上的有效性。

      1 相關(guān)工作

      手姿態(tài)估計的方法可以分為三類,包括判別方法[16-18]、生成方法[19-22]和混合方法[23-27]。判別方法通過數(shù)據(jù)驅(qū)動方式學(xué)習(xí)圖像到手姿態(tài)的映射,其典型代表是最近熱門的深度學(xué)習(xí)。后兩類方法都需要一個預(yù)定義的手模型,用來尋找被檢測圖像最有可能的姿態(tài),其過程是復(fù)雜且耗時的。本章主要對基于深度學(xué)習(xí)的彩色圖像手姿態(tài)估計研究進(jìn)行簡述。

      在彩色圖像的手姿態(tài)估計中,很多方法[7-8,10-11,13-14,18,28]使用CPM或HNet進(jìn)行2D關(guān)鍵點熱圖估計或手姿態(tài)特征提取,并將得到的特征表示用于后續(xù)工作(如3D姿態(tài)估計)。Zimmermann 等人[8]是第一個提出利用CNN 的方法完成3D 手姿態(tài)估計的任務(wù),設(shè)計了一個規(guī)范坐標(biāo)系,讓網(wǎng)絡(luò)學(xué)習(xí)該坐標(biāo)系下關(guān)鍵點位置的隱式鉸接先驗來估計相對的3D 手姿態(tài)。Cai 等人[13]只在網(wǎng)絡(luò)訓(xùn)練期間利用額外的深度圖像對3D手姿態(tài)回歸起到弱監(jiān)督作用。Yuan等人[11]將深度圖像當(dāng)作特權(quán)信息,利用配對的深度-彩色圖像分別訓(xùn)練基于深度圖像的網(wǎng)絡(luò)和基于彩色圖像的網(wǎng)絡(luò),并在這兩個網(wǎng)絡(luò)的中間層中共享信息。Simon 等人[7]采用多視圖自舉的方法提升2D 熱圖估計網(wǎng)絡(luò)的精度,并將多視圖2D 姿態(tài)三角化成3D 手姿態(tài)。Iqbal等人[10]提出一種包含2D熱圖和深度值熱圖的2.5D熱圖表示,然后從該表示中重構(gòu)3D 姿態(tài)。與估計稀疏的3D手姿態(tài)不同[7,8,10-11,13],Baek等人[28]采用密集的參數(shù)化3D 手模型估計3D 手網(wǎng)格。Ge 等人[14]提出了一種基于圖卷積神經(jīng)網(wǎng)絡(luò)(Graph CNN)的方法估計3D 手形。Zhang 等人[18]通過多任務(wù)設(shè)置和幾何約束來估計3D 手形、2D手姿態(tài)和3D手姿態(tài)。

      總之,目前基于彩色圖像的手關(guān)節(jié)2D 熱圖估計[7-8,10,13-14,18,28]或手姿態(tài)特征提取[11]工作大多數(shù)采用CPM或HNet進(jìn)行。由于上述兩種網(wǎng)絡(luò)在獲取特征表示方面存在不足之處,本文引用HRNet 來估計2D 關(guān)鍵點熱圖,該網(wǎng)絡(luò)能形成穩(wěn)定且豐富的高分辨率表示以進(jìn)行空間精準(zhǔn)的熱圖估計。

      2 本文方法

      本文方法包含兩個部分,分別為基于多尺度高分辨率保持的2D 手姿態(tài)估計和基于視角不變的3D 手姿態(tài)估計。

      2.1 基于多尺度高分辨率保持的2D手姿態(tài)估計

      將一張彩色圖像I∈PH×W×(3P表示圖像矩陣,H、W為圖像的高、寬)作為2D熱圖估計網(wǎng)絡(luò)的輸入,網(wǎng)絡(luò)會為每個關(guān)鍵點產(chǎn)生一張熱圖,即K個關(guān)節(jié)產(chǎn)生K張熱圖。從每張熱圖中選擇置信度(熱值)最大的位置作為關(guān)鍵點的位置,K個關(guān)節(jié)位置jk:jk=(uk,vk),其中u、v表示像素坐標(biāo),K在本文中為21。

      2D 熱圖估計網(wǎng)絡(luò)由三個部分組成,首先是一個包含兩次下采樣的卷積層,將分辨率為256×256的輸入提取到64×64大小的特征圖。緊接著就是HRNet,其輸出的特征圖具有與輸入特征圖相同的分辨率。最后通過回歸網(wǎng)絡(luò)(擁有21個卷積核的卷積層)來估計2D熱圖。

      2.1.1 HRNet總體結(jié)構(gòu)

      該網(wǎng)絡(luò)遵循ResNet[29-30]中各階段的深度分布和各分辨率表示之間通道數(shù)成一定倍數(shù)關(guān)系的設(shè)計規(guī)則,包含四個階段且相鄰的大小不同的特征圖之間通道數(shù)之比為2。對于融合過程,受到文獻(xiàn)[31]中融合多個分支網(wǎng)絡(luò)的中間表示方法的啟發(fā),對多個分支進(jìn)行反復(fù)融合以增強各分辨率表示特征。

      具體的,HRNet由四個并行連接的多個分辨率子網(wǎng)絡(luò)和四個階段組成。除第一行子網(wǎng)絡(luò)外,其他并行子網(wǎng)絡(luò)的第一個輸入由上一行特征圖下采樣而來,邊長是其一半,通道數(shù)是其兩倍。除第一階段外,其余各階段由高到低分辨率子網(wǎng)絡(luò)構(gòu)成并通過融合單元(融合單元說明見2.1.2 節(jié))交換多個分辨率子網(wǎng)絡(luò)之間的信息。網(wǎng)絡(luò)結(jié)構(gòu)如圖2 所示,數(shù)據(jù)流表示特征圖沒有經(jīng)過任何處理,水平方向和垂直方向分別表示網(wǎng)絡(luò)的深度和特征圖分辨率大小,融合方式為值相加。第一階段包含了4 個殘差單元,每個殘差單元是寬度為64 的瓶頸網(wǎng)絡(luò)(bottleneck)。第二、三、四階段分別含有1、3、3 個融合塊,每個融合塊由對應(yīng)多個分辨率的卷積單元和一個融合單元組成,而每個卷積單元又有四個殘差單元,每個殘差單元包含兩個3×3 卷積核和不進(jìn)行任何操作的跳轉(zhuǎn)連接部分。

      圖2 HRNet結(jié)構(gòu)簡圖

      本次實驗的網(wǎng)絡(luò)中,各并行子網(wǎng)絡(luò)的卷積通道數(shù)分別為32、64、128、256,對應(yīng)特征圖邊長分別為64、32、16、8。

      2.1.2 多尺度特征融合

      為進(jìn)行反復(fù)的多尺度融合,在網(wǎng)絡(luò)的同一階段不同子網(wǎng)絡(luò)間引入融合單元,以便于每個子網(wǎng)絡(luò)能接收來自其他并行子網(wǎng)絡(luò)的信息。融合單元能將多個分辨率子網(wǎng)絡(luò)輸出的特征圖多次融合成對應(yīng)多個分辨率子網(wǎng)絡(luò)的輸入。如圖3所示,將第3階段融合單元F分為f1、f2、f3三個部分進(jìn)行從高到低分辨率特征圖融合,下采樣使用卷積核為3×3,步長為2的卷積層,上采樣采用最近鄰插值方法。對于f3,虛線方塊體表示第一次下采樣的特征圖,然后對此再進(jìn)行下采樣得到目標(biāo)特征圖。

      圖3 第三階段融合單元

      在融合單元中,輸入有n個不同分辨率的特征圖:{X1,X2,…,Xn},輸出也有n個不同分辨率的特征圖:{Y1,Y2,…,Yn},并且輸出的各特征圖的分辨率大小和寬度(寬度為特征圖個數(shù))與輸入一樣,從圖3中可以看出這一點。

      輸出Ym=,函數(shù)s(Xi,m)包含下采樣或上采樣操作以使處理后的特征圖分辨率大小保持一致。例如,當(dāng)特征圖邊長為1L,而目標(biāo)特征圖邊長為時,用一個大小為3×3,步長為2 的卷積核進(jìn)行下采樣。如果目標(biāo)特征圖邊長為,則用兩個連續(xù)的大小為3×3,步長為2 的卷積核進(jìn)行兩次下采樣,以此類推。對于上采樣,用最近鄰插值方法放大特征圖。為保證上采樣后的特征圖寬度與目標(biāo)一致,在上采樣前要先經(jīng)過1×1大小的卷積核處理。如果i=k,則不需要經(jīng)過任何操作,如圖3中的虛線箭頭。

      為直觀地表示某一階段處理過程,此處以第三階段N3 為例,如圖4 展示了該階段有三個融合塊B1、B2、B3,且每個融合塊包含了三個并行卷積單元和一個融合單元。

      圖4 第三階段網(wǎng)絡(luò)結(jié)構(gòu)圖

      2.1.3 損失函數(shù)

      在HRNet后添加一個通道數(shù)為K的卷積層來回歸熱圖。損失函數(shù)LH定義為預(yù)測熱圖Hpred與真值熱圖Hgt的均方誤差,其中真值熱圖使用標(biāo)準(zhǔn)差為2 的高斯函數(shù)得到,其中心在每個關(guān)節(jié)點的位置上。真值熱圖:

      Φ為熱圖上的像素點位置。損失函數(shù)LH公式如下:

      2.2 基于視角不變的3D手姿態(tài)估計

      2.2.1 3D手姿態(tài)坐標(biāo)的表示

      定義相機坐標(biāo)系內(nèi)3D 手姿態(tài)坐標(biāo)為ck:ck=(xk,yk,zk)。為解決絕對坐標(biāo)中手姿態(tài)的偏移和尺度模糊問題,采用平移不變(見公式(3))和尺度不變(見公式(4))的方法將絕對坐標(biāo)標(biāo)準(zhǔn)化,過程如下:

      表示相對坐標(biāo),cr為手掌關(guān)節(jié)坐標(biāo),此時手掌關(guān)節(jié)為坐標(biāo)原點。然后將標(biāo)準(zhǔn)化:

      其中,表示標(biāo)準(zhǔn)坐標(biāo),s為中指掌指關(guān)節(jié)(如圖5中的m)與中指近端指間關(guān)節(jié)(如圖5中的p)之間的歐式距離。

      為使網(wǎng)絡(luò)學(xué)習(xí)到全局旋轉(zhuǎn)視角不變的手姿態(tài),將轉(zhuǎn)換成規(guī)范坐標(biāo)系[8]內(nèi)坐標(biāo)即規(guī)范坐標(biāo),公式如下:

      R()是一個3×3 的變換矩陣,其通過兩個步驟計算得到。首先,將中指掌指關(guān)節(jié)依次繞著z、x軸旋轉(zhuǎn)使該關(guān)節(jié)落在y軸上(即讓圖5 中線段加粗部分om與y軸對齊)以計算出Rz,Rx:

      然后將經(jīng)過式(6)變換后的小指掌指關(guān)節(jié)(如圖5中的i)繞著y軸旋轉(zhuǎn)使該關(guān)節(jié)的z值為0計算出Ry:

      經(jīng)過上面兩個變換步驟后,最終的標(biāo)準(zhǔn)坐標(biāo)到規(guī)范坐標(biāo)的變換矩陣表示如下:

      由于左、右手之間存在對稱關(guān)系,因此當(dāng)目標(biāo)是右手時,可以沿著z軸翻轉(zhuǎn)右手,左手情況下坐標(biāo)不變。圖5 給出了標(biāo)準(zhǔn)坐標(biāo)和規(guī)范坐標(biāo)的幾張示例圖,可以看出標(biāo)準(zhǔn)坐標(biāo)的手姿態(tài)方向變化較大,而規(guī)范坐標(biāo)的手姿態(tài)方向基本一致。

      圖5 不同坐標(biāo)表示的手姿態(tài)

      2.2.2 2D熱圖到3D姿態(tài)估計網(wǎng)絡(luò)

      為方便描述,后文將和中的下標(biāo)k去掉。在第2.1節(jié)得到2D熱圖的基礎(chǔ)上,使用文獻(xiàn)[8]中的姿態(tài)先驗網(wǎng)絡(luò)來估計標(biāo)準(zhǔn)坐標(biāo)。該網(wǎng)絡(luò)有兩個并行的處理流,一個用于估計樣本的規(guī)范坐標(biāo)ccan,另一個估計旋轉(zhuǎn)矩陣R。R為R(cnorm)-1,可看作樣本從規(guī)范坐標(biāo)轉(zhuǎn)換回標(biāo)準(zhǔn)坐標(biāo)的視點。兩個處理流結(jié)構(gòu)一致,只是參數(shù)不相同,都先使用六個卷積層得到特征表示,然后與圖像顯示左手或右手的獨熱編碼(One-Hot Encoding)連接起來,再通過三個全連接層分別估計規(guī)范坐標(biāo)ccan和對應(yīng)視點R。然后標(biāo)準(zhǔn)坐標(biāo)cnorm可由式(5)推斷得出。網(wǎng)絡(luò)結(jié)構(gòu)如圖6 所示,這里實線箭頭表示一個卷積層,長方形條表示一個全連接層。

      圖6 3D手姿態(tài)估計網(wǎng)絡(luò)

      2.2.3 損失函數(shù)

      該網(wǎng)絡(luò)包含兩個損失,首先是規(guī)范坐標(biāo)ccan的均方誤差:

      然后是對應(yīng)樣本的旋轉(zhuǎn)矩陣R的均方誤差:

      總損失為Lc和LR之和。

      3 實驗及結(jié)果分析

      3.1 數(shù)據(jù)集及預(yù)處理

      為驗證本文方法的有效性,在RHD、STB和Dexter+Objec(tD+O)數(shù)據(jù)集上進(jìn)行了實驗。

      RHD數(shù)據(jù)集[8]是人工渲染合成的數(shù)據(jù)集,訓(xùn)練集有41 258張圖像,測試集有2 728張圖像,圖像的分辨率為320×320,每張圖像都擁有2D 和3D 標(biāo)簽以及對應(yīng)的手部掩模,本文實驗只用到前兩種標(biāo)簽。

      STB數(shù)據(jù)集[32]是真實世界中采集的數(shù)據(jù)集,按六個不同的背景和難易兩類手姿態(tài)被分為12 份,每份有1 500張圖像,其中10份當(dāng)作訓(xùn)練集,另外2份當(dāng)作測試集。每張圖像的分辨率為640×480,同樣實驗中用到了2D和3D關(guān)節(jié)標(biāo)簽。

      D+O數(shù)據(jù)集[33]是手與物體交互的數(shù)據(jù)集,其根據(jù)手與物體不同的交互動作劃分為6 份,總共有3 145 張圖像,每張圖像的分辨率為640×480。該數(shù)據(jù)集對手部只提供五根手指的指尖坐標(biāo)。

      RHD和STB數(shù)據(jù)集的區(qū)別:

      (1)RHD 數(shù)據(jù)集21 個關(guān)節(jié)包括手腕和五個手指各手指的掌指關(guān)節(jié)、近端指間關(guān)節(jié)、遠(yuǎn)端指間關(guān)節(jié)、頂端指間關(guān)節(jié),而STB數(shù)據(jù)集其中一個關(guān)節(jié)點不是手腕而是手掌心。

      (2)關(guān)節(jié)排序不一致。

      由于網(wǎng)絡(luò)的輸入是以手為中心的裁剪圖像,而且數(shù)據(jù)集之間存在差異,因此需要對原圖和標(biāo)簽進(jìn)行預(yù)先處理,以使網(wǎng)絡(luò)能順利學(xué)習(xí)到手的特征。具體處理如下:

      (1)以STB手部關(guān)節(jié)位置為參考,將RHD的手腕坐標(biāo)與中指掌指關(guān)節(jié)坐標(biāo)求均值得到掌心坐標(biāo)。

      (2)調(diào)整RHD數(shù)據(jù)集中手部關(guān)節(jié)順序,使其與STB數(shù)據(jù)集關(guān)節(jié)順序一致。

      (3)以中指掌指關(guān)節(jié)坐標(biāo)為手的中心位置,找到能包含所有關(guān)節(jié)點的最小正方形框,并縮放到256×256大小。為使裁剪的圖像能將手完全包含進(jìn)去,將這個最小正方形框邊長放大了0.25 倍。當(dāng)然在評估的時候手會被還原到原始大小,以保證數(shù)據(jù)對比的公平性。

      特別的,由于D+O 數(shù)據(jù)集對手部只提供五根手指的指尖坐標(biāo),不能通過手的關(guān)節(jié)坐標(biāo)得到以手為中心的裁剪圖片,且無法獲得相對坐標(biāo),因此本文不對其進(jìn)行定量分析,只做定性實驗,從視覺上體現(xiàn)出本文方法對復(fù)雜場景下的手姿態(tài)估計仍具有一定效果。為了從該數(shù)據(jù)集中提取手的部分,使用文獻(xiàn)[8]的分割網(wǎng)絡(luò)來裁剪出手部圖像并縮放到256×256大小,然后用此圖像作為本文網(wǎng)絡(luò)的測試集進(jìn)行實驗。

      3.2 實驗細(xì)節(jié)

      實驗由2D 姿態(tài)估計網(wǎng)絡(luò)和3D 姿態(tài)估計網(wǎng)絡(luò)兩部分組成。對于2D姿勢估計網(wǎng)絡(luò),其訓(xùn)練分為兩次,第一次只使用RHD 數(shù)據(jù)集初始化該網(wǎng)絡(luò)參數(shù),第二次則在第一次基礎(chǔ)上用STB和RHD數(shù)據(jù)集混合訓(xùn)練網(wǎng)絡(luò)。兩次訓(xùn)練輪數(shù)都為20,學(xué)習(xí)率前10 輪為10-3,后10 輪為10-4。3D姿態(tài)估計網(wǎng)絡(luò)的訓(xùn)練過程與2D姿態(tài)估計網(wǎng)絡(luò)的類似,但兩次訓(xùn)練輪數(shù)都為25,前15 輪的學(xué)習(xí)率為10-5,后10輪為10-6。兩部分網(wǎng)絡(luò)一次性訓(xùn)練的樣本數(shù)據(jù)量都為16。實驗在Pytorch 深度學(xué)習(xí)框架上實現(xiàn),GPU型號為NVIDIA RTX 2080 Ti。

      3.2.1 HRNet各階段融合塊數(shù)量的確定

      網(wǎng)絡(luò)包含了多個階段,各階段融合塊數(shù)量的合理配比決定了網(wǎng)絡(luò)的性能(第一階段不需要多尺度融合,因此沒有融合塊)。在保證網(wǎng)絡(luò)的精準(zhǔn)度和處理速度的前提下,在RHD數(shù)據(jù)集上做了11組實驗,如表1。該表中FPS表示測試時每秒評估樣本的速度,AUC和EPE兩個評估指標(biāo)說明見3.3.1 節(jié)。從表1 中第1、2、3、4 等四組實驗結(jié)果對比可知當(dāng)?shù)诙A段融合塊數(shù)量大于1 時AUC 值有所下降,這可能是由于層次(深度)過深的較高分辨率表示對生成后續(xù)階段的低分辨率表示不夠友好導(dǎo)致的,因此第二階段融合塊數(shù)量設(shè)置為1即可。由表1 中第1、6、10 和5、7、11 等6 組實驗結(jié)果可知當(dāng)?shù)谌虻谒碾A段融合塊數(shù)量為2,增加第四或第三階段融合塊數(shù)量時精度都會持續(xù)提升,但從EPE mean值可以預(yù)見再繼續(xù)增加融合塊數(shù)量對網(wǎng)絡(luò)性能提升并不大,反而增加了網(wǎng)絡(luò)運算量降低了估計速度。此外還可以預(yù)見這兩個階段融合塊數(shù)量間存在一個平衡以使網(wǎng)絡(luò)性能最佳,再結(jié)合第3、8、9 等3 組實驗綜合考慮第三和第四階段融合塊數(shù)量應(yīng)皆設(shè)置為3,此時網(wǎng)絡(luò)綜合性能最優(yōu)。綜上所述,網(wǎng)絡(luò)第二、三、四階段融合塊數(shù)量應(yīng)分別設(shè)為1、3、3。

      表1 HRNet各階段融合塊不同數(shù)量的評估結(jié)果

      3.2.2 混合數(shù)據(jù)集訓(xùn)練

      由于STB數(shù)據(jù)集中真實數(shù)據(jù)樣本數(shù)量有限、視覺多樣性不夠豐富以及標(biāo)注不完整等方面的問題,加入RHD數(shù)據(jù)可以充實STB數(shù)據(jù)集從而提高網(wǎng)絡(luò)的泛化能力。本文首先用RHD數(shù)據(jù)初始化網(wǎng)絡(luò),然后將RHD和STB兩個數(shù)據(jù)集按照1∶1的比例訓(xùn)練初始化后的網(wǎng)絡(luò),并用訓(xùn)練后的網(wǎng)絡(luò)進(jìn)行2D 姿態(tài)的估計,實驗結(jié)果見表2。由結(jié)果可知,混合訓(xùn)練時在RHD(AUC 為0.890)和STB(AUC 為0.869)數(shù)據(jù)集上的測試結(jié)果都較好,表明該方法能同時學(xué)習(xí)到兩個數(shù)據(jù)集的特征分布。文獻(xiàn)[8]在RHD數(shù)據(jù)集的結(jié)果較差的原因可能和數(shù)據(jù)集訓(xùn)練的方式有關(guān),其是先用RHD數(shù)據(jù)初始化網(wǎng)絡(luò),之后再輸入STB 數(shù)據(jù)微調(diào)網(wǎng)絡(luò),這使得網(wǎng)絡(luò)在先前RHD 數(shù)據(jù)上學(xué)到的特征被后續(xù)在STB數(shù)據(jù)集的訓(xùn)練沖淡,因此網(wǎng)絡(luò)在RHD數(shù)據(jù)上的準(zhǔn)確性下降,在RHD數(shù)據(jù)集上的AUC僅為0.724。

      表2 不同方法的2D手姿態(tài)評估結(jié)果

      需要注意的是,在3D姿態(tài)估計網(wǎng)絡(luò)中,由于這兩個數(shù)據(jù)集的2D 和3D 的轉(zhuǎn)換關(guān)系(相機內(nèi)置參數(shù))本身存在差異,因此混合訓(xùn)練時合成數(shù)據(jù)占比要降低,否則會導(dǎo)致該部分網(wǎng)絡(luò)對真實數(shù)據(jù)預(yù)測變差。該部分網(wǎng)絡(luò)訓(xùn)練過程中設(shè)置樣本數(shù)STB:RHD為6∶1。

      3.3 2D手姿態(tài)估計

      為驗證HRNet 在2D 手姿態(tài)估計中的有效性,分別從定量和定性兩個方面進(jìn)行了實驗。

      3.3.1 定量對比

      本文與其他文獻(xiàn)[8,10-11]一樣,采用像素上的平均端點誤差(EPE)和在不同錯誤閾值下正確關(guān)鍵點百分比下的曲線下面積(AUC)作為評估指標(biāo)進(jìn)行數(shù)據(jù)對比,

      其中EPE 值越小表示評估誤差越小,AUC 值越大表示評估精度越高。實驗結(jié)果見表2,該表中除本文方法得到的數(shù)據(jù)外,其他數(shù)據(jù)來自相應(yīng)文獻(xiàn)[8,10-11],其中文獻(xiàn)[10]只提供了在RHD 數(shù)據(jù)集上的測試結(jié)果。從表2中看出,在平均端點誤差中位數(shù)(EPE median)和均值(EPE mean)上,本文方法均優(yōu)于獻(xiàn)[8,10-11]。在AUC值上,相比于文獻(xiàn)[8],在STB 數(shù)據(jù)集上高出約5 個百分點,在RHD數(shù)據(jù)集上高出約15個百分點。相比文獻(xiàn)[11],在STB數(shù)據(jù)集上的EPE mean值下降了22.5%,從5.801下降到4.498,在RHD 數(shù)據(jù)集上的EPE mean 下降了39.3%,從5.223 下降到3.170。與文獻(xiàn)[10]相比,各評估指標(biāo)數(shù)值比較接近,可能是因為該文獻(xiàn)采用了聯(lián)合估計的方法,使得2D 與3D 估計能夠相互促進(jìn)。但即使如此,本文方法仍具有一定優(yōu)勢。

      3.3.2 定性結(jié)果

      為了更直觀地展示2D 關(guān)節(jié)估計的準(zhǔn)確性,將估計結(jié)果進(jìn)行了可視化,如圖7所示。該圖中前兩行是STB數(shù)據(jù)集,后兩行是RHD 數(shù)據(jù)集,最后一行為D+O 數(shù)據(jù)集,其中一、三行為真實標(biāo)簽,二、四、五行為預(yù)測結(jié)果。由結(jié)果可知,在RHD、STB兩個數(shù)據(jù)集上的預(yù)測均達(dá)到了不錯效果。由于訓(xùn)練集中并沒有類似手與物體交互的圖像,因此對D+O 數(shù)據(jù)集中被物體遮擋的手關(guān)節(jié)預(yù)測存在一定誤差。

      圖7 2D手姿態(tài)可視化

      3.4 3D手姿態(tài)估計

      3.4.1 定量對比

      本文在STB數(shù)據(jù)集上和五種先進(jìn)方法[8-9,27,32,34]得到的3D手姿態(tài)效果進(jìn)行對比,結(jié)果見圖8。圖8展示了不同方法在不同錯誤閾值情況下的PCK曲線,左圖為STB數(shù)據(jù)集上的對比結(jié)果,右圖為RHD 數(shù)據(jù)集上的對比結(jié)果,除本文方法得到的數(shù)據(jù)外,其他實驗數(shù)據(jù)均來源于文獻(xiàn)[14]。由圖可知,在STB 數(shù)據(jù)集上,在大多數(shù)錯誤閾值上本文方法都優(yōu)于參與比較的方法。在RHD數(shù)據(jù)集上,AUC值要比文獻(xiàn)[8]高出0.109。

      圖8 不同方法的3D手姿態(tài)估計結(jié)果對比

      3.4.2 定性結(jié)果

      同樣的,本文將STB、RHD 和D+O 數(shù)據(jù)集上的3D手姿態(tài)估計的結(jié)果以可視化的形式進(jìn)行了展示,結(jié)果如圖9 所示,該圖中一、二、三行分別為STB、RHD 和D+O數(shù)據(jù)集。與圖5中標(biāo)準(zhǔn)坐標(biāo)顯示的不同,為了使估計出的姿態(tài)效果更明顯,圖9將手姿態(tài)的x、y、z坐標(biāo)順序轉(zhuǎn)換成z、x、y,并調(diào)整了視角到合適的位置,但正面視角與y-z平面垂直。

      圖9 3D手姿態(tài)可視化

      3.5 消融研究

      本文在RHD數(shù)據(jù)集上研究了融合單元和視角不變方法給網(wǎng)絡(luò)性能帶來的影響。

      3.5.1 融合單元

      對2D 姿態(tài)估計網(wǎng)絡(luò)中有、無融合單元模塊進(jìn)行實驗,結(jié)果如表3所示。該表中+表示保留所有融合單元,-表示只保留第四階段最后一個融合單元,帶箭頭部分表示相對提升或降低的數(shù)值百分比。從該表中可以看出,引入融合單元后網(wǎng)絡(luò)性能有所改善,最直觀的表現(xiàn)是AUC 值提升了2.3%。然而,引入融合單元會增加網(wǎng)絡(luò)的運算成本,增長比例為5.1%,但在相對其他評估指標(biāo)改善的前提下,其增加的運算量在可接受的范圍內(nèi)。

      表3 有、無融合單元的結(jié)果對比

      3.5.2 視角不變方法

      對視角不變方法與直接估計方法進(jìn)行3D姿態(tài)估計實驗對比,結(jié)果如表4 所示。直接估計方法(Direct)表示直接估計標(biāo)準(zhǔn)坐標(biāo)cnorm而不需要用到規(guī)范坐標(biāo)ccan,其網(wǎng)絡(luò)結(jié)構(gòu)與本文估計規(guī)范坐標(biāo)ccan的結(jié)構(gòu)一樣。從表4中可以看出,直接估計方法的精度要低于視角不變方法,表明估計規(guī)范坐標(biāo)和旋轉(zhuǎn)矩陣R要比直接估計標(biāo)準(zhǔn)坐標(biāo)更有效??梢岳斫鉃榘岩粋€相對困難的問題(直接估計標(biāo)準(zhǔn)坐標(biāo))劃分成兩個較容易的問題(分別估計規(guī)范坐標(biāo)和旋轉(zhuǎn)矩陣),從而降低了網(wǎng)絡(luò)學(xué)習(xí)難度。

      表4 視角不變和直接估計的結(jié)果對比

      3.6 網(wǎng)絡(luò)實時性

      本文在RHD測試集上分別對2D和3D姿態(tài)估計網(wǎng)絡(luò)的運算實時性相關(guān)數(shù)據(jù)進(jìn)行了統(tǒng)計,各項數(shù)據(jù)見表5。從該表中可知,在整個估計過程中2D 姿態(tài)估計占用了絕大多數(shù)的計算量,達(dá)到了86億次浮點運算(文獻(xiàn)[8]為258 億次),這與HRNet 本身的并行結(jié)構(gòu)以及多個融合塊的設(shè)計有關(guān),而3D 姿態(tài)估計網(wǎng)絡(luò)由兩個簡單的并行處理流組成,其計算量僅為1億次。本文方法平均處理一張圖像的時間約為0.014 s,處理速度達(dá)到了每秒71張,實時性較高。

      表5 網(wǎng)絡(luò)實時性相關(guān)數(shù)據(jù)統(tǒng)計

      4 總結(jié)

      針對現(xiàn)有手姿態(tài)2D關(guān)鍵點熱圖估計或手姿態(tài)特征提取方法存在的問題,本文引用了一種多尺度高分辨率保持的網(wǎng)絡(luò)來估計熱圖,有效地提升了2D 手姿態(tài)估計的準(zhǔn)確性。之后,使用全局旋轉(zhuǎn)視角不變的方法將2D熱圖映射到3D 姿態(tài)。在上述方法上,使用三個公開數(shù)據(jù)集數(shù)(STB、RHD、Dexter+Object)分別對2D 和3D 姿態(tài)估計進(jìn)行了實驗,結(jié)果顯示了本文方法的有效性??紤]到未來手姿態(tài)估計可能會向密集的3D 手形發(fā)展,如何將HRNet應(yīng)用到其中成為接下來的研究方向。

      猜你喜歡
      熱圖集上分辨率
      Cookie-Cutter集上的Gibbs測度
      鏈完備偏序集上廣義向量均衡問題解映射的保序性
      EM算法的參數(shù)分辨率
      原生VS最大那些混淆視聽的“分辨率”概念
      復(fù)扇形指標(biāo)集上的分布混沌
      基于深度特征學(xué)習(xí)的圖像超分辨率重建
      一種改進(jìn)的基于邊緣加強超分辨率算法
      熱圖
      攝影之友(2016年12期)2017-02-27 14:13:20
      熱圖
      每月熱圖
      攝影之友(2016年8期)2016-05-14 11:30:04
      龙里县| 连州市| 合川市| 滁州市| 米林县| 蕲春县| 东乡| 益阳市| 香港 | 勃利县| 南召县| 古蔺县| 楚雄市| 屯留县| 平塘县| 孝感市| 嘉峪关市| 广安市| 高唐县| 新巴尔虎右旗| 郯城县| 梓潼县| 略阳县| 黄大仙区| 突泉县| 土默特右旗| 鹤山市| 咸丰县| 新邵县| 肥城市| 临颍县| 金湖县| 阳泉市| 汉中市| 江陵县| 兰溪市| 博爱县| 同江市| 武城县| 吉隆县| 夏津县|