林依林,林珊玲,林志賢,3*
(1. 福州大學(xué) 物理與信息工程學(xué)院,福建 福州 350116;2. 中國福建光電信息科學(xué)與技術(shù)創(chuàng)新實(shí)驗(yàn)室,福建 福州 350116;3. 福州大學(xué) 先進(jìn)制造學(xué)院,福建 泉州 362200)
姿態(tài)估計(jì)是計(jì)算機(jī)視覺中的熱門研究領(lǐng)域,是對人體姿態(tài)的位置估計(jì)。姿態(tài)估計(jì)一般可以分為單人姿態(tài)估計(jì)(如Open Pose[1])、多人姿態(tài)估計(jì)(如AlphaPose[2])、人體姿態(tài)跟蹤、三維人體姿態(tài)估計(jì)。在姿態(tài)估計(jì)的研究中,基于手部的姿態(tài)估計(jì)研究備受青睞。在人所有的姿態(tài)中,手勢占據(jù)了90%,是最主要的人機(jī)交互姿態(tài)。未來的生活場景朝著越來越智能化的方向發(fā)展,智能家居、自動(dòng)駕駛、智慧醫(yī)療及第一視角沉浸式交互等應(yīng)用場景,都離不開手勢交互的身影。
近年來,隨著深度學(xué)習(xí)的發(fā)展,針對手部的三維姿態(tài)估計(jì)研究突飛猛進(jìn)。Cai 等人[3]提出了一種弱監(jiān)督網(wǎng)絡(luò),使用深度正則化器,將從彩色圖像估計(jì)的三維手勢轉(zhuǎn)換成深度圖,將三維坐標(biāo)估計(jì)損失轉(zhuǎn)化為深度圖損失,有效地解決了三維關(guān)鍵點(diǎn)標(biāo)記獲取困難這一問題。Ge 等人[4]將手部表面網(wǎng)格估計(jì)加入到網(wǎng)絡(luò)中,將彩色圖像估計(jì)的二維手部的熱度圖通過圖形卷積網(wǎng)絡(luò)估計(jì)手表面網(wǎng)格,再通過手表面網(wǎng)格回歸三維手勢。該方法識(shí)別精度較高,但是手表面網(wǎng)格真實(shí)標(biāo)記缺乏,制作合成數(shù)據(jù)也較為困難,數(shù)據(jù)獲取代價(jià)較大。對于RGB 圖像的三維手部姿態(tài)估計(jì)任務(wù),手部獨(dú)有的嚴(yán)重的自遮擋性和自相似性以及復(fù)雜的背景處理,在缺少深度信息的任務(wù)里并不容易。無約束的自然場景往往包含復(fù)雜的背景和多變的光照條件,要準(zhǔn)確地從第一視角RGB 圖像中檢測出指尖的位置依然是一個(gè)具有挑戰(zhàn)性的問題。 本文在Minimal-Hand[5]的基礎(chǔ)上結(jié)合圖卷積神經(jīng)網(wǎng)絡(luò)[6]來解決這種天然的遮擋問題,通過級(jí)聯(lián)的卷積網(wǎng)絡(luò)從粗到細(xì)優(yōu)化關(guān)鍵點(diǎn)位置從而解決不自然的骨架估計(jì)。
在姿態(tài)估計(jì)中,常見的手部模型有21 關(guān)鍵點(diǎn)、16 關(guān)鍵點(diǎn)、36 關(guān)鍵點(diǎn)。本文采用Open Pose[1]提出的標(biāo)準(zhǔn)手部21 關(guān)鍵點(diǎn)模型。其中編號(hào)為0的關(guān)鍵點(diǎn)是手腕,其余每根手指分別有4 個(gè)關(guān)鍵點(diǎn):指關(guān)節(jié)、近端指關(guān)節(jié)、遠(yuǎn)端指關(guān)節(jié)、指尖。本文所有對二維和三維的關(guān)鍵點(diǎn)估計(jì)都是建立在該手部模型之上。
用深度學(xué)習(xí)的方法進(jìn)行手部姿態(tài)估計(jì),一般是分階段進(jìn)行的。本文提出的網(wǎng)絡(luò)框架按照處理目的分為4 個(gè)部分:手部的識(shí)別、手部二維關(guān)鍵點(diǎn)的檢測、手部三維關(guān)鍵點(diǎn)的檢測、手部三維關(guān)鍵點(diǎn)的精細(xì)化調(diào)整。
手部的識(shí)別采用輕量級(jí)網(wǎng)絡(luò)回歸手部邊框(Bounding Box)作為后續(xù)主體網(wǎng)絡(luò)的預(yù)處理操作,使得后續(xù)關(guān)鍵點(diǎn)的定位更加準(zhǔn)確,同時(shí)處理后圖片像素的減少也使得后續(xù)計(jì)算量減小。手部二維和三維關(guān)鍵點(diǎn)的檢測通過搭建卷積神經(jīng)網(wǎng)絡(luò)提取圖像特征,依據(jù)區(qū)域或者特征的重要程度對權(quán)重進(jìn)行調(diào)配,引導(dǎo)級(jí)聯(lián)特征提取模塊獲取更加豐富的基礎(chǔ)提取特征,監(jiān)督網(wǎng)絡(luò)主動(dòng)輸出越來越精確的熱度置信圖。手部三維關(guān)鍵點(diǎn)的精細(xì)化調(diào)整是將三維關(guān)鍵點(diǎn)粗結(jié)果基于圖卷積神經(jīng)網(wǎng)絡(luò)算法進(jìn)行優(yōu)化后處理,擬合出更加精確的手部三維關(guān)鍵點(diǎn)坐標(biāo)。
常見的手部預(yù)處理方法分為基于數(shù)字圖像處理方法和基于深度學(xué)習(xí)方法兩大類。前者一般采取分割算法得到手部掩模定位手部區(qū)域,例如將RGB 圖像轉(zhuǎn)化為灰度圖像再轉(zhuǎn)換成二值圖像并選取二值圖像的前景部分作為手勢提取區(qū)域[7]。
本文采取基于深度學(xué)習(xí)方法的手部預(yù)處理網(wǎng)絡(luò),如圖1 所示。在進(jìn)入主體網(wǎng)絡(luò)流程前,先采用基于YOLOv3[8]的預(yù)處理網(wǎng)絡(luò)用于將輸入圖片中的手部和混雜的背景剝離。YOLIOv3 相比其他深度學(xué)習(xí)檢測網(wǎng)絡(luò)的優(yōu)勢在于引入Darknet-53 作為骨干網(wǎng)絡(luò),采用K-means 聚類法[5]回歸出9 種大小不同的先驗(yàn)框,并且根據(jù)金字塔特征圖思想,小尺寸的先驗(yàn)框用于耦合大尺寸的特征圖,大尺寸的先驗(yàn)框用于耦合小尺寸的特征圖,可以很好地整合不同尺度的感受野的特征,識(shí)別輸入圖片中不同占比的手部。我們將自然場景下的圖片輸入預(yù)處理網(wǎng)絡(luò),通過調(diào)整Darknet-53 網(wǎng)絡(luò)內(nèi)卷積核大小可以控制輸出的特征圖大小,因此對任意尺寸的輸入數(shù)據(jù)經(jīng)過這個(gè)預(yù)處理網(wǎng)絡(luò)都可以輸出固定256×256×3 尺寸的、剝離背景單獨(dú)手部的手部邊框圖片傳輸給接下來的網(wǎng)絡(luò)。
圖1 網(wǎng)絡(luò)流程圖Fig.1 Network flow chart
如圖1 所示,二維特征提取模塊使用經(jīng)典的ResNet50[9]網(wǎng) 絡(luò),輸 入256×256×3 的RGB 圖 像輸出32×32×256 的二維特征圖。相比于直接回歸關(guān)節(jié)點(diǎn)坐標(biāo),基于熱度圖的方法具有漸變連續(xù)可微分的特點(diǎn),可以提高坐標(biāo)估計(jì)的精細(xì)程度[10],因此我們在二維和三維檢測模塊融合多特征熱度圖。
二維檢測模塊是一個(gè)兩層的全連接卷積層。輸入32×32×256 的二維特征圖,輸出二維熱度圖(Heat Maps)。二維熱度圖包含21 個(gè)手部關(guān)鍵點(diǎn)的關(guān)節(jié)預(yù)測置信圖,通過二維高斯函數(shù)編碼每個(gè)像素點(diǎn)被每個(gè)關(guān)鍵點(diǎn)覆蓋的置信度,其公式如式(1)所示:
其中l(wèi)代表第l個(gè)關(guān)鍵點(diǎn),σ為函數(shù)的寬度參數(shù),(x,y)代表該點(diǎn)像素坐標(biāo),(u,v)是中心點(diǎn)坐標(biāo),即該關(guān)鍵點(diǎn)二維真值(Ground truth)坐標(biāo)。
三維檢測模塊從多熱度圖和特征圖回歸三維手部姿態(tài)。如圖1 所示,將二維特征圖和二維熱度圖(2D Heat Maps)進(jìn)行層級(jí)串聯(lián),得到二維聯(lián)合特征圖,對二維聯(lián)合特征圖進(jìn)行卷積操作,得到三維偏移熱度圖(3D Delta Maps)。三維偏移熱度圖是子節(jié)點(diǎn)相對于根節(jié)點(diǎn)的三維方向向量,可以很好地反應(yīng)父子節(jié)點(diǎn)之間的位置關(guān)系,將三維偏移熱度圖作為中間熱度圖為三維檢測模塊預(yù)測結(jié)果添加運(yùn)動(dòng)學(xué)約束,使網(wǎng)絡(luò)架構(gòu)嵌入類似手部結(jié)構(gòu)的物理限制。將二維聯(lián)合特征圖和三維偏移熱度圖進(jìn)行層級(jí)串聯(lián)和卷積層操作,分別從XYZ坐標(biāo)軸表示的圖中選擇置信度最大的點(diǎn)所對應(yīng)的值為坐標(biāo)軸的數(shù)值,對XYZ軸都執(zhí)行以上操作,將得到的值保存為三維坐標(biāo)點(diǎn)[11],就 得 到 了 三 維 位 置 熱 度 圖(3D Location Maps)。三維位置熱度圖和二維熱度圖一樣,反映了每個(gè)像素被每個(gè)手部關(guān)鍵點(diǎn)的三維坐標(biāo)覆蓋的預(yù)測置信度。特征提取網(wǎng)絡(luò)具體級(jí)聯(lián)結(jié)構(gòu)如圖2 所示,為了能更好地預(yù)測三維位置偏移量,我們先預(yù)測一個(gè)二維熱度圖,將其作為三維熱度圖的一個(gè)條件來提升對三維位置預(yù)測的準(zhǔn)確性。之后我們再將二維熱度圖和三維偏移圖作為共同條件和特征結(jié)合在一起去預(yù)測最后的三維位置,通過這樣多層級(jí)聯(lián)的條件來得到更加準(zhǔn)確魯棒的位置信息。
圖2 級(jí)聯(lián)特征提取網(wǎng)絡(luò)結(jié)構(gòu)Fig.2 Cascade feature extraction network structure
對于手部骨架而言,它本身是一個(gè)天然的圖結(jié)構(gòu)。因此我們很自然地想到基于圖卷積神經(jīng)網(wǎng)絡(luò)(Graph Convolutional Network,GCN)方法來獲取它內(nèi)部的隱式關(guān)系[12]。GCN 的計(jì)算過程與信號(hào)處理過程相同,先將卷積核和圖數(shù)據(jù)通過傅里葉變換轉(zhuǎn)換到頻域空間,再對頻域空間的系數(shù)進(jìn)行數(shù)值運(yùn)算,最后進(jìn)行逆傅里葉變換得到卷積后的結(jié)果。
利用上述模塊生成熱圖后,采用積分回歸方法[13]將熱圖表示轉(zhuǎn)化為坐標(biāo)表示,作為GCN 特征增加網(wǎng)絡(luò)的初始輸入姿態(tài)。對熱度圖的初始化姿態(tài)進(jìn)行softed-argmax 操作,將熱圖傳播到Softmax 層中,該層將熱度圖像素值標(biāo)準(zhǔn)化為似然值(0~1)之后,再對似然圖層進(jìn)行積分運(yùn)算求和操作,從而估算關(guān)節(jié)位置:
其中,J?k i表示第k個(gè)關(guān)節(jié)的位置估計(jì),A表示似然區(qū)域,Hk(p)表示p點(diǎn)上的似然值。因此,每個(gè)熱圖矩陣都包含生成初始姿勢的信息。
熱圖模塊和坐標(biāo)轉(zhuǎn)換相互耦合,使得GCN特征增強(qiáng)網(wǎng)絡(luò)可以獲得更準(zhǔn)確的初始化姿態(tài),有助于在進(jìn)行校正之前獲得更精確的局部上下文理解。此外,由于尺寸的限制,基于熱圖的表示在一定程度上導(dǎo)致了關(guān)鍵點(diǎn)的量化誤差,轉(zhuǎn)化為坐標(biāo)后可以解決這個(gè)問題。
由于手部姿態(tài)估計(jì)涉及的節(jié)點(diǎn)數(shù)量較多,我們使用切比雪夫多項(xiàng)式進(jìn)行逼近。當(dāng)有n個(gè)節(jié)點(diǎn)時(shí),得到GCN 層與層之間傳播公式如式(3)所示:
其中,D?=D+I,A?=A+I,I是單位矩陣,A是代表各個(gè)節(jié)點(diǎn)之間位置關(guān)系的n×n維的鄰接矩陣(Adjacency matrix),D?是A?的度矩陣(Degree matrix)。X是輸入層的特征,Z是輸出層的特征,X∈Rn*m,m是特征向量的維度,W是網(wǎng)絡(luò)需要學(xué)習(xí)的權(quán)重,W∈Rm*d,d是輸出向量的維度。
考慮到特征圖之間感受野的由粗到細(xì),我們在模塊中設(shè)計(jì)了一種從粗到精的學(xué)習(xí)過程,用于增強(qiáng)局部特征學(xué)習(xí),糾正部分遮擋的手部關(guān)鍵點(diǎn)的坐標(biāo)。由于基于坐標(biāo)的模塊缺少圖像的上下文信息,我們?yōu)槊總€(gè)關(guān)節(jié)位置挖掘了相關(guān)的圖像特征,并融合到模塊中。如圖1 所示,通過雙線性插值采點(diǎn),將從圖像特征中挖掘出的初始關(guān)鍵點(diǎn)坐標(biāo)(x,y)上的節(jié)點(diǎn)特征輸入到漸進(jìn)圖卷積層中來改善姿態(tài)估計(jì)結(jié)果。漸進(jìn)GCN 特征增強(qiáng)模塊網(wǎng)絡(luò)結(jié)構(gòu)如圖3 所示,對抽取的每個(gè)圖卷積的節(jié)點(diǎn)特征,我們用3 個(gè)密集連接的GCN 模塊來抽取特征,并通過層級(jí)1、2 的預(yù)測在每個(gè)層級(jí)中進(jìn)行監(jiān)督,在最后一層輸出預(yù)測的三維手部關(guān)鍵點(diǎn)坐標(biāo)。該機(jī)制建立了漸進(jìn)的GCN 架構(gòu),并通過逐步融合多尺度圖像特征來優(yōu)化關(guān)鍵點(diǎn)輸出。
圖3 漸進(jìn)GCN 特征增強(qiáng)網(wǎng)絡(luò)結(jié)構(gòu)Fig.3 Progressive GCN feature enhancement network structure
整體網(wǎng)絡(luò)是基于端到端的學(xué)習(xí),通過多任務(wù)學(xué)習(xí)的策略使得網(wǎng)絡(luò)結(jié)果更好地收斂。損失函數(shù)的定義如式(4)所示:
其中Ω為目標(biāo)點(diǎn)集,對于我們的手部重建的目標(biāo)關(guān)鍵點(diǎn)其個(gè)數(shù)為21 個(gè);j表示的是第j層圖卷積網(wǎng)絡(luò)的輸出結(jié)果。通過這種多層級(jí)的三維骨架估計(jì)監(jiān)督可以讓網(wǎng)絡(luò)表現(xiàn)出更好的結(jié)果。M是一維度的向量表示關(guān)鍵點(diǎn)掩模,如果關(guān)鍵點(diǎn)存在標(biāo)注數(shù)據(jù),M[i]=1,否則為0。
對于手部的骨架姿態(tài)估計(jì)而言,其本質(zhì)是一個(gè)回歸問題,回歸問題的指標(biāo)很難通過上述二分類的指標(biāo)來進(jìn)行度量。為了驗(yàn)證模型的優(yōu)越性,這里使用3D 平均準(zhǔn)確性(Percentage of Correct Keypoint,PCK)和2D 的關(guān)節(jié)點(diǎn)相識(shí)性(Object keypoint similarity,OKS)進(jìn)行評(píng)價(jià)。3D PCK 的計(jì)算公式如式(6)所示:
本文在以下5 個(gè)數(shù)據(jù)集上展開模型的訓(xùn)練和測試,多維度驗(yàn)證我們設(shè)計(jì)的人體手部姿態(tài)估計(jì)器的性能。
CMU Hand Keypoints Detection Dataset[14]是由卡內(nèi)基梅隆大學(xué)發(fā)布的手部骨架估計(jì)的數(shù) 據(jù) 集。Rendered Handpose Dataset(RHD)[15]是由弗萊堡大學(xué)在2017 發(fā)布的手部姿態(tài)渲染數(shù)據(jù) 集。Dexter+Object[16]是2016 年 由 德 國 的 馬 普所發(fā)布的手部重建和手部對象跟蹤的數(shù)據(jù)集。Ego Dexter datasets[17]是 由MPI 于2017 年 發(fā) 布 于ICCV2017 的 數(shù) 據(jù) 集。GANeratedDataset[18]是 由MPI 在CVPR2018 年推出的數(shù)據(jù)集,該數(shù)據(jù)集主要是由GAN 生產(chǎn)的合成數(shù)據(jù)集。
實(shí)驗(yàn)所用數(shù)據(jù)的分布如表1 所示,記錄了數(shù)據(jù)集所含有的標(biāo)注及被本次實(shí)驗(yàn)用作訓(xùn)練集和測試集的數(shù)據(jù)量。此外,原始的Dexter[16]數(shù)據(jù)集有1 912 訓(xùn)練集和846 驗(yàn)證集,但是考慮到更加充分的驗(yàn)證算法,我們將1 912 個(gè)訓(xùn)練集也作為本次實(shí)驗(yàn)的測試集。
表1 實(shí)驗(yàn)所用數(shù)據(jù)分布Tab.1 Distribution of data used in the experiment
實(shí)驗(yàn)過程中的數(shù)值曲線如圖4 所示,其中圖4(a)是訓(xùn)練過程中的損失曲線,lossH 是二維熱度圖損失值,lossD 是三維偏移熱度圖的損失值,lossL 是在經(jīng)過漸進(jìn)GCN 模塊后的三維關(guān)鍵點(diǎn)損失值。從圖4(a)可以看出,輸出的粗結(jié)果在經(jīng)過多熱度圖耦合的三維關(guān)鍵點(diǎn)檢測器和漸進(jìn)的GCN 模塊的精細(xì)化調(diào)整后可以收斂出更低的損失值。圖4(b)、(c)、(d)分別表示在RHD[15]、DO[16]、ED[17]測試集下每個(gè)訓(xùn)練周期下的AUC 值。
圖4 網(wǎng)絡(luò)訓(xùn)練時(shí)的損失函數(shù)曲線和在驗(yàn)證集下的AUC 精度曲線Fig.4 Loss function curves during network training and AUC accuracy curves under the validation set
本次實(shí)驗(yàn)主要和Xiong Zhang 等人提出的Mesh2HAND[19]、Donglai Xiang 等人提出的Mon-Cap[20]、Adnane Boukhayma 等 人 提 出 的3D pose in the wild[21]以 及Y X Zhou 等 人 提 出 的Minimalhand[5]進(jìn)行對比。
定量的實(shí)驗(yàn)結(jié)果與上述4 種方法比較對照如表2 所示,其中20 mm 和30 mm 分別指當(dāng)閾值取相應(yīng)值時(shí)的PCK 值,AUC 是當(dāng)閾值取20~50 mm時(shí)的PCK 曲線面積值。由表2 可見,我們所改進(jìn)的方法在3D 骨架回歸任務(wù)上的結(jié)果在各個(gè)數(shù)據(jù)集上的AUC 曲線都優(yōu)于其他方法。具體來說,我們所提出的方法相較于Minimal-hand[5]在DO 數(shù)據(jù)集上AUC 大約高了0.8%,在ED[17]數(shù)據(jù)集上比Minimal-hand[5]AUC 大約高了0.7%。對于RHD[15]數(shù)據(jù)集,我們所設(shè)計(jì)的方法比Mesh2 Hand[19]AUC 高了大約3%。就單純的PCK 值而言,我們所提出的方法更加接近于真實(shí)值,在閾值設(shè)為20 mm 處,我們提出的方法在DO[16]數(shù)據(jù)集上比最好的方法高了0.9%,在RHD[15]數(shù)據(jù)集上比最好的方法高了0.8%。雖然在ED[17]數(shù)據(jù)集上略低于最好的方法,但是在閾值30 mm 處,我們提出的方法遠(yuǎn)高于最好的方法(相較于Minimalhand[5]高了大約3.7%)。
表2 本文方法與其他方法實(shí)驗(yàn)結(jié)果對比Tab.2 Comparison of experimental results between this method and other methods
本次實(shí)驗(yàn)的操作系統(tǒng)為Ubantu18.04,CPU核為i5-6500,GPU 的配置為GTX-2080 11 GB。在圖像分辨率為256×256 的情況下,對算法處理時(shí)間和所需功耗進(jìn)行分析。如表3 所示,算法所需的推理時(shí)間為52 ms,算法所需的每秒浮點(diǎn)計(jì)算量(FLOPs)為9.3×108次。結(jié)合算法對照實(shí)驗(yàn)分析可知,我們提出的算法在處理時(shí)間上和模型復(fù)雜度上處于較優(yōu)水平,不僅推理時(shí)間和計(jì)算量近 似 于Minimal-hand[5],而 且 姿 態(tài) 估 計(jì) 精 度 在 多個(gè)數(shù)據(jù)集上都超過了Minimal-hand[5]的效果。
表3 推理速度與浮點(diǎn)計(jì)算量比較Tab.3 Comparison of the time of inference and FLOPs
該結(jié)果表明在不影響算法速度的情況下,我們提出的算法在效率上得到了較大的提升,識(shí)別推理的幀率(Frames Per Second,F(xiàn)PS)達(dá)到了19.23,因此該算法可以使用在視頻流的實(shí)時(shí)手部骨架檢測中。與此同時(shí),較小的計(jì)算量滿足了對模型低功耗、輕量化的需求。
我們選擇在上述定量分析中4 個(gè)對照方法中精度指標(biāo)表現(xiàn)最好的Minimal-hand[5]作為定性分析對象。定性的可視化結(jié)果如圖5所示(在RHD[15]測試集上的檢測結(jié)果)。從圖中高亮部分的細(xì)節(jié)可以看出,本文算法在測試集上的結(jié)果明顯優(yōu)于Minimal-hand[5]算法。在引入漸進(jìn)GCN 模塊后,手部骨架耦合了圖結(jié)構(gòu)的約束,使得其在一些自遮擋比較嚴(yán)重的場景下,也能夠檢測出合理的結(jié)果。
圖5 可視化實(shí)驗(yàn)結(jié)果對比Fig.5 Comparison of visualization experimental results
在自然場景下,涉及手物交互時(shí)骨架回歸結(jié)果如圖6 所示。由于人手在抓取物體過程中出現(xiàn)了大面積的遮擋,導(dǎo)致骨架回歸結(jié)果在尺度的還原上有些許偏差。除了部分關(guān)鍵點(diǎn)遮擋因素外,我們分析誤差的產(chǎn)生還有以下原因:由于當(dāng)前手部3D 訓(xùn)練數(shù)據(jù)集真實(shí)數(shù)據(jù)不足,因此參與實(shí)驗(yàn)的訓(xùn)練數(shù)據(jù)大多是CG 合成的虛擬3D數(shù)據(jù)集,或者是通過實(shí)驗(yàn)室設(shè)備所收集的特定場景下標(biāo)定好的真實(shí)數(shù)據(jù)集,并且單目RGB 相機(jī)在投影時(shí)失去了深度信息。因此將該算法用于自然場景下時(shí),存在著較大的狀態(tài)空間誤差(Domain Gap),從而導(dǎo)致了些許計(jì)算誤差。此外,最終輸出的3D 坐標(biāo)的回歸在一定程度上依賴于初始化的3D 坐標(biāo)位置,在初始坐標(biāo)位置偏差較大時(shí),會(huì)導(dǎo)致系統(tǒng)估計(jì)的姿態(tài)坐標(biāo)產(chǎn)生回歸誤差。
圖6 自然場景下的可視化結(jié)果Fig.6 Visualization results in the wild
盡管如此,本文模型在精度指標(biāo)上和大致的形體姿態(tài)上還是表現(xiàn)得足夠精準(zhǔn),總體上算法可以在自然場景下給出合理的估計(jì)結(jié)果,這體現(xiàn)了我們算法整體的魯棒性。
本文所提出的三維手部姿態(tài)估計(jì)算法通過結(jié)合人體關(guān)節(jié)結(jié)構(gòu)之間的基本約束信息以及級(jí)聯(lián)神經(jīng)網(wǎng)絡(luò)和漸進(jìn)圖卷積神經(jīng)網(wǎng)絡(luò)挖掘出的特征圖中包含的被遮擋關(guān)鍵點(diǎn)的相關(guān)數(shù)據(jù),能夠精確地調(diào)整被遮擋關(guān)鍵點(diǎn)的位置,對于人體手部骨架的檢測有較高的正確率。我們在3 個(gè)公開數(shù)據(jù)集上驗(yàn)證了網(wǎng)絡(luò)性能,與現(xiàn)有的4 種算法進(jìn)行實(shí)驗(yàn)比對,本文算法在30 mm 閾值下的PCK 精度表現(xiàn)非常出色,最低精度達(dá)到95.4%,高出次優(yōu)算法3.7%精度值。并且在3 個(gè)測試集上的AUC 曲線指標(biāo)均達(dá)到最高,平均AUC 精度達(dá)到92.9%。經(jīng)過與其他方法的定量、定性類比,可以看出本文算法在三維關(guān)鍵點(diǎn)預(yù)測精度上比現(xiàn)有的方法有明顯提高,并且可視化實(shí)驗(yàn)結(jié)果表明,本文算法在圖像細(xì)節(jié)的捕捉上也具有優(yōu)勢。此外,本文方法推理的幀率達(dá)到了19.23,可以滿足實(shí)時(shí)視頻流檢測的需求。模型所需FOLPs 為9.3×108次,復(fù)雜度較低,滿足對模型輕量化的要求。綜上,本文基于多任務(wù)學(xué)習(xí)的方法提出了一種端到端的訓(xùn)練方式,加速了網(wǎng)絡(luò)的收斂,減少了特征的過擬合,使得網(wǎng)絡(luò)在三維手部姿態(tài)估計(jì)任務(wù)上準(zhǔn)確性和魯棒性相比于現(xiàn)有技術(shù)有較為顯著的改進(jìn)。