基于深度圖像預(yù)旋轉(zhuǎn)的手勢估計(jì)改進(jìn)方法

2020-08-04 11:30:32徐正則張文俊

華東師范大學(xué)學(xué)報(bào)(自然科學(xué)版) 2020年4期

徐正則張文俊

摘要：基于深度圖像的手勢估計(jì)比人體姿勢估計(jì)更加困難，部分原因在于算法不能很好地識別同一個手勢經(jīng)旋轉(zhuǎn)后的不同外觀樣式. 提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)（Convolutional Neural Network， CNN）推測預(yù)旋轉(zhuǎn)角度的手勢姿態(tài)估計(jì)改進(jìn)方法：先利用自動算法標(biāo)注的最佳旋轉(zhuǎn)角度來訓(xùn)練CNN; 在手勢識別之前，用訓(xùn)練好的CNN 模型回歸計(jì)算出應(yīng)預(yù)旋轉(zhuǎn)的角度，然后再對手部深度圖像進(jìn)行旋轉(zhuǎn); 最后采用隨機(jī)決策森林（Random Decision Forest， RDF）方法對手部像素進(jìn)行分類，聚類產(chǎn)生出手部關(guān)節(jié)位置. 實(shí)驗(yàn)證明該方法可以減少預(yù)測的手部關(guān)節(jié)位置與準(zhǔn)確位置之間的誤差，手勢姿態(tài)估計(jì)的正確率平均上升了約4.69%.

關(guān)鍵詞：手勢估計(jì); 圖像旋轉(zhuǎn); 深度圖像

中圖分類號： TP391 文獻(xiàn)標(biāo)志碼： A DOI： 10.3969/j.issn.1000-5641.201921004

0 引言

隨著科技的進(jìn)步和人類文明程度的提高，新形式的數(shù)字媒體交互設(shè)備不斷出現(xiàn). 便攜式且可穿戴的虛擬現(xiàn)實(shí)（Virtual Reality， VR）和增強(qiáng)現(xiàn)實(shí)（Augmented Reality， AR）設(shè)備要求對傳統(tǒng)的交互手段進(jìn)行變革，因此手部姿態(tài)估計(jì)[1] 和手勢識別技術(shù)[2-3] 的研究與應(yīng)用激發(fā)了廣大研究人員的興趣. 研究人員開發(fā)了基于光學(xué)的手勢識別技術(shù)[4]，但是應(yīng)用環(huán)境、光線、膚色、背景復(fù)雜度和手勢運(yùn)動快慢的變化對識別結(jié)果的影響非常大，甚至?xí)κ謩輩^(qū)域與背景的分離造成巨大干擾.

為了在很大程度上克服以上缺陷，基于深度圖像（Depth Image）的識別技術(shù)應(yīng)運(yùn)而生，并逐漸成為目前主流的手勢姿態(tài)估計(jì)方法[5-8]. 捕捉深度圖像的設(shè)備稱為深度相機(jī)，或稱為RGB-D 攝像機(jī)，深度相機(jī)在消費(fèi)類產(chǎn)品上的應(yīng)用越來越廣泛.

事實(shí)上，通過深度相機(jī)建立一套高效、穩(wěn)定、實(shí)用的手勢識別和控制系統(tǒng)仍然是一項(xiàng)非常艱難的工作，其中手勢估計(jì)算法的旋轉(zhuǎn)不變性是難點(diǎn)之一. 手勢估計(jì)比人體姿勢估計(jì)更加困難，部分原因在于手勢的變化更加豐富多樣，特別是人體姿勢基本是頭在上腳在下，而同一個手勢經(jīng)旋轉(zhuǎn)后會呈現(xiàn)出不同的外觀樣式，這會大大增加估計(jì)時(shí)出現(xiàn)的各種可能性[9]. 一個優(yōu)秀的手勢識別算法應(yīng)具有旋轉(zhuǎn)不變性，即同一種手勢無論怎么旋轉(zhuǎn)都可以被準(zhǔn)確地識別出來.

已有的文獻(xiàn)很多通過選取具備旋轉(zhuǎn)不變性的特征來解決這個問題，比如用隱馬爾科夫模型（Hidden Markov Models， HMM）選擇特征來識別姿勢[10];文獻(xiàn)[11] 中提出的采用自適應(yīng)局部二值模式（Adapted Local Binary Patterns， ALBP）的方法來提取深度圖像的目標(biāo)特征，并且在手部跟蹤的實(shí)驗(yàn)中對于旋轉(zhuǎn)和深度距離值都具備不變特性;主流的基于隨機(jī)決策森林（RDF）或者卷積神經(jīng)網(wǎng)絡(luò)（CNN）的手勢識別算法無須手動選取特征，但是卻無法自動提取手勢圖像中旋轉(zhuǎn)不變的特征.為了讓模型隱含地學(xué)習(xí)不同角度對手勢識別影響的先驗(yàn)知識，一些文獻(xiàn)[2，8，12] 通過數(shù)據(jù)擴(kuò)增（DataAugmentation）把各種手勢在不同角度的深度圖像都作為數(shù)據(jù)來進(jìn)行模型訓(xùn)練，但也因此帶來兩方面的問題： ①即使大量的訓(xùn)練數(shù)據(jù)也不能保證覆蓋各種可能做出的手勢; ②需要更加復(fù)雜和龐大的網(wǎng)絡(luò)，學(xué)習(xí)時(shí)間也會變得不可接受[13]，另外也容易產(chǎn)生欠擬合或者過度擬合的現(xiàn)象. 雖然池化層可以在局部區(qū)域?qū)ξ⑿〉淖儞Q產(chǎn)生不變性[14]，但是總體上來說RDF 和CNN 提取旋轉(zhuǎn)不變的特征能力是比較弱的[15-16]，它們普遍在識別準(zhǔn)確度最佳的情況下，需要讓手勢固定在某一方向上，稱為“標(biāo)準(zhǔn)手勢”（Canonical Pose）[9]. 在文獻(xiàn)[9] 中首先使用霍夫森林（Hough Forest）來預(yù)測手部所在位置和手部的旋轉(zhuǎn)角度q，然后在計(jì)算簡單的深度差分特征時(shí)加入q 的影響; 但是在訓(xùn)練霍夫森林參數(shù)時(shí)要把當(dāng)前手勢旋轉(zhuǎn)到準(zhǔn)確的（Ground Truth）角度值，也是所謂的“標(biāo)準(zhǔn)手勢”. 一些簡單的手勢也可以勉強(qiáng)人為地定義為“標(biāo)準(zhǔn)手勢”，然而手勢千變?nèi)f化，何為“標(biāo)準(zhǔn)手勢”需要主觀判斷，因此這樣標(biāo)注的數(shù)據(jù)缺少統(tǒng)一標(biāo)準(zhǔn)，差異性比較大，不利于訓(xùn)練過程中學(xué)習(xí)到共性的知識，并且目前大部分的手勢訓(xùn)練數(shù)據(jù)集沒有標(biāo)注這樣的角度值，手工再去標(biāo)注費(fèi)時(shí)費(fèi)力.

目前，大量的文獻(xiàn)[17-22] 把手勢估計(jì)和識別分解成3 個階段的算法：（預(yù)處理階段）檢測和手部分割、手勢姿態(tài)估計(jì)、（后處理階段）驗(yàn)證和精細(xì)調(diào)整. 為了克服旋轉(zhuǎn)對識別精度帶來的影響，近期很多研究工作者試圖在CNN 上引入旋轉(zhuǎn)不變性：文獻(xiàn)[16] 首先使用數(shù)據(jù)擴(kuò)增技術(shù)對圖像進(jìn)行旋轉(zhuǎn)來創(chuàng)建訓(xùn)練數(shù)據(jù)，然后在AlexNet 的CNN 架構(gòu)上的倒數(shù)第二層加入旋轉(zhuǎn)不變層（Rotation-Invariant Layer），并且使用加入了正則約束項(xiàng)的新目標(biāo)函數(shù)使訓(xùn)練樣本在旋轉(zhuǎn)前和旋轉(zhuǎn)后都能共享相似的特征; 文獻(xiàn)[23]使用一種Winner-Take-All （WTA）的特征抽取技術(shù)，并與費(fèi)希爾判別準(zhǔn)則一起來獲取手掌的興趣區(qū)域（Region of Interest， ROI），當(dāng)旋轉(zhuǎn)超過360°時(shí)還可以大幅提高識別手掌的準(zhǔn)確度. Cheng 等在CNN 特征上加入旋轉(zhuǎn)不變正則項(xiàng)和費(fèi)希爾判別正則項(xiàng)，嵌入CNN 模型中的全連接層（Fully ConnectedLayer）[24]，提高了CNN 處理圖像中旋轉(zhuǎn)目標(biāo)的檢測能力.

本文提出的改進(jìn)方法出發(fā)點(diǎn)為，目前RDF 和CNN 算法提取旋轉(zhuǎn)不變的特征能力是比較弱的，需要通過數(shù)據(jù)擴(kuò)增（Data Augmentation）人為地對樣本做旋轉(zhuǎn)、縮放等操作，才能讓CNN 自己去學(xué)習(xí)旋轉(zhuǎn)不變性; 同時(shí)由于手部姿勢可以旋轉(zhuǎn)成不同角度的外觀樣式來呈現(xiàn)，采用顯性的方式預(yù)先旋轉(zhuǎn)手部圖像到某種最佳的角度就是一種更加有效的方法，可以提高后續(xù)像素分類和姿態(tài)估計(jì)的準(zhǔn)確性.

[ 6 ]YUAN S X， YE Q， STENGER B， et al. BigHand2.2M benchmark： Hand pose dataset and state of the art analysis [C]// 2017 IEEEConference on Computer Vision and Pattern Recognition （CVPR）. IEEE， 2017： 2605-2613. DOI： 10.1109/CVPR.2017.279.

[ 7 ]SHOTTON J， GIRSHICK R， FITZGIBBON A， et al. Efficient human pose estimation from single depth images [J]. IEEETransactions on Pattern Analysis and Machine Intelligence， 2013， 35（12）： 2821-2840. DOI： 10.1109/TPAMI.2012.241.

[ 8 ]QIAN C， SUN X， WEI Y C， et al. Realtime and robust hand tracking from depth [C]// 2014 IEEE Conference on Computer Visionand Pattern Recognition （CVPR）. IEEE， 2014： 1106-1113. DOI： 10.1109/CVPR.2014.145.

[ 9 ]XU C， CHENG L. Efficient hand pose estimation from a single depth image [C]// 2013 IEEE International Conference on ComputerVision. IEEE， 2013： 3456-3462. DOI： 10.1109/ICCV.2013.429.

[10]CAMPBELL L W， BECKER D A， AZARBAYEJANI A， et al. Invariant features for 3-D gesture recognition [C]// Proceedings of theSecond International Conference on Automatic Face and Gesture Recognition. IEEE， 1996： 157-162. DOI： 10.1109/AFGR.1996.557258.

[11]JOONGROCK K， SUNJIN Y， DONGCHUL K， et al L. An adaptive local binary pattern for 3D hand tracking [J]. PatternRecognition， 2017， 61： 139-152. DOI： 10.1016/j.patcog.2016.07.039.

[12]KESKIN C， KIRA? F， KARA Y E， et al. Real time hand pose estimation using depth sensors [C]// 2011 IEEE InternationalConference on Computer Vision Workshops （ICCV Workshops）. IEEE， 2011： 1228?1234. DOI： 10.1109/ICCVW.2011.6130391.

[13]LAPTEV D， SAVINOV N， BUHMANN J M， et al. TI-POOLING： Transformation-invariant pooling for feature learning inconvolutional neural networks [C]// 2016 IEEE Conference on Computer Vision and Pattern Recognition （CVPR）. IEEE， 2016： 289-297. DOI： 10.1109/CVPR.2016.38.

[14]BOUREAU Y L， PONCE J， LECUN Y. A theoretical analysis of feature pooling in visual recognition [C]// Proceedings of the 27thInternational Conference on Machine Learning （ICML-10）. 2010： 111–118.

[15]LEPETIT V， LAGGER P， FUA P. Randomized trees for real-time keypoint recognition [C]// 2005 IEEE Computer Society Conferenceon Computer Vision and Pattern Recognition （CVPR'05）. IEEE， 2005： 775–781. DOI： 10.1109/CVPR.2005.288.

[16]CHENG G， ZHOU P C， HAN J W. Learning rotation-invariant convolutional neural networks for object detection in VHR opticalremote sensing images [J]. IEEE Transactions on Geoscience and Remote Sensing， 2016， 54（12）： 7405-7415. DOI： 10.1109/TGRS.2016.2601622.

華東師范大學(xué)學(xué)報(bào)(自然科學(xué)版)2020年4期

華東師范大學(xué)學(xué)報(bào)(自然科學(xué)版)的其它文章: 江蘇省沉海圩鄉(xiāng)村濕地水稻田種植模式轉(zhuǎn)變后的生態(tài)恢復(fù)效果; 基于灰度模型的電能量異常數(shù)據(jù)修復(fù)研究; 基于特征優(yōu)化的廣告點(diǎn)擊率預(yù)測模型研究; 基于序列特征的點(diǎn)擊率預(yù)測模型; 改進(jìn)遺傳算法求解新高考背景下的排課問題; 線性驅(qū)動的分布式數(shù)據(jù)庫容錯性自動化測試

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

基于深度圖像預(yù)旋轉(zhuǎn)的手勢估計(jì)改進(jìn)方法