• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于深度圖像預(yù)旋轉(zhuǎn)的手勢估計(jì)改進(jìn)方法

      2020-08-04 11:30:32徐正則張文俊

      徐正則 張文俊

      摘要: 基于深度圖像的手勢估計(jì)比人體姿勢估計(jì)更加困難, 部分原因在于算法不能很好地識別同一個手勢經(jīng)旋轉(zhuǎn)后的不同外觀樣式. 提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN) 推測預(yù)旋轉(zhuǎn)角度的手勢姿態(tài)估計(jì)改進(jìn)方法: 先利用自動算法標(biāo)注的最佳旋轉(zhuǎn)角度來訓(xùn)練CNN; 在手勢識別之前,用訓(xùn)練好的CNN 模型回歸計(jì)算出應(yīng)預(yù)旋轉(zhuǎn)的角度, 然后再對手部深度圖像進(jìn)行旋轉(zhuǎn); 最后采用隨機(jī)決策森林(Random Decision Forest, RDF) 方法對手部像素進(jìn)行分類, 聚類產(chǎn)生出手部關(guān)節(jié)位置. 實(shí)驗(yàn)證明該方法可以減少預(yù)測的手部關(guān)節(jié)位置與準(zhǔn)確位置之間的誤差, 手勢姿態(tài)估計(jì)的正確率平均上升了約4.69%.

      關(guān)鍵詞: 手勢估計(jì); 圖像旋轉(zhuǎn); 深度圖像

      中圖分類號: TP391 文獻(xiàn)標(biāo)志碼: A DOI: 10.3969/j.issn.1000-5641.201921004

      0 引言

      隨著科技的進(jìn)步和人類文明程度的提高, 新形式的數(shù)字媒體交互設(shè)備不斷出現(xiàn). 便攜式且可穿戴的虛擬現(xiàn)實(shí)(Virtual Reality, VR) 和增強(qiáng)現(xiàn)實(shí)(Augmented Reality, AR) 設(shè)備要求對傳統(tǒng)的交互手段進(jìn)行變革, 因此手部姿態(tài)估計(jì)[1] 和手勢識別技術(shù)[2-3] 的研究與應(yīng)用激發(fā)了廣大研究人員的興趣. 研究人員開發(fā)了基于光學(xué)的手勢識別技術(shù)[4], 但是應(yīng)用環(huán)境、光線、膚色、背景復(fù)雜度和手勢運(yùn)動快慢的變化對識別結(jié)果的影響非常大, 甚至?xí)κ謩輩^(qū)域與背景的分離造成巨大干擾.

      為了在很大程度上克服以上缺陷, 基于深度圖像(Depth Image) 的識別技術(shù)應(yīng)運(yùn)而生, 并逐漸成為目前主流的手勢姿態(tài)估計(jì)方法[5-8]. 捕捉深度圖像的設(shè)備稱為深度相機(jī), 或稱為RGB-D 攝像機(jī), 深度相機(jī)在消費(fèi)類產(chǎn)品上的應(yīng)用越來越廣泛.

      事實(shí)上, 通過深度相機(jī)建立一套高效、穩(wěn)定、實(shí)用的手勢識別和控制系統(tǒng)仍然是一項(xiàng)非常艱難的工作, 其中手勢估計(jì)算法的旋轉(zhuǎn)不變性是難點(diǎn)之一. 手勢估計(jì)比人體姿勢估計(jì)更加困難, 部分原因在于手勢的變化更加豐富多樣, 特別是人體姿勢基本是頭在上腳在下, 而同一個手勢經(jīng)旋轉(zhuǎn)后會呈現(xiàn)出不同的外觀樣式, 這會大大增加估計(jì)時(shí)出現(xiàn)的各種可能性[9]. 一個優(yōu)秀的手勢識別算法應(yīng)具有旋轉(zhuǎn)不變性, 即同一種手勢無論怎么旋轉(zhuǎn)都可以被準(zhǔn)確地識別出來.

      已有的文獻(xiàn)很多通過選取具備旋轉(zhuǎn)不變性的特征來解決這個問題, 比如用隱馬爾科夫模型(Hidden Markov Models, HMM) 選擇 特征來識別姿勢[10];文獻(xiàn)[11] 中提出的采用自適應(yīng)局部二值模式(Adapted Local Binary Patterns, ALBP) 的方法來提取深度圖像的目標(biāo)特征, 并且在手部跟蹤的實(shí)驗(yàn)中對于旋轉(zhuǎn)和深度距離值都具備不變特性;主流的基于隨機(jī)決策森林(RDF) 或者卷積神經(jīng)網(wǎng)絡(luò)(CNN) 的手勢識別算法無須手動選取特征, 但是卻無法自動提取手勢圖像中旋轉(zhuǎn)不變的特征.為了讓模型隱含地學(xué)習(xí)不同角度對手勢識別影響的先驗(yàn)知識, 一些文獻(xiàn)[2,8,12] 通過數(shù)據(jù)擴(kuò)增(DataAugmentation) 把各種手勢在不同角度的深度圖像都作為數(shù)據(jù)來進(jìn)行模型訓(xùn)練, 但也因此帶來兩方面的問題: ①即使大量的訓(xùn)練數(shù)據(jù)也不能保證覆蓋各種可能做出的手勢; ②需要更加復(fù)雜和龐大的網(wǎng)絡(luò),學(xué)習(xí)時(shí)間也會變得不可接受[13], 另外也容易產(chǎn)生欠擬合或者過度擬合的現(xiàn)象. 雖然池化層可以在局部區(qū)域?qū)ξ⑿〉淖儞Q產(chǎn)生不變性[14], 但是總體上來說RDF 和CNN 提取旋轉(zhuǎn)不變的特征能力是比較弱的[15-16], 它們普遍在識別準(zhǔn)確度最佳的情況下, 需要讓手勢固定在某一方向上, 稱為“標(biāo)準(zhǔn)手勢”(Canonical Pose)[9]. 在文獻(xiàn)[9] 中首先使用霍夫森林(Hough Forest) 來預(yù)測手部所在位置和手部的旋轉(zhuǎn)角度q, 然后在計(jì)算簡單的深度差分特征時(shí)加入q 的影響; 但是在訓(xùn)練霍夫森林參數(shù)時(shí)要把當(dāng)前手勢旋轉(zhuǎn)到準(zhǔn)確的(Ground Truth) 角度值, 也是所謂的“標(biāo)準(zhǔn)手勢”. 一些簡單的手勢也可以勉強(qiáng)人為地定義為“標(biāo)準(zhǔn)手勢”, 然而手勢千變?nèi)f化, 何為“標(biāo)準(zhǔn)手勢”需要主觀判斷, 因此這樣標(biāo)注的數(shù)據(jù)缺少統(tǒng)一標(biāo)準(zhǔn), 差異性比較大, 不利于訓(xùn)練過程中學(xué)習(xí)到共性的知識, 并且目前大部分的手勢訓(xùn)練數(shù)據(jù)集沒有標(biāo)注這樣的角度值, 手工再去標(biāo)注費(fèi)時(shí)費(fèi)力.

      目前, 大量的文獻(xiàn)[17-22] 把手勢估計(jì)和識別分解成3 個階段的算法: (預(yù)處理階段) 檢測和手部分割、手勢姿態(tài)估計(jì)、(后處理階段) 驗(yàn)證和精細(xì)調(diào)整. 為了克服旋轉(zhuǎn)對識別精度帶來的影響, 近期很多研究工作者試圖在CNN 上引入旋轉(zhuǎn)不變性: 文獻(xiàn)[16] 首先使用數(shù)據(jù)擴(kuò)增技術(shù)對圖像進(jìn)行旋轉(zhuǎn)來創(chuàng)建訓(xùn)練數(shù)據(jù), 然后在AlexNet 的CNN 架構(gòu)上的倒數(shù)第二層加入旋轉(zhuǎn)不變層(Rotation-Invariant Layer),并且使用加入了正則約束項(xiàng)的新目標(biāo)函數(shù)使訓(xùn)練樣本在旋轉(zhuǎn)前和旋轉(zhuǎn)后都能共享相似的特征; 文獻(xiàn)[23]使用一種Winner-Take-All (WTA) 的特征抽取技術(shù), 并與費(fèi)希爾判別準(zhǔn)則一起來獲取手掌的興趣區(qū)域(Region of Interest, ROI), 當(dāng)旋轉(zhuǎn)超過360°時(shí)還可以大幅提高識別手掌的準(zhǔn)確度. Cheng 等在CNN 特征上加入旋轉(zhuǎn)不變正則項(xiàng)和費(fèi)希爾判別正則項(xiàng), 嵌入CNN 模型中的全連接層(Fully ConnectedLayer)[24], 提高了CNN 處理圖像中旋轉(zhuǎn)目標(biāo)的檢測能力.

      本文提出的改進(jìn)方法出發(fā)點(diǎn)為, 目前RDF 和CNN 算法提取旋轉(zhuǎn)不變的特征能力是比較弱的, 需要通過數(shù)據(jù)擴(kuò)增(Data Augmentation) 人為地對樣本做旋轉(zhuǎn)、縮放等操作, 才能讓CNN 自己去學(xué)習(xí)旋轉(zhuǎn)不變性; 同時(shí)由于手部姿勢可以旋轉(zhuǎn)成不同角度的外觀樣式來呈現(xiàn), 采用顯性的方式預(yù)先旋轉(zhuǎn)手部圖像到某種最佳的角度就是一種更加有效的方法, 可以提高后續(xù)像素分類和姿態(tài)估計(jì)的準(zhǔn)確性.

      [ 6 ]YUAN S X, YE Q, STENGER B, et al. BigHand2.2M benchmark: Hand pose dataset and state of the art analysis [C]// 2017 IEEEConference on Computer Vision and Pattern Recognition (CVPR). IEEE, 2017: 2605-2613. DOI: 10.1109/CVPR.2017.279.

      [ 7 ]SHOTTON J, GIRSHICK R, FITZGIBBON A, et al. Efficient human pose estimation from single depth images [J]. IEEETransactions on Pattern Analysis and Machine Intelligence, 2013, 35(12): 2821-2840. DOI: 10.1109/TPAMI.2012.241.

      [ 8 ]QIAN C, SUN X, WEI Y C, et al. Realtime and robust hand tracking from depth [C]// 2014 IEEE Conference on Computer Visionand Pattern Recognition (CVPR). IEEE, 2014: 1106-1113. DOI: 10.1109/CVPR.2014.145.

      [ 9 ]XU C, CHENG L. Efficient hand pose estimation from a single depth image [C]// 2013 IEEE International Conference on ComputerVision. IEEE, 2013: 3456-3462. DOI: 10.1109/ICCV.2013.429.

      [10]CAMPBELL L W, BECKER D A, AZARBAYEJANI A, et al. Invariant features for 3-D gesture recognition [C]// Proceedings of theSecond International Conference on Automatic Face and Gesture Recognition. IEEE, 1996: 157-162. DOI: 10.1109/AFGR.1996.557258.

      [11]JOONGROCK K, SUNJIN Y, DONGCHUL K, et al L. An adaptive local binary pattern for 3D hand tracking [J]. PatternRecognition, 2017, 61: 139-152. DOI: 10.1016/j.patcog.2016.07.039.

      [12]KESKIN C, KIRA? F, KARA Y E, et al. Real time hand pose estimation using depth sensors [C]// 2011 IEEE InternationalConference on Computer Vision Workshops (ICCV Workshops). IEEE, 2011: 1228?1234. DOI: 10.1109/ICCVW.2011.6130391.

      [13]LAPTEV D, SAVINOV N, BUHMANN J M, et al. TI-POOLING: Transformation-invariant pooling for feature learning inconvolutional neural networks [C]// 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). IEEE, 2016: 289-297. DOI: 10.1109/CVPR.2016.38.

      [14]BOUREAU Y L, PONCE J, LECUN Y. A theoretical analysis of feature pooling in visual recognition [C]// Proceedings of the 27thInternational Conference on Machine Learning (ICML-10). 2010: 111–118.

      [15]LEPETIT V, LAGGER P, FUA P. Randomized trees for real-time keypoint recognition [C]// 2005 IEEE Computer Society Conferenceon Computer Vision and Pattern Recognition (CVPR'05). IEEE, 2005: 775–781. DOI: 10.1109/CVPR.2005.288.

      [16]CHENG G, ZHOU P C, HAN J W. Learning rotation-invariant convolutional neural networks for object detection in VHR opticalremote sensing images [J]. IEEE Transactions on Geoscience and Remote Sensing, 2016, 54(12): 7405-7415. DOI: 10.1109/TGRS.2016.2601622.

      宝山区| 东辽县| 夏津县| 溆浦县| 宣武区| 阜宁县| 牙克石市| 金寨县| 微山县| 资兴市| 营山县| 凤阳县| 华安县| 无极县| 阿拉善右旗| 磐石市| 精河县| 建宁县| 奉贤区| 昌吉市| 海南省| 鸡西市| 平和县| 万全县| 阿坝| 永丰县| 红河县| 南华县| 大丰市| 拜城县| 年辖:市辖区| 呈贡县| 泰顺县| 广河县| 桦川县| 康平县| 天等县| 日土县| 九台市| 抚州市| 武鸣县|