• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于ResNet-50改進(jìn)的Faster R-CNN手勢(shì)識(shí)別算法

      2019-10-20 14:53熊才華鞏言麗廉華侯枘辰
      計(jì)算機(jī)時(shí)代 2019年9期
      關(guān)鍵詞:魯棒性手勢(shì)識(shí)別率

      熊才華 鞏言麗 廉華 侯枘辰

      摘? 要: 為了解決不同識(shí)別環(huán)境下光照強(qiáng)度的變化對(duì)手勢(shì)識(shí)別準(zhǔn)確率影響的問(wèn)題,提出了基于ResNet-50殘差網(wǎng)絡(luò)的改進(jìn)Faster R-CNN手勢(shì)識(shí)別算法。相較于普通的Faster R-CNN算法,該算法用了ResNet-50網(wǎng)絡(luò),提高網(wǎng)絡(luò)特征的學(xué)習(xí)能力,并在ResNet-50中加入了實(shí)例批處理標(biāo)準(zhǔn)化(IBN)方法用于對(duì)單個(gè)圖片的表征內(nèi)容學(xué)習(xí),適應(yīng)不同的識(shí)別環(huán)境。實(shí)驗(yàn)結(jié)果表明,該算法在測(cè)試集上的識(shí)別率高達(dá)98.7%,相較于常用手勢(shì)識(shí)別算法,有效性更高,魯棒性更好。

      關(guān)鍵詞: 手勢(shì)識(shí)別; Faster R-CNN; ResNet-50; 實(shí)例批處理標(biāo)準(zhǔn)化

      中圖分類(lèi)號(hào):TP391? ? ? ? ? 文獻(xiàn)標(biāo)志碼:A? ? ?文章編號(hào):1006-8228(2019)09-01-04

      An improved Faster R-CNN hand gesture recognition algorithm based on ResNet-50

      Xiong Caihua, Gong Yanli, Lian Hua, Hou Ruichen

      (Faculty of Mechanical Engineering & Automation, Zhejiang Sci-Tech University, Hangzhou 310018, China)

      Abstract: In order to solve the problem of the influence of the change of illumination intensity on the accuracy of gesture recognition in different recognition environment, an improved Faster R-CNN hand gesture recognition algorithm is proposed based on optimized ResNet-50 network in this paper. Compared with the ordinary Faster R-CNN algorithm, the proposed algorithm improved with ResNet-50 network improves the feature learning ability of the network. Furthermore, by using the IBN (instance batch standardization), the ResNet-50 is optimized for the learning of representational contents, and for different recognition environment. The experiment shows that the proposed algorithm achieves the recognition rate of 98.7% on test set, with higher effectiveness and robustness compared with state-of-the-art hand gesture recognition algorithms.

      Key words: hand gesture recognition; Faster R-CNN; ResNet-50; IBN

      0 引言

      人機(jī)交互方式逐漸趨于簡(jiǎn)便化、智能化,讓基于計(jì)算機(jī)視覺(jué)的手勢(shì)識(shí)別的人機(jī)交互逐漸成為現(xiàn)實(shí)。手勢(shì)識(shí)別發(fā)展到現(xiàn)在,主要是基于傳統(tǒng)檢測(cè)識(shí)別算法和深度學(xué)習(xí)算法。傳統(tǒng)的檢測(cè)識(shí)別算法是利用人體手部區(qū)域的顏色特征來(lái)實(shí)現(xiàn),即YCbCr[1]、HSV[2]、YUV[3],以及其他人為選出的特征來(lái)進(jìn)行判別。這種識(shí)別算法容易受光照強(qiáng)度變化、肢體遮擋及其他復(fù)雜環(huán)境因素影響,所以魯棒性低。

      基于深度學(xué)習(xí)的目標(biāo)檢測(cè)[4]是目前在圖像處理上較為流行的方法,深度學(xué)習(xí)主要是利用卷積神經(jīng)網(wǎng)絡(luò)[5]對(duì)大量圖像多次訓(xùn)練學(xué)習(xí),通過(guò)深層卷積自動(dòng)計(jì)算提取目標(biāo)圖像中的特征。深度學(xué)習(xí)相比于傳統(tǒng)的檢測(cè)識(shí)別算法具有識(shí)別速度快,精度高[6]的優(yōu)點(diǎn)。

      目前用于目標(biāo)檢測(cè)的深度學(xué)習(xí)算法有Faster R-CNN[7]、SSD[8]等;Faster R-CNN使用區(qū)域建議網(wǎng)絡(luò)[9](Region Proposal Net-work,RPN)逐個(gè)檢測(cè)每一個(gè)對(duì)象,再綜合提取信息,最終對(duì)手勢(shì)所處的位置和類(lèi)別進(jìn)行確定。但是該方法仍然沒(méi)能克服光照強(qiáng)度變化和網(wǎng)絡(luò)深度不能加深的問(wèn)題。

      手勢(shì)識(shí)別的研究工作主要是手勢(shì)的檢測(cè)和識(shí)別。本文的手勢(shì)識(shí)別算法是在Faster R-CNN基礎(chǔ)上使用殘差網(wǎng)絡(luò)ResNet-50來(lái)優(yōu)化網(wǎng)絡(luò)深度,加深特征學(xué)習(xí),將 IBN結(jié)構(gòu)用于深度卷積網(wǎng)絡(luò)實(shí)現(xiàn)對(duì)單個(gè)圖片表征(光照、顏色等)的多樣性學(xué)習(xí),克服因不同環(huán)境下光照強(qiáng)度變化產(chǎn)生的漏檢、錯(cuò)檢的問(wèn)題。

      1 Faster R-CNN算法介紹

      Faster R-CNN算法模型主要包含了以下三個(gè)部分:CNN共享卷積、RPN區(qū)域建議網(wǎng)絡(luò)和感興趣區(qū)域池化[10](Region of Interest Pooling,ROI池化)檢測(cè)網(wǎng)絡(luò)。

      1.1 共享卷積

      共享卷積CNN作為Fast R-CNN和RPN的前端網(wǎng)絡(luò),通過(guò)深度卷積計(jì)算來(lái)獲取輸入圖像的特征圖,通常使用ImageNet[11]數(shù)據(jù)集來(lái)多次訓(xùn)練和微調(diào)CNN網(wǎng)絡(luò)使其達(dá)到最優(yōu)。目前使用的主流網(wǎng)絡(luò)有VGG16[12]和ResNet[13]。

      1.2 區(qū)域建議網(wǎng)絡(luò)

      Faster R-CNN的分類(lèi)檢測(cè)是利用RPN在網(wǎng)絡(luò)的內(nèi)部計(jì)算,產(chǎn)生高質(zhì)量區(qū)域建議框,用于后續(xù)的處理分類(lèi)。

      其中,包圍盒為([x,y,w,h]),候選框的中心坐標(biāo)、寬和高為([x1,y1,w1,h1])。則參考標(biāo)準(zhǔn)為GT (Ground-Truth):設(shè)標(biāo)記的矩形框G的真實(shí)中心坐標(biāo)、寬和高為([x*,y*,w*,h*]),預(yù)測(cè)候選區(qū)域坐標(biāo)向量[ ti],[t*i]是真實(shí)目標(biāo)框的坐標(biāo)向量.如式(1)、(2)。

      [tx=x-x1w1;ty=y-y1w1;tw=log2ww1;th=log2hh1.]? ? ? ? ? (1)

      [t*x=x*-x1w1;t*y=y*-y1h1;t*w=log2w*w1;t*h=log2h*h1.]? ? ? ? ?(2)

      本文采用的損失函數(shù)是[Smooth L1]函數(shù):

      [Smooth L1x0.5x2,x≤1x-0.5,otherwise]? ? (3)

      1.3 感興趣池化網(wǎng)絡(luò)

      Faster R-CNN算法是基于SPP-Net算法[14]改進(jìn)的,在此基礎(chǔ)上提出感興趣區(qū)域池,感興趣區(qū)域池化是SPP-Net的一個(gè)簡(jiǎn)化版本,因?yàn)橹贿x取了其中一層金字塔,也就是感興趣區(qū)域池化中只含有一種尺度,實(shí)驗(yàn)證明,加入ROI池化進(jìn)行圖像處理,使其運(yùn)算速度加快數(shù)十倍。

      2 本文算法

      2.1 殘差網(wǎng)絡(luò)

      ResNet主要是利用殘差原理來(lái)實(shí)現(xiàn)網(wǎng)絡(luò)的加深,以此避免梯度的消失和爆炸問(wèn)題.本文采用殘差網(wǎng)絡(luò)來(lái)解決目前手勢(shì)識(shí)別網(wǎng)絡(luò)深度不能加深的問(wèn)題。

      殘差網(wǎng)絡(luò)以高速路網(wǎng)絡(luò)的跨層鏈接思想為基礎(chǔ)對(duì)其改進(jìn):利用“shortcut connections(捷徑連接)”的方法,會(huì)把輸入[x]直接傳到輸出作為初始結(jié)果輸入到下方,輸出結(jié)果為:

      [Hx=Fx+x]? ? ? ? ? ? ?(4)

      當(dāng)[Fx=0]時(shí),則有[Hx=x],這就是前面所提到的恒等映射(identity)。在此基礎(chǔ)上,改變ResNet學(xué)習(xí)目標(biāo),不再是通過(guò)層層神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)完整的特征輸出,而是學(xué)習(xí)目標(biāo)值[H(x)]和x的差值,其殘差為:

      [Fx=Hx-x]? ? ? ? ? ? ?(5)

      本文采用的是ResNet-50網(wǎng)絡(luò)結(jié)構(gòu)。但仍然無(wú)法克服因光照強(qiáng)度變化造成的圖片色度變化而識(shí)別不準(zhǔn)確這一缺點(diǎn)。為克服此缺點(diǎn),本文對(duì)原有的ResNet-50進(jìn)行改進(jìn),在卷積層輸出后加入實(shí)例標(biāo)準(zhǔn)化[15](Instance Normalization,IN)和批量標(biāo)準(zhǔn)化(Batch Normalization,BN)作用。

      2.2 IBN算法

      在深度學(xué)習(xí)實(shí)驗(yàn)中常用的標(biāo)準(zhǔn)化方法為BN,主要用來(lái)提高特征層對(duì)圖像的敏感度,降低風(fēng)格類(lèi)變化的魯棒性,即對(duì)圖像色調(diào)變化,敏感變化的魯棒性,IN方法提高對(duì)風(fēng)格類(lèi)變化的魯棒性。在圖2、圖3中可以看到IN和BN共同作用于ResNet。這是因?yàn)樵贑NN層中,表征多樣性的學(xué)習(xí)往往在網(wǎng)絡(luò)淺層,而內(nèi)容特征的學(xué)習(xí)往往在模型深層,故據(jù)此提出如圖3的IBN結(jié)構(gòu)。在淺層中BN和IN同時(shí)使用,保證了表征的多樣性和內(nèi)容信息的學(xué)習(xí),最后經(jīng)過(guò)IN是為了保留深層網(wǎng)絡(luò)中圖像表征的識(shí)別信息。

      從式(6)、式(7)中可以看出,BN是對(duì)同一個(gè)Batch作用,而IN是對(duì)單個(gè)圖像進(jìn)行作用,有效的保證了圖像表征的多樣性,其中BN函數(shù)為:

      [ytijk=xtijk-μiσ2i+ε;μi=1HWTt=1Tl=1Wm=1Hxtilm;σ2i=1HWTt=1Tl=1Wm=1Hxtilm-mμi2.]? ?⑹

      其中IN函數(shù)為:

      [ytijk=xtijk-μiσ2i+ε;μi=1HWt=1Tl=1Wm=1Hxtilm;σ2i=1HWl=1Wm=1H(xtilm-mμti)2.]? ?⑺

      式中的T為Batch的數(shù)量,[xtijk]表示第 tijk個(gè)元素,k和j是跨空間維度,i是特征通道(如果為RGB圖像就是顏色通道)t是圖像在Batch中的索引,W表示輸入特征圖的寬,H為輸入特定的通道數(shù),其中[μi]為均值,[σ2i]為平方差。

      3 實(shí)驗(yàn)分析

      實(shí)驗(yàn)的訓(xùn)練樣本來(lái)自于NUS Hand Posture,對(duì)數(shù)據(jù)集用LabelImg進(jìn)行標(biāo)定,選取訓(xùn)練集手勢(shì)為2512個(gè),測(cè)試集手勢(shì)為528個(gè),并進(jìn)行遷移學(xué)習(xí)。

      表1可以得到,在測(cè)試集上的識(shí)別率,ResNet-50和ResNet-101性能不相上下,但考慮到ResNet-101在識(shí)別率沒(méi)有較大提高的前提下,耗時(shí)卻多出45%,由此選擇ResNet-50作為基礎(chǔ)網(wǎng)絡(luò)。

      由圖3、圖4、表2可以看出,本文算法無(wú)論是在訓(xùn)練時(shí)Loss收斂的速度還是在識(shí)別率上,都超過(guò)了SSD和Faster R-CNN模型,并且本文算法的召回率提升了3.8%,平均識(shí)別率提升了2%達(dá)到98.7%,檢測(cè)耗時(shí)上幾乎沒(méi)有變化。

      實(shí)驗(yàn)中用不同光照強(qiáng)度進(jìn)行測(cè)試,在 ResNet-50網(wǎng)絡(luò)下,利用背后窗簾打開(kāi)大小來(lái)控制光照強(qiáng)度,實(shí)驗(yàn)中處于光線(xiàn)比較均勻的條件下所得到的手勢(shì)照片較為清晰,都實(shí)時(shí)地識(shí)別出常用的10種手勢(shì)。當(dāng)在光照不均勻或者光照較為強(qiáng)烈的環(huán)境下,手勢(shì)的識(shí)別效率會(huì)降低。當(dāng)采用傳統(tǒng)的Faster R-CNN識(shí)別檢測(cè),可以看見(jiàn)如圖6中(a)、(b)所示,對(duì)少數(shù)手勢(shì)會(huì)出現(xiàn)漏識(shí),錯(cuò)識(shí)。在Faster R-CNN加入了IBN后手勢(shì)識(shí)別檢測(cè)的正確率有所提高,如圖6(a)所示。

      4 結(jié)論

      本文在Faster R-CNN算法基礎(chǔ)上進(jìn)行改進(jìn),采用ResNet-50的殘差網(wǎng)絡(luò)作為基礎(chǔ)網(wǎng)絡(luò),并在網(wǎng)絡(luò)的結(jié)構(gòu)上進(jìn)行改進(jìn),加入了IBN算法提高網(wǎng)絡(luò)對(duì)單個(gè)圖像表征內(nèi)容的學(xué)習(xí),對(duì)圖像全局信息做了一次整合和調(diào)整。實(shí)驗(yàn)結(jié)果表明所提出的算法可以有效的克服了光照強(qiáng)度變化對(duì)手勢(shì)識(shí)別的影響,平均識(shí)別率高達(dá)98.7%,提高了檢測(cè)效果,增加算法的魯棒性。目前的識(shí)別環(huán)境只能在室內(nèi),限制了手勢(shì)識(shí)別的廣泛使用,但是本文所提出的算法加快了以手勢(shì)識(shí)別為基礎(chǔ)的人機(jī)交互模式的發(fā)展進(jìn)程。

      參考文獻(xiàn)(References):

      [1] Cao X Y,Zhao J Y,Li M.Monocular vision gesture segmentation based on skin color and motion detection[J]. Hunan Daxue Xuebao/Journal of Hunan University Natural Sciences,2011.38(1):78-83

      [2] 周海鵬,王芳,田建艷.基于HSV顏色特征的多目標(biāo)視頻檢測(cè)與跟蹤算法[J].科學(xué)技術(shù)與工程,2017.17(20):189-193

      [3] Al-Tairi Z H,Rahmat R W,Saripan M I,et al.Skin segmentation using YUV and RGB color spaces[J]. Journal of Information Processing Systems,2014.10(2):283-299

      [4] 李雷明.視頻監(jiān)控中運(yùn)動(dòng)物體的檢測(cè)與跟蹤的研究與實(shí)現(xiàn)[D].南京航空航天大學(xué),2008.

      [5] 汪濟(jì)民,陸建峰.基于卷積神經(jīng)網(wǎng)絡(luò)的人臉性別識(shí)別[J].現(xiàn)代電子術(shù),2015.29(7):89-92

      [6] Krizhevsky A,Sutskever I,Hinton G E.ImageNet classification with deep convolutional neural networks[C]// International Conference on Neural Information Processing Systems,2012.

      [7] Clapés A,Reyes M,Escalera S.Multi-modal user identification and object recognition surveillance system[J]. Pattern Recognition Letters,2013.34(7):799-808

      [8] W Liu,et al.SSD: Single Shot MultiBox Detector[J].arXiv preprint arXiv:1512.02325,2015.

      [9] Ren S,He K,Girshick R,et al.Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks[J].IEEE Transactions on Pattern Analysis & Machine Intelligence,2017.39(6):1137-1149

      [10] Girshick R.FAST R-CNN[C]//IEEE Int Conference on Computer Vision. Santiago,Chile,2015:1440-1448

      [11] Russakovsky O,Deng J,Su H,et al. Imagenetlarge scale visual recognition challenge[J].International Journal of Computer Vision,2015.115(3):211-252

      [12] Redmon J,Divvala S,Girshick R,et al.You only look once: Unified, real-time object detection[C]//Proceedings of the IEEE conference on computer vision and pattern recognition.2016:779-788

      [13] K He,et al.Deep residual learning for image recognition[J].arXiv preprint arXiv:1512.03385,2015.

      [14] 高大鵬,朱建剛.多維度自適應(yīng)3D卷積神經(jīng)網(wǎng)絡(luò)原子行為識(shí)別[J]. 計(jì)算機(jī)工程與應(yīng)用,2018.4:174-178

      [15] Vedaldi VLDUA. Instance Normalization: The Missing Ingredient for Fast Stylization[J]. arXiv preprint arXiv: 1607.08022, 2016.

      猜你喜歡
      魯棒性手勢(shì)識(shí)別率
      基于類(lèi)圖像處理與向量化的大數(shù)據(jù)腳本攻擊智能檢測(cè)
      荒漠綠洲區(qū)潛在生態(tài)網(wǎng)絡(luò)增邊優(yōu)化魯棒性分析
      挑戰(zhàn)!神秘手勢(shì)
      基于確定性指標(biāo)的弦支結(jié)構(gòu)魯棒性評(píng)價(jià)
      基于真耳分析的助聽(tīng)器配戴者言語(yǔ)可懂度指數(shù)與言語(yǔ)識(shí)別率的關(guān)系
      V字手勢(shì)的由來(lái)
      提升高速公路MTC二次抓拍車(chē)牌識(shí)別率方案研究
      基于非支配解集的多模式裝備項(xiàng)目群調(diào)度魯棒性?xún)?yōu)化
      高速公路機(jī)電日常維護(hù)中車(chē)牌識(shí)別率分析系統(tǒng)的應(yīng)用
      西南交通大學(xué)學(xué)報(bào)(2016年6期)2016-05-04
      内丘县| 长子县| 治多县| 梨树县| 五寨县| 丹凤县| 谷城县| 美姑县| 德兴市| 余姚市| 理塘县| 舟山市| 祁连县| 孝昌县| 杭锦后旗| 厦门市| 富平县| 七台河市| 绵竹市| 德令哈市| 临泉县| 诸城市| 全州县| 汉川市| 洛阳市| 托克托县| 东乌珠穆沁旗| 富宁县| 栾城县| 保康县| 射洪县| 杂多县| 错那县| 资源县| 西乌珠穆沁旗| 临泽县| 苏尼特右旗| 高雄市| 台湾省| 锡林浩特市| 饶河县|