熊才華 鞏言麗 廉華 侯枘辰
摘? 要: 為了解決不同識(shí)別環(huán)境下光照強(qiáng)度的變化對(duì)手勢(shì)識(shí)別準(zhǔn)確率影響的問(wèn)題,提出了基于ResNet-50殘差網(wǎng)絡(luò)的改進(jìn)Faster R-CNN手勢(shì)識(shí)別算法。相較于普通的Faster R-CNN算法,該算法用了ResNet-50網(wǎng)絡(luò),提高網(wǎng)絡(luò)特征的學(xué)習(xí)能力,并在ResNet-50中加入了實(shí)例批處理標(biāo)準(zhǔn)化(IBN)方法用于對(duì)單個(gè)圖片的表征內(nèi)容學(xué)習(xí),適應(yīng)不同的識(shí)別環(huán)境。實(shí)驗(yàn)結(jié)果表明,該算法在測(cè)試集上的識(shí)別率高達(dá)98.7%,相較于常用手勢(shì)識(shí)別算法,有效性更高,魯棒性更好。
關(guān)鍵詞: 手勢(shì)識(shí)別; Faster R-CNN; ResNet-50; 實(shí)例批處理標(biāo)準(zhǔn)化
中圖分類(lèi)號(hào):TP391? ? ? ? ? 文獻(xiàn)標(biāo)志碼:A? ? ?文章編號(hào):1006-8228(2019)09-01-04
An improved Faster R-CNN hand gesture recognition algorithm based on ResNet-50
Xiong Caihua, Gong Yanli, Lian Hua, Hou Ruichen
(Faculty of Mechanical Engineering & Automation, Zhejiang Sci-Tech University, Hangzhou 310018, China)
Abstract: In order to solve the problem of the influence of the change of illumination intensity on the accuracy of gesture recognition in different recognition environment, an improved Faster R-CNN hand gesture recognition algorithm is proposed based on optimized ResNet-50 network in this paper. Compared with the ordinary Faster R-CNN algorithm, the proposed algorithm improved with ResNet-50 network improves the feature learning ability of the network. Furthermore, by using the IBN (instance batch standardization), the ResNet-50 is optimized for the learning of representational contents, and for different recognition environment. The experiment shows that the proposed algorithm achieves the recognition rate of 98.7% on test set, with higher effectiveness and robustness compared with state-of-the-art hand gesture recognition algorithms.
Key words: hand gesture recognition; Faster R-CNN; ResNet-50; IBN
0 引言
人機(jī)交互方式逐漸趨于簡(jiǎn)便化、智能化,讓基于計(jì)算機(jī)視覺(jué)的手勢(shì)識(shí)別的人機(jī)交互逐漸成為現(xiàn)實(shí)。手勢(shì)識(shí)別發(fā)展到現(xiàn)在,主要是基于傳統(tǒng)檢測(cè)識(shí)別算法和深度學(xué)習(xí)算法。傳統(tǒng)的檢測(cè)識(shí)別算法是利用人體手部區(qū)域的顏色特征來(lái)實(shí)現(xiàn),即YCbCr[1]、HSV[2]、YUV[3],以及其他人為選出的特征來(lái)進(jìn)行判別。這種識(shí)別算法容易受光照強(qiáng)度變化、肢體遮擋及其他復(fù)雜環(huán)境因素影響,所以魯棒性低。
基于深度學(xué)習(xí)的目標(biāo)檢測(cè)[4]是目前在圖像處理上較為流行的方法,深度學(xué)習(xí)主要是利用卷積神經(jīng)網(wǎng)絡(luò)[5]對(duì)大量圖像多次訓(xùn)練學(xué)習(xí),通過(guò)深層卷積自動(dòng)計(jì)算提取目標(biāo)圖像中的特征。深度學(xué)習(xí)相比于傳統(tǒng)的檢測(cè)識(shí)別算法具有識(shí)別速度快,精度高[6]的優(yōu)點(diǎn)。
目前用于目標(biāo)檢測(cè)的深度學(xué)習(xí)算法有Faster R-CNN[7]、SSD[8]等;Faster R-CNN使用區(qū)域建議網(wǎng)絡(luò)[9](Region Proposal Net-work,RPN)逐個(gè)檢測(cè)每一個(gè)對(duì)象,再綜合提取信息,最終對(duì)手勢(shì)所處的位置和類(lèi)別進(jìn)行確定。但是該方法仍然沒(méi)能克服光照強(qiáng)度變化和網(wǎng)絡(luò)深度不能加深的問(wèn)題。
手勢(shì)識(shí)別的研究工作主要是手勢(shì)的檢測(cè)和識(shí)別。本文的手勢(shì)識(shí)別算法是在Faster R-CNN基礎(chǔ)上使用殘差網(wǎng)絡(luò)ResNet-50來(lái)優(yōu)化網(wǎng)絡(luò)深度,加深特征學(xué)習(xí),將 IBN結(jié)構(gòu)用于深度卷積網(wǎng)絡(luò)實(shí)現(xiàn)對(duì)單個(gè)圖片表征(光照、顏色等)的多樣性學(xué)習(xí),克服因不同環(huán)境下光照強(qiáng)度變化產(chǎn)生的漏檢、錯(cuò)檢的問(wèn)題。
1 Faster R-CNN算法介紹
Faster R-CNN算法模型主要包含了以下三個(gè)部分:CNN共享卷積、RPN區(qū)域建議網(wǎng)絡(luò)和感興趣區(qū)域池化[10](Region of Interest Pooling,ROI池化)檢測(cè)網(wǎng)絡(luò)。
1.1 共享卷積
共享卷積CNN作為Fast R-CNN和RPN的前端網(wǎng)絡(luò),通過(guò)深度卷積計(jì)算來(lái)獲取輸入圖像的特征圖,通常使用ImageNet[11]數(shù)據(jù)集來(lái)多次訓(xùn)練和微調(diào)CNN網(wǎng)絡(luò)使其達(dá)到最優(yōu)。目前使用的主流網(wǎng)絡(luò)有VGG16[12]和ResNet[13]。
1.2 區(qū)域建議網(wǎng)絡(luò)
Faster R-CNN的分類(lèi)檢測(cè)是利用RPN在網(wǎng)絡(luò)的內(nèi)部計(jì)算,產(chǎn)生高質(zhì)量區(qū)域建議框,用于后續(xù)的處理分類(lèi)。
其中,包圍盒為([x,y,w,h]),候選框的中心坐標(biāo)、寬和高為([x1,y1,w1,h1])。則參考標(biāo)準(zhǔn)為GT (Ground-Truth):設(shè)標(biāo)記的矩形框G的真實(shí)中心坐標(biāo)、寬和高為([x*,y*,w*,h*]),預(yù)測(cè)候選區(qū)域坐標(biāo)向量[ ti],[t*i]是真實(shí)目標(biāo)框的坐標(biāo)向量.如式(1)、(2)。
[tx=x-x1w1;ty=y-y1w1;tw=log2ww1;th=log2hh1.]? ? ? ? ? (1)
[t*x=x*-x1w1;t*y=y*-y1h1;t*w=log2w*w1;t*h=log2h*h1.]? ? ? ? ?(2)
本文采用的損失函數(shù)是[Smooth L1]函數(shù):
[Smooth L1x0.5x2,x≤1x-0.5,otherwise]? ? (3)
1.3 感興趣池化網(wǎng)絡(luò)
Faster R-CNN算法是基于SPP-Net算法[14]改進(jìn)的,在此基礎(chǔ)上提出感興趣區(qū)域池,感興趣區(qū)域池化是SPP-Net的一個(gè)簡(jiǎn)化版本,因?yàn)橹贿x取了其中一層金字塔,也就是感興趣區(qū)域池化中只含有一種尺度,實(shí)驗(yàn)證明,加入ROI池化進(jìn)行圖像處理,使其運(yùn)算速度加快數(shù)十倍。
2 本文算法
2.1 殘差網(wǎng)絡(luò)
ResNet主要是利用殘差原理來(lái)實(shí)現(xiàn)網(wǎng)絡(luò)的加深,以此避免梯度的消失和爆炸問(wèn)題.本文采用殘差網(wǎng)絡(luò)來(lái)解決目前手勢(shì)識(shí)別網(wǎng)絡(luò)深度不能加深的問(wèn)題。
殘差網(wǎng)絡(luò)以高速路網(wǎng)絡(luò)的跨層鏈接思想為基礎(chǔ)對(duì)其改進(jìn):利用“shortcut connections(捷徑連接)”的方法,會(huì)把輸入[x]直接傳到輸出作為初始結(jié)果輸入到下方,輸出結(jié)果為:
[Hx=Fx+x]? ? ? ? ? ? ?(4)
當(dāng)[Fx=0]時(shí),則有[Hx=x],這就是前面所提到的恒等映射(identity)。在此基礎(chǔ)上,改變ResNet學(xué)習(xí)目標(biāo),不再是通過(guò)層層神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)完整的特征輸出,而是學(xué)習(xí)目標(biāo)值[H(x)]和x的差值,其殘差為:
[Fx=Hx-x]? ? ? ? ? ? ?(5)
本文采用的是ResNet-50網(wǎng)絡(luò)結(jié)構(gòu)。但仍然無(wú)法克服因光照強(qiáng)度變化造成的圖片色度變化而識(shí)別不準(zhǔn)確這一缺點(diǎn)。為克服此缺點(diǎn),本文對(duì)原有的ResNet-50進(jìn)行改進(jìn),在卷積層輸出后加入實(shí)例標(biāo)準(zhǔn)化[15](Instance Normalization,IN)和批量標(biāo)準(zhǔn)化(Batch Normalization,BN)作用。
2.2 IBN算法
在深度學(xué)習(xí)實(shí)驗(yàn)中常用的標(biāo)準(zhǔn)化方法為BN,主要用來(lái)提高特征層對(duì)圖像的敏感度,降低風(fēng)格類(lèi)變化的魯棒性,即對(duì)圖像色調(diào)變化,敏感變化的魯棒性,IN方法提高對(duì)風(fēng)格類(lèi)變化的魯棒性。在圖2、圖3中可以看到IN和BN共同作用于ResNet。這是因?yàn)樵贑NN層中,表征多樣性的學(xué)習(xí)往往在網(wǎng)絡(luò)淺層,而內(nèi)容特征的學(xué)習(xí)往往在模型深層,故據(jù)此提出如圖3的IBN結(jié)構(gòu)。在淺層中BN和IN同時(shí)使用,保證了表征的多樣性和內(nèi)容信息的學(xué)習(xí),最后經(jīng)過(guò)IN是為了保留深層網(wǎng)絡(luò)中圖像表征的識(shí)別信息。
從式(6)、式(7)中可以看出,BN是對(duì)同一個(gè)Batch作用,而IN是對(duì)單個(gè)圖像進(jìn)行作用,有效的保證了圖像表征的多樣性,其中BN函數(shù)為:
[ytijk=xtijk-μiσ2i+ε;μi=1HWTt=1Tl=1Wm=1Hxtilm;σ2i=1HWTt=1Tl=1Wm=1Hxtilm-mμi2.]? ?⑹
其中IN函數(shù)為:
[ytijk=xtijk-μiσ2i+ε;μi=1HWt=1Tl=1Wm=1Hxtilm;σ2i=1HWl=1Wm=1H(xtilm-mμti)2.]? ?⑺
式中的T為Batch的數(shù)量,[xtijk]表示第 tijk個(gè)元素,k和j是跨空間維度,i是特征通道(如果為RGB圖像就是顏色通道)t是圖像在Batch中的索引,W表示輸入特征圖的寬,H為輸入特定的通道數(shù),其中[μi]為均值,[σ2i]為平方差。
3 實(shí)驗(yàn)分析
實(shí)驗(yàn)的訓(xùn)練樣本來(lái)自于NUS Hand Posture,對(duì)數(shù)據(jù)集用LabelImg進(jìn)行標(biāo)定,選取訓(xùn)練集手勢(shì)為2512個(gè),測(cè)試集手勢(shì)為528個(gè),并進(jìn)行遷移學(xué)習(xí)。
表1可以得到,在測(cè)試集上的識(shí)別率,ResNet-50和ResNet-101性能不相上下,但考慮到ResNet-101在識(shí)別率沒(méi)有較大提高的前提下,耗時(shí)卻多出45%,由此選擇ResNet-50作為基礎(chǔ)網(wǎng)絡(luò)。
由圖3、圖4、表2可以看出,本文算法無(wú)論是在訓(xùn)練時(shí)Loss收斂的速度還是在識(shí)別率上,都超過(guò)了SSD和Faster R-CNN模型,并且本文算法的召回率提升了3.8%,平均識(shí)別率提升了2%達(dá)到98.7%,檢測(cè)耗時(shí)上幾乎沒(méi)有變化。
實(shí)驗(yàn)中用不同光照強(qiáng)度進(jìn)行測(cè)試,在 ResNet-50網(wǎng)絡(luò)下,利用背后窗簾打開(kāi)大小來(lái)控制光照強(qiáng)度,實(shí)驗(yàn)中處于光線(xiàn)比較均勻的條件下所得到的手勢(shì)照片較為清晰,都實(shí)時(shí)地識(shí)別出常用的10種手勢(shì)。當(dāng)在光照不均勻或者光照較為強(qiáng)烈的環(huán)境下,手勢(shì)的識(shí)別效率會(huì)降低。當(dāng)采用傳統(tǒng)的Faster R-CNN識(shí)別檢測(cè),可以看見(jiàn)如圖6中(a)、(b)所示,對(duì)少數(shù)手勢(shì)會(huì)出現(xiàn)漏識(shí),錯(cuò)識(shí)。在Faster R-CNN加入了IBN后手勢(shì)識(shí)別檢測(cè)的正確率有所提高,如圖6(a)所示。
4 結(jié)論
本文在Faster R-CNN算法基礎(chǔ)上進(jìn)行改進(jìn),采用ResNet-50的殘差網(wǎng)絡(luò)作為基礎(chǔ)網(wǎng)絡(luò),并在網(wǎng)絡(luò)的結(jié)構(gòu)上進(jìn)行改進(jìn),加入了IBN算法提高網(wǎng)絡(luò)對(duì)單個(gè)圖像表征內(nèi)容的學(xué)習(xí),對(duì)圖像全局信息做了一次整合和調(diào)整。實(shí)驗(yàn)結(jié)果表明所提出的算法可以有效的克服了光照強(qiáng)度變化對(duì)手勢(shì)識(shí)別的影響,平均識(shí)別率高達(dá)98.7%,提高了檢測(cè)效果,增加算法的魯棒性。目前的識(shí)別環(huán)境只能在室內(nèi),限制了手勢(shì)識(shí)別的廣泛使用,但是本文所提出的算法加快了以手勢(shì)識(shí)別為基礎(chǔ)的人機(jī)交互模式的發(fā)展進(jìn)程。
參考文獻(xiàn)(References):
[1] Cao X Y,Zhao J Y,Li M.Monocular vision gesture segmentation based on skin color and motion detection[J]. Hunan Daxue Xuebao/Journal of Hunan University Natural Sciences,2011.38(1):78-83
[2] 周海鵬,王芳,田建艷.基于HSV顏色特征的多目標(biāo)視頻檢測(cè)與跟蹤算法[J].科學(xué)技術(shù)與工程,2017.17(20):189-193
[3] Al-Tairi Z H,Rahmat R W,Saripan M I,et al.Skin segmentation using YUV and RGB color spaces[J]. Journal of Information Processing Systems,2014.10(2):283-299
[4] 李雷明.視頻監(jiān)控中運(yùn)動(dòng)物體的檢測(cè)與跟蹤的研究與實(shí)現(xiàn)[D].南京航空航天大學(xué),2008.
[5] 汪濟(jì)民,陸建峰.基于卷積神經(jīng)網(wǎng)絡(luò)的人臉性別識(shí)別[J].現(xiàn)代電子術(shù),2015.29(7):89-92
[6] Krizhevsky A,Sutskever I,Hinton G E.ImageNet classification with deep convolutional neural networks[C]// International Conference on Neural Information Processing Systems,2012.
[7] Clapés A,Reyes M,Escalera S.Multi-modal user identification and object recognition surveillance system[J]. Pattern Recognition Letters,2013.34(7):799-808
[8] W Liu,et al.SSD: Single Shot MultiBox Detector[J].arXiv preprint arXiv:1512.02325,2015.
[9] Ren S,He K,Girshick R,et al.Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks[J].IEEE Transactions on Pattern Analysis & Machine Intelligence,2017.39(6):1137-1149
[10] Girshick R.FAST R-CNN[C]//IEEE Int Conference on Computer Vision. Santiago,Chile,2015:1440-1448
[11] Russakovsky O,Deng J,Su H,et al. Imagenetlarge scale visual recognition challenge[J].International Journal of Computer Vision,2015.115(3):211-252
[12] Redmon J,Divvala S,Girshick R,et al.You only look once: Unified, real-time object detection[C]//Proceedings of the IEEE conference on computer vision and pattern recognition.2016:779-788
[13] K He,et al.Deep residual learning for image recognition[J].arXiv preprint arXiv:1512.03385,2015.
[14] 高大鵬,朱建剛.多維度自適應(yīng)3D卷積神經(jīng)網(wǎng)絡(luò)原子行為識(shí)別[J]. 計(jì)算機(jī)工程與應(yīng)用,2018.4:174-178
[15] Vedaldi VLDUA. Instance Normalization: The Missing Ingredient for Fast Stylization[J]. arXiv preprint arXiv: 1607.08022, 2016.