袁榮尚 羅曉曙
摘要:為了解決目前利用CNN算法進(jìn)行手勢識別的精度不高的問題,提出一種新的算法。首先對識別的手勢圖片進(jìn)行二值化處理,濾除手勢的背景,凸顯手勢在圖像中的權(quán)重,背景對手勢識別影響降低。其次,在經(jīng)典卷積神經(jīng)網(wǎng)絡(luò)模型AlexNet的基礎(chǔ)上,提出一種多尺度卷積核的改進(jìn)卷積神經(jīng)網(wǎng)絡(luò)模型。改進(jìn)卷積神經(jīng)網(wǎng)絡(luò)模型采取兩種卷積核進(jìn)行手勢特征提取,利用多尺度卷積核和雙通道進(jìn)行特征融合,然后利用在不同角度,不同旋轉(zhuǎn)下拍攝的手勢圖像數(shù)據(jù)集對改選模型進(jìn)行實驗驗證。研究結(jié)果表明,提出的算法模型在不同的角度和不同的旋轉(zhuǎn)情況下對手勢圖像具有較高的識別率,算法的魯棒性、識別率方面有了明顯的提高。
關(guān)鍵詞:卷積神經(jīng)網(wǎng)絡(luò);卷積核;深度學(xué)習(xí);特征提取;手勢識別;二值化
中圖分類號:TN915-34;TP391.4
文獻(xiàn)標(biāo)識碼:A
文章編號:1004-373X(2019)24-0150-04
0 引言
近年來手勢識別成為一個重要的研究方向。目前,傳統(tǒng)的靜態(tài)手勢識別算法關(guān)鍵在于對手勢特征的提取,現(xiàn)在研究手勢的主要方法有模板匹配,楊麗等人提取的手勢分割,呂蕾等人提出數(shù)據(jù)手套方法,提高了手勢識別的識別率,但是手勢類別增加情況下識別率降低[1-3]。但是上述算法識別較為復(fù)雜,人工定義特征需要大量的經(jīng)驗,而且計算難度較大,借助外在硬件設(shè)備,操作難度較大。微軟開發(fā)的kinect可以提取手勢的深度信息,進(jìn)而進(jìn)行識別。在研究者的努力下手勢識別算法不斷突破,深度學(xué)習(xí)的出現(xiàn)在手勢識別領(lǐng)域有了一個突破性的進(jìn)展。其中卷積神經(jīng)網(wǎng)絡(luò)模型在圖像識別上具有較大的優(yōu)勢,把整張圖片作為輸入,不需要人工定義的選擇特征,采用卷積核進(jìn)行局部特征提取,在全連接層將局部的特征進(jìn)行融合,及有監(jiān)督的訓(xùn)練,從而使手勢識別變得更加簡單。缺點是,相對于傳統(tǒng)的算法,卷積神經(jīng)網(wǎng)絡(luò)需要更多的手勢數(shù)據(jù)集,采集大量手勢數(shù)據(jù)集的難度比較大。針對現(xiàn)有手勢數(shù)據(jù)集數(shù)量較少的問題,所以采用的數(shù)據(jù)集是自己在不同的光照環(huán)境,不同的傾斜程度下拍攝的,數(shù)據(jù)集數(shù)量為29 321張。
1 圖像的二值化原理和卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)與原理
圖像的二值化[4]就是將圖像處理成有明顯的黑白效果,通過選取適當(dāng)?shù)拈撝?,獲取可以代表圖像整體特征的二值化圖像,當(dāng)圖像上的像素點大于設(shè)定閾值時判定屬于有效物體,否則就是無效。使整個圖片變得簡單明了,但是可以代表圖像整體特征。采用最大類間方差法,其閾值確定標(biāo)準(zhǔn)公式如下:
卷積神經(jīng)網(wǎng)絡(luò)[5]是從BP神經(jīng)網(wǎng)絡(luò)發(fā)展而來,卷積神經(jīng)網(wǎng)絡(luò)主要由卷積層、池化層、全連接層組成,具體功能描述如下:
卷積層是卷積神經(jīng)網(wǎng)絡(luò)的重要組成部分,卷積層利用卷積核對圖像進(jìn)行特征提取,采取局部連接的方式,將圖像特征分步提取,其參數(shù)共享機制大大減少了整個模型的參數(shù)量,使整個卷積神經(jīng)網(wǎng)絡(luò)模型的計算量減少。卷積的公式可以表示為:
池化層[6]的池化的方式主要有平均池化和最大池化,它提取特征圖中比較重要的特征,降低特征圖像的維度,同時使輸出對位移和形變的敏感度降低,可以有效地防止過擬合。全連接層是將卷積神經(jīng)網(wǎng)絡(luò)的局部特征進(jìn)行融合,圖像的局部特征關(guān)聯(lián)比較密切,而距離較遠(yuǎn)的關(guān)聯(lián)程度較低。卷積神經(jīng)網(wǎng)絡(luò)模型先感知局部特征,然后通過全連接層將局部的特征進(jìn)行融合[7],全連接層公式為:
2 改進(jìn)的AlexNet卷積神經(jīng)網(wǎng)絡(luò)模型
在卷積神經(jīng)網(wǎng)絡(luò)模型中,第一層卷積會對輸入的圖像進(jìn)行特征提取,所以第一層卷積在整個卷積神經(jīng)網(wǎng)絡(luò)中的地位非常的重要。如果第一層的卷積對圖像的特征提取不夠充分,則整個卷積神經(jīng)網(wǎng)絡(luò)模型沒有充分的特征輸入,不利于整個模型對圖像特征的深度提取和融合。
卷積核的大小在卷積神經(jīng)網(wǎng)絡(luò)模型提取圖像特征和對特征進(jìn)行融合時起到了非常重要的作用。卷積核太小對圖像特征的提取能力降低,卷積核太大提取圖像特征時會忽略細(xì)小的特征。所以在后續(xù)的卷積層中卷積核采取不同尺寸,AlexNet模型共有5個卷積層,采取單通道的方式進(jìn)行特征融合,本改進(jìn)模型采取雙通道,每一層的卷積核為5*5和3*3,并且每個卷積層在卷積后進(jìn)行級聯(lián),將級聯(lián)后的特征圖作為下一層卷積的輸入,為下層的卷積層提供更加豐富的特征信息,表1給出了改進(jìn)前后模型的詳細(xì)信息。
3 實驗結(jié)果與分析
為了驗證所提算法在手勢識別應(yīng)用上的效果,本文首先建立了手勢圖像數(shù)據(jù)集,然后用該數(shù)據(jù)集進(jìn)行手勢識別實驗驗證。實驗條件是:Ubuntu16.04操作系統(tǒng),caffe框架,CPU為i7-6700K,GPU為NVIDIA-GTX 1070。solver文件設(shè)置:初始學(xué)習(xí)率設(shè)置為0.001,momentum設(shè)置為0.9,weight_decay設(shè)置為0.004,gamma設(shè)置為0.1,stepvalue設(shè)置為24 000,最大迭代次數(shù)設(shè)置為30 000。測試時batch_size設(shè)置為50,dropout_ratio設(shè)置為0.5。在訓(xùn)練時學(xué)習(xí)率的策略設(shè)置為multistep。
本文建立的數(shù)據(jù)集有21 606張訓(xùn)練圖片,7 715張測試圖片,共分為10類,每一類手勢訓(xùn)練圖片大約2 000張,測試圖片大約700張,手勢代表10種含義。圖片大小為227x227,對手勢圖像進(jìn)行自適應(yīng)的二值化處理,圖1是10種手勢的原始圖像,圖2是對原始圖像的二值化處理。
為了驗證本算法在手勢識別上的應(yīng)用效果,本文設(shè)計了3組實驗,比較結(jié)果如表2~表4所示。
從表2可以看出,手勢圖像二值化后AlexNet模型的識別率有了明顯的提升;從表3可以看出,改進(jìn)的AlexNet模型可以提取更多的圖像特征。對圖像進(jìn)行二值化處理以后,避免了背景對手勢的干擾。改進(jìn)的網(wǎng)絡(luò)可以更加精細(xì)地提取手勢特征,從而避免對背景特征的提取,充分發(fā)揮改進(jìn)模型的網(wǎng)絡(luò)優(yōu)勢。因為對手勢圖片進(jìn)行了處理,所以改進(jìn)模型有了更加準(zhǔn)確的手勢信息獲取,圖像信息能進(jìn)行更多層次的融合,所以在手勢數(shù)據(jù)集上具有更高的識別率,識別率提高約10.5%。
由表4列出的實驗結(jié)果可知,本文提出的改進(jìn)算法的識別率達(dá)到96.64%,比其他算法識別率要高,且本文算法具有較強的魯棒性,當(dāng)手勢的旋轉(zhuǎn)角度不同,光照情況不同時,對算法性能沒有影響。手勢圖像的識別時間有一定的差距。
4 結(jié)語
本文算法首先對圖片進(jìn)行預(yù)處理,然后利用提出的卷積神經(jīng)網(wǎng)絡(luò)模型進(jìn)行手勢識別。該模型采取兩個尺度的卷積核對圖像進(jìn)行特征提取,使模型的特征輸入更加豐富,采取兩個尺度的卷積核進(jìn)行特征融合,并且采取級聯(lián)的方式,為下一層的卷積提供更加豐富的信息。通過實驗驗證,改進(jìn)型的模型具有較高的手勢識別率;所提算法的識別時間相比于其他算法要長,是犧牲部分識別時間來換取識別率的上升,但是應(yīng)用于實際生活中的手勢識別還是可以達(dá)到要求的。
注:本文通訊作者為羅曉曙。
參考文獻(xiàn)
[1]楊麗,胡桂明,黃東芳,等,結(jié)合膚色分割和ELM算法的靜態(tài)手勢識別[J].廣西大學(xué)學(xué)報(自然科學(xué)版),2015(2):444-450.
YANG Li. HU Guiming, HUANG Dongfang, et al.Static ges-ture recognition combined with skin color segmentation andELM algorithm [J]. Journal of Guangxi University (Natural sci-ence edition), 2015(2): 444-450.
[2]呂蕾,張金玲,朱英杰,等,一種基于數(shù)據(jù)手套的靜態(tài)手勢識別方法[J]計算機輔助設(shè)計與圖形學(xué)學(xué)報,2015( 12):2410-2418.
LU Lei. ZHANG Jinling, ZHU Yingjie, et al.A static gesturerecognition method based on data glove [J]. Journal of computeraided design and graphics, 2015(12): 2410-2418.
[3]鄧瑞,周玲玲,應(yīng)忍冬.基于Kinect深度信息的手勢提取與識別研究[J],計算機應(yīng)用研究,2013,30(4):1263-1265.
DENG Rui, ZHOU Lingling, YING Rendong. Gesture extrac-tion and recognition based on Kinect depth information [J].Computer applied research. 2013, 30(4): 1263-1265.
[4]張東波,陳治強,易良玲,等.圖像微觀結(jié)構(gòu)的二值化表示與目標(biāo)識別應(yīng)用[J]電子與信息學(xué)報,2018,40(3):633-640.
ZHANG Dongbo, CHEN Zhiqiang, YI Liangling, et al.Bina-rization representation of image microstructure and the applica-tion of object recognition [J]. Journal of electronics and informa-tion, 2018, 40(3) : 633-640.
[5] HUANG W. LENG J, DENG Z. CSF images fast recognitionmodel based on improved convolutional neural networks [Cl//International Conference on Automation, Mechanical Controland Computational Engineering. Ji'nan : [s.n.]: 2015 : 37-42.
[6] ZHANG Y Y, ZHAO D. SUN J D. et al. Adaptive convolution-al neural network and its application in face recognition [J].Neural processing letters . 2016. 43 ( 2) : 389-399.
[7] LU F, WU F, HU P. et al. Automatic 3D liver location andsegmentation via convolutional neural network and graph cut[J]. International journal of computer assisted radiology and sur-gery , 2017 . 12( 2) : 171-182.
[8] WANG Z, OATES T. Encoding time series as images for visualinspection and classification using tiled convolutional neuralnetworks [C]// Proceeding of 29th AAAI Conference on Artifi-cial Intelligence. Austin : AAAI. 2015: 1471-1475.
[9] VARKONYI K A R. TUSOR B. Human-computer interactionfor smart environment application using fuzzy hand posture andgesture models [Jl IEEE transactions on instrumentation andmeasurement . 201 l , 60( 5 ) : 1505-1514.
[10] YUN L, PENG Z. An aution hand gesture recognition systembased on vio-jones method and SVMs [C]// Proceedings of In-ternational Workshop on Computer Science and Engineering.Piscataway: IEEE. 2009: 72-76.
[11] QING C, GEORGANAS N D. PETRIU E M. Real-time vision-based hand gesture recognition using haar-like features[C]//Proceedings of IEEE International Conference on Instrumenta-tion and Measurement Technology. Piscataway : IEEE, 2007 :1-6.
[12] SATO Y. SATIO M. KOIKE H. Real-time input of 3D poseand gestures of a user' s hand and its applications for HCI[Cl// Proceedings of Virtual Reality Annual Internationl SVm-poisium. Piscataway : IEEE, 2001 : 79-86.
作者簡介:袁榮尚(1993-),男,山東棗莊人,碩士,研究領(lǐng)域為圖像處理、深度學(xué)習(xí)。
羅曉曙(1961-),男,湖北孝感人,博士,教授,研究領(lǐng)域為圖像處理、深度學(xué)習(xí)。