陳忠輝 王等準(zhǔn) 萬廣 方洪波 黃以衛(wèi) 謝本亮
摘 要: 在手勢(shì)識(shí)別的過程中,手勢(shì)的多樣性和復(fù)雜性會(huì)對(duì)識(shí)別的可靠性和準(zhǔn)確性帶來較大影響?;谝曈X的手勢(shì)識(shí)別通常采取單一特征用于手勢(shì)分類,但是單一特征無法較好地描述整個(gè)圖像。因此本文提出多種特征融合的方法,分別提取改進(jìn)后的梯度方向直方圖(HOG)特征和MB-LBP特征,并進(jìn)行特征融合,結(jié)合支持向量機(jī)(SVM)分類器完成手勢(shì)圖像的識(shí)別。實(shí)驗(yàn)結(jié)果表明,提取的融合特征包含手勢(shì)圖像的局部區(qū)域梯度信息和圖像的紋理信息,可以更加全面地描述圖像的手勢(shì)特征。相較于單一特征識(shí)別方法而言,基于特征融合的方法有著更高的識(shí)別率。
關(guān)鍵詞: 手勢(shì)識(shí)別; MB-LBP; 改進(jìn)HOG特征
文章編號(hào): 2095-2163(2021)07-0212-05中圖分類號(hào):TP391.4文獻(xiàn)標(biāo)志碼: A
Gesture recognition based on feature fusion
CHEN Zhonghui1, WANG Dengzhun1, WAN Guang1, FANG Hongbo1, HUANG Yiwei2, XIE Benliang1
(1 College of Big Data and Information Engineering, Guizhou University, Guiyang 550025, China;
2 West China? Modernization Research Center, Guizhou University of Finance and Economics, Guiyang 550025, China)
【Abstract】In the process of gesture recognition, the diversity and complexity of gestures will have a greater impact on the reliability and accuracy of recognition. Vision-based gesture recognition usually adopts a single feature for gesture classification, but a single feature cannot describe the entire image well. Therefore, this paper proposes a variety of feature fusion methods, respectively extracting the improved histogram of gradient (HOG) features and MB-LBP features, and performing feature fusion, combined with SVM classifier to complete the recognition of gesture images. Experimental results show that the extracted fusion features include the local area gradient information of the gesture image and the texture information of the image, which can describe the gesture features of the image more comprehensively. Compared with the single feature recognition method, the method based on feature fusion has a higher recognition rate.
【Key words】gesture recognition; MB-LBP; improved HOG features
0 引 言
手勢(shì)是一種十分重要的溝通交流方式,若能對(duì)手勢(shì)進(jìn)行成功識(shí)別就必將為人類與機(jī)器、設(shè)備和計(jì)算機(jī)的交互開創(chuàng)出嶄新局面。隨著計(jì)算機(jī)技術(shù)、尤其是增強(qiáng)現(xiàn)實(shí)[1],輔助駕駛[2]等技術(shù)的飛速發(fā)展,通過手勢(shì)識(shí)別進(jìn)行人機(jī)交互[3]的需求越來越廣泛。手勢(shì)識(shí)別已然成為當(dāng)前的熱點(diǎn)研究方向之一,因此手勢(shì)識(shí)別技術(shù)的研究具有十分重要的現(xiàn)實(shí)意義。
研究可知,基于視覺的手勢(shì)識(shí)別包括著3個(gè)基本步驟:手勢(shì)分割[4]、手勢(shì)特征提取[4]、手勢(shì)識(shí)別[5]。其中,特征提取對(duì)手勢(shì)識(shí)別的準(zhǔn)確率有著至關(guān)重要的作用。當(dāng)前,常見的手勢(shì)特征通常包括了形狀特征和紋理特征。具體來說,形狀特征主要有:梯度直方圖[6](HOG)和Haar-like[7]特征;紋理特征有局部二值圖[8](LBP)和Gabor[9]特征。這些特征均已被應(yīng)用于基于視覺的手勢(shì)識(shí)別中。
翁漢良等人[10]將指尖個(gè)數(shù)和方向作為手勢(shì)特征,結(jié)合輪廓長(zhǎng)度和面積等幾何特征完成手勢(shì)識(shí)別。楊學(xué)文等人[11]根據(jù)手勢(shì)主方向建立二維手勢(shì)直角坐標(biāo)系勢(shì)特征,利用空間手勢(shì)坐標(biāo)點(diǎn)分布特征方法對(duì)手勢(shì)進(jìn)行初步識(shí)別,再利用類-Hausdorff距離模板[12]匹配的思想識(shí)別最終的手勢(shì)。肖宇[13]采用方向梯度直方圖(HOG)來獲得手勢(shì)特征,然后使用隨機(jī)森林作為分類器實(shí)現(xiàn)對(duì)手勢(shì)的識(shí)別。盧夢(mèng)圓等人[14]分別提取手勢(shì)圖像的梯度方向直方圖(HOG)和局部二值模式(LBP)兩種特征,并進(jìn)行特征融合,結(jié)合支持向量機(jī)算法完成手勢(shì)識(shí)別。趙倩楠等人[15]采用串行融合方法將手勢(shì)指尖特征和手部HOG特征相結(jié)合,并采用支持向量機(jī)(SVM)[16]作為分類器,獲得了較高的識(shí)別準(zhǔn)確率。
由于單一特征描述手勢(shì)圖像信息存在局限性,本文提出一種基于特征融合的手勢(shì)識(shí)別方法。對(duì)預(yù)處理后的手勢(shì)圖像分別提取改進(jìn)后的梯度方向直方圖(HOG)特征和MB-LBP[17]特征并進(jìn)行特征融合,基于SVM分類器完成手勢(shì)圖像的識(shí)別。實(shí)驗(yàn)結(jié)果表明,相較于單一特征識(shí)別,本文算法對(duì)手勢(shì)圖像有著更高的識(shí)別準(zhǔn)確率。
1 特征融合的手勢(shì)識(shí)別
1.1 算法流程
基于特征融合的手勢(shì)識(shí)別步驟可表述為:對(duì)采集的手勢(shì)圖像進(jìn)行預(yù)處理操作,歸一化尺寸并去除背景區(qū)域?qū)Ψ诸惤Y(jié)果的影響;分別提取手勢(shì)圖像的改進(jìn)后的HOG特征和MB-LBP特征并進(jìn)行特征融合;結(jié)合支持向量機(jī)(SVM)分類器進(jìn)行分類和識(shí)別。算法流程如圖1所示。
1.2 圖像預(yù)處理
圖像預(yù)處理是圖像識(shí)別中的重要過程。經(jīng)過預(yù)處理后的圖像質(zhì)量會(huì)得到很大提高,從而得到更好的分類效果。本文對(duì)手勢(shì)圖像預(yù)處理過程如圖2所示。
步驟1 為提高圖像特征提取、訓(xùn)練和預(yù)測(cè)速度,將圖像尺寸設(shè)置為128像素×128像素,并將圖像由彩色RGB格式轉(zhuǎn)換為HSV格式圖像,部分手勢(shì)的RGB圖像如圖2(a)所示。
步驟2 為去除背景區(qū)域?qū)κ謩?shì)圖像識(shí)別的影響,利用HSV顏色直方圖(見圖2(b))將手勢(shì)區(qū)域與背景區(qū)域進(jìn)行分割,分割閾值為:
若手勢(shì)圖像某點(diǎn)像素的像素值處于閾值之內(nèi),則將其像素值設(shè)為0,否則將其設(shè)為255。由此可以獲取背景區(qū)域已去除的二進(jìn)制圖像。將二值圖像用作掩模,并對(duì)灰度圖像進(jìn)行形態(tài)“與”運(yùn)算,得到去除背景區(qū)域的手勢(shì)圖像如圖2(c)所示。經(jīng)過圖像預(yù)處理后,手勢(shì)圖像去除了背景區(qū)域,同時(shí)保留了手勢(shì)的外觀和形狀等信息,避免識(shí)別結(jié)果受手勢(shì)變形的影響。
1.3 改進(jìn)梯度特征提取
HOG是一種描述圖像本身梯度方向的特征,其主要思想是通過計(jì)算圖像局部區(qū)域的梯度直方圖來表示圖像局部的紋理信息和形狀大小。當(dāng)圖像是用頻域表示時(shí),低頻區(qū)域表示圖像的能量,中頻區(qū)域表示圖像的紋理細(xì)節(jié),高頻區(qū)域表示圖像的邊緣和噪聲。傳統(tǒng)HOG特征提取算法使用Sobel算子提取圖像水平和垂直方向梯度信息。Sobel算子使用整數(shù)階微分可以完成圖像高頻邊緣區(qū)域檢測(cè),但同時(shí)也會(huì)造成中頻區(qū)域信息模糊化,增加圖像噪聲強(qiáng)度。相較于傳統(tǒng)整數(shù)階微分的邊緣檢測(cè)算子,分?jǐn)?shù)階微分[18]的邊緣檢測(cè)算子檢測(cè)圖像高頻邊緣區(qū)域同時(shí)可保留圖像中頻信號(hào),達(dá)到增強(qiáng)圖像紋理信息的目的,使提取的特征信息更加豐富。
由傳統(tǒng)整數(shù)階微分運(yùn)算法則,推導(dǎo)出一元函數(shù)分?jǐn)?shù)階微分差分表達(dá)式為:
其中,a∈(0,1)表示微分步長(zhǎng);? t為分?jǐn)?shù)階微分上限;Γ(n)為Gamma函數(shù)。
由于圖像是二維空間,所以一元函數(shù)分?jǐn)?shù)階微分差分表達(dá)式推廣到二維空間,得到二維分?jǐn)?shù)階微分在水平和垂直方向上差分表達(dá)式分別為:
根據(jù)式(2)、式(3),可以在x,y方向上構(gòu)造的分?jǐn)?shù)階微分算子分別為:[[SX(]a2-a[]2[SX)],-a,1], 「[SX(]a2-a[]2[SX)],-a,1T。其中,a∈(0,1)表示微分變量,a<0時(shí)表示積分,a>0時(shí)表示微分,a=0時(shí)既不是積分、也不是微分。改進(jìn)的HOG特征值的提取方法主要是把分?jǐn)?shù)階微分應(yīng)用到邊緣檢測(cè)算子中,通過梯度優(yōu)化算子獲取更多特征信息。改進(jìn)后的HOG特征提取包括以下步驟:
(1)采用分?jǐn)?shù)階微分算子提取圖像在水平方向和垂直方向上的梯度。
(2)將梯度方向等間隔量化到k個(gè)區(qū)間,并將圖像均勻劃分為m×m個(gè)元胞。統(tǒng)計(jì)每個(gè)元胞內(nèi)k個(gè)方向的投影,生成梯度方向直方圖。本文設(shè)置k=9,像素的梯度方向?yàn)?°,20°,特征向量為9維。
(3)把相鄰2×2元胞單元組合成一個(gè)區(qū)域塊(block),區(qū)域塊內(nèi)歸一化梯度直方圖。
(4)串聯(lián)區(qū)域塊內(nèi)(block)獲取的梯度直方圖特征,得到改進(jìn)后的HOG特征向量。
1.4 MB-LBP特征提取
LBP特征是一種用來描述圖像局部紋理特征的算子,傳統(tǒng)LBP算子采取的是將中心點(diǎn)像素與領(lǐng)域采樣的像素值進(jìn)行比較,這是將單個(gè)像素與單個(gè)像素之間做出比較,因此LBP對(duì)噪聲較為敏感。且當(dāng)拍攝時(shí)不夠明亮、亮度不夠均勻,圖像傳感器長(zhǎng)期工作,溫度過高等因素都會(huì)導(dǎo)致圖像富含噪聲,此時(shí)LBP特征存在明顯不足。為提高特征描述子的抗噪能力,采用對(duì)噪聲不敏感的MB-LBP提取手勢(shì)圖像的紋理特征。
傳統(tǒng)LBP和MB-LBP的特征提取原理如圖3所示。圖3(a)為傳統(tǒng)LBP特征提取編碼圖,圖3(b)為MB-LBP特征提取編碼圖。MB-LBP特征提取尺寸為3×3個(gè)塊(block),每個(gè)塊中含有3×3個(gè)像素,每塊取對(duì)應(yīng)3×3區(qū)域塊內(nèi)像素平均值。假設(shè)MB-LBP特征提取的第一個(gè)區(qū)域塊正好對(duì)應(yīng)LBP特征提取的3×3區(qū)域塊。由圖3可以看出,當(dāng)LBP特征提取的區(qū)域塊內(nèi)某些像素點(diǎn)受噪聲影響像素值發(fā)生改變時(shí),LBP特征提取編碼發(fā)生改變,但MB-LBP特征提取編碼沒有受到噪聲影響。且當(dāng)MB-LBP的區(qū)域塊取值為1×1時(shí),MB-LBP相當(dāng)于傳統(tǒng)非統(tǒng)一模式的LBP。因此MB-LBP不僅關(guān)注單個(gè)像素點(diǎn),而且關(guān)注塊與塊之間的像素。
將預(yù)處理后的手勢(shì)圖像進(jìn)行MB-LBP特征提取,將獲得的MB-LBP特征圖分為互不重疊的L×L個(gè)區(qū)域塊(block),計(jì)算每個(gè)區(qū)域塊(block)的直方圖并串聯(lián)成一個(gè)直方圖特征。該直方圖特征向量即為手勢(shì)圖像的紋理特征向量。
將預(yù)處理后的手勢(shì)圖像進(jìn)行基于分?jǐn)?shù)階微分的HOG特征和MB-LBP紋理特征提取,采用簡(jiǎn)單的串聯(lián)連接對(duì)2種特征進(jìn)行融合,將獲得的2種特征聯(lián)合作為手勢(shì)圖像融合特征。
1.5 分類器建立
支持向量機(jī)(SVM)是一種基于結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則的分類方法,在解決小樣本、非線性的數(shù)據(jù)及高維數(shù)據(jù)方面有著顯著優(yōu)勢(shì)。因此,研究中采用支持向量機(jī)算法(SVM)作為本文分類算法。選取穩(wěn)定性和準(zhǔn)確性均較好的Liner核函數(shù)作為SVM核函數(shù)。采用網(wǎng)格搜索法對(duì)模型參數(shù)進(jìn)行尋優(yōu),確定SVM的懲罰因子C=1。
2 實(shí)驗(yàn)結(jié)果與分析
2.1 實(shí)驗(yàn)環(huán)境
實(shí)驗(yàn)計(jì)算機(jī)配置信息是Intel core CPU i5-7500處理器,8 GB 內(nèi)存,NIVDIA GTX1060顯卡,操作系統(tǒng)為Win7。為了減少實(shí)驗(yàn)誤差,本文對(duì)比的算法識(shí)別率為10次實(shí)驗(yàn)下的平均識(shí)別率avr,具體為:
其中,Pi代表第i次實(shí)驗(yàn)正確預(yù)測(cè)樣本數(shù),S為預(yù)測(cè)樣本總數(shù)。
采用百度AI Studio手勢(shì)數(shù)據(jù)集進(jìn)行訓(xùn)練與測(cè)試,該數(shù)據(jù)集中手勢(shì)分為10類、共計(jì)2 602張手勢(shì)圖像,對(duì)應(yīng)數(shù)字0~9,部分手勢(shì)圖像如圖4所示。采用分層采樣方法,并按7∶3比例劃分訓(xùn)練集和測(cè)試集。
2.2 實(shí)驗(yàn)參數(shù)
2.2.1 微分變量大小選擇
微分變量的大小選擇對(duì)改進(jìn)后的HOG特征提取和手勢(shì)圖像識(shí)別準(zhǔn)確率有著較大影響。不同微分變量下識(shí)別率如圖5所示。圖5中,識(shí)別率均為不同塊尺寸和分塊方式下最優(yōu)識(shí)別率。從圖5可以看出,當(dāng)微分大小為0.5時(shí)可以取得較好的實(shí)驗(yàn)結(jié)果。
2.2.2 塊的尺寸選擇和分塊方式
MB-LBP塊的尺寸選擇和MB-LBP特征圖分塊方式對(duì)手勢(shì)圖像的紋理特征有較大影響。MB-LBP塊的尺寸和分塊方式與識(shí)別率關(guān)系的仿真結(jié)果如圖6所示。由圖6可以看出當(dāng)MB-LBP特征圖分塊數(shù)目確定時(shí),不同尺寸塊的MB-LBP下的識(shí)別率不同。根據(jù)圖6可得,本文MB-LBP塊的尺寸設(shè)置為2×2,分塊數(shù)目設(shè)置為4×4。
2.3 識(shí)別結(jié)果與分析
為驗(yàn)證本文算法對(duì)手勢(shì)圖像的識(shí)別性能,將本文算法與單一特征的HOG特征匹配算法、LBP特征匹配算法的分類準(zhǔn)確率進(jìn)行比較,不同算法的識(shí)別結(jié)果如圖7所示。10種手勢(shì)平均識(shí)別準(zhǔn)確率見表1。
由表1分析可知,使用單一特征的HOG特征匹配算法和LBP特征匹配算法的識(shí)別準(zhǔn)確率分別為86.59%和82.88%相對(duì)較低,且HOG特征匹配算法識(shí)別率高于LBP特征匹配算法識(shí)別率。相較于使用單一特征的HOG特征匹配和LBP特征匹配算法,本文算法在識(shí)別準(zhǔn)確率上分別提高5.66%和9.37%,達(dá)到92.25%,滿足工業(yè)應(yīng)用對(duì)手勢(shì)圖像識(shí)別率的要求。
3 結(jié)束語
針對(duì)單一特征描述手勢(shì)圖像存在局限性問題,提出一種基于特征融合的手勢(shì)識(shí)別方法。先后提取手勢(shì)圖像改進(jìn)的分?jǐn)?shù)階微分的HOG特征和MB-LBP紋理特征,將2種特征融合后結(jié)合SVM分類器進(jìn)行分類識(shí)別。實(shí)驗(yàn)結(jié)果表明本文算法可以對(duì)手勢(shì)圖像實(shí)現(xiàn)精確識(shí)別,識(shí)別準(zhǔn)確率達(dá)到92.25%,優(yōu)于其他特征識(shí)別方法。但是由于手勢(shì)的多樣性,在未來的工作中將會(huì)對(duì)遮擋引起的不可識(shí)別的手勢(shì)做進(jìn)一步研究,增強(qiáng)手勢(shì)識(shí)別的多樣性。
參考文獻(xiàn)
[1]袁慶曙,王若楠,潘志庚,等. 空間增強(qiáng)現(xiàn)實(shí)中的人機(jī)交互技術(shù)綜述[J]. 計(jì)算機(jī)輔助設(shè)計(jì)與圖形學(xué)學(xué)報(bào),2021,33(3):321-332.
[2]周天彤,徐飛林,張旖帆,等. 基于unity和kinect的交警手勢(shì)識(shí)別仿真系統(tǒng)的設(shè)計(jì)和實(shí)現(xiàn)[J]. 計(jì)算機(jī)測(cè)量與控制,2016,24(5):156-159.
[3]SRIDEVI K, SUNDARAMBAL M, DHARAN K M, et al. Hand gesture recognition system using radial basis function Neural Networks[J]. Journal of Innovation in Electronics and Communication Engineering, 2017, 7(2):38-41.
[4]李逸琳,陶靜,霍藝文,等. 手勢(shì)特征提取與圖像分割的優(yōu)化研究[J]. 計(jì)算機(jī)應(yīng)用與軟件,2020,37(2):161-165,206.
[5]程冉,史健芳. 基于卷積神經(jīng)網(wǎng)絡(luò)的手勢(shì)識(shí)別算法研究[J]. 電子設(shè)計(jì)工程,2021,29(2):179-184.
[6]LI Yalan,LU Ruhua,HUANG Rui,et al. Research on face recognition algorithm based on HOG feature[J]. Journal of Physics: Conference Series,2021,1757(1):012076.
[7]JUNAIDY D,WULANDARI M, TANUDJAJA H. Real time face detection using haar-like feature method and local binary pattern method[J]. IOP Conference Series: Materials Science and Engineering,2019,508(1):012099.
[8]EMADI M, EMADI M. Human face detection in color images using fusion of Ada Boost and LBP feature[J]. Majlesi Journal of Telecommunication Devices,2020,9(1).
[9]STERGIOPOULOU E, SGOUROPOULOS K, NIKOLAOU N, et al. Real time hand detection in a complex background[J]. Engineering Applications of Artificial Intelligence,2014,35:54-70.
[10]翁漢良,戰(zhàn)蔭偉. 基于視覺的多特征手勢(shì)識(shí)別[J]. 計(jì)算機(jī)工程與科學(xué),2012,34(2):123-127.
[11]楊學(xué)文,馮志全,黃忠柱,等. 結(jié)合手勢(shì)主方向和類-Hausdorff距離的手勢(shì)識(shí)別[J]. 計(jì)算機(jī)輔助設(shè)計(jì)與圖形學(xué)學(xué)報(bào),2016,28(1):75-81.
[12]秦育羅,郭冰,孫小榮. 改進(jìn)Hausdorff距離及其在多尺度道路網(wǎng)匹配中的應(yīng)用[J]. 測(cè)繪科學(xué)技術(shù)學(xué)報(bào),2020,37(3):313-318.
[13]肖宇. 基于序列圖像的手勢(shì)檢測(cè)與識(shí)別算法研究[D]. 成都:電子科技大學(xué),2014.
[14]盧夢(mèng)圓,官巍,馬力. 基于多特征融合的手勢(shì)識(shí)別研究[J]. 計(jì)算機(jī)與數(shù)字工程,2020,48(9):2157-2161.
[15]趙倩楠,胡延平. 一種基于特征融合的手勢(shì)識(shí)別方法[J]. 物聯(lián)網(wǎng)技術(shù),2020,10(9):33-36.
[16]ANDREW A M. An Introduction to Support Vector Machines and other kernel-based learning methods[J]. Robotica,2000,18(6):687-689.
[17]劉斌,米強(qiáng),徐巖. LBP和MB-LBP加權(quán)融合的人臉識(shí)別[J]. 計(jì)算機(jī)工程與設(shè)計(jì),2018,39(2):551-556.
[18]黃果,許黎,蒲亦非. 分?jǐn)?shù)階微積分在圖像處理中的研究綜述[J]. 計(jì)算機(jī)應(yīng)用研究,2012,29(2):414-420,426.
基金項(xiàng)目: 國(guó)家自然科學(xué)基金(61562009);貴州大學(xué)人才引進(jìn)項(xiàng)目(2015-29);半導(dǎo)體功率器件教育部工程研究中心開放基金項(xiàng)目(ERCMEKFJJ2019-(06); 貴州財(cái)經(jīng)大學(xué)人才引進(jìn)項(xiàng)目(校聘發(fā)[2020]4號(hào))。
作者簡(jiǎn)介: 陳忠輝(1995-),男,碩士研究生,主要研究方向:圖像處理、目標(biāo)檢測(cè); 謝本亮(1978-),男,博士,副教授,主要研究方向:圖像處理、計(jì)算機(jī)視覺、目標(biāo)檢測(cè)。
收稿日期: 2021-04-06