賈鶴鳴,朱傳旭,張森,楊澤文,何東旭
(1. 東北林業(yè)大學(xué) 機(jī)電工程學(xué)院,黑龍江 哈爾濱 150040; 2. 哈爾濱工程大學(xué) 自動(dòng)化學(xué)院,黑龍江 哈爾濱150001)
手勢(shì)語(yǔ)言作為一種常用的交流語(yǔ)言,通過(guò)不同手勢(shì)的組合、不同手形的變化,能夠表達(dá)多種復(fù)雜的含義,在非聲音傳遞信息的方式中,如特警手語(yǔ)、聾啞人交流、遠(yuǎn)程指揮等方面,起到重要作用[1]。特征提取是手勢(shì)識(shí)別的關(guān)鍵環(huán)節(jié),即通過(guò)對(duì)不同的手勢(shì)進(jìn)行數(shù)學(xué)描述,表示獨(dú)特的特征關(guān)系。常用的特征有幾何特征、形狀特征、Hu矩特征等。
國(guó)外方面,Davis等[2]采用不變矩和神經(jīng)網(wǎng)絡(luò),進(jìn)行數(shù)字手勢(shì)的識(shí)別;Miyashita等[3]針對(duì)靜態(tài)手勢(shì)具有平移和旋轉(zhuǎn)性問(wèn)題,采用基于邊界信息特征描述的方法;Kapu?ciński等[4]提出改進(jìn)的梯度直方圖方法進(jìn)行靜態(tài)手勢(shì)識(shí)別,通過(guò)加強(qiáng)圖像坐標(biāo)系的局部方向,使之能夠找到最佳的關(guān)鍵向量,提高識(shí)別率。國(guó)內(nèi)方面,譚臺(tái)哲等[5]將深度與膚色信息結(jié)合,根據(jù)手指和手掌質(zhì)心判斷方向,從而完成對(duì)手勢(shì)和左右手的識(shí)別,魯棒性強(qiáng);劉淑萍等[6]在傳統(tǒng)的HOG方法的基礎(chǔ)上加入膚色模型和手指檢測(cè)算法,將識(shí)別率提高20%;趙磊等[7]對(duì)傳統(tǒng)DTW算法進(jìn)行改進(jìn),以歐氏距離為元素組成矩陣,結(jié)合事先錄入的手勢(shì)模板,實(shí)現(xiàn)手勢(shì)識(shí)別。通過(guò)上述國(guó)內(nèi)外研究現(xiàn)狀的分析不難發(fā)現(xiàn)研究問(wèn)題主要集中于空域特征的提取。實(shí)際上,頻譜能在描述紋理特征時(shí)體現(xiàn)重要作用[8]。常用的頻域變換主要有傅里葉變換、小波變換等。前期研究中,大多僅采用空域特征或者僅采用小波變換系數(shù)特征,但由于傳統(tǒng)小波變換在獲取頻譜特征時(shí),不具有方向性,因此,擬采用對(duì)偶樹(shù)復(fù)小波變換提取頻域特征,實(shí)現(xiàn)–75°、–45°、–15°、15°、45°和 75°等 6 個(gè)方向的特征度量,最后為提高特征的完備性,本文將空域特征與頻域特征進(jìn)行融合。
分類器通常采用人工神經(jīng)網(wǎng)絡(luò),常用的有BP神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)(SVM)等。經(jīng)過(guò)許多學(xué)者研究證實(shí),在圖像識(shí)別方面,SVM比BP精度更高,且不易陷入過(guò)擬合狀態(tài)[9-12]。但是,由于SVM在高維空間中計(jì)算量遠(yuǎn)遠(yuǎn)大于BP,因此,當(dāng)樣本較多、特征維數(shù)較大時(shí),SVM速度較慢。本文引入BD(best distance)優(yōu)選SVM訓(xùn)練樣本的算法,一方面減少樣本數(shù),提高訓(xùn)練速度,另一方面,優(yōu)化樣本質(zhì)量,提高訓(xùn)練精度。
1)位置。由前面部分手勢(shì)跟蹤,可獲取手勢(shì)的位置信息,用掌的面積中心表示。設(shè)手掌像素的坐標(biāo)為,其中,那么其質(zhì)心表示為
2)長(zhǎng)寬比。手所在的最小矩形,長(zhǎng)度定義為L(zhǎng),寬度定義為W,長(zhǎng)寬比r定義為
3)矩形度。手勢(shì)所占面積S0與最小外接矩形面積Sm之比。矩形度a表示為
4) Hu矩特征。Hu矩特征主要描述圖像旋轉(zhuǎn)的不變性,包含7個(gè)分量。對(duì)于一幅的圖像,則其階矩為
通過(guò)計(jì)算函數(shù)的重心,得到:
對(duì)中心矩進(jìn)行歸一化后,使用二階和三階矩構(gòu)造7個(gè)h分量矩:
且滿足希爾伯特變換,即:
用樹(shù)A和樹(shù)B表示,結(jié)構(gòu)圖如圖1所示。
圖 1 對(duì)偶樹(shù)復(fù)小波變換結(jié)構(gòu)圖Fig. 1 Dual tree complex wavelet transform structure
圖 2 對(duì)偶樹(shù)復(fù)小波變換的6個(gè)方向性Fig. 2 Six directions of dual tree complex wavelet transform
根據(jù)傳統(tǒng)SVM算法原理,根據(jù)幾何特征,支持向量即同類距離最小,異類距離最大的兩類樣本,若訓(xùn)練樣本未進(jìn)行優(yōu)化,則尋找支持向量的過(guò)程就會(huì)耗時(shí)嚴(yán)重,因此,改進(jìn)思路聚集在對(duì)訓(xùn)練樣本的幾何特征上。本文將訓(xùn)練樣本的點(diǎn)間距離作為度量,通過(guò)優(yōu)化訓(xùn)練樣本集,提高SVM的訓(xùn)練速度,也因樣本集的品質(zhì)提高,從而間接提高分類器的識(shí)別精度。具體數(shù)學(xué)描述如下。
將樣本點(diǎn)分布于空間中,定義任意兩點(diǎn)的距離為
3)[令,,計(jì)算平均距離矩陣。
4)對(duì)矩陣V進(jìn)行按序排列,其中,V11和V22降序,V12和 V21升序,提取 l·t個(gè)樣本,得到新的訓(xùn)練樣本集。
5)在新樣本集上利用SVM建立模型,并進(jìn)行測(cè)試。
2)在高維空間中,按照式(1)計(jì)算距離矩陣
靜態(tài)手勢(shì)識(shí)別選取60幅“1~9”手勢(shì)的圖像作為訓(xùn)練樣本,30幅作為測(cè)試樣本。包括空域及頻域特征提取, BD-SVM分類器精度,輸出識(shí)別正確率和分類時(shí)間。
進(jìn)行空域特征提取,首先需對(duì)輸入的圖像進(jìn)行預(yù)處理,然后進(jìn)行分割和檢測(cè),最后,計(jì)算相應(yīng)的空域特征。某一樣本“1~9”手勢(shì)的預(yù)處理后的圖像及分割檢測(cè)后的圖像如圖3所示。
圖 3 “1~9”手勢(shì)圖像及分割檢測(cè)圖像Fig. 3 "1~9" gesture image and split detection image
按照前文給出的公式,計(jì)算空域特征,包括位置、長(zhǎng)寬比、矩形度、Hu矩的7個(gè)分量。取某一樣本的“1~9”手勢(shì)的特征,如表1所示。
對(duì)偶樹(shù)復(fù)小波具有平移不變性和方向多樣化的特性,按照對(duì)偶樹(shù)復(fù)小波變換進(jìn)行頻域特征提取,dtwavexfm2函數(shù)中可以選擇4個(gè)濾波器,本文選legall,進(jìn)行變換分解。
以其中一幅手勢(shì)圖像為例,對(duì)偶樹(shù)復(fù)小波特征提取的結(jié)果如下。某一示例圖像“1”如圖4所示,其他“2~9”手勢(shì)特征提取過(guò)程相同。
圖 4 示例圖像Fig. 4 Sample image
經(jīng)過(guò)分解后的結(jié)果如圖5所示。
圖 5 分析結(jié)果Fig. 5 Results of the analysis
表 1 某一樣本“1~9”手勢(shì)的特征提取Table 1 The feature extraction of a sample “1~9” gesture
選取高頻分量輸出的16×16矩陣,作為該手勢(shì)圖像的特征參數(shù),方便計(jì)算,將該矩陣進(jìn)行歸一化處理,然后,取主對(duì)角線元素作為特征,共計(jì)16個(gè)分量。
對(duì)于每個(gè)樣本,將空域特征的11個(gè)分量與頻域的16個(gè)分量進(jìn)行融合,組成新的矢量,則新矢量的維度為27,然后,以60個(gè)樣本作為訓(xùn)練集,輸入分類器中訓(xùn)練,30個(gè)樣本預(yù)測(cè)集,用于驗(yàn)證分類精度。
本節(jié)主要測(cè)試手勢(shì)“1~9”的識(shí)別效果。利用BD算法優(yōu)化訓(xùn)練樣本,設(shè)置BD-SVM的比例系數(shù)t為0.3,然后,將新的訓(xùn)練樣本作為SVM訓(xùn)練集,最后,選取線性核函數(shù)、多項(xiàng)式核函數(shù)和徑向基核函數(shù)分別進(jìn)行實(shí)驗(yàn)。γ設(shè)置為0.1,懲罰參數(shù)設(shè)置為10,具體實(shí)驗(yàn)結(jié)果如下所示。
樣本優(yōu)選過(guò)程進(jìn)行二維可視化后,如圖6所示。
圖 6 優(yōu)選的訓(xùn)練樣本Fig. 6 Preferred training samples
圈內(nèi)的樣本為優(yōu)選后的樣本,作為新的訓(xùn)練集,挑選出46個(gè)新的訓(xùn)練樣本。
對(duì)于每個(gè)核函數(shù),輸出識(shí)別精度和識(shí)別時(shí)間,最后計(jì)算平均正確率和平均識(shí)別時(shí)間。采用線性核函數(shù)的識(shí)別結(jié)果如表2所示。
表 2 線性核函數(shù)識(shí)別結(jié)果Table 2 Linear kernel function recognition result
由表2得出,線性核函數(shù)的平均正確率為84%,平均識(shí)別時(shí)間為0.022 s。
采用多項(xiàng)式核函數(shù)的識(shí)別結(jié)果如表3所示。由表3得出,線性核函數(shù)的平均正確率為86.67%,平均識(shí)別時(shí)間為0.032 s。
表 3 多項(xiàng)式核函數(shù)識(shí)別結(jié)果Table 3 Polynomial kernel function recognition result
采用徑向基核函數(shù)的識(shí)別結(jié)果如表4所示。由表4得出,線性核函數(shù)的平均正確率為90.33%,平均識(shí)別時(shí)間為0.026 s。
通過(guò)實(shí)驗(yàn)得出,選擇徑向基核函數(shù)的識(shí)別率最高,運(yùn)算速度也較快,因此,進(jìn)行靜態(tài)手勢(shì)識(shí)別,采用徑向基核函數(shù)。
表 4 徑向基核函數(shù)識(shí)別結(jié)果Table 4 Radial basis kernel function recognition result
本文主要采用空域特征和對(duì)偶樹(shù)復(fù)小波相融合的特征,空域特征包含水平位置、豎直位置、長(zhǎng)寬比、矩形度、Hu矩7個(gè)分量,計(jì)11維特征,頻域特征采用對(duì)偶樹(shù)復(fù)小波變換的16維特征,特征融合后,共計(jì)27維特征;采用BD算法進(jìn)行訓(xùn)練樣本優(yōu)選,優(yōu)選出46個(gè)新的訓(xùn)練樣本,再將新的訓(xùn)練樣本進(jìn)行SVM分類器的訓(xùn)練,實(shí)驗(yàn)表明,采用徑向基核函數(shù)識(shí)別精度最高,速度最快,“1~9”的靜態(tài)手勢(shì)識(shí)別效果最好。