復(fù)雜環(huán)境下通用的手勢識別方法

2016-07-19 20:39:39杜堃譚臺哲

計算機(jī)應(yīng)用 2016年7期

杜堃譚臺哲

摘要：用來解決手勢識別中光照變化、背景干擾等問題的方法，往往計算量大，耗時長。針對這一問題，提出了一種復(fù)雜環(huán)境下通用的手勢識別方法。該方法利用二進(jìn)制方式實現(xiàn)支持向量機(jī)（SVM）模型并且使用位運(yùn)算代替滑動窗口從而完成目標(biāo)快速篩選，然后用統(tǒng)一計算設(shè)備架構(gòu)（CUDA）實現(xiàn)卷積神經(jīng)網(wǎng)絡(luò)對初篩區(qū)域進(jìn)行二次判斷和識別。該方法不依賴于動態(tài)手勢識別技術(shù)，可以應(yīng)用于動態(tài)和靜態(tài)的手勢識別，能夠同時處理光照變化、背景干擾的問題。實驗結(jié)果表明所提算法的計算效率相比基于滑動窗口的算法有100至1000倍的提升，處理一幅圖片的時間約為0.01s。在修正后的Marcel數(shù)據(jù)集上實驗結(jié)果達(dá)到了96.1%的準(zhǔn)確率和100%的召回率。效率上的提升使得算法能夠?qū)崟r進(jìn)行復(fù)雜環(huán)境下的手勢識別。

關(guān)鍵詞：

手勢識別；位運(yùn)算；卷積神經(jīng)網(wǎng)絡(luò)；復(fù)雜環(huán)境；膚色似然

中圖分類號： TP391.413 文獻(xiàn)標(biāo)志碼：A

0引言

現(xiàn)行的手勢識別方法的主要步驟是提取精確的手勢區(qū)域，然后作形狀或者輪廓識別。提取手勢區(qū)域的方法有依賴于測距設(shè)備的方法，比如Kinect[1-2]、雙目設(shè)備[3]，也有依賴于單目視覺的方法[4]。前者的主要原理是人機(jī)交互中手的位置距離傳感器應(yīng)該在一定的區(qū)間內(nèi)，之后進(jìn)行距離閾值分割。而基于視覺的方法主要是確定合理的膚色閾值，進(jìn)行膚色分割和去噪，確定手勢區(qū)域或者輪廓。

這些方法雖然依賴的特征不同，但是在整體處理步驟上比較相似，都需要首先對手勢區(qū)域進(jìn)行精確的分割。方法面臨的挑戰(zhàn)主要集中在復(fù)雜環(huán)境下的手勢分割。如果希望算法在距離、光照可變的環(huán)境下表現(xiàn)出良好的魯棒性，一般會將很多非手勢的區(qū)域也識別為手勢，這將增加手勢分割的難度，在復(fù)雜背景下，這一問題會更加明顯。在背景環(huán)境復(fù)雜時如果想降低手勢分割的難度，一般需要對輸入的圖像特征進(jìn)行更嚴(yán)格的提取，這同時也降低了模型的魯棒性，在光照、距離等條件變化時，會出現(xiàn)丟失手勢的問題。

兩類問題相互制約，針對這一情況，研究者們把精力主要放在如何更加精準(zhǔn)地提取特征上面。用作手勢分割的特征主要集中在膚色[4]和距離[1，3]，有的學(xué)者采取了將輪廓信息結(jié)合先驗形狀來進(jìn)行更加準(zhǔn)確的分割方式來處理這一問題[5]，此類方法被廣泛地用于邊緣提取領(lǐng)域，在針對小規(guī)模噪聲區(qū)域以及手勢類別較少的情況時能獲取不錯的效果。主要問題是對于多個先驗形狀的表達(dá)沒有特別理想的方案，在形狀增多之后，形狀項的作用明顯下降，這與形狀之間本身的沖突有關(guān)。更重要的一點(diǎn)是圖像分割方法一般耗時都在數(shù)秒甚至數(shù)十秒，時間復(fù)雜度上無法滿足手勢識別的需要。因為手勢分割的運(yùn)用場景多為動態(tài)場景，所以運(yùn)動目標(biāo)檢測的方法也經(jīng)常用來輔助手勢分割。

現(xiàn)行手勢分割方法中最常用的是按照提取膚色特征、二值化、形態(tài)學(xué)濾波、運(yùn)動目標(biāo)特征或者距離特征協(xié)助檢測這個過程處理[3-4]。有時還需要做人臉檢測，排除人臉區(qū)域的干擾。融合了多種特征的方法在光照變化和背景擁有類似膚色的物體時仍然會出現(xiàn)不能有效分割的情形。

在手勢識別方面，Dardas等[6]提出了一種基于特征包的手勢識別方法，在識別率和計算效率上都取得了較好的結(jié)果。對于良好的手勢輪廓，Belongie等[7]提出的形狀上下文能夠得到高準(zhǔn)確率和對非剛性畸變魯棒的結(jié)果。矩特征，指尖等手勢的幾何特征[1]也經(jīng)常被用作為手勢識別的特征。卷積神經(jīng)網(wǎng)絡(luò)能夠自動獲取特征，在處理靜態(tài)圖片時表現(xiàn)出了非常高的準(zhǔn)確率，同時對噪聲以及各種形變魯棒。

本文提出一種新的方法來解決手勢識別中魯棒性和算法復(fù)雜性之間的矛盾。該方法第1步使用二進(jìn)制運(yùn)算實現(xiàn)的支持向量機(jī)（Support Vector Machine， SVM）分類器并用位運(yùn)算代替滑動窗口，快速提取出多個可能的備選區(qū)域。第2步使用卷積神經(jīng)網(wǎng)絡(luò)來完成手勢的再判定與識別工作。文中算法的實現(xiàn)方式非常關(guān)鍵，直接關(guān)系模型的運(yùn)算效率。第1步中使用的分類器為線性SVM模型，需要在支持64位整型機(jī)器的環(huán)境下使用二進(jìn)制運(yùn)算的方式實現(xiàn)，在執(zhí)行效率上相對于基于滑動窗口的算法有著100倍左右的提升[8]。第2步使用的分類器為卷積神經(jīng)網(wǎng)絡(luò)，在實現(xiàn)上使用了統(tǒng)一計算設(shè)備架構(gòu)（Compute Unified Device Architecture， CUDA）進(jìn)行卷積運(yùn)算的加速，能獲得10倍左右的加速比[9]。

1手勢區(qū)域提取

本文手勢區(qū)域提取的方法不要求精確提取手勢輪廓或者鎖定備選框。該方法核心思想是用最短的時間排除掉絕大部分的搜索區(qū)域，剩下無法判斷的區(qū)域結(jié)合其他方法進(jìn)行處理。

方法本身并不依賴于特定特征，所有能夠用來排除大量備選區(qū)域的特征均可以使用，比如通過測距設(shè)備獲取的距離似然特征，使用視覺設(shè)備獲取的膚色似然特征。因為膚色似然特征對于硬件的要求更低，本文選擇膚色似然特征進(jìn)行實驗。

1.1獲取膚色特征

本文使用橢圓模型提取膚色似然區(qū)域[10-11]。首先將膚色變換到Y(jié)CbCr空間，橢圓膚色模型認(rèn)為膚色在Cr和Cb分量組成的空間里的分布集中在一個橢圓區(qū)域內(nèi)。該橢圓中心點(diǎn)坐標(biāo)為（155.6，103），長短軸比例為1∶1.6，旋轉(zhuǎn)角度為43°。式（1）描述了Cr和Cb組成的空間中的像素點(diǎn)距離橢圓中心的距離，也可以理解成是膚色的概率。該值恒大于0，最大值為255，標(biāo)準(zhǔn)差系數(shù)為σ2?？梢酝ㄟ^調(diào)整標(biāo)準(zhǔn)差系數(shù)σ2來控制膚色判斷的嚴(yán)格程度，不同σ2下的分割效果如圖1所示。不同的標(biāo)準(zhǔn)差系數(shù)對于膚色區(qū)域的判斷影響十分明顯。當(dāng)σ2較小時提取區(qū)域判斷為膚色的區(qū)域很小，此時真實的手勢區(qū)域可能被誤檢成非手勢區(qū)域；當(dāng)σ2增大時，膚色似然圖中判斷為膚色的區(qū)域會一直增加，此時膚色似然圖中被誤檢為膚色的區(qū)域也會增加。

光照變化和膚色的多樣性會影響膚色似然特征的計算。針對光照變化以及膚色變化的情況。有以下方法可以改善：

方法1使用對光照魯棒的特征，比如距離似然特征。

方法2使用較大的標(biāo)準(zhǔn)差系數(shù)σ2，后面提取區(qū)域的過程中使用較多的備選框以提高召回率。

方法3使用迭代的方法調(diào)整橢圓模型的中心坐標(biāo)和標(biāo)準(zhǔn)差系數(shù)，方法3一般用于光照連續(xù)變化場景，比如視頻流的處理。

1.2膚色似然特征與手勢區(qū)域檢測

獲取膚色似然圖之后，下一步需要計算似然圖中的手勢區(qū)域。手勢區(qū)域和非手勢區(qū)域在8×8膚色似然圖下有著明顯的差別，如圖2所示。這一步的思路是使用滑動窗口的方法，對膚色似然圖進(jìn)行遍歷。因為最終需要處理是在遍歷的過程中將窗口中的膚色似然圖像作為手勢區(qū)域分類器的輸入，得到一個“窗口值”，用來確定是否為備選窗口。

考慮到手勢識別應(yīng)用場景多為人機(jī)交互，手勢的長寬比固定，不會被人為拉伸，所以選用“正方形”滑動窗口；并且手勢區(qū)域在整幅圖像中所占比例會有所變化但變化幅度不大，所以不用設(shè)定太多不同尺度的滑動窗口。在此處設(shè)定4個不同尺度的手勢區(qū)域48×48、64×64、80×80、96×96用以檢測不同大小的手勢。

為了保證滑動窗口的大小始終為8×8，將膚色似然圖調(diào)整為不同的尺度，以尺度為360×240的膚色似然圖為例，當(dāng)手勢區(qū)域大小由48×48調(diào)整為8×8時，膚色似然圖的長寬也對應(yīng)變化原圖的1/6，變?yōu)?0×40。大小為的64×64、80×80、96×96的手勢區(qū)域所對應(yīng)的調(diào)整后的膚色似然圖尺度分別為45×30、36×24、30×20，如圖2（d）所示。

在分類器的選擇上選用的是線性SVM分類器[12]。實驗正樣例選取的均為人工標(biāo)記的手勢區(qū)域的膚色似然圖，在選取正樣例的過程中可以先使用少量樣本訓(xùn)練一個線性SVM分類器，然后使用該分類器進(jìn)行樣本初篩，之后再人工調(diào)整。負(fù)樣例是在正樣例以外的區(qū)域中隨機(jī)選取。正負(fù)樣本均需要進(jìn)行歸一化處理，處理成為8×8的區(qū)域。“窗口值”表示SVM系數(shù)矩陣和8×8的內(nèi)積。“窗口值”的計算過程如式（2）所示：

s=〈w，x〉；w∈R8×8，x∈{0，1，…，255}8×8（2）

其中：w為權(quán)值矩陣；x為膚色似然圖的像素值，如圖2（c）所示；s為滑動窗口的“窗口值”。

1.3BISL二進(jìn)制膚色似然特征

為了加速滑動窗口的計算，本文借鑒了文獻(xiàn)[8]中一般物體識別時用到的方法，使用64位整型表示8×8的二進(jìn)制矩陣，并且使用一些列的位運(yùn)算操作來實現(xiàn)加速[13-14]。二進(jìn)制膚色似然特征（Binary Skin LikeHood， BISL）特征，是將膚色似然特征使用多個64位整型表示之后形成的特征。

1.3.1近似參數(shù)矩陣w

線性模型矩陣w∈R8×8可以使用文獻(xiàn)[13]中的算法1對其進(jìn)行近似可得w≈∑Nwj=1βjaj。其中：Nw代表基向量的個數(shù)；aj∈{-1，1}8×8代表基向量； βj∈R代表相應(yīng)基向量的系數(shù)。

算法1使用二進(jìn)制方法近似w。

程序前

輸入：w，Nw。

輸出：{βj}Nwj=1，{aj}Nwj=1。

初始化殘差：ε=w

for j=1 to Nw do

aj=sign（ε）

βj=〈aj，ε〉/‖aj‖2（將殘差ε映射到aj上）

ε=ε-βjaj（更新殘差）

end for

程序后

1.3.2處理輸入矩陣x

本文截取x的高Nx位近似x（如圖3（a）），x可以由BISL特征表示成如下形式：

x=∑Nxk=128-kbk（5）

其中：x∈{0，1，…，255}8×8，bk∈{0，1}8×8。

算法2對區(qū)域獲取BISL特征。

參數(shù)含義：bx，y∈{0，1}8×8，rx，y∈{0，1}8，bx，y∈{0，1}。

程序前

輸入：膚色似然圖的二進(jìn)制值bW×H。

輸出：BISL特征組成的矩陣bW×H。

初始值：bW×H=0，rW×H=0

for each position（x，y） in scanline order do

rx，y=（rx-1，y<<1）|bx，y

bx，y=（bx，y-1<<8）|rx，y

end for

程序后

通常來說，獲取8×8的BISL特征需要遍歷64個位置。Cheng等[8]巧妙地利用了64位整型的特點(diǎn)，在算法2中使用了“按位或”和“移位”操作避免了循環(huán)。首先BISL特征bx，y和它的最后一行rx，y分別使用一個INT64變量和一個byte變量存儲。然后相鄰的BISL特征有重復(fù)的部分，可以通過左移8位操作保留重復(fù)的部分并給不同的部分騰出空間，將騰出的這8位的空間與新的byte變量進(jìn)行“按位與”，就獲取了新的BISL特征。相鄰的byte變量的獲取過程與之類似。

綜合式（4）和（5）可以得到由BISL特征和分類器參數(shù)計算出窗口值：

s≈∑Nwj=1βj∑Nxk=1Cj，k（6）

其中Cj，k=28-k（2〈a+j，bk，l〉-bk，l）。

將窗口值topk的窗口作為候選窗口，進(jìn)行進(jìn)一步的識別。k的取值由實驗環(huán)境確定，k越大，手勢檢測模型召回率越高，進(jìn)一步識別的時間復(fù)雜度也會增加。

2使用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行手勢識別

本章所提輸入是手勢檢測部分所得到的窗口值排名前k的候選窗口，這些窗口區(qū)域都是在上一步被判定為極有可能為手勢的區(qū)域，所以本章中需要使用更為復(fù)雜的特征和更強(qiáng)的分類模型來處理這個問題。卷積神經(jīng)網(wǎng)絡(luò)和一般的神經(jīng)網(wǎng)絡(luò)相比，具有權(quán)值共享、局部感知等特點(diǎn)[15-16]，充分地利用了輸入值的空間關(guān)系信息，并且容易使用硬件加速[9]。綜合考慮模型的分類能力、魯棒性以及識別效率等因素，本文使用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行手勢識別。

2.1樣本、特征以及網(wǎng)絡(luò)結(jié)構(gòu)

卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練樣本是根據(jù)手勢檢測步驟中得到的窗口值topk 8×8窗口計算出來的。在確定窗口值topk 8×8窗口時，記錄下這k個窗口在對應(yīng)的膚色似然圖中的坐標(biāo)。根據(jù)這個坐標(biāo)計算出原圖像所對應(yīng)的窗口坐標(biāo)。這個過程可以看作是根據(jù)圖2（c）中的8×8窗口位置來獲取圖2（a）中對應(yīng)尺度的窗口圖像位置，進(jìn)而獲得窗口圖像。在獲取窗口圖像后，本文將備選窗口圖像大小調(diào)整為29×29，然后計算它的膚色似然圖，得到29×29的膚色似然圖作為卷積神經(jīng)網(wǎng)絡(luò)的輸入。卷積神經(jīng)網(wǎng)絡(luò)的特征選擇可以有很多，比如窗口的灰度圖、梯度特征、局部二進(jìn)制特征。選用29×29的膚色似然圖的原因是膚色似然圖在膚色檢測的過程中已經(jīng)計算過一遍，不需要再重復(fù)計算。訓(xùn)練樣本一共分為10類，6個備選手勢類，4個錯誤類。這里設(shè)計4個錯誤類的原因是因為在手勢區(qū)域提取的過程中，被錯分成手勢區(qū)域的候選框是有著明顯的特點(diǎn)的。主要的幾類情況是識別到手勢邊緣，識別到手勢中心，識別到非手勢區(qū)域，可以參考圖2（b）的情形。在網(wǎng)絡(luò)設(shè)計的時候需要重點(diǎn)關(guān)注這些錯誤的情形，實驗發(fā)現(xiàn)，將所有的錯誤情形視為1類的模型識別率要低于將錯誤情形分成4類的模型。將錯誤情形分為4類的卷積神經(jīng)網(wǎng)絡(luò)一共有10個輸出節(jié)點(diǎn)，其中6個代表6種不同的手勢，另外4個代表4類典型的錯誤。需要注意的是，在計算模型準(zhǔn)確率的時候并不將4類錯誤加以區(qū)分。假定4類錯誤分別為錯誤1、錯誤2、錯誤3、錯誤4，將錯誤1識別成了錯誤2，仍然認(rèn)為模型判斷正確。

為了使樣本具有平移和小幅度旋轉(zhuǎn)的魯棒性，對卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練樣本進(jìn)行了一些平移和旋轉(zhuǎn)上的擴(kuò)展?？紤]到手勢與手寫字符的區(qū)別，本文并沒有進(jìn)行彈性形變擴(kuò)展。整個卷積網(wǎng)絡(luò)的結(jié)構(gòu)如圖4所示。

本文參照文獻(xiàn)[15]中提到的方法來設(shè)計卷積神經(jīng)網(wǎng)絡(luò)，網(wǎng)絡(luò)包含兩個卷積層：第1層用來提取一些類似于邊緣、角點(diǎn)、交線的底層圖像特征；第2個卷積層以這些特征為基礎(chǔ)生成更加復(fù)雜的特征。兩個下采樣層均按照2×2的因子進(jìn)行最大池化，卷積核的大小定為5×5，第1個卷積層有5個卷積核，第2個卷積層有10個卷積核。光柵化之后采用兩層全相連多層感知機(jī)結(jié)構(gòu)，隱層單元數(shù)量設(shè)定為100個，最后針對多分類問題，使用softmax設(shè)置10個輸出節(jié)點(diǎn)。

2.2卷積神經(jīng)網(wǎng)絡(luò)的計算過程

本文使用的卷積神經(jīng)網(wǎng)絡(luò)主要參照文獻(xiàn)[17]中提到的算法實現(xiàn)。下面主要針對卷積層和下采樣層的正向計算和反向傳播計算進(jìn)行討論。

2.2.1正向計算

2.2.2反向傳播

3實驗結(jié)果分析

實驗平臺為Intel Core i74702MQ 2.2GHz， 4GB RAM， NVIDIA GeForce GTX 760M。CPU支持POPCNT命令，顯卡支持CUDA平臺，操作系統(tǒng)為Windows 8 Pro 64位。

3.1手勢檢測部分

手勢檢測部分所采用的數(shù)據(jù)集是Sebastien Marcel Static Hand Posture Database數(shù)據(jù)集，數(shù)據(jù)集包含10個人的6種手勢（a，b，c，point，five，v）（A，B，C，Point（P），F(xiàn)ive（F），V），總共接近5000個樣本（如圖5）。

實驗對簡單環(huán)境和復(fù)雜環(huán)境分別取100張測試圖片進(jìn)行測試（如圖6）。在實驗中發(fā)現(xiàn)，在簡單環(huán)境下，直接獲取“窗口值”最大的窗口作為備選區(qū)域即可。在光照變化和背景復(fù)雜的情況下，“窗口值”大小前4的窗口已經(jīng)可以覆蓋所有的實際手勢區(qū)域，即達(dá)到100%的召回率（如表1）。

實驗對比了基于滑動窗口方法實現(xiàn)手勢檢測、多模板匹配外加人臉排除以及本文的手勢檢測方法的運(yùn)算速度。在3種不同尺寸的樣本中分別取1000張測試圖片進(jìn)行測試，結(jié)果如表2所示。

3.2手勢識別部分

手勢識別部分的樣本來源于手勢檢測部分的結(jié)果。數(shù)據(jù)一共分為10類，除了6個手勢類之外，還設(shè)定4個錯誤類。4類錯誤分別命名為E1、E2、E3、E4。其中：E1代表識別到手勢中心；E2代表識別到手勢邊緣；E3代表識別到非手勢干擾區(qū)；E4代表除E3之外的弱干擾區(qū)，如圖7所示。

因為10類的訓(xùn)練樣本數(shù)量有一定的差異。其中最多的手勢Point有1395個樣本，最少的V有435個樣本。錯誤類樣本中總量為1216個，其中E1 178個，E2 81個，E3 943，E4 14個，這個具體數(shù)量與手勢檢測所設(shè)定的備選窗口數(shù)量有關(guān)以及選擇的輸入圖片有關(guān)，可以調(diào)整，本文實驗中備選窗口數(shù)量設(shè)為4，輸入圖片中背景復(fù)雜的一共有473張。在樣本不平衡的情況下所訓(xùn)練出卷積神經(jīng)網(wǎng)絡(luò)模型測試準(zhǔn)確率為93%左右。對樣本進(jìn)行抽樣和擴(kuò)展，擴(kuò)展方法如下。

1）對于6個手勢類，在每個類的訓(xùn)練集中隨機(jī)抽取350張樣本，對抽取的圖片在隨機(jī)方向上進(jìn)行1到2個像素的平移得到另外350個樣本，每一類總共會得到700個樣本。

2）對于錯誤類E1，首先對訓(xùn)練集進(jìn)行4次隨機(jī)方向上1到2個像素的平移，每一次都會得到一個新的訓(xùn)練樣本，最后進(jìn)行隨機(jī)抽樣，每類選擇700個樣本。

3）對于錯誤類E2，首先對訓(xùn)練集進(jìn)行10次隨機(jī)方向上1到2個像素的平移，每一次都會得到一個新的訓(xùn)練樣本，最后進(jìn)行隨機(jī)抽樣，每類選擇700個樣本。

4）對于錯誤類E3，直接進(jìn)行隨機(jī)抽樣，每類選擇700個樣本。

5）對于錯誤類E4，將樣本復(fù)制50次，獲取700個樣本。

擴(kuò)展后的訓(xùn)練集有6000張訓(xùn)練樣本，測試集有1000個樣本。手勢識別的結(jié)果如表3所示，在手勢識別部分修正后的準(zhǔn)確率為96.1%，空格部分代表0，4個錯誤類準(zhǔn)確率計算方式在2.1節(jié)有說明。

圖8對比了本文算法和其他算法的性能，當(dāng)訓(xùn)練樣本大于100時，本文算法和特征包算法的準(zhǔn)確率相近。算法的運(yùn)行效率明顯高于特征包（Bag of Features， BoF）算法，如表4所示，平均識別時間表示的是手勢識別算法對單一“窗口”圖像的計算時間，整體計算時間包含了手勢檢測和手勢識別兩個部分以及一些預(yù)處理環(huán)節(jié)，基于特征包的兩類算法對應(yīng)的手勢檢測方法采用的是對模板匹配和人臉排除，本文的算法是采用位運(yùn)算支持向量機(jī)和CUDA卷積神經(jīng)網(wǎng)絡(luò)。CUDA卷積神經(jīng)網(wǎng)絡(luò)處理29×29大小的圖片用時約為0.001s。手勢識別過程中，因為分割算法求得的是4個備選窗口，所以識別過程中需要識別4個窗口，對一幅輸入圖像而言手勢檢測和識別總用時約為0.013s。

實驗結(jié)果表明，本文提出的方法能夠在光照變化、背景復(fù)雜的情況下依然保持高準(zhǔn)確率和良好的運(yùn)算效率。

4結(jié)語

本文提出了一種新型的手勢識別方法，與傳統(tǒng)的手勢識別方法相比，本文方法利用位運(yùn)算代替滑動窗口，在數(shù)微秒的時間內(nèi)將備選窗口數(shù)量由千萬級別縮減到個位數(shù)。獲取備選區(qū)域之后使用基于CUDA的卷積神經(jīng)網(wǎng)絡(luò)對備選區(qū)域進(jìn)行細(xì)分和識別。在實際的計算過程中可以通過硬件優(yōu)化得到100至1000倍的加速比。本文方法僅僅通過膚色似然特征就在Marcel數(shù)據(jù)集上得到了96%左右的準(zhǔn)確率。本文提出的方法主要解決了魯棒性和計算復(fù)雜度的矛盾，并且方法所使用的特征可以使用其他的特征替換，這使得模型具有良好的可擴(kuò)展性。

本文方法的局限性主要體現(xiàn)在對特征提取的召回率有要求，如果完全沒辦法提取到特征，本文的方法會失效。另外，卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練耗時長，網(wǎng)絡(luò)設(shè)計依賴經(jīng)驗，在更加復(fù)雜的分類上，卷積神經(jīng)網(wǎng)絡(luò)網(wǎng)絡(luò)的設(shè)計也會更加困難。

參考文獻(xiàn)：

[1]

談家譜，徐文勝.基于Kinect的指尖檢測與手勢識別方法[J].計算機(jī)應(yīng)用，2015，35（6）：1795-1800.（TAN J P， XU W S. Fingertip detection and gesture recognition method based on Kinect [J]. Journal of Computer Applications， 2015， 35（6）： 1795-1800.）

[2]

NEWCOMBE R A， IZADI S， HILLIGES O， et al. KinectFusion： realtime dense surface mapping and tracking [C]// Proceedings of the 2011 IEEE International Symposium on Mixed and Augmented Reality. Washington， DC： IEEE Computer Society， 2011： 127-136.

[3]

譚同德，郭志敏.基于雙目視覺的人手定位與手勢識別系統(tǒng)研究[J].計算機(jī)工程與設(shè)計，2012，33（1）：259-264.（TAN T D， GUO Z M. Research on location and gesture recognition of hand based on binocular stereovision [J]. Computer Engineering and Design， 2012 33（1）： 259-264.）

[4]

WACHS J P， KLSCH M， STERN H， et al. Visionbased handgesture applications [J] Communications of the ACM， 2011， 54（2）： 60-70.

[5]

SAMUEL D， RATHI Y， A. TANNENBAUM A. A framework for image segmentation using shape models and kernel space shape priors [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence， 2008， 30（8）： 1385-1399.

[6]

DARDAS N H， GEORGANAS N D. Realtime hand gesture detection and recognition using bagoffeatures and support vector machine techniques [J]. IEEE Transactions on Instrumentation & Measurement， 2011， 60（11）： 3592-3607.

[7]

BELONGIE S， MALIK J， PUZICHA J. Shape matching and object recognition using shape contexts [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence， 2002， 24（4）： 509-522.

[8]

CHENG M M， ZHANG Z M， LIN W Y. BING： binarized normed gradients for objectness estimation at 300fps [C]// Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition. Washington， DC： IEEE Computer Society， 2014： 3286-3293.

[9]

STRIGL， KOFLER K， PODLIPNIG S. Performance and scalability of GPUbased convolutional neural networks [C]// Proceedings of the 2010 18th Euromicro Conference on Parallel， Distributed and Networkbased Processing. Piscataway， NJ： IEEE， 2010： 317-324.

[10]

BOJIC N， PANG K. Adaptive skin segmentation for head and shoulder video sequences [C]// Visual Communications and Image Processing 2000. Bellingham， WA： SPIE， 2000： 704-711.

[11]

KOVAC J， PEER P， SOLINA F. Human skin color clustering for face detection [C]// IEEE Region 8 EUROCON 2003. Computer as a Tool. Piscataway， NJ： IEEE， 2003， 2： 144-148.

[12]

FAN R E， CHANG K W， HSIEH C J， et al. Liblinear： a library for large linear classification [J]. Journal of Machine Learning Research， 2008， 9（12）： 1871-1874.

[13]

HARE S， SAFFARI A， TORR P H S. Efficient online structured output learning for keypointbased object tracking [C]// Proceedings of the 2012 IEEE Conference on Computer Vision and Pattern Recognition. Washington， DC： IEEE Computer Society， 2012： 1894-1901.

[14]

ZHENG S， STURGESS P， TORR P H S. Approximate structured output learning for constrained local models with application to realtime facial feature detection and tracking on lowpower devices [C]// Proceedings of the 2013 10th IEEE International Conference and Workshops on Automatic Face and Gesture Recognition. Piscataway， NJ： IEEE， 2013： 1-8.

[15]

SIMARD P Y， STEINKRAUS D， PLATT J C. Best practices for convolutional neural networks applied to visual document analysis [C]// Proceedings of the Seventh International Conference on Document Analysis and Recognition. Washington， DC： IEEE Computer Society， 2003： 958-963.

[16]

LECUN Y， BOSER B， DENKER J S， et al. Handwritten digit recognition with a backpropagation network [M]// Advances in Neural Information Processing Systems 2. San Francisco： Morgan Kaufmann， 1990： 396-404.

[17]

CIRESAN D C， MEIER U， MASCI J， et al. Flexible， high performance convolutional neural networks for image classification [C]// IJCAI11： Proceedings of the TwentySecond International Joint Conference on Artificial Intelligence. Menlo Park， CA： AAAI Press， 2011： 1237-1242.