董旭德,許源平,舒紅平,張朝龍,2,盧麗,黃健
(1. 成都信息工程大學(xué) 軟件工程學(xué)院,四川 成都 610225; 2. 英國(guó)哈德斯菲爾德大學(xué) 計(jì)算與工程學(xué)院,西約克郡 哈德斯菲爾德 HD1 3DH)
近年來(lái),隨著計(jì)算機(jī)的發(fā)展和普及,人機(jī)交互(human-computer interface,HCI)應(yīng)用正逐漸以更加多樣化的形式全面融入到人們的學(xué)習(xí)、工作和生活中。其中,由于手勢(shì)是一種出現(xiàn)較早,使用廣泛且較為統(tǒng)一的人類日常交流手段,所以基于手勢(shì)的HCI技術(shù)得到了越來(lái)越多的關(guān)注,特別是在難以基于統(tǒng)一的語(yǔ)言進(jìn)行交流的相關(guān)應(yīng)用場(chǎng)景。手勢(shì)交互包括靜態(tài)手勢(shì)和動(dòng)態(tài)手勢(shì)兩種類型[1],其中靜態(tài)手勢(shì)是指在某一時(shí)間點(diǎn)手勢(shì)的形態(tài)所表達(dá)的意義,而動(dòng)態(tài)手勢(shì)是指在時(shí)間序列中一段手勢(shì)的運(yùn)動(dòng)軌跡所表示的含義。傳統(tǒng)的手勢(shì)識(shí)別需要借助于特殊的硬件設(shè)備(如數(shù)據(jù)手套),通過(guò)各種傳感器來(lái)獲取用戶關(guān)節(jié)的位置信息,進(jìn)而進(jìn)行手勢(shì)識(shí)別。這樣的方式雖然較為準(zhǔn)確但同時(shí)增加了手勢(shì)識(shí)別的成本,也大大降低了用戶的應(yīng)用體驗(yàn),限制了手勢(shì)識(shí)別的應(yīng)用場(chǎng)景。另一方面,近幾年來(lái),基于機(jī)器視覺(jué)的手勢(shì)識(shí)別解決方案因其低廉的硬件成本、方便性和易獲取性等優(yōu)點(diǎn)得到了快速的發(fā)展,成為了當(dāng)前的研究熱點(diǎn)。它的研究涉及到模式識(shí)別、計(jì)算機(jī)圖形學(xué)、計(jì)算機(jī)視覺(jué)和人工智能等多個(gè)領(lǐng)域,在人機(jī)交互方面有著更廣闊的應(yīng)用前景,主要包括:1)手語(yǔ)識(shí)別,例如,普通人與聾啞人之間的交流存在障礙,而自動(dòng)手勢(shì)識(shí)別可以提供良好的手語(yǔ)智能交流平臺(tái),使得雙方可以進(jìn)行無(wú)障礙交流;2)在線教育,通過(guò)精準(zhǔn)的手勢(shì)識(shí)別,可以操控圖像顯示,使得教學(xué)課程更具吸引力;3)機(jī)器控制,在復(fù)雜的背景環(huán)境下,可以通過(guò)手勢(shì)實(shí)現(xiàn)對(duì)智能機(jī)器人或智能家電的便捷控制。因此,此課題的研究目標(biāo)是設(shè)計(jì)并開(kāi)發(fā)一套高效、準(zhǔn)確的靜態(tài)手勢(shì)智能識(shí)別系統(tǒng)并將其應(yīng)用于機(jī)器人智能控制領(lǐng)域。
依據(jù)前期相關(guān)研究工作的總結(jié),當(dāng)前智能靜態(tài)手勢(shì)識(shí)別的核心研究點(diǎn)包括手勢(shì)定位、手勢(shì)分割、特征提取和分類識(shí)別[2-4]。其中,手勢(shì)分割是自動(dòng)地將定位后的手勢(shì)從背景中提取出來(lái)的圖像分割方法,手勢(shì)分割的效果(完整度和準(zhǔn)確率)對(duì)后續(xù)處理過(guò)程的識(shí)別率和計(jì)算效率起到至關(guān)重要的影響。因此,手勢(shì)分割是整個(gè)智能手勢(shì)識(shí)別過(guò)程中的關(guān)鍵處理步驟。Tara等[5]學(xué)者提出了一種基于深度圖像的手勢(shì)分割方法,利用閾值分析技術(shù)求得手勢(shì)在圖像中的位置,但深度圖像設(shè)備價(jià)格過(guò)于昂貴無(wú)法普及使用。王先軍等[6]學(xué)者運(yùn)用Hu特征矩描述手勢(shì)的輪廓特征,進(jìn)而用BP(back propagation)神經(jīng)網(wǎng)絡(luò)進(jìn)行手勢(shì)分類。但是,僅基于Hu特征矩的特征描述包含大量的冗余信息,所以其后續(xù)識(shí)別的實(shí)時(shí)性無(wú)法保證。同一時(shí)期,Patel等學(xué)者利用SIFT(scale invariant feature transform)特征點(diǎn)匹配算法對(duì)美國(guó)手語(yǔ)(ASL)的26個(gè)英文字母A-Z和10個(gè)數(shù)字0-9對(duì)應(yīng)的靜態(tài)手勢(shì)進(jìn)行了匹配識(shí)別[7]。
綜上所述,當(dāng)前手勢(shì)分割與識(shí)別的主要技術(shù)難點(diǎn)為:1)類膚色背景下難以準(zhǔn)確進(jìn)行手勢(shì)分割;2)手臂部分的冗余信息難以去除;3)難以降低手勢(shì)識(shí)別的計(jì)算復(fù)雜度[8-11]。針對(duì)以上問(wèn)題,本文提出了一種能夠在相對(duì)低廉的單目視覺(jué)硬件平臺(tái)上,基于ICWA算法和集成PCA降維與凸性檢測(cè)方法的靜態(tài)手勢(shì)分割算法模型。本文首先討論如何利用圖像梯度信息和ICWA算法進(jìn)行類膚色背景環(huán)境下的手勢(shì)圖像分割與提取,再結(jié)合PCA降維算法提取的手勢(shì)斜率特征和凸性檢測(cè)獲得的手勢(shì)凸點(diǎn)信息,說(shuō)明如何將手掌和手臂部分進(jìn)行分割,進(jìn)而有效地減少手勢(shì)識(shí)別的冗余信息。本文通過(guò)展示與文獻(xiàn)[7]中的SIFT算法的對(duì)比實(shí)驗(yàn)結(jié)果驗(yàn)證了該模型能夠高效、準(zhǔn)確地從類膚色背景環(huán)境中分割、提取出手勢(shì)圖像并準(zhǔn)確地將手掌和手臂的圖像區(qū)域區(qū)分開(kāi)來(lái)。最后,本文還展示了一個(gè)初步的基于卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network, CNN)的手勢(shì)智能識(shí)別框架并獲得了良好的識(shí)別率,從而進(jìn)一步驗(yàn)證了此模型的正確性和實(shí)用性。
研發(fā)基于ICWA的手勢(shì)智能識(shí)別系統(tǒng)的主要步驟為手勢(shì)定位、手勢(shì)分割和手勢(shì)識(shí)別,其總體工作流程(如圖1所示)為:1)在單目視覺(jué)條件下采集圖像數(shù)據(jù)并進(jìn)行手勢(shì)定位;2)利用ICWA對(duì)定位后的圖像進(jìn)行膚色區(qū)域與類膚色背景的分離;3)保留膚色區(qū)域并刪除冗余的手臂區(qū)域;4)利用深度學(xué)習(xí)網(wǎng)絡(luò)進(jìn)行手勢(shì)識(shí)別。
圖1 手勢(shì)分割與識(shí)別流程圖Fig.1 A flow chart of the gesture segmentation and recognition
膚色信息通常被用于人臉識(shí)別和手勢(shì)識(shí)別等研究中[2,4]。對(duì)于手勢(shì)識(shí)別應(yīng)用,只要在合適的色彩空間中(例如:HSV、HSI、RGB、YUV和YCrCb)對(duì)膚色圖像數(shù)據(jù)進(jìn)行采樣并計(jì)算合適的閾值就可以實(shí)現(xiàn)膚色區(qū)域和非膚色區(qū)域的分割。由于膚色檢測(cè)對(duì)亮度十分敏感,因而將RGB空間下的圖片轉(zhuǎn)化到Y(jié)CrCb空間以減少亮度對(duì)膚色檢測(cè)的影響。經(jīng)過(guò)理論分析與實(shí)踐可知,YCrCb空間是最適合膚色圖像區(qū)域分割的顏色空間。RGB空間與YCrCb空間的轉(zhuǎn)換公式為
為了進(jìn)一步降低光線對(duì)目標(biāo)分割的影響,需要將亮度分量單獨(dú)保存到一個(gè)顏色空間[12-13],經(jīng)過(guò)大量實(shí)驗(yàn)證明,YCrCb空間最適合膚色分割且黃種人的膚色區(qū)域閾值為:Y>80,133<Cr<173,77<Cb<127[14-15]。因此,將圖像從 RGB 空間轉(zhuǎn)換到Y(jié)CrCb空間后,根據(jù)此閾值即可以將膚色和非膚色區(qū)域分割開(kāi)。其結(jié)果如圖2和圖3所示。
圖2 原始圖像Fig.2 The original image
圖3 膚色分割后的圖像Fig.3 The segmented image
簡(jiǎn)單的基于YCrCb空間的膚色分割方法并不能達(dá)到準(zhǔn)確地分割出手勢(shì)的目的,因此需要進(jìn)行進(jìn)一步的算法處理,其中首要的任務(wù)就是要分離膚色和類膚色區(qū)域,從而實(shí)現(xiàn)手勢(shì)區(qū)域的準(zhǔn)確提取。首先,圖3所示的結(jié)果依然包含了很多粗糙點(diǎn)、空洞點(diǎn)和毛邊等,所以在準(zhǔn)確分割、提取前,利用形態(tài)學(xué)中的開(kāi)運(yùn)算(先進(jìn)行腐蝕操作后進(jìn)行膨脹操作)和閉運(yùn)算(先進(jìn)行膨脹操作后進(jìn)行腐蝕操作)對(duì)原始靜態(tài)手勢(shì)圖片進(jìn)行預(yù)處理以去除圖像數(shù)據(jù)噪聲。 腐蝕與膨脹操作的公式為
腐蝕之后圖像會(huì)向內(nèi)收縮,而膨脹之后圖像會(huì)向外擴(kuò)展。如圖4所示,手勢(shì)圖片經(jīng)形態(tài)學(xué)的開(kāi)和閉運(yùn)算之后消除了毛邊和空洞點(diǎn),圖片中的手勢(shì)邊界和類膚色區(qū)域邊界均較為圓滑,適合進(jìn)行下一步的膚色與類膚色區(qū)域的精確分割與提取。
圖4 經(jīng)開(kāi)閉運(yùn)算后的手勢(shì)分割圖Fig.4 The gesture segmentation image processed by open and close operations
分水嶺算法(watershed algorithm, WA)是一種基于計(jì)算機(jī)形態(tài)學(xué)的圖像分割算法,它能夠高效、準(zhǔn)確地連通目標(biāo)區(qū)域的邊界,因而被廣泛地應(yīng)用于數(shù)字圖像處理領(lǐng)域[16]。傳統(tǒng)的WA是一種基于拓?fù)淅碚摰臄?shù)學(xué)形態(tài)學(xué)分割方法,它將一張圖像看成一幅地形圖,每個(gè)像素點(diǎn)坐標(biāo)(x,y)即成為地形圖中的平面坐標(biāo),而該像素點(diǎn)的灰度值即是地形圖中的海拔高度值。每一個(gè)局部極小值都被稱為積水盆地且會(huì)對(duì)其附近的區(qū)域產(chǎn)生影響。由于傳統(tǒng)的WA是一種基于圖像梯度的圖像分割方法,所以當(dāng)圖像中擁有的局部極小值太多時(shí)就會(huì)形成過(guò)多的初始化點(diǎn),導(dǎo)致圖像的過(guò)度分割問(wèn)題,從而得不到理想的分割結(jié)果。因此,需要在傳統(tǒng)的WA上進(jìn)行改進(jìn),以求解決過(guò)度分割問(wèn)題,所以改進(jìn)的算法必須能夠減少原圖像像素的梯度差,同時(shí)減少初始分割點(diǎn)。本文提出的ICWA的總體算法流程如圖5所示。
圖5 改進(jìn)后分水嶺算法(ICWA)流程圖Fig.5 The workflow of ICWA
1)對(duì)開(kāi)閉操作后的灰度圖像進(jìn)行高斯濾波,以去除噪聲數(shù)據(jù)。例如,經(jīng)過(guò)高斯濾波后的灰度圖像可以消除大量無(wú)效的局部最小值點(diǎn),以防止過(guò)度分割。
2)計(jì)算開(kāi)、閉操作后灰度圖的Hu矩,再由Hu矩特征得到質(zhì)心坐標(biāo)。幾何矩和質(zhì)心坐標(biāo)的計(jì)算式為
式(4)表示圖像f(x,y)的p+q階幾何矩,而式(5)表示圖像f(x,y)的質(zhì)心坐標(biāo)。
3)將質(zhì)心和經(jīng)過(guò)高斯濾波過(guò)濾后的圖像梯度的局部極小值作為積水盆地(經(jīng)過(guò)大量實(shí)驗(yàn)驗(yàn)證,這里選擇梯度值低于22),并開(kāi)始一點(diǎn)點(diǎn)填充尋找分水嶺。經(jīng)過(guò)ICWA處理結(jié)果的對(duì)比實(shí)驗(yàn)證明,該算法可以完整地分割、提取出淺藍(lán)色的手勢(shì)區(qū)域,并準(zhǔn)確地排除其他類膚色區(qū)域,如圖6所示。與之相比,傳統(tǒng)WA會(huì)造成嚴(yán)重的過(guò)分割現(xiàn)象,如圖7所示。此外,如圖8所示,經(jīng)過(guò)ICWA分割、處理得到的圖片周邊會(huì)存在很多毛刺,因此還需要對(duì)圖8進(jìn)行中值濾波處理,處理后的結(jié)果如圖9所示。
圖6 ICWA算法的處理效果Fig.6 Output results of ICWA
圖7 傳統(tǒng)分水嶺算法(WA)的處理結(jié)果Fig.7 Output results of the traditional WA
圖8 ICWA提取的手勢(shì)圖片F(xiàn)ig.8 The gesture image of extracted by ICWA
圖9 中值濾波處理結(jié)果Fig.9 The processing result median filter
在手勢(shì)識(shí)別中手掌部分的信息是最重要的,其影響著手勢(shì)識(shí)別的正確率,而手臂部分則是冗余信息完全可以刪除,所以實(shí)現(xiàn)手掌與手臂之間的分割是手勢(shì)智能識(shí)別之前的關(guān)鍵處理步驟,它可以有效地提高手勢(shì)識(shí)別的計(jì)算效率以及手勢(shì)識(shí)別的準(zhǔn)確率。因此,本文提出一種基于凸性檢測(cè)[17]和PCA降維算法[18]相結(jié)合的手臂分割方法。
凸性檢測(cè)是理解物體輪廓的一種有效方法,就是求一組點(diǎn)集的凸包集合。它是計(jì)算機(jī)幾何學(xué)的一個(gè)基本問(wèn)題,其本質(zhì)就是利用Graham Scan算法來(lái)維護(hù)一個(gè)凸殼(凸包輪廓),通過(guò)不斷地對(duì)凸殼中加入新點(diǎn)或者刪除影響凸性的點(diǎn),來(lái)不斷地改變凸殼的形狀,最終形成一個(gè)穩(wěn)定的凸包,其算法流程總結(jié)如下:
1)對(duì)點(diǎn)集的排序,其目的是為了梳理雜亂的點(diǎn)集以提高算法的效率。這里采用極坐標(biāo)系,找到y(tǒng)坐標(biāo)最小的點(diǎn)(若y坐標(biāo)相同則取x小的點(diǎn))記為 p0,將 p0與{p1,p2,...,pn}中每個(gè)點(diǎn)相連,再以p0為極點(diǎn),進(jìn)而計(jì)算每條連線的極角并按從小到大排列(若極角相等則計(jì)算距離由小到大排列)。
2)把p0、p1依次入棧,遍歷剩下的點(diǎn)集PLeft={p2,p3,p4,...,pn}把屬于凸包的點(diǎn)集入棧,其他無(wú)關(guān)點(diǎn)集出棧。其中,可以根據(jù)叉積來(lái)判斷入棧和出棧,若依次遍歷PLeft中的每一個(gè)點(diǎn),若當(dāng)前點(diǎn)為凸包凸點(diǎn)時(shí),則向左旋轉(zhuǎn),而沒(méi)有向左旋轉(zhuǎn)的點(diǎn)則是非凸點(diǎn)。 p1與 p2的叉積在物理上可以理解為兩向量所組成的平行四邊形的面積,而數(shù)學(xué)上可以通過(guò)正負(fù)來(lái)判斷方向。若 p1與 p2的叉積為負(fù),相對(duì)于 p0p1,點(diǎn)p2在逆時(shí)針?lè)较蚣醋筮吶霔?,?p1與 p2的 叉積為正,則相對(duì)于 p0p1,點(diǎn)p2在順時(shí)針?lè)较蚣从疫呥M(jìn)行棧頂元素出棧操作。依據(jù)這個(gè)原則繼續(xù)判斷棧頂前兩個(gè)元素與前點(diǎn)的位置關(guān)系,最后棧中的點(diǎn)集就是本文需要找的凸點(diǎn),連接后就是凸包。凸性檢測(cè)實(shí)驗(yàn)判定手勢(shì)凸點(diǎn)的輸出結(jié)果如圖10所示,其中輪廓為檢測(cè)出的凸包輪廓,圓圈為檢測(cè)出的凸點(diǎn),而表1記錄了凸點(diǎn)位置與凸包輪廓之間的距離。
圖10 凸性檢測(cè)處理結(jié)果Fig.10 A convexity detection result
表1 凸點(diǎn)位置分類及其與凸包輪廓的之間距離Table1 Convex point location classification and the distance between location and its convex hull contour
3)根據(jù)已有的凸包輪廓和凸點(diǎn)坐標(biāo),可以進(jìn)一步求得凸點(diǎn)坐標(biāo)和凸包輪廓之間的距離,將點(diǎn)集分為距離凸包輪廓近的“近點(diǎn)”和距離凸包輪廓遠(yuǎn)的“遠(yuǎn)點(diǎn)”,一般人的手腕都是凹陷處即遠(yuǎn)點(diǎn),所以尋找手臂分割線可以先從“遠(yuǎn)點(diǎn)”入手,若“遠(yuǎn)點(diǎn)”集合中沒(méi)有再尋找“近點(diǎn)”集合。
PCA即主成分分析,用于圖像和數(shù)據(jù)的降維,其本質(zhì)就是將高維數(shù)據(jù)降維到低維空間。這里探索將PCA降維方法應(yīng)用于手臂分割線的提取,主要目的是要研究一種方法來(lái)便捷地得到手勢(shì)的主要方向?;谑直鄯指罹€與手勢(shì)方向基本呈現(xiàn)垂直狀態(tài)的客觀事實(shí),求得了手勢(shì)的方向也就得到了手臂的分割線?;赑CA降維的手臂分割線提取算法的具體步驟如下:
1)求得原始靜態(tài)手勢(shì)圖片的均值圖片,并以原始圖片減去均值圖片得到均差圖片。
2)求得步驟1)中均差圖片的協(xié)方差矩陣,再由協(xié)方差矩陣得到靜態(tài)手勢(shì)圖片的特征值和特征向量,將特征值和特征向量一一對(duì)應(yīng)并按從大到小進(jìn)行排列。
3)取前k個(gè)特征向量,對(duì)均差圖片進(jìn)行降維?;谥幌霃脑摲椒ㄖ械玫绞謩?shì)的方向,只要取值meaneigval=1(meaneigval為選取前meaneigval個(gè)特征值與其所對(duì)應(yīng)的特征向量,因?yàn)橐桓膘o態(tài)手勢(shì)圖片中,手勢(shì)斜率為其主要特征且特征值最大,因此meaneigval取值為1)即可得到原始靜態(tài)手勢(shì)的斜率k。
4)為了有效降低計(jì)算量,此算法先遍歷“遠(yuǎn)點(diǎn)”集合中的每?jī)蓚€(gè)點(diǎn),求得它們之間的斜率k′和距離 d,進(jìn)而根據(jù) k×k′=-1,取得與-1 最接近的前3條連線和點(diǎn)集,再?gòu)闹腥最大的作為手臂的分割點(diǎn),因?yàn)槭直坶g的寬度總是大于手指間的寬度。若在“遠(yuǎn)點(diǎn)”集合中沒(méi)有尋找到分割線就再在“近點(diǎn)”集合中進(jìn)行查找。最后,還要以手勢(shì)質(zhì)心方向判斷分割線是否查找正確,若質(zhì)心點(diǎn)在分割線之上則正確,反之錯(cuò)誤繼續(xù)查找。根據(jù)以上步驟進(jìn)行了基于PCA降維的手臂分割線提取方法的手腕分割實(shí)驗(yàn),結(jié)果如圖11和圖12所示。
圖11 提取的手臂分割線Fig.11 An extracted arm dividing line
圖12 手掌與手臂的分割結(jié)果Fig.12 The segmentation between the palm and arm
本文的實(shí)驗(yàn)采用Python3.5和OpenCV3.3實(shí)現(xiàn),測(cè)試平臺(tái)的硬件環(huán)境如表2所示。本文使用的手勢(shì)圖片數(shù)據(jù)集包括Marcel標(biāo)準(zhǔn)手勢(shì)數(shù)據(jù)集和網(wǎng)絡(luò)上收集的手勢(shì)數(shù)據(jù)圖片,一共包含了9種手勢(shì),共16 898張圖片。
表2 實(shí)驗(yàn)硬件環(huán)境Table2 Experimental hardware environment
本文首先使用傳統(tǒng)的SIFT算法對(duì)無(wú)類膚色背景的靜態(tài)手勢(shì)圖片進(jìn)行了基于特征點(diǎn)匹配的自動(dòng)識(shí)別,其識(shí)別結(jié)果如圖13所示。其中,手勢(shì)圖片為數(shù)據(jù)集中表示“平鋪”意義的手勢(shì),圖13(a)檢測(cè)出了47個(gè)特征點(diǎn),而圖13(b)檢測(cè)出了41個(gè)特征,連線表示匹配成功的特征點(diǎn)??梢钥闯觯诖薙IFT特征點(diǎn)匹配算法中,由于手勢(shì)的旋轉(zhuǎn)或者陰影的干擾,都會(huì)造成特征點(diǎn)提取和匹配的誤差,從而導(dǎo)致識(shí)別的準(zhǔn)確率降低,同時(shí)由于手臂的冗余信息無(wú)法去除會(huì)造成匹配算法的效率大大降低。
圖13 SIFT算法特征匹配結(jié)果Fig.13 SIFT feature matching results
此外,本文將傳統(tǒng)WA、主動(dòng)標(biāo)記的分水嶺算法AMWA(active marker watershed algorithm)和ICWA進(jìn)行了對(duì)比實(shí)驗(yàn)。圖14在展示了在類膚色背景下WA、AMWA和ICWA之間的靜態(tài)手勢(shì)分割結(jié)果對(duì)比。其存在的主要問(wèn)題在于WA算法雖然能夠分割出膚色和類膚色區(qū)域,但會(huì)出現(xiàn)嚴(yán)重的過(guò)分割現(xiàn)象,將手勢(shì)分割的較為零散,影響后續(xù)識(shí)別的準(zhǔn)確率。而改進(jìn)的AMWA算法,雖然不會(huì)出現(xiàn)過(guò)分割現(xiàn)象,但無(wú)法區(qū)分膚色和類膚色區(qū)域,所以同樣影響識(shí)別準(zhǔn)確率。而本文提出的ICWA算法可以較為準(zhǔn)確地分割出手勢(shì)區(qū)域,原因在于其集成的高斯濾波可以有效地減少圖像的梯度差,并且ICWA算法只由一個(gè)質(zhì)心點(diǎn)作為初始點(diǎn),有效地減少了傳統(tǒng)靜態(tài)手勢(shì)分割算法中的過(guò)分割和無(wú)法完全分割的問(wèn)題。本實(shí)驗(yàn)將ICWA處理后的圖片(像素為48×48)作為輸入數(shù)據(jù),放入LeNet CNN中達(dá)到了較好的識(shí)別效果。為了驗(yàn)證該實(shí)驗(yàn)的實(shí)用性和正確性,本實(shí)驗(yàn)初步采用了CNN中最經(jīng)典的LeNet-5模型:首先由6個(gè)卷積核為5×5、步長(zhǎng)為1的卷積層提取圖像特征,由核為3×3、步長(zhǎng)為2的池化層聚合特征,然后由16個(gè)卷積核為5×5、步長(zhǎng)為1的卷積層提取特征和核為3×3、步長(zhǎng)為2的池化層聚合特征,再由2層全連接層平鋪特征進(jìn)行分類,最后輸出分類信息,具體結(jié)構(gòu)如圖15所示。
圖14 類膚色區(qū)域背景下的WA、AMWA和ICWA之間處理結(jié)果的對(duì)比Fig.14 Comparison of processing results among WA, AMWA and ICWA with skin-like background
圖15 CNN手勢(shì)識(shí)別結(jié)構(gòu)圖Fig.15 The CNN architecture for gesture recognition
如表3所示,使用傳統(tǒng)SIFT算法識(shí)別9種手勢(shì)的平均識(shí)別率為83.04%,而本文所提出的ICWA+LeNet CNN方法的識(shí)別率都高于SIFT算法,且其平均識(shí)別率達(dá)到了97.85%。其主要原因在于:1)SIFT方法會(huì)受到手勢(shì)的旋轉(zhuǎn)和陰影的干擾而導(dǎo)致特征點(diǎn)提取的不一致和相應(yīng)的匹配錯(cuò)誤,最終無(wú)法正確進(jìn)行手勢(shì)識(shí)別; 2) SIFT算法需要進(jìn)行特征點(diǎn)匹配,若匹配不成功就會(huì)出現(xiàn)誤據(jù),而ICWA利用CNN進(jìn)行分類則不會(huì)出現(xiàn)誤據(jù)的情況。因此,ICWA算法可以完整地分割出靜態(tài)手勢(shì)的有效區(qū)域,進(jìn)而能夠準(zhǔn)確地提取出靜態(tài)手勢(shì)的特征。
表3 SIFT算法和ICWA算法準(zhǔn)確率與誤據(jù)率對(duì)比Table3 Comparison of accuracy and error rate between SIFT and ICWA %
利用Marcel標(biāo)準(zhǔn)手勢(shì)數(shù)據(jù)集,在表2所列的硬件平臺(tái)上對(duì)本文所提出的ICWA和傳統(tǒng)分水嶺算法進(jìn)行對(duì)比實(shí)驗(yàn)。圖16分別展示了ICWA+Le-Net CNN方法和傳統(tǒng)的分水嶺算法+LeNet CNN方法對(duì)Marcel數(shù)據(jù)集中的每張圖片進(jìn)行分類識(shí)別的結(jié)果對(duì)比(按手勢(shì)種類取平均值)。從實(shí)驗(yàn)結(jié)果可以看出,ICWA+LeNet CNN方法識(shí)別率明顯高于傳統(tǒng)分水嶺算法+LeNet CNN方法。
圖16 傳統(tǒng)分水嶺算法(WA)與ICWA的平均識(shí)別率比較Fig.16 Comparison of average recognition rate between traditional WA and ICWA
本文發(fā)現(xiàn)基于低成本單目視覺(jué)的靜態(tài)手勢(shì)分割算法依然難以在復(fù)雜類膚色背景下進(jìn)行準(zhǔn)確、完整的手勢(shì)圖像分割與提?。?)傳統(tǒng)分水嶺算法很容易在類膚色背景和手勢(shì)前景中造成嚴(yán)重的過(guò)分割現(xiàn)象;2)傳統(tǒng)方法沒(méi)有考慮將手臂和手掌部分進(jìn)行高效地分割,以減少冗余信息。為了解決這個(gè)難題,本文提出了針對(duì)有大量類膚色背景的靜態(tài)手勢(shì)分割算法模型。其設(shè)計(jì)并集成了ICWA算法、PCA降維與凸性檢測(cè)融合算法。該模型首先由ICWA算法進(jìn)行膚色區(qū)域與類膚色區(qū)域的區(qū)分,保留膚色區(qū)域,然后由PCA降維與凸性檢測(cè)相結(jié)合的算法求得手臂分割線,排除手臂冗余區(qū)域。最后,經(jīng)過(guò)大量實(shí)驗(yàn)驗(yàn)證了該算法模型的準(zhǔn)確性、有效性和實(shí)用性。其精確、高效的手掌部分圖像的分割與提取為后續(xù)靜態(tài)手勢(shì)的快速、智能識(shí)別打下了堅(jiān)實(shí)基礎(chǔ)。
未來(lái)的研究重點(diǎn)是探索一種特征描述算子來(lái)描述、記錄動(dòng)態(tài)手勢(shì)的軌跡,特別是三維深度信息。此外,需要深入研究并設(shè)計(jì)出滿足實(shí)用要求的深度學(xué)習(xí)網(wǎng)絡(luò)來(lái)高效、智能地識(shí)別有缺陷的靜態(tài)手勢(shì)分割圖片和使用動(dòng)態(tài)的手勢(shì)軌跡特征進(jìn)行學(xué)習(xí)。