陳燕湄,羅兵(五邑大學(xué) 信息工程學(xué)院,廣東 江門(mén) 529020)
基于三維軌跡的相似手勢(shì)識(shí)別研究
陳燕湄,羅兵
(五邑大學(xué) 信息工程學(xué)院,廣東 江門(mén) 529020)
為解決動(dòng)態(tài)手勢(shì)識(shí)別中相似手勢(shì)識(shí)別率不高的問(wèn)題,本文開(kāi)發(fā)了基于Leap Motion設(shè)備的動(dòng)態(tài)手勢(shì)識(shí)別系統(tǒng),即對(duì)采集到的所有動(dòng)態(tài)手勢(shì)的三維運(yùn)動(dòng)軌跡數(shù)據(jù)預(yù)處理后,以運(yùn)動(dòng)角為固定特征通過(guò)HMM模型區(qū)分出非相似與相似手勢(shì);對(duì)于相似手勢(shì),設(shè)計(jì)了基于角點(diǎn)數(shù)、子區(qū)域百分比、角點(diǎn)序號(hào)百分比、軌跡區(qū)域長(zhǎng)寬比的二次識(shí)別系統(tǒng).驗(yàn)證試驗(yàn)表明,相似手勢(shì)的最終識(shí)別率高達(dá)92.56%,二次識(shí)別的平均識(shí)別率比基于HMM一次識(shí)別的平均識(shí)別率提高了17%.
手勢(shì)識(shí)別;人機(jī)交互;手勢(shì)分割;隱馬爾科夫模型
手勢(shì)識(shí)別是實(shí)現(xiàn)自然人機(jī)交互(Human-Computer-Interaction,HCI)的一種重要手段,手勢(shì)識(shí)別技術(shù)從基于數(shù)據(jù)手套發(fā)展到基于視覺(jué),業(yè)已取得了頗豐的成果[1].然而,動(dòng)態(tài)手勢(shì)識(shí)別技術(shù)中還存在不少的難點(diǎn),其中相似手勢(shì)的存在大大降低了系統(tǒng)的平均識(shí)別率.
相似手勢(shì)是指手勢(shì)無(wú)論是在結(jié)構(gòu)上還是在基于某種特征信息上均具備相同或相似的信息,使得系統(tǒng)難以憑借某種單一的特征對(duì)其進(jìn)行辨別.人們對(duì)相似手勢(shì)識(shí)別進(jìn)行了研究[2-4],方法都是通過(guò)結(jié)合多種手勢(shì)特征(multi-feature-based)或者通過(guò)結(jié)合兩種或兩種以上的分類(lèi)算法(例如HMM-FNN-based)來(lái)降低相似手勢(shì)的干擾,它們能在一定程度上提高系統(tǒng)的識(shí)別率,但當(dāng)系統(tǒng)的手勢(shì)種類(lèi)增加時(shí),依然無(wú)法解決識(shí)別速度與準(zhǔn)確率相矛盾的問(wèn)題.本文首先對(duì)系統(tǒng)非相似手勢(shì)與相似手勢(shì)進(jìn)行分離,再采用分層的方法增強(qiáng)對(duì)相似手勢(shì)的識(shí)別.
本文采用的手勢(shì)采集設(shè)備Leap Motion是美國(guó)Leap公司開(kāi)發(fā)的一款三維測(cè)量傳感系統(tǒng),中文翻譯為“厲動(dòng)”,主要用于人體體感的傳感測(cè)量.本文設(shè)計(jì)的基于運(yùn)動(dòng)軌跡的動(dòng)態(tài)手勢(shì)識(shí)別流程如下:利用Leap Motion對(duì)動(dòng)態(tài)手勢(shì)的三維運(yùn)動(dòng)軌跡進(jìn)行采集,再對(duì)采集到的原始數(shù)據(jù)進(jìn)行預(yù)處理并對(duì)運(yùn)動(dòng)軌跡進(jìn)行特征提取,然后利用隱馬爾可夫模型(Hidden Markov Model,HMM)算法實(shí)現(xiàn)一次識(shí)別并得到系統(tǒng)的相似手勢(shì)集,最后針對(duì)相似手勢(shì)設(shè)計(jì)二次識(shí)別系統(tǒng).
1.1 有效手勢(shì)軌跡點(diǎn)定位以及數(shù)據(jù)采集模塊
傳統(tǒng)的有效軌跡點(diǎn)定位方法是運(yùn)動(dòng)速度閾值模型方法,即,當(dāng)檢測(cè)到速度低于某閾值時(shí)就認(rèn)為是手勢(shì)的開(kāi)始或結(jié)束.這種方法存在著低穩(wěn)定性、低魯棒性的缺點(diǎn).Leap Motion可實(shí)現(xiàn)對(duì)手指聚合、分開(kāi)狀態(tài)的檢測(cè),本文利用這個(gè)功能實(shí)現(xiàn)對(duì)有效軌跡點(diǎn)的定位.當(dāng)Leap Motion檢測(cè)到手指狀態(tài)為分開(kāi)時(shí),設(shè)備開(kāi)始采集手勢(shì)運(yùn)動(dòng)軌跡;若檢測(cè)狀態(tài)為聚合時(shí),設(shè)備停止采集.
本文搭建的基于視覺(jué)的手勢(shì)采集平臺(tái)如圖1所示,當(dāng)Leap Motion標(biāo)記狀態(tài)為綠色時(shí),傳感器內(nèi)置的兩個(gè)攝像頭從不同的角度以200幀/秒的速度捕捉手掌心的運(yùn)動(dòng)位置與速度信息,并根據(jù)Leap Motion系統(tǒng)自動(dòng)生成的空間坐標(biāo)系對(duì)這兩個(gè)信息進(jìn)行記錄,記為 pt( x, y, z, vx, vy, vz).本實(shí)驗(yàn)包含36種手勢(shì):數(shù)字“1~9”以及字母“A—Z”.為了提高系統(tǒng)識(shí)別的魯棒性,15人參與了數(shù)據(jù)采集工作,每人每種手勢(shì)采集10個(gè)樣本,共采集5 400個(gè)樣本(150×36).
1.2 數(shù)據(jù)預(yù)處理以及固定特征提取模塊
手勢(shì)軌跡在起止處出現(xiàn)了采樣點(diǎn)堆積的情況,本文統(tǒng)計(jì)分析發(fā)現(xiàn),這種情況一般出現(xiàn)在手勢(shì)軌跡序列的前10 mm以及后10 mm的地方,因此對(duì)這兩處的采樣點(diǎn)進(jìn)行了刪除處理,以刪除后的軌跡的第一個(gè)點(diǎn)以及最后一個(gè)點(diǎn)作為該手勢(shì)軌跡的新的起止點(diǎn),如圖2所示.
圖1 數(shù)據(jù)采集實(shí)驗(yàn)平臺(tái)
圖2 堆積點(diǎn)刪除后的軌跡示意圖
本研究以運(yùn)動(dòng)方向角為固定特征.方向角是相鄰兩時(shí)刻的坐標(biāo)向量與X軸按逆時(shí)針?lè)较蛩M成的角,如圖3-a所示.首先把所有手勢(shì)的三維軌跡信息都投影到XOZ平面,則相鄰兩時(shí)刻的采樣點(diǎn)坐標(biāo)分別為1tp-和tp,方向角tα的計(jì)算如下:
為了降低計(jì)算量,本文將得到的方向角信息用9方向鏈碼(如圖3-b所示)量化成9個(gè)等級(jí),量化后每個(gè)手勢(shì)都可以用1~9的數(shù)字編碼作為手勢(shì)的特征向量輸入到模型中.
圖3 軌跡上的方向角以及其量化示意圖
1.3 基于HMM的一次識(shí)別
本文利用五元組 λ = (M, N,A, B,π)來(lái)描述HMM模型,其中A表示與時(shí)間無(wú)關(guān)的狀態(tài)轉(zhuǎn)移概率矩陣;B表示在給定狀態(tài)下,觀測(cè)值的概率分布;π表示初始狀態(tài)空間的概率分布,本文中π=[10 …0]T;N表示隱含狀態(tài)數(shù),本文結(jié)合手勢(shì)的復(fù)雜度,分別對(duì)每個(gè)手勢(shì)設(shè)置了N值;M表示觀測(cè)狀態(tài)數(shù),本文中 M = 36.本文使用每個(gè)手勢(shì)中的100個(gè)樣本作為訓(xùn)練樣本,并以Baum-Welch算法訓(xùn)練模型;訓(xùn)練結(jié)束后,每個(gè)手勢(shì)都有對(duì)應(yīng)的最優(yōu)HMM模型(某一手勢(shì)在36個(gè)HMM模型中似然概率最大值對(duì)應(yīng)的手勢(shì)即為HMM的分類(lèi)結(jié)果).本文利用每個(gè)手勢(shì)的剩余50個(gè)樣本作為測(cè)試樣本對(duì)HMM模型進(jìn)行測(cè)試.
1.4 一次識(shí)別結(jié)果及分析
HMM初次識(shí)別的目的是為了得到本實(shí)驗(yàn)手勢(shì)庫(kù)中所包含的相似手勢(shì)集,即哪種手勢(shì)與哪種或哪幾種手勢(shì)在分類(lèi)過(guò)程中出現(xiàn)多次互相混淆的情況.相似手勢(shì)集獲取的具體方法為:若某種手勢(shì)測(cè)試樣本中有4個(gè)或4個(gè)以上同時(shí)被識(shí)別成另外一種或多種手勢(shì),即認(rèn)為該手勢(shì)與后者中的一種或多種手勢(shì)是相似手勢(shì)對(duì),表1是一次識(shí)別的結(jié)果.
表1 基于HMM的一次識(shí)別結(jié)果
(續(xù)表1)
從表1可以看出,由于實(shí)驗(yàn)手勢(shì)種類(lèi)較多,因此不可避免地存在相似手勢(shì),本文利用提取的 4種二次特征對(duì)相似手勢(shì)進(jìn)行了增強(qiáng)識(shí)別.
2.1 二次特征提取
1)角點(diǎn)數(shù);角點(diǎn)是指在手勢(shì)軌跡采樣點(diǎn)中,相鄰兩點(diǎn)之間的運(yùn)動(dòng)方向角度值之差 Δ αt(滿足Δαt> T,其中T為角度閾值).通過(guò)對(duì)每個(gè)手勢(shì)中的50個(gè)測(cè)試樣本的統(tǒng)計(jì),確定每個(gè)手勢(shì)中判斷角點(diǎn)的閾值T,以保證從每個(gè)樣本中可靠地發(fā)現(xiàn)角點(diǎn).相似手勢(shì)對(duì)應(yīng)的閾值和角點(diǎn)數(shù)見(jiàn)表2.
2)子區(qū)域百分比;把手勢(shì)軌跡的區(qū)域提取出來(lái),然后將其平均分成4個(gè)子區(qū)域,分別計(jì)算每個(gè)子區(qū)域中采樣點(diǎn)的點(diǎn)數(shù)占總采樣點(diǎn)數(shù)的百分比.用式(1)計(jì)算每個(gè)手勢(shì)特征的4個(gè)標(biāo)準(zhǔn)值:
其中, s ubAreai, j是指該手勢(shì)第 j 個(gè)樣本中第i個(gè)子區(qū)域中采樣點(diǎn)數(shù);k為正確分類(lèi)的樣本數(shù),每個(gè)相似手勢(shì)對(duì)應(yīng)的k值如表2所示.
3)角點(diǎn)序號(hào)百分比;是指該手勢(shì)對(duì)應(yīng)的角點(diǎn)在整個(gè)軌跡采樣點(diǎn)中的排序與該軌跡采樣點(diǎn)總數(shù)的百分比.分別計(jì)算k個(gè)測(cè)試樣本中角點(diǎn)序號(hào)百分比,然后取其平均值即為每個(gè)手勢(shì)的角點(diǎn)序號(hào)百分比標(biāo)準(zhǔn)值.
4)軌跡區(qū)域長(zhǎng)寬比;是指手勢(shì)軌跡區(qū)域長(zhǎng)和寬的比例,每個(gè)手勢(shì)的軌跡區(qū)域長(zhǎng)寬比標(biāo)準(zhǔn)值是通過(guò)對(duì)k個(gè)測(cè)試樣本的長(zhǎng)寬比求平均值得到的.
表2 相似手勢(shì)對(duì)應(yīng)的T、k以及角點(diǎn)數(shù)的取值
2.2 二次識(shí)別算法
經(jīng)HMM模型一次識(shí)別為相似手勢(shì)的,需提取輸入手勢(shì)的4種特征進(jìn)行二次識(shí)別,其具體流程如圖4所示.4種特征對(duì)于二次分類(lèi)的可信度為:角點(diǎn)數(shù)>子區(qū)域百分比>角點(diǎn)序號(hào)百分比>長(zhǎng)寬比,二次識(shí)別系統(tǒng)以可信度的排名作為匹配的順序.
圖4 二次識(shí)別的具體流程圖
相似手勢(shì)二次識(shí)別的結(jié)果見(jiàn)表3.對(duì)比兩次識(shí)別的識(shí)別率可知,本文提取的4種特征對(duì)相似手勢(shì)的二次識(shí)別起到了關(guān)鍵的作用:系統(tǒng)對(duì)于相似手勢(shì)的最終識(shí)別率高達(dá)92.56%,二次識(shí)別的平均識(shí)別率比基于HMM一次識(shí)別的平均識(shí)別率提高了17%,
表3 相似手勢(shì)一次識(shí)別與二次識(shí)別的識(shí)別率對(duì)比
本文先用簡(jiǎn)單特征運(yùn)動(dòng)方向角識(shí)別所有采集到的手勢(shì),HMM模型將其分為非相似手勢(shì)與相似手勢(shì)兩類(lèi),對(duì)于相似手勢(shì)再采用復(fù)雜特征識(shí)別,在提高識(shí)別速度的同時(shí)也提高了識(shí)別精度,很好地解決了識(shí)別速度與識(shí)別準(zhǔn)確率相矛盾的問(wèn)題.圖5對(duì)比了 36種實(shí)驗(yàn)手勢(shì)用 multi-feature-based、MHH-FNN-based方法與本文方法識(shí)別的結(jié)果,實(shí)驗(yàn)表明本文的識(shí)別方法可靠高效.
圖5 本文方法與multi-feature-based、HMM-FNN-based方法對(duì)36種手勢(shì)的識(shí)別
本文主要對(duì)手勢(shì)分割以及相似手勢(shì)的識(shí)別進(jìn)行了研究,通過(guò)一次HMM識(shí)別以及二次識(shí)別系統(tǒng)實(shí)現(xiàn)了對(duì)非相似手勢(shì)以及相似手勢(shì)的識(shí)別.在往后的工作中,需要對(duì)一次識(shí)別算法HMM進(jìn)行更深入的研究;此外,本系統(tǒng)并沒(méi)有被應(yīng)用到具體實(shí)踐中,在以后的研究中,本系統(tǒng)將用于機(jī)器人的運(yùn)動(dòng)控制.
[1]常亞南.基于HMM的動(dòng)態(tài)手勢(shì)識(shí)別[D].廣州:華南理工大學(xué),2012.
[2]AVILES-ARRIAGA H H,SUCAR L E,MENDOZA C E.Visual recognition of similar gestures[C]//Proceedings of the 18th International Conference on Pattern Recognition:Volume 1.Hongkong:IEEE,2006:1100-1103.
[3]HERATH H M S P B,EKANAYAKE M P B,GODALIYADDA G M R I,et al.Multi-feature based hand-gesture recognition[C]//15th IEEE International Conference on Advances in ICT for Emerging Regions.Colombo:IEEE,2015:63-68.
[4]王西穎,戴國(guó)忠,張習(xí)文,等.基于HMM-FNN模型的復(fù)雜動(dòng)態(tài)手勢(shì)識(shí)別[J].軟件學(xué)報(bào),2008,19(9):2302-2312.
[責(zé)任編輯:熊玉濤]
Research on Similar Hand Gesture Recognition Based on 3D Trajectories
CHEN Yan-mei,LUO Bing
(School of Information Engineering,Wuyi University,Jiangmen 529020,China)
In order to solve the problemof low similar gesture recognition rate in dynamic hand gesture recognition,this study develops a dynamic hand gesture recognition system based on the Leap Motion equipment.After pretreatment of all the collected 3D motion trajectory data,non-similar and similar gestures are distinguished by the HMM model,using motion angles as fixed features.For similar gestures,a secondary recognition system is designed based on corner points,sub area percentage, angular point number percentage,and the track region length to width ratio.Experiments show that the final similar gesture recognition rate is as high as 92.56%and the rate of second time recognition is 17%higher than that of the first-time.
gesture recognition;human-computer interaction;gesture segmentation;Hidden Markov Model
TP18
A
1006-7302(2016)03-0049-06
2016-03-02
廣東省教育廳科技創(chuàng)新資助項(xiàng)目(2013KJCX0185)
陳燕湄(1990—),女,廣東云浮人,在讀碩士生,主要從事機(jī)器視覺(jué)技術(shù)研究;羅兵,教授,博士,碩士生導(dǎo)師,通信作者,主要從事機(jī)器視覺(jué)技術(shù)及人工智能研究.