趙有強(qiáng)
(西華大學(xué),四川 成都 610039)
?
基于視覺的手勢(shì)識(shí)別在軟件中的應(yīng)用
趙有強(qiáng)
(西華大學(xué),四川 成都 610039)
在計(jì)算機(jī)高速發(fā)展的今天,計(jì)算機(jī)已經(jīng)成為了人們生活中的一部分。同時(shí),用戶對(duì)軟件的要求越來越高,如何實(shí)現(xiàn)人機(jī)更好的交互,帶給用戶更好的體驗(yàn),已經(jīng)成為現(xiàn)在一個(gè)軟件必須考慮甚至是吸引客戶的關(guān)鍵。基于視覺的手勢(shì)識(shí)別的技術(shù),是實(shí)現(xiàn)新一代人機(jī)交互不可缺少的一項(xiàng)關(guān)鍵技術(shù),使用計(jì)算機(jī)通過攝像頭理解人們的手勢(shì)并做出相應(yīng)的反應(yīng),使人們擺脫了傳統(tǒng)的鍵盤鼠標(biāo),通過這種技術(shù),可以更好的實(shí)現(xiàn)人機(jī)的交互,從而給用戶更好的體驗(yàn)。手勢(shì)識(shí)別技術(shù),由簡(jiǎn)單粗略的到復(fù)雜精細(xì)的,大致可以分為三個(gè)等級(jí):二維手型識(shí)別、二維手勢(shì)識(shí)別、三維手勢(shì)識(shí)別。本文主要介紹了手勢(shì)識(shí)別技術(shù)的分類、基本原理及簡(jiǎn)單其應(yīng)用。
人機(jī)交互;手勢(shì)識(shí)別;軟件應(yīng)用
1.1 二維手型識(shí)別。二維手型識(shí)別,也可稱為靜態(tài)二維手勢(shì)識(shí)別,識(shí)別的是手勢(shì)中最簡(jiǎn)單的一類。這種技術(shù)在獲取二維信息輸入之后,可以識(shí)別幾個(gè)特定的靜態(tài)手勢(shì),比如握拳或者五指張開。在使用了他們的軟件之后,用戶可以用幾個(gè)預(yù)先設(shè)定好的手型來控制播放器?!办o態(tài)”是這種二維手勢(shì)識(shí)別技術(shù)的重要特征,這種二維的手型識(shí)別只能識(shí)別靜態(tài)的手勢(shì),而不能感知手勢(shì)的“持續(xù)變化”,只能識(shí)別幾個(gè)靜態(tài)的特定手勢(shì),如果換成其他的手勢(shì),那么就沒有作用了。所以這種技術(shù)說到底是一種模式匹配技術(shù),通過一些計(jì)算機(jī)視覺算法來分析圖像,和預(yù)設(shè)的圖像模式進(jìn)行比對(duì),從而理解這種手勢(shì)的含義,進(jìn)而執(zhí)行相應(yīng)的操作或者實(shí)現(xiàn)相應(yīng)的功能。
1.2 二維手勢(shì)識(shí)別。二維手勢(shì)識(shí)別,和二維手型識(shí)別相比較,更新一些,可以說是二維手型識(shí)別的改進(jìn)版,但是它仍然基本不包含和深度相關(guān)的信息,仍停留在二維的層面上。二維的手勢(shì)識(shí)別技術(shù),可以識(shí)別一些簡(jiǎn)單的二維手勢(shì)動(dòng)作,我們可以用(X坐標(biāo),Y坐標(biāo))來表示坐標(biāo)系,擁有了動(dòng)態(tài)的特征,可以追蹤手勢(shì)的運(yùn)動(dòng),進(jìn)而識(shí)別將手勢(shì)和手部運(yùn)動(dòng)結(jié)合在一起的復(fù)雜動(dòng)作。這樣一來,我們就把手勢(shì)識(shí)別的范圍真正拓展到二維平面了。運(yùn)用這種技術(shù),我們不僅可以通過手勢(shì)來控制計(jì)算機(jī)播放/暫停某些應(yīng)用型的軟件功能,比如音樂播放等,我們還可以實(shí)現(xiàn)前進(jìn)/后退/向上翻頁(yè)/向下滾動(dòng)這些需求二維坐標(biāo)變更信息的復(fù)雜操作了。比如實(shí)現(xiàn)PPT的播放功能等。
1.3 三維手勢(shì)識(shí)別。三維手勢(shì)識(shí)別需要的輸入是包含有深度的信息,可以識(shí)別各種手型、手勢(shì)和動(dòng)作。相比于前兩種二維手勢(shì)識(shí)別技術(shù),三維手勢(shì)識(shí)別不能再只使用單個(gè)普通攝像頭,因?yàn)閱蝹€(gè)普通攝像頭無法提供深度信息。要得到深度信息需要特別的硬件,目前世界上主要有3種硬件實(shí)現(xiàn)方式:結(jié)構(gòu)光(Structure Light)、光飛時(shí)間(Time of Flight)、多角成像(Multi-camera)。然后在運(yùn)用相應(yīng)的先進(jìn)的計(jì)算機(jī)視覺軟件算法,就可以實(shí)現(xiàn)三維手勢(shì)識(shí)別。
1.4 手勢(shì)識(shí)別的原理。要想完成一次手勢(shì)的識(shí)別,那么,一個(gè)基于視覺手勢(shì)識(shí)別系統(tǒng)的構(gòu)成應(yīng)包括:圖像的采集,預(yù)處理,特征提取和選擇,分類器的設(shè)計(jì),以及手勢(shì)識(shí)別幾個(gè)步驟。首先通過攝像機(jī)獲取視頻數(shù)據(jù)流,系統(tǒng)根據(jù)手勢(shì)輸入的交互模型檢測(cè)數(shù)據(jù)流里是否有手勢(shì)出現(xiàn),如果有,則把該手勢(shì)從視頻信號(hào)中切分出來,然后選擇手勢(shì)并分析,分析過程包括特征檢測(cè)和模型參數(shù)估計(jì),分析完成后,根據(jù)模型參數(shù)對(duì)手勢(shì)進(jìn)行分類并根據(jù)需要生成手勢(shì)描述。最后,系統(tǒng)根據(jù)生成的描述去驅(qū)動(dòng)具體應(yīng)用。其中預(yù)處理時(shí)手勢(shì)的分割,特征提取和選擇,以及手勢(shì)識(shí)別采用的算法是最關(guān)鍵的三個(gè)點(diǎn)。
1.4.1 手勢(shì)分割?,F(xiàn)在的分割方法大致可以分為三類:一是基于直方圖的分割,即閾值法,通常取灰度直方圖;二是基于局部區(qū)域信息的分割,如基于邊緣和基于區(qū)域;三是基于顏色等一些物理特征的分割方法。
1.4.2 特征提取和選擇。手勢(shì)本身具有豐富的形變,運(yùn)動(dòng)以及紋理特征,選取合理的特征對(duì)于手勢(shì)的識(shí)別至關(guān)重要。目前,常用的手勢(shì)特征有:輪廓、邊緣、圖像矩、圖像特征向量以及區(qū)域直方圖特征等。
《基于計(jì)算機(jī)視覺的手勢(shì)識(shí)別研究》中提到了多尺度模型,它采用這種模型提取手勢(shì)的指尖的數(shù)量和位置,將指尖和掌心連線,采用距離公式計(jì)算各指尖到掌心的距離,再采用反余弦公式計(jì)算各指尖與掌心連線間的夾角,將距離和夾角作為選擇的特征。對(duì)于靜態(tài)手勢(shì)識(shí)別而言,邊緣信息是比較常用的特征。
1.4.3 手勢(shì)識(shí)別。目前,靜態(tài)手勢(shì)識(shí)別技術(shù)主要有三類:第一類為模板匹配技術(shù),主要是把待識(shí)別的手勢(shì)特征參數(shù)和預(yù)先設(shè)定的模板特征參數(shù)進(jìn)行匹配,通過兩種相似度來識(shí)別。第二類為統(tǒng)計(jì)分析技術(shù),這種技術(shù)從原始數(shù)據(jù)中提取特定的特征向量,對(duì)這些特征向量進(jìn)行分類,然后在進(jìn)行分類識(shí)別。第三類為神經(jīng)網(wǎng)絡(luò)技術(shù),常用的是BP神經(jīng)網(wǎng)絡(luò)(Error Back Propagation Neural Network 誤差反向傳播神經(jīng)網(wǎng)絡(luò))。
不管是二維的手勢(shì)識(shí)別技術(shù)還是三維的手勢(shì)識(shí)別技術(shù),都被運(yùn)用在了市場(chǎng)上很多的軟件和設(shè)備上。
從企業(yè)范圍來看,運(yùn)用二維手型識(shí)別的代表公司是以前被Google收購(gòu)的Flutter。運(yùn)用二維手勢(shì)識(shí)別的代表公司是來自以色列的PointGrab,EyeSight、ExtremeReality以及南京的Zienon。運(yùn)用三維手勢(shì)識(shí)別技術(shù)的代表公司PrimeSense、SoftKinetic及Leap Motion。
從應(yīng)用上來看,和VR結(jié)合的uSens凌感、PrimeSense公司為大名鼎鼎的微軟家XBOX 360所做的Kinect一代等都是運(yùn)用了手勢(shì)識(shí)別技術(shù)。
從設(shè)備上來看,無論是在電視機(jī)上的運(yùn)用,還是在汽車上的運(yùn)用,手勢(shì)識(shí)別技術(shù)已經(jīng)出現(xiàn)在了我們的身邊,雖然現(xiàn)在很多還只是初步的,為了賺一個(gè)喙頭。但是,在科技高速發(fā)展的今天,相信廣泛的應(yīng)用這項(xiàng)技術(shù)已經(jīng)不遠(yuǎn)了,而且必將帶給我們良好的體驗(yàn)。
[1] 劉俊梅,阮秋琦.一種復(fù)雜背景下的手勢(shì)分割新方法[J].北京電子科技學(xué)院學(xué)報(bào),2006,14(2):23-26.
[2] 江鐵成.基于視覺手勢(shì)識(shí)別技術(shù)的實(shí)踐研究[J].合肥師范學(xué)院學(xué)報(bào),2016(03)
[3] 郭雷,動(dòng)態(tài)手勢(shì)識(shí)別技術(shù)綜述[J].軟件導(dǎo)刊,2015(07)
[4] 李映輝,史卓,安亞磊.基于Leap Motion的三維手勢(shì)識(shí)別方法[J].現(xiàn)代計(jì)算機(jī):專業(yè)版,2016(14)
[5] 陳衛(wèi)國(guó),基于計(jì)算機(jī)視覺的手勢(shì)識(shí)別研究.廣西大學(xué),2006
趙有強(qiáng)(1993-),男,漢族,四川瀘州人,本科在校生,西華大學(xué)。
TP391.4
A
1671-1602(2016)20-0014-01