郭雷
摘要:首先分析了手勢(shì)分割存在的技術(shù)難點(diǎn)及人進(jìn)行手勢(shì)分割過程中可能使用的特征,然后分析比較了現(xiàn)有手勢(shì)分割算法的基本思想和特點(diǎn),最后介紹了深度學(xué)習(xí)技術(shù)并總結(jié)了手勢(shì)分割未來的研究方向。
關(guān)鍵詞:RGBD;手分割;手勢(shì)
中圖分類號(hào):TP317.4 文獻(xiàn)標(biāo)識(shí)碼:A DOI:10.3969/j.issn.1003-6970.2015.04.019
0.引言
手勢(shì)是一種不需要中間媒介的,非常人性化的人機(jī)交互方式。手勢(shì)識(shí)別已經(jīng)成為人機(jī)交互的重要內(nèi)容和研究熱點(diǎn)?;谝曈X的手勢(shì)識(shí)別系統(tǒng)通常包含手勢(shì)分割、手勢(shì)建模、手勢(shì)形狀特征提取、手勢(shì)識(shí)別幾個(gè)過程。其中,手勢(shì)分割就是將感興趣的有意義區(qū)域,即手勢(shì)從傳感器獲取數(shù)據(jù)中劃分出來。這是基于視覺的手勢(shì)識(shí)別過程中的第一個(gè)步驟,也是關(guān)鍵的一步。分割的準(zhǔn)確度和實(shí)時(shí)性能直接影響到后期的識(shí)別效果以及整個(gè)交互系統(tǒng)的性能。
傳統(tǒng)的基于視覺的手勢(shì)識(shí)別系統(tǒng)利用攝像頭作為傳感器。單目或雙目視覺系統(tǒng)手勢(shì)圖像數(shù)據(jù),通過圖像處理進(jìn)行手部分割,算法復(fù)雜且需要巨大的計(jì)算量。Kinect是微軟推出的一款傳感輸入設(shè)備,不僅可以獲取場(chǎng)景的彩色紋理信息,也可以獲取場(chǎng)景的深度信息。利用這些信息可以更加快速有效的進(jìn)行手勢(shì)分割。
本文首先分析了手勢(shì)分割存在的技術(shù)難點(diǎn)及進(jìn)行手勢(shì)分割過程中可能使用的特征,然后分析比較了現(xiàn)有手勢(shì)分割算法的基本思想和特點(diǎn),最后介紹了深度學(xué)習(xí)技術(shù)并總結(jié)了手勢(shì)分割未來的研究方向。
1.手勢(shì)分割的技術(shù)難點(diǎn)
由于圖像背景和手勢(shì)本身的復(fù)雜性,實(shí)際生活中,光照的顏色、亮度都會(huì)產(chǎn)生各種變化,而背景物體的移動(dòng)、攝像頭的移動(dòng)、手勢(shì)運(yùn)動(dòng)產(chǎn)生的高光和陰影、類膚色區(qū)域的干擾等,都給手勢(shì)的穩(wěn)定和準(zhǔn)確分割帶來了困難。
人類的視覺系統(tǒng)在任何條件下都能夠較為準(zhǔn)確的認(rèn)出感興趣的區(qū)域。人類視覺系統(tǒng)機(jī)理的認(rèn)識(shí)仍有待提,還沒有統(tǒng)一的理論可以指導(dǎo)傳統(tǒng)的圖像分割方法進(jìn)行改進(jìn)。同時(shí)在復(fù)雜的手勢(shì)特征的先驗(yàn)知識(shí)獲取方面,還沒有既滿足實(shí)時(shí)性又滿足準(zhǔn)確性的方案。
2.手勢(shì)分割的特征
手分割問題,可以看作是一個(gè)在Kinect傳感器獲得的RGB圖像和深度圖像中的手像素或非手像素標(biāo)記問題。這里,我們將RGB圖像和對(duì)應(yīng)的深度圖像數(shù)據(jù)定義為:
其中,color為位置(i,j)對(duì)應(yīng)的顏色信息,按照某種顏色空間定義,depth為該位置的深度信息,
進(jìn)行手分割時(shí),必須對(duì)Data加以處理,提煉特征。通過調(diào)查以往的研究文獻(xiàn),總結(jié)出以下特征:
(1)人體的拓?fù)浣Y(jié)構(gòu):和人體某一局部圖像相比,人們更容易從人體的整體圖像中確定手的位置。這是因?yàn)槿祟愃哂械娜梭w的整體拓?fù)浣Y(jié)構(gòu)知識(shí)。這個(gè)知識(shí)只提供給手部區(qū)域的大致方位。
(2)距手心距離:通過手的形態(tài)學(xué)知識(shí),人類可以推斷當(dāng)距離手心距離小于某個(gè)值,肯定屬于手部區(qū)域,如果大于某個(gè)值,肯定不屬于手部區(qū)域;
(3)膚色和深度:雖然膚色易受到人種,光照等的影響,手部區(qū)域在深度圖像或者彩色圖像上雖然其整體上有可能并不均勻一致,但是其在較小的局部范圍內(nèi)應(yīng)當(dāng)保持一定的連續(xù)性,而非手部區(qū)域的邊界像素與相鄰背景區(qū)域像素具有較大的變化;
在進(jìn)行手區(qū)域判斷的時(shí)候,人類往往不是僅基于某種單一特征,而是多種特征的融合的決策。每個(gè)特征在決策過程中起到不同的作用,對(duì)一個(gè)手的不同位置起到的效用有可能也不一樣。
3.手勢(shì)分割算法
手勢(shì)的檢測(cè)分割包括兩部分:一是檢測(cè)定位,指從圖像中確定有沒有手勢(shì)出現(xiàn),找到手勢(shì)所在區(qū)域;二是手勢(shì)分割,將手勢(shì)區(qū)域從畫面中提取出來,去除背景的干擾。這兩部分一般都是同時(shí)進(jìn)行的。傳統(tǒng)的基于視覺的手勢(shì)分割方法主要有基于膚色的手勢(shì)分割方法、基于運(yùn)動(dòng)的手勢(shì)分割方法、基于輪廓的手勢(shì)分割方法等。
膚色是手勢(shì)最為明顯的特征之一,然而,在實(shí)際應(yīng)用中由于手勢(shì)和背景環(huán)境的復(fù)雜多變,光源亮度和位置的變化、有色光源產(chǎn)生的色彩偏移等,都會(huì)引起膚色的變化,手部彎曲和反轉(zhuǎn)等形變,也會(huì)使得光源角度和陰影發(fā)生變化。這使得整個(gè)手部區(qū)域的膚色可能并不一致,甚至有較大的差異。針對(duì)這些問題當(dāng)前研究者們?cè)趥鹘y(tǒng)膚色分割方法的基礎(chǔ)上,采取了很多改進(jìn)方法,主要有三種:在分割前對(duì)圖像顏色進(jìn)行校正;提出新的顏色空間;結(jié)合其他運(yùn)動(dòng)差分、輪廓、幾何特征等其他分割方法。
基于輪廓的手勢(shì)分割存在兩個(gè)棘手問題:一是由于手部旋轉(zhuǎn)或彎曲等因素使得初始輪廓的獲取較難;二是由于手勢(shì)的形狀本身存在深度凹陷區(qū)域,而輪廓對(duì)此類區(qū)域往往無法收斂到。改進(jìn)模型所增加的迭代次數(shù)和計(jì)算量的代價(jià)使得實(shí)時(shí)性能下降。
基于運(yùn)動(dòng)的分割方法主要分為是幀差法和背景差分法。幀差法利用相鄰圖像幀之間的差分來判斷前景中是否有運(yùn)動(dòng)對(duì)象產(chǎn)生;而背景差分法首先對(duì)背景圖像建模,通過比較背景圖像和含有手勢(shì)的圖像分割出前景。眾多實(shí)驗(yàn)發(fā)現(xiàn),在運(yùn)動(dòng)中產(chǎn)生的光影變化,以及背景的動(dòng)態(tài)變化都會(huì)對(duì)分割結(jié)果產(chǎn)生影響。
Kinect傳感器不僅可以獲取場(chǎng)景的彩色紋理信息,也可以獲取場(chǎng)景的深度信息。研究者利用RGB—D數(shù)據(jù)進(jìn)行手勢(shì)分割時(shí),可以只深度圖像或者融合RGB和深度信息。前者瞄準(zhǔn)快速算法,后者目標(biāo)是一個(gè)精確系統(tǒng)。
文獻(xiàn)將手分割看成一個(gè)深度聚類問題,像素分組于不同的深度水平。通過分析人姿勢(shì)維度確定一個(gè)閾值,該深度水平對(duì)應(yīng)的是手。文獻(xiàn)利用k-means聚類算法和預(yù)定義閾值進(jìn)行手檢測(cè),并對(duì)手型進(jìn)行凸包分析定位手指。這兩種方法都是假設(shè)手部距離傳感器最近,此外算法的效果受到kinect深度數(shù)據(jù)的準(zhǔn)確性影響非常大。文獻(xiàn),利用kinect SDK提供的關(guān)于手的位置信息,在深度圖像的三個(gè)軸方向上設(shè)定閾值,小于該閾值的被看成是可能的手的區(qū)域。然后利用OPEN VC中的相關(guān)函數(shù)cvErode(腐蝕)、cvMorphologyEx、cvFindContours(找到邊界)對(duì)手?jǐn)?shù)據(jù)進(jìn)行處理,計(jì)算邊界和手中心。文獻(xiàn)建立三個(gè)模型:深度模型(深度加上形態(tài)學(xué)),皮膚模型(膚色),背景模型(codebook算法),利用三層神經(jīng)網(wǎng)絡(luò),輸入是三個(gè)模型的兩兩重疊率,其反映了兩個(gè)模型分割結(jié)果的一致性。文獻(xiàn)直接在深度圖中尋找管狀或指間形狀的物體,作為手掌和手指的候選對(duì)象,通過空間位置檢測(cè)確認(rèn),因?yàn)槭终坪褪种甘且黄鸬摹N墨I(xiàn)利用kinect產(chǎn)生的骨骼數(shù)據(jù),確定手的位置,查找表存放了標(biāo)準(zhǔn)人類手在不同深度層的大小,給定手的3D位置,算法從查找表中找到對(duì)應(yīng)手的大小,從而粗略定位手的區(qū)域。文獻(xiàn)集成彩色信息進(jìn)行手檢測(cè)。將手檢測(cè)問題看成是一個(gè)手像素或非手像素標(biāo)記問題。RGB圖像的皮膚檢測(cè)算子和深度圖像的聚類算子作為兩個(gè)條件確認(rèn)手像素。手區(qū)域是二者的交集。文獻(xiàn)將不同的特征處理為不同算子,利用手部/非手部區(qū)域的相鄰像素點(diǎn)的深度信息和顏色信息具有一定連續(xù)性的原理,從手心作為起始點(diǎn)進(jìn)行搜索,保證了所有像素形成一個(gè)聯(lián)通的有效區(qū)域。避免了傳統(tǒng)簡(jiǎn)單基于深度算法中存在的手必須在最前方限制,或多物體匹配區(qū)分的問題,有效的處理了手部顏色和深度數(shù)據(jù)不均勻的問題。
4.深度學(xué)習(xí)技術(shù)
在已有的手勢(shì)分割方法中,良好的特征表達(dá),對(duì)最終算法的準(zhǔn)確性起了非常關(guān)鍵的作用。上述方法中,特征的設(shè)計(jì)靠人工選取完成。手工選取特征需要復(fù)雜的手勢(shì)特征的先驗(yàn)知識(shí),能不能選取好很大程度上靠經(jīng)驗(yàn),而且它的調(diào)節(jié)需要大量的時(shí)間。
深度學(xué)習(xí)是機(jī)器學(xué)習(xí)研究中的一個(gè)新的領(lǐng)域,其動(dòng)機(jī)在于建立、模擬人腦進(jìn)行分析學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò),模仿人腦的機(jī)制來解釋數(shù)據(jù)。深度學(xué)習(xí)構(gòu)建具有很多隱層的機(jī)器學(xué)習(xí)模型和海量的訓(xùn)練數(shù)據(jù),通過逐層特征變換,將樣本在原空間的特征表示變換到一個(gè)新特征空間,來學(xué)習(xí)更有用的特征,從而最終提升分類或預(yù)測(cè)的準(zhǔn)確性。與人工規(guī)則構(gòu)造特征的方法相比,利用大數(shù)據(jù)來學(xué)習(xí)特征,更能夠刻畫數(shù)據(jù)的豐富內(nèi)在信息。
5.總結(jié)
手勢(shì)目標(biāo)的檢測(cè)是手勢(shì)識(shí)別中重要的一步,它為后面手勢(shì)識(shí)別做好預(yù)處理,手勢(shì)目標(biāo)檢測(cè)的好壞直接影響到手勢(shì)識(shí)別的效果。目前還不存在任何一種方法在所有應(yīng)用系統(tǒng)和背景條件下都能取得良好的分割效果。深度學(xué)習(xí)技術(shù)為手勢(shì)分割問題提供了一種新的解決思路,其更加接近于人類視覺系統(tǒng)機(jī)理。可以將手勢(shì)識(shí)別過程看成是一個(gè)從海量的手勢(shì)數(shù)據(jù)中深度學(xué)習(xí)過程,無需手勢(shì)特征的先驗(yàn)知識(shí),通過學(xué)習(xí)產(chǎn)生對(duì)于手勢(shì)檢測(cè)分割具有指導(dǎo)意義的特征,在此基礎(chǔ)上進(jìn)行手勢(shì)分割將會(huì)取得較為理想的結(jié)果。