• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于Kinect傳感器和HOG特征的靜態(tài)手勢(shì)識(shí)別

      2018-03-10 00:26鄒瀟鄭慶慶李冰
      軟件導(dǎo)刊 2018年2期
      關(guān)鍵詞:手勢(shì)識(shí)別

      鄒瀟+鄭慶慶+李冰

      摘 要:手勢(shì)識(shí)別是人機(jī)交互領(lǐng)域的一種重要手段。針對(duì)現(xiàn)有算法識(shí)別率低,魯棒性弱的問題,本文基于Kinect傳感器獲取的手勢(shì)深度圖像,對(duì)復(fù)雜背景干擾下的手部區(qū)域進(jìn)行分割,然后利用梯度方向直方圖(HOG)對(duì)手部灰度圖像進(jìn)行特征提取,最后利用最小馬氏距離分類器進(jìn)行建模、分類,實(shí)現(xiàn)靜態(tài)手勢(shì)識(shí)別。根據(jù)Kinect傳感器獲取的深度信息結(jié)合閾值分割法,能夠準(zhǔn)確地檢測(cè)手部區(qū)域,為后續(xù)識(shí)別打下良好的基礎(chǔ)。而HOG特征適應(yīng)光照的變化,且具有幾何不變矩的特性。實(shí)驗(yàn)結(jié)果表明,本文提出的手勢(shì)識(shí)別方法在光照變化和復(fù)雜背景干擾下具有較強(qiáng)的魯棒性和較高的識(shí)別率。

      關(guān)鍵詞:Kinect傳感器;深度信息;HOG特征;手勢(shì)分割;手勢(shì)識(shí)別

      DOIDOI:10.11907/rjdk.172288

      中圖分類號(hào):TP301

      文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1672-7800(2018)002-0028-03

      0 引言

      手勢(shì)識(shí)別具有直觀性、自然性和豐富性的特點(diǎn),其識(shí)別研究引起了人們極大的關(guān)注,在人機(jī)交互領(lǐng)域成為主流。根據(jù)手勢(shì)采集設(shè)備不同,可以分為基于數(shù)據(jù)手套的手勢(shì)識(shí)別和基于計(jì)算機(jī)視覺的手勢(shì)識(shí)別。基于計(jì)算機(jī)視覺的手勢(shì)識(shí)別無需穿戴數(shù)據(jù)手套,使操作者更加自然地進(jìn)行人機(jī)交互,目前已經(jīng)成為手勢(shì)識(shí)別的研究重點(diǎn)[1-3]。

      本文研究對(duì)象是靜態(tài)手勢(shì),其識(shí)別的一般流程如圖1所示。對(duì)于一幅輸入圖像,首先分割出手部區(qū)域,其次在手部區(qū)域提取某種特征描述子來表示該手勢(shì)的特性,最后采用某種分類方法對(duì)手勢(shì)進(jìn)行識(shí)別。其中手部區(qū)域分割是手勢(shì)識(shí)別的基礎(chǔ),手勢(shì)輪廓提取的完整度對(duì)后續(xù)手勢(shì)特征的提取以及手勢(shì)識(shí)別有很大影響。由于膚色在顏色空間有很好的聚類特性,目前很多成熟的算法都是基于膚色模型來分割手勢(shì)。例如采用高斯方法,對(duì)復(fù)雜背景有很好的識(shí)別效果,但是高斯模型復(fù)雜,計(jì)算量大,不適合實(shí)時(shí)操作。2010年微軟推出Kinect外設(shè)傳感器,可以獲取深度圖像,根據(jù)人手區(qū)域與背景區(qū)域在深度圖像中具有不同的深度值,利用簡(jiǎn)單的閾值分割法來進(jìn)行手勢(shì)區(qū)域檢測(cè)?;谏疃葓D像的手勢(shì)識(shí)別方法受光照和復(fù)雜背景的干擾小,成為近年來的研究熱點(diǎn)。

      靜態(tài)手勢(shì)識(shí)別的各個(gè)模塊如圖1所示,特征提取步驟對(duì)手勢(shì)識(shí)別系統(tǒng)的性能有至關(guān)重要的作用,同時(shí)影響著手勢(shì)識(shí)別的準(zhǔn)確率和效率。手部區(qū)域特征大致分為三類:低層特征、中層特征和高層特征。低層特征從原始的3維空間域或其變換域產(chǎn)生,Keskin[4]等定義了一種像素點(diǎn)深度特征集合來構(gòu)造手勢(shì)特征,這些描述手不同位置信息的特征在一個(gè)大的特征空間里匹配起來非常耗時(shí)。為了減少訓(xùn)練時(shí)間和內(nèi)存消耗,Kuznetsova[5]等提出使用ESF描述子提取手部區(qū)域特征,ESF描述子由點(diǎn)云中隨機(jī)點(diǎn)的直方圖串聯(lián)構(gòu)成。除了深度信息、Haarlet系數(shù)[6]、Gabor系數(shù)[7]和Flusser不變矩[8]也被用來提取有效的旋轉(zhuǎn)和光照不變的手勢(shì)特征,相對(duì)于低層特征的全局性,中層特征通?;诰植棵枋鲎印J植繀^(qū)域可以劃分成矩形或扇形的細(xì)胞單元,所有細(xì)胞單元中點(diǎn)的直方圖串聯(lián)起來形成局部描述子。高層特征是指細(xì)致的手部輪廓,Ren[9]等用時(shí)間曲線表達(dá)手部形狀,曲線的每一段對(duì)應(yīng)一個(gè)手指,時(shí)間曲線記錄了每個(gè)輪廓頂點(diǎn)到中心點(diǎn)的相對(duì)距離,同時(shí)保存了拓?fù)湫畔ⅰu不變矩具有平移、旋轉(zhuǎn)、縮放不變性。王先軍等[10]利用7個(gè)Hu不變矩進(jìn)行手勢(shì)識(shí)別,取得了較高的識(shí)別率,但是他缺乏局部特征描述。Chang等[11]利用CSS描述子對(duì)簡(jiǎn)單手勢(shì)取得了很好的識(shí)別效果,對(duì)比較復(fù)雜的手勢(shì)卻無能為力,這是由于CSS描述子缺乏全局信息?;旌鲜謩?shì)特征可以結(jié)合不同層次的特征,嵌入局部和全局的信息,例如Liu[12]等人采用了手指、手掌,前臂的平移、旋轉(zhuǎn)和尺度不變?nèi)N幾何特征。為了評(píng)估不同的3維手勢(shì)特征,Sorce[13]等在不同的照明條件下比較了手部邊緣特征與SURF描述子。實(shí)驗(yàn)表明:一方面,除非不依賴光照的邊緣提取算法,否則利用邊緣特征來識(shí)別效果很差;另一方面,基于SURF的特征在可選的光照條件下是最好的。這些實(shí)驗(yàn)結(jié)果能幫助研究者設(shè)計(jì)更有效的手勢(shì)識(shí)別特征。

      本文提出一種基于Kinect深度信息,并結(jié)合HOG特征方法對(duì)靜態(tài)手勢(shì)進(jìn)行識(shí)別。首先利用Kinect相機(jī)獲取的深度圖像分割出手勢(shì)區(qū)域,其次提取該區(qū)域的HOG特征,最后采用馬氏距離對(duì)特征進(jìn)行分類,從而實(shí)現(xiàn)手勢(shì)識(shí)別。

      1 基于Kinect深度信息的手勢(shì)分割

      Kinect是微軟開發(fā)的一款家用視頻游戲主機(jī)XBOX360的體感周邊外設(shè),是一種3D體感攝像機(jī)[14]。其有3個(gè)鏡頭,中間鏡頭是RGB彩色攝像機(jī),左右兩邊的鏡頭分別為紅外線發(fā)射器和紅外線CMOS攝影機(jī)所構(gòu)成的3D深度感應(yīng)器,可以同時(shí)獲得一個(gè)場(chǎng)景的RGB圖像和深度圖像。深度圖像是一個(gè)“深度場(chǎng)”,其中每一個(gè)像素的顏色代表了那一點(diǎn)物體到攝像頭的距離,離攝像頭越近的物體越亮。由于采集手勢(shì)時(shí),人手通常置于攝像頭的最前端,根據(jù)深度閾值能夠有效地將手部圖像分割出來。實(shí)際應(yīng)用中,Kinect傳感器獲得的深度圖像存在一些空洞和噪聲點(diǎn),尤其在目標(biāo)的邊界處得到的深度值不穩(wěn)定,需要進(jìn)行預(yù)處理。本文采用一種非線性的深度中值濾波算法[15]對(duì)深度圖像預(yù)處理,可以去掉一些孤立的噪聲點(diǎn),保留手部邊緣。圖2給出了手勢(shì)分割的一個(gè)示例,圖2(a)為Kinect相機(jī)獲取的RGB彩色圖像,圖2(b)為其相應(yīng)的深度圖像,經(jīng)過去噪等預(yù)處理,基于灰度直方圖(如圖2(c)所示)進(jìn)行手勢(shì)分割,得到圖2(d)所示的手部區(qū)域。

      2 HOG特征提取

      Dalal于2005年提出HOG(梯度方向直方圖)特征,由于該特征對(duì)光照變化和復(fù)雜背景具有較好的魯棒性,在行人檢測(cè)的應(yīng)用中取得了較好的效果。本文將HOG特征用于手勢(shì)識(shí)別,在一幅圖像中,局部目標(biāo)的表象和形狀能夠被梯度或邊緣的方向密度分布很好地描述。HOG特征還可以描述整個(gè)手部區(qū)域的灰度變化情況,位置和方向空間的量化可以一定程度上抑制旋轉(zhuǎn)帶來的影響。endprint

      手勢(shì)HOG特征的提取步驟如下[16-17]:

      (1)將輸入圖像灰度化。

      (2)使用一維離散微分模板分別在水平和垂直方向上計(jì)算圖像中每個(gè)像素的梯度Gx(x,y)和Gy(x,y),然后根據(jù)公式(1)得到每個(gè)像素梯度的幅值G(x,y)和方向α(x,y),這主要是為了捕獲輪廓信息,同時(shí)弱化光照的干擾。

      (3)將圖像劃分成小的細(xì)胞單元(稱為cell),為cell構(gòu)建梯度方向直方圖,cell中的每個(gè)像素點(diǎn)為直方圖的bin進(jìn)行加權(quán)投票,權(quán)值根據(jù)像素點(diǎn)的梯度幅值進(jìn)行高斯加權(quán)得到。

      (4)將若干個(gè)相互連通的cell組成一個(gè)區(qū)間(稱為block),一個(gè)block內(nèi)所有cell的特征向量串聯(lián)起來便得到該block的HOG特征。這些區(qū)間互有重疊,意味著每一個(gè)cell的特征會(huì)以不同的結(jié)果多次出現(xiàn)在最后的特征向量中。

      (5)在block中進(jìn)行梯度歸一化得到描述符,即HOG特征。由于局部光照的變化以及前景—背景對(duì)比度的變化,使得梯度變化幅度比較大,需要對(duì)其以L2范數(shù)為因子進(jìn)行歸一化處理。

      HOG特征向量的長(zhǎng)度D由圖像大小,cell大小,每個(gè)cell的梯度方向直方圖的bin數(shù)以及block大小和移動(dòng)步長(zhǎng)決定。其計(jì)算方法如公式(2):

      其中,cDim表示每個(gè)cell的特征維數(shù),bSize表示block大小,cSize表示cell大小,bStep表示移動(dòng)步長(zhǎng),w和h表示圖像的寬和長(zhǎng)。

      3 基于Kinect傳感器和HOG特征的靜態(tài)手勢(shì)識(shí)別

      3.1 實(shí)驗(yàn)方法

      為了驗(yàn)證本文提出方法的有效性,采集10位志愿者的4種手勢(shì)(即剪刀、石頭、布和另一種任意手勢(shì)),每種手勢(shì)做10遍,得到400個(gè)手勢(shì)樣本,測(cè)試樣本和訓(xùn)練樣本各占總體的1/2,對(duì)前3類手勢(shì)的訓(xùn)練樣本,每類50個(gè)手勢(shì)用同樣的方法提取HOG特征作為模板庫。為了減少HOG特征向量的維數(shù),將分割出來的手勢(shì)灰度圖像歸一化到64×64像素,cell大小取為8×8像素,每個(gè)cell的特征維數(shù)為9,相鄰2×2個(gè)cell構(gòu)成1個(gè)block,block的移動(dòng)步長(zhǎng)為8個(gè)像素,那么根據(jù)公式(2)求得一幅手勢(shì)圖像的HOG特征為1764維的向量。

      在分類判決階段,利用測(cè)試樣本的HOG特征與標(biāo)準(zhǔn)模板之間的馬氏距離最小且不超過某一閾值作為判斷準(zhǔn)則。該閾值由測(cè)試樣本與50個(gè)另一種任意手勢(shì)的訓(xùn)練樣本的HOG特征集的最小距離決定,超過閾值即判斷手勢(shì)無效,返回。馬氏距離針對(duì)所有特征向量均衡處理,而且與尺度無關(guān),因此采用馬氏距離來計(jì)算測(cè)試樣本與模板之間的相似度是比較合適的[15],表達(dá)式如公式(3)所示。

      其中,x為測(cè)試樣本的HOG特征向量,μ=(μ1,μ2,…,μN(yùn))T為模板庫特征數(shù)據(jù)計(jì)算出的平均值所組成的一組向量,S為協(xié)方差矩陣。馬氏距離越小,相似度越高。

      3.2 實(shí)驗(yàn)結(jié)果

      實(shí)驗(yàn)中采用MATLABGUI生成一個(gè)操作界面,能夠自動(dòng)識(shí)別隨機(jī)輸入的兩種測(cè)試手勢(shì),并作出輸贏比較,各種實(shí)驗(yàn)結(jié)果如圖3所示??梢?,本文方法對(duì)于剪刀、石頭、布這3類手勢(shì)的平均識(shí)別率達(dá)到了98.5%。

      4 結(jié)語

      近年來,手勢(shì)識(shí)別技術(shù)在人機(jī)交互領(lǐng)域受到越來越多的關(guān)注。本文主要研究了基于Kinect傳感器的靜態(tài)手勢(shì)檢測(cè)與識(shí)別方法,在預(yù)處理階段,利用深度信息進(jìn)行手勢(shì)分割有效地避免了光照和復(fù)雜背景對(duì)檢測(cè)手勢(shì)區(qū)域的干擾,后續(xù)引入的HOG特征具有旋轉(zhuǎn)不變的特性,且適應(yīng)光照變化,因此結(jié)合二者的靜態(tài)手勢(shì)識(shí)別方法獲得了較高的識(shí)別率。本文用來測(cè)試的手勢(shì)比較簡(jiǎn)單,而且采集深度圖像時(shí),志愿者的手伸到了最前端,使得在預(yù)處理階段就能獲得準(zhǔn)確的手部輪廓,今后的工作將豐富手形的變化,建立一個(gè)完整的手勢(shì)數(shù)據(jù)庫,從而進(jìn)一步提高Kinect傳感器的靜態(tài)手勢(shì)檢測(cè)與識(shí)別方法的推廣。

      參考文獻(xiàn):

      [1] 劉陽,尚趙偉.基于Kinect骨架信息的交通警察手勢(shì)識(shí)別[J].計(jì)算機(jī)工程與應(yīng)用,2015,51(3):157-161.

      [2] 劉亞瑞,楊文璐.基于Kinect和變形雅可比-傅里葉矩的手勢(shì)識(shí)別[J].傳感器與微系統(tǒng),2016,35(7):48-50.

      [3] 周天彤,徐飛林,張旖帆,等.基于unity和kinect的交警手勢(shì)識(shí)別仿真系統(tǒng)的設(shè)計(jì)和實(shí)現(xiàn)[J].計(jì)算機(jī)測(cè)量與控制,2016,24(5):156-159.

      [4] C KESKIN, F KIRAC, Y KARA, et al. Randomized decision forests for static and dynamic hand shape classification[J]. IEEE CVPR Workshops,2012:31-36.

      [5] A KUZNETSOVA, L LEAL-TAIXE, B Rosenhahn. Real-time sign language recognition using a consumer depth camera[J]. IEEE ICCV Workshops,2014:83-90.

      [6] M VAN DEN BERGH, D CARTON, R DE NIJS, et al. Real-time 3D hand gesture interaction with a robot for understanding directions from humans[J]. IEEE RO-MAN,2011:357-362.

      [7] N PUGEAULT, R BOWDEN. Spelling it out: real-time ASL finger-spelling recognition[J]. IEEE ICCV, 2012,28(5):1114-1119.endprint

      [8] L GALLO, A PLACITELLI. View-independent hand posture recognition from single depth images using PCA and flusser moments[C]. International Conference on Signal Image Technology and Internet Based Systems,2012:898-904.

      [9] Z REN,J YUAN,Z ZHANG. Robust hand gesture recognition based on finger-earth movers distance with a commodity depth camera[C]. ACM International Conference on Multimedia,2011:1093-1096.

      [10] 王先軍,白國振,楊勇明.復(fù)雜背景下BP神經(jīng)網(wǎng)絡(luò)的手勢(shì)識(shí)別方法[J].計(jì)算機(jī)應(yīng)用與軟件,2013,30(3):247-249,267.

      [11] CHANG C C, LIU CHENGYI, TAIWENKAI. Feature alignment approach for hand posture recognition based on curvature scale space[J]. Neuro-computing,2008,71(10):1947-1953.

      [12] Y LIU,Y YANG,L WANG, et al. Image processing and recognition of multiple static hand gestures for human-computer interaction[J]. ICIG,2013:465-470.

      [13] S SORCE,V GENTILE,A GENTILE. Real-time hand pose recognition based on a neural network using Microsoft kinect[C]. IEEE International Conference on Broadband and Wireless Computing, Communication and Applications,2013:344-350.

      [14] 羅元,謝彧,張毅.基于Kinect傳感器的智能輪椅手勢(shì)控制系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J].機(jī)器人,2012,34(1):110-113.

      [15] 蒲興成,王濤.基于改進(jìn)Hu矩算法的Kinect手勢(shì)識(shí)別[J].計(jì)算機(jī)工程,2016,42(7):165-172

      [16] 任彧,顧成成.基于HOG特征和SVM的手勢(shì)識(shí)別[J].科技通報(bào),2011,27(2):211-214.

      [17] 劉淑萍,劉羽,於俊,等.結(jié)合手指檢測(cè)和HOG特征的分層靜態(tài)手勢(shì)識(shí)別[J].中國圖象圖形學(xué)報(bào),2015,20(6):0782-0788.endprint

      猜你喜歡
      手勢(shì)識(shí)別
      基于手勢(shì)識(shí)別的工業(yè)機(jī)器人操作控制方法
      开远市| 塘沽区| 游戏| 舒兰市| 邹城市| 西藏| 连州市| 金门县| 乾安县| 密云县| 炉霍县| 嘉鱼县| 辽阳县| 辛集市| 石屏县| 新田县| 长沙市| 瑞安市| 镇原县| 昭平县| 泌阳县| 景东| 北海市| 南阳市| 富阳市| 防城港市| 边坝县| 乌兰浩特市| 青州市| 无棣县| 陈巴尔虎旗| 新河县| 紫金县| 阜宁县| 牙克石市| 龙游县| 微博| 榆林市| 西平县| 恩施市| 图们市|