黃國范,李 英
(南陽師范學(xué)院 軟件學(xué)院,河南 南陽 473061)
隨著人機交互技術(shù)的發(fā)展,手語識別逐漸成為人們研究的熱點.手語識別可以分為基于視覺的識別系統(tǒng)和基于數(shù)據(jù)手套的識別系統(tǒng)[1],基于視覺的手語識別方法交互方便自然,更能反映機器模擬人類視覺的功能,是目前手語識別的研究重點.
手勢識別的方法主要有三種:模板匹配法、隱馬爾可夫模型法以及神經(jīng)網(wǎng)絡(luò)法[2],而模板匹配法主要用于靜態(tài)手勢的識別.模板匹配法首先要進(jìn)行手勢訓(xùn)練以建立模板庫,然后提取出合適的特征向量與模板進(jìn)行匹配[3].但是,由于每個人的手指粗細(xì)大小不同,而且同一個手勢平移以及偏轉(zhuǎn)之后的意義并不影響手勢本身所傳達(dá)的意思,所以手勢識別中提取的特征向量必須要保證其視覺不變,即消除平移、旋轉(zhuǎn)、縮放、粗細(xì)變化等各種視覺敏感問題.
本文采用模板匹配的方法對字母手勢進(jìn)行識別,提取出傅立葉描述子作為特征向量,來消除視覺敏感問題,保證對于平移、旋轉(zhuǎn)、縮放、粗細(xì)變化等各種仿射變換的不敏感性.實驗結(jié)果表明,我們的方法對字母手勢的識別是可行.
字母手勢圖像的預(yù)處理主要包括灰度變換、平滑、二值化等,為圖像的識別作好準(zhǔn)備工作.
灰度圖像不是簡單的非黑即白,而是用0(黑)到255(白)之間的灰度值來描述圖像.灰度劃分越細(xì),越能準(zhǔn)確的再現(xiàn)圖像.實驗中通過數(shù)碼相機采集的JPEG圖像,是24位真彩色圖像.這種格式的圖像數(shù)據(jù)量非常大,直接識別會大大影響速度.因此,我們首先要進(jìn)行灰度化處理.具體做法是將JPEG圖像的RGB三個顏色分量分別提取出來:
cColor為圖像的RGB值,R,G,B分別為提取出的紅、綠、藍(lán)三個顏色分量.然后再根據(jù)下式進(jìn)行灰度轉(zhuǎn)換:
圖像的平滑主要是減少圖像噪聲.圖像平滑的方法主要有兩種:一種是全局處理,另一種是局部處理[4].本實驗由于背景單一,攝入的圖像噪聲較少,因此采用局部平均法進(jìn)行圖像的平滑.局部平均法的主要操作是模板運算.模板運算是圖像處理中經(jīng)常使用的一種運算方式,常用的算法是將圖像中某個像素的灰度值和它周圍相鄰的八個像素的灰度值相加,然后再求取平均值,以此來作為新圖中該像素的灰度值.該算法可表示為:
圖像的二值化是將灰度圖像轉(zhuǎn)換為只有兩個灰度值即黑白圖像的過程.最簡單的圖像二值化方法可通過設(shè)定閾值來完成,即當(dāng)該點的像素值大于設(shè)定的閾值時,以“0”標(biāo)志,否則以“1”標(biāo)志.所以二值化的關(guān)鍵在于閾值T的選擇.
在實驗中,由于采用的為單一的黑色背景,與手的灰度相差較大.因此,所采用的閾值設(shè)定方法為:先拍攝一張背景圖片,然后取背景圖像的平均灰度值,再乘以一個系數(shù),便可得到二值化的閾值T:T=B*2.5
其中,B為背景圖像的平均灰度值.
字母手勢c的灰度及二值化處理效果圖如下所示:
圖2.1 原始圖像
圖2.2 灰度圖像
圖2.3 二值圖像
模板匹配是數(shù)字圖像處理的重要組成部分之一.模板匹配就是計算一個固定的目標(biāo)模式和一個未知圖像塊的相異程度,用一個閾值決定輸出.模板匹配可以用來確認(rèn)一幅圖中是否存在某種已知模板圖像[5].模板匹配的方法主要有兩種:全局匹配和特征匹配.全局匹配是把待測圖像中的每一像素和模板圖像中的每一像素都進(jìn)行匹配,以對待測圖像進(jìn)行識別分類.而特征匹配則是提取出圖像的某些特征,如直方圖、點、線等幾何特征進(jìn)行匹配[3].為了降低計算復(fù)雜度,實驗中選用特征匹配的方法,從待測圖像和模板圖像中分別提取出具有代表性的特征向量,然后對二者的特征向量進(jìn)行相似度計算即可進(jìn)行字母手勢圖像的識別.但是,由于手勢本身具有的多樣性、多義性以及時間和空間上的差異性等特點,因此,提取出的特征向量既要能夠反映分類本質(zhì),又要具有較小的信息冗余度,而且還要保證對于旋轉(zhuǎn)、縮放、位移等視覺不變性.實驗中,我們選用了歸一化的傅立葉描述子進(jìn)行手勢的特征提取,來消除手勢圖像對于平移、旋轉(zhuǎn)和尺度的視覺敏感性.
傅立葉描述子(Fourier Descriptors)是物體形狀邊界曲線的傅立葉變換系數(shù),是一種描述不受平移變換及旋轉(zhuǎn)影響的曲線的方法.
傅立葉描述子的基本思想:選取字母手勢圖像邊界上的某一點作為起始點,沿著邊界曲線以逆時針方向運動,得到函數(shù)z(s),其中s為沿著手勢圖像形狀邊界距起始點的曲線距離,將z(s)展開為傅立葉級數(shù),其系數(shù)便為z(s)的傅立葉描述子.而對于離散的數(shù)字圖像,由于其邊界坐標(biāo)是離散的,因此其傅立葉描述子可以從z(s)的離散傅立葉變換中計算出來.我們可把圖像坐標(biāo)的序列點看作復(fù)數(shù):
其中x軸為實軸,y軸為虛軸.
一維離散的傅立葉系數(shù)可定義為:
其中z是p的傅立葉變換.
上述介紹的傅立葉描述子與物體形狀的大小、方向和曲線的起始點位置有關(guān).為了識別具有旋轉(zhuǎn)、平移和縮放不變性的形狀,需要對傅立葉描述子進(jìn)行歸一化處理.根據(jù)傅立葉變換的性質(zhì),將物體平移a長度,放大r倍,旋轉(zhuǎn)角度φ和平移位移(x0,y0)后,新形狀的傅立葉系數(shù)為:
其中:k=0,1,…,n-1,x'(I)+y’(I)=x(I+a)+iy(I+a)
歸一化的傅立葉描述子定義為:
利用歸一化的傅立葉描述子便可以計算任意兩個手勢圖像的相似程度,可以將手勢圖像邊界的傅立葉描述子同模板庫中手勢圖像的傅立葉描述子進(jìn)行比較.
字母手勢識別系統(tǒng)分為兩個階段:訓(xùn)練階段和識別階段.訓(xùn)練階段,采用k_means聚類算法進(jìn)行手勢訓(xùn)練,得到字母手勢模板;識別階段,提取出歸一化的傅里葉描述子作為特征向量對測試樣本進(jìn)行描述,進(jìn)而與模板進(jìn)行匹配,從而識別各種待測手勢.
在字母手勢識別系統(tǒng)中,使用高清數(shù)碼相機進(jìn)行圖像的采集,并約定為黑色背景.在30個字母手勢圖像庫中,我們分別對不同演示者從不同角度進(jìn)行取照,每個字母手勢取照10張,共形成300張圖像庫,選擇其中5套作為訓(xùn)練樣本,其余5套作為測試樣本來進(jìn)行識別.在這5組測試集上,平均識別準(zhǔn)確率為92%,單組測試集上的最好識別率為96.7%,最差識別率為86.7%.文獻(xiàn)[2]中,基于幾何矩的平均識別率僅為86.7%.由此可見,我們的方法顯著地提高了字母手勢識別的準(zhǔn)確率.
表1 測試集上的字母手勢識別結(jié)果
在字母手勢識別算法中,我們采用了模板匹配的方法進(jìn)行手勢的識別.在特征向量的選擇上,我們選用了傅里葉描述子對測試樣本與模板進(jìn)行描述,以消除視覺敏感問題.實驗結(jié)果表明,我們的方法較好地實現(xiàn)了字母手勢的識別.
〔1〕Pavlovic V,Sharma R,Huang T.Visual Interpretation of Hand Gestures for Human-computer Interaction:A Review[J].IEEE PAM I,1997,19(7):156.
〔2〕張良國,吳江琴,高文,等.基于 Hausdorff距離的手勢識別[J].中國圖象圖形學(xué)報,2002,7(11):2.
〔3〕何斌,馬天予,等.Visual C++數(shù)字圖像處理(第二版)[M].北京:人民郵電出版社,2002.146-148.
〔4〕李俊山,等.數(shù)字圖像處理[M].北京:清華大學(xué)出版社,2006.125-128.
〔5〕何斌,馬天予,等.Visual C++數(shù)字圖像處理(第二版).人民郵電出版社,2002.