王 宇
(中國民航飛行學(xué)院 航空工程學(xué)院,四川 廣漢 618307)
手勢生動、形象、直觀,而且蘊涵著豐富的信息,是人與人溝通的重要媒介。手勢跟蹤則是在圖像序列中確定出各幀中手勢的位置、大小和方向等信息,是目前基于手勢交互的重要內(nèi)容。
目前,目標(biāo)跟蹤的算法[1-4]有很多,大體上可以分為基于匹配的跟蹤和基于運動特性的跟蹤。根據(jù)提取目標(biāo)的特征不同,基于匹配的跟蹤可分為區(qū)域匹配跟蹤、輪廓匹配跟蹤和特征匹配跟蹤?;谶\動特性的跟蹤又分為基于光流的跟蹤算法和運動預(yù)測跟蹤算法。其中,Mean Shift算法因其計算簡單、實時性好而得到了廣泛應(yīng)用。筆者將Mean Shift算法應(yīng)用于序列圖像中的手勢跟蹤,取得了較好的效果。
Mean Shift[5-6]是一種基于核函數(shù)密度估計的圖像特征分析方法。在手勢跟蹤中,Mean Shift算法利用圖像的顏色統(tǒng)計直方圖作為整個搜索匹配的特征,并且采用梯度優(yōu)化方法來減少特征搜索匹配的時間,實現(xiàn)快速的目標(biāo)定位,同時利用Bhattacharyya距離作為對目標(biāo)模板和候選目標(biāo)的相似性函數(shù),完成特征的匹配。
1)目標(biāo)模板的表示
假設(shè){xi}i=1,2,…,N表示目標(biāo)模板區(qū)域中的像素位置,且目標(biāo)區(qū)域的中心為x0,特征值bin的個數(shù)為m,則目標(biāo)模板的特征值 u=1,2,…,m 的概率密度為
式中:k(x)為核函數(shù),是一個各向同性的、凸的且單調(diào)遞減的函數(shù),它的作用是給目標(biāo)模板區(qū)域的像素設(shè)置權(quán)值,即給遠離目標(biāo)模板中心的像素設(shè)置較小的權(quán)值,而給靠近目標(biāo)模板中心的像素設(shè)置較大的權(quán)值。因為遠離目標(biāo)模板中心的像素容易受到其他目標(biāo)或背景像素的影響,所以加權(quán)后的目標(biāo)模板像素在進行密度估計時增加了穩(wěn)健性,提高了搜索跟蹤能力。函數(shù)k(x)中的的作用是為消除不同大小目標(biāo)計算時的影響,將目標(biāo)區(qū)域歸一化。 δ(x)是 Delta 函數(shù),δ[b(xi-u)]總的作用是判斷目標(biāo)區(qū)域中像素xi的顏色值是否屬于第u個bin,屬于則值為1,否則為0。C是一個標(biāo)準(zhǔn)化的常量系數(shù),使得因此
2)候選模板的描述
設(shè)運動目標(biāo)在第2幀及以后每幀中可能包含的目標(biāo)區(qū)域為候選區(qū)域,設(shè){xi}i=1,2,…,nh是候選區(qū)域的像素位置,當(dāng)前幀中心坐標(biāo)為y,候選模板的特征值u=1,2,…,m的概率密度為
3)基于Bhattacharyya系數(shù)的相似性函數(shù)
引入Bhattacharyya系數(shù)[7]來度量候選目標(biāo)和目標(biāo)模板之間的相似性,其定義為
4)目標(biāo)定位
其中
式(5)中第1項是與y無關(guān)的,只有第2項隨y變化,所以只需要對第2項進行分析。令
要使式(5)最大就是求式(7)最大,計算式(7)的 Mean Shift向量,從候選區(qū)域中心y0遞歸地計算出新目標(biāo)位置,即
式中:g(x)=-k′(x),Mean Shift算法是從起,向兩個模型相比顏色最大的方向移動。
為了實現(xiàn)手勢的跟蹤,選取手勢的顏色來作為跟蹤特征,然后通過顏色概率模型把每幀圖像轉(zhuǎn)化為顏色概率分布圖。常用的RGB色彩空間[8-9]并不能很好地反映視覺上的顏色感知性。由于筆者研究的是序列圖像中的手勢跟蹤,因此這里的顏色就是膚色。由于膚色對HSV(色調(diào)、色飽和度和亮度)色彩空間的H分量很敏感,所以采用H分量的直方圖建立膚色概率模型,即
式中:R,G,B分別代表RGB色彩空間中的顏色分量,這里將它們轉(zhuǎn)化到HSV空間,獲得H分量,并計算它的直方圖。這里把H分量的數(shù)值量化到[0,255]。
Mean Shift算法將顏色直方圖作為跟蹤特征,具有計算簡單、速度快的特點。 給定目標(biāo)模板并給出t-1幀中目標(biāo)的位置y0,對第t幀圖像進行目標(biāo)搜索的過程如下:
1)初始化第 t幀中目標(biāo)位置 y0,并計算以及
為了測試本文算法在動態(tài)場景下對目標(biāo)手勢跟蹤的性能,選擇對實際視頻序列進行手勢跟蹤測試。實驗中對各幀圖像未做任何預(yù)處理。計算機配置為P3 CPU 1.8 GHz,內(nèi)存512 Gbyte,開發(fā)環(huán)境為Visual C++。圖1為實驗室實時拍攝的手勢跟蹤結(jié)果??梢钥闯鲈撍惴ㄔ谑謩荽笮∽兓⑹謩莅l(fā)生旋轉(zhuǎn)情況下均有較好的跟蹤結(jié)果。
筆者將Mean Shift方法應(yīng)用到序列圖像的手勢跟蹤中。實驗結(jié)果表明,針對不同的動態(tài)場景,Mean Shift計算簡單,實時性好,并且當(dāng)目標(biāo)姿態(tài)和光照發(fā)生變化時可獲得較好的跟蹤效果,能適應(yīng)目標(biāo)在圖像中的復(fù)雜運動,具有廣闊的應(yīng)用前景。
[1]WU Y,HUANG T S.Robust visual tracking by integrating multiple cues based on co-inference learning[J].International Journal of Computer Vision,2004,58(1):55-71.
[2]TRIESCH J,MALSBURG C V D.Self-organized integrationof adaptive visual cues for face tracking[C]//Proc. the Fourth International Conference on Automatic Face and Gesture Recognition.Grenoble,F(xiàn)rance:[s.n.],2000:102-107.
[3]COMANICIU D,RAMESH V,MEER P.Kernel-based object tracking[J].Pattern Analysis and Machine Intelligence,2003,25(5):564-577.
[4]COMANICIU D,RAMESH V,MEER P.Real-time tracking of nonrigid objects using mean shift[J].IEEE Computer Vision and Pattern Recognition,2000(2):142-149.
[5]CHENG Y.Mean-shift,mode seeking,and clustering[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,1995,17(8):790-799.
[6]梁靜,支琤,周軍.基于Mean Shift的抗遮擋運動目標(biāo)跟蹤算法[J].電視技術(shù),2008,32(12):82-85.
[7]KAILATH T.The divergence and Bhattacharyya distance measures in signal selection[J].IEEE Trans.Comm.Tichnology,1967(15):52-60.
[8]RICHARD O D,PETER E H,DAVID G S.Pattern Classification[M].2nd Ed.李宏東,姚天翔,譯.北京:機械工業(yè)出版社,2003.
[9]SONKA M,HLAVAC V,BOYLE R.圖像處理、分析與機器視覺[M].2版.艾海舟,武勃,譯.北京:人民郵電出版社,2003.