袁 康, 魏大鵬, 趙從梅, 傅 順
(1.重慶郵電大學(xué) 計算機(jī)科學(xué)與技術(shù)學(xué)院,重慶 400065; 2.中國科學(xué)院 重慶綠色智能技術(shù)研究院,重慶 400714)
視覺跟蹤在計算機(jī)視覺領(lǐng)域是一個具有挑戰(zhàn)性的問題。在許多應(yīng)用中扮演著重要角色,尤其是人機(jī)交互、智能監(jiān)控、機(jī)器人等多個領(lǐng)域[1,2]。所謂的跟蹤任務(wù)是僅給出其初始位置,估計圖像序列中目標(biāo)的軌跡。雖然過去幾十年,視覺跟蹤取得了很大的成功[3~6],但是由于光照變化、幾何變形、遮擋和背景干擾等因素的存在,使得設(shè)計穩(wěn)健高效的目標(biāo)跟蹤器依然存在諸多問題。
最近,相關(guān)濾波器被引入到視覺跟蹤應(yīng)用中,并取得了很好的跟蹤效果。相關(guān)濾波器的本質(zhì)思想是相關(guān)性可以在傅立葉域中快速計算以避免耗時的卷積運(yùn)算。Bolme D S等人[7]提出了最小化輸出平方誤差和輸出(minimizing the output sum of squared error,MOSSE)的自適應(yīng)相關(guān)濾波器對目標(biāo)外觀進(jìn)行建模跟蹤,相關(guān)濾波器中使用卷積理論來加速跟蹤。Henriques J等人[8]提出了采用循環(huán)結(jié)構(gòu)的核跟蹤器(circulant structure with kernels tracker,CSK),利用圖像中鄰近子窗口的循環(huán)結(jié)構(gòu),對目標(biāo)特征區(qū)域進(jìn)行密集采樣快速訓(xùn)練核化正則最小方差分類器。Henriques J等人又對CSK進(jìn)行了擴(kuò)展,在相關(guān)跟蹤中使用多通道特征的核化脊回歸模型,提出了核相關(guān)濾波器(kernelized correlation filter,KCF)[9]。Danelljan M等人[10]引入了顏色名稱(color names,CN)顏色信息來提高在彩色圖像中的跟蹤性能,隨后又提出了利用一個獨立的尺度濾波器來進(jìn)行精確尺度評估的判別式尺度空間跟蹤(discriminative scale space tracker,DSST)跟蹤器[11]。張開華[12]等人利用時空上下文信息結(jié)合貝葉斯框架來進(jìn)行相關(guān)跟蹤。上述跟蹤方法雖然取得了很好的跟蹤效果,但是不能有效地進(jìn)行遮擋處理,很大程度上限制了跟蹤性能。
本文在傳統(tǒng)的CSK跟蹤方法基礎(chǔ)上,提出了一種基于支持向量機(jī)(support vector machine,SVM)的重檢測機(jī)制,在目標(biāo)發(fā)生遮擋時,能夠有效解決遮擋問題,并通過在核矩陣中引入尺度因子來提高尺度濾波器的性能。
CSK跟蹤算法的主要思想是利用循環(huán)矩陣構(gòu)造訓(xùn)練樣本,通過對一個單獨的圖像塊學(xué)習(xí)目標(biāo)的正則化最小二乘法(regularized least squares,RLS)分類器[9,10],通過核函數(shù)計算候選區(qū)域與跟蹤目標(biāo)的相似程度,選取相似度最大的候選區(qū)域為新的跟蹤目標(biāo),同時利用離散傅里葉變換降低分類器訓(xùn)練和檢測過程中的運(yùn)算量。該算法可大致分為分類器訓(xùn)練、快速檢測和外觀模型更新。
分類器訓(xùn)練過程的數(shù)學(xué)公式描述如公式(1)所示
(1)
式中yi為樣本xi的期望輸出;λ為一個固定的正則化參數(shù)。使用高斯核函數(shù)κ,將樣本映射到高維特征空間,將尋找最優(yōu)w問題轉(zhuǎn)化為尋找最優(yōu)α問題
(2)
(3)
在計算響應(yīng)得到新的目標(biāo)區(qū)域x′后,更新下一幀中用于分類器檢測過程中用到的模型參數(shù)α和目標(biāo)模型X。
傳統(tǒng)的CSK跟蹤算法采取固定大小的訓(xùn)練樣本來訓(xùn)練分類器模型,無法處理尺度變化問題,最終導(dǎo)致分類器模型累積誤差,跟蹤目標(biāo)產(chǎn)生漂移。為此,本文使用相關(guān)濾波器方法對CSK算法進(jìn)行多尺度跟蹤上的改進(jìn),并提出了一種基于重檢測的遮擋處理機(jī)制,對遮擋情況下的模型更新進(jìn)行改進(jìn)。
(4)
式中x為圖像樣本塊;φ(·)為圖像特征,Φ(·)為傅立葉域中的特征映射函數(shù);K(·,·)為計算核相關(guān)的核矩陣。得到h后便可估計下一幀中目標(biāo)區(qū)域z的尺度,對z提取相應(yīng)的方向梯度直方圖(histogram of oriented gradient,HOG)特征,記為g,然后取F-1(F(g)⊙H*)最大值所對應(yīng)的尺度si為跟蹤目標(biāo)的尺度,最后更新目標(biāo)模型參數(shù)αs和目標(biāo)模型Xs。
假定訓(xùn)練數(shù)據(jù)包括了N組數(shù)據(jù)對,(xi,yi),i=1,2,…,n,xi=(xi1,xi2,…,xin),yi∈(-1,1)代表點xi的類,所述SVM分類器為wx+b=0,調(diào)整w和b使min|wxi+b|≥1,邊緣d定義如下
(5)
確定最佳分類平面,使兩個分界面之間的距離達(dá)到最大,此時對應(yīng)的參數(shù)w達(dá)到最小,于是將線性分類問題轉(zhuǎn)化為最優(yōu)解問題,使用拉格朗日函數(shù)求解最優(yōu)問題[13],最后計算得到最佳的權(quán)重向量w*,并使用支持向量得到最佳的偏移b=1-w*·xi。計算候選目標(biāo)的置信度
score=w*·f+b
(6)
最高置信度所對應(yīng)位置即為輸出。
當(dāng)目標(biāo)被遮擋時,不適當(dāng)?shù)母聲?dǎo)致目標(biāo)模型漂移。為了解決這個問題,引入了一個簡單的判斷機(jī)制來評估目標(biāo)是否遮擋,同時自適應(yīng)調(diào)整學(xué)習(xí)率。如果目標(biāo)發(fā)生遮擋,停止目標(biāo)更新;否則,保持學(xué)習(xí)率不變。判斷機(jī)制是每一幀的輸出響應(yīng)與閾值的比較,按如下方式調(diào)整學(xué)習(xí)率β
(7)
式中βinit為學(xué)習(xí)率β的初始值;T=0.15。
整個跟蹤算法步驟如下:
初始化:根據(jù)第一幀視頻選取要跟蹤的目標(biāo),確定相關(guān)參數(shù);
輸入:第i(i≥2)幀視頻vi;上一幀的目標(biāo)位置pi-1及尺度si-1,位置檢測中的αi-1,Xi-1及尺度檢測中的ast-1,Xst-1,閾值T;
輸出:檢測出當(dāng)前幀目標(biāo)的位置pi和尺度si。
位置檢測:
a.根據(jù)pi-1及si-1從vi幀中截取搜索窗口,并提取特征x;
尺度檢測:
d.根據(jù)Pi及si-1從vi幀目標(biāo)窗口區(qū)域中提取特征xs;
目標(biāo)重檢測:
更新:
i.更新位置檢測中的αi,Xi;
j.更新尺度檢測中的αsi,Xsi。
從Visual Benchmark[14]選取了14組復(fù)雜場景下的視頻序列,如表1所示,進(jìn)行測試并與其他5種經(jīng)典的跟蹤算法進(jìn)行對比。
表1 實驗中的測試視頻
全部實驗中,使用中心位置誤差(center location error,CLE)、距離精度(distance precision,DP)、成功率(success rate,SR)作為綜合評價指標(biāo)。CLE表示跟蹤結(jié)果中心與Groundtruth標(biāo)注中心的歐氏距離,DP表示CLE小于某個固定閾值(實驗中均取20像素)的視頻幀數(shù)與總測試視頻幀數(shù)的比值。SR的定義如下
(8)
(9)
式中score為重疊率;Rt為實驗獲得的目標(biāo)矩形窗口;Rgt為手動標(biāo)記獲得的目標(biāo)矩形窗口;area()為區(qū)域面積;Sn為跟蹤成功次數(shù),如果score>0.5,則Sn增加一次。
6種跟蹤方法對14組視頻進(jìn)行測試獲得的平均CLE,SR及DP,分別如表2~表4所示,其中加粗表示最優(yōu)值。
表2 平均中心位置誤差 像素
從表2~表4中可以看到:本文方法和原始CSK算法相比平均中心位置誤差的均值由原來的92.27像素減少到了15.63像素,距離精度的均值由原來的35.95 %提高到了81.14 %,成功率均值由原來的33.54 %提高到了81.97 %,本文算法和其他5種算法相比,3種評測值亦最優(yōu),證明本文方法的跟蹤性能有明顯提高。
表3 距離精度 %
表4 成功率 %
實驗中繪制了6種算法對14組視頻的3種評測標(biāo)準(zhǔn)曲線,但是由于篇幅限制,本文僅給出了4組視頻的評測曲線,如圖1所示。
圖1 部分實驗評價標(biāo)準(zhǔn)曲線
通過3個評價標(biāo)準(zhǔn)的定量分析,可以證明本文方法的跟蹤性能優(yōu)于CSK跟蹤方法。為了更直觀地說明對比結(jié)果,以Woman視頻的測試結(jié)果為例進(jìn)行實驗,圖2、圖3分別給出了2種方法的部分跟蹤結(jié)果及3個評價標(biāo)準(zhǔn)的曲線。Woman視頻中的目標(biāo)分別發(fā)生了尺度變換、遮擋及背景干擾等情況,從圖2可以看到:第125#幀目標(biāo)發(fā)生了部分遮擋和背景干擾時,CSK跟蹤開始出現(xiàn)尺度上的細(xì)微偏差。
由于CSK的跟蹤誤差逐漸積累,目標(biāo)運(yùn)動到第149#幀時,CSK的跟蹤結(jié)果已經(jīng)出現(xiàn)明顯的偏移,到161#幀以后已經(jīng)無法跟蹤到目標(biāo),而本文算法從發(fā)生遮擋到遮擋消失后一直能較準(zhǔn)確地跟蹤目標(biāo)。從圖3中可以看出本文算法的3種評價標(biāo)準(zhǔn)曲線均優(yōu)于CSK。綜上可知本文方法較好。
圖2 跟蹤結(jié)果(55#,77#,125#,149#,161#,176#)
圖3 曲線
為了更直觀地說明實驗對比結(jié)果,本文給出了部分視頻序列在6種算法上的實驗結(jié)果對比,如圖4。
圖4 部分實驗對比
視頻序列David中,存在光照尺度及姿態(tài)變化等問題,從圖4(a)可以看出:第471#幀目標(biāo)發(fā)生旋轉(zhuǎn)時,部分算法已經(jīng)將目標(biāo)跟丟,在光照和姿態(tài)變化影響下,僅 CT及本文方法能夠正確跟蹤大部分視頻序列。視頻序列Liquor中,目標(biāo)發(fā)生了光照、尺度變化、遮擋、模糊和背景干擾,從圖4(b)可以看出:從第358#幀開始,目標(biāo)發(fā)生快速運(yùn)動、旋轉(zhuǎn)及被復(fù)雜的背景干擾,其他算法均開始出現(xiàn)了較大的偏差,初始階段可以準(zhǔn)確跟蹤的CSK算法在第511#幀時也跟丟了目標(biāo),而本文算法一直能準(zhǔn)確跟蹤目標(biāo)。視頻序列Girl中的目標(biāo)分別發(fā)生了尺度變化、旋轉(zhuǎn)、姿態(tài)變化和遮擋等情況,從圖4(c)可以看出:第86#幀目標(biāo)發(fā)生旋轉(zhuǎn)時,和第460#幀發(fā)生遮擋時,其他幾種算法跟蹤均出現(xiàn)了偏差,而本文方法從發(fā)生旋轉(zhuǎn)到遮擋消失后一直能較準(zhǔn)確地跟蹤目標(biāo)。視頻序列Jogging中,目標(biāo)發(fā)生了遮擋、形變、旋轉(zhuǎn)變化,從圖4(d)可以看出從第83#幀開始,由于發(fā)生遮擋,只有跟蹤學(xué)習(xí)檢測(tracking learning detection,TLD)算法和本文算法仍然可以準(zhǔn)確的跟蹤目標(biāo)。視頻序列Dog1中目標(biāo)主要發(fā)生了尺度變化,從圖4(e)中可以看出:第192#幀當(dāng)目標(biāo)沒有發(fā)生尺度變化的時候,幾種算法均跟蹤比較準(zhǔn)確,在第856#幀和第1 054#幀,目標(biāo)發(fā)生尺度變化,本文算法表現(xiàn)出了明顯優(yōu)勢。
綜合以上實驗結(jié)果分析可知:本文方法在目標(biāo)發(fā)生尺度、光照、姿態(tài)變化、旋轉(zhuǎn)、遮擋以及快速運(yùn)動等情況下均具有較強(qiáng)的適應(yīng)性,跟蹤性能良好。
提出了一種結(jié)合SVM的多尺度相關(guān)濾波器跟蹤算法,首先通過CSK跟蹤算法計算當(dāng)前目標(biāo)是否受到遮擋,在未受到遮擋的情況下,對當(dāng)前目標(biāo)建立尺度金字塔,然后通過相關(guān)濾波器求取尺度金字塔的最大響應(yīng)得到當(dāng)前目標(biāo)尺度信息;最后使用新目標(biāo)圖像為訓(xùn)練樣本更新目標(biāo)的外觀模型和尺度模型;如果受到遮擋,則觸發(fā)重檢測機(jī)制,在目標(biāo)丟失后重新獲取目標(biāo)。實驗結(jié)果證明該方法跟蹤性能和原始CSK算法相比有所提高,也明顯高于其它5種經(jīng)典算法,適用于具有光照變化、尺度變化和遮擋的復(fù)雜場景下的運(yùn)動目標(biāo)跟蹤。
參考文獻(xiàn):
[1] Fang J,Wang Q,Yuan Y.Part-based online tracking with geometry constraint and attention selection[J].IEEE Transactions on Circuits & Systems for Video Technology,2014,24(5):854-864.
[2] Chen Z,Hong Z,Tao D.An experimental survey on correlation filter-based tracking[J].Computer Science,2015,53(6025):68-83.
[3] Babenko B,Yang M H,Belongi E S.Robust object tracking with online multiple instance learning[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2011,33(8):1619-1632.
[4] Zhang K,Zhang L,Yang M H.Real-time compressive tra-cking[C]∥European Conference on Computer Vision,Springer-Verlag,2012:864-877.
[5] Kalal Z,Mikolajczyk K,Matas J.Tracking-learning-detection[J].IEEE Transactions on Pattern Analysis & Machine Intelligence,2012,34(7):1409-1422.
[6] Hare S,Golodetz S,Saffari A,et al.Struck:Structured output tracking with kernels[J].IEEE Transactions on Pattern Analysis & Machine Intelligence,2015,23(5):263-270.
[7] Bolme D S,Beveridge J R,Draper B A,et al.Visual object tra-cking using adaptive adaptive correlation filters[C]∥IEEE Conference on Computer Vision & Pattern Recognition,IEEE,2010:2544-2550.
[8] Henriques J F,Rui C,Martins P,et al.Exploiting the circulant structure of tracking-by-detection with kernels[C]∥ECCV 2012,Springer:Berlin Heidelberg,2012:702-715.
[9] Henriques J F,Rui C,Martins P,et al.High-speed tracking with kernelized correlation filters[J].IEEE Transactions on Pattern Analysis & Machine Intelligence,2015,37(3):583-596.
[10] Danelljan M,Khan F S,Felsberg M,et al.Adaptive color attri-butes for real-time visual tracking[C]∥IEEE Conference on Computer Vision and Pattern Recognition,IEEE,2014:1090-1097.
[11] Danelljan M,H?ger G,Khan F S,et al.Accurate scale estimation for robust visual tracking[C]∥British Machine Vision Confe-rence,2014:65.1-65.11.
[12] Zhang K,Zhang L,Liu Q,et al.Fast visual tracking via dense spatio-temporal context learning[C]∥2014 European Conference on Computer Vision(ECCV),2014:127-141.
[13] Chapelle O.Training a support vector machine in the primal[J].Neural Computation,2007,19(5):1155-1178.
[14] Wu Y,Lim J,Yang M H.Online object tracking:A Bench-mark[C]∥IEEE Conference on Computer Vision & Pattern Recognition,2013:2411-241.