熊曉璇 王文偉
摘 要:針對(duì)核相關(guān)濾波(KCF)算法無法對(duì)視頻序列中目標(biāo)尺度變化作出響應(yīng)的問題,提出一種基于快速判別式多尺度估計(jì)的核相關(guān)濾波跟蹤算法。首先,使用核相關(guān)濾波器來估計(jì)目標(biāo)位置;然后,通過使用一組不同尺度的目標(biāo)樣本來在線學(xué)習(xí)快速判別式尺度濾波器;最后,在目標(biāo)位置應(yīng)用學(xué)習(xí)的尺度濾波器來獲得目標(biāo)尺寸的準(zhǔn)確估計(jì)。選取Visual Tracker Benchmark視頻序列集進(jìn)行實(shí)驗(yàn),并與基于判別式尺度空間跟蹤(DSST)的KCF算法和傳統(tǒng)KCF算法進(jìn)行對(duì)比,結(jié)果表明,在目標(biāo)尺度發(fā)生變化時(shí),所提算法在跟蹤精度上提高了2.2%至10.8%;并且在平均幀率上,所提算法比DSST的KCF算法提高了19.1%至68.5%,表明該算法對(duì)目標(biāo)尺度變化有很強(qiáng)的適應(yīng)能力和較高的實(shí)時(shí)性。
關(guān)鍵詞:目標(biāo)跟蹤;快速多尺度估計(jì);核相關(guān)濾波;跟蹤精度;計(jì)算速度
中圖分類號(hào): TP301.6
文獻(xiàn)標(biāo)志碼:A
Abstract: Focusing on the issue that the Kernelized Correlation Filter (KCF) can not respond to the target scale change, a KCF target tracking algorithm based on fast discriminative scale estimation was proposed. Firstly, the target position was estimated by KCF. Then, a fast discriminative scale filter was learned online by using a set of target samples with different scales. Finally, an accurate estimation of the target size was obtained by applying the learned scale filter at the target position. The experiments were conducted on Visual Tracker Benchmark video sequence sets, and comparison was performed with the KCF algorithm based on Discriminative Scale Space Tracking (DSST) and the traditional KCF algorithm. Experimental results show that the tracking accuracy of the proposed algorithm is 2.2% to 10.8% higher than that of two contrast algorithms when the target scale changes, and the average frame rate of the proposed algorithm is also 19.1% to 68.5% higher than that of KCF algorithm based on DSST. The proposed algorithm has strong adaptability and high real-time performance to target scale change.
Key words: target tracking; fast multi-scale estimation; Kernelized Correlation Filter (KCF); tracking accuracy; calculation speed
0 引言
隨著計(jì)算機(jī)處理能力的不斷提高,運(yùn)動(dòng)目標(biāo)跟蹤研究逐漸成為計(jì)算機(jī)視覺領(lǐng)域的重要研究課題,在武器制導(dǎo)、人機(jī)交互、智能監(jiān)控、醫(yī)學(xué)診斷、虛擬現(xiàn)實(shí)和運(yùn)動(dòng)分析等領(lǐng)域都有廣闊的應(yīng)用前景[1-2]。由于實(shí)際應(yīng)用場景的復(fù)雜性和多變性,視頻序列中往往存在目標(biāo)尺度大小變化、光照條件變化、背景干擾與噪聲等問題;其次,由于跟蹤算法實(shí)時(shí)性的現(xiàn)實(shí)要求,在算法精度不夠時(shí),跟蹤的效率尤其重要,特別是在現(xiàn)在視頻圖像尺寸越來越大的情況下,需要研究如何提高算法的處理效率、提高算法處理的速度以達(dá)到實(shí)時(shí)處理的效果。因此設(shè)計(jì)出一種快速、準(zhǔn)確的跟蹤算法在目標(biāo)跟蹤研究領(lǐng)域具有極其重要的意義。
目前的目標(biāo)跟蹤算法基本分為三種,即基于預(yù)測、基于匹配和基于檢測的方法?;陬A(yù)測的方法主要是對(duì)未來某個(gè)時(shí)間點(diǎn)的目標(biāo)位置狀態(tài)進(jìn)行估計(jì)假設(shè),縮小目標(biāo)位置范圍的查找,將跟蹤問題看成是一個(gè)狀態(tài)預(yù)測問題,利用估計(jì)理論對(duì)目標(biāo)下一幀中的位置作出最優(yōu)估計(jì),以達(dá)到對(duì)目標(biāo)預(yù)測和跟蹤的目的。常見的預(yù)測算法有Kalman濾波、擴(kuò)展的Kalman濾波及粒子濾波方法等[3]。近幾年新提出的稀疏表示模型也被用于目標(biāo)跟蹤領(lǐng)域,它的主要思想是通過計(jì)算圖像塊的投影來選取出與目標(biāo)模型的投影誤差最小的樣本并標(biāo)記為潛在目標(biāo),以此來達(dá)到目標(biāo)跟蹤的目的。 基于匹配的方法通常是對(duì)目標(biāo)建立一個(gè)完整的表達(dá)模型,再從后續(xù)幀中尋找到最接近模型的圖像區(qū)域并標(biāo)記為目標(biāo)的跟蹤位置。這里目標(biāo)的模型可以通過圖像塊來獲取,也可以是基于目標(biāo)圖像區(qū)域的局部統(tǒng)計(jì)特征。常見的匹配算法有Meanshift[4]、Camshift[5]和置信區(qū)域等算法,它們都屬于無參估計(jì),作用是可以優(yōu)化模板和迭代收斂過程,以達(dá)到縮小搜索范圍的目的。
基于檢測的方法也稱判別式跟蹤方法,它主要是將目標(biāo)跟蹤看成特定的目標(biāo)檢測問題,并運(yùn)用各種學(xué)習(xí)算法對(duì)數(shù)據(jù)樣本進(jìn)行處理,以最優(yōu)的分類處理的數(shù)據(jù)作為預(yù)測下一幀的目標(biāo)位置。這里的學(xué)習(xí)算法主要分為離線和在線兩種,它們主要是通過是否需要預(yù)先準(zhǔn)備大量樣本對(duì)分類器進(jìn)行訓(xùn)練來區(qū)分。在線學(xué)習(xí)算法在跟蹤過程中能夠?qū)崟r(shí)獲取訓(xùn)練數(shù)據(jù)并更新分類器,因而在目標(biāo)和背景變化時(shí)隨之自適應(yīng),從而擁有更好的魯棒性。
最近,基于相關(guān)濾波器的目標(biāo)跟蹤方法顯示出優(yōu)異的性能,由于其具有計(jì)算效率高的優(yōu)點(diǎn),因此特別適用于各種實(shí)時(shí)性的應(yīng)用。文獻(xiàn)[6]提出了誤差最小平方和濾波器(Minimum Output Sum of Squared Error filter, MOSSE),它采用單通道灰度特征,速度達(dá)到669fps(frames per second),滿足實(shí)時(shí)性的要求。之后,文獻(xiàn)[7]提出了基于檢測的跟蹤循環(huán)結(jié)構(gòu)(Circulant Structure of tracking-by-detection with Kernels, CSK),它在MOSSE的基礎(chǔ)上引入了循環(huán)矩陣和核技巧,速度達(dá)320fps,精度比MOSSE有大幅提升。文獻(xiàn)[8]提出了核相關(guān)濾波器(Kernelized Correlation Filter, KCF),它在CSK的基礎(chǔ)上擴(kuò)展了多通道的梯度方向直方圖(Histogram of Oriented Gradients, HOG)特征,極大地提高了算法的有效性。
然而上述跟蹤算法僅針對(duì)目標(biāo)位置進(jìn)行估計(jì),在目標(biāo)尺度變化較大的視頻序列中跟蹤會(huì)發(fā)生漂移甚至丟失。另外,文獻(xiàn)[9-11]在相關(guān)濾波的基礎(chǔ)上引入基于判別式尺度空間跟蹤(Discriminative Scale Space Tracking, DSST)來解決目標(biāo)尺度變化問題,但計(jì)算速度較低,難以保證跟蹤的實(shí)時(shí)性。本文將快速判別式的尺度空間跟蹤(fast Discriminative Scale Space Tracking,fDSST)[12]加入到KCF跟蹤框架中,使用在一組不同尺度上采樣的目標(biāo)外觀來在線學(xué)習(xí)尺度濾波器,以解決目標(biāo)尺度的變化問題,在保證一定計(jì)算速度的前提下提高跟蹤精度,從而改善跟蹤性能。
4 結(jié)語
為解決KCF算法在目標(biāo)尺度發(fā)生變化時(shí)的跟蹤漂移問題,本文在傳統(tǒng)KCF跟蹤框架的基礎(chǔ)上,加入基于快速判別式的尺度濾波器,提出了一種快速判別式尺度估計(jì)的核相關(guān)濾波跟蹤算法。該算法在目標(biāo)尺度發(fā)生變化時(shí)仍具有較高的跟蹤精度和計(jì)算速度,滿足算法的實(shí)時(shí)性要求。但本文算法對(duì)目標(biāo)的快速形變不具有魯棒性,這是因?yàn)楸疚膶?duì)目標(biāo)的特征提取采用的是HOG特征提取,而HOG特征描述的是目標(biāo)的形狀信息,目標(biāo)變化太快會(huì)導(dǎo)致效果變差。因此,尋找更加優(yōu)化的特征提取方法將是下一步的研究重點(diǎn)。
參考文獻(xiàn):
[1] YILMAZ A, JAVED O, SHAH M. Object tracking: a survey [J]. ACM Journal of Computing Surveys, 2006, 38(4): Article No. 13.
[2] SMEULDERS A W M, CHU D M, CUCCHIARA R, et al. Visual tracking: an experimental survey [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2014, 36(7): 1442-1468.
[3] ZHAI Y, YEARY M, ZHUOU D. Target tracking using a particle filter based on the projection method [C]// ICASSP 2007: Proceedings of the 2007 IEEE International Conference on Acoustics, Speech and Signal Processing. Piscataway, NJ: IEEE, 2007, 3: 1189-1192.
[4] COMANICIU D, REMESH V, MEER P. Real-time tracking of non-rigid objects using Mean Shift [C]// Proceedings of 2000 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2000, 2: 142-149.
[5] ALLEN J G, XU R Y D, JIN J S. Object tracking using CamShift algorithm and multiple quantized feature spaces [C]// Proceedings of the 2005 Pan-Sydney Area Workshop on Visual Information Processing. New York: ACM, 2005: 3-7.
[6] BOLME D S, BEVERIDGE J R, DRAPER B A, et al. Visual object tracking using adaptive correlation filters [C]// Proceedings of the 2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2010: 2544-2550.
[7] HENRIQUES J F, CASEIRO R, MARTINS P, et al. Exploiting the circulant structure of tracking-by-detection with kernels [C]// Proceedings of the 2012 European Conference on Computer Vision, LNCS 7575. Berlin: Springer, 2012: 702-715.