林彬 單明媚 鄭浩嵐 王華通
摘? 要: 為綜合評價現(xiàn)有的相關(guān)濾波類算法,對典型的相關(guān)濾波跟蹤器進行全面的比較與分析,從而為進一步完善相關(guān)濾波器的設(shè)計提供指引。從相關(guān)濾波跟蹤理論的一般框架切入,重點對當前四種具有代表性的相關(guān)濾波跟蹤器即KCF,DSST,HCF和ECO展開研究,分別從理論分析以及在大規(guī)模公開數(shù)據(jù)集OTB100上的實驗表現(xiàn)詳細地比較各算法的優(yōu)劣。比較與分析結(jié)果表明,使用卷積特征的算法在跟蹤準確性和魯棒性上相比單純使用人工特征的算法具有顯著優(yōu)勢,然而跟蹤速度也會急劇下降,具有尺度估計模塊的跟蹤器能夠得到更優(yōu)的跟蹤成功圖表現(xiàn)。最后對深度學(xué)習(xí)結(jié)合相關(guān)濾波方法存在的實時性不足、長時跟蹤等問題進行分析,并對未來的發(fā)展趨勢進行了展望。
關(guān)鍵詞: 計算機視覺; 目標跟蹤; 相關(guān)濾波; 深度學(xué)習(xí); 卷積特征; 尺度估計
中圖分類號: TN911?34; TP391? ? ? ? ? ? ? ? ? ? ? 文獻標識碼: A? ? ? ? ? ? ? ? ? ?文章編號: 1004?373X(2020)05?0030?06
Comparison and analysis of typical correlation filter tracking algorithm
LIN Bin, SHAN Mingmei, ZHENG Haolan, WANG Huatong
(College of Science, Guilin University of Technology, Guilin 541004, China)
Abstract: Comprehensive comparison and analysis on typical correlation filter trackers are performed to synthetically evaluate the existing correlation filter algorithm, thereby providing guidance for further improving the design of correlation filter. Firstly, the general framework of correlation filter tracking theory is taken as the start; and then, the current four representative correlation filter trackers of KCF, DSST, HCF and ECO are researched focally, and the advantages and disadvantages of each algorithm are compared in detail from both theoretical analysis and experimental performance on large?scale public data set OTB100. The results show that the algorithms with convolutional features have significant advantages in tracking accuracy and robustness in comparison with the algorithm with artificial features, but the tracking speed will decrease sharply; the tracker with scale estimation module can obtain superior performance on tracking success plot. Finally, the poor real?time performance and long?term tracking in the deep learning combined with the correlation filtering algorithm are analyzed, and the development trend in the future is prospected.
Keywords: computer vision; object tracking; correlation filter; deep learning; convolutional feature; scale estimation
0? 引? 言
視頻目標跟蹤作為計算機視覺領(lǐng)域的一項核心技術(shù),是目標識別、目標行為分析和視頻內(nèi)容理解等各種后續(xù)高層視覺處理任務(wù)的基礎(chǔ)。目標跟蹤理論最早是在軍事領(lǐng)域被提出的。隨著科技的發(fā)展,現(xiàn)代武器的自動化、智能化大幅提升,目標跟蹤技術(shù)的運用有利于提高軍事打擊的命中率。在民用領(lǐng)域,目標跟蹤算法己經(jīng)廣泛應(yīng)用于視頻監(jiān)控、智能交通、人機交互、行為分析、虛擬現(xiàn)實以及自動駕駛等領(lǐng)域。通常,目標跟蹤任務(wù)需要在視頻序列的第一幀給出目標的初始位置(一般使用矩形框進行標注),跟蹤算法則自動計算出目標在后續(xù)每幀圖像中的位置、大小等運動信息。在實際應(yīng)用中,由于受到光照變化、攝像頭抖動、目標發(fā)生形變或尺度變化、目標被遮擋等一系列干擾因素的影響,如何對運動目標進行準確、魯棒地跟蹤,仍然是一個極具挑戰(zhàn)性的問題。
根據(jù)外觀模型的構(gòu)建方式可將目標跟蹤算法分為生成式方法和判別式方法兩類。生成式方法首先對目標進行特征提取和表觀建模,然后在下一幀中找到與模型最為相似的區(qū)域即為目標的預(yù)測區(qū)域。判別式方法的基本思想是用檢測來做跟蹤,將跟蹤問題轉(zhuǎn)化成為一個區(qū)分目標和背景的二分類問題。
相比于生成式方法,判別式方法有效地利用了圖像中的背景信息,使跟蹤算法能夠更好地適應(yīng)復(fù)雜的環(huán)境變化。判別式方法是目前目標跟蹤領(lǐng)域的主流方法,基于相關(guān)濾波的跟蹤算法屬于判別式方法。
Bolme等最早將相關(guān)濾波理論引入目標跟蹤領(lǐng)域,提出基于最小化均方誤差(Minimizing the Output Sum of Squared Error,MOSSE)的相關(guān)濾波跟蹤算法[1],跟蹤速度達到669 f/s,引起了領(lǐng)域內(nèi)的廣泛關(guān)注。之后,基于MOSSE相關(guān)濾波器框架之上的一系列算法相繼被提出,改進的方面主要包括:特征改進[2?5]、尺度估計[6?9]、多核算法[10]、模型更新[11]、處理邊界效應(yīng)(Bound Effect)[12?14]、基于分塊(Part?based)算法[15?16]等。
值得一提的是,文獻[2?5]涉及的特征均為淺層的人工特征,如方向梯度直方圖(Histogram of Oriented Gradient,HOG)特征和顏色空間(Color Name,CN)特征等。近年來,深度學(xué)習(xí)(Deep Learning)技術(shù)在圖像分類、圖像分割、目標檢測等領(lǐng)域取得了巨大的成功,研究者開始將卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)框架應(yīng)用到目標跟蹤中,文獻[17?20]均采用將CNN提取的卷積特征與相關(guān)濾波框架相結(jié)合的方式,提高了算法的跟蹤精度和魯棒性。
本文首先對相關(guān)濾波跟蹤算法的基本理論進行闡述,然后對目前具有代表性的四種相關(guān)濾波跟蹤算法進行詳細介紹,并結(jié)合實驗深入分析并比較它們的性能,為后續(xù)研究者對相關(guān)濾波跟蹤算法進一步的研究工作奠定了基礎(chǔ)。
1? 相關(guān)濾波跟蹤理論
相關(guān)濾波跟蹤的基本思想是利用第一幀的目標樣本來訓(xùn)練濾波器,在后續(xù)幀中通過相關(guān)濾波操作尋找圖像搜索區(qū)域的最大響應(yīng)位置,并將此位置標注為新的目標中心,并在后續(xù)的跟蹤過程中不斷更新濾波器。相關(guān)濾波跟蹤方法由于在相關(guān)濾波器的訓(xùn)練和響應(yīng)圖生成階段利用快速傅里葉變換(Fast Fourier Fransform,F(xiàn)FT)將時域轉(zhuǎn)換到頻域進行計算,從而極大地提高了運行效率。
相關(guān)濾波跟蹤算法的一般框架和執(zhí)行過程如圖1所示。
1) 在第一幀給定的目標位置提取圖像塊,訓(xùn)練得到初始的相關(guān)濾波器,在后續(xù)的每一幀中,根據(jù)上一幀的位置提取新的圖像塊作為當前幀的搜索區(qū)域進行特征提取,并利用余弦窗口平滑圖像塊的邊緣像素。
2) 將訓(xùn)練好的相關(guān)濾波器作用于搜索區(qū)域生成響應(yīng)圖,在響應(yīng)圖中尋找最大響應(yīng)位置作為目標在當前幀的估計位置,即跟蹤結(jié)果。響應(yīng)圖的計算如下:
[G=F⊙H*] (1)
式中:[F]為目標區(qū)域特征的頻域表示;[H]為濾波器模板的頻域表示;[H*]表示[H]的共軛轉(zhuǎn)置;[G]表示最終響應(yīng);[⊙]表示矩陣對應(yīng)元素相乘。
3) 根據(jù)新的位置提取圖像塊,在提取特征后對濾波器模板進行訓(xùn)練和更新。在訓(xùn)練濾波器模板的過程中,需要構(gòu)造目標函數(shù),使得期望輸出與實際輸出之間的誤差盡可能小。該優(yōu)化問題可以表示如下:
[minH*iFi⊙H*-Gi2] (2)
式中[i]表示第[i]個訓(xùn)練樣本。由式(2)可得濾波器模板的封閉解,即:
[H*=iGi⊙F*iiFi⊙F*i] (3)
相比于傳統(tǒng)基于粒子濾波、稀疏表示等計算量極大的跟蹤方法而言,相關(guān)濾波跟蹤方法能夠更好地適應(yīng)視頻處理的實時性需求,因此,近幾年基于相關(guān)濾波的跟蹤方法開始在領(lǐng)域內(nèi)逐漸占據(jù)主導(dǎo)位置。
2? 典型相關(guān)濾波算法
本節(jié)將詳細介紹當前具有代表性的四種相關(guān)濾波跟蹤算法的特性。具體包括:核化相關(guān)濾波(Kernelized Correlation Filter,KCF)跟蹤器、判斷尺度空間跟蹤器(Discriminative Scale Space Tracker,DSST)、多層卷積特征(Hierarchical Convolutional Features,HCF)跟蹤器和高效卷積操作(Efficient Convolution Operators,ECO)跟蹤器。
2.1? KCF算法
在MOSSE框架的基礎(chǔ)上,文獻[2]提出了著名的KCF算法,主要貢獻體現(xiàn)在以下三個方面:
1) 針對跟蹤領(lǐng)域中訓(xùn)練樣本不足的問題(實際只有第一幀樣本,MOSSE對其進行仿射變換,從而得到多個訓(xùn)練樣本),創(chuàng)新性地提出了一種循環(huán)密集采樣的方法,即利用中心圖像塊循環(huán)移位來產(chǎn)生虛擬樣本。由于考慮了所有的循環(huán)樣本,KCF訓(xùn)練得到的相關(guān)濾波器具有很強的判別性。
2) KCF將MOSSE中單通道的灰度特征拓展到了31維的HOG特征。單通道的灰度特征對于目標的特征表達能力非常有限,極易受到相似環(huán)境的影響,從而導(dǎo)致跟蹤失敗。而HOG特征對光照變化、顏色變化以及運動模糊等方面不敏感,能夠提升相關(guān)濾波跟蹤算法的魯棒性,并且,多通道的特征提取過程為進一步的多特征融合提供了基礎(chǔ)。
3) 在求解相關(guān)濾波器方面,KCF算法引入了核函數(shù),將原線性空間中的嶺回歸映射到了非線性空間,并成功地利用了循環(huán)矩陣特有的傅里葉空間對角化性質(zhì)簡化非線性空間中的求解,從而提升算法的執(zhí)行效率。
2.2? DSST算法
尺度變化是目標跟蹤中的一個挑戰(zhàn)因素,MOSSE和KCF均沒有考慮尺度問題。當目標尺度縮小時,會造成選取的圖像塊中包含大量背景信息,當目標尺度擴大時,會造成選取的圖像塊中只包含目標的局部信息,這兩種情況都會引起跟蹤漂移[21]。
為解決尺度變化問題,Danelljan等人提出的DSST算法在KCF的基礎(chǔ)上引入了尺度估計[6]。除了用于估計目標中心的平移濾波器外,DSST算法還單獨訓(xùn)練了一個一維的尺度濾波器,在估計出目標在當前幀的位置中心后,再在該位置處提取多個不同大小的圖像塊,并使用尺度濾波器進行尺度估計,以最大響應(yīng)對應(yīng)的尺度作為最優(yōu)尺度。
可以看到,融合了卷積特征和人工特征的ECO仍然在各種條件下表現(xiàn)最優(yōu),具有很好的魯棒性;HCF的魯棒性僅次于ECO,但是由于只使用卷積特征且缺少尺度自適應(yīng)策略,在光照變化和尺度變化的重疊率方面不如DSST;而DSST雖然對于光照變化和尺度變化取得了較好的效果,但在形變和遮擋兩種情況下表現(xiàn)最差;KCF只使用人工特征且沒有考慮尺度問題,在各個挑戰(zhàn)因素均處于劣勢,魯棒性相對較差。
表2給出了四種跟蹤算法在100組視頻上的平均處理速度??梢钥闯?,盡管KCF和DSST在準確性和魯棒性方面不如HCF和ECO,但是從高效性方面來說具有明顯的優(yōu)勢,尤其是KCF;相比于HCF,ECO,一系列的去冗余操作使算法在運行效率上有不少的提升,但是卷積特征的提取過程仍然比較耗時,尚無法滿足實時性需求。
3.2? 定性分析
為了進一步評估各算法的跟蹤結(jié)果,從OTB100中挑選了部分具有代表性的視頻序列對跟蹤結(jié)果進行了定性比較,如圖3所示。按照先從左至右、再從上到下的順序,視頻序列依次為Board,Girl2,Bird2,Human2,Bolt2,Rubik,F(xiàn)reeman1,Singer1。
由圖3可見,ECO在這8組視頻中均能夠保持對目標穩(wěn)定地跟蹤,尤其是在Girl2這一組視頻序列上存在行人對目標遮擋、目標出現(xiàn)運動模糊等情況,除了ECO,其他的算法均丟失了目標;CF2總體表現(xiàn)也較為良好,在Girl2以外的7組視頻中跟蹤成功,但是從Rubik和Singer1中可以看出算法沒有解決尺度問題;DSST在Rubik和Singer1中能夠有效地適應(yīng)目標的尺度變化,和ECO一樣在這兩組視頻上表現(xiàn)較好,但在其他的6組視頻中均出現(xiàn)了漂移;KCF對Bird2,Rubik,Singer1這3組視頻跟蹤成功,其他均失敗,且沒有解決尺度問題。
總體來說,憑借深度學(xué)習(xí)強大的特征能力,使用卷積特征能夠有效提升相關(guān)濾波跟蹤算法的準確性和魯棒性,但同時也會極大地降低算法的高效性。如何平衡算法的精度和速度,是目前目標跟蹤算法設(shè)計過程中一個需要著重考慮的關(guān)鍵點。另外,尺度變化在跟蹤領(lǐng)域中較為常見,在設(shè)計跟蹤算法的同時應(yīng)該考慮尺度自適應(yīng)問題,以及縱橫比自適應(yīng)的問題(目前該方面的研究工作較少),從而提高算法的重疊率。
4? 結(jié)? 論
本文對相關(guān)濾波跟蹤算法的研究現(xiàn)狀和基本理論進行了歸納和介紹,并選擇了四種典型的相關(guān)濾波跟蹤算法進行詳細地闡述,并結(jié)合實驗對它們的性能表現(xiàn)進行充分地驗證和比較分析。通過實驗不難看出,目標跟蹤領(lǐng)域的研究已經(jīng)取得了很大的進步,尤其是深度學(xué)習(xí)技術(shù)的引入,使得算法精度得到了大幅提升。但是,OTB數(shù)據(jù)集中的場景仍然相對簡單,視頻長度也都較為短小。為了適應(yīng)更復(fù)雜的現(xiàn)實場景,要設(shè)計出更高精度、高魯棒性且滿足實時性需求的目標跟蹤算法仍需開展大量研究工作,未來的研究方向和發(fā)展趨勢可能包括以下幾點:
1) 目前大部分結(jié)合深度學(xué)習(xí)的目標跟蹤算法速度都較慢,由于實際應(yīng)用有很強的實時性需求,因此不適合使用層數(shù)太多的CNN網(wǎng)絡(luò)(且已經(jīng)訓(xùn)練好的用于分類的網(wǎng)絡(luò)模型),如何針對跟蹤問題設(shè)計一個適合的輕量化網(wǎng)絡(luò)進行特征的提取,將是一個值得研究和探討的問題。
2) 相關(guān)濾波跟蹤方法在跟蹤過程中一旦出現(xiàn)漂移,將會導(dǎo)致濾波器模板被破壞,無法從錯誤的跟蹤狀態(tài)中恢復(fù)過來,因而難以適應(yīng)實際應(yīng)用中的長時跟蹤(Long?term Tracking)場景。一些研究工作通過引入目標檢測技術(shù),在跟蹤失敗時通過檢測器重新定位目標,從而輔助跟蹤器重新建立目標模板[26?27]。如何更好地利用檢測算法快速準確地定位目標位置,解決長時跟蹤問題,將成為目標跟蹤領(lǐng)域要解決的主要問題之一。
3) 跟蹤問題中,只有第一幀目標的位置信息,跟蹤物體的先驗信息嚴重缺乏,這就要求模型實時更新以保持對變化中目標的刻畫。但是,模型更新容易引入噪聲導(dǎo)致跟蹤漂移。近期,一些算法采用孿生網(wǎng)絡(luò)(Siamese Network)結(jié)構(gòu)保存先驗信息[28?30],代替模型的在線更新,在算法的精度和速度方面均展現(xiàn)了良好的性能,已經(jīng)成為領(lǐng)域內(nèi)一個新的熱點,值得進一步的研究。
參考文獻
[1] BOLME D S, BEVERIDGE J R, DRAPER B A, et al. Visual object tracking using adaptive correlation filters [C]// Procee?dings of the IEEE Conference on Computer Vision and Pattern Recognition. San Francisco, US: IEEE, 2010: 2544?2550.
[2] HENRIQUES J F, RUI C, MARTINS P, et al. High?speed tracking with kernelized correlation filters [J]. IEEE transactions on pattern analysis and machine intelligence, 2015, 37(3): 583?596.
[3] DANELLJAN M, KHAN F S, FELSBERG M, et al. Adaptive color attributes for real?time visual tracking [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Columbus, US: IEEE, 2014: 1090?1097.
[4] ZHU Guibo, WANG Jinqiao, WU Yi, et al. MC?HOG correlation tracking with saliency proposal [C]// Proceedings of the Thirtieth AAAI Conference on Artificial Intelligence. Palo Alto, US: AAAI, 2016: 3690?3696.
[5] BERTINETTO L, VALMADRE J, GOLODETZ S, et al. Staple: complementary learners for real?time tracking [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, US: IEEE, 2016: 1401?1409.
[6] HUANG Dafei, LUO Lei, CHEN Zhaoyun, et al. Applying detection proposals to visual tracking for scale and aspect ratio adaptability [J]. International journal of computer vision, 2017, 122(3): 524?541.
[7] DANELLJAN M, H?GER G, KHAN F S, et al. Accurate scale estimation for robust visual tracking [C]// Proceedings of the British Machine Vision Conference. Nottingham, UK: BMVA press, 2014: 1?150.
[8] LI Yang, ZHU Jianke. A scale adaptive kernel correlation filter tracker with feature integration [C]// Proceedings of the European Conference on Computer Vision Workshop. Berlin: Springer, 2015: 254?265.
[9] DANELLJAN M, H?GER G, KHAN F S, et al. Discriminative scale space tracking [J]. IEEE transactions on pattern ana?lysis and machine intelligence, 2017, 39(8): 1561?1575.
[10] 林海濤,鐘???,王斌,等.基于相關(guān)濾波的目標快速跟蹤算法研究[J].現(xiàn)代電子技術(shù),2018,41(2):21?25.
[11] WANG M, LIU Y, HUANG Z. Large margin object tracking with circulant feature maps [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, US: IEEE, 2017: 4800?4808.
[12] DANELLJAN M, H?GER G, KHAN F S, et al. Learning spatially regularized correlation filters for visual tracking [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Santiago: IEEE, 2015: 4310?4318.
[13] GALOOGAHI H K, SIM T, LUCEY S. Correlation filters with limited boundaries [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Boston, US: IEEE, 2015: 4630?4638.
[14] LUKE?IC A, VOJ?R T, ZAJC L C, et al. Discriminative correlation filter with channel and spatial reliability [C]// Procee?dings of the IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, US: IEEE, 2017: 4847?4856.
[15] LI Yang, ZHU Jianke, HOI S C H. Reliable patch trackers: robust visual tracking by exploiting reliable patches [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Boston, US: IEEE, 2015: 353?361.
[16] FAN H, XIANG J. Robust visual tracking via local?flobal correlation filter [C]// Proceedings of the Thirty?first AAAI Conference on Artificial Intelligence. Palo Alto, US: AAAI, 2017: 4025?4031.
[17] MA Chao, HUANG J B, YANG Xiaokang, et al. Hierarchical convolutional features for visual tracking [C]// Proceedings of the IEEE International Conference on Computer Vision. Santiago: IEEE, 2016: 3074?3082.
[18] DANELLJAN M, H?GER G, KHAN F S, et al. Convolutional features for correlation filter based visual tracking [C]// Proceedings of the IEEE International Conference on Computer Vision Workshop. Santiago: IEEE, 2016: 621?629.
[19] DANELLJAN M, ROBINSON A, KHAN F S, et al. Beyond correlation filters: learning continuous convolution operators for visual tracking [C]// Proceedings of the European Con?ference on Computer Vision. Berlin: Springer, 2016: 472?488.
[20] DANELLJAN M, BHAT G, KHAN F S, et al. ECO: efficient convolution operators for tracking [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, US: IEEE, 2017: 6931?6939.
[21] 盧湖川,李佩霞,王棟,等.目標跟蹤算法綜述[J].模式識別與人工智能,2018,31(1):61?76.
[22] KRIZHEVSKY A, SUTSKEVER I, HINTON G E. ImageNet classification with deep convolutional neural networks [C]// Proceedings of the International Conference on Neural Information Processing Systems. Massachusetts: MIT Press, 2012: 1097?1105.
[23] SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large?scale image recognition [C]// Proceedings of the International Conference for Learning Representations. La Jolla, US: ICLR Press, 2015: 1?32.
[24] HE Kaiming, ZHANG Xiangyu, REN Shaoqing, et al. Deep residual learning for image recognition [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, US: IEEE, 2016: 770?778.
[25] WU Yi, LIM J, YANG M H. Object tracking benchmark [J]. IEEE transactions on pattern analysis and machine intelligence, 2015, 37(9): 1834?1848.
[26] MA Chao, YANG Xiaokang, ZHANG Chongyang, et al. Long?term correlation tracking [C]// Proceedings of the IEEE Con?ference on Computer Vision and Pattern Recognition. Boston: IEEE, 2015: 5388?5396.
[27] LIN Bin, LI Ying, XUE Xizhe, et al. Robust long?term correlation tracking using convolutional features and detection proposals [J]. Neurocomputing, 2018, 317(1): 137?148.
[28] BERTINETTO L, VALMADRE J, HENRIQUES J F, et al. Fully?convolutional Siamese networks for object tracking [C]// Proceedings of the European Conference on Computer Vision. Berlin: Springer, 2016: 850?865.
[29] TAO R, GAVVES E, SMEULDERS A W M. Siamese instance search for tracking [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas: IEEE, 2016: 1420?1429.
[30] GUO Qing, FENG Wei, ZHOU Ce, et al. Learning dynamic Siamese network for visual object tracking [C]// Proceedings of the IEEE International Conference on Computer Vision. Venice, Italy: IEEE, 2017: 1781?1789.