徐 寧,王娟娟,郭曉雨,趙增順
(山東科技大學 電子信息工程學院,山東 青島 266590)
目標跟蹤是計算機視覺領域中一個基礎性問題,在無人駕駛、人機交互、視頻監(jiān)控等領域具有廣泛的應用.目標跟蹤根據(jù)跟蹤數(shù)量,分為單目標和多目標跟蹤,單目標跟蹤針對目標的外觀與運動軌跡進行建模,實現(xiàn)目標位置的估計[1].在一般的跟蹤任務中,給定初始目標位置,跟蹤器能夠在級聯(lián)的視頻序列中估計目標狀態(tài)[2],在有限的訓練樣本中克服目標的旋轉、遮擋、光照變化、快速運動、模糊、低分辨率等挑戰(zhàn)[3,4],考驗著跟蹤器的準確性、魯棒性、實時性.
近年來,基于判別式相關濾波器(Discriminative Correlation Filters,DCF)方法在跟蹤任務中展現(xiàn)了卓越的性能[4-11].生成式方法通常使用參數(shù)模型來描述目標的外觀模型,在候選集中選擇重構誤差最小的作為目標圖像.判別式方法是將跟蹤任務視為分類或者嶺回歸問題,通過估計給定輸入標簽的條件概率分布實現(xiàn)對候選目標的輸出[12],判別式相關濾波器通過訓練濾波器預測目標的分類分數(shù)[4],將目標從背景中辨別出.DCF類跟蹤器不僅通過快速傅里葉變換(FFT)加快運算速度,還得益于特征表示、空間正則項、時間平滑項[13]、流程優(yōu)化等環(huán)節(jié)的優(yōu)勢,在Visual Object Tracking[14-17](VOT)競賽中獲得了極大成功.在具體的跟蹤任務中,跟蹤器主要將跟蹤任務分為位置估計與尺度估計[7,10].測試數(shù)據(jù)集[14-22]評價工具的標準化[14,22]與VOT競賽極大地促進了跟蹤領域的發(fā)展.
第2章以圍繞著DCF類中的KCF算法進行橫向展開;第3章介紹基于預訓練模型和DCF與神經(jīng)網(wǎng)絡相結合的跟蹤器;第4章總結了DCF線路演進圖;第5章為部分跟蹤器在OTB-100與VOT-2017/2018數(shù)據(jù)集中的結果對比;第6章為部分算法的實際應用簡介;第7章為總結部分,文章編排與文獻[23,24]類似.
2010年,Bolme等[8]提出MOSSE,將信號的相關性用于跟蹤任務.該算法通過計算灰度序列圖像的最小化實際與期望的均方誤差來訓練濾波器,通過使用循環(huán)相關性,作者證明了僅使用FFT和點乘便能有效地計算濾波器.在MOSSE的基礎上,Henriques等[9]設計了CSK提出可以用循環(huán)位移代替隨機采樣從而實現(xiàn)密集采樣,利用頻域平移等效的實現(xiàn)該理論,并推導了不同核函數(shù)的封閉解.在CSK的基礎上,KCF[3]采用多通道的HOG[25]特征探究了不同核函數(shù)對跟蹤的影響,對比了性能稍優(yōu)的KCF(Kernelized Correlation Filter)與運行速度更快的DCF(Dual Correlation Filter).至此,基于判別式相關濾波器的基礎理論工作趨于完善,后續(xù)跟蹤器針對DCF的問題進行有針對性地改進,從特征降維、特征選擇、通道權重、跟蹤器結構設計等角度提升跟蹤器性能.
DCF模型的任務是最小化采樣xk與回歸目標y的均方誤差,其目標函數(shù)可寫為[11]:
(1)
xk∈RD,RD為輸入圖片集,D為M×N像素空間調(diào)整為m×n模型大小,K表示樣本xk的通道數(shù),ωk*xk為濾波器與采樣的相關操作,y為期望相關響應(高斯矩陣),λ為正則參數(shù)減少模型的過擬合.目標函數(shù)通過FFT轉到頻域進行高效求解[3,8],DCF的變形公式可參見文獻[2,5,6,11,12].模型ω的增量更新[9]為:
(2)
其中ωpre為當前模型,ωmodel為濾波器模型,α∈[0,1]為模型更新速率.基于檢測跟蹤框架[2,7,10,11]的DCF算法,一般主要分為位置估計與尺度估計兩個模塊,流程參見圖1.
圖1 DCF流程Fig.1 Flow chart of DCF
MOSSE與STC[26]使用了單通道的灰度特征,對于快速移動與變形等挑戰(zhàn)易丟失,采用多通道特征的跟蹤器性能更強,例如:MCCF[27]、KCF將多通道的HOG特征融入到DCF框架中,文獻[28]采用的11通道的CN特征等.通道的概念主要使得高維特征數(shù)據(jù)、不同特征集成到DCF框架中.所采用的手工特征如Histogram of Oriented Gradient[25,29](HOG)、Color Names[28](CN)、SHIFT[30]、顏色特征[28,31-33]等來獲取目標的形狀、顏色等信息.其中HOG特征主要描述目標的形狀信息[34],但對目標的快速移動與旋轉不魯棒.CN與Staple[32]主要是描述目標的顏色信息,與HOG特征具有一定的互補性,對于目標的快速運動、變形具有一定的魯棒性[32,33].CN特征主要將RGB圖像轉換為11維(10維顏色特征,1維灰度特征)的顏色特征數(shù)據(jù),Staple是對目標前景與背景進行顏色直方圖統(tǒng)計.伴隨著深度學習的發(fā)展,表現(xiàn)能力更強的Convolutional Neural Network(CNN)特征得到了廣泛采用,采用CNN特征的跟蹤器主要在第三章描述.
為加快模型的速度與效率,對特征通常采取特征降維、通道選擇、特征選擇與模型的稀疏更新等策略.如DSST[7]的快速版fDSST[35]通過Principal Component Analysis(PCA)將31維的HOG特征減少到17維,實現(xiàn)兩倍于DSST的運行速度;CSRDCF[31]為實現(xiàn)快速運行,HOG特征僅采用18維;LADCF[12]實現(xiàn)了模型特征自適應的選擇,獲得了稀疏的模型;ECO[6]針對C-COT[5]特征冗余的問題,模型采取稀疏更新的策略.
在MOSSE、CSK與KCF中,目標的特征采集窗口為固定的尺度大小,雖然簡單易實現(xiàn),但是當目標外觀尺度產(chǎn)生改變時,跟蹤器在更新過程中由于樣本特征采集偏差引起模型漂移,導致跟蹤任務失敗.由此產(chǎn)生了兩種經(jīng)典的尺度設計方案DSST[7]與SAMF[10].
DSST基于CSK,采用HOG特征將跟蹤任務分為平移估計與尺度估計,尺度估計設計了33層的尺度金字塔,選擇置信度最大值對應的尺度因子,平移估計與尺度估計相互獨立.SAMF基于KCF采用HOG特征和CN特征,以尺度池的形式完成不同尺度圖像特征的提取,選擇置信度最大值為對應尺度.對比于DSST,SAMF思路將跟蹤與尺度設計融為一體,減少了跟蹤器結構的設計,但額外的增加尺度池特征提取的計算量.兩種尺度估計方法均能夠集成到其他DCF跟蹤器[2,11,12,31]中.
KCF采用固定值的窗函數(shù),sKCF[36]設計出一個自適應窗動態(tài)的調(diào)整跟蹤器對目標的感受視野,實現(xiàn)跟蹤器對目標尺度特征的正確采集.對于窗函數(shù)的感受視野也可以通過對搜索框的動態(tài)調(diào)整,實現(xiàn)單一核跟蹤器對目標的感受[2,11,12].
DSST和SAMF思路進行尺度估計時,目標的縱橫比不能隨著目標的改變實現(xiàn)恰當?shù)恼{(diào)整,只能按照初始化的縱橫比進行等比例調(diào)整,DCF本身不具備尺度估計功能,但是能根據(jù)信號的相關性提供置信度和位置信息.因此,基于part-based文獻[37-40]采取增設DCF數(shù)量的方式,用位置信息實現(xiàn)尺度的確定.文獻[37]把目標圖像分為5塊,分別用獨立的濾波器進行單獨訓練,最后采用貝葉斯原理完成位置確定.文獻[38]采用ADMM算法對目標圖像進行聯(lián)立相關濾波器實現(xiàn)目標定位.DPT[39]采用級聯(lián)層視覺模型理論[41],先由顏色信息完成粗定位,中層表示用4個DCF濾波器在拓撲圖上進行動態(tài)的調(diào)整,完成最終定位.采用CNN特征的IBCCF[40]用更為直觀的形式進行尺度實現(xiàn).IBCCF處理過程:先通過二維中心濾波器CCF確定目標位置,然后用4個獨立的一維邊界濾波器BCFs完成目標邊緣特征的檢測,將BCFs得到的位置信息再與CCF的結果進行比較,最后確定目標位置.模型加入近正交正則化項使用ADMM方法進行求解,該方法能很好的處理縱橫比變化的目標,但不能滿足實時性的要求.DCCO[42]將子濾波器以線性結合的方式集成到C-COT[5]的連續(xù)域公式中,在尺度變化與旋轉上較C-COT有優(yōu)勢.基于part-based因為增設不同位置的濾波器,可以感知邊界狀態(tài)的動態(tài)變化,在應對遮擋、形變等挑戰(zhàn)存在優(yōu)勢,但目標邊界圖像動態(tài)范圍大,邊緣特征提取易受背景信息干擾,如何整合部分信息進行全局目標的定位存在難點.
粒子濾波器實現(xiàn)尺度估計.RPT[43]使用粒子濾波器完成不同位置的信息采集,每種采樣單獨增設KCF,根據(jù)粒子信息推斷位置與尺度的改變.RCPF[44]將KCF與粒子濾波器進行結合,以狀態(tài)引導的方式減少粒子采樣數(shù)量,平衡速度與精確度,相比于KCF能夠克服部分尺度變化與遮擋問題.采用CNN特征的MCPF[45]將粒子濾波器與多任務處理器MCF進行結合,MCF主要將多層CNN特征進行集成,粒子采樣過程與RCPF類似.采樣方式和粒子濾波器的數(shù)量直接對跟蹤器的性能產(chǎn)生影響[45],但運行速度也會隨之下降.
基于檢測跟蹤框架的跟蹤器,較少對跟蹤結果進行分析與利用,在KCF的檢測階段,模型漂移時,置信圖上會表現(xiàn)出多峰現(xiàn)象[46],利用置信圖的信息在跟蹤過程中構建反饋環(huán)節(jié)優(yōu)化跟蹤過程成為提升跟蹤器性能的一條途徑.
針對置信圖的評價,MOSSE提出PSR(Peak to Sidelobe Ratio)作為衡量置信圖的檢測依據(jù).LMCF[46]提出APCE(Average Peak-to-Correlation Energy),通過比較置信圖的APCE值的變化過程,實現(xiàn)目標狀態(tài)的預估,模型的更新考慮置信圖峰值與APCE兩個標準,當目標處于遮擋與形變狀態(tài)時,APCE值會下降.MLCFT[47]結合KCF將每層CNN的響應圖使用KL散度(Kullback-Leibler divergence)進行了融合,作為前檢測模塊,應用LMCF再檢測策略選擇峰值靠前點級聯(lián)再檢測模塊,模型更新系數(shù)設計成自適應.為提升多峰檢測效率,兩者使用二值矩陣對峰值范圍進行限制來提升檢測效率,但不利于位置快速運動的目標檢測.CPT[48]提出了AFER(Aerage Feature Energy Ratio)用于CNN特征響應圖的計算,實現(xiàn)自適應卷積通道的選擇.SRDCFdecon[3]為減少訓練模型中樣本的退化,結合外觀模型與樣本質(zhì)量,提出了針對樣本的質(zhì)量評價公式.UPDT[49]提出最小加權置信區(qū)間(Minimal Weighted Confidence Margin)衡量候選目標質(zhì)量,用于模型的深度與淺層分數(shù)的自適應融合.
Ma等[50]提出LCT,整個跟蹤器由平移模塊、目標模塊、尺度模塊(與DSST類似)和分類器(k近鄰分類器與隨機蕨分類器),目標模塊發(fā)揮長期記憶功能,當置信圖峰值低于閾值,啟動隨機蕨分類器(后期版本LCT+[51]換為SVM分類器)進行再檢測.對比于LCT,MUSTer[52]采用認知記憶模型(Atkinson-Shiffrin Memory Model),分為了關鍵點的長期記憶模塊(SIFT)、短時記憶模塊(DCF),當跟蹤失敗或者遮擋,更新短時模塊.文獻[53]在ECO的基礎上,提出了結合全局模型與本地目標模型進行目標丟失再檢測,根據(jù)置信結果用困難負例挖掘訓練全局模型,目標丟失后,全局模型檢索全圖搜尋目標,目標模型繼續(xù)保持更新.
標準DCF跟蹤器[4,9]采用循環(huán)位移理論獲得真實樣本與合成樣本,受邊界效應影響,合成樣本不能完全反應采樣信息[2,54],模型容易產(chǎn)生過擬合.
為克服邊界效應,SRDCF[2]加入空域正則化以獎懲的形式完成對邊界背景區(qū)域信息的篩選,使得中心區(qū)域集中更多能量.模型求解使用Gaus-Seidel方法,但由于正則優(yōu)化成本高,且權重系數(shù)不能隨著目標的變化而改變,均速為6~7幀/s,達不到實時性的要求.BACF[11]基于CFLB[54],提出將整幅圖像的正負樣本全部用于濾波器的訓練,通過二進制標記矩陣(裁剪)實現(xiàn)搜索框內(nèi)背景信息的抑制,提取目標區(qū)域特征,實現(xiàn)跟蹤器的密集采樣過程,采用ADMM優(yōu)化算法.為滿足實時性的要求,僅采用HOG特征,性能上超越了部分采用CNN特征的跟蹤器[71,75].其中對濾波器系數(shù)的標記策略在后續(xù)的跟蹤器[31,57-60,79,81]中得到廣泛采用.CACF[55]考量了全局信息,背景參考在目標四周進行選取,在濾波器的封閉解[4]中加入背景懲罰項,該框架能融入求取封閉解的跟蹤器[4,10,32].CSRDCF[31]結合了SRDCF與CFLB,通過對搜索區(qū)域內(nèi)的顏色分割完成前景與背景區(qū)分,將前景標記矩陣用于濾波器系數(shù)的選取,系數(shù)的選取較CFLB與BACF進行更為細致的空域限制,通道權重建立了歷史模型,但由于僅采用顏色信息限制,標記矩陣的提取會受到背景和光照變化干擾.
DCF由此產(chǎn)生了兩條主要的方向,一類是以SRDCF為基礎進行空域正則化、特征降維、特征插值與置信圖融合[5,6,49]的思路;另一類是采用BACF圍繞目標區(qū)域標記的策略,進行空域特征限制,在模型中增添限制項[12,13,57-60].
為減少過擬合的產(chǎn)生,KCF公式求解中加入懲罰因子λ,在DCF公式中加入合理的限制項成為提升跟蹤器性能的一條重要方向.對于以公式模型創(chuàng)新的跟蹤器[2,12,13,57-60],由于DCF模型及其拉格朗日推導式為凸函數(shù),Alternating Direction Method of Multipliers[56](ADMM)算法幾乎成為標配.STRCF[57]在模型中加入了時間正則項來減少模型的過擬合,減少了因目標遮擋和變形而造成的跟蹤失敗.ASRCF[58]綜合SRDCF與BACF加入了自適應空間正則項,在遮擋時模型自適應懲罰濾波器系數(shù),尺度估計使用HOG特征,對比以往深度特征跟蹤器,尺度估計上通過減少了深度特征的提取次數(shù)實現(xiàn)速度的提升,位置估計使用融合特征.針對BACF中背景信息造成置信圖上出現(xiàn)的多峰現(xiàn)象,ARCF[59]將其視為異常事件,引入正則項比較當前置信圖與前一幀置信圖的歐式距離實現(xiàn)對異常部分的限制.BEVT[60]綜合SRDCF的空域正則化和BACF的背景抑制思想,采用深度特征,模型更新根據(jù)置信圖結果進行變速率更新.LADCF[12]在模型中加入時間一致性的限制,來增強跟蹤器的魯棒性,為減少模型的退化,使用Lasso回歸權衡濾波器特征,用其近似解實現(xiàn)特征的自適應選擇,用稀疏的模型實現(xiàn)對目標的檢測,LADCF獲得VOT-2018短時公開視頻集的第1名.與ECO、C-COT通過空域正則化實現(xiàn)稀疏性不同的是,GFS-DCF[13]對空域與通道組自適應的收縮來實現(xiàn)稀疏性.在LADCF的基礎上,GFSDCF在公式中添加空域、通道、時間正則項實現(xiàn)稀疏的特征選擇和通道選擇,通道選擇主要針對深度特征通道冗余的問題,時間項提出低秩限制條件概念,并等效的參照以往時間序列濾波器系數(shù)進行實現(xiàn),加入了自適應傳統(tǒng)特征與深度特征的權重計算,實現(xiàn)濾波器在低維流形空間自適應的進行時間-空域-通道的學習.
RGB-D跟蹤器.該類型跟蹤器主要是應用于Simultaneous Localization And Mapping(SLAM)系統(tǒng)中,用于機器人的目標識別、定位與跟蹤,得益于傳感器的優(yōu)勢,機器人不僅能獲得RGB圖像,還能獲得圖像的深度(Depth)信息.但又受于平臺的限制,需要跟蹤器具備良好的實時性與較低的計算量.得益于CSRDCF的C++語言版本優(yōu)異的實時性[72](VOT-2017挑戰(zhàn)賽中,實時性標準中第一名),在SLAM中有改進版本.較CSRDCF單一顏色信息在標記矩陣的限制,CSRDCF++[61]在前景標記矩陣中,集成了先驗信息、顏色信息、空域信息和深度信息,增強跟蹤器的魯棒性,優(yōu)化跟蹤流程實現(xiàn)遮擋檢測與遮擋恢復.OTR[62]使用Iterative Closest Point(ICP)對目標進行3D重建,從3D到2D投影影響標記矩陣對于前景的感知.文獻[63],在CSRDCF的二值掩膜矩陣上加入了對源圖像的深度分割,使得空域限制更為精準.
STC[26]采用貝葉斯原理,針對目標建立時空上下文模型.RAJSSC[72]針對目標的旋轉,將極坐標加入到DCF框架中.文獻[65]在KCF的基礎上引入了方向場策略,構建目標的運動估計信息.MKCFup[67]是MKCF[66]的升級版,該算法的主要思路是針對不同特征(HOG、CN)采取不同值的核函數(shù),為加快運行速度,采用了fDSST的加速技術.
伴隨著深度學習的發(fā)展,應用深度學習技術使得DCF的性能得到了進一步提升.在DCF框架中主要分為基于預訓練模型的特征提取和神經(jīng)網(wǎng)絡與DCF相結合的兩種形式.基于預訓練模型進行特征提取主要以C-COT、ECO技術框架進行展開,神經(jīng)網(wǎng)絡與DCF相結合方面主要介紹Siamese類網(wǎng)絡結構與DCF相結合的跟蹤器.
卷積神經(jīng)網(wǎng)絡在目標分類與圖像識別[68-70,77]方面存在廣泛應用[104],也為跟蹤器的特征提取提供了更多的選擇.采用預訓練模型得到的深度特征較傳統(tǒng)特征擁有更強的魯棒性與精準度,但也面臨著計算復雜的問題.全連接層具有較高的語義信息,但缺少足夠的空間分辨率,卷積層較全連接層不僅能提供語義信息,還有著較強的空間分辨率[71,72].淺層CNN特征包含較高的空間分辨率,能夠提供精準的位置信息.深層特征由于包括較多的語義信息而具有較強的魯棒性,但空間分辨率較低.關于淺層特征與深層特征的性能對比可以參見DMSRDCF[74].在預訓練模型的選取上,殘差類網(wǎng)絡ResNet[70]在特征表現(xiàn)上更優(yōu),預訓練模型對跟蹤器性能的影響可參見MFT[80]與UPDT[49].
HCF[75]將多層CNN特征結果以權重相加的形式融入到DCF框架中,后期版本HCF+[76]加入了尺度估計與再檢測環(huán)節(jié).DeepSRDCF[34]將CNN特征融入到SRDCF框架中,并比較了不同卷積層對跟蹤器性能的影響,使用了PCA降維策略.HDT[71]將每層CNN特征結果視為弱跟蹤器,通過Hedged算法將弱跟蹤結果整合成強跟蹤器.
針對DCF中多特征采用單一分辨率問題,C-COT[5]綜合跟蹤器[2,3,34],通過頻域插值的形式整合卷積層特征與傳統(tǒng)特征進行分治,實現(xiàn)在空域的連續(xù)性,通過融合的置信圖確定目標位置,實現(xiàn)了對目標亞像素定位的精度.ECO[6]針對C-COT的運行速度與過擬合問題,通過卷積因式分解、樣本的分組(采用高斯混合模型)與樣本特征降維、模型的稀疏更新等策略,加快模型的運行速度.為進一步探究預訓練網(wǎng)絡結構特征對跟蹤器精度和魯棒性的影響,UPDT[49]利用深層與淺層特征的互補特性,區(qū)分對待,使用數(shù)據(jù)增強訓練神經(jīng)網(wǎng)絡,引入魯棒性性/精確度平衡策略和預測質(zhì)量評價公式實現(xiàn)深層與淺層置信圖的自適應融合.在VOT競賽中,以C-COT和ECO為基線的跟蹤器排名靠前[15-17],充分證明了空域正則化、特征插值與融合線路的卓越性.
為加快模型的運行速度,與特征降維[6,35]和模型稀疏更新[3,22,50]思路不同的是,CPT[48]使用經(jīng)過剪枝的VGG-16[78]模型完成信息提取.為突出目標結構性信息,DRT[79]在ECO的基礎上加入了目標區(qū)域內(nèi)濾波器系數(shù)可靠性的概念,結合BACF的標記策略,對目標區(qū)域劃分為3×3的感受單元刻畫不同子區(qū)域的重要性,實現(xiàn)模型的可變權重更新.
C-COT采用了CNN、HOG和CN特征,特征信息存在大量的冗余,模型易過擬合.與ECO(例:將31維HOG壓縮到10維,將10維CN特征壓縮到3維)不同的是,CFWCR[74]僅采用CNN特征,對ECO中的每層特征標準化,調(diào)整了特征權重.MFT[80]在CFWCR的基礎上增加了運動估計模塊,采用自適應權重策略,實現(xiàn)多分辨率下的濾波器的自適應融合.為解決濾波器系數(shù)的過擬合問題,不同于ECO使用投影矩陣對模型進行壓縮的策略,RPCF[81]引入深度學習中對特征圖ROI(Region of Interest)樣本的池化操作概念,通過對濾波器目標區(qū)域系數(shù)限制等效的在頻域?qū)崿F(xiàn).與UPDT針對深度特征采取融合策略不同的是,LSDCF[103]先由深度特征實現(xiàn)目標的粗定位,再由聯(lián)合特征(深度與手工特征)實現(xiàn)目標的精確定位,豐富了檢測環(huán)節(jié).MCCT[82]以特征池的形式將HOG、CN與CNN特征進行組合,通過對目標區(qū)域前景與背景的直方圖統(tǒng)計完成特征的預篩選,提出穩(wěn)健性評價策略實現(xiàn)特征組的選擇和模型的自適應更新.
伴隨著MDNet[83]的成功,應用神經(jīng)網(wǎng)絡進行目標跟蹤受到越來越多的關注,Siamese網(wǎng)絡結構作為其中的代表展現(xiàn)了優(yōu)異的性能[17,86].Siamese網(wǎng)絡主要包括兩部分,參照分支與測試分支,主干網(wǎng)絡一般直接選取預訓練神經(jīng)網(wǎng)絡模型[68-70],通過參照圖像與測試圖像的相似性完成跟蹤任務[73].DCF在與神經(jīng)網(wǎng)絡的結合過程中,主要利用DCF的判別能力,將DCF作為部分網(wǎng)絡結構集成到神經(jīng)網(wǎng)絡中.
在神經(jīng)網(wǎng)絡的端到端訓練中,數(shù)據(jù)集對于模型的訓練尤為重要.以TrackingNet[18]為例,該數(shù)據(jù)庫是專門用于視頻跟蹤的大規(guī)模測試與訓練集,在視頻的數(shù)量與挑戰(zhàn)上超越以往的OTB數(shù)據(jù)集[21,22]、VOT數(shù)據(jù)集[14-16]、TC-128[20]等,基于深度學習框架下的跟蹤器[83,84]通過大規(guī)模訓練均獲得性能的提升.CFNet[84]基于SiamFC[87],在Siamese網(wǎng)絡結構中,將DCF視為一層網(wǎng)絡結構,增添到Siamese網(wǎng)絡中進行端到端訓練,通過反向傳播實現(xiàn)DCF過程.CREST[88]將單層卷積層過程視為DCF過程(克服邊界效應)進行端到端訓練,通過在線反向傳播實現(xiàn)卷積層的更新.使用殘差學習[70](空域與時域)比較當前幀與初始幀獲得目標的特征變化信息,通過融合的響應圖估計目標位置,CREST對目標的劇烈變化具有一定的魯棒性.
DCFNet[89]在訓練過程中,將DCF系數(shù)轉換成一層網(wǎng)絡結構,進行端到端訓練.跟蹤時由輕量化的網(wǎng)絡結構獲得檢測特征,由標準DCF框架得到分辨結果,并完成更新.SACF[90]主要包含SAM(Spatial Alignment Module)與在線學習模塊(DCF).SAM基于STN(Spatial Transformer Network)網(wǎng)絡以空間對齊的形式調(diào)整了樣本的提取方式,使樣本具有恰當?shù)某叨扰c縱橫比,跟蹤部分參考了DCFNet.
CFCF[91]基于網(wǎng)絡的損失函數(shù)提出了高效的反向傳播算法,主干網(wǎng)絡采用VOT-2015[14]和ILSVRC[92]數(shù)據(jù)集進行訓練,將得到的CNN特征接入到C-COT框架中.ATOM[93]將跟蹤任務分為目標估計與目標分類模塊.在目標分類模塊中采用DCF內(nèi)容,優(yōu)化了以往跟蹤器[2,6,79]中共軛梯度算法的實現(xiàn).針對核嶺回歸算法中忽略目標的空間結構信息和CNN網(wǎng)絡難訓練的問題,LSART[94]提出空間交叉相似的嶺回歸算法,利用局部目標塊的相似權重實現(xiàn)模板內(nèi)可靠性的度量,并等效的重構為神經(jīng)網(wǎng)絡,采用SGD進行端到端訓練實現(xiàn)模型的更新,引入雙路訓練策略減少模型的過擬合.
結合VOT競賽[14-17]及原圖(1)https://github.com/foolwood/benchmark_results/tree/master,梳理了關于DCF的線路圖(見圖2).可以看出,以KCF為主干的DCF類跟蹤器涌現(xiàn)了很多思路.對比于以特征插值與置信圖融合為主線的跟蹤器[2,5,6,49],采用ADMM算法增添限制項進行公式創(chuàng)新[11,12,57-59]的思路為DCF發(fā)展提供了另一條方向,但模型在求解過程中也越來越復雜.在與神經(jīng)網(wǎng)絡相結合中,由于網(wǎng)絡能直接勝任跟蹤任務[86],在與DCF相結合的內(nèi)容相對有限.在ECO分支中,RPCF與DRT中采用了BACF的部分思路.
圖2 DCF演進圖Fig.2 Evolution chart of DCF
本文的實驗環(huán)境為Win10(64位),實驗軟件為Matlab 2017a,主機Inter(R)i5-8400(2.8GHz),16G RAM,1070TI顯卡.
OTB-100[22]數(shù)據(jù)集中涵蓋了OTB-50[22]與OTB-2013[21],共100組測試序列.序列中的挑戰(zhàn)劃分為形變(DEF)、低分辨(LR)、快速移動(FM)等11種挑戰(zhàn),在具體的魯棒性評價標準中分為一次通過評價(OPE)、時間魯棒性評價(TRE)和空域魯棒性評價(SRE),本文選擇的為OPE評價標準運行的結果.精度繪畫是指跟蹤器序列圖像的中心結果與基準數(shù)據(jù)的中心位置誤差(CLE),本文中選擇距離誤差20像素.用曲線下面積(AUC)描述不同閾值(S)下的跟蹤成功率.
(3)
rt是跟蹤器結果,ra為基準標定,rt∩ra為兩組數(shù)據(jù)重疊面積,rt∪ra為兩組數(shù)據(jù)覆蓋面積.
結果對比主要選擇了圖2中的部分跟蹤器(見圖3,共48組,部分結果源自文獻[95]),并在結果中加入了IVT[96]、Struck[97]、DAT[33]、MDNet、CNN-SVM[98]與Siamese類[87-89]跟蹤器進行對比.對比于最初的MOSSE、CSK與KCF,后續(xù)的DCF類跟蹤器在特征選擇、公式模型、樣本的處理等方面不斷地提升跟蹤器性能,對比于生成式模型IVT,判別式模型整體較優(yōu).在尺度的處理上,DSST與SAMF均較其基線算法得到了提升,而粒子濾波器與DCF相結合的算法MCPF、RPT,由于粒子數(shù)量的增設帶來巨大的計算負擔,達不到實時性要求(見圖5),IBCCF也由于過程的冗余帶來了巨大的計算負擔.因此尺度設計上DSST與SAMF兩種尺度處理方式被廣泛采用.以LCT、MUSTer、LMCF等為代表的跟蹤器說明對跟蹤流程上的優(yōu)化,性能提升相對有限,但是能夠?qū)z測跟蹤框架的流程進行補充,提升跟蹤器性能.DAT、CN、Staple、CSRDCF等說明了顏色相關信息能與DCF良好結合,并與傳統(tǒng)特征構成互補關系,值得一提的是MCCT,僅采用基礎DCF框架,通過特征與特征、幀與幀的結果評價取得了不錯的跟蹤效果.SRDCF、BACF、Staple-CA(CACF框架與Staple的結合)、CSRDCF等,都在嘗試進行解決邊界效應,對比之下BACF所代表的處理模式更為優(yōu)秀,但加入CN特征的BACF-HC版本,性能出現(xiàn)略微下降.SRDCF及其變種SRDCFdecon、deepSRDCF、C-COT等證明該線路的優(yōu)秀.以GFSDCF、ASRCF、STRCF等為代表的模型創(chuàng)新思路,通過添加合理的限制項成功超越了C-COT與ECO路線,同時該類模型在求解過程中加入了短時歷史幀信息的考量,當目標短時遮擋與消失,模型本身能夠?qū)崿F(xiàn)再檢測.對比之下采用深度特征的跟蹤器普遍超越僅采用傳統(tǒng)特征的跟蹤器.
圖3 OTB-100數(shù)據(jù)集下跟蹤器成功率圖(左)與精度圖(右)Fig.3 Success plot(left)and precision plot(rigtht)of trackers in data set OTB-100
VOT-2018[17]與VOT-2017[16]采用同一數(shù)據(jù)集,在短時挑戰(zhàn)賽中包含60組序列,視頻挑戰(zhàn)分為完全遮擋、移出視野、部分遮擋、相機移動、尺度改變、縱橫比變化、觀測點改變和相似目標8種挑戰(zhàn),VOT-2018主要從平均重疊期望(Expected Average Overlap,EAO)、準確性(Accuracy)和魯棒性(Robustness)等方面進行評估,其中魯棒性衡量跟蹤器的目標丟失次數(shù),魯棒性越低,證明跟蹤器性能越為穩(wěn)定.主要選擇第3章相關跟蹤器,在具體結果中僅呈現(xiàn)EAO、Accuracy和Robustness相關分數(shù).
在VOT-2018競賽短時公開數(shù)據(jù)集中EAO排名中(見圖4),LADCF超越了以ECO為基礎的技術路線,展現(xiàn)了嵌入式自適應特征選擇和時間約束模型在短時跟蹤的有效性.在表1中,GFSDCF的EAO為0.397,MFT的Robustness得分為0.14,SiamRPN在Accuracy得分為0.586,達到測試集中的最優(yōu)值.RCO為MFT框架使用ResNet50特征提取版本.
運算速度是影響算法投入實際運行的關鍵,根據(jù)5.1節(jié)與5.2節(jié)實驗,選取了部分跟蹤器在OTB-100下的運算速度(圖5).跟蹤器具體運算速度與平臺和測試序列等有關,以KCF算法為例,KCF在某些序列下可以達到600fps以上,本文選擇了測試序列中的平均速度.對于同一種框架下采取深度特征與傳統(tǒng)特征的速度比較,傳統(tǒng)特征的運算速度優(yōu)于深度特征,采用深度特征的跟蹤器普遍達不到實時性的要求,其中ASRCF在采用深度特征提取中的跟蹤器中[5,13,45,75]表現(xiàn)優(yōu)秀,尺度估計部分為傳統(tǒng)特征,相較于以尺度池形式[10]進行深度特征提取的方案,速度更快,說明頻繁的進行深度特征提取,時間消耗大,更多速度信息參見文獻[95].
圖4 VOT-2018基線測試EAO排名Fig.4 EAO ranking for the VOT-2018 baseline experiment
表1 VOT-2018跟蹤結果Table 1 Tracking results on VOT-2018
圖5 跟蹤器速度比較Fig.5 Comparison of trackers speed
由5.3節(jié)可知,采用深度模型進行特征提取的DCF類算法普遍不滿足實時性的要求,在實際應用中更多的是采用速度更快,性能略低的傳統(tǒng)特征算法,但理論上采用深度特征的算法也可修改為僅采用傳統(tǒng)特征,并借助加速技術進一步提升速度,或者融合其他算法提升性能.以KCF算法為例,KCF在行人目標檢測與跟蹤[99]、無人機目標跟蹤[100]、水下目標跟蹤[101]、視頻監(jiān)控等場景存在廣泛應用,但該算法存在缺少尺度估計、特征采集單一等問題,通常與其他算法進行配合使用.由于現(xiàn)有的DCF類跟蹤器一般從視頻圖像中直接完成特征的提取[4,11,12],嘗試從2D空間完成3D空間的目標位置估計,較少考慮目標的空間和結構性信息[79,94],如2.6節(jié)介紹,在SLAM系統(tǒng)中針對CSRDCF的前景顏色標記部分存在改進方案[61,62].而性能更強的深度特征提取跟蹤器,普遍停留在理論階段.Siamese網(wǎng)絡與DCF相結合的跟蹤器,不僅要考量在線更新機制[102],還要在實際應用中考慮深度模型的泛化能力[85]和場景遷移能力,同時神經(jīng)網(wǎng)絡部分需要具體場景的數(shù)據(jù)訓練.
伴隨著深度學習的發(fā)展,以MDNet、Siamese網(wǎng)絡[53,85,87]為代表的跟蹤器對DCF發(fā)起了強大挑戰(zhàn),但DCF框架可以不依賴深度模型、不需要大規(guī)模的訓練數(shù)據(jù)集,仍可保持著對場景目標較強的跟蹤精度與魯棒性,同時有著良好的實時性與廣泛的適應性.本文以DCF的發(fā)展為主線,先以KCF跟蹤器進行橫向展開,再描述DCF的基本發(fā)展及兩個重要方向的演進,對比于特征插值和置信圖融合為主線的DCF路線,在公式中的構建與求解階段,設置合理的約束項成為性能提升的重要發(fā)展方向.解決模型中的過擬合問題是一個恒久的問題.深度學習的發(fā)展為神經(jīng)網(wǎng)絡與DCF相結合提供了更多的可能,以VOT-2019[86]為例,圖像分割模型[77]用于跟蹤任務展現(xiàn)了巨大潛力.