謝雨霏,楊新民,劉曉利,王勝紅
(1.南京理工大學(xué)瞬態(tài)物理國家重點實驗室,南京210094;2.淮海工業(yè)集團(tuán)有限公司,長治046000)
相關(guān)濾波類算法因兼具魯棒性好、計算量少的特點,在被廣泛關(guān)注的同時,也在歷屆視覺目標(biāo)跟蹤(Visual Object Tracking,VOT)挑戰(zhàn)賽[1]中有著令人驚艷的表現(xiàn)。
最早將相關(guān)濾波用于目標(biāo)跟蹤的是MOSSE算法[2],該算法采用灰度特征,跟蹤速度高達(dá)669fps,遠(yuǎn)遠(yuǎn)超出了其他算法。CSK[3]在MOSSE的基礎(chǔ)上引入了循環(huán)矩陣和核函數(shù)的概念,該算法雖然也使用灰度特征,但跟蹤效果比MOSSE更勝一籌。KCF[4]采用HOG特征,將CSK算法的圖像特征通道從單通道擴(kuò)展為多通道。CN[5]在CSK算法的基礎(chǔ)上使用顏色特征替換了灰度特征,并改進(jìn)了CSK算法的更新機(jī)制。DSST[6]主要解決了目標(biāo)在跟蹤過程中的尺度變化問題,可使算法較好地應(yīng)對目標(biāo)尺度變化。LCT[7]借鑒了TLD算法中的隨機(jī)厥分類器,增加了置信度濾波器,能夠較好地解決目標(biāo)遮擋問題。
但是,目前已提出的大部分基于相關(guān)濾波的跟蹤算法大多忽略了背景圖像信息,而背景圖像信息在先驗知識的獲取、跟蹤精度的提高等方面均起著十分重要的作用。為充分利用目標(biāo)背景圖像信息,本文在DSST跟蹤器的基礎(chǔ)上,提出了一種融合背景圖像信息的多特征壓縮跟蹤算法。在數(shù)據(jù)集 OTB?13[8]上進(jìn)行的跟蹤實驗結(jié)果表明,相對于一些傳統(tǒng)跟蹤算法,本文提出的改進(jìn)算法在跟蹤精度上有了較大的提高。
DSST是一種可以進(jìn)行自適應(yīng)尺度變換的相關(guān)濾波類算法,其包括位置濾波器算法和尺度濾波器算法。由于本文工作主要建立在DSST基礎(chǔ)之上,因此首先對該算法做出簡要介紹。
多通道特征的相關(guān)濾波器將t幀提取的圖像塊a0設(shè)為d維特征向量,al代表第l維特征,l∈{1,…,d}。通過建立最小化代價函數(shù)構(gòu)造最優(yōu)相關(guān)濾波器ht,每個特征維度包含1個濾波器hl。
式(1)可根據(jù) Parseval定理推導(dǎo)得出。其中,?代表循環(huán)運算;hl、al、g均為M×N的矩陣,g為訓(xùn)練樣本a的期望輸出;λ1為正則項系數(shù),用來消除樣本頻譜中零頻分量的影響,避免式(1)的解出現(xiàn)零分子。
使用式(5)計算(t+1)幀的矩形圖像塊z的響應(yīng)得分y,目標(biāo)位置p可以通過求解相關(guān)濾波器的最大響應(yīng)值得到
DSST算法建立了一維獨立的相關(guān)濾波器,作為尺度搜索和目標(biāo)估計的方法。首先以目標(biāo)位置p為中心,在周圍M×N的矩形區(qū)域計算一個特征金字塔,然后使用式(3)、式(4)更新尺度空間跟蹤過濾器st。濾波器的大小為M×N×S,M和N分別代表濾波器的高度和寬度,S代表尺度變換的數(shù)量。
在此簡述DSST算法的不足和相應(yīng)的改進(jìn)方法。
相關(guān)濾波類跟蹤算法背景圖像信息利用率低,主要是由兩方面因素導(dǎo)致的,為避免跟蹤結(jié)果出現(xiàn)漂移,搜索范圍只有上一幀目標(biāo)大小的2倍,能利用的背景圖像信息很少。為了抑制邊界效應(yīng)而添加的余弦窗,使得背景圖像信息再度減少。因此,在面對目標(biāo)快速運動、遮擋或背景模糊等復(fù)雜情況時,相關(guān)濾波類算法的跟蹤效果并不理想。為了更充分地利用背景圖像信息,提高跟蹤精度,本文借鑒上下文感知相關(guān)濾波器的跟蹤算法[9],以目標(biāo)為中心,將周圍的背景圖像信息融入位置濾波器。通過在位置濾波器中添加背景圖像信息,可以削弱背景圖像信息對濾波器的干擾,進(jìn)而提高跟蹤精度。
在t幀時刻,提取目標(biāo)a0∈Rn周圍的背景圖像塊ai∈Rn。 此時,新的位置濾波器需滿足式(7)
式(8)中,A0∈Rn×n和Ai∈Rn×n分別為a0、ai循環(huán)矩陣的形式,k為加入的背景圖像塊的個數(shù),λ2為對所有背景塊加以約束使其歸零的正則項。其余部分(如目標(biāo)檢測)與原DSST跟蹤求解的過程一致,具體公式推導(dǎo)詳見文獻(xiàn)[9]。
本文選擇了判別能力強(qiáng)的2種特征對目標(biāo)的外觀進(jìn)行描述,分別是 CN 特征[5]與 HOG 特征[10?11]。
雖然CN特征和HOG特征都能有效提升相關(guān)濾波類跟蹤器的跟蹤性能,但是當(dāng)背景光照發(fā)生劇烈變化時,單獨采用CN特征的跟蹤器很難有效地從背景中判別出目標(biāo)。事實上,CN特征與HOG特征是互補(bǔ)的,它們分別為圖像的0階和1階特征,可以從不同方面對圖像進(jìn)行表達(dá)。為了充分發(fā)揮2種特征的優(yōu)勢,達(dá)到提升跟蹤性能的目的,本文在特征融合前首先進(jìn)行了特征置信度分析。
跟蹤結(jié)果置信度通常由Fmax判定,定義為
式中,yt為t幀時刻的響應(yīng)得分圖,F(xiàn)max為其中最大的響應(yīng)值。這種指標(biāo)中的每一幀僅使用了響應(yīng)得分圖中的一個值,缺乏足夠的可靠性。為了能夠更好地衡量結(jié)果的置信度,需引入APCE判據(jù)[12]對置信度進(jìn)行評價,定義為
特征是影響相關(guān)濾波類跟蹤算法速度的關(guān)鍵因素。CN特征與HOG特征的結(jié)合雖然能在一定程度上提高跟蹤精度,但勢必會影響算法速度。為了能夠在不降低跟蹤性能的前提下,在一定程度上提升算法速度,需對位置濾波器和尺度濾波器的特征信息進(jìn)行降維壓縮,將CN特征和HOG特征分別從10維/31維降為4維/18維。
本文還對尺度濾波器進(jìn)行了壓縮,使用壓縮尺度濾波器[13]進(jìn)行了對目標(biāo)尺度的檢測,其基本思路是在計算過程中將尺度層數(shù)從DSST算法中的33層降低為17層。在得到壓縮尺度濾波器響應(yīng)結(jié)果的Fourier域之后,通過插值方法,將尺度數(shù)量從17插值到33,以獲得更精確的尺度定位。
本文提出的算法流程具體如下:
輸入:圖像xt,上一幀目標(biāo)位置pt-1和尺度βt-1,濾波模型ht-1,尺度模型st-1。
1)在圖像xt中,對尺度為βt-1、位置為pt-1的通過循環(huán)移位得到的所有候選樣本提?。℉OG+CN)特征A0(xt,pt-1);
3)根據(jù)式(11)得到響應(yīng)圖yt,更新目標(biāo)位置pt。
式中,F(xiàn)max和Fmin分別代表t幀響應(yīng)圖中的最大值和最小值,F(xiàn)m,n為響應(yīng)圖中第m行、第n列的響應(yīng)值,mean表示求取平均值。
當(dāng)且僅當(dāng)2項指標(biāo),即Fmax和APCE都大于其歷史平均值的一定比例β1、β2時,認(rèn)為當(dāng)前特征可靠,允許進(jìn)行特征融合。
4)在圖像xt中,對尺度為βt-1、位置為pt的各尺度層所有候選樣本提取HOG特征;
輸出:目標(biāo)的位置pt和尺度βt,更新濾波模型ht,尺度模型st。
本文在提出了融合背景圖像信息的多特征壓縮跟蹤算法的基礎(chǔ)上,根據(jù)有關(guān)評價指標(biāo)在OTB標(biāo)準(zhǔn)數(shù)據(jù)集上驗證了該算法的性能。OTB?13由51個被標(biāo)注的視頻序列組成,數(shù)據(jù)集中的序列主要由11種不同挑戰(zhàn)性的影響因素構(gòu)成。本文利用文獻(xiàn)[8]中的OPE評價方法,對改進(jìn)算法的各方面性能進(jìn)行了分析。
本文改進(jìn)算法是在Matlab&Mex混合編譯環(huán)境下實現(xiàn)的,計算機(jī)的配置為Intel Core i5?4300U CPU@1.90GHz,內(nèi)存為2.50GB。在算法中,位移濾波器所使用的特征為HOG+CN特征組,尺度層數(shù)采用17層。在改進(jìn)算法中增加的參數(shù)如表1所示,位置估計中的其他參數(shù)參考DSST算法[6]。
選取Subway序列中被遮擋的片段進(jìn)行背景圖像信息融合性能分析,對比如圖1所示。從第38幀開始,跟蹤目標(biāo)被遮擋,由于遮擋面積較小,對DSST和改進(jìn)算法的影響不大,響應(yīng)圖是單峰的。在第39幀時,目標(biāo)大部分區(qū)域被遮擋。如圖1(b)所示,DSST的響應(yīng)圖不再是單峰。改進(jìn)算法加入了背景圖像信息,雖然比38幀最大響應(yīng)值略微降低,但圖1(c)中的響應(yīng)圖仍有較高的可信度。當(dāng)跟蹤進(jìn)行到第40幀時,目標(biāo)區(qū)域完全被遮擋,DSST的響應(yīng)圖持續(xù)震蕩,Subway序列跟蹤失敗。改進(jìn)算法的最大響應(yīng)值雖然低于38幀峰值,但單峰響應(yīng)圖表明當(dāng)前跟蹤結(jié)果可信,圖1(a)可以保持穩(wěn)定跟蹤。
圖1 背景圖像信息融合性能分析Fig.1 Fusion performance analysis of background image information
對所選取的6組視頻序列分別用DSST和改進(jìn)算法進(jìn)行了跟蹤測試,跟蹤效果對比如圖2所示。
對改進(jìn)算法進(jìn)行定性分析,如圖2所示。Bas?ketball序列包含目標(biāo)形變和背景干擾,DSST在跟蹤過程中逐漸偏移目標(biāo)中心,轉(zhuǎn)而跟蹤目標(biāo)局部,而改進(jìn)算法能夠很好地應(yīng)對這種情況,確保跟蹤精度。Couple序列在19幀附近受到目標(biāo)形變和快速運動的影響,改進(jìn)算法同樣能夠有效應(yīng)對。Freeman1和Panda序列主要出現(xiàn)了尺寸變化、目標(biāo)平面內(nèi)和平面外旋轉(zhuǎn)等情況,DSST在Freeman1序列的169幀和Panda序列的400幀附近分別跟丟目標(biāo),而改進(jìn)算法能夠有效地持續(xù)跟蹤。Tiger2和Subway序列主要發(fā)生了目標(biāo)形變和目標(biāo)遮擋的問題,由于DSST只有HOG特征,沒有背景圖像信息,所以其分別在108幀和43幀跟蹤失敗,改進(jìn)算法可以有效地持續(xù)跟蹤。
分別對DSST和改進(jìn)算法的目標(biāo)跟蹤數(shù)據(jù)做出定量計算,結(jié)果如表2所示。
以上6組視頻序列表明,中心距離精度平均提高了52.8%,重疊率平均提高了49.3%,中心位置誤差最小降低至4.04,Basketball和Subway序列均基本實現(xiàn)了準(zhǔn)確跟蹤。實驗數(shù)據(jù)表明,改進(jìn)算法在各方面的性能均更優(yōu)越。
本文采用統(tǒng)一的評價指標(biāo)將算法與其他7種主流的跟蹤算法進(jìn)行了評價,并在算法中使用了傳統(tǒng)的手工提取特征,這些算法包括了CT、TLD、KCF、Struck、DSST 和 fDSST。
如圖3所示,在所有參與比較的8種跟蹤算法中,本文提出的改進(jìn)算法在數(shù)據(jù)集OTB?13上的表現(xiàn)最為出色,跟蹤精度總體較DSST算法提高了5.3%。對OTB?13數(shù)據(jù)集中涵蓋的多種挑戰(zhàn)因素進(jìn)行分析,發(fā)現(xiàn)當(dāng)目標(biāo)發(fā)生平面外旋轉(zhuǎn)、尺度變化或遮擋時,改進(jìn)算法能夠較好地應(yīng)對,跟蹤精度分別提高了5.3%、3.3%和7.8%,相比DSST算法效果提升較明顯。
本文在DSST框架下,提出了一種融合背景圖像信息的多特征壓縮跟蹤算法。為了提高目標(biāo)跟蹤的精度和魯棒性,將背景圖像信息融入位置濾波器。合并CN顏色特征和HOG特征,通過2種特征分別的位置濾波器響應(yīng)圖最大值及APCE指標(biāo)實現(xiàn)了自適應(yīng)的響應(yīng)融合,提高了模型融合的效率。為提升運行速度,對位置濾波器和尺度濾波器的特征信息進(jìn)行降維壓縮。實驗對比分析表明,改進(jìn)算法提高了跟蹤的精度與成功率,在遮擋、形變、尺度變化等情況下均具有較高的魯棒性,具有重要的理論和應(yīng)用研究價值。