樊佳慶,宋慧慧,張開華*
(1.江蘇省大數(shù)據(jù)分析技術(shù)重點(diǎn)實(shí)驗(yàn)室(南京信息工程大學(xué)),南京210044;2.南京信息工程大學(xué)大氣環(huán)境與裝備技術(shù)協(xié)同創(chuàng)新中心,南京210044)
(*通信作者電子郵箱zhkhua@gmail.com)
視覺跟蹤是計(jì)算機(jī)視覺領(lǐng)域一個(gè)重要的基礎(chǔ)問題。本文只考慮單目標(biāo)跟蹤,即第1幀中的跟蹤目標(biāo)單一且在接下來的幀中跟蹤該目標(biāo)。盡管人們對(duì)跟蹤已研究多年,但是由于不同的干擾因素,如遮擋、光照、快速移動(dòng)、運(yùn)動(dòng)模糊姿勢(shì)變化等都會(huì)對(duì)跟蹤產(chǎn)生較大影響,所以它仍是一個(gè)非常具有挑戰(zhàn)性的計(jì)算機(jī)視覺任務(wù)。
近年來,相關(guān)濾波類[1-2]跟蹤方法因其能利用快速傅里葉變換進(jìn)行相關(guān)濾波運(yùn)算,從而大大提高跟蹤速度和精度,故引起了廣泛關(guān)注。在相關(guān)濾波的基礎(chǔ)上涌現(xiàn)出了大量簡(jiǎn)單、有效的實(shí)時(shí)跟蹤算法[3-9]。
Bolme等[1]首先把相關(guān)濾波引入視覺目標(biāo)跟蹤領(lǐng)域,提出了速度極快的最小誤差輸出平方和(Minimum Output Sum of Squared Error,MOSSE)跟蹤算法。接著,Henriques等[2]提出循環(huán)結(jié)構(gòu)核檢測(cè)跟蹤(Circulant Structure of tracking-bydetection with Kernels,CSK)算法,它通過對(duì)單幅圖像的密集采樣獲得循環(huán)樣本,最終實(shí)現(xiàn)較好的跟蹤結(jié)果。為了進(jìn)一步提升CSK的性能,Henriques等[4]接著提出了核化相關(guān)濾波(Kernelized Correlation Filter,KCF)算法,利用簡(jiǎn)單的方向梯度直方圖(Histogram of Oriented Gradients,HOG)特征取得了不錯(cuò)的跟蹤效果并且達(dá)到了遠(yuǎn)超實(shí)時(shí)的跟蹤速度。
在此基礎(chǔ)上,Bertinetto等[6]提出了實(shí)時(shí)補(bǔ)充學(xué)習(xí)(Sum of template and pixel-wise learners,Staple)跟蹤,利用顏色直方圖作為全局特征,再結(jié)合局部方向梯度直方圖特征HOG構(gòu)造相關(guān)濾波跟蹤器,取得了較好的實(shí)時(shí)跟蹤效果。但是,Staple方法并沒有考慮每層響應(yīng)的穩(wěn)定性,即每層響應(yīng)的權(quán)重是一致的,這樣就使得噪聲很大的響應(yīng)給跟蹤結(jié)果帶來較大的負(fù)面影響。比如,在周圍有類似物體干擾的情況下,目標(biāo)就很容易跟丟。
針對(duì)上述問題,本文在實(shí)時(shí)補(bǔ)充學(xué)習(xí)(Staple)跟蹤的基礎(chǔ)上加入了響應(yīng)穩(wěn)定性權(quán)重,提出了通道穩(wěn)定性加權(quán)的Staple(Channel Stability-weighted Staple,CSStaple)跟蹤算法。如圖1所示,本文首先使用標(biāo)準(zhǔn)相關(guān)濾波獲得每層通道響應(yīng),然后,利用每個(gè)通道響應(yīng)的峰值計(jì)算出穩(wěn)定性權(quán)重,接著,把這些權(quán)重乘上對(duì)應(yīng)的通道響應(yīng),最終和顏色直方圖響應(yīng)相結(jié)合得出跟蹤結(jié)果。
圖1 CSStaple算法原理圖Fig.1 Schematic diagram of CSStaple algorithm
本文所提跟蹤算法由加入通道穩(wěn)定性權(quán)重的相關(guān)濾波算法模塊和顏色直方圖補(bǔ)充學(xué)習(xí)模塊組成,最后將兩者的響應(yīng)結(jié)果加權(quán)線性組合,得出最終的跟蹤結(jié)果。
本文首先通過傳統(tǒng)相關(guān)濾波算法得出多通道跟蹤結(jié)果rchannel,尺寸是m×n×c(其中:m是響應(yīng)的高度,n是響應(yīng)的寬度,c是響應(yīng)的層數(shù)),然后通過峰值檢測(cè)算法檢測(cè)出每一層的前若干個(gè)峰值向量:
其中i∈{1,2,…,c}是該層的序號(hào)。接著通過式(2)求出該層的權(quán)重:
當(dāng)該層響應(yīng)噪聲較大時(shí),因?yàn)楦咴肼暤捻憫?yīng)具有較低的判別能力,所以應(yīng)該得到較低權(quán)重,這樣也就削弱了該層響應(yīng)在最終響應(yīng)中的影響力。相反地,當(dāng)該層響應(yīng)的波動(dòng)較小時(shí),本文認(rèn)為這是一個(gè)比較理想的響應(yīng)層,所以賦予較大權(quán)重,該層響應(yīng)在最終響應(yīng)中的影響也較大。
本文利用標(biāo)準(zhǔn)的相關(guān)濾波框架,訓(xùn)練出一個(gè)嶺回歸分類器。目標(biāo)是找到一個(gè)函數(shù)f(z)=wTz,使得在循環(huán)樣本{xi}上的檢測(cè)結(jié)果和回歸目標(biāo){yi}之間的最小平方誤差最小,即:
進(jìn)一步地,利用核技巧[10],本文直接得出式(3)的閉式解:
式中:kxx是x和它自己的核相關(guān);“^”表示離散傅里葉變換;而F-1表示離散傅里葉逆變換。
本文采用一種在線更新的策略來更新學(xué)到的參數(shù)αt,通過:
式中:ηcf是相關(guān)濾波分類器的學(xué)習(xí)率;珘αt利用當(dāng)前t幀的跟蹤結(jié)果通過式(4)計(jì)算得到。最終,當(dāng)輸入新一幀即t+1幀圖片zt+1時(shí),它每層的檢測(cè)響應(yīng)結(jié)果即:
每層響應(yīng)與式(2)中每層的穩(wěn)定性權(quán)重wi相乘并相加之后,便可得到層通道穩(wěn)定性加權(quán)后的相關(guān)濾波響應(yīng):
為了找到一個(gè)較好的顏色分類器,本文使用一種特殊形式的特征表示,對(duì)于每個(gè)RGB像素u∈R3,其特征表示為:
其中bins是直方圖柱的數(shù)量。之后,本文在目標(biāo)區(qū)域ΩoR2和背景區(qū)域ΩbR2上使用一個(gè)線性回歸目標(biāo)函數(shù):
式中β是系數(shù)向量。
再把特征表示式(7)代入目標(biāo)函數(shù),得到:
式中 Ni(Ωa) = {u ∈ Ωa|k[u] = i},a ∈ {o,b}。令,得到目標(biāo)函數(shù)的閉式解:
為了自適應(yīng)目標(biāo)的表觀變化,類似相關(guān)濾波分類器,本文使用一種簡(jiǎn)單的在線更新策略來更新分類器系數(shù):
在檢測(cè)階段,t+1幀時(shí),輸入圖片之后,就能得到它在像素點(diǎn)u處的顏色直方圖響應(yīng),即:
得到穩(wěn)定性加權(quán)的相關(guān)濾波響應(yīng)rcf和顏色直方圖響應(yīng)rch之后,本文采用一種線性加權(quán)的結(jié)合方式得到最終的響應(yīng):
其中:η是融合因子;r中的最大值的位置就是跟蹤結(jié)果。
在這部分中,首先介紹了實(shí)現(xiàn)的細(xì)節(jié),然后詳細(xì)分析了本文設(shè)計(jì)的跟蹤器CSStaple與當(dāng)前先進(jìn)的跟蹤器在OTB50[11]、OTB100[12]測(cè)試集上的性能對(duì)比實(shí)驗(yàn)結(jié)果。
在相關(guān)濾波部分,本文使用簡(jiǎn)單的HOG特征并設(shè)置它的單元尺寸為4×4,設(shè)置學(xué)習(xí)率ηcf=0.01。在顏色直方圖方面,直接使用RGB特征,顏色直方圖柱子數(shù)量設(shè)定為32,顏色分類器的學(xué)習(xí)率為0.04。另外,設(shè)置固定區(qū)域大小為150×150,融合因子 η =0.5。
在OTB50的50個(gè)視頻上,首先將本文的跟蹤器CCStaple與5個(gè)先進(jìn)的跟蹤器進(jìn)行一次通過型(One Pass Evaluation,OPE)成功率對(duì)比實(shí)驗(yàn),并對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行分析。之后,又分析了基于屬性的成功率性能對(duì)比結(jié)果。
2.2.1 與先進(jìn)跟蹤器對(duì)比
在OTB50上,本文選取了5個(gè)先進(jìn)的跟蹤器進(jìn)行對(duì)比實(shí)驗(yàn),包括:層和空間可靠性判別相關(guān)濾波(Channel and Spatial Reliability Discriminative Correlation Filter,CSR-DCF)跟蹤[13]、對(duì)沖深度跟蹤(Hedged Deep Tracking,HDT)[14]、核化相關(guān)濾波(KCF)跟蹤[4]、對(duì)偶線性結(jié)構(gòu)化 SVM跟蹤(Dual Linear Structured SVM Tracker,DLSSVM)[15]、補(bǔ)充學(xué)習(xí)(Staple) 跟蹤[1]??偟膶?duì)比實(shí)驗(yàn)結(jié)果如圖2所示,使用的是成功率這一指標(biāo)。其中本文提出的CSStaple跟蹤算法最優(yōu),分別超過基準(zhǔn)算法Staple、核化相關(guān)濾波(KCF)跟蹤算法2.5個(gè)百分點(diǎn)和10.4個(gè)百分點(diǎn)。
2.2.2 基于屬性分析的對(duì)比
本文在OTB50上進(jìn)行了屬性分析的對(duì)比實(shí)驗(yàn)。所有的視頻被分為11種不同的屬性,即:光照變化、尺度變化、遮擋、形變、運(yùn)動(dòng)模糊、平面內(nèi)旋轉(zhuǎn)、快速移動(dòng)、平面外旋轉(zhuǎn)、脫離視線、背景混亂以及低像素。平面內(nèi)旋轉(zhuǎn)、遮擋這兩種屬性下的成功率如圖3所示。在平面內(nèi)旋轉(zhuǎn)屬性下,HDT取得了58.0%的曲線下面積(Area Under Curve,AUC)得分,本文的跟蹤器比它高出1.8個(gè)百分點(diǎn)。本文的跟蹤器在遮擋屬性中也取得了最佳的表現(xiàn),在圖像背景混亂或部分遮擋等強(qiáng)干擾下,原基準(zhǔn)跟蹤器Staple表現(xiàn)不好,跟蹤成功率較低。而本文的CSStaple加入了通道穩(wěn)定性權(quán)重之后,自動(dòng)減小響應(yīng)十分混亂的通道的權(quán)重,而賦予響應(yīng)振蕩較小的通道以較大權(quán)重,使得最終加權(quán)之后的響應(yīng)變得更為可靠,所以本文的跟蹤器能在這兩種屬性下表現(xiàn)相對(duì)更優(yōu)。
圖2 OTB50上不同跟蹤器對(duì)比Fig.2 Comparison of different trackers on OTB50
圖3 OTB50上平面內(nèi)旋轉(zhuǎn)、遮擋兩種屬性下成功率Fig.3 Success rate under two attributes of in-plane rotation and occlusion on OTB50
在OTB100上本文選取了5個(gè)先進(jìn)的跟蹤器進(jìn)行了成功率對(duì)比實(shí)驗(yàn),包括:層和空間可靠性判別相關(guān)濾波(CSRDCF)跟蹤[13]、長(zhǎng)期相關(guān)跟蹤(Long-term Correlation Tracking,LCT)[5]、對(duì)沖深度跟蹤(HDT)[14]、核化相關(guān)濾波(KCF) 跟蹤[4]、補(bǔ)充學(xué)習(xí)(Staple)跟蹤[6]。各跟蹤器在 OTB100 上的成功率如圖4所示。
由圖4可以看出,CSStaple在這100個(gè)視頻上表現(xiàn)得最好,甚至超過了很多最新的跟蹤算法比如Staple和CSR-DCF;在實(shí)時(shí)跟蹤算法中,Staple的 AUC得分為57.9%,LCT的AUC得分為56.2%,本文跟蹤方法的AUC得分為58.8%,相比Staple和LCT分別提高了0.9個(gè)百分點(diǎn)和2.2個(gè)百分點(diǎn)。
圖4 OTB100上不同跟蹤器對(duì)比Fig.4 Comparison of different trackers on OTB100
本文在補(bǔ)充學(xué)習(xí)(Staple)跟蹤器的基礎(chǔ)上加入了通道穩(wěn)定性權(quán)重估計(jì),提出了通道穩(wěn)定性加權(quán)的補(bǔ)充學(xué)習(xí)(CSStaple)跟蹤器。改進(jìn)后的跟蹤器能較好地解決背景干擾、場(chǎng)景混亂等問題,因而在跟蹤標(biāo)準(zhǔn)測(cè)試集 OTB50和OTB100上取得了較高的結(jié)果,甚至優(yōu)于一些基于深度學(xué)習(xí)的跟蹤器。但是,本文方法對(duì)于強(qiáng)烈光照變化、低分辨率像素等其他常見問題處理得不太理想,后續(xù)將針對(duì)強(qiáng)烈光照變化、低分辨率像素等問題再進(jìn)行進(jìn)一步的研究。