吳 捷,馬小虎
(1.泰州職業(yè)技術(shù)學(xué)院 信息技術(shù)學(xué)院,江蘇 泰州 225300; 2.蘇州大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,江蘇 蘇州 215006)
視覺目標(biāo)跟蹤[1]是計(jì)算機(jī)視覺中的一個(gè)重要研究方向,在人機(jī)交互、交通控制等領(lǐng)域都有著廣泛的應(yīng)用。盡管近十年來目標(biāo)跟蹤已經(jīng)取得了重大進(jìn)展,但目前依然沒有一種方法能夠完美應(yīng)對快速運(yùn)動(dòng)、變形、遮擋、光照變化等諸多復(fù)雜因素的影響。在各類目標(biāo)跟蹤算法中,相關(guān)濾波(CF)類方法因其準(zhǔn)確度高、實(shí)時(shí)性好的特性成為當(dāng)前的研究熱點(diǎn)[2]。
BOLME等提出的MOSSE算法是相關(guān)濾波技術(shù)在目標(biāo)跟蹤領(lǐng)域的首次應(yīng)用,引起很大反響?;诖?,CSK、KCF/DCF[3]、CN等一系列經(jīng)典算法相繼產(chǎn)生。但以上算法采用固定大小的跟蹤框進(jìn)行跟蹤,當(dāng)目標(biāo)的大小發(fā)生變化時(shí)跟蹤精度不高,甚至?xí)?dǎo)致跟蹤失敗。
浙大的Yang Li融合HOG和CN特征,并引入包含7個(gè)尺度的尺度池技術(shù)提出了SAMF算法,取得了較好的跟蹤效果。Martin Danelljan等引入尺度濾波器先后提出了DSST和fDSST[4]算法,實(shí)現(xiàn)了對尺度的精準(zhǔn)估計(jì)。Bertinetto等[5]結(jié)合相關(guān)濾波模板類特征(HOG)和顏色直方圖提出Staple算法,在具有較高準(zhǔn)確率的同時(shí)跟蹤速度可達(dá)80幀/s。
但是相關(guān)濾波類方法也存在明顯缺陷,主要是由于余弦窗(用來抑制邊界效應(yīng))和搜索區(qū)域的限制,導(dǎo)致CF模板無法學(xué)到更多的背景信息,當(dāng)目標(biāo)發(fā)生比較大的形變或者遇到復(fù)雜背景干擾的時(shí)候容易跟丟。
針對上述問題,文獻(xiàn)[6]提出一個(gè)統(tǒng)一框架——CACF來顯式地學(xué)習(xí)目標(biāo)周圍的背景信息,這種框架可以廣泛地應(yīng)用到基于CF的多種跟蹤算法上,但該框架沒有遮擋處理機(jī)制。
本文將CACF方法應(yīng)用到Staple算法中,動(dòng)態(tài)設(shè)置直方圖分類器與相關(guān)濾波器的融合系數(shù),并在Staple跟蹤器中嵌入校驗(yàn)機(jī)制,用于評估當(dāng)前幀的跟蹤效果,根據(jù)校驗(yàn)結(jié)果來判斷是否對濾波器的樣本模型予以更新并根據(jù)PSNR值自適應(yīng)地設(shè)置學(xué)習(xí)率。在OTB-2015上的測試結(jié)果表明,和主流的相關(guān)濾波類算法相比,本文提出的改進(jìn)算法可以實(shí)現(xiàn)更精準(zhǔn)的目標(biāo)跟蹤。
Staple跟蹤算法的主要?jiǎng)?chuàng)新之處在于將基于HOG 特征的DSST和采用顏色直方圖特征的DAT[7]算法進(jìn)行了融合。HOG特征對光照變化等具有較強(qiáng)的魯棒性,而顏色直方圖對于目標(biāo)的形變不敏感。因而Staple兼具兩者的優(yōu)點(diǎn),跟蹤的準(zhǔn)確度較高。
為了保持算法的實(shí)時(shí)性,Staple算法通過解決兩個(gè)獨(dú)立的嶺回歸問題來訓(xùn)練模型,其訓(xùn)練過程可以簡化為(具體公式推導(dǎo)見原文)
(1)
(2)
其中,t為幀數(shù);h、β分別為位置濾波器和顏色直方圖的模型參數(shù);λtmpl和λhist分別為濾波器模型和直方圖模型中的正則化系數(shù)。
Staple算法分別使用相關(guān)濾波器和直方圖分類器對候選樣本進(jìn)行預(yù)測,得到各自的響應(yīng)輸出,并對2種響應(yīng)按照下式采用固定權(quán)重進(jìn)行融合
f(x)=γtmplftmpl(x)+γhistfhist(x)
(3)
得到對應(yīng)的response map,再找到response map中最大值的位置即為目標(biāo)所在的位置,重復(fù)這個(gè)步驟直至跟蹤結(jié)束。
得到新一幀的目標(biāo)位置后,使用線性插值的方法對1.1中的2個(gè)模型分別進(jìn)行更新
(4)
(5)
其中,式(4)表示對相關(guān)濾波器進(jìn)行更新,式(5)用來對目標(biāo)和背景直方圖進(jìn)行更新,其中的相關(guān)參數(shù)推導(dǎo)可見原文。
在CF算法中使用余弦窗來限制邊界效應(yīng),但是余弦窗將圖像塊的邊緣區(qū)域像素全部設(shè)置為0,對于分類器而言非常重要的背景信息被大量過濾掉了,因此當(dāng)目標(biāo)發(fā)生比較大的形變或者復(fù)雜背景干擾的時(shí)候,容易導(dǎo)致跟蹤失敗。為了解決這一局限性,Mueller等在CVPR2017上提出了一個(gè)考慮全局上下文信息的框架,我們稱之為CACF框架,用于顯式學(xué)習(xí)目標(biāo)周圍的背景信息,這種框架可以廣泛地應(yīng)用到絕大多數(shù)基于CF的跟蹤算法上。
如圖1所示,和傳統(tǒng)的CF方法相比,CACF主要改進(jìn)之處在于:在訓(xùn)練階段,作者在目標(biāo)的上下左右4個(gè)方向各采集一個(gè)Context-Area,在訓(xùn)練過程中,將中間的標(biāo)記為正樣本,將附近的上下文區(qū)域標(biāo)記為負(fù)樣本進(jìn)行模版的訓(xùn)練。檢測階段與傳統(tǒng)CF一樣。
圖1 CACF采樣區(qū)域
傳統(tǒng)的CF的目標(biāo)函數(shù)如式(6)
(6)
改進(jìn)后的CACF算法的目標(biāo)函數(shù)如下
(7)
與傳統(tǒng)的CF的目標(biāo)函數(shù)相比,增加了一個(gè)懲罰項(xiàng),使得要訓(xùn)練的模版與背景做相關(guān)時(shí)響應(yīng)盡量小。作者通過一系列公式推導(dǎo)證明這個(gè)新方程具有封閉解。
本文改進(jìn)算法以Staple算法為基礎(chǔ),引入CACF處理框架,并從3個(gè)方面進(jìn)行了綜合改進(jìn)。
Staple算法以固定系數(shù)α線性融合相關(guān)濾波器與直方圖分類器,即
response=(1-α)·response_cf+α·response_pwp
但在實(shí)際跟蹤過程中,兩種跟蹤模型的相對準(zhǔn)確度并不是恒定不變的,采用固定權(quán)重融合往往無法獲得最優(yōu)的跟蹤結(jié)果。
針對這個(gè)問題,本文基于平均峰值相關(guān)能量[8](average peak-to-correlation energy,APCE)設(shè)計(jì)了一種自適應(yīng)系數(shù)融合方法,可以充分發(fā)揮兩種模型各自的優(yōu)勢。
下面首先給出APCE的定義:
大小為MN的檢測區(qū)域與模型的響應(yīng)結(jié)果的APCE計(jì)算方法為
(8)
其中,gmin表示響應(yīng)結(jié)果的最小值,gm,n表示在(m,n)處的響應(yīng)結(jié)果。APCE可以反映響應(yīng)結(jié)果的波動(dòng)程度,APCE越大跟蹤結(jié)果越穩(wěn)定。
如式(9),本文針對每一幀視頻圖像分別計(jì)算其直方圖分類器與相關(guān)濾波器的APCE值,并得出其比值
rate=APCEpwp/APCEcf
(9)
然后通過下式計(jì)算得到融合系數(shù)α
α=0.4/(1+exp(1-rate))
(10)
如何判斷目標(biāo)發(fā)生遮擋是視覺跟蹤領(lǐng)域的一大挑戰(zhàn),常用的評價(jià)指標(biāo)包括最大響應(yīng)值、峰值旁瓣比[9]、平均峰值相關(guān)能量以及CSR-DCF中提出的空域可靠性[10]。
通過大量實(shí)驗(yàn)發(fā)現(xiàn),遮擋判斷非常復(fù)雜,如果只使用一種度量因子或一種限定條件極易出現(xiàn)“誤判”,會(huì)將一些未發(fā)生遮擋的場景誤判為遮擋進(jìn)行處理,反而造成跟蹤精度的下降。本文綜合使用平均峰值相關(guān)能量、峰值信噪比(peak signal to noise ratio,PSNR)和相鄰幀運(yùn)動(dòng)位移量3種因子并設(shè)定多個(gè)限定條件作為遮擋判斷的依據(jù)。下面首先給出峰值信噪比和運(yùn)動(dòng)變化量的定義。
峰值信噪比是一種在數(shù)字圖像領(lǐng)域廣泛使用的評價(jià)指標(biāo),體現(xiàn)圖像之間的差異大小。PSNR計(jì)算方法如下式
(11)
其中,MSE是兩幀圖像之間的均方誤差。
本文通過計(jì)算相鄰幀指定大小的目標(biāo)圖像的PSNR值來衡量目標(biāo)變化情況。
運(yùn)動(dòng)變化量指的是前一幀目標(biāo)中心與計(jì)算出的當(dāng)前幀目標(biāo)位置中心的距離,計(jì)算公式如下
(12)
其中, (xt,yt) 表示預(yù)測的當(dāng)前幀的目標(biāo)中心點(diǎn)的坐標(biāo), (xt-1,yt-1) 表示前一幀中目標(biāo)中心點(diǎn)的坐標(biāo)。通常情況下,相鄰幀的運(yùn)動(dòng)變化量在一定范圍內(nèi),如果運(yùn)動(dòng)變化量過大,則跟蹤可能發(fā)生了漂移。
本文設(shè)計(jì)的跟蹤器設(shè)定滿足以下兩種情況之一的即認(rèn)為發(fā)生了遮擋,跟蹤器停止對模型的更新
在Staple算法中,跟蹤模型的學(xué)習(xí)率為固定數(shù)值。而在實(shí)際跟蹤過程中,目標(biāo)的變化率并不是一成不變的,當(dāng)PSNR值較小時(shí),說明相鄰兩幀圖像差異較大,需要增大學(xué)習(xí)率;而PSNR值較大時(shí),說明相鄰兩幀圖像相似度較高,可以減小學(xué)習(xí)率。因此借助PSNR值,本文對學(xué)習(xí)率做出以下調(diào)整
實(shí)驗(yàn)使用Matlab2016b作為軟件測試平臺,使用內(nèi)存大小為16 GB,CPU型號為Inter(R)Xeon(R)E3-1225(3.3 GHz)的PC機(jī)作為硬件平臺。本文算法中所使用的主要實(shí)驗(yàn)參數(shù)為:遮擋閾值λ1=4.8 (灰度圖像取值2.5),λ2=0.55,λ3=0.3,λ4=19; 距離因子d=40,其它參數(shù)和Staple原文一致。為更好地判斷改進(jìn)算法的性能,分別從定量、定性兩方面與Staple、SAMF等7種經(jīng)典的相關(guān)濾波算法進(jìn)行綜合對比分析。
定量分析采用以一次通過評估(one-pass evaluation,OPE)運(yùn)行得到距離精度(DP)和重疊成功率(OP)作為主要評價(jià)指標(biāo)。
使用OTB-2015[11]作為測試視頻序列。OTB-2015是OTB2013的擴(kuò)展,包含26個(gè)灰度視頻序列和74個(gè)彩色視頻序列。這些視頻序列包含遮擋、形變、旋轉(zhuǎn)等11種典型干擾。
圖2是8種算法在100組視頻上的總精確度圖和成功率圖,從圖2中看出本文提出的改進(jìn)算法的精確度和成功率分別為0.818和0.731,精確度和成功率均排名第一。和Staple算法相比,改進(jìn)算法在精確率和成功率方面分別提高了4.3%和4.6%,驗(yàn)證了改進(jìn)算法的有效性。
圖2 8種算法在OTB-2015的距離精度曲線圖和成功率曲線
為更加直觀評價(jià)本文算法在復(fù)雜環(huán)境下的性能表現(xiàn),表1和表2給出了本文算法與其它4種目標(biāo)跟蹤算法在OTB-2015基準(zhǔn)數(shù)據(jù)集中11個(gè)具有挑戰(zhàn)性的屬性上的精確度圖和成功率圖統(tǒng)計(jì)數(shù)據(jù),單個(gè)屬性的最優(yōu)結(jié)果以粗斜體標(biāo)識。本文算法在11種屬性的精確度圖中有9項(xiàng)排在第1位,另兩項(xiàng)排在第2位;在成功率圖中有6項(xiàng)排在第1位,其中處理遮擋(OCC)的成功率相比Staple算法提升了7.4%。一系列數(shù)據(jù)驗(yàn)證本文所提算法綜合性能更優(yōu),可以有效處理遮擋等挑戰(zhàn)。
在圖3中給出本文提出的算法與Staple、SAMF、fDSST等7種算法在6個(gè)具有代表性的視頻序列中的定性比較,這6個(gè)視頻為Jogging-2、Girl2、Soccer、DragonBaby、bolt2、和Jumping。
表1 5種排名靠前算法在不同場景屬性下的DP值
表2 5種排名靠前算法在不同場景屬性下的OP值
圖3 8種算法在6個(gè)視頻序列的跟蹤結(jié)果比較
(1)Jogging-2和Girl2是用來做遮擋測試的經(jīng)典視頻序列,在這兩組序列中均存在全局遮擋。Jogging-2視頻中第52幀目標(biāo)被完全遮擋,包括Staple在內(nèi)的其它6種算法因?yàn)闆]有遮擋處理機(jī)制而丟失目標(biāo),只有本文算法與SAMF算法能正常跟蹤而本文算法跟蹤結(jié)果更加準(zhǔn)確;Girl2視頻中第110幀時(shí)目標(biāo)被完全遮擋,遮擋結(jié)束后其它7種算法因跟蹤器受“污染”而導(dǎo)致跟蹤失敗,本文算法因?yàn)橛姓趽跆幚頇C(jī)制可以一直準(zhǔn)確跟蹤目標(biāo)。
(2)在Soccer和DragonBaby序列中,存在遮擋、背景相似干擾、尺度變化等多種復(fù)雜因素的干擾。Soccer序列中,DSST、SAMF、Staple等算法在第296幀時(shí)均發(fā)生漂移,只有本文算法和fDSST能準(zhǔn)確跟蹤,相比fDSST,本文的算法跟蹤更為精確。從DragonBaby序列的第40幀和85幀可以看出,只有本文算法的目標(biāo)定位和尺度估計(jì)是準(zhǔn)確的。
(3)在bolt2和Jumping視頻序列中,存在快速運(yùn)動(dòng)、運(yùn)動(dòng)模糊等干擾,其它6種算法均發(fā)生嚴(yán)重漂移,只有本文算法和fDSST算法能正確跟蹤。
跟蹤速度也是評價(jià)算法的一個(gè)重要方面,8種算法在OTB-2015視頻序列上運(yùn)行的平均速度見表3。由表3可見,本文算法在引入了CACF框架及增加遮擋判斷等模塊后跟蹤速度仍然達(dá)到了34.55幀/s,可以滿足實(shí)時(shí)跟蹤的需求。
針對當(dāng)前相關(guān)濾波類算法無法學(xué)習(xí)更多背景信息及不能處理目標(biāo)跟蹤過程中的遮擋等問題,本文結(jié)合CACF及Staple算法,并引入平均峰值相關(guān)能量、相鄰幀運(yùn)動(dòng)位移量和峰值信噪比等指標(biāo)設(shè)定多條件判斷目標(biāo)遮擋情況,從而決定是否更新模型。另外,通過對學(xué)習(xí)率的動(dòng)態(tài)調(diào)整,進(jìn)一步提升了跟蹤器處理其它復(fù)雜場景的能力。在OTB-2015 數(shù)據(jù)集上評估本文算法的性能,通過定性和定量的分析,本文算法性能相對于Staple算法有了明顯的提高。將來的工作在于考慮結(jié)合深度學(xué)習(xí)算法進(jìn)一步提升算法性能。
表3 8種算法在OTB-2015上的運(yùn)行速度