王敏敏+孫勝利+廖星星+張磊
摘 要: 針對快速壓縮跟蹤(FCT)算法難以適應(yīng)復(fù)雜背景下大尺寸目標(biāo)漸變成一個點目標(biāo)的情況,提出一種改進的目標(biāo)跟蹤算法。首先采用FCT進行跟蹤,并且計算當(dāng)前幀跟蹤框與初始跟蹤框之間的余弦相似度。一旦余弦相似度小于設(shè)定的閾值,則立即切換到卡爾曼濾波器,并且采用基于最大連通域的方法檢測目標(biāo)位置及大小。當(dāng)目標(biāo)接近點目標(biāo),則將目標(biāo)檢測方法切換至基于高斯差分尺度空間的目標(biāo)檢測方法。實驗結(jié)果表明該算法可以實現(xiàn)尺寸漸變目標(biāo)的實時跟蹤。
關(guān)鍵詞: 運動目標(biāo)跟蹤; 壓縮感知; 卡爾曼濾波器; 高斯差分尺度空間
中圖分類號: TN911.73?34; TP391.4 文獻標(biāo)識碼: A 文章編號: 1004?373X(2017)13?0048?05
Abstract: Since the fast compressive tracking (FCT) algorithm is difficult to adapt to the situation that the large?scale target shrinks to a point gradually in complex environment, an improved target tracking algorithm is proposed. The FCT algorithm is used to track the target, and calculate the cosine similarity between the tracking box of current frame and tracking box of initial frame. Once the cosine similarity is smaller than the setting threshold, the tracking algorithm is switched to the Kalman filter immediately, meanwhile the method based on biggest connected area is used to detect the location and size of the target. If the target is close to the point target, the target detection method is switched to the target detection method based on Gaussian differential scale space. The experimental results show that the proposed algorithm can track the variable?sized moving target in real time.
Keywords: moving target tracking; compressive sensing; Kalman filter; Gaussian differential scale space
0 引 言
傳統(tǒng)的跟蹤算法一般都采用最近幾幀的觀測數(shù)據(jù)來更新模型,因而通常都面臨兩個問題:跟蹤初始階段數(shù)據(jù)不足;由于引入偏離的樣本而導(dǎo)致目標(biāo)漂移,而且許多算法的計算復(fù)雜度都相當(dāng)高??焖賶嚎s跟蹤算法(Fast Compressive Tracking,F(xiàn)CT)[1]因其可以較好地解決由于引入偏離樣本所導(dǎo)致的目標(biāo)漂移問題而被廣泛關(guān)注。文獻[2]針對壓縮感知跟蹤算法特征單一的問題提出使用多個投影矩陣實現(xiàn)多特征聯(lián)合跟蹤。文獻[3]采用梯度方向直方圖特征替換Haar特征進行壓縮感知跟蹤。為了解決被遮擋區(qū)域特征缺失造成的位置偏移,文獻[4]提出采用在線特征選擇方法,從候選特征池中選擇置信度較高的特征構(gòu)造分類器。文獻[5]采用隨機蕨分類器進行特征分類并通過一種特征置信度度量策略進行在線更新及樣本選擇,同時提出一種針對目標(biāo)遮擋的反饋機制。
由于FCT是基于目標(biāo)特征的提取和判別進行跟蹤的,因而對于基本沒有形狀和紋理特征的小目標(biāo)并不適用。上述文獻普遍都是針對大尺寸目標(biāo)進行跟蹤,對于目標(biāo)大小漸變的情況未給出解決方法。特別是當(dāng)目標(biāo)跑遠,在視場中表現(xiàn)為一個斑點且背景較為復(fù)雜時,使用FCT跟蹤誤差較大。
此外,即使目標(biāo)變成小目標(biāo),其尺寸也不是固定不變的,若采用單一尺寸的濾波器檢測容易丟失目標(biāo)。因而考慮對小目標(biāo)進行多尺度檢測。對于目標(biāo)檢測的多尺度方法,文獻[6]使用多尺度小波變換檢測目標(biāo),但該方法沒有提供目標(biāo)的位置和大小信息且計算量大。文獻[7]對目標(biāo)進行建模,利用尺度規(guī)范化后的拉普拉斯尺度算子以及像素梯度關(guān)系獲得可疑目標(biāo)的中心位置及其尺寸大小。文獻[8]通過尋找高斯差分空間中的極大值來獲得可疑目標(biāo)的位置及大小。目標(biāo)的大小及位置信息對于之后的決策與處理具有重要的指導(dǎo)意義。
基于上述原因,本文提出一種針對不同目標(biāo)大小可以自主切換的跟蹤算法以適應(yīng)不同環(huán)境的需要,當(dāng)目標(biāo)較大且具有一定的紋理信息時采用多尺度FCT,當(dāng)跟蹤框余弦相似度小于設(shè)定的閾值則迅速切換到卡爾曼濾波器進行跟蹤,且根據(jù)目標(biāo)尺寸采用不同的目標(biāo)檢測方法。
1 壓縮感知跟蹤算法
壓縮感知理論(Compressive Sensing,CS)[9?10]表明,如果特征空間的維度足夠高,那么這些特征就可以被投影到一個更小的空間,而且該空間包含了重構(gòu)原特征空間所需的所有信息。因而通過壓縮感知理論可以有效降低特征空間的維度,從而降低計算復(fù)雜度。實時壓縮跟蹤算法(Real?Time Compressive Tracking,RTCT)[11]對正負(fù)樣本使用同一個滿足Johnson?Lindenstrauss推論[12]的稀疏測量矩陣進行降維,然后通過一個樸素貝葉斯分類器[13]對壓縮感知域中的特征進行分類:
式中:是一個二元樣本標(biāo)簽。式中的條件概率都滿足高斯分布,且可通過在線學(xué)習(xí)更新分類器。
FCT在RTCT基礎(chǔ)上做了一些改進。FCT采用一種粗略?精細(xì)采樣方法,即在上一幀目標(biāo)位置周圍先進行粗略采樣(大采樣半徑,大步長),將目標(biāo)候選區(qū)域縮小到更小的范圍,然后圍繞該區(qū)域中心位置進行精細(xì)采樣(小采樣半徑,小步長)。
FCT算法主要步驟:
輸入:第幀圖像
(1) 在幀目標(biāo)位置周圍粗略采集圖像塊集合,采樣半徑為 采樣步長為
(2) 計算所有樣本的降維特征向量從中找出樸素貝葉斯分類器分值最大的特征,返回其位置
(3) 在周圍進行精細(xì)采樣,采樣半徑為 采樣步長為
(4) 計算該部分樣本的降維特征向量并返回樸素貝葉斯分類器分值最大的特征的位置(對于多尺度跟蹤,每5幀更新一次跟蹤位置和尺度參數(shù),
(5) 分別在區(qū)域和中進行正采樣和負(fù)采樣,其中并計算這兩個樣本集合的降維特征向量;
(6) 根據(jù)正負(fù)樣本特征的統(tǒng)計特性更新樸素貝葉斯分類器參數(shù):
式中:是一個學(xué)習(xí)參數(shù);和是正樣本特征的均值和標(biāo)準(zhǔn)差。
輸出:跟蹤位置(對于多尺度跟蹤還需返回尺度參數(shù))和分類器參數(shù)。
2 尺度空間理論
使用對二維高斯拉普拉斯算子(Laplacian of Gaussian,LoG)進行規(guī)范化,可以得到一個重要性質(zhì):其對角點和邊緣的響應(yīng)不會隨著尺度的改變而改變,然而對于斑點的響應(yīng)將會呈現(xiàn)先遞增后遞減的現(xiàn)象,也就是在某個尺度將達到一個極值,如圖1所示。
而利用高斯差值方程(Difference of Gaussian, DoG)與圖像卷積,構(gòu)建DoG尺度空間并求取尺度空間極值[14]可以得到與尺度規(guī)范化的LoG算子類似的結(jié)果。根據(jù)該特性,可以采用DoG尺度空間算法檢測小目標(biāo)。
一幅圖像的DoG尺度空間定義為:
式中:代表原始圖像;代表尺度可變的二維高斯核。
將每一個點與同它在同一尺度的8個相鄰點以及相鄰尺度的對應(yīng)的18個點進行比較。若為極值則作為候選目標(biāo)點,并且保留該點坐標(biāo)以及對應(yīng)的尺度參數(shù)
3 卡爾曼濾波器
在大多數(shù)情況下,目標(biāo)所做運動都是非線性的,但由于相鄰兩幀之間的時間間隔較短,可以簡單地將這段時間內(nèi)的運動當(dāng)作線性運動。此時位移與速度滿足下列關(guān)系:
式中:分別為目標(biāo)在時刻的位置、速度和加速度;為相鄰兩幀的時間間隔。
可以用目標(biāo)在某一時刻的位置和速度來描述目標(biāo)在該時刻的運動狀態(tài)??柭鼮V波器能夠?qū)崿F(xiàn)對目標(biāo)狀態(tài)序列的線性最小誤差估計。首先在不考慮系統(tǒng)和觀測噪聲的前提下推算狀態(tài)的先驗估計,然后由狀態(tài)先驗估計和觀測變量計算得到狀態(tài)后驗估計,當(dāng)狀態(tài)后驗估計協(xié)方差取最小值時獲得對狀態(tài)的最優(yōu)估計。
卡爾曼濾波器的主要步驟如下:
輸入:第幀圖像,第幀狀態(tài)最優(yōu)估計和最優(yōu)估計誤差協(xié)方差
(1) 計算狀態(tài)先驗估計若初次使用卡爾曼濾波器,則初始化狀態(tài)先驗估計(本文將初始位置設(shè)定為跟蹤框中心位置,將兩個方向上的初始速度均設(shè)置為0);否則, 其中為狀態(tài)轉(zhuǎn)移矩陣;
(2) 計算先驗估計誤差協(xié)方差 其中為過程噪聲協(xié)方差;
(3) 計算卡爾曼增益 其中為觀測矩陣,為觀測噪聲協(xié)方差;
(4) 檢測目標(biāo)位置 用該值更新狀態(tài)估計
(5) 更新誤差協(xié)方差
輸出:第幀狀態(tài)最優(yōu)估計和最優(yōu)估計誤差協(xié)方差
4 本文方法
4.1 算法切換流程
本文實驗對象為尺寸漸變目標(biāo),該目標(biāo)由大尺寸目標(biāo)漸變?yōu)橐粋€點目標(biāo)。類似于文獻[1,11],本文首幀圖像中的目標(biāo)位置是已知的,且使得跟蹤框恰好包圍要跟蹤的目標(biāo)。算法切換方法如圖2所示。
采用FCT對大尺寸目標(biāo)進行跟蹤。若當(dāng)前幀跟蹤框與首幀圖像跟蹤框的余弦相似度則切換到卡爾曼濾波器進行跟蹤,并將算法切換前的跟蹤框中心位置作為卡爾曼濾波器的初始位置。同時,采用基于最大連通域的檢測方法在該跟蹤框內(nèi)進行目標(biāo)檢測以更新卡爾曼濾波器參數(shù)。后面圖像的跟蹤框均為以預(yù)測位置為中心的矩形框。若目標(biāo)最大連通域面積 則繼續(xù)使用卡爾曼濾波器進行跟蹤,并且采用基于DoG尺度空間的方法檢測目標(biāo)位置以更新卡爾曼濾波器參數(shù)。其中為跟蹤算法切換時余弦相似度的閾值。為目標(biāo)檢測方法切換時目標(biāo)最大連通域面積的閾值。此外,卡爾曼濾波器跟蹤過程中目標(biāo)位置以及目標(biāo)近似尺寸均由目標(biāo)檢測算法確定,且目標(biāo)檢測范圍均限制在跟蹤框內(nèi)。同理可得,目標(biāo)尺寸由小變大時算法的切換方式。
4.2 切換閾值設(shè)定
在FCT跟蹤過程中跟蹤框的大小始終不變。且隨著目標(biāo)由大變小,目標(biāo)在跟蹤框內(nèi)所占的面積也在逐漸減小。本文通過計算當(dāng)前幀跟蹤框與初始跟蹤框之間的余弦相似度確定FCT與Kalman濾波器切換的閾值。
定義當(dāng)前幀跟蹤框與初始跟蹤框的余弦相似度[15]為:
式中:。圖3為只使用FCT算法對“toyplane”圖像序列進行跟蹤時跟蹤框余弦相似度的變化曲線。雖然在跟蹤后期由于目標(biāo)丟失導(dǎo)致跟蹤框基本不動,從而使得余弦相似度在后期基本不變,但余弦相似度總體呈下降趨勢。因而通過計算跟蹤框之間的余弦相似度確定切換閾值是否可行。對于所有圖像序列,本文設(shè)定為0.88,即當(dāng)時,跟蹤算法由FCT算法切換到Kalman濾波器。
當(dāng)跟蹤算法切換到Kalman濾波器后,目標(biāo)仍具有一定面積,而且在目標(biāo)由大變小的過程中,目標(biāo)最大連通域與目標(biāo)等比例縮小。本文假設(shè)背景總體變化較為緩慢,通過背景相減法可以消除背景中較大的連通域,從而顯著降低背景的干擾。因而本文選取前景圖像中面積最大的連通域代替目標(biāo),并且近似確定目標(biāo)尺寸。本文采用四鄰域進行連通域劃分。
當(dāng)目標(biāo)縮小為點目標(biāo)時,目標(biāo)尺寸將只有幾個像素點。而背景相減法可能會引入大量與目標(biāo)尺寸差不多的噪聲點。因而不再對跟蹤框內(nèi)圖像進行減背景操作。又因為背景中可能包含大面積連通域,因而最大連通域法也不再適用,所以,本文對跟蹤框內(nèi)圖像建立DoG尺度空間,找出所有的極值點,并利用極值點對應(yīng)的尺度參數(shù)求取候選目標(biāo)的尺寸大小。候選目標(biāo)的直徑近似于[8]。因為在使用卡爾曼濾波器進行跟蹤時需要不斷更新跟蹤框的位置,使得預(yù)測的位置在跟蹤框的中心,因而選取尺寸最大且離跟蹤框中心最近的候選目標(biāo)作為當(dāng)前幀目標(biāo)。
對于所有圖像序列,本文設(shè)定為7,即目標(biāo)最大連通域面積時,目標(biāo)檢測算法由基于最大連通域的檢測方法切換為基于DoG尺度空間的檢測方法。
5 實驗結(jié)果與分析
5.1 參數(shù)設(shè)置
實驗環(huán)境為IntelCoreTM i7?4770 3.40 GHz CPU 4 GB RAM, 操作系統(tǒng)采用Windows 7旗艦版64位系統(tǒng)。所有程序都是在Matlab中運行。在使用FCT進行目標(biāo)跟蹤時,將正采樣半徑設(shè)置為4,負(fù)采樣的內(nèi)、外半徑分別設(shè)置為8和18,且負(fù)采樣模板數(shù)設(shè)置為50個。將粗略采樣的半徑設(shè)置為10,步長設(shè)置為4。將精細(xì)采樣的半徑設(shè)置為6,步長設(shè)置為1。尺度參數(shù)設(shè)置為0.01。學(xué)習(xí)參數(shù)設(shè)置為0.85。在計算圖像的DoG尺度空間時,令相鄰兩層的尺度因子滿足倍數(shù)關(guān)系 其中且層數(shù)為8。對于“toyplane”和“woman”視頻序列,設(shè)置對于“girl”視頻序列,設(shè)置
5.2 跟蹤結(jié)果對比
本文采用中心位置誤差(Center Location Error, CLE)來評價跟蹤結(jié)果:
式中:是目標(biāo)的真實中心位置;是跟蹤框的中心位置。每一幀都是獨立計算的。
本文對下列四種情況下的跟蹤效果進行對比:
(1) 只使用FCT進行跟蹤;
(2) 聯(lián)合FCT與基于最大連通域的卡爾曼濾波器(即采用基于最大連通域的方法檢測目標(biāo)以更新卡爾曼濾波器參數(shù),用“maxCAkalman”表示)進行跟蹤;
(3) 聯(lián)合FCT與基于DoG尺度空間的卡爾曼濾波器(即采用基于DoG尺度空間的方法檢測目標(biāo)以更新卡爾曼濾波器參數(shù),用“DoGkalman”表示)進行跟蹤;
(4) 使用本文方法聯(lián)合FCT,maxCAkalman以及DoGkalman進行跟蹤。
圖4為“toyplane”,“woman”和“girl”圖像序列部分幀的跟蹤結(jié)果。說明:“toyplane”圖像序列光照條件較差,因而目標(biāo)紋理不明顯;“woman”圖像序列中存在多個運動目標(biāo);“girl”圖像序列中只有一個運動目標(biāo)。
圖5(a)為“toyplane”圖像序列在四種情況下的中心位置誤差??梢钥吹?,當(dāng)只使用FCT進行跟蹤時,跟蹤誤差在100多幀之后急劇增加。這是由于隨著目標(biāo)尺寸逐漸變小,相對地,背景的影響逐漸增加,背景的特征逐漸占優(yōu)勢。目標(biāo)一旦跑出跟蹤框,跟蹤框?qū)⒉辉傧蚯耙苿?。若在跟蹤框余弦相似度小于閾值時,將跟蹤算法切換到卡爾曼濾波器,可以有效抑制跟蹤誤差??梢钥吹礁櫵惴ㄇ袚Q到卡爾曼濾波器后,maxCAkalman在前半部分的跟蹤誤差較小,而DoGkalman在后半部分的跟蹤誤差較小。由四種情況下的誤差比較,可以看到本文方法跟蹤效果最為理想。
圖5(b)為“woman”圖像序列在四種情況下的中心位置誤差??梢钥吹街皇褂肍CT進行跟蹤時,跟蹤誤差在中間段呈現(xiàn)一個遞增趨勢。若在跟蹤框余弦相似度小于閾值時直接切換至DoGkalman,跟蹤誤差呈現(xiàn)一個遞減且趨于平穩(wěn)的趨勢。但是很明顯,若直接切換為maxCAkalman,前期跟蹤效果更好。同樣地,在四種情況下本文方法的總體跟蹤效果最好。
圖5(c)為“girl”圖像序列在四種情況下的中心位置誤差。當(dāng)只使用FCT進行跟蹤時,跟蹤后期由于背景特征占優(yōu)勢,跟蹤框不再移動,中心位置誤差逐漸增加。若在跟蹤框余弦相似度小于閾值時直接切換為DoGkalman,目標(biāo)逐漸丟失。若切換為maxCAkalman,切換后出現(xiàn)短暫的波動,之后很長一段時間誤差都保持在較低的水平,但是在跟蹤后期誤差增大。若在目標(biāo)最大連通域面積小于閾值時,由maxCAkalman切換至DoGkalman,雖然出現(xiàn)輕微抖動,但跟蹤效果得到改善。
6 結(jié) 語
對于大尺寸目標(biāo)跟蹤,F(xiàn)CT可以很好地解決跟蹤初始階段數(shù)據(jù)不足以及由于引入偏離的樣本而導(dǎo)致的目標(biāo)漂移問題。但當(dāng)目標(biāo)尺寸由大變小時,F(xiàn)CT就容易受到背景影響而丟失目標(biāo)。針對尺寸漸變的目標(biāo)跟蹤問題,本文提出將FCT與卡爾曼濾波器結(jié)合,通過跟蹤算法切換以及檢測算法切換使得跟蹤誤差保持在一個較低的水平。而且對于1 280 pixel×720 pixel大小的圖像序列,F(xiàn)CT跟蹤速度可以達到23 f/s,而基于最大連通域的卡爾曼濾波器和基于DoG尺度空間的卡爾曼濾波器分別可以達到42 f/s和25 f/s,因而可以滿足實時性要求。
參考文獻
[1] ZHANG K H, ZHANG L, YANG M H. Fast compressive tracking [J]. IEEE transactions on pattern analysis and machine intelligence, 2014, 36(10): 2002?2015.
[2] 朱秋平,顏佳,張虎,等.基于壓縮感知的多特征實時跟蹤[J].光學(xué)精密工程,2013,21(2):437?444.
[3] 孫曉燕,常發(fā)亮.梯度特征稀疏表示目標(biāo)跟蹤[J].光學(xué)精密工程,2013,21(12):3191?3197.
[4] 毛征,袁建建,吳珍榮,等.基于在線特征選擇的實時壓縮跟蹤[J].光學(xué)精密工程,2014,22(3):730?736.
[5] 劉威,趙文杰,李成.一種基于壓縮感知的在線學(xué)習(xí)跟蹤算法[J].光學(xué)學(xué)報,2015,35(9):184?191.
[6] GREGORIS D J, YU S K W, TRITCHEW S. Detection of dim targets in FLIR imagery using multiscale transforms [J]. Proceedings of SPIE, 1994, 2269: 62?71.
[7] 龔俊亮,何昕,魏仲慧,等.采用尺度空間理論的紅外弱小目標(biāo)檢測方法[J].紅外與激光工程,2013,42(9):2566?2573.
[8] 程塨,郭雷,韓軍偉,等.基于最大連通域帶通濾波和尺度空間理論的紅外弱小目標(biāo)檢測[J].光學(xué)學(xué)報,2012,32(10):1?8.
[9] CANDES E, TAO T. Near?optimal signal recovery from random projections: Universal encoding strategies [J]. IEEE transactions on information theory, 2006, 52(12): 5406?5425.
[10] CANDES E, TAO T. Decoding by linear programming [J]. IEEE transactions on information theory, 2005, 51(12): 4203?4215.
[11] ZHANG K H, ZHANG L, YANG M H. Real?time compressive tracking [C]// Proceedings of 2012 European Conference on Computer Vision. [S.l.]: Springer, 2012: 864?877.
[12] HENRIQUES J, CASEIRO R, MARTINS P, et al. Exploiting the circulant structure of tracking?by?detection with kernels [C]//Proceedings of 2012 European Conference on Computer Vision. [S.l.]: Springer, 2012: 702?715.
[13] NG A, JORDAN M. On discriminative vs. generative classifiers: a comparison of logistic regression and naive Bayes [J]. Proceedings of advances in neural information processing, 2002, 28(3): 841?848.
[14] HUMMEL R A. Representation based on zero?crossings in scale?space [C]// Proceedings of 1986 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE, 1986: 204?209.
[15] JENKINS M D, BARRIE P, BUGGY T, et al. Extended fast compressive tracking with weighted multi?frame template matching for fast motion tracking [J]. Pattern recognition letters, 2016, 69: 82?87.