李 靜 肖春華
1(重慶工程學(xué)院科技處 重慶 400056)2(重慶市數(shù)字影視與新媒體工程技術(shù)研究中心 重慶 400056)3(重慶大學(xué)計算機學(xué)院 重慶 400044)
目標(biāo)跟蹤是機器視覺領(lǐng)域熱門的基礎(chǔ)性研究課題[1]。在安防、軍事偵察、無人機等眾多高新領(lǐng)域應(yīng)用廣泛。目前,目標(biāo)跟蹤的難點和挑戰(zhàn)是如何較好地解決目標(biāo)的形態(tài)變化、不準(zhǔn)確預(yù)測造成的飄移現(xiàn)象、低分辨率的目標(biāo)識別、多目標(biāo)的遮擋和身份切換等問題[2-3]。
在已有的研究成果中,跟蹤算法按照不同策略,可以分為基于學(xué)習(xí)的算法、基于濾波的算法和多跟蹤器模式?;趯W(xué)習(xí)的算法是一種自適應(yīng)方法,即在線學(xué)習(xí)模式。如Struck[4]是一個性能較好、結(jié)構(gòu)簡單的在線目標(biāo)檢測與跟蹤算法,該算法旨在將目標(biāo)定位的結(jié)構(gòu)化輸出最小化,但較高的計算量限制了特征和訓(xùn)練樣本的數(shù)量。文獻[5]提出基于HOG在線多實例學(xué)習(xí)的目標(biāo)跟蹤算法,該算法采用HOG特征值提取方式,結(jié)合在線多實例學(xué)習(xí)技術(shù),其適合于目標(biāo)平移、旋轉(zhuǎn)和遮擋等情況下的跟蹤。
TLD(Tracking Learning Detection)算法[6]采用NP學(xué)習(xí)方法對訓(xùn)練出現(xiàn)的正負(fù)樣本進行分類和糾錯,通過修改訓(xùn)練策略提高預(yù)測的準(zhǔn)確性,減少了目標(biāo)漂移的可能性。文獻[7]將協(xié)同訓(xùn)練應(yīng)用到跟蹤中,對兩個獨立的、使用了不同特征的支持向量機進行學(xué)習(xí),隨后從合并的分?jǐn)?shù)中得出硬性否定。
基于濾波的跟蹤大多會局限于對一個剛性模板的學(xué)習(xí)[8]。當(dāng)目標(biāo)發(fā)生形狀變化時,跟蹤會變得很困難,解決思路是采用一個對形狀變化不敏感的表征形式,如KCF方法[9]。一般可以將直方圖與相關(guān)濾波器正交,但僅靠直方圖通常無法有效表征目標(biāo),為此,文獻[10]對來自每個像素的投票進行累加,使用投票后得分最高的位置像素來估計目標(biāo)的范圍。但是,這類方法并不具有普遍適用性,假設(shè)條件較多。
對于一些特殊形式的運動方式,需要對跟蹤形式進行改進。例如針對低秩假設(shè)的粒子濾波跟蹤器難以跟蹤突然運動目標(biāo)的局限性,文獻[11]提出時間受限的反向低秩視覺跟蹤算法,利用反向低秩模型表示目標(biāo)模板和背景模板,并利用混合范數(shù)進行局部約束,以保證目標(biāo)外觀的局部一致性,以及相鄰幀之間的突然變化。
為了降低預(yù)測不準(zhǔn)確性,一般可以結(jié)合多個估計手段,使跟蹤器的弱點得到補償。如文獻[12]提出一種低復(fù)雜度交互式多模型濾波器,該跟蹤算法組合了一些交互式濾波器,并且利用了整個濾波器組的卡爾曼濾波增益矩陣。文獻[13]使用隱馬爾科夫模型HMM(Hidden Markov Model)對目標(biāo)軌跡以及不同時刻的跟蹤器可靠性進行建模。但這類方法缺點是各跟蹤器的復(fù)雜度和兼容性需要統(tǒng)籌考慮。
本文主要創(chuàng)新之處是所提跟蹤器結(jié)合了兩方面的得分:目標(biāo)模板得分和直方圖得分,建立線性組合模型。這兩方面具備一些重要屬性,即:得分在量值上具有相似性,可靠性較高,且目標(biāo)的位置預(yù)測由置信度更高的一方所主導(dǎo)。這樣使得跟蹤器對互補性要素具有敏感性,對局部變化不敏感,所學(xué)習(xí)的模型對顏色變化和形變均具有一定的魯棒性。另外,為保持實時的處理速度,本文還利用了每個圖像塊表示內(nèi)在結(jié)構(gòu),并將其作為兩個獨立的嶺回歸框架[14]進行求解。實驗結(jié)果驗證了所提方法的優(yōu)越性。
本文目標(biāo)跟蹤采用了基于檢測的跟蹤范式,即:在幀t中,從集合St選出目標(biāo)在圖像xt中矩形跟蹤框的位置得分pt:
pt=arg maxp∈Stf(T(xt,p);θt-1)
(1)
θt=arg minθ∈Q{L(θ;Xt)+λR(θ)}
(2)
式中:Q為參數(shù)θ的空間表示,本文使用正則化項R(θ)限制模型的復(fù)雜度,以防止過擬合。
式(1)中得分函數(shù)f(x)定義為模板(tmp)和直方圖(hist)得分的一個線性組合:
f(x)=γtmp1ftmp1(x)+γhistfhist(x)
(3)
為了在滑動窗口的搜索中,高效計算得分函數(shù),窗口圖像特征共享重疊窗口,模板得分使用卷積快速計算,直方圖得分通過單積分圖計算獲得。
在理想情況下,每幀圖像訓(xùn)練損失函數(shù)的形式為:
(x,p,θ)=d(p,arg maxq∈Sf(T(x,q);θ))
(4)
式中:d(p,q)定義為:當(dāng)正確矩形框為p時選擇矩形框q的代價。雖然該函數(shù)是一個非凸性函數(shù),但可使用結(jié)構(gòu)化輸出學(xué)習(xí)對目標(biāo)的界限進行優(yōu)化。然而,該優(yōu)化的缺點在于計算成本很高,限制了可用特征和訓(xùn)練樣本的數(shù)量。相比之下,相關(guān)濾波器采用了簡單的最小二乘原理,可通過將特征圖像的循環(huán)位移作為樣本,使用較高維特征表示,從一個相對數(shù)量較大的訓(xùn)練樣本中學(xué)習(xí)。該方法在跟蹤中效果較好,同時保持了較高的運行速率。
因此,為了保持相關(guān)濾波器的速度和有效性,同時不忽略直方圖得分所捕獲到的信息,本文通過求解兩個獨立的嶺回歸問題學(xué)習(xí)所提模型,即:
(5)
式中:參數(shù)h可以使用相關(guān)性濾波公式快速得出。最后,選取兩個模型得分的凸組合,設(shè)γtmp1=1-α,γhist=α,其中因子α是在驗證集上選擇的參數(shù)。以上兩個模型得分函數(shù)的參數(shù)都將得到優(yōu)化,目標(biāo)的分?jǐn)?shù)分配為1,其他窗口的分?jǐn)?shù)分配為0。所提模型的總體示意圖如圖1所示。
圖1 所提模型的總體示意圖
本文采用最小二乘和二次正則算子有兩個好處:1) 在閉合形式中得到解;2) 內(nèi)存要求不會隨樣本數(shù)量的增加而增加。如果L(θ;X)是得分f(x;θ)的一個凸二次函數(shù),而f(x;θ)在模型參數(shù)θ中是線性的(以保持凸性),那么則會存在著一個矩陣At和一個向量bt,使得:
(6)
而無論Xt的大小如何,都足以確定解θt=(At+λt)-1bt。
如果采用一個遞歸定義的損失函數(shù):
L(θ;X)=(1-η)L(θ;Xt-1)+η(xt,pt,θ)
(7)
式中:η為自適應(yīng)率,則可維持:
(8)
(9)
在最小二乘相關(guān)濾波中,每幀圖像損失為:
(10)
(11)
在實踐中,本文沒有對式(11)進行計算,而是采用了尺度估計的相關(guān)濾波器[15]進行近似。
模板在線更新表示為:
(12)
理想情況下,直方圖得分應(yīng)該學(xué)習(xí)來自于每個圖像的一個樣本集合,其中包括作為一個正例的正確位置。設(shè)W表示矩形窗q和與之相對應(yīng)的回歸目標(biāo)y∈的一個成對集合(q,y),包括正例(p,1)。則每幀圖像的損失為:
(13)
通過對一個M×M的方程組進行求解,得出M-通道特征變換ψ的解,求解該方程組的內(nèi)存需求為O(M2),時間需求為O(M3)。如果特征的數(shù)量較大,則上述方法不可行。雖然存在著其他的迭代方法對矩陣進行分解[10],例如坐標(biāo)下降法、共軛梯度和雙坐標(biāo)下降,但是僅靠這些方法依然難以實現(xiàn)較高的幀速率。
本文提出了形式的特征為ψ[u]=ek[u],式中的向量e在下標(biāo)為i時等于1,其他情況下則等于0。考慮的特征為量化的RGB顏色特征,直方圖得分可被視為一個平均投票。因此,為了提高效率,本文建議將線性回歸獨立的應(yīng)用到目標(biāo)O和背景區(qū)域B∈2的每個特征像素,使用每幀圖像目標(biāo):
(14)
式中:ψ為ψT(x,p)的簡寫。引入one-hot假設(shè),目標(biāo)分解為每特征維數(shù)獨立項:
(15)
式中:Nj(A)=|{u∈A:k[u]=j|是?T(x,p)的區(qū)域A中的像素數(shù)量,特征j為非零k[u]=j。則相關(guān)聯(lián)的嶺回歸問題的解為:
(16)
對于每個特征維數(shù)j=1,2,…,M,其中ρj(A)=Nj(A)/|A|為一個區(qū)域中j為非零的像素比例。本文對模型參數(shù)進行更新:
(17)
式中:ρt(A)是ρjt(A)的向量,j=1,2,…,M。
本文在視頻集VOT-14[2]和OTB-100[16]上對所提跟蹤器和其他方法進行了比較,實驗中所使用的重要參數(shù)如表1所示。
表1 本文實驗中所采用的參數(shù)列表
從VOT-14視頻集的394個視頻中選擇25個序列,以代表相機運動、遮擋、光照變化、尺寸和運動,并在選出的序列上對跟蹤器進行性能比較,該部分列舉了有代表性8個視頻的跟蹤結(jié)果。比較的跟蹤有文獻[4]提出的Struck跟蹤器,文獻[5]提出的多實例學(xué)習(xí)的HOG跟蹤方法,經(jīng)典的TLD跟蹤器[6],以及改進的KCF跟蹤器[9]。
使用的評價指標(biāo)如下所示:
3) 跟蹤器的魯棒性為其在視頻中失敗的次數(shù)。當(dāng)St變成零時,則判定出現(xiàn)了一次跟蹤失敗。由于該基準(zhǔn)著眼于短時間跟蹤,一個跟蹤器在出現(xiàn)跟蹤失敗后,會在5幀之后被自動重新初始化到地面位置。
各跟蹤器對各視頻序列的平均每幀重疊結(jié)果如表2所示,平均重疊值越大,其對應(yīng)的跟蹤器越優(yōu),每一行的最優(yōu)結(jié)果加粗顯示??梢钥闯霰疚姆椒ㄔ诖蠖鄶?shù)情況下,其重疊均達到最大。即使在次優(yōu)情況下,也與最優(yōu)相差不多。在地鐵視頻中表現(xiàn)不佳,可能是由于矩形包圍框的中心位置造成的。不同跟蹤器對包圍柜中心誤差的比較如表3所示??梢钥闯?,本文方法的中心誤差最低,跟蹤的中心位置把握得更準(zhǔn)確。25個視頻的綜合評價結(jié)果如表4所示??梢钥闯觯疚姆椒ǖ钠骄丿B更大,跟蹤失敗次數(shù)更少,綜合評價得分最高。
表2 各跟蹤器對視頻序列的重疊值
表3 各跟蹤器對視頻序列的中心誤差
表4 25個視頻序列中的綜合排名結(jié)果
為了研究形變對跟蹤器的影響,選擇一些形體不停發(fā)生變換的視頻,如做復(fù)雜動作的運動員視頻,如圖2所示。其中第一行是多實例HOG方法的跟蹤結(jié)果,第二行是改進KCF方法的跟蹤結(jié)果,第三行是本文方法的結(jié)果。可以看出,本文方法在運動員的運動過程均得到了良好的跟蹤。多實例HOG方法和KCF方法受到背景顏色的嚴(yán)重干擾,同時由于形變造成模板特征發(fā)生了較大變化,而本文方法充分利用目標(biāo)模板和直方圖得分的互補性對形變和背景具有較好魯棒性。
圖2 運動員視頻中外觀變化實驗
為了研究光照變化對跟蹤器的影響,選取了David視頻中明暗變化的序列部分,該部分伴有較小形變過程,如圖3所示。比較的方法與圖2外觀變化實驗相同??梢钥闯龆鄬嵗鼿OG和改進KCF方法由于更新誤差積累導(dǎo)致了目標(biāo)漂移,而本文方法對光照變化具有較好的魯棒性。一般來說,基于相關(guān)濾波的跟蹤器在應(yīng)對運動、光照和尺度等變化時具有一定的魯棒性,但局限于剛性模板的學(xué)習(xí),當(dāng)目標(biāo)在一個視頻序列中發(fā)生形變時,該類跟蹤器會表現(xiàn)不佳。在所用特征中,顏色直方圖會丟棄每個像素的位置信息,對形狀變化具備魯棒性,但不能很好地應(yīng)對光照變化,且當(dāng)顏色辨識度不高時通常無法有效地從背景中辨識。鑒于直方圖和模板所具備的互補性,本文結(jié)合兩個圖像分塊表示,對形狀和顏色均具備魯棒性。
圖3 David視頻序列中光照變化實驗
與VOT-14基準(zhǔn)一樣,OTB-100[16]的理念是在準(zhǔn)確度和失敗的魯棒性兩方面對跟蹤器的性能進行評價,OTB-100視頻集已經(jīng)成為目標(biāo)跟蹤數(shù)據(jù)集的一個標(biāo)準(zhǔn)。準(zhǔn)確度通過預(yù)測跟蹤器的矩形包圍框和實際情況的交集與并集之比進行度量。但用到了一個閾值to,當(dāng)該比值高于閾值to時,則檢測到一次成功的跟蹤。為了不將該閾值設(shè)為一個特定數(shù)值,在成功率曲線下方處于不同數(shù)值的to區(qū)域作為一次最后得分,采用空間魯棒性評價和時序魯棒性評價評估跟蹤器[16]。
本文使用了與VOT-14中相同的代碼和參數(shù)進行測試,結(jié)果如圖4和圖5所示,可以看出,本文方法在成功率方面更優(yōu),總體上優(yōu)于其他方法。其中,多實例學(xué)習(xí)的HOG整體比較差,鑒于該方法使用相關(guān)濾波器學(xué)習(xí)一個顏色模板,因此,本文方法的優(yōu)越性表明,通過結(jié)合模板和直方圖得分所實現(xiàn)的性能改善,不能單一地歸功于對顏色的引入。
圖4 時序魯棒性評價
圖5 空間魯棒性評價
本文采用MATLAB和C混合編程,在配置了Intel Core i5-4790K @8.0 GHz的臺式計算機上以每秒大約80幀的速率運行。但是,通過對模型計算出的分塊尺寸進行調(diào)節(jié),可以犧牲較小的性能,以實現(xiàn)一個較高的幀速率。例如使用HOG的單元格尺寸為2×2,失敗次數(shù)的增加較少,而速率則超過了每秒100幀。
本文分別將學(xué)習(xí)率ηtmp1和ηhist用于模板和直方圖模型更新,以確定從之前幀中得到的舊證據(jù)替換為當(dāng)前幀中得到的新證據(jù)。一般情況下,學(xué)習(xí)率越低,則從先前幀中學(xué)習(xí)到的模型實例相關(guān)性越高。實驗結(jié)果表明,ηtmp1和ηhist均大約為0.01,可以達到最大程度的魯棒性。
本文方法的準(zhǔn)確度(平均重疊值)受因子α的影響較大,其具體情形如圖6所示,而式(3)中的γtmp1和γhist由α控制:在α=0.3附近,本文方法的性能最優(yōu)。魯棒性遵循類似的趨勢。另外,圖6還說明了對兩個嶺回歸問題的密集響應(yīng)進行合并的策略所達到的性能顯著優(yōu)于僅對最終估計進行插值的策略,即:具有相容且互補的密集響應(yīng)模型能夠獲得較優(yōu)的結(jié)果。
圖6 平均重疊值與因子α的關(guān)系
本文在嶺回歸框架下,對模板和直方圖得分進行獨立學(xué)習(xí),并將兩者進行線性組合,以實現(xiàn)在實時跟蹤的基礎(chǔ)上對顏色、形變和光照變化的魯棒性。實驗結(jié)果表明提出的跟蹤器性能優(yōu)于其他跟蹤器,且計算量需求較低。
未來將考慮多個獨立跟蹤器進行多目標(biāo)跟蹤,同時也會考慮多目標(biāo)跟蹤中的挑戰(zhàn)性問題,如身份切換和目標(biāo)函數(shù)收斂等問題。