茅正沖, 黃舒?zhèn)?/p>
(江南大學 輕工過程先進控制教育部重點實驗室,江蘇 無錫 214122)
目標跟蹤作為計算機視覺領域一項重要的核心技術,廣泛應用于智能視頻監(jiān)控、目標行為分析、目標識別以及人機交互等領域[1~4]。
近幾年,稀疏表示逐漸應用于目標跟蹤[5,6],并取得了很好的跟蹤效果。2009年,Mei X等人[7]首次將稀疏表示的理論引入到目標跟蹤領域,即L1跟蹤系統(tǒng)。其核心思想是在粒子濾波的框架下,使用一組目標模板與平凡模板將每個候選目標線性表示。當目標候選所擁有的重構(gòu)誤差最小時,該候選目標被選定為跟蹤的對象。隨后,一些學者針對L1跟蹤器不足提出了許多改進方法,Bao C L等人[8]對平凡模板系數(shù)附加上L1范數(shù),使用加速最近梯度(APG)法,加快稀疏解的收斂速度,提高了跟蹤效率。文獻[9]提出了一種基于稀疏性的協(xié)同模型算法,同時使用了全局模板與局部模板對目標進行描述,融合了稀疏判別的分類器與稀疏性的生成式模型,還引入了有效方法計算置信度,有效地處理目標變化和減輕跟蹤過程中的漂移問題。
本文簡要概述了稀疏表示的原理,詳細介紹了改進的算法,并通過實驗得到跟蹤結(jié)果與數(shù)據(jù)證明改進的算法與一些主流算法相比的優(yōu)勢所在。
稀疏表示的本質(zhì)是一個線性近似的問題,候選目標y都可以表示為字典C=[c1,c2,…,cn]下的線性組合,即
y=Ca=c1a1+c2a2+…+cnan
(1)
式中a=[a1,a2,…,an]T∈Rn為在該冗余字典下候選目標的稀疏系數(shù);n為目標模板的個數(shù)。通常在跟蹤過程中會出現(xiàn)噪聲、遮擋等情況,引入平凡模板I=[i1,i2,…,in]∈Rd×d對稀疏表達式進行描述
(2)
式中e=[e1,e2,…,en]T為平凡模板的系數(shù)向量。為了求得合適的解,需要對稀疏系數(shù)a約束,使用L0范數(shù)求解
(3)
求解式(3)方程在數(shù)學上是一個NP-hard問題,L0范數(shù)非凸且高度不可微,到目前為止沒有有效算法來解決,使用L1范數(shù)來代替L0范數(shù),即
(4)
通過拉格朗日乘數(shù)法可以將上述約束問題轉(zhuǎn)換為無約束問題,即
a*=argmin 0.5‖xi-Cai‖2+λ‖ai‖1
(5)
式中λ為一個常數(shù),用來平衡重構(gòu)誤差與稀疏性,式(5)可以通過最小角回歸(LARS)算法求解。
對于L1跟蹤算法存在許多不足之處,當候選區(qū)域選擇了背景區(qū)域或者在被遮擋的情況下,使用目標與平凡模板表示候選樣本時,平凡模板的系數(shù)不再為零,從而整個系數(shù)均不再稀疏。L1模板的計算十分復雜,不適用于目標跟蹤。
與傳統(tǒng)的主成分分析(principal component analysis,PCA)算法相比,二維主成分分析(two-dimensional PCA,2DPCA)是基于二維矩陣而不是一維的向量,圖像矩陣不需要轉(zhuǎn)化為向量,保留了原來數(shù)據(jù)的多維結(jié)構(gòu)。因此,使用2DPCA較圖像的特征提取在計算上更有效:
1)計算樣本總體的散度矩陣
(6)
2)計算總體散度矩陣G的特征值
λ1≥λ2≥…≥λn
(7)
3)計算與特征值對應的單位正交特征向量u1,u2,…,un。
4)保留前t個最大特征值所對應的標準正交特征向量,構(gòu)成特征子空間U
(8)
使用2DPCA得到的子空間U構(gòu)成稀疏表示的冗余字典,候選目標可以由U來進行稀疏表示,即
y=Ua+e=u1a1+u2a2+…+unan
(9)
式中a=[a1,a2,…,an]∈Rn為稀疏表示的稀疏系數(shù),通過L2范數(shù)對其進行求解,即
(10)
式中λ為一個常數(shù),用來平衡重構(gòu)誤差與稀疏性;L2范數(shù)約束項主要作用為:獲得遠低于L1范數(shù)的稀疏度的解a;使得最小化的解更加的穩(wěn)定。令
(11)
可以得到
a=(UTU+λI)-1UTy
(12)
求得系數(shù)后,可以用U與a表示殘差向量e,即
e=y-Ua
(13)
令P=(UTU+λI)-1UT為投影矩陣,可以看出,P是獨立于y的,因此,只需處理每一幀圖像,不管有多少候選目標,P只需計算一次??梢酝ㄟ^a*=Py將候選目標y投影到P上來。
在粒子濾波中,使用p(xt|xt-1)表示2幀之間的動態(tài)模型,本文選取仿射變換的6個參數(shù)對目標的運動狀態(tài)進行描述,目標狀態(tài)變量xt為
xt={xt,yt,θt,st,at,φt}
(14)
式中 6個參數(shù)依次為水平方向平移、垂直方向平移、旋轉(zhuǎn)角度、尺度變化量、縱橫比以及斜切角。一般情況下,狀態(tài)轉(zhuǎn)換模型服從高斯分布,即
p(xt|xt-1)=N(xt;xt-1;ψ)
(15)
式中ψ為對角協(xié)方差矩陣,其元素為6個仿射變換參數(shù)的方差。
通常觀測似然度函數(shù)一般選擇其重構(gòu)誤差,即
(16)
表示目標候選的似然概率,當候選目標稀疏表示的重構(gòu)誤差越小,其稀疏越可靠。但是面對有遮擋的目標,使用式(16)作為衡量標準不能夠很好地對目標進行跟蹤,在似然度函數(shù)中,引入重構(gòu)誤差e的L1范數(shù),以提高目標跟蹤的魯棒性與跟蹤的精度
(17)
式中δ為一個常數(shù)(本文設置為0.5)。
將N個候選目標人作為視覺皮層的神經(jīng)元細胞,將目標模板作為外部的輸入信號,當神經(jīng)元接收外界的輸入信號時,計算每個神經(jīng)元得平均激活率ηi
(18)
即當響應外部信息的大腦皮層神經(jīng)元平均激活率越高,該神經(jīng)元與外部信息相符合程度越高。應用到目標跟蹤中,即目標的候選與模板的相似度越高。在相似度函數(shù)計算公式中加入平均激活率,使得目標跟蹤更具有準確性與魯棒性
(19)
在跟蹤過程中未考慮到光照、遮擋以及姿勢變化等因素的影響,使用固定的模板往往會導致跟蹤失敗。若是頻繁的更新模板,跟蹤器以錯誤的跟蹤結(jié)構(gòu)來更新模板,造成目標的丟失。本文采用增量子空間學習的方法對模板進行更新,以減輕遮擋對目標模板的影響。
實驗硬件平臺是Intel (R) Core i5 CPU M 480 @2.67 GHz的計算機,在MATLAB 2012環(huán)境下實現(xiàn)。在實驗中λ=0.05,目標的第一幀由手動標定,在目標區(qū)域縮放至32×32,選取2組視頻序列進行實驗。取粒子數(shù)為600,通過與多示例學習(multiple instance learning,MIL)[13]與視覺增量學習(incremental visual learning,IVT)[14]2種算法對比,并用矩形框?qū)⒏櫟慕Y(jié)果顯示出來(1號方框為本文算法,2號方框為IVT算法,3號方框為MIL算法),驗證本文算法的有效性與合理性。從公平開的視頻庫中選取3個視頻序列實驗,在視頻跟蹤過程中經(jīng)常會出現(xiàn)不同程度的光照變換、姿勢變化、局部遮擋以及快速運動等。
在Cavia 2視頻序列中,目標經(jīng)歷了嚴重的遮擋與尺度的變化。圖1給出了部分跟蹤結(jié)果。第95幀和第103幀時,MIL算法丟失了目標,在隨后幾幀的更新中又重新找到了目標。195幀時目標被行人大面積遮擋時,MIL算法發(fā)生了漂移無法再恢復導致跟蹤的失敗,這是由于未考慮背景因素。對于IVT算法雖然未漂移,但是跟蹤框變得很小,精度很差。通過圖1的結(jié)果可以看出,本文的算法始終可有效地對目標進行跟蹤,體現(xiàn)了其跟蹤的魯棒性與準確性。
圖1 Cavia2視頻序列部分幀的跟蹤結(jié)果
Car11視頻序列中存在明顯的光照變化,車輛在夜間行駛,光線條件較差,跟蹤的目標車輛在與來車會車時光照會發(fā)生明顯的變化。這些變化可以在Car11的第200幀與260幀看出。部分幀的跟蹤結(jié)果如圖2所示。IVT模型可以很好地克服光照變換造成的影響。MIL模型在第32幀時目標開始逐漸的漂移,到210幀時目標已完全漂移并且再也無法捕獲目標。本文算法存在有光線變化與相似目標干擾情況下依舊可以很好地對目標進行跟蹤。
圖2 Car11視頻序列部分幀的跟蹤結(jié)果
通常情況下假設跟蹤的目標運動變化比較微弱,在實際中對于快速運動的目標一些算法無法對其進行跟蹤。采用Deer視頻序列,目標一直處于運動變化中,跟蹤困難。部分幀的跟蹤結(jié)果如圖3所示。在第26幀時使用IVT模型的目標開始漂移且無法重新捕獲目標,而MIL算法在第37幀也完全丟失了跟蹤目標。本文算法成功穩(wěn)定地跟蹤快速運動的目標。
為了更加準確地評價本文算法的優(yōu)劣性,必須采用定量分析方法。本文衡量的準則是跟蹤結(jié)果與真實值中心的位置誤差與重疊率。中心點誤差為
圖3 Deer視頻序列部分幀的跟蹤結(jié)果
(20)
式中 (x0,y0)為真實目標中心的坐標;(xt,yt)為t時刻跟蹤算法計算的目標中心的的坐標。誤差值越小表示跟蹤的目標更加準確。圖4為不同算法間部分幀測試視頻中的誤差曲線。表1列出了不同算法的平均中心誤差。本文提出的算法誤差值較小,誤差分布比較平穩(wěn)。
圖5 不同算法的重疊率曲線
重疊率為真實目標區(qū)域與預測目標區(qū)域間重疊面積的比率
許多文獻的研究表明,一般情況下,系統(tǒng)的不變集包含了垂直頂部不穩(wěn)定平衡點,但并不能保證系統(tǒng)運動至不穩(wěn)點,系統(tǒng)將在不變集上做周期運動,這種情況下,須采取另一種控制律打破這種周期運動,這種切換控制的穩(wěn)定性由開關定律得以保證。一種較為常見的處理方法是,在系統(tǒng)運動至不變集過程中,當系統(tǒng)的狀態(tài)變量滿足線性化條件時,將系統(tǒng)線性化,采用線性系統(tǒng)理論來設計控制器[3][5]。線性系統(tǒng)理論已經(jīng)成熟,這里不做過多討論,線性化帶來的誤差處理方法可參見文獻[5]。
(21)
式中Rg為真實目標矩形框區(qū)域;Rt為不同跟蹤算法預測目標矩形框區(qū)域。式(21)分子為兩者的交集,即重疊部分,分母為兩者的并集,即面積之和。重疊率越高,表示目標跟蹤算法的效果越好,一般認為重疊率高于0.5,表示目標正確跟蹤。不同算法的重疊率曲線如圖5所示,平均重疊率如表2。
表2 不同算法的平均重疊率
本文使用2DPCA與稀疏表示方法進行目標跟蹤,2DPCA提取的特征構(gòu)成字典與L2范數(shù)最小化進行結(jié)合,大幅提高了跟蹤的實時性與準確性。使用了幾組受到光照變化、姿勢變化、遮擋以及快速運動影響的測試視頻與其他算法進行了比較,實驗結(jié)果表明:能夠很好地實現(xiàn)目標跟蹤并且具有較強的魯棒性,未來將針對算法精度與實時性進行完善。
參考文獻:
[1] Shu C F,Hampapur A,Lu M,et a1.IBM smart surveillance system(S3):An open and extensible framework for event-based surveillance[C]∥Proceedings of the IEEE International Confe-rence on Advanced Video and Signal-Based Surveillance,Como,Italy,2005:318-323.
[2] Shah M,Javed O,Shafique K.Automated visual surveillance in realistic scenarios[J].IEEE Transactions on Multimedia,2007,14(1):30-39.
[3] 谷 靜,史健芳.分布式粒子濾波算法在目標跟蹤中的應用[J].傳感器與微系統(tǒng),2014,33(8):158-160.
[4] 施 瀅,高建坡,崔 杰,等.分塊多特征自適應融合的多目標視覺跟蹤[J].傳感器與微系統(tǒng),2015,34(9):128-131.
[5] Gmbner H,Gmbner M,Bischof H.Real-time tracking via online boosting[C]∥Proceedings of the British Machine Vision Confe-rence,Edinburgh,UK:BMVA,2006:47-56.
[6] Gmbner H,Leistner C,Bischof H.Semi-supenrised online boosting for robust tracking[C]∥Proceeding of the 10th European Conference on Computer Vision,Marseille,FraJlce:Springer-VerLag,2006:47-56.
[7] Mei X,Ling H.Robust visual tracking using L1 minimization[C]∥Computer Vision,Anchorage,Alaska:IEEE,2009:1436-1443.
[8] Bao C L,Wu Y,Ling H B,et al.Realtime robust L1 tracker using accelerated proximal gradient approach[C]∥ 2012 IEEE Conference on Computer Vision and Pattern Recognition(CVPR),IEEE,2012:1830-1837.
[9] Zhong W,Lu H C,Yang M H.Robust object tracking via sparsity-based collaborative model[C]∥IEEE Conference on Computer Vision and Pattern Recognition(CVPR),Rhode Island,2012.
[10] 楊大為,叢 楊,唐延東.基于粒子濾波與稀疏表達的目標跟蹤方法[J].模式識別與人工智能,2013,26(7):680-687.
[11] Li J Y,Lu X F,Ding L Y,et al.Moving target tracking via particle filter based on color and contour features[C]∥Proceeding of the 2nd International Conference on Information Engineering and Computer Science,Wuhan,China,2010.
[12] Wang D,Lu H C,Yang M H.Online object tracking with sparse prototypes[J].IEEE Transactions on Image Processing,2013,22(1):314-325.
[13] Babenko B,Yang M H,Belongie S.Visual tracking with online multiple instance learning[C]∥Conference on Computer Vision and Pattern Recognition,Florida:IEEE,2009:983-990.
[14] Ross D,Lim J,Lin R S,et al.Incremental learning for robust visual tracking[J].International Journal of Computer Vision,2008,77(1):125-141.
[15] Kwon J,Lee K M.Visual tracking decomposition[C]∥Procee-dings of the International Conference on Computer Vision and Pattern Recognition,San Francisco,USA,2010:1269-1276.
[16] 袁廣林,薛模根.基于稀疏稠密結(jié)構(gòu)表示與在線魯棒字典學習的視覺跟蹤[J].電子與信息學報,2015,37(3):536-542.