基于稀疏表示的目標(biāo)追蹤方法

2018-01-18 19:33:11李俊瑤

科技視界 2017年29期

李俊瑤

【摘要】目標(biāo)追蹤作為圖像理解重要的一部分，在公安工作中有著廣泛的應(yīng)用。但是對于一些復(fù)雜場景，車輛、行人眾多、背景多樣，傳統(tǒng)的目標(biāo)追蹤算法難以達(dá)到理想效果。本文概述了稀疏表示基本概念和稀疏編碼的方法，對稀疏表示方法在目標(biāo)追蹤領(lǐng)域中重要研究進(jìn)展進(jìn)行總結(jié)歸納，并展望了稀疏表示方法在目標(biāo)追蹤領(lǐng)域的發(fā)展方向。

【關(guān)鍵詞】目標(biāo)識別；目標(biāo)追蹤；稀疏表示；稀疏編碼

中圖分類號： TP391.41 文獻(xiàn)標(biāo)識碼： A 文章編號： 2095-2457（2017）29-0030-002

【Abstract】Target tracking， as an important part of image understanding， has a wide range of applications in public security work. However， for some complex scenes， vehicles， pedestrians， diverse backgrounds， the traditional target tracking algorithm is difficult to achieve the desired results. This paper summarizes the basic concepts of sparse representation and sparse coding methods， summarizes the important research progress of sparse representation methods in the field of object tracking and prospects the development direction of sparse representation methods in the field of object tracking.

【Key words】Target recognition； Target tracking； Sparse representation； Sparse coding

0 引言

隨著信息化、大數(shù)據(jù)的不斷深入應(yīng)用，對可疑人員、車輛等展開目標(biāo)追蹤已經(jīng)成為偵查工作的一大重要組成部分。傳統(tǒng)的圖偵工作主要依靠人工識別實(shí)現(xiàn)追蹤，耗費(fèi)大量人力和時間，效率較低。

典型的目標(biāo)追蹤系統(tǒng)主要包括三個部分：（1）目標(biāo)外觀模型——計(jì)算目標(biāo)在特定位置上的相似度；（2）目標(biāo)運(yùn)動模型——預(yù)估被追蹤目標(biāo)在整個視頻序列中的運(yùn)動狀態(tài)；（3）追蹤搜索策略——搜索當(dāng)前視頻幀中最相似目標(biāo)的位置。其中目標(biāo)外觀模型作為目標(biāo)追蹤的基礎(chǔ)和關(guān)鍵，其表現(xiàn)力和健壯程度對目標(biāo)追蹤的準(zhǔn)確性和穩(wěn)定性有著決定性的作用。

圖像的稀疏表示與人類視覺系統(tǒng)的描述方式很類似[1]，即捕捉圖像的結(jié)構(gòu)特征，可以實(shí)現(xiàn)圖像的有效表示。而在實(shí)際應(yīng)用中，由于成像機(jī)理的不同，目標(biāo)表現(xiàn)出不同的特征，需要將稀疏表示與具體的應(yīng)用領(lǐng)域相結(jié)合，彌補(bǔ)傳統(tǒng)目標(biāo)檢驗(yàn)算法的缺點(diǎn)。本文簡要介紹了稀疏表示的概念，對其在目標(biāo)追蹤中的應(yīng)用進(jìn)行總結(jié)梳理，并展望其在公安工作中的發(fā)展方向。

1 稀疏表示

1.1 稀疏表示的基本概念

人類視覺系統(tǒng)的神經(jīng)元細(xì)胞在接收自然圖像時，神經(jīng)元會提取圖像的結(jié)構(gòu)特征，即采用稀疏編碼原則[2]。目前，圖像的稀疏表示研究主要包括兩大方面：單基表示和多基表示。

1.1.1 單基表示

圖像的單基稀疏表示基于多尺度分析方法，該理論認(rèn)為圖像具有非平穩(wěn)和非高斯的特性，無法用線性算法進(jìn)行準(zhǔn)確處理，應(yīng)對圖像的幾何結(jié)構(gòu)（包括邊緣、紋理等）進(jìn)行建模，主要包括：脊波和曲波等。該方法產(chǎn)生的圖像模型結(jié)構(gòu)較為簡單，對于大場景或復(fù)雜目標(biāo)無法精確的進(jìn)行描述，因此，各位學(xué)者提出了稀疏的多基表示。

1.1.2 多基表示

圖像的多基稀疏表示基于Mallat和Zhang于1993年提出的過完備字典理論[3]，通過學(xué)習(xí)獲取信號完備的字典集，將信號樣本表示成基向量與稀疏權(quán)向量的線性組合，利用信號本身的特點(diǎn)自適應(yīng)地選擇可以對信號進(jìn)行稀疏表示的冗余基。稀疏表示的基礎(chǔ)是稀疏編碼，即利用過完備基向量中的少數(shù)基向量對樣本數(shù)據(jù)進(jìn)行線性表示：

1.2 稀疏編碼

稀疏編碼是在給定如圖1所示，信號x∈Rn和字典D下計(jì)算稀疏權(quán)矩陣α的過程，針對稀疏編碼和字典學(xué)習(xí)，常用的稀疏編碼算法有OMP算法、特征符號搜索算法[6]等；而相關(guān)的字典學(xué)習(xí)方法有KSVD算法[7]、在線字典學(xué)習(xí)算法（SPAMS）[8]等，分為貪婪法和松弛法。

1.2.1 貪婪法

貪婪法針對公式1進(jìn)行求解，通過迭代，利用字典中的原子，對信號和字典進(jìn)行內(nèi)積計(jì)算選擇最匹配的，作用對信號（圖像）的表示。其中匹配追蹤在計(jì)算方面簡單有效，但是容易出現(xiàn)發(fā)散。可以使用最小二乘法來獲取原子的表示系數(shù)，因此，對于信號x∈Rn和字典D={d1，d2，…，dk}，r0=y，k=1，可以通過以下步驟來實(shí)現(xiàn)正交匹配追蹤：

1.2.2 松弛法

松弛法就是使用經(jīng)典的連續(xù)優(yōu)化方法[9]實(shí)現(xiàn)逼近效果。其中，基追蹤方法[10]就是說公式2可以采用凸優(yōu)化方法進(jìn)行求解，加入噪聲、松弛等式其他條件，公式2的求解可轉(zhuǎn)為求解以下方程[11]：

這里ε是用于信號重構(gòu)的誤差項(xiàng)，而公式3可以作為圖像稀疏表示的標(biāo)準(zhǔn)數(shù)學(xué)模型，可以通過內(nèi)點(diǎn)方法[12]（Interior Point methods）、最小角度回歸方法[13]（Least Angle Regression， LARS）、迭代收縮法[14]（Iterative Shrinkage）。endprint

2 基于稀疏表示的目標(biāo)追蹤

2.1 基于稀疏表示的目標(biāo)追蹤一般步驟

目標(biāo)追蹤算法包括：目標(biāo)識別、運(yùn)動模型建立、目標(biāo)搜索。稀疏表示作為信息結(jié)構(gòu)化表示方法，靈活設(shè)計(jì)字典中的參數(shù)，突出目標(biāo)特征，與背景區(qū)分性更強(qiáng)，其流程如圖2所示。

2.2 基于稀疏表示的目標(biāo)特征學(xué)習(xí)

對于目標(biāo)追蹤而言，對目標(biāo)進(jìn)行魯棒性和可區(qū)別性的特征描述是關(guān)鍵所在，而對于圖像級特征在設(shè)計(jì)時需要考慮：

（1）對于不同類別的情況，有相當(dāng)?shù)呐袆e性用以區(qū)別不同類別內(nèi)容；

（2）對于同一類別的情況，有相當(dāng)?shù)聂敯粜杂靡詤^(qū)別同一類別的不同展現(xiàn)形式。

目前用的較多的是利用SIFT[15]等底層局部特征建立詞包模型（BOW），最早由Joachims等[16]在1997年提出，當(dāng)時主要是在文本分類中用于描述相關(guān)文本特征，而最早將該特征應(yīng)用于視覺領(lǐng)域的是Sivic等[17]和Csurka等[18]。使用BOW模型進(jìn)行圖像結(jié)構(gòu)化表示可以分為三個步驟：圖像塊特征的獲取與描述，字典生成以及圖像的直方圖表示，如圖3所示。

第一步，通過稠密采樣等特征提取方式獲得圖像中可以表示圖像特征的圖像塊，利用SIFT、HOG等對每個圖像塊的特征進(jìn)行區(qū)別化表示；第二步，對上一步得到的訓(xùn)練集合中的圖像塊特征進(jìn)行聚類，并將聚類得到的全體類中瓜視為圖像特征的“字典”（codebook）；第三步，計(jì)算特征向量與字典中所有類中心的距離，確定特征向量所屬碼字的類別，這樣一幅圖像就可以通過碼字出現(xiàn)頻率為單元的直方圖進(jìn)行標(biāo)識，也就是詞包。通過這樣的方式，局部特征變成整體特征，可以更好的面對對尺度、旋轉(zhuǎn)等變化。

目前，BOW只使用了圖像中的關(guān)鍵點(diǎn)、邊緣特征等底層信息，無法對圖像中的場景、對象等高層信息進(jìn)行表示，導(dǎo)致獲取的特征信息不夠完整；另外，對于算法的具體應(yīng)用和具體數(shù)據(jù)情況，SIFT的構(gòu)造缺乏適應(yīng)性，人工干預(yù)較多，提取的特征也有不確定性，追蹤效果差。

3 總結(jié)與展望

目標(biāo)追蹤是一個內(nèi)容繁多的系統(tǒng)工程，稀疏表示已經(jīng)應(yīng)用于目標(biāo)追蹤里的很多方面，效果較好，雖然體現(xiàn)了一定優(yōu)勢，但其可利用空間還有待挖掘，針對公安的特定目標(biāo)研究仍然很少。未來可以主要關(guān)注一下幾個方面：

3.1 構(gòu)建魯棒的目標(biāo)識別模型

為實(shí)現(xiàn)良好的目標(biāo)識別性能，需要構(gòu)建穩(wěn)健的目標(biāo)識別模型。因此，如何對目標(biāo)進(jìn)行結(jié)構(gòu)化的稀疏表示是將來的重要研究方向。在實(shí)際應(yīng)用中，使用者還需要對基于稀疏表示的目標(biāo)識別追蹤模型進(jìn)行參數(shù)設(shè)置，而這些參數(shù)的調(diào)整和設(shè)置還是主要依靠使用者的經(jīng)驗(yàn)。因此，利用識別追蹤模型從自動進(jìn)行參數(shù)自適應(yīng)調(diào)整還需要展開進(jìn)一步的研究。

3.2 算法實(shí)時性

基于稀疏表示的目標(biāo)追蹤算法相較于傳統(tǒng)算法，其準(zhǔn)確性、性能明顯提高，但是運(yùn)算時間也較長，是稀疏表示在實(shí)際應(yīng)用中的一個瓶頸，需要對算法進(jìn)行優(yōu)化，進(jìn)一步對計(jì)算速度和效率進(jìn)行優(yōu)化，尤其是復(fù)雜場景，數(shù)據(jù)量更大，更需要對算法進(jìn)行優(yōu)化已實(shí)現(xiàn)更為高效的運(yùn)算。

3.3 目標(biāo)穩(wěn)健特征學(xué)習(xí)

目標(biāo)特征的優(yōu)良程度對目標(biāo)追蹤的準(zhǔn)確性起著重要作用，其不變性和可區(qū)分性的設(shè)計(jì)也很難達(dá)到完美，需要進(jìn)一步對利用稀疏表示方法，從圖像中獲取底層、中層及高層特征，使得特征描述更為準(zhǔn)確；另外，可以結(jié)合目前更先進(jìn)的深度學(xué)習(xí)算法，提取更為本質(zhì)的目標(biāo)特征，改進(jìn)算法效果。

【參考文獻(xiàn)】

[1]Vinje W E，Gallant J L. Sparse coding and decorrelation in primary visual cortex during natural vision[J].Science，2000，287：1273-1276.

[2]Serre T，Wolf L. Bileschi S，et al. Robust object recognition with cortex-like mechanisms[J].IEEE Transactions on Pattern Analysis and Machine Intelligence， 2007，29（3）：411-426.

[3]Mallat S G，Zhang Z. Matching pursuits with time-frequency dictionaries[J].IEEE Transactions on Signal Processing，1993，41（12）：3397-3415.

[4]Donoho D L， Elad M. Optimally sparse representation in general（nonorthogonal）dictionaries via 1 minimization[J].Proceedings of the National Academy of Sciences， 2003，100（5）：2197-2202.

[5]B.K.Natarajan， Sparse approximate solutions to linear systems[J].SIAM Journal on Computing，1995，227-234.

[6]Lee H，Battle A， Raina R，et al. Efficient sparse coding algorithms[A].Advances in neural information processing systems（NIPS）[C].MIT Press，2007.801-808.

[7]Aharon M， Elad M，Bruckstein A.The K-SVD： An algorithm for designing of over complete dictionaries for sparse representation[J]. IEEE Transactions on Signal Processing，2006，54（11）：4311-4322.endprint

[8]Mairal J，Bach F，Ponce J，et al. Online learning for matrix factorization and sparse coding[J].The Journal of Machine Learning Research， 2010， 11：19-60.

[9]M.Elad， Sparse and Redundant Representation： From Theory to Applications in Signal and Image Processing [M].Springer， New-York， 2010

[10]S.S.Chen，D.L. Donoho， and M.A.Ssunders， Atomic decomposition by basis pursuit[J].SIAM Journal on Scientific Computing， 1998，20（1）：33-61.

[11]Candes E J， Tao T. Decoding by linear programming[J]. IEEE Transactions on Information Theory， 2005， 51 （12）： 4203-4215.

[12]S.J.Kim，K.Koh， M.Lusig，S.Boyd，and D.Gorinevsky，A method for largescale，1-regularized least squares proble- ms with applications in signal processing and statistics[J].IEEE J.Selected Topics Signal Processing， 2007，1（4）：606-617

[13]B. Efron，T. Hastic，I.M.Johnstone，and R. Tibshirani，Least angle regression[J]. The Annals of Statistics，2004，32 （2）：407-499

[14]M.Elad， M.Zibulevsky， Iterative shrinkage algorithms and their acceleration for L1-L2 signal and image processing applications[J].IEEE Signal Processing Magazine，2010，27（3）：78-88.

[15]Lowe D G. Distinctive image features from scale-invariant keypoints[J]. International Journal of Computer Vision， 2004， 60（2）：91-110

[16]Joachims T. A probabilistic analysis of the rocchio algorithm with TFIDF for text categorization. Proceedings of the 14th International Conference on Machine Learning（ICML）， San Francisco， CA， USA： Morgan Kaufmann Publishers Inc，1997， 143-151.

[17]Sivic J， Zisserman A. Video Google： a text retrieval approach to object matching in videos. Proceedings of 2003 Ninth IEEE International Conference on Computer Vision（ICCV）. IEEE.2003.1470-1477

[18]Csurka G， Dance C， Fan L，et al.Visual categorization with bags of keypoints. Proceedings of Workshop on Statistical Learning in Computer Vision， ECCV， volume 1.Prague， 2004. 1-22.endprint