李玄 劉倩玉
【摘 要】基于視覺的目標(biāo)跟蹤是計(jì)算機(jī)視覺的一個重要應(yīng)用,對于視覺跟蹤系統(tǒng)來說,跟蹤算法的性能極為關(guān)鍵。本文提出了一種快速魯棒的壓縮跟蹤方法,這種方法通過檢測的方式來實(shí)現(xiàn)跟蹤,即它通過在每一幀檢測目標(biāo)來實(shí)現(xiàn)對目標(biāo)的持續(xù)跟蹤。加權(quán)壓縮特征的使用使得算法在存在遮擋的情況下效果很好,同時極限學(xué)習(xí)機(jī)的使用保證了跟蹤速度的提升。實(shí)驗(yàn)結(jié)果表明算法的跟蹤準(zhǔn)確度很高,速度快,魯棒性好,特別適用于一些存在著快速運(yùn)動以及遮擋的場合。
【關(guān)鍵詞】目標(biāo)跟蹤;加權(quán)壓縮特征;極限學(xué)習(xí)機(jī)
中圖分類號: TP391.4 文獻(xiàn)標(biāo)識碼: A 文章編號: 2095-2457(2018)08-0022-003
A fast and robust weighted compressive tracking method
LI Xuan1 LIU Qian-yu2
(1.Xi'an Institute of Navigation Technology,Xi'an 710068,Shaanxi,China;
2.Xi'an Microelectronic Technology Institute,Xi'an 710000,Shaanxi,China)
【Abstract】Visual tracking system plays an important role in various computer vision applications. The tracking algorithm is very crucial for visual tracking system. A robust weighted compressive tracking method is proposed in this article. The proposed algorithm belongs to tracking by detection methods which regards tracking as detecting target in each frame. The use of weighted compressive features benefits the circumstance of occlusion while ELM guarantees the tracking speed of the algorithm. The experiment shows that the algorithm has good performance in terms of efficiency, accuracy and tracking speed. It is very robust and efficient in the case of abrupt movement and occlusion.
【Key words】Target tracking;Weighted compressive features;Extreme machine learning
0 摘要
視覺跟蹤是計(jì)算機(jī)視覺的一個重要應(yīng)用,很多場合都用到視覺跟蹤,比如說監(jiān)控、火控系統(tǒng)、車輛導(dǎo)航、智能機(jī)器人、行為識別以及導(dǎo)彈制導(dǎo)。對攝像機(jī)中的目標(biāo)進(jìn)行跟蹤是一項(xiàng)富有挑戰(zhàn)性的工作,主要是由于以下三個因素:(1)跟蹤系統(tǒng)需要對目標(biāo)的姿態(tài)變化、旋轉(zhuǎn)以及遮擋具有很強(qiáng)的魯棒性;(2)跟蹤系統(tǒng)應(yīng)該能夠有效應(yīng)對相機(jī)或者目標(biāo)的突然運(yùn)動;(3)跟蹤系統(tǒng)應(yīng)該能在一些對實(shí)時性要求較高的場合具有很好的表現(xiàn)。
通常來說,跟蹤系統(tǒng)應(yīng)該包含以下三個要素:外觀模型、運(yùn)動模型以及在當(dāng)前幀搜尋目標(biāo)位置的策略。本文主要關(guān)注的是外觀模型。它是由物體的表現(xiàn)模型和統(tǒng)計(jì)模型兩部分構(gòu)成。物體的表現(xiàn)模型主要關(guān)注的是如何用不同的特征去設(shè)計(jì)一個魯棒的特征描述子。統(tǒng)計(jì)特征模型研究的是如何根據(jù)特征描述子用一些統(tǒng)計(jì)學(xué)的方法去搜尋目標(biāo)位置。
視覺跟蹤領(lǐng)域的物體表現(xiàn)模型可以被分為2類:全局特征描述方式和局部特征描述方式。全局特征描述方式模擬的是對象外觀的整體特征。原始像素值和顏色直方圖比較簡單有效,是兩種使用最為廣泛的全局特征描述子。例如,均值漂移[1-3]使用顏色直方圖來查找 下一幀的目標(biāo)位置。和全局特征描述方式不同,Haar-like 特征或Hog特征等局部特征描述方式在光照變化、姿態(tài)改變以及非剛性形變中表現(xiàn)良好,這是因?yàn)樗鼈兛梢跃幋a物體表現(xiàn)模型的局部結(jié)構(gòu)信息。
通過檢測來實(shí)現(xiàn)跟蹤的方法將跟蹤看成一個檢測問題,近年來已經(jīng)引起了很多關(guān)注。通過檢測來實(shí)現(xiàn)跟蹤的方法可以被分為兩類,一類是生成模型,一類是判別模型。生成模型通過學(xué)習(xí)得到一個模型來表示目標(biāo)對象,然后使用它以最小的重建誤差搜索圖像區(qū)域。這方面的典型代表就是跟蹤算法,通過一系列目標(biāo)與其他模板的稀疏線性組合對物體進(jìn)行建模,但是這種方法的計(jì)算復(fù)雜度非常高。判別模型將跟蹤問題看成一個目標(biāo)鄰域內(nèi)的二值分類問題,判斷將目標(biāo)和背景分割開來的決策邊界。
本文的主要目的是尋找一個更加有效的物體表現(xiàn)模型以及更加魯棒的統(tǒng)計(jì)模型,并提出了一種簡單有效的算法。它嚴(yán)格意義上屬于判別模型,將跟蹤問題看成一個目標(biāo)鄰域內(nèi)的二值分類問題,目標(biāo)是尋找一個能將目標(biāo)和背景區(qū)分開來的最佳決策邊界。為了減少邊界被遮擋產(chǎn)生的干擾以及圖像質(zhì)量的不利影響,本文應(yīng)用高斯核函數(shù)生成加權(quán)特征圖像。本文的外觀模型通過測量矩陣從加權(quán)多尺度圖像特征空間中提取加權(quán)壓縮特征。盡管壓縮特征的尺寸遠(yuǎn)遠(yuǎn)低于原始的加權(quán)多尺度圖像特征空間的維度,加權(quán)壓縮特征可以保留絕大部分的顯著信息。最后,本文使用ELM[4-6](極限學(xué)習(xí)機(jī))來對正樣本以及負(fù)樣本進(jìn)行區(qū)分,選取最有可能是目標(biāo)的那個正樣本。
1 加權(quán)壓縮特征
為了提取加權(quán)壓縮特征,執(zhí)行以下一系列步驟:
首先用一個高斯低通濾波器來對每一個樣本進(jìn)行卷積:
式(1)中f(x,y)表示原始圖像中每一點(diǎn)的像素值,k(.)代表高斯核函數(shù)。(x0,y0)表示樣本的中心點(diǎn)坐標(biāo)。根據(jù)每一點(diǎn)到中心點(diǎn)的距離來為它們添加權(quán)重。兩者之間距離越短,權(quán)重越大,距離越長,權(quán)重越小。這樣做的好處是會減小容易受到外界干擾的邊緣的影響,可以進(jìn)一步提高跟蹤算法的有效性、準(zhǔn)確性以及魯棒性。
文章《實(shí)時壓縮跟蹤》[7]首次提出了壓縮特征[11-12],它采取了非常稀疏測量矩陣來對正樣本以及負(fù)樣本進(jìn)行特征提取。非常稀疏測量矩陣近似保留了原始信號兩兩之間的距離,并且減小了計(jì)算負(fù)擔(dān)。
為了更好地解決尺度問題,本文提取了目標(biāo)的多尺度特征,具體方法如下:用一系列的多尺度矩形濾波器{h1,1,…,hw,h}與每一個加權(quán)樣本z∈Rw×h做卷積,多尺度矩形濾波器的定義如下:
式(2)中i和j分別是矩形濾波器的寬和長。矩形濾波器的寬的最大值是加權(quán)樣本的寬度,高的最大值是加權(quán)樣本的高度,卷積過后可以得到一張高維多尺度特征圖像I∈R。把高維多尺度特征圖像的每一列拿出來連成一個超高維向量X,它的維數(shù)是在106到1010之間。為了降低計(jì)算復(fù)雜度,提高跟蹤速度,本文采取了壓縮感知[8]領(lǐng)域的非常稀疏測量矩陣來提取高維多尺度加權(quán)特征向量中的有用信息,如式(3)所示:
非常稀疏測量矩陣R的定義如下:
非常稀疏測量矩陣R可以用一個隨機(jī)數(shù)發(fā)生器來產(chǎn)生。當(dāng)s等于2或者3時,非常稀疏測量矩陣滿足Johnson-Lindenstrauss定理和有限等距性質(zhì)[7]。一方面,低維加權(quán)壓縮特征子空間保留了原始加權(quán)多尺度特征空間的大部分信息,可以以最小誤差完美重構(gòu)原始信號。另一方面,v的維度比原始信號X的維度要小得多,這樣可以減輕計(jì)算負(fù)擔(dān),提高跟蹤速度。此外,非常稀疏測量矩陣中的大部分元素都是0,這樣就可以降低存儲負(fù)擔(dān)。
2 極限學(xué)習(xí)機(jī)[4-6]
極限學(xué)習(xí)機(jī)最開始的時候是針對SLFNs(單隱層前饋神經(jīng)網(wǎng)絡(luò))提出的,后來被擴(kuò)展到廣義SLFN中。在網(wǎng)絡(luò)權(quán)重初始化的時候隨機(jī)選擇輸入權(quán)重和隱藏層偏差,訓(xùn)練過程中不需要再調(diào)整它們,這樣會使得確保訓(xùn)練精度的同時顯著加快訓(xùn)練速度。此外,ELM克服了BP算法的局限性,如過度訓(xùn)練和局部最小化等問題。 總而言之,ELM的結(jié)構(gòu)比其他網(wǎng)絡(luò)簡單,其泛化能力也得到了很大的提高。
針對廣義SLFN所提出的的極限學(xué)習(xí)機(jī)算法的輸出函數(shù)定義如下:
式(7)中hi(xj)=h(wixj+bi),wi=[wi1,wi2,…win]T表示第i個隱藏層節(jié)點(diǎn)和n個輸出節(jié)點(diǎn)之間的權(quán)重向量。bi是第i個隱藏層節(jié)點(diǎn)的偏置向量。式(7)中,βi=[βi1,βi2,…bim]T,βim表示第i個隱含節(jié)點(diǎn)和第m個輸出節(jié)點(diǎn)之間的權(quán)重。ELM不再使用標(biāo)準(zhǔn)優(yōu)化方法而是使用最小二乘法來實(shí)現(xiàn)神經(jīng)網(wǎng)絡(luò)的訓(xùn)練。
β=H+T(10)
式(10)中H+是矩陣H的Moore-Penrose廣義逆矩陣,它可以通過正交投影法得到。當(dāng)HTH是奇異的時候,H+=(HTH)-1HT。當(dāng)HTH是非奇異的時候,H+=HT(HHT)-1。
3 所提算法
作為一種通過檢測來實(shí)現(xiàn)跟蹤的方法,本文所提算法的主要目標(biāo)是尋找一個能將背景和目標(biāo)區(qū)分開來的最好方式,并進(jìn)一步找到當(dāng)前時刻最有可能存在目標(biāo)的位置。具體步驟如圖1所示。
本文設(shè)置ELM輸出節(jié)點(diǎn)的數(shù)目為2,假設(shè)第一幀目標(biāo)位置已知,在當(dāng)前目標(biāo)位置的鄰域內(nèi)提取一系列的正樣本,同時在遠(yuǎn)離當(dāng)前目標(biāo)的位置處提取一系列的負(fù)樣本,將正樣本的標(biāo)簽設(shè)為[1 0],將負(fù)樣本的標(biāo)簽設(shè)為[0 1]。在訓(xùn)練的過程中,利用N個樣本根據(jù)式(10)去調(diào)整ELM的系數(shù),以求以最小的誤差將正負(fù)樣本區(qū)分開來。預(yù)測階段,在下一幀中原始目標(biāo)附近的區(qū)域選取目標(biāo)候選,用訓(xùn)練好的分類器選取得分最高的目標(biāo)候選作為真實(shí)的目標(biāo)。詳細(xì)過程如下所示。
對于每個目標(biāo)候選,本文使用已經(jīng)訓(xùn)練好的ELM分類器去預(yù)測輸出。輸出神經(jīng)元給出2個值,分別是z1和z2,然后再用softmax函數(shù)去計(jì)算每個目標(biāo)候選分別屬于目標(biāo)和背景的概率p(y=1|x)和p(y=0|x),如式(11)所示。p(y=1|x)和p(y=0|x)加起來為1,根據(jù)式(12),將分類響應(yīng)最大的目標(biāo)候選作為當(dāng)前幀的真實(shí)目標(biāo)。
算法的詳細(xì)步驟如表1 所示。
5 實(shí)驗(yàn)結(jié)果
為了驗(yàn)證所提算法的有效性,本文在擁有Pentium Core 2.5 GHz GPU和6GB RAM 的計(jì)算機(jī)上利用Visual Studio 2013進(jìn)行了實(shí)驗(yàn)。本文重復(fù)測試10次,并從2方面來評估算法的性能。一方面是平均中心誤差,可以通過計(jì)算人工標(biāo)定的真實(shí)目標(biāo)位置和預(yù)測位置之間的差異來得到,度量標(biāo)準(zhǔn)是像素。第二個指標(biāo)是平均每秒跟蹤幀數(shù),這是跟蹤算法速度的客觀評價指標(biāo)。
兩個實(shí)驗(yàn)分別研究的是算法對遮擋的魯棒性以及對于快速運(yùn)動和旋轉(zhuǎn)的魯棒性,第一個實(shí)驗(yàn)中,一個男孩邊跳邊轉(zhuǎn)動他的臉,第二個實(shí)驗(yàn)中,一個女孩用一本書遮住了她的大部分臉并逐漸移開。 本文還通過實(shí)驗(yàn)將快速魯棒的加權(quán)壓縮跟蹤方法和其余三種方法進(jìn)行了對比,它們分別是TLD跟蹤算法、l1跟蹤算法以及均值漂移跟蹤算法。本文利用平均中心誤差(CLE)和平均每秒跟蹤幀數(shù)(FPS)作為跟蹤精度和跟蹤速度的評價指標(biāo),來對2段實(shí)驗(yàn)視頻進(jìn)行了評估,實(shí)驗(yàn)結(jié)果如表 2 所示。
由表2可知,快速魯棒的加權(quán)壓縮跟蹤方法和其他三種方法相比,具有更高的效率,準(zhǔn)確性和快速性。其中一個原因是加權(quán)壓縮特征的使用通過給目標(biāo)中心的像素值添加更大的權(quán)重,保留了目標(biāo)中心區(qū)域的有效信息,給容易受到外部環(huán)境干擾的目標(biāo)邊緣區(qū)域處的像素值添加更小的權(quán)重,可以有效抵抗遮擋的干擾。另一個原因是和大部分神經(jīng)網(wǎng)絡(luò)一樣,經(jīng)過訓(xùn)練的ELM分類器可以有效存儲目標(biāo)和背景的有用信息。和其他神經(jīng)網(wǎng)絡(luò)相比,它的結(jié)構(gòu)更為簡單,參數(shù)總量更小。訓(xùn)練時并不需要計(jì)算輸入層、隱藏層以及輸出層之間的權(quán)重和偏置,只需要計(jì)算輸入層到輸出層之間的權(quán)重即可,極大地減輕了計(jì)算負(fù)擔(dān),提高了計(jì)算速度。下面會詳細(xì)解釋本文算法在兩段視頻上的效果。
快速運(yùn)動, 低光照和姿態(tài)變化 圖 2 中藍(lán)色、綠色、紅色和黑色的框分別代表了加權(quán)壓縮跟蹤方法、TLD跟蹤算法、均值漂移跟蹤算法以及 跟蹤算法的實(shí)驗(yàn)效果。在第一段視頻中男孩的面部隨著他的跳躍發(fā)生了快速的劇烈運(yùn)動,并且在跳躍的過程中發(fā)生了旋轉(zhuǎn)等姿態(tài)變化,光照條件也較為昏暗,這對進(jìn)行實(shí)時準(zhǔn)確的跟蹤都是一個不小的挑戰(zhàn)。本文所提算法的幀率最高,為41幀每秒,平均中心誤差最小,為12個像素,性能效果遠(yuǎn)遠(yuǎn)優(yōu)于其他三種方法。
遮擋在第二段視頻中,目標(biāo)經(jīng)歷了很嚴(yán)重的遮擋。只有本文所提算法和TLD算法的實(shí)驗(yàn)效果很好。毫無疑問,這是由于所提算法使用了加權(quán)壓縮特征。將加權(quán)多尺度特征空間投影到維數(shù)遠(yuǎn)遠(yuǎn)降低的加權(quán)壓縮特征空間,這樣做不僅可以減輕計(jì)算負(fù)擔(dān),極大地提高跟蹤速度,同時低維特征空間保留了原始加權(quán)多尺度特征空間的絕大部分信息,利用低維壓縮特征去訓(xùn)練分類器并預(yù)測目標(biāo)位置并不會降低跟蹤的準(zhǔn)確性、有效性以及魯棒性。此外ELM分類器的快速訓(xùn)練特性在保證跟蹤精度的同時提高了跟蹤的實(shí)時性。
5 結(jié)論
本文提出了一種快速魯棒的加權(quán)壓縮跟蹤方法。它通過從目標(biāo)和背景的多尺度特征空間中提取它們的加權(quán)壓縮特征,充分利用了目標(biāo)和背景兩方面的信息,并利用訓(xùn)練方便快速的ELM分類器來對目標(biāo)和背景進(jìn)行分類,尋找當(dāng)前時刻目標(biāo)的位置。實(shí)驗(yàn)結(jié)果表明,算法在存在遮擋和快速運(yùn)動情況下的實(shí)驗(yàn)效果均很好,既保證了跟蹤精度,又提高了跟蹤速度。未來還應(yīng)進(jìn)一步驗(yàn)證算法在復(fù)雜背景下的實(shí)驗(yàn)性能。
【Reference】
[1]SMITH S M,BRADY J M.SUSAN-a new approach to low level image processing[J].International Journal of Computer Vision.1997,23(1):45-78.
[2]CHENG Y.Mean Shift,mode seeking,and clustering[J].IEEE Transactions on Pattern Analysis and MachineIntelligence.1995,17(8):790-799.
[3]COMANICIU D,P M.Mean Shift:A robust application toward feature space analysis [J].IEEE Transactions on Pattern Analysis and Machine Intelligence.2002,24(5):603~619.
[4]HUANG G B,ZHU Q U,SIEW C K.Extreme learning machine:a new learning scheme of feedforward neural networks [C],Proceedings of IJCNN.Budapest,2004:985-990.
[5]HUANG G B, ZHU Q U, SIEW C K. Extreme learning machine: theory and applications [J]. Neurocomputing, 2006, 70(1-3):489-501.
[6]HUANG G B, CHEN L, SIEW C K. Universal approximation using incremental constructive feedforward networks with random hidden nodes [J]. IEEE Transactions on Neural Networks, 2006, 17(4):879.
[7]ZHANG K H, ZHANG L, YANG M S. Real-time compressive tracking [C], Proceedings of European Conference on Computer Vision , Florence, 2012: 864-877.
[8]DONOHO D L. Compressed sensing [J]. IEEE Transactions on Information Theory, 2006, 52(4):1289-1306.
[9]KALAL Z, MIKOLAJCZYK K, MATAS J. Tracking-learning-detection [J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2012, 34(7):1409-1422.
[10]MEI X, LING H B. Robust visual tracking using L1 minimization[C]. Proceedings of ICCV, Kyoto, 2009:1436-1443.
[11] SUBBAN R, GURIA S, PASUPATHI P, et al. Real-time compressive tracking -a study and review[J]. International Journal of Emerging Technologies in Computational and Applied Sciences, 2014, 7(2):14-146.
[12]LI G, WANG W, WANG Y, et al. Nano-manipulation based on real-time compressive tracking[J]. IEEE Transactions on Nanotechnology, 2015, 14(5):837-846.
[13]PAN S, SHI L, GUO S. A kinect-based real-time compressive tracking prototype system for amphibious spherical robots[J]. Sensors, 2015, 15(4):8232.