殷鶴楠 佟國香
摘 要:針對視覺跟蹤中運動目標的魯棒性問題,提出一種基于卷積神經(jīng)網(wǎng)絡(luò)結(jié)合稀疏自動編碼器的特征提取方法進行圖像目標跟蹤。該方法首先將大量有標注數(shù)據(jù)集輸入到卷積神經(jīng)網(wǎng)絡(luò)進行預(yù)訓練,然后使用這些卷積特征無監(jiān)督的訓練稀疏自編碼器得到稀疏特征,并利用該特征對目標進行描述。最后結(jié)合兩種經(jīng)典的跟蹤方法,采用Meanshift與卡爾曼濾波對目標進行實時跟蹤。結(jié)果表明,利用深度學習模型代替以往人工提取特征的方式能夠更好地描述目標模型,對光照變化、尺度變化、遮擋等都具有良好的適應(yīng)性,以及較好的實時性。
關(guān)鍵詞:目標跟蹤;卷積神經(jīng)網(wǎng)絡(luò);稀疏自編碼器;特征提取
DOI:10.11907/rjdk.173023
中圖分類號:TP301
文獻標識碼:A 文章編號:1672-7800(2018)006-0022-05
Abstract:In this paper, we propose a new method for tracking the moving object in vision tracking based on CNN-AE feature extraction. Firstly, a large number of labeled data sets are inputted to the convolution neural network for pre-training. Then these convolution features are obtained from unsupervised training on sparse self-encoders. Thereafter, the obtained feature the target. Finally, the two classical tracking methods including Meanshift and Kalman filter are used to track the targets in real time. The results show that this method can better describe the target model, and it has good adaptability to illumination change, scale change, occlusion and so on, and also has better real-time performance.
Key Words:target tracking; convolutional neural network; sparse automatic encoder; feature extraction
0 引言
隨著計算機視覺技術(shù)的發(fā)展,視覺跟蹤在各個領(lǐng)域應(yīng)用廣泛,尤其在人機交互中,其具有以人為中心、簡單、高效、人性化等特點,是人機交互中的重要組成部分。特征是計算機視覺研究過程中的重點,尋找好的特征表示目標是一項非常重要的任務(wù)。優(yōu)秀的特征應(yīng)該能夠有效抵擋目標形變、尺度、旋轉(zhuǎn)等對其造成的影響,以往許多表現(xiàn)性良好的特征提取方法都是由人工設(shè)計,如SIFT[1-2]方法。針對不同問題,也可以設(shè)計不同的特征提取方法,但是人工提取特征也有許多缺點,如設(shè)計周期長,需要了解其它行業(yè)知識等,有時運氣和經(jīng)驗也能影響提取的特征性能。
近年來,深度神經(jīng)網(wǎng)絡(luò)成為人們關(guān)注的熱點,并且在特征提取中取得了非常好的效果。深度神經(jīng)網(wǎng)絡(luò)能夠打破傳統(tǒng)人工提取特征的復(fù)雜過程,利用計算機自動學習并提取所需特征。深度神經(jīng)網(wǎng)絡(luò)模型有多種層次結(jié)構(gòu),其中應(yīng)用最廣泛的是卷積神經(jīng)網(wǎng)絡(luò)(CNN),其是為識別二維形狀而設(shè)計的一個多層感知器,該網(wǎng)絡(luò)結(jié)構(gòu)對平移、比例縮放、傾斜或共他形式的變形具有高度不變性,因此在人臉檢測[3]、文本分析[4]、語音識別[5]等各方面都表現(xiàn)優(yōu)異。并且近年來,一些深度模型也開始應(yīng)用于其它領(lǐng)域。馮鑫等[6]將深度學習方法運用在紅外與可見光融合方面,提出一種基于深度模型分割的可見光融合算法,有效克服了紅外與可見光圖像融合時受噪聲等因素干擾導致的輪廓不鮮明、對比度低的缺點。
基于目標特征的跟蹤方法是視覺跟蹤中的一類重要方法,通過目標描述、特征提取、運動估計等步驟預(yù)測下一個視頻幀中的目標位置。目標跟蹤最直接的方法是模板匹配—歸一化互相關(guān)系數(shù)[7]。每個候選樣本窗口均勻分布在前一幀目標周圍,使用歸一化互相關(guān)系數(shù)進行對比,分數(shù)最高的被選為新的位置。Meanshift[8-10]是著名的跟蹤算法,其利用直方圖匹配代替像素空間信息。該方法對目標自由基變化有較好的適應(yīng)性,一般使用顏色直方圖對目標進行描述。近幾年也不斷有新的跟蹤算法出現(xiàn),如TLD[11]算法,該算法也引入了一種在線學習方法,對目標模型和特征不斷進行更新,從而使算法更加穩(wěn)定,在目標跟蹤過程中可不受遮擋、形變等問題影響;高文等[12]提出一種反饋式學習方法,提高了算法在目標跟蹤問題中的判別能力和容錯能力,對于目標的各種形變都有較好的適應(yīng)性。但這些跟蹤方法在描述目標模型時都需要人工提取特征,費時費力。文獻[13]中介紹了一種基于CNN的目標跟蹤方法,提出一種新的CNN結(jié)構(gòu),從而將CNN應(yīng)用于圖像跟蹤領(lǐng)域,并且提高了跟蹤精度與速度。通過與其它跟蹤算法的對比,該方法精確度突出,但是實時性較差。將特征使用稀疏表示可以降低計算復(fù)雜度,田猛等[14]提出基于稀疏表示與先驗概率的方法對目標進行跟蹤,有效解決了噪聲、旋轉(zhuǎn)、遮擋等復(fù)雜背景下的目標問題。
為了解決在視覺跟蹤領(lǐng)域特征提取不便的問題,本文提出一種卷積神經(jīng)網(wǎng)絡(luò)與稀疏自動編碼器模型(CNN-AE),并在Meanshift的卡爾曼濾波框架下實現(xiàn)目標跟蹤。本文與其它算法的不同點在于:在圖像預(yù)處理后,利用卷積神經(jīng)網(wǎng)絡(luò)模型提取目標特征,將得到的特征輸入稀疏自動編碼器進行無監(jiān)督學習,減少特征冗余。跟蹤階段采用傳統(tǒng)跟蹤方法Meanshift和卡爾曼濾波對運動目標進行跟蹤和預(yù)測,而不繼續(xù)采用網(wǎng)絡(luò)模型,以提高實時性。經(jīng)過分析,本文算法的跟蹤精度和速度都優(yōu)于3種主流目標跟蹤模型。
1 CNN-AE深度特征提取
1.1 卷積神經(jīng)網(wǎng)絡(luò)
卷積神經(jīng)網(wǎng)絡(luò)由一個或多個卷積層和頂端的全連通層組成,同時包括關(guān)聯(lián)權(quán)重和池化層。該結(jié)構(gòu)使卷積神經(jīng)網(wǎng)絡(luò)能夠更好地利用數(shù)據(jù)二維結(jié)構(gòu),因此在語音和圖像識別方面有較好的結(jié)果。圖1為卷積神經(jīng)網(wǎng)絡(luò)的基本結(jié)構(gòu),其由輸入層、卷積層、池化層、全連接層以及輸出層組成。
本文提出的卷積神經(jīng)網(wǎng)絡(luò)在提取目標圖像抽象特征時,主要采用3類處理層:C層卷積濾波層、S層池化/下采樣層、N層非線性層,各層具體實現(xiàn)如下:
1.2 稀疏自編碼器
在特征提取階段,使用卷積神經(jīng)網(wǎng)絡(luò)模型學習圖像中隱藏的特征,之后本文使用一種被稱為稀疏自編碼器的神經(jīng)網(wǎng)絡(luò)模型降低特征維度。此模型具有對稱特質(zhì),如圖3所示,其主要使用無監(jiān)督方法進一步學習數(shù)據(jù)集特征。
該模型一般由編碼和解碼兩部分組成。在編碼模塊中,輸入由非線性激活函數(shù)映射到隱藏層,激活函數(shù)如下:
其中W為權(quán)重,b為偏執(zhí)。激活函數(shù)為sigmod函數(shù)。在解碼模塊中,隱藏層同樣可采用非線性激活函數(shù)將其映射到輸出層,表達式和輸入層類似,輸出的是卷積神經(jīng)網(wǎng)絡(luò)訓練得出的特征向量。
為了求出網(wǎng)絡(luò)參數(shù)的最優(yōu)解,可以最小化損失函數(shù),公式如下:
式(4)中的第一項表示所有n個訓練樣本的重建誤差,通過計算p和p-j兩個分布之間的KL距離強制系數(shù)約束。這里p是指隱藏單元的目標激活函數(shù),p= 1n∑n-i=1[h-j]-i 是所有示例中j個隱藏節(jié)點的平均激活函數(shù),[h-j]-i是第i個示例中第j個隱藏節(jié)點的激活函數(shù)。為了提高泛化能力、減少過度擬合,可以采取一些解決方案。例如,可以將權(quán)重衰減懲罰項加入到損失函數(shù)中,也可采用類似去噪自編碼器在輸入中加入噪聲,或者使用舍棄法[15]。
本文使用舍棄方法優(yōu)化網(wǎng)絡(luò)模型,該方法的主要思想是,在訓練中刪除一部分隱藏節(jié)點,即將某節(jié)點直接從網(wǎng)絡(luò)中移除。節(jié)點選擇一般是隨機的,剩下節(jié)點將被組成一個規(guī)模更小的網(wǎng)絡(luò)。例如,對于上述稀疏自編碼器,舍棄方法如下:
其中*代表矩陣點積,r是伯努利獨立分布向量。Bernoulli為伯努利分布,p一般設(shè)置為0.5。在測試時,權(quán)重被設(shè)置為pW,并且網(wǎng)絡(luò)中不包含被舍棄的節(jié)點。
為了優(yōu)化式(6)中的損失函數(shù),首先初始化常數(shù)向量θ為非常接近于0的實數(shù)。然后可以使用一種被稱為L-BFGS的二階優(yōu)化方法,它是基于BFGS更新過程的準牛頓法。為了減少參數(shù)數(shù)量,可以共享編碼層與解碼層的權(quán)值,即W(d)=W(e)T。
值得注意的是,可以建立更多隱藏層組成一個深度學習框架,這里幾個AE組成的深度學習框架被稱作棧式稀疏自編碼器。與其它深度網(wǎng)絡(luò)相同,學習到的特征可作為輸入送到類似支持向量機的線性分類器中,或者在隱藏層的頂部添加logistic回歸層進行多分類任務(wù)。由于本文工作為圖像跟蹤,所以不加入分類模型,而是與后續(xù)跟蹤算法結(jié)合,達到目標跟蹤的目的。
2 目標跟蹤方法
2.1 MeanShift目標跟蹤
2.2 目標運動估計
卡爾曼濾波是一種利用線性系統(tǒng)方程,通過系統(tǒng)輸入輸出觀測,對目標狀態(tài)序列作最小方差估計的方法。由于其并不會消耗太大的計算量,所以能達到實時計算的效果。本文使用卡爾曼濾波改進目標跟蹤,達到對目標運動的估計??柭鼮V波線性系統(tǒng)方程分別如式(13)和式(14)所示:
在Meanshift目標跟蹤方法中,巴氏系數(shù)會評估目標和模型相似性。當跟蹤目標被其它物體或背景堵塞時,巴氏系數(shù)會動態(tài)降低。因此,通過定義T-h判定是否有堵塞發(fā)生。
根據(jù)巴氏系數(shù),卡爾曼濾波系統(tǒng)能夠自動估計目標中心位置。具體算法流程如下:
T是一個很大的常數(shù),所以卡爾曼濾波的后驗估計約等于其預(yù)測值,并且λ∈[0,1]為遺忘因子。λ越小,則σ2-1(t-1)和σ2-2(t)更新越快。
結(jié)合深度神經(jīng)網(wǎng)絡(luò)特征提取,本文算法步驟如圖4所示,首先離線訓練卷積神經(jīng)網(wǎng)絡(luò),對數(shù)據(jù)集進行預(yù)訓練,然后利用稀疏自編碼器對得到的特征進行無監(jiān)督學習,最后利用提取的特征對目標進行描述。利用該特征向量,使用卡爾曼濾波改進的Meanshift算法對目標進行跟蹤定位。
3 實驗結(jié)果及分析
為驗證本文算法有效性,使用VOC2010數(shù)據(jù)集作為離線訓練樣本集,為了與MIL[16]、VTD[17]、IVT[18]3種算法進行比較,將所有訓練圖像預(yù)先轉(zhuǎn)換成灰度圖,模板大小為32×32。實驗環(huán)境:CPU為Intel Core-i7 2630QM 2GHz的PC機,內(nèi)存16GB;顯存為2G;軟件環(huán)境為VC2015+OpenCV3.0。
實驗首先對數(shù)據(jù)集進行特征提取,首先使用卷積神經(jīng)網(wǎng)絡(luò)對視頻流進行有標注訓練,得到特征如圖5第一部分所示。由于特征量仍然較大,所以本文提出采用稀疏自編碼器對其進行稀疏化,以減小后續(xù)目標運動估計算法的計算量。
目標運動估計方面分別從遮擋時跟蹤效果、跟蹤誤差平均值以及算法效率3方面與其它跟蹤算法進行比較。由于傳統(tǒng)的Meanshift算法采用顏色直方圖方式描述目標模型,而本文算法采用深度神經(jīng)網(wǎng)絡(luò)提取目標特征,所以本文算法對目標跟蹤有一定精確度。在遮擋方面,由于本文使用的是線下特征訓練方法,對于遮擋問題有一定缺陷,所以結(jié)合了卡爾曼濾波方法,對目標位置進行預(yù)估,使遮擋時的跟蹤效果有顯著提高。當物體與運動速度過快時,也能有效地預(yù)測出位置。
實驗效果如圖6所示(見封二彩圖),本文選用幾個常用的跟蹤算法與本文算法作比較,可明顯看出本文算法精確度較高。在跟蹤過程中,由于特征豐富,所以無論形變還是旋轉(zhuǎn)都不會影響算法跟蹤效果。遮擋方面,雖然加入了卡爾曼濾波,由于本模型沒有加入在線更新,所以對于遮擋的目標運動估計仍有所欠缺,但是加入在線更新的算法后由于計算量增加會使幀率有所下降,所以本文算法是一種折中。
表1中對幾種跟蹤算法進行比較,本文算法跟蹤其中某些視頻序列的成功率較高,平均值相比于其它算法也具有一定優(yōu)勢。本文算法的視頻跟蹤速度穩(wěn)定在大約12fps,符合一般實時視頻跟蹤要求。
本文選取5個視頻序列進行跟蹤分析,分別為:公路路況、直升機、士兵、賽車、老虎。由于每個視頻序列的幀數(shù)不同,所以本文平均截取每個視頻序列中的7幅圖進行展示。首先在路況跟蹤方面,路況是生活中最為常見的一種場景,在行車記錄、高速公路監(jiān)控等領(lǐng)域有著廣泛應(yīng)用。本文對前方行車的跟蹤過程中,視頻序列最開始由于變化較小,所以各個算法都非常穩(wěn)定;隨著路況變得復(fù)雜,視頻序列中出現(xiàn)模糊,導致特征單一類的算法出現(xiàn)跟蹤失敗,而特征豐富與在線學習類算法跟蹤效果良好;在跟蹤最后階段,路況回穩(wěn),特征單一算法跟蹤丟失,本文算法跟蹤效果回穩(wěn)。
其次,直升機視頻序列的特點是背景穩(wěn)定,但是目標特征變化較大,所以對特征模板在線更新度要求較高。在視頻序列開始所有算法表現(xiàn)良好,跟蹤穩(wěn)定;隨著直升機目標遠離,基于顏色模型的算法跟蹤失敗,本文算法表現(xiàn)良好;在視頻序列最后,直升機目標幾乎消失在視頻序列中,所有算法誤差率都較大。
士兵序列在本文中跟蹤難度最高,因為士兵特征幾乎與背景相同,所以需要建立復(fù)雜的目標模型才能對其進行跟蹤。在視頻序列前半部分,由于本文算法使用深度神經(jīng)網(wǎng)絡(luò)提取了大量特征,對目標模型的描述非常豐富,所以表現(xiàn)良好,其它算法的誤差都慢慢升高。隨著目標逐漸凸顯,部分算法出現(xiàn)回穩(wěn)。
賽車視頻序列中,目標顏色模型與背景相似,并且有尺度變化,所以單一顏色模型無法很好地進行運動估計。在視頻前半部分,各算法表現(xiàn)良好,隨著賽車的角度變化,使用顏色模型的算法誤差增加,隨后跟蹤失敗。由于本文算法相當于提取了顏色、尺度等多種類型特征,所以跟蹤效果良好。
最后老虎視頻序列由于存在遮擋情況,預(yù)測效果較差的算法無法持續(xù)進行跟蹤,在遮擋部分會失敗。本文算法提取了豐富的目標特征,并且加入了卡爾曼濾波進行預(yù)測補償,在遮擋剛剛開始時跟蹤穩(wěn)定,但在目標幾乎完全被遮擋時中心點誤差急劇增大,導致跟蹤失敗。
通過上述分析可以得出,本文算法由于使用了深度特征提取方式,所以對目標模型的描述極其豐富,對目標的旋轉(zhuǎn)、縮放、平移、光照變化、仿射變換等狀況跟蹤都很穩(wěn)定,并且在特征提取后使用稀疏自動編碼器對特征向量進行壓縮,相對于其它深度特征提取模型其幀率更高。由于本文為線下訓練方式,沒有良好的在線更新,所以在跟蹤算法中加入了卡爾曼濾波,可以對目標運動進行預(yù)測,保證不會跟蹤丟失。在同一平臺上本文算法對與另外3種跟蹤算法進行比較,如表1所示,其中前面數(shù)字代表成功率,后面數(shù)字代表中心點誤差。
4 結(jié)語
本文提出CNN-AE方法對圖像進行特征提取,并采用卡爾曼濾波的Meanshift視頻運動目標跟蹤算法對目標運動進行估計。與傳統(tǒng)算法相比,該算法具有明顯優(yōu)勢。首先,由于深度神經(jīng)網(wǎng)絡(luò)運算量較大,目標跟蹤又對實時性要求較高,所以選擇較小的數(shù)據(jù)庫進行特征提??;然后使用卷積神經(jīng)網(wǎng)絡(luò)自動提取目標模型特征,取代了傳統(tǒng)手工提取特征的方法,大大降低了開發(fā)周期;最后使用將兩種傳統(tǒng)目標跟蹤算法相結(jié)合的方式對模型進行跟蹤定位,兩種算法具有各自的優(yōu)勢,并且速度都很快,但由于以往模型不夠準確,所以精度不高。在結(jié)合深度提取特征之后,該跟蹤方法的跟蹤精度得到顯著提升。實驗結(jié)果表明,該算法可以進行目標跟蹤定位,且具有較好的魯棒性。但深度神經(jīng)網(wǎng)絡(luò)的引入增加了算法復(fù)雜性,若減少數(shù)據(jù)量又會降低精度,所以今后需對算法作進一步優(yōu)化,使算法更加簡潔,并增強實時性。
參考文獻:
[1] LOWE D G, LOWE D G. Distinctive image features from scale-invariant keypoints[J]. International Journal of Computer Vision, 2004,60(2):91-110.
[2] ZHOU H, YUAN Y, SHI C. Object tracking using SIFT features and mean shift[J]. Computer Vision & Image Understanding, 2009,113(3):345-352.
[3] CHEN Y N, HAN C C, WANG C T, et al. A CNN-based face detector with a simple feature map and a coarse-to-fine classifier- withdrawn[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2009,99:1.
[4] 杜昌順,黃磊.分段卷積神經(jīng)網(wǎng)絡(luò)在文本情感分析中的應(yīng)用[J].計算機工程與科學,2017,39(1):173-179.
[5] 張晴晴,劉勇,潘接林,等.基于卷積神經(jīng)網(wǎng)絡(luò)的連續(xù)語音識別[J].北京科技大學學報,2015,37(9):1212-1217.
[6] 馮鑫,李川,胡開群.基于深度玻爾茲曼模型的紅外與可見光圖像融合[J].物理學報,2014,63(18):211-219.
[7] HANEBECK U D. Template matching using fast normalized cross correlation[C].Aerospace/Defense Sensing, Simulation, and Controls. International Society for Optics and Photonics, 2001:95-102.
[8] CHANG F L, LIU X. Target tracking algorithm based on meanshift and Kalmanfilter[J]. Computer Engineering & Applications, 2007,43(12):50-52.
[9] SALHI A. Object tracking system usingcamshift, meanshift and Kalmanfilter[J]. World Academy of Science Engineering & Technology, 2012,6:674.
[10] JIAN S. A fast meanshift algorithm-based target tracking system[J]. Sensors, 2012,12(6):8218.
[11] KALAL Z, MIKOLAJCZYK K, MATAS J. Tracking-learning-detection[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2012,34(7):1409.
[12] 高文,湯洋,朱明.目標跟蹤中目標模型更新問題的半監(jiān)督學習算法研究[J].物理學報,2015,64(1):105-113.
[13] LI H, LI Y, PORIKLI F. Deeptrack: learning discriminative feature representations online for robust visual tracking[J]. IEEE Transactions on Image Processing, 2016,25(4):1834-1848.
[14] 田猛,路成,周健,等.聯(lián)合模板先驗概率和稀疏表示的目標跟蹤[J].中國圖象圖形學報,2016,21(11):1455-1463.
[15] VINCENT P, LAROCHELLE H, LAJOIE I, et al. Stacked denoisingautoencoders: learning useful representations in a deep network with a local denoisingcriterion[J]. Journal of Machine Learning Research, 2010,11(12):3371-3408.
[16] BABENKO B, YANG M H, BELONGIE S. Robust object tracking with online multiple instance learning[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2011,33(8):1619-32.
[17] KWON J, LEE K M. Visual tracking decomposition[J]. Computer Vision and Pattern Recognition. IEEE, 2010:1269-1276.
[18] ROSS D A, LIM J, LIN R S, et al. Incremental learning for robust visual tracking[J]. International Journal of Computer Vision, 2008,77(1-3):125-141.
(責任編輯:黃 ?。?/p>