張永梅,呂衛(wèi)豐,馬健喆
(1.北方工業(yè)大學(xué) 計(jì)算機(jī)學(xué)院,北京 100144;2.北京華龍通科技有限公司,北京 100083)
近年來,深度學(xué)習(xí)在計(jì)算機(jī)視覺領(lǐng)域取得了巨大成功,在目標(biāo)跟蹤領(lǐng)域,越來越多學(xué)者對深度學(xué)習(xí)類目標(biāo)跟蹤算法進(jìn)行了研究[1]。Chao M等[2]使用多層深度特征由粗至細(xì)定位目標(biāo),取得了良好的跟蹤效果,但由于多次定位目標(biāo)導(dǎo)致跟蹤速度慢,GPU(graphics processing unit)速度為7.2幀/s,無法適應(yīng)尺度變化。Lijun W等[3]通過構(gòu)建雙分支網(wǎng)絡(luò)來判定目標(biāo)位置和尺度,實(shí)現(xiàn)了良好的尺度自適應(yīng)跟蹤,但GPU速度僅為3幀/s。Seunghoon H等[4]將卷積神經(jīng)網(wǎng)絡(luò)與支持向量機(jī)相結(jié)合進(jìn)行跟蹤(CNN-SVM),利用卷積特征對目標(biāo)進(jìn)行判別,由于SVM的分類能力不強(qiáng),導(dǎo)致該算法跟蹤精度較低。這些深度學(xué)習(xí)跟蹤方法雖然都有較好的跟蹤精度,但是由于純深度學(xué)習(xí)方法自身計(jì)算量大的缺陷,這些算法無法達(dá)到實(shí)時(shí)效果。與之相比,傳統(tǒng)相關(guān)濾波算法在速度方面存在巨大優(yōu)勢,但是相關(guān)濾波算法精度對特征好壞存在很大依賴性,Henriques等提出基于HOG特征的核相關(guān)濾波器算法[5],跟蹤速度非???,但精度較差。
針對現(xiàn)有深度學(xué)習(xí)跟蹤方法速度較慢和傳統(tǒng)特征相關(guān)濾波算法精度較差的問題,本文提出一種有效的海上目標(biāo)跟蹤算法。以VGG-NET-16框架為基礎(chǔ),在其內(nèi)部結(jié)構(gòu)中加入卷積融合模塊,對各層卷積特征進(jìn)行深度融合,與相關(guān)濾波相結(jié)合,并在模型中融入尺度判別器,實(shí)現(xiàn)尺度自適應(yīng)跟蹤,在公開數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果達(dá)到81.5%的跟蹤準(zhǔn)確率,以及26幀/s的跟蹤速度,是一種綜合性能良好的深度學(xué)習(xí)跟蹤算法。
由于基于相關(guān)濾波器的目標(biāo)跟蹤算法具有較好的處理速度和魯棒性,引起了相關(guān)學(xué)者的廣泛關(guān)注。相關(guān)濾波算法通過密集采樣和頻域變換策略訓(xùn)練濾波器,計(jì)算當(dāng)前搜索框中目標(biāo)最大響應(yīng)值,以確定跟蹤目標(biāo)的位置[6]。
相關(guān)濾波算法的輸入為xM×N×D,x表示提取的特征,其中M和N表示特征大小,D表示空間維度[7]。相關(guān)濾波算法通過矩陣數(shù)據(jù)可循環(huán)偏移計(jì)算的特性,產(chǎn)生大量樣本用于濾波器訓(xùn)練,產(chǎn)生的樣本xmn∈{0,1,…,M-1}×{0,1,…,N-1},其中m和n表示樣本偏移量。高斯標(biāo)簽函數(shù)表達(dá)式為
(1)
σ為高斯核的大小。相關(guān)濾波算法的最優(yōu)化問題是使回歸函數(shù)f(x)的平方誤差最小,f(x)=ωtx,ωt為濾波器第t幀的參數(shù)[8],即
(2)
通過Fourier變換對式(2)進(jìn)行求解,得到第d維特征的濾波器參數(shù)為[8]
(3)
(4)
隨著高性能計(jì)算設(shè)備的快速發(fā)展,出現(xiàn)了越來越多的深層神經(jīng)網(wǎng)絡(luò)架構(gòu),如AlexNet、ResNet、VGG-Net等,這些深層架構(gòu)模型可實(shí)現(xiàn)端到端的特征提取與識別,性能遠(yuǎn)好于傳統(tǒng)識別算法。
卷積層是深層神經(jīng)網(wǎng)絡(luò)架構(gòu)的核心,研究結(jié)果表明,在深層神經(jīng)網(wǎng)絡(luò)中的每個(gè)卷積層所提取的特征都擁有區(qū)別于其它層的特征表達(dá)。
VGG-Net是牛津大學(xué)計(jì)算機(jī)視覺組和Google DeepMind公司的研究員一起研發(fā)的深度卷積神經(jīng)網(wǎng)絡(luò)。VGGNet通過反復(fù)堆疊3x3的小型卷積核和2x2的最大池化層,構(gòu)筑了16~19層深的神經(jīng)網(wǎng)絡(luò)。在錯(cuò)誤率大大降低的同時(shí)擴(kuò)展性很強(qiáng),遷移到其它圖像數(shù)據(jù)上的泛化能力很好,而且結(jié)構(gòu)簡單。
本文以VGG-NET-16為例,VGG-NET模型以順序結(jié)構(gòu)進(jìn)行架構(gòu),共5個(gè)卷積層模塊,3個(gè)全連接層組成[9]。圖1 為VGG-NET-16網(wǎng)絡(luò)架構(gòu)。
圖1 VGG-NET-16網(wǎng)絡(luò)架構(gòu)
圖2為在ImageNet數(shù)據(jù)集上預(yù)訓(xùn)練的VGG-NET-16模型不同卷積層的特征可視化表示,與原圖像進(jìn)行比較可以看到,低層卷積特征1-2、2-2、3-3具有目標(biāo)完整的輪廓等細(xì)節(jié)表示,高層特征4-3、5-3包含更多的語義信息,可明顯看出目標(biāo)所在位置。因此,為了將多層卷積特征的特性用于目標(biāo)跟蹤[10],本文改進(jìn)VGG-NET-16模型結(jié)構(gòu),對多層卷積特征進(jìn)行深度融合,并取得了較好的跟蹤效果。
圖2 VGG-16各層卷積特征
目前基于相關(guān)濾波器的目標(biāo)跟蹤算法主要基于手工設(shè)計(jì)特征。深度卷積網(wǎng)絡(luò)(convolutional neural network,CNN)在目標(biāo)檢測和識別領(lǐng)域取得了巨大成功,越來越多的研究者開始將卷積特征應(yīng)用于目標(biāo)跟蹤。卷積網(wǎng)絡(luò)特征具有提取簡單、特征豐富、泛化能力強(qiáng)等優(yōu)點(diǎn),但也存在明顯不足,如特征維度較高、特征之間存在大量冗余、信噪比低等。為了有利于解決以上問題,本文提出一種基于卷積神經(jīng)網(wǎng)絡(luò)特征深度融合的多尺度相關(guān)濾波海上目標(biāo)跟蹤算法。
深度網(wǎng)絡(luò)中不同卷積層特征具有不同的語義表達(dá),這一優(yōu)勢使得多層卷積特征融合具有重要意義。利用多層卷積特征進(jìn)行跟蹤,已有相關(guān)學(xué)者取得一定成果,但是現(xiàn)有成果并未在深度網(wǎng)絡(luò)內(nèi)部進(jìn)行融合,而是將多層特征輸出進(jìn)行人工線性加權(quán)融合,該方式跟蹤的計(jì)算量巨大且存在冗余特征,導(dǎo)致跟蹤速度很慢。針對多層融合的優(yōu)勢和現(xiàn)有融合方式存在的問題,本文提出一種網(wǎng)絡(luò)內(nèi)部多層融合的網(wǎng)絡(luò)結(jié)構(gòu),如圖3所示。
圖3 多層特征融合結(jié)構(gòu)設(shè)計(jì)
根據(jù)VGG-NET-16多層卷積特征可視化分析,本文選取第3-3層、4-3層、5-3層卷積作為融合特征的基礎(chǔ)特征。本文網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)以VGG-NET-16為基礎(chǔ),并在原有結(jié)構(gòu)中加入圖3虛線框中所示部分的特征融合結(jié)構(gòu),其中包括Pooling、Upscale、Concatenation和Convf結(jié)構(gòu)。
對于Pooling和Upscale結(jié)構(gòu),在VGG-NET-16中Conv3_3、Conv4_3和Conv5_3輸出的特征圖大小分別為輸入圖像大小的1/4、1/8、1/16,對此3層特征進(jìn)行融合,必須使得3層卷積特征的尺度保持一致,因此,Conv3_3和Conv5_3特征圖需要降維和升維。本文對 Conv3_3輸出的特征圖加入Max pooling結(jié)構(gòu),Max pooling結(jié)構(gòu)可將Conv3_3特征圖的尺度降維至輸入圖像的1/8;對Conv5_3特征圖的Upscale結(jié)構(gòu),傳統(tǒng)上采樣算法多是采用插值算法,但插值算法效果較為粗糙,為使上采樣的效果更為精細(xì),本文使用2×2的Deconv層來實(shí)現(xiàn)上采樣的效果,將Conv5_3特征圖的尺度變?yōu)樵瓐D像的1/8。
考慮Concatenation和Convf結(jié)構(gòu),Concatenation層將尺度一致的卷積特征以連接的方式構(gòu)建為新的多通道特征;Convf層為卷積核大小1×1的卷積層,以三層卷積特征構(gòu)建的多通道特征存在冗余信息,1×1的卷積核可對Concatenation層產(chǎn)生的冗余特征進(jìn)行降維。
本文特征融合模塊可實(shí)現(xiàn)多層特征的快速融合與降維,得到冗余信息更少的綜合特征。由于遷移學(xué)習(xí)利用已有的知識來學(xué)習(xí)新知識,核心是找到已有知識和新知識之間的關(guān)系進(jìn)行建模。根據(jù)已有研究,遷移學(xué)習(xí)有利于模型參數(shù)的快速收斂,而且能夠提高模型的泛化能力。本文結(jié)合遷移學(xué)習(xí)的思想,使用預(yù)訓(xùn)練的VGG-NET-16模型參數(shù)對除融合模塊之外的模型參數(shù)進(jìn)行初始化,并固定此部分參數(shù),僅對融合模塊參數(shù)進(jìn)行訓(xùn)練。完整的深度卷積融合網(wǎng)絡(luò)架構(gòu)見表1。
表1 深度卷積融合網(wǎng)絡(luò)模型
在網(wǎng)絡(luò)架構(gòu)中,融合模塊的Convf層特征融合了Conv3_3、Conv4_3和Conv5_3的特征,使Convf層特征能夠進(jìn)行更好的語義表達(dá),因此,本文以Convf層特征為基礎(chǔ)構(gòu)建目標(biāo)定位濾波器。
在目標(biāo)跟蹤過程中,對于第t幀圖像,利用本文所設(shè)計(jì)的深度網(wǎng)絡(luò)模型對目標(biāo)搜索區(qū)域進(jìn)行特征提取,得到Convf層的卷積特征圖,將特征圖矩陣帶入式(4)的濾波器中,可以得到目標(biāo)區(qū)域在Convf層的相關(guān)響應(yīng)圖
(5)
在響應(yīng)圖矩陣fConvf中,最大數(shù)值所在位置的矩陣下標(biāo)即為當(dāng)前跟蹤目標(biāo)的中心位置pt=(xt,yt)
然而早上7點(diǎn),瑪麗的父母卻發(fā)現(xiàn)孩子倒在衛(wèi)生間里,已經(jīng)停止了呼吸。醫(yī)生對悲傷的父母說,瑪麗可能是倒下時(shí)頭部受到撞擊,導(dǎo)致猝死。
pt=(xt,yt)=argmaxfConvf
(6)
在目標(biāo)跟蹤中,尺度自適應(yīng)對跟蹤效果至關(guān)重要,如果跟蹤框大于目標(biāo)尺度,則會引入背景干擾,相反,跟蹤框小于目標(biāo)尺度,則會丟失目標(biāo)信息。本文利用基于深度卷積融合網(wǎng)絡(luò)的定位濾波器獲取目標(biāo)位置后,通過建立獨(dú)立于定位濾波器的尺度濾波器對目標(biāo)尺度進(jìn)行判別。
由于本文共設(shè)置33個(gè)尺度,尺度金字塔特征的提取需要較多運(yùn)算,為實(shí)現(xiàn)快速尺度判別,本文選用方向梯度直方圖(histogram of oriented gradient,HOG)特征作為尺度濾波器的判別特征。HOG特征不僅具有良好的特征表征能力,而且計(jì)算復(fù)雜度低,有利于實(shí)現(xiàn)快速尺度估計(jì)。
圖4 多尺度金字塔采樣
因此,在跟蹤第t幀圖像的目標(biāo)時(shí),按尺度等級對目標(biāo)區(qū)域進(jìn)行采樣,提取第t幀目標(biāo)的多尺度HOG特征Hs(t),結(jié)合相關(guān)濾波算法計(jì)算各尺度的響應(yīng)值fs
(7)
fs中最大的響應(yīng)值所代表的尺度,即為當(dāng)前目標(biāo)的最優(yōu)尺度估計(jì)。
在目標(biāo)跟蹤過程中,隨著時(shí)間的推移,目標(biāo)可能出現(xiàn)形變、旋轉(zhuǎn)等變化,而且可能受到光照、背景等條件的干擾,為了適應(yīng)多種條件下的目標(biāo)變化,需要對濾波參數(shù)進(jìn)行實(shí)時(shí)更新。本文雙濾波器的參數(shù)更新策略為
(8)
(9)
(10)
η為模板學(xué)習(xí)率,經(jīng)過實(shí)驗(yàn)發(fā)現(xiàn),初始幀的目標(biāo)模板最為可靠,將當(dāng)前幀的權(quán)重設(shè)置偏小時(shí),可有效適應(yīng)目標(biāo)的變化。
本文算法示意圖及具體步驟分別如圖5和表2所示。
圖5 本文跟蹤算法
表2 本文跟蹤算法具體步驟
64G內(nèi)存,Windows7操作系統(tǒng),MATLAB 2016a實(shí)驗(yàn)平臺環(huán)境下,采用Matconvnet框架和C++混合編程實(shí)現(xiàn)本文算法,并利用GPU提高運(yùn)算速度。
離線訓(xùn)練時(shí),為了提高深度融合卷積特征表示的泛化能力和判別能力,同時(shí)避免模型過度擬合,本文采用遷移學(xué)習(xí)思想,使用預(yù)訓(xùn)練的VGG-NET-16模型參數(shù)初始化本文網(wǎng)絡(luò)模型的部分參數(shù)并固定,同時(shí)以Pascal VOC 2007數(shù)據(jù)集對本文網(wǎng)絡(luò)模型進(jìn)行預(yù)訓(xùn)練。Pascal VOC 2007數(shù)據(jù)集為圖像識別和分類提供了一整套標(biāo)準(zhǔn)化優(yōu)秀數(shù)據(jù)集,包含9963幅帶標(biāo)注的圖像,廣泛用于目標(biāo)識別與跟蹤的模型訓(xùn)練,可有效提高模型的泛化能力。
線上目標(biāo)跟蹤時(shí),將預(yù)訓(xùn)練網(wǎng)絡(luò)的Convf層的輸出作為跟蹤特征表示,定位濾波器和尺度濾波器經(jīng)過多次實(shí)驗(yàn)得到的最優(yōu)參數(shù)設(shè)置為學(xué)習(xí)率η=0.01,正則化因子λ=10-4,高斯核σ=0.1,尺度因子S=1.02,采樣個(gè)數(shù)L=33,且保持參數(shù)不變。
在圖6中,跟蹤的目標(biāo)與浪花融為一體,而且目標(biāo)尺度不斷變大。圖7中,海上移動目標(biāo)所處的背景存在相同類型船只的干擾,而且目標(biāo)尺度在不斷變化。在圖6、圖7中跟蹤框所示的本文算法的跟蹤效果良好,能夠自適應(yīng)目標(biāo)尺度變化,排除相似目標(biāo)的干擾,性能穩(wěn)定。
圖6 海上目標(biāo)跟蹤實(shí)驗(yàn)一
圖7 海上目標(biāo)跟蹤實(shí)驗(yàn)二
為了充分驗(yàn)證本文跟蹤算法的性能,對OTB2015跟蹤數(shù)據(jù)集[12]進(jìn)行測試分析,選用此數(shù)據(jù)集中的50個(gè)視頻序列,包含illumination variation(IV)、out-of-plane rotation(OPR)、scale variation(SV)、occlusion(OCC)、deformation(DEF)、motion blur(MB)、fast motion(FM)、in-plane rotation(IPR)、out of view(OV)、background clutter(BC)、low resolution(LR)[12]11種復(fù)雜跟蹤環(huán)境,利用這11種屬性可以從光照、變形、快速變化等方面充分評價(jià)算法性能。
對于模型跟蹤效果的定量分析,本文采用一次跟蹤通過評估(one-pass evaluation,OPE)的平均跟蹤成功率和平均跟蹤精確率兩個(gè)指標(biāo)進(jìn)行定量分析。OPE是指從視頻序列第一幀到最后一幀一次跟蹤完成;跟蹤成功是指當(dāng)算法預(yù)測跟蹤框與目標(biāo)跟蹤框的重合率大于0.5,表示跟蹤成功。跟蹤成功率是指跟蹤成功幀數(shù)與視頻序列總幀數(shù)的比值。跟蹤精確率是指中心位置誤差小于給定閾值時(shí),跟蹤成功幀數(shù)與視頻序列總幀數(shù)的比值。
為驗(yàn)證本文的深度卷積融合網(wǎng)絡(luò)對卷積特征融合的有效性,本文以單層特征和人工線性融合多層特征設(shè)置了3組自對比實(shí)驗(yàn),見表3。
表3 自對比實(shí)驗(yàn)成功率與精確率
在表3中,Conv5_3和Conv4_3表示以Conv5_3和Conv4_3單層特征進(jìn)行跟蹤的結(jié)果,Conv5_3+Conv4_3表示人工線性融合Conv5_3和Conv4_3層特征的跟蹤結(jié)果,convf為本文深度卷積融合網(wǎng)絡(luò)Convf層融合特征的跟蹤結(jié)果。從表中可以看到,本文深度卷積融合網(wǎng)絡(luò)所得到的特征的跟蹤精確率和成功率明顯好于其它特征,Conv5_3+Conv4_3雖然進(jìn)行了多層特征融合,但人工線性融合受主觀經(jīng)驗(yàn)因素影響較大,無法高效發(fā)揮多層特征的特性。
為進(jìn)一步分析本文深度卷積融合的有效性,選取多種算法進(jìn)行對比實(shí)驗(yàn),對比算法包括全卷積網(wǎng)絡(luò)跟蹤算法(FCNT)、多層卷積線性融合相關(guān)濾波跟蹤算法(HCF)、卷積神經(jīng)網(wǎng)絡(luò)-支持向量機(jī)跟蹤算法(CNN-SVM)、順序訓(xùn)練卷積網(wǎng)絡(luò)跟蹤算法(STCT)[13]、自適應(yīng)尺度跟蹤算法(SAMF)[14],在這些算法中,F(xiàn)CNT、HCF、CNN-SVM、STCT是與深度學(xué)習(xí)有關(guān)的算法,F(xiàn)CNT和SAMF可以適應(yīng)尺度變化。這些算法對比實(shí)驗(yàn)結(jié)果數(shù)據(jù)均由原論文提供。
圖8、圖9表示包括本文算法在內(nèi)的6種算法對于OTB2015(object tracking benchmark 2015)公開測試集的50組視頻序列的平均精確率曲線和平均成功率曲線,圖9中橫軸為重合率閾值,數(shù)字為曲線下方的面積,代表跟蹤的總體性能,可以看出本文算法的性能最好為0.616,比同樣基于多層卷積特征融合的HCF算法提高了6.5%,在HCF算法中僅對多層卷積特征線性相加,無法充分利用各層特征的特性,而且存在特征冗余,本文方法將特征融合融入了深度網(wǎng)絡(luò)的結(jié)構(gòu)中,充分融合各層特征的特性,取得了更好的跟蹤效果。對于跟蹤精度,圖8中橫軸為中心位置誤差,可以看到在誤差為8到20個(gè)像素之間時(shí),本文算法的精確率曲線明顯優(yōu)于其它算法,這表明本文算法預(yù)測的目標(biāo)位置距離真實(shí)目標(biāo)位置更近,可用于精度較高的目標(biāo)跟蹤,綜合精度為0.815。
圖8 6種算法跟蹤精確率曲線
圖9 6種算法跟蹤成功率曲線
為了分析本文跟蹤算法在不同跟蹤環(huán)境下的跟蹤性能,表4、表5分別為多種算法在OTB2015數(shù)據(jù)集的11種復(fù)雜跟蹤環(huán)境視頻下的跟蹤成功率和精確率,其中第一列為11種屬性的縮寫,括號內(nèi)為該屬性下包含的視頻個(gè)數(shù),第一行為6種算法的縮寫,加粗表示性能最優(yōu),下劃線表示性能次優(yōu)。
由表4、表5可以看到,在OTB 2015數(shù)據(jù)集的跟蹤實(shí)驗(yàn)中,本文算法的跟蹤成功率和精確率在IV、OPR、SV等9種復(fù)雜環(huán)境中優(yōu)于其它5種算法,具有良好的跟蹤穩(wěn)定性。其中,在尺度變化(SV)環(huán)境下,相比于SAMF算法的7個(gè)尺度,本文算法同時(shí)檢測33個(gè)尺度,具有更為精細(xì)的尺度判別;對于運(yùn)動模糊(MB)環(huán)境的次優(yōu)性能,本文算法以0.01的學(xué)習(xí)率更新濾波跟蹤參數(shù),當(dāng)目標(biāo)多次發(fā)生運(yùn)動模糊后,濾波參數(shù)偏移過大導(dǎo)致跟蹤性能有所減弱;在out of view(OV)類的序列中,本文效果略差,對于目標(biāo)離開視頻窗口時(shí),本文算法缺乏重檢測機(jī)制。
表4 6種算法在11種屬性跟蹤視頻的跟蹤精確率
表5 6種算法在11種屬性跟蹤視頻的跟蹤成功率
跟蹤速度對評價(jià)跟蹤算法的優(yōu)劣至關(guān)重要,表6給出了本文算法與對比算法的跟蹤速度。表6中基于深度學(xué)習(xí)算法運(yùn)行平臺為GPU,可以看到,本文跟蹤速率可達(dá)到26幀/秒,比其它深度學(xué)習(xí)算法明顯提升。
表6 6種算法在OTB2015數(shù)據(jù)集的平均跟蹤速度
本文提出一種有效的海上目標(biāo)跟蹤算法,在現(xiàn)有多層特征網(wǎng)絡(luò)的基礎(chǔ)上,加入上下采樣和1×1卷積核結(jié)構(gòu),重新設(shè)計(jì)深度網(wǎng)絡(luò)模型結(jié)構(gòu),實(shí)現(xiàn)了對多層特征的深度融合,提高了特征表征能力,并用于相關(guān)濾波器算法跟蹤過程中的目標(biāo)定位。對于尺度變化問題,本文使用HOG特征構(gòu)建尺度濾波器,對目標(biāo)尺度進(jìn)行判別。實(shí)驗(yàn)結(jié)果表明,本文算法跟蹤精度高,對目標(biāo)尺度可有效判別,而且跟蹤速度較快。本文算法對于目標(biāo)消失重現(xiàn)的場景下,不能有效跟蹤,缺乏對重現(xiàn)目標(biāo)的重檢測機(jī)制。因此,如何檢測消失目標(biāo),提高算法穩(wěn)定性,將是下一步的研究工作。