何志偉 聶佳浩 杜晨杰* 高明煜 董哲康
①(杭州電子科技大學(xué)電子信息學(xué)院 杭州 310018)
②(浙江省裝備電子研究重點(diǎn)實(shí)驗(yàn)室 杭州 310018)
③(香港理工大學(xué)電機(jī)工程系 香港 999077)
視覺(jué)目標(biāo)跟蹤一直是人工智能和計(jì)算機(jī)視覺(jué)領(lǐng)域的一項(xiàng)基本而富有挑戰(zhàn)性的任務(wù)。近年來(lái),視覺(jué)目標(biāo)跟蹤正廣泛應(yīng)用于智能視頻監(jiān)控、無(wú)人機(jī)、機(jī)器人等[1]。然而,由于各種挑戰(zhàn),例如目標(biāo)被遮擋、尺度變化及背景雜亂等[2],如何實(shí)現(xiàn)實(shí)時(shí)、準(zhǔn)確的目標(biāo)跟蹤算法成為研究的熱點(diǎn)和難點(diǎn)。
目標(biāo)跟蹤的核心問(wèn)題在于從復(fù)雜的背景區(qū)分出前景目標(biāo),僅給定第1幀中任意目標(biāo)的位置,跟蹤器旨在后續(xù)幀成功區(qū)分并定位該目標(biāo)[3]。近幾年,基于相似性判別的相關(guān)濾波類跟蹤器[4–7]受到研究人員的廣泛關(guān)注。以KCF (Kernel Correlation Filter)[4]為代表的傳統(tǒng)相關(guān)濾波跟蹤器[4–6]利用手工制作的特征比較跟蹤目標(biāo)和搜索區(qū)域之間的相關(guān)性,相關(guān)性最大的區(qū)域即待跟蹤目標(biāo),并采用在線更新模板機(jī)制來(lái)應(yīng)對(duì)復(fù)雜場(chǎng)景的變化。但由于相似性判別過(guò)程所采用的特征是傳統(tǒng)的淺層特征(如紋理、顏色等),導(dǎo)致該類方法應(yīng)對(duì)尺度變化、遮擋等復(fù)雜場(chǎng)景的能力有限。為了解決這個(gè)問(wèn)題,
DeepSRDCF (Spatially Regularized Deep Correlation Filter)[7]等將卷積特征集成到相關(guān)濾波的方法中,利用圖像高層次的抽象語(yǔ)義特征進(jìn)行相似性判別,增強(qiáng)了跟蹤器的魯棒性、提高了準(zhǔn)確率。然而,由于卷積特征的復(fù)雜性及其高內(nèi)存開(kāi)銷,執(zhí)行在線更新模板的時(shí)間代價(jià)昂貴,因此,這類跟蹤器的跟蹤速度(5~10 fps)低于實(shí)時(shí)要求(>30 fps)。
為了使跟蹤器在兼顧準(zhǔn)確率的同時(shí)保持實(shí)時(shí)速度,同為相似性判別的孿生網(wǎng)絡(luò)[8]跟蹤器[9–12]不斷涌現(xiàn),并成為當(dāng)下主流跟蹤框架。這類跟蹤器摒棄了相關(guān)濾波類跟蹤器中耗時(shí)嚴(yán)重的在線更新模板機(jī)制,采用端到端的離線訓(xùn)練方式,使模型具有泛化能力,無(wú)需通過(guò)在線更新模板以獲取更多關(guān)于目標(biāo)的先驗(yàn)知識(shí),就能夠從復(fù)雜場(chǎng)景中區(qū)分出前景目標(biāo)。SINT (Siamese INstance search for Tracking)[9]第1次將孿生網(wǎng)絡(luò)應(yīng)用到目標(biāo)跟蹤領(lǐng)域,由于其采用了全局搜索策略,跟蹤器準(zhǔn)確率較高,同時(shí)相似性判別使用的樣本大量冗余,嚴(yán)重影響跟蹤器的實(shí)時(shí)性。SiamFC (Full Convolutional Siamese Networks)[10]是孿生網(wǎng)絡(luò)跟蹤器的進(jìn)一步探索,它將相似性判別過(guò)程嵌入網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練,通過(guò)全卷積的方式學(xué)習(xí)目標(biāo)與搜索區(qū)域卷積特征的相關(guān)性,由于SiamFC相似性判別所采用樣本幾乎沒(méi)有額外開(kāi)銷,因此跟蹤器能實(shí)時(shí)運(yùn)行(文獻(xiàn)[10]的實(shí)驗(yàn)環(huán)境:86 fps)。此后的研究工作致力于提升孿生網(wǎng)絡(luò)跟蹤器的準(zhǔn)確率,CFNet (Correlation Filter Siamese Network)[11]將相關(guān)濾波器融入孿生網(wǎng)絡(luò),使網(wǎng)絡(luò)能夠離線學(xué)習(xí)與相關(guān)濾波緊密耦合的抽象特征,以此對(duì)SiamFC進(jìn)行改進(jìn)。SiamRPN (Siamese Region Proposal Network)[12]在孿生網(wǎng)絡(luò)的輸出端嵌入?yún)^(qū)域建議網(wǎng)絡(luò) (Region Proposal Network, RPN)[13],有效提高了跟蹤器的性能。
上述孿生網(wǎng)絡(luò)跟蹤器雖然取得了一定的跟蹤準(zhǔn)確率,但仍然有限,還存在亟待解決的問(wèn)題。首先,這些跟蹤器利用較為淺層的AlexNet[14](去除全連接層)網(wǎng)絡(luò)來(lái)提取用于相似性判別的卷積特征,導(dǎo)致模型學(xué)習(xí)到的特征缺乏更具區(qū)分性的表征能力,進(jìn)而影響判別準(zhǔn)確性;其次,孿生網(wǎng)絡(luò)跟蹤器摒棄了耗時(shí)的在線更新機(jī)制,導(dǎo)致其應(yīng)對(duì)復(fù)雜場(chǎng)景變化的能力較弱,容易受到背景信息,尤其是相似物體的干擾,從而發(fā)生漂移。本文嘗試直接使用ResNet[15]和GoogleNet[16]等網(wǎng)絡(luò)替換AlexNet時(shí),性能不增反降。經(jīng)調(diào)查可知,這些深層網(wǎng)絡(luò)是為圖像分類任務(wù)設(shè)計(jì)的,不能簡(jiǎn)單應(yīng)用于跟蹤任務(wù)中。SiamRPN++[17]和SiamFC-DW[18]都證明了孿生網(wǎng)絡(luò)跟蹤器無(wú)法簡(jiǎn)單使用深層的特征提取網(wǎng)絡(luò)的核心原因在于:卷積、池化等過(guò)程的填充操作使抽象特征缺乏平移不變性。因此SiamRPN++提出了一種簡(jiǎn)單有效的空間感知采樣策略來(lái)打破這一限制,并成功使用ResNet50[15]來(lái)提高模型判別能力,但深層網(wǎng)絡(luò)大量的參數(shù)導(dǎo)致其跟蹤速度下降嚴(yán)重。基于與SiamRPN++相同的目的,SiamFC-DW提出了新的裁剪殘差單元塊(Cropping-Inside Residual units, CIR)來(lái)構(gòu)建ResNet22[18],以此緩和填充的負(fù)面影響,但同時(shí)也存在不足,該網(wǎng)絡(luò)需要依靠大量的訓(xùn)練數(shù)據(jù)才能發(fā)揮其效果。另外,ATOM (Accurate Tracking by Overlap Maximization)[19]是結(jié)合孿生網(wǎng)絡(luò)跟蹤器和在線更新模板的典范,通過(guò)不斷融合后續(xù)搜索圖像作為模板信息的補(bǔ)充,隨著場(chǎng)景的變化而適應(yīng)性變化,以此來(lái)應(yīng)對(duì)復(fù)雜場(chǎng)景。然而ATOM在準(zhǔn)確性和實(shí)時(shí)性上兩級(jí)分化較為嚴(yán)重,跟蹤速度約30 fps。
為了提高孿生網(wǎng)絡(luò)跟蹤器的準(zhǔn)確率,本文采用了不同于上述的改進(jìn)策略,在保持實(shí)時(shí)性的基礎(chǔ)上,創(chuàng)新提出了一種全新的關(guān)鍵特征信息感知模塊來(lái)提高孿生網(wǎng)絡(luò)模型的判別能力,該模塊包括多尺度特征提取和注意力機(jī)制兩部分。本文沿用了去除全連接層的AlexNet作為特征提取網(wǎng)絡(luò),提出一種多尺度下采樣方式來(lái)提取目標(biāo)的多尺度特征信息,并利用注意力機(jī)制增強(qiáng)目標(biāo)的關(guān)鍵信息,用以捕捉目標(biāo)最具區(qū)分性的抽象語(yǔ)義特征,然后利用該特征進(jìn)行相似性判別,實(shí)驗(yàn)結(jié)果顯示,跟蹤準(zhǔn)確率提升顯著;此外,為了增強(qiáng)孿生網(wǎng)絡(luò)跟蹤器應(yīng)對(duì)復(fù)雜場(chǎng)景的能力,本文還提出了一種低時(shí)耗的在線自適應(yīng)掩模策略。與在線更新模板不同,本文通過(guò)互相關(guān)輸出學(xué)習(xí)搜索圖像中背景噪聲的復(fù)雜度,根據(jù)復(fù)雜情況自適應(yīng)地對(duì)搜索圖像掩模,抑制了大量的背景噪聲干擾,使得跟蹤器能夠在復(fù)雜的場(chǎng)景下保持魯棒的性能。本文將提出的兩點(diǎn)創(chuàng)新應(yīng)用于Siam-FC,在OTB100[20], GOT-10k[21]測(cè)試集進(jìn)行大量實(shí)驗(yàn),結(jié)果展示跟蹤器性能有較大的提升,獲得了9.4% (OTB100), 26.1% (GO T-10k)的相對(duì)改進(jìn)。
孿生網(wǎng)絡(luò)跟蹤器SiamFC[10]可以用式(1)建模,
其中,x和z分別為輸入的模板圖像和搜索圖像,φ表示特征提取網(wǎng)絡(luò),corr為互相關(guān)運(yùn)算,R表示矩陣響應(yīng)圖,通過(guò)R中的最大值定位到目標(biāo)中心位置。式中φ參數(shù)共享于模板圖像和搜索圖像分支。簡(jiǎn)單地使用AlexNet[14]作為特征提取網(wǎng)絡(luò)不能充分挖掘?qū)\生網(wǎng)絡(luò)結(jié)構(gòu)的潛力,于是本文提出了一種關(guān)鍵特征信息感知模塊并嵌入AlexNet,如圖1所示。為了證明該模塊的通用性和有效性,本文還額外地以SiamFC-DW[18]為基準(zhǔn)進(jìn)行對(duì)比實(shí)驗(yàn)。
圖1 本文跟蹤器框圖
本文選擇在AlexNet第3層后嵌入該模塊,原因在于前3層提取的特征都是較為淺層的圖像特征,而后兩層則是更加抽象的語(yǔ)義特征。本文設(shè)計(jì)的關(guān)鍵特征信息感知模塊如圖2(a),首先通過(guò)多種尺度的最大池化下采樣層來(lái)獲取不同尺度的特征信息并融合,豐富卷積特征每個(gè)像素的感受野,以此提供更多關(guān)于目標(biāo)位置信息的先驗(yàn)知識(shí)給跟蹤器,本文采用的下采樣池化核大小為3× 3 和5× 5。然而在不同尺度的特征信息融合過(guò)程中,同時(shí)帶來(lái)了大量的干擾信息,導(dǎo)致跟蹤器的性能不夠穩(wěn)定。如表1所示,在SiamFC基礎(chǔ)上使用多尺度特征提取策略下以同樣方式多次訓(xùn)練模型,并測(cè)試它們的性能,結(jié)果顯示性能浮動(dòng)較大且提升不夠明顯。
表1 訓(xùn)練模型在OTB100上的AUC性能(%)
圖2 關(guān)鍵特征信息感知模塊結(jié)構(gòu)
為了得到穩(wěn)定且更加魯棒的性能,網(wǎng)絡(luò)要選擇性地對(duì)目標(biāo)的關(guān)鍵特征信息增強(qiáng)并抑制無(wú)用特征信息,即只捕捉目標(biāo)最顯著的圖像屬性。一種簡(jiǎn)單有效的方式是對(duì)卷積特征的不同通道賦予不同的權(quán)重,可以用式(2)表示
本文還提出了另一種可替代圖2(a)的結(jié)構(gòu),如圖2(b)所示,與圖2(a)不同的是,圖2(b)通過(guò)多尺度最大池化下采樣得到特征后并沒(méi)有直接融合,而是對(duì)這些不同尺度的特征分別輸入通道注意力進(jìn)行權(quán)重賦值,最終將校準(zhǔn)后的特征融合。本文以SiamFC和SiamFC-DW為基準(zhǔn)算法對(duì)這兩種結(jié)構(gòu)進(jìn)行對(duì)比。對(duì)比結(jié)果如表2,使用結(jié)構(gòu)1的SiamFC相較于基準(zhǔn)準(zhǔn)確率提高了6.8%,且超過(guò)了表1中的最大提升4.3%,速度下降了17 fps;使用結(jié)構(gòu)2準(zhǔn)確率提高達(dá)到了7.5%,速度下降增加到30 fps,但也遠(yuǎn)超實(shí)時(shí)要求。SiamFC-DW在兩種不同結(jié)構(gòu)下分別提升了2.6%和4.0%,表明本文提出的關(guān)鍵特征信息感知模塊在網(wǎng)絡(luò)判別能力足夠強(qiáng)大的基礎(chǔ)上還有提升。
表2 兩種不同關(guān)鍵信息感知結(jié)構(gòu)對(duì)比
本文將圖2(a)的結(jié)構(gòu)1嵌入SiamFC的特征提取網(wǎng)絡(luò)AlexNet后,經(jīng)過(guò)端到端的訓(xùn)練,將模型應(yīng)用在OTB100[20]的兩個(gè)視頻序列Bolt, Board上,并可視化模型學(xué)習(xí)到的互相關(guān)層輸出的特征信息。如圖3所示,每個(gè)視頻序列隨機(jī)抽取某幾幀,上行是SiamFC模型學(xué)習(xí)到的特征可視化情況,下行是嵌入關(guān)鍵特征信息感知模塊后模型學(xué)習(xí)到的情況。從中可以看出,嵌入該模塊后,跟蹤器關(guān)注的目標(biāo)特征熱點(diǎn)更加聚集,排除了大量干擾,有效提升了模型的判別能力。
圖3 互相關(guān)層輸出的特征可視化
在特征提取網(wǎng)絡(luò)中嵌入關(guān)鍵特征信息感知模塊后,模型的判別能力有了質(zhì)的提升。然而,跟蹤器的性能在復(fù)雜場(chǎng)景下仍不夠魯棒,無(wú)法抵抗一些嚴(yán)重相似物體的干擾,如圖3 Bolt的第5幀所示,跟蹤器表現(xiàn)出了漂移到目標(biāo)左側(cè)的相似干擾物體上的趨勢(shì),這類干擾物體的突出特征會(huì)分散模型的注意力。因此,本文還提出了一種在線自適應(yīng)掩模策略抑制干擾信息,突出前景目標(biāo),以此來(lái)應(yīng)對(duì)復(fù)雜場(chǎng)景。如圖1所示,該策略通過(guò)在線學(xué)習(xí)掩模參數(shù)以達(dá)到自適應(yīng)的效果。相比于傳統(tǒng)的圖像掩模方式,本文的自適應(yīng)掩??梢圆蹲揭曨l流中目標(biāo)的動(dòng)態(tài)變化信息。而傳統(tǒng)的方法無(wú)法適應(yīng)目標(biāo)變化,抑制過(guò)程會(huì)給圖像的前景信息帶來(lái)?yè)p耗。
圖4 在線自適應(yīng)掩模示意圖
表3 在線自適應(yīng)掩模
本文基于Python的Pytorch實(shí)驗(yàn)平臺(tái),PC配置CPU為Intel i7-10700F,GPU為NVIDIA GeForce RTX 1080Ti,內(nèi)存大小12 GB?;鶞?zhǔn)SiamFC以及本文提出的算法統(tǒng)一在GOT-10k標(biāo)注訓(xùn)練集上訓(xùn)練。訓(xùn)練過(guò)程采用隨機(jī)梯度下降(Stochastic Gradient Descent, SGD)優(yōu)化器進(jìn)行優(yōu)化,epoch為50,初始學(xué)習(xí)率為1e-2,并以指數(shù)形式衰減,batch size為8。測(cè)試時(shí)使用了OTB100, GOT-10k數(shù)據(jù)集對(duì)本文跟蹤算法測(cè)試分析。本文提出算法模型的關(guān)鍵參數(shù)可在圖1查看。實(shí)驗(yàn)時(shí)關(guān)鍵信息特征感知模塊采用具有代表性的圖2(a)結(jié)構(gòu)1。
本文基于成功率(Success Rate, SR)和精度(Precision)兩個(gè)性能指標(biāo)來(lái)評(píng)估跟蹤器性能。成功率通過(guò)計(jì)算跟蹤預(yù)測(cè)框與實(shí)際標(biāo)注框的重疊率(Intersection-over-Union, IoU)在給定閾值下的曲線下面積(Area Under Curve, AUC);精度通過(guò)中心位置誤差(Center Location Error, CLE)在給定的20個(gè)像素距離閾值下的成功跟蹤率。
其中,S表示跟蹤目標(biāo)框的面積,pre表示算法預(yù)測(cè)框.truth表示實(shí)際標(biāo)注框,L表示目標(biāo)中心所在位置,使用的是歐氏距離。
4.2.1 OTB100實(shí)驗(yàn)結(jié)果
OTB100是目標(biāo)跟蹤領(lǐng)域最常用的評(píng)估數(shù)據(jù)集,共包含100個(gè)視頻序列,視頻的具體場(chǎng)景有背景復(fù)雜(Background Clutter, BC)、光照變化(Illumination Variation, IV)、尺度變化(Scale Variation, SV)、遮擋(OCClusion, OCC)、形變 (DEFormation, DEF)、運(yùn)動(dòng)模糊(Motion Blur, MB)、快動(dòng)作(Fast Motion, FM)、平面內(nèi)旋轉(zhuǎn)(In-Plane Rotation, IPR)、平面外旋轉(zhuǎn)(Out-of-Plane Rotation, OPR)、離開(kāi)視野(Out-of -View, OV)、低分辨率(Low Resolution, LR)11種,是最常用的評(píng)估數(shù)據(jù)集。實(shí)驗(yàn)將本文所提跟蹤算法與當(dāng)前主流的孿生網(wǎng)絡(luò)跟蹤器SINT[9], SiamFC[10], CFNet[11],SiamRPN[12], SiamFC-DW[18], SiamRPN++[17]和相關(guān)濾波跟蹤器DeepSRDCF[7], SRDCF[6],Staple[5], KCF[4]進(jìn)行對(duì)比。實(shí)驗(yàn)結(jié)果如圖5所示,本文算法AUC=0.639, Precision=0.861,相較于基準(zhǔn)算法SiamFC分別提高了9.4%和11.5%。
圖5 10種算法在OTB100數(shù)據(jù)集上的跟蹤性能對(duì)比
針對(duì)11種不同的場(chǎng)景,表4展示了本文跟蹤算法跟主流孿生網(wǎng)絡(luò)跟蹤算法在這些復(fù)雜場(chǎng)景下的AUC對(duì)比。從表4可以看出本文算法幾乎在所有場(chǎng)景下都取得了最優(yōu)或次優(yōu)的性能結(jié)果,并且在尺度變化、背景復(fù)雜和運(yùn)動(dòng)模糊場(chǎng)景下相較于基準(zhǔn)提升近10.4%, 16%和19%,這進(jìn)一步驗(yàn)證了本文所提的跟蹤器模型具有很強(qiáng)的判別能力,能夠在各種復(fù)雜場(chǎng)景下區(qū)分出前景目標(biāo)。
表4 10種算法在OTB數(shù)據(jù)集上不同場(chǎng)景的AUC定量對(duì)比
4.2.2 GOT-10k 實(shí)驗(yàn)結(jié)果
GOT-10k是最新發(fā)布的大規(guī)模和多樣性的目標(biāo)跟蹤評(píng)估數(shù)據(jù)集,評(píng)價(jià)指標(biāo)包括平均重疊(Average Overlap, AO), SR。AO表示所有評(píng)估的邊界框和標(biāo)注框之間的平均重疊率,SR0.5和SR0.75分別表示閾值0.5和0.75下的SR。
10種算法的性能對(duì)比如圖6所示,本文跟蹤算法相較于基準(zhǔn)算法SiamFC,AO由0.326增加到0.411,提升了26.1%。對(duì)比于主流算法SiamRPN,SiamFC-DW有12.0%和7.0%的性能優(yōu)勢(shì)。除次之外,本文還將SR0.5和SR0.75展示于表5,本文算法的SR0.5, SR0.75相較于SiamFC提升了39.4%和78.6%。
表5 10種算法在GOT-10k數(shù)據(jù)集上性能對(duì)比
圖6 10種算法在GOT-10k數(shù)據(jù)集上的跟蹤性能對(duì)比
4.2.3 消融實(shí)驗(yàn)
為了驗(yàn)證本文提出的兩個(gè)創(chuàng)新點(diǎn):關(guān)鍵信息特征感知模塊(創(chuàng)新1)、在線自適應(yīng)掩模(創(chuàng)新2)的有效性,以SiamFC算法為基準(zhǔn)在OTB100數(shù)據(jù)集上做了消融實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果如表6所示,僅采用關(guān)鍵信息感知模塊或在線自適應(yīng)掩模的曲線下面積和Precision提升分別為曲線下面積(6.8%, .7%),精度(7.6%, 6.0%),而結(jié)合二者提升可達(dá)曲線下面積(9.4%)和精度(11.5)。
表6 本文算法在OTB100上的消融實(shí)驗(yàn)結(jié)果
本小節(jié)直觀地對(duì)比了本文算法和對(duì)比算法的跟蹤效果,實(shí)驗(yàn)選取了基準(zhǔn)算法SiamFC和在本文實(shí)驗(yàn)表現(xiàn)最優(yōu)的算法SiamRPN, SiamFC-DW, Deep-SRDCF在OTB100數(shù)據(jù)集上的4個(gè)視頻序列(Board,Soccer, Singer2, Dragonbaby)進(jìn)行跟蹤效果對(duì)比,這些序列都包含相似物體干擾、背景信息雜亂、目標(biāo)形變等復(fù)雜場(chǎng)景。
對(duì)比結(jié)果如圖7所示,每種顏色代表一種算法的預(yù)測(cè)框。Board序列中第30幀和40幀由于背景雜亂導(dǎo)致SiamFC漂移嚴(yán)重,而本文算法能夠準(zhǔn)確跟蹤;Soccer序列存在大量相似干擾物,在第232幀只有本文算法精確定位了目標(biāo)物體且重疊率最高;Singer2視頻中目標(biāo)形變以及背景顏色干擾嚴(yán)重,從第32幀開(kāi)始所有跟蹤器都漂移,只有跟蹤器能在此復(fù)雜場(chǎng)景中區(qū)分出前景目標(biāo);Dragonbaby中男孩臉部存在目標(biāo)形變及運(yùn)動(dòng)模糊等情況,在第44幀時(shí),SiamFC, SiamFC-DW, DeepSRDCF都發(fā)生漂移,并且SiamFC在后續(xù)跟蹤過(guò)程再也無(wú)法找回目標(biāo),而本文跟蹤器卻能保持準(zhǔn)確的跟蹤狀態(tài)。
圖7 5種算法的跟蹤實(shí)例對(duì)比
本文為了提高孿生網(wǎng)絡(luò)跟蹤器精度,基于通道注意力機(jī)制,提出了一種通用關(guān)鍵信息特征感知模塊來(lái)選擇性地增強(qiáng)有用信息,并將該模塊嵌入特征提取網(wǎng)絡(luò)從而有效提高了網(wǎng)絡(luò)模型的判別能力;本文還提出了一種低時(shí)耗的在線自適應(yīng)掩模策略,以此來(lái)突出前景目標(biāo),很大程度上抑制了背景信息的干擾,在兼顧跟蹤速度的同時(shí)進(jìn)一步提高了跟蹤器精度。通過(guò)OTB100和GOT-10k實(shí)驗(yàn)表明,本文提出的跟蹤算法具備優(yōu)秀的跟蹤性能,并且能夠在各種復(fù)雜場(chǎng)景下保持魯棒性能。