王蒙蒙,楊小倩,劉勇
浙江大學(xué)控制科學(xué)與工程學(xué)院,杭州 310027
單目標(biāo)跟蹤旨在僅給定任意對(duì)象在初始幀目標(biāo)位置的情況下,跟蹤后續(xù)視頻中的對(duì)象。目標(biāo)跟蹤是監(jiān)控系統(tǒng)、機(jī)器人和人機(jī)交互等大量多媒體認(rèn)知理解的基礎(chǔ)任務(wù)。由于大多數(shù)實(shí)際場(chǎng)景應(yīng)用中的硬件計(jì)算資源有限,且基于在線模型更新的跟蹤器網(wǎng)絡(luò)結(jié)構(gòu)較為復(fù)雜和運(yùn)行速度較慢,難以部署落地,因此探究簡(jiǎn)單易用的跟蹤算法框架十分重要。高性能的跟蹤器往往通過(guò)使用注意力機(jī)制、模板更新等常用策略提升性能。與之不同的是,本文從視頻時(shí)空特征角度出發(fā),基于序列的時(shí)序外觀一致性和空間位移約束進(jìn)行建模,避免使用復(fù)雜網(wǎng)絡(luò)結(jié)構(gòu)和模型更新等策略,較好地平衡了跟蹤器的性能和速度。
視覺(jué)跟蹤任務(wù)中的視頻時(shí)空屬性并未充分探究和開(kāi)發(fā)。作為一項(xiàng)視頻分析任務(wù),對(duì)跟蹤來(lái)說(shuō)至少有兩個(gè)潛在特性和優(yōu)勢(shì)。1)目標(biāo)具有空間位移約束,這意味著除非發(fā)生劇烈的物體或相機(jī)運(yùn)動(dòng),相鄰幀之間的目標(biāo)位置不會(huì)相距太遠(yuǎn)。現(xiàn)有的視覺(jué)跟蹤器(任仙怡 等,2002;Henriques等,2015;Li等,2018;Zuo等,2019; 宮海洋 等,2018;Danelljan等,2019;寧紀(jì)鋒 等,2014;王鑫和唐振民,2010)幾乎都遵循空間位移約束,并根據(jù)目標(biāo)在上一幀中的位置在當(dāng)前幀中開(kāi)展搜索。2)目標(biāo)具有時(shí)序外觀一致性,這表明相鄰幀之間的目標(biāo)外觀變化比較微弱,整個(gè)序列從時(shí)間維度上來(lái)看,目標(biāo)外觀是緩慢平滑變化的。時(shí)序外觀一致性可以提供上下文信息,為后續(xù)幀的預(yù)測(cè)提供有效線索,然而該特性在現(xiàn)有工作中并沒(méi)有得到充分挖掘和研究。
現(xiàn)有的跟蹤器對(duì)時(shí)序外觀一致性的利用主要有兩種方式。第1種方式是將視覺(jué)跟蹤建模為初始目標(biāo)與后續(xù)幀的匹配問(wèn)題,基于孿生網(wǎng)絡(luò)(siamese network)的跟蹤器(Li等,2018,2019;Bertinetto等,2016;Xu等,2020;Zhu等,2018;Fan和Ling,2019;Zhou等,2020;Chen等,2020;Guo等,2020)是其中最經(jīng)典和有效的方法。它們采用one-shot方式進(jìn)行視覺(jué)跟蹤,將視頻第1幀中的目標(biāo)作為模板,將后續(xù)幀中的搜索區(qū)域作為候選目標(biāo),然后將跟蹤任務(wù)變?yōu)閺拿恳粠姓业脚c模板最相似的候選目標(biāo)。這種方式完全忽略了其他歷史幀的有效信息而每次獨(dú)立處理每一幀,造成巨大的信息損失。第2種方式,許多傳統(tǒng)方法(Henriques等,2015;丁歡和張文生,2012;陳晨 等,2020;Hare等,2016)和基于深度學(xué)習(xí)的方法(Danelljan等,2019;Bhat等,2019;宋建鋒 等,2021;Dai等,2020;周笑宇 等,2021)同時(shí)使用初始目標(biāo)和歷史目標(biāo)信息(歷史目標(biāo)為每一幀或選定的幀)預(yù)測(cè)當(dāng)前幀的目標(biāo)位置。然而,這種方式對(duì)于如何平衡準(zhǔn)確率和時(shí)間延遲,尤其是基于深度神經(jīng)網(wǎng)絡(luò)的方法,仍然是一個(gè)較為困難的問(wèn)題。此外,網(wǎng)絡(luò)微調(diào)在一些實(shí)際場(chǎng)景中是無(wú)法實(shí)現(xiàn)的,如將算法部署到硬件芯片上,嚴(yán)重阻礙了跟蹤算法的實(shí)際落地應(yīng)用。
針對(duì)上述困難,提出一種新的跟蹤器,從視頻分析角度重新對(duì)跟蹤問(wèn)題建模,本文設(shè)計(jì)了一種時(shí)間感知網(wǎng)絡(luò)(temporal-aware network,TAN),旨在沒(méi)有在線模型更新的前提下,利用前向推理中的時(shí)序外觀一致性,對(duì)多個(gè)視頻幀的信息同時(shí)進(jìn)行編碼。在網(wǎng)絡(luò)中引入了時(shí)間聚合模塊(temporal aggregation module,TAM),以交換和融合歷史幀中的信息,使跟蹤器TAN能夠?qū)W習(xí)目標(biāo)的時(shí)空特征。為了平衡多幀輸入的處理速度和跟蹤精度,采用輕量級(jí)網(wǎng)絡(luò)ResNet-18作為特征提取骨干網(wǎng)絡(luò)(backbone network),跟蹤器速度達(dá)到70幀/s。與使用在線模型微調(diào)的方法不同,跟蹤器TAN能夠在跟蹤過(guò)程中進(jìn)行完全前向推理,在不需要任何網(wǎng)絡(luò)權(quán)重學(xué)習(xí)或微調(diào)的情況下,通過(guò)離線訓(xùn)練以學(xué)習(xí)適應(yīng)目標(biāo)的外觀變化。此外,為了構(gòu)建簡(jiǎn)單通用的跟蹤框架,本文設(shè)計(jì)了一種無(wú)錨(anchor-free)、無(wú)候選(proposal-free)的目標(biāo)估計(jì)方法,即檢測(cè)目標(biāo)的4個(gè)角點(diǎn),包括左上角、右上角、左下角和右下角。使用角點(diǎn)檢測(cè)頭(corner detection head)得到4個(gè)角點(diǎn)后,根據(jù)左上—右下角點(diǎn),右上—左下角點(diǎn)分別得到兩組目標(biāo)候選框,然后通過(guò)候選框的中心點(diǎn)置信度分?jǐn)?shù)確定最終目標(biāo)位置,而不必考慮復(fù)雜的約束關(guān)系,這能進(jìn)一步減少目標(biāo)位置的推理時(shí)間。使用這種基于角點(diǎn)的目標(biāo)估計(jì)機(jī)制,跟蹤器TAN能夠應(yīng)對(duì)多種具有挑戰(zhàn)性的場(chǎng)景,如局部遮擋、外形變化等。
本文提出的跟蹤方法簡(jiǎn)單直觀易于實(shí)現(xiàn),達(dá)到了領(lǐng)先算法的跟蹤性能和很快的推理速度。這種實(shí)時(shí)有效的跟蹤算法框架跟蹤器在性能和速度上達(dá)到了很好的平衡,更適用于實(shí)際場(chǎng)景,尤其對(duì)于不支持復(fù)雜模型和在線模型更新且計(jì)算資源有限的硬件平臺(tái)。本文提出的框架為視覺(jué)跟蹤領(lǐng)域提供新的思考視角,主要貢獻(xiàn)在于:1)提出一種速度與精度平衡的目標(biāo)跟蹤算法,即時(shí)間感知網(wǎng)絡(luò)(TAN),利用視頻中的時(shí)序外觀一致性優(yōu)勢(shì)和空間位移約束,對(duì)目標(biāo)時(shí)空特征進(jìn)行建模。在跟蹤過(guò)程中無(wú)需在線模型更新,即可應(yīng)對(duì)目標(biāo)在時(shí)序上的各種變化;2)設(shè)計(jì)了一種簡(jiǎn)單有效的目標(biāo)估計(jì)方法,即檢測(cè)目標(biāo)邊界框的4個(gè)角點(diǎn),該方法能夠使跟蹤器有效應(yīng)對(duì)多種具有挑戰(zhàn)性的場(chǎng)景,如局部遮擋、外形變化等;3)以ResNet-18為主干網(wǎng)絡(luò),提出的目標(biāo)跟蹤框架在多個(gè)公開(kāi)數(shù)據(jù)集上達(dá)到領(lǐng)先水平,實(shí)現(xiàn)了70幀/s的高速推理。
關(guān)注視頻時(shí)序特性的研究,尤其是對(duì)時(shí)序外觀一致性,將現(xiàn)有方法分為基于初始模板的跟蹤器和基于歷史模板的跟蹤器兩類。此外,針對(duì)引入的基于角點(diǎn)檢測(cè)頭的目標(biāo)估計(jì)方法介紹一些相關(guān)的跟蹤器。
基于初始模板跟蹤指跟蹤器離線訓(xùn)練學(xué)習(xí)通用特征表示,然后僅使用初始模板對(duì)新目標(biāo)進(jìn)行跟蹤?;趯\生網(wǎng)絡(luò)的跟蹤器(Wang等,2019;Yu等,2020;Yang等,2020)是最經(jīng)典的one-shot學(xué)習(xí)方法。SINT(siamese instance search for tracking)(Tao等,2016)和SiamFC(fully-convolutional siamese networks for object tracking)(Bertinetto等,2016)作為孿生網(wǎng)絡(luò)的開(kāi)創(chuàng)性工作,將視覺(jué)跟蹤任務(wù)表示為初始幀目標(biāo)與后續(xù)幀的成對(duì)匹配問(wèn)題。受目標(biāo)檢測(cè)任務(wù)中區(qū)域候選網(wǎng)絡(luò)(region proposal network,RPN)和孿生網(wǎng)絡(luò)跟蹤框架的啟發(fā),SiamRPN(high performance visual tracking with siamese region proposal network)(Li等,2018)將跟蹤推理視為一個(gè)one-shot局部檢測(cè)任務(wù),使用兩個(gè)權(quán)值共享的骨干網(wǎng)絡(luò)進(jìn)行特征提取,并使用RPN頭實(shí)現(xiàn)目標(biāo)分類和邊界框回歸。SiamRPN++(Li等,2019)打破了深度卷積特征中平移不變性的限制,使用ResNet-50或更深層的網(wǎng)絡(luò)作為特征提取主干,跟蹤精度在多個(gè)公開(kāi)數(shù)據(jù)集上提升到更高水平。這些方法通過(guò)離線訓(xùn)練且沒(méi)有模型更新,完全通過(guò)初始模板和后續(xù)幀的相似性度量進(jìn)行目標(biāo)定位跟蹤,忽略其他歷史幀信息,造成巨大的信息浪費(fèi)。
在考慮使用目標(biāo)歷史模板的信息時(shí),現(xiàn)有方法大多研究模型更新策略(Danelljan等,2019,2020;Bhat等,2019)。MDNet(multi-domain convolutional neural network)(Nam等,2016)由共享層和特定域的多分支層組成,跟蹤過(guò)程中通過(guò)在線微調(diào)以適應(yīng)新目標(biāo)。UCT(learning unified convolutional networks for real-time visual tracking)(Zhu等,2017)通過(guò)引入峰值降噪比(peak-versus noise ratio,PNR)的方法,避免由于跟蹤不準(zhǔn)確而引入錯(cuò)誤背景信息。ATOM(accurate tracking by overlap maximization)(Danelljan等,2019)提出一種新的跟蹤框架,由目標(biāo)框回歸分支和分類分支組成,其中分類分支可以在線訓(xùn)練以提高跟蹤器對(duì)背景和目標(biāo)的區(qū)分能力。DiMP(learning discriminative model prediction for tracking)(Bhat等,2019)和PrDiMP(probabilistic regression for visual tracking)(Danelljan等,2020)都是ATOM的后續(xù)工作,分別改進(jìn)了分類分支和回歸分支。
另一種代表性跟蹤器是基于元學(xué)習(xí)的方法。這類跟蹤器首先基于各種檢測(cè)任務(wù)進(jìn)行訓(xùn)練,然后通過(guò)包含目標(biāo)歷史信息的少量訓(xùn)練樣本(包括第1幀和后續(xù)多幀)微調(diào)網(wǎng)絡(luò)以快速學(xué)習(xí)適應(yīng)新目標(biāo)。Meta-tracker(Park和Berg,2018)是第1個(gè)在跟蹤任務(wù)中使用元學(xué)習(xí)訓(xùn)練模型的方法。Huang等人(2019a)直接將目標(biāo)檢測(cè)器轉(zhuǎn)換到跟蹤器中,使用元學(xué)習(xí)方式學(xué)習(xí)檢測(cè)頭中的元學(xué)習(xí)層(meta-layer)。
上述提到的跟蹤器試圖利用多個(gè)歷史幀挖掘更多的視頻時(shí)序特性。然而,本文提出的跟蹤器能夠?qū)崿F(xiàn)完全前向推理(fully feed-forward process),無(wú)需任何模型更新策略。MemTrack(learning dynamic memory networks for object tracking)(Yang和Chan,2018)和MemDTC(visual tracking via dynamic memory networks)(Yang和Chan,2021)是與本文最相似的方法,利用目標(biāo)歷史信息且不在線更新模型權(quán)重,但是它們需要使用額外的動(dòng)態(tài)長(zhǎng)短期記憶網(wǎng)絡(luò)(long short-term memory,LSTM)模型適應(yīng)跟蹤過(guò)程中目標(biāo)的外觀變化。相比之下,本文方法無(wú)需使用任何額外網(wǎng)絡(luò)來(lái)編碼或存儲(chǔ)歷史目標(biāo)信息,提出的跟蹤網(wǎng)絡(luò)在性能和速度上達(dá)到了平衡。
一般的多尺度搜索策略無(wú)法在涉及目標(biāo)變化等困難場(chǎng)景下估計(jì)密集的邊界框,因此如何估計(jì)準(zhǔn)確的邊界框引起了研究人員的興趣。雖然基于角點(diǎn)的跟蹤器可以靈活地應(yīng)對(duì)這些變化,但是這類跟蹤器尚未成熟。GOTURN(generic object tracking using regression networks)(Held等,2016)和SATIN(siamese attentional keypoint network for high performance visual tracking)(Gao等,2020)使用全連接網(wǎng)絡(luò)和互相關(guān)操作檢測(cè)物體角點(diǎn),但是這些方法并沒(méi)有表現(xiàn)出很強(qiáng)的性能。CGACD(correlation-guided attention for corner detection based visual tracking)(Du等,2020)使用基于相關(guān)性引導(dǎo)的注意力角點(diǎn)檢測(cè)來(lái)突出角點(diǎn)區(qū)域并增強(qiáng)感興趣區(qū)域(region of interest,RoI)特征以實(shí)現(xiàn)角點(diǎn)檢測(cè),從而實(shí)現(xiàn)邊界框估計(jì)。Ocean(Zhang等,2020)提出一種基于對(duì)象感知的無(wú)錨(object-aware anchor-free)網(wǎng)絡(luò),以無(wú)錨的方式直接預(yù)測(cè)目標(biāo)的位置和尺度。SiamKPN(siamese keypoint prediction network for visual object tracking)(Li等,2020)提出一種從粗到細(xì)(coarse-to-fine)的角點(diǎn)檢測(cè)的級(jí)聯(lián)熱圖策略。本文設(shè)計(jì)的角點(diǎn)檢測(cè)頭與以上方法不同,主要體現(xiàn)在兩方面。1)直接預(yù)測(cè)一個(gè)目標(biāo)的4個(gè)角點(diǎn),并按對(duì)角構(gòu)成兩個(gè)邊界框,能夠應(yīng)對(duì)遮擋、形變等一些具有挑戰(zhàn)性的場(chǎng)景;2)采用簡(jiǎn)單有效的目標(biāo)框選擇機(jī)制,通過(guò)預(yù)測(cè)邊界框的中心置信度分?jǐn)?shù)而不是復(fù)雜的約束來(lái)確定目標(biāo)的最終位置。
圖1 時(shí)間感知網(wǎng)絡(luò)的總體框架Fig.1 Overview of the proposed temporal-aware network
相關(guān)性模塊結(jié)構(gòu)如圖2所示,首先是一個(gè)3×3的卷積層,后接批量歸一化層(batch normalization,BN)以及ReLU激活函數(shù)層調(diào)整兩個(gè)輸入特征,同時(shí)將空間通道減少至1/2以減低計(jì)算成本。使用一個(gè)深度互相關(guān)卷積層(depth-wise cross-correlation layer)(Li等,2019),將φT當(dāng)做卷積核以結(jié)合兩輸入的特征。
圖2 相關(guān)性模塊Fig.2 Correlation module
F=ReLU(BN(W1*φS))★ReLU(BN(W2*φT))
(1)
式中,★代表深度互相關(guān)卷積層,*代表普通卷積,W1和W2分別代表φS和φT的3×3卷積核權(quán)重。
由于上述特征在時(shí)間維度上是離散的,因此提出一種新的時(shí)間建模策略,即時(shí)間聚合模塊,使網(wǎng)絡(luò)TAN具備學(xué)習(xí)時(shí)空特征的能力。最后,利用角點(diǎn)檢測(cè)頭和置信度檢測(cè)頭得到目標(biāo)的4個(gè)角點(diǎn)和中心位置置信度IS。
一般來(lái)說(shuō),多尺度特征融合是提高目標(biāo)檢測(cè)和視覺(jué)跟蹤等任務(wù)性能的常用方法。網(wǎng)絡(luò)深層低分辨率輸出產(chǎn)生的定位結(jié)果一般粗糙且魯棒,而淺層高分辨率輸出產(chǎn)生的結(jié)果趨向于與深層互補(bǔ)。原因是不同層對(duì)特征的表示不同,淺層主要表示顏色、紋理等低級(jí)特征但缺乏語(yǔ)義信息,而高層獲得的高級(jí)特征能編碼豐富的語(yǔ)義信息。因此,從多個(gè)尺度構(gòu)建層級(jí)特征可以魯棒精確地定位目標(biāo)。與常用的ResNet網(wǎng)絡(luò)中4個(gè)階段特征(res1—res4)的方法對(duì)比,本文發(fā)現(xiàn)第1個(gè)池化層(res 0)的特征對(duì)跟蹤也非常有效,消融實(shí)驗(yàn)驗(yàn)證了這一點(diǎn)。
圖3 時(shí)間聚合模塊Fig.3 Temporal aggregation module
(2)
A=F⊕ReLU(BN(W4*H))
(3)
式中,⊕代表逐元素相加,W4是3×3空間卷積的權(quán)重,A是時(shí)間聚合模塊的輸出特征。通過(guò)提出的時(shí)間聚合模塊,多個(gè)模板的信息可以準(zhǔn)確地進(jìn)行融合增強(qiáng)以更好地定位目標(biāo)。
為了構(gòu)建一個(gè)簡(jiǎn)單實(shí)用的跟蹤框架,提出一種新穎的無(wú)錨(anchor-free)、無(wú)候選(proposal-free)的目標(biāo)估計(jì)方法。將目標(biāo)定位分解為角點(diǎn)檢測(cè)和中心置信度預(yù)測(cè)兩個(gè)子任務(wù),分別由角點(diǎn)檢測(cè)頭和分?jǐn)?shù)預(yù)測(cè)頭實(shí)現(xiàn)。如圖4所示,目標(biāo)候選位置由左上—右下角點(diǎn)或右上—左下角點(diǎn)構(gòu)成的兩組候選框組成,然后根據(jù)它們?cè)谥眯哦葓D中的中心置信度分?jǐn)?shù)決定最終位置。
圖4 角點(diǎn)檢測(cè)結(jié)果Fig.4 Results of our target localization heads
如圖1所示,角點(diǎn)檢測(cè)頭學(xué)習(xí)目標(biāo)的左上角、右上角、左下角和右下角。這個(gè)頭部CNN結(jié)構(gòu)由一個(gè)3×3空間卷積層、BN層和ReLU激活函數(shù)以及這些層的重復(fù)結(jié)構(gòu)組成。因?yàn)镵個(gè)輸入模板對(duì)應(yīng)K個(gè)輸出(每個(gè)輸出的4個(gè)通道分別代表4個(gè)角點(diǎn)),需要進(jìn)行融合將時(shí)間維度從K降到1以獲得4個(gè)角點(diǎn)的位置置信圖,這里使用了池化操作(Pool),表述為
Pc=Pool(ReLU(BN(W6*
ReLU(BN(W5*A)))))
(4)
式中,W5和W6是3×3空間卷積層的權(quán)重,Pc是4個(gè)通道的角點(diǎn)預(yù)測(cè)輸出。置信度預(yù)測(cè)頭Ps的網(wǎng)絡(luò)結(jié)構(gòu)除了輸出是1個(gè)通道外,其他部分和角點(diǎn)檢測(cè)頭相同。這兩個(gè)預(yù)測(cè)頭的權(quán)重不共享。
本文4個(gè)角點(diǎn)的檢測(cè)策略不是如CornerNet(Law和Deng,2019)、CGACD(Du等,2020)和SiamKPN(Li等,2020)中只檢測(cè)兩個(gè)角點(diǎn),而是發(fā)現(xiàn)在某些情況下兩個(gè)角點(diǎn)會(huì)失敗,如圖4中的遮擋場(chǎng)景,4個(gè)角點(diǎn)可以獲取更多信息以克服這些困難。在圖4中,紅色框表示目標(biāo)的真實(shí)位置,黃色和綠色框及其對(duì)應(yīng)的角點(diǎn)分別顯示了預(yù)測(cè)的兩組候選框“左上—右下”和“右上—左下”。圖4中,同一列來(lái)自同一個(gè)視頻隨機(jī)抽取的兩幀,從中發(fā)現(xiàn)預(yù)測(cè)多組角點(diǎn)可以克服各種遮擋問(wèn)題。
在整個(gè)框架的訓(xùn)練和推理方法中,網(wǎng)絡(luò)框架TAN完全離線訓(xùn)練,并且推理過(guò)程無(wú)需任何模型微調(diào)。如圖5所示,本文算法的損失計(jì)算僅存在于訓(xùn)練階段。由于原始的res3和res4層的輸出分辨率大小相同,所以沒(méi)有上采樣。由于兩個(gè)頭的處理方式相同,因此省去每個(gè)原始輸出的下標(biāo)。
2.4.1 離線訓(xùn)練
基層的黨建政工工作與企業(yè)的生產(chǎn)和發(fā)展息息相關(guān),企業(yè)在進(jìn)行管理工作時(shí),就需要重視企業(yè)的基層黨建工作,這樣不但可以提升員工的工作熱情,更可以提升企業(yè)中黨組織的重要性。進(jìn)行基層黨建政工工作,有效的樹(shù)立員工的榜樣帶頭作用,增強(qiáng)員工的思想覺(jué)悟,幫助企業(yè)更好更快的發(fā)展。
(5)
式中,1是其下標(biāo)的指示函數(shù),⊙代表矩陣點(diǎn)乘,θ是過(guò)濾背景區(qū)域的閾值,下標(biāo)*代表角點(diǎn)(corner)或中心點(diǎn)(center),上標(biāo)i∈{0,…,N}表示不同的特征層級(jí)。使用L2損失函數(shù)對(duì)真實(shí)熱度圖和預(yù)測(cè)熱度圖進(jìn)行監(jiān)督,并且以等權(quán)重對(duì)不同特征尺度的角點(diǎn)和中心點(diǎn)進(jìn)行加權(quán)。訓(xùn)練和推理過(guò)程如圖5所示,對(duì)每個(gè)尺度的輸出都進(jìn)行監(jiān)督,最終的訓(xùn)練損失可以表示為
圖5 訓(xùn)練和推理過(guò)程Fig.5 Training and inference process
(6)
2.4.2 推理
在推理階段需要設(shè)計(jì)網(wǎng)絡(luò)的輸出解碼策略,獲得最終的目標(biāo)位置和構(gòu)建網(wǎng)絡(luò)輸入。如圖5所示,當(dāng)網(wǎng)絡(luò)輸出包含所有尺度的角點(diǎn)和中心置信度的預(yù)測(cè)熱度圖時(shí),最簡(jiǎn)單的融合方式是將低分辨率的輸出上采樣到更高的分辨率相加并求其均值,并將最高分辨率輸出視為最終的熱度圖。然后,使用argmax操作在每個(gè)熱度圖中找到最大響應(yīng)位置,按角點(diǎn)對(duì)(左上—右下,右上—左下)構(gòu)成兩組邊界框,最后在中心置信預(yù)測(cè)熱度圖中分別找到兩個(gè)邊界框?qū)?yīng)中心點(diǎn)的置信度分?jǐn)?shù)(s1,s2),選擇較大者作為最終的目標(biāo)位置。
[1,rand([2,M-6],K-2),rand([M-5,M],1)]
(7)
實(shí)驗(yàn)在5個(gè)大型跟蹤數(shù)據(jù)集基準(zhǔn)中進(jìn)行,包括OTB50(online object tracking: a benchmark)(Wu等,2013)、OTB100(Wu等,2013)、TrackingNet(Müller等,2018)、LaSOT(Fan等,2019)和UAV(a benchmark and simulator for UAV tracking)123(Müller等,2016),將TAN與先進(jìn)的跟蹤器比較和評(píng)估。雖然TAN實(shí)現(xiàn)簡(jiǎn)單,但仍獲得與排名靠前跟蹤器相當(dāng)?shù)慕Y(jié)果,并達(dá)到70幀/s的推理速度,比大多數(shù)跟蹤器快??傮w來(lái)看,跟蹤器TAN簡(jiǎn)單實(shí)用,達(dá)到了精度和速度的平衡。表明了本文方法對(duì)視頻時(shí)序外觀一致性利用的有效性。
3.2.1 在OTB50數(shù)據(jù)集上對(duì)比實(shí)驗(yàn)
圖6 先進(jìn)跟蹤器在數(shù)據(jù)集OTB50上的對(duì)比結(jié)果Fig.6 Comparison of the quality of state-of-the-art tracking methods on OTB50 dataset((a)success plots of OPE;(b)precision plots of OPE)
3.2.2 在OTB100數(shù)據(jù)集上對(duì)比實(shí)驗(yàn)
OTB100數(shù)據(jù)集比OTB50多50個(gè)視頻序列,評(píng)價(jià)指標(biāo)與OTB50相同。圖7展示了提出的框架TAN與先進(jìn)跟蹤器的比較結(jié)果??梢钥闯觯琓AN成功率在所有結(jié)果中位列第2,稍低于第1的ECO(efficient convolution operators for tracking)算法。但ECO算法使用了模型更新策略提升性能,且運(yùn)行速度僅為8幀/s,遠(yuǎn)低于實(shí)時(shí)性要求。CCOT(continuous convolution operators for visual tracking)的精度值最高,但運(yùn)行速度低至0.3幀/s,限制其根本不可能應(yīng)用于實(shí)際場(chǎng)景。相比之下,TAN在成功率和精度值兩個(gè)指標(biāo)上分別達(dá)到68.2%和89.3%。TAN的成功率僅比ECO低0.9%,但速度為70幀/s,遠(yuǎn)超ECO的8幀/s;TAN的精度值比CCOT低2.2%,但速度是其上百倍。與使用相同骨干網(wǎng)絡(luò)且需要模型更新的ATOM、DiMP18和PrDiMP18方法相比,TAN取得了更好的成功率(68.2%與66.3%、66.0%、67.9%)和精度值(89.3%與87.4%、85.9%、87.1%),且速度更快(70幀/s與30幀/s、57幀/s、40幀/s)。
圖7 先進(jìn)跟蹤器在數(shù)據(jù)集OTB100上的對(duì)比結(jié)果Fig.7 Comparison of the quality of state-of-the-art tracking methods on OTB100 dataset((a)success plots of OPE;(b)precision plots of OPE)
3.2.3 在LaSOT數(shù)據(jù)集上對(duì)比實(shí)驗(yàn)
LaSOT數(shù)據(jù)集提供了大規(guī)模、高質(zhì)量的密集標(biāo)注,共有1 400段訓(xùn)練視頻和280段測(cè)試視頻,包含70類物體,每類有20段視頻序列,視頻總體平均長(zhǎng)度超過(guò)2 500幀,非常適用于評(píng)估長(zhǎng)時(shí)序列跟蹤器。LaSOT采用與OTB相同的OPE方式測(cè)試成功率和精度。表1展示了TAN與其他先進(jìn)跟蹤器在成功率、精度、歸一化精度和速度等方面的比較。跟蹤器ATOM和DiMP18性能優(yōu)于本文的跟蹤器TAN,但在速度上遜于TAN。這兩個(gè)算法在OTB50和OTB100上表現(xiàn)都不如TAN,在該數(shù)據(jù)集上卻表現(xiàn)良好,本文認(rèn)為是因?yàn)樗鼈兪褂昧嗽诰€模型更新策略,這對(duì)長(zhǎng)時(shí)序列能更好地表示目標(biāo)的變化,而本文所用的存儲(chǔ)庫(kù)機(jī)制不足以應(yīng)對(duì)長(zhǎng)時(shí)序列變化的情況。與其他跟蹤器相比,跟蹤器TAN在性能和速度上都有明顯優(yōu)勢(shì)。
表1 先進(jìn)跟蹤器在數(shù)據(jù)集LaSOT上的對(duì)比結(jié)果Table 1 Comparison of the quality of state-of-the-art tracking methods on LaSOT dataset
3.2.4 在TrackingNet數(shù)據(jù)集上對(duì)比實(shí)驗(yàn)
TrackingNet大規(guī)模數(shù)據(jù)集由在YouTube上采集的真實(shí)視頻組成,包含30 000個(gè)序列,1 400萬(wàn)個(gè)標(biāo)注及511個(gè)測(cè)試序列,涵蓋了不同的對(duì)象類別和場(chǎng)景。實(shí)驗(yàn)對(duì)511個(gè)測(cè)試序列采用在線測(cè)評(píng)的方式,評(píng)價(jià)指標(biāo)為成功率、精度和歸一化精度,遵循測(cè)試規(guī)則對(duì)所提出的跟蹤器TAN進(jìn)行測(cè)試,且與先進(jìn)跟蹤器進(jìn)行對(duì)比,結(jié)果如表2所示??梢钥闯?,TAN的表現(xiàn)與在LaSOT數(shù)據(jù)集中的對(duì)比相似,ATOM和DiMP18性能優(yōu)于TAN,但是跟蹤器TAN速度更快,且簡(jiǎn)單易用,能夠部署到一些不支持在線模型更新和硬件計(jì)算資源有限的平臺(tái)上。
表2 先進(jìn)跟蹤器在數(shù)據(jù)集TrackingNet test set上的對(duì)比結(jié)果Table 2 Comparison of the quality of state-of-the-art tracking methods on TrackingNet test set
3.2.5 在UAV123數(shù)據(jù)集上對(duì)比實(shí)驗(yàn)
UAV123數(shù)據(jù)集包含由無(wú)人機(jī)捕獲的123個(gè)視頻序列,平均序列長(zhǎng)度為915幀,所有視頻幀都有邊界框標(biāo)注。數(shù)據(jù)集包含多種困難場(chǎng)景,如快速運(yùn)動(dòng)、尺度變化、光照變化和遮擋等,對(duì)跟蹤器具有一定的挑戰(zhàn)性。實(shí)驗(yàn)與OTB評(píng)測(cè)方式和指標(biāo)相同,但UAV123數(shù)據(jù)集的序列長(zhǎng)度更長(zhǎng),難度更大。表3展示了不同跟蹤器在該數(shù)據(jù)集上的對(duì)比結(jié)果??梢钥闯?,TAN的性能(59.2%)優(yōu)于MDNet(52.8%)、
表3 先進(jìn)跟蹤器在數(shù)據(jù)集UAV123上的對(duì)比結(jié)果Table 3 Comparison of the quality of state-of-the-art tracking methods on UAV123 dataset
ECO(52.5%)和CCOT(51.3%)等使用模型更新的方法。與OTB相比,UAV123中序列長(zhǎng)度較長(zhǎng),在線模型更新對(duì)性能提升有很大幫助,使用在線更新的跟蹤器的ATOM和DiMP18的性能優(yōu)于未使用的SiamRPN和DaSiamRPN。本文使用的存儲(chǔ)庫(kù)機(jī)制也難以應(yīng)對(duì)長(zhǎng)序列中一些目標(biāo)漂移、消失等問(wèn)題,導(dǎo)致跟蹤失敗。這個(gè)問(wèn)題在未來(lái)會(huì)繼續(xù)探索,尋求更有效的存儲(chǔ)庫(kù)維護(hù)和更新策略。
為了分析驗(yàn)證所提出的每個(gè)模塊的有效性,在數(shù)據(jù)集OTB100上進(jìn)行消融實(shí)驗(yàn)。
3.3.1 多尺度特征融合的消融實(shí)驗(yàn)
如第2.1節(jié)所述,通過(guò)多尺度構(gòu)建層級(jí)特征可以精確定位目標(biāo)位置。實(shí)驗(yàn)對(duì)比了融合淺層特征res0和深層特征res4到不同其他層級(jí)特征的效果,這兩層級(jí)特征在以往跟蹤器中很少使用。表4展示了這兩層級(jí)特征對(duì)跟蹤器效果的有效性。可以看出,與僅使用res1—res3相比,添加res0能夠在成功率和精度上分別帶來(lái)2.5%和1.3%的增益;與僅使用res1—res4相比,分別提高2.8%和3.7%。同理,與僅使用res1—res3相比,添加res4能夠分別帶來(lái)1.6%和0.9%的提升,與僅使用res0—res3相比,兩個(gè)指標(biāo)分別提升了1.9%和3.3%。實(shí)驗(yàn)結(jié)果表明,使用res0—res4特征融合能得到更好的效果。
表4 多尺度特征融合的消融實(shí)驗(yàn)結(jié)果Table 4 The ablation study results of mulit-scale feature fusion
3.3.2 時(shí)間聚合模塊的消融實(shí)驗(yàn)
為驗(yàn)證時(shí)間聚合模塊(TAM)的有效性,對(duì)TAM進(jìn)行消融實(shí)驗(yàn),結(jié)果如表5所示。可以看出增加TAM后,成功率和精度分別達(dá)到了68.2%和89.3%,提高了3.2%和5.1%。此外,消融實(shí)驗(yàn)還測(cè)試了網(wǎng)絡(luò)共享TAM的效果,角點(diǎn)檢測(cè)頭和置信度預(yù)測(cè)頭共享TAM模塊時(shí),性能比分開(kāi)使用TAM分別差了0.6%和1.4%。實(shí)驗(yàn)結(jié)果表明,時(shí)間聚合模塊通過(guò)融合多個(gè)模板的特征,能夠明顯提升跟蹤性能,使用分離TAM能獲得更好的效果。
表5 時(shí)間聚合模塊的消融實(shí)驗(yàn)結(jié)果Table 5 The ablation study results of temporal aggregation modules
3.3.3 時(shí)間融合模塊的消融實(shí)驗(yàn)
如第2.3節(jié)所述,多個(gè)時(shí)間特征融合的方式有1×1卷積、最大池化和平均池化3種。1×1卷積是使用有一個(gè)輸出通道的普通卷積層來(lái)減少特征的時(shí)間通道維度。最大池化和平均池化是兩個(gè)普通的池化層。時(shí)間融合模塊的消融實(shí)驗(yàn)結(jié)果如表6所示。通過(guò)實(shí)驗(yàn)發(fā)現(xiàn),使用平均池化能獲得比其他兩種方式更好的效果。平均池化與1×1卷積核和最大池化相比,成功率和精度分別高出1%、2.7%和0.9%、1.8%。實(shí)驗(yàn)結(jié)果表明,使用平均池化融合能得到更好的效果。
表6 時(shí)間融合模塊的消融實(shí)驗(yàn)結(jié)果Table 6 The ablation study results of temporal fusion modules
3.3.4 模板數(shù)量的消融實(shí)驗(yàn)
TAN可以在一次前向推理過(guò)程中為單幀搜索區(qū)域編碼多個(gè)目標(biāo)模板。為此,對(duì)輸入模板數(shù)量K進(jìn)行了試驗(yàn),對(duì)比指標(biāo)為OTB100上的成功率,驗(yàn)證其對(duì)跟蹤效果的影響。根據(jù)式(7)采樣K個(gè)目標(biāo)模板。當(dāng)K= 1,僅使用第1幀的模板。圖8展示了使用不同K值時(shí)的算法跟蹤成功率(AUC)??梢钥闯?,K值增加時(shí),跟蹤性能得到提升,并在K= 3處達(dá)到峰值,再進(jìn)一步增加時(shí),性能逐漸下降。不斷增加K值導(dǎo)致性能變差的原因是額外的模板會(huì)帶來(lái)更多干擾,這與第2.4節(jié)使用簡(jiǎn)單模板采樣會(huì)引入低質(zhì)量模板有密切關(guān)系。該問(wèn)題將在未來(lái)工作中繼續(xù)改進(jìn)。因此,在對(duì)比實(shí)驗(yàn)中為了得到更好效果,設(shè)置K= 3。即使用中心點(diǎn)置信度分?jǐn)?shù)能得到更好的效果。
圖8 輸入模板數(shù)量的消融實(shí)驗(yàn)結(jié)果Fig.8 The results of ablation study of input template number
3.3.5 目標(biāo)框選擇機(jī)制的消融實(shí)驗(yàn)
由于網(wǎng)絡(luò)框架輸出包含中心置信度圖和4個(gè)角點(diǎn)。4個(gè)角點(diǎn)分別由“左上—右下”和“右上—左下”構(gòu)成兩組邊界框。對(duì)最終目標(biāo)框的確定方式,本文嘗試了3種不同方案,即4個(gè)角點(diǎn)的置信度均值、中心點(diǎn)最大置信度分?jǐn)?shù)值、4個(gè)角點(diǎn)置信度分?jǐn)?shù)和中心點(diǎn)置信度分?jǐn)?shù)的均值。實(shí)驗(yàn)結(jié)果如表7所示??梢钥闯觯ㄟ^(guò)中心點(diǎn)最大值能夠得到最好結(jié)果。原因是4個(gè)角點(diǎn)的分?jǐn)?shù)實(shí)際來(lái)自4個(gè)不同通道的角點(diǎn)熱度圖,這4個(gè)通道上的熱度圖峰值能夠確定角點(diǎn)位置,但其具體值不在統(tǒng)一的尺度范圍內(nèi),而中心點(diǎn)置信度在同一個(gè)熱度圖中,能夠準(zhǔn)確反映對(duì)比結(jié)果。
表7 目標(biāo)框選擇機(jī)制的消融實(shí)驗(yàn)結(jié)果Table 7 The ablation study results of box selection mechanism
3.3.6 速度分析
表8對(duì)比了與本文方法最相關(guān)ROAM、ATOM和DiMP18等方法在速度—精度上的表現(xiàn)。這3種方法與本文方法出發(fā)點(diǎn)一致,都試圖解決對(duì)歷史目標(biāo)跟蹤結(jié)果的利用,提出了不同的網(wǎng)絡(luò)結(jié)構(gòu)來(lái)提取時(shí)序特征。從表8可以看出,ROAM雖然達(dá)到了與TAN相當(dāng)?shù)木?,但速度比TAN慢了4.3倍。ATOM與DiMP18雖然使用與TAN一樣的基礎(chǔ)網(wǎng)絡(luò)ResNet-18,但TAN在精度和速度上均明顯占優(yōu)。這3種方法都依賴在線網(wǎng)絡(luò)微調(diào)改善對(duì)目標(biāo)特征變化的適配性,而TAN無(wú)需依賴在線模型更新,可以在一次前向推理過(guò)程中為目標(biāo)編碼多個(gè)目標(biāo)模板,因此整體跟蹤過(guò)程是一個(gè)純推理過(guò)程,在保證速度的同時(shí)可以取得較好的跟蹤精度,能夠達(dá)到速度與精度的平衡。
表8 不同方法的速度與精度分析結(jié)果Table 8 The results of success and speed for different methods
從簡(jiǎn)單實(shí)用和輕量級(jí)角度出發(fā),通過(guò)使用視頻時(shí)序特性中的時(shí)序外觀一致性,提出一種新穎有效的跟蹤器,設(shè)計(jì)新的時(shí)間感知網(wǎng)絡(luò)TAN,通過(guò)提出的時(shí)間聚合模塊提取時(shí)空特征,交換和融合來(lái)自不同歷史幀的信息。同時(shí),設(shè)計(jì)一個(gè)簡(jiǎn)單有效的目標(biāo)估計(jì)策略檢測(cè)目標(biāo)的4個(gè)角點(diǎn),并基于中心點(diǎn)置信分?jǐn)?shù)機(jī)制確定最終目標(biāo)框。本文提出的跟蹤器完全離線訓(xùn)練,在前向推理中完全不需要任何在線模型更新策略,能夠適應(yīng)目標(biāo)的外觀變化。在實(shí)驗(yàn)中,相比其他輕量級(jí)的跟蹤器,TAN不包含復(fù)雜的性能提升策略,以70幀/s的速度實(shí)現(xiàn)了更優(yōu)或相當(dāng)?shù)男阅?。本文工作為單目?biāo)跟蹤提供了一個(gè)新的研究視角,若結(jié)合使用跟蹤領(lǐng)域常用的模型更新、目標(biāo)重檢測(cè)等策略,可進(jìn)一步增強(qiáng)提出的跟蹤框架性能。同時(shí),本文工作也存在提升空間,未來(lái)將從更好的時(shí)間聚合模塊設(shè)計(jì)、更強(qiáng)的目標(biāo)估計(jì)策略、更好的存儲(chǔ)庫(kù)維護(hù)和更新機(jī)制以及有效的模型更新策略等方面進(jìn)行改進(jìn)。