王敬坤,丁德銳,梁 偉,王永雄
(上海理工大學(xué) 光電信息與計算機工程學(xué)院,上海 200093)
近十年來,視覺目標(biāo)跟蹤越來越受到人們的關(guān)注,在視覺監(jiān)控[1]、人機交互[2]、增強現(xiàn)實[3]等多個領(lǐng)域都有廣泛的應(yīng)用[4].雖然視覺目標(biāo)跟蹤最近取得了很大的進展,但由于諸如光照變化、尺度變化、遮擋和背景雜波等眾多因素的影響,仍然是一項非常具有挑戰(zhàn)性的任務(wù).
最近,基于孿生網(wǎng)絡(luò)的跟蹤器因其良好的準(zhǔn)確性和速度在學(xué)術(shù)界中引起了極大的研究關(guān)注[5-14].這些孿生跟蹤器將視覺目標(biāo)跟蹤問題轉(zhuǎn)化為目標(biāo)模板特征和搜索區(qū)域的特征之間的相似圖的互相關(guān)聯(lián)學(xué)習(xí)問題.例如,CFNet[15]跟蹤器和DSiam[16]跟蹤器分別通過運行平均模板和快速轉(zhuǎn)換模塊更新跟蹤模型.SiamRPN[10]跟蹤器在孿生網(wǎng)絡(luò)之后引入?yún)^(qū)域候選網(wǎng)絡(luò),進行聯(lián)合分類和回歸跟蹤.DaSiamRPN[11]跟蹤器進一步引入干擾感知模塊,提高了模型的識別能力.
上述孿生跟蹤器已經(jīng)取得了較好的跟蹤性能,特別是在平衡精度和速度方面表現(xiàn)良好,但與先進ECO[17]算法相比,即使是先進的孿生跟蹤器(如SiamRPN、DaSiamRPN)在基準(zhǔn)數(shù)據(jù)集(如OTB2015[18])上的準(zhǔn)確度仍然有顯著的差距.這些跟蹤器主要采用了類似于AlexNet[19]的網(wǎng)絡(luò)架構(gòu).對現(xiàn)有的孿生跟蹤器進行分析,不難發(fā)現(xiàn)其核心原因:1)嚴(yán)格的平移不變性難以保證;2)訓(xùn)練樣本分布不均衡;3)低層次空間特征沒有充分的利用;4)單階段的跟蹤器使用預(yù)定義的錨點框不足以精確定位.
具體地,由于目標(biāo)可能出現(xiàn)在搜索區(qū)域的任何位置,學(xué)習(xí)到的目標(biāo)模板的特征表示應(yīng)該保持空間不變性.進一步從理論上發(fā)現(xiàn),只有AlexNet這樣的零填充網(wǎng)絡(luò)才能滿足這種空間不變量限制要求.因此,目前報道的基于復(fù)雜ResNet[20]架構(gòu)的跟蹤器的性能并沒有得到明顯的改善.其次,訓(xùn)練樣本分布不均衡,正樣本遠遠小于負樣本,而且很多的負樣本都是簡單樣本(非相似非語義背景),這些簡單樣本在分類器學(xué)習(xí)鑒別的時候貢獻很少有用的信息,從而導(dǎo)致孿生網(wǎng)絡(luò)訓(xùn)練效率低下.再者,低層次空間特征也沒有得到充分的探索.在SiamRPN中,只運用了最后一層的特征來區(qū)分目標(biāo)和背景.然而,跟蹤目標(biāo)很容易受到相似背景的干擾.在這種情況下,高層語義特征在區(qū)分背景和目標(biāo)前景方面的區(qū)分度就比較差.最后,SiamRPN采用單階段回歸對預(yù)定義的錨點框的目標(biāo)實施定位,對于與目標(biāo)有重疊的錨點框,使用非極大值抑制進行篩選.然而,對于無模型的跟蹤問題,目標(biāo)對象的先驗信息是未知的,很難估計尺度的變化.因此,在這種單階段回歸中使用預(yù)定義錨點框不足以實現(xiàn)精確地定位.
針對平移不變性限制問題,基礎(chǔ)的孿生網(wǎng)絡(luò)跟蹤器具有中心偏置,對在中心位置的目標(biāo)學(xué)習(xí)的占比更大.因而,本文可以適當(dāng)?shù)脑黾又行姆秶鷣碛行У姆乐鼓P捅罎?針對類不平衡問題,兩階段的目標(biāo)檢測器(如Faster R-CNN[21])已經(jīng)得到初步的解決.在檢測器中,第1分類階段快速過濾掉大部分的背景樣本,第2個分類階段利用抽樣式啟發(fā)方法,以保持前景與背景之間可調(diào)節(jié)的平衡.有成果表明即使對于極端形狀的物體,兩階段回歸也能實現(xiàn)精確定位.
綜上所述,本文提出了基于特征金字塔(FPN)的級聯(lián) RPN網(wǎng)絡(luò)(簡記為CF-RPN)的多階段的跟蹤框架,通過串聯(lián)一系列的RPN模塊來解決類不平衡問題,同時利用多尺度特征來實現(xiàn)魯棒的視覺跟蹤.主要貢獻體現(xiàn)在如下4個方面:
1)采用了ResNet架構(gòu)的孿生網(wǎng)絡(luò),通過增加跟蹤器的中心范圍,有效的防止模型崩潰,保證了平移不變性;
2)采用多級RPN跟蹤框架有效的解決了由于正負樣本的不平衡導(dǎo)致精度的下降問題.
3)充分利用了目標(biāo)的高層語義信息以及底層空間信息的多尺度特征信息;
4)級聯(lián)的RPN可實現(xiàn)錨點框逐級更新,從而細化每一個RPN中目標(biāo)的位置和形狀,提高定位的準(zhǔn)確性.
總之,本文提出的CF-RPN視覺跟蹤模型在33幀/秒的跟蹤效率下,達到了實時的跟蹤精度.在5個標(biāo)準(zhǔn)的跟蹤數(shù)據(jù)集上,包括OTB50[22]、OTB100、VOT2016[23]、VOT2018[24]和VOT2019[25],始終獲得最佳的跟蹤結(jié)果.
由于新的基準(zhǔn)數(shù)據(jù)集的構(gòu)建和各種改進算法的提出,視覺跟蹤在過去十年中得到了快速的發(fā)展.基準(zhǔn)數(shù)據(jù)集為不同算法的比較提供了公平的測試平臺[18,22].每年舉辦的跟蹤挑戰(zhàn)賽不斷地刷新著跟蹤性能[23-25].特別地,Bolme等人[26]的創(chuàng)新地將卷積定理從信號處理領(lǐng)域引入到視覺跟蹤中,將目標(biāo)模板匹配問題轉(zhuǎn)化為頻域的相關(guān)運算.通過這種變換,基于相關(guān)濾波并輔以合適特征的跟蹤器不僅獲得了高效的運行速度而且也提高了跟蹤精度.隨著深度學(xué)習(xí)模型的廣泛運用,基于深度特征表示的相關(guān)濾波的跟蹤算法在流行的跟蹤數(shù)據(jù)集上的測試以及CVPR挑戰(zhàn)賽中都獲得了領(lǐng)先的精度[27].本節(jié)簡要介紹基于孿生網(wǎng)絡(luò)的跟蹤器、特征金字塔及其深層體系結(jié)構(gòu)的最新發(fā)展.
最近基于孿生網(wǎng)絡(luò)的跟蹤器(SiamFC[28])因其在跟蹤精度和效率兩方面均有良好的表現(xiàn)而受到廣泛關(guān)注.這些跟蹤器將視覺跟蹤轉(zhuǎn)換為模板分支和搜索分支的相互關(guān)系問題,以便能夠更好地利用深度網(wǎng)絡(luò)的優(yōu)點實現(xiàn)端到端的學(xué)習(xí).具體地,通過一個Y形神經(jīng)網(wǎng)絡(luò)的訓(xùn)練,獲取兩個分支的互相關(guān)聯(lián)的相似圖.在實際問題中,這兩個分支還可以在跟蹤階段保持固定或在線更新以適應(yīng)目標(biāo)的外觀變化.在此基礎(chǔ)上,融合區(qū)域候選網(wǎng)絡(luò)(RPN)的分類和回歸功能,造就了經(jīng)典的孿生跟蹤器(SiamRPN),從而使得跟蹤性能得到了較大的提升,產(chǎn)生了一些列非常有前景的結(jié)果[8-11,16].值得指出的是,通過數(shù)據(jù)集OTB的測試,他們的跟蹤精度仍然與最先進的深度跟蹤器如ECO和MDNet[29]有較大差距.
特征金字塔是多尺度目標(biāo)檢測系統(tǒng)中的一個基本組成部分.早期的圖像金字塔由于其在計算量和內(nèi)存上的巨大開銷,遭受到了基于深度學(xué)習(xí)目標(biāo)檢測的拋棄.為了解決多尺度目標(biāo)檢測,在圖像金字塔基礎(chǔ)上構(gòu)建的特征金字塔是傳統(tǒng)的解決思路,將每一層特征直接輸出特征圖,這樣可以檢測大范圍尺度的圖像.特征金字塔網(wǎng)絡(luò)(FPN)[30]是根據(jù)特征金字塔概念設(shè)計的特征提取器,目的是提高精度和速度.它替代了類如Faster R-CNN中的特征提取器,并且生成更高質(zhì)量的特征圖金字塔.
得益于2012年深度架構(gòu)AlexNet的提出,網(wǎng)絡(luò)架構(gòu)的研究迅猛發(fā)展,許多復(fù)雜的深度架構(gòu)被相繼提出,如MobileNet[31],VGGNet[32],GoogleNet[33]和ResNet.這些深層架構(gòu)不僅提供了對神經(jīng)網(wǎng)絡(luò)設(shè)計更深入的理解,而且推動了許多計算機視覺任務(wù)的前沿技術(shù)的發(fā)展,如目標(biāo)檢測、圖像分割和人體姿態(tài)估計等.在深度視覺追蹤器中,由于淺層特征對目標(biāo)物體的精確定位具有顯著的支撐作用,當(dāng)目標(biāo)場景較為簡單時,網(wǎng)絡(luò)體系架構(gòu)通常不直接利用來自AlexNet或VGGNet的前幾個卷積層的信息.本文考慮復(fù)雜場景下的目標(biāo)跟蹤問題,解決尺度變化、背景雜波等帶來的挑戰(zhàn).因此亟待嘗試采用更深層次的孿生網(wǎng)絡(luò)模型及其各個卷積層的信息來提升孿生跟蹤器的性能.
本文發(fā)現(xiàn)簡單地通過直接使用像ResNet50這樣的深層網(wǎng)絡(luò)來訓(xùn)練一個孿生跟蹤器并不能獲得預(yù)期的性能改進,甚至可能不升反降,其潛在的原因是孿生跟蹤器的內(nèi)在限制.如果適當(dāng)?shù)乇苊膺@一限制,采用更深的網(wǎng)絡(luò)作為基礎(chǔ)架構(gòu)的跟蹤算法在性能上應(yīng)當(dāng)有顯著的提升.基于此,本文提出了一個基于特征金字塔(FPN)的級聯(lián) RPN網(wǎng)絡(luò)(簡記為CF-RPN)的多階段的跟蹤框架.該框架的基礎(chǔ)網(wǎng)絡(luò)由一對孿生的FPN構(gòu)成,且FPN的自頂向下層生成的深高層到淺低層的多尺度特征分別輸送到級聯(lián)的各RPN模塊中,如圖1所示.在該圖中,z為模板幀,x為搜索幀,A1為初始預(yù)先設(shè)置的錨點框,A2~A4分別為經(jīng)過各個階段更新后的錨點框.通過級聯(lián)的RPN模塊,對簡單負樣本進行篩除,讓正負樣本比例更加平衡;多尺度特征的處理,使得目標(biāo)的高層語義信息以及低層時空信息都能夠加以利用,有利于定位的準(zhǔn)確性.相對于傳統(tǒng)RPN網(wǎng)絡(luò),級聯(lián) RPN網(wǎng)絡(luò)具有多個錨點框,其錨點受前一級RPN的影響.接下來,讓本文給出更為詳細的分析與設(shè)計.
圖1 CF-RPN網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 Architecture of CF-RPN network
基于孿生網(wǎng)絡(luò)的跟蹤算法將視覺跟蹤視為模板分支和搜索分支的相互關(guān)系問題,以便能夠更好地利用深度網(wǎng)絡(luò)的優(yōu)點學(xué)習(xí)跟蹤相似度圖.模板分支用于學(xué)習(xí)目標(biāo)的特征,搜索分支用于搜索區(qū)域中的目標(biāo).通常在序列的第一幀中給出目標(biāo)框,可以看作是一個范例z,目的是在語義嵌入空間中從后面的幀x中找到最相似的部分.
f(z,x)=φ(z)*φ(x)+b
(1)
其中,f表示特征圖,b表示模型相似度值的偏移量.這個簡單的匹配函數(shù)導(dǎo)致了孿生跟蹤器的兩個內(nèi)在限制:
1)孿生跟蹤器采用的搜索部分和特征提取具有嚴(yán)格的平移不變性的內(nèi)在約束,即:
f(z,x[Δτj])=f(z,x)[Δτj]
(2)
其中[Δτj]為平移子窗口;
2)連接部分對結(jié)構(gòu)對稱有內(nèi)在限制,適用的相似度學(xué)習(xí)需滿足f(z,x′)=f(x′,z).
阻礙孿生跟蹤器使用深度網(wǎng)絡(luò)的核心原因與這兩個方面密切相關(guān).具體來說,其一是深度網(wǎng)絡(luò)中的填充破壞了嚴(yán)格的平移不變性;其二是RPN需要非對稱特征來進行分類和回歸.
嚴(yán)格的平移不變性只存在于沒有填充的網(wǎng)絡(luò)中,如AlexNet.當(dāng)現(xiàn)有的網(wǎng)絡(luò)被ResNet或MobileNet等現(xiàn)代深度網(wǎng)絡(luò)所取代時,填充不可避免地會使網(wǎng)絡(luò)變深,從而破壞了嚴(yán)格的平移不變性限制.本文注意到基礎(chǔ)的孿生網(wǎng)絡(luò)跟蹤器具有中心偏置,對在中心位置的目標(biāo)學(xué)習(xí)的占比更大.為此,本文對采用的ResNet網(wǎng)絡(luò)適當(dāng)?shù)脑黾又行姆秶?中心范圍是數(shù)據(jù)填充后均勻分布所產(chǎn)生的最大平移范圍.本文針對不同中心范圍進行了實驗,實驗結(jié)果如表1所示.從該表中不難發(fā)現(xiàn),當(dāng)適當(dāng)增加中心范圍時,EAO會有明顯的提高,但當(dāng)設(shè)置超過±32像素后,反而會有下降的趨勢.根據(jù)實驗結(jié)果,本文將中心范圍設(shè)置為±32像素,使得即使在填充之后位置靠近邊界的目標(biāo)也能夠?qū)W習(xí),從而有效的防止模型崩潰.
表1 VOT數(shù)據(jù)集在不同中心范圍下的EAO
Table 1 EAO of VOT datasets in different center ranges
±0±8±16±32±64EAO(VOT2018)0.2220.2770.3250.3730.368EAO(VOT2016)0.3240.3920.4560.4670.461
另一方面,單階段的RPN是利用最后一層特征進行分類和回歸的,其中分類分支將每張圖像的所有錨點劃分為正負樣本,回歸分支給出最后得分最高的候選框.顯而易見,使用單個RPN僅僅只能利用到高層的語義信息,而目標(biāo)的時空信息沒有加以有效的利用,對目標(biāo)的大尺度變化不能很好的處理,增加了跟蹤器的局限性.為此,本文采用多尺度特征的提取,并分別輸送到隨后的級聯(lián)的各RPN模塊中,使得目標(biāo)的高層語義信息以及底層空間信息都能得以充分利用.
如上所述,只使用諸如AlexNet的淺層網(wǎng)絡(luò),各層次不能提供具有較大差異的特征表述.但是考慮到感受野的變化,F(xiàn)PN中不同層次的特征更有意義:底層的特征主要集中在對定位至關(guān)重要的顏色、形狀等低層次信息,而缺乏語義信息;高層的特征則具有豐富的語義信息,在一些具有挑戰(zhàn)性的場景中是有益的,比如運動模糊、巨大變形等場景.顯然,使用這些豐富的層次信息能夠有助于提升跟蹤精度.
FPN主要解決的是物體檢測中的多尺度問題.該架構(gòu)如圖2所示:由一個自底向上的線路、一個自頂向下的線路以及橫向連接層組成.
圖2 FPN網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.2 Architecture of FPN
1)自底向上:自底向上是一個下采樣過程,特征圖經(jīng)過卷積層,尺寸逐層減小.對于ResNet而言,本文將每一個階段的最后一個殘差塊輸出的特征激活輸出.記conv2,conv3,conv4和conv5卷積層最后階段輸出的殘差塊為{C2,C3,C4,C5}.
2)自上而下:自頂向下的過程把更抽象、語義更強的高層特征圖進行上采樣.
3)橫向連接層:該層是將上采樣的結(jié)果和自底向上生成的相同大小的特征圖進行融合.橫向連接層連接的兩層特征在空間尺寸上相同,這樣可以利用低層特征中的時空信息.本文采用1×1的卷積進行連接,來減少特征圖數(shù)量.
總之,本文借鑒了孿生網(wǎng)絡(luò)的思想,以FPN作為孿生框架的基礎(chǔ)網(wǎng)絡(luò),可以得到不同尺度的多層級特征.同時可以得到非對稱特征輸送給RPN模塊,進行下一步的分類和回歸.
之前的孿生跟蹤器大多忽略了類不平衡的問題,導(dǎo)致在出現(xiàn)類似語義干擾時性能會出現(xiàn)下降的情況.此外,它們只用了來自最后一層的高級語義特征,忽略了多層特征對目標(biāo)跟蹤帶來的價值.針對上述不足,在本文采用的網(wǎng)絡(luò)中,通過提取多分支多尺度特征來協(xié)同推斷目標(biāo)位置.具體地,本文從自頂向下結(jié)構(gòu)中提取多層次特征,分別記為φ1,φ2和φ3,分別輸送入3個RPN模塊.每個RPN模塊如圖3所示.
圖3 RPN網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.3 RPN network
(3)
在訓(xùn)練過程中,每一個RPN的損失函數(shù)由分類損失函數(shù)和回歸損失函數(shù)組成:
(4)
(5)
(6)
由于篩除了一些簡單的負樣本錨點,每個RPN的訓(xùn)練分布逐漸趨于平衡.因此,每個RPN的分類器在區(qū)分遭受干擾的樣本時具有更強的分辨力.換句話說,多層次特征的利用進一步提高了處理復(fù)雜背景的能力.
最后,CF-RPN的總損失函數(shù)由所有的RPN的損失函數(shù)組成:
(7)
綜上,本文制定了一個多階段目標(biāo)跟蹤框架.對于每個視頻幀,在第1幀中預(yù)先計算目標(biāo)模板的多尺度特征.在新的幀中,根據(jù)上一幀的結(jié)果,利用CF-RPN對該區(qū)域進行檢測,然后提取感興趣的區(qū)域.在每個階段,RPN將輸出錨點的分類分?jǐn)?shù)和回歸偏移量.將分類得分為負的錨點丟棄,剩下的錨點組合成一個新的錨點集輸送給下一階段的RPN.在最后一個階段L之后,剩余的錨點作為最終目標(biāo)候選方案,本文運用非極大值抑制(NMS)從中確定最佳的錨點作為跟蹤的最終跟蹤結(jié)果.
實驗細節(jié):CF-RPN是在配置為Intel?Xeon(R)CPU E5-2640 v3 @ 2.60 GHz × 32,Nvidia GTX 2080 8GB RAM的Ubuntu16.04平臺上實現(xiàn)的.本文在ILSVRC2015數(shù)據(jù)集的訓(xùn)練集上訓(xùn)練網(wǎng)絡(luò),并學(xué)習(xí)如何測量一般對象之間的相似性以進行視覺跟蹤.在訓(xùn)練時,只需要FPN中自上而下層的多尺度特征,而級聯(lián)RPN的數(shù)量L設(shè)置為3.根據(jù)經(jīng)驗將學(xué)習(xí)率以及正負樣本的閾值設(shè)置為0.95,0.6和0.3.考慮到目標(biāo)尺度在連續(xù)兩幀之間的平滑變化,本文對每個錨點使用一個不同比率的比例,設(shè)置為[0.33,0.5,1,2,3].CF-RPN采用SGD隨機梯度下降法,并進行超過50組序列的端到端訓(xùn)練,學(xué)習(xí)率在每個序列從到10-6進行幾何退火.
本文分別在OTB50和OTB100兩個數(shù)據(jù)集上進行實驗測試和評估,這兩個數(shù)據(jù)集分別由50個完整標(biāo)注視頻和100個完整標(biāo)注視頻組成.測試可得,本文提出的CF-RPN算法能夠達到平均33 fps運行速度.
在跟蹤精度、魯棒性以及EAO等指標(biāo)方面,本文通過與最近幾年流行的跟蹤器(如SiamRPN,SiamMask等)進行對比來檢驗所提CF-RPN算法的有效性,其測試是通過一次成功評估(OPE)實施的,結(jié)果如圖4、圖5所示.具體地,本文提出的CF-RPN方法在OTB50以及OTB100上獲得了62.36%和66.18%的準(zhǔn)確率.相比準(zhǔn)確率分別為59.19%和64.38%的單階段SiamRPN方法,本文算法的準(zhǔn)確率分別提升了3.17%和1.8%.而與準(zhǔn)確率分別為60.22%和64.28%的SiamMask方法相比,本文算法的準(zhǔn)確率分別提升了2.14%和1.9%.
圖4 基于OTB50數(shù)據(jù)集上與流行跟蹤器的成功率和精度的對比圖Fig.4 Success and precision comparison with state-of-the-art trackers on the OTB50 dataset圖5 基于OTB100數(shù)據(jù)集的與流行跟蹤器的成功率和精度的對比圖Fig.5 Success and precision in comparison with state-of-the-art trackers on the OTB100 dataset
接下來,基于OTB100數(shù)據(jù)集,本文進一步給出了復(fù)雜場景下可視化的目標(biāo)跟蹤結(jié)果圖,如圖6所示.在該圖中,實線為目標(biāo)標(biāo)簽,虛線為SiamMask的跟蹤框,雙劃線為本文提出的CF-RPN算法的跟蹤框.在遮擋,相似性干擾,快速移動(第1行,第2行)以及尺度變化(第3行)等挑戰(zhàn)下,CF-RPN都能很好的跟蹤到目標(biāo)以及丟失后快速的回歸到目標(biāo).
圖6 OTB100數(shù)據(jù)集上SiamMask與CF-RPN可視化跟蹤效果對比圖Fig.6 Comparison of the visual tracking effect of SiamMask and CF-RPN on the OTB100 dataset
為了進一步檢驗算法的有效性,本文進一步在VOT2016、VOT2018及VOT2019數(shù)據(jù)集上對算法進行了測試.
VOT2016包含了60個視頻序列,旨在評估跟蹤器的短期性能.其運用期望平均重疊率(EAO)來對跟蹤算法的整體性能及魯棒性進行評估.圖7顯示了不同跟蹤器的EAO.由該圖不難發(fā)現(xiàn),CF-RPN獲得了最好的結(jié)果,顯著優(yōu)于基準(zhǔn)的SiamRPN和其他方法.進而,表2給出了VOT2016數(shù)據(jù)集上 不同跟蹤器的詳細對比數(shù)據(jù).如表2所示,CF-RPN的EAO得分為46.7%,明顯優(yōu)于得分為39.3%的SiamRPN算法,性能提升了7.4%;相比于得分為43.6%的SiamMask算法,性能提升了3.1%.此外,本文提出的CF-RPN算法在準(zhǔn)確率和魯棒性上也都領(lǐng)先于其他跟蹤器,分別領(lǐng)先排名第二的SiamMask算法1.4%和3.1%.
圖7 VOT2016數(shù)據(jù)集上各算法的EAOFig.7 EAO of various state-of-the-art trackers on the VOT2016 dataset
表2 不同跟蹤器在VOT2016中EAO、魯棒性以及準(zhǔn)確率
Table 2 EAO,robustness(failure rate),and accuracy of various state-of-the-art trackers on the VOT2016 dataset
TrackerAccuracyRobustnessEAOCF-RPN0.6550.2000.467SiamRPN0.6180.2380.393SiamMask0.6210.2140.436Deep-MKCF0.5640.3520.232CCOT0.5540.2400.329MDNet0.5490.3300.257ANT0.5010.4600.204ACT0.4680.5600.172
VOT2018 包含了60個序列,這些序列是通過替換VOT2016中至少10個具有挑戰(zhàn)性的視頻而開發(fā)出來的.不同于VOT2016,VOT018引入了一種新的同時考慮跟蹤性能和效率的實時實驗.根據(jù)VOT2018的評估方案,本文采用了期望平均重疊(EAO)、精度(A)以及魯棒性(R)比較了CF-RPN和SiamRPN以及其他幾種排名靠前的算法.如表3所示,CF-RPN的EAO得分為37.3%,僅次于表現(xiàn)最佳的SiamMask算法0.1%,位列第2位;相比于得分為32.7%的SiamRPN算法,性能提升了4.6%.此外,本文提出的CF-RPN算法在準(zhǔn)確率和魯棒性上,皆領(lǐng)先于其他跟蹤器,分別領(lǐng)先于排名第二的SiamMask算法2.1%和1%.
VOT2019同樣包含了60個序列,與VOT2018不同的是,VOT2019進行了其中12個序列的更換,增加了挑戰(zhàn)的難度,詳細對比實驗結(jié)果如表4所示.具體地,本文提出的CF-RPN算法在準(zhǔn)確率方面表現(xiàn)最佳,領(lǐng)先排名第二的SiamDW算法0.3%;其次,EAO得分為27.9%,僅低于得分為29.1%的SiamDW算法1.2%,但相比于得分為26.9%的SiamMask算法,性能提升了1.0%;最后,魯棒性低于表現(xiàn)最佳的SiamDW算法2.0%,位列于第二,但相比于得分為49.2%的SiamMask算法,性能提升了19.2%.
表3 不同跟蹤器在VOT2018中EAO、魯棒性以及準(zhǔn)確率
Table 3 EAO,robustness(failure rate),and accuracy of various state-of-the-art trackers on the VOT2018 dataset
TrackerAccuracyRobustnessEAOCF-RPN0.6130.2600.373SiamRPN0.5740.3100.327SiamMask0.5920.2700.374SA_Siam_R0.5520.2600.330SA_Siam_P0.5100.3600.279ECO0.4840.2700.280SiamFC0.4810.2900.177DCFNet0.4750.5500.185
表4 不同跟蹤器在VOT2019中EAO、魯棒性以及準(zhǔn)確率
Table 4 EAO,robustness(failure rate),and accuracy of various state-of-the-art trackers on the VOT2019 dataset
TrackerAccuracyRobustnessEAOCF-RPN0.6000.3000.279SiamRPN0.5700.5770.248SiamMask0.5820.4920.269SA_SIAM_R0.5520.3300.245ROAMpp0.5500.3470.271SiamDW0.5970.2800.291ANT0.4680.8300.147
本文提出了一個多階段跟蹤框架CF-RPN.與以前的算法相比,CF-RPN通過在級聯(lián)架構(gòu)中執(zhí)行難負樣本采樣,在處理復(fù)雜背景(如類似干擾,遮擋,形變,尺度變化)方面表現(xiàn)出了比較強的性能.此外,CF-RPN通過提取多尺度特征,將高層語義信息和低層時空信息都加以利用,通過級聯(lián)的RPN模塊進行更新錨點框,達到提升跟蹤效果的目的.在5種流行的數(shù)據(jù)集OTB50,OTB100,VOT2016,VOT2018,VOT2019上進行的大量實驗中,CF-RPN都能獲得最好的準(zhǔn)確率并實時運行.值得一提的是,由于網(wǎng)絡(luò)層數(shù)較深,計算量較大,以及計算機硬件條件的限制,導(dǎo)致跟蹤速度不高.今后將研究如何降低特征提取以及特征處理的計算量,以提高跟蹤速度和精度.