韓 萍,王皓韡,方 澄
(中國(guó)民航大學(xué)a.電子信息與自動(dòng)化學(xué)院;b.計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,天津 300300)
視頻目標(biāo)跟蹤作為計(jì)算機(jī)視覺中最基本的任務(wù)之一,在人機(jī)交互、視頻監(jiān)控、自動(dòng)駕駛、醫(yī)學(xué)診斷、行為識(shí)別等多個(gè)領(lǐng)域有著廣泛的應(yīng)用。跟蹤算法利用視頻第一幀中未知目標(biāo)的邊界框作為初始信息,實(shí)現(xiàn)對(duì)后續(xù)視頻中目標(biāo)的跟蹤定位。但由于邊界框中摻雜了目標(biāo)以外的背景信息,且在跟蹤過程中易受多種因素的干擾,跟蹤算法較難準(zhǔn)確地理解跟蹤目標(biāo)的特征信息。因此,如何加強(qiáng)跟蹤算法對(duì)視頻信息的理解,提高目標(biāo)與背景的區(qū)分能力,實(shí)現(xiàn)對(duì)視頻目標(biāo)的精準(zhǔn)跟蹤仍是一個(gè)富有挑戰(zhàn)的問題。
近年來,隨著計(jì)算機(jī)視覺領(lǐng)域的發(fā)展,多種跟蹤算法先后出現(xiàn)。其中,主流跟蹤算法可以歸結(jié)為兩大類:基于相關(guān)濾波的跟蹤算法和基于孿生網(wǎng)絡(luò)的跟蹤算法。以CCOT(learning continuous convolution operators for visual tracking)[1]、ECO(efficient convolution operators for tracking)[2]等算法為代表的基于相關(guān)濾波的跟蹤算法利用深度圖像特征替換了傳統(tǒng)特征,但由于仍需要在線學(xué)習(xí)網(wǎng)絡(luò)參數(shù),不可避免地限制了此類算法的跟蹤性能。另一類基于孿生網(wǎng)絡(luò)的跟蹤算法利用大量視頻數(shù)據(jù)離線學(xué)習(xí),不需要在線更新參數(shù),在跟蹤精度和速度上取得了較好的平衡。而基于全卷積孿生網(wǎng)絡(luò)的目標(biāo)跟蹤(SiamFC,fully-convolutional siamese net works for object tracking)算法[3]成功地利用孿生網(wǎng)絡(luò)結(jié)構(gòu)將跟蹤問題轉(zhuǎn)換為相似度匹配問題,以跟蹤目標(biāo)圖像為目標(biāo)模板,后續(xù)視頻幀為搜索圖像,利用深度神經(jīng)網(wǎng)絡(luò)提取圖像特征,計(jì)算目標(biāo)模板特征與搜索圖像特征的相似匹配程度,實(shí)現(xiàn)目標(biāo)跟蹤。隨后,Valmadre等[4]提出了跟蹤算法CFNet(end-to-end representation learning for correlation filter based tracking),將相關(guān)濾波器模塊嵌入孿生網(wǎng)絡(luò)中,以加強(qiáng)模型的特征提取能力。Li 等[5]提出的跟蹤算法SiamRPN(high performance visual tra-cking with siamese region proposal network)首次將區(qū)域建議網(wǎng)絡(luò)引入孿生網(wǎng)絡(luò)結(jié)構(gòu)中,利用分類分支和回歸分支共同確定跟蹤目標(biāo)位置。Wang 等[6]提出了利用無監(jiān)督方法訓(xùn)練的跟蹤算法UDT(unsupervised deep tra-cking),通過比較視頻序列正放與倒放過程中目標(biāo)跟蹤的差距建立損失訓(xùn)練模型,為豐富訓(xùn)練數(shù)據(jù)提供了新思路。但以上SiamFC 的改進(jìn)算法均以目標(biāo)外觀信息的相似程度作為衡量依據(jù)進(jìn)行跟蹤。這些算法在視頻序列中出現(xiàn)其他相似外觀物體的干擾或因背景光照變化等情況造成目標(biāo)外觀模糊或遮擋時(shí),易發(fā)生跟蹤漂移或丟失。
為了提升孿生網(wǎng)絡(luò)算法對(duì)目標(biāo)和背景的區(qū)分能力,受注意力機(jī)制在圖像領(lǐng)域應(yīng)用的啟發(fā),許多改進(jìn)算法利用注意力機(jī)制加強(qiáng)對(duì)目標(biāo)特征的提取能力。如王玲等[7]在目標(biāo)模板分支添加了通道注意力結(jié)構(gòu),以增強(qiáng)卷積網(wǎng)絡(luò)對(duì)正負(fù)樣本的區(qū)分能力;Wang 等[8]提出的跟蹤算法RasNet(residual attentional siamese network for high performance online visual tracking)針對(duì)目標(biāo)模板設(shè)計(jì)了以殘差注意力為主,通用注意力和通道注意力為輔的三重注意力機(jī)制強(qiáng)化目標(biāo)模板特征;范穎等[9]提出了多層深度特征漸進(jìn)注意力網(wǎng)絡(luò),利用注意力機(jī)制減少了深層特征與淺層特征結(jié)合的冗余。然而,這些針對(duì)目標(biāo)模板設(shè)計(jì)的注意力機(jī)制,忽視了對(duì)搜索圖像中跟蹤目標(biāo)的特征表達(dá),一定程度上限制了對(duì)目標(biāo)模板與搜尋區(qū)域的匹配準(zhǔn)確度。
針對(duì)以上問題,提出了一種基于動(dòng)態(tài)權(quán)重的雙分支孿生網(wǎng)絡(luò)目標(biāo)跟蹤算法。本文提出的算法在SiamFC算法基礎(chǔ)上,利用圖像深度語義信息不易隨外觀變化而改變的特性,增加了基于語義信息的跟蹤支路,作為外觀分支的有效補(bǔ)充。同時(shí)在語義分支添加了雙重注意力模塊,同步加強(qiáng)目標(biāo)模板和搜索圖像的語義信息。兩分支采用不同的初始化參數(shù)和訓(xùn)練方式單獨(dú)訓(xùn)練,以保證兩分支跟蹤結(jié)果的異質(zhì)性。為了在跟蹤過程中更有效地結(jié)合兩分支的各自優(yōu)勢(shì),給出了一種動(dòng)態(tài)權(quán)重系數(shù)的計(jì)算方法,實(shí)時(shí)調(diào)整分支的結(jié)合權(quán)重,更好地實(shí)現(xiàn)了分支互補(bǔ)。在4 個(gè)標(biāo)準(zhǔn)目標(biāo)跟蹤數(shù)據(jù)集OTB2015[10]、UAV20L[11]、UAV123 和GOT-10 k[12]上驗(yàn)證了本文算法的有效性,實(shí)驗(yàn)證明,該算法有效提高了算法的跟蹤精度和魯棒性。
SiamFC 算法的兩分支分別輸入目標(biāo)模板與搜索圖像,利用兩個(gè)共享權(quán)重的全卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行特征提取,衡量輸出的高維特征的相似度,實(shí)現(xiàn)目標(biāo)跟蹤。具體來講,目標(biāo)模板x 和搜索圖像z 通過共享權(quán)重的全卷積神經(jīng)網(wǎng)絡(luò)φ 提取特征后,利用互相關(guān)操作計(jì)算兩者相似匹配程度如下
式中corr()表示互相關(guān)計(jì)算函數(shù)。輸入圖像對(duì)經(jīng)特征提取和互相關(guān)計(jì)算后,可得到衡量目標(biāo)模板與搜索圖像相似匹配程度的響應(yīng)圖f(x,z),以其作為新一幀目標(biāo)位置的判斷依據(jù),如圖1 所示。響應(yīng)圖中的最大值即為匹配程度最高的位置,經(jīng)上采樣和插值操作后,將該位置坐標(biāo)對(duì)應(yīng)還原至搜索圖像中,視作下一視頻幀的跟蹤目標(biāo)位置中心。
圖1 SiamFC 算法網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.1 Network structure of SiamFC algorithm
注意力機(jī)制源于人類選擇性關(guān)注圖像重點(diǎn)區(qū)域的特殊視覺機(jī)制,受這一現(xiàn)象啟發(fā),深度學(xué)習(xí)領(lǐng)域引入注意力機(jī)制,以訓(xùn)練網(wǎng)絡(luò)自主學(xué)習(xí)一組權(quán)重系數(shù)來強(qiáng)調(diào)重點(diǎn)信息,抑制無關(guān)信息。在計(jì)算機(jī)視覺領(lǐng)域中,主流的注意力機(jī)制可分為3 種:通道注意力、空間注意力與自注意力。由于圖像特征通道對(duì)不同目標(biāo)的響應(yīng)有所區(qū)別,通道注意力通過學(xué)習(xí)特征通道的重要程度,為特征通道賦予不同的權(quán)重系數(shù),實(shí)現(xiàn)在通道維度上的關(guān)注。為了減少圖像因旋轉(zhuǎn)、平移等空間變換的影響,空間注意力通過空間轉(zhuǎn)換,將原始圖像特征變換至空間維度,計(jì)算不同位置的權(quán)重系數(shù),實(shí)現(xiàn)對(duì)特定位置區(qū)域的關(guān)注。自注意力則強(qiáng)調(diào)關(guān)注特征的內(nèi)部信息,減少對(duì)外部信息的依賴。
針對(duì)SiamFC 算法僅依據(jù)圖像外觀信息進(jìn)行跟蹤的問題,本文算法中的跟蹤網(wǎng)絡(luò)采用外觀與語義相結(jié)合的雙分支結(jié)構(gòu),將語義分支作為外觀分支的補(bǔ)充。外觀分支采用SiamFC 算法結(jié)構(gòu),以度量顏色、紋理等外觀信息的相似性作為訓(xùn)練目的,衡量相似度,確定目標(biāo)位置。為了利用圖像深層語義信息不易隨圖像外觀變化而改變的特性,語義分支以目標(biāo)類別等抽象語義信息為度量依據(jù)衡量相似度。同時(shí),語義分支采用一種雙重注意力機(jī)制,從空間位置和通道響應(yīng)兩個(gè)維度深化語義特征表達(dá)。跟蹤網(wǎng)絡(luò)分別從目標(biāo)外觀和語義兩個(gè)角度的圖像信息進(jìn)行相關(guān)匹配計(jì)算,利用實(shí)時(shí)更新的動(dòng)態(tài)權(quán)重整合跟蹤結(jié)果,確定新一幀的目標(biāo)位置,基于動(dòng)態(tài)權(quán)重的雙分支目標(biāo)跟蹤網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。
外觀分支結(jié)構(gòu)如圖2 中虛線分支所示,為了加強(qiáng)模型特征提取能力,將SiamFC 算法的特征提取網(wǎng)絡(luò)替換為網(wǎng)絡(luò)層次更深的VGGNet-16 網(wǎng)絡(luò)。目標(biāo)模板x和搜索圖像z 通過共享權(quán)重的卷積神經(jīng)網(wǎng)絡(luò)φA提取外觀特征,經(jīng)互相關(guān)計(jì)算后,得到衡量外觀相似度的響應(yīng)圖HA,互相關(guān)計(jì)算如下
式中φA表示外觀分支的特征提取網(wǎng)絡(luò)。所得響應(yīng)圖HA與標(biāo)簽Y 通過交叉熵?fù)p失函數(shù)計(jì)算損失,經(jīng)反向傳播更新模型參數(shù),如下
式中:N 為每輪輸入的樣本數(shù)量;θA為外觀分支網(wǎng)絡(luò)模型中的可學(xué)習(xí)參數(shù);L()表示所采用的交叉熵?fù)p失函數(shù);xi,zi分別代表第i 對(duì)訓(xùn)練樣本中的目標(biāo)模板和搜索圖像;Yi代表第i 對(duì)訓(xùn)練樣本的響應(yīng)圖標(biāo)簽。
語義分支結(jié)構(gòu)如圖2 中實(shí)線分支所示,語義分支模型利用共享權(quán)重的卷積神經(jīng)網(wǎng)絡(luò)φS提取特征。兩分支的特征提取網(wǎng)絡(luò)雖結(jié)構(gòu)相同,但其中的參數(shù)有所區(qū)分。語義分支在ImageNet[13]數(shù)據(jù)集上,采用以目標(biāo)分類為訓(xùn)練目的VGGNet-16 網(wǎng)絡(luò)進(jìn)行參數(shù)初始化,且特征提取網(wǎng)絡(luò)參數(shù)在訓(xùn)練中不做更新。同時(shí)為了深化語義特征表達(dá),經(jīng)網(wǎng)絡(luò)提取的語義特征需經(jīng)雙重注意力模塊后,再通過互相關(guān)計(jì)算得到衡量語義相似度的響應(yīng)圖HS。語義分支采用如下的損失函數(shù)進(jìn)行反向傳播更新模型參數(shù)
式中θS為語義分支網(wǎng)絡(luò)模型的可學(xué)習(xí)參數(shù),其余參數(shù)含義同外觀分支。語義特征響應(yīng)圖HS計(jì)算如下
式中:φS表示語義分支的特征提取網(wǎng)絡(luò);A()表示第2.3節(jié)所述的雙重注意力機(jī)制。
由于特征提取網(wǎng)絡(luò)的卷積核大小固定,感受野范圍受到限制,使語義分支在特征提取過程中僅能關(guān)注局部空間內(nèi)的語義特征,未能充分考慮不同空間位置語義信息間的相互聯(lián)系。同時(shí),與具有先驗(yàn)類別的圖像分類或檢測(cè)任務(wù)不同,目標(biāo)跟蹤任務(wù)有跟蹤目標(biāo)類別預(yù)先未知但跟蹤過程中不改變的特點(diǎn)。如Li 等[14]所觀察,深層圖像特征的不同通道對(duì)某一類目標(biāo)有著更為突出的響應(yīng),但對(duì)于同一類別的物體,響應(yīng)通道明顯不唯一且相互關(guān)聯(lián)。為了強(qiáng)化網(wǎng)絡(luò)對(duì)同一類別的目標(biāo)響應(yīng),同時(shí)關(guān)注全局的語義信息,采用融合空間注意力和通道注意力的雙重注意力機(jī)制,從空間位置和通道響應(yīng)兩個(gè)維度深化語義特征??臻g注意力將全局的語義信息加權(quán)至圖像局部特征中,綜合考慮圖像的全局語義,完善局部特征表達(dá);通道注意力通過加強(qiáng)特征通道間的關(guān)聯(lián)性強(qiáng)化語義特征。兩類注意力在同步計(jì)算后,以對(duì)應(yīng)元素相加的方式實(shí)現(xiàn)注意力融合,整體結(jié)構(gòu)如圖3 所示。
圖3 雙重注意力機(jī)制結(jié)構(gòu)圖Fig.3 Dual-attention mechanism structure diagram
空間注意力結(jié)構(gòu)如圖3 中上半分支所示,經(jīng)特征提取網(wǎng)絡(luò)φS提取的原始特征F∈RC×H×W為C ×H ×W長(zhǎng)×寬×高的三維矩陣,分別通過兩個(gè)不同的卷積層生成新的特征矩陣,分別記作B,K∈RC×H×W,特征矩陣B 經(jīng)轉(zhuǎn)置后與K 進(jìn)行對(duì)應(yīng)元素相乘計(jì)算,通過Softmax函數(shù)得到空間注意力S,其中元素計(jì)算如下
空間注意力S 中的元素sij用于衡量在原始特征F 中第i 個(gè)位置元素對(duì)第j 個(gè)位置元素的影響,處于不同位置的元素所代表的特征語義越相近,兩者間的相關(guān)性就越強(qiáng)。
原始特征F 通過另一個(gè)單獨(dú)的卷積層,生成特征矩陣D∈RC×N(長(zhǎng)×寬為C×N 的二維矩陣)。特征矩陣D 與空間注意力S 進(jìn)行矩陣對(duì)應(yīng)元素相乘計(jì)算,經(jīng)形狀轉(zhuǎn)換生成空間注意力特征??臻g注意力特征與參數(shù)α 相乘后,與原始特征F 的對(duì)應(yīng)位置元素相加,得到最終的空間注意力特征EP,其中元素計(jì)算如下
通道注意力結(jié)構(gòu)如圖3 中下半分支所示,與空間注意力不同,為了關(guān)注通道間的關(guān)聯(lián)性,由原始特征F及其轉(zhuǎn)置L 生成通道注意力M∈RC×C(長(zhǎng)×寬為C×C的二維矩陣),其中元素計(jì)算如下
式中:mij表示原始特征F 中第i 個(gè)通道對(duì)第j 個(gè)通道的影響和依賴關(guān)系,生成的通道注意力特征以矩陣相乘的方法施加到原始特征上作為通道注意力G。通道注意力G 與權(quán)重系數(shù)β 相乘后,以矩陣對(duì)應(yīng)位置元素相加的方式得到最終的通道注意力特征EC∈RC×H×W,其中元素計(jì)算如下
式中β 初始預(yù)設(shè)為0。通道注意力特征EC在原始特征F 上利用通道特征間的語義依賴關(guān)系,加強(qiáng)了特征表達(dá)能力。
為了融合兩種不同的注意力特征,將兩種注意力特征對(duì)應(yīng)位置元素相加,經(jīng)雙重注意力強(qiáng)化后的語義特征如下
文中的雙重注意力機(jī)制僅采用了少量卷積計(jì)算和轉(zhuǎn)置操作,在加強(qiáng)語義表達(dá)的同時(shí)不會(huì)增加過多模型參數(shù),減少了對(duì)跟蹤速度的影響。
外觀分支與語義分支分別根據(jù)不同類型的圖像信息進(jìn)行跟蹤,因此兩分支在單獨(dú)跟蹤過程中也有不同的跟蹤結(jié)果。為了能夠更好地利用兩分支在不同場(chǎng)景下的跟蹤優(yōu)勢(shì),采用動(dòng)態(tài)權(quán)重結(jié)合兩分支,優(yōu)化跟蹤結(jié)果,如圖4 所示。
圖4 跟蹤響應(yīng)圖對(duì)比Fig.4 Comparison of tracking response map
由圖4可知,決定跟蹤位置的響應(yīng)圖峰值大小以及波動(dòng)程度直觀地反映了跟蹤結(jié)果的置信度。當(dāng)跟蹤目標(biāo)與搜索視頻圖像的某一位置匹配準(zhǔn)確時(shí),理想的響應(yīng)圖僅存在一個(gè)尖銳的高峰響應(yīng),其他區(qū)域無明顯響應(yīng),如圖4(a)所示,相似匹配峰越尖銳突出,表明定位的置信度越高;相反地,當(dāng)響應(yīng)圖中峰值不明顯、響應(yīng)圖波動(dòng)程度劇烈或存在多個(gè)次高峰干擾時(shí),容易引發(fā)目標(biāo)跟蹤的漂移或丟失,如圖4(b)所示。針對(duì)這一特點(diǎn),為了對(duì)兩分支的響應(yīng)圖進(jìn)行評(píng)價(jià),采用了平均峰值相關(guān)能量(APCE,average peak to correlation energy)指標(biāo)衡量響應(yīng)圖的結(jié)果,平均峰值相關(guān)能量EAPCE的計(jì)算方式如下
式中fmax、fmin和fw,h分別表示響應(yīng)圖中的最大值、最小值和響應(yīng)圖中(w,h)位置上的響應(yīng)。對(duì)于存在尖銳的高峰響應(yīng)且噪聲較小的響應(yīng)圖,EAPCE指標(biāo)更高;當(dāng)響應(yīng)圖中有多個(gè)峰值或有較大波動(dòng)時(shí),EAPCE指標(biāo)會(huì)顯著降低。同時(shí),響應(yīng)圖中最大值fmax的大小也直接反映了該位置的置信度。根據(jù)以上這兩個(gè)指標(biāo),動(dòng)態(tài)分支結(jié)合權(quán)重系數(shù)λ 由兩分支響應(yīng)圖的最高響應(yīng)峰值和波動(dòng)程度指標(biāo)EAPCE計(jì)算,如下
通過在跟蹤過程中,實(shí)時(shí)計(jì)算衡量?jī)煞种Ц髯皂憫?yīng)圖置信度的指標(biāo),動(dòng)態(tài)調(diào)整分支結(jié)合權(quán)重,有效地利用兩分支的各自優(yōu)勢(shì)進(jìn)一步提升跟蹤模型的跟蹤精度。
兩分支采用VGGNet-16 的1~13 層作為骨干網(wǎng)絡(luò)。網(wǎng)絡(luò)訓(xùn)練階段,外觀分支參數(shù)根據(jù)Xavier 方法初始化,語義分支采用在ImageNet 數(shù)據(jù)集上進(jìn)行目標(biāo)分類訓(xùn)練的參數(shù)初始化。為了保證兩分支特征提取異質(zhì)性,采用不同的訓(xùn)練策略單獨(dú)訓(xùn)練。以數(shù)據(jù)集GOT-10 k作為訓(xùn)練集,該數(shù)據(jù)集包含了563 個(gè)類別,87 個(gè)目標(biāo)運(yùn)動(dòng)模式,超過10 000 個(gè)視頻序列,共計(jì)150 萬個(gè)標(biāo)注框。
網(wǎng)絡(luò)訓(xùn)練階段,兩分支網(wǎng)絡(luò)的初始學(xué)習(xí)率設(shè)置為10-2,隨著訓(xùn)練過程衰減至10-5,共進(jìn)行50 輪迭代,梯度下降動(dòng)量設(shè)為0.9,批次大小設(shè)為16,其中語義分支的特征提取網(wǎng)絡(luò)參數(shù)在訓(xùn)練過程中不做修改,只訓(xùn)練雙重注意力部分。網(wǎng)絡(luò)跟蹤階段,兩分支利用動(dòng)態(tài)權(quán)重系數(shù)結(jié)合測(cè)試,為了應(yīng)對(duì)目標(biāo)跟蹤過程中尺度變化,跟蹤時(shí)采用0.974 5、1、1.037 5 3 個(gè)尺度進(jìn)行匹配搜索。
OTB2015 作為目標(biāo)跟蹤領(lǐng)域評(píng)價(jià)算法的常用視頻跟蹤測(cè)試集,共計(jì)包括100 個(gè)人工標(biāo)注的視頻序列,該數(shù)據(jù)集的評(píng)價(jià)指標(biāo)主要為準(zhǔn)確率(Precision)和成功率(Success)。準(zhǔn)確率關(guān)注跟蹤算法對(duì)目標(biāo)中心位置定位的誤差,成功率關(guān)注跟蹤算法所生成的邊界框與標(biāo)注框的重疊比率。首先通過消融實(shí)驗(yàn)驗(yàn)證了本文算法各部分結(jié)構(gòu)的有效性,隨后與多個(gè)跟蹤算法進(jìn)行對(duì)比試驗(yàn),在OTB2015 數(shù)據(jù)集上對(duì)算法的整體跟蹤效果進(jìn)行了評(píng)估。
3.1.1 消融實(shí)驗(yàn)
消融實(shí)驗(yàn)通過比較以不同權(quán)重系數(shù)結(jié)合與是否采用雙重注意力機(jī)制的跟蹤結(jié)果,分析了單獨(dú)采用外觀分支、語義分支、以固定權(quán)重進(jìn)行分支結(jié)合和利用動(dòng)態(tài)權(quán)重分支結(jié)合的跟蹤性能,對(duì)比結(jié)果如表1 所示。
表1 在OTB2015 數(shù)據(jù)集上本文算法的消融實(shí)驗(yàn)Tab.1 Ablation experiment of proposed method on dataset OTB2015
由表1 可見,當(dāng)λ=0 和λ=1 時(shí),分別代表了單獨(dú)采用語義分支和外觀分支進(jìn)行跟蹤,當(dāng)兩者以不同固定權(quán)重進(jìn)行結(jié)合跟蹤時(shí),均較采用單一分支的跟蹤結(jié)果更好,表明兩分支相結(jié)合確實(shí)能起到信息互補(bǔ),完善模型表達(dá),提升跟蹤準(zhǔn)確率的效果。當(dāng)采用動(dòng)態(tài)權(quán)重結(jié)合分支時(shí),算法結(jié)果優(yōu)于結(jié)果最好的固定值。表明兩分支利用動(dòng)態(tài)權(quán)重結(jié)合時(shí),能夠使模型在跟蹤過程中及時(shí)調(diào)整分支結(jié)合權(quán)重,發(fā)揮不同分支優(yōu)勢(shì),提升跟蹤準(zhǔn)確率和成功率。
在實(shí)時(shí)跟蹤速度測(cè)試中,采用分支結(jié)合策略的跟蹤算法與采用單一分支進(jìn)行跟蹤相比,跟蹤速度略有降低。這主要是由于在實(shí)時(shí)跟蹤中,需要對(duì)雙分支3個(gè)尺度的響應(yīng)分別進(jìn)行計(jì)算,增大了實(shí)時(shí)計(jì)算量。同時(shí)由表1 后兩行可見,跟蹤算法采用雙重注意力后,未對(duì)跟蹤速度造成較大影響。
3.1.2 對(duì)比實(shí)驗(yàn)
將本文算法與SiamRPN[5]、ECO[2]、SiamFC[3]、UDT[6]等跟蹤算法進(jìn)行對(duì)比試驗(yàn)。評(píng)價(jià)指標(biāo)為跟蹤算法自視頻初始值跟蹤至最后一幀(OPE,one pass evaluation)的準(zhǔn)確率和成功率,結(jié)果如圖5 和圖6 所示。
圖5 OTB2015 數(shù)據(jù)集準(zhǔn)確率對(duì)比結(jié)果Fig.5 Comparison result of precision rate on dataset OTB2015
圖6 OTB2015 數(shù)據(jù)集成功率對(duì)比結(jié)果Fig.6 Comparison result of success rate on dataset OTB2015
由圖5 和圖6 可知,本文算法充分利用了深度孿生神經(jīng)網(wǎng)絡(luò)離線學(xué)習(xí)圖像特征的優(yōu)勢(shì),在準(zhǔn)確率和成功率上均優(yōu)于ECO 等相關(guān)濾波算法。同時(shí)與CFNet、SiamRPN、UDT 等采用深度孿生神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的算法相比,本文算法在準(zhǔn)確率和成功率兩項(xiàng)指標(biāo)上也均較優(yōu),這主要是由于該算法添加了經(jīng)雙重注意力機(jī)制強(qiáng)化后的語義分支,有效地補(bǔ)充了僅利用外觀特征進(jìn)行跟蹤的不足。
OTB2015 數(shù)據(jù)集中的每段視頻分別存在一類或多類跟蹤挑戰(zhàn)。挑戰(zhàn)屬性分為光照變化(Ⅳ,illumination variation)、尺度變化(SV,scale variation),目標(biāo)遮擋(OCC,occlusion)、目標(biāo)形變(DEF,deformation)、運(yùn)動(dòng)模糊(MB,motion blur)、快速移動(dòng)(FM,fast motion)、平面內(nèi)旋轉(zhuǎn)(IPR,in-plane rotation)、平面外旋轉(zhuǎn)(OPR,out-of-plane rotation)、離開視野(OV,out-of-view)、背景雜亂(BC,background clutters)、低分辨率(LR,low resolution)共計(jì)11 種。若跟蹤算法在某一類挑戰(zhàn)上的評(píng)價(jià)結(jié)果較高,則表示該算法對(duì)該類挑戰(zhàn)的應(yīng)對(duì)更加出色,跟蹤結(jié)果更加準(zhǔn)確。表2 和表3 具體展示了本文算法與對(duì)比算法在各類挑戰(zhàn)屬性上跟蹤準(zhǔn)確率與成功率的結(jié)果,并依照整體結(jié)果進(jìn)行排序。
表2 OTB2015 數(shù)據(jù)集上不同挑戰(zhàn)屬性跟蹤準(zhǔn)確率對(duì)比Tab.2 Comparison of the precision rate of different challenge attributes on the dataset OTB2015
從表2、表3 可看出:由于本文算法語義分支的補(bǔ)充,減少了因目標(biāo)移動(dòng)過程中外觀變化帶來的影響,使該算法在運(yùn)動(dòng)模糊、快速移動(dòng)和離開視野3 類挑戰(zhàn)屬性上的跟蹤結(jié)果較其他算法更為準(zhǔn)確;在平面內(nèi)外旋轉(zhuǎn)兩個(gè)挑戰(zhàn)屬性上,跟蹤成功率指標(biāo)略低于SiamRPN 算法,主要是由于SiamRPN 算法采用了錨框回歸的算法分支,提升了對(duì)跟蹤目標(biāo)的旋轉(zhuǎn)適應(yīng)性;在平面內(nèi)外旋轉(zhuǎn)的定位準(zhǔn)確率指標(biāo)及其他挑戰(zhàn)屬性中,本文算法仍有著一定優(yōu)勢(shì)。
表3 OTB2015 數(shù)據(jù)集上不同挑戰(zhàn)屬性跟蹤成功率對(duì)比Tab.3 Comparison of the success rate of different challenge attributes on the dataset OTB2015
圖7 以可視化的方式比較了本文算法與SiamRPN、UDT、SiamFC 在Liquor 等視頻序列上的結(jié)果。以首行Liquor 視頻序列為例,跟蹤目標(biāo)頻繁移動(dòng)帶來了尺度變化、目標(biāo)遮擋、離開視野等多項(xiàng)挑戰(zhàn),SiamRPN、SiamFC 算法由于相似目標(biāo)的干擾造成了目標(biāo)漂移,UDT 則無法正確適應(yīng)目標(biāo)的尺度變化,而本文算法對(duì)跟蹤目標(biāo)進(jìn)行了準(zhǔn)確定位,且較好地應(yīng)對(duì)了目標(biāo)的尺度變化。
圖7 在OTB2015 數(shù)據(jù)集上跟蹤算法可視化對(duì)比Fig.7 Visual comparison of tracking algorithms on OTB2015 dataset
UAV 數(shù)據(jù)集是無人機(jī)在低空航空視角采集的目標(biāo)跟蹤數(shù)據(jù)集,其中:UAV20L 包含20 段長(zhǎng)時(shí)跟蹤視頻序列,平均每段視頻包含2 934 個(gè)視頻幀;UAV123包含123 個(gè)短時(shí)跟蹤視頻序列,平均每段視頻包含915個(gè)視頻幀。將本文算法同CCOT[1]、UDT[6]、ECO[2]、SiamFC[3]、SiamRPN[5]算法進(jìn)行比較,并以在UAV20L 數(shù)據(jù)集上的跟蹤準(zhǔn)確率由低至高排序,結(jié)果如表4 所示。
表4 UAV 數(shù)據(jù)集準(zhǔn)確率和成功率對(duì)比結(jié)果Tab.4 Comparison results of precision rate and success rate on dataset UAV
由表4 可見,本文算法在UAV20L、UAV123 兩個(gè)數(shù)據(jù)集的準(zhǔn)確率和成功率分別為0.621/0.465,0.755/0.542,均高于對(duì)比算法。
GOT-10k 測(cè)試集共計(jì)180 個(gè)視頻序列,包含84種不同的目標(biāo)類別和32 種運(yùn)動(dòng)模式,跟蹤算法在視頻第一幀上初始化,跟蹤至視頻序列末尾。為了更好地與其他跟蹤算法進(jìn)行對(duì)比,采用GOT-10k 數(shù)據(jù)集的通用評(píng)價(jià)指標(biāo)平均重疊率(EAO,expect average overlap rate)進(jìn)行衡量與排序,并附加重疊閾值為0.5 的成功率指標(biāo)SR_0.5。本文算法同CFNet[4]、CCOT[1]、ECO[2]、SiamFC[3]、SiamRPN[5]的對(duì)比試驗(yàn)結(jié)果如表5 所示,可見本文算法在EAO 和SR_0.5 上均高于對(duì)比算法。
表5 GOT-10k 數(shù)據(jù)集平均重疊率和成功率對(duì)比結(jié)果Tab.5 Comparison results of average overlap rate and success rate on dataset GOT-10k
本文給出了一種基于動(dòng)態(tài)權(quán)重的雙分支孿生網(wǎng)絡(luò)目標(biāo)跟蹤算法,利用雙重注意力機(jī)制強(qiáng)化的語義分支,彌補(bǔ)了僅關(guān)注目標(biāo)外觀特征的不足,同時(shí)采用動(dòng)態(tài)權(quán)重有效地結(jié)合兩分支結(jié)果,提升了跟蹤精度。將本文算法在公開通用目標(biāo)跟蹤數(shù)據(jù)集OTB2015、UAV20L、UAV123 和GOT-10k 上進(jìn)行了實(shí)驗(yàn),驗(yàn)證了其有效性。同時(shí),本文算法的平均跟蹤幀率為47 幀/s,滿足跟蹤實(shí)時(shí)性要求。