基于異步相關(guān)判別性學(xué)習(xí)的孿生網(wǎng)絡(luò)目標(biāo)跟蹤算法

2023-03-06 13:31:42商圣行張皓云徐楚翹

自動(dòng)化學(xué)報(bào) 2023年2期

許龍魏穎商圣行張皓云邊杰徐楚翹

視覺(jué)目標(biāo)跟蹤算法廣泛應(yīng)用于水下機(jī)器人,無(wú)人機(jī)協(xié)同,機(jī)器人設(shè)計(jì)等諸多領(lǐng)域[1-3],得到一個(gè)跟蹤精度高,速度快的跟蹤器面臨著各種各樣的挑戰(zhàn).近些年來(lái),大量的研究成果涌現(xiàn)出來(lái),極大地推進(jìn)了該領(lǐng)域的發(fā)展,其中又以基于孿生網(wǎng)絡(luò)的跟蹤算法性能最好[4-8].

目標(biāo)跟蹤的核心問(wèn)題是目標(biāo)與背景的分類問(wèn)題,在第1 幀中給定任意要跟蹤的目標(biāo),目標(biāo)跟蹤算法都能在接下來(lái)的幀中給出該目標(biāo)的準(zhǔn)確位置.近年來(lái),以基于粒子濾波加分類為代表的多域卷積神經(jīng)網(wǎng)絡(luò)(Multi-domain convolutional neural network,MDNet)[9]和基于相關(guān)濾波為代表的核化相關(guān)濾波(Kernel correlation filter,KCF)[10]等判別類跟蹤方法受到了研究人員的廣泛重視,以這兩類跟蹤框架為基礎(chǔ),又衍生出了大量的跟蹤算法[11-15].Wang 等[13]首先將編碼器特征引入到目標(biāo)跟蹤的任務(wù)中,取得了不錯(cuò)的跟蹤性能,但是由于該方法得到的特征比較簡(jiǎn)單,該模型很難應(yīng)付目標(biāo)發(fā)生較大變化時(shí)的情景.為解決這個(gè)問(wèn)題,Ma 等[12]充分利用卷積神經(jīng)網(wǎng)絡(luò)不同層之間的卷積特征進(jìn)行跟蹤,利用更高效的圖像特征提高了跟蹤的性能.進(jìn)一步地,Nam 等[9]提出了一種多域?qū)W習(xí)的算法 MDNet,并引入了一個(gè)更大的卷積神經(jīng)網(wǎng)絡(luò)用于提取目標(biāo)特征,在當(dāng)時(shí)的基準(zhǔn)上取得了最好的性能.但是,由于MDNet 基于粒子濾波算法,速度較慢,因此越來(lái)越多的研究轉(zhuǎn)移到了相關(guān)濾波的框架下.Bolme 等[16]首先將相關(guān)濾波器引入到了目標(biāo)跟蹤的任務(wù)中,將目標(biāo)跟蹤由分類任務(wù)變成了相似度計(jì)算的任務(wù),通過(guò)求解最小二乘問(wèn)題得出可能是目標(biāo)位置的最高響應(yīng).為了解決 Bolme 等[16]的算法在跟蹤過(guò)程中訓(xùn)練樣本過(guò)少的問(wèn)題,Henriques等[10]將循環(huán)矩陣的思想引入到訓(xùn)練樣本的生成過(guò)程中,同時(shí)充分利用了循環(huán)矩陣的特點(diǎn),從而能以很快的速度優(yōu)化一個(gè)非閉合的二次優(yōu)化問(wèn)題.出于計(jì)算速度的考慮,相關(guān)濾波的相關(guān)性計(jì)算都在頻域中進(jìn)行[16],在實(shí)際的應(yīng)用中會(huì)遇到截?cái)嗾`差 (邊界效應(yīng)) 的問(wèn)題,為了解決這一問(wèn)題,Danelljan 等[11]在求解濾波器的過(guò)程中引入了一個(gè)空間正則化項(xiàng),并使用Gauss-Sediel[11]求解濾波器,同時(shí)將原始的圖像特征[8,14] 替換為對(duì)應(yīng)圖像的深度特征,進(jìn)行相關(guān)濾波器的計(jì)算,進(jìn)一步提高了跟蹤的性能.為了解決濾波器在離散空間計(jì)算導(dǎo)致的跟蹤精度損失問(wèn)題,Danelljan 等[14]使用插值的方法,將濾波器的計(jì)算轉(zhuǎn)移到了連續(xù)域空間,并取得了很好的跟蹤效果,但是由于需要計(jì)算的濾波器數(shù)量比較多,這導(dǎo)致算法速度較慢.為了解決這一問(wèn)題,Danelljan 等[14]提出了一種降維的方法,求解出對(duì)響應(yīng)貢獻(xiàn)最大的幾組濾波器進(jìn)行跟蹤,同時(shí)利用高斯混合模型進(jìn)行樣本空間的管理,實(shí)現(xiàn)了速度與精度的提升.

隨著相關(guān)濾波算法的發(fā)展和完善,同為相似度計(jì)算的孿生網(wǎng)絡(luò)模型進(jìn)入了人們的視野.Held 等[4]將孿生網(wǎng)絡(luò)的結(jié)構(gòu)引入到了目標(biāo)跟蹤的相似度計(jì)算中.Bertinetto 等[5]進(jìn)一步設(shè)計(jì)了訓(xùn)練數(shù)據(jù)集的結(jié)構(gòu),以此為基礎(chǔ)衍生出了大量的基于孿生網(wǎng)絡(luò)的跟蹤算法.Li 等[6]將檢測(cè)中的RPN (Region proposal network)[17]結(jié)構(gòu)引入到了跟蹤中,利用邊框回歸以及錨點(diǎn)的方法,緩解了邊界框結(jié)果精度低的問(wèn)題.為進(jìn)一步解決邊界框定位精度的問(wèn)題,Danelljan 等[18]將目標(biāo)檢測(cè)算法中的IOUNet (Intersection over union-network)[19]邊框回歸組件引入到了跟蹤中,提出了一個(gè)非孿生網(wǎng)絡(luò)結(jié)構(gòu)的跟蹤器,相比于RPN 結(jié)構(gòu),IOUNet 有著更高的邊界框回歸的精度,這幫助該算法獲得了更高的跟蹤性能,同時(shí)由于該算法可以在線更新,因此其具有更高的判別性能.Zhu 等[7]和Li 等[8]提出了更深網(wǎng)絡(luò)結(jié)構(gòu)的Siam-RPN++[8]、DaSiamRPN[7]和將分割引入到孿生網(wǎng)絡(luò)跟蹤器的SiamMask[20],進(jìn)一步提高了跟蹤器的精度.但是這些基于孿生網(wǎng)絡(luò)的跟蹤算法只通過(guò)離線訓(xùn)練獲得一組網(wǎng)絡(luò)參數(shù),其相似度的計(jì)算很大程度上依賴于目標(biāo)的語(yǔ)義信息,這導(dǎo)致其在在線跟蹤時(shí)很難處理具有相同語(yǔ)義干擾物的識(shí)別問(wèn)題.

為解決基于孿生網(wǎng)絡(luò)的跟蹤器對(duì)于相似目標(biāo)判別能力弱的問(wèn)題,本文提出了一種異步相關(guān)的理論模型,并基于此提出了一種新的具有判別性的跟蹤方法.在進(jìn)行在線更新的過(guò)程中,本文使用了二階優(yōu)化的方法對(duì)所提出的模型進(jìn)行更新,相比于傳統(tǒng)的一階優(yōu)化,本文使用的方法可以在更少的迭代次數(shù)下實(shí)現(xiàn)更快的收斂.為了驗(yàn)證本文提出算法的有效性,本文在 Got-10k[21]、TC128[22]、OTB[23]和VOT2018[24]上分別進(jìn)行了對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明本文所提出的方法可以有效地提升在線跟蹤器的判別能力以及魯棒性,同時(shí)還能保證較高的跟蹤速度.

1 問(wèn)題描述

在目標(biāo)跟蹤中,跟蹤任意目標(biāo)的任務(wù)可以看作是相似性學(xué)習(xí)的問(wèn)題.基于孿生網(wǎng)絡(luò)的跟蹤器利用孿生網(wǎng)絡(luò)可以學(xué)習(xí)相似性的特點(diǎn)實(shí)現(xiàn)跟蹤.假設(shè)要學(xué)習(xí)的相似性函數(shù)由孿生網(wǎng)絡(luò)f(x,z|θ) 表示,其中x表示搜索區(qū)域,z表示樣本圖像,θ表示該網(wǎng)絡(luò)的參數(shù).經(jīng)過(guò)f(x,z) 的計(jì)算,得到一個(gè)目標(biāo)樣本z在搜索區(qū)域x中不同位置的打分,當(dāng)前位置得分越高,說(shuō)明當(dāng)前的目標(biāo)越有可能處于這個(gè)位置.在實(shí)際應(yīng)用中,x和z并不直接參與相似性的計(jì)算,而是先經(jīng)過(guò)一個(gè)特征提取器φ得到相應(yīng)的特征φ(x) 和φ(z),然后將這些特征送入相似度計(jì)算函數(shù)g來(lái)進(jìn)行打分,得到相應(yīng)的相似性度量函數(shù)如式 (1) 所示:

式中,φ是一個(gè)基于卷積的特征提取器.Li 等[6]通過(guò)提升φ的結(jié)構(gòu),并引入檢測(cè)中的邊框回歸提升了性能.Zhu 等[7]和Li 等[8]通過(guò)將φ做的更深更大,進(jìn)一步提升了跟蹤器的性能.相似性函數(shù)g是一個(gè)簡(jiǎn)單的距離或者相似性度量函數(shù),在基于孿生網(wǎng)絡(luò)的跟蹤器中,g的形式與高效卷積算子(Efficient convolution operators,ECO)[22]相似,都是使用相關(guān)濾波的操作進(jìn)行相似度計(jì)算.

式(1) 得到的孿生網(wǎng)絡(luò)f通過(guò)在通用數(shù)據(jù)集上構(gòu)造特定形式的數(shù)據(jù)集進(jìn)行離線訓(xùn)練,在訓(xùn)練的過(guò)程中,利用判別的方法對(duì)f進(jìn)行訓(xùn)練.設(shè)定正樣本的概率為 1/(1+e-v),負(fù)樣本的概率為1-1/(1+e-v),將其代入交叉熵的計(jì)算公式,得到相應(yīng)的損失函數(shù)定義為:

式中,y∈[-1, 1],表示是否是目標(biāo),v表示相似性計(jì)算后的實(shí)際得分.在訓(xùn)練過(guò)程中,利用所有候選位置的平均損失來(lái)表示最終的訓(xùn)練損失函數(shù):

式中,D表示最后得到的相關(guān)性計(jì)算得分圖,u表示D中的所有位置.通過(guò)隨機(jī)梯度下降的方法最小化式(4)所示的損失函數(shù),從而得到網(wǎng)絡(luò)的參數(shù)θ:

式中,訓(xùn)練樣本對(duì) (z,x) 從精心標(biāo)注好的視頻數(shù)據(jù)集采樣,搜索區(qū)域x以目標(biāo)區(qū)域z為中心,保持目標(biāo)寬高比例不變,裁剪固定大小的區(qū)域,超出區(qū)域的部分用圖像像素平均值填充.所有操作都是在離線狀態(tài)下進(jìn)行,即此時(shí)跟蹤器不進(jìn)行跟蹤,只進(jìn)行訓(xùn)練.

2 判別性孿生網(wǎng)絡(luò)跟蹤器

為了給目標(biāo)跟蹤器引入判別性,本文以SiamRPN[6]為基準(zhǔn)算法做了大量的實(shí)驗(yàn)工作,發(fā)現(xiàn)了孿生網(wǎng)絡(luò)跟蹤器的一些異步相關(guān)特性可以對(duì)相同語(yǔ)義特征的目標(biāo)進(jìn)行有效的抑制,同時(shí)可以緩解跟蹤過(guò)程中目標(biāo)發(fā)生形變的問(wèn)題.

2.1 置信度時(shí)間衰減假設(shè)

在傳統(tǒng)跟蹤器工作的過(guò)程中,在第1 幀時(shí),跟蹤器利用第1 幀目標(biāo)的樣本z0計(jì)算得到當(dāng)前要跟蹤目標(biāo)的濾波器k0,然后在接下來(lái)的第t幀,利用xt與k0,通過(guò)互相關(guān)計(jì)算,得到目標(biāo)的響應(yīng)圖D,相應(yīng)的計(jì)算過(guò)程如式(5)所示:

在整個(gè)跟蹤的過(guò)程中,k0保持不變,這意味著如果目標(biāo)的狀態(tài)發(fā)生了很大的變化(包括形狀、大小和顏色等),跟蹤器的識(shí)別能力就會(huì)降低.

假設(shè)被跟蹤目標(biāo)隨著時(shí)間t的變化而變化,當(dāng)前濾波器k0與時(shí)刻t下的xmt計(jì)算得到的得分會(huì)發(fā)生衰減,設(shè)這個(gè)衰減因子為η,時(shí)刻t后,得分強(qiáng)度會(huì)變?yōu)関t(u)=η·v0(u),u ∈D.同時(shí),由于在第1節(jié)中提到的孿生網(wǎng)絡(luò)f(z,x|θ) 并不是為當(dāng)前跟蹤的類別特定訓(xùn)練的,而是對(duì)盡可能多類的目標(biāo)進(jìn)行訓(xùn)練,從而實(shí)現(xiàn)一定的通用性.因此假設(shè)搜索區(qū)域中存在同類目標(biāo)zfake(例如人類、汽車、同類的動(dòng)物和物體等).經(jīng)過(guò)卷積以后,在t=0 時(shí)刻,跟蹤目標(biāo)與同類目標(biāo)得分應(yīng)滿足:

然而,因?yàn)橛兴p因子η的存在,會(huì)在某一時(shí)刻t有vt(u)≤vt(ufake),此時(shí),跟蹤器會(huì)錯(cuò)誤地判斷目標(biāo)的位置,將ufake當(dāng)做是真正的目標(biāo),從而導(dǎo)致跟蹤失敗.圖1 為分別采用初始的k0與當(dāng)前的kt所得到的目標(biāo)響應(yīng)得分圖.

圖1 不同濾波器下響應(yīng)結(jié)果對(duì)比Fig.1 Comparison of response results under different filters

圖1(b)和圖1(c)分別表示濾波器k0與濾波器kt=φ(zt)計(jì)算得到的響應(yīng)得分圖.由圖1 可以看出,本文提出的置信度時(shí)間衰減假設(shè)是合理的,因此可以利用kt所具備的目標(biāo)判別能力對(duì)基準(zhǔn)算法SiamRPN 進(jìn)行改進(jìn).

2.2 判別性模型的建立

基于以上假設(shè),本文提出了一種異步相關(guān)的打分策略,從而為跟蹤器引入了對(duì)于真實(shí)目標(biāo)與虛假同類目標(biāo)的可判別性.

由于目標(biāo)的形變會(huì)導(dǎo)致k0以η的衰減速率計(jì)算真實(shí)的目標(biāo)得分,為此本文直接將t時(shí)刻的樣本圖像zt引入到跟蹤的過(guò)程中,得到在線打分公式如下:

式(7)雖然引入了當(dāng)前時(shí)刻t下的樣本圖像zt,在一定程度上消除了目標(biāo)形變帶來(lái)的打分衰減效應(yīng),但是由于跟蹤器在跟蹤過(guò)程中存在著一定的噪聲以及跟蹤結(jié)果上的偏差(例如跟蹤位置的錯(cuò)誤,跟蹤得到的目標(biāo)尺寸的錯(cuò)誤),如果直接采用式(7)的打分方式,這些誤差會(huì)隨著時(shí)間t逐漸累積,kt會(huì)被污染,從而導(dǎo)致跟蹤器無(wú)法找到目標(biāo).

為解決上述問(wèn)題,本文將第1 幀計(jì)算得到的k0作為監(jiān)督信息,引入一個(gè)可在線學(xué)習(xí)的判別性模型Φ,得到新的打分公式:

式中,θ是離線訓(xùn)練好的一組參數(shù),在跟蹤的過(guò)程中不發(fā)生變化,w是需要在線更新的參數(shù).令kt=φ(zt),代入式 (8) 有:

式中,φ(·) 表示離線訓(xùn)練好的特征提取器,a表示激活函數(shù),w表示在線判別模型 Φ 的權(quán)重,*表示卷積操作.為得到一個(gè)較為合理的映射,令a(w*kt),構(gòu)建用于在線更新的相似度計(jì)算損失函數(shù)如式 (10) 所示:

式中,‖·‖表示L2范數(shù),對(duì)神經(jīng)網(wǎng)絡(luò)權(quán)重w進(jìn)行正則化,λ是正則化系數(shù),n表示樣本的個(gè)數(shù),γj=表示第j個(gè)樣本的權(quán)重,0＜α ＜1表示樣本權(quán)重的衰減參數(shù).

由式(10)可知,在實(shí)際跟蹤的過(guò)程中,本文算法不僅利用了t時(shí)刻的樣本圖像xt,同時(shí)還能保證由xt得到的濾波器kt不會(huì)偏離真實(shí)的濾波器k0太遠(yuǎn).由于濾波器 Φ (φ(zt)) 與k0存在較小的差距,同時(shí) Φ (φ(zt)) 還包含了時(shí)刻t目標(biāo)的信息,因此這樣的濾波器在面對(duì)相同類別的目標(biāo)時(shí),具有更高的判別性.

2.3 異步相關(guān)響應(yīng)計(jì)算

除了利用當(dāng)前時(shí)刻t的kt計(jì)算目標(biāo)的響應(yīng)外,同時(shí)還可以充分利用時(shí)刻t之前特定的m個(gè)判別性網(wǎng)絡(luò) Φ{1,···,m} ∈S來(lái)計(jì)算最終的得分響應(yīng):

式中,st表示當(dāng)前時(shí)刻t的得分響應(yīng)圖. Φi表示不同時(shí)刻得到的判別性模型.

在實(shí)際的應(yīng)用中,假設(shè)相鄰幀之間的判別性模型更為相似,而距離較遠(yuǎn)的幀之間的判別性模型差異更大.這樣的假設(shè)與實(shí)際情況相符合,因?yàn)殡S著時(shí)間t的增加,不同幀下相同目標(biāo)之間的差異會(huì)變得更大.根據(jù)這個(gè)假設(shè),本文提出了一種利用不同的 Φi網(wǎng)絡(luò)參數(shù)wi之間的Kullback-Leible (KL)散度對(duì) Φi管理的策略,計(jì)算不同網(wǎng)絡(luò)參數(shù)分布之間的KL 散度矩陣DKL,如下式所示:

式中,P(wi)、Q(wj)∈R1×N表示wi、wj相應(yīng)的概率分布(直方圖分布),(i,j) 表示DKL中第i行,第j列的元素.

對(duì)于每一幀得到的新的 Φt,計(jì)算其與m個(gè)現(xiàn)有網(wǎng)絡(luò)的KL 散度向量dt,找到最小 KL 散度距離所對(duì)應(yīng)的 Φk,k ∈{1, 2,···,m}和距離dt(i).利用如式(13)所示的策略u(píng),對(duì)m個(gè)判別性模塊進(jìn)行更新.

由式(13)可知,本文利用判別模型參數(shù)間KL散度的不同,保留差異最大的m個(gè)判別器作為異步相關(guān)響應(yīng)打分的依據(jù),這樣的做法可以最大程度上保留目標(biāo)在不同形態(tài)時(shí)的語(yǔ)義信息,在遇到具有相似語(yǔ)義目標(biāo)的時(shí)候,不同幀中目標(biāo)的歷史信息會(huì)幫助跟蹤器做出很好的判斷,從而增強(qiáng)了跟蹤器的判別能力.

2.4 近似二階優(yōu)化算法下的在線更新策略設(shè)計(jì)

傳統(tǒng)的一階優(yōu)化算法(如隨機(jī)梯度下降、自適應(yīng)矩估計(jì)等)[25]在優(yōu)化過(guò)程中比二階的優(yōu)化方法有更快的速度,因?yàn)槎A優(yōu)化算法涉及到二階信息的計(jì)算,這些信息有助于找到一個(gè)網(wǎng)絡(luò)泛化能力最強(qiáng)的解,但是高昂的計(jì)算代價(jià)讓其在對(duì)海量的數(shù)據(jù)進(jìn)行訓(xùn)練時(shí)處于劣勢(shì).

在本文提出的在線更新策略中,因?yàn)橐獙W(xué)習(xí)的參數(shù)和樣本少,因此近似二階的優(yōu)化算法更適用于本任務(wù),可以同時(shí)兼顧速度與精度.

在進(jìn)行二階優(yōu)化的過(guò)程中,Hessian 矩陣的計(jì)算是影響速度的關(guān)鍵因素.本文簡(jiǎn)化計(jì)算形式,根據(jù)式(10)定義殘差為:將rj(w)和rn+1拼接起來(lái),構(gòu)成r(w).此時(shí),式(10) 可等價(jià)為:

對(duì)式(14)進(jìn)行二階泰勒展開,有:

式中,?T表示?Lup/?w,利用PyTorch 的自動(dòng)求導(dǎo)機(jī)制求解.Hw表示 Hessian 矩陣,O(||Δw||2) 是一個(gè)極小量,可忽略不計(jì).優(yōu)化的目的是尋找一個(gè)合適的 Δw,使最小.

具體優(yōu)化流程步驟如下:

步驟1.初始化網(wǎng)絡(luò)權(quán)重w、殘差r(w)、NCG和N.

步驟2.fori=1,···,Ndo.

步驟3.計(jì)算w下?Lup(w),Hwv=Rv{?w(w)},代入式 (15),Δw ←0.

步驟4.forj=1,···,NCG,Δw=Δw0,di=d0=-?Lup(w) do.

步驟5.計(jì)算步長(zhǎng).計(jì)算α來(lái)最小化式(15):

步驟6.更新權(quán)重. Δw=Δw+αdj.

步驟7.更新方向.Letdj+1=-?T+βjdj,其中:

步驟8.end for.

步驟9.w=w+Δw.

步驟10.end for.

不同于基于最大化交并比的精確跟蹤算法(Accurate tracking by overlap maximization,ATOM)[18]利用雅可比矩陣近似計(jì)算Hessian 矩陣的方式,為避免求解Hw的逆矩陣,本文利用Pearlmutter 等[26]提出的R{·}直接求解Hwv,進(jìn)一步提高了優(yōu)化過(guò)程中的精度與速度.令 Δw=rv,形式為:

3 實(shí)驗(yàn)

3.1 實(shí)驗(yàn)設(shè)置

本文使用基于Python 的PyTorch 作為實(shí)驗(yàn)平臺(tái),CPU 為I5 8400,內(nèi)存為24 GB,GPU 為2060 Super.分別在 Got-10k[21]的180 個(gè)視頻序列,TC-128[22]的128 個(gè)視頻序列,OTB 的100 個(gè)視頻序列,以及VOT2018[24]的60 個(gè)視頻序列上進(jìn)行實(shí)驗(yàn).利用m個(gè)判別模塊 Φ 進(jìn)行異步相關(guān)性計(jì)算,其中每個(gè)判別模塊有256 個(gè)卷積核,每個(gè)卷積核的大小為1×1. 在優(yōu)化的過(guò)程中,N=5,α=0.3,共軛梯度下降迭代次數(shù)NCG=100,實(shí)際計(jì)算過(guò)程中,由于網(wǎng)絡(luò)很快就收斂,因此共軛梯度優(yōu)化部分只迭代很少的次數(shù).本文算法在4 個(gè)評(píng)測(cè)數(shù)據(jù)集上采用同一套參數(shù)進(jìn)行測(cè)試.

在對(duì)比實(shí)驗(yàn)部分,對(duì)比了本文算法與最新的基于孿生網(wǎng)絡(luò)的目標(biāo)跟蹤算法,包括SiamFC[5]、SiamRPN++[8]和DaSiamRPN[7]等;并且對(duì)比了其他的跟蹤算法,包括基于相關(guān)濾波算法的ECO[15]和判別性跟蹤器ATOM[18]等,由于不同跟蹤器源碼,評(píng)估數(shù)據(jù)集及其結(jié)果公開情況的不同,因此在第3.2～ 3.4 節(jié)的對(duì)比分析中,參與對(duì)比的跟蹤器會(huì)略有不同.

3.2 與基準(zhǔn)算法的對(duì)比分析

為驗(yàn)證本文算法的有效性,本文在Got-10k 和TC128 上進(jìn)行了自身對(duì)比實(shí)驗(yàn),包括消融實(shí)驗(yàn)和量化分析.同時(shí)與一些最先進(jìn)或者經(jīng)典的跟蹤器進(jìn)行對(duì)比.表1 為基準(zhǔn)算法與本文算法在Got-10k 上的性能對(duì)比情況.

表1 本文方法與基準(zhǔn)算法的消融實(shí)驗(yàn)Table 1 Ablation studies between the proposed algorithm and baseline

表1 中,Baseline 表示基準(zhǔn)模式,AC (Asynchronous correlation)表示本文提出的異步相關(guān)模塊,DKL表示判別性模塊管理算法,該算法利用KL 散度對(duì)m個(gè)異步相關(guān)判別模型進(jìn)行管理.FPS表示算法每秒可處理的幀數(shù),值越大表示性能越好.S 表示本文使用的二階優(yōu)化算法.AO 表示所有幀上跟蹤的結(jié)果和真實(shí)標(biāo)簽之間重疊率的平均值,值越大表示性能越好.SR 表示跟蹤的成功率,值越大表示性能越好,S R0.75下標(biāo)表示成功率高于0.75%.由表1 可以看出,本文算法比基準(zhǔn)算法在AO、SR0.5和 S R0.75三個(gè)指標(biāo)下分別提升1.2%、1.4%和0 .7%.因此使用本文提出的異步相關(guān)判別模型 Φ 可明顯改善基準(zhǔn)算法在Got-10k 上的性能.

本文同時(shí)對(duì)比了m=3, 6, 9 時(shí)算法的性能表現(xiàn).可以看出,當(dāng)m=6 時(shí),算法性能最好;在只使用AC 的情況下,S R0.75比基準(zhǔn)算法高出0.3%;當(dāng)引入二階優(yōu)化算法S 后,平均重疊率AO 和SR0.5分別提升0.2% 和0.3%;而當(dāng)m=3, 9 時(shí),跟蹤器的性能出現(xiàn)下降.在模型的優(yōu)化方面,將一階的 Adam優(yōu)化算法替換為本文所使用的二階優(yōu)化方法S 后,AO提升了0.2%,可以看出,本文使用的二階優(yōu)化方法可以有效地提高跟蹤的精度,同時(shí)對(duì)于跟蹤速度的影響較小.

圖2 為本文方法在m=6 時(shí)與其他先進(jìn)的跟蹤器在Got-10k 上的對(duì)比情況.

由圖2 可以看出,在平均成功率的性能表現(xiàn)上,本文方法分別比基準(zhǔn)算法 SiamRPN 的改進(jìn)算法SiamRPN++和SiamMask 高出0.4%和0.5%.而SiamRPN++和SiamMask 分別比基準(zhǔn)算法提升了0.8% 和 0.7%,相比之下,本文方法相對(duì)于基準(zhǔn)算法提升了1.2%,可見本文算法在Got-10k 的評(píng)價(jià)標(biāo)準(zhǔn)下對(duì)于基準(zhǔn)算法的提升較大,同時(shí)本文算法在面對(duì)最新的一些跟蹤器時(shí),也具有較大的優(yōu)勢(shì).分析原因發(fā)現(xiàn),Got-10k 中存在著大量相似語(yǔ)義信息的跟蹤情景,這正是本文提出異步相關(guān)判別模型所要解決的問(wèn)題,通過(guò)利用幀間被跟蹤樣本信息的共享以及初始目標(biāo)提供的監(jiān)督信息,本文方法在一定程度上緩解了相似語(yǔ)義目標(biāo)所導(dǎo)致的跟蹤失敗問(wèn)題,相比于SiamRPN++和SiamMask,本文算法在應(yīng)對(duì)這類情景時(shí)有著較為明顯的優(yōu)勢(shì).

圖2 本文算法與其他先進(jìn)跟蹤器在Got-10k 上的對(duì)比情況Fig.2 Comparison between the proposed method with other advanced trackers on Got-10k

為評(píng)估跟蹤器在實(shí)際跟蹤中的性能表現(xiàn),本文在Got-10k 測(cè)試集的8 個(gè)具有代表性序列上進(jìn)行了改進(jìn)前后跟蹤結(jié)果的對(duì)比分析,對(duì)比結(jié)果如圖3 所示.圖3 中虛線框表示本文算法的跟蹤結(jié)果,實(shí)線框表示基準(zhǔn)算法的跟蹤結(jié)果.

由圖3 可以看出,在第1 個(gè)目標(biāo)發(fā)生遮擋的情景下,本文方法通過(guò)不同幀間的信息共享,準(zhǔn)確地在遮擋發(fā)生時(shí)跟蹤到了目標(biāo);在第2 個(gè)水下相似背景跟蹤過(guò)程中,本文算法通過(guò)利用最新的當(dāng)前樣本來(lái)生成核,從而及時(shí)地響應(yīng)了目標(biāo)的形狀變化,跟蹤到了目標(biāo);在第3 個(gè)有相似語(yǔ)義目標(biāo)的情景下,本文算法同樣利用及時(shí)更新的樣本核準(zhǔn)確地跟蹤到了目標(biāo);在第4 個(gè)目標(biāo)發(fā)生尺度變化的跟蹤情景中,通過(guò)異步信息的計(jì)算以及當(dāng)前樣本核的幫助,本文算法準(zhǔn)確地跟蹤到了目標(biāo);在第5 到第8 的4 個(gè)序列中,本文算法在處理相應(yīng)的復(fù)雜環(huán)境進(jìn)行跟蹤時(shí)同樣表現(xiàn)出了較基準(zhǔn)算法更強(qiáng)的性能優(yōu)勢(shì).

圖3 Got-10k 上跟蹤結(jié)果對(duì)比實(shí)驗(yàn)Fig.3 Comparison of tracking results on Got-10k

Liang 等[22]指出,利用不同的顏色模型對(duì)提升跟蹤器性能具有很大幫助,不同于OTB20-15 中包含一些灰度圖像的情景,TC128 中的128 個(gè)序列均為彩色序列,其中70 個(gè)序列為新增的,Liang 等[22]認(rèn)為這些彩色圖像在理論上會(huì)更能充分評(píng)估跟蹤器的性能.為此本文在TC128 上對(duì)跟蹤器的精度和成功率進(jìn)行自身對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)中默認(rèn)使用二階優(yōu)化算法S 來(lái)優(yōu)化AC 模型,并選擇了跟蹤器高效卷積算子、空間正則化的相關(guān)濾波算法(Spatially regularized correlation filters,SRDCF)、多專家跟蹤(Multiple experts using entropy minimization,MEEM)[27]、Struck[28]、KCF、稀疏跟蹤算法(ASLA)[29]、半監(jiān)督跟蹤算法(SemiT)[29]和整數(shù)直方圖跟蹤(Frag)[30]作為對(duì)比,得到精度和成功率圖見圖4.

由圖4 可知,本文算法在m=3 時(shí)性能最好.與基準(zhǔn)算法相比,在加入 AC 與后,本文方法的精度和成功率分別提升1.6%和1.0%.而SRDCF 的改進(jìn)算法 ECO-HC 相較于 SRDCF 分別提高0.8% 和1.5%,因此本文方法相比于基準(zhǔn)算法有較大提升.值得注意的是,在 Got-10k 上第8 名的ECO,在TC128 上是第1 名,類似現(xiàn)象也發(fā)生在VOT2018 的評(píng)估結(jié)果中.本文算法比采用多專家模型的 MEEM 在精度和成功率上分別提升9.5%和7.8%.本文算法比基于相關(guān)濾波的KCF算法在精度和成功率上分別提升了17.8%和15.2%.比其他的跟蹤器(如Struck、ASLA 等)算法,本文算法具有較大的性能優(yōu)勢(shì).同時(shí)由圖4 可以看出,當(dāng)m=6時(shí),本文算法的性能較m=9 時(shí)在精度和成功率的性能上分別提升0.1%和0.1%,在精度與成功率上均要好于基準(zhǔn)算法.

圖4 本文算法在TC128 上的精度-成功率對(duì)比實(shí)驗(yàn)結(jié)果Fig.4 The accuracy-success rate comparison experiment results of the proposed algorithm on TC128

3.3 跟蹤精度與成功率

本節(jié)進(jìn)一步分析本文算法在OTB2015/2013上的性能表現(xiàn),包括成功率圖、精度圖,以及在不同的跟蹤情景下,不同跟蹤器的性能對(duì)比情況.

首先,在OTB2015 上對(duì)比本文算法與最先進(jìn)的跟蹤器,包括DaSiamRPN、ATOM、DIMP[31]和CF2[12]等,以及具有代表性的算法,包括ECO、MDNet和 SiamFC[5]等,結(jié)果如圖5 所示.

由圖5 可以看出,本文方法比基準(zhǔn)算法在平均精確度性能上提升1.7%,在平均成功率性能上比基準(zhǔn)算法提升1.2%.當(dāng) 和時(shí)的精度性能表現(xiàn)幾乎相同.當(dāng) 時(shí),本文算法達(dá)到相較于基準(zhǔn)算法的最好性能.同時(shí)可以看出,SiamRPN 的另一個(gè)改進(jìn)算法 DaSiamRPN 較基準(zhǔn)算法分別提

圖5 本文算法在OTB2015 上的精度-成功率對(duì)比實(shí)驗(yàn)結(jié)果Fig.5 The accuracy-success rate comparison experiment results of the proposed algorithm on OTB2015

m=3m=6m=6升2.5%和2.0%,稍高于本文算法對(duì)于基準(zhǔn)算法的提升.分析原因發(fā)現(xiàn),在SiamRPN 的基礎(chǔ)上,Da-SiamRPN 在離線訓(xùn)練階段通過(guò)數(shù)據(jù)增強(qiáng)的技術(shù)來(lái)生成用于網(wǎng)絡(luò)訓(xùn)練的數(shù)據(jù)樣本對(duì),替換了基準(zhǔn)算法的訓(xùn)練數(shù)據(jù)來(lái)對(duì)SiamRPN 重新訓(xùn)練,通過(guò)擴(kuò)充訓(xùn)練數(shù)據(jù)樣本對(duì)的多樣性,來(lái)增強(qiáng)原始SiamRPN 的泛化能力,使之在面對(duì)更復(fù)雜的跟蹤情景或者快速變化的目標(biāo)時(shí)有著更好的跟蹤性能,同時(shí)DaSiam-RPN 也采用一種利用得分圖進(jìn)行干擾物感知的算法來(lái)提升性能.相比之下,本文算法只需要更新一個(gè)簡(jiǎn)單的AC 模型,且無(wú)需修改主干網(wǎng)絡(luò)參數(shù).

為對(duì)本文方法在不同跟蹤情景下進(jìn)行綜合評(píng)估,選取了 OTB2013[23]的50 個(gè)序列中11 種跟蹤情景對(duì)本文算法進(jìn)行評(píng)估,同時(shí)為對(duì)比的公平,本文方法將與基準(zhǔn)算法和一些最新的方法(包括ATOM、DaSiamRPN 和DIMP 等)做對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表2～表4 所示.

表2 OTB2013 上的背景干擾、形變等情景下的跟蹤性能對(duì)比Table 2 Tracking performance comparisons among trackers on OTB2013 in terms of background clusters and deformation

表3 OTB2013 上的光照變化、低分辨率等情景下的跟蹤性能對(duì)比Table 3 Tracking performance comparisons among trackers on OTB2013 in terms of illumination change and low resolution

表4 OTB2013 上的平面外旋轉(zhuǎn)、視野外等情景下的跟蹤性能對(duì)比Table 4 Tracking performance comparisons among trackers on OTB2013 in terms of out-of-plane rotation and out of view

表2～表4 中,下劃線表示當(dāng)前跟蹤器在所有參與對(duì)比的跟蹤器中是第1 名,加粗字體表示當(dāng)前跟蹤器在與基準(zhǔn)算法對(duì)比過(guò)程中是第1 名.當(dāng)m=3時(shí),本文算法在形變、快速運(yùn)動(dòng)、平面內(nèi)旋轉(zhuǎn)、光照變化、低分辨率、運(yùn)動(dòng)模糊、遮擋、平面外旋轉(zhuǎn)、視野外、尺度變化共10 種跟蹤情景下的精度和成功率上,分別比基準(zhǔn)算法提升(1.2%,2.5%)、(5.6%,7.3%)、(2.4%,3.8%)、(1.5%,2.6%)、(3.5%,4.4%)、(7.8%,9.8%)、(0.7%,1.4%)、(1.3%,2.4%)、(4.4%,5.3%)和(4.8%,6.8%).而在背景干擾的跟蹤情景下,本文算法的性能與基準(zhǔn)算法相近.從以上分析可以看出,本文算法較為全面地提升了基準(zhǔn)算法性能.

分析算法性能提升原因可以發(fā)現(xiàn),在性能提升較大的 10 種跟蹤情景下,本文方法在面對(duì)這些挑戰(zhàn)時(shí),相比基準(zhǔn)算法有更強(qiáng)的魯棒性.這10 種情景大多對(duì)應(yīng)的是目標(biāo)在被跟蹤的過(guò)程中其外觀所發(fā)生的幾類變化,而本文正是通過(guò)在線更新參與計(jì)算樣本核的多個(gè)AC 模塊,來(lái)部分地解決目標(biāo)在跟蹤過(guò)程中發(fā)生形變,導(dǎo)致語(yǔ)義信息發(fā)生較大偏差的問(wèn)題.通過(guò)利用具有判別性的異步相關(guān)策略,本文方法可通過(guò)實(shí)時(shí)更新的方式,將這些擾動(dòng)對(duì)性能的影響降到最低.

為進(jìn)一步驗(yàn)證本文所提異步相關(guān)響應(yīng)模型帶給跟蹤器的判別性,在OTB2015 中選擇了具有代表性的6 個(gè)序列進(jìn)行對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如圖6 所示.其中初始樣本表示第1 幀目標(biāo)計(jì)算得到的k0,當(dāng)前樣本表示當(dāng)前幀目標(biāo)計(jì)算得到的kt,優(yōu)化后樣本表示對(duì)當(dāng)前kt優(yōu)化的結(jié)果.

由圖6 可以看出,對(duì)有相同語(yǔ)義信息的目標(biāo),當(dāng)前樣本計(jì)算得到的結(jié)果較初始樣本結(jié)果有更準(zhǔn)確響應(yīng),這是因?yàn)樵诩尤氘惒较嚓P(guān)響應(yīng)計(jì)算后,由于不同幀間的目標(biāo)信息被充分利用,使其對(duì)于具有相同語(yǔ)義信息的目標(biāo)有明顯抑制作用.同時(shí)可以看出,由于利用目標(biāo)語(yǔ)義信息對(duì)其相應(yīng)位置進(jìn)行打分,因此目標(biāo)外觀在跟蹤過(guò)程中發(fā)生多次變化后,如圖1和圖6 所示,采用當(dāng)前樣本計(jì)算得到的響應(yīng)結(jié)果比在第1 幀計(jì)算結(jié)果有更強(qiáng)響應(yīng),同時(shí)在進(jìn)行多幀AC 平均后,得到的響應(yīng)更為集中,在應(yīng)對(duì)相似語(yǔ)義背景以及目標(biāo)形變上更具魯棒性.

圖6 OTB50 中6 個(gè)序列的響應(yīng)對(duì)比結(jié)果Fig.6 The response comparisons of 6 different sequences on OTB50

3.4 跟蹤器魯棒性能對(duì)比分析

為進(jìn)一步評(píng)估本文算法的性能與最先進(jìn)算法在精確度和魯棒性上的對(duì)比情況,在VOT2018 上對(duì)本文算法做了相應(yīng)的對(duì)比實(shí)驗(yàn),Li 等[8]指出Siam-RPN++在VOT2018 上的性能要好于DaSiam-RPN,因此為了讓更多的跟蹤器參與比較,本文選用DaSiamRPN 在VOT2018 上的實(shí)驗(yàn)結(jié)果與本文算法進(jìn)行比較.表5 為本文算法與先進(jìn)跟蹤器在3種評(píng)估框架基準(zhǔn)、非監(jiān)督和實(shí)時(shí)性能下的性能對(duì)比結(jié)果.由于ATOM 未提供VOT2018 下非監(jiān)督模式和實(shí)時(shí)模式下的實(shí)驗(yàn)結(jié)果,因此與這些指標(biāo)相關(guān)的值均設(shè)置為0.

表5 VOT2018 上的實(shí)驗(yàn)結(jié)果Table 5 Experimental results on VOT2018

表5 中,Baseline 指VOT2018 中基于復(fù)位的監(jiān)督實(shí)驗(yàn)[24].而非監(jiān)督原理與OTB 的評(píng)估策略一致,即被評(píng)估的跟蹤器僅用第1 幀給定的目標(biāo)信息來(lái)初始化跟蹤器,然后記錄其在后續(xù)幀中的跟蹤結(jié)果,最后計(jì)算平均的跟蹤重疊率(Average overlap,AO).VOT-2018 中的實(shí)時(shí)性能實(shí)驗(yàn)部分,被用來(lái)評(píng)估跟蹤器的實(shí)時(shí)性能和限定跟蹤器的響應(yīng)時(shí)間.精度-魯棒性評(píng)估的是跟蹤器在每一幀中預(yù)測(cè)結(jié)果與實(shí)際狀態(tài)的重疊率和每個(gè)序列的平均失敗次數(shù).失敗率表示當(dāng)重疊率低于某一閾值時(shí)視為失敗時(shí)的統(tǒng)計(jì)結(jié)果.EAO (Expected average overlap)是對(duì)每個(gè)跟蹤器在一個(gè)短時(shí)圖像序列上未發(fā)生重置的平均重疊率期望值,表示期望平均重疊率,這個(gè)值越大,表示跟蹤器精確度越高.

由表5 可以看出,本文算法在3 種評(píng)測(cè)方案中均好于基準(zhǔn)算法.在Baseline 精度-魯棒性指標(biāo)下,本文方法比基準(zhǔn)算法提升了0.79%.當(dāng)m=3,本文方法在Baseline 失敗率指標(biāo)下比基準(zhǔn)算法降低8.7382%.當(dāng)m=6 時(shí),在BaselineEAO 指標(biāo)下,本文方法比基準(zhǔn)算法提升了0.51%.

在基準(zhǔn)算法與Baseline 的FPS 指標(biāo)的對(duì)比中可以發(fā)現(xiàn),本文方法對(duì)于速度的影響很小,在最壞的情況下,跟蹤器的速度只降低了0.8714 幀/秒.

在非監(jiān)督的AO 指標(biāo)對(duì)比中,當(dāng)m=9 時(shí),本文方法比基準(zhǔn)算法提升1.84%.分析原因發(fā)現(xiàn),本文方法在跟蹤過(guò)程中可視為一個(gè)弱監(jiān)督跟蹤算法,其監(jiān)督信息由第1 幀指定,為此相比于基準(zhǔn)算法和SiamFC,本文方法在非監(jiān)督評(píng)估模式下具有較大優(yōu)勢(shì).

在實(shí)時(shí)性能對(duì)比中,由于本文算法采用了附加的模塊,同時(shí)實(shí)時(shí)性能的評(píng)估也受到了實(shí)驗(yàn)平臺(tái)硬件性能的影響,因此本文算法在該指標(biāo)下的性能整體上較基準(zhǔn)算法要弱,最好的情況下EAO 性能比基準(zhǔn)算法降低0.2%.

圖7 為參與對(duì)比的不同跟蹤器在Baseline 下的精度-魯棒性和跟蹤失敗率的對(duì)比情況.

由圖7 可看出,當(dāng)m=3 時(shí),對(duì)應(yīng)的精度-魯棒性是最高的,可以看出,本文算法在只采用AC 的情況下,相應(yīng)的精度較基準(zhǔn)算法有所提高,但是魯棒性則較基準(zhǔn)算法有所下降,分析原因可以發(fā)現(xiàn),這是因?yàn)閱我坏腁C 可能會(huì)帶來(lái)未知的噪聲,而在使用了多個(gè)AC 的情況下,由于利用了不同幀間的目標(biāo)信息,不同AC 模塊之間的噪聲可以通過(guò)均值濾波的方式進(jìn)行抑制.在AC 內(nèi)部噪聲被抑制的同時(shí),多個(gè)異步相關(guān)模塊的引入也帶來(lái)對(duì)于目標(biāo)在多種狀態(tài)(包括形狀、色彩等)的魯棒性,這使得跟蹤器具有了目標(biāo)在不同時(shí)間維度上的信息,在利用這些信息處理后續(xù)目標(biāo)幀時(shí),跟蹤器可充分利用前幾幀目標(biāo)信息來(lái)計(jì)算當(dāng)前幀目標(biāo)響應(yīng).通過(guò)利用不同時(shí)刻目標(biāo)差異信息來(lái)增強(qiáng)跟蹤器對(duì)目標(biāo)各種變化的魯棒性,使算法可以在精度與魯棒性上都有較好表現(xiàn).

圖7 精度-魯棒性跟蹤失敗情況對(duì)比圖Fig.7 Comparison of accuracy robustness and tracking faliure

圖8 為不同跟蹤器在VOT2018,包含光照變化、相機(jī)運(yùn)動(dòng)、運(yùn)動(dòng)變化、遮擋、尺度變化等,情景的精度-魯棒性對(duì)比,這些情景與OTB2013 類似,不同的是OTB 中包含11 種情景,VOT2018 包含6 種.

圖8 在VOT2018 序列的不同情景下精度-魯棒性對(duì)比情況Fig.8 Comparison of accuracy robustness performance under different attributes on VOT2018

由圖8 可看出,當(dāng)m=3 時(shí),跟蹤器在相機(jī)運(yùn)動(dòng)、光照變化、運(yùn)動(dòng)變化、遮擋和尺度變化5 個(gè)方面的精度與魯棒性上要優(yōu)于基準(zhǔn)算法.在相機(jī)運(yùn)動(dòng)的情景下,本文算法的精度達(dá)到了與第1 名的ATOM 算法相近的性能,魯棒性也要好于ECO,僅次于ATOM.在魯棒性和精度方面均好于DaSiam-RPN.在尺度變換、遮擋、運(yùn)動(dòng)變化、光照變化4 個(gè)方面的情景下,本文算法在魯棒性上達(dá)到了第1 名的成績(jī).因此本文算法在不損失算法精確度的情況下,提升了算法在應(yīng)對(duì)尺度變換時(shí)的魯棒性.

在運(yùn)動(dòng)變化的情景下,本文算法的精確度與第1 名算法ATOM 基本一致,這一實(shí)驗(yàn)結(jié)果驗(yàn)證了,目標(biāo)在發(fā)生形變后,本文算法可以有效地提升跟蹤的性能的假設(shè).

在其他跟蹤情景下,本文算法在精確度-魯棒性上與基準(zhǔn)算法基本保持一致,同時(shí)與DaSiam-RPN 以及第1 名的ATOM 差距不大.在光照變化情景下,本文算法在精度-魯棒性上高于基準(zhǔn)算法和DaSiamRPN.原因依然是光照變化導(dǎo)致被跟蹤的目標(biāo)發(fā)生了劇烈的外觀變化,而本文算法在解決這些外觀變化方面具備一定優(yōu)勢(shì).

在應(yīng)對(duì)遮擋的情景時(shí),本文算法在精度-魯棒性上均與第1 名的ATOM 保持一致,同時(shí)在魯棒性上高于基準(zhǔn)算法與DaSiamRPN,這一現(xiàn)象的原因可以歸結(jié)為多個(gè)AC 模塊的引入,利用第1 幀選定的未被遮擋的目標(biāo)作為監(jiān)督,在線更新當(dāng)前采樣得到的目標(biāo)樣本,從而使其在兼顧多幀目標(biāo)和遮擋語(yǔ)義的同時(shí),也能保持與初始選定的目標(biāo)相近的語(yǔ)義信息,保證了跟蹤性能.

由圖9 可以看出,基于相關(guān)濾波的KCF和SRDCF 在序列長(zhǎng)度增加到200 幀后,其對(duì)應(yīng)的期望重疊率性能低于0.2,這說(shuō)明KCF 和SRDCF 的跟蹤性能對(duì)序列的長(zhǎng)度更敏感.SiamFC 在序列長(zhǎng)度超過(guò)200 幀時(shí)性能出現(xiàn)了明顯下降,對(duì)應(yīng)的EAO只有0.2.本文算法在m=6 時(shí),比基準(zhǔn)算法有較大的提升.

圖9 跟蹤器在VOT2018 基準(zhǔn)模式下的期望重疊率性能對(duì)比Fig.9 Trackers＇expected overlap performance comparisons on VOT2018

本文在VOT2018 的非監(jiān)督實(shí)驗(yàn)?zāi)Ｊ较屡c基準(zhǔn)算法以及其他最新的跟蹤器進(jìn)行對(duì)比,得到非監(jiān)督模式下的期望重疊率對(duì)比曲線如圖10 所示.可以看出,本文算法在4 個(gè)情景下對(duì)基準(zhǔn)算法有明顯提升.當(dāng)m=9 時(shí),本文算法在所有6 種情況下的性能都好于基準(zhǔn)算法.在光照變化情景下,好于DaSiamRPN.在所有7 種情況下,本文算法均好于OTB 中第1 名的算法ECO.當(dāng)m=9 時(shí),跟蹤器在所有6 種情景下表現(xiàn)最好.在整體對(duì)比環(huán)節(jié),m=9時(shí)有更好性能.同時(shí),與最先進(jìn)的單目標(biāo)跟蹤器相比,本文算法也有較強(qiáng)競(jìng)爭(zhēng)力.由于ATOM 未給出在非監(jiān)督模式下的評(píng)測(cè)結(jié)果,因此本文顯示的都為0.

圖10 在VOT2018 的非監(jiān)督模式下的EOA 對(duì)比曲線Fig.10 EOA comparison curve of unsupervisized training on VOT2018

在VOT2018 的實(shí)時(shí)性能對(duì)比中,得到的期望平均重疊率曲線如圖11 所示.可以看出,本文算法與基準(zhǔn)算法的實(shí)時(shí)性能相比較差.因?yàn)楸疚乃惴ㄊ褂卯惒交ハ嚓P(guān)模型增加了額外開銷,因而實(shí)時(shí)性能較基準(zhǔn)算法差,但損失的實(shí)時(shí)性能要遠(yuǎn)小于跟蹤精度與魯棒性的提升.

圖11 在VOT2018 的實(shí)時(shí)性能對(duì)比下的EOA 對(duì)比曲線Fig.11 EOA comparison curve in realtime on VOT2018

為更加直觀地看出本文算法與其他算法在實(shí)時(shí)性能上的對(duì)比情況,本文將不同跟蹤器在實(shí)時(shí)性能上的期望重疊率排名情況進(jìn)行可視化,如圖12所示.可以看出,雖然所提算法在實(shí)時(shí)性能上有所犧牲,但該指標(biāo)下的跟蹤精度損失很小.同時(shí),本文算法在監(jiān)督實(shí)驗(yàn)和非監(jiān)督實(shí)驗(yàn)上的性能都要普遍優(yōu)于基準(zhǔn)算法.

圖12 在VOT2018 的實(shí)時(shí)性能對(duì)比下不同跟蹤器的期望重疊率性能排名情況對(duì)比Fig.12 Ranking of different trackers＇expected overlap ratio in realtime on VOT2018

4 結(jié)束語(yǔ)

針對(duì)基于孿生網(wǎng)絡(luò)的單目標(biāo)跟蹤器在面對(duì)相似語(yǔ)義目標(biāo)時(shí)會(huì)發(fā)生跟蹤失敗的情況,本文提出了一種異步相關(guān)的判別性學(xué)習(xí)模型,在Got-10k、TC128、OTB 和VOT2018 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,本文算法可顯著提升跟蹤器魯棒性和精度.在Got-10k上的消融實(shí)驗(yàn)表明,本文提出的異步相關(guān)判別模型、二階優(yōu)化方法和基于KL 散度的多模型融合管理算法,可有效提升跟蹤性能,并在TC128 上做了進(jìn)一步的驗(yàn)證.在OTB 上對(duì)跟蹤器在不同跟蹤條件下的跟蹤性能進(jìn)行對(duì)比發(fā)現(xiàn),本文算法可有效改善基準(zhǔn)算法在11 種跟蹤情景下的性能.并在Got-10k上進(jìn)行了實(shí)驗(yàn)結(jié)果的可視化,驗(yàn)證了本文方法帶來(lái)的判別性.同時(shí)在OTB 上對(duì)這一判別性做了進(jìn)一步驗(yàn)證.最后本文在VOT2018 中驗(yàn)證了本文方法可以有效提升基準(zhǔn)算法的精度和魯棒性.通過(guò)引入異步相關(guān)模型,本文算法在犧牲較少實(shí)時(shí)性能的情況下提升了準(zhǔn)確度.在未來(lái)的工作中,將探究一種自適應(yīng)使用異步相關(guān)模型個(gè)數(shù)的方法,以增強(qiáng)跟蹤器的泛化性能.