基于時(shí)空上下文信息增強(qiáng)的目標(biāo)跟蹤算法

2022-01-05 02:31:48溫靜，李強(qiáng)

計(jì)算機(jī)應(yīng)用 2021年12期

溫靜，李強(qiáng)

（山西大學(xué)計(jì)算機(jī)與信息技術(shù)學(xué)院，太原 030006）

（?通信作者電子郵箱wjing@sxu.edu.cn）

0 引言

視覺目標(biāo)跟蹤作為計(jì)算機(jī)視覺領(lǐng)域的重要課題，主要用于研究視頻幀之間對(duì)象的時(shí)空關(guān)聯(lián)性，在自動(dòng)駕駛、智能交通監(jiān)控、人機(jī)交互、醫(yī)學(xué)診斷和行為識(shí)別等諸多領(lǐng)域有著廣泛的應(yīng)用［1］。依據(jù)跟蹤目標(biāo)數(shù)目的不同，目標(biāo)跟蹤可分為單目標(biāo)跟蹤和多目標(biāo)跟蹤，本文主要研究單目標(biāo)跟蹤。單目標(biāo)跟蹤旨在給定某視頻第一幀中任意目標(biāo)的位置和大小，在視頻的后續(xù)幀中預(yù)測(cè)該目標(biāo)的位置和大小。

目標(biāo)跟蹤的早期研究主要利用邊、角和輪廓等視覺特征進(jìn)行目標(biāo)跟蹤。視覺跟蹤算法的基本框架一般由搜索策略、特征提取和觀測(cè)模型等模塊組成。傳統(tǒng)機(jī)器學(xué)習(xí)算法在特征提取階段主要采取方向梯度直方圖［2］、顏色特征提?。–olor Names，CN）［3］等方法，這些方法存在特征信息不完整、有噪聲等缺點(diǎn)，導(dǎo)致跟蹤精度下降。

近幾年基于卷積神經(jīng)網(wǎng)絡(luò)（Convolutional Neural Network，CNN）的特征提取算法在視覺目標(biāo)跟蹤上得到了廣泛的應(yīng)用。Danelljian 等［4］利用預(yù)訓(xùn)練VGG（Visual Geometry Group）網(wǎng)絡(luò)提取目標(biāo)的深層特征與淺層特征，并將提取到的特征融入相關(guān)濾波器。基于預(yù)訓(xùn)練網(wǎng)絡(luò)的深度特征提取算法增強(qiáng)了特征的外觀表征能力，提升了算法精度，但網(wǎng)絡(luò)參數(shù)過多以及目標(biāo)模型的在線更新導(dǎo)致算法的跟蹤速度滿足不了實(shí)時(shí)的要求。

針對(duì)基于預(yù)訓(xùn)練網(wǎng)絡(luò)跟蹤算法因其網(wǎng)絡(luò)參數(shù)頻繁在線更新而導(dǎo)致時(shí)間效率較低的問題，Bertinetto 等［5］提出了一種基于全卷積孿生網(wǎng)絡(luò)（Fully-Convolutional Siamese Network，SiamFC）跟蹤算法。該算法通過計(jì)算候選區(qū)域和目標(biāo)模型的相似度來預(yù)測(cè)目標(biāo)的最終位置。SiamFC 在跟蹤過程中不需要在線更新網(wǎng)絡(luò)參數(shù)，顯著提升了跟蹤算法的時(shí)間效率。在SiamFC 算法的基礎(chǔ)上，Li 等［6］結(jié)合了SiamFC 和Faster R-CNN中的區(qū)域生成網(wǎng)絡(luò)（Region Proposal Network，RPN）模塊提出了SiamRPN。當(dāng)SiamRPN 算法預(yù)測(cè)到正確的目標(biāo)時(shí)，會(huì)預(yù)測(cè)跟蹤目標(biāo)的長(zhǎng)寬比給出更為精確的box 尺度，使得跟蹤算法達(dá)到了較高的精度。Wang 等［7］發(fā)現(xiàn)當(dāng)物體發(fā)生旋轉(zhuǎn)時(shí)，簡(jiǎn)單的box表述會(huì)產(chǎn)生極大的損失。Wang等認(rèn)為通過直接預(yù)測(cè)物體的mask 可以得到更準(zhǔn)確的box。基于此，Wang 等提出了對(duì)視覺目標(biāo)跟蹤（Video Object Tracking，VOT）和視頻目標(biāo)分割（Video Object Segmentation，VOS）的統(tǒng)一算法SiamMask。SiamMask 縮小了任意目標(biāo)跟蹤與VOS 之間的差距，在視頻跟蹤任務(wù)上達(dá)到了最優(yōu)性能，并且在視頻目標(biāo)分割上取得了當(dāng)前最快速度。

雖然上述跟蹤算法實(shí)現(xiàn)了較好的跟蹤性能，但通過實(shí)驗(yàn)發(fā)現(xiàn)SiamMask 存在一些問題。圖1（a）顯示中間人物是待跟蹤目標(biāo)，上方人物是相似的目標(biāo)。圖1（b）是得到的特征置信圖，從置信圖可以發(fā)現(xiàn)相似目標(biāo)對(duì)跟蹤目標(biāo)會(huì)產(chǎn)生干擾，進(jìn)而導(dǎo)致目標(biāo)框選位置發(fā)生偏移，如圖1（c）所示。因此，考慮利用視頻幀之間時(shí)空上的高度關(guān)聯(lián)性來增強(qiáng)跟蹤目標(biāo)的特征顯著性，改進(jìn)后的響應(yīng)圖如1（d）所示，得到了更精確的位置響應(yīng)。

圖1 相似干擾目標(biāo)Fig.1 Similar interference object

為了充分利用時(shí)空上下文信息，本文在SiamMask 算法的基礎(chǔ)上引入一個(gè)短期的記憶存儲(chǔ)模塊來存儲(chǔ)歷史幀的外觀特征。然后，利用歷史幀和當(dāng)前幀的目標(biāo)特征具有強(qiáng)相似性，提出了外觀顯著性增強(qiáng)模塊（Appearance Saliency Boosting Module，ASBM）。該模塊利用歷史幀和當(dāng)前幀特征相關(guān)性，進(jìn)一步增強(qiáng)當(dāng)前幀的目標(biāo)特征，最終提高跟蹤的精度。

1 時(shí)空上下文信息增強(qiáng)算法

為了任務(wù)的多樣性和跟蹤的實(shí)時(shí)性，本文采用了基于多任務(wù)全卷積的孿生網(wǎng)絡(luò)框架。

1.1 算法的整體結(jié)構(gòu)

本文主要基于SiamMask 算法［7］來構(gòu)建網(wǎng)絡(luò)體系框架。當(dāng)進(jìn)行跟蹤任務(wù)時(shí)，網(wǎng)絡(luò)的上分支主要負(fù)責(zé)提取視頻目標(biāo)的特征信息，網(wǎng)絡(luò)的下分支主要負(fù)責(zé)提取視頻當(dāng)前幀的特征信息；之后將兩個(gè)特征圖做互相關(guān)，得到候選區(qū)域的響應(yīng)特征。為了跟蹤任務(wù)的準(zhǔn)確性，本文采用了兩種不同生成旋轉(zhuǎn)框的方式：一種是通過RPN 模塊生成固定長(zhǎng)寬比；另一種是根據(jù)分割分支生成旋轉(zhuǎn)框。將響應(yīng)特征采用第一種生成旋轉(zhuǎn)框策略僅得到跟蹤結(jié)果，將響應(yīng)特征采用第二種生成旋轉(zhuǎn)框策略將得到跟蹤和分割結(jié)果。

為了充分挖掘視頻目標(biāo)跟蹤任務(wù)中豐富的時(shí)空線索，本文對(duì)孿生網(wǎng)絡(luò)的下分支進(jìn)行了改進(jìn)，在圖2 中展示了訓(xùn)練網(wǎng)絡(luò)的總體框架。如圖2所示，上支以127×127大小的圖像作為模板輸入，下支以255×255 大小的圖像作為輸入；經(jīng)過共享權(quán)重的ResNet-50 框架Φ提取圖片信息特征，對(duì)于網(wǎng)絡(luò)下支，提出短期記憶存儲(chǔ)池保留了視頻的歷史幀特征信息；其次通過外觀顯著性增強(qiáng)模塊捕獲上下文信息，實(shí)現(xiàn)當(dāng)前幀特征的顯著性增強(qiáng)，減少環(huán)境中相似物體的干擾；再次，對(duì)上下支進(jìn)行特征互相關(guān)；最后，通過卷積激活得到目標(biāo)跟蹤和分割結(jié)果。

圖2 時(shí)空上下文信息增強(qiáng)結(jié)構(gòu)Fig.2 Spatio-temporal context information enhancement structure

1.2 短期記憶存儲(chǔ)池

視頻上下幀之間具有強(qiáng)時(shí)空關(guān)聯(lián)性。目前大多數(shù)流行的跟蹤算法只利用當(dāng)前幀特征信息進(jìn)行目標(biāo)跟蹤，當(dāng)該幀跟蹤結(jié)束后，將重新初始化下一幀進(jìn)行跟蹤。這些算法缺乏對(duì)同一目標(biāo)在相鄰視頻幀之間關(guān)系的利用。圖3為利用CNN提取視頻中特征信息的熱度圖結(jié)果。通過實(shí)驗(yàn)發(fā)現(xiàn)不同幀中提取出來的特征通常關(guān)注物體相同的顯著部分。為了充分利用歷史幀中潛在的顯著特征，本文引入短期記憶存儲(chǔ)池來保留歷史幀特征。具體而言，在記憶存儲(chǔ)池中動(dòng)態(tài)地保留了包含當(dāng)前幀的三幀視頻特征(Ft，F(xiàn)t+1，F(xiàn)t+2)，之后將拼接后的三幀特征送入ASBM。

圖3 熱度圖Fig.3 Heat map

1.3 外觀顯著性增強(qiáng)模塊

本文借鑒圖匹配［8］和查詢記憶機(jī)制［9］的思想提出了一種基于特征對(duì)齊的ASBM。

1.3.1 特征對(duì)齊

目標(biāo)特征存在于歷史幀中不同的位置，這就導(dǎo)致提取出來的目標(biāo)顯著特征位置不一致，必須以某一幀為基準(zhǔn)對(duì)其他幀的特征進(jìn)行調(diào)整對(duì)齊。因此，本文利用圖匹配以當(dāng)前幀的特征為基準(zhǔn)重建歷史幀的特征以達(dá)到對(duì)齊的目的。圖匹配通過計(jì)算場(chǎng)景圖像特征和參考圖像特征的余弦相似度來建立場(chǎng)景圖像和參考圖像特征之間的相關(guān)性。在網(wǎng)絡(luò)中體現(xiàn)為，以當(dāng)前幀特征為參考信息，將歷史幀特征作為場(chǎng)景信息，通過將當(dāng)前幀特征和近鄰幀的特征計(jì)算余弦相似性得到相似性度量矩陣，然后將歷史幀信息與相似性度量矩陣相乘得到重建后的歷史幀信息。

1.3.2 特征增強(qiáng)

在特征對(duì)齊基礎(chǔ)上的特征增強(qiáng)可以提高目標(biāo)的顯著性，直接對(duì)對(duì)齊后的特征通道進(jìn)行簡(jiǎn)單疊加就可以達(dá)到特征增強(qiáng)的目的。這種方法的性能雖然有一定的提升，但是同時(shí)也會(huì)將歷史幀中干擾信息疊加到當(dāng)前幀中?；诖耍疚膶?duì)上下幀特征的增強(qiáng)方式進(jìn)行了改進(jìn)。本文采用一種類似查詢記憶（query-memory）機(jī)制，通過將當(dāng)前幀特征與歷史幀特征做相似性度量，以此得到當(dāng)前幀與歷史幀中相似目標(biāo)的相似度，通過相似度可以得到當(dāng)前幀的顯著信息并進(jìn)行增強(qiáng)。

1.3.3 整體結(jié)構(gòu)

圖4 顯示了外觀顯著性增強(qiáng)模塊的具體結(jié)構(gòu)，網(wǎng)絡(luò)上支輸入為當(dāng)前幀的外觀特征信息Q∈RH×W×H，下支為歷史幀的外觀特征信息M∈RS×H×W×D，將上下分支特征經(jīng)過L2 正則（L2norm）計(jì)算，之后將當(dāng)前幀特征矩陣和近鄰幀的特征矩陣進(jìn)行相乘得到余弦相似度矩陣，將歷史幀特征與矩陣相乘得到重建后的歷史幀，實(shí)現(xiàn)特征對(duì)齊。

圖4 外觀顯著性增強(qiáng)模塊Fig.4 Appearance saliency boosting module

對(duì)于特征增強(qiáng)結(jié)構(gòu)，將當(dāng)前幀的特征映射視為查詢幀Q，記憶幀為包含三幀的歷史幀特征的集合M，用來增強(qiáng)查詢幀Q的表示能力。首先將Q通過全局平均池化操作（Global Average Pooling，GAP）生成信道統(tǒng)計(jì)q∈RD，用來作為查詢幀的統(tǒng)計(jì)描述符；之后將M重構(gòu)數(shù)組維數(shù)為M∈R||M×D(M=S×H×W)，將M看作一組D維局部描述子，||M為重構(gòu)完的特征大小，D為重構(gòu)完特征的維度；接下來，將q和M相乘得到其余弦相似性響應(yīng)圖（式（1）），該余弦相似性就是關(guān)于查詢向量與存儲(chǔ)器中的每個(gè)描述符匹配程度的概率圖。

其中：Mi∈RD描述了第i個(gè)局部描述符，q和M通過二范數(shù)正則化后相乘得到P，t是超參數(shù)。然后通過算式O=MTP計(jì)算存儲(chǔ)器中所有描述符值的和。通過這種方式，M描述符中與Q中相似的特征將呈現(xiàn)更高的權(quán)重，同時(shí)可以避免低質(zhì)量幀中信息被破壞。

最后，通過式（2），將O以一種殘差的方式傳遞到Q中。其中，BN是一個(gè)批規(guī)范化操作，用來提高網(wǎng)絡(luò)的泛化能力。

1.4 損失函數(shù)

損失L3B由mask 分支、score 分支和box 分支三部分組成。對(duì)于score 分支采用二分類交叉熵?fù)p失函數(shù)，將anchor 分為正樣本和負(fù)樣本；box 分支主要采用文獻(xiàn)SiamRPN 中的smooth_L1損失，首先利用式（3）將anchor的坐標(biāo)標(biāo)準(zhǔn)化。

其中：x、y、w、h代表矩陣中心的坐標(biāo)以及矩陣的寬和高；T和A分別代表groundtruth boxes 和anchor boxes。然后通過式（4）計(jì)算smooth_L1損失，得到box分支的損失。

其中：f為anchor 的坐標(biāo)經(jīng)過式（3）標(biāo)準(zhǔn)化后的特征圖。但對(duì)于mask 分支，其損失函數(shù)為式（5），其中yn是ground truth 標(biāo)簽，分為1和-1，w、h為mask矩陣的維度。

2 實(shí)驗(yàn)結(jié)果與分析

將本文算法與SiamMask［7］、SiamRPN［6］、DaSiamRPN［10］、SiamRPN++［11］和 ATOM（Accurate Tracking by Overlap Maximization）［12］進(jìn)行了對(duì)比分析。其中，SiamMask 在多任務(wù)框架下完成了跟蹤和分割的工作，因此，將本文提出的算法在單任務(wù)、帶有分割的多任務(wù)下與SiamMask算法進(jìn)行對(duì)比。

2.1 實(shí)驗(yàn)環(huán)境和訓(xùn)練設(shè)計(jì)

本文算法基于PyTorch框架實(shí)現(xiàn)，算法的主干網(wǎng)絡(luò)采用在ImageNet-1k 分類任務(wù)上訓(xùn)練ResNet-50［13］作為預(yù)訓(xùn)練網(wǎng)絡(luò)。訓(xùn)練過程中使用隨機(jī)梯度下降（Stochastic Gradient Descent，SGD）優(yōu)化器，前5 個(gè)epoch 學(xué)習(xí)率從10-3到5× 10-4，在15 個(gè)epoch內(nèi)逐漸降到5× 10-4。本文使用COCO［14］、ImageNet-VID［15］和YouTube-VOS［16］數(shù)據(jù)集訓(xùn)練網(wǎng)絡(luò)。本文實(shí)驗(yàn)在兩塊NVIDIA 1080Ti GPU，64 GB 物理內(nèi)存和i7-8700K CPU 上進(jìn)行跟蹤算法訓(xùn)練，在一塊NVIDIA 1080Ti 和i7-8700K CPU 上進(jìn)行跟蹤算法的測(cè)試，編程語言為Python。

2.2 目標(biāo)跟蹤的評(píng)估

為了驗(yàn)證本文算法的有效性，采用了兩個(gè)廣泛使用的數(shù)據(jù)集進(jìn)行算法測(cè)試：VOT2016［17］和VOT2018［18］。VOT2016 和VOT2018均包含60段視頻，60段視頻中包含單目標(biāo)跟蹤領(lǐng)域中的難點(diǎn)問題，如相機(jī)變化、尺度變化、光照變化和遮擋。VOT2018 將VOT2016 中的一些跟蹤準(zhǔn)確的序列進(jìn)行替換，并對(duì)于序列的真值進(jìn)行了重新標(biāo)定，給出了更為準(zhǔn)確的標(biāo)注信息。根據(jù)VOT 的評(píng)估協(xié)議，本文采用了預(yù)期平均重疊率（Expected Average Overlap rate，EAO）、準(zhǔn)確率（Accuracy，A）和穩(wěn)健性（Robustness，R）指標(biāo)來表示跟蹤性能。其中，EAO是一種綜合考慮跟蹤算法準(zhǔn)確性和穩(wěn)健性的度量指標(biāo)，該指標(biāo)越大越好；準(zhǔn)確性（A）用來評(píng)價(jià)跟蹤算法跟蹤目標(biāo)的準(zhǔn)確度，其值越大表示準(zhǔn)確率高；R 表示跟蹤算法的穩(wěn)定性，值越小表示跟蹤性能越穩(wěn)定。

對(duì)比實(shí)驗(yàn)分為兩部分：充分考慮到生成旋轉(zhuǎn)框的策略，在VOT2016 上分別采取box 策略（傳統(tǒng)的固定或可變縱橫比的軸對(duì)齊邊界框，即不加目標(biāo)分割任務(wù)mask 分支）和最小外包矩形（Minimum Bounding Rectangle，MBR）策略（通過mask 分支得到分割結(jié)果，并根據(jù)分割結(jié)果得出最小的旋轉(zhuǎn)邊框），將其應(yīng)用于SiamMask 算法和本文提出的SiamAsbm 算法。最終實(shí)驗(yàn)結(jié)果如表1 所示，本文算法SiamAsbm-box（無分割任務(wù)優(yōu)化旋轉(zhuǎn)框）在準(zhǔn)確率和平均重疊率上明顯優(yōu)于基準(zhǔn)算法，而在SiamAsbm-MBR 下能獲得更優(yōu)的性能（如表1 中最后一行所示）。MBR 策略生成旋轉(zhuǎn)框的方式相比較傳統(tǒng)生成旋轉(zhuǎn)框的策略有著整體的性能提升。

表1 在VOT2016數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果Tab.1 Experimental results on VOT2016 dataset

表2 顯示了本文算法與5 種主流的目標(biāo)跟蹤算法在VOT2018 上的實(shí)驗(yàn)對(duì)比，同樣對(duì)比了SiamMask 在加入box 和MBR，以及本文算法SiamAsbm 在分別加入box 和MBR 的性能。本文算法SiamAsbm-MBR 在穩(wěn)健性上相比SiamMask-MBR 降低了2.8 個(gè)百分點(diǎn)，在平均重疊率和準(zhǔn)確率上提高了1.1 個(gè)百分點(diǎn)和3.7 個(gè)百分點(diǎn)。本文提出的模塊可以得到準(zhǔn)確的旋轉(zhuǎn)框使得算法在準(zhǔn)確率上優(yōu)于其他算法，但跟蹤任務(wù)存在大尺度變化和遮擋問題，因而得不到準(zhǔn)確分割結(jié)果，導(dǎo)致魯棒性和平均重疊率提高不明顯。

表2 在VOT2018數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果Tab.2 Experimental results on VOT2018 dataset

2.3 消融實(shí)驗(yàn)

算法分為基于存儲(chǔ)池模塊和ASBM 模塊，其中，存儲(chǔ)池模塊可以進(jìn)行特征疊加操作；ASBM 模塊包含兩個(gè)操作，一個(gè)是特征對(duì)齊，另一個(gè)是對(duì)于當(dāng)前幀的特征信息增強(qiáng)。為了驗(yàn)證本文算法的有效性，采用如下方式進(jìn)行消融分析。

1）采用文獻(xiàn)SiamMask 中的基礎(chǔ)網(wǎng)絡(luò)作為基準(zhǔn)網(wǎng)絡(luò)（Baseline）。

2）在Baseline 中通過短期記憶存儲(chǔ)池存儲(chǔ)歷史幀特征，并進(jìn)行特征疊加。

3）在Baseline 中保持歷史信息，加入特征對(duì)齊模塊（Appearance Align），進(jìn)行特征疊加。

4）在Baseline 中保持歷史信息，加入外觀顯著性增強(qiáng)模塊ASBM，對(duì)當(dāng)前幀進(jìn)行特征增強(qiáng)。

從表3 的實(shí)驗(yàn)結(jié)果可以看出，特征對(duì)齊模塊相對(duì)于跟蹤的魯棒性有明顯的增強(qiáng)，特征增強(qiáng)模塊對(duì)于跟蹤的準(zhǔn)確率有明顯提高。

表3 消融實(shí)驗(yàn)Tab.3 Ablation experiment

圖5 為跟蹤螞蟻圖片，原圖中存在較為相似的三只螞蟻，通過將歷史幀特征疊加到當(dāng)前幀中可以得到圖5（b），通過置信圖可以看出目標(biāo)輪廓模糊。之后經(jīng)過特征疊加到當(dāng)前幀可以得到圖5（c），可以發(fā)現(xiàn)目標(biāo)螞蟻在置信圖中獲得了清晰的輪廓，但同時(shí)圖中還存在一定的干擾物體。當(dāng)經(jīng)過特征增強(qiáng)模塊之后得到圖5（d），可以發(fā)現(xiàn)當(dāng)前跟蹤目標(biāo)的輪廓得到了進(jìn)一步增強(qiáng)，并且干擾物的信息得到了明顯抑制。

圖5 置信圖Fig.5 Confidence graph

2.4 對(duì)多任務(wù)算法性能的提升

在多任務(wù)中，本文同時(shí)對(duì)目標(biāo)進(jìn)行分割，而跟蹤對(duì)分割的性能也有明顯的提高，這是因?yàn)閭鹘y(tǒng)算法是在整幅圖片上分割目標(biāo)，而在多任務(wù)中，目標(biāo)跟蹤和特征對(duì)齊增強(qiáng)都能縮小分割的范圍，提高分割的效率。表4 和表5 是本文算法在DAVIS-2016［19］和DAVIS-2016［20］視頻目標(biāo)分割驗(yàn)證集上的結(jié)果。DAVIS-2016 和DAVIS-2016 分別包含20 和30 個(gè)驗(yàn)證視頻，視頻中的每一幀以二進(jìn)制掩碼的方式手工創(chuàng)建分割。度量指標(biāo)分別是區(qū)域相似度J、輪廓精度F和時(shí)間穩(wěn)定性T。對(duì)于每次度量C∈{J，F(xiàn)}考慮三個(gè)統(tǒng)計(jì)平均值（mean）、查全率（recall）和下降率（decay），在表中分別表示為JM、JO、JD、FM、FO、FD、TM。表6 則列出了在NVIDIA 1080Ti GPU 的硬件設(shè)備條件下，本文算法與其他分割算法的運(yùn)行時(shí)間對(duì)比。

表4 在DAVIS-2016數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果Tab.4 Experimental results on DAVIS-2016 dataset

表5 在DAVIS-2016數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果Tab.5 Experimental results on DAVIS-2016 dataset

表6 速度分析單位：幀率Tab.6 Speed analysis unit：fps

由表4～6 中的數(shù)據(jù)可以看出，與傳統(tǒng)算法相比，本文算法在區(qū)域相似度與輪廓精度上的表現(xiàn)雖然不是最優(yōu)，但速度提升到了32 fps，能滿足實(shí)時(shí)要求；而與能實(shí)時(shí)處理的SiamMask算法相比，本文算法在大多指標(biāo)上能獲得更好的表現(xiàn)，因?yàn)樘卣髟鰪?qiáng)模塊使得特征目標(biāo)輪廓更加準(zhǔn)確；同時(shí)，相較于其他方法，本文方法在decay 實(shí)現(xiàn)了更低的衰減，這表明本文方法隨著時(shí)間的推移是穩(wěn)健的。

2.5 定性分析

圖6 顯示了本文算法在VOT 和DAVIS 測(cè)試集上的結(jié)果，其中Iceskater、girl、crabs 屬于VOT 測(cè)試集，Bmx-trees 和Dogsjump 屬于DAVIS 測(cè)試集。在VOT 測(cè)試集中展示了分割和跟蹤結(jié)果，DAVIS 展示了分割結(jié)果。從圖6 跟蹤分割結(jié)果可以清晰看出，本文算法不論在復(fù)雜場(chǎng)景（crabs），還是簡(jiǎn)單場(chǎng)景（Dogs-jump）都有很好的分割和目標(biāo)框的結(jié)果。除此之外，因?yàn)榧闪松舷挛男畔ⅲ员疚乃惴ㄔ诿鎸?duì)復(fù)雜上下文關(guān)系（Iceskater、girl）時(shí)，仍然能準(zhǔn)確進(jìn)行目標(biāo)框的檢測(cè)而不受上下文信息的干擾。但是對(duì)于分割數(shù)據(jù)集，算法由于沒有得到更多的訓(xùn)練，導(dǎo)致分割結(jié)果在細(xì)節(jié)信息的處理上不夠完善。

圖6 跟蹤分割結(jié)果Fig.6 Tracking and segmentation results

2.6 失敗案例

本文算法也會(huì)出現(xiàn)跟蹤失敗的案例。如圖7（a）為要跟蹤的目標(biāo)，圖7（b）為當(dāng)前幀。由圖7 可以看出，當(dāng)跟蹤物體運(yùn)動(dòng)、尺度和形狀變化劇烈時(shí)會(huì)導(dǎo)致跟蹤失敗，如圖7（b）中箭頭所指的目標(biāo)就會(huì)丟失跟蹤。這是由于訓(xùn)練數(shù)據(jù)集缺少具有較大仿射變化的樣本，同時(shí)訓(xùn)練網(wǎng)絡(luò)缺乏尺度表達(dá)能力造成的。

圖7 失敗案例Fig.7 Failure case

3 結(jié)語

本文提出了一種基于時(shí)空上下文信息增強(qiáng)的目標(biāo)跟蹤算法。該算法通過引入短時(shí)記憶存儲(chǔ)池和提出外觀顯著性增強(qiáng)模塊ASBM，可以獲得較為完善、清晰的物體外觀，有助于提高跟蹤和分割多任務(wù)的準(zhǔn)確性。通過跟蹤?quán)徲虻腣OT2016和VOT2018 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明，本文算法相較于本文中的其他單視頻目標(biāo)跟蹤算法在準(zhǔn)確率上有很大的提升；而在目標(biāo)分割鄰域的DAVIS-2016 和DAVIS-2017 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明，本文算法相較于本文中其他單視頻目標(biāo)分割算法在速度上達(dá)到了實(shí)時(shí)性要求，但是其他指標(biāo)提升不夠明顯。在DAVIS-2016 和DAVIS-2016 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明，本文算法在性能和速度上均有較好的表現(xiàn)；但算法在面對(duì)物體劇烈形變時(shí)，仍然會(huì)出現(xiàn)跟蹤失敗的情況，有待進(jìn)一步研究。下一步的工作將利用數(shù)據(jù)增強(qiáng)手段，進(jìn)一步增強(qiáng)數(shù)據(jù)和網(wǎng)絡(luò)的表達(dá)能力，提高目標(biāo)跟蹤的性能。