溫 靜,李 強(qiáng)
(山西大學(xué)計(jì)算機(jī)與信息技術(shù)學(xué)院,太原 030006)
(?通信作者電子郵箱wjing@sxu.edu.cn)
視覺目標(biāo)跟蹤作為計(jì)算機(jī)視覺領(lǐng)域的重要課題,主要用于研究視頻幀之間對(duì)象的時(shí)空關(guān)聯(lián)性,在自動(dòng)駕駛、智能交通監(jiān)控、人機(jī)交互、醫(yī)學(xué)診斷和行為識(shí)別等諸多領(lǐng)域有著廣泛的應(yīng)用[1]。依據(jù)跟蹤目標(biāo)數(shù)目的不同,目標(biāo)跟蹤可分為單目標(biāo)跟蹤和多目標(biāo)跟蹤,本文主要研究單目標(biāo)跟蹤。單目標(biāo)跟蹤旨在給定某視頻第一幀中任意目標(biāo)的位置和大小,在視頻的后續(xù)幀中預(yù)測(cè)該目標(biāo)的位置和大小。
目標(biāo)跟蹤的早期研究主要利用邊、角和輪廓等視覺特征進(jìn)行目標(biāo)跟蹤。視覺跟蹤算法的基本框架一般由搜索策略、特征提取和觀測(cè)模型等模塊組成。傳統(tǒng)機(jī)器學(xué)習(xí)算法在特征提取階段主要采取方向梯度直方圖[2]、顏色特征提?。–olor Names,CN)[3]等方法,這些方法存在特征信息不完整、有噪聲等缺點(diǎn),導(dǎo)致跟蹤精度下降。
近幾年基于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)的特征提取算法在視覺目標(biāo)跟蹤上得到了廣泛的應(yīng)用。Danelljian 等[4]利用預(yù)訓(xùn)練VGG(Visual Geometry Group)網(wǎng)絡(luò)提取目標(biāo)的深層特征與淺層特征,并將提取到的特征融入相關(guān)濾波器。基于預(yù)訓(xùn)練網(wǎng)絡(luò)的深度特征提取算法增強(qiáng)了特征的外觀表征能力,提升了算法精度,但網(wǎng)絡(luò)參數(shù)過多以及目標(biāo)模型的在線更新導(dǎo)致算法的跟蹤速度滿足不了實(shí)時(shí)的要求。
針對(duì)基于預(yù)訓(xùn)練網(wǎng)絡(luò)跟蹤算法因其網(wǎng)絡(luò)參數(shù)頻繁在線更新而導(dǎo)致時(shí)間效率較低的問題,Bertinetto 等[5]提出了一種基于全卷積孿生網(wǎng)絡(luò)(Fully-Convolutional Siamese Network,SiamFC)跟蹤算法。該算法通過計(jì)算候選區(qū)域和目標(biāo)模型的相似度來預(yù)測(cè)目標(biāo)的最終位置。SiamFC 在跟蹤過程中不需要在線更新網(wǎng)絡(luò)參數(shù),顯著提升了跟蹤算法的時(shí)間效率。在SiamFC 算法的基礎(chǔ)上,Li 等[6]結(jié)合了SiamFC 和Faster R-CNN中的區(qū)域生成網(wǎng)絡(luò)(Region Proposal Network,RPN)模塊提出了SiamRPN。當(dāng)SiamRPN 算法預(yù)測(cè)到正確的目標(biāo)時(shí),會(huì)預(yù)測(cè)跟蹤目標(biāo)的長(zhǎng)寬比給出更為精確的box 尺度,使得跟蹤算法達(dá)到了較高的精度。Wang 等[7]發(fā)現(xiàn)當(dāng)物體發(fā)生旋轉(zhuǎn)時(shí),簡(jiǎn)單的box表述會(huì)產(chǎn)生極大的損失。Wang等認(rèn)為通過直接預(yù)測(cè)物體的mask 可以得到更準(zhǔn)確的box。基于此,Wang 等提出了對(duì)視覺目標(biāo)跟蹤(Video Object Tracking,VOT)和視頻目標(biāo)分割(Video Object Segmentation,VOS)的統(tǒng)一算法SiamMask。SiamMask 縮小了任意目標(biāo)跟蹤與VOS 之間的差距,在視頻跟蹤任務(wù)上達(dá)到了最優(yōu)性能,并且在視頻目標(biāo)分割上取得了當(dāng)前最快速度。
雖然上述跟蹤算法實(shí)現(xiàn)了較好的跟蹤性能,但通過實(shí)驗(yàn)發(fā)現(xiàn)SiamMask 存在一些問題。圖1(a)顯示中間人物是待跟蹤目標(biāo),上方人物是相似的目標(biāo)。圖1(b)是得到的特征置信圖,從置信圖可以發(fā)現(xiàn)相似目標(biāo)對(duì)跟蹤目標(biāo)會(huì)產(chǎn)生干擾,進(jìn)而導(dǎo)致目標(biāo)框選位置發(fā)生偏移,如圖1(c)所示。因此,考慮利用視頻幀之間時(shí)空上的高度關(guān)聯(lián)性來增強(qiáng)跟蹤目標(biāo)的特征顯著性,改進(jìn)后的響應(yīng)圖如1(d)所示,得到了更精確的位置響應(yīng)。
圖1 相似干擾目標(biāo)Fig.1 Similar interference object
為了充分利用時(shí)空上下文信息,本文在SiamMask 算法的基礎(chǔ)上引入一個(gè)短期的記憶存儲(chǔ)模塊來存儲(chǔ)歷史幀的外觀特征。然后,利用歷史幀和當(dāng)前幀的目標(biāo)特征具有強(qiáng)相似性,提出了外觀顯著性增強(qiáng)模塊(Appearance Saliency Boosting Module,ASBM)。該模塊利用歷史幀和當(dāng)前幀特征相關(guān)性,進(jìn)一步增強(qiáng)當(dāng)前幀的目標(biāo)特征,最終提高跟蹤的精度。
為了任務(wù)的多樣性和跟蹤的實(shí)時(shí)性,本文采用了基于多任務(wù)全卷積的孿生網(wǎng)絡(luò)框架。
本文主要基于SiamMask 算法[7]來構(gòu)建網(wǎng)絡(luò)體系框架。當(dāng)進(jìn)行跟蹤任務(wù)時(shí),網(wǎng)絡(luò)的上分支主要負(fù)責(zé)提取視頻目標(biāo)的特征信息,網(wǎng)絡(luò)的下分支主要負(fù)責(zé)提取視頻當(dāng)前幀的特征信息;之后將兩個(gè)特征圖做互相關(guān),得到候選區(qū)域的響應(yīng)特征。為了跟蹤任務(wù)的準(zhǔn)確性,本文采用了兩種不同生成旋轉(zhuǎn)框的方式:一種是通過RPN 模塊生成固定長(zhǎng)寬比;另一種是根據(jù)分割分支生成旋轉(zhuǎn)框。將響應(yīng)特征采用第一種生成旋轉(zhuǎn)框策略僅得到跟蹤結(jié)果,將響應(yīng)特征采用第二種生成旋轉(zhuǎn)框策略將得到跟蹤和分割結(jié)果。
為了充分挖掘視頻目標(biāo)跟蹤任務(wù)中豐富的時(shí)空線索,本文對(duì)孿生網(wǎng)絡(luò)的下分支進(jìn)行了改進(jìn),在圖2 中展示了訓(xùn)練網(wǎng)絡(luò)的總體框架。如圖2所示,上支以127×127大小的圖像作為模板輸入,下支以255×255 大小的圖像作為輸入;經(jīng)過共享權(quán)重的ResNet-50 框架Φ提取圖片信息特征,對(duì)于網(wǎng)絡(luò)下支,提出短期記憶存儲(chǔ)池保留了視頻的歷史幀特征信息;其次通過外觀顯著性增強(qiáng)模塊捕獲上下文信息,實(shí)現(xiàn)當(dāng)前幀特征的顯著性增強(qiáng),減少環(huán)境中相似物體的干擾;再次,對(duì)上下支進(jìn)行特征互相關(guān);最后,通過卷積激活得到目標(biāo)跟蹤和分割結(jié)果。
圖2 時(shí)空上下文信息增強(qiáng)結(jié)構(gòu)Fig.2 Spatio-temporal context information enhancement structure
視頻上下幀之間具有強(qiáng)時(shí)空關(guān)聯(lián)性。目前大多數(shù)流行的跟蹤算法只利用當(dāng)前幀特征信息進(jìn)行目標(biāo)跟蹤,當(dāng)該幀跟蹤結(jié)束后,將重新初始化下一幀進(jìn)行跟蹤。這些算法缺乏對(duì)同一目標(biāo)在相鄰視頻幀之間關(guān)系的利用。圖3為利用CNN提取視頻中特征信息的熱度圖結(jié)果。通過實(shí)驗(yàn)發(fā)現(xiàn)不同幀中提取出來的特征通常關(guān)注物體相同的顯著部分。為了充分利用歷史幀中潛在的顯著特征,本文引入短期記憶存儲(chǔ)池來保留歷史幀特征。具體而言,在記憶存儲(chǔ)池中動(dòng)態(tài)地保留了包含當(dāng)前幀的三幀視頻特征(Ft,F(xiàn)t+1,F(xiàn)t+2),之后將拼接后的三幀特征送入ASBM。
圖3 熱度圖Fig.3 Heat map
本文借鑒圖匹配[8]和查詢記憶機(jī)制[9]的思想提出了一種基于特征對(duì)齊的ASBM。
1.3.1 特征對(duì)齊
目標(biāo)特征存在于歷史幀中不同的位置,這就導(dǎo)致提取出來的目標(biāo)顯著特征位置不一致,必須以某一幀為基準(zhǔn)對(duì)其他幀的特征進(jìn)行調(diào)整對(duì)齊。因此,本文利用圖匹配以當(dāng)前幀的特征為基準(zhǔn)重建歷史幀的特征以達(dá)到對(duì)齊的目的。圖匹配通過計(jì)算場(chǎng)景圖像特征和參考圖像特征的余弦相似度來建立場(chǎng)景圖像和參考圖像特征之間的相關(guān)性。在網(wǎng)絡(luò)中體現(xiàn)為,以當(dāng)前幀特征為參考信息,將歷史幀特征作為場(chǎng)景信息,通過將當(dāng)前幀特征和近鄰幀的特征計(jì)算余弦相似性得到相似性度量矩陣,然后將歷史幀信息與相似性度量矩陣相乘得到重建后的歷史幀信息。
1.3.2 特征增強(qiáng)
在特征對(duì)齊基礎(chǔ)上的特征增強(qiáng)可以提高目標(biāo)的顯著性,直接對(duì)對(duì)齊后的特征通道進(jìn)行簡(jiǎn)單疊加就可以達(dá)到特征增強(qiáng)的目的。這種方法的性能雖然有一定的提升,但是同時(shí)也會(huì)將歷史幀中干擾信息疊加到當(dāng)前幀中?;诖耍疚膶?duì)上下幀特征的增強(qiáng)方式進(jìn)行了改進(jìn)。本文采用一種類似查詢記憶(query-memory)機(jī)制,通過將當(dāng)前幀特征與歷史幀特征做相似性度量,以此得到當(dāng)前幀與歷史幀中相似目標(biāo)的相似度,通過相似度可以得到當(dāng)前幀的顯著信息并進(jìn)行增強(qiáng)。
1.3.3 整體結(jié)構(gòu)
圖4 顯示了外觀顯著性增強(qiáng)模塊的具體結(jié)構(gòu),網(wǎng)絡(luò)上支輸入為當(dāng)前幀的外觀特征信息Q∈RH×W×H,下支為歷史幀的外觀特征信息M∈RS×H×W×D,將上下分支特征經(jīng)過L2 正則(L2norm)計(jì)算,之后將當(dāng)前幀特征矩陣和近鄰幀的特征矩陣進(jìn)行相乘得到余弦相似度矩陣,將歷史幀特征與矩陣相乘得到重建后的歷史幀,實(shí)現(xiàn)特征對(duì)齊。
圖4 外觀顯著性增強(qiáng)模塊Fig.4 Appearance saliency boosting module
對(duì)于特征增強(qiáng)結(jié)構(gòu),將當(dāng)前幀的特征映射視為查詢幀Q,記憶幀為包含三幀的歷史幀特征的集合M,用來增強(qiáng)查詢幀Q的表示能力。首先將Q通過全局平均池化操作(Global Average Pooling,GAP)生成信道統(tǒng)計(jì)q∈RD,用來作為查詢幀的統(tǒng)計(jì)描述符;之后將M重構(gòu)數(shù)組維數(shù)為M∈R||M×D(M=S×H×W),將M看作一組D維局部描述子,||M為重構(gòu)完的特征大小,D為重構(gòu)完特征的維度;接下來,將q和M相乘得到其余弦相似性響應(yīng)圖(式(1)),該余弦相似性就是關(guān)于查詢向量與存儲(chǔ)器中的每個(gè)描述符匹配程度的概率圖。
其中:Mi∈RD描述了第i個(gè)局部描述符,q和M通過二范數(shù)正則化后相乘得到P,t是超參數(shù)。然后通過算式O=MTP計(jì)算存儲(chǔ)器中所有描述符值的和。通過這種方式,M描述符中與Q中相似的特征將呈現(xiàn)更高的權(quán)重,同時(shí)可以避免低質(zhì)量幀中信息被破壞。
最后,通過式(2),將O以一種殘差的方式傳遞到Q中。其中,BN是一個(gè)批規(guī)范化操作,用來提高網(wǎng)絡(luò)的泛化能力。
損失L3B由mask 分支、score 分支和box 分支三部分組成。對(duì)于score 分支采用二分類交叉熵?fù)p失函數(shù),將anchor 分為正樣本和負(fù)樣本;box 分支主要采用文獻(xiàn)SiamRPN 中的smooth_L1損失,首先利用式(3)將anchor的坐標(biāo)標(biāo)準(zhǔn)化。
其中:x、y、w、h代表矩陣中心的坐標(biāo)以及矩陣的寬和高;T和A分別代表groundtruth boxes 和anchor boxes。然后通過式(4)計(jì)算smooth_L1損失,得到box分支的損失。
其中:f為anchor 的坐標(biāo)經(jīng)過式(3)標(biāo)準(zhǔn)化后的特征圖。但對(duì)于mask 分支,其損失函數(shù)為式(5),其中yn是ground truth 標(biāo)簽,分為1和-1,w、h為mask矩陣的維度。
將本文算法與SiamMask[7]、SiamRPN[6]、DaSiamRPN[10]、SiamRPN++[11]和 ATOM(Accurate Tracking by Overlap Maximization)[12]進(jìn)行了對(duì)比分析。其中,SiamMask 在多任務(wù)框架下完成了跟蹤和分割的工作,因此,將本文提出的算法在單任務(wù)、帶有分割的多任務(wù)下與SiamMask算法進(jìn)行對(duì)比。
本文算法基于PyTorch框架實(shí)現(xiàn),算法的主干網(wǎng)絡(luò)采用在ImageNet-1k 分類任務(wù)上訓(xùn)練ResNet-50[13]作為預(yù)訓(xùn)練網(wǎng)絡(luò)。訓(xùn)練過程中使用隨機(jī)梯度下降(Stochastic Gradient Descent,SGD)優(yōu)化器,前5 個(gè)epoch 學(xué)習(xí)率從10-3到5× 10-4,在15 個(gè)epoch內(nèi)逐漸降到5× 10-4。本文使用COCO[14]、ImageNet-VID[15]和YouTube-VOS[16]數(shù)據(jù)集訓(xùn)練網(wǎng)絡(luò)。本文實(shí)驗(yàn)在兩塊NVIDIA 1080Ti GPU,64 GB 物理內(nèi)存和i7-8700K CPU 上進(jìn)行跟蹤算法訓(xùn)練,在一塊NVIDIA 1080Ti 和i7-8700K CPU 上進(jìn)行跟蹤算法的測(cè)試,編程語言為Python。
為了驗(yàn)證本文算法的有效性,采用了兩個(gè)廣泛使用的數(shù)據(jù)集進(jìn)行算法測(cè)試:VOT2016[17]和VOT2018[18]。VOT2016 和VOT2018均包含60段視頻,60段視頻中包含單目標(biāo)跟蹤領(lǐng)域中的難點(diǎn)問題,如相機(jī)變化、尺度變化、光照變化和遮擋。VOT2018 將VOT2016 中的一些跟蹤準(zhǔn)確的序列進(jìn)行替換,并對(duì)于序列的真值進(jìn)行了重新標(biāo)定,給出了更為準(zhǔn)確的標(biāo)注信息。根據(jù)VOT 的評(píng)估協(xié)議,本文采用了預(yù)期平均重疊率(Expected Average Overlap rate,EAO)、準(zhǔn)確率(Accuracy,A)和穩(wěn)健性(Robustness,R)指標(biāo)來表示跟蹤性能。其中,EAO是一種綜合考慮跟蹤算法準(zhǔn)確性和穩(wěn)健性的度量指標(biāo),該指標(biāo)越大越好;準(zhǔn)確性(A)用來評(píng)價(jià)跟蹤算法跟蹤目標(biāo)的準(zhǔn)確度,其值越大表示準(zhǔn)確率高;R 表示跟蹤算法的穩(wěn)定性,值越小表示跟蹤性能越穩(wěn)定。
對(duì)比實(shí)驗(yàn)分為兩部分:充分考慮到生成旋轉(zhuǎn)框的策略,在VOT2016 上分別采取box 策略(傳統(tǒng)的固定或可變縱橫比的軸對(duì)齊邊界框,即不加目標(biāo)分割任務(wù)mask 分支)和最小外包矩形(Minimum Bounding Rectangle,MBR)策略(通過mask 分支得到分割結(jié)果,并根據(jù)分割結(jié)果得出最小的旋轉(zhuǎn)邊框),將其應(yīng)用于SiamMask 算法和本文提出的SiamAsbm 算法。最終實(shí)驗(yàn)結(jié)果如表1 所示,本文算法SiamAsbm-box(無分割任務(wù)優(yōu)化旋轉(zhuǎn)框)在準(zhǔn)確率和平均重疊率上明顯優(yōu)于基準(zhǔn)算法,而在SiamAsbm-MBR 下能獲得更優(yōu)的性能(如表1 中最后一行所示)。MBR 策略生成旋轉(zhuǎn)框的方式相比較傳統(tǒng)生成旋轉(zhuǎn)框的策略有著整體的性能提升。
表1 在VOT2016數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果Tab.1 Experimental results on VOT2016 dataset
表2 顯示了本文算法與5 種主流的目標(biāo)跟蹤算法在VOT2018 上的實(shí)驗(yàn)對(duì)比,同樣對(duì)比了SiamMask 在加入box 和MBR,以及本文算法SiamAsbm 在分別加入box 和MBR 的性能。本文算法SiamAsbm-MBR 在穩(wěn)健性上相比SiamMask-MBR 降低了2.8 個(gè)百分點(diǎn),在平均重疊率和準(zhǔn)確率上提高了1.1 個(gè)百分點(diǎn)和3.7 個(gè)百分點(diǎn)。本文提出的模塊可以得到準(zhǔn)確的旋轉(zhuǎn)框使得算法在準(zhǔn)確率上優(yōu)于其他算法,但跟蹤任務(wù)存在大尺度變化和遮擋問題,因而得不到準(zhǔn)確分割結(jié)果,導(dǎo)致魯棒性和平均重疊率提高不明顯。
表2 在VOT2018數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果Tab.2 Experimental results on VOT2018 dataset
算法分為基于存儲(chǔ)池模塊和ASBM 模塊,其中,存儲(chǔ)池模塊可以進(jìn)行特征疊加操作;ASBM 模塊包含兩個(gè)操作,一個(gè)是特征對(duì)齊,另一個(gè)是對(duì)于當(dāng)前幀的特征信息增強(qiáng)。為了驗(yàn)證本文算法的有效性,采用如下方式進(jìn)行消融分析。
1)采用文獻(xiàn)SiamMask 中的基礎(chǔ)網(wǎng)絡(luò)作為基準(zhǔn)網(wǎng)絡(luò)(Baseline)。
2)在Baseline 中通過短期記憶存儲(chǔ)池存儲(chǔ)歷史幀特征,并進(jìn)行特征疊加。
3)在Baseline 中保持歷史信息,加入特征對(duì)齊模塊(Appearance Align),進(jìn)行特征疊加。
4)在Baseline 中保持歷史信息,加入外觀顯著性增強(qiáng)模塊ASBM,對(duì)當(dāng)前幀進(jìn)行特征增強(qiáng)。
從表3 的實(shí)驗(yàn)結(jié)果可以看出,特征對(duì)齊模塊相對(duì)于跟蹤的魯棒性有明顯的增強(qiáng),特征增強(qiáng)模塊對(duì)于跟蹤的準(zhǔn)確率有明顯提高。
表3 消融實(shí)驗(yàn)Tab.3 Ablation experiment
圖5 為跟蹤螞蟻圖片,原圖中存在較為相似的三只螞蟻,通過將歷史幀特征疊加到當(dāng)前幀中可以得到圖5(b),通過置信圖可以看出目標(biāo)輪廓模糊。之后經(jīng)過特征疊加到當(dāng)前幀可以得到圖5(c),可以發(fā)現(xiàn)目標(biāo)螞蟻在置信圖中獲得了清晰的輪廓,但同時(shí)圖中還存在一定的干擾物體。當(dāng)經(jīng)過特征增強(qiáng)模塊之后得到圖5(d),可以發(fā)現(xiàn)當(dāng)前跟蹤目標(biāo)的輪廓得到了進(jìn)一步增強(qiáng),并且干擾物的信息得到了明顯抑制。
圖5 置信圖Fig.5 Confidence graph
在多任務(wù)中,本文同時(shí)對(duì)目標(biāo)進(jìn)行分割,而跟蹤對(duì)分割的性能也有明顯的提高,這是因?yàn)閭鹘y(tǒng)算法是在整幅圖片上分割目標(biāo),而在多任務(wù)中,目標(biāo)跟蹤和特征對(duì)齊增強(qiáng)都能縮小分割的范圍,提高分割的效率。表4 和表5 是本文算法在DAVIS-2016[19]和DAVIS-2016[20]視頻目標(biāo)分割驗(yàn)證集上的結(jié)果。DAVIS-2016 和DAVIS-2016 分別包含20 和30 個(gè)驗(yàn)證視頻,視頻中的每一幀以二進(jìn)制掩碼的方式手工創(chuàng)建分割。度量指標(biāo)分別是區(qū)域相似度J、輪廓精度F和時(shí)間穩(wěn)定性T。對(duì)于每次度量C∈{J,F(xiàn)}考慮三個(gè)統(tǒng)計(jì)平均值(mean)、查全率(recall)和下降率(decay),在表中分別表示為JM、JO、JD、FM、FO、FD、TM。表6 則列出了在NVIDIA 1080Ti GPU 的硬件設(shè)備條件下,本文算法與其他分割算法的運(yùn)行時(shí)間對(duì)比。
表4 在DAVIS-2016數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果Tab.4 Experimental results on DAVIS-2016 dataset
表5 在DAVIS-2016數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果Tab.5 Experimental results on DAVIS-2016 dataset
表6 速度分析 單位:幀率Tab.6 Speed analysis unit:fps
由表4~6 中的數(shù)據(jù)可以看出,與傳統(tǒng)算法相比,本文算法在區(qū)域相似度與輪廓精度上的表現(xiàn)雖然不是最優(yōu),但速度提升到了32 fps,能滿足實(shí)時(shí)要求;而與能實(shí)時(shí)處理的SiamMask算法相比,本文算法在大多指標(biāo)上能獲得更好的表現(xiàn),因?yàn)樘卣髟鰪?qiáng)模塊使得特征目標(biāo)輪廓更加準(zhǔn)確;同時(shí),相較于其他方法,本文方法在decay 實(shí)現(xiàn)了更低的衰減,這表明本文方法隨著時(shí)間的推移是穩(wěn)健的。
圖6 顯示了本文算法在VOT 和DAVIS 測(cè)試集上的結(jié)果,其中Iceskater、girl、crabs 屬于VOT 測(cè)試集,Bmx-trees 和Dogsjump 屬于DAVIS 測(cè)試集。在VOT 測(cè)試集中展示了分割和跟蹤結(jié)果,DAVIS 展示了分割結(jié)果。從圖6 跟蹤分割結(jié)果可以清晰看出,本文算法不論在復(fù)雜場(chǎng)景(crabs),還是簡(jiǎn)單場(chǎng)景(Dogs-jump)都有很好的分割和目標(biāo)框的結(jié)果。除此之外,因?yàn)榧闪松舷挛男畔ⅲ员疚乃惴ㄔ诿鎸?duì)復(fù)雜上下文關(guān)系(Iceskater、girl)時(shí),仍然能準(zhǔn)確進(jìn)行目標(biāo)框的檢測(cè)而不受上下文信息的干擾。但是對(duì)于分割數(shù)據(jù)集,算法由于沒有得到更多的訓(xùn)練,導(dǎo)致分割結(jié)果在細(xì)節(jié)信息的處理上不夠完善。
圖6 跟蹤分割結(jié)果Fig.6 Tracking and segmentation results
本文算法也會(huì)出現(xiàn)跟蹤失敗的案例。如圖7(a)為要跟蹤的目標(biāo),圖7(b)為當(dāng)前幀。由圖7 可以看出,當(dāng)跟蹤物體運(yùn)動(dòng)、尺度和形狀變化劇烈時(shí)會(huì)導(dǎo)致跟蹤失敗,如圖7(b)中箭頭所指的目標(biāo)就會(huì)丟失跟蹤。這是由于訓(xùn)練數(shù)據(jù)集缺少具有較大仿射變化的樣本,同時(shí)訓(xùn)練網(wǎng)絡(luò)缺乏尺度表達(dá)能力造成的。
圖7 失敗案例Fig.7 Failure case
本文提出了一種基于時(shí)空上下文信息增強(qiáng)的目標(biāo)跟蹤算法。該算法通過引入短時(shí)記憶存儲(chǔ)池和提出外觀顯著性增強(qiáng)模塊ASBM,可以獲得較為完善、清晰的物體外觀,有助于提高跟蹤和分割多任務(wù)的準(zhǔn)確性。通過跟蹤?quán)徲虻腣OT2016和VOT2018 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,本文算法相較于本文中的其他單視頻目標(biāo)跟蹤算法在準(zhǔn)確率上有很大的提升;而在目標(biāo)分割鄰域的DAVIS-2016 和DAVIS-2017 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,本文算法相較于本文中其他單視頻目標(biāo)分割算法在速度上達(dá)到了實(shí)時(shí)性要求,但是其他指標(biāo)提升不夠明顯。在DAVIS-2016 和DAVIS-2016 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,本文算法在性能和速度上均有較好的表現(xiàn);但算法在面對(duì)物體劇烈形變時(shí),仍然會(huì)出現(xiàn)跟蹤失敗的情況,有待進(jìn)一步研究。下一步的工作將利用數(shù)據(jù)增強(qiáng)手段,進(jìn)一步增強(qiáng)數(shù)據(jù)和網(wǎng)絡(luò)的表達(dá)能力,提高目標(biāo)跟蹤的性能。