基于孿生檢測(cè)網(wǎng)絡(luò)的實(shí)時(shí)視頻追蹤算法

2019-01-06 07:27鄧楊謝寧楊陽

計(jì)算機(jī)應(yīng)用 2019年12期

鄧楊　謝寧　楊陽

摘要：目前，在視頻追蹤領(lǐng)域中，大部分基于孿生網(wǎng)絡(luò)的追蹤算法只能對(duì)物體的中心點(diǎn)進(jìn)行定位，而在定位快速形變的物體時(shí)會(huì)出現(xiàn)定位不準(zhǔn)確的問題。為此，提出基于孿生檢測(cè)網(wǎng)絡(luò)的實(shí)時(shí)視頻追蹤算法——SiamRFC。SiamRFC算法可直接預(yù)測(cè)被追蹤物體位置，來應(yīng)對(duì)快速形變的問題。首先，通過判斷相似性來得到被追蹤物體的中心點(diǎn)位置;然后，運(yùn)用目標(biāo)檢測(cè)的思路，通過選取一系列的預(yù)選框來回歸最優(yōu)的位置。實(shí)驗(yàn)結(jié)果表明，所提SiamRFC算法在VOT2015|16|17的測(cè)試集上均有很好的表現(xiàn)。

關(guān)鍵詞：孿生網(wǎng)絡(luò);物體檢測(cè);實(shí)時(shí)視頻追蹤;相似性學(xué)習(xí);卷積神經(jīng)網(wǎng)絡(luò)

中圖分類號(hào)： TP391.4文獻(xiàn)標(biāo)志碼：A

Siamese detection network based real-time video tracking algorithm

DENG Yang1，2， XIE Ning1，2*， YANG Yang1，2

（1. School of Computer Science and Engineering， University of Electronic Science and Technology of China， Chengdu Sichuan 611731， China;

2. Center for Future Media， University of Electronic Science and Technology of China， Chengdu Sichuan 611731， China）

Abstract： Currently， in the field of video tracking， the typical Siamese network based algorithms only locate the center point of target， which results in poor locating performance on fast-deformation objects. Therefore， a real-time video tracking algorithm based on Siamese detection network called Siamese-FC Region-convolutional neural network （SiamRFC） was proposed. SiamRFC can directly predict the center position of the target， thus dealing with the rapid deformation. Firstly， the position of the center point of the target was obtained by judging the similarity. Then， the idea of object detection was used to return the optimal position by selecting a series of candidate boxes. Experimental results show that SiamRFC has good performance on the VOT2015|16|17 test sets.

Key words： Siamese network; objection detection; real-time video tracking; similarity learning; Convolutional Neural Network （CNN）

0引言

在計(jì)算機(jī)視覺中，視頻追蹤領(lǐng)域是一個(gè)非常重要且具有挑戰(zhàn)性的問題。由于被追蹤物體會(huì)產(chǎn)生遮擋、形變和外觀等變化，精確定位目標(biāo)物體顯得較為困難。另外，在大量的應(yīng)用中，比如自動(dòng)駕駛、視頻監(jiān)控等，都具有實(shí)時(shí)性的要求。因此，設(shè)計(jì)具有實(shí)時(shí)性且高精度追蹤算法就成為視頻追蹤領(lǐng)域主要的挑戰(zhàn)。

在視頻追蹤領(lǐng)域，基于相關(guān)濾波器方法[1-4]被廣泛地應(yīng)用。相關(guān)濾波器方法是訓(xùn)練學(xué)習(xí)一個(gè)濾波器，用于從背景中分離出被追蹤物體。但是基于濾波器的方法具有很多缺點(diǎn)，比如需要在線更新;另外，對(duì)于背景較為復(fù)雜和快速形變的物體則不能很準(zhǔn)確地定位。近年來，由于硬件性能的提升和可利用的標(biāo)注數(shù)據(jù)的增多，為深度卷積神經(jīng)網(wǎng)絡(luò)在計(jì)算機(jī)視覺中的快速應(yīng)用奠定了基礎(chǔ)。目前，基于學(xué)習(xí)深度特征的相關(guān)濾波器能夠持續(xù)提高算法的精確度[1，5-6];文獻(xiàn)[7-9]則是直接利用深度學(xué)習(xí)的方法進(jìn)行追蹤。但是這些方法通常需要在線更新，所以很難達(dá)到實(shí)時(shí)性。

目前，基于深度卷積神經(jīng)網(wǎng)絡(luò)[10-12]的實(shí)時(shí)追蹤方法被廣泛應(yīng)用于目標(biāo)追蹤領(lǐng)域中。如文獻(xiàn)[11]把追蹤看成是一個(gè)回歸問題，通過卷積神經(jīng)網(wǎng)絡(luò)（Convolutional Neural Network， CNN）直接回歸出被追蹤物體的位置;Siamese-FC（Fully-Convolutional Siamese network）[10] 把追蹤看成相似性學(xué)習(xí)，通過深度卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)一個(gè)判別模型來定位物體中心點(diǎn)的位置，但是對(duì)物體形狀的預(yù)測(cè)只是通過初始幀中物體的形狀和相應(yīng)的形變約束來控制。Siamese-RPN（Siamese Region Proposal Network）[12]把追蹤看成一個(gè)檢測(cè)問題，利用Faster R-CNN（Faster Region-CNN）[13]中區(qū)域回歸的思想來定位被追蹤物體的位置。盡管Siamese-RPN具有很高的追蹤能力，但是需要比文獻(xiàn)[10-11]方法設(shè)置更多的參數(shù)，因此會(huì)增加大量訓(xùn)練數(shù)據(jù)。

為解決以上問題，本文提出一種基于孿生檢測(cè)網(wǎng)絡(luò)的實(shí)時(shí)視頻追蹤算法——SiamRFC（Siamese-FC Region-convolution neural network）。SiamRFC算法分為兩部分：第一部分跟Siamese-FC相似，通過學(xué)習(xí)CNN來得到一個(gè)判斷物體相關(guān)性的關(guān)系網(wǎng)絡(luò)，該網(wǎng)絡(luò)可以定位被追蹤物體的中心點(diǎn)位置;第二部分則是利用這個(gè)中心點(diǎn)的位置，提取一系列預(yù)選框，然后通過回歸和分類網(wǎng)絡(luò)來定位被追蹤物體。SiamRFC算法結(jié)合了Siamese-FC和Faster R-CNN的優(yōu)勢(shì)：一方面Siamese-FC具有很好的判別能力，能過定位被追蹤物體的中心點(diǎn);另一方面利用區(qū)域回歸的思想進(jìn)一步定位目標(biāo)。本文的算法與Siamese-RPN區(qū)別在于不是全局定位物體位置，最大的優(yōu)勢(shì)是模型參數(shù)少，使用少量的數(shù)據(jù)仍然可以得到很好的追蹤效果。

在VOT2015[14]、VOT2016[15]和VOT2017[16]評(píng)估提出本文提出的追蹤算法SiamRFC。在VOT系列的測(cè)試集上的實(shí)驗(yàn)結(jié)果表明，本文算法能達(dá)到很好的性能。由于SiamRFC是在Siamese基礎(chǔ)上進(jìn)一步定位目標(biāo)，會(huì)增加一些追蹤時(shí)間，但是仍然滿足實(shí)時(shí)性的要求。

1相關(guān)工作

1.1視頻追蹤

基于孿生網(wǎng)絡(luò)的追蹤算法由兩部分組成，首先提取第一幀中被追蹤物體的特征，然后和候選區(qū)域特征進(jìn)行比較，得到相似性信息。基于這種方法的追蹤器通常在一個(gè)域上學(xué)習(xí)信息，然后遷移到其他域中。這種方法并不需要在線更新，滿足實(shí)時(shí)追蹤的要求。

最近幾年，孿生網(wǎng)絡(luò)引起極大的關(guān)注[10-12，17-21]。文獻(xiàn)[11]是一個(gè)基于孿生網(wǎng)絡(luò)的回歸方法。Siamese-FC[10]則是通過學(xué)習(xí)候選區(qū)域特征和目標(biāo)特征之間的關(guān)系來得到相似圖譜。Siamese-FC使用全卷積網(wǎng)絡(luò)來進(jìn)行學(xué)習(xí)，全卷積網(wǎng)絡(luò)的優(yōu)點(diǎn)在于目標(biāo)補(bǔ)丁的大小和候選補(bǔ)丁大小可以不相同，因此可以向網(wǎng)絡(luò)提供更大的搜索特征，然后生成一個(gè)密集相似性圖來評(píng)估特征之間的關(guān)系。文獻(xiàn)[20]則是在Siamese-FC基礎(chǔ)上增加濾波器方法，盡管最終的算法性能和Siamese-FC不相上下，但是卻可以使得Siamese-FC模型參數(shù)更少并且更加健壯。Siamese-RPN[12]則是在孿生網(wǎng)絡(luò)中引入?yún)^(qū)域回歸思想來追蹤物體位置。文獻(xiàn)[19]則嘗試在孿生網(wǎng)絡(luò)中添加在線學(xué)習(xí)的方法，盡管精度大幅度提高，但是損失速度。

基于孿生網(wǎng)絡(luò)的追蹤算法Siamese-FC[10]主要缺點(diǎn)只是學(xué)習(xí)物體的中心點(diǎn)信息，對(duì)于物體的大小變化信息則并沒有進(jìn)行相應(yīng)的學(xué)習(xí)，因此，本文嘗試在孿生網(wǎng)絡(luò)Siamese-FC[10]添加分類和回歸網(wǎng)絡(luò)來進(jìn)一步學(xué)習(xí)物體的空間信息。

物體檢測(cè)是計(jì)算機(jī)視覺的一個(gè)重要分支，最近幾年取得極大的進(jìn)展。從R-CNN（Region-CNN）[22]開始，物體檢測(cè)的方法可以分為兩個(gè)階段，即：通過生成的感興趣的區(qū)域來進(jìn)行分類和回歸。Fast-RCNN[23]則是通過在共享的卷積層特征上提取感興趣區(qū)域來解決R-CNN冗余計(jì)算的問題。Faster R-CNN[13]則是通過CNN來自動(dòng)生成相對(duì)較少但質(zhì)量更高的感興趣區(qū)域來進(jìn)一步減少冗余計(jì)算，不僅提高了檢測(cè)質(zhì)量，還提高了檢測(cè)速度。

1.3Faster R-CNN

由于本文的追蹤算法跟Faster R-CNN算法相關(guān)，因此，在這里簡要介紹Faster R-CNN：首先提取圖片的特征，對(duì)于提取到的特征選取一系列的預(yù)選框，即具有不同面積和寬高比的矩形框;然后通過區(qū)域回歸網(wǎng)絡(luò)（RPN）來預(yù)定位圖片中所有物體的位置;最后對(duì)于選出的建議框通過非極大值抑制（Non-Maximum Suppression， NMS）進(jìn)一步減少建議框的數(shù)量。池化層則把這些建議框統(tǒng)一到相同的空間維度，以便于輸入到后續(xù)的網(wǎng)絡(luò)中進(jìn)一步進(jìn)行預(yù)測(cè)。

本文的算法思想與Faster R-CNN的算法思想類似，都是生成預(yù)選框進(jìn)行定位。不同之處在于本文算法并不需要全局搜索，而是局部搜索，即在孿生網(wǎng)絡(luò)預(yù)定位的基礎(chǔ)上生成預(yù)選框。

2本文算法

2.1孿生網(wǎng)絡(luò)

在第一階段定位被追蹤物體中心點(diǎn)的過程中，使用來自Siamese-FC[10]的網(wǎng)絡(luò)結(jié)構(gòu)，Siamese-FC是一個(gè)全卷積的網(wǎng)絡(luò)結(jié)構(gòu)，如圖1（a）所示。假如Lτ表示轉(zhuǎn)換操作（Lτx）[u]=x[u-τ]，如果操作是全卷積則需要滿足以下條件：

h（Lkτx）=Lτh（x）（1）

其中k表示網(wǎng)絡(luò)的步長。

孿生網(wǎng)絡(luò)中可以通過學(xué)習(xí)一個(gè)關(guān)系函數(shù)f（z，z′）來比較兩張圖片的關(guān)系，其中z和z′圖片尺寸相同。由于Siamese-FC是全卷積網(wǎng)絡(luò)，候選圖片和目標(biāo)圖片不需要具有相同空間維度。若x表示被搜索的圖片，則兩個(gè)圖片之間的關(guān)系可表示為：

f（z，x）=Φ（z）*Φ（x）+b·1（2）

其中：“*”表示卷積操作; f（z，x）表示分?jǐn)?shù)圖譜。分?jǐn)?shù)圖譜的真實(shí)標(biāo)記可以表示如下：

y[u]=+1，k‖u-c‖≤R

-1，其他（3）

其中：k是網(wǎng)絡(luò)步長;R是分?jǐn)?shù)圖譜的半徑。

2.2檢測(cè)網(wǎng)絡(luò)

第二階段的區(qū)域回歸網(wǎng)絡(luò)圖1（b）所示。從圖1可以看到，區(qū)域回歸網(wǎng)絡(luò)可以分為兩個(gè)分支：一個(gè)分支是區(qū)別前景背景的分類網(wǎng)絡(luò);另一個(gè)是用來定位目標(biāo)位置的回歸網(wǎng)絡(luò)。若（z）表示通過CNN的目標(biāo)圖像特征，則（z）分為兩個(gè)部分：[（z）]cls和[（z）]reg，分別擁有相較于（z）的2倍和4倍的通道數(shù)量。若（x）表示通過CNN的搜索區(qū)域的特征，從圖1可以看到，（x）基于預(yù)測(cè)的中心點(diǎn)位置選取K個(gè)不同比例、不同面積的特征區(qū)域。這些特征被歸一化到相同的空間大小[x′]1，2，…，k，最后通過和（z）操作得到相應(yīng)的分類和被追蹤物體的位置。

Lcls2k=[（z）]cls*（x′）1，2，…，k

Lreg4k=[（z）]reg*（x′）1，2，…，k（4）

其中：Lcls2k表示的是模板z和x′卷積之后得到的分類結(jié)果，z和x′具有相同的空間特征;k表示預(yù)選框的數(shù)量;Lreg4k表示k個(gè)預(yù)選框和預(yù)測(cè)的物體位置之間的正則化距離。

在訓(xùn)練的過程中，本文使用和Faster R-CNN[13]相同的損失函數(shù)，對(duì)于分類網(wǎng)絡(luò)使用交叉熵?fù)p失，對(duì)于回歸網(wǎng)絡(luò)使用L1正則化損失函數(shù)。假設(shè)Ax、Ay、Aw、Ah表示預(yù)選框的中心點(diǎn)位置和目標(biāo)大小，Gx、Gy、Gw、Gh表示實(shí)際物體的中心點(diǎn)位置和大小。則正則化距離為：

δ0=Gx-AxAx

δ1=lnGwAw

δ2=Gy-AyAy

δ3=lnGhAh（5）

其中L1正則化損失函數(shù)表示如下：

smoothL1（x，α）=0.5x2α2，|x|<1/α2

|x|-1/（2α2），|x|≥1/α2（6）

其中α是一個(gè)超參數(shù)，用來調(diào)節(jié)損失。

則最終損失函數(shù)為：

L=∑iLcls（pi，qi）+λ∑iqiLreg（di，δi）（7）

其中：pi表示預(yù)測(cè)的前景和背景的概率;qi表示該預(yù)選框是背景還是前景;λ是一個(gè)超參數(shù)用來平衡兩個(gè)損失。Lcls表示交叉熵?fù)p失函數(shù)，Lreg表示如下：

Lreg=∑3i=0smoothL1（δ[i]，α）（8）

2.3追蹤階段

和Siamse-FC一樣，在該階段首先用第一幀中目標(biāo)區(qū)域來初始化網(wǎng)絡(luò)，得到目標(biāo)圖像特征，并在追蹤階段一直保持不變。接下來用不同范圍的搜索區(qū)域通過網(wǎng)絡(luò)得到搜索區(qū)域的圖像特征，用目標(biāo)圖像特征作為卷積核，預(yù)測(cè)目標(biāo)中心點(diǎn)位置?；谶@個(gè)中心點(diǎn)，對(duì)于當(dāng)前幀特征選取不同的預(yù)選框，并把它們規(guī)整到相同空間大小的特征維度，最后得到分類和回歸結(jié)果。

由于選取的錨點(diǎn)的數(shù)量并不會(huì)影響網(wǎng)絡(luò)參數(shù)，因此盡可能多地選取預(yù)選框以保證目標(biāo)被包含。在推測(cè)階段，對(duì)于分類的結(jié)果，可能會(huì)有較多的錨點(diǎn)會(huì)產(chǎn)生較高的前景分?jǐn)?shù)，因此需要對(duì)這些分?jǐn)?shù)施加一定的約束。使用初始幀目標(biāo)物體的大小和預(yù)選框的大小計(jì)算交并比（Intersection over Union， IoU）作為約束條件：

iou=area（ROIT∩ROIG）area（ROIT∪ROIG）（9）

pcls1，2，…，k=cls1，2，…，k·iou1，2，…，k（10）

其中：ROIT表示初始幀中目標(biāo)區(qū)域;ROIG代表預(yù)選框的區(qū)域;“·”表示對(duì)應(yīng)元素相乘;最終從pcls1，2，…，k中選取最大的分?jǐn)?shù)作為當(dāng)前幀分類的預(yù)測(cè)結(jié)果。用col、row作為第一階段預(yù)測(cè)的被追蹤物體的中心點(diǎn)，wan、han表示預(yù)選框的寬和長，則最后預(yù)測(cè)被追蹤目標(biāo)的位置如下：

xpred=col+dx*wan

ypred=row+dy*han

wpred=wan*edw

hpred=han*edh（11）

另外，由于在訓(xùn)練階段使用同一剪裁方式的候選圖片作為訓(xùn)練集，而在推測(cè)階段，選用不同范圍的候選區(qū)域進(jìn)行推測(cè)，因此回歸結(jié)果會(huì)產(chǎn)生偏差。對(duì)預(yù)測(cè)的{wpred，hpred}進(jìn)行相應(yīng)彌補(bǔ)：

wfi=wpred*p

hfi=hpred*p;p=1+c*（s-1）（12）

其中：s表示選取的比例;c表示約束條件。

3實(shí)驗(yàn)與結(jié)果分析

3.1實(shí)驗(yàn)方法

3.1.1數(shù)據(jù)集

實(shí)驗(yàn)在目前非常具有挑戰(zhàn)性的三個(gè)數(shù)據(jù)集VOT2015、VOT2016和VOT2017上進(jìn)行測(cè)試，VOT系列的數(shù)據(jù)集包含60個(gè)序列的視頻，并且每年數(shù)據(jù)集中的視頻會(huì)進(jìn)行更新。

3.1.2數(shù)據(jù)維度

數(shù)據(jù)預(yù)處理和Siamse-FC保持一樣，假如某幀中被追蹤物體的大小為（w，h），則通過以下方式剪裁圖片：

A=2B;B=（w+p）×（h+p）（13）

其中：p=（w+h）/2;A是最終需要剪裁出的區(qū)域，然后將A調(diào)整到255×255。

3.1.3 預(yù)選框

本文預(yù)選框選擇的方式與Faster R-CNN選擇方式不同。Faster R-CNN選擇方式是根據(jù)不同的面積和寬高比進(jìn)行選擇，而本文是根據(jù)步長來增加寬和高。在本文的實(shí)驗(yàn)中這個(gè)步長設(shè)定為15，即輸入圖像的尺寸和輸出的相似性圖譜的大小的比例。另外為了平衡算法的速度和精度，最終挑選出15個(gè)不同的預(yù)選框來做最后的定位。

3.1.4訓(xùn)練階段

本文的方法在ILSVRC-2015[24]和GOT-10K[25]數(shù)據(jù)集上進(jìn)行離線訓(xùn)練，其中：ILSVRC-2015包含了超過4000個(gè)序列，并且又分為30個(gè)基本類別;而在GOT-10K中大約包含563個(gè)不同的類別和87種不同的運(yùn)動(dòng)模式，但是相較ILSVRC-2015有更少的可訓(xùn)練幀數(shù)。在這兩個(gè)數(shù)據(jù)集上進(jìn)行相同的數(shù)據(jù)處理，隨機(jī)選取同一個(gè)視頻中兩幀作為訓(xùn)練對(duì)，且這兩幀的時(shí)序間隔不超過100幀。隨后使用隨機(jī)梯度下降（Stochastic Gradient Descent， SGD）法對(duì)式（7）進(jìn)行優(yōu)化。訓(xùn)練50個(gè)循環(huán)，初始學(xué)習(xí)率為10-2，隨后緩慢降低學(xué)習(xí)率到10-6。實(shí)驗(yàn)在i5-6500 3.2GHz CPU上和GeForce GTX 1060 GPU上執(zhí)行，在VOT中測(cè)試速度約為35frame/s。

3.2實(shí)驗(yàn)結(jié)果

3.2.1VOT2015實(shí)驗(yàn)結(jié)果

VOT系列是一個(gè)認(rèn)可度比較高并且在追蹤領(lǐng)域非常受歡迎的單目標(biāo)追蹤標(biāo)準(zhǔn)。 VOT2015中主要有兩個(gè)測(cè)量標(biāo)準(zhǔn)：重疊率和失敗次數(shù)。EAO（Expected Average Overlap）是考慮重疊率和失敗次數(shù)這兩個(gè)標(biāo)準(zhǔn)之后給出的算法綜合性能評(píng)估。將本文算法SiamRFC與目前在VOT2015排名靠前的算法進(jìn)行對(duì)比，測(cè)試結(jié)果如表1所示。

表1中：SRDCF（learning Spatially RegularizeD Correlation Filters for visual tracking）[26]主要解決濾波器存在的邊界效應(yīng)問題;DeepSRDCF[27]則是在SRDCF的基礎(chǔ)上，將手動(dòng)的特征換為卷積網(wǎng)絡(luò)提取的特征;EBT算法[28]則結(jié)合區(qū)域檢測(cè)的思想;RAJSSC（Joint Scale-Spatial Correlation tracking with Adaptive Rotation estimation）[29]從目標(biāo)旋轉(zhuǎn)的角度對(duì)跟蹤算法進(jìn)行改進(jìn)，從而可以減少由于目標(biāo)轉(zhuǎn)動(dòng)導(dǎo)致對(duì)于追蹤性能的影響。

從表1可以看出，本文的算法SiamRFC在準(zhǔn)確率和綜合性能都優(yōu)于其他算法，且與Siamese-FC相比各項(xiàng)性能都較大地超過了Siamese-FC算法，表明本文算法在實(shí)時(shí)性和性能方面都有較好的表現(xiàn)。

3.2.2VOT2016實(shí)驗(yàn)結(jié)果

VOT2016和VOT2015具有相同的序列集，不同的是VOT2016使用了自動(dòng)的方法對(duì)樣本進(jìn)行重新標(biāo)定。將本文算法SiamRFC和在VOT2016上排名靠前的追蹤算法進(jìn)行比較，測(cè)試結(jié)果如表2所示。

表2中：CCOT（learning Continuous Convolution Operators for visual Tracking）[6]將學(xué)習(xí)檢測(cè)過程推廣到連續(xù)空間域（使用插值方法），可以獲得亞像素精度的位置; Staple[30]則是在同一回歸框架中融合互補(bǔ)因子，從而能夠很好處理光照變化對(duì)于目標(biāo)追蹤效果的影響;MDNet_N[31]提出了一個(gè)基于卷積神經(jīng)網(wǎng)絡(luò)的多領(lǐng)域?qū)W習(xí)框架，它將域無關(guān)的信息與域相關(guān)的信息分開，從而進(jìn)行有效的追蹤。

從表2可以看出，本文的算法SiamRFC在準(zhǔn)確率方面優(yōu)于其他算法，表明了本文算法的優(yōu)勢(shì)，可利用回歸方法直接得到被追蹤物體精確位置。

3.2.3VOT2017實(shí)驗(yàn)結(jié)果

VOT2017和VOT2016不同的是，VOT2017將其中10個(gè)視頻替換成10個(gè)難度相對(duì)較大的序列;與此同時(shí)，還對(duì)所有的視頻進(jìn)行重新標(biāo)定。將本文算法SiamRFC和在VOT2017上排名靠前的追蹤算法進(jìn)行比較，測(cè)試結(jié)果如表3所示。

表3中：其中SiamDCF（Discriminant Correlation Filters network for visual tracking）[32]把濾波器作為孿生網(wǎng)絡(luò)中特殊相關(guān)濾波器層;ECOhc（Efficient Convolution Operators for tracking）[1]則是在ECO算法的基礎(chǔ)上加入手動(dòng)提取的特征;UCT（learning Unified Convolutional networks for real-time visual Tracking）[33]提出了一個(gè)基于卷積神經(jīng)網(wǎng)絡(luò)的端到端的目標(biāo)追蹤模型。從表3可以看出，盡管SiamDCF、CCOT在綜合性能EAO方面優(yōu)于本文算法，但是本文算法的準(zhǔn)確率大幅度優(yōu)于這兩個(gè)算法，這也表明本文算法具有利用回歸的方法直接定位被追蹤物體方面的能力。另外，相較于Siamese-FC，本文算法在測(cè)試中各方面的能力都有較大提升。

4結(jié)語

本文算法結(jié)合了孿生網(wǎng)絡(luò)和檢測(cè)網(wǎng)絡(luò)：一方面具有孿生網(wǎng)絡(luò)在追蹤領(lǐng)域定位和實(shí)時(shí)性的優(yōu)勢(shì);另一方面，檢測(cè)網(wǎng)絡(luò)可以得到更精確的位置。本文算法在ILSVRC和GOT-10K進(jìn)行離線訓(xùn)練。在VOT系列上的測(cè)試結(jié)果表明，本文算法的性能都達(dá)到或者優(yōu)于其他對(duì)比的實(shí)時(shí)性算法，驗(yàn)證了本文算法的優(yōu)越性。由于追蹤網(wǎng)絡(luò)依賴孿生網(wǎng)絡(luò)的預(yù)定位，因此，在接下來的工作中，我們將會(huì)嘗試?yán)米⒁饬C(jī)制的方法提高孿生網(wǎng)絡(luò)的預(yù)定位精度。

參考文獻(xiàn) （References）

[1]DANELLJAN M， BHAT G， KHAN F S， et al. ECO： efficient convolution operators for tracking [C]// Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway： IEEE， 2017： 6931-6939.

[2]ZHANG M， XING J， GAO J， et al. Robust visual tracking using joint scale-spatial correlation filters [C]// Proceedings of the 2015 IEEE International Conference on Image Processing. Piscataway： IEEE， 2015： 1468-1472.

[3]LUKEzIC A， VOJIR T， ZAJC L C， et al. Discriminative correlation filter with channel and spatial reliability [C]// Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway： IEEE， 2017： 4847-4856.

[4]GALOOGAHI H K， FAGG A， LUCEY S. Learning background-aware correlation filters for visual tracking [C]// Proceedings of the 2017 IEEE Conference on Computer Vision. Piscataway： IEEE， 2017： 1135-1143.

[5]QI Y， ZHANG S， QIN L， et al. Hedged deep tracking [C]// Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway： IEEE， 2016： 4303-4311.

[6]DANELLJAN M， ROBINSON A， KHAN F S， et al. Beyond correlation filters： Learning continuous convolution operators for visual tracking [C]// Proceedings of the 2016 European Conference on Computer Vision， LNCS 9909. Cham： Springer， 2016： 472-488.

[7]NAM H， HAN B. Learning multi-domain convolutional neural networks for visual tracking [C]// Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway： IEEE， 2016： 4293-4302.

[8]NAM H， BAEK M， HAN B. Modeling and propagating CNNs in a tree structure for visual tracking [EB/OL]. [2019-01-22]. https：//arxiv.org/pdf/1608.07242.pdf.

[9]WANG L， OUYANG W， WANG X， et al. STCT： sequentially training convolutional networks for visual tracking [C]// Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway： IEEE， 2016： 1373-1381.

[10]BERTINETTO L， VALMADRE J， HENRIQUES J F， et al. Fully-convolutional Siamese networks for object tracking [C]// Proceedings of the 2016 European Conference on Computer Vision， LNCS 9914 . Cham： Springer， 2016： 850-865.

[11]HELD D， THRUN S， SAVARESE S. Learning to track at 100 fps with deep regression networks [C]// Proceedings of the 2016 European Conference on Computer Vision， LNCS 9905. Cham： Springer， 2016： 749-765.

[12]LI B， YAN J， WU W， et al. High performance visual tracking with Siamese region proposal network [C]// Proceedings of the 2018 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway： IEEE， 2018： 8971-8980.

[13]REN S， HE K， GIRSHICK R， et al. Faster R-CNN： towards real-time object detection with region proposal networks [C]// Proceedings of the 2015 International Conference on Neural Information Processing Systems. Cambridge， MA： MIT Press， 2015： 91-99.

[14]KRISTAN M， MATAS J， LEONARDIS A， et al. The visual object tracking VOT2015 challenge results [C]// Proceedings of the 2015 IEEE International Conference on Computer Vision Workshop. Piscataway： IEEE， 2015： 564-586.

[15]KRISTAN M， LEONARDIS A， MATAS J， et al. The visual object tracking VOT2016 challenge results? [C]// Proceedings of the 2016 IEEE International Conference on Computer Vision Workshop. Piscataway： IEEE， 2016： 777-823.

[16]KRISTAN M， LEONARDIS A， MATAS J， et al. The visual object tracking VOT2017 challenge results [C]// Proceedings of the 2017 IEEE International Conference on Computer Vision Workshop. Piscataway： IEEE， 2017： 1949-1972.

[17]WANG Q， ZHANG M， XING J， et al. Do not lose the details： reinforced representation learning for high performance visual tracking [C]// Proceedings of the 2018 27th International Joint Conference on Artificial Intelligence. Menlo Park： AAAI Press， 2018： 985-991. http：//www.dcs.bbk.ac.uk/～sjmaybank/VisualTrackingIJCAI2018.pdf.

[30]BERTINETTO L， VALMADRE J， GOLODETZ S， et al. Staple： complementary learners for real-time tracking [C]// Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway： IEEE， 2016： 1401-1409.

[31]NAM H， HAN B. Learning multi-domain convolutional neural networks for visual tracking [C]// Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway： IEEE， 2016： 4293-4302.

[32]WANG Q， GAO J， XING J， et al. DCFNet： discriminant correlation filters network for visual tracking [EB/OL]. [2019-01-22]. https：//arxiv.org/pdf/1704.04057.pdf.

[33]ZHU Z， HUANG G， ZOU W， et al. UCT： learning unified convolutional networks for real-time visual tracking [C]// Proceedings of the 2017 IEEE International Conference on Computer Vision Workshop. Piscataway： IEEE， 2017： 1973-1982.

This work is partially supported by the National Natural Science Foundation of China （61602088）， the Major Special Plan for Science and Technology of Guizhou Province （20183002）.

DENG Yang， born in 1993， M. S. candidate. His research interests include computer vision， deep learning.

XIE Ning， born in 1983， Ph. D.， associate professor. His research interests include machine learning， computer graphics.

YANG Yang， born in 1983， Ph. D.， professor. His research interests include artificial intelligence， multimedia information processing.

收稿日期：2019-04-29;修回日期：2019-07-26;錄用日期：2019-08-16。

基金項(xiàng)目：國家自然科學(xué)基金資助項(xiàng)目（61602088）;貴州省科技重大專項(xiàng)計(jì)劃項(xiàng)目（20183002）。

作者簡介：鄧楊（1993—），男，安徽六安人，碩士研究生，主要研究方向：計(jì)算機(jī)視覺、深度學(xué)習(xí);謝寧（1983—），男，吉林長春人，副教授，博士，CCF會(huì)員，主要研究方向：機(jī)器學(xué)習(xí)、計(jì)算機(jī)圖形學(xué);楊陽（1983—），男，遼寧大連人，教授，博士，CCF會(huì)員，主要研究方向：人工智能、多媒體信息處理。

文章編號(hào)：1001-9081（2019）12-3440-05DOI：10.11772/j.issn.1001-9081.2019081427