關(guān)鍵詞:判別相關(guān)濾波;孿生網(wǎng)絡(luò);Transformer
中圖法分類號(hào):TP242 文獻(xiàn)標(biāo)識(shí)碼:A
作為計(jì)算機(jī)視覺領(lǐng)域的一項(xiàng)基礎(chǔ)任務(wù),視覺目標(biāo)跟蹤仍存在挑戰(zhàn)性,其致力于從一個(gè)視頻序列的第一幀中給出目標(biāo)信息,去定位視頻序列后續(xù)每幀中該目標(biāo)的目標(biāo)框。同其他計(jì)算機(jī)視覺任務(wù)一樣,目標(biāo)跟蹤也面臨光照、遮擋和形變因素的挑戰(zhàn)。目標(biāo)的尺度、外觀隨著時(shí)間變化增加了跟蹤的難度,導(dǎo)致目標(biāo)跟蹤的精度下降,甚至跟蹤失敗。這些挑戰(zhàn)使得設(shè)計(jì)一個(gè)實(shí)時(shí)高精度的跟蹤器仍然十分困難。
近幾年,隨著卷積神經(jīng)網(wǎng)絡(luò)的興起,使用卷積神經(jīng)網(wǎng)絡(luò)提取深度特征再進(jìn)行跟蹤相對(duì)于傳統(tǒng)使用手工提取特征的方法取得了巨大的進(jìn)展。其中,基于模版匹配的方法因其分類和邊界框回歸上具有很強(qiáng)的魯棒性而脫穎而出。這種方法主要是通過分別從模版和搜索區(qū)域中提取特征,再在模版特征和搜索區(qū)域特征之間做相關(guān)操作來預(yù)測(cè)后續(xù)每一幀搜索區(qū)域上的目標(biāo)在各個(gè)位置出現(xiàn)的概率,以此確定目標(biāo)的位置信息。其主要分為判別相關(guān)濾波跟蹤器和孿生網(wǎng)絡(luò)跟蹤器。這兩種方法可以簡(jiǎn)單描述為一個(gè)類孿生網(wǎng)絡(luò)的框架。
不過,無論是判別相關(guān)濾波跟蹤器還是孿生網(wǎng)絡(luò)跟蹤器,在處理一個(gè)視頻序列中每一幀的圖像時(shí)都是一個(gè)獨(dú)立的過程。在完成最后的跟蹤任務(wù)之前,并沒有通過某種方法去建立前后幀之間的關(guān)聯(lián),忽略了幀與幀之間豐富的時(shí)間、空間信息,這個(gè)局限導(dǎo)致類孿生跟蹤器的性能無法進(jìn)一步提高。針對(duì)遠(yuǎn)距離(全局)交互信息的建模問題,Transformer架構(gòu)具有天然的優(yōu)勢(shì)。Transformer在自然語言處理的任務(wù)以及語音處理中已經(jīng)取得了巨大的成功。研究者期望Transformer能在目標(biāo)跟蹤任務(wù)中發(fā)揮自身優(yōu)勢(shì),緩解上述幀與幀之間時(shí)間、空間信息被忽略的問題,Transformer開始被引入目標(biāo)跟蹤任務(wù)中,相比傳統(tǒng)方法取得了巨大的進(jìn)展。
本文從基于相關(guān)濾波的跟蹤器、基于孿生網(wǎng)絡(luò)的跟蹤器以及基于Transformer的跟蹤器等方面進(jìn)行闡述。
1類孿生網(wǎng)絡(luò)跟蹤器
首先,簡(jiǎn)單回顧主流的視覺跟蹤框架。一般大部分主流跟蹤器、相關(guān)濾波跟蹤器和孿生網(wǎng)絡(luò)跟蹤器可以簡(jiǎn)單描述為類孿生網(wǎng)絡(luò)架構(gòu)。上半分支使用模版學(xué)習(xí)一個(gè)跟蹤模型,下半分支通過跟蹤模型在搜索區(qū)域進(jìn)行模版匹配以確定目標(biāo)的位置。
孿生網(wǎng)絡(luò)跟蹤器把模版t和搜索區(qū)域x作為卷積神經(jīng)網(wǎng)絡(luò)Ψ的輸入,它們通過以下卷積相關(guān)操作生成響應(yīng)置信圖:
r(t,x=Ψ(z)?Ψ(x)+b1 (1)
其中,?表示卷積相關(guān)操作,b1表示偏置項(xiàng)。孿生網(wǎng)絡(luò)跟蹤器依賴于通過模版學(xué)習(xí)到的卷積核Ψ(z)實(shí)現(xiàn)模版匹配。
在深度學(xué)習(xí)的判別相關(guān)濾波跟蹤器中,通過以下最小化嶺回歸學(xué)習(xí)一個(gè)濾波器f:
min‖f?Ψ(t)-y‖2+λ‖f‖2 (2)
其中,y表示以模版t中目標(biāo)位置為中心的高斯分布,λ是正則項(xiàng)。當(dāng)學(xué)習(xí)到濾波器f后,判別相關(guān)濾波跟蹤器用來區(qū)分目標(biāo)和背景,通過r=f?Ψ(x)來生成響應(yīng),確定搜索區(qū)域中目標(biāo)的位置。
2相關(guān)濾波跟蹤器和孿生網(wǎng)絡(luò)跟蹤器
2.1相關(guān)濾波跟蹤器
基于相關(guān)濾波的跟蹤方法核心思想是:在給定的第一幀中,通過解決最小化嶺回歸問題,根據(jù)MOSSE濾波器原理訓(xùn)練一個(gè)濾波器,利用該濾波器與搜索區(qū)域做相關(guān)運(yùn)算,最大輸出響應(yīng)的位置即為當(dāng)前幀的目標(biāo)位置。為了增強(qiáng)濾波器的魯棒性,通常使用目標(biāo)的多個(gè)樣本作為訓(xùn)練樣本。同時(shí),通過在線更新模版的方法更新濾波器。這些方法可以判斷目標(biāo)在當(dāng)前幀的位置,但在估計(jì)目標(biāo)的尺度問題上存在很大的困難,通常采用多尺度的策略應(yīng)對(duì)目標(biāo)尺度變化的問題,然而對(duì)于目標(biāo)的形變?nèi)匀粵]有太好的方法。近幾年,隨著深度學(xué)習(xí)的興起,通過解決最小化嶺回歸問題訓(xùn)練濾波器被證明可以通過深度學(xué)習(xí)網(wǎng)絡(luò)架構(gòu)解決,這些方法通過卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)一個(gè)判別卷積核作為目標(biāo)分類網(wǎng)絡(luò),使用這個(gè)判別卷積核去和搜索區(qū)域做卷積相關(guān)操作以生成置信圖,以此判斷目標(biāo)的位置,同時(shí)使用其他神經(jīng)網(wǎng)絡(luò)(例如IoUNet)去回歸目標(biāo)的邊界框。ATOM把目標(biāo)跟蹤分為:在線訓(xùn)練的目標(biāo)分類網(wǎng)絡(luò)和離線訓(xùn)練的目標(biāo)評(píng)價(jià)網(wǎng)絡(luò)。其中,目標(biāo)估計(jì)網(wǎng)絡(luò)使用IoUNet的網(wǎng)絡(luò)結(jié)構(gòu);目標(biāo)分類使用一個(gè)兩層的深度回歸網(wǎng)絡(luò)結(jié)構(gòu)。通過采用基于共軛梯度和牛頓高斯的方法加速分類網(wǎng)絡(luò)的訓(xùn)練。Prdimp方法從概率論的角度解決目標(biāo)邊界框的回歸問題,主要是通過最小化網(wǎng)絡(luò)預(yù)測(cè)的目標(biāo)概率分布和標(biāo)簽分布之間的KL散度來訓(xùn)練網(wǎng)絡(luò)。
2.2孿生網(wǎng)絡(luò)跟蹤器
最近特別流行的追蹤方法是基于孿生網(wǎng)絡(luò)的方法,SiamFC是該方法的先驅(qū)者。通過使用同一個(gè)離線訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò)作為骨干網(wǎng)絡(luò),分別從模板和搜索區(qū)域提取深度特征,在模版特征和搜索區(qū)域特征之間做相關(guān)操作,以計(jì)算兩者的相似度來判斷目標(biāo)在當(dāng)前幀中的位置。同時(shí),基于孿生網(wǎng)絡(luò)的跟蹤方法很受關(guān)注。SiamRPN把目標(biāo)檢測(cè)器中RPN的方法遷移到目標(biāo)跟蹤中,以此來實(shí)現(xiàn)邊界框的回歸。SiamRPN以端到端的方法來訓(xùn)練目標(biāo)分類和邊界框的回歸,通過分類來判斷目標(biāo)在當(dāng)前幀中的位置,并通過回歸來確定邊界框的大小。SiamRPN++使用修改過的ResNet做為骨干網(wǎng)絡(luò)提取模版和搜索區(qū)域的特征,提取多個(gè)特征層的特征分別做分類和回歸,把最后的結(jié)果級(jí)聯(lián)獲得魯棒性更強(qiáng)的特征表示,再進(jìn)行最終的目標(biāo)分類和邊界框回歸。
3基于Transformer的跟蹤器
Transformer由谷歌大腦提出,應(yīng)用于機(jī)器翻譯任務(wù)。簡(jiǎn)單來說,Transformer架構(gòu)分別由以注意力模塊為基本組件的Encoder和Decoder組成,通過Encoder和Decoder把一個(gè)輸入序列(sequence)轉(zhuǎn)換成另一個(gè)輸出序列(Sequence)。注意力模塊通過計(jì)算一個(gè)序列中元素之間的相似性作為權(quán)重,以加權(quán)求和的方式抽取信息,從而在一整個(gè)輸入序列中整合全局關(guān)系信息。交叉注意力模塊用來整合兩個(gè)不同序列之間的全局關(guān)系信息。得益于Transformer可以并行計(jì)算的特性,以及特別的記憶機(jī)制,其在自然語言處理和語音處理領(lǐng)域正在逐步取代循環(huán)卷積神經(jīng)網(wǎng)絡(luò)的地位。在目標(biāo)跟蹤任務(wù)中,基于孿生網(wǎng)絡(luò)的跟蹤器和基于相關(guān)濾波的跟蹤器都在一定程度上忽略了幀與幀之間豐富的時(shí)間和空間信息,為了緩解該問題,Transformer開始被應(yīng)用到目標(biāo)跟蹤任務(wù)中。
TrTr使用了經(jīng)典的Transformer中的Encoder?Decoder模塊取代了孿生網(wǎng)絡(luò)跟蹤器中的相關(guān)操作卷積層,使用該模塊融合模版特征和搜索區(qū)域特征,之后使用三個(gè)獨(dú)立的頭來處理Transformer模塊輸出的融合特征,其中一個(gè)用于分類,另外兩個(gè)用于邊界框的回歸。TrTr使用的Transformer模塊僅僅融合了第一幀模版特征和搜索區(qū)域特征,損失了歷史幀信息。STARK提出了一個(gè)基于Transformer的跟蹤框架,在骨干網(wǎng)絡(luò)提取搜索區(qū)域特征和模版特征之后,分別轉(zhuǎn)換成向量,然后拼接在一起輸入到一個(gè)類似DETR中的Encoder?Decoder模塊中,通過該模塊整合搜索區(qū)域和模版之間的全局信息,輸入到全卷積網(wǎng)絡(luò)來預(yù)測(cè)目標(biāo)的邊界框。同時(shí)加入更新機(jī)制以及動(dòng)態(tài)的更新模板,從而使Encoder?Decoder模塊在最大程度上利用幀與幀之間豐富的時(shí)間、空間信息。
除此之外,Trdimp使用類孿生網(wǎng)絡(luò)的架構(gòu),分為兩個(gè)分支,在DiMP的基礎(chǔ)上增加了一個(gè)TransformerEncoder?Decoder模塊去處理骨干網(wǎng)絡(luò)提取的特征。在上面的分支中,Encoder接受一組骨干網(wǎng)絡(luò)提取的模版特征作為輸入,產(chǎn)生編碼特征,用于學(xué)習(xí)判別卷積核的同時(shí)也作為Decoder的輸入;在下面的分支中,Decoder把編碼特征和當(dāng)前搜索區(qū)域特征作為輸入,通過注意力機(jī)制融合模版特征和搜索區(qū)域特征輸出融合特征,最后使用判別卷積核對(duì)融合特征進(jìn)行卷積生成響應(yīng)圖,以確定目標(biāo)的位置。
Transformer在目標(biāo)跟蹤中的應(yīng)用主要是作為特征增強(qiáng)模塊來整合視頻序列中幀與幀之間的時(shí)間、空間信息,緩解了傳統(tǒng)類孿生網(wǎng)絡(luò)跟蹤器忽略幀與幀之間時(shí)間、空間信息的問題。使得目標(biāo)跟蹤的研究取得了長足的進(jìn)步。
4結(jié)束語
本文總結(jié)了目標(biāo)跟蹤領(lǐng)域的經(jīng)典方法,主要為基于相關(guān)濾波跟蹤器以及基于孿生網(wǎng)絡(luò)的跟蹤器。這兩種方法具有局限性——忽略了視頻序列中幀與幀之間的信息。Transformer在整合全局信息方面有著天然的優(yōu)勢(shì),因此被引入目標(biāo)跟蹤領(lǐng)域。Transofmer和傳統(tǒng)類孿生網(wǎng)絡(luò)跟蹤器進(jìn)行整合,使得跟蹤器的性能取得了巨大的提高。目前,在目標(biāo)跟蹤領(lǐng)域,Transformer還只是作為特征增強(qiáng)模塊來應(yīng)用,基于Transformer的類跟蹤器還依賴CNN作為骨干網(wǎng)絡(luò)進(jìn)行特征提取。在未來,完全使用Transformer搭建一個(gè)目標(biāo)跟蹤框架是一個(gè)十分有研究?jī)r(jià)值的問題。
作者簡(jiǎn)介:
陳碩(1994—),碩士,研究生,研究方向:計(jì)算機(jī)視覺。