孫 銳 方林鳳梁?jiǎn)Ⅺ?張旭東
(合肥工業(yè)大學(xué)計(jì)算機(jī)與信息學(xué)院 合肥 230009)
(工業(yè)安全與應(yīng)急技術(shù)安徽省重點(diǎn)實(shí)驗(yàn)室 合肥230009)
隨著無人機(jī)和計(jì)算機(jī)視覺的快速發(fā)展,基于無人機(jī)的智能目標(biāo)跟蹤系統(tǒng)在目標(biāo)監(jiān)控、軍事反恐偵察等各個(gè)領(lǐng)域均有廣泛應(yīng)用[1,2]。航拍視頻具有信息量大、背景復(fù)雜、視場(chǎng)不確定、跟蹤目標(biāo)小等特點(diǎn),而現(xiàn)有目標(biāo)跟蹤算法沒有完全針對(duì)這些特點(diǎn)進(jìn)行設(shè)計(jì)和優(yōu)化,所以在航拍視頻中實(shí)現(xiàn)魯棒且實(shí)時(shí)的跟蹤仍然是一個(gè)巨大的挑戰(zhàn)。
現(xiàn)有主流的目標(biāo)跟蹤算法都是基于深度學(xué)習(xí)的,它們主要分為兩類[3]:第1類使用用于目標(biāo)識(shí)別任務(wù)預(yù)先訓(xùn)練的深度模型來提取特征,將目標(biāo)跟蹤問題轉(zhuǎn)化為分類問題。很多研究者在大型分類數(shù)據(jù)集上(比如ImageNet)直接訓(xùn)練網(wǎng)絡(luò),并采用預(yù)訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)來提取目標(biāo)特征,然后基于分類任務(wù)的觀察模型得到跟蹤結(jié)果。這種深度學(xué)習(xí)跟蹤方法更多地強(qiáng)調(diào)設(shè)計(jì)有效的觀測(cè)模型,雖然對(duì)各種觀測(cè)模型,如相關(guān)濾波器[4]、回歸器[5,6]和分類器[7]進(jìn)行了廣泛的研究,但對(duì)學(xué)習(xí)有差別的深層特征的關(guān)注卻很少。通過分析發(fā)現(xiàn),當(dāng)使用經(jīng)過預(yù)先訓(xùn)練的深層特征作為目標(biāo)表示時(shí),可能會(huì)出現(xiàn)許多問題。首先,由于分類任務(wù)更多地關(guān)注類之間的對(duì)象分類,針對(duì)分類任務(wù)預(yù)先訓(xùn)練的網(wǎng)絡(luò)忽略了類內(nèi)的差異。其次,即使目標(biāo)對(duì)象出現(xiàn)在預(yù)先訓(xùn)練模型的訓(xùn)練集中,從最后的卷積層中提取的深層特征通常只保留較高層次的視覺信息,而這些信息對(duì)于精確定位或尺度估計(jì)來說并不那么有效。最后,深度目標(biāo)跟蹤算法[8]需要較高的計(jì)算負(fù)荷,因?yàn)轭A(yù)先訓(xùn)練模型的深層特征是高維的。為了縮小這一差距,利用與目標(biāo)專門相關(guān)的深層特征進(jìn)行航拍視頻跟蹤是非常重要的。
第2類成熟策略是基于匹配的跟蹤策略,將候選樣本與目標(biāo)模板匹配,不需要在線更新。這種跟蹤算法最顯著的優(yōu)點(diǎn)是其實(shí)時(shí)性[9]。最近,基于匹配的跟蹤還可以使用深度模型來提高匹配的泛化能力[3,10,11]。通過學(xué)習(xí)一個(gè)通用的匹配函數(shù),以保持實(shí)時(shí)響應(yīng)能力。最近成功的模型有全卷積孿生網(wǎng)絡(luò)跟蹤算法[9](Fully-Convolutional Siamese networks,SiamFC),雖然它不僅實(shí)現(xiàn)了不錯(cuò)的跟蹤精度還滿足了實(shí)時(shí)性,但是SiamFC[9]缺乏一個(gè)有效的在線更新模型去捕捉航拍場(chǎng)景下目標(biāo)、背景或成像條件的時(shí)間變化。為了解決這一問題,文獻(xiàn)[12]提出了使用新模板的線性交互來進(jìn)行模型更新。文獻(xiàn)[13]提出采用雙模板的方式進(jìn)行跟蹤,使用改進(jìn)的APECs更新策略進(jìn)行模板更新,但只在準(zhǔn)確性方面稍有提升。為了進(jìn)一步提高SiamFC[9]的速度,文獻(xiàn)[14]利用深度強(qiáng)化學(xué)習(xí)訓(xùn)練策略,在響應(yīng)置信度足夠高的情況下盡早停止卷積神經(jīng)網(wǎng)絡(luò)(CNN)的前饋計(jì)算,從而降低了簡(jiǎn)單幀的特征計(jì)算成本。這些方法往往具有較高的計(jì)算復(fù)雜度,且不能很好地克服航拍場(chǎng)景下目標(biāo)跟蹤的難點(diǎn)。本文模型充分利用視頻序列豐富的上下文信息,可以有效地在線學(xué)習(xí)無人機(jī)下動(dòng)態(tài)目標(biāo)的外觀干擾變化,實(shí)現(xiàn)可靠、有效、實(shí)時(shí)的自適應(yīng)匹配跟蹤。
針對(duì)以上深度目標(biāo)跟蹤算法的分析,本文提出了基于航拍目標(biāo)顯著性和在線自適應(yīng)匹配的動(dòng)態(tài)孿生網(wǎng)絡(luò)跟蹤算法。主要貢獻(xiàn)如下:(1)針對(duì)用于分類任務(wù)預(yù)訓(xùn)練的網(wǎng)絡(luò)很難學(xué)習(xí)有差別的深層特征進(jìn)行航拍目標(biāo)跟蹤的問題,本文設(shè)計(jì)了一種新的特征通道回歸損失函數(shù)來學(xué)習(xí)目標(biāo)智能感知的深層特征,從而可以選擇出最有效的卷積濾波器來生成航拍目標(biāo)顯著性特征,大大減少通道特征量來加速跟蹤過程。(2)針對(duì)SiamFC[9]等算法無法在線更新目標(biāo)模板從而導(dǎo)致目標(biāo)發(fā)生顯著變化時(shí)跟蹤失敗的問題,本文采用目標(biāo)干擾因子在線學(xué)習(xí)機(jī)制來抑制航拍目標(biāo)顯著變化所帶來的影響,從而實(shí)現(xiàn)有效可靠的自適應(yīng)匹配跟蹤。(3)通過在數(shù)據(jù)集上的大量實(shí)驗(yàn)證明,在無人機(jī)場(chǎng)景下,本文所提出的目標(biāo)顯著性特征的動(dòng)態(tài)孿生網(wǎng)絡(luò)跟蹤算法具有比較有競(jìng)爭(zhēng)力的性能,在UAV123數(shù)據(jù)集上跟蹤成功率和準(zhǔn)確率分別比孿生網(wǎng)絡(luò)基準(zhǔn)算法高5.3%和3.6%,同時(shí)速度達(dá)到平均28.7幀/s,基本滿足航拍目標(biāo)跟蹤準(zhǔn)確性和實(shí)時(shí)性需求。
視覺目標(biāo)跟蹤就是在缺少目標(biāo)先驗(yàn)知識(shí)的前提下,給定某視頻序列初始幀的目標(biāo)大小與位置,并在后續(xù)的視頻幀中預(yù)測(cè)該目標(biāo)的位置?;谀0迤ヅ涞膶\生網(wǎng)絡(luò)跟蹤算法是一種監(jiān)督學(xué)習(xí)算法,是通過共享權(quán)值來實(shí)現(xiàn)的。最經(jīng)典的孿生網(wǎng)絡(luò)跟蹤算法SiamFC[9]的表達(dá)式為
一般視覺識(shí)別任務(wù)和特定目標(biāo)跟蹤在卷積神經(jīng)網(wǎng)絡(luò)提取的特征的有效程度是不同的。關(guān)于神經(jīng)網(wǎng)絡(luò)解釋的幾種方法證明了卷積濾波器對(duì)捕獲類別級(jí)對(duì)象信息的重要性可以通過相應(yīng)的梯度[15]來計(jì)算,由此本文構(gòu)建了目標(biāo)顯著性感知特征模塊,該模塊具有專門針對(duì)視覺跟蹤而設(shè)計(jì)的損失函數(shù)。給定具有輸出特征空間的預(yù)先訓(xùn)練的CNN特征提取器,可以根據(jù)通道重要性生成目標(biāo)顯著性感知特征
其中,F(xiàn)ap表示全局平均池化函數(shù),J是設(shè)計(jì)的損失函數(shù),F(xiàn) i為第i個(gè)濾波器的輸出特征。對(duì)于航拍視頻的目標(biāo)跟蹤,本文利用回歸損失函數(shù)的梯度來提取針對(duì)目標(biāo)的顯著性特征。
圖1 本文跟蹤算法框架
圖2 可視化跟蹤效果圖
其中,W為回歸權(quán)重,每個(gè)濾波器的重要性可以根據(jù)其對(duì)擬合高斯圖的貢獻(xiàn)來計(jì)算,關(guān)于輸入的特征Xin的損失函數(shù)L的推導(dǎo)可以根據(jù)鏈?zhǔn)椒▌t和式( 1),回歸損失的梯度由式( 6)計(jì)算
對(duì)于單目標(biāo)跟蹤任務(wù)來說,豐富的目標(biāo)姿勢(shì)變化以及不同程度的背景干擾等跟蹤難點(diǎn)都對(duì)提取具有辨別力的目標(biāo)外觀模型提出了更高的要求。然而,航拍視頻中的目標(biāo)是實(shí)時(shí)動(dòng)態(tài)變化的,且基本上是俯視或側(cè)俯視視角,僅使用第1幀作為固定模板限制了跟蹤準(zhǔn)確度的提高。本文在孿生網(wǎng)絡(luò)的模板分支上加入動(dòng)態(tài)學(xué)習(xí)干擾因子模塊,引導(dǎo)在線學(xué)習(xí)第1幀的目標(biāo)(O1)與當(dāng)前幀的前一幀目標(biāo)(Ot?1)的相似性(如圖3),同時(shí)考慮目標(biāo)的判別力特征和運(yùn)動(dòng)變化特征,在實(shí)時(shí)更新目標(biāo)模板的同時(shí)避免模板漂移問題。
給定X和Y兩個(gè)向量,我們的目的是尋找一個(gè)最優(yōu)變換矩陣R,使X與Y相似。使用線性回歸方法有
F是離散傅里葉變換(DFT),F?1是DFT的逆變換,上標(biāo)*表示的是復(fù)共軛。
圖3 目標(biāo)干擾因子學(xué)習(xí)
當(dāng)跟蹤到第t ?1幀圖像時(shí),即可以得到目標(biāo)X t?1。 與簡(jiǎn)單地替換Z和Xt?1不同,本文是學(xué)習(xí)第1幀Z到當(dāng)前幀的前一幀Xt?1的外觀變化。本文假設(shè)外觀變化在時(shí)間上是平滑的。因此,可以將這種變化應(yīng)用于使f(Z)相 似于f(X t?1),如式( 7)所示。具體而言,本文使用線性回歸計(jì)算得到目標(biāo)干擾因子S t?1
其中,F(xiàn)1=f(Z),Ft?1=f(X t?1);λs為正則化因子可從數(shù)據(jù)集學(xué)習(xí)得到。根據(jù)式 (3)可知待搜索圖像的目標(biāo)顯著性特征有
從式 (9)和 式(10)可 知目標(biāo)跟蹤響應(yīng)結(jié)果可由式(11)計(jì)算
本文提出的跟蹤算法流程如表1所示,通過反向傳播分類神經(jīng)網(wǎng)絡(luò)得到的梯度來產(chǎn)生目標(biāo)顯著性特征,在頻域上快速求解干擾因子。將目標(biāo)顯著性特征和在線學(xué)習(xí)干擾因子嵌入孿生網(wǎng)絡(luò)中,從而實(shí)現(xiàn)有效可靠的自適應(yīng)匹配跟蹤。首先給定第1幀圖像的目標(biāo)位置和目標(biāo)框,以第1幀目標(biāo)為中心裁剪出比目標(biāo)框大一點(diǎn)的區(qū)域作為目標(biāo)模板,通過預(yù)訓(xùn)練網(wǎng)絡(luò)來提取目標(biāo)模板的特征。然后,開始進(jìn)行第t幀跟蹤,將第t幀圖像以第t?1幀目標(biāo)為中心進(jìn)行裁剪,再將第t ?1幀 目標(biāo)區(qū)域和第t幀待搜索區(qū)域分別經(jīng)過預(yù)訓(xùn)練網(wǎng)絡(luò)進(jìn)行特征提取,此外還需將第t幀的預(yù)訓(xùn)練特征輸入到目標(biāo)顯著性感知特征模塊以提取到具有高度判別力的特征。然后將目標(biāo)模板和第t?1幀 提取的特征以及λs輸入到目標(biāo)干擾因子在線學(xué)習(xí)模塊,來求得S t?1,再將目標(biāo)干擾因子S t?1與目標(biāo)模板特征卷積得到當(dāng)前幀的模板。最后將第t幀的目標(biāo)智能感知特征與第t幀模板進(jìn)行相似度匹配得到目標(biāo)的位置。
表1 本文跟蹤算法流程
實(shí)驗(yàn)部分采用航拍數(shù)據(jù)集UAV123[16]。UAV123建立了一個(gè)低空無人機(jī)視角下的高分辨率跟蹤數(shù)據(jù)集,其中包括123個(gè)完整注釋的空中視頻序列,總幀數(shù)超過110 k幀。這些航拍視頻具有更全面的目標(biāo)跟蹤干擾因素,其中包括低像素、相機(jī)運(yùn)動(dòng)、低分辨率、視角變化,光照變化、尺度變化、遮擋、形變、運(yùn)動(dòng)模糊、快速運(yùn)動(dòng)、平面內(nèi)旋轉(zhuǎn)、平面外旋轉(zhuǎn)、出視野、背景干擾等航拍難點(diǎn),由此可以看出用UAV123數(shù)據(jù)集來衡量一個(gè)目標(biāo)跟蹤算法的優(yōu)劣更具有普適性和廣泛性。
本文是在ILSVRC上離線訓(xùn)練的。采用隨機(jī)梯度下降來最優(yōu)化網(wǎng)絡(luò)參數(shù)并設(shè)置權(quán)重衰減為0.0005,學(xué)習(xí)率以指數(shù)衰減方式從10–7到10–9,訓(xùn)練周期大約為50個(gè)周期且每次小批量訓(xùn)練樣本數(shù)為8。首先初始化選擇合適的λs,然后通過離線訓(xùn)練對(duì)其進(jìn)行更新。實(shí)驗(yàn)平臺(tái)為Matlab2016b,使用Mat Conv Net工具箱,使用的實(shí)驗(yàn)設(shè)備CPU為Intel Core i7-6700k 4 GHz,GPU為NVIDIA GeForce GTX1080,顯存為8 GB。
3.2.1定量分析
為驗(yàn)證本文算法的有效性,在廣泛使用的無人機(jī)航拍數(shù)據(jù)集UAV123上進(jìn)行實(shí)驗(yàn)。同時(shí)引入精確度(Precision)、成功率(Sucess)和速度(fps)這3個(gè)評(píng)價(jià)指標(biāo),將本文的算法跟蹤結(jié)果與K C F[4],SiamFC[9],CSK[17],DSST[18],Struck[19],MEEM[20],MUSTER[21],SAMF[22],ASLA[23],CFNet[24],SRDCF[25]和SiamRPN[26]跟蹤算法中選擇跟蹤效果最好的前5種算法來進(jìn)行比較,進(jìn)行定量分析。
圖4是對(duì)比算法的成功率和精確度曲線圖。由圖4可以看出,本文算法相對(duì)于基準(zhǔn)算法SiamFC[9]有很大的提升,成功率從49.8%提高到了55.1%,精確度也從72.6%提高到了76.2%。SiamRPN算法[26]包括用于特征提取的孿生網(wǎng)絡(luò)和候選區(qū)域生成網(wǎng)絡(luò),其中候選區(qū)域生成網(wǎng)絡(luò)包括分類和回歸兩條支路,而本文算法設(shè)計(jì)了一種新的特征通道回歸損失函數(shù)來學(xué)習(xí)目標(biāo)感知的深層特征,從而可以選擇出選擇最有效的卷積濾波器來生成待搜索目標(biāo)顯著性感知特征,還采用目標(biāo)外觀在線動(dòng)態(tài)轉(zhuǎn)換機(jī)制來實(shí)現(xiàn)有效可靠的自適應(yīng)匹配跟蹤,效果比SiamRPN算法[26]在成功率上提升了2.4%,在準(zhǔn)確率上提升了1.4%。
表2展示了本文算法,K CF[4],St r uck[19],MUSTER[21],SAMF[22],CFNet[24]和SRDCF[25]算法在10組代表性序列的成功率和準(zhǔn)確率的比較(表2中數(shù)據(jù)為成功率/準(zhǔn)確率)。從該表可以看出,相較于對(duì)比算法,本文算法在航拍場(chǎng)景下能夠很好地跟蹤目標(biāo)。在航拍跟蹤難點(diǎn)較多的building5,car15,truck2,uav4和wakeboard2序列中,本文算法的成功率均為第1,在penson21,car1_s和person3_s序列中,本文算法成功率也位列第2,在bike3,Building5,uav4,Wakeboard2和person3_s序列中,本文算法準(zhǔn)確率位列第1,在car15,Person21,truck2,car1_s中本文算法準(zhǔn)確率位列第2。表3統(tǒng)計(jì)了相關(guān)算法在10組視頻序列的速度(fps)比較,雖然基于相關(guān)濾波的KCF[4]算法的速度確實(shí)很快,fps達(dá)到526.5幀/s,但是在視場(chǎng)大、目標(biāo)小、背景復(fù)雜的航拍場(chǎng)景下,跟蹤效果并不是很理想。本文算法速度雖然為28.7幀/s,但足以滿足目標(biāo)跟蹤的實(shí)時(shí)性要求。
圖4 成功率和準(zhǔn)確率對(duì)比
表2 部分視頻的跟蹤成功率和跟蹤準(zhǔn)確率比較(%)
表3 算法的速度(fps)比較
3.2.2定性分析
為直接觀察本文算法在航拍場(chǎng)景下的跟蹤效果,選出具有航拍代表性屬性的視頻序列進(jìn)行定性比較,主要分為5個(gè)類型:低分辨率、部分遮擋、出視野、視角變化、相似目標(biāo)。由于航拍視頻視場(chǎng)大而跟蹤目標(biāo)過小,為便于看清具體跟蹤效果,全景視頻幀側(cè)邊是以本文跟蹤算法目標(biāo)框?yàn)橹行牡牟眉魣D。通過測(cè)試視頻效果圖可以證明本文算法具有良好的準(zhǔn)確性和魯棒性。
(1)低分辨率:由于無人機(jī)場(chǎng)景為俯瞰視角,所以在中高度距離拍攝的視頻中跟蹤目標(biāo)往往為某個(gè)動(dòng)態(tài)點(diǎn)目標(biāo),僅由幾個(gè)像素組成,而且其大小與噪聲非常相似,如圖5所示。從圖5(a)中可以看出,UAV7是無人機(jī)下拍攝的另外一臺(tái)無人機(jī)的低分辨率視頻序列,這是一種重要的空中跟蹤場(chǎng)景,然而除本文算法外其他算法在后續(xù)幀都丟失了跟蹤目標(biāo)。在背景復(fù)雜場(chǎng)景下的bike3中,只有本文算法可以正確跟蹤到目標(biāo)。此外,在boat9的第96幀、第662幀和第1133幀跟蹤目標(biāo)出現(xiàn)了由小變大再變小的過程,相比之下本文算法可以更好更精確地框住目標(biāo)。
(2)部分遮擋:航拍視頻下的遮擋不同于普通場(chǎng)景,是由于目標(biāo)僅由幾個(gè)像素構(gòu)成,再出現(xiàn)遮擋使有效特征大大減少就會(huì)導(dǎo)致很難進(jìn)行正確跟蹤。在實(shí)際情況下,無人機(jī)拍攝的車輛在行駛過程中會(huì)受到樹木以及標(biāo)志牌的短時(shí)遮擋,如圖6(a)、圖6(c),若沒有在線更新模板(如SiamFC[9]等)肯定會(huì)造成目標(biāo)丟失,導(dǎo)致再也跟蹤不到正確目標(biāo)。從car7,car9以及person4被遮擋后的第325幀,第1079幀以及第859幀可以看出本文算法可以魯棒跟蹤。
(3)視角變化:空中無人機(jī)的任意方向運(yùn)動(dòng)會(huì)產(chǎn)生跟蹤目標(biāo)的視角變化,可能第i幀是目標(biāo)的側(cè)面,第j幀卻是目標(biāo)的背面。如圖7所示,大部分算法在視角變化下還是可以正確跟蹤目標(biāo)的,但是可以看出本文算法能更有效更準(zhǔn)確地框住目標(biāo)。在bike1中出現(xiàn)了SiamFC[9]和Struck[19]的跟蹤漂移,在person21中除本文算法外,由于出現(xiàn)相似目標(biāo)其他算法都發(fā)生了一定的跟蹤漂移。
(4)相似目標(biāo):和遮擋問題類似,航拍場(chǎng)景下的跟蹤出現(xiàn)相似目標(biāo)也是一大難點(diǎn)。在圖8中展示的是具有代表性的測(cè)試幀的跟蹤效果。在person21中還伴隨視角變化、尺度變化和低分辨率,具有很大挑戰(zhàn)性,在其他算法跟蹤漂移的情況下,本文算法在第387幀目標(biāo)被遮擋后能夠快速調(diào)整正確跟蹤。在car7中,在第251幀出現(xiàn)相似車輛時(shí),MEEM[20]隨即跟丟目標(biāo)。person21跟蹤情況類似,在后續(xù)幀中由于再出現(xiàn)遮擋,對(duì)比算法都開始陸續(xù)跟丟目標(biāo),而本文算法可以實(shí)現(xiàn)魯棒效果。
圖5 視頻序列測(cè)試圖——低分辨率
圖6 視頻序列測(cè)試圖——部分遮擋
圖7 視頻序列測(cè)試圖——視角變化
圖8 視頻序列測(cè)試圖——相似目標(biāo)
針對(duì)航拍視頻下的目標(biāo)跟蹤,本文提出了一種結(jié)合目標(biāo)顯著性和在線學(xué)習(xí)干擾變化的跟蹤算法,實(shí)現(xiàn)了端到端的前饋式實(shí)時(shí)在線跟蹤。與現(xiàn)有的跟蹤算法相比,本文算法有3大優(yōu)勢(shì)。第一,本文提出目標(biāo)感知特征學(xué)習(xí),以縮小預(yù)訓(xùn)練的分類深度模型與特定航拍場(chǎng)景的目標(biāo)跟蹤之間的差距。其主要思想在于,由回歸損失函數(shù)引起的梯度表明了相應(yīng)濾波器在識(shí)別目標(biāo)對(duì)象方面的重要性,因此通過從預(yù)先訓(xùn)練的CNN層中選擇最有效的濾波器來學(xué)習(xí)航拍目標(biāo)顯著性深度特征。第二,本文模型具有可靠的在線適應(yīng)能力,通過在線學(xué)習(xí)目標(biāo)的干擾因子,來適應(yīng)前景和背景的時(shí)間變化,提高了模型的魯棒性,而不影響實(shí)時(shí)響應(yīng)能力。第三,本文將目標(biāo)顯著性感知特征和在線學(xué)習(xí)干擾變化與孿生網(wǎng)絡(luò)跟蹤框架集成起來,在UAV123數(shù)據(jù)集上的廣泛實(shí)驗(yàn)結(jié)果表明,該算法具有比較有競(jìng)爭(zhēng)力的跟蹤性能,同時(shí)還滿足航拍視頻的實(shí)時(shí)跟蹤需求。