宋建鋒,苗啟廣,申 猛,權義寧,陳毓生
(1.西安電子科技大學 計算機科學與技術學院,陜西 西安 710071;2.中國人民解放軍96963部隊 北京 100000)
紅外成像設備可以在弱光照條件下成像,相對于可見光成像擁有更好的適用性。因此,紅外成像在夜間監(jiān)控、搶險和救援等領域應用廣泛[1],而在這些應用領域,目標跟蹤發(fā)揮著不可或缺的作用。與可見光目標跟蹤相比,紅外目標跟蹤可以在弱光條件下應用,同時其受光照變化影響較小。但是,紅外圖像中物體沒有顏色信息,因此跟蹤算法無法利用顏色信息判斷目標,而且紅外圖像通??臻g信息較少,這導致難以提取到可辨識的特征進行跟蹤[2]。
目標跟蹤方法主要有基于點的跟蹤方法和基于外觀的跟蹤方法。基于點的跟蹤方法將目標看成一個點,卡爾曼濾波方法即是一種典型的基于點的跟蹤方法;基于外觀的跟蹤方法,提取目標的外觀,用于尋找目標,主要使用模板匹配方法,常用方法有支持向量機跟蹤算法和相關濾波跟蹤算法等。文獻[3]提出最小平方和誤差 (Minimum Output Sum of Squared Error , MOSSE)算法,將相關濾波方法引入目標跟蹤領域。文獻[4]提出的核化循環(huán)結構檢測跟蹤 (Circulant Structure of tracking-by-detection with Kernels, CSK)算法,在 MOSSE 算法的基礎上,加入了正則化項,防止濾波器過擬合,使用了核函數,并且引入了循環(huán)矩陣來進行稠密采樣。文獻[5]在CSK算法的基礎上,引入了顏色特征。文獻[6]在CSK算法的基礎上,引入方向梯度直方圖(Histogram of Oriented Gradient, HOG)特征,提出了核相關濾波 (Kernelized Correlation Filter, KCF)算法。這些特征的加入,能提取到更多的信息,有效提高了相關濾波跟蹤器的跟蹤準確率。近年來,卷積神經網絡在計算機視覺諸多領域取得了巨大成功,文獻[7]提出了多層卷積特征(Hierarchical Convolutional Features, HCF)算法。該算法使用多層卷積特征分別訓練相關濾波模型,然后對響應圖進行加權融合,取得了較好的跟蹤效果。文獻[8]使用多個卷積層進行相關濾波,對多個響應圖進行融合,用于紅外跟蹤,該算法在視覺目標跟蹤 (Visual Object Tracking , VOT)紅外數據集上取得了很好的成績。文獻 [9] 針對視覺跟蹤中目標表觀變化、尺度及旋轉變化問題,提出了基于快速傅里葉變換的雙層搜索目標跟蹤算法, 對表觀變化、尺度及旋轉變化具有較強的魯棒性,而且跟蹤實時性較好。文獻 [10] 提出一種基于響應圖和熵函數來評估各卷積神經網絡層跟蹤性能的方法,較大提升了跟蹤準確率。文獻[11]改進了多層卷積特征算法中各個卷積層融合策略,提出了HCFTstar 算法, 進一步提高了跟蹤準確度。
針對紅外單目標跟蹤問題,筆者以相關濾波跟蹤算法作為基礎框架,使用卷積神經網絡的卷積層來提取特征,并使用差分圖像和形態(tài)學操作來提取目標的運動信息,將該運動信息作為一種特征,動態(tài)融合不同特征層相關濾波響應圖,結合不同特征的優(yōu)勢,以獲得更好的跟蹤準確率。
對于樣本集X的每一個元素Xi,設定一個期望輸出yi,需要找到一個w,使得f(w)=wTXi逼近yi,使用最小二乘法求w:
(1)
其中,λ是正則化參數,防止過擬合。式 (1)中, ‖Xw-y‖2+λ‖w‖2對w求導,并令導數為零,得到
w=(XTX+λI)-1XTy。
(2)
由于使用循環(huán)采樣構建樣本集X,由循環(huán)矩陣的性質,利用傅里葉變換矩陣進行對角化,有
(3)
(4)
其中,⊙ 表示矩陣對應元素相乘,x*表示x的共軛矩陣。
在樣本集中,中心處為基礎樣本,四周是由基礎樣本循環(huán)移位得到的移位樣本,因此期望輸出y的中心值最大,向四周遞減。在實際使用中,期望輸出y通常使用一個高斯分布。在跟蹤過程中,輸入第1幀圖像和目標位置信息,獲取基礎樣本,使用式 (4)初始化模型,在后續(xù)幀中,輸入樣本z,則可求得響應圖R(Z)為
(5)
得到了響應圖,即可求得新的一幀目標的位置,然后使用得到位置的目標樣本更新模型。
VGG是由牛津大學的視覺幾何組(Visual Geometry Group)提出的一種卷積網絡模型[12],其在圖像識別領域取得了巨大成功。筆者使用 VGG 16 網絡第1組到第5組的最后一個卷積層提取特征,作為相關濾波跟蹤器的特征,對比不同卷積層特征的跟蹤效果,這5個特征層分別為第1組第2層(命名為C12),第2組第2層(C22),第3組第3層(C33),第4組第3層(C43),第5組第3層(C53)。筆者使用林雪平熱紅外數據集(the Link?ping Thermal InfraRed dataset, LTIR)[13],該數據集由瑞典林雪平大學計算機視覺實驗室制作,主要用于單目標的短時紅外目標跟蹤方法的評價。該數據集包含 20 個紅外視頻序列,目標主要包含人、動物、車輛和四軸飛行器,序列平均長度為 563 幀。圖 1 是各個卷積層在 LTIR 數據集上的實驗結果,使用Object Tracking Benchmark (OTB)[14]提出的精確度和成功率兩個評價指標對跟蹤器進行評測??梢钥闯觯珻33 卷積層精確度和成功率得分均較高,因此選擇第3組第3層卷積層作為卷積特征提取層進行跟蹤。
圖1 不同卷積層特征實驗結果
基于卷積特征的相關濾波跟蹤算法,當紅外圖像序列中目標和背景灰度相差較小時,容易出現跟蹤失敗的情況。卷積特征提取的是目標的空間域的信息,而在目標跟蹤任務中,前后幀是相關聯的,目標隨著時間變化的信息也很重要,通過提取目標的運動信息,可以有效利用目標的時間域信息。很多方法可以從圖像序列中提取運動信息,比如光流法、幀差法和背景減除法等。幀差法計算復雜度低,利于實時處理;幀差法對圖像序列的連續(xù)兩幀圖像做差分運算(即兩幅圖像中對應像素點的差值),得到運動目標的輪廓,然后使用形態(tài)學操作去除噪點并使目標連通。圖2 中是使用幀差法得到的差分圖像。
使用差分圖像特征的跟蹤器,在一些序列上跟蹤準確率高于卷積特征的跟蹤器,但是總體準確率低于卷積特征跟蹤器,差分圖像特征和C33卷積特征的跟蹤器精確度和成功率曲線如圖 3 所示。
圖2 連續(xù)兩幀和它們的差分圖像
圖3 差分圖像特征和C33卷積層特征跟蹤對比結果
卷積特征跟蹤器在多數序列中表現良好,而差分圖像跟蹤器在某些目標和背景較難辨別的序列中表現較好。結合二者的優(yōu)勢,通過分別訓練不同特征的相關濾波模型,使用一定的權重系數融合不同模型得到的響應圖來融合不同的特征,最終響應圖R的表達式為
(6)
其中,Rn代表各個特征的響應圖,dn是各層的系數。
固定權重融合特征的跟蹤器,無法充分發(fā)揮兩種特征的優(yōu)勢,若要最大程度發(fā)揮兩種特征的優(yōu)勢,需要根據不同的情況,調整權重系數,使對跟蹤貢獻大的特征響應圖的權重高,通過為權重系數dn設置不同的值來實現動態(tài)融合。MOSSE 算法中使用峰值旁瓣比(Peak to sidelobe ratio,P)檢測跟蹤失敗,P可表示為
(7)
其中,gmax表示響應圖最大值,σsl表示旁瓣的平均值,μsl表示旁瓣的標準差。
峰值旁瓣比可以用于表征峰值區(qū)域是目標的置信度,因此,可以使用峰值旁瓣比作為各個特征的權重依據,最終響應圖R的計算公式可表示為
(8)
其中,fn為一個預設權重,max(Rn)表示第n個特征響應值的最大值。
因為卷積特征總體上表現較好,因此預設權重較大。通過實驗選擇卷積特征和差分圖像特征的預設權重為1.1∶1 ,使用式 (8)進行多特征融合。圖4 是使用卷積特征和差分圖像特征融合的跟蹤器(Muti-feature fusion Correlation Filter,MCF)和單獨使用兩種特征的跟蹤器的跟蹤對比。融合特征的跟蹤器精確度和成功率分別為 0.756 和 0.539,C33卷積特征跟蹤器的精確度和成功率分別為 0.652 和 0.498,差分圖像特征的跟蹤器的精確度和成功率分別為 0.437 和 0.342。從整體上看,融合特征的跟蹤器與單獨使用卷積特征的跟蹤器相比,精確度提升了約 16%,成功率提升了約 8% 。
圖4 融合特征和C33卷積層特征及差分圖像特征跟蹤對比結果
在 LTIR 紅外數據集上,使用文中的算法和其他跟蹤算法進行了實驗對比。文中選取了 KCF[6]、DSST[15]、CSK[16]和SiamFC[17]4種跟蹤算法進行對比。實驗對比了跟蹤器的精確度、成功率和算法運行效率。
圖 5 為對比實驗的精確度圖和成功率圖,其中加入了單獨使用C33 卷積特征的跟蹤器進行對比。從圖中可以看出,文中提出的多特征融合算法 MCF的精確度和成功率都超過對比跟蹤器的精確度和成功率。
圖5 文中算法與其他跟蹤器的精確度和成功率對比結果
表 1 是各跟蹤器精確度、成功率和運行速度的對比,速度單位是幀每秒。筆者提出的MCF算法與同類算法中最好的KCF算法相比,精確度提高了12%,成功率提高了6.4%。CSK 算法由于使用了循環(huán)采樣,并且直接使用原始灰度圖,沒有特征提取的過程,因此運算速度遠高于其他算法,但是其跟蹤準確率較低。
表1 各跟蹤器得分和速度
筆者提出了一種多特征融合的相關濾波紅外單目標跟蹤算法,通過多種特征的動態(tài)融合,能夠有效發(fā)揮各個特征的優(yōu)勢,提高紅外目標跟蹤的準確率。實驗表明,筆者提出的算法在林雪平熱紅外數據集上的跟蹤的精確度和成功率比KCF算法的分別高12%和6.4% ,尤其是在一些目標和背景難以區(qū)分的序列中,跟蹤準確率提升較大。