楊 博,藺素珍*,祿曉飛,李大威,秦品樂,左健宏
(1.中北大學大數(shù)據(jù)學院,太原 030051;2.酒泉衛(wèi)星發(fā)射中心,甘肅酒泉 735000)
(*通信作者電子郵箱lsz@nuc.edu.cn)
多目標跟蹤是軍事和民用安防監(jiān)控領域的重要手段,也是計算機視覺領域的經(jīng)典難題之一。其中,最具代表性的有空中衛(wèi)星、火箭等飛行器的監(jiān)測與跟蹤。由于觀測距離較遠,這些飛行器在探測圖像中通常都呈現(xiàn)為小目標(目標的像素個數(shù)僅為幾個或幾十個)。眾所周知,因缺少形狀和紋理信息,小目標的檢測與跟蹤往往十分困難,如遇星空背景噪聲嚴重,則衛(wèi)星、導彈和火箭等目標更是極易與恒星混淆,這時,誤檢目標數(shù)目往往會較多,使得后續(xù)的多目標跟蹤雪上加霜。如果再要求實時跟蹤,則更是難上加難。因此,探索多個紅外小目標在線跟蹤的新思路和新方法具有必要性。
目前,紅外多目標跟蹤方法主要分為兩種模式:第一種是不依托于檢測結果的跟蹤方法。跟蹤流程為先在初始幀中標出候選框,接著提取候選框中目標特征,根據(jù)所提特征利用卡爾曼濾波[1]、粒子濾波方法[2]在下一幀中找出目標的位置。但是在紅外場景中,目標間相似性高,背景中噪聲多,因此這類方法的準確率低,容易偏離目標。而隨著目標檢測技術的快速發(fā)展,另一種基于檢測結果的多目標跟蹤方法(tracking-bydetection)已經(jīng)成為當前目標跟蹤研究的主要范式[3]。基本過程是:目標檢測器先通過線下訓練得到目標在每一幀圖片中的位置,再通過數(shù)據(jù)關聯(lián)技術將檢測結果分配給已存在的軌跡,從而產(chǎn)生連續(xù)的軌跡。按照數(shù)據(jù)關聯(lián)算法的不同,多目標跟蹤技術可分為離線跟蹤與在線跟蹤兩大類。典型的離線跟蹤方法有條件隨機場方法(conditional random field)[4]、最小費用最大流網(wǎng)絡(min-cost max-flow network flow)[5]、最大權獨立集(maximum-weight independent set)[6]等。一方面該類方法能有效綜合當前幀、過去幀和未來幀信息,便于處理軌跡漂移、錯誤匹配和目標遮擋等問題;另一方面,未來幀的使用必然帶來時延和大的計算量,不能滿足紅外目標跟蹤場景中的實時要求。所以,在紅外多目標跟蹤中所用較少。在線跟蹤方法[7]有采用基于線性卡爾曼濾波的Sort(Simple online and realtime tracking)方法[8],該方法首先使用目標的運動特征對相鄰幀檢測響應的時序進行逐幀關聯(lián),然后使用匈牙利算法[9]匹配軌跡與目標。由于該方法采用目標的運動特征,因此也可以應用于紅外場景中。有研究通過使用多特征融合方法提升數(shù)據(jù)關聯(lián)算法的抗干擾能力[10],因此在紅外多目標跟蹤中,提出了利用目標表觀特征、運動特征和手工設計特征等。表觀特征用以描述目標的外觀變化,通常會面臨光照變化,目標發(fā)生形變等問題。常用的特征方式有顏色直方圖[11]、梯度特征和深度特征[12-13]等。運動特征用于描述目標的運動軌跡,通常采用線性運動[14]和非線性運動[15]兩種。手工設計特征有改進表觀特征模型(improved appearance model)[16]等方法;也有研究為改善關聯(lián)算法的性能,將數(shù)據(jù)關聯(lián)細化為多層計算[17-19]。還有學者將單目標跟蹤中的Simaese Network 特征、核相關濾波(Kernel Correlation Filter,KCF)引入到多目標特征關聯(lián)中[20-21],二者都證實多特征組合與改進數(shù)據(jù)關聯(lián)有利于提高多目標跟蹤的準確性和穩(wěn)定性。不過,由于網(wǎng)絡訓練數(shù)據(jù)的限制及算法復雜度要求[22],限制了它在空中紅外多目標跟蹤中的運用。
為此,本文在當前常用的基于局部對比度測量(Local Contrast Measure,LCM)檢測結果的基礎上,采用tracking-bydetection 框架,提出一種基于分層關聯(lián)的紅外多目標在線跟蹤方法。首先,基于紅外場景中目標特性,提取目標的表觀特征,運動特征和尺度特征;接著提出分層數(shù)據(jù)關聯(lián)方法。分層關聯(lián)方法首先綜合目標的多種特征信息設計初步關聯(lián),以排除誤檢目標的干擾得到真實目標。在第二層關聯(lián)中,本文提出按照尺度大小將目標分類:大尺度類目標數(shù)據(jù)關聯(lián)采用表觀特征、運動特征和尺度特征三種特征相加的方法計算;小尺度類目標數(shù)據(jù)關聯(lián)采用表觀特征與運動特征兩種特征相乘的方式計算。最后根據(jù)匈牙利算法對目標進行分配并完成軌跡更新。
針對空中紅外小目標的特殊性,本文提出綜合利用表觀、運動和尺度三種特征計算數(shù)據(jù)關聯(lián)。假設由檢測器得到的目標集合為,表示第t幀中有n個檢測目標,表示第t幀中第j個檢測目標,第t幀軌跡集合,表示第t幀有m條軌跡存在,表示第t幀第i條軌跡。
本文采用目標的灰度直方圖作為表觀特征,目標與軌跡之間的表觀相似性采用巴氏距離(Bhattacharyya Distance)計算:
考慮到體型較大的目標往往會帶有較長的尾焰,形狀容易發(fā)生突變(參見后文圖1(b)的目標1),因此,本文采用目標的質心描述目標的位置來表征目標的運動特征。對于一幅2D的連續(xù)圖像,p+q階矩mpq定義為:
其中:f(x,y)為圖像在(x,y)處的像素值;N為像素個數(shù)。圖像的質心為第0階矩和第1階矩,因此質心的坐標(xc,yc)獲取方法如下:
得到目標質心坐標后,由于鏡頭隨著主目標移動,所以,目標在圖像中的運動速度較慢。為簡化起見,這里將目標運動假設為勻速運動,并采用公認效果較好的卡爾曼濾波算法追蹤目標的運動過程,通過所分配的目標位置更新卡爾曼濾波方程,給出下一幀的預測位置,用于計算下一幀的數(shù)據(jù)關聯(lián)。通過比對軌跡預測的下一幀質心位置,得到目標與軌跡的運動相似性,計算公式為:
若目標的尺度特征中檢測框的長為h、寬為w,則軌跡與目標的尺度相似性可通過式(5)獲得:
常規(guī)數(shù)據(jù)關聯(lián)方法在面對誤檢目標多、目標間相似度高等情況時,通常會導致跟蹤失敗。因此根據(jù)紅外場景特點,本文提出分層數(shù)據(jù)關聯(lián)方法。利用第1 章中提出的多特征相似性度量方法,在首次計算數(shù)據(jù)關聯(lián)時排除誤檢目標的干擾,接著在第二次計算數(shù)據(jù)關聯(lián)時將目標按尺度大小分類,根據(jù)類別采取不同的特征組合方式,從而提高跟蹤精度。
紅外場景中目標相似性高,誤檢數(shù)目多,因此本文設計第一層數(shù)據(jù)關聯(lián)旨在排除誤檢目標對于跟蹤的影響。首先定義軌跡與目標的關聯(lián)矩陣為:
其中:Sm×n為在當前幀中m條軌跡與n個目標之間的數(shù)據(jù)關聯(lián)矩陣。本文在第一層采用的數(shù)據(jù)關聯(lián)計算方法為:
其中:rt為t時刻所有軌跡;θ為丟棄目標得閾值;b1、b2、b3為權重系數(shù)。
在排除誤檢目標時,三種特征因素都具有相當重要的作用,因此本文將三種特征的權重b1、b2、b3都設置為1/3。當某一目標與所有的軌跡相似性的最大值都小于給定閾值θ,=0,則說明該目標可能為噪聲點,置0意味著丟棄該目標。實驗中最佳θ為0.3。圖1 為第一層關聯(lián)結果,圖1(a)、(b)中的數(shù)字標號為目標序號,圖1(c)中的標號為軌跡編號,矩形框代表檢測結果??梢钥闯龅谝粚雨P聯(lián)后噪聲明顯減少。
圖1 第一層關聯(lián)前后的對比Fig.1 Comparison of results before and after first-layer association
考慮到所跟蹤的目標大小不一致,如果采用單一的特征組合方式,在遇到尺度差異較大情況下會導致跟蹤精度下降。為提高跟蹤精度,本文在第二層關聯(lián)中提出將目標按照尺度大小分類計算關聯(lián)。首先,將第一層關聯(lián)后結果分為大尺度目標、小尺度目標兩類,并按照類別設計特征組合方式??紤]到需跟蹤的較大目標容易發(fā)生分離,導致質心位置與灰度直方圖有劇烈變化,本文采用三種特征權重相加的方式來避免某一突變特征對總相似性造成巨大影響。對于小尺度類目標,因其尺度相似性較高(即尺度特征差異不明顯),如果仍對表觀特征與運動特征或三個特征相加的話,很容易造成誤關聯(lián),況且小目標的特征數(shù)量本來就少,每個都不可或缺,所以采用兩種特征相乘的方式——當某一特征相似性較低時,總相似性也必然較低。這樣,通過更具針對性的特征組合方式達到提高跟蹤精度的目的。
其中:σs為目標大小的閾值;α、β、γ為權重系數(shù)。σs的最優(yōu)值大約設為圖像的1/10,本文設為30 像素值大小。在實驗中發(fā)現(xiàn),表觀特征相對于其他兩種特征更為重要,運動特征及尺度特征對于跟蹤影響相差不大,因此在本文方法中α、β、γ的值分別設為0.5、0.25、0.25。綜上,本文提出整體跟蹤流程如圖2所示。
圖2 本文跟蹤方法的流程Fig.2 Flowchart of proposed tracking method
本文方法基于Windows 10 系統(tǒng)使用python 3.6.8 實現(xiàn),實驗均在Intel Core i5-4210U CPU 進行。本章首先分析影響本文效果的主要因素,然后與有代表性的方法進行比較。本文方法所采用的檢測結果主要包括(目標檢測框左上角x坐標、目標檢測框左上角y坐標,目標檢測框寬w、目標檢測框長h)四部分內(nèi)容。為了驗證本文方法的有效性,這里采用公共標準和常用的評價指標進行評價,包括多目標跟蹤精度(Multi-Object Tracking Accuracy,MOTA)和多目標跟蹤準確度(Multi-Object Tracking Precision,MOTP)。MOTA 的主要影響因素為目標(IDentity,ID)的交換次數(shù)(ID Switches,IDS)、誤檢目標的數(shù)目(False Positives,F(xiàn)P)和漏檢目標的數(shù)目(False Negatives,F(xiàn)N),計算公式如下:
其中:GT為實際軌跡。MOTP用于衡量跟蹤結果與標注結果的匹配程度。其余的還有預測軌跡占GT總軌跡的比例不低于80% 的MT(Mostly Tracked targets)和比例低于20% 的ML(Mostly Lost targets)。
影響本文結果的主要包括第二層數(shù)據(jù)關聯(lián)中分類閾值和是否進行分層關聯(lián)兩個因素。
3.1.1 分類閾值σs對實驗結果的影響
MOTA 代表跟蹤方法的綜合性能,越高代表綜合性能越好,因此在實驗中本文重點比較MOTA 值。這里考察從0~70變化過程中MOTA 的變化。由圖3 可見,MOTA 值隨著σs的增大呈現(xiàn)先增后減的趨勢,其中,當σs=30 時達到峰值。與此同時,表1中:當σs=0表示使用三種特征相加的方式計算數(shù)據(jù)關聯(lián),σs=MAX 表示數(shù)據(jù)關聯(lián)執(zhí)行的是特征相乘的方式。由三組值對比可看出:與單一的“相加”或“相乘”相比,σs約為30 時,MOTA 值最大,較σs取0 時提升9.6%,較σs取MAX 時提升10.2%,F(xiàn)P 值跟其他兩種方法相比有明顯下降,說明當σs取30時,數(shù)據(jù)關聯(lián)算法準確率最高,因此本文將σs取30。
表1 不同分類閾值對比Tab.1 Comparison of different classification thresholds
3.1.2 分層關聯(lián)對實驗結果的影響
表2 給出單層關聯(lián)與分層關聯(lián)的實驗結果,可以看出分層關聯(lián)后MOTA、MOTP、IDS、FP指均有所提升、ML和FN值有所下降,總體來說分層關聯(lián)較單層關聯(lián)比,跟蹤精度有較大提升。
表2 分層關聯(lián)與單層關聯(lián)對比Tab.2 Comparison of hierarchical association and single-layer association
多目標跟蹤代表性的方法有:文獻[7]使用交并比(Intersection Over Union,IOU)計算的IOU tracker 方法,文獻[8]采用卡爾曼濾波預測目標運動的Sort方法,以及文獻[10]采用多特征數(shù)據(jù)分層關聯(lián)思想的CMOT(Multiple Object Tracking using Confidence score-based appearance model)方法。四種方法的指標如表3所示。
從表3 中可以看出,在序列1 與序列4 中目標發(fā)生分離情況導致目標數(shù)量激增的情況:本文方法MOTA 值最高、MT 值高、ML 值低,說明本文方法效果更好;FP 值較高、FN 值較低,說明本文方法采用分層關聯(lián),對目標與軌跡之間匹配要求更嚴格。對比方法中Sort 的效果較好,但是遇到目標數(shù)量激增時,會出現(xiàn)跟蹤精度劇烈下降的情況。在序列2 中,目標運動情況較穩(wěn)定,本文方法的MOTA 等值均略高于其他方法。在序列3 中,目標形變量大,導致其他三種方法時常會發(fā)生跟蹤中斷,將主目標錯認為其他目標,本文方法的MOTA 值較高,遠高于其他三種方法。在序列5和序列7中,都存在背景中噪聲較多的情況,因此所有方法都出現(xiàn)了跟蹤精度下降的情況,但是本文方法在序列5 中依然取得了較好的跟蹤精度,在序列7 中僅次于Sort 方法。在序列6 中,鏡頭晃動情況嚴重,因此本文方法相對于計算IOU tracker 以及Sort 方法,跟蹤精度有明顯的提升。對比七組視頻序列,本文方法相較于Sort 方法MOTA 值平均提升12.6,對比IOU 方法提升17.2,對比CMOT 方法提升19.6。在MT、ML 等方面,本文方法明顯優(yōu)于其他方法,由于每種方法針對關聯(lián)的重點不一,因此FP、IDS、FN呈現(xiàn)不同變化。總的來說,本文方法要優(yōu)于對比方法。
表3 不同方法實驗結果對比Tab.3 Experimental result comparison of different methods
通過表4可以看出:IOU tracker僅計算目標間的IOU重疊率,所以跟蹤速度最快;Sort 方法在跟蹤中僅使用目標的運動信息,因此也可以達到較高的速度;CMOT 方法運算速度較慢;而本文方法在保證跟蹤精度的同時,平均運算速度達到了20 frame/s,基本可以保證實時要求。
表4 不同方法運算速度對比Tab.4 Computing speed comparison of different methods
為直觀起見,圖4 給出本文方法在四組視頻序列中的跟蹤結果??梢钥闯觯盒蛄? 中分離數(shù)量較小的情況時,本文方法可以做到穩(wěn)定追蹤;序列2 中,在第000021 幀,鏡頭發(fā)生抖動,導致跟蹤失敗,此時本文方法只能繼續(xù)追蹤部分目標;序列3 中,在主目標發(fā)生分離、需追蹤目標數(shù)目急劇增加時(容易發(fā)生IDS 導致跟蹤失敗),本文方法可以穩(wěn)定跟蹤大部分目標;序列4 中,目標發(fā)生較大形變時,本文方法依然可以穩(wěn)定跟蹤。在序列5 和序列7 中可以看到,背景中的噪聲較多,目標相似度較高,本文方法在對小目標的跟蹤上發(fā)生偏移,但是仍能保持跟蹤主目標。序列6 中,目標較小,鏡頭抖動情況嚴重,因此發(fā)生了偏移情況。
圖4 本文方法跟蹤結果Fig.4 Tracking results of proposed method
本文提出了一種基于分層數(shù)據(jù)關聯(lián)的思想解決空中紅外多目標跟蹤問題。首先,基于紅外場景的特性,提出構建表觀、運動、尺度三種特征相似性。接著提出分層數(shù)據(jù)關聯(lián)方法,第一層數(shù)據(jù)關聯(lián)在一定程度上避免誤檢目標對于跟蹤的影響,第二層數(shù)據(jù)關聯(lián)通過對目標按照尺度大小分類,各自設計特征組合方法,提升了數(shù)據(jù)關聯(lián)算法的魯棒性和目標跟蹤精度。7 組星空背景下圖像序列的測試表明,本文方法的跟蹤精度均優(yōu)于其他多目標跟蹤方法,并且跟蹤速度可以滿足實時性要求,便于方法應用到實際工程中。下一步的工作的重點是提高準確率。