彭嘉淇,王濤,陳柯安,林巍峣
上海交通大學(xué)電子信息與電氣工程學(xué)院,上海 201100
多目標(biāo)跟蹤(multiple object tracking,MOT)任務(wù)的主要目標(biāo)是對(duì)視頻中多個(gè)感興趣目標(biāo)定位的同時(shí),維持目標(biāo)各自的身份識(shí)別號(hào)(identification,ID)并記錄連續(xù)的運(yùn)動(dòng)軌跡。多目標(biāo)跟蹤在諸多領(lǐng)域都有廣泛應(yīng)用。例如,在自動(dòng)駕駛中可以輔助車(chē)輛代替人員感知周?chē)渌?chē)輛和人員的運(yùn)動(dòng)情況,做出合理決策;在安防監(jiān)控中可以輔助提取視頻中可疑人員的身份和去向信息,節(jié)約人力。視頻多目標(biāo)跟蹤場(chǎng)景的復(fù)雜性以及目標(biāo)間的頻繁遮擋,給準(zhǔn)確的多目標(biāo)跟蹤帶來(lái)挑戰(zhàn)。現(xiàn)有多目標(biāo)跟蹤方法結(jié)果主要存在兩類錯(cuò)誤,即目標(biāo)漏檢和目標(biāo)身份識(shí)別錯(cuò)誤。目標(biāo)漏檢指某一幀目標(biāo)沒(méi)有檢測(cè)到,導(dǎo)致軌跡中斷。目標(biāo)身份識(shí)別錯(cuò)誤指同一目標(biāo)在不同幀中識(shí)別為不同目標(biāo),導(dǎo)致身份跳變。在現(xiàn)有視頻多目標(biāo)跟蹤方法中,通用做法為使用檢測(cè)器獲得單幀目標(biāo)的檢測(cè)框,然后利用前后幀同一目標(biāo)相似度,在時(shí)序上對(duì)檢測(cè)框進(jìn)行跨幀關(guān)聯(lián),形成多個(gè)目標(biāo)的軌跡。針對(duì)目標(biāo)漏檢和身份識(shí)別錯(cuò)誤問(wèn)題,現(xiàn)有方法基于基本框架采取了多種改進(jìn)策略,從目標(biāo)檢測(cè)、目標(biāo)關(guān)聯(lián)以及兩者聯(lián)合的角度嘗試解決。其中,一類方法關(guān)注于檢測(cè)性能的改善,通過(guò)更加準(zhǔn)確的檢測(cè)器獲得位置更加準(zhǔn)確的目標(biāo)檢測(cè)框,作為目標(biāo)關(guān)聯(lián)步驟的輸入。例如,DeepSORT(deep simple online and realtime tracking)(Wojke等,2017)使用比Faster R-CNN(region convolutional neural network)(Ren等,2015)效果更好的檢測(cè)器POI(person of interest)(Yu等,2016)獲得單幀檢測(cè)結(jié)果,再進(jìn)行目標(biāo)間的關(guān)聯(lián)。另一類方法關(guān)注于設(shè)計(jì)更加準(zhǔn)確合理的目標(biāo)關(guān)聯(lián)機(jī)制。例如,使用圖網(wǎng)絡(luò)或復(fù)雜的全局匹配策略對(duì)目標(biāo)進(jìn)行更加準(zhǔn)確的關(guān)聯(lián)。其他研究則將目標(biāo)檢測(cè)和關(guān)聯(lián)聯(lián)合訓(xùn)練,增加匹配和關(guān)聯(lián)之間的特征耦合關(guān)系,對(duì)兩者的效果同時(shí)進(jìn)行提升。例如,F(xiàn)airMOT(Zhang等,2020)采用無(wú)錨框的檢測(cè)器CenterNet(Zhou等,2020)并增加一個(gè)ReID(re-identification)分支獲取目標(biāo)的外觀特征,將外觀特征與檢測(cè)器特征聯(lián)合訓(xùn)練。
然而,盡管現(xiàn)有檢測(cè)器嘗試從目標(biāo)檢測(cè)、目標(biāo)關(guān)聯(lián)以及兩者聯(lián)合等多角度對(duì)多目標(biāo)跟蹤進(jìn)行改進(jìn),特別是FairMOT,既使用了性能更強(qiáng)的檢測(cè)器CenterNet,又將關(guān)聯(lián)特征和檢測(cè)部分進(jìn)行聯(lián)合訓(xùn)練,但是忽視了多目標(biāo)跟蹤中廣泛存在的不一致性問(wèn)題。這些不一致性體現(xiàn)在以下方面:1)空間不一致性。指ReID特征中心與目標(biāo)檢測(cè)框中心不一致。在將無(wú)錨框的檢測(cè)器添加ReID特征分支進(jìn)行跟蹤的方法中,由于輸出特征圖上的每個(gè)位置代表一個(gè)潛在目標(biāo),因此在提取目標(biāo)的ReID特征時(shí),最直接的做法是根據(jù)目標(biāo)的中心位置在ReID特征圖的對(duì)應(yīng)位置提取特征向量。由于目標(biāo)中心位置由熱圖進(jìn)行監(jiān)督訓(xùn)練,而熱圖生成時(shí)使用的中心往往直接使用目標(biāo)檢測(cè)框的中心,從而出現(xiàn)目標(biāo)特征與物理中心不一致問(wèn)題。即在密集場(chǎng)景下目標(biāo)檢測(cè)框中心可能會(huì)落在周?chē)渌繕?biāo)對(duì)應(yīng)的像素上,導(dǎo)致該處ReID特征包含大量不相干目標(biāo)信息而不是對(duì)應(yīng)目標(biāo)信息,不能很好表示該目標(biāo)外觀特征。ReID特征提取的最佳中心與該目標(biāo)檢測(cè)框中心不一致,不能將兩者混為一談。如圖1(a)所示。2)時(shí)間不一致性。指相鄰幀目標(biāo)中心響應(yīng)不一致?,F(xiàn)有方法大多僅對(duì)單幀圖像進(jìn)行特征提取和檢測(cè),未使用鄰幀的目標(biāo)信息,出現(xiàn)目標(biāo)中心響應(yīng)時(shí)序不一致問(wèn)題。即某些場(chǎng)景能夠準(zhǔn)確檢測(cè)上一幀中的物體,但是到下一幀由于遮擋或模糊,物體無(wú)法檢測(cè),導(dǎo)致前后幀的物體召回情況不一致,使目標(biāo)間無(wú)法一對(duì)一正確匹配。如圖1(b)所示。一致的目標(biāo)響應(yīng)是相鄰幀均出現(xiàn)的同一目標(biāo)均能檢測(cè)到。3)特征相似度度量在訓(xùn)練與測(cè)試中不一致。如圖1(c)所示,現(xiàn)有方法在訓(xùn)練過(guò)程中往往將目標(biāo)檢測(cè)框進(jìn)行分類,使用交叉熵?fù)p失函數(shù)對(duì)目標(biāo)類別進(jìn)行監(jiān)督,同一軌跡的目標(biāo)檢測(cè)框分到同一類,每個(gè)目標(biāo)是單獨(dú)考慮的;但是在測(cè)試時(shí),卻需要在相鄰幀目標(biāo)特征上兩兩交互計(jì)算余弦相似度,根據(jù)相似度進(jìn)行最優(yōu)匹配。這兩者之間存在巨大差異,導(dǎo)致測(cè)試與訓(xùn)練時(shí)模型機(jī)制不一致,使得性能下降。
圖1 多目標(biāo)跟蹤中存在的不一致問(wèn)題Fig.1 The inconsistent problem in multiple object tracking ((a) target feature center is inconsistent with physical center; (b) target center response is inconsistent in timing; (c) the similarity measurements during training and testing is inconsistent)
為了解決現(xiàn)有多目標(biāo)跟蹤方法存在的不一致性問(wèn)題,本文提出基于時(shí)空一致性的改進(jìn)算法,并在FairMOT(Zhang等,2020)上驗(yàn)證。本文方法在抽取ReID特征時(shí)預(yù)測(cè)ReID中心與檢測(cè)框中心的偏移,稱為特征提取位置偏移,然后根據(jù)該偏移和檢測(cè)框中心計(jì)算最佳ReID特征抽取中心,以此解決空間不一致問(wèn)題,提升ReID特征對(duì)目標(biāo)的表達(dá)能力。隨后,在相鄰幀之間計(jì)算運(yùn)動(dòng)偏移信息,根據(jù)偏移信息用上一幀的響應(yīng)信息對(duì)下一幀的響應(yīng)進(jìn)行增強(qiáng),解決時(shí)間不一致問(wèn)題。最后,通過(guò)設(shè)計(jì)特征正交損失函數(shù),在訓(xùn)練時(shí)考慮不同身份目標(biāo)之間的相似度關(guān)系,在特征空間對(duì)不同目標(biāo)特征進(jìn)行正交約束,解決訓(xùn)練和測(cè)試中的相似度度量不一致問(wèn)題。在MOT17和Hieve(Lin等,2021)數(shù)據(jù)集上進(jìn)行驗(yàn)證,結(jié)果表明本文方法能夠較好地解決這些不一致問(wèn)題,對(duì)多目標(biāo)跟蹤的性能提升具有顯著效果。
根據(jù)目標(biāo)檢測(cè)和目標(biāo)關(guān)聯(lián)的耦合程度,可以將現(xiàn)有多目標(biāo)跟蹤方法分為3類,即先檢測(cè)后關(guān)聯(lián)的方法、檢測(cè)跟蹤聯(lián)合的方法和無(wú)關(guān)聯(lián)的方法。
先檢測(cè)后跟蹤的方法使用獨(dú)立的檢測(cè)器對(duì)視頻的每一幀圖像進(jìn)行目標(biāo)檢測(cè),獲取每一幀中的目標(biāo)檢測(cè)框,然后使用獨(dú)立的關(guān)聯(lián)模塊對(duì)檢測(cè)框依據(jù)外觀、運(yùn)動(dòng)等相似度進(jìn)行關(guān)聯(lián),連接成目標(biāo)軌跡。SORT(simple online and realtime tracking)(Bewley等,2016)是此類方法中的經(jīng)典,利用檢測(cè)器Faster R-CNN(Ren等,2015)對(duì)每一幀進(jìn)行檢測(cè),然后使用卡爾曼濾波預(yù)測(cè)目標(biāo)在后一幀的位置,根據(jù)預(yù)測(cè)位置和實(shí)際檢測(cè)框位置計(jì)算交并比作為軌跡與檢測(cè)框之間的相似度,并進(jìn)行二分圖匹配,獲得目標(biāo)關(guān)聯(lián)結(jié)果。DeepSORT(Wojke等,2017)在SORT上進(jìn)行兩方面改進(jìn),一是將Faster R-CNN替換成檢測(cè)效果更好的檢測(cè)器;二是在目標(biāo)相似度計(jì)算中引入使用深度網(wǎng)絡(luò)提取的外觀特征,提升了目標(biāo)關(guān)聯(lián)的準(zhǔn)確度。DMAN(dual matching attention networks)(Zhu等,2018)在目標(biāo)關(guān)聯(lián)中的特征提取時(shí)使用空間注意力機(jī)制,使網(wǎng)絡(luò)更加關(guān)注那些區(qū)分性較強(qiáng)區(qū)域的特征,使目標(biāo)能夠更準(zhǔn)確地識(shí)別身份。GNMOT(graph networks for multiple object tracking)(Li等,2020)使用兩路獨(dú)立的圖卷積網(wǎng)絡(luò)對(duì)軌跡的外觀特征和運(yùn)動(dòng)特征進(jìn)行逐幀更新,利用得到的外觀特征和運(yùn)動(dòng)特征計(jì)算融合相似度,用于后續(xù)的匹配過(guò)程。TubeTK(Pang等,2020)在多幀特征圖上預(yù)測(cè)一個(gè)短的軌跡,利用短軌跡特征進(jìn)行關(guān)聯(lián)獲得目標(biāo)長(zhǎng)軌跡。Ctracker(chained-tracker)(Peng等,2020)使用相鄰兩幀目標(biāo)形成的目標(biāo)對(duì)提取特征進(jìn)行匹配關(guān)聯(lián)。INAF-GNN(intra-frame relationship modeling and graph neural networks)(朱姝姝 等,2022)使用圖網(wǎng)絡(luò)對(duì)幀內(nèi)物體關(guān)系進(jìn)行建模,使用自注意力機(jī)制整合局部特征和全局跟蹤特征,實(shí)現(xiàn)更準(zhǔn)確的關(guān)聯(lián)。此外,獲取更準(zhǔn)確的ReID特征(如使用通道和空間注意力機(jī)制(Qin等,2021))以及孿生網(wǎng)絡(luò)(高博,2021)對(duì)特征提取進(jìn)行改進(jìn),也有助于增加關(guān)聯(lián)的匹配準(zhǔn)確度,從而提升跟蹤效果。
先檢測(cè)后關(guān)聯(lián)的方法對(duì)目標(biāo)檢測(cè)和關(guān)聯(lián)使用兩個(gè)獨(dú)立的網(wǎng)絡(luò)進(jìn)行。一方面特征提取等大量重復(fù)計(jì)算導(dǎo)致速度下降;另一方面檢測(cè)和關(guān)聯(lián)分開(kāi)學(xué)習(xí)使梯度無(wú)法共享,兩者之間沒(méi)有相互促進(jìn)作用。因而一些方法嘗試將目標(biāo)檢測(cè)和目標(biāo)關(guān)聯(lián)方法聯(lián)合到一個(gè)網(wǎng)絡(luò)中進(jìn)行訓(xùn)練。如JDE(jointly learns the detector and embedding model)(Wang等,2020)使用標(biāo)準(zhǔn)的區(qū)域生成網(wǎng)絡(luò)(region proposal network,RPN)作為檢測(cè)器時(shí),另外增加一路外觀特征提取分支,在檢測(cè)損失函數(shù)的基礎(chǔ)上增加一個(gè)分類損失函數(shù),基于目標(biāo)的外觀特征對(duì)目標(biāo)的所屬身份進(jìn)行監(jiān)督。FairMOT(Zhang等,2020)考慮到基于錨框的算法中,對(duì)目標(biāo)進(jìn)行外觀特征提取時(shí)引入了大量無(wú)關(guān)的背景信息和其他目標(biāo)的信息,因此使用無(wú)錨框的檢測(cè)器,外觀特征則是在對(duì)應(yīng)目標(biāo)中心點(diǎn)進(jìn)行提取,從而消除部分無(wú)關(guān)背景信息。此外,將分割等任務(wù)引入多目標(biāo)跟蹤(Yang等,2019)以及與檢測(cè)關(guān)聯(lián)聯(lián)合學(xué)習(xí)也能有效提升多目標(biāo)跟蹤效果。
由于目標(biāo)關(guān)聯(lián)準(zhǔn)確性受相似度度量和關(guān)聯(lián)策略的影響較大,因此有的方法將目標(biāo)關(guān)聯(lián)步驟省略,直接使用歷史軌跡在當(dāng)前幀預(yù)測(cè)位置。如Tracktor(Bergmann等,2019)利用Faster R-CNN中的二階段網(wǎng)絡(luò),輸入上一幀的目標(biāo)檢測(cè)框,一對(duì)一獲得其在當(dāng)前幀位置,省略了關(guān)聯(lián)步驟。TrackFormer(Meinhardt等,2022)在基于Transformer的檢測(cè)器DETR(detection transformer)(Carion等,2020)上進(jìn)行修改,將上一幀目標(biāo)作為新一幀的query,將當(dāng)前幀圖像的特征作為key,利用Transformer的編解碼過(guò)程得到的這些key查詢?cè)谛碌囊粠械奈恢?。TransCenter(Xu等,2022)在利用上一幀的目標(biāo)中心提取查詢特征后,在后一幀的圖像特征上利用Transformer查詢得到新的中心位置以及目標(biāo)檢測(cè)框的寬和高。
以上3類方法對(duì)多目標(biāo)跟蹤中的目標(biāo)檢測(cè)和目標(biāo)關(guān)聯(lián)進(jìn)行了一系列改進(jìn),但對(duì)多目標(biāo)跟蹤中普遍存在的不一致性問(wèn)題缺少足夠的關(guān)注和改進(jìn)。本文將基于FairMOT分別對(duì)目標(biāo)關(guān)聯(lián)特征與檢測(cè)框中心不一致、訓(xùn)練測(cè)試相似度度量不一致以及目標(biāo)中心響應(yīng)時(shí)序不一致進(jìn)行改進(jìn)。
本文提出的時(shí)空一致性多目標(biāo)跟蹤方法結(jié)構(gòu)如圖2所示,主要基于多目標(biāo)跟蹤方法FairMOT進(jìn)行改進(jìn)。
圖2 基于一致性改進(jìn)的多目標(biāo)跟蹤方法整體流程圖Fig.2 The framework of our multiple object tracking method based on consistency improvement
給定連續(xù)視頻幀序列I={I1,I2,…,IT},本文方法將相鄰兩幀It-1和It輸入特征提取網(wǎng)絡(luò)。輸出的特征圖分別用于目標(biāo)檢測(cè)、目標(biāo)關(guān)聯(lián)和幀間響應(yīng)增強(qiáng)。
目標(biāo)關(guān)聯(lián)包含ReID分支和extract offset分支兩部分。ReID分支用于計(jì)算全局的ReID特征圖,extract offset分支則預(yù)測(cè)目標(biāo)ReID特征提取位置與目標(biāo)檢測(cè)框中心之間的偏移,目的是修正目標(biāo)特征中心及檢測(cè)框中心上的不一致性;extract offset分支得到的偏移和ReID分支以及檢測(cè)部分得到的目標(biāo)中心位置一起用于提取目標(biāo)的ReID特征。關(guān)聯(lián)時(shí),使用當(dāng)前幀目標(biāo)與歷史軌跡間的ReID特征相似度和基于卡爾曼濾波得到的軌跡預(yù)測(cè)位置與當(dāng)前幀實(shí)際位置之間的距離相似度對(duì)目標(biāo)和軌跡進(jìn)行關(guān)聯(lián)。
鄰幀增強(qiáng)分支用于幀間一致性信息增強(qiáng),修正相鄰幀之間目標(biāo)中心響應(yīng)不一致的情況。本文方法根據(jù)相鄰幀的特征圖計(jì)算空間相關(guān)信息,預(yù)測(cè)兩幀之間的偏移情況,然后使用可變形卷積基于偏移對(duì)上一幀的目標(biāo)響應(yīng)做時(shí)空對(duì)齊,得到與當(dāng)前幀相關(guān)的響應(yīng)信息,對(duì)當(dāng)前幀的目標(biāo)響應(yīng)進(jìn)行增強(qiáng)。
訓(xùn)練時(shí),除了使用檢測(cè)器中的損失函數(shù),考慮到使用交叉熵?fù)p失進(jìn)行分類訓(xùn)練與測(cè)試時(shí)目標(biāo)關(guān)聯(lián)步驟中的兩兩相似度計(jì)算過(guò)程不一致問(wèn)題,本文將FairMOT中用于關(guān)聯(lián)的交叉熵?fù)p失替換為特征正交損失,對(duì)訓(xùn)練集中的每個(gè)身份都學(xué)習(xí)一個(gè)模板特征向量,然后對(duì)目標(biāo)和對(duì)應(yīng)身份兩兩之間做損失計(jì)算,保持與測(cè)試時(shí)相似度計(jì)算的一致性。
圖3 基于提取位置偏移的目標(biāo)ReID特征提取Fig.3 Object ReID feature extraction based on extraction position offsets
為了充分利用鄰幀間的一致性信息,首先將當(dāng)前幀特征圖與上一幀特征圖進(jìn)行鄰幀相似度計(jì)算,得到大小為(N,H,W,K2)的相似度矩陣,然后基于相似度矩陣預(yù)測(cè)兩幀間的偏移信息,基于得到的偏移信息,使用可變形卷積對(duì)上一幀的目標(biāo)響應(yīng)進(jìn)行變換,得到時(shí)序一致性信息,對(duì)當(dāng)前幀的heatmap進(jìn)行時(shí)序一致性信息增強(qiáng)。
具體實(shí)現(xiàn)時(shí),假設(shè)經(jīng)過(guò)特征提取網(wǎng)絡(luò)后得到當(dāng)前幀特征圖Ft以及上一幀特征圖Ft-1,大小均為(N,H,W,D)。將當(dāng)前幀的每一位置(x,y)與上一幀的K2鄰域內(nèi)的位置依次計(jì)算特征相似度,得到當(dāng)前幀每個(gè)位置與上一幀大小為(K,K)的鄰域內(nèi)各點(diǎn)的余弦相似度。由于該鄰域大小為(K,K),每個(gè)點(diǎn)可以得到K×K個(gè)相似度,在該點(diǎn)將相似度拼接成維度為K2的向量,得到相似度矩陣,大小為(N,H,W,K2),該矩陣編碼了相鄰幀間的局部相似信息。該相似度矩陣經(jīng)過(guò)卷積后,可以為每一位置預(yù)測(cè)一組偏移向量,表示兩幀之間的偏移關(guān)系。將該偏移向量用作可變卷積的偏移參數(shù),并利用可變卷積對(duì)上一幀的heatmap信息進(jìn)行變換,得到與當(dāng)前幀相關(guān)的一致性響應(yīng)信息,將該信息加到當(dāng)前幀的heatmap上,即可對(duì)目標(biāo)的時(shí)序信息進(jìn)行增強(qiáng)。
(1)
平滑化該損失函數(shù),可得
(2)
但是,在測(cè)試時(shí)采用余弦相似度度量前后幀目標(biāo)的相似程度。目標(biāo)訓(xùn)練和測(cè)試中計(jì)算相似度方式的不一致導(dǎo)致模型性能下降。因此本文提出在訓(xùn)練中采用與測(cè)試時(shí)相似度計(jì)算方式相近的特征正交損失,并為每個(gè)類別都設(shè)置一個(gè)可學(xué)習(xí)的類模板。為此,對(duì)訓(xùn)練集中的每個(gè)軌跡j,本文模型均用標(biāo)準(zhǔn)正態(tài)分布初始化一個(gè)特征向量作為第j類的類模板Mj,Mj隨著網(wǎng)絡(luò)的學(xué)習(xí)不斷更新。通過(guò)ReID分支和extract offset分支得到目標(biāo)i的特征向量fi,假設(shè)其屬于身份j,則ReID分支的學(xué)習(xí)目標(biāo)為使fi和Mj盡可能相似,與其他軌跡的模板特征向量則盡可能相斥,即特征向量fi與類模板Mj做內(nèi)積,并經(jīng)過(guò)sigmoid函數(shù)的結(jié)果滿足
(3)
類似于二分類中的交叉熵?fù)p失,損失函數(shù)為
(4)
由于多目標(biāo)跟蹤中單幀中正樣本只有一個(gè),其余均為負(fù)樣本。針對(duì)類別不均衡問(wèn)題,對(duì)上述公式進(jìn)行改進(jìn),得到最終的目標(biāo)特征正交損失函數(shù)。具體為
(5)
式中,γ為大于1的超參數(shù),類似focal loss中的思想,用于進(jìn)行難樣本的權(quán)重控制,使誤差越大的項(xiàng)在損失函數(shù)中獲得越大的權(quán)重。
算法基于FairMOT實(shí)現(xiàn),在MS COCO(Microsoft common objects in context)數(shù)據(jù)集上預(yù)訓(xùn)練作為初始化并沿用FairMOT的訓(xùn)練方案。初始學(xué)習(xí)率設(shè)為0.000 1。在MOT17數(shù)據(jù)集和Hieve數(shù)據(jù)集上,圖像均等比縮放至短邊為608像素,batch size設(shè)置為4,總共訓(xùn)練30個(gè)周期,在20個(gè)周期后學(xué)習(xí)率下降為原來(lái)的0.1倍。
實(shí)驗(yàn)主要在多目標(biāo)跟蹤數(shù)據(jù)集MOT17、MOT20和Hieve上進(jìn)行,并與現(xiàn)有方法進(jìn)行效果對(duì)比。
3.2.1 MOT17數(shù)據(jù)集
MOT17數(shù)據(jù)集是2017年MOT Challenge多目標(biāo)檢測(cè)跟蹤方法公開(kāi)的基準(zhǔn)數(shù)據(jù)集,隨后的MOT算法基本都會(huì)給出在MOT17上的性能表現(xiàn)。
MOT17主要標(biāo)注目標(biāo)為移動(dòng)的行人,擁有豐富的場(chǎng)景畫(huà)面、不同拍攝視角和相機(jī)運(yùn)動(dòng),也包含不同天氣狀況的視頻。MOT17數(shù)據(jù)集共14個(gè)視頻序列,每個(gè)視頻平均長(zhǎng)度約800幀,其中7個(gè)為帶有標(biāo)注信息的訓(xùn)練集,其他7個(gè)為測(cè)試集,每個(gè)訓(xùn)練集提供SDP、DPM和Faster R-CNN共3種檢測(cè)器的檢測(cè)結(jié)果,標(biāo)注超過(guò)1 300個(gè)目標(biāo),約300 000個(gè)檢測(cè)框。
3.2.2 Hieve數(shù)據(jù)集
Hieve(Lin等,2021)數(shù)據(jù)集是2020年提出的以人為中心的復(fù)雜事件的數(shù)據(jù)集,包含人群的骨架、行為與跟蹤標(biāo)注。Hieve在YouTube收集了32個(gè)異常場(chǎng)景(如監(jiān)獄)和異常事件(如打斗、地震)的視頻序列,大多超過(guò)900幀,總長(zhǎng)度33 min 18 s,分為19個(gè)訓(xùn)練集視頻和13個(gè)測(cè)試集視頻。在跟蹤方面,Hieve中包含2 687個(gè)目標(biāo)軌跡,平均軌跡長(zhǎng)度大于480幀,2維檢測(cè)框個(gè)數(shù)超過(guò)130萬(wàn)。
3.2.3 評(píng)測(cè)指標(biāo)
在MOT任務(wù)中,通過(guò)檢測(cè)框建立真實(shí)軌跡與預(yù)測(cè)軌跡之間的關(guān)系。使用目標(biāo)交并比(intersection over union, IoU)作為相似性度量,閾值設(shè)定為0.5。當(dāng)預(yù)測(cè)軌跡中的某一幀對(duì)應(yīng)的檢測(cè)框與真實(shí)軌跡中該幀對(duì)應(yīng)的檢測(cè)框之間的目標(biāo)交并比>0.5時(shí),則認(rèn)為這一物體在該幀得到了準(zhǔn)確跟蹤。預(yù)測(cè)軌跡與真實(shí)軌跡之間的一一對(duì)應(yīng)關(guān)系是由二分圖最大匹配獲得的,目標(biāo)是使預(yù)測(cè)軌跡與真實(shí)軌跡間的IoU盡可能大。通過(guò)這種方式確定預(yù)測(cè)軌跡與真實(shí)軌跡間的一一對(duì)應(yīng)關(guān)系后,再通過(guò)各種指標(biāo)衡量跟蹤的準(zhǔn)確度。MOT任務(wù)中的評(píng)測(cè)指標(biāo)主要包括整體評(píng)價(jià)指標(biāo)MOTA(multiple object tracking accuracy)、準(zhǔn)確率指標(biāo)MOTP(multiple object tracking precision)、漏檢指標(biāo)FN(false negatives)、誤檢指標(biāo)FP(false positives)、身份跳變指標(biāo)IDs(identity switches)、80%幀跟蹤正確軌跡比例MT(mostly tracked)和80%幀跟丟軌跡比例ML(mostly tracked)。其中, MOTA綜合了FN、FP和IDs數(shù)據(jù)。
3.3.1 各改進(jìn)點(diǎn)的對(duì)比實(shí)驗(yàn)
1)特征提取方式。在檢測(cè)部分得到的目標(biāo)檢測(cè)框中心加上提取位置偏移預(yù)測(cè)分支得到的偏移后,可以得到ReID特征提取位置。由于得到的位置為浮點(diǎn)數(shù),而ReID特征圖上的位置均為整數(shù),因此在提取時(shí)需要進(jìn)行近似。實(shí)驗(yàn)分別對(duì)最近鄰提取、置信度最高處提取、雙線性插值提取和直接使用檢測(cè)框中心位置提取進(jìn)行對(duì)比。最近鄰提取表示直接在與提取位置最近的整數(shù)位置提取特征位置。置信度提取表示在提取位置周?chē)x取熱圖響應(yīng)值最大的整數(shù)位置處的ReID特征作為目標(biāo)ReID特征。雙線性插值提取即第2節(jié)的提取方法。實(shí)驗(yàn)中損失函數(shù)均使用FairMOT中的原始交叉熵?fù)p失函數(shù)。實(shí)驗(yàn)結(jié)果如表1所示。可以看出,使用雙線性插值提取方式效果最佳,相比不采用特征提取位置偏移的方法,在MOTA上有0.7%的提升,同時(shí)ID切換次數(shù)也有非常明顯的下降,說(shuō)明通過(guò)提取位置偏移后提取的特征相比原來(lái)在檢測(cè)框中心提取的特征能夠更好地表征目標(biāo)的外觀信息。
表1 偏移后不同特征提取方法對(duì)跟蹤效果的影響Table 1 The effect of different feature extraction method on tracking results
2)幀間相關(guān)計(jì)算。在幀間信息增強(qiáng)時(shí),幀間位置相似度的計(jì)算直接影響最終效果。因此實(shí)驗(yàn)中分別采用單點(diǎn)余弦相關(guān)和本文提出的空間相關(guān)方法進(jìn)行相似度計(jì)算,并與不進(jìn)行幀間增強(qiáng)的方法進(jìn)行對(duì)比。其中,單點(diǎn)余弦相關(guān)直接使用當(dāng)前幀與上一幀同一位置的特征向量進(jìn)行余弦相似度計(jì)算,得到相似度矩陣。實(shí)驗(yàn)不進(jìn)行ReID特征提取和損失函數(shù)修改。實(shí)驗(yàn)結(jié)果如表2所示??梢钥闯?,使用空間相關(guān)相似度計(jì)算進(jìn)行幀間一致性響應(yīng)增強(qiáng)帶來(lái)的效果提升最大,相比不使用幀間增強(qiáng)在MOTA指標(biāo)上提升0.9%,而直接使用單點(diǎn)余弦相關(guān)則幾乎沒(méi)有提升。主要原因是單點(diǎn)余弦相關(guān)只利用了對(duì)應(yīng)位置的相似度信息,導(dǎo)致兩幀位移信息估計(jì)不準(zhǔn),使歷史響應(yīng)信息經(jīng)過(guò)可變卷積后與當(dāng)前幀的響應(yīng)沒(méi)有得到良好對(duì)齊。而空間相關(guān)則提取了更多空間鄰域的信息,使兩幀之間的位移信息預(yù)測(cè)更加準(zhǔn)確,有助于可變卷積準(zhǔn)確提取幀間一致性響應(yīng)信息。
表2 幀間不同相關(guān)計(jì)算方式對(duì)跟蹤效果的影響Table 2 The effect of different relation calculation method between two frames
此外,對(duì)不同損失函數(shù)對(duì)跟蹤效果的影響進(jìn)行實(shí)驗(yàn),將FairMOT中的交叉熵?fù)p失函數(shù)分別替換為focal loss和本文提出的特征交叉損失,實(shí)驗(yàn)結(jié)果如表3所示。可以看出,focal loss相比交叉熵?fù)p失有0.6%的提升,但大幅低于本文提出的特征交叉損失。特征交叉損失能夠取得最好效果,主要得益于訓(xùn)練時(shí)在損失函數(shù)計(jì)算中考慮了目標(biāo)兩兩之間的相似度信息,與測(cè)試時(shí)的相似度度量機(jī)制比較一致,保證屬于同一目標(biāo)的特征相比不同目標(biāo)間的特征更相似。
表3 不同關(guān)聯(lián)損失函數(shù)對(duì)跟蹤效果的影響Table 3 The effect of different feature extraction method on tracking results
為了驗(yàn)證本文提出的3種一致性改進(jìn)對(duì)跟蹤效果提升的作用以及它們之間的相互影響,將ReID特征位置偏移提取、特征正交損失和幀間一致性響應(yīng)增強(qiáng)分別與基準(zhǔn)方法FairMOT組合,進(jìn)行跟蹤效果對(duì)比實(shí)驗(yàn)。根據(jù)表1—表3的結(jié)果,實(shí)驗(yàn)使用雙線性插值作為ReID特征提取方式,特征正交損失作為損失函數(shù),空間相關(guān)作為幀間相似度計(jì)算方式。實(shí)驗(yàn)結(jié)果如表4所示。本文方法最終得到的MOTA檢測(cè)結(jié)果為71.2%,檢測(cè)速度為15幀/s。
從表4可以看出,1)單獨(dú)使用ReID位置偏移提取、特征正交損失函數(shù)和幀間一致性響應(yīng)增強(qiáng)均能有效提升多目標(biāo)跟蹤的指標(biāo),疊加使用能夠?qū)崿F(xiàn)更好效果。2)相比不采用任何不一致消除策略的多目標(biāo)跟蹤方法,本文提出的一致性多目標(biāo)跟蹤方法的跟蹤效果明顯提升,MOTA指標(biāo)從69.6%提升至71.2%,特別是在密集場(chǎng)景下,MOTA平均有3%的提升。如在MOT17-07擁擠的街道情形下,MOTA從52.7%提升至58.2%。3)空間一致性和幀間一致性改進(jìn)均能有效降低目標(biāo)的身份跳變次數(shù)。因?yàn)镽eID特征偏移提取能夠使目標(biāo)獲得更能代表自身外觀的特征,而幀間一致性響應(yīng)增強(qiáng)有助于召回更多的目標(biāo)檢測(cè)框供匹配,使匹配丟失情況減少。
表4 不同模塊對(duì)跟蹤效果的影響Table 4 The effect of different components on tracking results
3.3.2 與現(xiàn)有方法對(duì)比
為驗(yàn)證本文提出的一致性多目標(biāo)跟蹤方法的效果,與現(xiàn)有方法在MOT17數(shù)據(jù)集上進(jìn)行對(duì)比,結(jié)果如表5所示??梢钥闯觯疚姆椒ㄔ贛OTA指標(biāo)上超過(guò)大部分現(xiàn)有方法。值得注意的是,盡管Center-
表5 本文方法與其他方法在MOT17數(shù)據(jù)集上的效果對(duì)比Table 5 The tracking performance comparison between our method and other methods on MOT17 dataset
Track等方法的IDs低于本文方法,但這些方法的MT較低,ML較高,其正確召回的目標(biāo)框數(shù)量顯著低于本文方法,導(dǎo)致IDs占據(jù)總匹配數(shù)的比例較大,因此匹配錯(cuò)誤比例高于本文方法,這從較低的MOTA指標(biāo)中亦可看出,說(shuō)明它們的跟蹤效果劣于本文方法。
為了驗(yàn)證本文方法的通用性和泛化性能,在目標(biāo)更加稠密的MOT20和Hieve數(shù)據(jù)集上進(jìn)行對(duì)比實(shí)驗(yàn)。這兩個(gè)數(shù)據(jù)集中目標(biāo)數(shù)量更多更密集,目標(biāo)遮擋情況更嚴(yán)重,因此由特征提取和目標(biāo)丟失等帶來(lái)的不一致現(xiàn)象也更加明顯。實(shí)驗(yàn)結(jié)果如表6和表7所示??梢园l(fā)現(xiàn),本文方法在這兩個(gè)數(shù)據(jù)集上均取得了超過(guò)大部分現(xiàn)有方法的跟蹤效果,并且?guī)?lái)的相對(duì)提升比在MOT17數(shù)據(jù)集上更加明顯,特別是在Hieve數(shù)據(jù)集上,本文方法在所有指標(biāo)上均取得最好效果,在召回更多目標(biāo)的同時(shí),有效減少了目標(biāo)間關(guān)聯(lián)錯(cuò)誤的次數(shù),說(shuō)明本文方法能夠有效解決密集場(chǎng)景中的目標(biāo)ReID特征提取、幀間響應(yīng)以及相似度度量不一致問(wèn)題,從而提升跟蹤效果。
表6 本文方法與其他方法在MOT20數(shù)據(jù)集上的效果對(duì)比Table 6 The tracking performance comparison between our method and other methods on MOT20 dataset
表7 本文方法與其他方法在Hieve數(shù)據(jù)集上的效果對(duì)比Table 7 The tracking performance comparison between our method and other methods on Hieve dataset
3.3.3 可視化結(jié)果
圖4為本文方法在MOT17數(shù)據(jù)集上的一部分可視化效果??梢钥闯觯M管目標(biāo)間存在比較嚴(yán)重的遮擋,但是由于本文提出的ReID特征位置偏移提取和特征交叉損失,使目標(biāo)仍然能夠獲得較為準(zhǔn)確的外觀特征,得到正確匹配。而得益于幀間響應(yīng)一致性信息的增強(qiáng),對(duì)于部分遮擋目標(biāo)也能夠有效召回。
圖4 本文方法與FairMOT的可視化結(jié)果對(duì)比Fig.4 The visualization results comparison between FairMOT and our method((a)FairMOT;(b)ours)
另外,將ReID特征提取位置偏移預(yù)測(cè)分支預(yù)測(cè)的偏移結(jié)果進(jìn)行可視化,如圖5所示。其中,綠色點(diǎn)為目標(biāo)檢測(cè)框中心,紅色點(diǎn)為預(yù)測(cè)的目標(biāo)ReID特征提取位置??梢园l(fā)現(xiàn),本文模型預(yù)測(cè)的檢測(cè)框中心位置加上偏移量后所處的位置大多落于目標(biāo)自身的像素上,而不是落在遮擋目標(biāo)上,該處提取的外觀信息能夠保留更多的當(dāng)前目標(biāo)信息,盡可能少地受到遮擋目標(biāo)信息的干擾。
圖5 目標(biāo)ReID特征提取位置偏移示意圖Fig.5 The visualization result of the ReID feature extraction position offsets
現(xiàn)有多目標(biāo)跟蹤方法存在ReID特征中心與目標(biāo)檢測(cè)框中心的空間不一致、鄰幀目標(biāo)中心響應(yīng)的時(shí)間不一致以及關(guān)聯(lián)相似度度量的訓(xùn)練測(cè)試不一致問(wèn)題?,F(xiàn)有方法大多利用更準(zhǔn)確的檢測(cè)器或更復(fù)雜的目標(biāo)關(guān)聯(lián)策略對(duì)多目標(biāo)跟蹤進(jìn)行改進(jìn),忽略了這些不一致問(wèn)題,導(dǎo)致目標(biāo)跟蹤過(guò)程中頻繁出現(xiàn)跟蹤丟失、身份跳變等現(xiàn)象。針對(duì)這些不一致問(wèn)題,本文提出了一致性多目標(biāo)跟蹤方法,在無(wú)錨框的目標(biāo)檢測(cè)和基于目標(biāo)ReID特征的目標(biāo)關(guān)聯(lián)組成的多目標(biāo)跟蹤框架上,使用目標(biāo)ReID特征中心偏移,在更能代表目標(biāo)外觀特征的位置提取ReID特征;使用幀間空間相關(guān)計(jì)算兩幀的空間偏移,利用可變卷積對(duì)歷史幀的目標(biāo)響應(yīng)進(jìn)行變換,得到一致性響應(yīng)信息增強(qiáng)到當(dāng)前幀的目標(biāo)熱圖上;在訓(xùn)練時(shí)為訓(xùn)練集中每個(gè)目標(biāo)軌跡設(shè)定一個(gè)特征模板,計(jì)算檢測(cè)目標(biāo)與所有特征模板之間的相似度損失。通過(guò)這3方面的改進(jìn),解決了多目標(biāo)跟蹤中的一致性問(wèn)題,在多個(gè)多目標(biāo)跟蹤數(shù)據(jù)集上取得了效果提升。
然而,在實(shí)驗(yàn)結(jié)果中也發(fā)現(xiàn)盡管采用了鄰幀目標(biāo)響應(yīng)一致性信息進(jìn)行增強(qiáng),但是依然存在一些目標(biāo)丟失或誤檢情況。原因在于只使用了前一幀的信息,沒(méi)有使用更多歷史信息對(duì)目標(biāo)的響應(yīng)進(jìn)行增強(qiáng)。同時(shí),目標(biāo)的關(guān)聯(lián)中盡管改進(jìn)了空間上的不一致性,但是ReID特征僅由單幀特征獲得,兩幀同一目標(biāo)的ReID特征也可能存在時(shí)間不一致。因此,下一步研究工作的重點(diǎn)有兩方面。一是融合歷史多幀的目標(biāo)響應(yīng)信息對(duì)當(dāng)前幀目標(biāo)的識(shí)別召回進(jìn)行增強(qiáng);二是在獲取ReID特征時(shí),使用歷史目標(biāo)的ReID特征對(duì)當(dāng)前幀目標(biāo)的ReID特征進(jìn)行一致性監(jiān)督學(xué)習(xí)或特征融合,實(shí)現(xiàn)ReID特征的時(shí)間一致性。