• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于Transformer和位置約束的端到端多目標追蹤算法

      2023-06-26 03:10:04雒江濤
      關(guān)鍵詞:參考點特征向量外觀

      吳 悅,雒江濤,張 攀,任 媛

      (1.重慶郵電大學(xué) 通信與信息工程學(xué)院,重慶 400065;2.重慶郵電大學(xué) 電子信息與網(wǎng)絡(luò)工程研究院,重慶 400065)

      0 引 言

      多目標追蹤(multi-object tracking,MOT)是計算機視覺領(lǐng)域的一項關(guān)鍵任務(wù),廣泛應(yīng)用于公共安全、動作識別、體育視頻分析、老年人護理和人機交互等領(lǐng)域。MOT的目的是檢測視頻中目標的軌跡,如車輛、動物和行人的軌跡等。一般來說,一個典型的MOT任務(wù)包括目標檢測和數(shù)據(jù)關(guān)聯(lián)兩個階段。目標檢測是為了檢測和定位對象,而數(shù)據(jù)關(guān)聯(lián)的目的是利用特征來關(guān)聯(lián)這些對象。由于特征的多樣性,如何為數(shù)據(jù)關(guān)聯(lián)提取更具代表性的特征對MOT系統(tǒng)來說是一個挑戰(zhàn)。

      最常用的特征是外觀特征。為了提取合適的外觀特征,有很多高精度但復(fù)雜的工作集中在采用重識別(re-identification,re-ID)網(wǎng)絡(luò)[1-4]學(xué)習(xí)外觀特征用于后期MOT任務(wù)中的目標關(guān)聯(lián)[5-9]。另一種更簡單的提取和利用外觀特征的方法是在一個聯(lián)合的網(wǎng)絡(luò)中共同學(xué)習(xí)檢測器分支和重識別分支[10-13]。根據(jù)文獻[11]所提出的工作,基于錨的檢測器[14-17]有多個相鄰的錨,只要它們檢測框的交并比(intersection over union,IoU)足夠大,就可能在re-ID分支中被估計為同一個ID,這為訓(xùn)練引入了嚴重的模糊性。因此,無錨檢測器[18-20]被引入作為聯(lián)合追蹤系統(tǒng)的檢測模塊。然而,這些在所謂的無錨方法中被提取的點依然可以被視為錨點。

      Transformer架構(gòu)[21]在計算機視覺中被引入,因其有能力并行處理序列數(shù)據(jù),并且可以處理更大的感受野。DETR[22]提出了一個無錨的端到端目標檢測系統(tǒng),文獻[23]提出了它的改進模型,稱為可變形-DETR(deformable-DETR),在目標檢測上得到了不錯的效果。Transtrack[24]和Trackformer[25]使用時間特征和目標查詢特征向量作為數(shù)據(jù)關(guān)聯(lián)的外觀特征,在MOT上取得了良好的效果。然而,查詢特征向量作為目標檢測器DETR的一個組成部分,原本任務(wù)只是學(xué)習(xí)不同類別(如,貓和狗)之間的不同特征,而無法學(xué)習(xí)到同一類別(如,人和人)內(nèi)的相似特征的差異度,因此用查詢特征向量來關(guān)聯(lián)對象會使ID切換(ID switch,IDS)更大。

      Transformer無法利用查詢特征向量直接代表目標的外觀特征,而額外地引入重識別網(wǎng)絡(luò)提取外觀特征又不能真正利用到無錨Transformer的優(yōu)勢,因此,本文提出了一個端到端的多目標追蹤系統(tǒng)(tracker Transformer,TKTR)。TKTR利用從目標查詢特征向量中學(xué)習(xí)到的參考點對目標進行空間位置約束,而不是利用目標查詢特征向量直接代表外觀特征或另外引入一個re-ID網(wǎng)絡(luò)得到外觀特征。首先,檢測模塊采用可生成參考點的可變形Transformer。與原來的可變形-Transformer相比,改進后的可變形Transformer在數(shù)據(jù)關(guān)聯(lián)模塊中為空間位置約束額外生成并輸出了二維參考點。其次,對于關(guān)聯(lián)模塊,參考點被用來識別目標的中心點,并利用中心點通過分類學(xué)習(xí)任務(wù)來約束目標的空間位置。然后,IoU被用來進一步約束候選目標間的距離。最后,根據(jù)每一幀得到的目標位置和對應(yīng)的ID,生成最終的目標軌跡。

      總的來看,本文提出的系統(tǒng)具有以下兩個特點。

      1)端到端的網(wǎng)絡(luò)結(jié)構(gòu)。本文將目標檢測器和特征提取器合并為一個統(tǒng)一的結(jié)構(gòu)。

      2)簡單但有效的空間位置約束。TKTR利用學(xué)習(xí)到的參考點去約束候選目標的空間位置,從而有效地完成追蹤任務(wù)。

      實驗結(jié)果證明,TKTR利用Transformer的查詢特征向量對目標進行位置約束,提高了追蹤精度。與其他先進方法相比,TKTR在多目標追蹤準確度(multi-object tracking accuracy,MOTA)指標上取得了有競爭力的結(jié)果。相較于其他利用目標查詢特征向量來直接表示外觀特征的模型來說,TKTR在ID切換的指標上有所降低。

      1 可生成參考點的可變形Transformer

      1.1 原始可變形Transformer

      原始可變形Transformer架構(gòu)[23]由N個編碼器和M個解碼器組成。其中,編碼器對輸入的圖像特征進行編碼以獲得編碼特征矩陣,解碼器則對編碼特征矩陣進行解碼以獲得解碼特征。將此兩項通過前饋網(wǎng)絡(luò)后,即能計算出目標的類別和檢測坐標。

      可變形注意力機制[23]被用來將全局特征圖轉(zhuǎn)化為只關(guān)注圖中稀疏而有意義的位置??勺冃巫⒁饬C制的具體過程可以寫為

      (1)

      1.2 可生成參考點的可變形Transformer

      與原始可變形Transformer相比,改進后的Transformer額外生成并輸出參考點,這些參考點在后續(xù)的數(shù)據(jù)關(guān)聯(lián)模塊中被用來約束目標的空間位置,如圖1所示。

      圖1 可生成參考點的deformable Transformer結(jié)構(gòu)Fig.1 Illustration of the improved deformable Transformer architecture

      查詢特征向量q經(jīng)過最后一層解碼器中的多尺度注意力以及多頭可變形注意力學(xué)習(xí)到了具有編碼特征意義的特征向量v,經(jīng)過多層感知機(multi-layer perceptron,MLP),從高維的隱層特征向量得到二維向量。然后,經(jīng)sigmoid激活函數(shù)生成代表目標檢測框中心的二維參考點(xr,yr)。即:

      (xr,yr)=sigmoid(MLP(v))

      (2)

      (2)式中:MLP代表由線性層和激活函數(shù)組成的多層感知機,并且查詢特征向量通過最后一層線性層即被降維到二維參考點。在后續(xù)的數(shù)據(jù)關(guān)聯(lián)中,利用標簽中的目標ID信息作為監(jiān)督信號進一步學(xué)習(xí)。

      2 基于位置約束的追蹤方法

      基于上述可生成參考點的可變形Transformer生成的參考點,本文設(shè)計了基于參考點和位置約束追蹤方法TKTR,包括3個子模塊:提取特征的骨干網(wǎng)絡(luò)模塊、采用可生成參考點的可變形-Transformer結(jié)構(gòu)的檢測模塊,以及通過位置約束和IoU匹配目標的數(shù)據(jù)關(guān)聯(lián)模塊。該模型的框架圖如圖2所示。

      圖2 TKTR結(jié)構(gòu)圖Fig.2 Architecture of TKTR

      2.1 骨干網(wǎng)絡(luò)模塊

      根據(jù)DETR[22],本文利用ResNet-50[26]作為骨干網(wǎng)絡(luò),來提取初步的圖像幀特征。為了進行多尺度檢測,在輸入骨干網(wǎng)絡(luò)前,應(yīng)針對圖像幀進行隨機尺度變換。因此,本文采用ResNet第3層到第5層的特征圖,并將第5層的特征經(jīng)過3×3卷積核的卷積運算,步長為2,從而通過特征金字塔獲得第4層的特征。即本文中的特征金字塔是由4層不同尺度的特征組成。

      特征金字塔中有4層不同尺度的特征,為了區(qū)分不同特征層中具有相同坐標的特征點,本文通過網(wǎng)絡(luò)學(xué)習(xí)一個線性的位置編碼。用P表示特征點在特征圖上的位置,d表示位置編碼的維度。多尺度特征點的位置編碼可以描述為

      (3)

      (3)式中:2i代表奇數(shù)維度,2i+1代表偶數(shù)維度;vLE(·)表示學(xué)習(xí)到的第l層的層級特征向量,通過該層級特征向量便能區(qū)分特征金字塔中不同特征層上同一位置的特征點;σ代表波長,值為10 000。

      2.2 可生成參考點的可變形Transformer檢測模塊

      檢測模塊利用1.2節(jié)提出的可生成參考點的可變形Transformer來檢測目標。在優(yōu)化網(wǎng)絡(luò)參數(shù)的過程中,檢測損失Ldet的計算式為

      Ldet=WbboxLbbox+WgIoULgIoU+WmaskLmask

      (4)

      (4)式中:Lbbox表示檢測檢測框損失;LgIoU表示廣義交并比(generalized intersection over union,GIoU)[27]損失;Lmask表示掩碼損失;Wbbox表示檢測框的系數(shù);WgIoU表示GIoU的系數(shù);Wmask表示掩碼的系數(shù)。

      檢測框損失Lbbox定義為

      (5)

      損失LgIoU的計算方法為

      (6)

      掩碼損失Lmask由焦點損失計算,得

      (7)

      2.3 基于位置約束的數(shù)據(jù)關(guān)聯(lián)模塊

      在基于檢測的追蹤算法中,檢測到每一幀的目標后,正確地將其與前一幀和后一幀進行關(guān)聯(lián),是數(shù)據(jù)關(guān)聯(lián)模塊的主要任務(wù)。本文利用位置約束和IOU來進行數(shù)據(jù)關(guān)聯(lián)。其中,位置約束將相鄰兩幀中具有相同ID的目標的參考點的距離盡可能縮小到最短。

      訓(xùn)練階段中,TKTR作為端到端的多目標追蹤系統(tǒng),由可生成參考點的可變形Transformer生成的參考點不僅在檢測模塊中利用損失函數(shù)進行學(xué)習(xí),更在數(shù)據(jù)關(guān)聯(lián)模塊中利用目標的真實ID進行訓(xùn)練,以此得到具有ID特征的參考點特征。具體而言,由于行人行走的速度較為緩慢,故本文假設(shè),兩幀之間的參考點越近,則兩個目標行人屬于同一個ID的可能性就越大。因此,在關(guān)聯(lián)模塊中,本文將ID分配問題轉(zhuǎn)換為ID分類任務(wù),即利用標簽中的ID號作為監(jiān)督信號,通過學(xué)習(xí)分類任務(wù),將參考點映射到唯一的ID上。ID的損失Lid可計算為

      (8)

      TKTR系統(tǒng)的總損失L為

      L=WdetLdet+WidLid

      (9)

      (9)式中:Ldet為檢測模塊損失;Lid為關(guān)聯(lián)模塊損失;Wdet和Wid表示檢測和關(guān)聯(lián)模塊的系數(shù)。

      在推理階段,由于缺乏ID標簽,本文沒有利用生成得到的ID直接作為目標的ID,而是利用具有位置約束的空間特征來關(guān)聯(lián)目標。通過由目標查詢特征向量學(xué)到的參考點之間的余弦相似度來衡量參考點距離,得到第一次匹配結(jié)果Mmatch1。Mmatch1表達式為

      Mmatch1=assign(cosθik)

      (10)

      (10)式中:i和k分別表示參考點在幀t和幀t+1的索引;θik表示參考點i和參考點k在映射到同一平面后的角度;assign(cosθ)表示利用匈牙利算法[28]通過余弦相似度分配對象。而后進一步利用相鄰幀中兩個目標檢測框的交并比進行第二次匹配來得到空間特征相似度最大的匹配結(jié)果。

      3 實驗及分析

      為了驗證本文所提方法的有效性,本節(jié)首先將在3.1中簡要介紹本文使用的數(shù)據(jù)集,然后在3.2中比較了本文所提方法與其他一些先進方法,最后在3.3中進行消融性研究。

      3.1 數(shù)據(jù)集與實驗細節(jié)

      本文利用CrowdHuman[29]和前二分之一的MOT17[30]訓(xùn)練集作為訓(xùn)練集。

      CrowdHuman包含15 000張圖像用于訓(xùn)練、4 370張圖像用于驗證以及5 000張圖像用于測試。共有47萬個人類實例,每張圖片有23個人。

      MOT17包含7個訓(xùn)練序列和7個測試序列。由于該數(shù)據(jù)集沒有提供官方的驗證集分割,所以本文將MOT17訓(xùn)練集分成兩部分:①用于訓(xùn)練;②用于驗證,以測試本文提出的TKTR模型。

      本文采用ResNet-50[26]作為主干。先使用CrowdHuman數(shù)據(jù)集進行預(yù)訓(xùn)練60輪,以學(xué)習(xí)密集的人物特征;再使用前二分之一的MOT17訓(xùn)練集進行25輪的訓(xùn)練。其中,注意力頭的數(shù)量設(shè)置為8,多層感知機的隱藏層數(shù)為1,前饋網(wǎng)絡(luò)由2層線性層以及Relu激活函數(shù)組成,學(xué)習(xí)率設(shè)置為1e-4,批量大小設(shè)置為4。

      本文利用MOT指標[31],包括多目標追蹤精度(multi-object tracking accuracy,MOTA)、IDF1以及IDS,來衡量追蹤性能。MOTA是評估檢測和追蹤整體性能的主要指標,計算公式為

      (11)

      (11)式中:t為幀的索引;NGTt為幀t中的真實檢測框的數(shù)量;NFNt和NFPt分別表示假陰性的數(shù)量和假陽性的數(shù)量;NIDSt表示ID切換次數(shù)。

      3.2 方法對比

      TKTR與各比較方法的細節(jié)如下。

      1)Transtrack[24]:是一個基于查詢-鍵值機制的追蹤方法,利用前后兩幀提取到的外觀特征來關(guān)聯(lián)目標。

      2)Trackformer[25]:基于Transformer提出了一個時域拓撲,以此在數(shù)據(jù)關(guān)聯(lián)時通過追蹤查詢特征向量分配ID號關(guān)聯(lián)目標。

      3)ArTIST-C[32]:引入了一個概率自回歸生成模型,通過直接測量小軌道自然運動的可能性來對小軌道建議進行評分。

      4)TraDes-base[33]:在Centertrack[34]基礎(chǔ)上增加了一個額外的頭部分支,預(yù)測用于數(shù)據(jù)關(guān)聯(lián)的追蹤偏移。

      5)CenterTrack[34]:是一個無錨追蹤方法,通過利用關(guān)鍵點估計來尋找中心點并回歸得到目標的屬性。

      6)TKTR:數(shù)據(jù)關(guān)聯(lián)時利用空間位置約束和IOU關(guān)聯(lián)目標。

      本文將所比較的方法分為兩組。第一組是基于Transformer的方法,包括Transtrack和Trackformer。第二組是最近的不含Transformer的方法,包括ArTIST-C、CenterTrack和TraDes-base。所有方法都使用CrowdHuamn以及前二分之一的MOT17訓(xùn)練集進行訓(xùn)練,并使用后二分之一的MOT17訓(xùn)練集進行驗證。實驗結(jié)果如表1—表2所示。

      表1 與基于Transformer方法的比較結(jié)果Tab.1 Comparing with SOTA with Transformer

      表2 與不含Transformer方法的比較結(jié)果Tab.2 Comparing with SOTA without Transformer

      由表1可見,TKTR在所有評價指標上都優(yōu)于基于Transformer的方法。與Transtrack相比,TRTR可以在MOTA指標上實現(xiàn)4.9%的提升,并且在ID切換上實現(xiàn)1.3%的提升;與Trackformer相比,TKTR在MOTA上有32.7%的提升,并且在IDF1上提高了15.1%。TKTR的優(yōu)越性在于利用了位置約束來約束ID候選區(qū)域的范圍,而非采用額外的re-ID模塊;Transtrack和Tranckformer主要采用相鄰幀的類間外觀特征,而非類內(nèi)外觀特征,使得同一類別(如行人)之間的差異并不顯著。

      由表2可見,與沒有Transformer的第二組相比,TKTR在MOTA方面優(yōu)勢明顯。與ArTIST-C相比,提升幅度可以達到約14.0%;與TraDes-base相比,提升幅度為5.2%;與CenterNet相比,提升幅度為3.2%。在IDF1和IDS方面,TKTR沒有比ArTIST-C和CenterTrack更好的性能。這是因為ArTIST-C和CenterTrack不僅利用了運動特征,還利用到外觀特征進行關(guān)聯(lián),而TKTR只是利用了位置約束。因此,當有嚴重的遮擋時,目標的ID可能會被錯誤地關(guān)聯(lián)起來,這導(dǎo)致ID切換不如其他使用re-ID網(wǎng)絡(luò)的方法。

      本文利用驗證集的7個片段案例來證明TKTR在不同場景下的適應(yīng)能力。圖3顯示了TKTR隨機在MOT17驗證集上選擇的結(jié)果可視化,每張圖左側(cè)的數(shù)字代表場景,每個物體由不同顏色檢測框和一個唯一的ID表示。其中,17-02、17-04為特別擁堵的場景,17-05和17-11為尺度變化較大的場景,17-10和17-13則為小尺度行人密集的場景。從17-05、17-02以及17-04可以看到,由于采用了位置約束,TKTR在擁擠的場景下表現(xiàn)良好。如17-02中,騎自行車的男孩在489幀中被檢測到,ID號為90,接著在第498幀丟失,而在第490幀又被準確地追蹤到,并且ID被關(guān)聯(lián)為90。多尺度特征金字塔使得TKTR能夠在追蹤多尺度目標時表現(xiàn)良好。17-05和17-11結(jié)果表明,該方法可以處理大尺度的變化;17-10和17-13的結(jié)果表明,方法同時可準確地追蹤小尺度的行人。

      圖3 MOT17驗證集上結(jié)果可視化Fig.3 Examples randomly selected on the MOT17 validation set

      3.3 消融實驗

      關(guān)于數(shù)據(jù)集的消融實驗結(jié)果如表3所示。由表3可見,由于CrowdHuman與MOT17的場景不同,僅使用CrowdHuman數(shù)據(jù)集進行訓(xùn)練,會使得檢測器無法自適應(yīng)場景,因此導(dǎo)致檢測精度最低,也就使得MOTA以及IDS結(jié)果較差,并且由于CrowdHuman缺乏ID的標注,無法利用ID標注進行訓(xùn)練,因此得到的有關(guān)追蹤的性能指標IDF1也較低。另一方面,由于CrowdHuman中行人較為密集,經(jīng)過CrowdHuman的預(yù)訓(xùn)練,MOTA相較于沒有預(yù)訓(xùn)練的方法有所提高,提高比例約為3.6%。

      表3 關(guān)于數(shù)據(jù)集的消融實驗Tab.3 Ablation study on datasets

      以3種方式來提取特征:能夠直接代表外觀特征的查詢特征向量、學(xué)習(xí)re-ID外觀特征向量的額外的re-ID網(wǎng)絡(luò)以及本文中使用代表目標中心點參考點的位置約束。其中,查詢特征向量是利用可變形-DETR中的查詢特征向量不經(jīng)過任何處理得到;額外的re-ID外觀特征向量是通過骨干網(wǎng)絡(luò)得到的特征圖經(jīng)過全連接層,并根據(jù)ID標簽作為監(jiān)督信號,利用(9)式學(xué)習(xí)得到。結(jié)果如表4所示。

      表4 關(guān)于特征提取方式的消融實驗Tab.4 Ablation study on extracting features

      由表4可見,DETR中的查詢特征向量只用于對不同的類進行分類和用來定位目標的檢測框,它只能在不同的類之間學(xué)習(xí)特征,而不能在同一類內(nèi)學(xué)習(xí)特征的差異。與查詢特征向量相比,參考點是由查詢特征向量產(chǎn)生的,它可以將同一目標的中心點約束在很短的距離內(nèi)。因此,使用位置約束作為關(guān)聯(lián)特征的結(jié)果要比直接使用查詢特征向量的效果好。由于CrowdHuman訓(xùn)練集沒有ID標注,而MOT17訓(xùn)練集中也只有二分之一的標注,因此re-ID網(wǎng)絡(luò)無法得到很好的訓(xùn)練,也就造成了提取到的特征無法代表目標的外觀特征,所以引入額外的re-ID層的方法結(jié)果最差。

      4 結(jié)束語

      MOT領(lǐng)域普遍采用重識別的方法來提取目標外觀特征以完成追蹤任務(wù),這實際上不是直接的追蹤方法,并且有錨的檢測器會為重識別網(wǎng)絡(luò)的訓(xùn)練帶來歧義。本文提出了一個僅采用可生成參考點的可變形Transformer結(jié)構(gòu)并基于空間位置約束即能完成追蹤任務(wù)的端到端多目標追蹤系統(tǒng)TKTR。實驗結(jié)果表明,TKTR在MOT17驗證集上可取得68.2%MOTA的效果。由于預(yù)訓(xùn)練網(wǎng)絡(luò)學(xué)習(xí)到的是類間特征,導(dǎo)致TKTR缺乏更深層次的類內(nèi)外觀特征,因此,后續(xù)工作將專注于利用Transformer提取類內(nèi)的外觀特征。

      猜你喜歡
      參考點特征向量外觀
      二年制職教本科線性代數(shù)課程的幾何化教學(xué)設(shè)計——以特征值和特征向量為例
      外觀動作自適應(yīng)目標跟蹤方法
      A Shopping Story to Remember
      克羅內(nèi)克積的特征向量
      不論外觀還是聲音,它都很美 Yamaha(雅馬哈)A-S3200合并功放
      FANUC數(shù)控系統(tǒng)機床一鍵回參考點的方法
      參考點對WiFi位置指紋算法的影響
      一類特殊矩陣特征向量的求法
      數(shù)控機床返回參考點故障維修
      方外觀遺跡舊照
      紫禁城(2017年6期)2017-08-07 09:22:52
      奈曼旗| 醴陵市| 金门县| 澎湖县| 尚志市| 上林县| 固安县| 清丰县| 榕江县| 武强县| 东丽区| 化州市| 拜城县| 洞头县| 仙桃市| 腾冲县| 收藏| 岳池县| 武山县| 万荣县| 方山县| 河津市| 铁岭市| 湖州市| 阜新市| 崇礼县| 枣强县| 炉霍县| 璧山县| 邵阳市| 舒城县| 宣城市| 沁阳市| 泽普县| 繁昌县| 桐梓县| 金堂县| 陆丰市| 通州区| 安徽省| 方正县|