摘 要 針對多目標(biāo)因相互交錯或被遮擋以及檢測目標(biāo)外觀外貌和背景顏色相近等現(xiàn)象 導(dǎo)致目標(biāo)跟蹤的漏檢 錯檢ID 分配紊亂等問題 提出了一種改進(jìn)YOLOv5 DeepSORT和 跟蹤算法 為加強網(wǎng)絡(luò)對全局上下文特征的提取能力 文章提出優(yōu)化DeepSORT 的特征提取網(wǎng)絡(luò)模型 并通過去掉1 層卷積層 增加4 層殘差層以及采用自適應(yīng)平均池化層和增加網(wǎng)絡(luò)的深度與寬度 對行人提取更加深層次的語義信息 最后 通過實驗驗證了DeepSORT 目標(biāo)跟蹤算法的優(yōu)越性 其能夠準(zhǔn)確地對目標(biāo)進(jìn)行跟蹤 具有一定的理論探索意義和實用價值
關(guān)鍵詞 多目標(biāo)跟蹤 行人識別
中圖法分類號 文獻(xiàn)標(biāo)識碼A
1 引言
隨著計算機視覺技術(shù)[1] 的高速發(fā)展,目標(biāo)檢測與跟蹤技術(shù)[2] 已經(jīng)應(yīng)用到各個領(lǐng)域中,如自動駕駛、智慧交通以及公共安全監(jiān)管等。目標(biāo)跟蹤算法可以分為2 大類,分別為單目標(biāo)跟蹤[3] 和多目標(biāo)跟蹤[4] 。單目標(biāo)跟蹤算法是在每張圖片中只跟蹤一個目標(biāo),而多目標(biāo)跟蹤算法則是連續(xù)跟蹤視頻或者圖像幀中的多個目標(biāo),多目標(biāo)跟蹤更多的是解決相似度計算和數(shù)據(jù)關(guān)聯(lián)的問題。2016 年,Redmon[5] 提出了一種One?Stage 方法,即YOLO 算法,其雖犧牲了檢測準(zhǔn)度和定位精度,但是檢測速度大幅提高,從而達(dá)到實時的目標(biāo)檢測要求。SORT 算法[6]( Simple Online andRealtime Tracking)是一個非常簡單實用的多目標(biāo)跟蹤算法。在SORT 算法中,僅僅通過IOU 來進(jìn)行匹配,雖然速度極快,但是存在大量身份ID 互換的現(xiàn)象。DeepSORT 算法[7] 在SORT 算法的基礎(chǔ)上引入了級聯(lián)匹配和匈牙利算法將目標(biāo)軌跡的預(yù)測框與檢測框進(jìn)行了數(shù)據(jù)關(guān)聯(lián)匹配。通過這個擴展,模型能夠更好地應(yīng)對目標(biāo)被長時間遮擋的情況,將ID switch 指標(biāo)降低了45%。但在實際場景中,面對行人目標(biāo)姿態(tài)變化、光照強度低、背景環(huán)境復(fù)雜,以及目標(biāo)間的軌跡交錯和遮擋等問題,仍然存在目標(biāo)漏檢、丟失跟蹤以及ID 易互換的現(xiàn)象。針對上述問題,本文提出改進(jìn)YOLOv5 和DeepSORT 算法。
2 YOLOv5 算法
Ultralytics 等提出的YOLOv5 模型的性能和檢測準(zhǔn)確度與YOLOv4 不相上下, 相較于YOLOv4,YOLOv5 的網(wǎng)絡(luò)結(jié)構(gòu)更加簡單,參數(shù)量也更少,其圖像自適應(yīng)縮放策略和錨框自適應(yīng)策略使YOLOv5 無論是訓(xùn)練、預(yù)測還是推理速度都明顯優(yōu)于YOLOv4。整個YOLOv5 網(wǎng)絡(luò)結(jié)構(gòu)分成4 部分,即Input,Backbone,Neck,Head。
(1)Input 輸入端。YOLOv5 繼承了YOLOv4 所使用的Mosaic 數(shù)據(jù)增強方式,豐富了檢測數(shù)據(jù)集,同時采用自定義不同長寬錨框的自適應(yīng)錨框機制,從而實現(xiàn)了既能增加數(shù)據(jù)集的復(fù)雜度,又能減少GPU 的內(nèi)存使用的目標(biāo)。
(2) Backbone 主干網(wǎng)絡(luò)。YOLOv5s 的Backbone網(wǎng)絡(luò)是1 個由CSPDarknet53 構(gòu)成的卷積神經(jīng)網(wǎng)絡(luò),它包含53 個卷積層,并使用了CSP(Cross?Stage PartialNetworks)模塊來加快訓(xùn)練和提高準(zhǔn)確性。
(3) Neck 頸部網(wǎng)絡(luò)。在YOLOv4 的Neck 結(jié)構(gòu)中,采用的都是普通的卷積操作,YOLOv5 的Neck 網(wǎng)絡(luò)使用了“ FPN + PAN” 結(jié)構(gòu), 且YOLOv5 借鑒了CSPnet 的設(shè)計思想,將YOLOv4 使用的CBL 模塊更換為CSP2 結(jié)構(gòu),從而保留更多特征信息,加強了網(wǎng)絡(luò)特征融合能力。
(4)Head 輸出端。Head 輸出端是YoLOv5 模型中最后一層卷積層,它的作用是將融合后的多尺度特征圖進(jìn)行分類和回歸預(yù)測,得到目標(biāo)的位置、類別和置信度等信息。
3 DeepSORT 算法改進(jìn)
DeepSORT 算法是在整個SORT 算法的基礎(chǔ)上進(jìn)行改進(jìn),其借鑒行人重識別領(lǐng)域的ReID 網(wǎng)絡(luò)結(jié)構(gòu),利用特征提取網(wǎng)絡(luò)與目標(biāo)檢測框中的特征,當(dāng)目標(biāo)因遮擋又重新出現(xiàn)后,可以利用特征提取網(wǎng)絡(luò)的前后特征對比,重新跟蹤目標(biāo),從而避免出現(xiàn)ID 互換現(xiàn)象。但在實測過程中發(fā)現(xiàn),DeepSORT 原始特征網(wǎng)絡(luò)在行人重疊時容易出現(xiàn)ID 互相切換的現(xiàn)象,以及造成目標(biāo)跟丟的情況。為解決此問題,重構(gòu)DeepSORT 外觀特征提取網(wǎng)絡(luò)模型,在不改變訓(xùn)練速度的基礎(chǔ)上,進(jìn)一步提升DeepSORT 外觀特征提取能力。改進(jìn)外觀特征提取網(wǎng)絡(luò)表如表1 所列。
4 實驗及結(jié)果分析
4.1 改進(jìn)特征提取網(wǎng)絡(luò)訓(xùn)練
本文使用Market?1501 數(shù)據(jù)集對改進(jìn)的行人重識別網(wǎng)絡(luò)進(jìn)行訓(xùn)練,將訓(xùn)練好的模型導(dǎo)出后用于后續(xù)的實驗,通過記錄每一次迭代的行人外觀模型訓(xùn)練結(jié)果的損失函數(shù)值及誤差值來驗證外觀模型的訓(xùn)練效果。特征提取網(wǎng)絡(luò)訓(xùn)練結(jié)果圖如圖1 所示。
從圖1 的Loss 以及Top1?Error 曲線變化可知前Epoch20,模型的損失值和Top1?Error 下降較為迅速,在Epoch20 之后,Loss 值和Top1?Error 錯誤率曲線逐漸平緩,當(dāng)模型迭代40 次時,訓(xùn)練集的Loss 值和Top1?Error 錯誤率趨近于2% ,驗證集的Loss 值和Top1?Error 錯誤率分別趨近52%和15%。在Epoch60時模型收斂,此時該模型能夠較好地提取更深層次的人體外觀特征信息。
4.2 多目標(biāo)跟蹤算法效果對比
目標(biāo)跟蹤算法選擇在MOT16 數(shù)據(jù)集上進(jìn)行測試,選擇MOT Challenge 指標(biāo)作為評分標(biāo)準(zhǔn),與其他幾種經(jīng)典跟蹤算法進(jìn)行對比實驗,并給出了相應(yīng)的實驗結(jié)果。目標(biāo)跟蹤算法實驗對比如表2 所列。
4.3 目標(biāo)跟蹤算法實驗示例分析
選擇MOT16?02 和MOT16?04 視頻對改進(jìn)模型進(jìn)行測試。MOT?16?02 視頻圖、MOT?16?04 視頻圖如圖2、圖3 所示。
從圖3 可以看出,該場景行人密集,光線陰暗,背景復(fù)雜,在MOT?16?02 視頻經(jīng)過人群短暫交錯后,在第403 幀和第469 幀中各行人的ID 信息仍保持不變;在MOT?16?04 視頻中Id 為1 的目標(biāo)男子在視頻從左往右走動時,經(jīng)過燈光的遮擋重新出現(xiàn),檢測到其ID 始終沒有發(fā)生改變,并且在Id 為73 的行人經(jīng)過人群密集處后,檢測到其ID 依舊為73。這表明該算法在光線較暗的情況下依舊能夠有效地跟蹤到行人目標(biāo),并保持他們的ID 值不變,不易發(fā)生ID 互換現(xiàn)象。
5 結(jié)束語
本文在YOLOv5 和DeepSORT 算法的基礎(chǔ)上進(jìn)行改進(jìn),提出結(jié)合GAM 注意力機制, 加強網(wǎng)絡(luò)對上下文的特征的提取能力,同時優(yōu)化DeepSORT 的外觀特征提取網(wǎng)絡(luò),將128 維提升至1 024 維和采用不同殘差神經(jīng)層加強對目標(biāo)外觀的提取。在保證精度的前提下,大幅減少行人因重疊導(dǎo)致身份互換現(xiàn)象,最終優(yōu)化后的模型在MOTA 上提高了0.729%,MOTP 提高了1.541%,IDSW 下降了130,足以證明該模型可以快速有效地實現(xiàn)行人識別與跟蹤,完成在復(fù)雜場景下的跟蹤任務(wù)。
參考文獻(xiàn):
[1] 方佳樂.計算機視覺技術(shù)在人工智能領(lǐng)域的應(yīng)用研究[J].中國高新科技,2021(20):40?41.
[2] 王曉燕,韓笑,王雪婷.圖像處理領(lǐng)域運動目標(biāo)跟蹤技術(shù)綜述[J].科學(xué)技術(shù)創(chuàng)新,2018(25):97?98.
[3] LU X,LI F,TANG J,et al. A new performance index formeasuring the effect of single target Tracking with Kalmanparticle filter[J].International Journal of Modern Physics C,2022,33(9):11?20.
[4] REDMON J,FARHADI A.YOLO9000:Better,Faster,Stronger[J].CoRR,2016:242?248.
[5] 馬琳琳,馬建新,韓佳芳,等.基于YOLOv5s 目標(biāo)檢測算法的研究[J].電腦知識與技術(shù),2021,17(23):100?103.
[6] BEWLEY A,ZONGYUAN G,RAMOS F,et al.Simple onlineand realtime Tracking [ C ] / / International Conference onImage Processing,2016:3464?3468.
[7] WOJKE N, BEWLEY A, PAULUS D. Simple Online andRealtime Tracking with a Deep Association Metric[J].IEEE,2017,21(2):3645?3649.
作者簡介:
黃振桂(1998—),碩士,研究方向:目標(biāo)檢測與跟蹤。