昝珊珊,李 波
(遼寧工業(yè)大學(xué) 電子與信息工程學(xué)院,遼寧 錦州 121001)
近年來(lái),深度神經(jīng)網(wǎng)絡(luò)[1]為圖像檢測(cè)分類[2,3]、人臉檢測(cè)與識(shí)別[4]和語(yǔ)音識(shí)別[5]等實(shí)際應(yīng)用做出了巨大貢獻(xiàn).相比于傳統(tǒng)方式所提取的目標(biāo)特征信息,深度特征[6]擁有更豐富與完整的信息,具有較強(qiáng)的特征提取能力.深度神經(jīng)網(wǎng)絡(luò)推動(dòng)了視覺(jué)跟蹤技術(shù)的發(fā)展,為多目標(biāo)跟蹤提供了更廣闊的發(fā)展方向.因此,融合深度神經(jīng)網(wǎng)絡(luò)與目標(biāo)跟蹤方法可有效提升視覺(jué)多目標(biāo)的跟蹤性能.
在深度學(xué)習(xí)[7]飛速發(fā)展的今天,涌現(xiàn)出諸多性能優(yōu)越的深度神經(jīng)網(wǎng)絡(luò)模型.文獻(xiàn)[8]提出了R-CNN(Region-based Convolutional Neural Network)模型.文獻(xiàn)[9,10]分別討論了Fast R-CNN模型和Faster R-CNN模型.常見(jiàn)的網(wǎng)絡(luò)模型還有SSD(Single Shot Detector)模型[11]和YOLO(You Only Look Once)模型[12].文獻(xiàn)[13]提出了一種性能更優(yōu)的YOLOv2模型.隨后,Redmon等提出一種具有更多網(wǎng)絡(luò)層數(shù)的YOLOv3模型(1)https://arxiv.org/abs/1804.02767.通常,YOLOv2網(wǎng)絡(luò)基于貫序式結(jié)構(gòu),由卷積層與池化層組成,較YOLOv3網(wǎng)絡(luò)更容易實(shí)現(xiàn)和訓(xùn)練.因此,本文對(duì)YOLOv2網(wǎng)絡(luò)進(jìn)行改進(jìn),將其作為目標(biāo)檢測(cè)模型,充分利用特征信息以提高目標(biāo)跟蹤可靠性.
視覺(jué)的多目標(biāo)跟蹤方法主要包括SORT(Simple Online And Realtime Tracking)[14]方法和Deep-SORT(SORT with a Deep Association Metric)方法.SORT方法由標(biāo)準(zhǔn)卡爾曼濾波獲取目標(biāo)信息,通過(guò)評(píng)估跟蹤與檢測(cè)結(jié)果的重疊率完成目標(biāo)跟蹤.盡管該方法實(shí)時(shí)性較高,但只有當(dāng)目標(biāo)狀態(tài)估計(jì)偏差較小時(shí)才有較好的效果.于是,文獻(xiàn)[15]在SORT基礎(chǔ)上引入了神經(jīng)網(wǎng)絡(luò)模型用于目標(biāo)表觀匹配,提出了Deep-SORT多目標(biāo)跟蹤方法.但該方法在表觀匹配過(guò)程需要一定的時(shí)間.針對(duì)上述問(wèn)題,本文利用MobileNet網(wǎng)絡(luò)結(jié)構(gòu)(2)https://arxiv.org/abs/1704.04861中的深度可分離卷積重新構(gòu)造表觀匹配部分的特征提取網(wǎng)絡(luò),提取匹配部分的特征向量,以提高目標(biāo)跟蹤有效性.
綜合考慮目標(biāo)跟蹤系統(tǒng)對(duì)有效性和可靠性的需求,本文提出一種融合改進(jìn)YOLOv2網(wǎng)絡(luò)的視覺(jué)多目標(biāo)跟蹤方法.首先,利用改進(jìn)的深度學(xué)習(xí)網(wǎng)絡(luò)檢測(cè)視頻流的幀目標(biāo),提出改進(jìn)的并聯(lián)結(jié)構(gòu)YOLOv2網(wǎng)絡(luò).利用以Deep-SORT為核心的視覺(jué)多目標(biāo)跟蹤方法,推導(dǎo)修正目標(biāo)狀態(tài)變化率的數(shù)學(xué)體系,解決目標(biāo)遮擋的實(shí)際問(wèn)題.其次,采用基于馬氏距離的運(yùn)動(dòng)匹配和特征向量最小余弦相似度的表觀匹配的加權(quán)融合方法確定目標(biāo)位置,在表觀匹配部分采用了MobileNet深度可分離卷積.最后,由數(shù)據(jù)關(guān)聯(lián)結(jié)果將檢測(cè)位置作為目標(biāo)的位置信息,實(shí)現(xiàn)視覺(jué)多目標(biāo)跟蹤.本文結(jié)構(gòu)如下:第2節(jié)闡述了改進(jìn)YOLOv2網(wǎng)絡(luò)的結(jié)構(gòu)與原理;第3節(jié)推導(dǎo)出目標(biāo)遮擋情況下的狀態(tài)變化率修正策略;第4節(jié)論證了Deep-SORT方法與數(shù)據(jù)關(guān)聯(lián)過(guò)程;第5節(jié)驗(yàn)證了本文方法的綜合性能;最后,總結(jié)全文并給出了未來(lái)的研究與展望.
YOLOv2網(wǎng)絡(luò)去掉了YOLO網(wǎng)絡(luò)的全連接層與最后的池化層,利用19個(gè)卷積層和5個(gè)最大池化層搭建出特征提取網(wǎng)絡(luò),引入批量標(biāo)準(zhǔn)化處理,保證了穩(wěn)定訓(xùn)練與加速收斂.YOLOv2網(wǎng)絡(luò)的貫序式結(jié)構(gòu)將提取的特征信息直接作為分類器的輸入來(lái)獲取目標(biāo)的位置.然而,該網(wǎng)絡(luò)未能充分利用特征信息,在一定程度上制約著目標(biāo)跟蹤的可靠性.
改進(jìn)的并聯(lián)YOLOv2網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示.該結(jié)構(gòu)主要由卷積層、池化層和批量標(biāo)準(zhǔn)化層組成特征提取網(wǎng)絡(luò),將獲得的目標(biāo)特征信息復(fù)制為兩份:一份輸入到由卷積層和批量標(biāo)準(zhǔn)化層搭建的分類器;另一份輸入到由殘差塊搭建的判別器.這里,殘差塊將輸入的特征信息由卷積—?dú)埐詈瘮?shù)—卷積輸出,并將原始輸入加到輸出結(jié)果中;分類器對(duì)檢測(cè)目標(biāo)分類與關(guān)注,得出目標(biāo)的大致位置;判別器則對(duì)輸入的特征信息進(jìn)行判斷.融合判別器和分類器的輸出結(jié)果后,可進(jìn)行池化和歸一化指數(shù)操作.
利用YOLOv2網(wǎng)絡(luò)檢測(cè)目標(biāo)時(shí),將輸入原始圖像分割為S×S個(gè)網(wǎng)格,每個(gè)網(wǎng)格預(yù)測(cè)D個(gè)邊框,每個(gè)邊框再預(yù)測(cè)中心坐標(biāo)、長(zhǎng)寬和置信度.利用分類器對(duì)提取的特征展開(kāi)分類,由判別器進(jìn)行特征判斷,去除無(wú)用的邊框,獲得準(zhǔn)確的目標(biāo)檢測(cè)邊框.
注釋 1.改進(jìn)的并聯(lián)YOLOv2網(wǎng)絡(luò)不但完成了分類器與判別器的訓(xùn)練,還對(duì)特征信息實(shí)現(xiàn)了多路復(fù)用,在不顯著增加網(wǎng)絡(luò)參數(shù)前提下,簡(jiǎn)化了原有網(wǎng)絡(luò)模型結(jié)構(gòu).
基于線性遞推最小方差估計(jì)[16]的卡爾曼濾波[17]主要涵蓋狀態(tài)預(yù)測(cè)與狀態(tài)更新兩個(gè)重要步驟.
假定離散時(shí)間的線性狀態(tài)模型為:
Xt=AXt-1+qt
(1)
Zt=HXt+rt
(2)
式中,A為狀態(tài)轉(zhuǎn)移矩陣,狀態(tài)向量Xt滿足Xt~N(mt,Pt),mt和Pt分別為狀態(tài)的均值與協(xié)方差,qt為狀態(tài)噪聲且滿足qt~N(0,Qt),Qt為狀態(tài)噪聲方差.Zt為觀測(cè)向量,H為觀測(cè)矩陣,rt為觀測(cè)噪聲且滿足rt~N(0,Rt),Rt為觀測(cè)噪聲方差.
在t-1時(shí)刻,狀態(tài)預(yù)測(cè)值Xt|t-1和協(xié)方差預(yù)測(cè)值Pt|t-1為:
Xt|t-1=AXt-1|t-1
(3)
Pt|t-1=APt-1|t-1AT+Qt
(4)
在t時(shí)刻,狀態(tài)估計(jì)值Xt|t與卡爾曼增益Kt為:
Xt|t=Xt|t-1+Kt(Zt-HXt|t-1)
(5)
Kt=Pt|t-1HT(HPt|t-1HT+Rt)-1
(6)
系統(tǒng)的協(xié)方差可由式(7)更新:
Pt|t=(I-KtH)Pt|t-1
(7)
注釋 2.雖然卡爾曼濾波方法的速度很快,但應(yīng)用于目標(biāo)遮擋時(shí)的可靠性較低,性能需進(jìn)一步提高.
在視覺(jué)多目標(biāo)的跟蹤過(guò)程中,目標(biāo)遮擋情況較為常見(jiàn).此時(shí),遮擋目標(biāo)并未消失,依舊在檢測(cè)范圍內(nèi),這需要繼續(xù)對(duì)遮擋目標(biāo)的軌跡進(jìn)行預(yù)測(cè),提升其再次出現(xiàn)的跟蹤效果.本文采用的方法為:當(dāng)目標(biāo)被遮擋時(shí),調(diào)整遮擋目標(biāo)的狀態(tài)變化率來(lái)預(yù)估運(yùn)動(dòng)狀態(tài),并存儲(chǔ)預(yù)估的位置信息.當(dāng)下一幀視頻輸入時(shí),先判斷是否能檢測(cè)到該目標(biāo).若能,利用卡爾曼濾波跟蹤;否則,判斷遮擋幀數(shù)是否超過(guò)預(yù)設(shè)值.若超過(guò),則刪除該目標(biāo)軌跡;否則,繼續(xù)預(yù)測(cè)該目標(biāo)狀態(tài).
(8)
(9)
由式(9)計(jì)算遮擋目標(biāo)的狀態(tài)變化率,所得的僅是粗略結(jié)果.要獲取更可靠的目標(biāo)狀態(tài)信息,應(yīng)該考慮距遮擋時(shí)刻較近的目標(biāo)狀態(tài)變化率,通過(guò)修正式(9)中權(quán)重系數(shù)加以實(shí)現(xiàn).于是,將每項(xiàng)都乘不同的權(quán)重系數(shù)得出不同時(shí)刻遮擋目標(biāo)的狀態(tài)變化率,即將所選時(shí)長(zhǎng)N內(nèi)的目標(biāo)狀態(tài)變化率乘相應(yīng)的權(quán)重系數(shù)來(lái)代替式(9)中的權(quán)重系數(shù)1/N.利用系數(shù)加權(quán)法,選取權(quán)重系數(shù)γn使其滿足:
(10)
式中,δ(0<δ<1)為遺忘因子,由上式知,γn有如下性質(zhì):
(11)
(12)
(13)
(14)
將式(14)代入式(8),由于距離遮擋較近時(shí)刻的狀態(tài)變化率對(duì)遮擋目標(biāo)的狀態(tài)會(huì)產(chǎn)生影響,需增加相鄰時(shí)刻的權(quán)重系數(shù).根據(jù)修正后的目標(biāo)狀態(tài)變化率可實(shí)現(xiàn)遮擋時(shí)刻的目標(biāo)狀態(tài)估計(jì).最后,利用式(1)~式(7)所示的卡爾曼濾波完成視覺(jué)多目標(biāo)跟蹤.
當(dāng)改進(jìn)的YOLOv2網(wǎng)絡(luò)獲取第1幀目標(biāo)位置后,由卡爾曼濾波實(shí)現(xiàn)各目標(biāo)跟蹤,再對(duì)每幀視頻序列進(jìn)行檢測(cè),將卡爾曼濾波獲取的跟蹤信息和YOLOv2網(wǎng)絡(luò)獲取的檢測(cè)信息關(guān)聯(lián)匹配.一旦匹配成功,其檢測(cè)到的目標(biāo)位置即為此幀目標(biāo)跟蹤位置.
在關(guān)聯(lián)匹配階段,首先計(jì)算本文YOLOv2網(wǎng)絡(luò)得到的位置和卡爾曼濾波獲取目標(biāo)位置的馬氏距離[19]比,然后求取檢測(cè)框和跟蹤框?qū)?yīng)特征的最小余弦相似度,將上述兩個(gè)結(jié)果加權(quán)求和作為評(píng)價(jià)指標(biāo),評(píng)價(jià)檢測(cè)框和跟蹤框之間的匹配程度,成功匹配的位置邊框即為最優(yōu)的目標(biāo)位置輸出.
Deep-Sort方法可由馬氏距離來(lái)度量跟蹤位置與檢測(cè)位置之間的運(yùn)動(dòng)匹配程度.根據(jù)式(15)計(jì)算第j個(gè)目標(biāo)檢測(cè)邊框與第i個(gè)目標(biāo)跟蹤框之間的馬氏距離:
(15)
假定檢測(cè)時(shí)長(zhǎng)N內(nèi)的最大馬氏距離值為max{Mi,j},則當(dāng)前馬氏距離的歸一化值為:
(16)
由于目標(biāo)被遮擋后可能再次出現(xiàn)在檢測(cè)區(qū)域,Deep-SORT方法利用目標(biāo)特征信息度量第j個(gè)檢測(cè)邊框與第i個(gè)跟蹤邊框之間的匹配程度.同時(shí),輕量級(jí)卷積神經(jīng)網(wǎng)絡(luò)提取目標(biāo)特征的過(guò)程減少了網(wǎng)絡(luò)參數(shù)的使用.MobileNet網(wǎng)絡(luò)不再使用池化層,并將卷積操作分兩步:深度可分離卷積用于特征信息提??;逐點(diǎn)卷積則用于特征信息融合.上述操作有效降低了網(wǎng)絡(luò)計(jì)算量,對(duì)于一個(gè)尺寸為3×3的卷積核,可降低7~9倍的計(jì)算量.
在標(biāo)準(zhǔn)卷積操作中,卷積核的通道數(shù)與對(duì)應(yīng)特征圖的通道數(shù)相同.例如,輸入的特征圖為64×64×32,則標(biāo)準(zhǔn)卷積核的通道數(shù)為32.相比之下,在輕量級(jí)神經(jīng)網(wǎng)絡(luò)中的深度可分離卷積的通道數(shù)為1,逐點(diǎn)卷積的通道數(shù)與標(biāo)準(zhǔn)卷積相同.于是,利用深度可分離卷積提升網(wǎng)絡(luò)的運(yùn)算速度.
接下來(lái),求取檢測(cè)邊框與跟蹤邊框之間特征向量的余弦值[20]作為目標(biāo)表觀匹配部分的權(quán)衡指標(biāo).檢測(cè)邊框的特征向量αj和跟蹤邊框的特征向量βi的相似程度為:
(17)
若兩個(gè)向量之間夾角的余弦值越接近1,它們之間的差異就越小.因此,利用最小余弦相似度度量?jī)深愄卣飨蛄康牟町悾?/p>
(18)
最后,融合式(16)所述的運(yùn)動(dòng)匹配指標(biāo)和式(18)所述的表觀匹配指標(biāo),得到新的度量指標(biāo)Di,j:
(19)
式中,λ(0<λ<1)為加權(quán)系數(shù).因此,式(19)可用來(lái)衡量跟蹤邊框和檢測(cè)邊框的匹配程度.
綜上,融合改進(jìn)YOLOv2網(wǎng)絡(luò)的視覺(jué)多目標(biāo)跟蹤方法總結(jié)如下:
1)利用改進(jìn)的YOLOv2網(wǎng)絡(luò)獲取目標(biāo)的初始位置;
2)利用卡爾曼濾波跟蹤各目標(biāo),對(duì)每幀視頻序列進(jìn)行檢測(cè)和跟蹤,利用檢測(cè)信息更新卡爾曼濾波.如果目標(biāo)被遮擋,執(zhí)行步驟3);否則執(zhí)行步驟4);
3)當(dāng)目標(biāo)被遮擋時(shí),修正遮擋目標(biāo)的狀態(tài)變化率,獲取更精確的狀態(tài)信息;
4)計(jì)算改進(jìn)YOLOv2網(wǎng)絡(luò)和卡爾曼濾波所提供位置的馬氏距離,獲取運(yùn)動(dòng)匹配的評(píng)價(jià)指標(biāo);
5)計(jì)算檢測(cè)邊框與跟蹤邊框之間特征向量的最小余弦相似度,獲取表觀匹配的評(píng)價(jià)指標(biāo);
6)融合步驟4)和步驟5)得出的兩類評(píng)價(jià)指標(biāo),獲取新的評(píng)價(jià)指標(biāo);
7)當(dāng)檢測(cè)結(jié)果與跟蹤結(jié)果匹配時(shí),輸出檢測(cè)位置作為該時(shí)刻的目標(biāo)位置;
8)重復(fù)上述操作步驟,直到完成跟蹤任務(wù).
本文實(shí)驗(yàn)環(huán)境為Windows 10操作系統(tǒng),8G內(nèi)存,采用Python開(kāi)發(fā)環(huán)境下的Anaconda管理工具包和PyCharm編輯器.實(shí)驗(yàn)場(chǎng)景包括行人數(shù)據(jù)集跟蹤與實(shí)測(cè)車輛視頻跟蹤.其中,行人跟蹤的圖像采集速率為15幀/秒,幀尺寸為640像素×480像素;車輛跟蹤的圖像采集速率為25幀/秒,幀尺寸為1280像素×720像素.實(shí)驗(yàn)截取的圖像幀主要涵蓋關(guān)注目標(biāo)的出現(xiàn)區(qū)域.
本文實(shí)驗(yàn)δ取0.96,對(duì)調(diào)整系數(shù)λ的不同數(shù)值在MOT(The Multiple Object Tracking)數(shù)據(jù)集上進(jìn)行測(cè)試,實(shí)驗(yàn)結(jié)果如表1所示.其中,recall為檢測(cè)目標(biāo)數(shù)與真實(shí)目標(biāo)數(shù)的正確匹配比;precision為正確匹配的檢測(cè)目標(biāo)數(shù)與檢測(cè)目標(biāo)數(shù)之比.當(dāng)λ取0.1時(shí)的匹配效果更為理想.隨著訓(xùn)練次數(shù)的增加,本文改進(jìn)的YOLOv2網(wǎng)絡(luò)在準(zhǔn)確度和召回率方面均有所改善.當(dāng)網(wǎng)絡(luò)訓(xùn)練次數(shù)達(dá)到50000次時(shí),網(wǎng)絡(luò)準(zhǔn)確度和召回率變化幅度很小;當(dāng)訓(xùn)練次數(shù)達(dá)到70000次時(shí),本文YOLOv2網(wǎng)絡(luò)準(zhǔn)確度達(dá)到95%,召回率達(dá)到90%.
表1 調(diào)整系數(shù)的選取Table 1 Selection of adjustment coefficient
圖2是本文方法在跟蹤行人目標(biāo)時(shí)隨機(jī)截取的圖像幀.可以看出,該方法有效地跟蹤了視頻中的多目標(biāo),給出了準(zhǔn)確的目標(biāo)框與目標(biāo)編號(hào).
圖2 本文算法跟蹤行人的效果Fig.2 Effect of proposed algorithm that tracks pedestrians
接下來(lái),將本文方法與KCF(Kernel Correlation Filter)、MIL(Multiple Instance Learning)、GOTURN(Generic Object Tracking Using Regression Networks)和MOSSE(Minimum Output Sum of Squared Error filter)等常用方法進(jìn)行對(duì)比.圖3給出了目標(biāo)5在第67~99幀的中心位置與各類跟蹤方法獲取的中心位置.本文方法基于改進(jìn)YOLOv2網(wǎng)絡(luò)結(jié)構(gòu)充分利用特征信息,得到了更準(zhǔn)確的目標(biāo)位置區(qū)域.由匹配成功的檢測(cè)結(jié)果作為目標(biāo)位置輸出,其可靠性也進(jìn)一步提高.尤其,本文方法在大多數(shù)幀情況下比KCF方法和MOSSE方法更接近目標(biāo)的真實(shí)位置.
圖3 目標(biāo)5的中心位置估計(jì)Fig.3 Estimated center position of target 5
圖4進(jìn)一步給出了行人目標(biāo)遮擋時(shí)的跟蹤結(jié)果.場(chǎng)景1中目標(biāo)10即將被目標(biāo)9遮擋;場(chǎng)景2中目標(biāo)10完全被目標(biāo)9遮擋,但并沒(méi)有離開(kāi)檢測(cè)區(qū)域,需繼續(xù)預(yù)測(cè)其運(yùn)動(dòng)軌跡.本文對(duì)目標(biāo)10的狀態(tài)變化率進(jìn)行加權(quán)修正預(yù)測(cè)位置.當(dāng)場(chǎng)景3中的目標(biāo)10再次出現(xiàn)時(shí),由改進(jìn)的YOLOv2網(wǎng)絡(luò)獲取位置,通過(guò)數(shù)據(jù)關(guān)聯(lián)匹配確認(rèn)該目標(biāo)后繼續(xù)跟蹤.
圖4 行人被遮擋時(shí)跟蹤結(jié)果Fig.4 Tracking results of occluded pedestrians
表2給出了遮擋情況下目標(biāo)10的狀態(tài)修正結(jié)果.在第126幀無(wú)法獲取目標(biāo)10的檢測(cè)結(jié)果;目標(biāo)10在第145幀再次被檢測(cè);在第126~144幀均無(wú)法得到遮擋目標(biāo)的檢測(cè)信息,影響了目標(biāo)10再次出現(xiàn)時(shí)的跟蹤結(jié)果.在目標(biāo)遮擋期間,本文將修正遮擋目標(biāo)的狀態(tài)變化率,由修正后的目標(biāo)位置計(jì)算遮擋目標(biāo)10在x方向上的狀態(tài)變化率為0.5像素/幀,在y方向的狀態(tài)變化率為0.25像素/幀.當(dāng)它出現(xiàn)在視頻中,本文方法用檢測(cè)結(jié)果更新卡爾曼濾波模型.
表2 目標(biāo)10的狀態(tài)修正情況Table 2 State correction of target 10
表3對(duì)比了各類跟蹤方法在行人跟蹤實(shí)驗(yàn)中處理每幀圖像的平均運(yùn)算時(shí)間.可以看出,MOSSE方法的運(yùn)算時(shí)間最短.而本文方法融合了卡爾曼濾波與數(shù)據(jù)關(guān)聯(lián)步驟,較其KCF和MOSSE方法的運(yùn)算時(shí)間長(zhǎng),與MIL方法的運(yùn)算時(shí)間相近,可滿足常見(jiàn)視覺(jué)多目標(biāo)跟蹤的時(shí)間需求.
圖5給出了本文方法在遮擋情況下的車輛跟蹤結(jié)果.場(chǎng)景1中,本文方法由目標(biāo)檢測(cè)框與跟蹤框之間的運(yùn)動(dòng)匹配與特征相似度,獲取到目標(biāo)1與目標(biāo)2的準(zhǔn)確位置;場(chǎng)景2中,目標(biāo)2完全被目標(biāo)1遮擋,由修正后的目標(biāo)2狀態(tài)變化率估計(jì)目標(biāo)2的運(yùn)動(dòng)狀態(tài);場(chǎng)景3中,遮擋目標(biāo)再次出現(xiàn),根據(jù)運(yùn)動(dòng)匹配與特征相似度結(jié)果將其作為原目標(biāo)繼續(xù)跟蹤.
表3 平均運(yùn)算時(shí)間Table 3 Average computation time
圖5 車輛被遮擋跟蹤結(jié)果Fig.5 Tracking results of occluded vehicles
圖6對(duì)比了各類跟蹤方法對(duì)目標(biāo)1的中心位置估計(jì).可以看出,本文方法由改進(jìn)YOLOv2網(wǎng)絡(luò)結(jié)構(gòu)將判別器和分類器的結(jié)果融合后得到了準(zhǔn)確的目標(biāo)檢測(cè)位置.同時(shí),基于馬氏距離的運(yùn)動(dòng)匹配與特征向量最小余弦相似度的表觀匹配加權(quán)融合方法,較其他跟蹤方法可靠性有顯著提高.
圖6 目標(biāo)1的中心位置估計(jì)Fig.6 Estimated center position of target 1
遮擋期間的目標(biāo)2狀態(tài)修正結(jié)果如表4所示.當(dāng)目標(biāo)2被遮擋時(shí),由修正權(quán)重系數(shù)調(diào)整狀態(tài)變化率,并計(jì)算狀態(tài)信息.當(dāng)它再次出現(xiàn)時(shí),YOLOv2網(wǎng)絡(luò)獲取其檢測(cè)信息,進(jìn)而更新卡爾曼濾波模型.實(shí)驗(yàn)中的目標(biāo)2在第8幀被目標(biāo)1遮擋住,無(wú)法得出遮擋目標(biāo)的檢測(cè)信息,需利用狀態(tài)變化率修正方法獲取目標(biāo)位置;目標(biāo)2在第28幀再次被檢測(cè)到,將其作為原目標(biāo)跟蹤.因此,第8~27幀需要修正遮擋目標(biāo)的狀態(tài)變化率.表4給出了目標(biāo)2修正后的中心位置.可以看出,目標(biāo)2在x方向的狀態(tài)變化率為5像素/幀,在y方向的狀態(tài)變化率為0.1像素/幀.
表4 目標(biāo)2的狀態(tài)修正情況Table 4 State correction of target 2
表5 平均運(yùn)算時(shí)間Table 5 Average computation time
表5對(duì)比了各類常見(jiàn)方法在跟蹤車輛目標(biāo)實(shí)驗(yàn)中每幀圖像的平均運(yùn)算時(shí)間.其中,MOSSE方法的平均運(yùn)算時(shí)間最短,而KCF方法和GOTURN方法的時(shí)間居中.本文方法所需的時(shí)間比MIL方法更短.
本文提出了一種融合改進(jìn)YOLOv2網(wǎng)絡(luò)的視覺(jué)多目標(biāo)跟蹤方法.首先,利用改進(jìn)的YOLOv2網(wǎng)絡(luò)檢測(cè)每幀視頻中的目標(biāo).其次,通過(guò)修正遮擋目標(biāo)的狀態(tài)變化率解決目標(biāo)遮擋問(wèn)題.當(dāng)遮擋目標(biāo)再次出現(xiàn)時(shí),本文方法將該目標(biāo)作為原目標(biāo)并利用卡爾曼濾波進(jìn)行跟蹤.然后,通過(guò)運(yùn)動(dòng)匹配與表觀匹配加權(quán)融合的結(jié)果將檢測(cè)信息與跟蹤信息進(jìn)行關(guān)聯(lián)匹配.由于表觀匹配步驟需要一定時(shí)長(zhǎng),采用了深度可分離卷積重建特征提取網(wǎng)絡(luò),減少了計(jì)算量.最后,將匹配成功的檢測(cè)結(jié)果作為該幀的目標(biāo)位置輸出.實(shí)驗(yàn)證明,本文方法能提高視覺(jué)多目標(biāo)跟蹤的綜合性能.
本文方法改善了目標(biāo)遮擋時(shí)的跟蹤效果,但當(dāng)目標(biāo)特征發(fā)生突變時(shí)還需繼續(xù)完善,接下來(lái)將在目標(biāo)跟蹤步驟引入異類傳感器以提升復(fù)雜場(chǎng)景下的跟蹤性能.另一方面,本文方法在表觀匹配步驟花費(fèi)了一定的時(shí)長(zhǎng),接下來(lái)將從降低目標(biāo)特征維度方面提升實(shí)時(shí)跟蹤的有效性,使其更為廣泛地適用于各類視頻目標(biāo)跟蹤領(lǐng)域,如船舶動(dòng)態(tài)跟蹤及航行軌跡規(guī)劃等.