馬哲杰 王昱霖 李平
摘? 要: 目前主流的監(jiān)控視頻處理方式仍然是根據(jù)光照條件,單獨(dú)使用可見光或紅外光視頻。本文提出雙流全卷積孿生網(wǎng)絡(luò),旨在利用圖像融合技術(shù),將可見光與紅外光圖像各自的優(yōu)點(diǎn)互補(bǔ),輔助目標(biāo)檢測與追蹤。在特征提取模塊,構(gòu)建以DenseNet為主干的孿生神經(jīng)網(wǎng)絡(luò)。在特征融合與重構(gòu)階段,使用全卷神經(jīng)網(wǎng)絡(luò)構(gòu)造全局特征和模板特征。在目標(biāo)追蹤階段,對(duì)全局特征和模板特征進(jìn)行互相關(guān)操作,得到跟蹤結(jié)果。本文方法充分利用雙模態(tài)視頻的深度信息,有效解決極端天氣以及夜間光線不足造成的圖像采集模糊問題,增強(qiáng)追蹤模型在復(fù)雜情景下的魯棒性。
關(guān)鍵詞: 計(jì)算機(jī)視覺; 孿生神經(jīng)網(wǎng)絡(luò); 圖像融合; 目標(biāo)追蹤; 紅外圖像; 可見光圖像
中圖分類號(hào):TP399? ? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A? ? ?文章編號(hào):1006-8228(2023)06-96-07
All-weather tracking method based on infrared-visible image fusion
Ma Zhejie, Wang Yulin, Li Ping
(Department of Computer Science, Hangzhou Dianzi University, Hangzhou, Zhejiang 310018, China)
Abstract: The mainstream surveillance video processing is still using visible or infrared video alone. In this paper, a Two-Stream Fully Convolutional Siamese Network (TFSiamNet) is proposed to assist target detection and tracking. Firstly, in the feature extraction module, a Siamese network with DenseNet is constructed. Secondly, in the feature fusion and reconstruction stage, the fully convolutional layers are used to construct the global feature and template feature. Finally, in the tracking stage, the cross-correlation between the global feature and the template feature is carried out to get the tracking results. The proposed method makes full use of the depth information of the dual-mode video, effectively solves the problem of fuzzy image acquisition caused by extreme weather and insufficient light at night, and enhances the robustness of the tracking model under complex scenarios.
Key words: computer vision; Siamese network; image fusion; target tracking; infrared image; visible image
0 引言
隨著人工智能在我國高速發(fā)展以及監(jiān)控覆蓋率穩(wěn)步提升,計(jì)算機(jī)視覺在尋人、偵查等安防領(lǐng)域開始廣泛應(yīng)用。利用目標(biāo)追蹤與定位技術(shù)進(jìn)行智慧安防管理已逐漸成為一個(gè)熱門的研究領(lǐng)域。
目前,紅外傳感器在監(jiān)控設(shè)備中普遍應(yīng)用,使得監(jiān)控設(shè)備可以同時(shí)采集紅外圖像和可見光圖像組成的雙流數(shù)據(jù)。因此,目標(biāo)追蹤技術(shù)主要通過兩種方式獲取圖像數(shù)據(jù):利用紅外傳感器分辨溫度差異獲得紅外圖像;利用傳統(tǒng)光學(xué)成像原理獲得可見光圖像。紅外攝像頭基于其光線不敏感的特性,能在夜間和惡劣天氣下工作,但是當(dāng)目標(biāo)和背景溫度相似時(shí),往往會(huì)發(fā)生熱交叉效應(yīng),使得跟蹤算法難以從背景中發(fā)現(xiàn)目標(biāo);可見光攝像頭具有較高的分辨率,可以更好地展現(xiàn)局部細(xì)節(jié),但因其對(duì)光線的依賴性,使用場景較為局限。單獨(dú)使用其中的一種技術(shù),顯然都不能很好的滿足不同場景下目標(biāo)的檢測與跟蹤任務(wù)。
本文為了解決以上難點(diǎn),對(duì)可見光圖像和紅外圖像組成的雙流數(shù)據(jù)進(jìn)行特征級(jí)融合,使用可見光-紅外雙模態(tài)融合追蹤網(wǎng)絡(luò),實(shí)現(xiàn)在海量監(jiān)控視頻中對(duì)目標(biāo)人物的匹配與追蹤。該模型提取的目標(biāo)模板特征兼具紅外圖像和可見光圖像兩者的優(yōu)點(diǎn),有利于提高目標(biāo)匹配與定位的精度,克服大霧、暴雨、冰雹等極端惡劣天氣,以及夜間光線不足造成的圖像采集模糊問題,增強(qiáng)模型在復(fù)雜情景下的魯棒性。
1 研究現(xiàn)狀
1.1 目標(biāo)跟蹤
目標(biāo)跟蹤是根據(jù)時(shí)間順序在不同的視頻幀中找相同的目標(biāo)?,F(xiàn)實(shí)中由于目標(biāo)運(yùn)動(dòng)的機(jī)動(dòng)性高、隨機(jī)性強(qiáng)、自然因素干擾等問題,經(jīng)常使目標(biāo)跟蹤失敗。故如何使跟蹤算法具有更高的泛化能力和準(zhǔn)確率成為國內(nèi)外許多學(xué)者致力研究的課題。
2019年,Danelijan等人在[CVPR]上發(fā)表的新成果重疊最大化精確跟蹤(簡稱[ATOM][1])提出了一個(gè)新的目標(biāo)跟蹤框架,把目標(biāo)跟蹤劃分成目標(biāo)粗定位和目標(biāo)形狀估計(jì)兩個(gè)階段。同年,張志鵬教授和鵬厚文先生提出的新概念殘差單元[2]為孿生網(wǎng)絡(luò)的加深提供了可能。在[2020]年,德克薩斯奧斯汀分校和英特爾研究院[3]將基于點(diǎn)的跟蹤與檢測結(jié)合起來,提出一個(gè)基于點(diǎn)的聯(lián)合跟蹤與檢測框架——CenterTrack,每一個(gè)目標(biāo)都用其邊界框中心的一個(gè)點(diǎn)來表示,然后按時(shí)間順序跟蹤這個(gè)中心點(diǎn),該跟蹤器以端到端形式進(jìn)行訓(xùn)練且可微分。
縱觀近年來國內(nèi)外代表性的研究成果,孿生網(wǎng)絡(luò)以其在圖像匹配問題上的優(yōu)勢逐漸成為研究的熱點(diǎn)。相比傳統(tǒng)算法通過區(qū)域建議來更新矩形框,采用圖像匹配作為更新方式的孿生網(wǎng)絡(luò)在保持準(zhǔn)確率的同時(shí),由于輕量級(jí)的特點(diǎn)大大加快了跟蹤速度。
1.2 圖像融合
圖像融合是將多幅圖像中的信息整合成一幅圖像,為應(yīng)用提供更好的數(shù)據(jù)源的一項(xiàng)技術(shù)。近年來,該領(lǐng)域產(chǎn)生了許多優(yōu)秀算法。
[2019]年,Li等人[4]提出一種新的深度學(xué)習(xí)方法:紅外與可見光圖像融合的體系結(jié)構(gòu)。與傳統(tǒng)的卷積網(wǎng)絡(luò)不同,其編碼網(wǎng)絡(luò)結(jié)合了卷積層、融合層和密集塊,并設(shè)計(jì)了兩個(gè)融合層來融合這些特征。最后通過譯碼器對(duì)融合后的圖像進(jìn)行重構(gòu)。次年,Li等人[5]提出了一種新的紅外和可見光圖像融合方法,建立了基于巢穴連接的網(wǎng)絡(luò)和空間-通道注意模型?;谇短走B接的網(wǎng)絡(luò)可以在多尺度上保存輸入數(shù)據(jù)中的大量信息。
2021年,Zhu等人[6]提出了一種新的深度網(wǎng)絡(luò)結(jié)構(gòu),稱為質(zhì)量感知特征聚合網(wǎng)([FANet]),用于魯棒[RGBT]跟蹤。與現(xiàn)有的[RGBT]跟蹤器[7]不同,[FANet]在每個(gè)模態(tài)中聚集了層次深度特征,以處理由低光照、變形、背景雜波和遮擋引發(fā)的外觀顯著變化的挑戰(zhàn)。特別地,Zhu等人采用最大池化的操作將這些分層多分辨率的特征轉(zhuǎn)化為具有相同分辨率的統(tǒng)一空間,使用[1×1]卷積運(yùn)算壓縮特征維數(shù),實(shí)現(xiàn)更有效的分層特征聚合。為了模擬[RGB]和熱模態(tài)之間的相互作用,他們精心設(shè)計(jì)了一個(gè)自適應(yīng)聚合子網(wǎng)絡(luò),根據(jù)不同模態(tài)的可靠性對(duì)其特征進(jìn)行集成,從而能夠緩解低質(zhì)量源引入的噪聲效應(yīng)。
紅外和可見光圖像融合,能夠?qū)⒍嘣磮D像融合,提高了成像質(zhì)量,減少了冗余信息,廣泛應(yīng)用于各種成像設(shè)備,以提高機(jī)器的視覺能力。融合圖像中,對(duì)場景的準(zhǔn)確、可靠和互補(bǔ)的描述,使這些技術(shù)在各個(gè)領(lǐng)域得到了廣泛的應(yīng)用。
2 雙流全卷積孿生網(wǎng)絡(luò)模型
2.1 模型整體架構(gòu)
本文將圖像融合技術(shù)與目標(biāo)追蹤技術(shù)相結(jié)合,以孿生網(wǎng)絡(luò)為主體架構(gòu),選用改進(jìn)后的[DenseNet-121]網(wǎng)絡(luò)[8]模型作為骨干網(wǎng)絡(luò)來提取特征,然后使用全卷積神經(jīng)網(wǎng)絡(luò)分別對(duì)目標(biāo)模板特征和全局特征進(jìn)行特征的融合與重構(gòu),最后對(duì)融合模板特征和融合全局特征進(jìn)行互相關(guān)操作,得到目標(biāo)的位置和大小信息。整個(gè)模型的架構(gòu)如圖1所示。
首先對(duì)同幀同步的雙流視頻進(jìn)行幀采樣,再選取視頻幀序列的首幀圖片,手動(dòng)框選需要追蹤的目標(biāo),分別將目標(biāo)與當(dāng)前幀的可見光與紅外光圖像輸入雙流特征提取網(wǎng)絡(luò)。然后利用特征融合技術(shù)將兩類圖像的紅外與可見光特征融合為模板特征和全局特征。在獲取圖像有效的特征后,采用目標(biāo)檢測技術(shù),利用互相關(guān)操作將目標(biāo)模板特征與視頻幀序列特征逐一進(jìn)行運(yùn)算,輸出目標(biāo)中心位置及候選框的大小參數(shù),實(shí)現(xiàn)對(duì)于目標(biāo)的框選和定位。本文重點(diǎn)在圖像特征提取、圖像融合模塊和目標(biāo)追蹤與匹配模塊進(jìn)行了創(chuàng)新,將會(huì)在技術(shù)分析部分具體論述模塊結(jié)構(gòu)。
2.2 技術(shù)分析
2.2.1 特征提取網(wǎng)絡(luò)設(shè)計(jì)
目標(biāo)跟蹤的任務(wù)是,在視頻的每一幀中匹配和定位目標(biāo),因此在特征提取時(shí),需對(duì)第一幀圖像進(jìn)行目標(biāo)框選,得到待追蹤目標(biāo)的模板圖像,將視頻幀序列的當(dāng)前幀作為待搜索圖像,因?yàn)槲覀兲幚淼氖请p流視頻數(shù)據(jù),故以模板圖像和待搜索圖像均由一組同幀同步的紅外光和可見光圖像組成。特征提取網(wǎng)絡(luò)模型由孿生的可見光網(wǎng)絡(luò)和紅外光網(wǎng)絡(luò)構(gòu)成。我們以模板特征提取網(wǎng)絡(luò)為例進(jìn)行介紹,其內(nèi)部結(jié)構(gòu)由雙流異構(gòu)三維卷積層和改進(jìn)的[DenseNet-121]組成,具體結(jié)構(gòu)如圖2所示。
在特征提取之前,由于紅外光與可見光通道數(shù)存在差異,無法直接適應(yīng)相同結(jié)構(gòu)的網(wǎng)絡(luò),為了使后續(xù)的[DenseNet]網(wǎng)絡(luò)更好的進(jìn)行權(quán)值共享,本文設(shè)計(jì)了一組異構(gòu)的三維卷積核,分別對(duì)兩組圖像進(jìn)行初步的特征提取和通道合并。首先將兩個(gè)原始的模板圖像進(jìn)行尺寸縮放,轉(zhuǎn)化成[128×128×3]和[128×128×1]的標(biāo)準(zhǔn)大小,其中可見光圖像通道數(shù)為[3],紅外光圖像通道數(shù)為[1]。針對(duì)不同通道數(shù)的圖像,分別采用異構(gòu)的卷積核進(jìn)行卷積運(yùn)算,最后經(jīng)激活層和最大池化處理,得到初始模板特征。
將初始模板特征分別輸入改進(jìn)的[DensNet-121]網(wǎng)絡(luò)進(jìn)行深度特征的提取。在最后一個(gè)密集塊的輸出部分增加過渡層,進(jìn)行特征降維,可以有效過濾因密集連接產(chǎn)生的冗余信息,且有利于之后的特征融合與重構(gòu),最終輸出一組[4×4×512]的雙流模板特征。同理,針對(duì)全局圖像的特征提取,首先將兩個(gè)原始全局圖像縮放為[640×640×3]和[640×640×1]的標(biāo)準(zhǔn)大小,經(jīng)過類似的計(jì)算,最終輸出一組[20×20×512]的雙流全局特征。
本文使用[DenseNet]作為特征提取的骨干網(wǎng)絡(luò),相比[ResNet]具有更高的運(yùn)行效率,基于其密集連接的網(wǎng)絡(luò)結(jié)構(gòu),各層特征重復(fù)利用,使其參數(shù)存儲(chǔ)和計(jì)算的開銷更小。同時(shí),[Corinna Cortes]等人從理論上證明[9],類似于[DenseNet]的網(wǎng)絡(luò)結(jié)構(gòu)具有更小的泛化誤差界,因此,該網(wǎng)絡(luò)能較好地滿足融合跟蹤模型高精度、高實(shí)時(shí)性的需求。
2.2.2 特征融合與重構(gòu)
將經(jīng)過特征提取網(wǎng)絡(luò)出的模板特征和全局特征分別輸入特征融合模塊。將可見光全局特征與紅外光全局特征拼接,并生成融合全局特征,將可見光全局特征和紅外光全局特征經(jīng)過全卷積網(wǎng)絡(luò)進(jìn)行特征融合與重構(gòu),生成融合模板特征,并對(duì)通道進(jìn)行切割操作,生成五個(gè)維度相同的特征圖。
我們知道,紅外光圖像和可見光圖像分別反映出目標(biāo)、背景等不同方面的特征,因此在特征提取中應(yīng)針對(duì)紅外光圖像和可見光圖像分別設(shè)計(jì)不同的參數(shù)和權(quán)重,但對(duì)于同類型的模板圖像和全局圖像,因?yàn)槠浒奶卣黝悇e相似,為更好地保留和反映其相同的特征,同時(shí)提高模型的訓(xùn)練速度,我們使用孿生神經(jīng)網(wǎng)絡(luò)作為主體架構(gòu),分別設(shè)計(jì)紅外光特征提取網(wǎng)絡(luò)和可見光特征提取網(wǎng)絡(luò),兩個(gè)網(wǎng)絡(luò)內(nèi)部共享參數(shù)。最終將不同維度的模板特征和全局特征分別進(jìn)行融合與重構(gòu)操作,孿生網(wǎng)絡(luò)及特征的融合與重構(gòu)如圖3所示。
2.2.3 目標(biāo)追蹤
在目標(biāo)追蹤與匹配模塊,輸入是由目標(biāo)圖像重構(gòu)的融合模板特征張量和當(dāng)前幀圖像的融合全局特征張量。將待搜索幀的全局圖像劃分為[17×17]大小的網(wǎng)格,分別將[289]個(gè)網(wǎng)格與等分成五維的融合模板特征進(jìn)行互相關(guān)計(jì)算,輸出[17×17×5]的矩陣,矩陣第一維度為經(jīng)過[Softmax]計(jì)算后得出的當(dāng)前區(qū)域含有目標(biāo)圖像的概率,即全局響應(yīng)圖,后四維分別為在該區(qū)域內(nèi)預(yù)測的目標(biāo)中心點(diǎn)坐標(biāo)及預(yù)測框的寬和高。概率最大的方格即為目標(biāo)所在的區(qū)域,根據(jù)矩陣后四維的數(shù)據(jù)即可確定目標(biāo)的具體位置,該模塊具體流程如圖4所示。
2.3 算法流程設(shè)計(jì)
算法的輸入為兩組同幀同步的視頻幀序列,根據(jù)首幀給定的[Groundtruth],得到目標(biāo)模板圖像。經(jīng)過特征提取、融合重構(gòu)網(wǎng)絡(luò),得到融合模板特征和融合全局特征,將得到的五個(gè)相同維度的融合模板特征張量作為一組卷積核,與全局特征張量進(jìn)行互相關(guān)操作,從而得到一個(gè)五維的結(jié)果張量,檢索第一個(gè)維度中的最大響應(yīng)值,從而,定位目標(biāo)在全局圖像中的位置,然后根據(jù)該位置所對(duì)應(yīng)的預(yù)測框參數(shù),得到該幀圖像中的目標(biāo)位置。
3 模型實(shí)現(xiàn)
3.1 圖像融合網(wǎng)絡(luò)的實(shí)現(xiàn)
在模型迭代訓(xùn)練過程中,為了使融合生成的圖像更好地學(xué)習(xí)到紅外光圖像及可見光圖像各自的優(yōu)點(diǎn),本文設(shè)計(jì)融合重構(gòu)網(wǎng)絡(luò)的損失函數(shù)如下:
[Loss=λLSSIM+LTV]? ⑴
其中,[LSSIM]表示結(jié)構(gòu)相似度導(dǎo)致的損失值,[LTV]表示總變異度導(dǎo)致的損失值,由于計(jì)算得出的[LSSIM]與[LTV]在數(shù)量級(jí)上存在差異,故采取[λ]平衡兩者對(duì)損失函數(shù)的影響。
3.1.1 [LSSIM]損失函數(shù)
結(jié)構(gòu)相似度[SSIM]對(duì)于圖像的局部結(jié)構(gòu)變化的感知較為敏感,可作為區(qū)分圖像的重要依據(jù)。[SSIM]分別從亮度[(Luminance)]、結(jié)構(gòu)[(Structure)]和對(duì)比度[(Constrast)]三方面量化兩個(gè)圖像屬性的差異,取值范圍為0至1,數(shù)值越大,代表圖像越相似。用公式可具體表示為:
[SSIM(x,y)=l(x,y)α?s(x,y)β?c(x,y)γ]? ⑵
這里取[α、β、γ]的值均為1,并將原始公式進(jìn)行展開可得:
[SSIM(x,y)=2μxμy+C1μ2x+μ2y+C1×2σxσy+C2σ2x+σ2y+C2×σxy+C3σxσy+C3]? ⑶
其中,[μx、μy]表示圖像[x、y]的像素平均值,[σx、σy]表示圖像[x、y]的像素標(biāo)準(zhǔn)差,[σxy]表示圖像[x、y]之間的協(xié)方差,[C1、C2、C3]均為常數(shù)。取[C2=2C3]并將原式化簡:
[SSIM(x,y)=2μxμy+C1μ2x+μ2y+C1×2σxy+C2σ2x+σ2y+C2]? ⑷
由于本文的目標(biāo)是設(shè)計(jì)專門用于紅外和可見光圖像融合的損失函數(shù),在實(shí)際應(yīng)用中,因?yàn)楸O(jiān)控設(shè)備采集的圖像分辨率較低,局部的亮度差異不顯著,所以在這里忽略亮度的影響,取[l(x,y)]值為固定值[1],簡化后圖像[x、y]的結(jié)構(gòu)相似度可表示為:
[SSIM(x,y)=2σxy+C2σ2x+σ2y+C2]? ⑸
由于通常熱輻射信息越豐富則局部像素強(qiáng)度越大,當(dāng)我們?cè)趯?duì)行人進(jìn)行追蹤時(shí),趨于關(guān)注圖像中的熱目標(biāo),因此可以通過像素強(qiáng)度進(jìn)行測量。在訓(xùn)練過程中分別對(duì)可見光圖像、紅外光圖像進(jìn)行滑窗搜索,定義滑窗內(nèi)像素平均強(qiáng)度為:
[X(I|w)=1a?bi=1a?bPi]? ⑹
其中,[Pi]表示滑窗內(nèi)每一個(gè)像素點(diǎn)的大小,[a、b]分別表示滑窗的寬和高。
本文定義融合圖像的相似度評(píng)分為[S(I1,I2,IF|w)],紅外光圖像的像素平均強(qiáng)度為[X(I1|w)],可見光圖像的像素平均強(qiáng)度為[ X(I2|w) ],為使融合后的圖像具備更加豐富的熱輻射信息,融合圖像的相似度評(píng)分取像素值較高圖像的SSIM值,則相似度評(píng)分可具體表示為:
[SI1,I2,IF|w=SSIMI1,IF|wXI1|w>XI2|wSSIMI2,IF|wXI1|w≤ XI2|w]? ⑺
結(jié)合融合圖像的相似度評(píng)分,[LSSIM]可最終表示為:
[LSSIM=1-1Nw=1NS(I1,I2,IF|w)]? ⑻
3.1.2 [LTV]損失函數(shù)
總變異度[TV Loss]表示圖像的噪聲,使用[LTV]作為損失函數(shù)并使其數(shù)值不斷變小可使圖像變得平滑,[LTV]公式可表示為:
[LTV=i,j(||xi,j+1-xij||2+||xi+1,j-xij||2)β2]? ⑼
其中,[xi,j+1]、[xij]、[xi+1,j]分別表示不同位置的像素值。本文使用[I1(i,j)]表示紅外光圖像在[i,j]處的像素值,[IF(i,j)]可見光圖像在[i,j]處的像素值,[Δ(i,j)]表示兩者的距離:
[Δ(i,j)=I1(i,j)-IF(i,j)]? ⑽
為方便計(jì)算,本文取[β=2],將式⑽代入式⑼得到最終[LTV]計(jì)算公式為:
[LTV=ij([Δ(i,j+1)-Δ(i,j)]+[Δ(i+1,j)-Δ(i,j)])] ⑾
通過不斷減小[LTV]值可避免紅外光與可見光圖像之間像素值的突變,從而使生成的融合特征圖像更為平滑。
3.2 目標(biāo)跟蹤網(wǎng)絡(luò)的實(shí)現(xiàn)
迭代訓(xùn)練雙流全卷積孿生網(wǎng)絡(luò)模型,直至模型收斂,其中特征融合模塊的參數(shù)已預(yù)訓(xùn)練完成,設(shè)定損失函數(shù)如下:
[Loss(Y,m,n,q)]
[=1Ym=117n=117q=15log(1+exp(-yc(m,n,q)?yc(m,n,q)))] ⑿
利用隨機(jī)梯度下降算法優(yōu)化模型,通過反向梯度傳播更新模型參數(shù)直至損失不再顯著下降,其中,[Y]為模型最終輸出的[feature map],[yc]為[Y]中的值,[yc]為真實(shí)標(biāo)簽中的值,若目標(biāo)中心在[(m,n)]網(wǎng)格內(nèi),則[yc(m,n,1)]為[1],此時(shí)[yc(m,n,2),…,yc(m,n,5)]分別表示[bounding box]的位置和大小參數(shù)[dx,dy,dw,dh],否則[yc (m,n,1)]為0,此時(shí),[yc(m,n,2),…,yc(m,n,5)]無意義。
3.3 模型訓(xùn)練
針對(duì)圖像融合網(wǎng)絡(luò),本文設(shè)計(jì)了一個(gè)端到端的融合框架,其參數(shù)的訓(xùn)練在整個(gè)模型的訓(xùn)練之前。該體系結(jié)構(gòu)源自魯棒混合損失函數(shù),該函數(shù)由修正的結(jié)構(gòu)相似度損失([LSSIM])和總變異度損失([LTV])組成,可實(shí)現(xiàn)自適應(yīng)融合熱輻射和紋理細(xì)節(jié)并抑制噪聲干擾的無監(jiān)督學(xué)習(xí)過程。本文使用[TNO]圖像數(shù)據(jù)集[10]和[INO]視頻數(shù)據(jù)集[11]構(gòu)造[25]對(duì)不同場景下的可見光和紅外光圖像,對(duì)圖像進(jìn)行抽樣處理,得到[20000]個(gè)[128×128]的補(bǔ)丁,從而擴(kuò)充訓(xùn)練樣本,此處不需要進(jìn)行人工標(biāo)記,使用[ADAM]優(yōu)化器對(duì)損失函數(shù)進(jìn)行迭代優(yōu)化,設(shè)置學(xué)習(xí)率[α=10-4]。圖像融合模塊預(yù)訓(xùn)練完成后,對(duì)整個(gè)跟蹤模型進(jìn)行訓(xùn)練,共訓(xùn)練50個(gè)[epoch],每個(gè)[epoch]中包含50000對(duì)圖像,學(xué)習(xí)率在訓(xùn)練過程中從[10-2]至[10-5]逐漸減小。
本文設(shè)計(jì)的融合跟蹤網(wǎng)絡(luò)模型在華為云服務(wù)器上進(jìn)行搭建和訓(xùn)練,我們使用[PyTorch 1.6.0]和Cuda 10.2作為實(shí)驗(yàn)框架,選用顯卡Nvidia TESLA V100進(jìn)行訓(xùn)練和測試,其具有32GB顯存,可高速進(jìn)行數(shù)據(jù)計(jì)算和處理,實(shí)驗(yàn)所用CPU為Intel Xeon E5-2690 V4。
4 模型評(píng)估
4.1 評(píng)價(jià)指標(biāo)
本文使用平均重疊率(Average Overlap Rate,[AOR])以及[ROC]曲線下的面積(Area Under Curve,AUC)對(duì)提出的融合跟蹤器性能進(jìn)行測試。
計(jì)算每一幀[groundtrut]h和算法輸出[bounding box]的交并比[IoU],定義如下:
[IoUa,b=a∩ba∪b] ⒀
其中,[a]和[b]分別表示預(yù)測得到的[bounding box]以及[groundtruth]所對(duì)應(yīng)的框。對(duì)所有幀的交并比取平均值得到[AOR]。
根據(jù)公式⒀,計(jì)算交并比,當(dāng)大于某個(gè)閾值[ρ∈[0,1]]時(shí),認(rèn)定跟蹤成功,從而繪制[ROC]曲線,計(jì)算曲線與x,y軸的面積,得到[AUC]。
4.2 實(shí)驗(yàn)結(jié)果與分析
我們?cè)?7組紅外-可見光雙流視頻數(shù)據(jù)上測試了本文提出的模型與其他跟蹤模型的結(jié)果[13],具體見表1。比較實(shí)驗(yàn)結(jié)果可知,我們提出的[TFSiamNet]在各組數(shù)據(jù)上取得的[AUC]指標(biāo)均達(dá)到較優(yōu)的結(jié)果。其中在五組數(shù)據(jù)中優(yōu)于所有比較的跟蹤模型,此外,TFSiamNet在14組視頻中均排名前三。這證明了本文提出的模型在紅外-可見光雙流視頻融合跟蹤中的有效性。
5 結(jié)束語
本文提出了一種基于圖像融合與目標(biāo)跟蹤的融合跟蹤技術(shù),通過對(duì)可見光與紅外圖像深度特征的充分利用,輔助目標(biāo)跟蹤的決策。該模型以孿生網(wǎng)絡(luò)作為主體架構(gòu),利用全卷積網(wǎng)絡(luò)將紅外光特征與可見光特征進(jìn)行融合,通過端到端的深度融合框架實(shí)現(xiàn)無監(jiān)督學(xué)習(xí),自適應(yīng)的融合熱輻射特征和顏色、紋理等可見光特征并進(jìn)行重構(gòu),使生成的融合特征兼具兩者優(yōu)點(diǎn)。最后利用互相關(guān)操作在幀圖像中分區(qū)域匹配與定位目標(biāo),在保證較高精度的同時(shí)運(yùn)行速度快,能夠較好地滿足實(shí)時(shí)性需求。
本文方法能夠充分利用目前較為普及解決由于自然環(huán)境等客觀因素導(dǎo)致圖像不清晰、定位不準(zhǔn)確等問題。未來隨著社會(huì)的發(fā)展,將會(huì)對(duì)智慧安防系統(tǒng)在數(shù)據(jù)量、精度等方面提出更高的要求,需要系統(tǒng)進(jìn)一步降低人工的參與度并提升模型效率,以便應(yīng)對(duì)更大規(guī)模的數(shù)據(jù)和更加復(fù)雜的場景。因此目標(biāo)追蹤的研究需要進(jìn)一步深入,而融合追蹤將是一個(gè)很好的發(fā)展方向,具有廣闊的研究前景。
參考文獻(xiàn)(References):
[1] Danelljan M, Bhat G, Khan F S, et al. Atom: Accurate
Tracking by Overlap Maximization[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition,2019:4660-4669
[2] Zhang Z, Peng H. Deeper and Wider Siamese Networks
[3] for Real-Time Visual Tracking[C]//Proceedings of the
IEEE/CVF Conference on Computer Vision and Pattern Recognition,2019:4591-4600
[4] Zhou X, Koltun V, Kr?henbühl P. Tracking Objects as
Points[C]//European Conference on Computer Vision. Springer, Cham,2020:474-490
[5] Li H, Wu X J. DenseFuse: A Fusion Approach to Infrared
and Visible Images[J]. IEEE Transactions on Image Processing,2018,28(5):2614-2623
[6] Li H, Wu X J, Durrani T. NestFuse: An Infrared and Visible
Image Fusion Architecture Based on Nest Connection and Spatial/Channel Attention Models[J]. IEEE Transactions on Instrumentation and Measurement,2020,69(12):9645-9656
[7] Zhu Y, Li C, Tang J, et al. Quality-Aware Feature
Aggregation Network for Robust RGBT Tracking[J]. IEEE Transactions on Intelligent Vehicles,2020,6(1):121-130
[8] Li C, Liu L, Lu A, et al. Challenge-Aware RGBT Tracking
[C]. European Conference on Computer Vision. Springer, Cham,2020:222-237
[9] Huang G, Liu Z, Van Der Maaten L, et al. Densely
Connected Convolutional Networks[C]//Proceedings of the IEEE conference on computer vision and pattern recognition,2017:4700-4708
[10] Cortes C, Gonzalvo X, Kuznetsov V, et al. Adanet:
Adaptive structural learning of artificial neural networks[C]//International conference on machine learning. PMLR,2017:874-883
[11] Toet A. TNO Image Fusion Dataset(Version 2)[DB/OL].
(2022-10-15)[2022-11-18].https://doi.org/10.6084/m9.figshare.1008029.v2
[12] INO team. INO Videos Analytics Dataset[DB/OL].
[2022-11-18].https://www.ino.ca/en/videoanalytics-dataset/
[13] Zhang X, Ye P, Peng S, et al. SiamFT: An RGB-infrared
fusion tracking method via fully convolutional siamese networks[J]. IEEE Access,2019,7:122122-122133