吳長(zhǎng)柯 陳虎 潘濤 黃菊 劉洪 張萍 吳志紅 蘇強(qiáng)
摘 要: 針對(duì)無(wú)人機(jī)檢測(cè)中存在的目標(biāo)較小、受背景環(huán)境影響大、以及多光譜特征難以深度融合等問(wèn)題,本文提出了針對(duì)無(wú)人機(jī)小目標(biāo)檢測(cè)的多尺度多光譜交互注意力融合目標(biāo)檢測(cè)模型. 首先,將骨干網(wǎng)絡(luò)設(shè)計(jì)為雙流網(wǎng)絡(luò),分別提取不同尺度紅外和可見(jiàn)光特征,并增加小目標(biāo)檢測(cè)層和BiFPN 級(jí)聯(lián)操作,提升對(duì)無(wú)人機(jī)小目標(biāo)特征的提取能力. 其次,創(chuàng)新性的設(shè)計(jì)了多光譜交互注意力融合模塊,在該融合模塊的指導(dǎo)下,網(wǎng)絡(luò)可以在不同尺度融合紅外和可見(jiàn)光模態(tài)的信息,使紅外和可見(jiàn)光的特征進(jìn)行深度聚合,發(fā)揮各自模態(tài)的優(yōu)勢(shì),指導(dǎo)開(kāi)展無(wú)人機(jī)小目標(biāo)檢測(cè). 實(shí)驗(yàn)結(jié)果表明,與最先進(jìn)的多光譜目標(biāo)檢測(cè)模型相比,本文提出的模型在FLIR、LLVIP 兩個(gè)公開(kāi)的多光譜目標(biāo)檢測(cè)數(shù)據(jù)集上都達(dá)到了優(yōu)越的性能,在構(gòu)建的多光譜無(wú)人機(jī)數(shù)據(jù)集上,本文提出的模型有效提升了無(wú)人機(jī)的檢測(cè)精度和魯棒性.
關(guān)鍵詞: 無(wú)人機(jī)檢測(cè); 小目標(biāo)檢測(cè); 多光譜交互注意力融合; 多尺度
中圖分類(lèi)號(hào): TP391 文獻(xiàn)標(biāo)志碼: A DOI: 10. 19907/j. 0490-6756. 2024. 032005
1 引言
近年來(lái),隨著無(wú)人機(jī)技術(shù)的發(fā)展,無(wú)人機(jī)在軍用和民用領(lǐng)域發(fā)揮著越來(lái)越重要的作用,帶來(lái)便利的同時(shí),如何監(jiān)管無(wú)人機(jī)也成為了一個(gè)巨大的挑戰(zhàn). 一方面,在民用領(lǐng)域,無(wú)人機(jī)的“黑飛”、“濫飛”問(wèn)題日益突出,不僅對(duì)公民隱私和財(cái)產(chǎn)安全造成了危害,更是對(duì)社會(huì)治安和人民生命安全帶來(lái)了十分巨大的威脅[1]. 另一方面,在軍用領(lǐng)域,無(wú)人機(jī)成為了現(xiàn)代戰(zhàn)爭(zhēng)的新型武器,在當(dāng)前爆發(fā)的俄烏沖突中,俄烏雙方大量使用無(wú)人機(jī)進(jìn)行偵察和打擊,對(duì)自殺式無(wú)人機(jī)的運(yùn)用更是屢見(jiàn)不鮮,對(duì)無(wú)人機(jī)的檢測(cè)是軍事領(lǐng)域反制無(wú)人機(jī)的重要手段.
然而無(wú)人機(jī)檢測(cè)領(lǐng)域仍存在許多問(wèn)題,制約著無(wú)人機(jī)檢測(cè)技術(shù)的發(fā)展. 首先是無(wú)人機(jī)具有體積較小、雷達(dá)截面小、低速的特點(diǎn),利用傳統(tǒng)的雷達(dá)設(shè)備很難探測(cè)和識(shí)別出無(wú)人機(jī)[2]. 隨著機(jī)器學(xué)習(xí)算法的發(fā)展和應(yīng)用,無(wú)人機(jī)識(shí)別有了新的手段,即通過(guò)可見(jiàn)光相機(jī)拍攝到無(wú)人機(jī)視頻或者照片,利用目標(biāo)檢測(cè)算法檢測(cè)出無(wú)人機(jī)目標(biāo). 但是在夜晚、霧天等光照條件較差或遮擋嚴(yán)重的環(huán)境下會(huì)受到很大的影響,容易造成無(wú)人機(jī)的漏檢問(wèn)題.
可見(jiàn)光和熱紅外圖像的交叉光譜融合已經(jīng)成為目標(biāo)檢測(cè)的研究熱點(diǎn)[3-10],因?yàn)槎嗄B(tài)信息直觀地被認(rèn)為是互補(bǔ)的[11]. 可見(jiàn)光圖像具有豐富的紋理細(xì)節(jié),而紅外圖像具有較強(qiáng)的穿透力,兩種圖像互補(bǔ)通常能夠提升目標(biāo)檢測(cè)的精度和魯棒性. 考慮到運(yùn)行的無(wú)人機(jī)目標(biāo)具有紅外熱輻射特性,將可見(jiàn)光與紅外探測(cè)兩種手段相結(jié)合開(kāi)展無(wú)人機(jī)檢測(cè)具有現(xiàn)實(shí)意義. 然而無(wú)人機(jī)目標(biāo)較小,特征較為單一,且兩個(gè)模態(tài)之間的特征差別較大,要深入融合無(wú)人機(jī)可見(jiàn)光和紅外圖像特征比較困難. 使用傳統(tǒng)特征相加或級(jí)聯(lián)等方式融合可見(jiàn)光與紅外特征,往往會(huì)出現(xiàn)較強(qiáng)特征覆蓋較弱特征的情況,容易造成無(wú)人機(jī)的多檢錯(cuò)檢問(wèn)題. 研究如何開(kāi)展可見(jiàn)光和紅外特征的深度融合,對(duì)指導(dǎo)提高無(wú)人機(jī)小目標(biāo)檢測(cè)性能和多光譜融合相關(guān)領(lǐng)域研究具有積極意義.
目前為止,無(wú)人機(jī)的檢測(cè)方法主要集中在圖像識(shí)別、音頻信號(hào)分析、頻譜探測(cè)以及雷達(dá)數(shù)據(jù)分析等方面. 最早的研究采用雷達(dá)信號(hào)分析來(lái)探測(cè)無(wú)人機(jī),再利用支持向量機(jī)進(jìn)行訓(xùn)練與分類(lèi)識(shí)別[12]. 機(jī)器學(xué)習(xí)和目標(biāo)檢測(cè)算法的發(fā)展讓無(wú)人機(jī)檢測(cè)有了新的手段,文獻(xiàn)[13]提出了一種基于隨機(jī)森林的無(wú)人機(jī)檢測(cè)方法,通過(guò)采集可見(jiàn)光下的圖像序列,使用混合高斯模型和聚類(lèi)檢測(cè)算法檢測(cè)圖像中的運(yùn)動(dòng)小目標(biāo),再使用隨機(jī)森林算法融合目標(biāo)的多種特征得到檢測(cè)目標(biāo). 文獻(xiàn)[14]提出了一種基于多隱含層深度神經(jīng)網(wǎng)絡(luò)的弱小無(wú)人機(jī)目標(biāo)檢測(cè)模型. 文獻(xiàn)[15,16]采用了改進(jìn)的YOLOv3模型,提高了無(wú)人機(jī)目標(biāo)檢測(cè)精度,但其采用的數(shù)據(jù)集都是基于可見(jiàn)光的,未考慮復(fù)雜環(huán)境的影響. 文獻(xiàn)[17]提出了使用可見(jiàn)光和紅外圖像融合開(kāi)展無(wú)人機(jī)目標(biāo)檢測(cè)的方法,但其在融合方式上只是使用簡(jiǎn)單的平均融合和級(jí)聯(lián)融合,未加入注意力機(jī)制,無(wú)法做到可見(jiàn)光和紅外模態(tài)特征的深度融合. 在多光譜融合目標(biāo)檢測(cè)領(lǐng)域,網(wǎng)絡(luò)性能的好壞通常取決于融合策略的設(shè)計(jì). 文獻(xiàn)[18]提出了一種新的循環(huán)融合和細(xì)化模塊,以改進(jìn)多光譜特征融合,同時(shí)考慮到特征的互補(bǔ)性和一致性平衡. 文獻(xiàn)[19]提出了引導(dǎo)注意力特征融合來(lái)指導(dǎo)紅外和可見(jiàn)光的融合過(guò)程. 文獻(xiàn)[20]使用Transformer 自注意力機(jī)制融合紅外和可見(jiàn)光圖像,能夠突出模態(tài)內(nèi)部的重要特征,但無(wú)法很好區(qū)分紅外和可見(jiàn)光的特征,難以學(xué)習(xí)模態(tài)之間的優(yōu)勢(shì).
本文研究的主要內(nèi)容是以深度學(xué)習(xí)為基礎(chǔ),通過(guò)改進(jìn)常見(jiàn)的目標(biāo)檢測(cè)算法YOLOv5,探索融合紅外和可見(jiàn)光兩個(gè)模態(tài)進(jìn)行檢測(cè)的可行性. 同時(shí)通過(guò)對(duì)交互注意力機(jī)制進(jìn)行研究,提出新穎高效的紅外和可見(jiàn)光融合模塊以及相應(yīng)的目標(biāo)檢測(cè)網(wǎng)絡(luò).