趙松璞,楊利萍,趙 昕,彭志遠,梁東興,梁洪軍
基于自適應注意力機制的紅外與可見光圖像目標檢測
趙松璞,楊利萍,趙 昕,彭志遠,梁東興,梁洪軍
(深圳市朗馳欣創(chuàng)科技股份有限公司成都分公司,四川 成都 610000)
針對紅外和可見光目標檢測方法存在的不足,將深度學習技術(shù)與多源目標檢測相結(jié)合,提出了一種基于自適應注意力機制的目標檢測方法。該方法首先以深度可分離卷積為核心構(gòu)建雙源特征提取結(jié)構(gòu),分別提取紅外和可見光目標特征。其次,為充分互補目標多模態(tài)信息,設計了自適應注意力機制,以數(shù)據(jù)驅(qū)動的方式加權(quán)融合紅外和可見光特征,保證特征充分融合的同時降低噪聲干擾。最后,針對多尺度目標檢測,將自適應注意力機制結(jié)合多尺度參數(shù)來提取并融合目標全局和局部特征,提升尺度不變性。通過實驗表明,所提方法相較于同類型目標檢測算法能夠準確高效地在復雜場景下實現(xiàn)目標識別和定位,并且在實際變電站設備檢測中,該方法也體現(xiàn)出更高的泛化性和魯棒性,可以有效輔助機器人完成目標檢測任務。
紅外與可見光;目標檢測;深度學習;自適應注意力機制
目標檢測技術(shù)是機器視覺方向重要研究課題之一,其核心任務是對圖像中所關(guān)注的目標進行識別,并標注出目標類別及位置[1]。現(xiàn)階段大多數(shù)目標檢測方法主要利用目標在單一波段上的成像作為輸入源,如紅外圖像或可見光圖像[2]。紅外圖像根據(jù)目標物體熱輻射能量進行成像,不依賴于其他光線,可以較好地應用于夜間、煙霧等環(huán)境,但圖像對比度較低、細節(jié)缺失嚴重[3];而可見光圖像利用目標反射的自然光進行成像,可以較好地獲取目標細節(jié)和紋理信息,但卻容易受到光照強弱、目標反射率等影響[4]??梢姡瑔我粋鞲衅鳙@取目標信息時存在一定局限,而隨著目標所處環(huán)境逐漸復雜化,其局限性也將不斷擴大,進而影響目標檢測效果[5]。因此,設計一種基于紅外和可見光的目標檢測方法,不僅可以豐富目標多模態(tài)特征,而且對目標檢測性能提升以及實際應用價值都有較大的促進作用。
目前,大多數(shù)基于紅外與可見光的目標檢測方法仍采用傳統(tǒng)圖像處理方法,如引導濾波結(jié)合最小加權(quán)二乘法[6]、SIFT結(jié)合BOW(Bag-of-Words)模型[7]、圖像低秩和顯著信息分解再加權(quán)融合[8]等。傳統(tǒng)方式通常在特定場景下檢測精度較高,但其泛化性較弱,并且對于復雜環(huán)境下的目標檢測效果較差。而隨著深度學習技術(shù)以及計算機性能的不斷突破,部分研究者開始逐漸將多源目標檢測與卷積神經(jīng)網(wǎng)絡相結(jié)合,并取得了較好的效果。Hui等[9]人針對紅外和可見光特征融合提出了一種新型深度學習結(jié)構(gòu),通過稠密編碼器豐富所提取的目標特征,再利用解碼器對特征進行直接相加融合,雖然提升了檢測精度,但稠密連接方式計算量較大,且融合方式比較粗糙。唐聰?shù)萚10]人通過在訓練好的可見光目標檢測網(wǎng)絡基礎上微調(diào)出紅外檢測網(wǎng)絡,間接共享目標特征,并結(jié)合紅外和可見光網(wǎng)絡結(jié)果實現(xiàn)目標檢測。該方式采用了兩個網(wǎng)絡實現(xiàn)檢測,在一定程度上互補了目標多模態(tài)特征,但檢測過程繁瑣,且對目標信息利用不夠充分。Ma等[11]人提出了一種顯著目標檢測方法,通過設計顯著目標模板來選擇性地提取并融合紅外熱目標特征和可見光紋理結(jié)構(gòu),實現(xiàn)關(guān)鍵目標識別檢測,但該方法只針對顯著目標檢測和關(guān)鍵點識別,對小目標識別效果較差,且容易受到高頻噪聲干擾。由此可見,現(xiàn)有紅外-可見光目標檢測方法在特征提取的有效性、特征融合充分性以及檢測方法的魯棒性和泛化性等方面仍有較大的提升空間。
針對上述紅外-可見光目標檢測方法存在的不足,本文在總結(jié)現(xiàn)有研究基礎上,提出了一種基于自適應注意力機制的紅外與可見光目標檢測方法。該方法以高效率的深度可分離卷積為基礎,分別構(gòu)建紅外和可見光特征提取網(wǎng)絡,提取目標多模態(tài)特征。其次,設計自適應注意力機制結(jié)構(gòu)(adaptive attention mechanisms, AAM),將提取的紅外和可見光特征以自主學習的方式加權(quán)融合,提升有效特征權(quán)重,并豐富目標特征信息。同時,為保證不同大小目標準確識別定位,將融合后的特征同樣以自適應注意力機制方式進行多尺度自主疊加,降低不同維度目標相互干擾,保障目標多尺度不變性。
所提自適應注意力機制的紅外-可見光目標檢測方法整體結(jié)構(gòu)如圖1所示,主要由雙源特征提取網(wǎng)絡、AAM特征融合以及多尺度檢測3部分組成。雙源特征提取網(wǎng)絡以深度可分離卷積為基本,結(jié)合池化、激活、殘差等操作,構(gòu)建成對的深層特征提取結(jié)構(gòu),分別提取目標紅外特征和可見光特征。AAM特征融合結(jié)構(gòu)采用自適應的通道和空間注意力機制來分別提升目標類別及定位特征權(quán)重,并以自主學習的方式將紅外和可見光特征進行融合,降低噪聲干擾。而多尺度檢測將不同層次的融合特征采樣至相同維度,并再次利用自適應注意力機制,使網(wǎng)絡自主選擇目標所處特征層,避免不同層次特征信息相互影響。整個網(wǎng)絡以深度可分離卷積保障了特征提取的高效性,并以自適應注意力機制提升了特征融合的有效性以及多尺度檢測的準確性。
圖1 紅外-可見光目標檢測整體架構(gòu)
特征提取是計算機視覺任務的關(guān)鍵,所提特征的優(yōu)劣直接決定了視覺任務的效果[12]。傳統(tǒng)的特征提取方法主要根據(jù)對目標呈現(xiàn)形態(tài)的認知進行建模,如Harris、SIFT(scale-invariant feature transform)、HOG(histogram of oriented gradients)、DMP(deformable parts model)等[13]。雖有較強的理論支撐,但調(diào)參過程復雜,且各個算法都針對具體應用,魯棒性和泛化性都較差。而基于深度學習的卷積神經(jīng)網(wǎng)絡作為當前主流的特征提取方法,采用數(shù)據(jù)驅(qū)動的方式提取特征,避免了人工特征建模的局限,且所提特征可以更好地對目標進行表示[14]。同時,隨著近幾年深度學習的深入,逐漸沉淀出了一批經(jīng)典的特征提取網(wǎng)絡,如DarkNet[15]、ResNet[16]、MobileNet[17]、AdderNet[18]等。為有效提取目標特征信息,本文借鑒了現(xiàn)有特征提取方法,構(gòu)建了適用于紅外-可見光目標檢測的輕量級特征提取網(wǎng)絡。
由于輸入源為紅外和可見光圖像,所提特征提取網(wǎng)絡采用對稱雙支路結(jié)構(gòu),如圖2(a)所示,其中,支路詳細結(jié)構(gòu)如表1所示。該結(jié)構(gòu)由初始化模塊(init)和多個卷積模塊(block)串聯(lián)堆疊組成,初始化模塊如圖2(b)所示,采用步長為2的3×3標準卷積、3×3深度可分離卷積以及2×2最大池化操作,以并行處理的方式從多個角度提取輸入圖像特征。該模塊主要是盡可能避免目標有效信息丟失的同時降低輸入圖像維度,并減少噪聲干擾。而block卷積模塊作為特征提取的關(guān)鍵部分,主要以深度可分離卷積為核心,結(jié)合激活函數(shù)、殘差結(jié)構(gòu)實現(xiàn)對目標由淺到深的提取特征,如圖2(c)所示。該模塊以深度可分離卷積代替標準卷積,并通過1×1的點卷積調(diào)整特征通道數(shù)量,有效降低了網(wǎng)絡參數(shù)量,保障了雙支路特征提取結(jié)構(gòu)的計算效率。盡管深度可分離卷積損失了部分特征,但雙支路結(jié)構(gòu)的特征互補特性有效彌補了該缺陷。同時,為緩解深層網(wǎng)絡訓練時梯度消失等問題,引入了殘差結(jié)構(gòu),并以LeakyReLU函數(shù)作為激活函數(shù),降低無效神經(jīng)元的產(chǎn)生,加速網(wǎng)絡收斂。其中,block模塊內(nèi)的卷積操作步長都為1,block塊最后一層步長為2,如圖2(c)虛線部分。
表1 特征提取支路
圖2 特征提取模塊
對于多源數(shù)據(jù)的計算機視覺任務,其關(guān)鍵在于信息融合,而特征融合是目前最為常見融合方式之一[19]?,F(xiàn)有的特征融合通常采用特征拼接、特征疊加等方式[20],這種無差別的融合方式在豐富信息的同時也引入了較多無效信息。因此,為提升特征融合的有效性,本文設計了自適應注意力機制的特征融合結(jié)構(gòu),通過數(shù)據(jù)驅(qū)動的方式自適應調(diào)整紅外和可見光特征融合權(quán)重,降低無效信息干擾,示意圖如圖3所示??紤]到過淺層特征中噪聲較多,網(wǎng)絡只選擇了block2~block5的特征進行融合,即=2,3,4,5。
圖3 AAM特征融合
融合結(jié)構(gòu)以block模塊的輸出作為輸入,先通過批量歸一化操作規(guī)范化紅外和可見光特征權(quán)重后,再利用自適應注意力機制將兩類特征進行融合。而自適應注意力機制又分為通道和空間兩個注意力模塊,通道注意力針對紅外和可見光的每個特征通道進行自適應加權(quán)融合,提升目標類別所屬特征通道的權(quán)重,計算方式如式(1)所示??臻g注意力則是針對通道注意力融合后的所有特征通道,對不同空間位置上的特征進行自適應加權(quán),提升目標所處位置權(quán)重,計算方式如式(2)所示。
式中:xV為可見光第個通道特征;xI為紅外第個通道特征;為可見光通道權(quán)重;為紅外通道權(quán)重;為紅外和可見光通道注意力融合輸出;為通道注意力融合后第(,)位置的特征;為特征圖(,)位置權(quán)重;s為空間注意力輸出。同時,各權(quán)重滿足,,?[0,1],且+=1,訓練時通過誤差反向傳播方式調(diào)整各參數(shù)權(quán)重,如式(3)(4)(5)所示。
式中:為訓練誤差;?為偏導計算。由上式可以看出,當通道注意力中的為0時,其對應可見光特征通道被認為是無效信息,不參與融合;反之,紅外特征類似。同理,當空間注意力中為0時,該位置被認為背景。由此可見,當網(wǎng)絡訓練時,通過誤差反向傳播自適應調(diào)整上述權(quán)重參數(shù),可以有效抑制噪聲的干燥。
特征提取實現(xiàn)了目標特征由淺到深的提取,特征融合豐富了各層次特征信息,而對于不同尺度目標的檢測,需要綜合多個層次的特征信息。常見的多尺度檢測結(jié)構(gòu)主要基于特征金字塔的方式[21]將深層和淺層特征逐層融合檢測,但文獻[22]研究發(fā)現(xiàn)不同尺度的目標通常集中在部分特征層,若將目標主要所在的特征層次與其他層次特征融合,反而會干擾對該尺度目標的檢測。因此,為緩解不同層次特征之間相互干擾問題,本文在自適應注意力機制基礎上調(diào)整輸入特征,將其應用于目標多尺度檢測結(jié)構(gòu)中,以自主選擇的方式實現(xiàn)各尺度目標檢測,檢測結(jié)構(gòu)如圖4所示。
圖4 AAM多尺度檢測
該結(jié)構(gòu)以紅外和可見光融合后的特征作為輸入,而不同block融合后的特征層維度不同,需要分別將其他層的特征上采樣或下采樣至當前特征維度,再利用自適應注意力機制進行特征加權(quán),最后,根據(jù)加權(quán)融合后的多尺度特征進行檢測。檢測部分綜合考慮網(wǎng)絡精度與效率后采用YOLO[15]單階段檢測結(jié)合非極大值抑制算法(non-maximum suppression, NMS)實現(xiàn)最終目標定位識別。多尺度特征自適應注意力加權(quán)融合計算公式如式(6)(7)所示:
為驗證所提結(jié)構(gòu)的可行性和實用性,本文利用不同性能的測試平臺配合多個場景下的數(shù)據(jù)集進行實驗。為方便與同類型網(wǎng)絡對比,實驗利用tensorflow深度學習框架搭建所提網(wǎng)絡,訓練時的超參數(shù)以及相關(guān)策略借鑒文獻[14-15]進行設置,如表2所示。
表2 網(wǎng)絡訓練超參及策略
對于網(wǎng)絡性能評估主要依據(jù)檢測精度和計算效率兩個指標,精度采用目標檢測網(wǎng)絡最常用的評估指標——均值平均精度(mAP,mean average precision)來衡量,如式(10)所示。同時,為衡量不同尺度目標效果,將圖像中目標包圍框以像素面積322和962分為小中大3個尺度,利用mAPs、mAPm、mAPl分別進行衡量。而效率則通過計算網(wǎng)絡每秒處理的圖像數(shù)量來衡量,如式(11)所示。
式中:為目標類別;AP表示類別目標平均檢測精度;為目標類別總數(shù);表示訓練樣本數(shù)量;T表示處理第張圖像時間消耗。
為驗證所提方法各個模塊的可行性,實驗采用了RGBT210[23]公開標準數(shù)據(jù)集,在搭載NVIDIA TITAN Xp的主機上進行測試。該數(shù)據(jù)集涵蓋了不同天氣、光照、時間段下的二十多類目標,約二十萬張紅外-可見光圖像對,但圖像多取自連續(xù)視頻幀,重復性較高。為避免重復圖像影響網(wǎng)絡訓練效果,從數(shù)據(jù)集中選擇了一萬張低重復率的圖像,共10類目標,并統(tǒng)一圖像尺寸為512×448后進行訓練測試。
實驗利用控制變量法來分別測試各個模塊,首先測試了所提單源網(wǎng)絡的有效性,即只利用可見光圖像對單個特征提取支路進行訓練測試,并與當前主流的目標檢測網(wǎng)絡進行對比。其中,3個網(wǎng)絡的檢測部分都采用金字塔結(jié)構(gòu),結(jié)果如表3所示。
表3 單源網(wǎng)絡測試對比
由表3可以看出,為保證整體目標檢測網(wǎng)絡計算效率,所提單源特征提取結(jié)構(gòu)盡可能提升了網(wǎng)絡效率,與同類網(wǎng)絡相比效率達到了最高,但不可避免損失了部分特征,使檢測精度較低。為豐富目標特征信息,引入了雙源網(wǎng)絡結(jié)構(gòu),針對雙源網(wǎng)絡結(jié)構(gòu)的特征互補性,本文分別對比了紅外、可見光單分支以及不同融合結(jié)構(gòu)的雙分支網(wǎng)絡。同理,為避免其他因素影響,檢測部分也都采用金字塔結(jié)構(gòu)。實驗結(jié)果如表4和圖5所示。
表4 雙源特征融合測試對比
根據(jù)表4和圖5結(jié)果可以看出,雙支路方式可以更好地互補目標特征信息,對比不同的注意力融合機制,由于SE只利用了通道特征,故檢測精度提升有限;CBAM方式雖同時關(guān)注了通道和空間位置特征,但增強特征的同時也引入了較多噪聲,如圖5第二排中將柱子誤識別成行人。而所提AAM特征融合方式以自適應的方式可以更好地屏蔽無效信息干擾,進而保障目標檢測效果。為進一步提升所提自適應注意力機制說服力,實驗可視化了block 3輸出特征在不同融合方式下的結(jié)果。為方便觀測,選擇了相對簡單的場景,如圖6所示。
圖5 單源與雙源網(wǎng)絡檢測結(jié)果對比
圖6 Block3特征融合結(jié)果對比
根據(jù)可視化結(jié)果可以看出,SE和CBAM注意力融合的方式雖然也增強了目標特征,但也引入了其他噪聲。而自適應注意力機制則有效地降低了噪聲的干擾,進而提升了檢測精度。而對于多尺度檢測結(jié)構(gòu)則是從目標大小維度方面進一步提升檢測效果,為驗證該結(jié)構(gòu)的有效性,實驗分別對比了所提結(jié)構(gòu)與金字塔結(jié)構(gòu)的多尺度目測檢測效果以及block 3檢測層的可視化效果,實驗結(jié)果如表5和圖7所示。其中block 2融合層指紅外和可見光block 2特征層AAM融合后的特征。
根據(jù)表5結(jié)果可見,所提自適應注意力機制的多尺度檢測結(jié)構(gòu)對于不同尺度目標都有一定提升,其中,在小目標的識別精度方面提升較大。同時,根據(jù)特征對比結(jié)果可以看出,在金字塔結(jié)構(gòu)的深層與淺層信息融合過程中,淺層的特征在深層特征影響下變的相對模糊,而淺層多為小目標特征,由此可推斷出小目標受其他層影響較大,而所提結(jié)構(gòu)則較好地降低了其他層的干擾。
表5 多尺度結(jié)構(gòu)對比
綜上數(shù)據(jù)結(jié)果有效驗證了各模塊的可行性,而對于整個目標檢測網(wǎng)絡可行性驗證,實驗將所提方法與同類型紅外和可見光目標檢測方法進行對比,結(jié)果如表6所示。
圖7 多尺度融合結(jié)果對比
表6 同類方法測試對比
為進一步驗證所提方法的魯棒性,實驗利用KAIST行人數(shù)據(jù)集進行測試。該數(shù)據(jù)集主要為白天和夜晚不同場景下紅外可見光圖像對,共包含person、people和cyclist三類目標。由于數(shù)據(jù)集來源于連續(xù)的視頻幀,且cyclist類別目標較難辨認,故實驗只從中篩選出約7000張重復率較低的圖像,并將cyclist類別都轉(zhuǎn)為person類別,歸一化圖像尺寸為512×448后,以7:3比例構(gòu)建訓練測試集進行實驗,實驗結(jié)果如表7所示。所提方法在RGBT210和KAIST數(shù)據(jù)集上的目標檢測效果如圖8所示。
表7 KAIST數(shù)據(jù)集測試對比
圖8 紅外-可見光網(wǎng)絡檢測效果對比(前三排:RGBT210;后兩排:KAIST)
通過上述實驗結(jié)果可以看出,與傳統(tǒng)圖像處理方法[6]相比,所提方法檢測精度大幅提升,但深層神經(jīng)網(wǎng)絡的大量數(shù)據(jù)計算也使得檢測效率相對較低。與基于目標檢測結(jié)果融合的深度學習方法[10]相比,所提方法在特征層面融合,可以更好地對不同模態(tài)的目標信息進行互補,進而精度也相對更高。而對于同類型基于特征融合的檢測方法[24],所提自適應注意力機制增強噪聲抑制和多尺度自主特征選擇,使網(wǎng)絡在小尺度目標檢測中效果更佳。同時,根據(jù)圖8也可以看出,本文所提方法可以較好應用于不同場景,并且在目標遮擋、目標較小、光線變化等復雜場景中也體現(xiàn)出更優(yōu)的檢測效果。
通過標準數(shù)據(jù)集有效驗證了所提方法的可行性,為進一步驗證在現(xiàn)實場景中的實用性,實驗將該網(wǎng)絡應用于變電站巡檢機器人中,測試其對變電站設備的檢測效果。巡檢機器人主要搭載Jetson Xavier NX邊緣AI計算平臺,通過機器人自帶相機采集了6類設備的紅外及可見光圖像對約5000張,圖像大小為512×448,使用LabelImg工具進行標注后對所提網(wǎng)絡和同類型方法進行訓練測試,結(jié)果如表8和圖9所示。
表8 變電站設備檢測測試對比
根據(jù)上述實驗結(jié)果可以看出,由于機器人平臺計算性能相對較低,同時,實際場景數(shù)據(jù)集在目標種類以及場景復雜度上都低于標準數(shù)據(jù)集,因此,各方法計算效率等比例下降,但檢測精度都有較大提升。對于實際變電站設備檢測場景中,所提方法與同類方法相比仍保持最優(yōu)的檢測效果,有效驗證了該方法的可移植性和泛化性。同時,由圖9結(jié)果也可看出,對于背景簡單、目標尺度中等的場景,各方法檢測效果都較佳,但對于復雜背景且目標過大或過小時,所提方法則體現(xiàn)出更優(yōu)的性能。
本文針對紅外和可見光圖像目標檢測問題,提出了一種基于自適應注意力機制的目標檢測方法。通過深度可分離卷積構(gòu)建紅外和可見光雙支路特征提取網(wǎng)絡,提取目標多模態(tài)特征;其次,設計自適應注意力機制將對應維度的紅外和可見光特征進行融合,從特征通道以及空間位置兩個角度提升有效特征的顯著性。同時,針對多尺度目標,將自適應注意力機制應用于自主選擇目標所處特征層,降低其他尺度特征的影響。通過實驗表明,所提方法有效互補了紅外和可見光特征,提升了目標多尺度識別效果,并抑制了無效特征的干擾。在標準數(shù)據(jù)集和實際變電站設備檢測中,該方法都更優(yōu)于同類目標檢測算法,可以較好地落地實際應用。盡管所提方法在效率上未達到最高,但基本滿足巡檢機器人實時檢測的需求,后續(xù)考慮網(wǎng)絡剪枝或知識蒸餾等方式優(yōu)化網(wǎng)絡,進一步提升目標檢測效率。
圖9 變電站設備檢測效果對比
[1] 王燦, 卜樂平. 基于卷積神經(jīng)網(wǎng)絡的目標檢測算法綜述[J]. 艦船電子工程, 2021, 41(9):161-169.
WANG Can, BU Leping. Overview of target detection algorithms based on convolutional neural networks[J]., 2021, 41(9): 161-169.
[2] 郝永平, 曹昭睿, 白帆, 等. 基于興趣區(qū)域掩碼卷積神經(jīng)網(wǎng)絡的紅外-可見光圖像融合與目標識別算法研究[J]. 光子學報, 2021, 50(2):84-98.
HAO Yongping, CAO Zhaorui, BAI Fan, et al Research on infrared visible image fusion and target recognition algorithm based on region of interest mask convolution neural network[J]., 2021, 50 (2): 84-98
[3] 劉齊, 王茂軍, 高強, 等. 基于紅外成像技術(shù)的電氣設備故障檢測[J]. 電測與儀表, 2019, 56(10): 122-126.
LIU Qi, WANG Maojun, GAO Qiang, et al Electrical equipment fault detection based on infrared imaging technology[J]., 2019, 56(10): 122-126.
[4] XIA J, LU Y, TAN L, et al. Intelligent fusion of infrared and visible image data based on convolutional sparse representation and improved pulse-coupled neural network[J].,, 2021, 67(1): 613-624.
[5] 汪勇, 張英, 廖如超, 等. 基于可見光、熱紅外及激光雷達傳感的無人機圖像融合方法[J]. 激光雜志, 2020, 41(2):141-145.
WANG Yong, ZHANG Ying, LIAO Ruchao, et al. UAV image fusion method based on visible light, thermal infrared and lidar sensing[J]., 2020, 41(2): 141-145.
[6] ZHANG S, LI X, ZHANG X, et al. Infrared and visible image fusion based on saliency detection and two-scale transform decomposition[J]., 2021, 114(3): 103626.
[7] 王傳洋. 基于紅外與可見光圖像的電力設備識別的研究[D]. 北京: 華北電力大學, 2017.
WANG Chuanyang. Research on Power Equipment Recognition Based on Infrared and Visible Images[D]. Beijing: North China Electric Power University, 2017.
[8] LI H, WU X J. Infrared and visible image fusion using Latent low-rank representation[J]. Arxiv Preprint Arxiv, 2018:1804.08992.
[9] HUI L, WU X J. DenseFuse: A fusion approach to infrared and visible images[J]., 2018, 28(5): 2614-2623.
[10] 唐聰, 凌永順, 楊華, 等. 基于深度學習的紅外與可見光決策級融合跟蹤[J]. 激光與光電子學進展, 2019, 56(7):209-216.
TANG Cong, LING Yongshun, YANG Hua, et al. Decision-level fusion tracking of infrared and visible light based on deep learning[J]., 2019, 56(7): 209-216.
[11] MA J, TANG L, XU M, et al. STDFusionNet: an infrared and visible image fusion network based on salient object detection[J]., 2021, 70: 1-13.
[12] 楊雪鶴, 劉歡喜, 肖建力. 多模態(tài)生物特征提取及相關(guān)性評價綜述[J]. 中國圖象圖形學報, 2020, 25(8):1529-1538.
YANG Xuehe, LIU Huanxi, XIAO Jianli. A review of multimodal biometric feature extraction and correlation evaluation[J]., 2020, 25(8): 1529-1538.
[13] WANG Z, XIN Z, HUANG X, et al. Overview of SAR image feature extraction and object recognition[J]., 2021, 234(4):69-75.
[14] WEI Z. A summary of research and application of deep learning[J]., 2019, 5(9): 167-169.
[15] Bochkovskiy A, WANG C Y, LIAO H. YOLOv4: Optimal speed and accuracy of object detection[J]. Arxiv Preprint Arxiv, 2020:2004.10934.
[16] HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition[C]//(CVPR), 2016:770-778.
[17] Howard A, Sandler M, Chen B, et al. Searching for MobileNetV3 [C]//(ICCV), 2020: 1314-1324.
[18] CHEN H, WANG Y, XU C, et al. AdderNet: Do we really need multiplications in deep learning?[C]// 2020(CVPR)., 2020: 1465-1474.
[19] 宋鵬漢, 辛懷聲, 劉楠楠. 基于深度學習的海上艦船目標多源特征融合識別[J]. 中國電子科學研究院學報, 2021, 16(2): 127-133.
SONG Penghan, XIN Huaisheng, LIU Nannan. Multi-source feature fusion recognition of marine ship targets based on deep learning[J]., 2021, 16(2): 127-133.
[20] Hassan E. Multiple object tracking using feature fusion in hierarchical LSTMs[J]., 2020(10): 893-899.
[21] LIN T Y, Dollar P, Girshick R, et al. Feature pyramid networks for object detection[C]//(CVPR), 2017:936-944.
[22] LIU S, HUANG D, WANG Y. Learning spatial fusion for single-shot object detection[J]. Arxiv Preprint Arxiv, 2019: 1911.09516v1.
[23] LI C, ZHAO N, LU Y, et al. Weighted sparse representation regularized graph learning for RGB-T object tracking[C]//, ACM, 2017: 1856-1864.
[24] XIAO X, WANG B, MIAO L, et al. Infrared and visible image object detection via focused feature enhancement and cascaded semantic extension[J]., 2021, 13(13): 2538.
Object Detection in Visible Light and Infrared Images Based on Adaptive Attention Mechanism
ZHAO Songpu,YANG Liping,ZHAO Xin,PENG Zhiyuan,LIANG Dongxing,LIANG Hongjun
(,610000,)
To address the shortcomings of infrared and visible light object detection methods, a detection method based on an adaptive attention mechanism that combines deep learning technology with multi-source object detection is proposed. First, a dual-source feature extraction structure is constructed based on deep separable convolution to extract the features of infrared and visible objects. Second, an adaptive attention mechanism is designed to fully complement the multimodal information of the object, and the infrared and visible features are weighted and fused using a data-driven method to ensure the full fusion of features and reduce noise interference. Finally, for multiscale object detection, the adaptive attention mechanism is combined with multiscale parameters to extract and fuse the global and local features of the object to improve the scale invariance. Experiments show that the proposed method can accurately and efficiently achieve target recognition and localization in complex scenarios compared to similar object detection algorithms. Moreover, in actual substation equipment detection, this method also demonstrates higher generalization and robustness, which can effectively assist robots in completing object detection tasks.
infrared and visible light, object detection, deep learning, adaptive attention mechanisms
TP391.41
A
1001-8891(2024)04-0443-09
2022-08-30;
2022-09-28.
趙松璞(1973-),男,漢族,陜西西安人,碩士,工程師。研究方向:機器人技術(shù)、智能電網(wǎng)、模式識別。E-mail: 1419446206@qq.com。
深圳市科技計劃項目(JSGG20210802153009029)。