• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于頻譜特征混合Transformer的紅外和可見(jiàn)光圖像融合

      2024-11-04 00:00:00陳子昂黃珺樊凡

      摘 要:為了解決傳統(tǒng)紅外與可見(jiàn)光圖像融合方法對(duì)細(xì)節(jié)與頻率信息表征能力不足、融合結(jié)果存在模糊偽影的問(wèn)題,提出一種基于頻譜特征混合Transformer的紅外和可見(jiàn)光圖像融合算法。在Transformer的基礎(chǔ)上,利用傅里葉變換將圖像域特征映射到頻域,設(shè)計(jì)了一種新的復(fù)數(shù)Transformer來(lái)提取源圖像的深層頻域信息,并與圖像域特征進(jìn)行混合,以此提高網(wǎng)絡(luò)對(duì)細(xì)節(jié)與頻率信息的表征能力。此外,在圖像重建前設(shè)計(jì)了一種新的令牌替換模塊,動(dòng)態(tài)評(píng)估Transformer令牌的顯著性后對(duì)消除得分較低的令牌,防止融合圖像出現(xiàn)偽影。在MSRS數(shù)據(jù)集上進(jìn)行的定性和定量實(shí)驗(yàn)結(jié)果顯示,與九種最先進(jìn)的算法相比,該算法具有較好的融合效果。

      關(guān)鍵詞:圖像融合; Transformer; 頻譜特征; 紅外圖像; 可見(jiàn)光圖像

      中圖分類號(hào):TP391.41 文獻(xiàn)標(biāo)志碼:A

      文章編號(hào):1001-3695(2024)09-043-2874-07

      doi:10.19734/j.issn.1001-3695.2023.11.0599

      Infrared and visible image fusion based on spectral feature hybrid Transformer

      Chen Zi’ang, Huang Jun, Fan Fan

      (Electronic Information School, Wuhan University, Wuhan 430072, China)

      Abstract:Aiming at the problem of insufficient representation capability for details and frequency information in traditional infrared and visible image fusion methods, this paper proposed a fusion algorithm based on spectral feature hybrid Transformer. The algorithm utilized the Fourier transform to map image domain features to the frequency domain. Then the novel complex Transformer extracted deep-frequency information from the source images and mixed them with the features of the image domain to enhance the representation capability for edges and details. Additionally, the algorithm used a token replacement module to evaluate the saliency of Transformer tokens and eliminate the tokens with lower scores to prevent the presence of artifacts in the fused image. Qualitative and quantitative experiments conducted on the MSRS dataset demonstrated that the proposed algorithm exhibits superior fusion performance compared to nine state-of-the-art methods.

      Key words:image fusion; Transformer; spectral feature; infrared image; visible image

      0 引言

      由于成像理論的限制,單一傳感器難以全面地捕獲場(chǎng)景信息,常需要多個(gè)模態(tài)的傳感器協(xié)同工作。紅外傳感器能捕捉場(chǎng)景中的熱輻射,可以輕易地檢測(cè)到場(chǎng)景中的熱目標(biāo),但其空間分辨率有限、受熱噪聲影響較大??梢?jiàn)光傳感器捕捉場(chǎng)景中的反射光,能記錄豐富的紋理和結(jié)構(gòu)信息,但在低光條件下生成的圖像質(zhì)量會(huì)顯著降低。它們的天然互補(bǔ)性質(zhì)使得紅外與可見(jiàn)光雙模態(tài)傳感器在軍事偵察、安防監(jiān)控、自動(dòng)駕駛等領(lǐng)域得到了廣泛應(yīng)用[1]。紅外與可見(jiàn)光圖像融合的目標(biāo)是整合兩種模態(tài)圖像的互補(bǔ)信息,生成一張紋理豐富、目標(biāo)顯著的融合圖像,利于人眼觀察的同時(shí),對(duì)目標(biāo)檢測(cè)、語(yǔ)義分割等高級(jí)計(jì)算機(jī)視覺(jué)任務(wù)起到促進(jìn)作用[2]。

      在過(guò)去幾十年里已經(jīng)出現(xiàn)了許多紅外和可見(jiàn)光圖像融合方法。它們可以被分為傳統(tǒng)方法[3,4]和基于深度學(xué)習(xí)的方法兩類。傳統(tǒng)方法利用傳統(tǒng)圖像處理技術(shù)或統(tǒng)計(jì)方法來(lái)建立融合框架。由于深度學(xué)習(xí)的快速發(fā)展,基于卷積神經(jīng)網(wǎng)絡(luò)(con-volutional neural network,CNN)[5,6]、自編碼器(auto encoder,AE)[7,8]和生成對(duì)抗網(wǎng)絡(luò)(generative adversarial network,GAN)[9,10]的框架在圖像融合領(lǐng)域得到了廣泛的研究。近年來(lái),Vision-Transformer[11]在計(jì)算機(jī)視覺(jué)領(lǐng)域取得了巨大的成功,一些學(xué)者也探索了其在圖像融合中的應(yīng)用[12,13]?;贑NN的紅外與可見(jiàn)光融合算法大多采用CNN模塊替換傳統(tǒng)融合框架的一些部分。Xu等人[5]提出了一個(gè)名為U2Fusion的統(tǒng)一融合網(wǎng)絡(luò),可以同時(shí)解決多種圖像融合任務(wù)。Zhang等人[6]設(shè)計(jì)了一個(gè)提取-分解網(wǎng)絡(luò)將梯度信息和亮度信息解耦并分別優(yōu)化。文獻(xiàn)[14]將特征編解碼和特征融合網(wǎng)絡(luò)分離開(kāi),采用兩階段方式進(jìn)行訓(xùn)練,充分發(fā)揮空間-通道注意力融合網(wǎng)絡(luò)的潛力。Wang等人[15]引入了一個(gè)多級(jí)配準(zhǔn)網(wǎng)絡(luò)用于處理源圖像中的輕微誤匹配,并在此基礎(chǔ)上進(jìn)行特征融合。由于圖像融合是一個(gè)無(wú)監(jiān)督任務(wù),基于CNN的融合方法的性能強(qiáng)烈依賴于損失函數(shù)的特定設(shè)計(jì)。受傳統(tǒng)融合算法的啟發(fā),基于自編碼器的圖像融合方法使用編碼器和解碼器替代傳統(tǒng)的特征提取和重構(gòu)函數(shù)。Li等人[16]探索了具有稠密連接的自編碼器[8]和多尺度嵌套連接的自編碼器,并嘗試使用可學(xué)習(xí)的融合網(wǎng)絡(luò)替換手工設(shè)計(jì)的融合規(guī)則來(lái)提高嵌套結(jié)構(gòu)的性能[7]。Zhao等人[17]將圖像分解為背景和細(xì)節(jié)特征圖,然后通過(guò)自編碼器網(wǎng)絡(luò)將它們合并成一幅融合圖像。生成對(duì)抗網(wǎng)絡(luò)架構(gòu)在無(wú)監(jiān)督視覺(jué)任務(wù)中也展現(xiàn)出了強(qiáng)大的潛力。Ma等人[9]首次將生成器和鑒別器之間的對(duì)抗訓(xùn)練引入圖像融合領(lǐng)域。GANMcC[18]借助多類別鑒別器來(lái)維持兩種分布的平衡。Liu等人[10]提出了一種面向目標(biāo)的對(duì)抗學(xué)習(xí)網(wǎng)絡(luò)TarDAL,可以在實(shí)現(xiàn)融合的同時(shí)促進(jìn)目標(biāo)檢測(cè)任務(wù)。

      自2020年Dosovitskiy等人[11]成功將Transformer應(yīng)用到計(jì)算機(jī)視覺(jué)領(lǐng)域以來(lái),Transformer在目標(biāo)檢測(cè)[19]、跟蹤[20]等視覺(jué)任務(wù)中都取得了巨大成功。由于Transformer具有強(qiáng)大的長(zhǎng)程建模能力,近年來(lái)也已出現(xiàn)基于Transformer的圖像融合方法。Rao等人[12]將Transformer模塊與對(duì)抗學(xué)習(xí)相結(jié)合,設(shè)計(jì)了空間和通道Transformer以關(guān)注不同維度的依賴關(guān)系。Tang等人[13]設(shè)計(jì)了一個(gè)包含CNN和動(dòng)態(tài)Transformer的Y型網(wǎng)絡(luò),能同時(shí)融合局部特征和上下文信息。

      雖然以上算法都實(shí)現(xiàn)了圖像融合的基本功能,但其中還存在兩個(gè)被忽視的問(wèn)題。a)現(xiàn)有方法對(duì)細(xì)節(jié)與頻率信息的表征能力仍存在不足,在一些可見(jiàn)光紋理變化迅速的區(qū)域,融合結(jié)果會(huì)被紅外噪聲污染而導(dǎo)致失真。許多研究表明,自然圖像的特性可以很容易地用傅里葉頻譜來(lái)捕捉。圖像傅里葉變換后的幅度譜能描述各個(gè)方向上重復(fù)結(jié)構(gòu)出現(xiàn)的強(qiáng)度,而局部相位能提供物體在形狀、邊緣和方向上的詳細(xì)信息[21]。但結(jié)合傅里葉變換的復(fù)數(shù)域Transformer在紅外與可見(jiàn)光圖像融合中的應(yīng)用還尚未被探索。b)在特征融合階段,現(xiàn)有算法僅考慮了顯著特征的整合,卻忽略了源圖像中有害信息的去除。導(dǎo)致一些算法的融合結(jié)果中存在模糊或偽影。在圖1所示的場(chǎng)景下,由于光照不足,可見(jiàn)光圖像無(wú)法提供關(guān)于行人目標(biāo)的任何有效信息,導(dǎo)致FusionGAN[9]、UMF-CMGR[15]和YDTR[13]的融合結(jié)果出現(xiàn)了熱目標(biāo)模糊或暗淡的問(wèn)題。除此之外,受紅外熱噪聲的影響,F(xiàn)usionGAN和UMF-CMGR的融合結(jié)果在綠色框所示區(qū)域出現(xiàn)了較嚴(yán)重的偽影。

      為了解決上述問(wèn)題,本文提出了一種基于頻譜特征混合Transformer的紅外和可見(jiàn)光圖像融合算法,稱為FTMNet。與傳統(tǒng)的Transformer架構(gòu)不同,F(xiàn)TMNet在多頭自注意力結(jié)構(gòu)的基礎(chǔ)上增加傅里葉變換及其反變換的復(fù)數(shù)通路,并將圖像域和頻域的令牌(token)進(jìn)行混合。復(fù)數(shù)操作并不等同于簡(jiǎn)單的雙維實(shí)值操作,而是通過(guò)實(shí)部和虛部之間的相互作用編碼了具有正則化效應(yīng)的隱式連接。由于復(fù)數(shù)表征的冗余性,復(fù)數(shù)網(wǎng)絡(luò)具有更好的泛化能力和信息提取能力[22]。對(duì)于圖像融合任務(wù)來(lái)說(shuō),增強(qiáng)細(xì)節(jié)與頻率信息能讓融合圖像的邊緣與紋理清晰度提高,故可以通過(guò)給網(wǎng)絡(luò)補(bǔ)充復(fù)數(shù)頻譜信息的方式達(dá)到此目的。此外,在融合兩模態(tài)的深度特征之前,設(shè)計(jì)了令牌替換機(jī)制對(duì)兩個(gè)模態(tài)中顯著性較低的令牌進(jìn)行替換,以消除源圖像中包含的潛在有害信息,提高融合圖像的信息量。從圖1可以看出,F(xiàn)TMNet生成的融合圖像紅外目標(biāo)清晰,對(duì)比度高,且在背景區(qū)域克服了偽影的問(wèn)題。本文貢獻(xiàn)可以總結(jié)如下:

      a)提出了一種用于紅外和可見(jiàn)光圖像融合的頻譜特征混合Transformer,設(shè)計(jì)了復(fù)數(shù)通路將傅里葉頻譜信息引入特征提取網(wǎng)絡(luò),有效地提高了方法對(duì)細(xì)節(jié)與頻率信息的表征能力。

      b)設(shè)計(jì)令牌替換機(jī)制,動(dòng)態(tài)評(píng)估令牌信息的顯著性得分并替換低分令牌,消除圖像源中包含的無(wú)效信息,減少融合結(jié)果中的噪聲和偽影。

      c)主觀與客觀實(shí)驗(yàn)證明了本文方法相對(duì)于先進(jìn)的對(duì)比算法具有優(yōu)勢(shì)。目標(biāo)檢測(cè)實(shí)驗(yàn)驗(yàn)證了本文方法能夠有效地促進(jìn)高級(jí)計(jì)算機(jī)視覺(jué)任務(wù)。

      1 視覺(jué)Transformer

      2017年,Vaswani等人[23]首次提出了Transformer的概念,采用了多頭自注意力(multi-head self-attention, MSA)機(jī)制來(lái)捕捉自然語(yǔ)言處理(natural language processing, NLP)中的長(zhǎng)距離依賴關(guān)系。自此,Transformer在NLP領(lǐng)域取得了廣泛的應(yīng)用。Dosovitskiy等人[11]成功將Transformer應(yīng)用到計(jì)算機(jī)視覺(jué)領(lǐng)域,稱為視覺(jué)Transformer(vision Transformer,ViT)。為了適應(yīng)Transformer編碼器的輸入要求,ViT將圖像分割為16×16的小塊,經(jīng)過(guò)線性變換和位置信息嵌入后形成一個(gè)圖像塊序列,再將這個(gè)圖像塊序列像NLP中的詞序列一樣輸入Transformer網(wǎng)絡(luò)執(zhí)行目標(biāo)檢測(cè)。由于其強(qiáng)大的全局上下文特征探索能力,研究者對(duì)ViT進(jìn)行了各種改進(jìn)以適應(yīng)其他計(jì)算機(jī)視覺(jué)任務(wù)。Wang等人[24]設(shè)計(jì)了金字塔結(jié)構(gòu)的視覺(jué)Transformer(PVT)以增強(qiáng)特征提取能力,同時(shí)引入了空間歸約注意力機(jī)制以減少深度網(wǎng)絡(luò)引起的計(jì)算成本。除了網(wǎng)絡(luò)結(jié)構(gòu)的探索,研究人員還致力于提高Transformer的計(jì)算效率。Xie等人[25]提出了一種具有輕量級(jí)MLP解碼器的分割框架。通過(guò)去除位置編碼,該方法避免了由于位置編碼的插值而引起的性能退化。在目標(biāo)檢測(cè)領(lǐng)域,MSG-Transformer提出了一種信使令牌,用于提取本地窗口的信息并實(shí)現(xiàn)跨區(qū)域信息交換,從而滿足檢測(cè)跨越多個(gè)窗口的大型目標(biāo)的需要[26]。Wang等人[27]提出了一種名為T(mén)okenFusion的多模態(tài)特征對(duì)齊和融合方法,該方法動(dòng)態(tài)識(shí)別并替換不具信息的令牌,進(jìn)而對(duì)跨模態(tài)特征進(jìn)行聚合。

      視覺(jué)Transformer的結(jié)構(gòu)可以被分為編碼器和解碼器兩部分,編碼器和解碼器都由多個(gè)Transformer塊組成。編碼器中的Transformer塊通常執(zhí)行特征降維和提取,而解碼器中的Transformer塊通常執(zhí)行特征升維和恢復(fù)。在圖像輸入網(wǎng)絡(luò)之前,首先要通過(guò)分塊嵌入層將它切分為小塊,并通過(guò)線性變換轉(zhuǎn)換為特征令牌,記為X=linear(crop(I))。其中I為原始圖像,linear為線性變換。對(duì)于每個(gè)Transformer塊來(lái)說(shuō),輸入令牌通過(guò)三個(gè)可學(xué)習(xí)的線性變換被分解為query(Q)、key(K)和value(V)三個(gè)向量。隨后,為了捕獲像素間的長(zhǎng)距離依賴,可通過(guò)式(1)計(jì)算自注意力權(quán)重。

      3 實(shí)驗(yàn)

      3.1 實(shí)驗(yàn)配置

      3.1.1 數(shù)據(jù)集

      實(shí)驗(yàn)在MSRS數(shù)據(jù)集上進(jìn)行。MSRS數(shù)據(jù)集[29]提供了1 444對(duì)已配準(zhǔn)的紅外和可見(jiàn)光圖像。數(shù)據(jù)已經(jīng)被創(chuàng)建者分為訓(xùn)練集和測(cè)試集,分別包含1 083和361對(duì)圖像。其中的80個(gè)樣本還具有車輛和行人的檢測(cè)標(biāo)簽。

      3.1.2 訓(xùn)練細(xì)節(jié)

      在輸入端,本文將640×480×3的RGB可見(jiàn)光圖像轉(zhuǎn)換到Y(jié)CbCr色彩空間,并將Y通道歸一化到[0,1]作為網(wǎng)絡(luò)的輸入。紅外圖像是單通道的灰度圖,所以無(wú)須進(jìn)行色彩轉(zhuǎn)換,經(jīng)歸一化后直接輸入網(wǎng)絡(luò)。在輸出端,本文再將單通道的融合結(jié)果與可見(jiàn)光的Cb、Cr色彩通道結(jié)合,反變換得到RGB彩色圖像。本文采用Python語(yǔ)言和PyTorch平臺(tái)對(duì)所提深度學(xué)習(xí)網(wǎng)絡(luò)進(jìn)行實(shí)現(xiàn)。所有的實(shí)驗(yàn)都在NVIDIA TITAN RTX GPU和3.50 GHz Intel Core i9-9920X CPU上進(jìn)行,CUDA版本為10.1,PyTorch版本為1.7.1,圖像預(yù)處理和后處理采用OpenCV 3.4.2實(shí)現(xiàn)。訓(xùn)練的batch size設(shè)為1,epoch設(shè)為160。參數(shù)由Adam優(yōu)化器進(jìn)行更新,學(xué)習(xí)率為2×10-4。本文模型的超參數(shù)包括消除閾值θ以及損失函數(shù)中的平衡參數(shù)。實(shí)驗(yàn)中λ=0.2,α=10,β=1,θ=0.02。

      3.1.3 評(píng)估指標(biāo)

      為了客觀地評(píng)估融合性能,本文采用了熵(EN)、空間頻率(SF)、標(biāo)準(zhǔn)差(SD)、平均梯度(AG)、差異相關(guān)性和(SCD)和視覺(jué)信息保真度(VIF)六種指標(biāo)[30]。EN源自信息論,用于衡量信息量, 屬于基于信息熵的指標(biāo)。SD反映了像素分布的離散程度,SF和AG分別用于衡量圖像的頻率和梯度信息的豐富度,它們屬于基于圖像特征的指標(biāo)。SCD是一種基于相關(guān)的指標(biāo),利用融合圖像與源圖像之間的差異來(lái)評(píng)估融合方法傳遞的互補(bǔ)信息量。VIF是一種基于自然場(chǎng)景統(tǒng)計(jì)理論的高級(jí)圖像融合質(zhì)量指標(biāo),用于衡量視覺(jué)保真度,屬于基于人類感知的指標(biāo)。這些指標(biāo)在評(píng)估融合圖像質(zhì)量時(shí)具有互補(bǔ)性,可以從多個(gè)方面提供有關(guān)融合圖像細(xì)節(jié)、對(duì)比度、視覺(jué)保真度等方面的信息,所有上述指標(biāo)都是正向指標(biāo)。

      3.1.4 對(duì)比算法

      本文選擇了近年來(lái)的9種方法進(jìn)行定性和定量比較。其中GTF[3]是傳統(tǒng)方法;DenseFuse[8]、DIDFuse[17]、RFN-Nest[7]、SDNet[6]、U2Fusion[5] 和 UMF-CMGR[15] 基于CNN設(shè)計(jì);FusionGAN[9]采用了GAN結(jié)構(gòu);YDTR[13]是基于Transformer的方法。對(duì)比實(shí)驗(yàn)中的9種對(duì)比算法均通過(guò)開(kāi)源的代碼和算法模型獲取它們的融合圖像。

      3.2 MSRS數(shù)據(jù)集上的對(duì)比實(shí)驗(yàn)

      3.2.1 定性比較

      為了直觀評(píng)估本文方法和對(duì)比算法的融合性能,本文展示各算法在四個(gè)典型場(chǎng)景下的融合結(jié)果,如圖6~9所示。

      在每幅圖中,用紅色框突出顯示熱目標(biāo)區(qū)域,用綠色框突出顯示包含豐富紋理的區(qū)域。在圖6中,只有DensFuse和本文方法能同時(shí)保留紅色框中的行人及其背后車輛的亮度。而在綠色框標(biāo)記的密集地磚區(qū)域,只有本文方法能很好地保留該重復(fù)結(jié)構(gòu),其他算法則出現(xiàn)了不同程度的模糊。一方面,本文設(shè)計(jì)的頻譜特征混合網(wǎng)絡(luò)能提取頻率特征,對(duì)地磚的重復(fù)結(jié)構(gòu)具備更強(qiáng)的表征能力。另一方面,紅外圖像在該區(qū)域信息量極低,本文的令牌替換模塊會(huì)丟棄這部分信息并用可見(jiàn)光的令牌將其替換,故FTMNet能提高融合圖像的信息量,進(jìn)而取得更好的視覺(jué)效果。圖7 展示了一個(gè)白天的場(chǎng)景??梢园l(fā)現(xiàn),GTF、FusionGAN和RFN-Nest在紅外目標(biāo)周圍出現(xiàn)了明顯的模糊和偽影。雖然SDNet的結(jié)果中的紅外目標(biāo)亮度最為突出,但它在背景區(qū)域的色彩失真嚴(yán)重影響了視覺(jué)效果。FTMNet在保證紅外目標(biāo)顯著性的同時(shí)能在綠色框標(biāo)記的區(qū)域取得最強(qiáng)的對(duì)比度。由于細(xì)節(jié)與頻率信息的增強(qiáng),對(duì)應(yīng)融合圖像的邊緣與紋理清晰度的提高,所以在該場(chǎng)景下地面裂紋清晰可見(jiàn),沒(méi)有受到紅外噪聲污染。在較黑暗的場(chǎng)景00726N中,F(xiàn)TMNet能更好地保持車輛區(qū)域的對(duì)比度。在圖9所展示的場(chǎng)景下,F(xiàn)TMNet融合結(jié)果中的行人目標(biāo)不僅亮度最高,還具備自然的色彩,沒(méi)有出現(xiàn)模糊或失真。此外,在綠色框所標(biāo)識(shí)的區(qū)域,背景樹(shù)木的紋理細(xì)節(jié)清晰,和可見(jiàn)光圖像的觀感一致。通過(guò)無(wú)效令牌的消除,本文模型可以動(dòng)態(tài)評(píng)估兩種模態(tài)特征的重要性,進(jìn)而消除源圖像中包含的潛在有害信息。因此,本文融合結(jié)果中不會(huì)出現(xiàn)顏色失真、熱目標(biāo)暗淡和紋理模糊等常見(jiàn)問(wèn)題。

      3.2.2 定量比較

      在MSRS數(shù)據(jù)集上的定量指標(biāo)比較結(jié)果如表1所示,表中數(shù)值是在全部361張測(cè)試數(shù)據(jù)上的平均值。本文方法在EN、SF、SD、AG指標(biāo)上獲得第一,在SCD指標(biāo)上取得第二,在VIF指標(biāo)上取得第三。EN的優(yōu)勢(shì)代表了本文方法的融合結(jié)果能保留最大的信息量。SD的優(yōu)勢(shì)表明融合結(jié)果的像素離散程度最高。最高的AG說(shuō)明融合結(jié)果的梯度信息豐富,紋理清晰。值得一提的是,本文方法在SF上取得了較明顯的優(yōu)勢(shì),超越第二名20%,相比最差的方法提升了252%。這與本文理論分析一致,因?yàn)楸疚姆椒ㄒ肓烁道锶~變換并設(shè)計(jì)了復(fù)數(shù)通路來(lái)補(bǔ)充頻率信息,所以融合結(jié)果的空間頻率得到了大幅提高。在VIF指標(biāo)上,本文方法落后第一名0.08。得益于DenseFuse和RFN-Nest在網(wǎng)絡(luò)中引入的稠密連接和多尺度嵌套連接,其方法的視覺(jué)保真度更高。在SCD指標(biāo)上,本文方法以0.007的微弱優(yōu)勢(shì)落后于RFN-Nest,意味著本文方法從源數(shù)據(jù)中轉(zhuǎn)移的信息占比較高,對(duì)融合圖像的噪聲和偽影有一定抑制效果。總的來(lái)說(shuō),F(xiàn)TMNet的客觀指標(biāo)具有較強(qiáng)的競(jìng)爭(zhēng)力。

      3.3 運(yùn)行效率

      圖像融合的后續(xù)計(jì)算機(jī)視覺(jué)應(yīng)用對(duì)實(shí)時(shí)性能有很高的需求,例如目標(biāo)檢測(cè)和目標(biāo)跟蹤。運(yùn)行效率是評(píng)估圖像融合方法優(yōu)劣的一個(gè)關(guān)鍵指標(biāo)。本文從模型參數(shù)量、浮點(diǎn)運(yùn)算次數(shù)(FLOPs)和運(yùn)行時(shí)間三個(gè)角度評(píng)估算法的時(shí)間復(fù)雜度和空間復(fù)雜度。除了GTF是傳統(tǒng)算法以外,其他所有深度學(xué)習(xí)算法都經(jīng)過(guò)GPU加速。

      評(píng)估在MSRS數(shù)據(jù)集上進(jìn)行,輸入圖像的尺寸為640×480。評(píng)估結(jié)果總結(jié)在表2中。本文方法具有最小的FLOPs,但在執(zhí)行速度方面僅排名第三。SDNet算法的運(yùn)行速度最快,達(dá)到了實(shí)時(shí)應(yīng)用的要求。由于本文方法設(shè)計(jì)了頻譜特征混合網(wǎng)絡(luò),在復(fù)數(shù)運(yùn)算相關(guān)的部分運(yùn)算量都為原本的兩倍,所以實(shí)時(shí)性沒(méi)有達(dá)到最優(yōu)。此外,通過(guò)進(jìn)一步探究發(fā)現(xiàn),式(8)(9)中與令牌替換策略相關(guān)的令牌索引尋址和令牌替換操作耗時(shí)較長(zhǎng)。如果禁用替換過(guò)程,平均運(yùn)行時(shí)間將減少到0.040。這表明與令牌替換的時(shí)間成本不容忽視,運(yùn)行效率仍有優(yōu)化的空間。

      3.4 目標(biāo)檢測(cè)性能

      本節(jié)探究FTMNet在高級(jí)計(jì)算機(jī)視覺(jué)任務(wù)中的積極作用。配合MSRS數(shù)據(jù)集中的目標(biāo)檢測(cè)標(biāo)簽,本文采用流行的檢測(cè)模型YOLOv7對(duì)不同圖像融合算法的紅外、可見(jiàn)光和融合圖像進(jìn)行檢測(cè)。如圖10所示,該場(chǎng)景包含一個(gè)行人和兩輛汽車,其中有一輛汽車在圖像中較小且距離較遠(yuǎn)。由于模態(tài)的限制,單憑紅外或可見(jiàn)光圖像都無(wú)法識(shí)別出全部目標(biāo)。然而,DenseFuse、RFN-Nest、U2Fusion、YDTR和FTMNet的融合結(jié)果可以有效促進(jìn)目標(biāo)檢測(cè)任務(wù),同時(shí)檢測(cè)出三個(gè)目標(biāo)。圖11展示了一個(gè)白天的場(chǎng)景??梢钥闯?,只有FTMNet能檢測(cè)出遠(yuǎn)處的兩個(gè)小目標(biāo)??偟膩?lái)說(shuō),大多數(shù)算法生成的融合圖像都能取得比單張紅外或可見(jiàn)光圖像更好的檢測(cè)效果,這證明了圖像融合是有意義的,且本文方法能對(duì)高級(jí)計(jì)算機(jī)視覺(jué)任務(wù)起到較好的促進(jìn)作用。

      3.5 消融實(shí)驗(yàn)

      本文方法的有效性主要依賴于頻譜特征混合網(wǎng)絡(luò)中的復(fù)數(shù)通路和令牌替換策略。本文進(jìn)行了一系列消融實(shí)驗(yàn)來(lái)驗(yàn)證特定設(shè)計(jì)的有效性。定性結(jié)果展示在圖12中,定量評(píng)估結(jié)果報(bào)告在表3中。

      3.5.1 復(fù)數(shù)通路的消融實(shí)驗(yàn)

      本文去除了頻譜特征混合網(wǎng)絡(luò)中的復(fù)數(shù)通路,不再執(zhí)行FFT和IFFT,同時(shí)將所有復(fù)數(shù)層用普通的層替換,只保留原始的多頭注意力和前饋網(wǎng)絡(luò)。如圖12(c)所示,融合結(jié)果在紅外目標(biāo)附近出現(xiàn)了較明顯的模糊,這是因?yàn)槿コ藦?fù)數(shù)通路后頻率信息捕獲能力不足,導(dǎo)致梯度變化較大的位置無(wú)法重現(xiàn)紅外圖像的銳利邊緣。完整模型的SCD比去除復(fù)數(shù)通路后的模型略低,這是因?yàn)镾CD衡量的是融合圖像與源圖像的差異,而復(fù)數(shù)通路為模型補(bǔ)充了額外的細(xì)節(jié)和頻率信息,導(dǎo)致融合圖像中的信息并不完全忠于源圖像。去除復(fù)數(shù)通路后模型的參數(shù)量降低約30%,浮點(diǎn)運(yùn)算量大幅下降,這是因?yàn)楸疚脑陬l譜特征混合網(wǎng)絡(luò)中引入的復(fù)數(shù)運(yùn)算計(jì)算量為普通運(yùn)算的兩倍。綜合來(lái)看,完整模型犧牲了運(yùn)行效率,但主觀和客觀表現(xiàn)都是最佳的。

      3.5.2 令牌替換的消融實(shí)驗(yàn)

      本文關(guān)閉令牌替換過(guò)程,直接將Tlir和Tlvi的加和送入重建模塊。可以發(fā)現(xiàn),關(guān)閉令牌替換后有害信息無(wú)法被去除,融合結(jié)果中的紅外目標(biāo)亮度不如完整的模型,同時(shí)可見(jiàn)光紋理也出現(xiàn)對(duì)比度降低的情況。關(guān)閉令牌替換后的模型VIF略高于完整模型,但絕對(duì)差距僅有0.012,相對(duì)差距為1.7%,可認(rèn)為是訓(xùn)練中的隨機(jī)性導(dǎo)致。令牌替換策略相關(guān)的令牌索引尋址和令牌替換操作耗時(shí)較長(zhǎng),但這些操作不屬于浮點(diǎn)運(yùn)算,故size和FLOPs沒(méi)有變化。

      3.5.3 損失函數(shù)的消融實(shí)驗(yàn)

      去除替換損失后的模型表現(xiàn)出更高的EN,這是因?yàn)槿コ鎿Q損失后網(wǎng)絡(luò)執(zhí)行令牌交換的頻率降低,而令牌替換在執(zhí)行時(shí)會(huì)將網(wǎng)絡(luò)認(rèn)為的無(wú)效信息用對(duì)立模態(tài)的信息覆蓋,該覆蓋操作會(huì)在一定程度上降低數(shù)據(jù)通路中的總信息量,導(dǎo)致信息熵EN略微下降。雖然去除替換損失后EN指標(biāo)更高,但其余指標(biāo)都低于完整模型。

      4 結(jié)束語(yǔ)

      本文提出了一種基于頻譜特征混合Transformer的紅外和可見(jiàn)光圖像融合方法,名為FTMNet。通過(guò)引入傅里葉變換及其反變換的復(fù)數(shù)通路,給網(wǎng)絡(luò)補(bǔ)充復(fù)數(shù)頻譜信息,提高了算法對(duì)細(xì)節(jié)和頻率信息的表征能力。此外設(shè)計(jì)了令牌替換機(jī)制對(duì)紅外與可見(jiàn)光模態(tài)中顯著性較低的令牌進(jìn)行替換,從而消除圖像中包含的潛在有害信息,防止融合圖像中出現(xiàn)模糊和偽影。實(shí)驗(yàn)證明了本文方法在視覺(jué)效果、客觀指標(biāo)和運(yùn)行效率上都具有一定的優(yōu)越性。此外,目標(biāo)檢測(cè)實(shí)驗(yàn)表明FTMNet的融合結(jié)果對(duì)高級(jí)視覺(jué)任務(wù)有促進(jìn)作用。

      參考文獻(xiàn):

      [1]Zhang Hao, Xu Han, Tian Xin, et al. Image fusion meets deep learning: a survey and perspective[J]. Information Fusion, 2021, 76: 323-336.

      [2]Tang Linfeng, Yuan Jiteng, Ma Jiayi. Image fusion in the loop of high-level vision tasks: a semantic-aware real-time infrared and visible image fusion network[J]. Information Fusion, 2022, 82: 28-42.

      [3]Ma Jiayi, Chen Chen, Li Chang, et al. Infrared and visible image fusion via gradient transfer and total variation minimization[J]. Information Fusion, 2016, 31: 100-109.

      [4]周怡, 馬佳義, 黃珺. 基于互導(dǎo)濾波和顯著性映射的紅外可見(jiàn)光圖像融合[J]. 遙感技術(shù)與應(yīng)用, 2021, 35(6): 1404-1413. (Zhou Yi, Ma Jiayi, Huang Jun. Infrared and visible image fusion based on mutual conductivity filtering and saliency mapping[J]. Remote Sensing Technology and Application, 2021, 35(6): 1404-1413.)

      [5]Xu Han, Ma Jiayi, Jiang Junjun, et al. U2Fusion: a unified unsupervised image fusion network[J]. IEEE Trans on Pattern Analysis and Machine Intelligence, 2020, 44(1): 502-518.

      [6]Zhang Hao, Ma Jiayi. SDNet: a versatile squeeze-and-decomposition network for real-time image fusion[J]. International Journal of Computer Vision, 2021, 129: 2761-2785.

      [7]Li Hui, Wu Xiaojun, Kittler J. RFN-Nest: an end-to-end residual fusion network for infrared and visible images[J]. Information Fusion, 2021, 73: 72-86.

      [8]Li Hui, Wu Xiaojun. DenseFuse: a fusion approach to infrared and visible images[J]. IEEE Trans on Image Processing, 2018, 28(5): 2614-2623.

      [9]Ma Jiayi, Yu Wei, Liang Pengwei, et al. FusionGAN: a generative adversarial network for infrared and visible image fusion[J]. Information Fusion, 2019, 48: 11-26.

      [10]Liu Jinyuan, Fan Xin, Huang Zhanbo, et al. Target-aware dual adversarial learning and a multi-scenario multi-modality benchmark to fuse infrared and visible for object detection[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2022: 5792-5801.

      [11]Dosovitskiy A, Beyer L, Kolesnikov A, et al. An image is worth 16x16 words: transformers for image recognition at scale [EB/OL]. (2021-06-03). https://arxiv.org/abs/2010.11929.

      [12]Rao Dongyu, Xu Tianyang, Wu X J. TGFuse: an infrared and visible image fusion approach based on transformer and generative adversarial network[J/OL]. IEEE Trans on Image Processing. (2023-05-10). http://doi.org/10.1109/tip.2023.3273451.

      [13]Tang Wei, He Fazhi, Liu Yu. YDTR: infrared and visible image fusion via Y-shape dynamic Transformer[J]. IEEE Trans on Multimedia, 2023, 25: 5413-5428.

      [14]陳伊涵, 鄭茜穎. 基于注意力機(jī)制的紅外與可見(jiàn)光圖像融合網(wǎng)絡(luò)[J]. 計(jì)算機(jī)應(yīng)用研究, 2022,39(5): 1569-1572,1585. (Chen Yihan, Zheng Qianying. Infrared and visible image fusion network based on attention mechanism[J]. Application Research of Computers, 2022, 39(5): 1569-1572,1585.)

      [15]Wang Di, Liu Jinyuan, Fan Xin, et al. Unsupervised misaligned infrared and visible image fusion via cross-modality image generation and registration[C]//Proc of the 31st International Joint Conference on Artificial Intelligence. 2022: 3508-3515.

      [16]Li Hui, Wu Xiaojun, Durrani T. NestFuse: an infrared and visible image fusion architecture based on nest connection and spatial/channel attention models[J]. IEEE Trans on Instrumentation and Measurement, 2020, 69(12): 9645-9656.

      [17]Zhao Zixiang, Xu Shuang, Zhang Chunxia, et al. DIDFuse: deep image decomposition for infrared and visible image fusion[C]//Proc of the 29th International Joint Conference on Artificial Intelligence. 2020: 970-976.

      [18]Ma Jiayi, Zhang Hao, Shao Zhenfeng, et al. GANMcC: a generative adversarial network with multiclassification constraints for infrared and visible image fusion[J]. IEEE Trans on Instrumentation and Measurement, 2021, 70: 1-14.

      [19]Sun Zhiqing, Cao Shengcao, Yang Yiming, et al. Rethinking Transformer-based set prediction for object detection [C]//Proc of IEEE/CVF International Conference on Computer Vision. Pisca-taway, NJ: IEEE Press, 2021: 3591-3600.

      [20]Lin Liting, Fan Heng, Zhang Zhipeng, et al. Swintrack: a simple and strong baseline for transformer tracking[J]. Advances in Neural Information Processing Systems, 2022, 35: 16743-16754.

      [21]Oppenheim A V, Lim J S. The importance of phase in signals[J]. Proceedings of the IEEE, 1981, 69(5): 529-541.

      [22]Danihelka I, Wayne G, Uria B, et al. Associative long short-term memory[C]//Proc of the 33rd International Conference on International Conference on Machine Learning.[S.l.]: JMLR.org, 2016: 1986-1994.

      [23]Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[C]//Proc of the 31st International Conference on Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc., 2017: 6000-6010.

      [24]Wang Wenhai, Xie Enze, Li Xiang, et al. Pyramid vision Transfor-mer: a versatile backbone for dense prediction without convolutions[C]//Proc of IEEE/CVF International Conference on Computer Vision. Piscataway, NJ: IEEE Press, 2021: 548-558.

      [25]Xie Enze, Wang Wenhai, Yu Zhiding, et al. SegFormer: simple and efficient design for semantic segmentation with Transformers[C]//Proc of the 35th Conference on Neural Information Processing Systems. 2021: 12077-12090.

      [26]Fang Jiemin, Xie Lingxi, Wang Xinggang, et al. MSG-Transformer: exchanging local spatial information by manipulating messenger tokens[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2022: 12053-12062.

      [27]Wang Yikai, Chen Xinghao, Cao Lele, et al. Multimodal token fusion for vision Transformers[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2022: 12176-12185.

      [28]Quan Yuhui, Lin Peikang, Xu Yong, et al. Nonblind image deblurring via deep learning in complex field[J]. IEEE Trans on Neural Networks and Learning Systems, 2021, 33(10): 5387-5400.

      [29]Tang Linfeng, Yuan Jiteng, Zhang Hao, et al. PIAFusion: a progressive infrared and visible image fusion network based on illumination aware[J]. Information Fusion, 2022, 83: 79-92.

      [30]唐霖峰, 張浩, 徐涵, 等. 基于深度學(xué)習(xí)的圖像融合方法綜述[J]. 中國(guó)圖象圖形學(xué)報(bào), 2023, 28(1): 3-36. (Tang Linfeng, Zhang Hao, Xu Han, et al. Deep learning-based image fusion: a survey[J]. Journal of Image and Graphics, 2023, 28(1): 3-36.)

      收稿日期:2023-11-24;修回日期:2024-01-17 基金項(xiàng)目:國(guó)家自然科學(xué)基金資助項(xiàng)目(62075169,62003247,62061160370);湖北省重點(diǎn)研發(fā)計(jì)劃項(xiàng)目(2021BBA235)

      作者簡(jiǎn)介:陳子昂(1999—),男,湖北武漢人,碩士,主要研究方向?yàn)閳D像融合與計(jì)算機(jī)視覺(jué);黃珺(1985—),男(通信作者),湖南祁陽(yáng)人,教授,博士,主要研究方向?yàn)榧t外圖像處理(junhwong@whu.edu.cn);樊凡(1989—),男,江西南昌人,副教授,博士,主要研究方向?yàn)榧t外成像預(yù)處理與高光譜圖像預(yù)處理.

      越西县| 盐城市| 水城县| 罗江县| 焉耆| 原阳县| 扶绥县| 万年县| 开江县| 长宁区| 锡林浩特市| 赞皇县| 绥德县| 天柱县| 通渭县| 建德市| 茂名市| 文登市| 台湾省| 勃利县| 三门县| 社会| 昔阳县| 邮箱| 凭祥市| 定远县| 吉木乃县| 绥滨县| 五家渠市| 太原市| 宝清县| 临洮县| 汶川县| 突泉县| 遵义市| 栖霞市| 明水县| 广东省| 沅江市| 墨竹工卡县| 集贤县|