曹金亮,薛偉民,蔡雨含,王安紅
(太原科技大學(xué) 電子信息工程學(xué)院,太原 030024)
紅外與可見光圖像融合可以將傳感器捕獲到的不同模態(tài)信息整合成一張圖像[1]。根據(jù)輻射差異,紅外圖像可以區(qū)分目標(biāo)與背景,捕獲具有熱信息的目標(biāo)并處理成有顯著特性的像素組合,但其對背景或低熱能輻射目標(biāo)成像效果差,而可見光成像可以很好的彌補(bǔ)這一不足[2],因此,將紅外與可見光信息融合在學(xué)術(shù)和應(yīng)用領(lǐng)域都具有重要意義。
傳統(tǒng)的圖像融合算法可分為圖像信息提取和特征融合[3-8],公式表示為:
(1)
近年來,基于深度學(xué)習(xí)的紅外與可見光圖像融合技術(shù)取得了較更高的性能[9]。為了充分融合圖像信息,應(yīng)在信息提取過程中考慮特征融合以便聯(lián)合優(yōu)化。對此,本文提出了圖像特征通過神經(jīng)網(wǎng)絡(luò)的交叉流動(dòng)進(jìn)行密集交換和融合的算法,構(gòu)建神經(jīng)網(wǎng)絡(luò)同步進(jìn)行信息提取和融合,將固定的融合策略轉(zhuǎn)化為訓(xùn)練得到的高度自適應(yīng)網(wǎng)絡(luò)參數(shù)權(quán)重。
此外,由于融合網(wǎng)絡(luò)在訓(xùn)練時(shí)沒有相應(yīng)的標(biāo)準(zhǔn)數(shù)據(jù)(ground-truth),許多融合網(wǎng)絡(luò)并沒有將成對的紅外與可見光圖像作為輸入對網(wǎng)絡(luò)訓(xùn)練,或者采用單輸入-單輸出的網(wǎng)絡(luò)結(jié)構(gòu),使得參數(shù)不完全適合紅外和可見光圖像融合,且融合結(jié)果并不能準(zhǔn)確還原真實(shí)的光照場景。為此,本文提出了一種交叉融合框架(CrossFusion-Net),用于生成包含紅外和可見光信息的融合圖像。首先,設(shè)計(jì)了一個(gè)具有雙輸入、交叉連接結(jié)構(gòu)的信息交換自編碼網(wǎng)絡(luò)(IEA-Net),用于特征提取和融合并將紅外與可見光圖像成對輸入進(jìn)行訓(xùn)練。同時(shí),融合策略由網(wǎng)絡(luò)結(jié)構(gòu)實(shí)現(xiàn),使得每個(gè)源圖像的深度卷積特征通過一個(gè)雙分支編碼器交換。其次,提出了一個(gè)補(bǔ)償分支用來獲得結(jié)構(gòu)特征和光照特征。第三,設(shè)計(jì)了一個(gè)信息提取模塊(Cut-in模塊)從源圖像中提取多尺度特征。最后,集成模塊將所有特征整合在一起,并使用解碼器進(jìn)行重構(gòu)。實(shí)驗(yàn)結(jié)果表明,本文的交叉融合網(wǎng)絡(luò)在客觀和主觀評價(jià)方面都具有很好的性能。且在TNO Image Fusion數(shù)據(jù)集上能夠恢復(fù)真實(shí)的光照場景。
本文提出的信息交換融合網(wǎng)絡(luò)如圖1所示,紅外圖像、可見光圖像同時(shí)輸入IEA編碼器,在IEA編碼器中進(jìn)行特征提取和信息交換產(chǎn)生融合圖像;其次,由補(bǔ)償支路提取的紅外和可見光圖像作為補(bǔ)償信息,整合輸入IEA解碼器進(jìn)行圖像融合。
圖1所體現(xiàn)出的信息交換融合網(wǎng)絡(luò)融合思路由公式表述為:
(2)
圖1 信息交換融合網(wǎng)絡(luò)示意圖Fig.1 The diagram of the proposed information-interchanging integration framework
(3)
它們直接將源圖像中的結(jié)構(gòu)和光照信息傳遞給融合圖像,使融合后的圖像包含更多的結(jié)構(gòu)信息,準(zhǔn)確還原真實(shí)光照。
如圖2所示,本文提出的交叉連接結(jié)構(gòu)的信息交換自編碼網(wǎng)絡(luò)(Information Exchanging Autoencoder Network,IEA-NET)包括編碼器和解碼器兩部分,為雙輸入和單輸出結(jié)構(gòu)。
圖2 交叉連接結(jié)構(gòu)的信息交換自編碼網(wǎng)絡(luò)IEA-NETFig.2 The network structure of IEA-NET
IEA-NET編碼器的兩個(gè)分支對稱,所以這里只介紹一個(gè)分支。首先,一個(gè)卷積層擴(kuò)展輸入圖像通道數(shù);然后,將擴(kuò)展后的圖像特征傳遞給三組Cut-in模塊進(jìn)行三個(gè)階段的特征提取和信息交換。
IEA-NET中使用交換支路,如圖2所示。該結(jié)構(gòu)將不同分支的特征交換到對稱分支相應(yīng)位置。每組Cut-in模塊提取信息后,交換兩分支信息。每個(gè)分支會(huì)得到來自對稱支路的信息補(bǔ)償,并由殘差模塊整合這些特征。最后,所有的特征通過四層卷積重建為融合圖像。本文使用網(wǎng)絡(luò)結(jié)構(gòu)融合特征,因此該網(wǎng)絡(luò)具有更強(qiáng)的泛化能力和融合性能。
Cut-in模塊結(jié)構(gòu)如圖所3所示。該模塊有兩個(gè)路徑:主路徑含三個(gè)卷積層,每個(gè)卷積層連接一個(gè)ReLU層;第二條路徑含一個(gè)卷積層和一個(gè)ReLU層。最后,兩條路徑通過Concat層連接。為了保持輸入和輸出通道數(shù)目相同,每個(gè)路徑中的通道數(shù)將會(huì)在輸入時(shí)減半。Cut-in塊有三個(gè)優(yōu)勢:1)該模塊進(jìn)行密集連接;2)這種體系結(jié)構(gòu)改善了通過網(wǎng)絡(luò)的梯度流,使網(wǎng)絡(luò)更容易訓(xùn)練;3)該結(jié)構(gòu)在提取特征時(shí)保留多尺度信息。
圖3 Cut-in模塊結(jié)構(gòu)示意圖Fig.3 The network structure of cut-in block
如圖4所示,補(bǔ)償分支獲取和傳遞結(jié)構(gòu)和光照信息并直接連接IEA-NET殘差模塊。
圖4 補(bǔ)償支路結(jié)構(gòu)示意圖Fig.4 The network structure of compensation branch
補(bǔ)償支路結(jié)構(gòu)如圖4所示,首先用兩個(gè)卷積層提取信息,然后通過最大池化層提取每個(gè)圖像塊中最大像素獲取結(jié)構(gòu)特征。一方面,該支路提取圖像邊界信息,增強(qiáng)結(jié)構(gòu)信息;另一方面,提取圖像更大范圍相似區(qū)域的背景信息,獲取更準(zhǔn)確的光照信息。接著Cut-in模塊進(jìn)一步提取特征,并對特征進(jìn)行反卷積。最大池化和反卷積可能會(huì)改變特征圖大小,為了確保最終圖像大小與原始圖像相同,本文使用‘填充/裁剪’層恢復(fù)圖像大小。最后,通過殘差模塊進(jìn)行信息整合,從而得到原始圖像的結(jié)構(gòu)信息和光照信息。本文算法總共使用了六個(gè)這樣的分支,其中三個(gè)對稱的分支使用不同窗口大小的最大池層(2/4/6)獲得三種不同尺度的特征,相應(yīng)地,反卷積層采用不同的步長(2/4/6).
雙輸入結(jié)構(gòu)有兩幅源圖像但只有一幅融合圖像,本文采用的數(shù)據(jù)集是由配對的紅外和可見光圖像組成。因此,我們設(shè)計(jì)雙路結(jié)構(gòu)損失函數(shù):Lssim和Lms-ssim,計(jì)算公式為:
Lssim=1-SSIM(0,I)
(4)
和
Lms-ssim=1-MSSSIM(0,I)
(5)
其中SSIM(O,I)為結(jié)構(gòu)相似性損失,MSSSIM(O,I)是多尺度結(jié)構(gòu)相似性損失??梢姽鈭D像支路和紅外圖像支路損失LVIS和LIR計(jì)算公式為:
LVIS=γ×Lssim(Ovis,I)+β×Lms-ssim(Ovis,I)
(6)
LIR=γ×Lssim(Oir,I)+β×Lms-ssim(Oir,I)
(7)
其中Oir是紅外源圖像,Ovis是可見光源圖像,I是融合圖像。γ設(shè)為0.8,β設(shè)為0.2.
本文采用RGB-NIR Scenes數(shù)據(jù)集[10]的954幅配對的紅外和可見圖像訓(xùn)練網(wǎng)絡(luò),通過對這些圖像進(jìn)行隨機(jī)裁剪(500×500的塊)、隨機(jī)鏡像、Resize和旋轉(zhuǎn),共獲得8 000幅訓(xùn)練圖像。訓(xùn)練集與驗(yàn)證集的比例為7∶1,同時(shí)所有圖像轉(zhuǎn)換為灰度圖像,以圖像對送入網(wǎng)絡(luò)進(jìn)行訓(xùn)練。本文算法使用Adam優(yōu)化器優(yōu)化網(wǎng)絡(luò),學(xué)習(xí)率設(shè)定為0.001.在訓(xùn)練中,若驗(yàn)證集損失函數(shù)指標(biāo)在5個(gè)epoch不發(fā)生變化,學(xué)習(xí)率減半,直到小于0.000 01會(huì)停止訓(xùn)練,如果驗(yàn)證損失10個(gè)epoch不變,訓(xùn)練也會(huì)停止。本文算法使用GTX2080Ti GPU訓(xùn)練,使用的深度學(xué)習(xí)平臺(tái)為Keras.
本文方法與基于CNN[11]的方法、DeepFuse[6]、DenseFuse[8]和FusionGAN[7]進(jìn)行比較。所有參與比較方法的參數(shù)都嚴(yán)格按照其原文設(shè)置配置。所有比較方法都是文章中給出的預(yù)訓(xùn)練模型,若無預(yù)訓(xùn)練模型,本文將嚴(yán)格按照原論文中訓(xùn)練參數(shù)訓(xùn)練網(wǎng)絡(luò)。
此外,本文還使用8個(gè)公認(rèn)的融合指標(biāo)評估結(jié)果。包括平均梯度AVG,反映小細(xì)節(jié)對比度和圖像中紋理變化特點(diǎn)和融合圖像的銳度。Qabf為從源圖像傳輸?shù)饺诤蠄D像的信息量,Labf為自源圖像的信息丟失量,SSIMa[12]為結(jié)構(gòu)相似性,MS-SSIMa[13]為多尺度結(jié)構(gòu)相似性,MEF代表融合后圖像的曝光質(zhì)量, Nabf計(jì)算融合圖像的偽影并表示為數(shù)值[14]。PSNRa為峰值信噪比,是基于誤差敏感的圖像質(zhì)量評價(jià)指標(biāo)。
本文對五種圖像融合方法主觀視覺評價(jià)和客觀質(zhì)量評價(jià)進(jìn)行了分析。本文選擇CNN[11],F(xiàn)usionGAN[7],DeepFuse[6]和DenseFuse[8]四個(gè)有代表性的結(jié)果進(jìn)行實(shí)驗(yàn)比較,融合結(jié)果如圖5所示。
從整體視覺感知角度看,CNN[11]和FusionGAN[7]方法所產(chǎn)生的圖像具有明顯的模糊和偽影,不能清楚反映圖像細(xì)節(jié)(如圖5(a)和(b)所示)。DeepFuse[6]、DenseFuse[8]和本文結(jié)果沒有明顯視覺差異(如圖5(c)、(d)和(e)所示),這三種方法都能準(zhǔn)確地恢復(fù)原始圖像細(xì)節(jié)并提供清晰的視覺感知,但本文結(jié)果擁有更清晰的邊緣信息(如圖5中第三行的圖像中的吉普車和圖5中第四行圖像中的人)。
(1)對場景光照環(huán)境恢復(fù)能力的主觀評測:
在恢復(fù)光照場景方面,CNN[11]方法在夜景上表現(xiàn)不佳(如圖5第一行圖像),其他四種方法表現(xiàn)良好。FusionGAN[7]、DeepFuse[6]和DenseFuse[8]錯(cuò)誤地將白天場景還原為夜景(如圖5第二行圖像),CNN[11]和本文方法準(zhǔn)確地恢復(fù)了光照場景。在這五種方法中,只有本文方法能在保持良好視覺感知的同時(shí),準(zhǔn)確地恢復(fù)白天和夜晚場景。
(2)客觀指標(biāo)評測:
如圖5所示, DeepFuse[6]、DenseFuse[8]和本文算法結(jié)果很難在人類感知上找出區(qū)別。為了驗(yàn)證算法的有效性,本文對TNO數(shù)據(jù)集中的20組圖像進(jìn)行測試并取平均值,實(shí)驗(yàn)結(jié)果展示在表1中。最佳值用粗體表示。本文方法獲得7個(gè)度量(Labf、Qabf、Nabf、SSIMa、PSNRa、MEF、MS-SSIMa)最佳值,以及一個(gè)度量(AVG)第二佳值。SSIMa和MS-SSIMa值表明,本文的方法可以更好地保存結(jié)構(gòu)信息。此外,最高的MEF值表示本文的方法具有良好的光照信息,而PSNRa和AVG值表示本文的方法具有良好的圖像質(zhì)量。Qabf值表示本文的方法獲得的圖像與源圖像更相關(guān),并且由于Labf值最小表示本文的圖像信息丟失最小。因此,本文的方法對于紅外和可見光圖像融合最有效。
圖5 TNO數(shù)據(jù)的視覺效果對比圖Fig.5 Visual results on the TNO dataset
表1 與四種優(yōu)秀方法的客觀指標(biāo)比較
在訓(xùn)練數(shù)據(jù)集中加入制作的電力圖像數(shù)據(jù),重新訓(xùn)練網(wǎng)絡(luò)使其更適合電力數(shù)據(jù)圖像融合。幾對具有代表性的實(shí)驗(yàn)結(jié)果如圖6所示。
(1)圖像邊緣信息感知效果的提升:
本文的圖像融合算法可以有效提高圖像邊緣信息感知效果,如圖6第一行圖像所示,框中的變壓器配電柜在紅外圖像和可見光圖像中都不清晰,經(jīng)過本文算法的融合,圖像可以更清晰的表現(xiàn)配電柜的紋理細(xì)節(jié)和邊緣信息。又如圖6第二行圖像所示,可見光圖像由于光照不足,基本處于不可見狀態(tài),而紅外圖像的邊緣模糊,經(jīng)過融合,框中的絕緣子具有更明顯的邊緣信息。
圖6 電力融合圖像的視覺效果Fig.6 Visual results on power image dataset
(2)圖像細(xì)節(jié)信息感知效果的提升:
本文的圖像融合算法可以有效提高圖像的細(xì)節(jié)信息感知效果。如圖6第三行圖像所示,紅外圖像變壓器圖像條紋模糊,而可見光圖像由于光照原因,無法很好表現(xiàn)細(xì)節(jié)信息。經(jīng)過圖像融合,如第三行框中融合圖像所示,變壓器條紋清晰,擁有良好細(xì)節(jié)信息和更好的視覺效果。再如圖6第四行框所示,融合圖像相較于可見光和紅外圖像具有更好的視覺效果和細(xì)節(jié)信息。
(3)紅外圖像和可見光圖像的信息綜合:
如圖6第5行所示,雖然紅外圖像對焦失敗,但經(jīng)過圖像融合,本文算法依然保留紅外圖像的熱量信息并與可見光圖像信息融合得到一副視覺效果良好的圖像。如圖6第六行框中電線桿所示,融合的圖像具有可見光圖像和紅外圖像獨(dú)有的特征,并整合在一張圖像中。
圖7給出了本文算法與其他深度學(xué)習(xí)紅外可見光融合圖像的對比,可以看到:CNN[11]算法融合后的圖像視覺效果不佳,融合圖像有大量偽影。FusioGAN[7]方法對圖像細(xì)節(jié)恢復(fù)較差,圖像紋理不夠清晰。Densefuse[8]整體對比度低。只有本文提出的算法,有良好的細(xì)節(jié),同時(shí)還有較強(qiáng)的對比度,目標(biāo)邊緣輪廓更加清晰。
圖7 電力融合圖像的對比視覺效果Fig.7 Visual comparison results on power image dataset
表2給出與其它算法的客觀指標(biāo)對比,CNN[11]雖然在數(shù)值上有優(yōu)勢,但是其視覺效果很差。本文算法雖然沒有取得數(shù)值的第一,但綜合主觀視覺效果和客觀數(shù)據(jù)結(jié)果,本文算法在擁有良好視覺效果的同時(shí),還有較高的客觀指標(biāo),因此,可以認(rèn)為是一種有效的電力圖像融合模型。
表2 與三種優(yōu)秀方法的客觀指標(biāo)比較
提出了一種具有很強(qiáng)泛化能力的紅外和可見光圖像融合方法。本文算法使用了一個(gè)交叉連接結(jié)構(gòu)的信息交換自編碼網(wǎng)絡(luò)(IEA-NET)和六個(gè)多尺度補(bǔ)償支路進(jìn)行圖像融合。根據(jù)主觀和客觀評測的驗(yàn)證,本文所提出的方法可提供有效的紅外與可見圖像融合。通過對實(shí)際電力圖像的融合,本文所提算法能夠有效提升邊緣信息質(zhì)量和圖像細(xì)節(jié)質(zhì)量,能夠?qū)⒓t外和可見光圖像信息整合為一張圖像,并取得了較好的性能。