陳清江,汪澤百,柴昱洲
(1. 西安建筑科技大學(xué) 理學(xué)院,陜西 西安 710055;2. 中國(guó)空間技術(shù)研究院西安分院,陜西 西安 710100)
圖像融合是圖像處理中的重要部分,能夠協(xié)同利用同一場(chǎng)景的多種傳感器圖像信息,輸出一幅更適合于人類視覺(jué)感知或計(jì)算機(jī)進(jìn)一步處理與分析的融合圖像。它可明顯改善單一傳感器的不足,提高結(jié)果圖像的清晰度及信息包含量,有利于更為準(zhǔn)確、可靠、全面地獲取目標(biāo)或場(chǎng)景信息。
在可見光圖像中成像設(shè)備捕獲目標(biāo)圖像,對(duì)于捕獲目標(biāo)部分的有效聚焦圖像是清晰可見的,而非目標(biāo)區(qū)域的其他物體則為模糊。因此,對(duì)于光學(xué)透鏡捕捉的成像圖很難做到所有物體處處聚焦,提出多種多焦點(diǎn)圖像融合算法[1]。總的來(lái)說(shuō),這些方法可以分為兩類:變換域方法和空間域方法[2],多尺度變換(MST)是最常用的變換域方法之一。傳統(tǒng)的融合方法包括基于金字塔的圖像融合[3]、基于剪切變換圖像融合和基于非子采樣輪廓變換(NSCT)[4]的圖像融合算法等。最近提出的融合方法包括基于像素的融合方法,主要有引導(dǎo)濾波(DSIFT)[2]、基于多尺度加權(quán)梯度的圖像融合算法(MWGF)[5]、基于低秩矩陣(LRR)[6]的多聚焦噪聲圖像融合算法、基于離散小波變換的多聚焦圖像融合算法[7],隨著深度學(xué)習(xí)的發(fā)展,結(jié)合深度學(xué)習(xí)解決多聚焦圖像融合[8]的方法得到廣泛推廣,如基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)的多聚焦圖像融合[9-10]、基于全卷積網(wǎng)絡(luò)的多聚焦圖像融合[11-12]。對(duì)于一個(gè)簡(jiǎn)單的二分類問(wèn)題,本文優(yōu)先選擇精度相對(duì)較高的VGGNet網(wǎng)絡(luò)[13]進(jìn)行修改。輸入子塊的多特征,保證了圖像的分類精度。全圖處理容易損失較多高頻信息,于是本文只對(duì)左右圖像的混合聚焦散焦部分進(jìn)行處理,在信息熵、互信息等方面得到較好的融合效果。
VGGNet[13]是由牛津大學(xué)的K.Simonyan 和A.Zisserman 提出的卷積神經(jīng)網(wǎng)絡(luò)模型,該模型詮釋了隱層深度對(duì)于預(yù)測(cè)精度的影響,訓(xùn)練時(shí)間和AlexNet 相比大大減少。該模型在ImageNet 中達(dá)到了92.7%的top5 測(cè)試精度,VGGNet 結(jié)構(gòu)根據(jù)層數(shù)的不同分為不同的版本,常用的結(jié)構(gòu)是VGG16和VGG19,在VGG16 中所有的卷積層都有相同的配置,卷積層中卷積核大小為 3×3,步長(zhǎng)大小為1,最大池化層共5 個(gè),其核大小都為 2×2,步長(zhǎng)為2;全連接層共3 個(gè),前兩層共有4 096 個(gè)通道,第3 層共1 000 個(gè)標(biāo)簽類別;最后一層為Softmax 層;所有隱層后都帶有ReLU 非線性激活函數(shù),總體結(jié)構(gòu)如圖1 所示。
圖 1 VGG16 網(wǎng)絡(luò)模型Fig. 1 VGG16 network model
本文只需要處理聚焦圖和散焦圖的簡(jiǎn)單二分類問(wèn)題,并不需要過(guò)深的隱層,多個(gè)殘余的隱層影響了訓(xùn)練速率,通過(guò)逐個(gè)隱層刪除,部分隱層添加,最終設(shè)計(jì)為本文的Crop-VGG 網(wǎng)絡(luò),在保證精度的同時(shí)提高了訓(xùn)練速率。
如圖2 所示,Crop-VGG 是基于VGG16 對(duì)二分類問(wèn)題的更改,并不需要過(guò)深的網(wǎng)絡(luò)層,于是裁剪了一部分網(wǎng)絡(luò),在保留原有分類效果的同時(shí),提高分類速度。與原網(wǎng)絡(luò)相比,Crop-VGG 卷積層卷積核大小、池化層大小、步長(zhǎng)都與原VGG 網(wǎng)絡(luò)保持一致,區(qū)別在于卷積層數(shù)由原來(lái)的13 變?yōu)?,由2-2-3-3-3 變?yōu)榱?-3-3 結(jié)構(gòu),最大池化層由5 個(gè)變?yōu)? 個(gè),卷積層中卷積核大小都為 3×3,步長(zhǎng)為1,最大池化層核大小 2×2,步長(zhǎng)為2;全連接層共3 層,前兩層通道數(shù)由原來(lái)的4 096 變?yōu)? 048,輸出類別變?yōu)?,每個(gè)隱層都跟有非線性激活函數(shù)ReLU,最后一層為Softmax 層?;赾affe 框架下,將預(yù)處理數(shù)據(jù)集網(wǎng)絡(luò)訓(xùn)練,隨著迭代次數(shù)增加,loss 的收斂速度有明顯提升,隨著迭代次數(shù)增加,當(dāng)loss 值達(dá)到收斂后,精確率保持在0.985 以上(如圖3)。
圖 2 Crop-VGG 網(wǎng)絡(luò)模型Fig. 2 Crop-VGG network model
圖 3 epoc 圖與loss 圖Fig. 3 Diagram of epoc and loss
步驟1) 選取紋理多樣的一組清晰圖,使用點(diǎn)擴(kuò)散(point spread function)方法進(jìn)行模糊處理。因?yàn)辄c(diǎn)源在經(jīng)過(guò)任何光學(xué)系統(tǒng)后都會(huì)由于衍射而形成一個(gè)擴(kuò)大的像點(diǎn),通過(guò)測(cè)量系統(tǒng)的點(diǎn)擴(kuò)展函數(shù),能夠更準(zhǔn)確地提取圖像信息,這里使用點(diǎn)擴(kuò)散函數(shù)更加符合光學(xué)散焦過(guò)程。對(duì)于分類訓(xùn)練,需要擴(kuò)大清晰和模糊的區(qū)分度,于是設(shè)置擴(kuò)散半徑r=10,獲取一組聚焦和散焦圖像。
步驟2) 將兩組圖像分別分割為 32×32像素的小塊。首先使用二維離散小波[14]變換對(duì)圖像進(jìn)行分解。設(shè)原始圖像為C0=(c0mn),則
步驟3) 將所有對(duì)應(yīng)位置的Sobel 算子處理后的圖像與步驟2 的HL、LH、HH 拼接成一幅圖像組作為輸入訓(xùn)練數(shù)據(jù)輸入目標(biāo)網(wǎng)絡(luò)中,完整步驟如圖4 所示。
圖 4 訓(xùn)練集預(yù)處理模型Fig. 4 Training set preprocessing model
對(duì)于訓(xùn)練好的二分類網(wǎng)絡(luò)模型逐塊進(jìn)行模糊評(píng)測(cè)[15],進(jìn)行閾值為0.5 的分割,其中,聚焦區(qū)塊概率接近于1,散焦區(qū)塊概率接近于0。對(duì)于介于中間聚焦散焦混合區(qū)塊做如下判別:
式中y 、 x、 c為分別為四角區(qū)塊、四邊區(qū)域方塊、中間區(qū)域方塊,它們是否為1 取決于周圍方塊 a的聚焦塊數(shù)量,這種方法可以將圖像中空洞區(qū)域塊有效去除,如圖5 所示。
通過(guò)分類訓(xùn)練后對(duì)目標(biāo)圖A 和目標(biāo)圖B 進(jìn)行了分類處理,如圖6 所示,依據(jù)形態(tài)學(xué)分割[16]為3 個(gè)權(quán)重矩陣,分別為 α 、 β 、 γ 。其中 α、 β為已確定的聚焦區(qū)域的權(quán)值矩陣,只需要對(duì)γ 矩陣的細(xì)節(jié)處理。 T1、 T2 是由兩幅原聚焦圖像通過(guò) γ權(quán)值矩陣分割出來(lái)的聚焦散焦混合部分,即:
圖 5 處理誤判的區(qū)塊的矯正矩陣Fig. 5 Correction matrix for handling misjudged blocks
分別對(duì)T1 和T2 進(jìn)行點(diǎn)擴(kuò)散函數(shù) ?的散焦處理, φ函數(shù)用來(lái)求目標(biāo)像素點(diǎn)與 3×3區(qū)域鄰近像素點(diǎn)方差,通過(guò)統(tǒng)計(jì)像素點(diǎn)之間的模糊變化關(guān)系,經(jīng)過(guò)閾值分割后能夠提高在邊界部分像素點(diǎn)區(qū)分度,如(5)式所示:
由于只判斷中間混合區(qū)域,因此本文方法實(shí)現(xiàn)時(shí)受全局誤判點(diǎn)干擾較少,邊界部分信息明確,生成初步邊界區(qū)域明顯的分割權(quán)值圖像矩陣 τ1:
對(duì) τ1中的空洞點(diǎn)再進(jìn)行一次形態(tài)學(xué)空洞補(bǔ)全的修復(fù)處理,得到最終分割區(qū)域明顯的 τ2權(quán)值矩陣。最終的融合圖像 AB為
圖 6 像素級(jí)形態(tài)融合Fig. 6 Pixel level morphological fusion
在實(shí)驗(yàn)中,我們使用了幾對(duì)輸入圖像作為測(cè)試圖像,驗(yàn)證了該方法的可行性。將本文提出的多焦點(diǎn)圖像融合算法與最新的多聚焦圖像融合算法如MWGF[4]、DCTvarcv[17]、DSIFT[2]等進(jìn)行了比較,下面介紹圖像融合的詳細(xì)討論分析結(jié)果。
圖7~圖10 展示了圖像融合視覺(jué)質(zhì)量的主觀評(píng)價(jià),為了對(duì)比不同的多聚焦圖像算法的融合效果,選取4 組多聚焦圖像。Image A 與Image B 為需要融合的左右聚焦圖,其他圖像為每個(gè)算法對(duì)應(yīng)的融合圖像。例如,在圖7 中圖片整體清晰度較高,在圖8 中,樹木邊緣參差的紋理特征比較其他算法接近于原始圖像,除去邊緣的其他細(xì)節(jié)部分完全保留原始圖像信息,而在圖9 中手背部分與圖10 瓶子邊界部分清晰程度較高。
表1~表5 為Vegetables、Tree、A globe、The bottle 4 類多聚焦融合圖像在幾種算法中的表現(xiàn),通過(guò)數(shù)據(jù)結(jié)果可以看出本文算法在信息熵、平均梯度、圖像清晰度、邊緣信息保持度、互信息上的得分情況基本優(yōu)于其他算法。這說(shuō)明本文算法能夠減少細(xì)節(jié)與邊緣信息的損失,對(duì)于圖像整體信息量保存較完整,邊緣層次比較多,清晰度也明顯高于其他算法。改進(jìn)的VGG 網(wǎng)絡(luò)能夠更好地保存高頻信息,抽選兩組表的數(shù)據(jù)在各類算法的比較如圖11 所示。
圖 7 Vegetables 在不同算法的融合表現(xiàn)Fig. 7 Fusion performance of Vegetables in different algorithms
圖 8 Tree 在不同算法的融合表現(xiàn)Fig. 8 Fusion performance of Tree in different algorithms
圖 9 A globe 在不同算法的融合表現(xiàn)Fig. 9 Fusion performance of A globe in different algorithms
圖 10 The bottle 在不同算法的融合表現(xiàn)Fig. 10 Fusion performance of The bottle in different algorithms
表 1 各類算法在信息熵的對(duì)比Table 1 Comparison of various algorithms in information entropy
表 2 各類算法在平均梯度的對(duì)比Table 2 Comparison of various algorithms in average gradient
表 3 各類算法在圖像清晰度的對(duì)比Table 3 Comparison of various algorithms in image clarity
表 4 各類算法在邊緣信息保持度的對(duì)比Table 4 Comparison of various algorithms in edge information retention
表 5 各類算法在互信息的對(duì)比Table 5 Comparison of various algorithms in mutual information
圖 11 A globe 和The bottle 在各類算法的融合表現(xiàn)Fig. 11 Fusion performance of A globe and The bottle in different algorithms
本文提出的結(jié)合深度學(xué)習(xí)與統(tǒng)計(jì)特征的方法解決復(fù)雜的實(shí)際問(wèn)題是可行的,Crop-VGG 網(wǎng)絡(luò)中能以較少運(yùn)算速率保留更多的原始圖像信息,同時(shí)結(jié)合統(tǒng)計(jì)特征的融合算法在各類指標(biāo)上具有良好的表現(xiàn),所以針對(duì)不同的問(wèn)題復(fù)雜度設(shè)計(jì)相應(yīng)的深度網(wǎng)絡(luò)能更加便捷地處理問(wèn)題。