宋蓓蓓,馬穗娜,何 帆,孫文方
(1. 長安大學(xué) 信息工程學(xué)院,陜西 西安 710064;2. 西安電子科技大學(xué) 空間科學(xué)與技術(shù)學(xué)院,陜西 西安 710126)
高光譜圖像(Hyperspectral Image,HSI)的光譜分辨率在0.01λ量級,在電磁波譜的可見光和近紅外區(qū)域內(nèi)其譜段數(shù)達幾十甚至數(shù)百個。高光譜圖像具有圖譜合一和空譜相關(guān)性較強等特性,因此在軍事[1-2]、農(nóng)業(yè)[3]、海洋[4]、環(huán)境監(jiān)測[5]和醫(yī)學(xué)物理研究[6-7]等領(lǐng)域越來越受到重視。與傳統(tǒng)的RGB 三譜段多光譜成像相比,高光譜圖像的主要優(yōu)勢在于能夠在更寬的光譜響應(yīng)范圍內(nèi)以更高的光譜高分辨率捕獲更多細(xì)節(jié)。然而,相對普遍裝備的低成本RGB 成像相機,高光譜成像設(shè)備價格昂貴,難以廣泛應(yīng)用,因此,從RGB圖像重建高光譜圖像的技術(shù)引起學(xué)術(shù)界和工業(yè)界的關(guān)注[8-9]。
由計算機視覺和模式識別領(lǐng)域的頂級學(xué)術(shù)會議CVPR(IEEE Conference on Computer Vision and Pattern Recognition)組 織 的NTIRE(New Trends in Image Restoration and Enhancement)挑戰(zhàn)賽[8]是近年來計算機視覺領(lǐng)域非常有影響力的賽事,其內(nèi)容包括圖像去模糊、去霧、去噪及超分辨率重建等。RGB-高光譜圖像重建(Challenge on Spectral Reconstruction from an RGB Image)是NTIRE 挑戰(zhàn)賽的項目之一,于2018 年 和2020 年 成 功 主 辦 過 兩 次[8-9]。RGB-高光譜圖像重建挑戰(zhàn)賽提供了較大的數(shù)據(jù)集,參賽者基于數(shù)據(jù)集構(gòu)建從RGB 圖像到高光譜圖像的映射方法,以獲得高質(zhì)量的高光譜重建圖像。
較早的圖像重建方法主要集中在建立稀疏表示與壓縮感知(Compressive Sensing,CS),以及淺層網(wǎng)絡(luò)學(xué)習(xí)模型上[10-13],泛化能力有限,重建圖像質(zhì)量較差。在2018 年的RGB-高光譜圖像重建挑戰(zhàn)賽上,主辦方提供了包含256 個RGB-高光譜圖像對的BGU HS 數(shù)據(jù)集。在大數(shù)據(jù)背景下,深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)在RGB-高光譜圖像重建方面得到了大量應(yīng)用。Xiong 等[14]提出了一種由自適應(yīng)殘差塊組成的深度殘差網(wǎng)絡(luò)HSCNNR。為了進一步提高性能,他們設(shè)計了一種基于密集連接結(jié)構(gòu)的更深層次HSCNN-D 模型和基于融合的后處理方案,重建精度有所提升,但是網(wǎng)絡(luò)參數(shù)量和計算量卻大幅增加。Stiebel 等[15]將語義分割中常用的Unet 網(wǎng)絡(luò)[16]引入到這項工作中,考慮到光譜重建的特殊性,刪除了Unet 網(wǎng)絡(luò)中的池化層和批量歸一化(Batch Normalization,BN)[17]處理,最終獲得第四名的好成績。為了解決近紅外光譜段信息難以重建的問題,Zhou等構(gòu)建了包括一個生成器和兩個鑒別器的生成對抗網(wǎng)絡(luò)[18],其中一個鑒別器關(guān)注全光譜段信息,另外一個鑒別器僅關(guān)注近紅外光譜段信息,但需要在訓(xùn)練集中刪除與測試集不匹配的部分?jǐn)?shù)據(jù),以避免訓(xùn)練過程中出現(xiàn)振蕩現(xiàn)象,因此網(wǎng)絡(luò)的魯棒性較差。
在2020 年的RGB-高光譜圖像重建挑戰(zhàn)賽上,一個更大的數(shù)據(jù)集ARAD HS 被公開,參賽算法的性能獲得顯著提升。Li 等[19]提出了一種自適應(yīng)加權(quán)注意力機制網(wǎng)絡(luò)(Adaptive Weighted Attention Network,AWAN),其中的長短跳躍連接有助于建立遠(yuǎn)程像素的相關(guān)性,有效提高了重建精度,但需要預(yù)先已知光譜響應(yīng)曲線,實用性較 差。Zhao 等[20]提 出 了 一 個4 級 分 層 回 歸 網(wǎng) 絡(luò)(Hierarchical Regression Network,HRNet),使用殘差模塊和密集連接方法,有助于去除重建噪聲和減少重建偽影。Peng 等[21]為光譜重建設(shè)計了一個殘差像素注意網(wǎng)絡(luò)(Residual Pixel Attention Network,RPAN),可以自適應(yīng)地重新縮放每個通道中的像素級特征。
綜上所述,現(xiàn)有的光譜重建主要通過加深網(wǎng)絡(luò)、加寬網(wǎng)絡(luò),以及多網(wǎng)絡(luò)融合等方法提升重建性能,但模型參數(shù)量和計算量會成倍增加。由于圖像高頻紋理特征信息會隨著網(wǎng)絡(luò)加深而丟失,當(dāng)網(wǎng)絡(luò)結(jié)構(gòu)不能充分保護這些高頻信息時將限制網(wǎng)絡(luò)的性能。因此,本文提出了一種基于類Unet 結(jié)構(gòu)的RGB-高光譜圖像重建網(wǎng)絡(luò)(Res2-Unet)。整個 網(wǎng) 絡(luò) 以Unet 架 構(gòu) 為 基 礎(chǔ),引 入Res2Net[22]模 塊構(gòu)建其骨干網(wǎng)絡(luò),利用Res2Net 的殘差連接、多尺度融合等特性可更加細(xì)粒度地提取圖像的局部和全局特征,同時加入通道注意力機制[23-24]能自適應(yīng)調(diào)節(jié)通道特征響應(yīng),編解碼間的跳躍連接可充分融合不同尺度的高頻信息。最后,在NTIRE 2020 挑戰(zhàn)賽提供的ARAD HS 數(shù)據(jù)集上進行性能測試,結(jié)果表明,Res2-Unet 方法無論在客觀評價還是主觀視覺方面均具有較好的結(jié)果。
RGB-高光譜重建屬于圖像恢復(fù)范疇,而回歸是解決圖像恢復(fù)的常用方法。Unet[16]網(wǎng)絡(luò)是一種回歸網(wǎng)絡(luò),最早用于醫(yī)療影像分割,包括編碼網(wǎng)絡(luò)和解碼網(wǎng)絡(luò)兩部分。編碼網(wǎng)絡(luò)對輸入圖像進行多次卷積和池化操作,特征圖的分辨率逐步變低,但特征圖的通道數(shù)量不斷增加,以達到整合多尺度上下文信息的目的。解碼網(wǎng)絡(luò)對特征圖進行多次上采樣和卷積操作,特征圖的分辨率不斷提高,最終恢復(fù)到原始圖像的分辨率。不同于Segnet 網(wǎng)絡(luò)[25],Unet 網(wǎng)絡(luò)利用圖像的多尺度信息在編碼和解碼通道之間使用跳躍連接融合圖像的淺層與深層特征。Unet 的編碼網(wǎng)絡(luò)部分采用VGG16 作為主干網(wǎng)絡(luò),但是VGG16 網(wǎng)絡(luò)層數(shù)多、參數(shù)多,所以具有計算量大、訓(xùn)練收斂慢的缺點。為了解決這一問題,近年來一種結(jié)合ResNet[26]和Unet 的Res-Unet[27]被 提 出,ResNet網(wǎng)絡(luò)的殘差結(jié)構(gòu)不僅在不降低精度的情況下?lián)碛休^少的網(wǎng)絡(luò)參數(shù),而且可以克服梯度發(fā)散問題得到更快的收斂速度。
Res2Net 是一種新穎的卷積神經(jīng)網(wǎng)絡(luò)模塊架構(gòu)[22],其結(jié)構(gòu)如圖1 所示。它使用3×3 群卷積層代替ResNet 模塊中的一個3×3 卷積層,在物體檢測、面部分析、邊緣檢測、語義分割、顯著性物體檢測和骨架檢測中都能有效提升性能。在Res2Net 模塊中,輸入經(jīng)過1×1 卷積后將特征圖按通道平均分為s個子集。除了第一個子集外,其他每個特征圖子集都要經(jīng)過3×3 卷積層處理。由于子集之間的連接操作,每一個3×3 卷積層均接收到它之前所有特征圖子集的信息,因此可以得到更大的感受野。Res2Net 模塊的輸出包含了多種大小、尺度和數(shù)量的感受野及其組合。這種分組、合并的策略使得卷積層以更細(xì)粒度級別表達多尺度特征,能夠更有效地處理特征圖信息。參數(shù)s用于控制尺度維度,更大的s能提供更多不同尺寸的感受野,但同時也會增加計算量和內(nèi)存消耗,一般選擇s=4。
圖1 Res2Net 模塊Fig.1 Res2Net module
本文結(jié)合Unet 和Res2Net 的優(yōu)勢,提出了一種稱為Res2-Unet 的深度學(xué)習(xí)網(wǎng)絡(luò)以解決RGB-高光譜重建問題。
Res2-Unet 網(wǎng)絡(luò)結(jié)構(gòu)如圖2 所示,左側(cè)是編碼網(wǎng)絡(luò),右側(cè)是解碼網(wǎng)絡(luò),共4 個尺度。在編碼網(wǎng)絡(luò)部分主要使用3×3 卷積、Res2Net-SE 和PixelUnShuffle[28]等3 種模塊。
圖2 Res2-Unet 網(wǎng)絡(luò)結(jié)構(gòu)Fig.2 Network architecture of Res2-Unet
首先,采用3×3 卷積模塊提取圖像淺層特征。輸入RGB 圖像x,進行128 個通道的3×3 卷積,即:
用卷積建模的多通道之間具有固定的隱式和局部性關(guān)系,而高光譜的多通道特性期望以顯式方式改變通道之間的相互依賴性來增強對卷積特征的學(xué)習(xí),以增強網(wǎng)絡(luò)對捕獲特征的敏感性。由于SE(Squeeze and excitation networks)模塊[23]具備全局信息嵌入和自適應(yīng)激勵調(diào)節(jié)功能,能有效解決通道依賴性問題,因此提出網(wǎng)絡(luò)采用Res2Net-SE 模塊進行特征映射。Res2Net-SE 模塊結(jié)構(gòu)如圖3(a)所示,它在Res2Net 模塊基礎(chǔ)上增加了SE 模塊。
圖3 Res2Net-SE 模塊和SE 模塊Fig. 3 Res2Net-SE module and SE block
SE 模塊首先使用全局平均池化層將全局空間信息壓縮到通道域以實現(xiàn)空間信息的聚合。
其中:z(c)是通道c的全局平均池化結(jié)果,o(c,i,j)是通道c特征圖在空間(i,j)處的值,H和W分別為特征圖在行列方向的數(shù)據(jù)量。然后,使用ReLU 和Sigmoid 函數(shù)來獲得通道之間的依賴關(guān)系,即:
其中:δ是ReLU 函數(shù),σ是Sigmoid 激活函數(shù),W1∈RC/r×C和W2∈RC×C/r是 線 性 映 射 函 數(shù),r為 壓 縮比,取32。
SE 模塊具備通道注意力機制,可以保護重要的通道特征。由于高光譜圖像具備多通道特性,引入SE 模塊對高光譜圖像的多通道數(shù)據(jù)重建調(diào)節(jié)具有一定的作用。因此,Res2Net-SE 模塊不僅可以在更加細(xì)粒度級別捕捉局部和全局的圖像特征,同時殘差連接也有助于增強上下文信息,且具備多通道自適應(yīng)調(diào)節(jié)能力。于是Res2-Unet 編碼網(wǎng)絡(luò)的第一尺度特征映射函數(shù)可表示為:
其中:Fmap(1)(·)為第一尺度特征映射函數(shù),它由兩個Res2Net-SE 模塊級聯(lián)得到,每個通道的特征圖與原始輸入圖像具有相同的分辨率;FRes2Net-SE(·)是Res2Net-SE 模塊的特征映射函數(shù)。不同于Unet,在Res2-Unet 網(wǎng)絡(luò)的第二尺度特征映射中采用PixelUnShuffle 取代Maxpooling 進行下采樣。PixelUnShuffle 的優(yōu)勢在于每經(jīng)過一次操作后特征總量不發(fā)生變化,雖然特征圖的分辨率降低1倍,但特征通道的數(shù)量會變?yōu)樵鹊? 倍。Res2-Unet 編碼網(wǎng)絡(luò)的第二尺度特征映射函數(shù)可表示為:
其中:Fmap(2)(·)為第二尺度特征映射函數(shù),F(xiàn)PUS(·)為PixelUnShuffle 操作。x3每個通道特征圖的分辨率為x2的一半,通道數(shù)卻增加了一倍。Res2-Unet 網(wǎng)絡(luò)的第三、四尺度特征映射采用與第二尺度特征映射一樣的處理方法。
在解碼網(wǎng)絡(luò)部分,首先使用一個1×1 的無填充卷積操作,對所有通道進行加權(quán)處理可獲得更佳的深層特征信息表示。另外,使用PixelShuffle層進行上采樣處理,與傳統(tǒng)的最鄰近或雙線性上采樣插值不同,PixelShuffle 每經(jīng)過一次操作后特征總量不發(fā)生變化,特征圖分辨率提升1 倍,特征通道數(shù)量變?yōu)樵鹊?/4,這樣能有效地保留特征。網(wǎng)絡(luò)的最后部分使用兩個3×3 卷積層將特征圖映射到目標(biāo)高光譜圖像。
由于L1損失函數(shù)對異常值不敏感,具有穩(wěn)定的梯度,且相對其他傳統(tǒng)損失函數(shù)產(chǎn)生較弱的空間紋理模糊現(xiàn)象,因此Res2-Unet 網(wǎng)絡(luò)使用L1損失函數(shù)進行網(wǎng)絡(luò)訓(xùn)練。L1損失函數(shù)定義為:
其中:x和y分別是輸入的RGB 圖像和參考的高光譜圖像,G(·)是以上提出的重建網(wǎng)絡(luò)Res2-Unet。
采用來自NTIRE 2020 挑戰(zhàn)賽提供的ARAD HS 數(shù) 據(jù) 集[8]對 網(wǎng) 絡(luò) 進 行 訓(xùn) 練 和 測 試。ARAD HS 數(shù)據(jù)集分為兩部分,一部分用于Clean賽道,另一部分用于Real World 賽道。每個賽道均包含由450 個RGB-HS 圖像對組成的訓(xùn)練集、10 個RGB-HS 圖像對組成的驗證集,而測試集中僅提供了10 幅RGB 圖像,但與之對應(yīng)的高光譜數(shù)據(jù)不可下載。因此,實驗中將驗證集中的10 個RGB-HS 圖像對作為測試集。其中,高光譜圖像由400~700 nm 中31 個波段的光譜圖像組成,每個波段的圖像尺寸為482×512 像素,每個波段帶寬為10 nm。Clean 賽道中的RGB 圖像由對應(yīng)的高光譜圖像經(jīng)過固定的光譜響應(yīng)函數(shù)生成,如下:
其中:R為31×3 的矩陣,是由相機的RGB 三色光譜響應(yīng)曲線[29]離散化處理得到。Real World賽道中的RGB 圖像不僅由對應(yīng)的高光譜圖像經(jīng)過固定的光譜響應(yīng)函數(shù)進行變換處理,而且疊加了一定強度的高斯噪聲用于模擬相機的電子噪聲,并最終通過了去馬賽克效應(yīng)運算,整個處理流程更接近實際的RGB 成像過程。以上所有的高光譜數(shù)據(jù)均經(jīng)過歸一化處理,數(shù)值為0~1。
NTIRE 2020 挑戰(zhàn)賽主要采用平均相對絕對誤差(Mean of Relative Absolute Error,MRAE)和均方根誤差(Root Mean Square Error,RMSE)來評價網(wǎng)絡(luò)的高光譜圖像重建性能,MRAE 和RMSE 的計算公式如下:
其中:SAM(i,j)為圖像(i,j)位置的光譜角:
MRAE,RMSE 和MSAM 越小,重建性能越好,而PSNR 值越大表示重建性能越好。
除此之外,統(tǒng)計網(wǎng)絡(luò)參數(shù)量用于評價網(wǎng)絡(luò)計算空間復(fù)雜度。網(wǎng)絡(luò)參數(shù)量越多表明存儲網(wǎng)絡(luò)所用內(nèi)存空間越大。網(wǎng)絡(luò)浮點運算數(shù)(Floating Point Operations,F(xiàn)LOPs)用 于 評 價 網(wǎng) 絡(luò) 計算時間復(fù)雜度,F(xiàn)LOPs 越大,網(wǎng)絡(luò)運算耗時越長。
設(shè)計的網(wǎng)絡(luò)使用Leaky-ReLU[30]類型的激活函數(shù),它相比ReLU 具有更好的非線性性并可加速收斂。整個過程未采用BN 操作,這是因為BN操作會破壞圖像的對比度信息,不利于圖像重建,且會導(dǎo)致訓(xùn)練速度緩慢,甚至訓(xùn)練發(fā)散。網(wǎng)絡(luò)中的每個卷積層采用鏡像填充的邊緣填充方式,可以有效降低邊界效應(yīng)。
實驗的所有網(wǎng)絡(luò)訓(xùn)練和測試均是基于Pytorch 深 度 學(xué) 習(xí) 平 臺,GPU 是NVIDIA GeForce RTX 3090,每個網(wǎng)絡(luò)訓(xùn)練10 000 個Epoch,初始學(xué)習(xí)率為10-4,每經(jīng)過2 000 個Epoch 后學(xué)習(xí)率減半。訓(xùn)練過程中,Batch Size 設(shè)置為16,參數(shù)優(yōu)化算 法 使 用Adam 優(yōu) 化 器,其 中β1=0.5,β2=0.999,e=10-8。
3.4.1 結(jié)果比較
與NTIRE 2020 挑戰(zhàn)賽最優(yōu)秀的兩種網(wǎng)絡(luò)AWAN[19]和HRNet[20]進 行 對 比 實 驗,Clean 和Real World 兩個賽道的測試集各10 組數(shù)據(jù)分別進行高光譜圖像重建,將重建圖像與參考圖像代入式(8)~式(12),計算得到MRAE,RMSE,PSNR 和MSAM 的均值和標(biāo)準(zhǔn)偏差,結(jié)果如表1和表2 所示。在評價結(jié)果均值相當(dāng)?shù)那闆r下,其標(biāo)準(zhǔn)偏差越小表明算法魯棒性越好;而標(biāo)準(zhǔn)偏差較大則說明模型對某些數(shù)據(jù)的重建效果較好,對其他一些數(shù)據(jù)的重建效果較差。
與AWAN 和HRNet 兩種優(yōu)秀的方法相比,提出的方法無論是在Clean 賽道還是在Real World 賽道中各項評價都取得了最好的統(tǒng)計結(jié)果。兩個賽道中,提出方法與AWAN 方法的MRAE 均值相當(dāng),但是MRAE 的標(biāo)準(zhǔn)偏差更小,表明提出方法在處理各種場景數(shù)據(jù)時性能更為穩(wěn)定。對于PSNR 和MSAM 兩種評價方法,無論是在均值結(jié)果還是標(biāo)準(zhǔn)偏差結(jié)果方面,提出方法均獲得較為顯著的優(yōu)勢。在Clean 賽道中,提出方法的PSNR 平均值相比AWAN,HRNet 分別 高 出0.08 dB 和1.73 dB;在Real World 賽 道中,PSNR 平均值分別高出0.72 dB 和0.97 dB。
AWAN,HRNet 和提出網(wǎng)絡(luò)的網(wǎng)絡(luò)參數(shù)量分別為17.421M,31.705M 和34.651M,網(wǎng)絡(luò)浮點運算數(shù)分別為1.142T,164.013G 和117.481G,單幅圖像的網(wǎng)絡(luò)運行時間分別為4.600 8,2.605 8和2.144 7 s。AWAN 的網(wǎng)絡(luò)參數(shù)量最少,但是網(wǎng)絡(luò)浮點運算數(shù)最多且運算時間最長。提出網(wǎng)絡(luò)的參數(shù)量較其他方法稍多,但網(wǎng)絡(luò)浮點運算數(shù)最少且運算時間最短,表明提出網(wǎng)絡(luò)的計算空間復(fù)雜度適中,計算時間復(fù)雜度最低。
表3 和表4 分別給出了AWAN,HRNet 和提出網(wǎng)絡(luò)在10 組測試數(shù)據(jù)中測得MRAE,RMSE,PSNR 和MSAM 的相關(guān)系數(shù)。當(dāng)兩種評價方法獲得結(jié)果數(shù)據(jù)的相關(guān)系數(shù)越大,說明兩者的關(guān)系越強,即兩者評價的一致性越好。在3 種網(wǎng)絡(luò)中,MRAE 與MSAM 之間的相關(guān)系數(shù)均大于0.93,表現(xiàn)出極強的正相關(guān)性,評價結(jié)果的一致性好。PSNR 與RMSE 之間的相關(guān)系數(shù)均小于-0.94,表現(xiàn)出極強的負(fù)相關(guān)性,顯然印證了式(10)所表示兩者的負(fù)相關(guān)關(guān)系,它們評價結(jié)果的一致性好。因此,MRAE,RMSE,PSNR 和MSAM 均是有效的評價方法。
對比表1 和表2,相同網(wǎng)絡(luò)在Real World 賽道測試結(jié)果均差于Clean 賽道。對比表3 和表4,Real World 賽道測試結(jié)果相關(guān)系數(shù)的絕對值普遍低于Clean 賽道。這表明由于Real World賽道的測試數(shù)據(jù)引入了噪聲和JPEG壓縮效應(yīng),所有網(wǎng)絡(luò)更難以重建光譜信息,且重建結(jié)果的穩(wěn)定性較差。
表1 Clean 賽道測試結(jié)果比較Tab.1 Comparison of test results for Clean track
表2 Real World 賽道測試結(jié)果比較Tab.2 Comparison of test results for Real World track
表3 Clean 賽道測試結(jié)果相關(guān)系數(shù)Tab.3 Correlation coefficients of test results on Clean track
表4 Real World 賽道測試結(jié)果相關(guān)系數(shù)Tab.4 Correlation coefficients of test results on Real World track
圖4~圖7 是兩個賽道中兩組測試數(shù)據(jù)通過AWAN,HRNet 和Res2-Unet 3 種網(wǎng)絡(luò)獲得重建光譜圖像與參考光譜圖像的光譜角制圖的比較。圖4(a)是輸入的RGB 三通道彩色圖像,圖4(b)是二值圖,亮處表明該處由Res2-Unet 網(wǎng)絡(luò)獲得的SAM 值比AWAN 網(wǎng)絡(luò)獲得 的SAM 值小,即由Res2-Unet 網(wǎng)絡(luò)獲得的重建光譜數(shù)據(jù)更接近參考光譜信息;暗處表明該處由Res2-Unet 網(wǎng)絡(luò)獲得的SAM 值比AWAN 網(wǎng)絡(luò)獲得的SAM 值大,即由AWAN 網(wǎng)絡(luò)獲得的重建光譜數(shù)據(jù)更接近參考光譜信息。圖4(c)所示二值圖是Res2-Unet 網(wǎng)絡(luò)與HRNet 網(wǎng)絡(luò)獲得SAM 相比較的可視化圖像,圖4(d)所示二值圖是AWAN 網(wǎng)絡(luò)與HRNet網(wǎng)絡(luò)獲得SAM 相比較的可視化圖像。
圖7 Real World 賽道ARAD_HS_0463 數(shù)據(jù)測試結(jié)果的SAM 比較Fig.7 SAM comparison of ARAD_HS_0463 data on Real World track
圖8~圖11 是兩個賽道中兩組測試數(shù)據(jù)通過AWAN,HRNet 及Res2-Unet 3 種網(wǎng)絡(luò)獲得的重建光譜圖像與參考光譜圖像在5 個均勻分布位置處的光譜曲線比較。圖8(a)是輸入的RGB 三通道彩色圖像,并在圖中標(biāo)注了5 個位置點。圖8(b)~圖8(f)依次給出了這5 個位置處的光譜數(shù)據(jù)曲線。
對照圖4 和圖8 所測試的Clean 賽道ARAD_HS_0451 數(shù)據(jù)結(jié)果,由圖4(b)和圖4(c)可知提出方法在房屋紋理區(qū)獲得更好的SAM 評價性能。圖8(d)和圖8(e)分別描繪的位置3 和位置4 均屬于紋理區(qū),提出方法獲得的重建光譜數(shù)據(jù)曲線更接近參考光譜數(shù)據(jù)曲線。雖然提出方法在天空所在的平坦區(qū)獲得的SAM 評價性能不及AWAN,但是如圖8(b)和8(c)所示,兩種方法重建得到的光譜曲線十分接近,重建結(jié)果相當(dāng)。
圖4 Clean 賽道ARAD_HS_0451 數(shù)據(jù)測試結(jié)果的SAM 比較Fig.4 SAM comparison of ARAD_HS_0451 data on Clean track
圖8 Clean 賽道ARAD_HS_0451 數(shù)據(jù)光譜曲線比較Fig.8 Spectral curve comparison of ARAD_HS_0451 on Clean track
對照圖5 和圖9 所測試的Clean 賽道ARAD_HS_0463 數(shù)據(jù)結(jié)果,由圖5(b)和圖5(c)可知提出方法在大部分區(qū)域的SAM 評價均不及AWAN 和HRNet。但如圖9 所示,3種方法重建得到的光譜曲線在400~600 nm十分接近,重建結(jié)果相當(dāng),提出方法僅在600~700 nm的重建結(jié)果較差。
圖5 Clean 賽道ARAD_HS_0463 數(shù)據(jù)測試結(jié)果的SAM 比較Fig.5 SAM comparison of ARAD_HS_0463 data on Clean track
圖9 Clean 賽道ARAD_HS_0463 數(shù)據(jù)光譜曲線比較Fig.9 Spectral curve comparison of ARAD_HS_0463 on Clean track
對照圖6 和圖10 所測試的Real World 賽道ARAD_HS_0451 數(shù)據(jù)結(jié)果,以及圖7 和圖11 測試的Real World 賽道ARAD_HS_0463 數(shù)據(jù)結(jié)果,由圖6(b)~6(c)和圖7(b)~7(c)可見提出方法在大部分區(qū)域獲得了更好的SAM 評價性能。在圖10 和圖11 所示的重建光譜曲線比較中,提出方法重建得到的光譜數(shù)據(jù)整體上更接近于參考光譜數(shù)據(jù)。
圖6 Real World 賽道ARAD_HS_0451 數(shù)據(jù)測試結(jié)果的SAM 比較Fig.6 SAM comparison of ARAD_HS_0451 data on Real World track
圖10 Real World 賽道ARAD_HS_0451 數(shù)據(jù)光譜曲線比較Fig.10 Spectral curve comparison of ARAD_HS_0451 on Real World track
綜上所述,在Clean 和Real World 兩個賽道中,無論是采用二值圖進行SAM 可視化比較,還是典型位置的重建光譜數(shù)據(jù)曲線比較,提出方法整體上具有優(yōu)勢。但3 種方法對于600~700 nm近紅外譜段數(shù)據(jù)的重構(gòu)結(jié)果均與目標(biāo)存在較大差距。
3.4.2 消融實驗
對設(shè)計的網(wǎng)絡(luò)進行兩種消融實驗,其一是去掉骨干網(wǎng)絡(luò)中的SE,以檢驗通道注意力機制對性能的影響,其二是將骨干網(wǎng)絡(luò)中的Res2Net-SE 模塊替換成3×3 的卷積模塊Conv3×3,以檢驗Res2Net 模塊在整個網(wǎng)絡(luò)中的作用。兩個賽道的網(wǎng)絡(luò)消融測試結(jié)果如表5 和表6 所示,除此之外Conv3×3,Res2Net 和Res2Net-SE 3 種模塊為主構(gòu)成骨干網(wǎng)絡(luò)的網(wǎng)絡(luò)參數(shù)量分別為55.580M,34.477M 和34.651M,而FLOPs 分別為182.549G,117.449G 和117.481G。結(jié)果表明,相對于Conv3×3 模塊,采用Res2Net 模塊后不僅減少了21.103M 個網(wǎng)絡(luò)參數(shù),而且重建圖像的4 種評價結(jié)果均顯著提升,證明了Res2Net 模塊的有效性。 其性能提升的主要原因在于Res2Net模塊的多尺度處理,以及多子集融合方式更有利于提取局部和全局信息。
表5 Clean 賽道網(wǎng)絡(luò)消融測試結(jié)果比較Tab.5 Comparison of test results of network ablation on Clean track
表6 Real World 賽道網(wǎng)絡(luò)消融測試結(jié)果比較Tab.6 Comparison of test results of network ablation on Real World track
在Res2Net 上添加SE 模塊后,雖然網(wǎng)絡(luò)參數(shù)量增加了大約0.2M,F(xiàn)LOPs 增加僅0.032G,但對網(wǎng)絡(luò)性能的提升有一定幫助。其主要原因在于SE 模塊是通過建立通道之間的相互依賴性來自適應(yīng)地調(diào)節(jié)各通道之間的特征響應(yīng),使網(wǎng)絡(luò)能夠更好地學(xué)習(xí)一些重要性通道的特性以提高網(wǎng)絡(luò)重建的整體性能。
本文提出了Res2-Unet 深度學(xué)習(xí)網(wǎng)絡(luò)用于RGB-高光譜圖像重建。通過Res2Net 模塊內(nèi)的短殘差連接和整體的長殘差連接增強上下文信息,提高模型重建能力。在Res2Net 中引入SE模塊,使網(wǎng)絡(luò)能夠更好地學(xué)習(xí)重要性通道的特性,提高了網(wǎng)絡(luò)重建的整體性能。對比參考圖像與重建圖像,無論是在圖像的低頻平坦區(qū)還是在圖像的高頻紋理區(qū),提出方法均獲得了更好的視覺效果。實驗結(jié)果表明,無論是所提出網(wǎng)絡(luò)還是AWAN,HRNet 網(wǎng)絡(luò),對于高光譜的兩端光譜數(shù)據(jù)重建還是不盡如意,特別是近紅外端的重建結(jié)果較差。未來將考慮設(shè)計生成對抗損失和感知損失等以進一步提高網(wǎng)絡(luò)對光譜的重建能力。