肖雅敏,張家晨,馮 鐵
(吉林大學(xué)計算機(jī)科學(xué)與技術(shù)學(xué)院,長春 130012)
單圖像超分辨率重建是計算機(jī)視覺領(lǐng)域中重要的圖像處理技術(shù),廣泛應(yīng)用于醫(yī)學(xué)圖像、視頻監(jiān)視、公共安全與遙感偵察等領(lǐng)域。在實際應(yīng)用場景中,現(xiàn)有硬件條件的限制造成圖像的分辨率質(zhì)量較低,如以數(shù)字?jǐn)z像機(jī)為監(jiān)控設(shè)備時,其獲取的圖像通常缺少關(guān)鍵場景或人物細(xì)節(jié)信息。因此,為克服現(xiàn)有硬件系統(tǒng)的分辨率限制,使用單圖像超分辨率重建技術(shù)來增強(qiáng)圖像的空間分辨率。該技術(shù)的核心思想是通過分析低分辨率圖像的關(guān)鍵語義信息或信號信息,推理出欠缺的真實細(xì)節(jié)并重建成具有高像素密度的超分辨率圖像。
目前,單圖像超分辨率重建的研究主要分為3個階段?;诓蓸永碚摰牟逯捣椒ǎ?-2]是出現(xiàn)較早且直觀的方法,該類方法的優(yōu)點(diǎn)是運(yùn)行速度快且適合并行計算,但是存在不能引入額外有用的高頻信息,從而難以得到銳化的高清圖像的問題。基于此,研究人員提出利用低分辨率圖像推測出對應(yīng)的高分辨率部分信息的映射函數(shù)算法,該算法主要依賴鄰域嵌入[3-4]、稀疏編碼[5-7]等技術(shù),但是當(dāng)圖像中未包含較多的重復(fù)樣式時,其推斷出的圖像通常會產(chǎn)生非細(xì)節(jié)性的銳利邊緣。
基于深度學(xué)習(xí)的方法已成為超分辨率算法中的熱點(diǎn)方向。文獻(xiàn)[8]提出的SRCNN模型采用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)技術(shù)重建生成了清晰度更高的圖像,它采用大量外部的高分辨率圖像構(gòu)造學(xué)習(xí)庫,并經(jīng)過訓(xùn)練生成神經(jīng)網(wǎng)絡(luò)模型,在對低分辨率圖像重建過程中引入模型獲取的先驗知識,以此得到圖像的高頻細(xì)節(jié)信息,從而達(dá)到良好的圖像重建效果。FSRCNN[9]、ESPCN[10]以及文獻(xiàn)[11-13]模型均是在SRCNN的基礎(chǔ)上對網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行改進(jìn)而得到的,這些模型增加了網(wǎng)絡(luò)層數(shù),并專注于學(xué)習(xí)低分辨率圖像到高分辨率圖像的端到端映射關(guān)系。由于隨著構(gòu)建網(wǎng)絡(luò)層數(shù)的加深,訓(xùn)練模型的花銷逐漸增大,同時由于通道數(shù)、過濾器尺寸與步長等超參數(shù)的增加,導(dǎo)致設(shè)計合理的網(wǎng)絡(luò)結(jié)構(gòu)更加困難,因此,文獻(xiàn)[14]提出利用ResNet模型解決上述問題,雖然該模型適用于圖像分類,但其殘差思想和重復(fù)堆疊模塊的策略能夠適用于所有計算機(jī)視覺任務(wù)。此外,ResNet還證明了跳躍連接和遞歸卷積可有效緩解神經(jīng)網(wǎng)絡(luò)攜帶大量關(guān)鍵信息的負(fù)擔(dān)。
基于殘差網(wǎng)絡(luò)的超分辨率重建模型DCRN[15]、DRNN[16]、LapSRN[17]、SRResNet[18]與EDSR[19]等被相繼提出,這些模型都是通過單尺寸卷積模塊的線性疊加來實現(xiàn)網(wǎng)絡(luò)的縱向加深,以追求更高的表達(dá)能力和抽象能力。但對于超分辨率技術(shù)而言,從原始圖像中提取到豐富完整的特征信息至關(guān)重要。如果繼續(xù)縱向加深網(wǎng)絡(luò),在逐層卷積和過濾計算過程中將會出現(xiàn)高頻信息丟失的問題,這對最終映射生成超分辨率圖像的真實程度造成影響,且模型參數(shù)量也會呈指數(shù)級增長。如果訓(xùn)練數(shù)據(jù)集有限則易產(chǎn)生過擬合,且模型規(guī)格與計算量也隨之增大,造成不易重構(gòu)和移植以及訓(xùn)練難度成倍增加的問題,從而難以在實際過程中應(yīng)用。
本文提出一種基于多窗口殘差網(wǎng)絡(luò)的單圖像超分辨率重建模型MWSR。該模型的橫向網(wǎng)絡(luò)結(jié)構(gòu)使用多個不同尺寸的窗口,同時提取同一特征圖的關(guān)鍵信息,縱向網(wǎng)絡(luò)結(jié)構(gòu)將大尺寸窗口重構(gòu)為多個串聯(lián)的小窗口和非線性ReLU激活函數(shù),并對輸出的多尺寸特征圖進(jìn)行跨窗口融合,以優(yōu)化通過網(wǎng)絡(luò)的信息流。
本文提出的基于多窗口殘差網(wǎng)絡(luò)的單圖像超分辨率MWSR模型的目標(biāo)是學(xué)習(xí)從低分辨率圖像ILR到真實的高分辨率圖像IHR的端到端映射,并生成一張清晰的超分辨率圖像ISR。其中,ILR是IHR經(jīng)過雙三次插值方法下采樣得到的低分辨率圖像,且大小為H×W×C。此外,IHR和ISR大小為rH×rW×C。其中,H表示縱向像素數(shù)量,W表示橫向像素數(shù)量,r為目標(biāo)放大倍數(shù),C為顏色通道。本文實驗采用RGB格式的圖像,因此C=3。
MWSR的網(wǎng)絡(luò)架構(gòu)如圖1所示,該架構(gòu)主要分為特征提取、全局特征融合以及高倍數(shù)重建3個部分,具體步驟如下:
步驟1將ILR作為神經(jīng)網(wǎng)絡(luò)的輸入,先經(jīng)過一個3×3的卷積層提取初始特征,再使用激活函數(shù)ReLU調(diào)整神經(jīng)元的活躍度,以增強(qiáng)網(wǎng)絡(luò)的非線性,具體的特征提取函數(shù)可表示為:
其中,“?”表示卷積操作,“+”表示逐像素相加操作,變量的上標(biāo)l指它所在的網(wǎng)絡(luò)層,下標(biāo)n表示卷積核的大小,變量w和變量b分別表示神經(jīng)網(wǎng)絡(luò)中的權(quán)重矩陣和偏倚矩陣,w是一個大小為fl-1×fl×n×n的張量。fl是第l層特征圖的數(shù)量(f0=C),σ(x)=max(0,x)表示非線性激活函數(shù)ReLU。和P(x)均表示第l層卷積核大小為n的輸出。
步驟2通過m個重復(fù)連續(xù)的多窗口殘差模塊逐層提取圖像的高頻與低頻信息,并對初始特征圖和上述m個殘差模塊的輸出進(jìn)行全局特征融合,對通過網(wǎng)絡(luò)的信息流進(jìn)行匯合并輸入到重建模塊中,具體表示方法為:
其中,[]表示特征之間的連接操作,Q13為初始特征圖,Mm表示第m個多窗口殘差模塊的輸出,T表示全局特征融合后的輸出。
步驟3在高倍數(shù)重建部分,首先使用3×3卷積整理過濾冗余信息,重構(gòu)出最優(yōu)的稀疏網(wǎng)絡(luò)結(jié)構(gòu),然后使用亞像素卷積操作[10]將特征圖T上采樣至目標(biāo)倍數(shù)r。最后,通過一層3×3卷積完成ILR到ISR的映射,生成清晰的超分辨率圖像,具體表示方法為:
其中,SF(x)表示重新排列組合像素的亞像素卷積操作,變量上標(biāo)中的l表示網(wǎng)絡(luò)中的最后一個卷積層,l-2表示重建部分的第一個卷積層。
圖1 MWSR模型網(wǎng)絡(luò)架構(gòu)Fig.1 Network architecture of the MWSR model
將ILR輸入到網(wǎng)絡(luò)中后,每經(jīng)過一層縱向卷積操作提取特征信息的同時也會丟失相關(guān)的高頻信息,進(jìn)而造成完整的原始圖像語義會隨著網(wǎng)絡(luò)層次的加深而逐漸缺失。因此,本文從淺層網(wǎng)絡(luò)開始,當(dāng)每次特征提取時盡可能提取出更豐富的原始圖像特征。本文提出一種橫向拓展網(wǎng)絡(luò)結(jié)構(gòu)的多窗口殘差模塊,如圖2所示。同時使用3×3、5×5、7×7三種尺寸的窗口作為同一特征域的局部關(guān)鍵信息檢測器,大幅提高檢測到有效特征信息的概率。
圖2 MWSR模型的殘差模塊Fig.2 Residual module of MWSR model
與單尺寸卷積模塊堆疊而成的模型相比,本文所提MWSR模型使用更少的特征提取模塊即可提取更全面的特征信息,從而避免了網(wǎng)絡(luò)結(jié)構(gòu)過深,同時訓(xùn)練過程中可以更早達(dá)到飽和的準(zhǔn)確度。
為進(jìn)一步優(yōu)化模型規(guī)模大小,在保持模型的準(zhǔn)確度和復(fù)雜度的前提下,本文使用k個串聯(lián)的3×3小卷積核構(gòu)成相應(yīng)的大尺寸窗口。如圖3所示,2個3×3的卷積核串聯(lián)相當(dāng)于一個5×5的卷積核,即一個像素會與周圍5×5個像素產(chǎn)生關(guān)聯(lián)。兩者感受野大小相同,而前者的參數(shù)量為2×3×3=18,后者的參數(shù)量為5×5=25,這說明前者的參數(shù)量更少。
圖3 兩個串聯(lián)的3×3卷積核感受野與一個5×5卷積核感受野示意圖Fig.3 Schematic diagram of receptive field of two 3×3 filters in series and a 5×5 filter
除此之外,還可以在2個小卷積核之間增加一個非線性激活函數(shù)ReLU,使得整個網(wǎng)絡(luò)變得更復(fù)雜,擁有更強(qiáng)的學(xué)習(xí)能力。以此類推,3個3×3的卷積層串聯(lián)相當(dāng)于1個7×7的卷積層,且還可以增加2個ReLU函數(shù),具體表述方法為:
在獲取輸出的三種尺寸特征圖后,將其與矩陣的第1維度連接融合,然后通過1×1濾波器逐維度過濾篩選出深層網(wǎng)絡(luò)需要的特征信息,同時維持該模型輸入輸出維度的一致性以平衡模塊規(guī)模大小。
為緩解隨著網(wǎng)絡(luò)加深造成準(zhǔn)確度降低的問題,本文在特征提取模塊中應(yīng)用ResNet[11]模型的殘差思想:
將淺層網(wǎng)絡(luò)的輸出x直接傳遞給深層網(wǎng)絡(luò)H(x)作為輸入,并在該過程中增加跳躍連接,使得無需將x映射成一個新的H(x),只需要學(xué)習(xí)x和H(x) 的差距F(x),顯著減小需要學(xué)習(xí)的參數(shù)值,使得網(wǎng)絡(luò)對反向傳播時的損失值更加敏感,起到一定的正則化作用。
多窗口殘差模塊的具體操作表示方法為:
實驗結(jié)果表明,本文提出的多窗口殘差模塊簡潔且高效。當(dāng)設(shè)置MWSR的殘差模塊數(shù)量為24時,重建成的超分辨率圖像質(zhì)量已經(jīng)超越了當(dāng)前流行的多數(shù)模型,此時MWSR的參數(shù)量僅為5.9 M,F(xiàn)LOPS低至13.64×109次的浮點(diǎn)計算。該輕量網(wǎng)絡(luò)模型可以在幾乎所有服務(wù)端內(nèi)部署,包括移動端和嵌入式芯片等對模型大小有嚴(yán)格限制的服務(wù)端。此外,經(jīng)實驗對比可得,3×3、5×5、7×7三種尺寸的窗口組合為最優(yōu)解,模型性能優(yōu)于3×3、5×5組合。如果再增加一個9×9的窗口,則參數(shù)量會高達(dá)50.91M,計算量更會提高到117.37×109次的浮點(diǎn)計算。
在相機(jī)成像過程中,由于硬件方面的限制,生成的圖像上每個像素都代表附近的一整塊顏色,其實在微觀上,實際物理像素之間還存在許多像素,即亞像素。在超分辨率領(lǐng)域中,無法被傳感器檢測出來的亞像素可以通過算法近似計算出來,相當(dāng)于推理出圖像缺失的紋理細(xì)節(jié)等高頻信息。亞像素卷積在MWSR模型的高倍數(shù)重建部分用于完成低分辨率圖像到高分辨率圖像的映射,具體上采樣過程如圖4所示。假設(shè)目標(biāo)倍數(shù)為r,輸入的低分辨率特征圖大小為H×W,將其與通道數(shù)為r2的H×W亞像素卷積核進(jìn)行卷積,得到H×W×r2個像素值,再將其重新排列組合成大小為rH×rW的目標(biāo)圖像。
圖4 亞像素卷積層上采樣過程Fig.4 Upsampling process on sub-pixel convolution layer
DIV2K數(shù)據(jù)集[20]是廣泛運(yùn)用在超分辨率領(lǐng)域的分辨率為2 K的高質(zhì)量數(shù)據(jù)集,其包含800張訓(xùn)練圖像、100張驗證圖像以及100張測試圖像。本文選擇DIV2K作為模型的訓(xùn)練數(shù)據(jù)集,并在Set5[21]、Set14[22]、BSDS100[23]、Urban100[24]和Manga109[25]5個公開的基準(zhǔn)數(shù)據(jù)集上進(jìn)行測試與對比實驗。這些數(shù)據(jù)集包含大量來自各個領(lǐng)域的圖像,能夠?qū)δP托阅苓M(jìn)行有效驗證。其中,Set5、Set14與BSDS100數(shù)據(jù)集主要由自然景觀圖像組成,Urban100數(shù)據(jù)集中包括不同頻帶細(xì)節(jié)的城市場景圖像,Manga109為日本漫畫數(shù)據(jù)集。
本文使用從ILR裁剪出分辨率為48×48的RGB圖像作為輸入,并通過目標(biāo)放大倍數(shù)的IHR評估所生成超分辨率圖像的質(zhì)量。為了提高模型的泛化能力和魯棒性,通過隨機(jī)使用水平翻轉(zhuǎn)180°、垂直翻轉(zhuǎn)180°與順時針旋轉(zhuǎn)90°3種方法操作將訓(xùn)練數(shù)據(jù)量增加至原來的8倍,且每種方法執(zhí)行概率均為0.5。另外,使用Adam優(yōu)化器[24],分別設(shè)置β1=0.9,β2=0.999,ε=10-8。本文設(shè)置每一次迭代的批大小為64,每迭代2 500次驗證一次模型。學(xué)習(xí)速率初始化為0.000 2,且每迭代500 000次將其減少至原來的一半。
本文選擇L1范數(shù)作為損失函數(shù)訓(xùn)練模型,與L2相比其具有的稀疏性可以實現(xiàn)特征的自動化選擇,且參數(shù)量更少。同時,本文結(jié)合通用并行計算架構(gòu)CUDA10.0與深度學(xué)習(xí)框架PyTorch1.0,使用Python編碼實現(xiàn)MWSR的算法,并在NVIDIA GeForce RTX 2080Ti GPU和Ubuntu16.04操作系統(tǒng)上,通過大量實驗對算法進(jìn)行訓(xùn)練和評估。
本文采用2個常見的客觀評價指標(biāo)來評估生成的超分辨率圖像的質(zhì)量,該指標(biāo)分別為峰值信噪比(Peak Signal-to-Noise Ratio,PSNR)和結(jié)構(gòu)相似度(Structural SIMilarity,SSIM)。
1)PSNR主要基于誤差敏感來評估圖像質(zhì)量,計算方法如式(7)所示,單位為dB,且其數(shù)值越大,則說明圖像失真程度越低。
其中,H×W為圖像的大小,Χ表示真實的高分辨率圖像,Y表示模型生成的超分辨率圖像,變量t表示每個像素占用的比特數(shù)。
2)SSIM通過比較圖像結(jié)構(gòu)之間的差異來評估圖像質(zhì)量,其結(jié)果更符合人眼視覺系統(tǒng),計算方法如式(8)所示,且其值越接近1,則說明兩個圖像之間的結(jié)構(gòu)越相似,重建質(zhì)量越高。
其中,變量x和y分別為真實的高分辨率圖像和模型生成的超分辨率圖像,μx,μy表示圖像的灰度平均值,σx,σy表示圖像的方差,σxy表示圖像的協(xié)方差。C1和C2是避免公式分母為0的常數(shù)。
實驗對MWSR模型與目前主流的雙三次插值(Bicubic)、A+[6]、SRCNN[8]、ESPCN[10]、DRNN[13]、LapSRN[14]6種超分辨率模型進(jìn)行對比分析。與其他6種模型一致,MWSR模型生成的所有超分辨率圖像轉(zhuǎn)換成YCbCr色彩模式,僅在Y通道上計算PSNR和SSIM。
表1展示了7種超分辨率模型在5個公開測試數(shù)據(jù)集上分別放大2倍~4倍的評估結(jié)果。其中,最優(yōu)結(jié)果加粗表示。從表1可以看出,本文提出的MWSR模型的性能均優(yōu)于其他6種主流模型,且該模型不僅改善了圖像感知質(zhì)量,而且實現(xiàn)了模型輕量化及運(yùn)行效率的優(yōu)化。
表1 7種模型的PSNR和SSIM評估結(jié)果對比Table 1 Comparison of PSNR and SSIM evaluation results of seven models
表1展示的MWSR模型僅使用了24個多窗口殘差模塊,經(jīng)實驗表明,當(dāng)MWSR中的模塊數(shù)量從24增加至32或64時,訓(xùn)練效果仍繼續(xù)提高。如圖5所示,MWSR模型在DIV2K數(shù)據(jù)集上評估的PSNR值可高達(dá)37.390 dB,且即使有64個殘差模塊,參數(shù)量也僅為15.4M。
圖5 殘差模塊數(shù)量分別為24、32、64的MWSR在DIV2K數(shù)據(jù)集上訓(xùn)練的PSNR收斂曲線Fig.5 PSNR convergence curves of MWSR with 24,32,64 residual modules trained on DIV2K dataset
從圖6中可觀察到MWSR模型中的殘差模塊數(shù)量分別為24(MWSR-24)和64(MWSR-64)時的重建圖像,證明在合理的范圍內(nèi)增加模塊數(shù)量可有效提升圖像質(zhì)量。然而,增加模塊數(shù)量的同時也成倍增加了運(yùn)算次數(shù)和內(nèi)存讀寫的時間開銷,如MWSR-24的訓(xùn)練時間為1.5天,而MWSR-64的訓(xùn)練時間為3.5天。另外在Set5數(shù)據(jù)集上測試可得,MWSR-24的平均運(yùn)行時間為0.23 s,MWSR-64的平均運(yùn)行時間為0.38 s。如果再繼續(xù)增加殘差模塊以加深網(wǎng)絡(luò),仍會改善重建效果,但會造成訓(xùn)練成本和運(yùn)行成本的快速增加。圖7展示了各模型在不同數(shù)據(jù)集上進(jìn)行4倍超分辨率重建的視覺效果對比。從圖7可以看出,相比其他模型,MWSR模型重建出的圖像更加準(zhǔn)確且完整地補(bǔ)全了高頻信息。無論是線形細(xì)節(jié),結(jié)構(gòu)細(xì)節(jié)還是文字細(xì)節(jié),都可以根據(jù)圖像的整體語義預(yù)測出其放大之后更真實的新像素值。
圖6 MWSR-24、MWSR-64在DIV2K數(shù)據(jù)集上的超分辨率重建結(jié)果Fig.6 Super-resolution reconstruction results of MWSR-24 and MWSR-64 on DIV2K dataset
圖7 7種模型的超分辨率重建結(jié)果對比Fig.7 Comparison of super-resolution reconstruction results of seven models
綜合對比分析可知,在實際應(yīng)用場景中,先根據(jù)需求對訓(xùn)練難度、模型大小、運(yùn)行效率和重建質(zhì)量等多種因素進(jìn)行綜合考慮,再對特征提取模塊的數(shù)量進(jìn)行選擇,利用合適的網(wǎng)絡(luò)深度使多窗口結(jié)構(gòu)發(fā)揮更大的作用。
本文提出一種多尺寸窗口殘差網(wǎng)絡(luò)優(yōu)化模型MWSR。該模型結(jié)合不同尺寸的窗口同時提取同一張?zhí)卣鲌D的關(guān)鍵信息,從淺層網(wǎng)絡(luò)開始高效利用每一層的特征圖,以提高高頻信息的檢測概率。這種橫向擴(kuò)展網(wǎng)絡(luò)結(jié)構(gòu)的方式與僅縱向加深網(wǎng)絡(luò)結(jié)構(gòu)相比,能夠更快速地獲取完整的目標(biāo)特征。此外,針對較大尺寸窗口進(jìn)行的分解及重構(gòu)使得模型更易重構(gòu)和移植。實驗結(jié)果表明,與目前主流的圖像超分辨率重建模型相比,本文模型能夠有效提升生成超分辨率圖像的清晰度。下一步將通過引入注意力機(jī)制,優(yōu)化高倍數(shù)重建部分的上采樣操作過程,使生成的圖像更加逼真和自然。