喬昕 魏延
摘? 要: 現(xiàn)存的圖像超分辨率重建算法存在模型訓(xùn)練不穩(wěn)定、參數(shù)量多、模型收斂速度慢等缺點。在生成對抗網(wǎng)絡(luò)的超分辨率算法(SRGAN)基礎(chǔ)上,將輕量化的密集連接網(wǎng)絡(luò)(DenseNet)作為生成對抗網(wǎng)絡(luò)的生成器,使用WGan對判別器進行優(yōu)化,利用Wasserstein代替SRGAN的JS散度,使其能夠在網(wǎng)絡(luò)參數(shù)更少、計算量更小的基礎(chǔ)上實現(xiàn)更優(yōu)的性能。實驗結(jié)果表明,在四個公開的數(shù)據(jù)集上,所提出的模型比較主流重建模型在圖像重建質(zhì)量的峰值信噪比(PSNR)和結(jié)構(gòu)相似性(SSIM)兩個客觀指標和主觀視覺效果上都有所提高。
關(guān)鍵詞: 圖像重建; 輕量化; 密集連接網(wǎng)絡(luò); 生成對抗網(wǎng)絡(luò)
中圖分類號:TP183;TP391.41????????? 文獻標識碼:A???? 文章編號:1006-8228(2021)01-72-04
Research on the algorithm of image super-resolution reconstruction with improved SRGAN
Qiao Xin, Wei Yan
(Chongqing Normal University College of Computer and Information Science, Chongqing 401331, China)
Abstract: The existing image super-resolution reconstruction algorithms have the disadvantages of model training instability, large parameter stakes and slow model convergence speed. On the basis of the Super-Resolution Generative Adversarial Networks (SRGAN), the lightweight Densely Connected Convolutional Networks (DenseNet) is used as the generator to generate the GAN, WGan is used to optimize the distinguisher, and the Wasserstein is used instead of JS dispersion of SRGAN, so that it can realize better performance with fewer network parameters and less computation. The experimental results show that, on the four exposed data sets, the proposed model improved the two objective indicators and subjective visual effects of the Peak Signal-to-Noise Ratio (PSNR) and Structural Similarity (SSIM) of image reconstruction quality compared with the mainstream reconstruction models.
Key words: image reconstruction; lightweight; Densely Connected Convolutional Networks; Generative Adversarial Networks
0 引言
現(xiàn)如今,圖像作為一種極其重要的信息載體,在醫(yī)學(xué)、軍民衛(wèi)星圖像和安保視頻檢測監(jiān)控等應(yīng)用領(lǐng)域中對其質(zhì)量的要求越來越嚴格,但是圖像會由于氣象環(huán)境和采集設(shè)備的影響,易導(dǎo)致采集的圖像出現(xiàn)質(zhì)量低或者細節(jié)的紋理信息缺乏等問題。圖像超分辨率重建[1](Super-Resolution,SR)就是將低分辨率圖像重建為對應(yīng)的高分辨率圖像。如今,圖像超分辨率技術(shù)也逐漸成為計算機視覺領(lǐng)域的研究熱點。
最近,隨著深度學(xué)習(xí)的迅猛發(fā)展,深度學(xué)習(xí)模型開始被應(yīng)用于圖像重建這一領(lǐng)域。如:Dong等人在2014年成功提出了的一種基于卷積神經(jīng)網(wǎng)絡(luò)的超分辨率重建算法模型SRCNN[1](Super-Resolution using Convolutional Neural Networks)。2016年,又繼續(xù)對SRCNN進行了改進,提出FSRCNN[2](Fast Super-Resolution Convolutional Neural Networks),不需要在網(wǎng)絡(luò)外進行放大圖像尺寸,用小卷積代替大卷積,在訓(xùn)練速度和圖像質(zhì)量上均有所提高。同年,有其他學(xué)者提出VDSR[3](Very Deep Super-Resolution),該模型發(fā)現(xiàn),隨著增加卷積層數(shù)的提高,重建之后的圖像質(zhì)量也隨之提高。隨之而來就有學(xué)者提出了如ResNet、DenseNet這些深層卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),希望以此來提高超分辨率重建的性能。同時,又因為生成對抗網(wǎng)絡(luò)GAN(Generative Adversarial Networks)在圖像生成方面的性能較為優(yōu)越,在隨之到來的2017年,又有Leding率先在超分辨重建領(lǐng)域中使用了生成對抗思想,提出一種基于生成對抗網(wǎng)絡(luò)的圖像超分辨率重建算模型SRGAN[4](Super-Resolution Generative Adversarial Networks),解決了圖像經(jīng)常丟失高頻細節(jié)這一缺點。
本文在SRGAN的基礎(chǔ)上進行改進,將SRGAN的生成器模型改為DenseNet,用WGAN[5]來構(gòu)造判別器;本文采用深度可分離卷積的思想來改進生成器,減少模型結(jié)構(gòu)的計算量。
1 相關(guān)工作
1.1 SRGAN
2014年,Goodfellow首次提出了一種新的網(wǎng)絡(luò)結(jié)構(gòu),即生成對抗網(wǎng)絡(luò),這種網(wǎng)絡(luò)結(jié)構(gòu),顧名思義,通過對抗的方法,去產(chǎn)生想要的結(jié)果。它分為生成器和判別器。所謂的對抗,也就是生成器和判別器之間的對抗。生成器盡量生成逼真的樣本,判別器則盡可能去判斷生成器生成的樣本是否真實。GAN在圖像超分辨率重建中應(yīng)用的流程結(jié)構(gòu)如圖1所示。
但是由于傳統(tǒng)的生成對抗網(wǎng)絡(luò)處理超分辨重建一般都是處理較小的方法倍數(shù),而當倍數(shù)被放大4倍以上時,會導(dǎo)致得到的結(jié)果很容易顯得過于平滑,從而缺少圖像細節(jié)上的真實感。因此,Leding在2017年提出了SRGAN,該模型由生成器和判別器組成。模型中的生成器結(jié)構(gòu)是由殘差塊、跳躍層和卷積層組成。如圖2所示。
1.2 DenseNet
2017年有研究者在CVPR提出了密集連接結(jié)構(gòu)(Dense Block),相比于2016年被提出的ResNet,DneseNet繼承了ResNet模型的抗過擬合效果并且能夠減輕梯度消失的問題(vanishing-gradient),而網(wǎng)絡(luò)的計算量和參數(shù)量相比于ResNet來說卻是減少了一半。雖然說DenseNet是借鑒了ResNet的思想,但是DenseNet卻是一種全新的網(wǎng)絡(luò)結(jié)構(gòu)。其最直觀的區(qū)別就是每個網(wǎng)絡(luò)模塊之間傳遞參數(shù)的函數(shù)不同。
對于ResNet,L層輸入是L-1層的輸出再加上對L-1層輸出的非線性變換,如式⑴:
[xl=Hl(xl-1)+xl-1] ⑴
而對于DenseNet而言,[[x0,x1,x2...xl-1]]表示0到l-1層的輸出特征圖作通道的合并,就如同Inception網(wǎng)絡(luò)那樣,Resnet是值的相加,通道數(shù)不變。如式⑵:
[xl=Hl([x0,x1,x2...xl-1])] ⑵
1.3 深度可分離卷積
深度可分離卷積[7](Depthwise Separable Convolution)的卷積過程就是先進行深度卷積然后使用1*1的濾波器進行點卷積。這樣就可以大大減少參數(shù)的計算量,從而達到優(yōu)化網(wǎng)絡(luò)的目的。若正常的卷積神經(jīng)網(wǎng)絡(luò)的輸入特征圖的尺寸大小為[Dk×Dk×M],其中M為特征圖的數(shù)量,[Dk]為特征圖的尺寸。輸出特征圖尺寸為[DF×DF×N],其中N為輸出特征特征圖的數(shù)量,[DF]為輸出特征圖的尺寸。這樣計算出標準卷積的總體計算量為:
[C1=(Dk×Dk×M)×DF×DF×N] ⑶
經(jīng)過深度卷積和點卷積兩部分操作之后,總計算量為:
[C2=DK×DK×M×DF×DF+M×N×DF×DF] ⑷
與標準卷積相比,計算比例為:
[γ=C2C1=DK×DK×M×DF×DF+M×N×DF×DF(Dk×Dk×M)×DF×DF×N=1N+1D2k????????????????????????????????????????????????????????????????????? ⑸]
1.4 WGAN
傳統(tǒng)GAN是基于JS散度進行優(yōu)化的,這種優(yōu)化方法會導(dǎo)致GAN模型的訓(xùn)練過程不穩(wěn)定。針對這一問題,本文使用一種基于Wasserstein距離[6]優(yōu)化判別器的GAN(WGAN),WGAN可以使用wasserstein距離衡量出真實圖片和生成圖片之間的距離,使WGAN在訓(xùn)練過程中效果更穩(wěn)定。Wasserstein距離又叫Earth-Mover(EM)距離,公式如下:
[WPr,Pg=infγ~∏Pr,PgEx,y~γ[||x-y||]] ⑹
其中[Pr]是樣本分布,[Pg]是生成器生成分布,[∏(Pr,Pg)]是[Pr]和[Pg]所有可能的分布的集合;x是真實數(shù)據(jù),y是生成的數(shù)據(jù),x和y都能從分布[γ]中采樣得到。
2 本文網(wǎng)絡(luò)模型
2.1 生成器
本文模型的生成器采用的是DenseNet,其結(jié)構(gòu)為DenseNet-121結(jié)構(gòu),同時,為了進一步減少計算量,采用深度可分離卷積的思想,將Dense Block中的3*3的卷積替換為1*3和3*1的卷積。
2.2 判別器
SRGAN模型中的判別器采用的是:將Sigmoid作為其損失函數(shù),但是因為Sigmoid一般用于處理二分類問題,而這里的損失函數(shù)的作用應(yīng)該是用來評價生成器生成的高分辨圖像具體的情況,不只是單獨的分類。所以本模型的判別器將采用WGAN的思想,將SRGAN模型中判別器的最后一層的Sigmoid刪除,采用Wasserstein距離最小化損失函數(shù)。本文模型的判別器結(jié)構(gòu)如圖3所示。
2.3 損失函數(shù)
Wasserstein距離是為所有可能的聯(lián)合分布的集合[∏(Pr,Pg)]中期望值x和y的距離期望值的下限值,與JS散度相比較,無論樣本分布和生成分布有沒有重疊部分,Wasserstein距離都能夠很好地反映出這兩種樣本的相似性。但是由于在公式⑹中的下確界無法求解,于是通過Lipschitz連續(xù)將Wasserstein距離變換為:
[W(Pr,Pg)≈maxθ:||fθ||L≤1Ex~pr[fθ(x)]-Ex~pg[fθ(x)]] ⑺
由于在WGAN中,Wasserstein已經(jīng)由原來的二分類任務(wù),轉(zhuǎn)換成了回歸任務(wù),因此Wasserstein距離的求解已經(jīng)轉(zhuǎn)變?yōu)槭故舰巳〉米畲笾?,也就是取[fθL=1]時,L表示真實分布和樣本分布之間的Wasserstein距離。
[L=Ex~pr[fθ(x)]-Ex~pg[fθ(x)]] ⑻
進而分別可以得到生成器和判別器的損失函數(shù),如公式⑼、公式⑽:
[L(G)=-Ex~pg[fθ(x)]] ⑼
[L(D)=Ex~pr[fθ(x)]-Ex~pg[fθ(x)]] ⑽
本文模型的損失函數(shù)方法,由內(nèi)容損失和對抗損失的加權(quán)和組成。其公式定義為:
[lSR=lSRX+10-3lSRGen] ⑾
其中內(nèi)容損失中,基于像素的MSE損失被定義為:
[lSRMSE=1r2WHx=1rWy=1rH(IHRx,y-GθG(ILR)x,y)2] ⑿
生成對抗損失,就是為了生成讓判別器識別不了的圖像,對抗損失的公式定義為:
[lSRGen=n=1N-logDθD(GθG(ILR))] ⒀
3 實驗與結(jié)果分析
3.1 實驗環(huán)境
本文模型的實驗所使用的實驗環(huán)境:硬件環(huán)境配置是顯卡GTX1080Ti,處理器為i5-9600K,運行內(nèi)存32G。
3.2 實驗數(shù)據(jù)集
本文選用了DIV2K的800個高清圖像作為訓(xùn)練數(shù)據(jù),測試數(shù)據(jù)采用了Set5,Set14,BSD100和Urban100四個主流數(shù)據(jù)集。訓(xùn)練時所需要的低分辨率圖像是由DIV2K數(shù)據(jù)集中的高分辨圖像進行雙三次插值的四倍降質(zhì)處理得到。
3.3 實驗參數(shù)
本文模型的訓(xùn)練過程中將Batch_size設(shè)置為16;迭代次數(shù)為5000次;每迭代500次,就保存一次模型訓(xùn)練結(jié)果,同時學(xué)習(xí)率就衰減一半;初始化學(xué)習(xí)率為0.0001。
3.4 實驗結(jié)果與評價
3.4.1 客觀量化評價
本文在四個公開數(shù)據(jù)集上測試了Bicubic、SRCNN、VDSR、FSRCNN、SRGAN以及本文的方法。分別計算在不同數(shù)據(jù)集上采用不同算法進行上采樣4倍時峰值信噪比(Peak Singal-to-Noise Ratio,PSNR)和結(jié)構(gòu)相似性(Structural Similrity index,SSIM)值,結(jié)果表1所示。
實驗結(jié)果表明,本文提出的算法模型相比于幾種用于測試的主流圖像重建模型,其PSNR和SSIM值均有所提升。
3.4.2 主觀評價
本文在Set5數(shù)據(jù)集中選取一張嬰兒高分辨率圖像,為了更好地從主觀上區(qū)分出本文算法模型和其他測試算法模型的優(yōu)劣,本文將選取的高分辨率圖像的嬰兒右眼部分進行放大對比,如圖4所示。
從圖4不難發(fā)現(xiàn),本文算法不僅從整體的清晰程度,還是眉毛處紋理細節(jié)特征,都比其他算法模型更接近于原始數(shù)據(jù)集中的高分辨率圖像。
4 結(jié)束語
在之前的圖像超分辨率重建的方法中,基于深度學(xué)習(xí)的重建方法又要明顯優(yōu)于其他方法。但是深度學(xué)習(xí)方法會隨著網(wǎng)絡(luò)層數(shù)的增加,出現(xiàn)訓(xùn)練網(wǎng)絡(luò)模型的過程不穩(wěn)定、梯度消失、參數(shù)量和計算量大等缺點。
本文在原有SRGAN模型的基礎(chǔ)上將DenseNet和WGAN都結(jié)合到SRGAN模型中去,優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu),加快模型收斂。同時,引入深度可分離卷積思想對生成器進行輕量化,減少生成器的參數(shù)量和計算量。實驗的結(jié)果表明,本文提出的算法在四個圖像超分辨率領(lǐng)域的公開數(shù)據(jù)集上得到的評價指標結(jié)果和主觀視覺效果,相比于其他重建方法均有所提高。
參考文獻(References):
[1] Dong C,Chen C L,He K,et al.Image super-resolution using deep convolutional networks[J].IEEE Transactions on Pattern Analysis & Machine Intelligence,2016.38(2):295-307
[2] Dong C, Chen C L, Tang X. Accelerating the Super-Resolution Convolutional Neural Network[C]//European Conference on Computer Vision. Springer,Cham,2016:391-407
[3] Kim J, Kwon Lee J, Mu Lee K. Accurate image super-resolution using very deepconvolutional networks[C]//Proceedings of the IEEE conference on computer vision and pattern recognition,2016:1646-1654
[4] Ledig Christian, Theis Lucas, Huszar Ferenc, et al. Photo-realistic single image super-resolution using a generative adversarial network[J].ResearchGate,2016:105-114
[5] Arjovsky, Martin, Chintala, Soumith, Bottou, Léon.Wasserstein GAN [J]. Computer Vision and Pattern Recognition,2017.12.
[6] 曾慶亮,南方哲,尚迪雅,孫華.基于ResNeXt和WGAN網(wǎng)絡(luò)的單圖像超分辨率重建[J].計算機應(yīng)用研究,2020.8:1-5
[7] 袁哲明,袁鴻杰,言雨璇,劉雙清,譚泗橋.輕量化深度學(xué)習(xí)模
型的田間昆蟲自動識別與分類算法[J].吉林大學(xué)學(xué)報(工學(xué)版),2020.8:1-12
收稿日期:2020-08-21
作者簡介:喬昕(1996-),男,江蘇連云港人,碩士研究生,主要研究方向:計算機視覺。
通訊作者:魏延(1970-),男,四川瀘縣人,博士研究生,教授,主要研究方向:機器學(xué)習(xí),云計算等。