張倩宇
摘要:該方法是將低分辨率圖像直接作為輸入,逐級(jí)預(yù)測(cè)金字塔層的殘差圖像,選擇特定的初始化方法對(duì)網(wǎng)絡(luò)權(quán)值進(jìn)行初始化,加快模型收斂,并引入多通道映射提取更加豐富的特征,采用卷積級(jí)聯(lián),共享權(quán)重的方式進(jìn)行圖像超分辨率重構(gòu),改進(jìn)的模型可以更好地重建出圖像的紋理和細(xì)節(jié)。
關(guān)鍵詞:圖像超分辨率重建; 拉普拉斯金字塔;殘差;多通道;卷積級(jí)聯(lián);
中圖分類號(hào):TP391.4? ? 文獻(xiàn)標(biāo)識(shí)碼:A? ? ? ?文章編號(hào):1007-9416(2018)10-0000-00
近年來,深度學(xué)習(xí)在圖像處理領(lǐng)域取得了顯著的研究成果。在大量的任務(wù)中,深度學(xué)習(xí)得到的特征被證實(shí)比傳統(tǒng)方法構(gòu)造的特征具有更強(qiáng)的表征能力。常用的超分辨率重建模型有卷積神經(jīng)網(wǎng)絡(luò)模型、殘差神經(jīng)網(wǎng)絡(luò)模型、深度卷積生成對(duì)抗網(wǎng)絡(luò)模型。但無論哪種學(xué)習(xí)模型,對(duì)低分辨率圖像和高分辨率圖像樣本對(duì)的數(shù)目,訓(xùn)練的速度都有很高的要求。
本文提出了一種新的結(jié)構(gòu)模型:基于拉普拉斯金字塔的多通道圖像超分辨率卷積神經(jīng)網(wǎng)絡(luò)模型。實(shí)驗(yàn)證明,該模型收斂速度更快,圖像超分辨率效果更加優(yōu)秀。
1 研究背景
LapSRN,即拉普拉斯金字塔,每一級(jí)的金字塔都以低分辨率的特征圖作為輸入,來預(yù)測(cè)高頻殘差,在預(yù)處理時(shí)沒有使用傳統(tǒng)的雙三次插值法,減少了計(jì)算的復(fù)雜性,而是使用轉(zhuǎn)置卷積用于上采樣以得到更精細(xì)的特征圖,另外,網(wǎng)絡(luò)的訓(xùn)練使用了 Charbonnier損失函數(shù),這個(gè)損失函數(shù)可以獲得更好的超分辨效果。
該網(wǎng)絡(luò)模型使用逐級(jí)放大來實(shí)現(xiàn)多級(jí)超分辨,即同一個(gè)模型可以生成不同規(guī)模的超分辨率圖像。例如一個(gè)*8的模型同時(shí)也可以實(shí)現(xiàn)*2和*4的超分辨任務(wù),這主要也是得益于金字塔結(jié)構(gòu)。
LapSRN提出的新的損失函數(shù)為:
? (1)
其中,x表示LR圖像,y表示HR圖像,r表示殘差,s表示對(duì)應(yīng)的level,L是金字塔結(jié)構(gòu)的level數(shù)量,N是訓(xùn)練樣本數(shù)量。新的loss函數(shù)的每個(gè)level都有一個(gè)對(duì)應(yīng)的loss,訓(xùn)練過程中的目的是將各個(gè)level的loss的和降低。
LapSRN具有三個(gè)特點(diǎn):1.準(zhǔn)確率高,使用Charbonnier損失函數(shù)能夠更好的處理異常值,提高準(zhǔn)確率2.速度快,在大多數(shù)數(shù)據(jù)集上的速度都十分快,與FSRCNN速度相似3.逐級(jí)地進(jìn)行圖像重建,通過拉普拉斯金字塔結(jié)構(gòu)的前向傳播可以生成各種中間的SR圖片。
此網(wǎng)絡(luò)不足之處在于:1.LapSRN無法很好的復(fù)現(xiàn)圖像很細(xì)致的結(jié)構(gòu) 2.模型太大,參數(shù)過多。
2 本文方法
本文將描述基于拉普拉斯金字塔(LapSRN)的多通道卷積網(wǎng)絡(luò)的圖像超分辨率(LapMSRN)的主要設(shè)計(jì)方法。
2.1 PReLU與MSRA初始化
He等[1]人提出了一種新的激活函數(shù):含參修正線性單元(PReLU),表達(dá)式為
? ? ? ? ?(2)
PReLU引入一個(gè)新的參數(shù):,的值通常被設(shè)定為非常小,如0.01等。這樣既可以保留ReLU以修正數(shù)據(jù)分布,并加速收斂的優(yōu)點(diǎn),同時(shí)又可以不完全丟失特征。因此,采用PReLU函數(shù)作為L(zhǎng)apMSRN模型的激活函數(shù)。
另一方面,模型訓(xùn)練過程中對(duì)網(wǎng)絡(luò)權(quán)值進(jìn)行合理的初始化是非常重要的。初始化方法的不同選擇可以直接決定一個(gè)模型是否可以收斂、收斂速度快慢以及最終的收斂狀態(tài)如何。
Glorot等人[2]發(fā)現(xiàn)當(dāng)輸入權(quán)值與輸出權(quán)值在前向傳播與反向傳播過程中保持相同的分布時(shí),模型的性能最優(yōu)秀:模型可以快速收斂并且收斂的結(jié)果更加優(yōu)秀。為了達(dá)到這個(gè)目的,提出一種簡(jiǎn)便的初始化方法:Xavier初始化。它規(guī)定第i層的權(quán)值服從均值為0,方差為的分布,并且建議采用均勻分布形式,使得輸出保持和輸入相同的均值為0,方差為的分布,其中表示當(dāng)前層的參數(shù)數(shù)目,表示下一層的參數(shù)數(shù)目。
2.2網(wǎng)絡(luò)架構(gòu)
我們?cè)诶绽菇鹱炙蚣艿幕A(chǔ)上構(gòu)建我們的模型,我們的模型是將低分辨率圖像作為輸入,并逐級(jí)預(yù)測(cè)金字塔層的殘差圖像,選擇MSRA對(duì)網(wǎng)絡(luò)的權(quán)值進(jìn)行初始化加快模型收斂;使用多層的小卷積核(3*3等)代替單層的大卷積核(9*9等)加深網(wǎng)絡(luò)模型,并且將非線性映射部分改為局部多通道映射,增強(qiáng)模型SR性能,同時(shí)也將對(duì)獲得的特征圖進(jìn)行維度壓縮,從而減少參數(shù),使得超分辨率重構(gòu)效果更好。
3 實(shí)驗(yàn)結(jié)果分析
表1 展示了以91幅圖像作為訓(xùn)練集,各方法在不同圖像放大比例下,各測(cè)試集上所有圖像重建后PSNR的平均值,從表1中可以看出,與現(xiàn)有方法相比,本文所提方法具有更高的PSNR,可以生成更高質(zhì)量的圖像。
4 結(jié)語
本文主要通過對(duì)LapSRN模型進(jìn)行加深以及加寬處理達(dá)到提高SR性能的目的。其中加深操作通過將大尺寸的卷積核替換為多層3*3卷積核,并采用多通道卷積級(jí)聯(lián)的方式達(dá)到;加寬操作通過增加對(duì)特征圖的維度壓縮操作部分,從而減少訓(xùn)練參數(shù),使得超分辨率重建效果更好。另外,我們還采用MSRA初始化方法,進(jìn)而加快模型收斂速度。實(shí)驗(yàn)結(jié)果表明,LapMSRN模型在主客觀評(píng)價(jià)方式上均優(yōu)于經(jīng)典方法。這表明:若要提升模型的SR性能,必然要求模型可以提取更加豐富的LR圖像特征并且更有效地利用特征生成HR圖像,將來可以沿這條路線做更多的工作。
參考文獻(xiàn)
[1]He K, Zhang X, Ren S, et al. Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification[C].//Proceedings of the IEEE International Conference on Computer Vision,2015,pp.1026–1034.
[2]Glorot X , Bengio Y . Understanding the difficulty of training deep feedforward neural networks [J].Journal of Machine Learning Research,2010,9:249-256.
[3]Szegedy C,Liu W,Jia Y,et al.Going deeper with convolutions[C]//Proceedings of the IEEE conference on conference on computer vision and pattern recognition.2015:1-9[DOI:10.1109/CVPR.2015.7298594].
Hyperresolution Reconstruction of Multi-channel Image Based on Laplacian Pyramid
ZHANG Qian-yu
(School of mathematics and computer science,Shanxi normal university,Linfen Shanxi 041000)
Abstract: In order to solve these problems, an image super-resolution algorithm (LapMSRN) based on Laplacian pyramid structure for multichannel convolution network is proposed. This approach is the low resolution images directly as input, step by step to predict residual image pyramid layer, select a specific initialization method initialized weights of the network, to speed up the model convergence, the characteristics of the introduction of multi-channel mapping to extract more rich, using convolution cascade, share the weight of image super-resolution reconstruction in the form of the proposed improved model can better reconstruction of the image texture and details.
Key words: Image super-resolution reconstruction;? The Laplace pyramid;? residual;? The multichannel; Convolution cascade