歐陽寧,曾夢萍,林樂平
1.認知無線電與信息處理省部共建教育部重點實驗室(桂林電子科技大學),廣西 桂林 541004;2.桂林電子科技大學 信息與通信學院,廣西 桂林 541004)(*通信作者電子郵箱lin_leping@163.com)
基于并列卷積神經(jīng)網(wǎng)絡的超分辨率重建
歐陽寧1,2,曾夢萍2,林樂平1,2*
1.認知無線電與信息處理省部共建教育部重點實驗室(桂林電子科技大學),廣西 桂林 541004;2.桂林電子科技大學 信息與通信學院,廣西 桂林 541004)(*通信作者電子郵箱lin_leping@163.com)
為提取更多有效特征并提高模型訓練的收斂速度,提出一種基于并列卷積神經(jīng)網(wǎng)絡的超分辨率重建方法。該網(wǎng)絡由兩路不同結構的網(wǎng)絡組成:一路為簡單的殘差網(wǎng)絡,其優(yōu)化殘差映射比原始的映射更容易實現(xiàn);另一路為增加了非線性映射的卷積神經(jīng)網(wǎng)絡,增強了網(wǎng)絡的非線性能力。隨著并行網(wǎng)絡結構的復雜化,收斂速度慢成為突出問題。針對這個問題,在卷積層后添加正則化處理,以簡化模型參數(shù)、增強特征擬合能力,最終達到加快收斂的目的。實驗結果表明,與基于深度卷積神經(jīng)網(wǎng)絡算法相比,該網(wǎng)絡結構收斂速度更快,主觀視覺效果更好,峰值信噪比(PSNR)平均提高了0.2 dB。
并列卷積神經(jīng)網(wǎng)絡;殘差網(wǎng)絡;非線性映射;正則化處理;收斂速度
圖像超分辨(Super-Resolution, SR)重建的目的是從一組或一幅低分辨率(Low-Resolution, LR)圖像推測丟失的高頻信息來重建高分辨率(High-Resolution, HR)圖像[1]。單幅圖像超分辨率(Single Image SR, SISR)重建算法可分為三大類:基于插值算法[2]、基于重建算法[3],以及基于學習的算法[4-10]。由于基于學習的算法的重建效果更優(yōu),大多數(shù)學者的研究都是建立在這個基礎上。目前,學習算法通常是學習LR和HR圖像塊之間的映射關系。Chang等[6]提出的鄰域嵌入算法是插值圖像塊(Neighbor Embedding with Locally Linear Embedding, NE+LLE)子空間。Yang等[4-5]提出的稀疏編碼算法是利用稀疏表示關系來學習耦合字典。隨機森林[8]以及卷積神經(jīng)網(wǎng)絡[9-10]也被應用于這個領域,同時精度得到很大的提高。其中:Dong等[9]提出了基于卷積神經(jīng)網(wǎng)絡的超分辨率重建(Learning a Deep Convolutional Network for Image SR),成功地將深度學習技術引用到SR鄰域中,該算法系統(tǒng)稱為SRCNN。其主要特征是以端對端的方式直接學習LR與HR圖像塊之間的映射,只需極少量的預前和預后處理。而Yang等[4-7]提出的學習算法需要預處理過程,即塊的提取和整合,同時這個過程需要分開處理。值得一提的是SRCNN算法的效果基本優(yōu)于Yang等[4-5,7]提出的算法。
但SRCNN依舊存在局限性。首先,該網(wǎng)絡學習到的特征少且單一;再者該網(wǎng)絡的學習速率低,訓練網(wǎng)絡時間長。
SRCNN模型證明了直接學習LR-HR之間端到端映射的可行性,因此可以推測增加更多的卷積層用于提取更多的特征可能提高SRCNN的重建效果,但更深的網(wǎng)絡難以訓練且不易于收斂。因此本文引入了一種并列的網(wǎng)絡結構,該網(wǎng)絡訓練過程是并列互不干擾的。通過兩路不同網(wǎng)絡結構捕獲更多不同的有效特征,解決了SRCNN特征少且單一的問題。由于并列網(wǎng)絡加寬了網(wǎng)絡,增加了參數(shù)個數(shù)和特征數(shù)量,從而提高了模型重建效果。
為了解決模型復雜化的問題,本文在卷積層后添加相對應的局部響應正則化(Local Response Normalization, LRN)層[10]。LRN模擬側抑制,迫使在特征映射中的特征以及相鄰特征映射進行局部競爭,使得所有輸入特征映射都具有相似的方差。通過減少參數(shù)調整過程中不適定性帶來的噪聲干擾達到簡明模型的參數(shù)的效果,最終使得模型可以使用比SRCNN高10倍的學習速率進行訓練。較高的學習速率能夠使訓練不易陷入局部極小值,并能提高模型的收斂速度。在訓練過程中,本文使用的相同的學習速率。而SRCNN為了使模型能穩(wěn)定地收斂,因此在不同的層使用不同的學習速率。
本文引入分離層[13]構造并列網(wǎng)絡模型。該模型加寬了網(wǎng)絡,增加了參數(shù)個數(shù),并有效地防止了過擬合現(xiàn)象;同時設計不同的兩路網(wǎng)絡結構捕獲不同的有效特征,更多的有效特征有利于提高重建效果。
本文模型是由殘差支路和非線性支路組成的并列模型。該并列網(wǎng)絡的兩路輸入為相同的LR圖像,通過本文模型最終獲得HR圖像。整個網(wǎng)絡結構的基本框架如圖1所示。
圖1 并列網(wǎng)絡結構
殘差支路:分離層中的一個輸出LR圖像作為該支路的輸入。首先用核大小為9×9的卷積層提取特征,該特征提取層相當于是一個線性操作。激活函數(shù)Relu[15]對特征提取層輸出的所有特征映射進行非線性處理,并對該激活函數(shù)輸出的所有特征映射進行LRN處理。最后將LRN的響應輸出作為殘差網(wǎng)絡的輸入。
非線性支路:該支路同樣使用9×9的卷積核進行特征提取,隨之通過激活函數(shù)Relu對其輸出映射進行非線性處理。添加LRN層,對非線性處理后的所有特征映射處理,最后將LRN的響應輸出作為非線性層的輸入。
增加卷積層可以提高網(wǎng)絡模型的重建性能,但濾波器參數(shù)的增加會增加網(wǎng)絡的訓練時間。因此網(wǎng)絡支路2選用非線性網(wǎng)絡,是為了在不增加網(wǎng)絡復雜度的情況下增加網(wǎng)絡的非線性能力,并相對提高了網(wǎng)絡的重建質量。
值得一提的是,殘差支路和非線性支路的訓練過程是互不干擾的,這避免了其中一條支路的網(wǎng)絡參數(shù)值不適用于另一支路網(wǎng)絡的問題。同時,網(wǎng)絡結構由兩條不同的支路構成,這有利于兩條支路捕捉不同的有效特征,以便在重建過程中能夠擁有更多的有效信息,從而重建得到與原圖更相似的HR圖像。兩條支路和單條支路相比,加寬了網(wǎng)絡,使得參數(shù)增加,特征數(shù)量也增加,同時還能有效防止過擬合。
重建層:將殘差網(wǎng)絡的輸出特征和非線性層輸出特征相加進行特征融合,并用融合后的所有特征映射用核大小為5×5卷積層重建得到HR圖像。
為了提高模型中各分支網(wǎng)絡訓練的收斂速度以及重建效果,本文對網(wǎng)絡結構、學習速率等方面進行了研究。在傳統(tǒng)的深度學習訓練中,如果簡單地設置高學習速率會導致梯度爆炸或梯度消失[14],因此本文加入LRN層達到簡明模型的效果,解決訓練過程中梯度消失及梯度爆炸問題,最終使得網(wǎng)絡可以使用較高的學習速率學習整個網(wǎng)絡。較高的學習速率使得梯度損失相對大,同時參數(shù)的步伐相對大,使得網(wǎng)絡訓練過程不易陷入局部極小值,也相對減少調整參數(shù)的次數(shù),從而提高網(wǎng)絡訓練的收斂速度。
2.1 卷積神經(jīng)網(wǎng)絡中的LRN(局部正則化)
該層對輸入的特征映射依次處理,簡明網(wǎng)絡模型。公式如下所示:
(1)
式(1)的原理是對每個特征圖相鄰的5幅特征圖的每個特征圖的每個相應的像素點處理,然后求平均,但并不引入另外的濾波器參數(shù)。該處理過程是模擬側抑制,對局部輸入?yún)^(qū)域進行歸一化。LRN通過對每次梯度下降調整后的參數(shù)再作一次約束處理,減少相鄰特征映射的參數(shù)方差,達到減少每次參數(shù)調整過程中引入噪聲的目的,從而簡化模型參數(shù)。簡化后的模型朝著滿足LRN約束條件的方向優(yōu)化,減少的噪聲干擾解決了參數(shù)調整過程中梯度爆炸的問題,從而使得網(wǎng)絡模型能用較高的學習速率學習整個網(wǎng)絡。
2.2 殘差支路中的殘差網(wǎng)絡
本文使用的簡單的殘差網(wǎng)絡,框架如圖2所示。
圖2 簡單的殘差網(wǎng)絡
該網(wǎng)絡的公式如下所示:
y=F(x,{Wi})+x
(2)
其中:x和y為殘差網(wǎng)絡的輸入和輸出;F(x,{Wi})表示的是網(wǎng)絡學習到的殘差映射,由圖2知該網(wǎng)絡總共有三層;F=W3σ(W2σ(W1x)),σ表示Relu,偏置省略了用來簡化符號。F+x操作通過快捷連接和元素相加表示。
殘差網(wǎng)絡具有優(yōu)化殘差映射比優(yōu)化原始映射更加容易的優(yōu)點[16-17]。殘差網(wǎng)絡是快捷連接[18],直接跳躍一層或多層,因此殘差網(wǎng)絡優(yōu)化網(wǎng)絡參數(shù)的過程更加快捷。由圖2可知,在整個連接過程中既沒有增加額外的參數(shù)也沒有增加網(wǎng)絡的計算復雜度。整個網(wǎng)絡的訓練依舊采用隨機梯度下降法。
考慮到網(wǎng)絡支路的結構復雜度,以及訓練時間等因素。本文采用三層的殘差網(wǎng)絡,這三層分別為1×1,3×3,1×1的卷積層。在沒有增加模型復雜性的基礎上用1×1的卷積層增加網(wǎng)絡的非線性能力。值得一提的是,本文特地在中間層后添加了LRN層,對上層輸出的特征映射進行處理,使得局部區(qū)域的特征映射相互競爭,進行局部歸一化,達到簡化模型參數(shù)的目的。
在殘差網(wǎng)絡中,本文采用的補零方法保證圖像維度一致。這也是選用簡單的殘差網(wǎng)絡的原因,如果選擇的殘差網(wǎng)絡模型中的濾波器過大,則補零就會越多,這同時也增加了圖像的噪聲,進而會降低圖像重建質量。
2.3 網(wǎng)絡訓練
本文實驗使用91張圖像作為訓練集,測試集用由set4以及set5組成,同時使用3倍放大因子進行訓練,以及估計圖像效果。
本文算法和比較算法都是在相同的實驗平臺(IntelCPU3.20GHz和8GB內存)上操作的,應用的是MatlabR2014a以及Caffe。Caffe用于本文算法和SRCNN算法的網(wǎng)絡訓練,其他幾種算法不需要此過程。值得注意的是基于深度學習算法的實驗要保持數(shù)據(jù)庫一致,避免了數(shù)據(jù)庫大小對重建精度的影響。本文網(wǎng)絡的輸入圖像為33×33 的子圖像,子圖像是在x(i)高分辨率圖像集裁剪出來的。其中網(wǎng)絡框架中特征提取層濾波器大小為9×9,殘差網(wǎng)絡濾波器大小分別為1×1,3×3,1×1,非線性層的濾波器設置為1×1,重建層濾波器大小為5×5。除了重建層濾波器個數(shù)為1,其他所有層濾波器個數(shù)均為64。以雙三次插值Bicubic方法作為基準算法,同時還選擇基于稀疏編碼的圖像超分辨(SparsecodingbasedSuperResolution,ScSR)算法[5]、錨點鄰域回歸的(AnchoredNeighborhoodRegression,ANR)算法[7],以及SRCNN算法[9]作對比實驗。實驗中,本文采用了花、蝴蝶、人臉等常用的圖像測試,此外待重建LR圖尺度放大倍數(shù)s=3。
本文構造的是并列網(wǎng)絡。并列網(wǎng)絡簡單的理解是加寬了網(wǎng)絡,增加了網(wǎng)絡參數(shù)個數(shù),以及增加了特征數(shù)量,能有效地提高重建視覺效果;再者本文應用是兩個不同的支路構成,捕捉了不同的有效圖像特征,更多的有效特征也有利于提高重建質量。圖3為兩個網(wǎng)絡支路的任意的特征映射圖。
圖3 兩條支路特征映射圖
由圖3可知,兩條網(wǎng)絡支路都獲得了有效的特征信息:一條支路捕捉的是光滑信息,另一條捕捉的是輪廓信息。這驗證了本文提到的不同的網(wǎng)絡結構可以捕捉不同的有效特征。
實驗結果如圖4~5所示,分別比較了bird、 ppt3圖用不同SR方法的重建結果,考察全景圖以及截取bird的眼角周圍羽毛紋理和ppt3的話筒等細節(jié)部分。從視覺觀測上來看,Bicubic基于平滑假設,重建效果最差,細節(jié)不明顯,圖像模糊,整體表明較為平滑。ScSR方法的部分細節(jié)重建效果好但bird眼角周圍羽毛黑白交替邊緣不夠自然出現(xiàn)振鈴現(xiàn)象;ANR算法中bird眼角周圍和ppt3上的話筒相對較好,細節(jié)細膩但出現(xiàn)部分偽影信息。SRCNN算法雖然比以上方法不論是從視覺還是從評估參數(shù)上都有較大提高,但是在bird眼角周圍羽毛的振鈴狀還是需改善。而本文方法在bird羽毛邊緣的銳度和清晰度都得到明顯的改善,且重建的高頻信息豐富,視覺效果更好;同樣從圖5 ppt3圖像話筒的細節(jié)看出,本文算法恢復的局部細節(jié)信息清晰、細膩,整體效果與原始圖像更接近。
圖4 bird原始HR及各方法重建結果對比
本文首先對網(wǎng)絡的單支路加入LRN層作對比實驗。實驗結果如圖6所示,從中可看出對于單支路加入LRN層能相對提高模型的收斂速度。
圖5 ppt3原始HR及各方法重建結果對比
另外,本文的兩條網(wǎng)絡支路結構都很簡單:一支路選用特征提取層以及最簡單的殘差網(wǎng)絡,和原有的映射相比,優(yōu)化殘差映射更容易;另一支路只由特征提取層和非線性層構成。值得一提是,特地添加LRN層主要用于簡化網(wǎng)絡參數(shù),減少參數(shù)調整過程中輸入噪聲的干擾,以至于本文利用使用0.001的學習速率。較高的學習速率使得整個網(wǎng)絡結構更容易收斂,同時也有利于提高重建精度。此外,本文還進行了收斂速度測試,圖7展示了在數(shù)據(jù)集set5上的測試結果。由圖7可知對于傳統(tǒng)算法而言,不考慮收斂速度這個因素影響。因為這幾個重建算法都是訓練好字典后然后進行矩陣運算,不存在網(wǎng)絡訓練反向傳播次數(shù)這個因素的影響,所以隨著反向傳播次數(shù)的增加,它們的峰值信噪比(Peak Signal-to-Noise Ratio, PSNR)也保持不變,最終它們PSNR呈現(xiàn)的是直線。同時觀察到SRCNN算法重建精度優(yōu)于其他幾種算法,而本文算法相對而言是最優(yōu)的,其PSNR平均高于SRCNN 0.2 dB,這說明本文算法確實可行有效。本文可以在反向傳播次數(shù)為2×108時,測試set5平均值為32.42 dB就可以超過SRCNN在反向傳播次數(shù)為8×108的32.39 dB的效果,這說明高學習速率有利于提高模型的收斂速度;而本文算法不論是視覺效果還是參數(shù)估計都優(yōu)于SRCNN。這說明高學習速率也是有利于重建質量,實驗結果如表1~2所示。值得一提的是本文最終使用的反向傳播次數(shù)是4.0×108而SRCNN使用的是8.0×108。
圖6 單支路添加LRN與SRCNN比較曲線圖
圖7 本文算法和其他幾種算法測試set5收斂速度以及結果曲線圖
表1 本文測試圖像重建結果PSNR對比 dB
表2 本文測試圖像重建結果SSIM對比
本文提出了基于并列卷積網(wǎng)絡的超分辨率重建方法。該網(wǎng)絡證明了通過加寬網(wǎng)絡可以捕捉更多不同的有效特征,更多的有效特征信息有利于提高重建精度;同時還驗證了通過LRN對局部輸入變量歸一化處理,可相對減少輸入噪聲的干擾達到簡化網(wǎng)絡參數(shù)的目的。簡化模型參數(shù)不僅可以增強網(wǎng)絡模型擬合特征的能力,而且使得網(wǎng)絡模型可用更高的學習速率進行訓練。較高的學習速率相對減少了參數(shù)調整的次數(shù),從而提高模型的收斂速度。本文不論是在主觀重建效果還是客觀評價參數(shù)上都有所提高。在接下來工作中研究的內容包括在更深的網(wǎng)絡結構如何使用更高的學習速率收斂網(wǎng)絡,并通過增加網(wǎng)絡深度提高重建精度。
References)
[1] GLASNER D, BAGON S, IRANI M. Super-resolution from a single image[C]// Proceedings of the 2009 IEEE 12th International Conference on Computer Vision. Piscataway, NJ: IEEE, 2009: 349-356.
[2] ZHANG D, WU X. An edge-guided image interpolation algorithm via directional filtering and data fusion [J]. IEEE Transactions on Image Processing, 2006, 15(8): 2226-2238.
[3] RASTI P, DEMIREL H, ANBARJAFARI G. Image resolution enhancement by using interpolation followed by iterative back projection[C]// Proceedings of the 2013 21st Signal Processing and Communications Applications Conference (SIU). Piscataway, NJ: IEEE, 2013: 1-4.
[4] YANG J-C, WRIGHT J, HUANG T S, et al. Image super-resolution via sparse representation[J]. IEEE Transactions on Image Processing, 2010, 19(11): 2861-2873.
[5] YANG J, WRIGHT J, HUANG T, et al. Image super-resolution as sparse representation of raw image patches[C]// Proceedings of the 2008 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2008: 1-8.
[6] CHANG H, YEUNG D Y, XIONG Y. Super-resolution through neighbor embedding[C]// Proceedings of the 2004 Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2004, 1: I-I.
[7] TIMOFTE R, SMET V, GOOL L. Anchored neighborhood regression for fast example-based super-resolution[C]// Proceedings of the 2013 IEEE International Conference on Computer Vision. Piscataway, NJ: IEEE, 2013: 1920-1927.
[8] SCHULTER S, LEISTNER C, BISCHOF H. Fast and accurate image upscaling with super-resolution forests[C]// Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2015: 3791-3799.
[9] DONG C, LOY C C, HE K, et al. Learning a deep convolutional network for image super-resolution[C]// Proceedings of the 13th European Conference on Computer Vision, LNCS 8692. Berlin: Springer, 2014: 184-199.
[10] DONG C, LOY C C, HE K, et al. Image super-resolution using deep convolutional networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2016, 38(2): 295-307.
[11] KRIZHEVSKY A, SUTSKEVER I, HINTON G E. ImageNet classification with deep convolutional neural networks[EB/OL]. [2016- 03- 10]. https://papers.nips.cc/paper/4824-imagenet-classification-with-deep-convolutional-neural-networks.pdf.
[12] SHANKAR S, ROBERTSON D, IOANNOU Y, et al. Refining architectures of deep convolutional neural networks [EB/OL]. [2016- 03- 01]. https://arxiv.org/pdf/1604.06832v1.pdf.
[13] NAIR V, HINTON G E. Rectified linear units improve restricted Boltzmann machines[EB/OL]. [2016- 03- 01]. http://machinelearning.wustl.edu/mlpapers/paper_files/icml2010_NairH10.pdf.
[14] BENGIO Y, SIMARD P, FRASCONI P. Learning long-term dependencies with gradient descent is difficult [J]. IEEE Transactions on Neural Networks, 1994, 5(2): 157-166.
[15] HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition[EB/OL]. [2016-03- 01]. https://arxiv.org/pdf/1512.03385v1.pdf.
[16] SZEGEDY C, IOFFE S, VANHOUCKE V. Inception-v4, inception-ResNet and the impact of residual connections on learning[EB/OL]. [2016- 03- 01]. https://arxiv.org/pdf/1602.07261.pdf.
[17] BISHOP C M. Neural Networks for Pattern Recognition[M]. Oxford: Oxford University Press, 1995.
[18] LECUN Y, BOTTOU L, BENGIO Y, et al. Gradient-based learning applied to document recognition[J]. Proceedings of the IEEE, 1998, 86(11): 2278-2324.
This work is partially supported by National Natural Science Foundation of China (61362021, 616620211017), the Natural Science Foundation of Guangxi (2013GXNSFDA019030, 2014GXNSFDA118035), the Key Laboratory Director Foundation of Cognitive Radio and Information Processing (CRKL160104), the Scientific and Technological Innovation Ability and Condition Construction Plans of Guangxi (1598025-21), the Scientific and Technological Bureau of Guilin (20150103-6), the Innovation Project of Graduate Education in Guilin University of Electronic Technology (YJCXS201534).
OUYANG Ning, born in 1972, M. S., professor. His research interests include digital image processing, intelligent information processing.
ZENG Mengping, born in 1992, M. S. candidate. Her research interests include super-resolution reconstruction, deep learning.
LIN Leping, born in 1980, Ph. D. Her research interests include pattern recognition, intelligent information processing, image processing.
Parallel convolutional neural network for super-resolution reconstruction
OUYANG Ning1,2, ZENG Mengping2, LIN Leping1,2*
(1. Key Laboratory of Cognitive Radio and Information Processing of Ministry of Education (Guilin University of Electronic Technology), Guilin Guangxi 541004, China;2. School of Information and Communication, Guilin University of Electronic Technology, Guilin Guangxi 541004, China)
To extract more effective features and speed up the convergence of model training, a super-resolution reconstruction algorithm based on parallel convolution neural network was proposed. The network consists of two different network structures, one is a simple residual network structure, which has a easier optimal residual mapping than the original one; the other is a convolutional neural network with nonlinear mapping, which can increase the non-linearity of the network. As the complexity of the parallel network structure, the convergence speed is the key issue. Aiming at this problem, the Local Response Normalization (LRN) layer was added to the convolution layers to simplify the model parameters and enhance the feature fitting ability, thus accelerating the convergence. Experimental results show that, compared with algorithms based on deep convolutional neural network, the proposed method accelerates the convergence, improves the visual quality, and increases Peak Signal-to-Noise Ratio (PSNR) at least 0.2 dB.
parallel convolution neural network; residual network; nonlinear mapping; Local Response Normalization (LRN); convergence speed
2016- 08- 04;
2016- 12- 27。
國家自然科學基金資助項目(61362021,61661017);廣西自然科學基金資助項目(2013GXNSFDA019030,2014GXNSFDA118035);認知無線電與信號處理重點實驗室主任基金資助項目(CRKL160104);廣西科技創(chuàng)新能力與條件建設計劃項目(桂科能1598025-21);桂林科技開發(fā)項目(20150103-6);桂林電子科技大學研究生教育創(chuàng)新計劃項目(YJCXS201534)。
歐陽寧(1972—),男,湖南寧遠人,教授,主要研究方向:數(shù)字圖像處理、智能信息處理; 曾夢萍(1992—),女,湖北鄂州人,碩士研究生,主要研究方向:圖像超分辨率重建、深度學習; 林樂平(1980—),女,廣西桂平人,博士,主要研究方向:模式識別、智能信息處理、圖像處理。
1001- 9081(2017)04- 1174- 05
10.11772/j.issn.1001- 9081.2017.04.1174
TP391.41
A