謝朋言
(中國船舶重工集團公司第七二三研究所,江蘇 揚州225101)
隨著光電技術(shù)的發(fā)展,光電探測系統(tǒng)、光電監(jiān)控系統(tǒng)等已經(jīng)廣泛應(yīng)用于國民經(jīng)濟及軍事等方面,如平安城市智能監(jiān)控系統(tǒng)、無人機目標(biāo)檢測與識別系統(tǒng)等。然而實際情況下,受到目標(biāo)運動、環(huán)境照度、光學(xué)畸變、圖像混疊、動態(tài)模糊以及噪聲等因素的影響,獲取的圖片往往分辨率較低,難以辨識。超分辨率重構(gòu)技術(shù)可以在不增加硬件成本的基礎(chǔ)上,通過軟件處理的方式將觀測到的低分辨率圖像還原成高分辨率圖像,顯著提高模糊圖像的清晰度,恢復(fù)被破壞的圖片特征,因此受到了廣泛的關(guān)注和研究。
早期的超分辨率重構(gòu)大多基于圖片插值的方法,如雙三次插值法和蘭索斯重采樣法[1],這類方法得到的圖片過于平滑,缺少細(xì)節(jié)。2010 年,Yang等[2]提出了基于稀疏表示的圖像超分辨率重構(gòu)方法,通過一個轉(zhuǎn)換矩陣將圖片表示為一個稀疏的向量,便于學(xué)習(xí)高低分辨率圖片之間的映射關(guān)系。在稀疏表示的基礎(chǔ)上,學(xué)者們陸續(xù)提出了基于圖片自相似性的超分辨率重構(gòu)方法[3-4]以及基于局部線性回歸的超分辨率重構(gòu)方法[5-8]。這些方法專注于學(xué)習(xí)高低分辨率圖片特征之間的映射關(guān)系,而沒有將特征提取和圖片重構(gòu)階段納入到整體的最優(yōu)化過程中,且模型中有大量的參數(shù)需要人為設(shè)置,限制了超分辨率重構(gòu)的效果。
近年來,深度學(xué)習(xí)廣泛應(yīng)用于計算機視覺和圖像處理領(lǐng)域,卷積神經(jīng)網(wǎng)絡(luò)是深度學(xué)習(xí)的一種典型框架。2014年,Dong等[9]率先將卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用于超分辨率重構(gòu)任務(wù)中,建立了一個輸入為低分辨率圖片、輸出為高分辨率圖片的端到端的網(wǎng)絡(luò)模型,其重構(gòu)效果相比之前基于稀疏表示的經(jīng)典方法有了顯著提高。在其基礎(chǔ)之上,陸續(xù)提出了多種基于深度學(xué)習(xí)的超分辨率重構(gòu)網(wǎng)絡(luò)模型[10-14]。總的來說,基于深度學(xué)習(xí)的超分辨率網(wǎng)絡(luò)的發(fā)展趨勢為:(1)網(wǎng)絡(luò)的層數(shù)越來越多,從最初的3層到目前普遍的20~30層;(2)網(wǎng)絡(luò)結(jié)構(gòu)上的改進(jìn),如跳躍連接和循環(huán)結(jié)構(gòu)的使用;(3)與結(jié)構(gòu)變化相對應(yīng)的網(wǎng)絡(luò)訓(xùn)練策略的更新。
盡管深層卷積神經(jīng)網(wǎng)絡(luò)在超分辨率重構(gòu)上均取得了不錯的效果,但這些網(wǎng)絡(luò)的計算量較大,超分辨率重構(gòu)的效率較低,難以滿足實時超分辨率重構(gòu)的需要(24 fps)。針對以上不足,本文提出了一種基于分段循環(huán)卷積網(wǎng)絡(luò)的快速圖像超分辨率重構(gòu)模型。網(wǎng)絡(luò)采用全局殘差結(jié)構(gòu),學(xué)習(xí)目標(biāo)是高低分辨率圖片之差,即殘差圖片。不同于現(xiàn)有的超分辨率重構(gòu)網(wǎng)絡(luò)模型,采用原始尺寸的低分辨率圖片作為輸入,相比使用插值后的圖片,其計算量僅為1/16(以4倍放大為例)。網(wǎng)絡(luò)分為特征提取和圖像重構(gòu)兩部分。在特征提取部分,采用循環(huán)卷積層提取輸入圖片的特征信息;使用跳躍連接將提取到的局部特征和全局特征串聯(lián)作為圖像重構(gòu)部分的輸入,便于充分提取輸入圖片的先驗信息。在圖像重構(gòu)部分,采用并行的1×1的卷積結(jié)構(gòu)以降低輸入通道數(shù),減少了特征降維過程中的信息丟失;最后利用亞像素卷積層重組特征,以得到相應(yīng)的高分辨率圖片。實驗結(jié)果表明,提出的算法不僅在超分辨率重構(gòu)性能上有了一定提高,而且大幅降低了深層卷積神經(jīng)網(wǎng)絡(luò)的計算量,在實驗平臺下將一張32×32像素的模糊圖片轉(zhuǎn)化為128×128像素的清晰圖片所需時間為0.0 156 s(64 fps),滿足實時重構(gòu)的要求。
高、低分辨率圖像間的轉(zhuǎn)化過程可以由圖像降質(zhì)模型來描述。具體地,用X∈R N L來表示低分辨率圖像,Y∈R N H來表示原始的高分辨率圖像。這里X與Y都是以一維向量的形式來表示,N L與N H對應(yīng)著各自圖像所包含的像素總數(shù),顯然有N L<N H。關(guān)于高低分辨率圖像間的聯(lián)系可以用如下數(shù)學(xué)模型來表示:
式中:H:R N H→R N H表示模糊算子;S:R N H→R N L表示下采樣算子;v表示附加的高斯白噪聲,v~N(0,σ2I)。
在這里,假設(shè)模糊算法H對原始圖像進(jìn)行了低通濾波操作,模擬了如光學(xué)畸變、圖像混疊、運動模糊等實際情況;下采樣算子S對原始圖像進(jìn)行了指定倍數(shù)的下采樣操作;v模擬了整個光電成像系統(tǒng)中可能出現(xiàn)的光子噪聲、暗電流噪聲等隨機噪聲。
基于深度學(xué)習(xí)的圖像超分辨率重構(gòu)的實質(zhì)是建立一個從模糊圖像到清晰圖像的卷積神經(jīng)網(wǎng)絡(luò),用f W表示,其中W={w1,w2,…,w n},表示待學(xué)習(xí)的參數(shù)。則對于輸入的模糊圖像x,經(jīng)過卷積神經(jīng)網(wǎng)絡(luò)后的預(yù)測圖像y︿可以表示為:
定義損失函數(shù)l(W),用于衡量預(yù)測圖像y︿和作為基準(zhǔn)的清晰圖像y之間的差異。神經(jīng)網(wǎng)絡(luò)訓(xùn)練或者優(yōu)化過程的實現(xiàn)是經(jīng)過前向傳播計算損失函數(shù),根據(jù)損失函數(shù)的值反向推導(dǎo),進(jìn)行相關(guān)參數(shù)W的調(diào)整,使得損失函數(shù)最小化。損失函數(shù)的值越小,則預(yù)測圖像越接近作為基準(zhǔn)的清晰圖像,即所構(gòu)建的神經(jīng)網(wǎng)絡(luò)模型效果越好。整個過程如圖1所示。綜上,基于深度學(xué)習(xí)的圖像超分辨率重構(gòu)算法的設(shè)計流程如下:
(1)根據(jù)圖片的特征以及實際需要,設(shè)計用于超分辨率重構(gòu)的網(wǎng)絡(luò);
(2)定義訓(xùn)練過程中的損失函數(shù),用于衡量預(yù)測圖片和參照圖片的相似度;
(3)根據(jù)設(shè)計的網(wǎng)絡(luò)結(jié)構(gòu),確定合適的參數(shù)初始化方式以及參數(shù)更新方法;
圖1 基于深度學(xué)習(xí)的超分辨率重構(gòu)原理示意圖
(4)對網(wǎng)絡(luò)中的所有參數(shù)進(jìn)行初始化賦值,將預(yù)處理后的訓(xùn)練圖片輸入網(wǎng)絡(luò),根據(jù)定義的損失函數(shù)和參數(shù)更新方法訓(xùn)練網(wǎng)絡(luò);
(5)將用于測試的模糊圖片輸入到訓(xùn)練好的網(wǎng)絡(luò)中,對超分辨率重構(gòu)性能進(jìn)行評測。
網(wǎng)絡(luò)的基本結(jié)構(gòu)如圖2 所示,其中Conv表示卷積操作,Bias表示偏置操作,使用PReLU[15]作為激活函數(shù),粗線部分表示循環(huán)卷積層,d是循環(huán)的次數(shù),concatenate 表示特征在通道數(shù)上的級聯(lián),reshape表示亞像素卷積層,每一個卷積層下方括號中第1個數(shù)字表示卷積核的大小,第2個數(shù)字表示卷積核的數(shù)量。采用全局殘差結(jié)構(gòu)[11],輸入的低分辨率圖片經(jīng)過主體網(wǎng)絡(luò)得到相應(yīng)的殘差圖片,再將殘差圖片與原始圖片雙三次插值后的結(jié)果進(jìn)行元素相加,得到最終的高分辨率預(yù)測圖片。主體網(wǎng)絡(luò)由兩部分組成:特征提取網(wǎng)絡(luò)和圖像重構(gòu)網(wǎng)絡(luò)。特征提取網(wǎng)絡(luò)采用循環(huán)卷積層來提取低分辨率圖像的特征信息,并通過跳躍連接[12]將每一個卷積層提取到的局部特征級聯(lián)起來,作為一個整體輸入到圖像重構(gòu)網(wǎng)絡(luò)。圖像重構(gòu)網(wǎng)絡(luò)采用并行的1×1 的卷積層[16]對提取到的特征進(jìn)行降維,并通過一個濾波器數(shù)量等于放大尺度平方的卷積層進(jìn)行特征重組,最后通過亞像素卷積[10]得到相應(yīng)的殘差圖片。特別地,使用原始尺寸的低分辨率圖像作為主體網(wǎng)絡(luò)的輸入,直接在低分辨率圖像空間提取特征信息。相比插值后的圖片[9,1113],使用原始尺寸的圖片大大降低了網(wǎng)絡(luò)的計算量,提高了網(wǎng)絡(luò)的運算速度。
圖2 網(wǎng)絡(luò)的基本結(jié)構(gòu)
特征提取網(wǎng)絡(luò)的作用是將輸入的模糊圖片轉(zhuǎn)化為一系列的特征映射,便于后續(xù)的圖像重構(gòu)。為了提高超分辨率重構(gòu)的質(zhì)量,最直接的方式就是增加卷積網(wǎng)絡(luò)的層數(shù),以提高網(wǎng)絡(luò)的有效接收域,使得網(wǎng)絡(luò)在預(yù)測缺失的高頻細(xì)節(jié)時有更多可以利用的紋理信息。然而一味地增加卷積層的數(shù)量,會增加參數(shù)量,易導(dǎo)致模型過擬合。因此引入循環(huán)卷積的思想,通過反復(fù)使用同一個卷積層,在不增加參數(shù)的前提下,提高網(wǎng)絡(luò)的學(xué)習(xí)能力。針對循環(huán)卷積網(wǎng)絡(luò)在訓(xùn)練過程中可能產(chǎn)生的梯度爆炸/消失問題,采用跳躍連接[12]將每一次循環(huán)卷積的結(jié)果直接傳送到特征提取網(wǎng)絡(luò)末端,并通過級聯(lián)的方式進(jìn)行整合,作為圖像重構(gòu)網(wǎng)絡(luò)的輸入。則級聯(lián)后的特征通道數(shù)c可以表示為:
式中:d表示循環(huán)卷積的次數(shù)。
由于級聯(lián)后的特征維數(shù)較高,直接對其重構(gòu)的計算量較大。因此,在圖像重構(gòu)網(wǎng)絡(luò)的前端加入1×1的卷積層以減少通道數(shù)。采用并行的網(wǎng)絡(luò)結(jié)構(gòu)[16],一路直接用64個1×1的卷積核進(jìn)行特征降維;另一路先用32個1×1的卷積核進(jìn)行降維,再用32個3×3的卷積核進(jìn)一步提取深層信息,最后將兩路的卷積結(jié)果進(jìn)行級聯(lián),并傳遞到后續(xù)網(wǎng)絡(luò)。相比傳統(tǒng)的鏈?zhǔn)浇Y(jié)構(gòu),并行結(jié)構(gòu)可以提高網(wǎng)絡(luò)的學(xué)習(xí)能力,同時降低網(wǎng)絡(luò)的參數(shù)量和計算量。最后需要將高分辨率特征轉(zhuǎn)化為指定大小的高分辨率圖像。以4倍放大為例,先用16個1×1的卷積操作改變輸入特征的通道數(shù),再通過亞像素卷積操作[10],將特征中的元素按照特定位置,周期性插入到高分辨率圖像中,以得到相應(yīng)的高分辨率殘差圖像。
式中:W為網(wǎng)絡(luò)參數(shù)的集合;n為小批量訓(xùn)練的樣本數(shù)。
為防止模型過擬合,在損失函數(shù)中加入基于L2范數(shù)的正則化項,正則化系數(shù)為10-4。最終的損失函數(shù)為:
參數(shù)初始化是高質(zhì)量超分辨率重構(gòu)網(wǎng)絡(luò)設(shè)計中的重要環(huán)節(jié),直接影響到網(wǎng)絡(luò)模型的訓(xùn)練以及最終的重構(gòu)效果。如果參數(shù)W的初始值太小,那么圖像信號在網(wǎng)絡(luò)傳遞的過程中逐漸縮小,難以產(chǎn)生作用;如果參數(shù)W的初始值太大,那么圖像信號在網(wǎng)絡(luò)傳遞的過程中會層層放大,導(dǎo)致網(wǎng)絡(luò)的發(fā)散和失效。參數(shù)初始化的目的是讓每一個卷積層的輸入和輸出都保持良好的高斯分布,便于網(wǎng)絡(luò)模型的訓(xùn)練。
網(wǎng)絡(luò)權(quán)重的初始化情況如下:所有的卷積參數(shù)均采用He初始化方法[15],所有的偏置以及PRe LU中的參數(shù)α都初始化為0。在訓(xùn)練階段,對每個卷積層中PRe LU的輸出進(jìn)行p=0.8的dropout操作[17],以概率p將非線性激活函數(shù)的輸出置0。在測試階段,再將每一個卷積層的輸出乘以(1-p)。損失函數(shù)的優(yōu)化器選用Adam[18],初始學(xué)習(xí)速率為2×10-3,如果損失函數(shù)的值連續(xù)5個迭代周期沒有減少,那么就將學(xué)習(xí)速率除以2。當(dāng)學(xué)習(xí)速率低于2×10-5的時候,停止訓(xùn)練。實驗所用的圖形處理器(GPU)為GTX 1070,處理器為i7-7700,整個訓(xùn)練過程大約需要70 h。
DIV2K 數(shù)據(jù)集[19]是目前圖像重構(gòu)領(lǐng)域廣泛使用的標(biāo)準(zhǔn)數(shù)據(jù)集之一,它包含1 000張較高分辨率的清晰圖片(2 000×2 000像素)。實驗中為確定網(wǎng)絡(luò)的最佳循環(huán)次數(shù)d,將其中的800張圖片作為訓(xùn)練集,另200張圖片作為確認(rèn)集。對于d的不同取值,在同一個訓(xùn)練集上進(jìn)行訓(xùn)練,并通過確認(rèn)集評價其重構(gòu)效果,以確定最佳循環(huán)次數(shù)。在比較不同方法的圖像重構(gòu)性能時,則采用以下標(biāo)準(zhǔn)數(shù)據(jù)集:Set5[20],Set14[21],B100[22]和Urban100[23](數(shù)字表示該數(shù)據(jù)集中的圖片數(shù)量)。
訓(xùn)練階段采用了數(shù)據(jù)增強的方式,以提高樣本的豐富度。將訓(xùn)練集中的每一張圖片分解為128×128像素的小圖像塊,每個圖像塊之間略有重疊,再對這些圖像塊進(jìn)行90°、180°、270°的順時針旋轉(zhuǎn)以及水平鏡像翻轉(zhuǎn)。然后將數(shù)據(jù)增強后的圖像塊從RGB色彩空間轉(zhuǎn)換到Y(jié)CbCr色彩空間,因為顏色對于超分辨率重建的影響不大,所以后續(xù)的卷積操作和性能評估都是在亮度通道Y 上進(jìn)行。對圖像塊進(jìn)行高斯模糊濾波,得到相應(yīng)的低分辨率圖像塊尺寸為32×32像素。由于采用的網(wǎng)絡(luò)是全卷積網(wǎng)絡(luò),所以在顯卡內(nèi)存允許范圍內(nèi),輸入的圖片可以為任意尺寸。
本節(jié)通過實驗確定最佳循環(huán)次數(shù),分別比較循環(huán)次數(shù)d為1次(即普通卷積層)至15次時,網(wǎng)絡(luò)超分辨率重構(gòu)的性能。實驗在確認(rèn)集上進(jìn)行,采用峰值信噪比(PSNR)作為評價指標(biāo):
式中:σPSNR單位是dB,σPSNR的值越大,超分辨率重構(gòu)效果越好;eMS表示重建圖像與參考圖像的均方誤差。
PSNR 實驗結(jié)果如表1所示。
表1 不同循環(huán)次數(shù)下的超分辨率重構(gòu)性能對比
實驗結(jié)果表明,相比普通的卷積層(即循環(huán)次數(shù)為1),加入循環(huán)結(jié)構(gòu)可以有效提高超分辨率重建的性能。剛開始隨著循環(huán)次數(shù)的增加,測試集的平均峰值信噪比不斷提高;當(dāng)循環(huán)次數(shù)d=9時,在測試集上的峰值信噪比達(dá)到最大值,表明此時的超分辨率重構(gòu)質(zhì)量最好;繼續(xù)增加循環(huán)的次數(shù),則在測試集上的峰值信噪比急劇下降,原因可能是現(xiàn)有的參數(shù)初始化和更新方式并不能完全適應(yīng)過于深層的網(wǎng)絡(luò)結(jié)構(gòu)。最終確定網(wǎng)絡(luò)的循環(huán)次數(shù)d=9。
本節(jié)采用主客觀評價相結(jié)合的方式,將提出的方法與主流的超分辨率重構(gòu)方法進(jìn)行比較,全面客觀地反映出所提方法的性能。
在4倍放大率下進(jìn)行重構(gòu)圖像的主觀評價,部分測試結(jié)果如圖3所示。相比輸入的模糊圖片以及簡單雙三次差值得到的圖片,經(jīng)過深度學(xué)習(xí)框架重構(gòu)后的圖片細(xì)節(jié)紋理更加突出。
圖3 部分圖片的重構(gòu)結(jié)果
通過峰值信噪比(PSNR,單位dB)進(jìn)行客觀評價,將提出的算法與目前具有代表性的幾個超分辨率 模 型(SRCNN[9]、ESPCN[10]、VDSR[11]、DRCN[12]、SRResNet[13])進(jìn)行對比,在不同測試集下的結(jié)果如表2所示。
表2 提出的算法與其它超分辨率重構(gòu)網(wǎng)絡(luò)的對比
由于上述方法采用的軟件和測試平臺不同,故引入計算復(fù)雜度[24],用于比較超分辨率重構(gòu)的效率。各方法的峰值信噪比均值以及計算復(fù)雜度關(guān)系如圖4所示。
圖4 提出的算法與其它超分辨率重構(gòu)網(wǎng)絡(luò)的對比
實驗結(jié)果表明,提出的超分辨率重構(gòu)網(wǎng)絡(luò)在性能上明顯優(yōu)于SRCNN、ESPCN等淺層卷積網(wǎng)絡(luò),且在網(wǎng)絡(luò)計算量方面遠(yuǎn)遠(yuǎn)低于VDSR、DRCN、SRResNet等深層卷積網(wǎng)絡(luò)。在實驗平臺設(shè)備上將32×32像素的模糊圖片轉(zhuǎn)化為128×128像素的清晰圖片,所需的平均時間為0.015 6 s(64fps),滿足實時性的要求。
提出了一種快速圖像超分辨率重構(gòu)網(wǎng)絡(luò)模型。模型采用原始尺寸的低分辨率圖像作為輸入,大幅減少了網(wǎng)絡(luò)的整體計算量。通過對特征提取網(wǎng)絡(luò)中循環(huán)卷積次數(shù)的最優(yōu)化設(shè)計,在保證網(wǎng)絡(luò)結(jié)構(gòu)精簡的前提下,提高了網(wǎng)絡(luò)的超分辨率重構(gòu)性能。實驗結(jié)果表明,提出的模型在實驗平臺設(shè)備上將32×32像素的模糊圖片轉(zhuǎn)化為128×128像素的清晰圖片,所需的平均時間為0.015 6 s(64 fps),滿足實時性的要求。未來該技術(shù)有可能應(yīng)用于雷達(dá)圖像或者衛(wèi)星遙感圖像的重構(gòu)及相關(guān)處理。