李瑩華,劉 悅,劉 穎
(1.西安郵電大學(xué) 圖像與信息處理研究所,陜西 西安 710121;2.西安郵電大學(xué) 電子信息現(xiàn)場勘驗(yàn)應(yīng)用技術(shù)公安部重點(diǎn)實(shí)驗(yàn)室,陜西 西安 710121;3. 西安郵電大學(xué) 陜西省無線通信與信息處理技術(shù)國際合作研究中心,陜西 西安 710121)
圖像超分辨率(Super-Resolution,SR)重建技術(shù)是通過硬件或軟件的方法提高原有圖像的分辨率,將一幅或多幅低分辨率圖像重構(gòu)為高分辨率圖像的過程。硬件方法耗費(fèi)成本較高、時(shí)間較長,通常采用能夠克服固有器件分辨率限制的軟件方法。從一幅低分辨率圖像獲取更多的細(xì)節(jié)信息較為困難,而利用超分辨率重建技術(shù)可以獲取更多的細(xì)節(jié)信息,因此SR技術(shù)在公共安全[1-5]、衛(wèi)星成像[6-7]、醫(yī)學(xué)診斷[8-10]和航空航天[11]等領(lǐng)域應(yīng)用廣泛。
低分辨率(Low Resolution,LR)圖像中的已知變量遠(yuǎn)遠(yuǎn)多于高分辨率(High Resolution,HR)圖像中的未知變量,因此SR是一個(gè)高度不適定問題,且其在重建約束下的解不是唯一的,通過正則化方法可解決這個(gè)不適定問題。傳統(tǒng)的圖像超分辨率重建技術(shù)主要分為基于插值的方法[12-14]、基于重建的方法[15-17]以及基于學(xué)習(xí)的方法[18-21]。基于插值的方法包含鄰近插值法、雙線性插值法和雙三次插值法,其恢復(fù)的單圖像超分辨率(Single Image Super-Resolution,SISR)往往過于平滑,并且具有環(huán)狀和鋸齒狀的偽影?;谥亟ǖ姆椒ㄓ型辜队胺ā⒇惾~斯分析法、迭代反投影法[22]、最大后驗(yàn)概率估計(jì)法和正規(guī)劃法等,其需要復(fù)雜的先驗(yàn)知識約束解,但放大因子較大時(shí),重建耗時(shí)長且生成的圖像模糊。基于機(jī)器學(xué)習(xí)的方法有鄰域嵌入法[23]、稀疏表示法[24]、錨定鄰域回歸法[25]和支持向量回歸方法[26]等,通過外部訓(xùn)練庫學(xué)習(xí)低分與高分圖像之間的映射關(guān)系獲取LR-HR圖像塊的先驗(yàn)信息。基于深度學(xué)習(xí)的超分重建具有計(jì)算效率高、處理數(shù)據(jù)能力強(qiáng)的優(yōu)勢,且其映射關(guān)系效率高于傳統(tǒng)的SISR方法。
對傳統(tǒng)超分辨率重建方法的優(yōu)點(diǎn)及其局限性進(jìn)行總結(jié),通過回顧幾種經(jīng)典的基于學(xué)習(xí)的超分辨率方法,分析對比不同超分辨率方法的特點(diǎn)以及在各種數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果,并對圖像超分辨率重建技術(shù)未來的發(fā)展趨勢進(jìn)行展望。
基于插值的方法通常有最近鄰插值法、雙線性插值法和雙三次插值法(Bicubic)等3類。最鄰近插值法的核心思想是找出距離輸出像素點(diǎn)最近的點(diǎn),該點(diǎn)的像素值的灰度值就是輸出點(diǎn)的像素值的灰度值,即變換后像素灰度值等于離該點(diǎn)最近的輸入像素的灰度值。雙線性插值法的中心思想是通過中心像素點(diǎn)旁邊4個(gè)相鄰點(diǎn)的像素,分別在水平和垂直兩個(gè)方向上進(jìn)行線性內(nèi)插得到最終待插值點(diǎn)的像素值。雙線性插值算法僅僅考慮到4個(gè)直接臨近點(diǎn)的灰度的影響,考慮的影響因素太小。雙三次插值方法計(jì)算量較大,但效果相對較好,其需要合適的插值基函數(shù)擬合數(shù)據(jù)。常用插值基函數(shù)數(shù)學(xué)表達(dá)式[12]為
(1)
基于插值的方法通常提供過于平滑的重建圖像,部分細(xì)節(jié)失去,留下了振鈴效應(yīng)即輸出圖像灰度劇烈變化處產(chǎn)生的震蕩,以及高頻信息丟失。
基于重建的方法要求圖像具有較好的先驗(yàn)知識,不適用于放大倍數(shù)較大的圖像重建[27],即其在邊緣保持和人為影響抑制方面有明顯的效果,但高頻細(xì)節(jié)無法有效重建。尤其是,LR圖像的放大倍數(shù)越大,SR性能往往越差。
基于機(jī)器學(xué)習(xí)的方法可分為分類算法和聚類算法等不同的種類[28-29]。分類算法中的鄰近算法(K-Nearest Neighbor,KNN)算法理論簡單,新數(shù)據(jù)可以直接加入數(shù)據(jù)集而不必進(jìn)行重新訓(xùn)練,對于樣本容量大的數(shù)據(jù)集,其計(jì)算量較大,樣本不均衡時(shí),預(yù)測偏差較大?;诰垲惖姆椒▽⒂?xùn)練樣本分解成一個(gè)個(gè)子集,對每一類圖像塊使用不同的匹配算法提高圖像超分辨率的性能。雖然算法速度很快,但是分解參數(shù)的數(shù)目若不合適可能返回較差的結(jié)果。
基于學(xué)習(xí)的超分辨率方法可分為基于傳統(tǒng)機(jī)器學(xué)習(xí)和基于深度學(xué)習(xí)的方法?;趥鹘y(tǒng)機(jī)器學(xué)習(xí)的超分辨率方法包括鄰域嵌入法、錨定鄰域回歸法和稀疏表示法,稀疏表示法同時(shí)也是一種基于實(shí)例的方法[30-31]。基于深度學(xué)習(xí)的超分辨率方法有基于深度卷積神經(jīng)網(wǎng)絡(luò)、基于深度遞歸網(wǎng)絡(luò)、基于殘差網(wǎng)絡(luò)、基于監(jiān)督分類以及基于生成對抗網(wǎng)絡(luò)等方法?;谏疃葘W(xué)習(xí)的方法是目前研究的熱點(diǎn),應(yīng)用更加廣泛,且部分經(jīng)典的基于深度學(xué)習(xí)的方法應(yīng)用了稀疏表示法的內(nèi)容。下面將詳細(xì)介紹基于稀疏表示的圖像超分辨率方法和基于深度學(xué)習(xí)的超分辨率方法。
假設(shè)x為高分辨率圖像X的圖像塊,則其低分辨率樣本或者提取特征y的稀疏表示[32-34]為
y?Lx=LDα
(2)
式中:L為一個(gè)投影矩陣;D為超完備字典;x=Dα表示對于未知稀疏系數(shù)α是欠定的。
單圖像SR問題要求給定低分辨率圖像,能夠恢復(fù)出同一場景的高分辨率圖像。為了解決這一不適定問題,基于稀疏表示的圖像超分辨率方法對兩個(gè)約束進(jìn)行了建模:1)重建約束。要求恢復(fù)的圖片塊應(yīng)與圖像觀測模型的輸入一致;2)稀疏先驗(yàn)。假設(shè)高分辨率圖像塊可以在過完備字典中稀疏表示,且可以從低分辨率圖像中恢復(fù)其稀疏表示。
重建約束的表達(dá)式為
Y=VHX
(3)
式中:V為下采樣算子;H為模糊濾波器。觀察到的低分辨率圖像Y是由高分辨率圖像X經(jīng)過模糊和下采樣得到。
稀疏先驗(yàn)表達(dá)式為
x≈DHα
(4)
式中,DH為高分辨率圖像塊訓(xùn)練得到的字典。高分辨率圖像X的圖像塊x可以表示為字典DH中的稀疏線性組合。
稀疏表示的局部模型為
(5)
式中:F為線性特征提取算子;DL為低分辨率圖像塊訓(xùn)練得到的字典;ε為任意小常數(shù)。
全局重建的約束增強(qiáng)為
(6)
式中:X0為前一節(jié)的稀疏表示方法生成的高分辨率圖像;c為誤差系數(shù)。
基于稀疏表示的圖像超分辨率方法是根據(jù)式(4)先找到每個(gè)局部圖像塊的稀疏表示,然后使用此局部稀疏表示的結(jié)果,通過式(3)進(jìn)一步正則化和細(xì)化整個(gè)圖像,并由式(5)恢復(fù)丟失的高頻信號,以獲得局部細(xì)節(jié)。最后,利用式(6)移除可能的偽影,使圖像更加一致和自然。
盡管超分問題是不適定的,使得精確恢復(fù)不可能實(shí)現(xiàn),但是稀疏表示在正則化逆問題方面證明了其有效性和魯棒性?;谙∈璞硎镜膱D像超分辨率方法通過對高分辨率超完備字典和低分辨率超完備字典進(jìn)行聯(lián)合訓(xùn)練以保證其稀疏表示系數(shù)的一致性,使得局部和全局的相鄰圖像塊之間的兼容性均得到了加強(qiáng)。該方法還可避免過擬合或者欠擬合,并利用梯度下降法求解提高計(jì)算效率,但其局限性在于直接對大型采樣圖像塊數(shù)據(jù)庫進(jìn)行稀疏編碼太耗時(shí)。
基于深度卷積神經(jīng)網(wǎng)絡(luò)的超分辨率方法[35-38]重建的超分辨率圖像效果好于以往傳統(tǒng)的超分辨率方法,并且通過改進(jìn)卷積神經(jīng)網(wǎng)絡(luò)可以進(jìn)一步提升重建質(zhì)量。
2.2.1 基于深度卷積網(wǎng)絡(luò)的超分辨率方法
基于深度卷積網(wǎng)絡(luò)的超分辨率[39](Super-Resolution Convolutional Neural Network,SRCNN)方法通過學(xué)習(xí)低/高分辨率圖片的端到端映射,并將映射表示為一個(gè)深度卷積神經(jīng)網(wǎng)絡(luò),結(jié)合空間鄰域內(nèi)的預(yù)測,生成最終的高分辨率圖像。SRCNN結(jié)構(gòu)如圖1所示,給定低分辨率圖像Y,第一卷積層提取一組特征圖,第二層將提取的特征非線性映射到高分辨率圖像塊表示,最后一層結(jié)合空間鄰域內(nèi)的預(yù)測,產(chǎn)生最終的高分辨率圖像。
圖1 SRCNN結(jié)構(gòu)
映射的學(xué)習(xí)步驟具體如下。
步驟1圖像塊提取和表示。從低分辨率圖像Y中提取重疊圖像塊,并將每個(gè)圖像塊表示為高維向量。高維向量包括一組特征圖,其數(shù)量等于向量的維數(shù)。
步驟2非線性映射。將每個(gè)高維向量非線性映射到另一個(gè)高維向量上,每個(gè)映射向量在概念上都是高分辨率圖像塊的表示,這些矢量構(gòu)成了另一組特征圖。
步驟3重建。聚集上述高分辨率逐片表示,以生成最終的高分辨率圖像,該圖像預(yù)計(jì)與原始圖片X相似。
基于SRCNN方法與基于稀疏編碼的方法(Sparse Coding-based method,SC)、錨定鄰域回歸法(Anchored Neighbourhood Regression,ANR)、調(diào)整的錨定鄰域回歸法(Adjusted Anchored Neighbourhood Regression,A+)以及核嶺回歸(Kernel Ridge Regression,KRR)相比,可以在保持較快速度的前提下得到最高的峰值信噪比[31](Peak Signal to Noise Ratio,PSNR)。
SRCNN是一種端到端的過程,并且除了優(yōu)化之外沒有預(yù)處理/后處理,實(shí)現(xiàn)圖像重建的速度更快,且在訓(xùn)練過程中所有參數(shù)可以一起進(jìn)行優(yōu)化,收斂速度更快,同時(shí)具有良好的質(zhì)量,易于訪問大量的數(shù)據(jù)。此外,SRCNN結(jié)構(gòu)具有簡單性和魯棒性的優(yōu)點(diǎn),因此可以得到很清晰的邊緣。通過增大卷積核的大小、加大網(wǎng)絡(luò)深度和增加訓(xùn)練集的數(shù)量,可以進(jìn)一步提升網(wǎng)絡(luò)性能。但是,SRCNN很難設(shè)置適當(dāng)?shù)膶W(xué)習(xí)速率保證收斂,即使收斂,網(wǎng)絡(luò)也可能陷入一個(gè)糟糕的局部最小值。若不當(dāng)?shù)卦黾由疃?,還會導(dǎo)致圖像分類的精度飽和或退化。
2.2.2 基于超深度卷積網(wǎng)絡(luò)的超分辨率方法
基于超深度卷積網(wǎng)絡(luò)(Very Deep Convolutional Networks,VDSR)的超分辨率方法[40]使用超深的網(wǎng)絡(luò)提高重建質(zhì)量,并通過殘差學(xué)習(xí)[41-42]以及極高的學(xué)習(xí)率優(yōu)化深度網(wǎng)絡(luò),解決更深的網(wǎng)絡(luò)難以收斂的問題,最后通過梯度裁剪保證訓(xùn)練的穩(wěn)定性。
VDSR網(wǎng)絡(luò)將卷積層(Convolution,Conv)與非線性層(Rectified Linear Unit,ReLU)組成的一對層重復(fù)級聯(lián),每個(gè)卷積層使用64個(gè)濾波器,并在卷積之前填充零,以此保證所有特征圖,包括輸出圖像的大小相同。該網(wǎng)絡(luò)將低分辨率插值(Interpolated Low Resolution,ILR)圖像作為輸入,通過各個(gè)層預(yù)測圖像的細(xì)節(jié)并添加至ILR圖像,最終預(yù)測出高分辨率的輸出圖像。除第一層和最后一層外,其他層都是相同類型,即64個(gè)大小為3×3×64的濾波器,并在64個(gè)通道的3×3空間區(qū)域上操作。第一層對輸入圖像進(jìn)行操作,最后一層用于圖像重建,由一個(gè)大小為3×3×64的濾波器組成。VDSR的網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示,圖中R為層數(shù)。
圖2 VDSR網(wǎng)絡(luò)結(jié)構(gòu)
較深的網(wǎng)絡(luò)比較淺的網(wǎng)絡(luò)具有更好的性能[40]?;赩DSR的超分辨率方法在單個(gè)網(wǎng)絡(luò)中的表現(xiàn)與針對每個(gè)規(guī)模訓(xùn)練的多個(gè)網(wǎng)絡(luò)的方法同樣好,且可以有效減少多網(wǎng)絡(luò)方法的模型容量,并能正確預(yù)測出接近圖像邊界的像素,收斂速度也較高。
2.2.3 基于稀疏先驗(yàn)的超分辨率方法
基于稀疏先驗(yàn)的超分辨率方法結(jié)合稀疏編碼和深度網(wǎng)絡(luò)的優(yōu)點(diǎn),提出了一種新的圖像SR模型,即基于稀疏編碼的網(wǎng)絡(luò)(Sparse Coding based Network,SCN)模型。該模型除了產(chǎn)生良好的SR結(jié)果外,其包含稀疏編碼形式的領(lǐng)域知識還可以提高訓(xùn)練速度和模型緊湊性。
基于稀疏編碼的網(wǎng)絡(luò)模型包括圖像塊提取層Q、用于稀疏編碼的學(xué)習(xí)迭代收縮閾值算法[43-44](Learned Iterative Shrinkage and Thresholding Algorithm,LISTA) 子網(wǎng)絡(luò)、HR圖像塊恢復(fù)層E和圖像塊組合層G,如圖3(a)所示,其中虛線框表示k個(gè)遞歸階段,W與S表示線性權(quán)重。 圖3(b)為一個(gè)具有可調(diào)整閾值的神經(jīng)元,分解為兩個(gè)線性縮放層和一個(gè)單位閾值神經(jīng)元。將圖3(a)和圖3(b)進(jìn)行級聯(lián),即將單位閾值神經(jīng)元和相鄰的線性層合并在一起,得到重新組織的SCN,如圖3(c)所示。在該網(wǎng)絡(luò)中,輸入圖像Iy首先通過卷積層,由該層提取每個(gè)左后補(bǔ)片的特征,然后每個(gè)LR圖像塊y被饋送到具有有限數(shù)量k個(gè)遞歸級的LISTA網(wǎng)絡(luò)中和具有激活函數(shù)hT的非線性神經(jīng)元層,以獲得其稀疏碼α,T為收縮閾值。稀疏碼α與下一個(gè)線性層中的HR字典Ex相乘,重建HR圖像塊x。在最后一層G中,將恢復(fù)的圖像塊都放回HR圖像Ix中的相應(yīng)位置,并使用濾波器為來自不同圖像塊的重疊恢復(fù)分配適當(dāng)?shù)臋?quán)重,將其加權(quán)平均值作為Ix中的最終預(yù)測。
圖3 SCN模型、神經(jīng)元及重新組織的SCN模型
(7)
式中:i為數(shù)據(jù)索引;j為ISCN索引,ISCN為SCN模型使用參數(shù)集Θ預(yù)測的HR圖像;I↑s為以尺度因子s對I進(jìn)行雙三次插值圖像。該多尺度目標(biāo)函數(shù)充分利用了所有尺度的監(jiān)督信息,所有層參數(shù){Θj}都可以通過反向傳播從端到端進(jìn)行優(yōu)化。
圖4 多尺度目標(biāo)SCN的訓(xùn)練級聯(lián)
SCN將傳統(tǒng)稀疏編碼[45-46]模型所代表的領(lǐng)域知識與深度學(xué)習(xí)的關(guān)鍵成分相結(jié)合,設(shè)計(jì)了一個(gè)基于稀疏編碼的網(wǎng)絡(luò),使得訓(xùn)練更加高效和有效,同時(shí)減少了模型的規(guī)模。該級聯(lián)網(wǎng)絡(luò)擁有更好的靈活性縮放因子和更強(qiáng)的魯棒性。CSCN模型結(jié)構(gòu)在提高性能時(shí)對模型容量和訓(xùn)練數(shù)據(jù)的依賴更少,且更利于大的比例因子[47]。
深度遞歸網(wǎng)絡(luò)(Deeply-Recursive Convolutional Network,DRCN)超分辨率方法[48]進(jìn)一步增加了遞歸的深度,即16個(gè)遞歸,并證明了深的遞歸可以顯著提高超分辨率的性能。
DRCN模型由嵌入、推理和重建網(wǎng)絡(luò)等3個(gè)子網(wǎng)組成。嵌入網(wǎng)絡(luò)將給定的圖像表示為一組特征映射,推理網(wǎng)絡(luò)在其隱藏層C內(nèi)部表示特征映射,重建網(wǎng)絡(luò)將特征映射(多通道)轉(zhuǎn)換回原始圖像空間(1或3通道)。遞歸最終應(yīng)用的特征為高分辨率圖像。當(dāng)卷積濾波器大于1×1時(shí),接收域會隨著每次遞歸而擴(kuò)大。DRCN結(jié)構(gòu)如圖5所示。
圖5 DRCN網(wǎng)絡(luò)模型
推理網(wǎng)絡(luò)是解決超分辨率問題的主要組成部分,分析一個(gè)大的圖像區(qū)域是由單一遞歸層完成的,具體結(jié)構(gòu)如圖6所示。圖中左邊為遞歸層,右邊是其展開結(jié)構(gòu),相同的濾波器W被遞歸地應(yīng)用于特征映射。每個(gè)子網(wǎng)都有一個(gè)隱藏層,只有推理網(wǎng)絡(luò)是遞歸的,因此,在子網(wǎng)中使用3×3×p×p的濾波器,p為神經(jīng)元。對于嵌入網(wǎng)絡(luò),因?yàn)閳D像梯度比原始強(qiáng)度的超分辨率信息更豐富,因此使用3×3濾波器。對于推理網(wǎng),3×3卷積意味著隱藏的狀態(tài)只傳遞給相鄰的像素,而重建網(wǎng)絡(luò)將直接鄰域也考慮在內(nèi)。
圖6 推理網(wǎng)絡(luò)
雖然深的遞歸可以提高超分性能,但是當(dāng)增加網(wǎng)絡(luò)的深度且不使用池化層時(shí),就會增加更多的參數(shù),容易導(dǎo)致過擬合或模型難以存儲和重現(xiàn)等問題,且會產(chǎn)生消失和爆炸梯度兩個(gè)嚴(yán)重的問題,訓(xùn)練深度遞歸網(wǎng)絡(luò)難度加大。但是,在網(wǎng)絡(luò)中擴(kuò)展遞歸監(jiān)督與跳過連接,可以減輕網(wǎng)絡(luò)訓(xùn)練的難度并且可以進(jìn)一步增加遞歸的深度。具有遞歸監(jiān)督和跳過連接的模型監(jiān)督所有遞歸,并且只要在遞歸過程中使用輸入圖像,就會將其直接送入重建網(wǎng)絡(luò)。該模型使用相同的重建網(wǎng)絡(luò)預(yù)測所有遞歸的HR圖像,通過跳過連接保存了在遞歸期間存儲輸入信號的網(wǎng)絡(luò)容量。在該模型中,重建網(wǎng)絡(luò)每一層都輸出1個(gè)預(yù)測,共輸出R個(gè)預(yù)測,并且在訓(xùn)練期間同時(shí)監(jiān)督所有預(yù)測,最終輸出使用所有R個(gè)中間預(yù)測計(jì)算。測試時(shí),所有預(yù)測均取平均值,在訓(xùn)練過程中自動學(xué)習(xí)最佳權(quán)重。具有遞歸監(jiān)督和跳過連接的模型如圖7所示。
圖7 具有遞歸監(jiān)督和跳過連接的模型
DRCN可以在有效利用更大上下文的同時(shí),更充分地重用權(quán)重參數(shù),使用遞歸監(jiān)督和跳過連接緩解了沿反向傳播路徑消失/爆炸梯度的對抗效應(yīng)。跳過連接節(jié)省了遞歸過程中存儲輸入信號的網(wǎng)絡(luò)容量,同時(shí)在目標(biāo)預(yù)測時(shí)可以使用輸入圖像的精確副本。
增強(qiáng)深度殘差網(wǎng)絡(luò)的超分辨率方法通過從傳統(tǒng)的殘差網(wǎng)絡(luò)構(gòu)建塊[50](Residual,ResNet)中刪除不必要的模塊進(jìn)行優(yōu)化,進(jìn)一步提高了圖像的性能。
不同殘差網(wǎng)絡(luò)[49]的構(gòu)建塊如圖8所示,分別為原始?xì)埐罹W(wǎng)絡(luò)塊、深度殘差網(wǎng)絡(luò)(Deep ResNet,SRResNet)塊與增強(qiáng)深度殘差網(wǎng)絡(luò)塊。增強(qiáng)深度殘差網(wǎng)絡(luò)塊移除了批量歸一化層,消除了網(wǎng)絡(luò)的范圍靈活性,節(jié)省了40%內(nèi)存使用量,并且由于批處理歸一化層(Batch Normalization,BN)消耗的內(nèi)存量較大,所以移除了批量歸一化層后,圖形處理器(Graphics Processing Unit,GPU)內(nèi)存使用也充分減少。因此,該網(wǎng)絡(luò)塊可以在有限的計(jì)算資源下建立一個(gè)比傳統(tǒng)ResNet結(jié)構(gòu)性能更好更大的模型。
圖8 不同殘差網(wǎng)絡(luò)的構(gòu)建塊
增強(qiáng)的深度超分辨率網(wǎng)絡(luò)[51](Enhanced Deep Super-Resolution network,EDSR),即單尺度模型,由增強(qiáng)深度殘差網(wǎng)絡(luò)塊構(gòu)建。在單尺度模型中,設(shè)置殘差塊層數(shù)B=32,特征通道數(shù)F=256,比例因子為0.1對模型進(jìn)行擴(kuò)展,具體架構(gòu)如圖9所示。
圖9 單尺度模型架構(gòu)
多尺度深度超分辨率網(wǎng)絡(luò)(Multi-scale Deep Super-Resolution network,MDSR),即多尺度模型,架構(gòu)如圖10所示。
圖10 多尺度模型架構(gòu)
該架構(gòu)引入了特定尺度的處理模塊處理多尺度下的超分辨率。網(wǎng)絡(luò)前端的預(yù)處理模塊由兩個(gè)帶有5×5內(nèi)核的殘塊組成,可以減少不同尺度輸入圖像的方差。在多尺度模型的最后,并行定位特定尺度上采樣模塊進(jìn)行多尺度重構(gòu),上采樣模塊的架構(gòu)與單比例模型類似。相比于單尺度模型,多尺度模型只有320萬參數(shù),但其性能與單尺度模型相當(dāng)。此外,多尺度模型在深度上是可擴(kuò)展的,大約是單尺度模型的5倍,但由于殘差塊比特定尺度的部分更輕,所以只需要2.5倍的參數(shù),并且可以減少模型大小和訓(xùn)練時(shí)間。
EDSR實(shí)現(xiàn)了性能的進(jìn)一步提升。MDSR不僅可以在一個(gè)模型中重建不同放大因子的高分辨率圖像,還可以減少模型大小和訓(xùn)練時(shí)間。EDSR和MDSR的結(jié)構(gòu)更簡單,模型更緊湊,重建的HR圖像中的紋理和邊緣細(xì)節(jié)更好[51]。
使用字典訓(xùn)練實(shí)現(xiàn)超分辨率的方法基本是基于HR與 LR系數(shù)不變性原理,但實(shí)際上,高分辨率和低分辨率圖像塊的系數(shù)并不嚴(yán)格相等,因此可以通過獨(dú)立訓(xùn)練HR和LR字典提高重建質(zhì)量,再加入監(jiān)督分類[52-53]保證更好的結(jié)果。
基于監(jiān)督分類和獨(dú)立字典訓(xùn)練的超分辨率方法首先提取了圖像的方差、梯度特征以及梯度場的角度等3種幾何特征,并將其應(yīng)用到基于決策樹的分類算法中。經(jīng)過決策樹后,各種圖像塊被分為不同的類別,以此獲得相應(yīng)的子集,然后使用基于稀疏表示的超完備字典設(shè)計(jì)算法[54](K-SVD)對其進(jìn)行獨(dú)立訓(xùn)練,以獲得相應(yīng)的字典。最后,基于最小二乘法計(jì)算HR和LR訓(xùn)練結(jié)果之間的映射矩陣,以確保良好和合理的重建結(jié)果。
分類決策樹通過方差τ、梯度特征γ和梯度場的角度θ等3種類型的幾何特征,將圖像塊分為平滑圖像塊、主導(dǎo)方向圖像塊和隨機(jī)圖像塊等3類。平滑圖像塊中的像素差異很小或沒有差異,因此方差τ小于其他兩個(gè)圖像塊,將其作為決策樹的第一個(gè)特征。設(shè)恒定閾值方差為τ*,若τ≤τ*,則為平滑圖像塊,否則為其他圖像塊。主導(dǎo)方向圖像塊和隨機(jī)圖像塊的顯著區(qū)別是圖像塊是否有特定的紋理方向,采用對梯度場分解的思想提取圖像塊內(nèi)部的紋理方向進(jìn)行判斷。在梯度場上執(zhí)行奇異值分解,分解后獲得矩陣V與矩陣S,矩陣V的第一列v1和第二列v2分別表示優(yōu)勢方向和次優(yōu)勢方向,矩陣S中的奇異值σ1和σ2分別表示相應(yīng)的能量值,由此得出梯度特征的表達(dá)式為
(8)
由式(8)可知,兩個(gè)奇異值之間的差值越大,梯度特征γ越大,該圖像塊屬于主導(dǎo)圖像塊的概率越大。否則,此圖像塊更有可能是隨機(jī)圖像塊。設(shè)恒定閾值特征為γ*,若γ≦γ*,為隨機(jī)圖像塊,否則為主導(dǎo)圖像塊。之后將梯度場旋轉(zhuǎn)90°,可以獲得圖像塊的主導(dǎo)方向。因此,利用水平方向和主方向之間的角度θ可以進(jìn)一步分類主導(dǎo)圖像塊。分類決策樹具體分類方式如圖11所示。
圖11 分類決策樹分類方式
完成分類后,使用K-SVD方程[54]分別對獨(dú)立字典DL和DH進(jìn)行訓(xùn)練,公式為
(9)
(10)
式中:DL,k和AL,k分別表示第k訓(xùn)練集訓(xùn)練的LR字典和系數(shù)矩陣;DH,k與AH,k分別表示第k訓(xùn)練集訓(xùn)練的HR字典和系數(shù)矩陣;αL,k,i和αH,k,i分別表示低分辨率圖像塊xL,k,i和高分辨率圖像塊xH,k,i的系數(shù),i=1,2,…,N;Ω表示稀疏約束,是一個(gè)整數(shù)常量。
訓(xùn)練完成后學(xué)習(xí)多個(gè)映射函數(shù),再進(jìn)行重建與優(yōu)化。通過監(jiān)督分類和獨(dú)立字典訓(xùn)練得到超分圖像的峰值信噪比與結(jié)構(gòu)相似性(Structural Similarity,SSIM)值更大,即重建結(jié)果更好。
基于生成對抗網(wǎng)絡(luò)的超分辨率(Super-Resolution using a Generative Adversarial Network,SRGAN)方法[55-58]提出了一種利用生成對抗網(wǎng)絡(luò)對低分辨率單一圖像進(jìn)行超分辨率的網(wǎng)絡(luò)結(jié)構(gòu)。對HR圖片進(jìn)行下采樣得到LR圖片,將其作為輸入訓(xùn)練生成器,使之生成對應(yīng)的HR圖片。
訓(xùn)練生成網(wǎng)絡(luò)是對網(wǎng)絡(luò)參數(shù)θG進(jìn)行優(yōu)化,優(yōu)化公式為
(11)
式中:θG={W1:L;b1:L}表示L層深度網(wǎng)絡(luò)的權(quán)重和偏差;GθG為前饋神經(jīng)網(wǎng)絡(luò);通過優(yōu)化SR獲得感知損失函數(shù)l,其是內(nèi)容損失和對抗損失分量的加權(quán)和;IL,n和IH,n為訓(xùn)練圖像,n=1,…,N。
生成器網(wǎng)絡(luò)的主要組成部分是相同布局的殘差塊。該殘差塊結(jié)構(gòu)采用區(qū)塊布局,具有2個(gè)卷積層、較小的3×3內(nèi)核和64個(gè)特征圖,批處理歸一化層與參數(shù)化ReLU作為激活函數(shù),通過兩個(gè)訓(xùn)練過的亞像素卷積層提高輸入圖像的分辨率并生成超分辨率圖像IS。
鑒別器網(wǎng)絡(luò)使用Leaky ReLU激活,且在整個(gè)網(wǎng)絡(luò)中不使用最大池,其包含8個(gè)卷積層和512個(gè)核,并帶有數(shù)量不斷增加的3×3 濾波核。每當(dāng)特征數(shù)增加一倍時(shí),采用跨步卷積降低圖像分辨率,得到512個(gè)特征圖,再通過2個(gè)密集層(dense)和1個(gè)Sigmoid激活函數(shù)獲得樣本分類的概率。鑒別器的功能為從生成的SR樣本中區(qū)分真實(shí)的HR圖像。SRGAN生成器與鑒別器網(wǎng)絡(luò)架構(gòu)如圖12所示。IL為低分辨率輸入圖像,IH為IL對應(yīng)的高分辨率圖像。在訓(xùn)練中,通過對IH應(yīng)用高斯濾波器,然后使用降采樣因子進(jìn)行降采樣操作獲得IL。
通過平均主觀意見分(Mean Opinion Score,MOS)測試,證實(shí)SRGAN具有良好的感知性能,其MOS分?jǐn)?shù)更接近于原始的高分辨率圖像。
圖12 SRGAN生成器和鑒別器網(wǎng)絡(luò)架構(gòu)
圖像SR重建評價(jià)指標(biāo)[61-62]可分為主觀評價(jià)指與客觀評價(jià)指標(biāo)。主觀評價(jià)指標(biāo)是指以人眼為主體對圖像進(jìn)行主觀定性評價(jià)。通常由平均主觀得分或差異平均主觀得分表示,即人眼對未失真圖像和失真圖像的評價(jià)得分之間的差異,由人們根據(jù)預(yù)先確定的標(biāo)準(zhǔn)和評價(jià)尺度直接觀察,通過統(tǒng)計(jì)平均得到相應(yīng)的圖像評分等級。主觀評價(jià)方法雖然符合實(shí)際情況,但是具有難以準(zhǔn)確衡量、主觀性明顯、過程繁瑣、耗時(shí)、勞動密集、工作量大和成本低等缺點(diǎn),使用極其不方便。客觀評價(jià)指標(biāo)包括均方誤差、PSNR、SSIM和平均結(jié)構(gòu)相似性等。其中,PSNR與SSIM使用最為廣泛。PSNR計(jì)算復(fù)雜度較低,但由于其不考慮人眼的視覺識別與感知特性,所以評價(jià)結(jié)果往往不同于人們的主觀感受。SSIM通過感知結(jié)構(gòu)信息來評價(jià)失真,雖然更接近人眼,但因?yàn)槠鋬H在亮度、對比度以及結(jié)構(gòu)對兩幅圖像的相似性進(jìn)行評估,并不完全滿足人類高度非線性的視覺系統(tǒng)。因此,一般采用兩者組合作為圖像SR的評價(jià)指標(biāo)。
在圖像超分辨率重建中,需要使用數(shù)據(jù)集對模型進(jìn)行訓(xùn)練,之后再需要一定數(shù)量的圖像對訓(xùn)練好的模型進(jìn)行測試。Set5[63]、Set14[64]、BSD100[65]、BSD300[66]、ImageNet[67]、Urban100[68]和DIV2K[69]等7種常用的典型數(shù)據(jù)集的數(shù)量、格式以及用途對比如表1所示。
表1 7種數(shù)據(jù)集的數(shù)量、格式以及用途對比
Bicubic[15]、SRCNN[39]、VDSR[40]、CSCN[47]、DRCN[48]、EDSR[51]和SRGAN[55]等7種方法在Set5[63]、Set5[63]、BSD100[65]和Urban100[68]等4種測試數(shù)據(jù)集上的PSNR與SSIM對比分別如表2與表3所示。SSIM一般在[0,1]之間,越接近1,該圖像的失真度越小。PSNR越大,則圖像越趨于無劣化。方法在數(shù)據(jù)集上的PSNR與SSIM越大,證明該方法的重建效果越好。
表2 7種方法在4個(gè)測試數(shù)據(jù)集上的SSIM對比
表3 7種方法在4個(gè)測試數(shù)據(jù)集上的PSNR /dB對比
由表2與表3中數(shù)據(jù)可以看出,EDSR方法恢復(fù)的圖像失真度最低,且其PSNR最大,所以EDSR方法重建的圖像效果最好。
由于PSNR并不能完全表示人眼的視覺感知特性,且為了更直觀地比較不同方法的優(yōu)越性,選取T91訓(xùn)練數(shù)據(jù)集作為神經(jīng)網(wǎng)絡(luò)的訓(xùn)練數(shù)據(jù)庫,在I7處理器、16G內(nèi)存和Matlab 2020環(huán)境/pycharm python=3.6的pytorch環(huán)境下進(jìn)行SR實(shí)驗(yàn)。7種方法重建的高分辨率圖像如圖13所示。由圖13可以看出,Bicubic效果最差,而VDSR、CSCN和EDSR都取得了不錯(cuò)的視覺效果。綜合主觀與客觀性能的比較,EDSR方法最優(yōu),在應(yīng)用中推薦使用該方法完成超分辨率重建。
圖13 不同方法重建圖像效果
詳細(xì)介紹了幾種目前取得較好效果的超分辨率重建方法,闡述了基于學(xué)習(xí)的超分辨率重建技術(shù)的優(yōu)點(diǎn)及其局限性,并對其性能進(jìn)行對比。使用插值的方法雖然方法簡單快速,易于實(shí)現(xiàn),但隨著放大系數(shù)的增加,容易產(chǎn)生過度平滑的邊緣,結(jié)果很差?;谥亟ǖ姆椒ú粫a(chǎn)生明顯的偽影,但往往會模糊細(xì)節(jié),最終得到不自然的結(jié)果。基于神經(jīng)網(wǎng)絡(luò)的方法,理論上,網(wǎng)絡(luò)結(jié)構(gòu)越深效果越好,然而在實(shí)際應(yīng)用中,可能存在訓(xùn)練困難、收斂困難等問題,還應(yīng)該關(guān)注該機(jī)制是否能夠有效地幫助圖像的超分辨率重建,以及如何將兩者結(jié)合起來。此外,圖像細(xì)節(jié)的丟失也是一個(gè)大問題。通過設(shè)計(jì)特征提取和表達(dá)模式更好地獲取LR/HR特征之間的非線性關(guān)系,以及設(shè)計(jì)深度神經(jīng)網(wǎng)絡(luò)的層次結(jié)構(gòu)并提高優(yōu)化效率等都是這類技術(shù)面臨的主要問題?;跉埐罹W(wǎng)絡(luò)、深度遞歸網(wǎng)絡(luò)的超分辨率方法重建的高分辨率圖像質(zhì)量都得到很大的提升,但這些網(wǎng)絡(luò)一般會隨著網(wǎng)絡(luò)的加深而產(chǎn)生梯度消失或爆炸的現(xiàn)象。生成對抗網(wǎng)絡(luò)是目前最先進(jìn)的能夠生成不同類別的高保真自然圖像,其缺點(diǎn)是可能會產(chǎn)生梯度消失的現(xiàn)象,收斂性也是一個(gè)具有挑戰(zhàn)的問題。當(dāng)生成器將各種不同的輸入映射到相同的輸出時(shí),還會發(fā)生模式崩塌的情況,推測可以通過擴(kuò)展GAN的結(jié)構(gòu)以及引入其他領(lǐng)域的知識提升模型的性能。
基于以上方法的總結(jié),判斷未來超分辨率方法的發(fā)展趨勢有以下5個(gè)方面。
1)充分利用上下文信息。較小的圖像塊包含的信息不足以恢復(fù)圖像細(xì)節(jié),而充分的上下文信息可以為超分辨率重建這個(gè)不適定問題提供更多的約束,由此更加正確地推斷高頻細(xì)節(jié)信息。例如,通過結(jié)合注意機(jī)制,利用上下文信息產(chǎn)生更加真實(shí)的細(xì)節(jié)信息。
2)完善網(wǎng)絡(luò)結(jié)構(gòu)。現(xiàn)有的網(wǎng)絡(luò)已經(jīng)在PSNR上取得很好的效果,但網(wǎng)絡(luò)參數(shù)巨多、運(yùn)行時(shí)間較長、收斂困難,可能會出現(xiàn)欠擬合或過擬合的現(xiàn)象,解決此類問題是目前超分辨率重建技術(shù)未來研究的挑戰(zhàn)。因此,未來可以進(jìn)一步研究如何簡化深層模型加快SISR過程。
3)面向?qū)嶋H場景應(yīng)用?,F(xiàn)有的超分辨率網(wǎng)絡(luò)結(jié)構(gòu)只能針對某一個(gè)學(xué)習(xí)率或某一確定的放大倍數(shù)實(shí)現(xiàn)高分辨率圖像的重建,并不能針對系統(tǒng)對某一領(lǐng)域的所有圖片進(jìn)行實(shí)現(xiàn),而超分辨率重建技術(shù)在很多領(lǐng)域都有廣泛的需求,未來的SR重建技術(shù)需面向更多的實(shí)際場景,如醫(yī)學(xué)、公共安全等領(lǐng)域。
4)提出更合理的損失函數(shù)?,F(xiàn)有損失函數(shù)不能完全表示人眼的實(shí)際感知,即使其值得到了大幅度的提升,并不意味著重建效果更好。SR重建技術(shù)一般通過比較PSNR與SSIM值判斷其網(wǎng)絡(luò)性能是否更好,但PSNR與SSIM的值并不能完全準(zhǔn)確的表征重建圖像的質(zhì)量。因此需提出更合理的評價(jià)指標(biāo),保證其與人眼的感官保持高度一致。通過研究真實(shí)LR圖像的退化模型并結(jié)合真實(shí)的人眼感知改進(jìn)損失函數(shù),使重建結(jié)果將更接近原始圖像。
5)提出更具有創(chuàng)新性的模型或方法。通過提出新的模型或方法為超分辨率重建技術(shù)提供新的思路與角度以此推進(jìn)SR技術(shù)的發(fā)展。目前網(wǎng)絡(luò)結(jié)構(gòu)日趨復(fù)雜,如何減少模型大小,加快預(yù)測時(shí)間并高效地學(xué)習(xí)數(shù)據(jù)表征仍然是一個(gè)研究課題。因此,通過提出一些輕量級的網(wǎng)絡(luò)架構(gòu)可以對 HR重建有很大幫助。