劉郭琦 劉進鋒
摘要:圖像超分辨率重建技術一直是計算機視覺中一個十分受重視和關注的熱點問題,在醫(yī)療、遙感、監(jiān)控等領域都有著十分重要的研究價值。近年來,伴隨著深度學習技術的蓬勃發(fā)展,圖像超分辨率重建技術被廣泛開始應用于更多計算機視覺的相關領域。本文首先梳理了圖像超分辨率重建的發(fā)展與現(xiàn)狀,然后對比總結了基于傳統(tǒng)技術與基于深度學習技術的相同點與不同點。最后討論了目前圖像超分辨率重建技術所面臨的潛在問題,并對未來的發(fā)展方向做出了全新的展望。
關鍵詞:深度學習;熱點問題;圖像超分辨率重建技術;傳統(tǒng)技術;計算機視覺
中圖分類號:TP18? ? ? 文獻標識碼:A
文章編號:1009-3044(2021)15-0014-03
Abstract:Image super-resolution reconstruction technology has always been a hot issue that has received great attention and attention in computer vision. It has very important research value in medical, remote sensing, surveillance and other fields. In recent years, with the vigorous development of deep learning technology, image super-resolution reconstruction technology has been widely used in more computer vision related fields. This article first combs the development and current situation of image super-resolution reconstruction, and then compares and summarizes the similarities and differences between traditional technology and deep learning technology. Finally, the potential problems faced by the current image super-resolution reconstruction technology are discussed,and made a new outlook for the future development direction.
Key words: Deep Learning; Hot issue; Image super-resolution reconstruction technology; Traditional technology;Computer vision
0引言
圖像超分辨率重建技術是一種由低分辨率圖像經(jīng)過處理恢復為高分辨率圖像的過程,該重建技術已經(jīng)運用在很多領域。例如在醫(yī)療領域、遙感領域、監(jiān)控領域和圖像壓縮領域等。超分辨率圖像重建技術一直是計算機視覺領域的熱點問題,它發(fā)揮的作用也越來越重要。
圖像超分辨率重建技術可分為基于傳統(tǒng)的和基于深度學習的兩種方法?;趥鹘y(tǒng)的方法主要包括迭代反投影法、凸集投影法和插值法等。該類算法操作便捷,重建速度較快,但是由于引入的先驗知識十分有限,會在重建后丟失很多圖像細節(jié),導致效果不好。基于插值的方法主要包括雙三次差值法和最近鄰插值法等,雖然原理十分簡單,重建速度也很快,但是重建后的圖像相對較模糊,實用性也不高。
隨著深度學習的崛起,基于深度學習的圖像超分辨重建方法逐漸成了近些年來研究的熱點。它是通過各種學習模型將低分辨率圖像轉化為高分辨率圖像,使圖像變得更清晰,細節(jié)也得到了更多的恢復,與傳統(tǒng)方法相比該類方法的重建效果較好,因此相關研究也越來越受到大家的關注。
本文首先介紹了圖像超分辨率重建技術的當前研究現(xiàn)狀,然后詳細總結了基于傳統(tǒng)和基于深度學習的超分辨率的算法,并闡述了其不同算法各自的特點,最后總結了圖像超分辨率算法的未來發(fā)展方向。
1基于傳統(tǒng)的方法
圖像超分辨率的概念最早出現(xiàn)在光學領域。在該領域中,超分辨率是指一種圖像復原衍射的數(shù)據(jù)過程。早在60年代中期J.L.Harris和J.w.Goodman就分別在1964年和1965年提出一種稱為Harris-Goodman頻譜外推的方法[1],但仿真效果并不理想。
首先傳統(tǒng)的圖像超分辨率方法主要分為基于重建的和基于插值的?;谥亟ǖ姆椒ㄖ饕譃轭l域法[2]和空域法。頻域法通常消除頻譜混疊從而提升圖像分辨率,但它可用到的先驗知識十分有限。空域法主要是將多個低分辨率圖像的重疊信息進行相互的補充,以此重建出一個具有高分辨率的圖像,采用的方法包括后驗概率估計法[3]、迭代投影法[4]、凸集投影法[5]等??沼蚍ň哂泻軓姷南闰灱s束能力,但是由于場景單一,導致重建的圖像效果并不好,并且受先驗影響很大,重建效果也不穩(wěn)定。
20世紀早期,研究者們主要采用的是基于插值的方法來解決單幅圖像超分辨率的問題,例如最近鄰近值[6]、雙線性插值[7]和雙三次插值[8]。
基于插值的超分率圖像重建如圖1所示,通過輸入低分辨率圖像,經(jīng)過圖像預處理、上采樣、圖像重建和圖像配準等步驟生成重建的高分辨率圖像。
最近鄰近插值是一種簡單的插值方法,當圖片需要放大時,缺少的像素會直接通過最近原有的顏色生成,但這樣會產(chǎn)生十分明顯的鋸齒,圖像會比較模糊。
雙線性插值法是在兩個變量插值函數(shù)上進行線性插值,然后再進行相應的擴展,它的核心是在兩個方向上分別進行線性插值。雙線性插值法的計算比最鄰近算法復雜,計算量也要偏大,但沒有不連續(xù)的點,同時它具有低通濾波的性質(zhì),致使高頻分量受損從而使圖像產(chǎn)生了模糊。
雙三次插值的目的就是通過找到一種關系或系數(shù),通過像素找到影響因子,并根據(jù)影響因子來獲取目標圖像對應點的像素值,從而達到圖像縮放的目的。雙三次插值法是目前用得比較多的重建方法。
雙三次函數(shù)形式如下:
使用基于插值方法是在圖像沒有引入額外信息的情況下,在連續(xù)假設下重建,導致重建圖像的輪廓和邊緣比較模糊,細節(jié)和紋理不能得到很好的恢復,所以重構圖像都非常模糊。基于插值的超分辨率重建算法雖然算法簡單,運行速度快,但是重建效果并不理想,穩(wěn)定性較差。
2基于深度學習的方法
超分辨率卷積神經(jīng)網(wǎng)絡(SRCNN)[9]是采用深度學習解決超分辨率問題的基本方法。SRCNN有三層網(wǎng)絡,第一層負責補丁提取和LR尺度上的特征表示,中間的一層用于逼近非線性映射函數(shù),第三層重構超分辨率圖像。SRCNN通常被認為是淺層結構,由于結構過于簡單,細節(jié)處理得不夠,同時非線性映射層中有太多參數(shù),所以訓練速度相對較慢。
基于此,Kim等人提出了一個非常深的殘差網(wǎng)絡超深度卷積網(wǎng)絡(VDSR)[10]。VDSR具有20層網(wǎng)絡結構,每一層都包含小型過濾器。從輸入圖像到輸出,通過跳躍連接使卷積濾波器學習估計和真實圖像之間的殘差。梯度裁剪策略是以高學習率訓練網(wǎng)絡,因此盡管架構龐大,但仍可加快收斂速度。增加網(wǎng)絡的深度也可以提高結果的準確性。
隨后Kim等人又[11]提出了深度遞歸卷積(DRCN)網(wǎng)絡,該網(wǎng)絡使用了遞歸結構,方便增加網(wǎng)絡的長度,同時減少參數(shù)的數(shù)量,通過遞歸結構的循環(huán)使用,從相同的簡單過濾器來提取圖像特征。來自遞歸塊的所有中間輸出和網(wǎng)絡的輸入都將被送到卷積層以生成輸出預測。通用遞歸網(wǎng)絡性能的限制之一是梯度爆炸或消失,這會導致不穩(wěn)定并降低網(wǎng)絡的學習能力。作者通過兩種策略解決了這個問題:遞歸監(jiān)督和跳過連接。遞歸監(jiān)督意味著遞歸塊的所有中間輸出都參與輸出預測,并且每個輸出預測均受均方損失監(jiān)督,輸出預測之間的差異會平滑參數(shù)的梯度。此外,網(wǎng)絡的輸入和遞歸塊的輸出之間的跳躍連接使網(wǎng)絡需要更少的遞歸層,從而減輕了梯度爆炸和消失的問題。與DRCN類似,深度遞歸殘差網(wǎng)絡(DRRN)[12]應用遞歸學習。但是與DRCN相反,DRRN中的遞歸單元是修改后的ResNet單元,它具有52層卷積層,它的遞歸學習用于控制模型參數(shù),同時加深深度。廣泛的基準評估表明,DRRN明顯優(yōu)于SISR的最新技術水平,同時利用更少的參數(shù)。但網(wǎng)絡優(yōu)化結果一般,提升效果并不明顯。
增強型深度殘差網(wǎng)絡EDSR[14]主要使用了增強的ResNet[15],移除了批歸一化(BN)層[16],也就是去除了超分辨率殘差層中多余的模塊,使用了損失函數(shù)L1(loss)訓練,從而擴大了模型的尺寸來提升結果質(zhì)量。圖2介紹了ResNet模型與EDSR模型網(wǎng)絡結構層的區(qū)別。
批歸一化層的計算量和一個卷積層幾乎持平,移除該層后訓練時可以節(jié)約大概40%的空間。太多的殘差塊會導致訓練不穩(wěn)定,因此作者采取了常數(shù)縮放層的方法,即殘差塊在相加前,經(jīng)過卷積處理的一路乘以一個小數(shù)(比如作者用了0.1),這樣可以保證訓練更加穩(wěn)定。EDSR模型通過合理的模型壓縮給網(wǎng)絡減輕了很大的負擔,又很好地提高了學習速率,超分辨率圖像效果也很好。但是對細節(jié)豐富的圖像,其重建后的圖像較為平滑,細節(jié)依然不夠清晰,還有很大的提升空間。
2017年Lai等人提出了拉普拉斯金字塔網(wǎng)絡(LapSRN)[17],用于解決超分辨率問題。其主要思想是逐步升級功能。它的網(wǎng)絡結構有兩個分支:一個分支用于特征提取,另一個分支用于重構。卷積層的輸出分為兩層:一層用于圖像重建分支中的殘差信息,另一層用于下一個上采樣操作的特征提取。圖像重建分支中的反卷積層使用雙線性核初始化,這對于強制特征提取分支來學習殘差特征至關重要。圖像重建分支負責學習低頻信息,而特征提取分支則細化細節(jié)并將高頻信息饋送到圖像重建分支。在金字塔的每一級,模型以低分辨率特征圖作為輸入,預測高頻殘差,使用反卷積層向上采樣,網(wǎng)絡通過逐步重建,在一次前饋過程中產(chǎn)生多尺度進行預測,可以更好地利用計算資源。
在最新的研究中,Zhang等人提出了一個殘差密集網(wǎng)絡(RDN)[18]來解決超分辨率問題。通過整合了密集模塊和殘差模塊,由此形成了殘差密集模塊。例如,在超深度卷積網(wǎng)絡(VDSR)中,長跳連接將低頻信息傳送到輸出,網(wǎng)絡中的卷積層被迫學習高頻信息,因此,簡化了學習任務。密集塊提高了網(wǎng)絡描述復雜功能的能力,而剩余稠密塊同時具有剩余塊和密集塊的優(yōu)點,因此有望提供更好的性能。
目前,超分辨率重建技術的發(fā)展趨勢主要是從網(wǎng)絡結構設計、學習策略、評價指標、無監(jiān)督學習、實際場景等幾個方面展開。網(wǎng)絡結構設計包括融合局部的信息和全局的信息,設計輕量化網(wǎng)絡結構,對升采樣的改進等,學習策略主要是對精確表達圖像差異的損失函數(shù)的設計和尋找適合圖像歸一化的方法,評價指標是指全面評價超分辨率圖像質(zhì)量的主觀統(tǒng)一指標,還有對于無監(jiān)督學習的超分辨圖像的研究和實際場景中的應用等,因此在未來,超分辨率圖像的重建技術還有很大的發(fā)展空間。
3結語
本文主要從傳統(tǒng)方法與深度學習方法這兩方面介紹了近20多年來主流的自然圖像超分辨率重建技術。與傳統(tǒng)方法相比,基于深度學習的方法重建的圖像效果更好,細節(jié)部分也更為完整。但它也存在缺點,例如怎樣設計網(wǎng)絡結構,如何更好地運用在實際的問題中,如何將更多的學習機制運用在超分辨率重建技術中等,這些都是需要思考和研究的問題。對未來的展望,基于深度學習的單圖像超分辨率技術展現(xiàn)了巨大潛力,在未來的很長的一段時間內(nèi),超分辨重建技術都將是計算機視覺的研究熱點問題,并伴隨著深度學習的發(fā)展,將廣泛應用于各個領域。
參考文獻:
[1] Qi S X,Ma J,Lin J,et al.Unsupervised ship detection based on saliency and S-HOG descriptor from optical satellite images[J].IEEE Geoscience and Remote Sensing Letters,2015,12(7):1451-1455.
[2]Tsai R. Multiframe? image? restoration? and? registration[J]. Advance Computer Visual and Image Processing, 1984(1): 317-339.
[3] Schultz R R,Stevenson R L.A Bayesian approach to image expansion for improved definition[J].IEEE Transactions on Image Processing,1994,3(3):233-242.
[4] Irani M,Peleg S.Super resolution from image sequences[C]//[1990] Proceedings.10th International Conference on Pattern Recognition.June 16-21,1990,Atlantic City,NJ,USA.IEEE,1990:115-120.
[5] Stark H,Oskoui P.High-resolution image recovery from image-plane arrays,using convex projections[J].Josa A,1989,6(11):1715-1726.
[6] Belgiu M,Dr?gu? L.Random forest in remote sensing:a review of applications and future directions[J].ISPRS Journal of Photogrammetry and Remote Sensing,2016,114:24-31.
[7] 馬鑫,汪西原,胡博.基于ENVI的CART自動決策樹多源遙感影像分類——以北京市為例[J].寧夏工程技術,2017,16(1):63-66.
[8] Deng J,Dong W,Socher R,et al.ImageNet:a large-scale hierarchical image database[C]//2009 IEEE Conference on Computer Vision and Pattern Recognition.June 20-25,2009,Miami,F(xiàn)L,USA.IEEE,2009:248-255.
[9] Dong C,Loy C C,He K M,et al.Learning a deep convolutional network for image super-resolution[M]//Computer Vision – ECCV 2014.Cham:Springer International Publishing,2014:184-199.
[10]J. Kim, J. Kwon Lee, K. Mu LeeAccurate image super-resolution using very deep convolutional networks Proceedings of the IEEE conference on computer vision and pattern recognition,2016:1646-1654
[11] Kim J,Lee J K,Lee K M.Deeply-recursive convolutional network for image super-resolution[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).June 27-30,2016,Las Vegas,NV,USA.IEEE,2016:1637-1645.
[12] Tai Y,Yang J,Liu X M.Image super-resolution via deep recursive residual network[J].2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR),2017:2790-2798.
[13] S. Ioffe, C. SzegedyBatch normalization: accelerating deep network training by reducing internal covariate shift -arXiv:1502.03167 (2015).
[14] Lim B,Son S,Kim H,et al.Enhanced deep residual networks for single image super-resolution[J].2017 IEEE Conference on Computer Vision and Pattern Recognition Workshops (CVPRW),2017:1132-1140.
[15] Shahriari M,Bergevin R.Land-use scene classification:a comparative study on bag of visual word framework[J].Multimedia Tools and Applications,2017,76(21):23059-23075.
[16] Wu S L,Chen H D,Bai Y,et al.A remote sensing image classification method based on sparse representation[J].Multimedia Tools and Applications,2016,75(19):12137-12154.
[17]W.-S. Lai, J.-B. Huang, N. Ahuja, M.-H. YangDeep laplacian pyramid networks for fast and accurate super resolution IEEE conference on computer vision and pattern recognition, 2017 (2).
[18] Zhang Y L,Tian Y P,Kong Y,et al.Residual dense network for image super-resolution[J].2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition,2018:2472-2481.
【通聯(lián)編輯:唐一東】