賈瑞明 邱楨芝 崔家禮 王一丁
摘 要:針對拍攝場景中物體運動不一致所帶來的非均勻模糊,為提高復(fù)雜運動場景中去模糊的效果,提出一種多尺度編解碼深度卷積網(wǎng)絡(luò)。該網(wǎng)絡(luò)采用“從粗到細”的多尺度級聯(lián)結(jié)構(gòu),在模糊核未知條件下,實現(xiàn)盲去模糊;其中,在該網(wǎng)絡(luò)的編解碼模塊中,提出一種快速多尺度殘差塊,使用兩個感受野不同的分支增強網(wǎng)絡(luò)對多尺度特征的適應(yīng)能力;此外,在編解碼之間增加跳躍連接,豐富解碼端信息。與2018年國際計算機視覺與模式識別會議(CVPR)上提出的多尺度循環(huán)網(wǎng)絡(luò)相比,峰值信噪比(PSNR)高出0.06dB;與2017年CVPR上提出的深度多尺度卷積網(wǎng)絡(luò)相比,峰值信噪比和平均結(jié)構(gòu)相似性(MSSIM)分別提高了1.4%和3.2%。實驗結(jié)果表明,該網(wǎng)絡(luò)能快速去除圖像模糊,恢復(fù)出圖像原有的邊緣結(jié)構(gòu)和紋理細節(jié)。
關(guān)鍵詞:盲去模糊;多尺度結(jié)構(gòu);跳躍連接;編解碼;卷積神經(jīng)網(wǎng)絡(luò)
中圖分類號:TP391
文獻標志碼:A
Deep multi-scale encoder-decoder convolutional network for blind deblurring
JIA Ruiming*, QIU Zhenzhi, CUI Jiali, WANG Yiding
School of Information Science and Technology, North China University of Technology, Beijing 100144, China
Abstract:
Aiming at the heterogeneous blur of images caused by inconsistent motion of objects in the shooting scene, a deep multi-scale encoder-decoder convolutional network was proposed to improve the deblurring effect in complex motion scenes. A multi-scale cascade structure named “from coarse to fine” was applied to this network, and blind deblurring was achieved with the blur kernel unknown. In the encoder-decoder module of the network, a fast multi-scale residual block was proposed, which used two branches with different receptive fields to enhance the adaptability of the network to multi-scale features. In addition, skip connections were added between the encoder and the decoder to enrich the information of the decoder. The Peak Signal-to-Noise Ratio (PSNR) value pf this network is 0.06 dB higher than that of the Scale-recurrent Network proposed on CVPR(Conference on Computer Vision and Pattern Recognition)2018; the PSNR and Mean Structural Similarity (MSSIM) values are increased by 1.4% and 3.2% respectively compared to those of the deep multi-scale convolution network proposed on CVPR2017. The experimental results show that the proposed network can deblur the image quickly and restore the edge structure and texture details of the image.
Key words:
blind deblurring; multi-scale structure; skip connection; encoder-decoder; Convolutional Neural Network (CNN)
0 引言
圖像去模糊是計算機視覺及圖像處理中一個重要任務(wù),在交通安全、醫(yī)學(xué)圖像、軍事偵察等領(lǐng)域都有廣泛應(yīng)用。圖像模糊中運動模糊是最見的一種,由相機晃動、多個目標物體的運動等造成,具有重要的現(xiàn)實研究意義。去模糊的目的是從退化的模糊圖像中恢復(fù)出其對應(yīng)的清晰圖像。數(shù)學(xué)上模糊圖像由清晰圖像和模糊核卷積加上噪聲形成,根據(jù)模糊核是否已知,去模糊可分成非盲去模糊和盲去模糊[1]。多數(shù)情況下模糊核是無法提早獲得的,所以盲去模糊應(yīng)用更廣泛也更具挑戰(zhàn)性。盲去模糊是一個不適定的逆問題,為了解決這個問題,許多學(xué)者將模糊核和清晰圖像的信息作為先驗知識來提高復(fù)原圖像的質(zhì)量,其中包括正則化強度和梯度先驗[2]、數(shù)據(jù)驅(qū)動判別先驗[3]等。上述方法能夠改善去模糊質(zhì)量,但都需要復(fù)雜的模糊核估計步驟,模糊核估計不正確會使恢復(fù)的圖像存在肉眼可見的偽影。
近年來,人們將基于卷積神經(jīng)網(wǎng)絡(luò)的方法應(yīng)用于圖像去模糊任務(wù),采用端到端的方式直接恢復(fù)清晰圖像,避免了模糊核估計帶來的相關(guān)問題,取得很好的去模糊效果。大多數(shù)卷積神經(jīng)網(wǎng)絡(luò)的方法主要消除由簡單的平移或相機旋轉(zhuǎn)引起的運動模糊,這些方法假設(shè)模糊是均勻的或在整張圖片中是空間不變的。然而,由于場景深度的變化和目標物體的運動,真實圖片通常為非均勻模糊[4]。Sun等[5]用卷積神經(jīng)網(wǎng)絡(luò)去除非均勻運動模糊。但所用數(shù)據(jù)集中的模糊圖像是由模糊核與清晰圖像卷積合成,這與真實場景中的模糊有很大不同,當把它們應(yīng)用在真實去模糊問題中,不能得到很好的恢復(fù)結(jié)果。為此,Nah等[1]提出一個大規(guī)模更接近真實的模糊清晰圖像數(shù)據(jù)集對,并用一種深度多尺度卷積網(wǎng)絡(luò),以端到端的方式直接去除動態(tài)
場景模糊。Kupyn等[6]用條件生成對
抗網(wǎng)絡(luò)和內(nèi)容損失函數(shù)去除運動產(chǎn)生的圖像模糊。Tao等[7]用多尺度循環(huán)網(wǎng)絡(luò)以“從粗到細”的方式逐漸恢復(fù)清晰圖像,實現(xiàn)了更好的去模糊結(jié)果。然而,這些方法仍然存在速度慢、恢復(fù)圖像紋理不清晰等問題。
針對上述研究,本文提出一種多尺度編解碼深度卷積網(wǎng)絡(luò),以端到端的方式直接去除動態(tài)場景中的運動模糊,實現(xiàn)快速、高效的圖像復(fù)原。本文主要工作包括以下三個方面:
1)提出快速多尺度殘差塊(Fast Multi-scale Residual Block, FMRB),作為網(wǎng)絡(luò)的重要組成模塊,使網(wǎng)絡(luò)對不同尺度的模糊輸入有更強的適應(yīng)能力。同殘差塊[8]、Inception模塊[9]、多尺度殘差塊(Multi-scale Residual Block, MSRB)[10]等相比,F(xiàn)MRB去模糊效果更優(yōu)。
2)提出新的多尺度編解碼深度卷積網(wǎng)絡(luò)用于非均勻圖像盲去模糊。網(wǎng)絡(luò)采用“從粗到細”的多尺度結(jié)構(gòu)逐漸恢復(fù)清晰圖像,每個尺度均使用相同的參數(shù)設(shè)置。在不同尺度間進行參數(shù)共享,不僅能夠降低參數(shù)量,還能防止過擬合。同時各尺度均使用編解碼加跳躍連接的結(jié)構(gòu),能加速網(wǎng)絡(luò)收斂,更好地恢復(fù)圖像的紋理信息。
3)將提出的網(wǎng)絡(luò)模型在GOPRO數(shù)據(jù)集[1]和Khler數(shù)據(jù)集[11]上進行實驗,并與最先進的去模糊算法比較,得到了更優(yōu)的去模糊效果。用自行拍攝的模糊圖像實驗,恢復(fù)出可視化效果較好的清晰圖像。同時,驗證了本文方法除運動模糊外,對其他類型模糊的去模糊效果,并對大尺圖像去模糊的運算速度和性能進行實驗分析。
1 多尺度編解碼深度卷積網(wǎng)絡(luò)
1.1 網(wǎng)絡(luò)結(jié)構(gòu)
本文將提出的模型稱為多尺度編解碼深度卷積網(wǎng)絡(luò),如圖1所示。網(wǎng)絡(luò)整體為“從粗到細”的多尺度結(jié)構(gòu),即從粗糙的低分辨率模糊圖像逐漸恢復(fù)精細的高分辨率清晰圖像。各尺度使用相同的編解碼器,如圖1(b)所示。編解碼模塊由多個快速多尺度殘差塊(Fast Multi-scale Residual Block, FMRB),卷積層和反卷積層堆疊而成。FMRB如圖2所示,是一種局部多尺度結(jié)構(gòu)。
1.1.1 多尺度結(jié)構(gòu)
多尺度結(jié)構(gòu)在傳統(tǒng)最大后驗概率優(yōu)化的方法[3]和近期深度學(xué)習(xí)的方法[1,7,12]等都有廣泛應(yīng)用,并表現(xiàn)出突出性能。本文提出的多尺度結(jié)構(gòu)如圖1(a)所示,網(wǎng)絡(luò)的輸入為3個分辨率不同的模糊圖像Xk(k=1,2,3),它們由原始模糊圖像下采樣形成。下標k代表尺度層級,圖像的分辨率隨著k的增大順序增加,尺度間隔比率為0.5。首先將尺度最小最容易恢復(fù)的模糊圖像X1輸入,恢復(fù)出其對應(yīng)大小估計的清晰圖像Y1。然后將估計的中間清晰圖像上采樣到更大的尺度,與模糊圖像X2一同作為下一尺度的輸入,進一步引導(dǎo)更大尺寸的圖像恢復(fù)。同理,可以獲得最后的高分辨率輸出圖像Y3。這種直接學(xué)習(xí)由輸入到輸出端到端的映射方式,避免了模糊核估計帶來的相關(guān)問題。此外,多尺度結(jié)構(gòu)可以降低網(wǎng)絡(luò)的訓(xùn)練難度,使恢復(fù)的圖像更清晰。
各尺度具有完全相同的網(wǎng)絡(luò)結(jié)構(gòu)和參數(shù)配置,這樣在不同尺度間可以共享網(wǎng)絡(luò)的權(quán)重,不僅可以減少訓(xùn)練的參數(shù),而且能提升網(wǎng)絡(luò)性能,防止過擬合。網(wǎng)絡(luò)具體的參數(shù)配置如表1所示。
1.1.2 編解碼結(jié)構(gòu)
編解碼結(jié)構(gòu)在計算機視覺任務(wù)[7,13-15]中的有效性已被證明。本文提出一種新的編解碼結(jié)構(gòu),如圖1(b)所示,由多個FMRB以及卷積層和反卷積層組成。步長為2的卷積層將特征圖尺寸降為原來的一半,同時將通道數(shù)增加一倍;相反,步長為2的反卷積層則將特征通道數(shù)減半,特征圖尺寸提升一倍。編碼塊的主要任務(wù)是進行特征提取,抽象圖像的內(nèi)容信息,并且消除模糊。解碼塊的作用是恢復(fù)圖像的高頻細節(jié)信息。圖像去模糊任務(wù)中,需要足夠大的感受野來恢復(fù)嚴重模糊的圖像。目前加深、加寬網(wǎng)絡(luò)已經(jīng)成為一種增加網(wǎng)絡(luò)感受野的設(shè)計趨勢,然而簡單地增加深度會使網(wǎng)絡(luò)變得更難訓(xùn)練,出現(xiàn)梯度消失、梯度爆炸等現(xiàn)象[8]。本文網(wǎng)絡(luò)較深,為了防止上述問題的出現(xiàn),在編碼部分和對稱的解碼部分添加了跳躍連接,每隔1個FMRB添加1條跳躍連接。這種連接不僅可以將編碼部分的圖像信息傳遞到解碼部分,幫助恢復(fù)原始的清晰圖像。在反向傳播中還有助于將梯度傳到底層,加速網(wǎng)絡(luò)收斂,提升去模糊性能。
1.1.3 快速多尺度殘差塊
快速多尺度殘差塊(FMRB)如圖2所示。模塊的輸入傳給兩個分支,右邊的分支首先經(jīng)過一個3×3卷積層,左邊的分支經(jīng)過兩個3×3的卷積層。兩個3×3卷積層與一個5×5卷積層的感受野相同[9],但是計算量更小非線性變換更強。由于兩個分支的感受野不同,所以能檢測不同尺度的信息。最后拼接意味著不同尺度的特征融合,這種信息交互可以使后面的層共享兩個分支之間的信息,使網(wǎng)絡(luò)對多尺度輸入有更強的適應(yīng)性。
圖2中S為相鄰卷積層卷積核的數(shù)量,Cn-1和Cn分別為模塊輸入、輸出的通道數(shù),這里Cn-1=Cn=S。盡管兩個3×3卷積與一個5×5卷積的感受野相同,但FMRB計算量(由于其他部分計算量相同,為了簡便,只考慮虛線框內(nèi)的計算量)由170MNS2減少為135MNS2(這里通過像素填充使模塊輸入到輸出的特征圖分辨率保持M×N不變,為了方便,省略了偏置計算)。FMRB在深度加深的同時,時間復(fù)雜度更低,運算速度更快。
由于深度網(wǎng)絡(luò)能提取更豐富的特征,所以網(wǎng)絡(luò)深度對其性能有至關(guān)重要的影響。但是深度網(wǎng)絡(luò)很難訓(xùn)練,為了緩解這個問題,F(xiàn)MRB采用了殘差學(xué)習(xí),在模塊的輸入到輸出之間添加1個恒等映射。這種局部殘差學(xué)習(xí)能加速網(wǎng)絡(luò)收斂,防止梯度消失,提升網(wǎng)絡(luò)性能。FMRB中的1×1的卷積層,實現(xiàn)特征通道降維,使模塊的輸出和輸入保持相同的維度,同時可以保留有用的圖像信息,剔除冗余信息。
1.2 損失函數(shù)
本文將均方誤差(Mean Squared Error, MSE)作為該網(wǎng)絡(luò)的損失函數(shù)。如式(1)所示:
L(Θ)=1KN∑Kk=1∑Ni=1‖F(xiàn)(Xik,Θ)-Yik‖(1)
其中:N為訓(xùn)練樣本對的個數(shù),K為網(wǎng)絡(luò)最大尺度層級,Θ為網(wǎng)絡(luò)權(quán)重。
通過訓(xùn)練實現(xiàn)該損失函數(shù)最小化,使網(wǎng)絡(luò)在尺度層級k對第i張圖像的去模糊結(jié)果F(Xik,Θ)與真實清晰圖像Yik的歐幾里得距離最小。
2 實驗結(jié)果與分析
2.1 數(shù)據(jù)集
GOPRO數(shù)據(jù)集[1]是2017年提出的大型去模糊數(shù)據(jù)集,與以往數(shù)據(jù)集中用模糊核與清晰圖像卷積合成模糊圖像不同,它是用高速攝像機捕捉連續(xù)短曝光的清晰幀,并進行整合平均來模擬長曝光的模糊幀。這樣形成的圖像更接近真實,能夠模擬復(fù)雜的相機抖動和場景中多個目標運動帶來的非均勻模糊。GOPRO數(shù)據(jù)集總共包含3214對模糊清晰圖像,圖片大小為720×1280,其中2103對圖像用來訓(xùn)練,其余1111對圖像用來測試。
Khler數(shù)據(jù)集[11]是一個評估和比較盲去模糊算法的基準數(shù)據(jù)集。作者通過記錄和分析真實相機的運動,然后用機器人載體進行回放,通過在6D相機的運動軌跡上留下一連串清晰的圖像,形成數(shù)據(jù)集。Khler數(shù)據(jù)集由4張圖片組成,對每張圖片用12個不同的模糊核對進行模糊,最后形成48張模糊圖像。
2.2 實驗細節(jié)
本文實驗在CPU為i5-3470,內(nèi)存16GB,GPU為NVIDIA 1080Ti的計算機上進行。除FMRB中的卷積層,網(wǎng)絡(luò)中其他卷積層均使用5×5大小的卷積核,反卷積核尺寸為4×4,在卷積層和反卷積層后面均使用ReLU激活函數(shù)。此外,使用像素填充保持特征圖的輸出和輸入尺度不變。訓(xùn)練時將訓(xùn)練集中的模糊清晰圖像對隨機裁剪成256×256大小的圖像塊,測試時保持圖片原有大小不變。訓(xùn)練階段多尺度層級的輸入/輸出分辨率為{64×64,128×128,256×256}的圖像塊,本文用雙線性插值來采樣圖片。初始學(xué)習(xí)率設(shè)置為 1E-4,然后使用指數(shù)衰減法逐步減小學(xué)習(xí)率,衰減系數(shù)為0.3。用Adam優(yōu)化器來優(yōu)化損失函數(shù),實驗中批尺寸設(shè)為2,網(wǎng)絡(luò)訓(xùn)練直至收斂。
2.3 結(jié)果與分析
2.3.1 質(zhì)量評估
傳統(tǒng)去模糊算法通常假設(shè)整幅圖像的模糊是均勻和不變的。然而,運動模糊圖像的模糊通常是動態(tài)變化的和非均勻的。為了公平比較,本文沒有與傳統(tǒng)的均勻去模糊算法對比,只與最先進的非均勻去模糊算法進行比較。表2為不同去模糊方法在GOPRO測試集上的質(zhì)量評估結(jié)果。用峰值信噪比(Peak Signal-to-Noise Ratio, PSNR)和結(jié)構(gòu)相似性(Structural SIMilarity index, SSIM)兩項指標作為性能衡量的標準。圖3是在GOPRO測試集上可視化對比的示例圖。在Khler數(shù)據(jù)集上,本文與多種方法的客觀質(zhì)量評估對比結(jié)果見表3,用PSNR和平均結(jié)構(gòu)相似性(Mean Structural SIMilarity, MSSIM)作為評價算法性能的標準。
從表2的GOPRO測試集部分可以看出,本文去模糊圖像得到了最高的PSNR和SSIM值。表中前三種方法[5,16,17]不能有效去除圖像中的模糊。Nah等[1]和Zhang等[18]的去模糊效果相較前面三種方法有了很大的提升,但還沒達到最佳。Tao等[7] 在2018年CVPR上提出的多尺度循環(huán)網(wǎng)絡(luò)(Scale-Recurrent Network, SRN-DeblurNet),被證明是有效的去模糊方法。本文結(jié)果較Tao等[7]的PSNR值提高了0.06dB,SSIM也有所提高,說明本文算法復(fù)原圖像質(zhì)量要優(yōu)于其他方法。從圖3(b)左圖可以看出,Tao等[7]去模糊結(jié)果的車牌出現(xiàn)多余信息,圓圈中的數(shù)字存在結(jié)構(gòu)變化。對于圖3(b)右圖復(fù)原后的圖像存在嚴重偽影,且沒能恢復(fù)出車完整的輪廓。本文去模糊的可視化圖像沒有明顯的偽影,不僅去除了圖像的模糊,還保持了清晰的紋理和邊緣細節(jié),更接近真清晰圖像。
各算法在Khler數(shù)據(jù)集上的測試結(jié)果見表2Khler測試集部分,本文的PSNR和MSSIM均高于其他算法,與Nah等[1]的深度多尺度卷積網(wǎng)絡(luò)相比,兩項指標分別提高1.4%和3.2%。 綜上可得,本文的去模糊效果要優(yōu)于其他方法。
2.3.2 多尺度結(jié)構(gòu)分析
為了檢驗多尺度結(jié)構(gòu)的有效性,本文分別對單一尺度、2個和3個尺度模型進行測試,即式(1)中的最大尺度層級K分別為1、2和3。均在GOPRO數(shù)據(jù)集上進行訓(xùn)練和測試。以PSNR、SSIM以及在測試集上的平均測試時間作為圖像質(zhì)量的客觀評價標準。不同尺度性能比較如表3所示,在測試集上去模糊結(jié)果的局部可視化效果為圖4。
在表3中,當K=2時,PSNR和SSIM值比K=1分別提高0.49dB和0.0056。從圖4(左)也可以看出網(wǎng)絡(luò)為1個尺度時,去模糊效果不好,恢復(fù)的字體扭曲并嚴重失真。2個尺度較單一尺度有較大的提升,能改善圖像模糊,且沒有出現(xiàn)扭曲變形現(xiàn)象。K=3與K=2比較,平均的PSNR和SSIM值分別提高0.28dB和0.0039,進一步提升了去模糊效果。從圖4(右)能看出,尺度層級為2的去模糊圖像地面紋理不清晰,而3個尺度的復(fù)原圖像邊緣更清晰,細節(jié)較豐富,與清晰圖像最為接近。K為3性能更好,測試時間與K為2相近,所以本文的網(wǎng)絡(luò)結(jié)構(gòu)使用3個尺度。綜上,多尺度結(jié)構(gòu)對于圖像去模糊任務(wù)是非常有效的。
2.3.3 快速多尺度殘差塊分析
本文提出一個新的模塊——快速多尺度殘差塊(FMRB)。為了驗證FMRB的有效性,基于本文的網(wǎng)絡(luò)結(jié)構(gòu),分別用經(jīng)典的殘差塊(Res-block)[8]、Inception V2模塊[9]、MSRB[10]以及FMRB-s(FMRB的簡化版本)替換 FMRB,在相同的平臺下實驗,不同模塊結(jié)構(gòu)如圖5所示。為了快速驗證,我們使用單一尺度結(jié)構(gòu)在GOPRO數(shù)據(jù)集上進行實驗。測試結(jié)果見表4。
表4中結(jié)果表明,使用FMRB模塊的PSNR和SSIM值最高,在所有對比模塊中,本模塊有一定優(yōu)勢。FMRB較MSRB模塊計算量更少,在測試時間上,速度提升16%,實時性更好。綜上,模塊FMRB對于圖像去模糊任務(wù)是非常有效的,它用更少的計算量實現(xiàn)了更優(yōu)的性能。
2.3.4 跳躍連接分析
隨著網(wǎng)絡(luò)深度的增加,圖像信息會丟失。本文的網(wǎng)絡(luò)中,編碼部分特征圖的空間信息可以通過跳躍連接傳送到解碼部分,幫助解碼器恢復(fù)更清晰的圖像。本文分別對有跳躍連接和無跳躍連接的兩種網(wǎng)絡(luò)結(jié)構(gòu)(網(wǎng)絡(luò)其他結(jié)構(gòu)保持不變)在GOPRO數(shù)據(jù)集上實驗,為了簡便,兩種結(jié)構(gòu)都使用單一尺度。圖6給出兩種模型的盲去模糊質(zhì)量評估散點圖。由圖可以看出,在100~600個Epoch之間,有跳躍連接的曲線均落在無跳躍連接曲線的上方,即有跳躍連接模型的去模糊結(jié)果得到了更高的PSNR值。所以,對于深度編解碼網(wǎng)絡(luò),跳躍連接具有較大的優(yōu)勢。
2.3.5 自行拍攝圖像去模糊
GOPRO數(shù)據(jù)集的模糊圖像是合成的,與真實模糊圖像有很大不同。許多方法將訓(xùn)練好的模型運用到實際情況中,不能得到很好的去模糊結(jié)果。為了驗證本文模型的實用性,將手機自行拍攝的模糊圖片在訓(xùn)練好的模型上進行去模糊實驗,結(jié)果如圖7所示。
從圖7的兩組圖像可以看出,多尺度編解碼深度卷積網(wǎng)絡(luò)能夠去除實際拍攝圖片的運動模糊,去模糊圖像得到了較高質(zhì)量的視覺效果。本文所提網(wǎng)絡(luò)的泛化能力較強,能廣泛應(yīng)用于日常生活中。
2.3.6 其他模糊圖像復(fù)原
模糊圖像類型不同,但其形成過程都可以通過清晰圖像與模糊核的卷積來描述,去模糊過程具有相似性,本質(zhì)上都是一個求反卷積的過程。理論上,本文用于處理運動模糊的方法也能用來去除其他模糊。
物體運動、鏡頭聚焦不準、光學(xué)系統(tǒng)的衍射等都會造成圖像模糊,但最常見的模糊分為運動模糊和離焦模糊兩大類型。本文所用GOPRO數(shù)據(jù)集中圖像的模糊是由相機抖動和拍攝場景中多個物體的快速運動共同產(chǎn)生的,包含全局模糊和局部模糊,所以本文不只是處理簡單的勻速直線運動模糊,本文的模糊核是空間變換和非均勻的,覆蓋范圍更廣;離焦模糊是由聚焦不準、景深、成像設(shè)備質(zhì)量等形成,目前有高斯模型和圓盤模型來近似離焦模糊的模糊核[19],高斯模型具有規(guī)律性,圓盤離焦模型為彌散狀且均勻分布的圓盤形,與運動模糊的模糊核相比更為簡單。為了驗證本文方法的對于去除其他模糊的可行性,對離焦模糊的圖像進行測試,實驗結(jié)果見圖8。
從圖8可以看出去模糊圖像中鐵架和臺階的紋理比模糊圖像更為清晰,本文方法能夠改善離焦模糊圖像的質(zhì)量。驗證了上述理論的正確性,所提方法具有普適性,對于其他模糊圖像的復(fù)原也具有較好的效果。
2.3.7 大尺度圖像去模糊
本文的多尺度編解碼深度卷積網(wǎng)絡(luò)在圖像去模糊性能和實時性方面都具有一定的優(yōu)勢,但是隨著圖片尺度的增加,去模糊的速度逐漸減慢。為提升大尺度圖像在所提方法中的計算速度,作了以下處理。取1000對GOPRO測試集中的圖像拼接成250對空間分辨率為1440×2560的圖像,稱為GOPRO-L數(shù)據(jù)集。分別用直接輸入法和三種不同處理方法在此數(shù)據(jù)集上進行測試:第一種是下采樣法,即用雙三次插值將模糊圖像下采樣成低分辨率圖像作為網(wǎng)絡(luò)的輸入,然后將去模糊結(jié)果用同樣的方法上采樣到原圖大小;第二種方法是分塊法,將模糊圖像分成多個小塊分別去模糊,然后將測試后的圖像拼成輸入對應(yīng)的圖像;第三種方法是將前兩種方法結(jié)合使用,將分塊后的圖像下采樣進行去模糊。表5為不同方法對大尺度圖像的去模糊結(jié)果,括號中的值分別為下采樣后圖像與原輸入圖像的尺寸比例和分塊個數(shù),用PSNR和平均測試時間作為評價標準。
由表5可知,在下采樣法中,隨著輸入圖像尺寸的減小,測試時間大幅降低,但是PSNR值逐漸減小。下采樣圖像尺寸為原圖0.4倍時的測試效率比直接輸入法提升83.47%,
但PSNR值降低7.23%。隨著分塊數(shù)量的增加,PSNR值逐漸降低,測試時間也在增加。當分塊數(shù)為2×2個小塊時,測試時間比直接輸入法增加4.58%,但PSNR值提升了0.86%。下采樣法對于提高大尺度圖像的計算速度是非常有效的,在去模糊性能的要求不是太高時此方法非常有效。分塊數(shù)量較少的分塊法能提升去模糊的性能。將兩種方法結(jié)合使用, 如表5中的最后一種方法,較單一分塊法(2×2塊)測試效率提升82.86%,較單一下采樣法(0.4倍)的PSNR值提升0.97%,在提升性能的同時也保證了運算速度。
3 結(jié)語
為去除非均勻運動模糊,并解決早期去模糊算法計算復(fù)雜、運算速度慢、恢復(fù)圖像存在重影等問題,本文提出一種多尺度編解碼深度卷積網(wǎng)絡(luò),以端到端的方式快速實現(xiàn)模糊圖像的盲去模糊。實驗結(jié)果表明本文方法優(yōu)于目前先進的去模糊方法,恢復(fù)圖像紋理更清晰;同時,多尺度結(jié)構(gòu)能減少圖像重影,保持圖像的邊緣結(jié)構(gòu);編解碼加跳躍連接的結(jié)構(gòu)對于提升去模糊性能是有效的;提出的快速多尺度殘差塊用更少的計算量實現(xiàn)了更優(yōu)的性能。實驗還表明本文方法對去除真實拍攝圖像的模糊和其他類型的模糊也均是有效的。對于大尺度圖像去模糊,在保持運算速度的同時,如何進一步提升圖像復(fù)原的質(zhì)量,并將提出的網(wǎng)絡(luò)用于其他圖像復(fù)原任務(wù)是接下來的研究方向。
參考文獻
[1]NAH S, KIM T H, LEE K M. Deep multi-scale convolutional neural network for dynamic scene deblurring [C]// CVPR 2017: Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2017, 1:257-265.
[2]PAN J, HU Z, SU Z, et al. Deblurring text images via l0-regularized intensity and gradient prior [C]// CVPR 2014: Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2014: 2901-2908.
[3]LI L, PAN J, LAI W-S, et al. Learning a discriminative prior for blind image deblurring [C]// CVPR 2018: Proceedings of the 2018 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2018: 6616-6625.
[4]ZHANG X, DONG H, HU Z, et al. Gated fusion network for joint image deblurring and super-resolution [C]// BMVC 2018: Proceedings of the 2018 British Machine Vision Conference. Berlin: Springer, 2018: 153.
ZHANG X, DONG H, HU Z, et al. Gated fusion network for joint image deblurring and super-resolution [EB/OL]. [2019-01-05]. https://arxiv.org/pdf/1807.10806.pdf.
[5]SUN J, CAO W, XU Z, et al. Learning a convolutional neural network for non-uniform motion blur removal [C]// CVPR 2015: Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2015: 769-777.
[6]KUPYN O, BUDZAN V, MYKHAILYCH M, et al. DeblurGAN: blind motion deblurring using conditional adversarial networks [C]// CVPR 2018: Proceedings of the 2018 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2018: 8183-8192.
KUPYN O, BUDZAN V, MYKHAILYCH M, et al. DeblurGAN: blind motion deblurring using conditional adversarial networks [EB/OL]. [2019-01-05]. https://arxiv.org/pdf/1711.07064.pdf.
[7]TAO X, GAO H, WANG Y, et al. Scale-recurrent network for deep image deblurring [C]// CVPR 2018: Proceedings of the 2018 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2018: 8174-8182.
TAO X, GAO H, WANG Y, et al. Scale-recurrent network for deep image deblurring [EB/OL]. [2019-01-05]. https://arxiv.org/pdf/1802.01770.pdf.
[8]KRIZHEVSKY A, SUTSKEVER I, HINTON G, et al. ImageNet classification with deep convolution neural network [C]// NIPS ‘12: Proceedings of the 25th International Conference on Neural Information Processing Systems. North Miami Beach, FL, USA: Curran Associates, 2012, 1: 1097-1105.
[9]LOFFE S, SZEGEDY C. Batch normalization: accelerating deep network training by reducing internal covariate shift [C]// ICML ‘15: Proceedings of the 32nd International Conference on Machine Learning. New York, NY: ACM, 2015:448-456.
LOFFE S, SZEGEDY C. Batch normalization: accelerating deep network training by reducing internal covariate shift [EB/OL]. [2019-01-05]. http://de.arxiv.org/pdf/1502.03167.
LOFFE S, SZEGEDY C. Batch normalization: accelerating deep network training by reducing internal covariate shift [C]// ICML ‘15: Proceedings of the 32nd International Conference on Machine Learning. [S.l.]: JMLR.org, 2015: 448-456.
[10]LI J, FANG F, MEI K, et al. Multi-scale residual network for image super-resolution [C]// Proceedings of the 2018 European Conference on Computer Vision, LNCS 11212. Berlin: Springer, 2018: 527-542.
[11]KHLER R, HIRSCH M, MOHLER B, et al. Recording and playback of camera shake: benchmarking blind deconvolution with a real-world database [C]// ECCV 2012: Proceedings of the 2012 European Conference on Computer Vision. Berlin, German: Springer, 2012:27-40.
KHLER R, HIRSCH M, MOHLER B, et al. Recording and playback of camera shake: benchmarking blind deconvolution with a real-world database [EB/OL]. [2019-01-05]. http://citeseerx.ist.psu.edu/viewdoc/download;jsessionid=4F605BF966AB6B236B6591E377AC8243?doi=10.1.1.379.1398&rep=rep1&type=pdf.
[12]LAI W, HUANG J, AHUJA N, et al. Deep Laplacian pyramid networks for fast and accurate super-resolution [C]// CVPR 2017: Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2017, 1: 5835-5843.
[13]MAO X-J, SHEN C, YANG Y-B, et al. Image restoration using convolutional auto-encoders with symmetric skip connections [C]// NIPS 2016: Proceedings of the 2016 Conference on Neural Information Processing Systems. New York, NY: Curran Associates, Inc, 2016:2802-2810.
MAO X-J, SHEN C, YANG Y-B, et al. Image restoration using convolutional auto-encoders with symmetric skip connections [EB/OL]. [2019-01-07]. https://arxiv.org/pdf/1606.08921.pdf.
[14]SU S, DELBRACIO M, WANG J, et al. Deep video deblurring for hand-held cameras [C]// CVPR 2017: Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2017, 1: 237-246.
[15]RONNEBERGER O, FISCHER P, BROX T. U-net: convolutional networks for biomedical image segmentation [C]// Proceedings of the 2015 International Conference on Medical Image Computing and Computer-Assisted Intervention, LNCS 9351. Berlin : Springer, 2015: 234-241.
[16]KIM T H, LEE K M. Segmentation-free dynamic scene deblurring [C]// CVPR 2014: Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2014, 1: 2766-2773.
[17]GONG D, YANG J, LIU L, et al. From motion blur to motion flow: a deep learning solution for removing heterogeneous motion blur [C]// CVPR 2017: Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2017, 1: 3806-3815.
[18]ZHANG J, PAN J, REN J, et al. Dynamic scene deblurring using spatially variant recurrent neural networks [C]// CVPR 2018: Proceedings of the 2018 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2018: 2521-2529.
[19]于春和,祁奇.離焦模糊圖像復(fù)原技術(shù)綜述[J].沈陽航空航天大學(xué)學(xué)報,2018,35(5):57-63.(YU C H, QI Q. A survey of defocusing image restoration techniques [J]. Journal of Shenyang Aerospace University, 2018, 35(5): 57-63.)
This work is partially supported by the National Natural Science Foundation of China (61673021).
JIA Ruiming, born in 1978, Ph. D., research assistant. His research interests include computer vision, deep learning, pattern recognition.
QIU Zhenzhi, born in 1994, M. S. candidate. Her research interests include computer vision, deep learning.
CUI Jiali, born in 1975, Ph. D., research assistant. His research interests include image processing, pattern recognition.
WANG Yiding, born in 1967, Ph. D., professor. His research interests include image processing, image analysis and recognition.