張乾俊,廉佐政,趙紅艷
一種基于U-Net的圖像去模糊方法
張乾俊,廉佐政,趙紅艷
(齊齊哈爾大學(xué) 計算機與控制工程學(xué)院,黑龍江 齊齊哈爾 161006)
針對現(xiàn)有深度學(xué)習(xí)的圖像去模糊方法存在網(wǎng)絡(luò)接受域小、制約去模糊效果的問題,提出了一種改進的U-Net(U形卷積神經(jīng)網(wǎng)絡(luò))模型,該模型使用深度可分離卷積實現(xiàn)標準卷積操作,以減少模型計算和參數(shù).模型中嵌入小波變換,分離圖像的上下文和紋理信息,降低模型訓(xùn)練的難度.設(shè)計的密集多接受域通道模塊可以提取圖像細節(jié)信息,從而提高小波重構(gòu)圖像的質(zhì)量.實驗表明,該方法在峰值信噪比(PSNR)和結(jié)構(gòu)相似性(SSIM)方面具有較好的性能,模型參數(shù)較少,圖像恢復(fù)時間較短.
深度可分離卷積;U-Net模型;密集多接受域通道模塊;小波變換
目前,模糊圖像廣泛存在,引起圖像模糊的原因很多,如光學(xué)系統(tǒng)的像差、成像過程中目標的相對運動、低光照、環(huán)境噪聲等.這些模糊圖像不僅主觀上影響視覺體驗,而且影響了目標檢測等后續(xù)的視覺任務(wù).因此,圖像去模糊是計算機視覺中的一個關(guān)鍵性問題.圖像模糊問題的解決方法主要包括非盲和盲去模糊兩大類,前者需要已知圖像的模糊過程,來確定模糊核函數(shù),后者則不需要.在實際應(yīng)用中,模糊圖像的模糊過程大多是未知的,因此盲去模糊方法應(yīng)用廣泛.傳統(tǒng)的盲去模糊方法大多采用正則化和手工制作圖像先驗來估計模糊核,再用迭代優(yōu)化的方式逐步恢復(fù)清晰圖片,這就涉及復(fù)雜模糊核的估計,導(dǎo)致去模糊的過程繁瑣,實時性差,算法的性能不高.隨著深度學(xué)習(xí)快速發(fā)展,基于深度學(xué)習(xí)的盲去模糊方法[1]已逐步得到應(yīng)用.歐陽寧[2]等基于對抗網(wǎng)絡(luò)提出一種基于自適應(yīng)殘差的運動圖像去模糊方法,能夠重建出紋理細節(jié)豐富的高質(zhì)量圖像.Nah[3]等提出基于深度學(xué)習(xí)端到端去除圖像模糊,用多尺度卷積神經(jīng)網(wǎng)絡(luò)直接從模糊圖像恢復(fù)到清晰圖像.毛勇[4]等用生成對抗網(wǎng)絡(luò)設(shè)計車牌去運動模糊模型,有效去除合成運動模糊圖像和真實場景下運動模糊圖像中存在的運動模糊.Tao[5]等提出一種基于高分辨率特征保持的圖像去模糊網(wǎng)絡(luò),并行連接由高至低各分辨率特征子網(wǎng)絡(luò),無需由低分辨率到高分辨率的重建過程.Zhang[6]等使用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)學(xué)習(xí)每個位置的循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Networks,RNN)的像素權(quán)重,來增加接受域.用RNN或CNN只能捕獲小部分領(lǐng)域信息,無法有效獲得全局上下文依賴信息.Zeng[7]等采用了密集網(wǎng)絡(luò)來進行圖像的去模糊,可以避免梯度消失問題.
文獻[1-7]的方法存在網(wǎng)絡(luò)的接受域較小的問題,不能獲取更多的圖像信息,影響了圖像的去模糊效果.本文針對這些問題,提出新的方法,即構(gòu)建了U-Net(U-shaped Convolutional Neural Network)模型,分析了去模糊原理,并通過實驗進行效果評估,驗證了該方法具有良好的去模糊效果.
本文設(shè)計的模型見圖1.該模型由深度可分離卷積、深度可分離殘差卷積、哈爾小波變換、密集多接受域通道模塊組成.模型左側(cè)為編碼器,右側(cè)為解碼器.為了減少網(wǎng)絡(luò)模型中參數(shù),編碼器用深度可分離卷積實現(xiàn)卷積操作,用深度可分離殘差卷積完成殘差卷積.使用二維離散哈爾小波來實現(xiàn)下采樣,以獲取到圖像不同頻率的上下文和紋理信息,降低計算復(fù)雜性,減少訓(xùn)練難度.在深層編碼時使用了密集多接受域通道模塊,來獲取不同尺度的圖像信息,緩解梯度消失、重用特性的出現(xiàn).在解碼階段,用哈爾小波的逆變換來實現(xiàn)上采樣過程,減少圖像信息的損失.再通過深度可分離卷積和深度可分離殘差卷積對圖像進行有效重建.對模型的關(guān)鍵部分小波變換及其逆變換、密集多接受域通道模塊進行分析.
圖1 模型設(shè)計
哈爾小波是小波變換中最易于實現(xiàn)、操作簡單的一種變換,因此本文用二維離散哈爾小波變換及其逆變換實現(xiàn)圖像下采樣和上采樣操作,即實現(xiàn)圖像的分解和重構(gòu),其過程見圖2.圖2左半部完成小波變換,首先沿著列方向進行行濾波,再進行下采樣,然后將得到的濾波結(jié)果沿著行方向進行列濾波,再下采樣,從而獲得4個不同的頻帶,一個近似分量A,水平、垂直、對角等方向的3個細節(jié)分量H,V,D.圖2右半部完成小波逆變換,首先對D,V進行上采樣,再沿著列方向進行行濾波,H,A也做同樣的操作.然后將其結(jié)果進行上采樣,再沿著行方向進行列濾波,最后將濾波結(jié)果融合,得到重構(gòu)的去模糊圖像.這個過程中不僅避免圖像信息丟失,且會生成更多的高頻信息.因此,可以獲得清晰的圖像.
圖2 小波變換及其逆變換
為提取圖像的深層語義信息,提高圖像去模糊的性能,提出密集多接受域模塊.密集多接受域通道模塊,由4個多接受域通道塊和1個瓶頸層組成(見圖3).通過多接受域通道塊來提取圖像的語義特征,再用瓶頸層來減少特征輸入的數(shù)量,來提高模型的緊湊性和計算效率.用密集連接的方式,來加強圖像特征的傳遞,更加有效地利用圖像特征.密集多接受域通道模塊表示為
式中:表示串聯(lián)層混合的接受域塊所產(chǎn)生的特征圖;表示將多個輸入張量轉(zhuǎn)化為單個張量;表示瓶頸層的輸出;為瓶頸層的超參數(shù),瓶頸層采用的濾波器大小為1×1.
圖4 多接收域通道塊
本文使用了GOPRO數(shù)據(jù)集[8]來訓(xùn)練本文的模型,它由3 214模糊清晰圖像對組成,包含了22個不同的場景.選用2 103對圖像作為訓(xùn)練集,1 111對圖像作為測試集.為了提高模型的泛化能力,對訓(xùn)練集進行數(shù)據(jù)增強操作,分別采用隨機旋轉(zhuǎn),隨機左右、上下翻轉(zhuǎn),高斯噪聲,旋轉(zhuǎn)角度為90°,180°,270°,噪聲均值為0,方差為0.000 1.
圖像去模糊采用均方誤差(MSE)損失作為常用指標,通過使用歐式距離來測量預(yù)測值與實際值之間的差值
同時為獲得圖像邊緣細節(jié)信息,使用了SSIM損失函數(shù)[10]
使用峰值信噪比(PSNR)和結(jié)構(gòu)相似度(SSIM)來作為評價指標,它們的值越大,代表圖像的質(zhì)量就越好,計算公式
本文方法的平均PSNR和平均SSIM與其它方法的比較情況見表1.通過比較發(fā)現(xiàn),本文方法在PSNR和SSIM方面優(yōu)于其他方法,比文獻[5]的PSNR高0.59,SSIM高0.014.
表1 各算法在數(shù)據(jù)集上的定量評估
本文方法在GOPRO測試數(shù)據(jù)集上所用的時間、模型參數(shù)大小見表2.本文比文獻[3]和文獻[5]的所需的時間更少,模型參數(shù)更?。?/p>
表2 各算法在數(shù)據(jù)集上的運行時間和網(wǎng)絡(luò)模型大小
本文提出了一種基于改進U-Net模型的圖像去模糊方法,該方法引入了二維離散哈爾小波,并設(shè)計了密集多接受域通道塊.模型中的下采樣采用小波變換,上采樣采用小波逆變換,從而獲得了更多的圖像細節(jié),降低了計算復(fù)雜度.密集多接受域通道塊以密集連接方式連接多個接收通道塊,增強了網(wǎng)絡(luò)的傳輸能力.本文的方法不僅可以顯著降低模型的參數(shù),而且可以減少模型恢復(fù)清晰圖像的運行時間,達到良好的圖像去模糊效果.
[1] 潘金山.基于深度學(xué)習(xí)的圖像去模糊方法研究進展[J].計算機科學(xué),2021,48(3):9-13.
[2] 歐陽寧,鄧超陽,林樂平.基于自適應(yīng)殘差的運動圖像去模糊[J].計算機工程與設(shè)計,2021,42(6):1684-1690.
[3] Nah S,Kim T H,Lee K M.Deep Multi-scale Convolutional Neural Network for Dynamic Scene Deblurring[C]// IEEE Computer Society.2017 IEEE Conference on Computer Vision and Pattern Recognition.Honolulu,USA:IEEE,2017.
[4] 毛勇,陳華華.基于深度學(xué)習(xí)的車牌圖像去運動模糊技術(shù)[J].杭州電子科技大學(xué)學(xué)報,2018,38(5):33-37.
[5] Tao X,Gao H,Wang Y,et al.Scale-recurrent Network for Deep Image Deblurring[C]// 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition.Salt Lake City,USA:IEEE,2018.
[6] Zhang J,Pan J,Ren J,et al.Dynamic Scene Deblurring Using Spatially Variant Recurrent Neural Networks[C]// 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR).Salt Lake City,USA:IEEE,2018.
[7] Zeng Tao,Diao Changyu.Single Image Motion Deblurring Based On Modified DenseNet[C]//2020 2nd International Conference on Machine Learning,Big Data and Business Intelligence(MLBDBI).Chengdu:Institute of Electrical and Electronics Engineers Inc,2020.
[8] 黃彥寧,李偉紅,崔金凱,等.強邊緣提取網(wǎng)絡(luò)用于非均勻運動模糊圖像盲復(fù)原[J].自動化學(xué)報,2021,47(11):1-17.
[9] Liu H L,Tian X.AEGD:Adaptive Gradient Decent with Energy[J/OL].a(chǎn)rXiv preprint arXiv 2020,1(1):1-25. https://arxiv.org/abs/2010.05109.
[10] Wang Z,Bovik A C,Sheikh H R,et al.Image quality assessment:from error visibility to structural sim-ilarity[J]. IEEETransactions on Image Processing,2004,13(4):600-612.
An image deblurring method based on U-Net
ZHANG Qianjun,LIAN Zuozheng,ZHAO Hongyan
(School of Computer and Control Engineering,Qiqihar University,Qiqihar 161006,China)
The existing deep learning image deblurring methods have the problems of small network receptive field and restricting the deblurring effect,an improved U-Net(U-shaped Convolutional Neural Network)model is proposed.The model uses depth-wise separable convolution to archive standard convolution operation to reduce model calculations and parameters.The wavelet transform is embedded in the U-Net model to separate the context and texture information of the image and reduce the difficulty of model training.In order to improve the image quality of wavelet reconstruction,dense multi-receptive field channel module is used to extract image detail information.Experiments show that the image deblurring method has better performance in PSNR(peak signal-to-noise ratio)and SSIM(structural similarity),with fewer model parameters and shorter recovery time.
depth-wise separable convolution;U-Net model;dense multi-receptive field channel module;wavelet transform
1007-9831(2022)05-0047-05
TP391
A
10.3969/j.issn.1007-9831.2022.05.008
2022-01-20
黑龍江省高等教育教學(xué)改革研究項目(SJGY20200770,SJGY20190710);齊齊哈爾大學(xué)教育科學(xué)研究項目(ZD201802)
張乾俊(1996-),男,陜西漢中人,在讀碩士,從事深度學(xué)習(xí)應(yīng)用研究.E-mail:1123495150@qq.com
廉佐政(1977-),男,黑龍江海倫人,副教授,碩士,從事機器學(xué)習(xí)與人工智能應(yīng)用研究.E-mail:lianzuozheng@163.com