基于生成對(duì)抗網(wǎng)絡(luò)的圖像盲去運(yùn)動(dòng)模糊算法

2019-10-15 02:21陳富成陳華華

軟件導(dǎo)刊 2019年8期

陳富成陳華華

摘要：針對(duì)運(yùn)動(dòng)圖像盲去模糊問(wèn)題，基于生成對(duì)抗網(wǎng)絡(luò)，提出利用一種端對(duì)端方式恢復(fù)模糊圖像算法。運(yùn)用生成對(duì)抗神經(jīng)網(wǎng)絡(luò)方法對(duì)運(yùn)動(dòng)模糊圖像直接復(fù)原，跳過(guò)估計(jì)模糊核過(guò)程，增加感知損失作為損失項(xiàng)，使圖片內(nèi)容和全局結(jié)構(gòu)接近。此外，增加結(jié)構(gòu)相似性損失函數(shù)作為約束項(xiàng)，進(jìn)一步提升生成圖片與清晰圖片的相似性。實(shí)驗(yàn)結(jié)果表明，新算法可有效去除運(yùn)動(dòng)圖像模糊。與其它算法相比，所提算法獲得的圖像更加清晰。

關(guān)鍵詞：生成對(duì)抗網(wǎng)絡(luò);去運(yùn)動(dòng)模糊;感知損失;結(jié)構(gòu)相似性損失

DOI：10. 11907/rjdk. 182666 開放科學(xué)（資源服務(wù)）標(biāo)識(shí)碼（OSID）：

中圖分類號(hào)：TP317.4 文獻(xiàn)標(biāo)識(shí)碼：A 文章編號(hào)：1672-7800（2019）008-0208-04

Image Blind Motion Deblur Algorithm Based on Generative Adversarial Network

CHEN Fu-cheng，CHEN Hua-hua

（School of Communication Engineering， Hangzhou Dianzi University， Hangzhou 310018，China）

Abstract： Non-uniform blind deblurring of motion scenes has been a challenging problem in the field of image processing. Aiming at the blind deblurring problem of moving images， we propose a neural network based on conditional generation confrontation to recover the motion blur algorithm caused by motion in an end-to-end manner. The method of generative adversarial network is used to directly recover the motion blurred image， and the process of estimating the blur kernel is skipped. Increasing the perceptual loss as a loss term makes the content of the picture close to the global structure. In addition， the structural similarity loss function is added as a constraint term to further constrain and enhance the similarity between the generated image and the clear picture. The experimental results verify that the proposed new algorithm can effectively remove the blur of moving images. Compared with other algorithms， the proposed algorithm can obtain clearer images.

Key Words： generative adversarial network; motion deblur; perceptual loss; structural similarity loss

作者簡(jiǎn)介：陳富成（1993-），男，杭州電子科技大學(xué)通信工程學(xué)院碩士研究生，研究方向?yàn)閳D像處理;陳華華（1976-），杭州電子科技大學(xué)通信工程學(xué)院副教授，研究方向?yàn)閳D像處理、計(jì)算機(jī)視覺、模式識(shí)別。本文通訊作者：陳華華。

0 引言

在醫(yī)學(xué)成像[1-2]、交通安全[3-4]、攝影學(xué)[5-6]、目標(biāo)識(shí)別與追蹤[7-8]、天文探測(cè)[9-10]等領(lǐng)域，獲得一幅清晰圖像尤為重要。但在圖像成像過(guò)程中，拍攝設(shè)備與成像物體之間很難保持相對(duì)靜止?fàn)顟B(tài)，會(huì)造成圖像模糊。運(yùn)動(dòng)圖像的模糊過(guò)程可看作是清晰圖像和一個(gè)二維線性函數(shù)卷積運(yùn)算后，受到加性噪聲污染得到的。該線性函數(shù)稱為點(diǎn)擴(kuò)散函數(shù)[11]或卷積核，包含圖像的模糊信息。圖像的盲去模糊指在模糊方式未知（即模糊核未知）的情況下，僅依靠模糊圖像本身信息還原出原始清晰圖像。

針對(duì)圖像盲去模糊問(wèn)題，文獻(xiàn)[12]基于自然圖像梯度服從重尾效應(yīng)的統(tǒng)計(jì)規(guī)律，推演出模糊核;文獻(xiàn)[13]根據(jù)模糊圖像的突出邊緣與低秩先驗(yàn)，為模糊核估計(jì)提供可靠的邊緣信息，低秩先驗(yàn)為中間圖像提供數(shù)據(jù)可靠的先驗(yàn)。但這些方法對(duì)模糊核的估計(jì)仍然不準(zhǔn)確，尤其是在運(yùn)動(dòng)遮擋或不連續(xù)情況下，這種不準(zhǔn)確的核估計(jì)會(huì)導(dǎo)致振鈴效應(yīng)。

傳統(tǒng)方法在解決函數(shù)逼近問(wèn)題時(shí)存在不足，導(dǎo)致圖像去模糊效果不理想。大數(shù)據(jù)時(shí)代，深度學(xué)習(xí)得到了迅猛發(fā)展，其在圖像盲去運(yùn)動(dòng)模糊中的應(yīng)用越來(lái)越廣泛。文獻(xiàn)[14]提出了一種準(zhǔn)確估計(jì)模糊核算法：首先訓(xùn)練一個(gè)卷積神經(jīng)網(wǎng)絡(luò)，把模糊圖像恢復(fù)成中間圖像，然后結(jié)合模糊圖像與中間圖像準(zhǔn)確估計(jì)單個(gè)全局模糊核;文獻(xiàn)[15]提出一種連續(xù)去模糊方法，通過(guò)似然項(xiàng)和平滑先驗(yàn)優(yōu)化卷積神經(jīng)網(wǎng)絡(luò)得到模糊核。以上方法都需要結(jié)合傳統(tǒng)的優(yōu)化方法進(jìn)行，所以需要精確的核估計(jì)步驟;文獻(xiàn)[16]采用條件對(duì)抗網(wǎng)絡(luò)，以端到端方式直接生成清晰圖像，其在損失函數(shù)中加入感知損失以提高生成圖像與輸入圖像在內(nèi)容和全局結(jié)構(gòu)上的相似性。

理想情況下，該輸出目標(biāo)應(yīng)該與輸入樣本相似，但是生成對(duì)抗網(wǎng)絡(luò)[17]并不會(huì)限制生成器輸出，這就造成很多時(shí)候生成器的輸出不穩(wěn)定。本文在文獻(xiàn)[16]的基礎(chǔ)上引入結(jié)構(gòu)相似性作為生成器約束項(xiàng)，以限制生成器輸出。將訓(xùn)練好的模型在幾個(gè)不同的運(yùn)動(dòng)模糊場(chǎng)景中測(cè)試，結(jié)果表明該模型能高效恢復(fù)模糊圖像。

1 盲去運(yùn)動(dòng)模糊模型

生成對(duì)抗網(wǎng)絡(luò)模型基本框架如圖1所示，將由運(yùn)動(dòng)造成的模糊圖像B輸入到生成器G得到生成圖像G（B），生成圖像G（B）與清晰圖像S一同輸入判別器D中，分別將其映射為一個(gè)判別器，以判別為真的概率值。生成對(duì)抗網(wǎng)絡(luò)是一個(gè)互相博弈的過(guò)程，生成器依據(jù)判別器的判別結(jié)果進(jìn)行優(yōu)化，而判別器則努力去判別清晰圖像與生成圖像，直到判別器無(wú)法區(qū)分清晰圖像與生成圖像為止，此時(shí)生成器的去模糊效果達(dá)到最好。

圖1 生成對(duì)抗網(wǎng)絡(luò)GAN的基本模型

本文在生成對(duì)抗網(wǎng)絡(luò)的圖像盲去運(yùn)動(dòng)模糊模型中，訓(xùn)練一個(gè)CNN作為生成器G，判別器由卷積層、全連接層和激活層構(gòu)成，對(duì)抗網(wǎng)絡(luò)的目標(biāo)函數(shù)為：

式（1）中，[S～psharp（S）]表示清晰圖像S取自真實(shí)清晰圖像集，[B～pblurry（B）]表示模糊圖像，B取自模糊圖像集，E表示期望，D表示判別器對(duì)輸入圖像為真的概率。該損失函數(shù)存在判別器越好生成器梯度消失越嚴(yán)重的問(wèn)題，故采用WGAN[18]方法，將損失函數(shù)改為：

[l=n=1N-DθD（GθD（IB））] （2）

為提高生成圖像、輸入圖像內(nèi)容與全局結(jié)構(gòu)的相似性，引入感知損失函數(shù)[19]。為限制生成器輸出，引入結(jié)構(gòu)相似性函數(shù)作為生成器G的約束項(xiàng)。

1.1 總損失函數(shù)

總損失函數(shù)由對(duì)抗損失、感知損失、結(jié)構(gòu)相似性損失組合而成。

[L=lGAN+λ？lX+κ？LSSIM（P）]? （3）

1.2 感知損失函數(shù)

理論上生成圖像I與清晰圖像S在內(nèi)容及全局結(jié)構(gòu)上的相似性應(yīng)盡可能接近，故以感知損失函數(shù)表示生成圖像I與清晰圖像S之間的差異。

[lX=1Wi，jHi，jx=1Wi，jy=1Hi，j（φi，j（S）x，y-φi，j（I）x，y）2]? （4）

式（4）中，[φi，j]是在VGG19[20]網(wǎng)絡(luò)下第i層最大池化之前通過(guò)第j層卷積層獲得的特征映射，[Wi，j]和[Hi，j]是特征映射的寬度和高度。

1.3 結(jié)構(gòu)相似性（SSIM）損失函數(shù)

原始GAN在生成圖像時(shí)是沒有約束的，故生成器很容易失去訓(xùn)練方向，導(dǎo)致訓(xùn)練不穩(wěn)定、梯度消失和模式崩潰問(wèn)題，故引入圖像結(jié)構(gòu)相似性損失函數(shù)[21]作為約束項(xiàng)，約束生成器的訓(xùn)練。結(jié)構(gòu)相似性定義為：

[SSIM（p）=2μxμy+c1μx2+μy2+c1？2σxy+c2σ2x+σ2y+c2]? （5）

式（5）中，[μx]、[μy]是圖像塊像素的平均值，[σx]、[σy]是圖像像素值的標(biāo)準(zhǔn)差，[σxy]是兩個(gè)圖像像素的協(xié)方差，[c1]、[c2]為常數(shù)。

SSIM越大越好，所以把損失函數(shù)改寫成：

[LSSIM（P）=1Np∈P1-SSIM（P）] （6）

即求[LSSIM]的最小值。但是這樣無(wú)法解決圖像像素的邊界問(wèn)題，所以重寫損失函數(shù)如下：

[LSSIM（P）=1-SSIM（p）] （7）

[p]表示像素塊的中間像素值。

2 網(wǎng)絡(luò)模型

2.1 生成器網(wǎng)絡(luò)

生成器網(wǎng)絡(luò)模型如圖2所示。生成器網(wǎng)絡(luò)共由14塊組成，其中每一塊里面包含了卷積層、Instance歸一化層、Relu激活函數(shù)層。在每個(gè)殘差塊的第一個(gè)卷積層后面添加概率為0.5的Dropout正則化。第一塊卷積層為3通道，卷積核大小為7×7，步長(zhǎng)為1。第二塊與第三塊的卷積核大小為3×3，步長(zhǎng)為2，補(bǔ)零寬度為1。后面接入9個(gè)卷積核大小為3×3、步長(zhǎng)為2、padding為2的殘差塊。最后是兩個(gè)卷積核為3×3、步長(zhǎng)為2、padding為1、output_padding為1的反卷積塊。第一層卷積核大小為4×4×3，步長(zhǎng)為2，共有128個(gè)卷積核生成128張輸出;第二層卷積核大小為3×3×128，卷積步長(zhǎng)為2，共有512個(gè)卷積核生成512張輸出;第三層卷積核大小為3×3×512，卷積步長(zhǎng)為2，共有1 024個(gè)卷積核生成1 024張輸出;接著連接一個(gè)1 024維輸出的全連接層，再連接一個(gè)一維的全連接層和sigmoid函數(shù)得到輸出。此外，引入全局跳躍連接使生成器可從模糊圖像學(xué)習(xí)到殘差校正。

2.2 判別器網(wǎng)絡(luò)

判別器是在生成器訓(xùn)練完畢后對(duì)生成器生成的圖像判定為真的概率。當(dāng)概率大于0.5時(shí)，將輸入圖像判為清晰圖像，反之將其判定為生成圖像。判別器網(wǎng)絡(luò)前面由4個(gè)卷積塊組成，其中每塊包含卷積塊、Instance歸一化層和LeakyReLU激活層。第一層卷積核大小為4×4×3，步長(zhǎng)為2，共有128個(gè)卷積核生成128張輸出;第二層卷積核大小為3×3×128，卷積步長(zhǎng)為2，共有512個(gè)卷積核生成512張輸出;第三層卷積核大小為3×3×512，卷積步長(zhǎng)為2，共有1 024個(gè)卷積核生成1 024張輸出;接著連接一個(gè)1 024維輸出的全連接層，再連接一個(gè)一維全連接層和sigmoid得到輸出。

2.3 網(wǎng)絡(luò)結(jié)構(gòu)

該模型的網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示。將模糊圖像B作為生成器輸入，并輸出恢復(fù)的模糊圖像G（B）。在生成器訓(xùn)練期間，恢復(fù)圖像G（B）和清晰圖像S作為輸入并估計(jì)它們之間的結(jié)構(gòu)相似性差異與特征差異。完整的損失函數(shù)有對(duì)抗損失、結(jié)構(gòu)相似性損失和感知損失。

圖3 算法模型

3 實(shí)驗(yàn)結(jié)果分析

3.1 實(shí)驗(yàn)設(shè)計(jì)

本實(shí)驗(yàn)在Linux操作系統(tǒng)下基于PyTorch深度學(xué)習(xí)框架實(shí)現(xiàn)。計(jì)算機(jī)配置參數(shù)如下：3.4GHz的i3處理器臺(tái)式機(jī)，NVIDA GTX1060顯卡，16GB RAM。模型在隨機(jī)剪裁的256×256像素的GoPro數(shù)據(jù)集上訓(xùn)練。因?yàn)樵撃Ｐ褪侨矸e，又是在剪裁的圖像塊上訓(xùn)練，故可應(yīng)用在任意大小的圖像中。將生成器和判別器的學(xué)習(xí)速率設(shè)置為1×10-4效果最好。經(jīng)過(guò)150次迭代后，后150次迭代的學(xué)習(xí)速率呈線性衰減。本模型參數(shù)經(jīng)過(guò)多次實(shí)驗(yàn)調(diào)整，將[λ]設(shè)置為100，[κ]設(shè)置為0.84，[C1]、[C2]分別設(shè)置為2.55、 6.75。經(jīng)過(guò)實(shí)驗(yàn)優(yōu)化，選擇自適應(yīng)矩估計(jì)優(yōu)化策略。驗(yàn)證表明，將batch size設(shè)置為1時(shí)效果最好。

3.2 數(shù)據(jù)集預(yù)處理

GoPro數(shù)據(jù)集分訓(xùn)練集和測(cè)試集。該數(shù)據(jù)集內(nèi)含有車輛、行人等多個(gè)運(yùn)動(dòng)場(chǎng)景造成的圖像模糊，所以在運(yùn)動(dòng)去模糊領(lǐng)域應(yīng)用較為廣泛。訓(xùn)練集含有2 103張運(yùn)動(dòng)模糊圖片和與之相對(duì)應(yīng)的清晰圖片，測(cè)試集內(nèi)含有1 000張運(yùn)動(dòng)模糊圖像和與之對(duì)應(yīng)的清晰圖像。將訓(xùn)練集尺寸隨機(jī)剪裁為256×256，把模糊圖像與對(duì)應(yīng)的清晰圖像相匹配同時(shí)作為生成器的輸入。

3.3 實(shí)驗(yàn)結(jié)果

該模型在GoPro數(shù)據(jù)集上訓(xùn)練迭代60萬(wàn)次后達(dá)到收斂狀態(tài)。在不同的運(yùn)動(dòng)模糊場(chǎng)景中進(jìn)行測(cè)試，本文模型的輸出結(jié)果與文獻(xiàn)[16]模型的輸出結(jié)果對(duì)比見圖4。

圖4 原模糊圖像與各類算法去模糊結(jié)果

結(jié)果表明，本文算法模型的去模糊效果比文獻(xiàn)[16]在細(xì)節(jié)方面有明顯提升，該模型可解決由拍攝設(shè)備與物體間相對(duì)運(yùn)動(dòng)造成的模糊，而不僅僅是人為的模糊。表1列出了幾種算法比較，可以看出，平均PSNR與SSIM表現(xiàn)得更為突出。

表1 GoPro測(cè)試集下的平均值

實(shí)驗(yàn)結(jié)果表明，本文模型對(duì)運(yùn)動(dòng)模糊圖像有較好的去模糊效果，但是圖像細(xì)節(jié)部分依然存在模糊現(xiàn)象。由于圖像運(yùn)動(dòng)是一個(gè)連續(xù)的過(guò)程，而圖像的成像是在曝光時(shí)間內(nèi)所有影像的集合。所以，硬件設(shè)備越差，成像過(guò)程丟失的信息就越多，這對(duì)去運(yùn)動(dòng)圖像模糊來(lái)說(shuō)是個(gè)很大的難題。若要降低圖像成像過(guò)程中信息丟失對(duì)圖像去模糊的不利影響，可采用高幀數(shù)拍攝設(shè)備。

4 結(jié)語(yǔ)

本文提出的圖像盲去運(yùn)動(dòng)模糊算法，針對(duì)GAN網(wǎng)絡(luò)模型訓(xùn)練不穩(wěn)定問(wèn)題，引入結(jié)構(gòu)相似性損失函數(shù)作為約束項(xiàng)進(jìn)行創(chuàng)新。實(shí)驗(yàn)證明本文方法優(yōu)于其它算法，提高了圖像去模糊效果。但是本文提出的算法訓(xùn)練參數(shù)過(guò)多，增加了訓(xùn)練復(fù)雜度，而且在實(shí)際處理運(yùn)動(dòng)模糊圖像時(shí)仍存在不足，下一步將重點(diǎn)研究如何在去模糊效果不降低的情況下減少訓(xùn)練參數(shù)、降低訓(xùn)練復(fù)雜度。因?yàn)檎鎸?shí)運(yùn)動(dòng)模糊圖像一般都具有多種模糊情況，所以要考慮適當(dāng)增加卷積核的感受野大小。

參考文獻(xiàn)：

[1] MICHAILOVICH O V， ADAM D. A novel approach to the 2-D blind deconvolution problem in medical ultrasound[J]. IEEE Transactions on Medical Imaging， 2005， 24（1）：86-87.

[2] MICHAILOVICH O， TANNENBAUM A. Blind deconvolution of medical ultrasound images： a parametric inverse filtering approach.[J]. IEEE Transactions on Image Processing， 2007， 16（12）：3005-3019.

[3] 隋曄，馬鉞. 交通監(jiān)控系統(tǒng)中運(yùn)動(dòng)目標(biāo)分類和跟蹤研究[J]. 信息與控制， 2003， 32（1）：61-64.

[4] 張敏. 視頻監(jiān)控中運(yùn)動(dòng)目標(biāo)檢測(cè)與清晰化方法的研究[D]. 鎮(zhèn)江：江蘇大學(xué)，2010.

[5] YOU Y L， KAVEH M. A regularization approach to joint blur identification and image restoration[M]. Piscataway：IEEE Press， 1996.

[6] SROUBEK F，F(xiàn)LUSSER J. Multichannel blind deconvolution of spatially misaligned images[J]. IEEE Transactions on Image Processing，2005，14（7）：874-875.

[7] WU Y. Blurred target tracking by blur-driven tracker[C]. IEEE International Conference on Computer Vision. IEEE， 2011：1100-1107.

[8] DAI S， YANG M， WU Y， et al. Tracking motion-blurred targets in video[C].IEEE International Conference on Image Processing， 2006：2389-2392.

[9] SCHULZ T J. Multiframe blind deconvolution of astronomical images[J]. Journal of the Optical Society of America A， 1993， 10（5）：1064 - 1073.

[10] HANISCH R J， JACOBY G H. Astronomical data analysis software and systems x[J]. Publications of the Astronomical Society of the Pacific， 2001， 113（784）：772-773.

[11] 郎銳. 數(shù)字圖像處理學(xué)[M]. 北京：希望電子出版社， 2002.

[12] FERGUS R， SINGH B， HERTZMANN A， et al. Removing camera shake from a single photograph [J]. ACM Transactions on Graphics， 2006， 25（3）：787-794.

[13] PAN J， LIU R， SU Z， et al. Motion blur kernel estimation via salient edges and low rank prior[C].IEEE International Conference on Multimedia and Expo， 2014：1-6.

[14] CHAKRABARTI A. A neural approach to blind motion deblurring[C]. European Conference on Computer Vision. Springer， Cham， 2016：221-235.

[15] SUN J， CAO W， XU Z， et al. Learning a convolutional neural network for non-uniform motion blur removal[C].IEEE Conference on Computer Vision and Pattern Recognition，2015：769-777.

[16] KUPYN O，BUDZAN V，MYKHAILYCH M，et al. Deblurgan： blind motion deblurring using conditional adversarial networks[EB/OL]. https：//cloud.tencent.com/developer/article/1096122

[17] GOODFELLOW I J， POUGET-ABADIE J， MIRZA M， et al. Generative adversarial nets[C]. International Conference on Neural Information Processing Systems，2014：2672-2680.

[18] ARJOVSKY M， CHINTALA S， BOTTOU L. Wasserstein gan[J].? arXiv preprint，2017（3）：1701-1711 .

[19] JUSTIN JOHNSON，ALEXANDRE ALAHI，LI F F. Perceptual losses for real-time style transfer and super-resolution[EB/OL]. https：//github.com/jcjohnson/fast-neural-style.

[20] KAREN SIMONYAN，ANDREW ZISSERMAN.Very deep convolutional networks for large-scale image recognition[EB/OL]. https：//arxiv.org/abs/1409.1556.

[21] ZHAO H，GALLO O，F(xiàn)ROSIO I，et al. Loss functions for neural networks for image processing[J]. Computer Science，2015（3）：2411-2419.

[22] NAH S， KIM T H， LEE K M. Deep multi-scale convolutional neural network for dynamic scene deblurring[DB/OL]. https：//arxiv.ogr/abs/1612.02177.

[23] KIM T H，LEE K M. Segmentation-free dynamic scene deblurring[C]. Columbus：IEEE Conference on Computer Vision and Pattern Recognition， 2014.

（責(zé)任編輯：杜能鋼）

軟件導(dǎo)刊2019年8期

軟件導(dǎo)刊的其它文章: 微服務(wù)架構(gòu)研究概述; 云計(jì)算數(shù)據(jù)中心能耗優(yōu)化研究綜述; 我國(guó)近十年“人工智能+教育”研究熱點(diǎn)分析; 基于深度學(xué)習(xí)的電子病歷實(shí)體標(biāo)準(zhǔn)化; 基于詞向量相似度的食品安全問(wèn)答系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn); 基于IG-DNN混合決策算法的糖尿病預(yù)測(cè)研究