MeGAN:基于多任務(wù)增強生成對抗網(wǎng)絡(luò)的圖像合成

2020-04-29 00:44:03彭進業(yè)曹煜章勇勤彭先霖李展王珺張群喜楊蕊

西北大學(xué)學(xué)報(自然科學(xué)版) 2020年3期

彭進業(yè)　曹煜　章勇勤　彭先霖　李展　王珺　張群喜　楊蕊

【主持人語】隨著科學(xué)技術(shù)的快速發(fā)展，人工智能技術(shù)已被廣泛應(yīng)用于人類生活的各個方面。為了讓人工智能更好地服務(wù)于人類，首要需求是“理解人類”：理解人的情感和行為，進而模仿人類與人交流。因此，我們認為以理解人類為中心的人工智能技術(shù)將是一個重要的研究方向。與理解人類的語音信號分析和自然語言處理問題不同，計算機視覺任務(wù)更加寬泛。在當前的計算機視覺領(lǐng)域，面向理解人類的研究主要集中在人臉分析和行為分析。針對這一新興的研究熱點，本欄目將探討基于計算機視覺的人臉表情識別、表情合成和行為分析等相關(guān)問題，提出解決辦法，為以理解人類為中心的人工智能技術(shù)應(yīng)用拋磚引玉。

【主持人】彭進業(yè)，教授，博士生導(dǎo)師，西北大學(xué)信息科學(xué)與技術(shù)學(xué)院院長，教育部創(chuàng)新團隊負責(zé)人。

摘要：在計算機視覺領(lǐng)域，現(xiàn)有圖像合成方法通常采用一對一的映射網(wǎng)絡(luò)生成人臉表情，存在很大的建模局限性，難以表達豐富多樣、復(fù)雜多變的人臉表情。為此，該文提出一種基于多任務(wù)增強生成對抗網(wǎng)絡(luò)的圖像合成方法。該方法構(gòu)建多任務(wù)學(xué)習(xí)框架，改善人臉表情生成的多樣性;通過設(shè)計雙域卷積模塊，利用具有補償?shù)念l域信息改善空域特征映射;引入多尺度自適應(yīng)激活函數(shù)，對不同特征進行自適應(yīng)修正，進一步提升網(wǎng)絡(luò)性能和特征映射效果。實驗結(jié)果表明，該文方法能夠同時生成多種逼真的人臉表情圖像，與現(xiàn)有先進的圖像合成方法相比，具有更好的定性和定量評估結(jié)果。

關(guān)鍵詞：深度學(xué)習(xí);生成對抗網(wǎng)絡(luò);圖像合成;人臉表情;多任務(wù)學(xué)習(xí)

中圖分類號：TP391.41

DOI：10.16152/j.cnki.xdxbzr.2020－03－001

MeGAN： Multi－task enhanced generative adversarialnetwork for image synthesis

PENG JinyeCAO YuZHANG YongqinPENG Xianlin LI Zhan WANG JunZHANG Qunxi3， YANG Rui4

Abstract： In computer vision fields， existing image synthesis methods usually feature a one－to－one mapping network to generate facial expressions. But they have the inherent limitations， which hinder the accurate representation of diverse facial expressions. For this reason， a novel multi－task enhanced generative adversarial network （MeGAN） for facial image synthesis is proposed. This network adopts a multi－task learning framework to improve the diversity of facial expression generation. The dual－domain convolution module is designed to use frequency－domain features as complementary information for improving the learning of spatial feature mapping. A multi－scale adaptive? activation function is introduced to modify the feature maps adaptively for further improvement of network performance. Experimental results show that the proposed method can generate a variety of realistic facial expression images simultaneously and usually achieve better qualitative and quantitative results than the state－of－the－art methods.

Key words：deep learning; generative adversarial network; image synthesis; facial expression;multi－task learning

目前以深度學(xué)習(xí)為代表的人工智能技術(shù)已廣泛應(yīng)用于圖像合成領(lǐng)域［1-8］?，F(xiàn)有圖像合成方法絕大多數(shù)假設(shè)輸入和輸出是一對一的映射關(guān)系［9-15］，只能在兩個域之間進行跨域轉(zhuǎn)換，其模型存在很大局限性，難以滿足多樣化人臉表情生成等方面的應(yīng)用需求［16-17］。人臉表情復(fù)雜多樣，人們感興趣的可能不止一種，例如人臉數(shù)據(jù)集RaFD［18］將表情分為8種，若使用基于一對一映射的圖像合成方法進行跨域生成，需要訓(xùn)練56個網(wǎng)絡(luò)模型，存在效率低下且效果不佳的問題。

為了生成多樣化的合成圖像，本文提出一種多任務(wù)增強生成對抗網(wǎng)絡(luò)（multi－task enhanced generative adversarial network，MeGAN）。該網(wǎng)絡(luò)通過共享圖像信息，可減少模型參數(shù)，改善合成圖像的逼真度。本文的主要貢獻為：①提出多任務(wù)增強生成對抗網(wǎng)絡(luò)模型，實現(xiàn)多樣化圖像合成;②設(shè)計雙域卷積模塊，利用具有補償性的頻域特征改善空域特征映射;③引入多尺度自適應(yīng)激活函數(shù)，對不同特征進行自適應(yīng)修正，改善網(wǎng)絡(luò)建模的效率和性能;④ 利用實驗驗證本文方法的性能，通過與基準方法［11，15，19］比較，分析評估本文方法的有效性。

1 相關(guān)工作

1.1 生成對抗網(wǎng)絡(luò)

Goodfellow等人［20］最先提出生成對抗網(wǎng)絡(luò)（generative adversarial network， GAN）并將其用于數(shù)據(jù)生成。作為一種無監(jiān)督學(xué)習(xí)模型，GAN通過生成器和判別器兩個模塊的互相博弈學(xué)習(xí)產(chǎn)生好的輸出結(jié)果。在GAN模型訓(xùn)練中，生成器產(chǎn)生盡可能逼真的樣本去欺騙判別器，判別器盡可能準確地辨別生成的樣本和真實的樣本。近年，出現(xiàn)了GAN的多種改進方法，例如多樣化圖像生成［10］和多域圖像合成［19］。

1.2 圖像合成

自從GAN出現(xiàn)以后，許多關(guān)于GAN的改進方法被文獻報道，廣泛應(yīng)用于圖像合成的各個方面，并且取得突破性進展。由于傳統(tǒng)GAN難以準確表達圖像合成的映射關(guān)系，Isola等人［9］利用對抗損失和L1損失構(gòu)建總體目標函數(shù)，提出基于cGAN模型［21］的圖像合成網(wǎng)絡(luò)pix2pix［9］。隨后，Zhu等人和Kim等人分別提出CycleGAN［11］和DiscoGAN［22］，通過建立周期一致性損失函數(shù)，先將源圖像前向合成到目標域，再反向合成到源圖像域，解決了數(shù)據(jù)集中圖像配對的問題。Huang等人［15］假設(shè)圖像分為內(nèi)容空間和風(fēng)格空間，利用空間重組實現(xiàn)合成圖像的多樣性。然而，這些方法只考慮兩個域建模，且不具備擴展性。為了解決這個問題，Choi等人提出針對人臉屬性和表情轉(zhuǎn)換的多域圖像合成網(wǎng)絡(luò)StarGAN［19］，僅使用單一生成器即可完成多個數(shù)據(jù)域之間的圖像合成。StarGAN將域標簽作為生成器的附加輸入，利用訓(xùn)練學(xué)習(xí)將輸入圖像轉(zhuǎn)換到相應(yīng)的數(shù)據(jù)域。

1.3 人臉表情

圖像合成廣泛用于人臉分析［17，19，23-25］，例如表情合成［21］。Choi等人提出一種多域人臉表情圖像合成方法［19］；Shen等人提出一種基于殘差網(wǎng)絡(luò)的人臉屬性操作方法［17］；Zhang等人利用cGAN模型［21］將表情分類器內(nèi)嵌于數(shù)據(jù)增強模塊，通過綜合利用不同姿態(tài)和表情，實現(xiàn)人臉圖像合成和位置不變的人臉表情識別［25］。然而，現(xiàn)有方法絕大多數(shù)是一對一映射模型，不能對多個表情同時操作。

2 方法

本文提出一種基于多任務(wù)增強生成對抗網(wǎng)絡(luò)的圖像合成方法（MeGAN），本節(jié)詳細講述雙域卷積、多尺度自適應(yīng)激活函數(shù)、網(wǎng)絡(luò)架構(gòu)和目標函數(shù)。

2.1 雙域卷積

傳統(tǒng)深度學(xué)習(xí)方法通常只對空域特征進行建模，忽略了頻域特征對空域特征的補償性［26-28］。為此，本文提出雙域卷積（DDConv）模塊，其網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。對給定的輸入圖像xin∈s，先定義空域s和頻域f，為簡便起見，將輸入圖像xin記作空域圖像xs，而將通過前向離散余弦變換（FDCT）對輸入圖像xin變換的頻域圖像記作xf;然后，對xs和xf分別進行卷積處理，從而得到xs1和xf1;接著，利用逆向離散余弦變換（IDCT）將頻域特征xf1轉(zhuǎn)換為空域特征xs2，再將兩個互補的空域特征xs1和xs2拼接（Concat）;最后，利用1×1卷積進行融合重建輸出圖像xout。與傳統(tǒng)空域卷積相比，雙域卷積能夠綜合利用圖像的空頻特征，改善神經(jīng)網(wǎng)絡(luò)的表征能力。

2.2 多尺度自適應(yīng)激活函數(shù)

與傳統(tǒng)固定閾值的激活函數(shù)（例如，ReLU）和單一尺度可學(xué)習(xí)的激活函數(shù)（例如，xUnit［29］）不同，本文提出一種多尺度自適應(yīng)激活函數(shù)，記作MsAA，其網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。激活函數(shù)MsAA先利用線性修正單元（ReLU）、由傳統(tǒng)卷積（Conv）和空洞卷積（dConv）［30］構(gòu)成的多尺度卷積、拼接（Concat）、卷積（Conv）、批量歸一化（BN）和高斯函數(shù)（Gauss）模塊生成權(quán)重系數(shù)，再將其與前級卷積層輸出的特征映射進行點乘（Mult），實現(xiàn)對不同特征進行自適應(yīng)修正，改善網(wǎng)絡(luò)性能。

2.3 網(wǎng)絡(luò)框架

MeGAN模型由生成器和判別器組成，生成器的網(wǎng)絡(luò)架構(gòu)如圖3所示。假設(shè)X和Y分別表示圖像集合的源域和目標域，對給定輸入圖像x∈X，生成器接受輸入圖像x和目標域標簽c，產(chǎn)生與x對應(yīng)的屬于目標域Y的圖像G（x，c），其中，目標域標簽c是在模型訓(xùn)練過程中隨機生成，用于保證訓(xùn)練的充分性和遍歷性。

生成器由編碼器（Encoder）、轉(zhuǎn)換器（Translator）和解碼器（Decoder）3部分組成。編碼器是由雙域卷積組成，從每個卷積層輸出特征映射被送入實例歸一化（IN）［31］和MsAA進行修正，提高圖像特征表達的有效性和準確性。

轉(zhuǎn)換器（Translator）由6個殘差學(xué)習(xí)塊（ResBlock）［32］組成，其網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示。利用殘差學(xué)習(xí)設(shè)計轉(zhuǎn)換器，通過對不同層次的圖像特征進行組合，提高網(wǎng)絡(luò)的信息傳播能力和跨域轉(zhuǎn)換能力。

解碼器利用亞像素卷積［33］（SubConv）替代轉(zhuǎn)置卷積實現(xiàn)上采樣，使用激活函數(shù)tanh將亞像素卷積特征融合生成目標域估計的高分辨率圖像G（x，c）。

判別器是建立在采用PatchGANs［9，11］方法而不是傳統(tǒng)卷積網(wǎng)絡(luò)基礎(chǔ)上，利用輔助分類器［33］允許單個判別器控制多個域，區(qū)分生成圖像的真假和對應(yīng)域標簽。

2.4 目標函數(shù)

對于給定訓(xùn)練數(shù)據(jù)（x，c）和目標域Y，類似于StarGAN［20］，我們利用對抗損失、域分類損失和重建損失構(gòu)造總體損失函數(shù)。

1）對抗性損失

為了提高生成對抗網(wǎng)絡(luò)訓(xùn)練的穩(wěn)定性和收斂性，采用WGAN［34-35］的梯度懲罰對抗損失：

其中，G（x，c）為輸入圖像x和目標域標簽c經(jīng)過生成器處理輸出的生成圖像，D是判別器識別輸出圖像真假的概率分布。為沿著一對真實圖像和生成圖像之間的均勻采樣。在訓(xùn)練過程中生成器最小化損失函數(shù)，判別器最大化損失函數(shù)。

2）域分類損失

在生成器和判別器中都加入域分類損失［19］，指導(dǎo)生成圖像被正確地分類到目標域。

判別器在訓(xùn)練過程中，對于給定訓(xùn)練數(shù)據(jù)包括原域圖像x和其相應(yīng)的域標簽c0，利用最小化損失函數(shù)，使判別器能夠?qū)⑷我饨o定圖像分類到正確的域，定義判別器的域分類損失為

其中，λcls和λrec分別是域分類損失和重建損失的超參數(shù)。

3 實驗

3.1 實驗數(shù)據(jù)

本文選用公開的人臉表情數(shù)據(jù)集RaFD［18］驗證MeGAN方法的圖像合成性能。該數(shù)據(jù)集包含4 824幅圖像，可分為4 000幅圖像作訓(xùn)練，640幅圖像作驗證和184幅圖像作測試。其中，有67名參與者在3個不同方向上做出8種面部表情，按照8種表情分為8個域。在數(shù)據(jù)預(yù)處理中，為了公平比較，先把所有圖像剪切成以人臉為中心的尺寸為256×256的圖像，然后，將其縮放至尺寸為128×128。

3.2 實驗設(shè)置

本實驗中，設(shè)置λgp=10，λcls=1和λrec=10，選用Adam優(yōu)化器［36］，并設(shè)置參數(shù)β1=0.5，β2=0.999來訓(xùn)練網(wǎng)絡(luò)模型，同時，每執(zhí)行5次更新判別器，執(zhí)行1次更新生成器。對于數(shù)據(jù)集RaFD［18］，在前100個輪次以0.000 1的學(xué)習(xí)速率訓(xùn)練網(wǎng)絡(luò)模型，而后每隔100次迭代學(xué)習(xí)速率減小10-9，直至模型訓(xùn)練收斂。

3.3 方法評估

選用Inception v3圖像分類模型［37］計算客觀定量評價指標FID［38-39］來分析評估本文方法的實驗結(jié)果，其中，較低的FID得分表示較高的圖像質(zhì)量。此外，還將本文方法與MUNIT［15］，CycleGAN［11］和StarGAN［19］進行比較，給出定量和定性評估結(jié)果，這些對比方法的實驗結(jié)果是由公開的源代碼或作者提供。

MUNIT假設(shè)圖像可分解為與域無關(guān)的內(nèi)容空間和依賴域特定屬性的風(fēng)格空間，在圖像合成時，將輸入圖像的內(nèi)容空間和目標域的風(fēng)格空間重新組合。CycleGAN由兩個轉(zhuǎn)換網(wǎng)絡(luò)組成，對每兩個不同的域，需要兩個生成器和判別器，在訓(xùn)練過程中，利用對抗性損失和循環(huán)一致?lián)p失對訓(xùn)練過程進行約束。StarGAN利用一個模型實現(xiàn)單個網(wǎng)絡(luò)同時訓(xùn)練不同域的多個數(shù)據(jù)集，在人臉表情合成等任務(wù)中有明顯優(yōu)勢。

針對公開數(shù)據(jù)集RaFD，為了便于評估，我們將輸入圖像域設(shè)為“Neutral”表情，其余7種表情輪流作為目標域。由于MUNIT和CycleGAN是一對一映射模型，對不同的配對表情圖像分別進行模型訓(xùn)練和測試，從而實現(xiàn)多種表情合成。因為StarGAN和本文方法都是多域轉(zhuǎn)換模型，直接利用數(shù)據(jù)集RaFD對它們分別進行訓(xùn)練和測試。圖5給出不同方法的表情圖像合成結(jié)果的視覺對比。從圖5可知，與MUNIT和CycleGAN相比，本文的MeGAN方法能夠生成畸變更少、細節(jié)更豐富的面部特征，其原因在于多任務(wù)學(xué)習(xí)框架更能充分利用多模圖像特征，并且多尺度自適應(yīng)激活函數(shù)更能有效地修正圖像特征。與StarGAN相比，我們的MeGAN方法利用高效的多層次殘差學(xué)習(xí)和頻域特征補償，能夠生成表情細節(jié)更豐富逼真的合成圖像。

圖6展示了不同方法對任選取的 “Disgusted”表情合成結(jié)果的視覺對比。從圖6可知，MUNIT很難保留輸入圖像的個人身份和面部特征，CycleGAN和StarGAN在嘴巴等部位存在比較嚴重的模糊現(xiàn)象，而MeGAN方法生成細節(jié)清晰表情豐富的合成圖像。

選用FID作為客觀評價指標，分析評估本文方法和基準方法的圖像合成性能。表1給出不同方法對所有測試圖像合成結(jié)果的FID平均值對比，其中，F(xiàn)ID越低表明合成圖像質(zhì)量越好。

4 結(jié) 語

本文提出了一種基于多任務(wù)增強生成對抗網(wǎng)絡(luò)的多域圖像合成方法MeGAN。通過設(shè)計雙域卷積，利用具有補償?shù)念l域特征輔助空域特征映射建模;提出多尺度自適應(yīng)激活函數(shù)對空頻雙域特征進行修正，提高圖像合成網(wǎng)絡(luò)的性能。實驗結(jié)果表明，與現(xiàn)有先進的圖像合成方法相比，本文方法能夠生成細節(jié)更逼真、表情更多樣、質(zhì)量更高的合成圖像。

參考文獻：

［1］WANG T C， LIU M Y， ZHU J Y， et al. High－resolution image synthesis and semantic manipulation with conditional GANs［C］∥Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition， 2018： 8798－8807.

［2］ZHANG Y Q， XIAO J S， PENG J Y， et al. Kernel Wiener filtering model with low－rank approximation for image denoising［J］. Information Sciences， 2018， 462：402－416.

［3］ZHANG Y Q， KANG R W， PENG X L， et al. Image denoising via structure－constrained low－rank approximation［J］. Neural Computing and Applications， 2020（5）： 1－16.

［4］ZHANG Y Q， YAP P W， CHEN G， et al. Super－resolution reconstruction of neonatal brain magnetic resonance images via residual structured sparse representation［J］. Medical Image Analysis， 2019， 55：76－87.

［5］ZHANG Y Q， SHI F， CHENG J， et al. Longitudinally guided super－resolution of neonatal brain magnetic resonance images［J］. IEEE Transactions on Cybernetics， 2019， 49（2）： 662－674.

［6］PATHAK D， KRAHENBUHL P， DONAHUE J， et al. Context encoders： Feature learning by inpainting［C］∥2016 IEEE Conference on Computer Vision and Pattern Recognition （CVPR）.Las Vegas：IEEE， 2016： 2536－2544.

［7］ZHANG R， ISOLA P， EFROS A A. Colorful image colorization［M］∥Computer Vision — ECCV 2016. Cham： Springer International Publishing， 2016： 649－666.

［8］GATYS L A， ECKER A S， BETHGE M. Image style transfer using convolutional neural networks［C］∥2016 IEEE Conference on Computer Vision and Pattern Recognition （CVPR）. Las Vegas： IEEE， 2016： 2414－2423.

［9］ISOLA P， ZHU J Y， ZHOU T H， et al. Image－to－image translation with conditional adversarial networks［C］∥2017 IEEE Conference on Computer Vision and Pattern Recognition （CVPR）. Honolulu：IEEE， 2017： 5967－5976.

［10］YI Z L， ZHANG H， TAN P， et al. DualGAN： Unsupervised dual learning for image－to－image translation［C］∥2017 IEEE International Conference on Computer Vision （ICCV）.Venice： IEEE， 2017： 2868－2876.

［11］ZHU J Y， PARK T， ISOLA P， et al. Unpaired image－to－image translation using cycle－consistent adversarial networks［C］∥2017 IEEE International Conference on Computer Vision （ICCV）. Venice： IEEE， 2017： 2242－2251.

［12］ZHU J Y， ZHANG R， PATHAK D， et al. Toward multimodal image－to－image translation［C］∥Advances in Neural Information Processing Systems， 2017： 465－476.

［13］CHEN Q F， KOLTUN V. Photographic image synthesis with cascaded refinement networks［C］∥2017 IEEE International Conference on Computer Vision （ICCV）.Venice： IEEE， 2017： 1520－1529.

［14］LIU M Y， BREUEL T， KAUTZ J. Unsupervised image－to－image translation networks［C］∥Advances in Neural Information Processing Systems. NIPS， 2017： 701－709.

［15］HUANG X， LIU M Y， BELONGIE S， et al. Multimodal unsupervised image－to－image translation［C］∥Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition（CVPR）. IEEE， 2019： 1458－1466.

［16］包仁達，庾涵，朱德發(fā)，等. 基于區(qū)域敏感生成對抗網(wǎng)絡(luò)的自動上妝算法［J］.軟件學(xué)報， 2019， 30（4）：36－53.

BAO R D， YU H， ZHU D F， et al， Automatic makeup with region sensitive generative adversarial networks［J］.Journal of Software， 2019， 30（4）：36－53.

［17］SHEN W， LIU R J. Learning residual images for face attribute manipulation［C］∥2017 IEEE Conference on Computer Vision and Pattern Recognition （CVPR）. Honolulu：IEEE， 2017： 1225－1233.

［18］LANGNER O， DOTSCH R， BIJLSTRA G， et al. Presentation and validation of the radboud faces database［J］.Cognition and Emotion， 2010， 24（8）： 1377－1388.

［19］CHOI Y， CHOI M， KIM M， et al. StarGAN： Unified generative adversarial networks for multi－domain image－to－image translation［C］∥2018 IEEE／CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City：IEEE， 2018： 8789－8797.

［20］GOODFELLOW I， POUGET－ABADIE J， MIRZA M， et al. Generative adversarial nets［C］∥Advances in Neural Information Processing Systems，2014：2672－2680.

［21］MIRZA M， OSINDERO S. Conditional generative adversarial nets［EB/OL］.2014：arXiv：1411.1784［cs.LG］.https：//arxiv.org/abs/1411.1784.

［22］KIM T， CHA M， KIM H， et al.Learning to discover cross－domain relations with generative adversarial networks［C］∥The 34th International Conference on Machine Learning（ICML）， 2017： 2941－2949.

［23］高巖，許建中，王長波，等. 約束條件下的人臉五官替換算法［J］.中國圖象圖形學(xué)報， 2019， 15（3）：503－506.

GAO Y， XU J Z， WANG C B， et al. Algorithm for human face fusion under constraints［J］.Journal of Image and Graphics， 2019， 15（3）：503－506.

［24］EHRLICH M， SHIELDS T J， ALMAEV T， et al. Facial attributes classification using multi－task representation learning［C］∥2016 IEEE Conference on Computer Vision and Pattern Recognition Workshops （CVPRW）.LasVegas：IEEE， 2016： 752－760.

［25］彭先霖，張海曦，胡琦瑤. 基于多任務(wù)深度卷積神經(jīng)網(wǎng)絡(luò)的人臉/面癱表情識別方法［J］.西北大學(xué)學(xué)報（自然科學(xué)版），2019，49（2）：187－192.

PENG X L， ZHANG H X， HU Q Y.? Facial /paralysis expression recognition based on multitask learning of deep convolution neural network［J］.Journal of Northwest University（Natural Science Edition）， 2019， 49（2）：187－192.

［26］ZHANG Y Q， CHENG J Z， XIANG L， et al. Dual－domain cascaded regression for synthesizing 7T from 3T MRI［M］∥Medical Image Computing and Computer Assisted Intervention — MICCAI 2018. Cham： Springer International Publishing， 2018： 410－417.

［27］ZHANG Y Q， YAP P T， QU L Q， et al. Dual－domain convolutional neural networks for improving structural information in 3 T MRI［J］.Magnetic Resonance Imaging， 2019， 64： 90－100.

［28］QU L Q， ZHANG Y Q， WANG S， et al. Synthesized 7T MRI from 3T MRI via deep learning in spatial and wavelet domains［J］. Medical Image Analysis， 2020， 62： 101663.

［29］KLIGVASSER I， SHAHAM T R， MICHAELI T. xUnit： Learning a spatial activation function for efficient image restoration［C］∥Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018： 2433－2442.

［30］YU F， KOLTUN V， FUNKHOUSER T. Dilated residual networks［C］∥Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. IEEE，2017： 472－480.

［31］ULYANOV D， VEDALDI A， LEMPITSKY V. Instance normalization： The missing ingredient for fast stylization［EB/OL］.2016：arXiv：1607.08022［cs.CV］. https：//arxiv.org/abs/1607.08022.

［32］HE K M， ZHANG X Y， REN S Q， et al. Deep residual learning for image recognition［C］∥2016 IEEE Conference on Computer Vision and Pattern Recognition （CVPR） Las Vegas：IEEE， 2016： 770－778.

［33］SHI W Z， CABALLERO J， HUSZR F， et al. Real－time single image and video super－resolution using an efficient sub－pixel convolutional neural network［C］∥2016 IEEE Conference on Computer Vision and Pattern Recognition （CVPR）. Las Vegas：IEEE， 2016： 1874－1883.

［34］ODENA A， OLAH C， SHLENS J. Conditional image synthesis with auxiliary classifier gans［C］∥Proceedings of the 34th International Conference on Machine Learning， 2017： 2642－2651.

［35］ARJOVSKY M， CHINTALA S， BOTTOU L， Wasserstein generative adversarial networks［C］∥In Proceedings of the 34th International Conference on Machine Learning （ICML）， 2017： 214－223.

［36］GULRAJANI I， AHMED F， ARJOVSKY M， et al. Improved training of wassersteinGANs［C］∥Advances in Neural Information Processing Systems，2017： 5767－5777.

［37］KINGMA D P， BA J. Adam： A method for stochastic optimization［EB／OL］. 2014： arXiv：1412.6980［cs.LG］. https：∥arxiv.org／abs／1412.6980.

［38］SZEGEDY C， VANHOUCKE V， IOFFE S， et al. Rethinking the inception architecture for computer vision［C］∥2016 IEEE Conference on Computer Vision and Pattern Recognition （CVPR）. Las Vegas：IEEE， 2016： 2818－2826.

［39］HAN Z， IAN G， DIMITRIS M， et al. Self－Attention Generative Adversarial Networks［C］∥In Proceedings of the 36th International Conference on Machine Learning，2019： 7354－7363.

（編輯李靜）

作者簡介：

彭進業(yè)，男，湖南漣源人，二級教授，博士生導(dǎo)師。主要從事圖像處理與模式識別、多媒體信息檢索、量子信息處理等方面的研究與教學(xué)工作?，F(xiàn)任西北大學(xué)信息科學(xué)與技術(shù)學(xué)院院長、軟件學(xué)院院長，兼任陜西省圖像圖形學(xué)學(xué)會副理事長、陜西省生物醫(yī)學(xué)工程學(xué)會副理事長、中國圖像圖形學(xué)學(xué)會理事、陜西省計算機學(xué)會媒體計算專委會主任、陜西省電子學(xué)會常務(wù)理事、陜西省大數(shù)據(jù)與云計算產(chǎn)業(yè)技術(shù)創(chuàng)新戰(zhàn)略聯(lián)盟常務(wù)理事。2002年獲得西北工業(yè)大學(xué)博士學(xué)位，2003年破格晉升教授，2007年入選教育部新世紀優(yōu)秀人才支持計劃。擔(dān)任文化遺產(chǎn)數(shù)字化保護與傳播教育部創(chuàng)新團隊負責(zé)人及信號處理系列課程陜西省教學(xué)團隊負責(zé)人。多次擔(dān)任國際學(xué)術(shù)會議大會主席、程序委員會主席和程序委員會委員。先后主持國家重點研發(fā)課題、國家自然科學(xué)基金面上項目等20多項國家級和省部級科研項目。在IEEE TIP，TMM，TCSVT，TKDE，《中國科學(xué)》《電子學(xué)報》《物理學(xué)報》等國內(nèi)外重要學(xué)術(shù)期刊及CVPR，IJCAI，WWW等重要國際學(xué)術(shù)會議上發(fā)表學(xué)術(shù)論文多篇，獲國家教學(xué)成果二等獎、陜西省科學(xué)技術(shù)二等獎等教學(xué)科技獎勵。

收稿日期：2020－04－02

基金項目：國家重點研發(fā)計劃資助項目（2017YFB1402103）；陜西省科技計劃重點項目（2018ZDXM－GY－186）；西安市智能感知與文化傳承重點實驗室（2019219614SYS011CG033）；陜西高校青年杰出人才支持計劃（360050001）

作者簡介：彭進業(yè)，男，湖南漣源人，二級教授，博士生導(dǎo)師，從事圖像處理與模式識別、多媒體信息檢索、量子信息處理等研究。

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

MeGAN:基于多任務(wù)增強生成對抗網(wǎng)絡(luò)的圖像合成