彭進業(yè) 曹煜 章勇勤 彭先霖 李展 王珺 張群喜 楊蕊
【主持人語】隨著科學(xué)技術(shù)的快速發(fā)展,人工智能技術(shù)已被廣泛應(yīng)用于人類生活的各個方面。為了讓人工智能更好地服務(wù)于人類,首要需求是“理解人類”:理解人的情感和行為,進而模仿人類與人交流。因此,我們認為以理解人類為中心的人工智能技術(shù)將是一個重要的研究方向。與理解人類的語音信號分析和自然語言處理問題不同,計算機視覺任務(wù)更加寬泛。在當前的計算機視覺領(lǐng)域,面向理解人類的研究主要集中在人臉分析和行為分析。針對這一新興的研究熱點,本欄目將探討基于計算機視覺的人臉表情識別、表情合成和行為分析等相關(guān)問題,提出解決辦法,為以理解人類為中心的人工智能技術(shù)應(yīng)用拋磚引玉。
【主持人】彭進業(yè),教授,博士生導(dǎo)師,西北大學(xué)信息科學(xué)與技術(shù)學(xué)院院長,教育部創(chuàng)新團隊負責(zé)人。
摘要:在計算機視覺領(lǐng)域,現(xiàn)有圖像合成方法通常采用一對一的映射網(wǎng)絡(luò)生成人臉表情,存在很大的建模局限性,難以表達豐富多樣、復(fù)雜多變的人臉表情。為此,該文提出一種基于多任務(wù)增強生成對抗網(wǎng)絡(luò)的圖像合成方法。該方法構(gòu)建多任務(wù)學(xué)習(xí)框架,改善人臉表情生成的多樣性;通過設(shè)計雙域卷積模塊,利用具有補償?shù)念l域信息改善空域特征映射;引入多尺度自適應(yīng)激活函數(shù),對不同特征進行自適應(yīng)修正,進一步提升網(wǎng)絡(luò)性能和特征映射效果。實驗結(jié)果表明,該文方法能夠同時生成多種逼真的人臉表情圖像,與現(xiàn)有先進的圖像合成方法相比,具有更好的定性和定量評估結(jié)果。
關(guān)鍵詞:深度學(xué)習(xí);生成對抗網(wǎng)絡(luò);圖像合成;人臉表情;多任務(wù)學(xué)習(xí)
中圖分類號:TP391.41
DOI:10.16152/j.cnki.xdxbzr.2020-03-001
MeGAN: Multi-task enhanced generative adversarialnetwork for image synthesis
PENG JinyeCAO YuZHANG YongqinPENG Xianlin LI Zhan WANG JunZHANG Qunxi3, YANG Rui4
Abstract: In computer vision fields, existing image synthesis methods usually feature a one-to-one mapping network to generate facial expressions. But they have the inherent limitations, which hinder the accurate representation of diverse facial expressions. For this reason, a novel multi-task enhanced generative adversarial network (MeGAN) for facial image synthesis is proposed. This network adopts a multi-task learning framework to improve the diversity of facial expression generation. The dual-domain convolution module is designed to use frequency-domain features as complementary information for improving the learning of spatial feature mapping. A multi-scale adaptive? activation function is introduced to modify the feature maps adaptively for further improvement of network performance. Experimental results show that the proposed method can generate a variety of realistic facial expression images simultaneously and usually achieve better qualitative and quantitative results than the state-of-the-art methods.
Key words:deep learning; generative adversarial network; image synthesis; facial expression;multi-task learning
目前以深度學(xué)習(xí)為代表的人工智能技術(shù)已廣泛應(yīng)用于圖像合成領(lǐng)域[1-8]?,F(xiàn)有圖像合成方法絕大多數(shù)假設(shè)輸入和輸出是一對一的映射關(guān)系[9-15],只能在兩個域之間進行跨域轉(zhuǎn)換,其模型存在很大局限性,難以滿足多樣化人臉表情生成等方面的應(yīng)用需求[16-17]。人臉表情復(fù)雜多樣,人們感興趣的可能不止一種,例如人臉數(shù)據(jù)集RaFD[18]將表情分為8種,若使用基于一對一映射的圖像合成方法進行跨域生成,需要訓(xùn)練56個網(wǎng)絡(luò)模型,存在效率低下且效果不佳的問題。
為了生成多樣化的合成圖像,本文提出一種多任務(wù)增強生成對抗網(wǎng)絡(luò)(multi-task enhanced generative adversarial network,MeGAN)。該網(wǎng)絡(luò)通過共享圖像信息,可減少模型參數(shù),改善合成圖像的逼真度。本文的主要貢獻為:①提出多任務(wù)增強生成對抗網(wǎng)絡(luò)模型,實現(xiàn)多樣化圖像合成;②設(shè)計雙域卷積模塊,利用具有補償性的頻域特征改善空域特征映射;③引入多尺度自適應(yīng)激活函數(shù),對不同特征進行自適應(yīng)修正,改善網(wǎng)絡(luò)建模的效率和性能;④ 利用實驗驗證本文方法的性能,通過與基準方法[11,15,19]比較,分析評估本文方法的有效性。
1 相關(guān)工作
1.1 生成對抗網(wǎng)絡(luò)
Goodfellow等人[20]最先提出生成對抗網(wǎng)絡(luò)(generative adversarial network, GAN)并將其用于數(shù)據(jù)生成。作為一種無監(jiān)督學(xué)習(xí)模型,GAN通過生成器和判別器兩個模塊的互相博弈學(xué)習(xí)產(chǎn)生好的輸出結(jié)果。在GAN模型訓(xùn)練中,生成器產(chǎn)生盡可能逼真的樣本去欺騙判別器,判別器盡可能準確地辨別生成的樣本和真實的樣本。近年,出現(xiàn)了GAN的多種改進方法,例如多樣化圖像生成[10]和多域圖像合成[19]。
1.2 圖像合成
自從GAN出現(xiàn)以后,許多關(guān)于GAN的改進方法被文獻報道,廣泛應(yīng)用于圖像合成的各個方面,并且取得突破性進展。由于傳統(tǒng)GAN難以準確表達圖像合成的映射關(guān)系,Isola等人[9]利用對抗損失和L1損失構(gòu)建總體目標函數(shù),提出基于cGAN模型[21]的圖像合成網(wǎng)絡(luò)pix2pix[9]。隨后,Zhu等人和Kim等人分別提出CycleGAN[11]和DiscoGAN[22],通過建立周期一致性損失函數(shù),先將源圖像前向合成到目標域,再反向合成到源圖像域,解決了數(shù)據(jù)集中圖像配對的問題。Huang等人[15]假設(shè)圖像分為內(nèi)容空間和風(fēng)格空間,利用空間重組實現(xiàn)合成圖像的多樣性。然而,這些方法只考慮兩個域建模,且不具備擴展性。為了解決這個問題,Choi等人提出針對人臉屬性和表情轉(zhuǎn)換的多域圖像合成網(wǎng)絡(luò)StarGAN[19],僅使用單一生成器即可完成多個數(shù)據(jù)域之間的圖像合成。StarGAN將域標簽作為生成器的附加輸入,利用訓(xùn)練學(xué)習(xí)將輸入圖像轉(zhuǎn)換到相應(yīng)的數(shù)據(jù)域。
1.3 人臉表情
圖像合成廣泛用于人臉分析[17,19,23-25],例如表情合成[21]。Choi等人提出一種多域人臉表情圖像合成方法[19];Shen等人提出一種基于殘差網(wǎng)絡(luò)的人臉屬性操作方法[17];Zhang等人利用cGAN模型[21]將表情分類器內(nèi)嵌于數(shù)據(jù)增強模塊,通過綜合利用不同姿態(tài)和表情,實現(xiàn)人臉圖像合成和位置不變的人臉表情識別[25]。然而,現(xiàn)有方法絕大多數(shù)是一對一映射模型,不能對多個表情同時操作。
2 方 法
本文提出一種基于多任務(wù)增強生成對抗網(wǎng)絡(luò)的圖像合成方法(MeGAN),本節(jié)詳細講述雙域卷積、多尺度自適應(yīng)激活函數(shù)、網(wǎng)絡(luò)架構(gòu)和目標函數(shù)。
2.1 雙域卷積
傳統(tǒng)深度學(xué)習(xí)方法通常只對空域特征進行建模,忽略了頻域特征對空域特征的補償性[26-28]。為此,本文提出雙域卷積(DDConv)模塊,其網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。對給定的輸入圖像xin∈s,先定義空域s和頻域f,為簡便起見,將輸入圖像xin記作空域圖像xs,而將通過前向離散余弦變換(FDCT)對輸入圖像xin變換的頻域圖像記作xf;然后,對xs和xf分別進行卷積處理,從而得到xs1和xf1;接著,利用逆向離散余弦變換(IDCT)將頻域特征xf1轉(zhuǎn)換為空域特征xs2,再將兩個互補的空域特征xs1和xs2拼接(Concat);最后,利用1×1卷積進行融合重建輸出圖像xout。與傳統(tǒng)空域卷積相比,雙域卷積能夠綜合利用圖像的空頻特征,改善神經(jīng)網(wǎng)絡(luò)的表征能力。
2.2 多尺度自適應(yīng)激活函數(shù)
與傳統(tǒng)固定閾值的激活函數(shù)(例如,ReLU)和單一尺度可學(xué)習(xí)的激活函數(shù)(例如,xUnit[29])不同,本文提出一種多尺度自適應(yīng)激活函數(shù),記作MsAA,其網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。激活函數(shù)MsAA先利用線性修正單元(ReLU)、由傳統(tǒng)卷積(Conv)和空洞卷積(dConv)[30]構(gòu)成的多尺度卷積、拼接(Concat)、卷積(Conv)、批量歸一化(BN)和高斯函數(shù)(Gauss)模塊生成權(quán)重系數(shù),再將其與前級卷積層輸出的特征映射進行點乘(Mult),實現(xiàn)對不同特征進行自適應(yīng)修正,改善網(wǎng)絡(luò)性能。
2.3 網(wǎng)絡(luò)框架
MeGAN模型由生成器和判別器組成,生成器的網(wǎng)絡(luò)架構(gòu)如圖3所示。假設(shè)X和Y分別表示圖像集合的源域和目標域,對給定輸入圖像x∈X,生成器接受輸入圖像x和目標域標簽c,產(chǎn)生與x對應(yīng)的屬于目標域Y的圖像G(x,c),其中,目標域標簽c是在模型訓(xùn)練過程中隨機生成,用于保證訓(xùn)練的充分性和遍歷性。
生成器由編碼器(Encoder)、轉(zhuǎn)換器(Translator)和解碼器(Decoder)3部分組成。編碼器是由雙域卷積組成,從每個卷積層輸出特征映射被送入實例歸一化(IN)[31]和MsAA進行修正,提高圖像特征表達的有效性和準確性。
轉(zhuǎn)換器(Translator)由6個殘差學(xué)習(xí)塊(ResBlock)[32]組成,其網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示。利用殘差學(xué)習(xí)設(shè)計轉(zhuǎn)換器,通過對不同層次的圖像特征進行組合,提高網(wǎng)絡(luò)的信息傳播能力和跨域轉(zhuǎn)換能力。
解碼器利用亞像素卷積[33](SubConv)替代轉(zhuǎn)置卷積實現(xiàn)上采樣, 使用激活函數(shù)tanh將亞像素卷積特征融合生成目標域估計的高分辨率圖像G(x,c)。
判別器是建立在采用PatchGANs[9,11]方法而不是傳統(tǒng)卷積網(wǎng)絡(luò)基礎(chǔ)上,利用輔助分類器[33]允許單個判別器控制多個域,區(qū)分生成圖像的真假和對應(yīng)域標簽。
2.4 目標函數(shù)
對于給定訓(xùn)練數(shù)據(jù)(x,c)和目標域Y,類似于StarGAN[20],我們利用對抗損失、域分類損失和重建損失構(gòu)造總體損失函數(shù)。
1) 對抗性損失
為了提高生成對抗網(wǎng)絡(luò)訓(xùn)練的穩(wěn)定性和收斂性,采用WGAN[34-35]的梯度懲罰對抗損失:
其中,G(x,c)為輸入圖像x和目標域標簽c經(jīng)過生成器處理輸出的生成圖像,D是判別器識別輸出圖像真假的概率分布。為沿著一對真實圖像和生成圖像之間的均勻采樣。在訓(xùn)練過程中生成器最小化損失函數(shù),判別器最大化損失函數(shù)。
2) 域分類損失
在生成器和判別器中都加入域分類損失[19],指導(dǎo)生成圖像被正確地分類到目標域。
判別器在訓(xùn)練過程中,對于給定訓(xùn)練數(shù)據(jù)包括原域圖像x和其相應(yīng)的域標簽c0,利用最小化損失函數(shù),使判別器能夠?qū)⑷我饨o定圖像分類到正確的域,定義判別器的域分類損失為
其中,λcls和λrec分別是域分類損失和重建損失的超參數(shù)。
3 實 驗
3.1 實驗數(shù)據(jù)
本文選用公開的人臉表情數(shù)據(jù)集RaFD[18]驗證MeGAN方法的圖像合成性能。該數(shù)據(jù)集包含4 824幅圖像,可分為4 000幅圖像作訓(xùn)練,640幅圖像作驗證和184幅圖像作測試。其中,有67名參與者在3個不同方向上做出8種面部表情,按照8種表情分為8個域。在數(shù)據(jù)預(yù)處理中,為了公平比較,先把所有圖像剪切成以人臉為中心的尺寸為256×256的圖像,然后,將其縮放至尺寸為128×128。
3.2 實驗設(shè)置
本實驗中,設(shè)置λgp=10,λcls=1和λrec=10,選用Adam優(yōu)化器[36],并設(shè)置參數(shù)β1=0.5,β2=0.999來訓(xùn)練網(wǎng)絡(luò)模型,同時,每執(zhí)行5次更新判別器,執(zhí)行1次更新生成器。對于數(shù)據(jù)集RaFD[18],在前100個輪次以0.000 1的學(xué)習(xí)速率訓(xùn)練網(wǎng)絡(luò)模型,而后每隔100次迭代學(xué)習(xí)速率減小10-9,直至模型訓(xùn)練收斂。
3.3 方法評估
選用Inception v3圖像分類模型[37]計算客觀定量評價指標FID[38-39]來分析評估本文方法的實驗結(jié)果,其中,較低的FID得分表示較高的圖像質(zhì)量。此外,還將本文方法與MUNIT[15],CycleGAN[11]和StarGAN[19]進行比較,給出定量和定性評估結(jié)果,這些對比方法的實驗結(jié)果是由公開的源代碼或作者提供。
MUNIT假設(shè)圖像可分解為與域無關(guān)的內(nèi)容空間和依賴域特定屬性的風(fēng)格空間,在圖像合成時,將輸入圖像的內(nèi)容空間和目標域的風(fēng)格空間重新組合。CycleGAN由兩個轉(zhuǎn)換網(wǎng)絡(luò)組成,對每兩個不同的域,需要兩個生成器和判別器,在訓(xùn)練過程中,利用對抗性損失和循環(huán)一致?lián)p失對訓(xùn)練過程進行約束。StarGAN利用一個模型實現(xiàn)單個網(wǎng)絡(luò)同時訓(xùn)練不同域的多個數(shù)據(jù)集,在人臉表情合成等任務(wù)中有明顯優(yōu)勢。
針對公開數(shù)據(jù)集RaFD,為了便于評估,我們將輸入圖像域設(shè)為“Neutral”表情,其余7種表情輪流作為目標域。由于MUNIT和CycleGAN是一對一映射模型,對不同的配對表情圖像分別進行模型訓(xùn)練和測試,從而實現(xiàn)多種表情合成。因為StarGAN和本文方法都是多域轉(zhuǎn)換模型,直接利用數(shù)據(jù)集RaFD對它們分別進行訓(xùn)練和測試。圖5給出不同方法的表情圖像合成結(jié)果的視覺對比。從圖5可知,與MUNIT和CycleGAN相比,本文的MeGAN方法能夠生成畸變更少、細節(jié)更豐富的面部特征,其原因在于多任務(wù)學(xué)習(xí)框架更能充分利用多模圖像特征,并且多尺度自適應(yīng)激活函數(shù)更能有效地修正圖像特征。與StarGAN相比,我們的MeGAN方法利用高效的多層次殘差學(xué)習(xí)和頻域特征補償,能夠生成表情細節(jié)更豐富逼真的合成圖像。
圖6展示了不同方法對任選取的 “Disgusted”表情合成結(jié)果的視覺對比。從圖6可知,MUNIT很難保留輸入圖像的個人身份和面部特征,CycleGAN和StarGAN在嘴巴等部位存在比較嚴重的模糊現(xiàn)象,而MeGAN方法生成細節(jié)清晰表情豐富的合成圖像。
選用FID作為客觀評價指標,分析評估本文方法和基準方法的圖像合成性能。表1給出不同方法對所有測試圖像合成結(jié)果的FID平均值對比,其中,F(xiàn)ID越低表明合成圖像質(zhì)量越好。
4 結(jié) 語
本文提出了一種基于多任務(wù)增強生成對抗網(wǎng)絡(luò)的多域圖像合成方法MeGAN。通過設(shè)計雙域卷積,利用具有補償?shù)念l域特征輔助空域特征映射建模;提出多尺度自適應(yīng)激活函數(shù)對空頻雙域特征進行修正,提高圖像合成網(wǎng)絡(luò)的性能。實驗結(jié)果表明,與現(xiàn)有先進的圖像合成方法相比,本文方法能夠生成細節(jié)更逼真、表情更多樣、質(zhì)量更高的合成圖像。
參考文獻:
[1]WANG T C, LIU M Y, ZHU J Y, et al. High-resolution image synthesis and semantic manipulation with conditional GANs[C]∥Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2018: 8798-8807.
[2]ZHANG Y Q, XIAO J S, PENG J Y, et al. Kernel Wiener filtering model with low-rank approximation for image denoising[J]. Information Sciences, 2018, 462:402-416.
[3]ZHANG Y Q, KANG R W, PENG X L, et al. Image denoising via structure-constrained low-rank approximation[J]. Neural Computing and Applications, 2020(5): 1-16.
[4]ZHANG Y Q, YAP P W, CHEN G, et al. Super-resolution reconstruction of neonatal brain magnetic resonance images via residual structured sparse representation[J]. Medical Image Analysis, 2019, 55:76-87.
[5]ZHANG Y Q, SHI F, CHENG J, et al. Longitudinally guided super-resolution of neonatal brain magnetic resonance images[J]. IEEE Transactions on Cybernetics, 2019, 49(2): 662-674.
[6]PATHAK D, KRAHENBUHL P, DONAHUE J, et al. Context encoders: Feature learning by inpainting[C]∥2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).Las Vegas:IEEE, 2016: 2536-2544.
[7]ZHANG R, ISOLA P, EFROS A A. Colorful image colorization[M]∥Computer Vision — ECCV 2016. Cham: Springer International Publishing, 2016: 649-666.
[8]GATYS L A, ECKER A S, BETHGE M. Image style transfer using convolutional neural networks[C]∥2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas: IEEE, 2016: 2414-2423.
[9]ISOLA P, ZHU J Y, ZHOU T H, et al. Image-to-image translation with conditional adversarial networks[C]∥2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Honolulu:IEEE, 2017: 5967-5976.
[10]YI Z L, ZHANG H, TAN P, et al. DualGAN: Unsupervised dual learning for image-to-image translation[C]∥2017 IEEE International Conference on Computer Vision (ICCV).Venice: IEEE, 2017: 2868-2876.
[11]ZHU J Y, PARK T, ISOLA P, et al. Unpaired image-to-image translation using cycle-consistent adversarial networks[C]∥2017 IEEE International Conference on Computer Vision (ICCV). Venice: IEEE, 2017: 2242-2251.
[12]ZHU J Y, ZHANG R, PATHAK D, et al. Toward multimodal image-to-image translation[C]∥Advances in Neural Information Processing Systems, 2017: 465-476.
[13]CHEN Q F, KOLTUN V. Photographic image synthesis with cascaded refinement networks[C]∥2017 IEEE International Conference on Computer Vision (ICCV).Venice: IEEE, 2017: 1520-1529.
[14]LIU M Y, BREUEL T, KAUTZ J. Unsupervised image-to-image translation networks[C]∥Advances in Neural Information Processing Systems. NIPS, 2017: 701-709.
[15]HUANG X, LIU M Y, BELONGIE S, et al. Multimodal unsupervised image-to-image translation[C]∥Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition(CVPR). IEEE, 2019: 1458-1466.
[16]包仁達, 庾涵, 朱德發(fā), 等. 基于區(qū)域敏感生成對抗網(wǎng)絡(luò)的自動上妝算法[J].軟件學(xué)報, 2019, 30(4):36-53.
BAO R D, YU H, ZHU D F, et al, Automatic makeup with region sensitive generative adversarial networks[J].Journal of Software, 2019, 30(4):36-53.
[17]SHEN W, LIU R J. Learning residual images for face attribute manipulation[C]∥2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Honolulu:IEEE, 2017: 1225-1233.
[18]LANGNER O, DOTSCH R, BIJLSTRA G, et al. Presentation and validation of the radboud faces database[J].Cognition and Emotion, 2010, 24(8): 1377-1388.
[19]CHOI Y, CHOI M, KIM M, et al. StarGAN: Unified generative adversarial networks for multi-domain image-to-image translation[C]∥2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City:IEEE, 2018: 8789-8797.
[20]GOODFELLOW I, POUGET-ABADIE J, MIRZA M, et al. Generative adversarial nets[C]∥Advances in Neural Information Processing Systems,2014:2672-2680.
[21]MIRZA M, OSINDERO S. Conditional generative adversarial nets[EB/OL].2014:arXiv:1411.1784[cs.LG].https://arxiv.org/abs/1411.1784.
[22]KIM T, CHA M, KIM H, et al.Learning to discover cross-domain relations with generative adversarial networks[C]∥The 34th International Conference on Machine Learning(ICML), 2017: 2941-2949.
[23]高巖, 許建中, 王長波,等. 約束條件下的人臉五官替換算法[J].中國圖象圖形學(xué)報, 2019, 15(3):503-506.
GAO Y, XU J Z, WANG C B, et al. Algorithm for human face fusion under constraints[J].Journal of Image and Graphics, 2019, 15(3):503-506.
[24]EHRLICH M, SHIELDS T J, ALMAEV T, et al. Facial attributes classification using multi-task representation learning[C]∥2016 IEEE Conference on Computer Vision and Pattern Recognition Workshops (CVPRW).LasVegas:IEEE, 2016: 752-760.
[25]彭先霖, 張海曦, 胡琦瑤. 基于多任務(wù)深度卷積神經(jīng)網(wǎng)絡(luò)的人臉/面癱表情識別方法[J].西北大學(xué)學(xué)報(自然科學(xué)版),2019,49(2):187-192.
PENG X L, ZHANG H X, HU Q Y.? Facial /paralysis expression recognition based on multitask learning of deep convolution neural network[J].Journal of Northwest University(Natural Science Edition), 2019, 49(2):187-192.
[26]ZHANG Y Q, CHENG J Z, XIANG L, et al. Dual-domain cascaded regression for synthesizing 7T from 3T MRI[M]∥Medical Image Computing and Computer Assisted Intervention — MICCAI 2018. Cham: Springer International Publishing, 2018: 410-417.
[27]ZHANG Y Q, YAP P T, QU L Q, et al. Dual-domain convolutional neural networks for improving structural information in 3 T MRI[J].Magnetic Resonance Imaging, 2019, 64: 90-100.
[28]QU L Q, ZHANG Y Q, WANG S, et al. Synthesized 7T MRI from 3T MRI via deep learning in spatial and wavelet domains[J]. Medical Image Analysis, 2020, 62: 101663.
[29]KLIGVASSER I, SHAHAM T R, MICHAELI T. xUnit: Learning a spatial activation function for efficient image restoration[C]∥Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018: 2433-2442.
[30]YU F, KOLTUN V, FUNKHOUSER T. Dilated residual networks[C]∥Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. IEEE,2017: 472-480.
[31]ULYANOV D, VEDALDI A, LEMPITSKY V. Instance normalization: The missing ingredient for fast stylization[EB/OL].2016:arXiv:1607.08022[cs.CV]. https://arxiv.org/abs/1607.08022.
[32]HE K M, ZHANG X Y, REN S Q, et al. Deep residual learning for image recognition[C]∥2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR) Las Vegas:IEEE, 2016: 770-778.
[33]SHI W Z, CABALLERO J, HUSZR F, et al. Real-time single image and video super-resolution using an efficient sub-pixel convolutional neural network[C]∥2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas:IEEE, 2016: 1874-1883.
[34]ODENA A, OLAH C, SHLENS J. Conditional image synthesis with auxiliary classifier gans[C]∥Proceedings of the 34th International Conference on Machine Learning, 2017: 2642-2651.
[35]ARJOVSKY M, CHINTALA S, BOTTOU L, Wasserstein generative adversarial networks[C]∥In Proceedings of the 34th International Conference on Machine Learning (ICML), 2017: 214-223.
[36]GULRAJANI I, AHMED F, ARJOVSKY M, et al. Improved training of wassersteinGANs[C]∥Advances in Neural Information Processing Systems,2017: 5767-5777.
[37]KINGMA D P, BA J. Adam: A method for stochastic optimization[EB/OL]. 2014: arXiv:1412.6980[cs.LG]. https:∥arxiv.org/abs/1412.6980.
[38]SZEGEDY C, VANHOUCKE V, IOFFE S, et al. Rethinking the inception architecture for computer vision[C]∥2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas:IEEE, 2016: 2818-2826.
[39]HAN Z, IAN G, DIMITRIS M, et al. Self-Attention Generative Adversarial Networks[C]∥In Proceedings of the 36th International Conference on Machine Learning,2019: 7354-7363.
(編 輯 李 靜)
作者簡介:
彭進業(yè),男,湖南漣源人,二級教授,博士生導(dǎo)師。主要從事圖像處理與模式識別、多媒體信息檢索、量子信息處理等方面的研究與教學(xué)工作?,F(xiàn)任西北大學(xué)信息科學(xué)與技術(shù)學(xué)院院長、軟件學(xué)院院長,兼任陜西省圖像圖形學(xué)學(xué)會副理事長、陜西省生物醫(yī)學(xué)工程學(xué)會副理事長、中國圖像圖形學(xué)學(xué)會理事、陜西省計算機學(xué)會媒體計算專委會主任、陜西省電子學(xué)會常務(wù)理事、陜西省大數(shù)據(jù)與云計算產(chǎn)業(yè)技術(shù)創(chuàng)新戰(zhàn)略聯(lián)盟常務(wù)理事。2002年獲得西北工業(yè)大學(xué)博士學(xué)位,2003年破格晉升教授,2007年入選教育部新世紀優(yōu)秀人才支持計劃。擔(dān)任文化遺產(chǎn)數(shù)字化保護與傳播教育部創(chuàng)新團隊負責(zé)人及信號處理系列課程陜西省教學(xué)團隊負責(zé)人。多次擔(dān)任國際學(xué)術(shù)會議大會主席、程序委員會主席和程序委員會委員。先后主持國家重點研發(fā)課題、國家自然科學(xué)基金面上項目等20多項國家級和省部級科研項目。在IEEE TIP,TMM,TCSVT,TKDE,《中國科學(xué)》《電子學(xué)報》《物理學(xué)報》等國內(nèi)外重要學(xué)術(shù)期刊及CVPR,IJCAI,WWW等重要國際學(xué)術(shù)會議上發(fā)表學(xué)術(shù)論文多篇,獲國家教學(xué)成果二等獎、陜西省科學(xué)技術(shù)二等獎等教學(xué)科技獎勵。
收稿日期:2020-04-02
基金項目:國家重點研發(fā)計劃資助項目(2017YFB1402103);陜西省科技計劃重點項目(2018ZDXM-GY-186);西安市智能感知與文化傳承重點實驗室(2019219614SYS011CG033);陜西高校青年杰出人才支持計劃(360050001)
作者簡介:彭進業(yè),男,湖南漣源人,二級教授,博士生導(dǎo)師,從事圖像處理與模式識別、多媒體信息檢索、量子信息處理等研究。