• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于生成對抗網(wǎng)絡(luò)的異質(zhì)人臉圖像合成:進(jìn)展與挑戰(zhàn)

      2019-05-30 22:57:16黃菲高飛朱靜潔戴玲娜俞俊
      關(guān)鍵詞:生成對抗網(wǎng)絡(luò)數(shù)字藝術(shù)深度學(xué)習(xí)

      黃菲 高飛 朱靜潔 戴玲娜 俞俊

      摘要 異質(zhì)人臉圖像合成旨在生成逼真、可識別的多種視覺形態(tài)的人臉肖像,包括畫像、漫畫等多種模態(tài).異質(zhì)人臉圖像合成在公共安全和數(shù)字娛樂領(lǐng)域具有廣泛的應(yīng)用前景和重要的研究價值,已成為當(dāng)前研究熱點之一.近年來,隨著生成對抗網(wǎng)絡(luò)的發(fā)展以及其在多種圖像風(fēng)格轉(zhuǎn)換任務(wù)中的成功,研究人員利用生成對抗網(wǎng)絡(luò)構(gòu)建了多種異質(zhì)人臉圖像合成的新方法.本文簡要回顧了異質(zhì)人臉圖像合成的發(fā)展歷史,并從異質(zhì)人臉圖像合成的應(yīng)用進(jìn)展、模型結(jié)構(gòu)、性能評估、數(shù)據(jù)集和定性分析等方面綜述了該領(lǐng)域最新的關(guān)鍵技術(shù)的發(fā)展情況,展望了異質(zhì)人臉圖像合成面臨的挑戰(zhàn)以及其關(guān)鍵技術(shù)的發(fā)展趨勢.

      關(guān)鍵詞 生成對抗網(wǎng)絡(luò);異質(zhì)人臉圖像合成;圖像風(fēng)格轉(zhuǎn)換;深度學(xué)習(xí);數(shù)字藝術(shù)

      中圖分類號TP183;TP391.41

      文獻(xiàn)標(biāo)志碼A

      0 引言

      人臉圖像在人類生活中具有廣泛的應(yīng)用和重要的研究意義.隨著科學(xué)技術(shù)的發(fā)展,實際生活中出現(xiàn)了各種各樣的圖像采集傳感器,因而存在著不同的人臉圖像形態(tài),如應(yīng)用在身份認(rèn)證方面的人臉照片、用于刑偵追捕等領(lǐng)域的人臉畫像,應(yīng)用在數(shù)字娛樂中的人臉漫畫等.這些圖像類型可以成為不同的人臉圖像域(如圖1所示).異質(zhì)人臉圖像合成旨在設(shè)計數(shù)學(xué)模型使計算機(jī)能夠基于某一給定域圖像,自動生成自然、逼真的其他域人臉圖像,包括畫像合成、漫畫合成、年齡合成、超分辨率重建、人臉美顏等,已成為當(dāng)今的研究熱點之一[1].

      異質(zhì)人臉圖像合成在公共安全和數(shù)字娛樂領(lǐng)域具有廣泛的應(yīng)用價值.例如在刑偵追捕中,公安部門備有每位公民照片組成的照片數(shù)據(jù)庫,以用來確定犯罪嫌疑人身份,但實際中一般是用畫家和目擊者合作得到的犯罪嫌疑人的素描模擬畫像來進(jìn)行后續(xù)的人臉檢索和識別.由于模擬畫像和常見的人臉照片在紋理表達(dá)上的差異,直接利用傳統(tǒng)的人臉識別方法很難取得滿意的識別效果.將模擬畫像合成為照片或?qū)⒄掌铣蔀楫嬒窨梢杂行p小他們紋理上的差距,進(jìn)而大幅提高準(zhǔn)確率和破案效率.在兒童走失案中,公安部門能夠獲取的都是丟失前的人臉照片.然而隨著時間的推移,兒童的面貌會隨著年齡的增長發(fā)生較大的變化,給人臉識別帶來了極大的困難.年齡合成方法可以基于年幼時的照片推演出成長后的外貌,從而提升人臉識別的精度.在數(shù)字娛樂領(lǐng)域,由于畫像、油畫、漫畫等相對于照片具有更高的的趣味性和藝術(shù)性,人們越來越傾向于利用這些類型的圖像作為自己在社交網(wǎng)絡(luò)上的形象.

      至今為止,已有大量的相關(guān)工作對相關(guān)異質(zhì)人臉圖像合成課題進(jìn)行了研究[1].其中,Wang等[2]從數(shù)學(xué)模型的角度對人臉圖像超分辨率重建和人臉畫像合成進(jìn)行了深入分析,并將人臉畫像合成中的數(shù)學(xué)方法劃分為貝葉斯推斷、子空間學(xué)習(xí)及稀疏表示幾個模塊.Nguyen等[3]對二維和三維人臉圖像的超分辨率重建方法進(jìn)行了總結(jié),劃分為了淺層手工特征與深度學(xué)習(xí)方法兩類.之后,文獻(xiàn)[4-5]將人臉畫像合成方法作為異質(zhì)人臉圖像識別的一個子類進(jìn)行綜述,將相關(guān)方法劃分為了數(shù)據(jù)驅(qū)動和模型驅(qū)動兩種類型.整體而言,這一劃分可以推廣到其他異質(zhì)人臉圖像合成任務(wù)中.

      在數(shù)據(jù)驅(qū)動方法中,主要包含近鄰搜索和目標(biāo)重構(gòu)兩個模塊.具體而言,對于給定源圖像區(qū)域,在大規(guī)模源圖像塊中尋找與其相近的源圖像塊及相互之間的近鄰關(guān)系,之后將這一近鄰關(guān)系應(yīng)用到近鄰源圖像塊對應(yīng)的目標(biāo)圖像塊上,用于重構(gòu)給定區(qū)域的目標(biāo)區(qū)域.基于數(shù)據(jù)驅(qū)動的方法由于利用真實目標(biāo)圖像塊進(jìn)行重構(gòu),通常可以得到較好的合成效果.但由于近鄰搜索規(guī)模較大、速度較慢,難以滿足實時性需求.

      在模型驅(qū)動方法,則利用數(shù)學(xué)模型構(gòu)建源圖像(塊)到目標(biāo)圖像(塊)的數(shù)值映射關(guān)系.這類方法通常包含特征提取和機(jī)器學(xué)習(xí)兩個模塊.首先,提取可以有效表征圖像塊內(nèi)容、紋理等復(fù)雜信息的特征表達(dá).然后,利用機(jī)器學(xué)習(xí)方法從大規(guī)模“源圖像-目標(biāo)圖像”中訓(xùn)練得到不同模態(tài)之間的映射關(guān)系.早期的工作中,研究人員主要從兩個模塊進(jìn)行探索,提出了多種富有啟發(fā)性的工作.模型驅(qū)動方法,通常具有很高的計算效率,但受到圖像特征和學(xué)習(xí)方法的限制,合成圖像通常視覺質(zhì)量較差.

      隨著深度學(xué)習(xí)的發(fā)展,研究人員在紋理生成方面取得了很大進(jìn)步,并且擴(kuò)展至圖像內(nèi)容生成領(lǐng)域.近年來,生成對抗網(wǎng)絡(luò)(generative Adersarial Network,GAN)[6-8],特別是條件生成對抗網(wǎng)絡(luò)(conditional Generative Adversarial Networks,cGAN)[9]的出現(xiàn),為異質(zhì)圖像合成開辟了新的路徑.條件生成對抗網(wǎng)絡(luò)可以在給定條件(可以是文本、屬性向量或源圖像等)下生成對應(yīng)的目標(biāo)圖像,其已在基于文本的圖像生成[10]和圖像風(fēng)格轉(zhuǎn)換[11-14]等領(lǐng)域得到了廣泛應(yīng)用.在對應(yīng)的任務(wù)中,其生成圖像包含了非常逼真的視覺效果和內(nèi)容細(xì)節(jié).受此啟發(fā),基于生成對抗網(wǎng)絡(luò)的異質(zhì)人臉圖像合成逐漸引起大家重視,并涌現(xiàn)出大量的新方法,取得了突破性進(jìn)展.

      目前,異質(zhì)人臉圖像合成的應(yīng)用才剛剛走出實驗室,還處于起步階段,已經(jīng)有一些較為成功的案例.例如,西安電子科技大學(xué)研究團(tuán)隊與警方合作,利用人臉畫像合成成功輔助警方破獲了重大案件.騰訊優(yōu)圖實驗室將年齡合成算法用于跨年齡人臉識別,已成功尋回多名走失多年的兒童.在數(shù)字娛樂領(lǐng)域,現(xiàn)在已經(jīng)有了多種異質(zhì)人臉圖像合成APP,比如陌陌推出的AI換臉視頻制作軟件ZAO可以更改人臉身份及幾何結(jié)構(gòu),俄羅斯無線實驗室開發(fā)的FaceApp可以進(jìn)行年齡合成以及多種屬性的更改,曠世Face++開發(fā)了人臉美顏功能,供用戶在線試用.這些應(yīng)用都在社交媒體上引起了巨大反響,提升了用戶進(jìn)行藝術(shù)感知和創(chuàng)作的興趣與熱情.相關(guān)應(yīng)用的截圖舉例如圖2所示.

      本文與之前工作的不同在于:1)據(jù)筆者所知,現(xiàn)在尚未有工作對于畫像合成、漫畫合成、年齡合成、人臉美顏等多種異質(zhì)人臉圖像合成任務(wù)進(jìn)行總結(jié)和分析,本文的工作相比之下更為全面,并且對所有任務(wù)下的思想和模型進(jìn)行了抽象和總結(jié);2)之前的綜述工作并未對基于生成對抗網(wǎng)絡(luò)的異質(zhì)人臉圖像合成工作進(jìn)行對比分析,本文重點對比分析了這類方法在模型結(jié)構(gòu)和思想之間的異同;3)本文對異質(zhì)人臉圖像合成圖像的質(zhì)量評價方法進(jìn)行了總結(jié)和分析,指出了當(dāng)前評價方法的局限性和發(fā)展趨勢.

      1 背景介紹

      1.1 任務(wù)描述

      在異質(zhì)人臉圖像合成任務(wù)中,通常包含源圖像域(如人臉照片)X、目標(biāo)圖像域(如人臉畫像)Y.異質(zhì)人臉圖像合成的任務(wù)旨在學(xué)習(xí)源圖像域到目標(biāo)圖像域的數(shù)值映射關(guān)系:F:X→Y.給定一幅源圖像x∈X,異質(zhì)人臉圖像合成模型可以預(yù)測其對應(yīng)的目標(biāo)圖像y∈Y.在現(xiàn)有的異質(zhì)人臉圖像合成工作中,通常源圖像和對應(yīng)的目標(biāo)圖像是成對出現(xiàn)的.這時,可以考慮基于有監(jiān)督學(xué)習(xí)的方式訓(xùn)練得到異質(zhì)人臉圖像合成模型.在很多任務(wù)中,可能難以得到“源圖像-目標(biāo)圖像”對,這時可以考慮采用無監(jiān)督學(xué)習(xí)或半監(jiān)督學(xué)習(xí)的方式構(gòu)建異質(zhì)人臉圖像合成模型.

      1.2 生成對抗網(wǎng)絡(luò)

      生成對抗網(wǎng)絡(luò)由Goodfellow等[6]于2014年提出,之后在計算機(jī)視覺領(lǐng)域引發(fā)了研究熱潮,被廣泛應(yīng)用于圖像生成、圖像風(fēng)格轉(zhuǎn)換、圖像超分辨率重建等多種任務(wù)中,并且取得了巨大成功[7-8].生成對抗網(wǎng)絡(luò)通常包含一個生成器G和一個判別器D.其中,判別器D旨在正確判斷給定圖像是否是真實的,即將實際目標(biāo)圖像y判斷為“真”,將生成圖像G(x)判斷為“假”;生成器G基于輸入信息x(可以是隨機(jī)向量、屬性向量、輸入源圖像,或其組合)生成逼真的目標(biāo)圖像G(x),從而使判別器D將其判斷為“真”.在訓(xùn)練過程中,對生成器和判別器進(jìn)行迭代優(yōu)化,兩者之間以類似“對抗”的形式進(jìn)行交替迭代優(yōu)化,最終達(dá)到“納什均衡”狀態(tài),兩者達(dá)到較優(yōu)的性能,從而生成器可以生成高質(zhì)量圖像.在異質(zhì)人臉圖像合成領(lǐng)域,通常存在一幅輸入源圖像,研究人員采用了條件生成對抗網(wǎng)絡(luò)和循環(huán)生成對抗網(wǎng)絡(luò).本文接下來對兩個模型進(jìn)行簡要介紹.

      1.2.1 條件生成對抗網(wǎng)絡(luò)

      在條件生成對抗網(wǎng)絡(luò)中,最具影響力的工作是Isola等提出來的Pix2Pix模型[9],其在多種圖像風(fēng)格轉(zhuǎn)換任務(wù)中都取得了優(yōu)異的性能,并給相關(guān)課題研究人員帶來啟發(fā),在多個領(lǐng)域取得了巨大進(jìn)展.條件生成對抗網(wǎng)絡(luò)模型結(jié)構(gòu)如圖3所示.給定輸入源圖像x,生成器生成G(x).之后,判別器將“輸入圖像-生成圖像”對(x,G(x))判定為假,而將“輸入圖像-真實圖像”對(x,y)對判斷為真,并采用對抗損失進(jìn)行訓(xùn)練.在現(xiàn)有工作中,一般對生成器采用半飽和對抗損失函數(shù).具體而言,生成器和判別器的對抗損失函數(shù)分別為

      由于LSGAN損失函數(shù)形式更為簡單,且訓(xùn)練較為穩(wěn)定,因此有很多工作采用LSGAN作為基準(zhǔn)模型.

      1.2.2 循環(huán)生成對抗網(wǎng)絡(luò)

      在很多圖像轉(zhuǎn)換任務(wù)中,難以或無法獲得成對的訓(xùn)練樣本,因此Zhu等提出了循環(huán)生成對抗網(wǎng)絡(luò)(CycleGAN)的思想[16].CycleGAN的基本框架如圖4所示.CycleGAN包含兩個生成器G和F,分別模擬圖像域X和圖像域Y之間的雙向映射關(guān)系,即G:X→Y和F:Y→X.此外,還有對應(yīng)兩個圖像域的判別器DX和DY.在訓(xùn)練過程中,除了使用對抗損失之外,CyclegGAN還采用了重構(gòu)損失和一致性損失.其中,重構(gòu)損失是指:

      即希望將目標(biāo)圖像y輸入到生成器G后能夠保持不變;對x也相似.最終,將所有損失函數(shù)進(jìn)行加權(quán),對生成器和判別器進(jìn)行交替迭代優(yōu)化,直到收斂.在異質(zhì)人臉圖像合成任務(wù)中,有時存在真實目標(biāo)圖像,因此可以同時使用式(3)中的L1損失.

      2 異質(zhì)人臉圖像合成研究進(jìn)展

      異質(zhì)人臉圖像合成包括畫像合成、年齡合成、漫畫合成、油畫合成、超分辨率重建、人臉美顏等多個任務(wù).其中,圖像超分辨率重建旨在基于給定低分辨率圖像重構(gòu)出相對較高分辨率的圖像.超分辨率重建對于計算機(jī)視覺領(lǐng)域意義重大,研究人員對此開展了大量的研究工作.最近,Wang等[17]和Ha等[18]對于已有的通用圖像超分辨率重建方法進(jìn)行了詳盡地總結(jié)和回顧,其中包含了人臉超分辨率重建算法.Nguyen等[3]也對于二維和三維人臉圖像的超分辨率重建工作專門進(jìn)行了總結(jié)和分析.因此,本文對于人臉圖像超分辨率相關(guān)工作不再贅述,而對其余幾個課題分別介紹其近期研究進(jìn)展.

      2.1 畫像合成

      人臉畫像合成是指將一幅照片轉(zhuǎn)換為畫像的過程,通常利用事先收集好的人臉畫像-照片對作為訓(xùn)練集.它在輔助刑偵追捕及數(shù)字娛樂方面具有重要作用[19].傳統(tǒng)人臉畫像合成方法主要可以分為兩類:數(shù)據(jù)驅(qū)動的方法和模型驅(qū)動的方法[2,4].鑒于深度學(xué)習(xí)技術(shù)的發(fā)展,Zhang等[20]和Jiao等[21]提出利用卷積神經(jīng)網(wǎng)絡(luò)生成畫像,Sheng等[22]亦提出基于神經(jīng)網(wǎng)絡(luò)進(jìn)行特征學(xué)習(xí)和畫像重構(gòu).之后,Zhang等[23-25]將神經(jīng)網(wǎng)絡(luò)與馬爾科夫隨機(jī)場進(jìn)行結(jié)合,通過學(xué)習(xí)深層特征及構(gòu)建鄰域約束來提升合成質(zhì)量.

      近年來,由于生成對抗網(wǎng)絡(luò)在多種圖像翻譯任務(wù)中的巨大成功,研究人員開始嘗試采用其構(gòu)建人臉畫像合成模型.例如,Wang等[26]提出首先利用條件生成對抗網(wǎng)絡(luò)來生成畫像,然后利用反向映射方法對生成畫像進(jìn)行后處理,得到最終的生成結(jié)果.之后,Wang等[27]提出使用多對抗網(wǎng)絡(luò)從低分辨率到高分辨率逐步生成人臉畫像.該方法在性能上得到了顯著提升,生成畫像的紋理效果較好,但仍然存在少量模糊失真.Zhang等[28-29]針對現(xiàn)有方法對于面部光照敏感的問題,提出基于人臉結(jié)構(gòu)先驗及光照映射的畫像生成對抗模型,以及多分布約束模型,取得了不錯的效果.此外,Chen等[30]則針對現(xiàn)有人臉照片-畫像數(shù)據(jù)集規(guī)模較為有限的情況,利用大規(guī)模人臉照片(無對應(yīng)畫像),結(jié)合半監(jiān)督學(xué)習(xí)思想,以提升深度模型的訓(xùn)練效果.Bae等[31]則針對多風(fēng)格人臉畫像合成進(jìn)行了初步嘗試,在生成對抗網(wǎng)絡(luò)中引入了風(fēng)格分類機(jī)制及對應(yīng)的損失函數(shù),使得模型可以生成多種風(fēng)格的畫像.

      此外,研究人員考慮到單個生成模型性能有限,且人臉不同區(qū)域的映射關(guān)系可能有所不同,因此提出了多支路合成方法[32].例如,Yi等[33]采用兩個生成器,其中一個全局生成器合成人臉整體結(jié)構(gòu),另外一個局部生成器用來合成眼睛、頭發(fā)等特定區(qū)域的細(xì)節(jié),之后利用融合網(wǎng)絡(luò)對合成結(jié)果進(jìn)行整合,得到最終的合成結(jié)果.Zhang等[34]將數(shù)據(jù)驅(qū)動方法與生成對抗網(wǎng)絡(luò)方法進(jìn)行結(jié)合,利用數(shù)據(jù)驅(qū)動方法實現(xiàn)照片到畫像的映射,合成畫像初步結(jié)果;利用生成對抗網(wǎng)絡(luò),實現(xiàn)畫像高頻信息的合成;然后將兩者融合,取得了不錯的效果.

      Yu等[35]則將人臉結(jié)構(gòu)先驗信息引入到生成對抗網(wǎng)絡(luò)中,提出了一種基于結(jié)構(gòu)輔助的生成對抗網(wǎng)絡(luò)(如圖5所示).在該網(wǎng)絡(luò)中,首先利用人臉解析網(wǎng)絡(luò)得到人臉分割結(jié)果,用于描述人臉結(jié)構(gòu);然后,將人臉圖像與分割結(jié)果分別輸入到外觀編碼器和結(jié)構(gòu)編碼器中,并一起輸入到解碼器中合成對應(yīng)的輸出圖像;此外,還引入了結(jié)構(gòu)性重建損失函數(shù),用來提升眼睛等復(fù)雜區(qū)域的權(quán)重,降低面部、頭發(fā)等區(qū)域的權(quán)重,從而促使模型生成更加精微的細(xì)節(jié).最后,使用了堆疊式生成器和身份損失函數(shù),有效提升了合成圖像的質(zhì)量.該模型在多種合成任務(wù)中都取得了優(yōu)異的合成效果.

      最近,Zhu等[36]認(rèn)為使用傳統(tǒng)生成對抗網(wǎng)絡(luò)擬合照片與畫像之間的映射關(guān)系,忽略了兩個圖像域之間的共有信息,因此提出了一種協(xié)作學(xué)習(xí)框架,將照片/畫像首先映射到一個共享的隱藏空間,然后進(jìn)一步映射到畫像/照片,并且提出了協(xié)作損失函數(shù),促使兩者在隱藏空間具有一致性.Zhang等[37]則幾乎同時提出了相似的工作,與之不同的是其在隱藏空間使用了對抗學(xué)習(xí)機(jī)制來促使照片和畫像映射到相同的隱藏空間.這兩種方法取得了較好的合成效果,且具有很好的啟發(fā)性.

      2.2 漫畫合成

      人臉漫畫合成是指基于給定人臉照片生成漫畫,在游戲制作等數(shù)字娛樂領(lǐng)域具有十分廣泛的應(yīng)用[38].研究人員已經(jīng)在該領(lǐng)域進(jìn)行了大量的研究[39-42].例如Akleman[43]提出使用交互式工具來讓用戶指導(dǎo)漫畫的生成.現(xiàn)在的很多手機(jī)應(yīng)用也是基于這一想法,由用戶選擇人臉組件構(gòu)成漫畫.之后,研究人員開始考慮自動地人臉漫畫合成算法.例如,Liang等[44]提出從訓(xùn)練集中學(xué)習(xí)漫畫原型組件,然后針對目標(biāo)人臉進(jìn)行形狀調(diào)整和紋理風(fēng)格轉(zhuǎn)換,得到最終結(jié)果.Liu等[45]提出在照片和漫畫中學(xué)習(xí)異質(zhì)吉布斯模型,用于自動的漫畫合成.之后,Chiang等[46]提出通過分析輸入照片的特征,構(gòu)建人臉漫畫.

      受條件式生成對抗網(wǎng)絡(luò)的啟發(fā),最近有少量工作將其引入到人臉漫畫生成和識別中,取得了一些進(jìn)展[47].例如,Zheng等[48]在條件式生成對抗網(wǎng)絡(luò)的基礎(chǔ)上,引入了并行判別器以提升其能力,從而促使生成器合成更好的漫畫.Han等[49]將人臉三維模型和幾何形狀輪廓圖引入到生成對抗網(wǎng)絡(luò)中,取得了逼真的漫畫人臉圖像.但由于人臉三維模型的計算復(fù)雜度較高且建模難度較大,因此限制了其擴(kuò)展性.Li等[50]提出基于人臉照片及關(guān)鍵點圖一起用于合成人臉漫畫.但人臉關(guān)鍵點圖的信息較為有限,使得判別器難以具備較強(qiáng)的判別能力,限制了生成器的性能.最近,Shi等[51]引入了關(guān)鍵點位移預(yù)測機(jī)制和人臉識別損失,有效提升了漫畫合成的質(zhì)量.

      2.3 年齡合成

      現(xiàn)有的年齡合成方法大致可以分為兩類:物理模型驅(qū)動方法和數(shù)據(jù)驅(qū)動方法[52-53].其中,物理模型驅(qū)動是指通過模擬頭顱骨和面部肌肉隨著年齡的變化機(jī)制,預(yù)測變化后的人臉結(jié)構(gòu)和外觀[54-57].例如,Wu等[57]基于皮膚的解剖學(xué)結(jié)構(gòu)提出了一種三層動態(tài)皮膚模型來模擬皺紋.數(shù)據(jù)驅(qū)動方法則不依賴于生物學(xué)先驗知識,直接從訓(xùn)練數(shù)據(jù)中挖掘年齡相關(guān)的模式[58-60].例如,Shlizerman等[59]提出一種基于原型的方法,即利用不同年齡段的人臉圖像構(gòu)建年齡相關(guān)的字典,然后利用近鄰搜索等技術(shù)重構(gòu)輸入人臉對應(yīng)年齡段的圖像.Yang等[60]提出首先求解多屬性分解問題,然后只將年齡相關(guān)元素變換到對應(yīng)目標(biāo)年齡組實現(xiàn)年齡的合成.這些方法有效提升了合成圖像的質(zhì)量,但會產(chǎn)生鬼臉效應(yīng)(Ghosting Artifacts).

      近年來,隨著深度生成網(wǎng)絡(luò)的發(fā)展,研究人員開始嘗試將其引入到年齡合成中.現(xiàn)有模型可以大致分為直推式生成和漸進(jìn)式生成兩種方式.

      1)直推式生成:是指對于給定輸入圖像,采用單一模型直接將其映射到目標(biāo)年齡.例如,Zhang等[61]利用條件對抗自編碼器進(jìn)行人臉年齡合成,但合成結(jié)果不理想,模型只學(xué)習(xí)到了皺紋等明顯特征.Zhou等[62]將個人職業(yè)信息考慮在生成對抗網(wǎng)絡(luò)中以進(jìn)行個性化人臉年齡合成.最近,Yang等[63]基于條件對抗生成網(wǎng)絡(luò),提出了一種金字塔結(jié)構(gòu)的判別網(wǎng)絡(luò),有效提升了年齡合成的效果.Li等[64]提出將圖像進(jìn)行小波變換,利用生成對抗網(wǎng)絡(luò)分別實現(xiàn)全局及局部細(xì)節(jié)的生成,以提升合成效果.Song等[65]近來提出了一種Dual cGAN模型,同時訓(xùn)練年齡老化和回溯任務(wù),提升了年齡合成的合理性.Kossaifi等[66]則考慮到人臉不同屬性(如種族、性別等)與年齡合成高度相關(guān),因此將人臉屬性向量作為合成模型的輔助輸入,并使用了小波變換提升細(xì)節(jié)提升精度.

      2)漸進(jìn)式生成:部分研究人員發(fā)現(xiàn),如果輸入人臉與合成人臉之間存在較大的年齡差,使用單一階段的合成模型難以獲得高質(zhì)量結(jié)果[67-69].例如,Wang等[67]利用循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)模擬不同年齡段之間人臉的平滑變換.Nhan等[68]使用殘差網(wǎng)絡(luò)模塊構(gòu)建臨近年齡段的合成模型,然后通過將這些模塊進(jìn)行串聯(lián)實現(xiàn)長年齡間距的合成結(jié)果.

      2.4 人臉美顏

      人臉美學(xué)質(zhì)量,也稱為人臉美觀度或吸引力,對于人類的社交活動具有廣泛的影響力[70-71].人臉美顏[72]亦稱為人臉美學(xué)質(zhì)量增強(qiáng),旨在通過調(diào)整人臉膚色[73-74]、人臉結(jié)構(gòu)[75-76]或自動上妝[77]等,提升人臉的吸引力,從而獲得更優(yōu)的社交體驗.

      現(xiàn)有人臉美顏方法普遍屬于數(shù)據(jù)驅(qū)動類型[72],需要美妝后人臉實例作為參考,利用數(shù)學(xué)模型預(yù)測實例信息與輸入人臉信息之間的融合參數(shù).例如,Liang等[73]通過關(guān)鍵點及邊緣信息檢測皮膚區(qū)域,然后通過調(diào)整亮度、顏色等進(jìn)行美化;并在后續(xù)工作中將其遷移到云平臺中,以滿足移動設(shè)備的應(yīng)用需求[74].Leyvand等[75]通過搜索訓(xùn)練集中與輸入人臉相近的圖像,預(yù)測美化后人臉關(guān)鍵點位置,然后對輸入人臉進(jìn)行美化.

      受深度學(xué)習(xí)在多種計算機(jī)視覺任務(wù)中的啟發(fā),Li等[76]通過深度神經(jīng)網(wǎng)絡(luò)預(yù)測美化過程中人臉關(guān)鍵點的位移,用于人臉美顏.Alashkar等[78]將人臉妝容的區(qū)域、類型等考慮在內(nèi),并基于經(jīng)驗設(shè)定了多種規(guī)則,利用深度神經(jīng)網(wǎng)絡(luò)預(yù)測上妝類型,取得了不錯的合成效果.Ou等[79]則利用圖像遷移思想,通過人臉解析獲取各個器官的位置信息,將輸入人臉轉(zhuǎn)換到參考人臉的妝容風(fēng)格.

      最近,北京航空航天大學(xué)和中國科學(xué)院大學(xué)等機(jī)構(gòu)的研究人員提出了一種姿態(tài)穩(wěn)健型空間可感知式生成對抗網(wǎng)絡(luò)(Pose-robust Spatial-aware GAN,PSGAN)[80],可以將輸入人臉圖像轉(zhuǎn)換到參考人臉的妝容風(fēng)格.PSGAN分別采用妝容提取模塊和輸入人臉編碼模塊提取參考人臉的妝容以及輸入人臉的綜合表達(dá),然后輸入到妝容轉(zhuǎn)移變形模塊,進(jìn)而利用卸妝-再上妝模塊生成化妝后的人臉.整體而言,現(xiàn)在的人臉美顏工作都需要參考妝容圖像,且主要局限于自動上妝功能.

      2.5 其他異質(zhì)人臉圖像合成

      除了上述異質(zhì)人臉圖像合成工作之外,在熱紅外(近紅外)人臉圖像合成及通用圖像風(fēng)格轉(zhuǎn)換方面,也有少量基于生成對抗網(wǎng)絡(luò)的工作.

      2.5.1 熱紅外人臉圖像合成

      由于熱紅外圖像對于光照不敏感,可以有效提升人臉識別精度,因此已經(jīng)被廣泛應(yīng)用于現(xiàn)有的人臉識別系統(tǒng)中[81].近期,也有少量熱紅外人臉圖像合成工作.例如,Wang等[82]利用生成對抗網(wǎng)絡(luò)將人臉熱紅外圖像轉(zhuǎn)換為人臉照片,并引入人臉關(guān)鍵點檢測網(wǎng)絡(luò),指導(dǎo)生成器合成更好的細(xì)節(jié).Dou等[83]基于CycleGAN,結(jié)合邊緣損失、身份損失等,實現(xiàn)了人臉照片與熱紅外圖像的相互轉(zhuǎn)換.Zhang等[84]則利用熱紅外圖像生成及對抗學(xué)習(xí)思想,將熱紅外圖像映射到照片域,以提升人臉照片-近紅外圖像的跨模態(tài)身份識別精度.

      2.5.2 通用人臉圖像風(fēng)格轉(zhuǎn)換

      通用圖像風(fēng)格轉(zhuǎn)換在給定內(nèi)容圖像和示例風(fēng)格圖像,將內(nèi)容圖像的紋理轉(zhuǎn)換為示例風(fēng)格,并且保持內(nèi)容不變[85].相關(guān)工作可以追溯到傳統(tǒng)的紋理合成及模擬任務(wù).2016年,Gatys等[86]采用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNNs)中的圖像特征進(jìn)行圖像風(fēng)格轉(zhuǎn)換,是該領(lǐng)域的開創(chuàng)性工作之一.該方法的優(yōu)勢是只需要一張示例圖像,而且可以擴(kuò)展到不同的風(fēng)格.研究人員受該工作啟發(fā),在圖像風(fēng)格轉(zhuǎn)換任務(wù)中取得了大量進(jìn)展[87-90].關(guān)于通用的圖像風(fēng)格轉(zhuǎn)換工作,讀者可以參考文獻(xiàn)[91-92],其中詳細(xì)總結(jié)了現(xiàn)有的工作進(jìn)展.本章簡要介紹人臉圖像相關(guān)的工作.

      Selim等[93]將文獻(xiàn)[86]擴(kuò)展到針對人臉油畫生成任務(wù)進(jìn)行優(yōu)化,提升了人臉油畫的合成效果.盡管基于神經(jīng)網(wǎng)絡(luò)的風(fēng)格轉(zhuǎn)換技術(shù)取得了優(yōu)異的性能,這些方法通常難以合成紋理上的細(xì)節(jié).Fier等[94-95]利用非參紋理合成方法,結(jié)合人臉分割、姿態(tài)、外表等信息綜合指導(dǎo)人臉圖像的風(fēng)格轉(zhuǎn)換,取得了非常精細(xì)的紋理細(xì)節(jié).不過這類方法普遍采用示例圖像,基于局部結(jié)構(gòu)搜索實現(xiàn)紋理的遷移,通常效率較低,而且在風(fēng)格化過程中,會丟失人臉源圖像的身份、細(xì)微結(jié)構(gòu)等信息.Huang等[96]針對此問題,提出了一種馬爾可夫生成對抗網(wǎng)絡(luò)(Markovian Generative Adversarial Networks,MGAN)有效提升了計算效率,并將其應(yīng)用于通用圖像和人臉圖像的風(fēng)格轉(zhuǎn)換任務(wù)中,在人臉插畫、油畫分割轉(zhuǎn)換任務(wù)中都展現(xiàn)出不錯的效果.之后,Li等[97]利用循環(huán)生成對抗網(wǎng)絡(luò)應(yīng)用到人臉圖像風(fēng)格轉(zhuǎn)換中.

      3 生成對抗網(wǎng)絡(luò)模型結(jié)構(gòu)

      結(jié)合上述不同異質(zhì)人臉圖像合成任務(wù)的相關(guān)工作,本文從輸入、生成器、判別器、損失函數(shù)四個方面,將其中使用的生成對抗網(wǎng)絡(luò)模型結(jié)構(gòu)進(jìn)行抽象總結(jié)和對比分析.

      3.1 輸入

      現(xiàn)有方法普遍采用單一輸入,即人臉源圖像,然后利用生成器將其映射為目標(biāo)圖像.盡管深度學(xué)習(xí)在理想狀態(tài)下,應(yīng)該學(xué)習(xí)到輸入人臉圖像對應(yīng)的全部信息,如人臉的結(jié)構(gòu)、身份、姿態(tài)、表情等,并將其應(yīng)用于映射關(guān)系的合成中.但在實際情況下,由于沒有對應(yīng)的輔助信息(包括輸入或目標(biāo))的指導(dǎo),而且訓(xùn)練數(shù)據(jù)的規(guī)模有限,無法包含全部可能的人臉屬性變種,生成器難以學(xué)習(xí)到精確的信息表達(dá)和映射關(guān)系.

      因此,采用屬性相關(guān)的輔助信息來輔助生成器更合理、精確地合成目標(biāo)圖像變得極為可行.例如,Yu等[35]在輸入人臉源圖像的同時,將源圖像的像素級分割結(jié)果作為輔助信息來描述人臉結(jié)構(gòu)信息,并將其輸入到生成器中,用于人臉照片-畫像的合成.實驗結(jié)果顯示,這一操作有效提升了生成圖像的質(zhì)量.Fier等[94-95]則在人臉風(fēng)格轉(zhuǎn)換中也采用了類似的思路,加入了人臉結(jié)構(gòu)等作為輔助信息.

      3.2 生成器結(jié)構(gòu)

      在現(xiàn)有工作中,為了提升生成模型的性能,研究人員在條件生成對抗網(wǎng)絡(luò)和循環(huán)生成對抗網(wǎng)絡(luò)的基礎(chǔ)上,對于生成器進(jìn)行了多種改進(jìn).現(xiàn)有的生成器結(jié)構(gòu)大致可以劃分為以下幾類(模型結(jié)構(gòu)如圖6所示):

      1)單一生成器[9,26-29,84]:即使用單一的生成器,通常為U-Net結(jié)構(gòu),即在編碼器和解碼器對應(yīng)層之間增加前向跳接.近期的研究表明,如果將生成器中的卷積層替換為殘差模塊,通??梢蕴嵘铣山Y(jié)果的性能.優(yōu)于單一生成器的性能受模型深度、復(fù)雜度的限制,難以合成高質(zhì)量圖像.

      2)堆疊式生成器[35]:也可以成為串聯(lián)式生成器,即首先使用一個生成器合成初步結(jié)果,然后利用后續(xù)的生成器進(jìn)行進(jìn)一步精細(xì)化生成,在圖像中添加更多的細(xì)節(jié)信息,從而合成高質(zhì)量圖像.堆疊式生成器已經(jīng)成功應(yīng)用于高分辨率圖像合成及文本-圖像合成任務(wù)[10]中.Yu等[35]將其應(yīng)用于人臉照片-畫像合成任務(wù)中,取得了至今為止最優(yōu)的合成圖像質(zhì)量.此外,實驗結(jié)果表明:堆疊的生成器越多,通??梢缘玫礁鼉?yōu)的合成效果,但在數(shù)據(jù)量有限的情況下,訓(xùn)練難度提高,需要防止過擬合現(xiàn)象[35].

      3)多支路生成器(全局)[34]:即使用多個(不同結(jié)構(gòu)的)生成器,分別基于輸入圖像生成對應(yīng)的合成圖像,然后利用融合網(wǎng)絡(luò)將不同支路的合成結(jié)果進(jìn)行融合,從而得到更高質(zhì)量的圖像.現(xiàn)有工作通常使用兩個支路,一個支路用于生成低頻信息,另外一個用于合成高頻信息.Zhang等[34]的工作利用該思想將數(shù)據(jù)驅(qū)動方法與生成對抗網(wǎng)絡(luò)方法結(jié)合,取得了不錯的效果.

      4)多支路生成器(全局+局部)[33]:考慮到人臉不同區(qū)域的數(shù)值映射關(guān)系有所不同,可以針對不同區(qū)域采用不同的局部生成器,同時利用全局生成器合成圖像的整體結(jié)構(gòu),最后進(jìn)行融合得到較好的合成效果.Huang等[96]利用此思想用于人臉轉(zhuǎn)正.Yi等[33]將此思想融入到一種新的人臉畫像合成任務(wù)中.

      5)循環(huán)式生成器[16,83,97]:由于在大部分異質(zhì)人臉圖像合成任務(wù)中,同時存在照片和其他模態(tài)的圖像,因此可以基于CycleGAN思想,采用循環(huán)式生成器同時訓(xùn)練兩個合成模型.由于循環(huán)式生成器要求合成結(jié)果可以逆向恢復(fù)輸入圖像,循環(huán)式生成器通??梢蕴嵘铣蓤D像與輸入圖像之間在結(jié)構(gòu)上的一致性.

      6)協(xié)作式生成器[36-37]:所有上述模型都考慮模擬源圖像域到目標(biāo)圖像域的直接映射關(guān)系,但源圖像目標(biāo)圖像之間應(yīng)該存在一定的共有信息,因此可以將兩者同時映射到一個共享的隱藏空間,消除圖像模態(tài)信息,然后用于合成目標(biāo)圖像.

      3.3 判別器結(jié)構(gòu)

      現(xiàn)有異質(zhì)人臉合成工作中,主要使用了Isola等[9]提出的PatchGAN結(jié)構(gòu),即對于給定圖像,不對其預(yù)測單個標(biāo)量“真/假”標(biāo)記,而是對于各個局部區(qū)域進(jìn)行預(yù)測,從而得到一個“真/假”標(biāo)記矩陣.實驗表明該方法可以提升局部細(xì)節(jié)的生成質(zhì)量.具體而言,按照判別器網(wǎng)絡(luò)結(jié)構(gòu),可以將其劃分為單一判別器、多尺度判別器和金字塔判別器(如圖7所示).

      1)單一判別器[9]:即針對生成器輸出的最終合成圖像和真實目標(biāo)圖像,采用單個判別器判斷其真假.

      2)多尺度判別器[27]:當(dāng)目標(biāo)圖像分辨率較高時,直接使用PatchGAN可能難以對圖像整體結(jié)構(gòu)進(jìn)行約束,因此可以考慮將圖像采樣到多個分辨率上,然后分別使用判別器判斷其真假.此外,也可以考慮讓生成器的解碼層輸出不同尺度的圖像,從而促使生成器具有更好的表征能力.這些判別器通常具有相同的結(jié)構(gòu),只是輸入圖像的分辨率有所不同.

      3)金字塔判別器[63]:在大部分工作中,判別器都是隨機(jī)初始化,然后通過與生成器交替迭代優(yōu)化達(dá)到較優(yōu)的判別能力.考慮到特定任務(wù)(如年齡合成)中,判別器的特征需要能夠有效表征人臉圖像的年齡信息,因此Yang等[63]首先預(yù)訓(xùn)練一個年齡識別網(wǎng)絡(luò)用于提取多層年齡相關(guān)特征,然后在其每一層后面增加一組隨機(jī)初始化卷積層,從而構(gòu)建金字塔判別器.在訓(xùn)練過程中,年齡識別網(wǎng)絡(luò)(灰色條紋模塊)保持不變,只訓(xùn)練新增加的卷積層部分.該方法在年齡識別中取得了較優(yōu)的性能.

      此外,基于判別器輸入/輸出的不同,也可以將現(xiàn)有判別器劃分為無監(jiān)督式判別器、類別輔助判別器、類別輔助多路判別器和條件式判別器(如圖8所示).

      1)無監(jiān)督式判別器[6]:無監(jiān)督式判別器是將合成圖像單獨輸入到判別器中,判斷其是否逼近真實目標(biāo)圖像,可以用來促使生成更加逼真的圖像.其通??梢耘c條件式判別器共同使用,以提升生成目標(biāo)圖像的視覺質(zhì)量[14].不過兩者之間的平衡,對于圖像合成具有較大的影響.

      2)類別輔助判別器[31]:對于多風(fēng)格異質(zhì)人臉圖像合成或者屬性輔助的異質(zhì)人臉合成,可以考慮使用類別輔助判別器,即判別器同時預(yù)測輸入樣本的真假以及所屬類別.對于分類損失,可以考慮采用常見的交叉熵?fù)p失.這一結(jié)構(gòu)已在多種圖像生成任務(wù)中取得了可靠的結(jié)果[98-99].

      3)類別輔助多路判別器[63]:即分別使用判別器來預(yù)測真假及類別.其中,類別判別器可以使用有標(biāo)記數(shù)據(jù)集提前預(yù)訓(xùn)練好,從而使其具有較好的分類性能.

      4)條件式判別器[9]:現(xiàn)有工作中,使用較多的為條件式判別器,即將輸入圖像與合成或真實目標(biāo)圖像串接在一起,然后輸入到判別器中.這時判別器可以判斷輸入圖像對是否匹配,能夠促使輸入圖像和合成圖像在結(jié)構(gòu)上具有較好的一致性.

      3.4 目標(biāo)函數(shù)

      在現(xiàn)有基于生成對抗網(wǎng)絡(luò)的人臉異質(zhì)圖像合成工作中,除了使用1.2節(jié)所述的對抗損失、重構(gòu)損失、一致性損失作為目標(biāo)函數(shù)之外,研究人員還提出了以下?lián)p失函數(shù),以提升合成圖像的性能.

      3.4.1 身份損失

      由于異質(zhì)人臉合成希望能夠保留輸入人臉源圖像的身份信息,以保留圖像本身的辨識度,因此研究人員引入了身份損失函數(shù).具體而言,研究人員將生成圖像和真實目標(biāo)圖像同時輸入到預(yù)訓(xùn)練好的人臉識別網(wǎng)絡(luò)中,然后計算兩者對應(yīng)層深度特征之間的歐氏距離.其表示如下:

      3.4.3 結(jié)構(gòu)重建損失

      人臉不同區(qū)域的合成難度不同,如面部等面積較大的平坦區(qū)域相對容易,而眼睛、嘴巴等區(qū)域較小,但結(jié)構(gòu)精微,難以合成.然而式(3)中的重建損失,對于不同區(qū)域權(quán)重相同,可能導(dǎo)致復(fù)雜結(jié)構(gòu)難以精細(xì)合成.因此,Yu等[35]提出將人臉劃分為眼睛、眉毛、嘴巴、面部皮膚、頭發(fā)等8個區(qū)域,提升較小區(qū)域的權(quán)重,降低較大區(qū)域的權(quán)重,從而促使生成器生成更加精微的細(xì)節(jié).具體而言,對每個區(qū)域以其對應(yīng)面積的逆作為權(quán)重,這樣等價于各個區(qū)域分別計算平均L1重構(gòu)損失,然后進(jìn)行求和,即:

      4 性能評估方法

      現(xiàn)有異質(zhì)人臉圖像合成工作中,為了評價合成模型的優(yōu)劣,通常采用多種方法,具體可以分為:主觀評價、保真度評價、可解譯度評價和真實度評價.其中,主觀評價是指由人類觀測者進(jìn)行標(biāo)記,保真度指合成圖像與對應(yīng)的真實圖像之間的相似度,可解譯度指合成圖像可以用于識別等任務(wù)的能力,真實度指生成圖像在內(nèi)容、紋理等方面與真實圖像的相近程度.各類方法又可以按照實際操作的不同進(jìn)一步劃分為幾個子類.具體介紹如下.

      4.1 主觀評價

      因為在大部分應(yīng)用中,人是合成圖像的最終使用者,因此人類主觀評價結(jié)果是評判異質(zhì)人臉圖像合成圖像質(zhì)量優(yōu)異的最可靠基準(zhǔn).人類觀測者在主觀評價過程中,通常會綜合保真度、可解譯度和真實度進(jìn)行評價,因此也相對更為全面[101].在現(xiàn)有工作中,研究人員通常將合成圖像發(fā)布在亞馬遜勞務(wù)眾包平臺Amazon Mechanical Turk (AMT)或問卷調(diào)查網(wǎng)站上,讓大量非專業(yè)觀測人員進(jìn)行標(biāo)記;或在線下招募志愿者對合成結(jié)果進(jìn)行評價;之后將所有評價結(jié)果進(jìn)行綜合,作為對應(yīng)異質(zhì)圖像合成算法的性能測度.按照2002年VQEG發(fā)布的圖像主觀質(zhì)量評價建議書[102-103]中的劃分標(biāo)準(zhǔn),現(xiàn)有的主觀評價方法主要為激勵比較(stimulus comparison)法和單激勵(single stimulus)法[104].具體介紹如下.

      4.1.1 激勵比較法

      激勵比較法一般分為兩種形式:一是成對比較(paired comparison)法[6,8,105-106],即給定觀測者兩幅圖像,觀測者需要標(biāo)記兩幅圖像的相對質(zhì)量關(guān)系.現(xiàn)有工作中通常采用形容詞分類判斷法,即觀察者需要從特定語義詞匯集合中選擇一個來描述兩個觀察圖像之間的相對質(zhì)量關(guān)系.這些詞匯集合通常用來描述質(zhì)量差異的存在性和方向性(例如“好”、“相同”、“差”).圖像質(zhì)量激勵比較分類量表舉例如表1所示.二是排序法,即給定一組圖像序列,觀測者對所有圖像之間的相對質(zhì)量關(guān)系進(jìn)行排序,之后對不同觀測者的排序結(jié)果進(jìn)行綜合,作為圖像之間的相對質(zhì)量關(guān)系描述.

      成對比較法具有執(zhí)行簡單、結(jié)果直觀的優(yōu)點,但由于可以構(gòu)建的圖像對規(guī)模巨大,所以效率較低[107-108],經(jīng)常用于圖像生成模型性能評測.相比之下,排序法可以有效提升主觀實驗的效率,經(jīng)常用于異質(zhì)圖像質(zhì)量評價研究中,用于構(gòu)建異質(zhì)圖像質(zhì)量評價數(shù)據(jù)庫和評估質(zhì)量評價算法的精度[109-110].

      在現(xiàn)有工作中,在采用激勵比較法時,通常采用強(qiáng)制選擇的方式,即觀測者被強(qiáng)制要求確定兩幅圖像中哪一幅優(yōu)于或劣于另一幅圖像.當(dāng)兩幅圖像質(zhì)量相差較小或有其他環(huán)境因素干擾時,觀測者有可能無法感知到兩幅圖像的差異.這時,采用強(qiáng)制選擇方式就會在標(biāo)記數(shù)據(jù)中引入噪聲.因此,對每一個圖像對,都需要安排多個觀測者評判其相對質(zhì)量,然后進(jìn)行綜合得到最終的相對質(zhì)量關(guān)系描述.

      4.1.2 單激勵法

      單激勵法在評測時,測試圖像依次顯示在屏幕上,觀測者通過觀察圖像評估其質(zhì)量.單激勵法通常采用形容詞或數(shù)值分類判斷法,即觀察者從一組描述圖像質(zhì)量或損傷程度的形容詞類別或分?jǐn)?shù)等級中選擇最合適的一個作為測試圖像的質(zhì)量描述.其質(zhì)量量表和損傷量表如表2所示.

      4.2 客觀評價

      4.2.1 保真度

      圖像保真度,是指測試圖像與原始圖像相比,圖像內(nèi)容或信息的保留程度,或者說是測試圖像與原始圖像之間的相似程度[101,104].現(xiàn)有異質(zhì)人臉圖像合成工作中采用的保真度指標(biāo)可以劃分為以下兩類:一種是通用圖像的質(zhì)量評價(Image Quality Assessment,IQA)方法,另外一種是針對特定人臉合成任務(wù)專門設(shè)計的專用圖像質(zhì)量評價方法.

      4.2.1.1 通用圖像質(zhì)量評價方法

      圖像質(zhì)量評價旨在評估圖像中由模糊、噪聲、壓縮等引起的保真度.均方誤差(Mean Squared Error,MSE)和峰值信噪比(Peak Signal-to-Noise Ratio,PSNR)由于計算簡單、易于理解等原因,已成為圖像質(zhì)量評價的常用指標(biāo).然而,研究表明MSE與PSNR評價結(jié)果與人眼主觀感受之間一致性較低,因此研究人員提出了很多新型質(zhì)量評價方法[101].其中在異質(zhì)人臉圖像合成領(lǐng)域應(yīng)用較廣的包括以下5種方法:

      3) 結(jié)構(gòu)相似度(Structure Similarity Index Measure,SSIM):2004年,Wang等[111]提出了結(jié)構(gòu)相似度方法.該方法基于圖像結(jié)構(gòu)變化對于圖像質(zhì)量影響較大這一觀察,對圖像進(jìn)行局部歸一化作為其結(jié)構(gòu)表示,然后通過比較原始圖像與測試圖像之間結(jié)構(gòu)信息的相似度,作為圖像質(zhì)量的度量.SSIM數(shù)值在0到1之間,越大表明測試圖像保真度越好.

      4) 特征相似度(Feature SIMilarity,F(xiàn)SIM):2011年,Zhang等[112]提出的特征結(jié)構(gòu)相似度(Features Similarity Index,F(xiàn)SIM).該方法首先從圖像中提取相位一致性特征和梯度幅度特征,然后計算測試圖像和原始圖像之間的特征相似度,并利用相位一致性進(jìn)行加權(quán)求和,得到圖像的最終質(zhì)量值.FSIM數(shù)值在0到1之間,越大表明測試圖像保真度越好.

      5) 視覺信息保真度(Visual Information Fidility,VIF):2006年,Sheikh等[113]從信息論的角度出發(fā),將視覺感知過程建模為噪聲通道,并將質(zhì)量感知建模為信息提取過程.基于這一假設(shè),給定測試圖像和對應(yīng)的原始圖像,首先估計測試圖像中包含的噪聲,然后估計兩者之間的共有信息,作為測試圖像的質(zhì)量描述,即視覺信息保真度.VIF越大表明測試圖像保真度越好.

      4.2.1.2 專用圖像質(zhì)量評價方法

      Wang等[109]研究表明,傳統(tǒng)圖像質(zhì)量評價并不適用于合成人臉畫像的質(zhì)量評價,其預(yù)測結(jié)果與人類主觀感受之間一致性較低.Fan等[110]進(jìn)而提出了一種結(jié)構(gòu)共現(xiàn)紋理(Structure Co-Occurrence Texture,Scoot)評測指標(biāo),同時將局部塊空間結(jié)構(gòu)和共現(xiàn)紋理統(tǒng)計特征考慮在內(nèi),用于評判合成人臉畫像的質(zhì)量,并且構(gòu)建了較大規(guī)模的合成人臉畫像數(shù)據(jù)集.專用型圖像質(zhì)量評價方法至今仍然處于起步階段,有必要針對異質(zhì)人臉圖像合成的質(zhì)量評價問題,進(jìn)行更加深入、具體的分析,探索與人眼主觀感受相一致的專用型圖像質(zhì)量評價方法,以用于合成算法的性能評估和優(yōu)化.

      4.2.2 可解譯度

      圖像的可解譯度,也稱為可用度,是指人們能夠從圖像中提取信息的能力,這可以描述圖像用于指定任務(wù)的能力.現(xiàn)有的異質(zhì)圖像可解譯度可以分為身份解譯度和屬性解譯度兩類.

      1)身份解譯度:異質(zhì)人臉圖像合成過程中,需要在生成指定風(fēng)格模態(tài)的同時,盡可能保留輸入人臉的身份判別信息,因此現(xiàn)有工作通常利用合成人臉的身份識別或身份匹配精度作為合成圖像質(zhì)量的評價指標(biāo)之一.這一指標(biāo)對應(yīng)了圖像質(zhì)量中的可解譯度或可用度,即其可以用于人臉識別的程度.具體操作中,通常對同一模態(tài)的圖像進(jìn)行人臉識別實驗.在人臉畫像合成實驗中,研究人員一般將真實人臉畫像作為數(shù)據(jù)庫,將合成人臉畫像作為查詢樣本,然后利用基于FisherFace[114]、特征臉EigenFace或零空間線性判別分析(Null-Space Linear Discriminant Analysis,NLDA)[115]的人臉識別方法,進(jìn)行身份識別.在具體試驗中,通常將測試集的全部樣本隨機(jī)劃分為人臉識別模型的訓(xùn)練集和測試集,依此多次重復(fù)進(jìn)行人臉識別的訓(xùn)練-測試實驗,統(tǒng)計平均識別精度,作為合成人臉圖像可解譯度評價指標(biāo).此外,研究人員還研發(fā)了大量基于深度學(xué)習(xí)的人臉識別工作,也可以應(yīng)用于合成人臉的身份識別中.例如,Shi等[51]將從人臉照片數(shù)據(jù)與訓(xùn)練好的SphereFace網(wǎng)絡(luò)[116]在人臉漫畫圖像上進(jìn)行微調(diào),使其適用于漫畫人臉識別.之后,在測試階段,將其用于計算合成漫畫的身份識別精度,作為可解譯度的度量.

      2)屬性解譯度:是指可以從圖像中識別出目標(biāo)屬性的程度,通常作為任務(wù)特定的評價指標(biāo).例如,年齡合成的目的是合成目標(biāo)年齡段的人臉,因此合成人臉需要符合目標(biāo)年齡段的特點,即可以被人識別為指定年齡段.因此,可以考慮對合成人臉進(jìn)行年齡估計,計算估計年齡與實際年齡之間的差異或相近程度,作為年齡合成算法的性能指標(biāo)之一.而在人臉美顏任務(wù)中,則可以利用人臉吸引力預(yù)測模型評估合成人臉的美觀程度,用于對應(yīng)人臉美顏方法的性能指標(biāo).一般情況下,這里采用的屬性預(yù)測模型可以是在標(biāo)準(zhǔn)數(shù)據(jù)集上預(yù)訓(xùn)練好的,并且具有較高的分類精度.

      4.2.3 真實度

      為了評價合成人臉圖像的真實度,即其是否逼真,現(xiàn)有工作中通常采用Inception Score (IS)和Fechit Inception Distance (FID)作為評測指標(biāo).IS和FID已經(jīng)廣泛應(yīng)用于圖像生成任務(wù)中.特別是FID在描述生成圖像真實度和多樣性方面,與人眼主觀感受表現(xiàn)出了較高的一致性.

      1)IS:描述了某一特征空間中,生成圖像的分布與真實目標(biāo)圖像對應(yīng)的分布之間的KL-divergence距離[8].IS分?jǐn)?shù)越高,一般可以認(rèn)為生成圖像質(zhì)量更為真實.但I(xiàn)S對使用的深度學(xué)習(xí)框架高度敏感,而且不能反映過度擬合與模型坍塌現(xiàn)象,因此單獨使用IS評價圖像真實度并不精確.

      2)FID:主要描述了某一特征空間中,生成圖像的分布與真實目標(biāo)圖像對應(yīng)的分布之間的推土機(jī)距離(Earth Mover Distance,EMD)[8].FID越小,表明生成圖像越逼真.FID對模型坍塌更加敏感.相比較IS來說,F(xiàn)ID對噪聲有更好的魯棒性.因為假如只有一種圖片時,F(xiàn)ID這個距離將會相當(dāng)高.因此,F(xiàn)ID更適合描述生成圖像的多樣性.

      現(xiàn)在,普遍采用Inception V3網(wǎng)絡(luò)[117]的最后一層輸出作為圖像特征表達(dá),然后用于計算IS或FID.然而,Inception V3是在ImageNet上針對一般圖像目標(biāo)檢測任務(wù)訓(xùn)練的,用Inception V3特征計算IS或FID,然后將其應(yīng)用于評估合成的異質(zhì)人臉圖像真實度,這是有問題的.有必要針對特定的異質(zhì)人臉圖像類型,訓(xùn)練專門的深度特征提取網(wǎng)絡(luò),用于計算IS和FID,以計算合成圖像的真實度.

      5 數(shù)據(jù)集及性能分析

      現(xiàn)在,除人臉畫像合成之外,其他異質(zhì)人臉圖像合成工作相對較少,或普遍缺少統(tǒng)一的基準(zhǔn)數(shù)據(jù)集和評價準(zhǔn)則,難以得出可靠的對比分析結(jié)論.因此本章節(jié)主要介紹相對系統(tǒng)的部分工作,包括人臉畫像合成、漫畫合成、年齡合成和人臉美顏4個方面的數(shù)據(jù)集,以及對部分合成結(jié)果進(jìn)行性能分析.

      5.1 數(shù)據(jù)集

      5.1.1 畫像合成數(shù)據(jù)集

      人臉畫像合成的任務(wù)研究已久,而且已經(jīng)取得了很大進(jìn)展.其中應(yīng)用最為廣泛的人臉照片-畫像數(shù)據(jù)集是香港中文大學(xué)(Chinese University of Hong Kong,CUHK)的CUHK Face Sketch (CUFS)數(shù)據(jù)庫[19]和CUHK Face Sketch FERET (CUFSF)數(shù)據(jù)庫[118].其信息如下:

      1)CUFS:總共包含606對人臉畫像和照片數(shù)據(jù),每張照片存在一幅畫家手繪的畫像.這些照片均為單張正面中性表情證件照,分別來自3個子庫:CUHK Student數(shù)據(jù)庫[119](188張)、AR數(shù)據(jù)庫[120](123張)和XM2VTS數(shù)據(jù)庫[121](295張).

      2)CUFSF:包含1 194對人臉畫像-照片,其中照片來自于FERET數(shù)據(jù)庫[122],每人有一張照片和一幅畫像.CUFSF數(shù)據(jù)庫中的畫像有更多的夸張成分,照片與畫像之間存在較為嚴(yán)重的非對齊情況,因此更具挑戰(zhàn)性.

      5.1.2 人臉漫畫數(shù)據(jù)集

      當(dāng)前規(guī)模較大、使用較為廣泛的數(shù)據(jù)集主要有IIT-CFW[123]和WebCaricature[124],其信息如下:

      1)IIIT-CFW[123]:是一個非可控卡通人臉數(shù)據(jù)集,包含了8 928張不同職業(yè)的世界知名人士的注釋卡通人臉.它還為交叉模態(tài)檢索任務(wù)提供了1 000個公眾人物的真實面孔.

      2)WebCaricature[124]:網(wǎng)絡(luò)漫畫數(shù)據(jù)集包含了252位名人的5 974張照片和6 042幅漫畫圖像,是目前最大的漫畫數(shù)據(jù)集.由南京理工大學(xué)研究人員構(gòu)建,主要用于動漫人臉識別及合成任務(wù).

      5.1.3 年齡合成數(shù)據(jù)集

      人臉年齡合成數(shù)據(jù)集主要為Morph[125]、CACD[126]和FGNET[127],相關(guān)信息如下:

      1)Morph[125]:包含13 000多人的55 000張獨特圖像.年齡從16歲到77歲,平均年齡為33歲.每個人的平均圖像數(shù)量為4張,照片之間的平均時間間隔為164天,最小為1天,最大為1 681天.

      2)CACD[126]:首先找到超過200 000張圖像,其中包含所有2 000名名人的面部,然后使用基于低層特征的簡單重復(fù)檢測算法來去除重復(fù)圖像,故該數(shù)據(jù)集包含2 000名名人的163 446張圖像,這是已知的最大的公開跨年齡數(shù)據(jù)集.

      3)FG-NET[127]:發(fā)布于2004年,旨在研究由衰老引起的面部外觀變化,包含82名受試者的1 002張圖像,年齡從0到69歲,每張圖像含有68個手動標(biāo)注的關(guān)鍵點.

      5.1.4 人臉美顏數(shù)據(jù)集

      現(xiàn)有的人臉美顏數(shù)據(jù)集主要是研究人員自己搜集的,現(xiàn)有工作里提及的數(shù)據(jù)集主要有以下兩個:

      1)Multi-Modality Beauty (M2B)[128]:M2B數(shù)據(jù)庫包括1 240位女性的面部、著裝圖像和音頻文件,并為每種情態(tài)提供相應(yīng)的吸引力評分.評分范圍在1到10分之間,1分是最低的美麗水平,10分是最高的.在我們的模型的訓(xùn)練過程中,只使用了人臉圖像方面的信息.

      2)Makeup Transfer(MT)[129]:包含1 115張源圖像和2 719張參照上妝圖像,有多種姿態(tài)和表情變化.

      除此之外,還有一些數(shù)據(jù)都可以考慮作為人臉美顏的輔助數(shù)據(jù),用于人臉的美化或人臉美學(xué)因素的挖掘和分析.例如,CelebA數(shù)據(jù)集[130]也包含近20萬張人臉圖像,每幅圖像給出了是否具有吸引力的二值化標(biāo)簽;SCUT-FBP5500數(shù)據(jù)集[131]包含了5 500張人臉圖像,在每張圖像都依據(jù)其美觀程度,給出了大量觀測者給出的分?jǐn)?shù)分布、平均分?jǐn)?shù)等標(biāo)記數(shù)據(jù).

      5.2 性能分析

      5.2.1 畫像合成性能分析

      我們考慮最新的一些基于生成對抗網(wǎng)絡(luò)的人臉畫像合成工作.表3中列出了人臉畫像合成數(shù)據(jù)集及部分工作的性能定量分析數(shù)據(jù).在各個數(shù)據(jù)集上,各個最優(yōu)性能指標(biāo)進(jìn)行了加粗顯示.通過對比可以發(fā)現(xiàn),改進(jìn)型的生成對抗網(wǎng)絡(luò),在各個指標(biāo)上普遍由于原始的cGAN和CycleGAN模型.整體而言,SCA-GAN取得了最優(yōu)的FID指標(biāo),說明其生成的人臉畫像最為逼真;而且其在CUFSF數(shù)據(jù)集上取得了最優(yōu)的性能.SS-GAN也取得了較好的性能,說明采用附加數(shù)據(jù)和半監(jiān)督學(xué)習(xí)算法,可以有效提升網(wǎng)絡(luò)的訓(xùn)練效果.Col-Nets和MDAL方法都基于協(xié)作生成思想,也在部分指標(biāo)上具有優(yōu)異表現(xiàn).

      圖9顯示了部分人臉畫像合成結(jié)果,包括Pix2Pix[9]、 CycleGAN[16]、Col-Nets [36]、 Col-GAN [36]等方法.可以看出,使用原始生成對抗網(wǎng)絡(luò)Pix2Pix

      或CycleGAN難以合成逼真的細(xì)節(jié).對比之下,基于改進(jìn)的生成對抗網(wǎng)絡(luò),普遍可以得到較為逼真的人臉畫像.具體而言,SCA-GAN和Col-cGAN在紋理細(xì)節(jié)上都有不錯的表現(xiàn).Col-Nets的合成結(jié)果局部區(qū)域間過渡較為平滑,對比度相對較弱.整體而言,現(xiàn)在的人臉畫像合成方法已經(jīng)取得了較為滿意的成果.

      5.2.2 漫畫合成性能分析

      在現(xiàn)有的人臉漫畫合成中,普遍使用主觀評價方法來評判合成漫畫人臉的質(zhì)量.例如,CariGAN[50]和WarpGAN[51]都通過讓觀測者對合成人臉進(jìn)行打分,評估不同方法合成漫畫的視覺質(zhì)量、身份保持程度或者夸張程度.最后對所有評價進(jìn)行綜合,作為各個方法的性能評估結(jié)果.此外文獻(xiàn)[48]中還使用了IS作為合成漫畫人臉的性能指標(biāo).而WarpGAN[51]中則使用了兩種人臉識別模型測試合成漫畫的可解譯度.具體而言,其使用了一種商用的離線人臉匹配模型(Commercial-Off-The-Shelf,COTS)和SphereFace[116]用來進(jìn)行照片-照片、手繪漫畫-照片、WarpGAN生成漫畫-照片之間的身份匹配任務(wù).表4給出了WarpGAN在WebCaricature數(shù)據(jù)集上對應(yīng)的人臉識別精度和主觀質(zhì)量評價結(jié)果.可以看出,WarpGAN在人臉身份保持、幾何結(jié)構(gòu)變形和視覺質(zhì)量方面都取得了不錯的效果.

      由于人臉漫畫與照片之間存在嚴(yán)重的幾何變形,而大部分基于生成對抗網(wǎng)絡(luò)的漫畫合成算法缺少有效的幾何變形機(jī)制,因此難以合成高質(zhì)量的漫畫圖像.基于最新的進(jìn)展,WarpGAN方法[51]展現(xiàn)出了最優(yōu)的合成效果.圖10給出了CycleGAN和WarpGAN的部分合成結(jié)果(所有結(jié)果來自文獻(xiàn)[51]).可以看出,CycleGAN難以實現(xiàn)人臉幾何結(jié)構(gòu)變形和漫畫紋理的生成.相比而言,WarpGAN有效模擬了人臉的幾何形變.這主要是因為在WarpGAN中引入了空間變形(Spatial Transformer)模塊[132].不過,其在幾何形變和紋理生成的細(xì)節(jié)等方面還存在一定的缺陷,而且存在合成失敗的情形,還有待進(jìn)一步提升.

      5.2.3 年齡合成性能分析

      在年齡合成任務(wù)中,通常將年齡劃分為幾個階段,然后訓(xùn)練模型使其可以基于輸入年齡段圖像,合成目標(biāo)年齡段圖像.在具體性能評測中,主要使用了對于合成圖像的年齡估計精度作為主要指標(biāo).具體而言,一方面可以通過主觀實驗,讓觀測者估計合成圖像的年齡,然后與目標(biāo)年齡進(jìn)行比對;或者,給定不同年齡段的合成圖像,判斷其對應(yīng)年齡之間的相對關(guān)系,從而評判合成效果.另一方面,可以采用預(yù)訓(xùn)練好的模型,預(yù)測合成人臉圖像的年齡,進(jìn)而計算預(yù)測值與目標(biāo)值之間的一致性,利用平均精度或混淆矩陣來描述年齡合成算法的性能.此外,合成人臉也需要保持輸入人臉的身份信息,因此身份識別精度也是常用指標(biāo)之一.表5和表6顯示了部分當(dāng)前算法的年齡解譯度和身份解譯度評價結(jié)果[68].整體而言,現(xiàn)有方法對于成年階段的年齡合成任務(wù),在年齡解譯度和身份解譯度方面都取得了不錯的性能. 圖11顯示了Dual cGAN方法[67]的部分跨年齡段合成結(jié)果.可以看出,對于成年階段的人臉,Dual cGAN可以合成出較為合理的圖像.然而,對于幼年階段的人臉,合成圖像中存在較為嚴(yán)重的結(jié)構(gòu)失真和模糊等.這也是現(xiàn)在的年齡合成模型普遍存在的現(xiàn)象.這是由于大部分人臉在成年之前存在幅度較大的幾何變形,但現(xiàn)有的模型普遍是基于卷積操作,難以有效捕捉幾何結(jié)構(gòu)上的變形機(jī)制.

      5.2.4 人臉美顏性能分析

      現(xiàn)有的人臉美顏相關(guān)工作,主要集中在人臉上妝功能,主要涉及嘴部、面部、眼部等關(guān)鍵部位的妝容.而且,現(xiàn)有工作一般是給定一張人臉源圖像,一張上妝參考圖像,實現(xiàn)妝容的遷移.圖12給出了PSGAN模型的上妝效果圖.可以看出,其可以實現(xiàn)指定部位、指定程度的妝容遷移,而且對于姿態(tài)、表情等十分魯棒.不過,實際應(yīng)用中,人臉美顏不一定只是上妝,可能還包括光影、色彩、構(gòu)圖的調(diào)整.因此,有必要探索更為通用的多功能人臉美顏機(jī)制.

      6 問題與挑戰(zhàn)

      盡管異質(zhì)人臉圖像合成領(lǐng)域已經(jīng)取得了巨大進(jìn)展,現(xiàn)有模型仍然存在一定的局限性.具體而言,異質(zhì)人臉合成單依然面臨著以下挑戰(zhàn):

      1)不可控人臉圖像:現(xiàn)在的異質(zhì)人臉合成數(shù)據(jù)集中的圖像普遍為正面的中性表情人臉.而不可控條件下的人臉圖像通常在光照、姿態(tài)、表情等方面存在巨大差異.當(dāng)把從標(biāo)準(zhǔn)數(shù)據(jù)集上訓(xùn)練得到的模型應(yīng)用到不可控人臉圖像時,通常難以合成合理、高質(zhì)量的異質(zhì)人臉圖像.盡管相關(guān)方面已經(jīng)有了一定探索,但仍然有必要開展更多的工作,進(jìn)一步提升性能,以推進(jìn)相關(guān)技術(shù)的落地和應(yīng)用.

      2)幾何形變:異質(zhì)人臉圖像合成面臨的變形問題主要有3個方面:(a) 圖像域遷移過程不希望人臉變形,但標(biāo)記數(shù)據(jù)存在變形,限制了遷移模型的學(xué)習(xí)效率和性能,如畫像合成;(b) 遷移后圖像與輸入圖像之間存在小幅度形變,如年齡合成;(c) 遷移后圖像與輸入圖像之間存在大幅度的幾何形變,如漫畫合成.現(xiàn)有圖像域遷移普遍基于標(biāo)準(zhǔn)卷積操作,難以有效克服人臉幾何形變的影響或模擬人臉幾何形變的機(jī)制,導(dǎo)致遷移后圖像存在視覺質(zhì)量差、辨識度低等問題.如何克服標(biāo)記數(shù)據(jù)中幾何變形噪聲對于合成模型性能的限制,探索人臉幾何變形機(jī)制,對于提升合成圖像的真實度具有重要意義.

      3)多風(fēng)格:現(xiàn)有的異質(zhì)人臉圖像合成通常只考慮一種風(fēng)格.比如大部分畫像合成模型只能合成一種類型,而不同的畫家風(fēng)格會有所不同;現(xiàn)在的人臉美顏也普遍只考慮自動上妝功能,限制了人臉美化的多樣性.如何提升多風(fēng)格的異質(zhì)人臉圖像合成,利用一個模型實現(xiàn)多種風(fēng)格,甚至多種模態(tài)圖像的合成,以提升模型的多樣性和可靠性,是相關(guān)技術(shù)理論發(fā)展和應(yīng)用推廣的重點和難點.

      4)精細(xì)生成:現(xiàn)有的異質(zhì)人臉合成普遍針對相對低分辨率的人臉圖像,而且合成圖像在紋理細(xì)節(jié)、精微結(jié)構(gòu)方面存在不足.然而,在物質(zhì)生活日益豐富的今天,用戶對于圖像質(zhì)量的需求逐步提升,如何實現(xiàn)高精度、高質(zhì)量的人臉圖像合成,對于提升用戶體驗極為重要.

      5)視頻序列:隨著視頻媒體及視頻社交網(wǎng)絡(luò)的日益盛行,針對視頻序列,探索高效、高質(zhì)量異質(zhì)人臉合成變得極為重要.對于人臉視頻異質(zhì)生成,如何結(jié)合時空域紋理細(xì)節(jié)、幾何結(jié)構(gòu)等連續(xù)性對于合成視頻的質(zhì)量感知至關(guān)重要.對此可以參考視頻風(fēng)格遷移相關(guān)工作[133-134].

      6)性能評估:現(xiàn)在的異質(zhì)人臉圖像合成工作仍然缺少可靠、精準(zhǔn)的性能評估準(zhǔn)則.在現(xiàn)有工作中,所使用的評估指標(biāo)本身的可靠性仍然有待進(jìn)一步驗證,而且不同工作采用不同的性能指標(biāo),這對相關(guān)工作的性能評估以及對比分析造成了巨大困難.針對特定異質(zhì)人臉圖像合成任務(wù),開發(fā)專用的圖像視覺質(zhì)量評價方法、異質(zhì)人臉圖像識別模型、跨模態(tài)人臉識別方法等,都是未來有待完成的工作.

      7 結(jié)論

      本文對于基于生成對抗網(wǎng)絡(luò)的異質(zhì)人臉圖像合成工作進(jìn)行了回顧和總結(jié).首先,針對畫像合成、漫畫合成、年齡合成和人臉美顏以及其他異質(zhì)人臉圖像合成任務(wù),分別概述了最新的技術(shù)進(jìn)展.然后,從輸入、生成器、判別器、目標(biāo)函數(shù)4個方面對現(xiàn)有工作中的生成對抗網(wǎng)絡(luò)模型進(jìn)行了歸納.其次,從主觀評價、保真度、可解譯度和真實度等方面對現(xiàn)有工作中所采用的性能評估方法進(jìn)行了介紹.之后,對于現(xiàn)有工作中常見的數(shù)據(jù)集和已有方法的表現(xiàn)進(jìn)行了總結(jié)和分析,指出了現(xiàn)有方法的進(jìn)展和局限性.最后,對于異質(zhì)人臉圖像合成領(lǐng)域面臨的挑戰(zhàn)進(jìn)行了總結(jié).

      參考文獻(xiàn)

      References

      [1]高新波,王楠楠.異質(zhì)人臉圖像合成[M]∥張長水,楊強(qiáng).機(jī)器學(xué)習(xí)及其應(yīng)用2013.北京:清華大學(xué)出版社,2013:77-91

      GAO Xinbo,WANG Nannan.Heterogeneous facial image synthesis[M]∥ZHANG Changshui,YANG Qiang.Machine learning and its applications 2013.Beijing:Tsinghua University Press,2013:77-91

      [2]Wang N N,Tao D C,Gao X B,et al.A comprehensive survey to face hallucination[J].International Journal of Computer Vision,2014,106(1):9-30

      [3]Nguyen K,F(xiàn)ookes C,Sridharan S,et al.Super-resolution for biometrics:a comprehensive survey[J].Pattern Recognition,2018,78:23-42

      [4]Wang N N,Zhu M R,Li J,et al.Data-driven vs. model-driven:fast face sketch synthesis[J].Neurocomputing,2017,257:214-221

      [5]王楠楠,李潔,高新波.人臉畫像合成研究的綜述與對比分析[J].模式識別與人工智能,2018,31(1):37-48

      WANG Nannan,LI Jie,GAO Xinbo.A review and comparison study on face sketch synthesis[J].Pattern Recognition and Artificial Intelligence,2018,31(1):37-48

      [6]Goodfellow I,Pouget-Abadie J,Mirza M,et al.Generative adversarial nets[C]∥Advances in Neural Information Processing Systems,2014:2672-2680

      [7]Karras T,Aila T,Laine S,et al.Progressive growing of GANs for improved quality,stability,and variation[J].arXiv Preprint,2017,arXiv:1710.10196

      [8]Creswell A,White T,Dumoulin V,et al.Generative adversarial networks:an overview[J].IEEE Signal Processing Magazine,2018,35(1):53-65

      [9]Isola P,Zhu J Y,Zhou T,et al.Image-to-image translation with conditional adversarial networks[C]∥Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2017:1125-1134

      [10]Zhang H,Xu T,Li H S,et al.StackGAN++:realistic image synthesis with stacked generative adversarial networks[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2019,41(8):1947-1962

      [11]Johnson J,Alahi A,Li F F.Perceptual losses for real-time style transfer and super-resolution[C]∥European Conference on Computer Vision,2016:694-711

      [12]Huang X,Liu M Y,Belongie S,et al.Multimodal unsupervised image-to-image translation[C]∥European Conference on Computer Vision,2018:179-196

      [13]Li M J,Huang H Z,Ma L,et al.Unsupervised image-to-image translation with stacked cycle-consistent adversarial networks[C]∥European Conference on Computer Vision,2018:186-201

      [14]Zhang H,Xu T,Li H S,et al.Stackgan++:realistic image synthesis with stacked generative adversarial networks[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2018,41(8):1947-1962

      [15]Mao X D,Li Q,Xie H R,et al.Least squares generative adversarial networks[C]∥IEEE International Conference on Computer Vision (ICCV),2017:2794-2802

      [16]Zhu J Y,Park T,Isola P,et al.Unpaired image-to-image translation using cycle-consistent adversarial networks[C]∥IEEE International Conference on Computer Vision (ICCV),2017:2223-2232

      [17]Wang Z H,Chen J,Hoi S C H.Deep learning for image super-resolution:a survey[J].arXiv Preprint,2019,arXiv:1902.06068

      [18]Ha V K,Ren J C,Xu X Y,et al.Deep learning based single image super-resolution:a survey[J].International Journal of Automation and Computing,2019,16(4):413-426

      [19]Wang X G,Tang X O.Face photo-sketch synthesis and recognition[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2009,31(11):1955-1967

      [20]Zhang D Y,Lin L,Chen T S,et al.Content-adaptive sketch portrait generation by decompositional representation learning[J].IEEE Transactions on Image Processing,2017,26(1):328-339

      [21]Jiao L C,Zhang S B,Li L L,et al.A modified convolutional neural network for face sketch synthesis[J].Pattern Recognition,2018,76:125-136

      [22]Sheng B,Li P,Gao C H,et al.Deep neural representation guided face sketch synthesis[J].IEEE Transactions on Visualization and Computer Graphics,2018,25(12):3216-3230

      [23]Zhang M J,Wang N N,Gao X B,et al.Markov random neural fields for face sketch synthesis[C]∥Proceedings of the 27th International Joint Conference on Artificial Intelligence,2018:1142-1148

      [24]Zhang M J,Wang N N,Li Y S,et al.Face sketch synthesis from coarse to fine[C]∥Thirty-Second AAAI Conference on Artificial Intelligence,2018:7558-7565

      [25]Zhang M J,Wang N N,Li Y S,et al.Deep latent low-rank representation for face sketch synthesis[J].IEEE Transactions on Neural Networks and Learning Systems,2019,30(10):3109-3123

      [26]Wang N N,Zha W J,Li J,et al.Back projection:an effective postprocessing method for GAN-based face sketch synthesis[J].Pattern Recognition Letters,2018,107:59-65

      [27]Wang L D,Sindagi V,Patel V.High-quality facial photo-sketch synthesis using multi-adversarial networks[C]∥2018 13th IEEE International Conference on Automatic Face & Gesture Recognition (FG 2018),2018:83-90

      [28]Zhang S C,Ji R R,Hu J,et al.Robust face sketch synthesis via generative adversarial fusion of priors and parametric sigmoid[C]∥Proceedings of the 27th International Joint Conference on Artificial Intelligence,2018:1163-1169

      [29]Zhang S C,Ji R R,Hu J,et al.Face sketch synthesis by multidomain adversarial learning[J].IEEE Transactions on Neural Networks and Learning Systems,2019,30(5):1419-1428

      [30]Chen C F,Liu W,Tan X,et al.Semi-supervised learning for face sketch synthesis in the wild[C]∥Asian Conference on Computer Vision,2019:216-231

      [31]Bae S,Ud Din N,Javed K,et al.Efficient generation of multiple sketch styles using a single network[J].IEEE Access,2019,7:100666-100674

      [32]Zhang M J,Li J,Wang N N,et al.Compositional model-based sketch generator in facial entertainment[J].IEEE Transactions on Cybernetics,2018,48(3):904-915

      [33]Yi R,Liu Y J,Lai Y K,et al.APDrawingGAN:generating artistic portrait drawings from face photos with hierarchical GANs[C]∥Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2019:10743-10752

      [34]Zhang M J,Wang R X,Gao X B,et al.Dual-transfer face sketch-photo synthesis[J].IEEE Transactions on Image Processing,2019,28(2):642-657

      [35]Yu J,Shi S J,Gao F,et al.Towards realistic face photo-sketch synthesis via composition-aided GANs[J].arXiv Preprint,2017,arXiv:1712.00899

      [36]Zhu M R,Li J,Wang N N,et al.A deep collaborative framework for face photo-sketch synthesis[J].IEEE Transactions on Neural Networks and Learning Systems,2019,30(10):3096-3108

      [37]Zhang S C,Ji R R,Hu J,et al.Face sketch synthesis by multidomain adversarial learning[J].IEEE Transactions on Neural Networks and Learning Systems,2019,30(5):1419-1428

      [38]Sadimon S B,Sunar M S,Mohamad D,et al.Computer generated caricature:a survey[C]∥IEEE International Conference on Cyberworlds,2010:383-390

      [39]Hill M Q,Parde C J,Castillo C D,et al.Deep convolutional neural networks in the face of caricature:identity and image revealed[J].arXiv preprint,2018,arXiv:1812.10902

      [40]Wu Q Y,Zhang J Y,Lai Y K,et al.Alive caricature from 2D to 3D[C]∥IEEE/CVF Conference on Computer Vision and Pattern Recognition,2018:7736-7345

      [41]Zhou J Y,Wu H T,Liu Z C,et al.3D cartoon face rigging from sparse examples[J].The Visual Computer,2018,34(9):1177-1187

      [42]Huo J,Li W B,Shi Y H,et al.WebCaricature:a benchmark for caricature recognition[J].arXiv Preprint,2017,arXiv:1703.03230

      [43]Akleman E.Making caricatures with morphing[C]∥Visual Proceedings:The Art and Interdisciplinary Programs of SIGGRAPH97,1997,DOI:10.1145/259081.259231

      [44]Liang L,Chen H,Xu Y Q,et al.Example-based caricature generation with exaggeration[C]∥Proceedings of 10th Pacific Conference on Computer Graphics and Applications,2002:386-393

      [45]Liu Z Q,Chen H,Shum H Y.An efficient approach to learning inhomogeneous Gibbs model[C]∥IEEE Computer Society Conference on Computer Vision and Pattern Recognition,2003,DOI:10.1109/cvpr.2003.1211385

      [46]Chiang P Y,Liao W H,Li T Y.Automatic caricature generation by analyzing facial features[C]∥Proceeding of 2004 Asia Conference on Computer Vision (ACCV2004),2004

      [47]Garg J,Peri S V,Tolani H,et al.Deep cross modal learning for caricature verification and identification (CaVINet)[C]∥Proceedings of the 26th ACM International Conference on Multimedia,2018:1101-1109

      [48]Zheng Z Q,Wang C,Yu Z B,et al.Unpaired photo-to-caricature translation on faces in the wild[J].Neurocomputing,2019,355:71-81

      [49]Han X G,Hou K C,Du D,et al.CaricatureShop:personalized and photorealistic caricature sketching[J].arXiv Preprint,2018,arXiv:1807.09064

      [50]Li W B,Xiong W,Liao H F,et al.CariGAN:caricature generation through weakly paired adversarial learning[J].arXiv Preprint,2018,arXiv:1811.00445

      [51]Shi Y,Deb D,Jain A K.WarpGAN:automatic caricature generation[C]∥Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2019:10762-10771

      [52]Shu X B,Xie G S,Li Z C,et al.Age progression:current technologies and applications[J].Neurocomputing,2016,208:249-261

      [53]Shu X B,Tang J H,Lai H J,et al.Kinship-guided age progression[J].Pattern Recognition,2016,59:156-167

      [54]Ramanathan N,Chellappa R.Modeling shape and textural variations in aging faces[C]∥2008 8th IEEE International Conference on Automatic Face & Gesture Recognition,2008:1-8

      [55]Suo J L,Chen X L,Shan S G,et al.A concatenational graph evolution aging model[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2012,34(11):2083-2096

      [56]Todd J T,Mark L S,Shaw R E,et al.The perception of human growth[J].Scientific American,1980,242(2):132-144

      [57]Wu Y,Thalmann N M,Thalmann D.A plastic-visco-elastic model for wrinkles in facial animation and skin aging[C]∥Proceedings of the second Pacific Conference on Fundamentals of Computer Graphics,1994:201-213

      [58]Wang Y H,Zhang Z X,Li W X,et al.Combining tensor space analysis and active appearance models for aging effect simulation on face images[J].IEEE Transactions on Systems,Man,and Cybernetics,Part B (Cybernetics),2012,42(4):1107-1118

      [59]Kemelmacher-Shlizerman I,Suwajanakorn S,Seitz S M.Illumination-aware age progression[C]∥Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2014:3334-3341

      [60]Yang H Y,Huang D,Wang Y H,et al.Face aging effect simulation using hidden factor analysis joint sparse representation[J].IEEE Transactions on Image Processing,2016,25(6):2493-2507

      [61]Zhang Z F,Song Y,Qi H R.Age progression/regression by conditional adversarial autoencoder[C]∥Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2017:5810-5818

      [62]Zhou S Y,Zhao W Q,F(xiàn)eng J S,et al.Personalized and occupational-aware age progression by generative adversarial networks[J].arXiv Preprint,2017,arXiv:1711.09368

      [63]Yang H Y,Huang D,Wang Y H,et al.Learning face age progression:a pyramid architecture of GANs[C]∥IEEE/CVF Conference on Computer Vision and Pattern Recognition,2018:31-39

      [64]Li P P,Hu Y B,Li Q,et al.Global and local consistent age generative adversarial networks[C]∥24th International Conference on Pattern Recognition (ICPR),2018,DOI:10.1109/ICPR.2018.8545119

      [65]Song J K,Zhang J Q,Gao L L,et al.Dual conditional GANs for face aging and rejuvenation[C]∥Proceedings of the Twenty-Seventh International Joint Conference on Artificial Intelligence (IJCAI),2018:899-905

      [66]Kossaifi J,Tran L,Panagakis Y,et al.GAGAN:geometry-aware generative adversarial networks[C]∥IEEE/CVF Conference on Computer Vision and Pattern Recognition,2018:878-887

      [67]Wang W,Cui Z,Yan Y,et al.Recurrent face aging[C]∥Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2016:2378-2386

      [68]Nhan D C,Gia Q K,Luu K,et al.Temporal non-volume preserving approach to facial age-progression and age-invariant face recognition[C]∥Proceedings of the IEEE International Conference on Computer Vision,2017:3735-3743

      [69]Palsson S,Agustsson E,Timofte R,et al.Generative adversarial style transfer networks for face aging[C]∥IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops (CVPRW),2018:2084-2092

      [70]Sdol E.Trends in cognitive sciences[J].Talk Psychology Journals,2009,19(4):9-11

      [71]Shi S J,Gao F,Meng X T,et al.Improving facial attractiveness prediction via co-attention learning[C]∥IEEE International Conference on Acoustics,Speech and Signal Processing (ICASSP),2019,DOI:10.1109/ICASSP.2019.8683112

      [72]Chen F M,Xiao X H,Zhang D.Data-driven facial beauty analysis:prediction,retrieval and manipulation[J].IEEE Transactions on Affective Computing,2018,9(2):205-216

      [73]Liang L Y,Jin L W,Li X L.Facial skin beautification using adaptive region-aware masks[J].IEEE Transactions on Cybernetics,2014,44(12):2600-2612

      [74]Liang L Y,Jin L W,Liu D.Edge-aware label propagation for mobile facial enhancement on the cloud[J].IEEE Transactions on Circuits and Systems for Video Technology,2017,27(1):125-138

      [75]Leyvand T,Cohen-Or D,Dror G,et al.Digital face beautification[C]∥ACM SIGGRAPH 2006 Sketches,2006,DOI:10.1145/1179849.1180060

      [76]Li J S,Xiong C,Liu L Q,et al.Deep face beautification[C]∥Proceedings of the 23rd ACM International Conference on Multimedia,2015:793-794

      [77]Guo D,Sim T.Digital face makeup by example[C]∥2009 IEEE Conference on Computer Vision and Pattern Recognition.IEEE,2009,DOI:10.1109/CVPR.2009.5206833

      [78]Alashkar T,Jiang S Y,Wang S Y,et al.Examples-rules guided deep neural network for makeup recommendation[C]∥Thirty-First AAAI Conference on Artificial Intelligence,2017:941-947

      [79]Ou X Y,Liu S,Cao X C,et al.Beauty emakeup:a deep makeup transfer system[C]∥Proceedings of the 24th ACM International Conference on Multimedia,2016:701-702

      [80]Jiang W T,Liu S,Gao C,et al.PSGAN:pose-robust spatial-aware GAN for customizable makeup transfer[J].arXiv Preprint,2019,arXiv:1909.06956

      [81]Han H,Jain A K,Wang F,et al.Heterogeneous face attribute estimation:a deep multi-task learning approach[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2018,40(11):2597-2609

      [82]Wang Z L,Chen Z Z,Wu F.Thermal to visible facial image translation using generative adversarial networks[J].IEEE Signal Processing Letters,2018,25(8):1161-1165

      [83]Dou H,Chen C,Hu X Y,et al.Asymmetric cyclegan for unpaired NIR-to-RGB face image translation[C]∥IEEE International Conference on Acoustics,Speech and Signal Processing (ICASSP),2019,DOI:10.1109/ICASSP.2019.8682600

      [84]Zhang T,Wiliem A,Yang S Q,et al.TV-GAN:generative adversarial network based thermal to visible face recognition[C]∥2018 International Conference on Biometrics (ICB),2018,DOI:10.1109/ICB2018.2018.00035

      [85]Chen C,Ross A.Matching thermal to visible face images using a semantic-guided generative adversarial network[J].arXiv Preprint,2019,arXiv:1903.00963

      [86]Gatys L A,Ecker A S,Bethge M.Image style transfer using convolutional neural networks[C]∥IEEE Conference on Computer Vision and Pattern Recognition (CVPR),2016:2414-2423

      [87]Huang X,Belongie S.Arbitrary style transfer in real-time with adaptive instance normalization[C]∥Proceedings of the IEEE International Conference on Computer Vision,2017:1501-1510

      [88]Gatys L A,Ecker A S,Bethge M,et al.Controlling perceptual factors in neural style transfer[C]∥IEEE Conference on Computer Vision and Pattern Recognition (CVPR),2017:3985-3993

      [89]Johnson J,Alahi A,Li F F.Perceptual losses for real-time style transfer and super-resolution[M]∥Computer Vision-CCV 2016.Cham:Springer International Publishing,2016:694-711.DOI:10.1007/978-3-319-46475-6-43

      [90]Li Y J,F(xiàn)ang C,Yang J M,et al.Diversified texture synthesis with feed-forward networks[C]∥Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2017:3920-3928

      [91]Jing Y C,Yang Y Z,F(xiàn)eng Z L,et al.Neural style transfer:a review[J].IEEE Transactions on Visualization and Computer Graphics,2019,DOI:10.1109/TVCG.2019.2921336

      [92]Wu X,Xu K,Hall P.A survey of image synthesis and editing with generative adversarial networks[J].Tsinghua Science and Technology,2017,22(6):660-674

      [93]Selim A,Elgharib M,Doyle L.Painting style transfer for head portraits using convolutional neural networks[J].ACM Transactions on Graphics,2016,35(4):1-18

      [94]Fier J,Jamrika O,Lukc'? M,et al.StyLit:illumination-guided example-based stylization of 3D renderings[J].ACM Transactions on Graphics (TOG),2016,35(4):92

      [95]Fier J,Jamrika O,Simons D,et al.Example-based synthesis of stylized facial animations[J].ACM Transactions on Graphics (TOG),2017,36(4):155

      [96]Huang R,Zhang S,Li T Y,et al.Beyond face rotation:global and local perception GAN for photorealistic and identity preserving frontal view synthesis[C]∥IEEE International Conference on Computer Vision (ICCV),2017:2439-2448

      [97]Li C,Wand M.Precomputed real-time texture synthesis with Markovian generative adversarial networks[C]∥European Conference on Computer Vision,2016:702-716

      [98]Odena A,Olah C,Shlens J.Conditional image synthesis with auxiliary classifier GANs[C]∥Proceedings of the 34th International Conference on Machine Learning-Volume 70,2017:2642-2651

      [99]Zhang L M,Ji Y,Lin X,et al.Style transfer for anime sketches with enhanced residual U-net and auxiliary classifier GAN[C]∥2017 4th IAPR Asian Conference on Pattern Recognition (ACPR),2017,DOI:10.1109/ACPR.2017.61

      [100]Parkhi O M,Vedaldi A,Zisserman A.Deep face recognition[C]∥Proceedings of the British Machine vision conference,2015

      [101]高新波.視覺信息質(zhì)量評價方法[M].西安:西安電子科技大學(xué)出版社,2011

      GAO Xinbo.Visual information quality assessment[M].Xian:Xidian University Press,2011

      [102]International Telecommunication Union Methodology for the subjective assessment of the quality of television pictures[R].Recommendation ITU-R BT.500-13,2012

      [103]Video Quality Expert Group (VQEG).Subjective test plan[R].Version 3.Geneva,Switzerland:Video Quality Expert Group,2003

      [104]高飛.學(xué)習(xí)盲圖像質(zhì)量評價方法研究[D].西安:西安電子科技大學(xué),2015

      GAO Fei.Study on learning blind image quality assessment[D].Xian:Xidian University,2015

      [105]Thurstone L L.A law of comparative judgment[J].Psychological Review,1994,101(2):266-270

      [106]Tsukida K,Gupta M R.How to analyze paired comparison data[R].UWEE Technical Report,No.UWEETR-2011-0004,2011

      [107]Gao F,Tao D C,Gao X B,et al.Learning to rank for blind image quality assessment[J].IEEE Transactions on Neural Networks & Learning Systems,2017,26(10):2275-2290

      [108]Ma K D,Liu W T,Liu T L,et al.DipIQ:blind image quality assessment by learning-to-rank discriminable image pairs[J].IEEE Transactions on Image Processing,2017,26(8):3951-3964

      [109]Wang N N,Gao X B,Li J,et al.Evaluation on synthesized face sketches[J].Neurocomputing,2016,214:991-1000

      [110]Fan D P,Zhang S C,Wu Y H,et al.Scoot:a perceptual metric for facial sketches[J].arXiv Preprint,2019,arXiv:1908.08433

      [111]Wang Z,Bovik A C,Sheikh H R,et al.Image quality assessment:from error visibility to structural similarity[J].IEEE Transactions on Image Processing,2004,13(4):600-612

      [112]Zhang L,Zhang L,Mou X Q,et al.FSIM:a feature similarity index for image quality assessment[J].IEEE Transactions on Image Processing,2011,20(8):2378-2386

      [113]Sheikh H R,Bovik A C.Image information and visual quality[J].IEEE Transactions on Image Processing,2006,15(2):430-444

      [114]Tang X O,Wang X G.Face sketch synthesis and recognition[C]∥Proceedings Ninth IEEE International Conference on Computer Vision,2003:687-694

      [115]Chen L F,Liao H Y M,Ko M T,et al.A new LDA-based face recognition system which can solve the small sample size problem[J].Pattern Recognition,2000,33(10):1713-1726

      [116]Liu W Y,Wen Y D,Yu Z D,et al.SphereFace:deep hypersphere embedding for face recognition[C]∥IEEE Conference on Computer Vision and Pattern Recognition (CVPR),2017:212-220

      [117]Szegedy C,Vanhoucke V,Ioffe S,et al.Rethinking the inception architecture for computer vision[C]∥IEEE Conference on Computer Vision and Pattern Recognition (CVPR),2016:2818-2826

      [118]Zhang W,Wang X G,Tang X O.Coupled information-theoretic encoding for face photo-sketch recognition[C]∥IEEE Conference on Computer Vision and Pattern Recognition (CVPR),2011,DOI:10.1109/CVPR.2011.5995324

      [119]Tang X O,Wang X G.Face photo recognition using sketch[C]∥Proceedings International Conference on Image Processing,2002,DOI:10.1109/ICIP.2002.1038008

      [120]Martínez A,Benavente R.The AR face database[R].Computer Vision Center Technical Report,No.24,1998

      [121]Messer K,Matas J,Kittler J,et al.XM2VTSDB:the extended M2VTS database[C]∥Second International Conference on Audio and Video-Based Biometric Person Authentication,1999,964:965-966

      [122]Phillips P J,Moon H,Rizvi S A,et al.The FERET evaluation methodology for face-recognition algorithms[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2000,22(10):1090-1104

      [123]Mishra A,Rai S N,Mishra A,et al.IIIT-CFW:a benchmark database of cartoon faces in the wild[C]∥European Conference on Computer Vision,2016:35-47

      [124]Huo J,Li W B,Shi Y H,et al.WebCaricature:a benchmark for caricature recognition[J].arXiv Preprint,2017,arXiv:1703.03230

      [125]Kemelmacher-Shlizerman I,Suwajanakorn S,Seitz S M.Illumination-aware age progression[C]∥IEEE Conference on Computer Vision and Pattern Recognition,2014:3334-3341

      [126]Chen B C,Chen C S,Hsu W H.Cross-age reference coding for age-invariant face recognition and retrieval[C]∥European Conference on Computer Vision,2014:768-783

      [127]Lanitis A,Taylor C J,Cootes T F.Toward automatic simulation of aging effects on face images[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2002,24(4):442-455

      [128]Nguyen T V,Liu S,Ni B B,et al.Sense beauty via face,dressing,and/or voice[C]∥Proceedings of the 20th ACM International Conference on Multimedia,2012:239-248

      [129]Li T T,Qian R H,Dong C,et al.BeautyGAN:instance-level facial makeup transfer with deep generative adversarial network[C]∥ACM Multimedia Conference on Multimedia Conference,2018:645-653

      [130]Liu Z W,Luo P,Wang X G,et al.Deep learning face attributes in the wild[C]∥IEEE International Conference on Computer Vision (ICCV),2015:3730-3738

      [131]Liang L Y,Lin L J,Jin L W,et al.SCUT-FBP5500:a diverse benchmark dataset for multi-paradigm facial beauty prediction[C]∥24th International Conference on Pattern Recognition (ICPR),2018:1598-1603

      [132]Jaderberg M,Simonyan K,Zisserman A.Spatial transformer networks[C]∥Advances in Neural Information Processing Systems,2015:2017-2025

      [133]Li H Y,Xu X M,Cai B L,et al.Style transfer at 100+FPS via sub-pixel super-resolution[C]∥IEEE International Conference on Multimedia & Expo Workshops (ICMEW),2018,DOI:10.1109/ICMEW.2018.8551538

      [134]Huang H Z,Wang H,Luo W H,et al.Real-time neural style transfer for videos[C]∥IEEE Conference on Computer Vision and Pattern Recognition (CVPR),2017:783-791

      Abstract Heterogeneous face synthesis aims at generating visually realistic and identity-preserving portraits of different modality,such as sketches,caricatures,etc.Heterogeneous face synthesis is of great significance for both public security and digital entertainment,and has attracted numerous attention.Recently,inspired by the dramatic progress in generative adversarial networks (GANs) and their great successes in image-to-image translation tasks,researchers have proposed a number of new heterogeneous face synthesis methods based on GANs.In this paper,we briefly introduce the development of heterogeneous face synthesis,and detailed recent progresses in terms of developments of applications,architectures of GANs,performance evaluation approaches,datasets,and qualitative analysis.Finally,we summarize the challenges and some prospects of heterogeneous face synthesis.

      Key words generative adversarial networks;heterogeneous face synthesis;image style transfer;deep learning;digital art

      猜你喜歡
      生成對抗網(wǎng)絡(luò)數(shù)字藝術(shù)深度學(xué)習(xí)
      基于深度卷積生成對抗網(wǎng)絡(luò)模型的超分辨數(shù)據(jù)重建
      基于生成對抗網(wǎng)絡(luò)的圖片風(fēng)格遷移
      基于生成對抗網(wǎng)絡(luò)的人臉灰度圖上色
      非真實感繪制技術(shù)的發(fā)展綜述
      數(shù)字藝術(shù)在云南景頗織錦工藝傳承中的應(yīng)用
      淺談計算機(jī)數(shù)字藝術(shù)教育
      東方教育(2016年11期)2017-01-16 01:26:51
      電子商務(wù)包裝的互動研究
      MOOC與翻轉(zhuǎn)課堂融合的深度學(xué)習(xí)場域建構(gòu)
      大數(shù)據(jù)技術(shù)在反恐怖主義中的應(yīng)用展望
      深度學(xué)習(xí)算法應(yīng)用于巖石圖像處理的可行性研究
      平度市| 黄骅市| 昆明市| 房产| 淅川县| 威信县| 公安县| 镇安县| 武胜县| 肥城市| 棋牌| 兴隆县| 黔西县| 河北区| 荃湾区| 瑞昌市| 昭平县| 徐汇区| 萍乡市| 龙川县| 喀喇沁旗| 越西县| 安宁市| 武强县| 宜黄县| 东平县| 阳春市| 和田县| 宣恩县| 涟源市| 涞源县| 兴和县| 洮南市| 静安区| 二连浩特市| 关岭| 特克斯县| 宁晋县| 娱乐| 东莞市| 驻马店市|