• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于STGAN的人臉屬性編輯改進(jìn)模型

      2023-08-30 05:15:48林志坤許建龍包曉安

      林志坤 許建龍 包曉安

      摘 要: 人臉屬性編輯在美顏APP和娛樂(lè)領(lǐng)域有重要應(yīng)用,但現(xiàn)有方法存在生成圖像質(zhì)量不高、屬性編輯不夠準(zhǔn)確等問(wèn)題,為此提出了一種基于選擇傳輸生成對(duì)抗網(wǎng)絡(luò)(Selective transfer generative adversarial networks, STGAN)的人臉屬性編輯改進(jìn)模型。運(yùn)用潛碼解耦合思想,將潛碼分解為內(nèi)容潛碼和風(fēng)格潛碼單獨(dú)操作,提高源域圖像和目標(biāo)域圖像的內(nèi)容編碼一致性,從而提高屬性編輯準(zhǔn)確率;同時(shí)運(yùn)用像素級(jí)重構(gòu)損失和潛碼重構(gòu)損失,在總損失函數(shù)中加入像素級(jí)限制和潛碼重構(gòu)限制,通過(guò)互補(bǔ)作用提高生成圖像質(zhì)量。在CelebA人臉數(shù)據(jù)集和季節(jié)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),該模型相比當(dāng)前人臉屬性編輯主流模型在定性結(jié)果和定量指標(biāo)上均有提高,其中峰值信噪比和結(jié)構(gòu)相似性相比STGAN模型分別提高了6.06%和1.58%。這說(shuō)明該改進(jìn)模型能夠有效提高人臉屬性編輯的性能,滿(mǎn)足美顏APP和娛樂(lè)領(lǐng)域的需求。

      關(guān)鍵詞:生成對(duì)抗網(wǎng)絡(luò);人臉編輯;重構(gòu)圖像;潛碼解耦

      中圖分類(lèi)號(hào):TP391

      文獻(xiàn)標(biāo)志碼:A

      文章編號(hào):1673-3851 (2023) 05-0285-08

      引文格式:林志坤,許建龍,包曉安. 基于STGAN的人臉屬性編輯改進(jìn)模型[J]. 浙江理工大學(xué)學(xué)報(bào)(自然科學(xué)),2023,49(3):285-292.

      Reference Format: LIN Zhikun, XU Jianlong, BAO Xiao′an. Improved model of face attribute editing based on STGAN[J]. Journal of Zhejiang Sci-Tech University,2023,49(3):285-292.

      Improved model of face attribute editing based on STGAN

      LIN Zhikuna, XU Jianlongb, BAO Xiao′anb

      (a.School of Information Science and Engineering; b.School of Computer Science and Technology, Zhejiang Sci-Tech University, Hangzhou 310018, China)

      Abstract:Face attribute editing technology has important applications in beauty APPs and entertainment fields. However, the existing methods still have problems such as low-quality and inaccurate editing. To this end, an improved face editing model based on selective transfer generative adversarial networks (STGAN) was proposed. Using the idea of latent code decoupling, the latent code was decomposed into the content latent code and the style latent code, which improved the content-coding consistency of the source domain image and the target domain image, thereby improving the accuracy of attribute editing. In the meanwhile, we used pixel-level reconstruction loss and latent code reconstruction loss, and added pixel-level restrictions and latent code reconstruction restrictions to the total loss function, improving the quality of generated images through complementary effects. Experiments were carried out on the CelebA face dataset and seasonal dataset. Compared with the current mainstream model of face attribute editing, this model has improved both qualitative results and quantitative indicators. Compared with the STGAN model, the peak signal-to-noise ratio and structural similarity index of this model are improved by 6.06% and 1.58%, respectively. This shows that the improved model can effectively improve the performance of face attribute editing and meet the needs of beauty apps and entertainment fields.

      Key words:generative adversarial networks; face editing; reconstructed images; latent code decoupling

      0 引 言

      圖像屬性編輯是指將源域圖像映射到目標(biāo)域,在保留源域圖像內(nèi)容特征的前提下,根據(jù)目標(biāo)域圖像的風(fēng)格特征合成得到新圖像。圖像屬性編輯有多個(gè)應(yīng)用方向,如人臉屬性編輯、圖像修復(fù)[1、超分辨率、圖像著色2等,其中人臉屬性編輯是一個(gè)熱門(mén)方向,它在美顏APP和娛樂(lè)領(lǐng)域有重要應(yīng)用。目前圖像屬性編輯模型主要有基于生成對(duì)抗網(wǎng)絡(luò)(Generative adversarial network, GAN)[3和基于自編碼器[4這兩種模型。其中基于GAN的圖像屬性編輯模型按照特性有多種分類(lèi),如根據(jù)是否需要監(jiān)督分為有監(jiān)督和無(wú)監(jiān)督的屬性編輯模型,根據(jù)處理圖像屬性的數(shù)量又可以分為單一屬性和多屬性的編輯模型。

      Isola等[5提出了一個(gè)有監(jiān)督的圖像屬性編輯模型;Wang等[6在Isola等[5的基礎(chǔ)上對(duì)模型進(jìn)行了改進(jìn),提高了生成圖像的分辨率。然而這類(lèi)模型的訓(xùn)練都需要成對(duì)的圖像數(shù)據(jù)集,這在很多任務(wù)中是無(wú)法實(shí)現(xiàn)的,如同張人臉的男女轉(zhuǎn)換,幾乎無(wú)法提供成規(guī)模的同一張人臉的不同性別數(shù)據(jù)集。Zhu等[7設(shè)計(jì)的模型實(shí)現(xiàn)了無(wú)監(jiān)督的圖像屬性編輯,通過(guò)循環(huán)一致性損失對(duì)模型進(jìn)行約束,以保留圖像轉(zhuǎn)換過(guò)程中的基本特征,擺脫了成對(duì)圖像數(shù)據(jù)集的束縛,但這類(lèi)模型每次訓(xùn)練只能實(shí)現(xiàn)特定兩個(gè)域之間的轉(zhuǎn)換,若要實(shí)現(xiàn)多域轉(zhuǎn)換需要訓(xùn)練相應(yīng)數(shù)量的模型,耗時(shí)耗力。Anoosheh等[8減少了要實(shí)現(xiàn)多域轉(zhuǎn)換所需訓(xùn)練的網(wǎng)絡(luò)數(shù)量,但他們提出的模型仍然要訓(xùn)練多個(gè)網(wǎng)絡(luò),并且也不能支持多個(gè)屬性的同時(shí)轉(zhuǎn)換。Choi等[9提出了StarGAN(Star generative adversarial networks)模型,這種模型可以根據(jù)輸入的標(biāo)簽向量(即屬性向量)不同實(shí)現(xiàn)不同域的轉(zhuǎn)換,且只要訓(xùn)練一組模型,很好地完成了多域圖像屬性編輯任務(wù)。He等[10提出了AttGAN(Attribute generative adversarial networks)模型,他們將編碼器和解碼器結(jié)構(gòu)運(yùn)用到StarGAN模型中,實(shí)現(xiàn)了更好的圖像轉(zhuǎn)換效果。Liu等[11提出了STGAN(Selective transfer generative adversarial networks)模型,這種模型用目標(biāo)屬性向量和源域?qū)傩韵蛄康牟钪底鳛檩斎?,而不是將原本的整個(gè)屬性向量作為輸入,從而提高了圖像重構(gòu)質(zhì)量;STGAN模型在AttGAN模型的生成器(Generative model,G)中加入選擇傳輸單元(Selective transfer unit,STU),在更多層間加入對(duì)稱(chēng)跳躍連接,在提高生成圖像質(zhì)量的同時(shí)保證了高屬性編輯準(zhǔn)確率。

      近年來(lái),潛碼解耦合思想[12-14被廣泛運(yùn)用于圖像屬性編輯,如Shen等[15提出的InterFaceGAN(Interpreting face generative adversarial networks)模型。不同于Liu等[16提出的未分解的潛碼一致性,潛碼解耦合思想將潛碼進(jìn)一步分解為內(nèi)容潛碼與風(fēng)格潛碼。內(nèi)容潛碼用來(lái)控制圖像的基本內(nèi)容,如人臉的基本輪廓;而風(fēng)格潛碼用來(lái)控制圖像的不同風(fēng)格特性,如人臉的發(fā)色、性別、年齡等。雖然上述模型已經(jīng)可以實(shí)現(xiàn)多屬性的無(wú)監(jiān)督人臉屬性編輯,但是它們生成的人臉圖像仍然存在圖像質(zhì)量低、人臉屬性編輯不準(zhǔn)確等問(wèn)題。當(dāng)前人臉屬性編輯的應(yīng)用極為廣泛,設(shè)計(jì)一個(gè)能生成高質(zhì)量、高屬性編輯準(zhǔn)確率人臉圖像的人臉屬性編輯模型有著重要價(jià)值。

      為了滿(mǎn)足在美顏APP和娛樂(lè)領(lǐng)域?qū)Ω哔|(zhì)量人臉屬性編輯能力的需求,本文提出了一種基于STGAN模型的人臉屬性編輯改進(jìn)模型,并將該模型稱(chēng)為L(zhǎng)EGAN(Loss function enhanced generative adversarial network)。該模型在STGAN模型的基礎(chǔ)上,針對(duì)人臉屬性編輯不準(zhǔn)確問(wèn)題,運(yùn)用潛碼解耦合思想,促進(jìn)源域圖像和目標(biāo)域圖像的內(nèi)容編碼一致性,從而提高人臉屬性編輯準(zhǔn)確率;針對(duì)生成圖像質(zhì)量不高的問(wèn)題,在STGAN模型基礎(chǔ)上同時(shí)運(yùn)用像素級(jí)重構(gòu)損失和潛碼重構(gòu)損失,通過(guò)互補(bǔ)作用,進(jìn)一步提高生成圖像質(zhì)量。

      1 人臉屬性編輯改進(jìn)模型構(gòu)建

      本文建立了LEGAN模型,在CelebA人臉數(shù)據(jù)集[17上進(jìn)行訓(xùn)練,訓(xùn)練后得到的模型具有較強(qiáng)的人臉屬性編輯能力。運(yùn)行時(shí)將所需處理的人臉圖像和所需轉(zhuǎn)換的屬性向量輸入模型,模型在屬性向量的指導(dǎo)下通過(guò)生成器生成所需的目標(biāo)人臉圖像。對(duì)比STGAN模型,本文提出的LEGAN模型最大的改進(jìn)點(diǎn)是使用了潛碼解耦合思想并改進(jìn)了損失函數(shù),在人臉圖像屬性編輯任務(wù)中能夠處理得到質(zhì)量更高、屬性編輯更準(zhǔn)確的人臉圖像。

      1.1 模型結(jié)構(gòu)

      LEGAN的模型結(jié)構(gòu)如圖1所示,該模型由生成器、鑒別器、分類(lèi)器組成,其中生成器由編碼器Genc和解碼器Gdec組成。在訓(xùn)練階段,輸入的人臉圖像xa經(jīng)過(guò)Genc處理后得到潛碼za。轉(zhuǎn)換目標(biāo)圖時(shí),將目標(biāo)域人臉圖像的屬性向量b和源域人臉圖像的屬性向量a的差值與潛碼za一同輸入Gdec,經(jīng)過(guò)Gdec處理后得到目標(biāo)人臉偽造圖像xb^。將xb^輸入分類(lèi)器與鑒別器,分別計(jì)算屬性分類(lèi)準(zhǔn)確率和圖像的真實(shí)度。將xb^輸入Genc得到潛碼zb^,zb^和za之間進(jìn)行潛碼解耦合約束。將零向量和za輸入Gdec后得到重構(gòu)圖xa^,xa^與xa之間需要計(jì)算像素級(jí)重構(gòu)損失,xa^輸入Genc后得到重構(gòu)圖的潛碼za^,za^與za之間需要計(jì)算潛碼重構(gòu)損失。

      Genc提取圖像潛碼的過(guò)程可用式(1)—(3)表示:

      Gdec將潛碼映射成圖像。Genc和Gdec之間采用對(duì)稱(chēng)跳躍連接,連接應(yīng)用在生成器中所有的層。Genc之間權(quán)重共享,Gdec同理。Liu等[16證明在Genc和Gdec之間添加STU單元既能提高生成圖像的質(zhì)量,也能提高生成圖像的屬性編輯準(zhǔn)確率,所以此處的Genc和Gdec不同層之間的連接都經(jīng)過(guò)STU單元處理。

      1.2 內(nèi)容編碼一致性損失

      STGAN模型使用編碼器將圖像翻譯成潛碼,之后用條件向量來(lái)改變生成圖像的屬性。將STGAN模型的解碼器提取的潛碼視為內(nèi)容編碼,將條件向量視為風(fēng)格編碼,則可在STGAN模型中加入內(nèi)容編碼一致性損失來(lái)降低不同域之間圖像內(nèi)容編碼的差異。對(duì)于內(nèi)容編碼一致性損失,本文計(jì)算在zb^和za的L1距離,計(jì)算過(guò)程可用式(4)表示:

      其中:Lccc表示內(nèi)容編碼一致性損失。通過(guò)最小化Lccc可以使不同域的圖像經(jīng)過(guò)編碼器處理后得到的內(nèi)容編碼趨同,這可以使模型更精確地編輯需要改變的屬性,即由條件向量控制的部分,從而提高屬性編輯的準(zhǔn)確率。屬性更精準(zhǔn)的控制也能進(jìn)一步提高重構(gòu)圖像的質(zhì)量。

      1.3 潛碼重構(gòu)損失

      為了提高重構(gòu)能力,常見(jiàn)方法是計(jì)算重構(gòu)圖像和輸入圖像對(duì)應(yīng)像素之間的L1損失或L2損失(像素級(jí)重構(gòu)損失)。例如STGAN模型、AttGAN模型等,均通過(guò)最小化L1損失或L2損失使重構(gòu)圖像和輸入圖像之間更加相似。本文在像素級(jí)重構(gòu)損失的基礎(chǔ)上,計(jì)算了輸入圖像潛碼和重構(gòu)圖像潛碼之間的L1損失,該損失可用式(5)表示:

      其中:Lrec2表示潛碼重構(gòu)損失。通過(guò)最小化該損失,可以使輸入圖像的潛碼和重構(gòu)圖像的潛碼更加相似。本文實(shí)驗(yàn)表明,同時(shí)添加像素級(jí)重構(gòu)損失和潛碼重構(gòu)損失可以進(jìn)一步提高模型的重構(gòu)能力,詳見(jiàn)實(shí)驗(yàn)部分。

      1.4 總損失函數(shù)

      本文分別用LDadv和LGadv表示鑒別器和生成器的對(duì)抗損失,兩個(gè)損失可用式(6)—(7)表示:

      其中:x表示輸入的圖像;x^是真實(shí)圖像和生成圖像之間的線性插值;?

      表示生成的假圖;adiff是目標(biāo)屬性向量與原屬性向量的差值;D表示判別器。對(duì)抗損失采用Gulrajani等[18提出的WGAN-GP形式。這里對(duì)抗損失以最大化的形式展示,具體實(shí)現(xiàn)時(shí)加入負(fù)號(hào)以最小化的形式優(yōu)化。

      本文用LDatt和LDatt分別表示生成器和鑒別器的分類(lèi)損失,兩個(gè)損失可用式(8)—(9)表示:

      其中:n為分類(lèi)屬性的個(gè)數(shù);as(i)表示源域第i個(gè)分類(lèi)屬性向量;at(i)表示目標(biāo)域第i個(gè)分類(lèi)屬性向量。

      本文用Lrec1表示像素級(jí)的重構(gòu)損失,該損失可用式(10)表示:

      其中:0是零向量。生成重構(gòu)圖像時(shí)因?yàn)樵从虻膶傩韵蛄考礊槟繕?biāo)域的屬性向量,故差值輸入為零向量。

      最后總的損失函數(shù)可用式(11)—(12)表示:

      其中:LD表示生成器的損失;LD表示鑒別器的損失;λ1、λ2、λ3、λ4、λ5是超參數(shù)。

      2 實(shí)驗(yàn)和結(jié)果分析

      本文在人臉數(shù)據(jù)集和季節(jié)數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)。為驗(yàn)證內(nèi)容編碼一致性損失和潛碼重構(gòu)損失在STGAN模型中的有效性,本文設(shè)計(jì)并進(jìn)行相關(guān)的消融實(shí)驗(yàn)。

      2.1 數(shù)據(jù)集和設(shè)置

      本文選擇CelebA[17作為人臉數(shù)據(jù)集。CelebA人臉數(shù)據(jù)集有數(shù)據(jù)量大、多樣性強(qiáng)、標(biāo)注詳細(xì)等優(yōu)點(diǎn)。在CelebA中本文選擇178×218對(duì)齊處理過(guò)的數(shù)據(jù)集。該數(shù)據(jù)集總共含有202599張人臉圖像,每張圖像都有對(duì)應(yīng)的屬性標(biāo)注。在數(shù)據(jù)集分配方面本文將前182000張圖像分為訓(xùn)練集,182001~182637分為驗(yàn)證集,其余的分為測(cè)試集。屬性方面本文選擇禿頭、劉海、黑發(fā)、金發(fā)、棕發(fā)、濃眉、眼鏡、性別、嘴閉合、上唇胡須、絡(luò)腮胡、蒼白和年齡等一共13種可轉(zhuǎn)換的屬性,這涵蓋了當(dāng)前大部分人臉屬性編輯模型所實(shí)現(xiàn)的屬性。本文的模型使用Adam優(yōu)化器(β1=0.5,β2=0.999),Batch_size大小設(shè)置為32,學(xué)習(xí)率的衰減與STGAN模型一致??倱p失函數(shù)的超參數(shù)λ1、λ2、λ3、λ4、λ5分別為25、200、15、5、1。

      2.2 定量結(jié)果

      屬性編輯的性能可以從生成圖像質(zhì)量和屬性編輯準(zhǔn)確率兩個(gè)方面進(jìn)行評(píng)價(jià),其中圖像質(zhì)量可以用峰值信噪比(Peak signal-to-noise ratio,PSNR)和結(jié)構(gòu)相似性(Structural similarity,SSIM)來(lái)衡量。因?yàn)橥粡埲四樀牟煌瑢傩赞D(zhuǎn)換的真實(shí)數(shù)據(jù)難以獲?。ㄈ缧詣e轉(zhuǎn)換、年齡轉(zhuǎn)換),所以本文采用和STGAN模型中一樣的兩種方法來(lái)代替評(píng)估。本文將LEGAN模型與StarGAN、AttGAN、STGAN、InterFaceGAN等模型進(jìn)行比較,其中用來(lái)測(cè)試人臉屬性編輯的AttGAN模型和STGAN模型是原作者發(fā)布的,而StarGAN模型因?yàn)槠渥髡甙l(fā)布的模型僅支持5個(gè)屬性的操作,本文按照StarGAN模型相同的配置并用其作者github上的代碼訓(xùn)練了支持13個(gè)屬性的人臉編輯模型來(lái)進(jìn)行比較,InterFaceGAN模型也是根據(jù)其作者在github上發(fā)布的代碼訓(xùn)練得到。

      在圖像質(zhì)量方面,本文讓目標(biāo)屬性向量與源域?qū)傩韵蛄勘3忠恢芦@得圖像的重構(gòu)結(jié)果,并且通過(guò)評(píng)估重構(gòu)圖像的質(zhì)量來(lái)代替評(píng)估模型生成的圖像質(zhì)量。本文在測(cè)試集(大約20000張圖像)測(cè)試了StarGAN、AttGAN、STGAN、InterFaceGAN、LEGAN等模型的重構(gòu)圖像質(zhì)量,結(jié)果如表1所示。從表1可以看出,LEGAN模型的PSNR、SSIM指標(biāo)相比其余模型都更高,相對(duì)之下StarGAN模型和AttGAN模型的重構(gòu)圖像質(zhì)量明顯較弱。雖然AttGAN模型將U-NET的一層對(duì)稱(chēng)跳躍連接運(yùn)用在生成器里,圖像質(zhì)量相對(duì)StarGAN模型有所提高,但提高的幅度有限。STGAN模型因?yàn)椴町悓傩韵蛄枯斎牒蚐TU單元的運(yùn)用使得圖像質(zhì)量有較為明顯的提高,尤其是SSIM指標(biāo)達(dá)到了0.948的高分,但它仍然存在改進(jìn)的空間。通過(guò)借鑒潛碼解耦合思想以及兩種重構(gòu)損失的互補(bǔ)運(yùn)用,LEGAN模型在STAGN模型的基礎(chǔ)上再次提高了圖像質(zhì)量,其中SSIM達(dá)到了0.963,相比STGAN模型提高了1.58%。LEGAN模型的PSNR指標(biāo)為33.59,相比STGAN模型提高了6.06%。

      在屬性編輯的準(zhǔn)確度方面,本文使用和STGAN模型一致的人臉屬性分類(lèi)器來(lái)代替評(píng)估。該分類(lèi)器是在CelebA數(shù)據(jù)集上對(duì)13個(gè)屬性進(jìn)行訓(xùn)練得到的,并且在CelebA數(shù)據(jù)集上的準(zhǔn)確率達(dá)到了94.5%。StarGAN、AttGAN、STGAN、InterFaceGAN、LEGAN等模型的屬性編輯準(zhǔn)確率如表2所示。

      從表2可以看出,LEGAN模型的平均屬性編輯準(zhǔn)確率最高,達(dá)88.79%。對(duì)13個(gè)屬性進(jìn)一步觀察,可以看見(jiàn)除了蒼白和絡(luò)腮胡這兩個(gè)屬性,LEGAN模型的準(zhǔn)確率比STGAN模型稍差(蒼白屬性差0.41%,絡(luò)腮胡屬性差0.63%),其余的11個(gè)屬性LEGAN模型的準(zhǔn)確率都最高,尤其金發(fā)、濃眉、棕發(fā)和年齡等4個(gè)屬性分別提高了9.32%、4.91%、5.40%和6.63%。

      2.3 定性結(jié)果

      經(jīng)過(guò)訓(xùn)練,本文得到了人臉屬性編輯效果較優(yōu)的模型。本文分別針對(duì)單屬性和多屬性編輯進(jìn)行對(duì)比,對(duì)比結(jié)果如圖2所示。

      從圖2中可以直觀地看出,LEGAN模型的生成結(jié)果相比其余模型生成的圖像質(zhì)量和屬性編輯完成度更高。其中StarGAN模型和AttGAN模型在多屬性編輯時(shí)有的屬性容易崩壞,比如StarGAN模型在變老加唇上胡須的轉(zhuǎn)換中人臉膚色出現(xiàn)異常,AttGAN模型在變老加唇上胡須的轉(zhuǎn)換中唇上胡須的效果沒(méi)有得到很好體現(xiàn)。InterFaceGAN模型在最后一列的金發(fā)效果上發(fā)色轉(zhuǎn)換得不夠完全。LEGAN模型相比STGAN模型生成效果相似,但屬性細(xì)節(jié)處有所提高,比如圖2最后一列多屬性編輯中LEGAN模型生成的人臉相比STGAN模型更顯蒼老,且生成的劉海也更完整。

      2.4 消融實(shí)驗(yàn)

      在這一部分,本文評(píng)估了兩個(gè)主要組成部分的必要性:內(nèi)容編碼一致性損失和潛碼重構(gòu)損失。在STGAN模型的基礎(chǔ)上,本文將加入內(nèi)容編碼一致性損失訓(xùn)練得到的模型稱(chēng)為L(zhǎng)EGAN-1,將加入潛碼重構(gòu)損失訓(xùn)練得到的模型稱(chēng)為L(zhǎng)EGAN-2。兩個(gè)損失都加入訓(xùn)練得到的模型為本文提出的LEGAN模型。為了佐證以上兩個(gè)損失對(duì)原始STGAN模型的影響,本文還添加了以下實(shí)驗(yàn):STGAN-1,用潛碼重構(gòu)損失代替原始STGAN模型的像素級(jí)重構(gòu)損失;STGAN-2,用潛碼重構(gòu)損失代替原始STGAN模型的像素級(jí)重構(gòu)損失并加上內(nèi)容編碼一致性損失;STGAN-3,去掉原始STGAN模型的像素級(jí)重構(gòu)損失,添加內(nèi)容編碼一致性損失;STGAN-4:去掉原始STGAN模型的像素級(jí)重構(gòu)損失。實(shí)驗(yàn)結(jié)果如表3所示。

      對(duì)比STGAN、STGAN-1、LEGAN-2、STGAN-4這些模型的實(shí)驗(yàn)結(jié)果可以發(fā)現(xiàn),添加潛碼重構(gòu)損失也能提高模型的重構(gòu)能力,只是這個(gè)能力相比添加像素級(jí)重構(gòu)損失略差。如果將潛碼重構(gòu)損失和像素級(jí)重構(gòu)損失一起使用則可以在STGAN模型中起到互補(bǔ)的作用,模型的重構(gòu)能力相比單獨(dú)加入像素級(jí)重構(gòu)損失的STGAN模型更佳。兩兩對(duì)比STGAN-2模型和STGAN-1模型、STGAN-3模型和STGAN-4模型、LEGAN-1模型和STGAN模型可以發(fā)現(xiàn),在STGAN模型中加入內(nèi)容編碼一致性損失對(duì)模型的重構(gòu)能力、屬性編輯能力都有促進(jìn)作用。對(duì)比LEGAN-1模型、LEGAN-2模型和LEGAN模型可以發(fā)現(xiàn),在STGAN模型中同時(shí)加入潛碼重構(gòu)損失和內(nèi)容編碼一致性損失,可以大幅提高模型的重構(gòu)能力和屬性編輯能力。雖然STGAN-3模型的屬性編輯能力是幾個(gè)模型中最強(qiáng)的,但它缺乏對(duì)模型重構(gòu)能力的優(yōu)化,生成的圖像質(zhì)量較低。

      2.5 季節(jié)轉(zhuǎn)換實(shí)驗(yàn)

      因?yàn)槿四槍傩跃庉嫼图竟?jié)轉(zhuǎn)換這類(lèi)圖像轉(zhuǎn)換技術(shù)本質(zhì)上都是圖像風(fēng)格屬性的轉(zhuǎn)換,所以本文也在季節(jié)數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),以更好地評(píng)價(jià)LEGAN模型的性能,結(jié)果如圖3所示。

      本文所使用的季節(jié)數(shù)據(jù)集[11包含四個(gè)季節(jié):春季、夏季、秋季和冬季。經(jīng)過(guò)訓(xùn)練的模型需要實(shí)現(xiàn)同一風(fēng)景圖像的四個(gè)季節(jié)轉(zhuǎn)換。本文在季節(jié)數(shù)據(jù)集上訓(xùn)練了AttGAN模型、STGAN模型和LEGAN模型,并對(duì)它們的定量和定性結(jié)果進(jìn)行比較。在定性結(jié)果方面,圖3顯示LEGAN模型的轉(zhuǎn)換能力明顯優(yōu)于AttGAN模型和STGAN模型,尤其是LEGAN模型的冬季轉(zhuǎn)換效果相比STGAN模型和AttGAN模型更自然。在定量結(jié)果方面,表4顯示LEGAN模型的PSNR和SSIM與STGAN模型相比分別提高了5.27%和5.15%。

      3 結(jié) 論

      本文提出基于STGAN模型的人臉屬性編輯改進(jìn)模型,通過(guò)潛碼解耦合思想以及兩種重構(gòu)損失的互補(bǔ)運(yùn)用,得到一個(gè)性能更優(yōu)的人臉屬性編輯模型。運(yùn)用潛碼解耦合可以讓原STGAN模型更精準(zhǔn)地編輯需要更改的圖像屬性,從而提高模型的屬性編輯能力。將像素級(jí)重構(gòu)損失和潛碼重構(gòu)損失互補(bǔ)地運(yùn)用在STGAN模型中可以進(jìn)一步提高模型生成的圖像質(zhì)量。實(shí)驗(yàn)結(jié)果表明,新模型在CelebA人臉數(shù)據(jù)集上相比StarGAN、AttGAN、STGAN、InterFaceGAN等主流模型擁有更優(yōu)的定量和定性表現(xiàn)。該模型也可以運(yùn)用在季節(jié)變換等圖像轉(zhuǎn)換任務(wù)里,實(shí)驗(yàn)表明新模型在季節(jié)數(shù)據(jù)集中相較STGAN等模型也有更好的表現(xiàn)。

      由于光照、相機(jī)、場(chǎng)景、硬件設(shè)備等因素的影響,本文的模型目前還不能準(zhǔn)確地處理所有真實(shí)數(shù)據(jù),而且只能生成分辨率較低的圖像。后續(xù)研究將進(jìn)一步完善數(shù)據(jù)集,改進(jìn)模型結(jié)構(gòu),以訓(xùn)練一個(gè)功能更強(qiáng)的模型。

      參考文獻(xiàn):

      [1]曹建芳, 張自邦, 趙愛(ài)迪, 等. 增強(qiáng)一致性生成對(duì)抗網(wǎng)絡(luò)在壁畫(huà)修復(fù)上的應(yīng)用[J]. 計(jì)算機(jī)輔助設(shè)計(jì)與圖形學(xué)學(xué)報(bào), 2020, 32(8): 1315-1323.

      [2]李洪安, 鄭峭雪, 張婧, 等. 結(jié)合Pix2Pix生成對(duì)抗網(wǎng)絡(luò)的灰度圖像著色方法[J]. 計(jì)算機(jī)輔助設(shè)計(jì)與圖形學(xué)學(xué)報(bào), 2021, 33(6): 929-938.

      [3]Goodfellow I J, Pouget-Abadie J, Mirza M, et al. Generative adversarial nets[C]∥Proceedings of Advances in Neural Information Processing Systems. Cambridge: MIT Press, 2014: 2672-2680.

      [4]Kingma D P, Welling M. Auto-encoding variational bayes [EB/OL]. (2014-05-01) [2022-08-31]. https:∥arxiv.org/pdf/1312.6114.pdf.

      [5]Isola P, Zhu J Y, Zhou T H, et al. Image-to-image translation with conditional adversarial networks[C]∥Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Honolulu: IEEE, 2017: 5967-5976.

      [6]Wang T C, Liu M Y, Zhu J Y, et al. High-resolution image synthesis and semantic manipulation with conditional GANs[C]∥Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Salt Lake City: IEEE, 2018: 8798-8807.

      [7]Zhu J Y, Park T, Isola P, et al. Unpaired image-to-image translation using cycle-consistent adversarial networks[C]∥Proceedings of the IEEE International Conference on Computer Vision. Venice: IEEE, 2017: 2242-2251.

      [8]Anoosheh A, Agustsson E, Timofte R, et al. ComboGAN: Unrestrained scalability for image domain translation[C]∥Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops. Salt Lake City: IEEE, 2018: 783-790.

      [9]Choi Y, Choi M, Kim M, et al. StarGAN: unified generative adversarial networks for multi-domain image-to-image translation[C]∥Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City: IEEE, 2018: 8789-8797.

      [10]He Z, Zuo W, Kan M, et al. AttGAN: Facial attribute editing by only changing what you want[J]. IEEE Transactions on Image Processing, 2019, 28(11): 5464-5478.

      [11]Liu, M, Ding, Y, Xia, M, et al. STGAN: A unified selective trans-fer network for arbitrary image attribute editing [C]∥Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach: IEEE, 2019: 3673-3682.

      [12]Huang X, Liu M Y, Belongie S, et al. Multimodal unsupervised image-to-image translation[C]∥Proceedings of the European Conference on Computer Vision. Munich: IEEE, 2018: 179-196.

      [13]Lee H Y, Tseng H Y, Huang J B, et al. Diverse image-to-image translation via disentangled representations[C]∥Proceedings of the European Conference on Computer Vision. Munich: IEEE, 2018: 35-51.

      [14]Lin J, Xia Y, Qin T, et al. Conditional image-to-image translation[C]∥Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Salt Lake City: IEEE, 2018: 5524-5532.

      [15]Shen Y, Gu J, Tang X, et al. Interpreting the latent space of GANs for semantic face editing[C]∥Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle: IEEE, 2020: 9240-9249.

      [16]Liu M Y, Breuel T M, Kautz J. Unsupervised image-to-image translation networks[C]∥Proceedings of Advances in Neural Information Processing Systems. Cambridge: MIT Press, 2017: 700-708.

      [17]Liu Z W, Luo P, Wang X G, et al. Deep learning face attributes in the wild[C]∥Proceedings of the IEEE International Conference on Computer Vision. Santiago: IEEE, 2015: 3730-3738.

      [18]Gulrajani I, Ahmed F, Arjovsky M, et al. Improved training of Wasser-stein GANs[C]∥Proceedings of the 31st International Conference on Neural Information Processing Systems. New York: ACM Press, 2017: 5769-5779.

      (責(zé)任編輯:康 鋒)

      虎林市| 兰西县| 静安区| 徐州市| 肃宁县| 三门县| 贵德县| 安陆市| 临江市| 谢通门县| 永春县| 抚宁县| 师宗县| 苍南县| 白朗县| 宁津县| 正定县| 东乡县| 黔西县| 东光县| 莒南县| 丁青县| 衡水市| 衡阳市| 庄浪县| 云龙县| 玛沁县| 新蔡县| 毕节市| 盱眙县| 许昌市| 剑河县| 岚皋县| 鹿泉市| 济源市| 淅川县| 陆川县| 历史| 金塔县| 余庆县| 昌乐县|