侯瓔真,翟俊海,2,申瑞彩
1(河北大學(xué) 數(shù)學(xué)與信息科學(xué)學(xué)院,河北 保定 071002) 2(河北大學(xué) 河北省機(jī)器學(xué)習(xí)與計(jì)算智能重點(diǎn)實(shí)驗(yàn)室,河北 保定 071002) E-mail:mczjh@126.com
圖像生成是深度學(xué)習(xí)研究的一個(gè)重要領(lǐng)域,主流的生成技術(shù)是生成對抗網(wǎng)絡(luò)[1]和變分自編碼器[2].Goodfellow等提出的生成對抗網(wǎng)絡(luò)(GAN,Generative Adversarial Network)是一種隱式概率生成模型,GAN由生成器網(wǎng)絡(luò)和判別器網(wǎng)絡(luò)構(gòu)成,通過這兩個(gè)網(wǎng)絡(luò)的對抗學(xué)習(xí),實(shí)現(xiàn)用生成器網(wǎng)絡(luò)逼近圖像的分布,通過抽樣可生成似真的圖像.Radford等人[3]用卷積神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)生成器和判別器,提出了DCGAN(Deep Convolutional GAN),DCGAN用深度卷積神經(jīng)網(wǎng)絡(luò)以無監(jiān)督的方式學(xué)習(xí)圖像的特征,進(jìn)而生成高質(zhì)量的圖像.Yi[4]等人提出的DualGAN在原始的GAN模型基礎(chǔ)上開發(fā)了一種新型的雙重GAN機(jī)制,使圖像翻譯器可以從兩個(gè)領(lǐng)域的兩組未標(biāo)記圖像中進(jìn)行訓(xùn)練.在DualGAN中,原始GAN學(xué)習(xí)將域U中的圖像翻譯成域V中的圖像,而雙GAN學(xué)習(xí)將任務(wù)反轉(zhuǎn).原始任務(wù)和雙任務(wù)所做的閉環(huán)允許來自任一域的圖像被翻譯,然后重建.康云云等人[5]提出一種基于改進(jìn)生成對抗網(wǎng)絡(luò)的法律文本生成模型ED-GAN,該模型將案情要素的關(guān)鍵詞序列編碼成隱含層向量,并結(jié)合各時(shí)間步的輸出生成文本序列,最后采用CNN網(wǎng)絡(luò)來鑒別真假文本的差距,該模型的出現(xiàn)為法律文本的自動(dòng)生成提供了新思路.Karras等人[6]提出了一種稱為StyleGAN的生成對抗網(wǎng)絡(luò),他們將風(fēng)格遷移至生成器網(wǎng)絡(luò)中,StyleGAN生成的人臉圖像能夠自動(dòng)地進(jìn)行姿勢和風(fēng)格轉(zhuǎn)換.在StyleGAN的基礎(chǔ)上,Abdal等人[7]提出一種稱為Image2StyleGAN的生成對抗網(wǎng)絡(luò),Image2StyleGAN能夠?qū)⒁环o定的圖像嵌入到StyleGAN的潛在空間中.Larsen等人[8]將VAE(Variational Auto-Encoder)和GAN合并為一個(gè)無監(jiān)督生成模型,同時(shí)學(xué)習(xí)編碼、生成和測量樣本相似性.通過學(xué)習(xí)編碼器網(wǎng)絡(luò)能夠生成視覺逼真的圖像.石志國等人[9]通過對棧式自編碼器深度學(xué)習(xí)算法進(jìn)行研究,提出了一種深度學(xué)習(xí)降維信息損失度量方法,為深度學(xué)習(xí)算法的改進(jìn)提供了數(shù)據(jù)支撐.Bao等人[10]提出了一種將變分自編碼器與生成對抗網(wǎng)絡(luò)相結(jié)合的通用框架CVAE-GAN,用于合成細(xì)粒度類別的圖像.在CVAE-GAN中,將圖像建模為一個(gè)概率模型中標(biāo)簽和潛伏屬性的組成,通過改變輸入到生成模型中的細(xì)粒度類別標(biāo)簽,可以在特定類別中生成具有隨機(jī)抽取的潛伏屬性向量值的圖像,能夠生成真實(shí)的、具有細(xì)粒度類別標(biāo)簽的多樣化樣本.一般而言,從已有的邊緣分布中得出的聯(lián)合分布有多種,Liu等人[11]提出了一種“共享潛在空間”的假定,假設(shè)不同域中的對偶圖像可以映射到共享潛在空間中的相同潛伏對象.基于這個(gè)假設(shè),作者提出了基于GAN和VAE的無監(jiān)督圖像轉(zhuǎn)換的框架UNIT.Tan[12]針對單幅圖像去霧算法無法有效處理天空區(qū)域的問題提出了一種天空識別的改進(jìn)暗通道先驗(yàn)去霧算法,該算法不僅能對圖像中的景物和天空進(jìn)行準(zhǔn)確的去霧處理,而且還顯著的減少了運(yùn)行時(shí)間.從這些工作可以看出,在圖像生成領(lǐng)域,單一圖像的生成問題研究的較多,取得了較好的發(fā)展,但是圖像元組的問題卻少有人研究.本文重點(diǎn)研究生成具有不同屬性的圖像元組問題,提出了耦合變分自動(dòng)編碼器(CoVAE,Coupled Variational AutoEncoder).
現(xiàn)有的數(shù)據(jù)集以及圖像生成方法生成的圖像大多都是單一的圖像,無法生成兩個(gè)具有不同屬性的圖像(比如微笑的人臉和不微笑的人臉)元組,為了生成圖像元組,提出的CoVAE,通過訓(xùn)練耦合變分自編碼器學(xué)習(xí)不同屬性圖像的特征表示,最后通過訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的特征表示生成具有不同屬性的人臉元組.本文的貢獻(xiàn)有如下3點(diǎn):
1)提出了耦合變分自編碼器,做出了模型上的創(chuàng)新.
2)通過學(xué)習(xí)不同屬性的特征表示更精確的生成圖像元組.
3)用模型實(shí)現(xiàn)了無監(jiān)督的人臉屬性轉(zhuǎn)換以及圖像相互轉(zhuǎn)換.
CoVAE包含兩個(gè)VAE元組,為了降低訓(xùn)練的復(fù)雜度,我們共享兩個(gè)VAE的參數(shù).在實(shí)現(xiàn)生成不同屬性人臉元組時(shí),我們用不同屬性的數(shù)據(jù)集分別訓(xùn)練兩個(gè)VAE元組,訓(xùn)練好的VAE元組可以學(xué)習(xí)到不同屬性的特征表示,通過這個(gè)特征表示可以更精確嚴(yán)格的生成不同屬性的人臉元組.變分自編碼器可以用屬性標(biāo)簽實(shí)現(xiàn)人臉屬性轉(zhuǎn)換,我們用完整數(shù)據(jù)集訓(xùn)練好的耦合變分自編碼器分別訓(xùn)練兩個(gè)不同屬性的人臉數(shù)據(jù)集,不用屬性標(biāo)簽而是用兩個(gè)VAE分別取平均值相減求得屬性表示,從而實(shí)現(xiàn)無監(jiān)督的人臉屬性轉(zhuǎn)換.同時(shí)發(fā)現(xiàn)也可以用訓(xùn)練好的耦合變分自編碼器實(shí)現(xiàn)人臉圖像的相互轉(zhuǎn)換.
本文的工作基礎(chǔ)是耦合生成對抗網(wǎng)絡(luò)(CoGAN,Coupled Generative Adversarial Networks)[13],下面簡要介紹CoGAN的基本思想.
CoGAN是Liu等人提出的一種學(xué)習(xí)多域圖像聯(lián)合分布的生成模型,CoGAN旨在學(xué)習(xí)兩個(gè)不同域的聯(lián)合分布.它由兩個(gè)GAN模型組成(如圖1所示),每個(gè)GAN負(fù)責(zé)在一個(gè)域中生成圖像,通過生成器與判別器的部分權(quán)值共享在兩個(gè)域中學(xué)習(xí)聯(lián)合分布,從而生成圖像元組.
圖1 耦合生成對抗網(wǎng)絡(luò)結(jié)構(gòu)示意圖Fig.1 Structural sketch of coupled generative adversarial networks
(1)
(2)
假設(shè)f1和f2是GAN1和GAN2的判別器,分別用下面的公式(3)和公式(4)判別兩個(gè)域的真假樣本.
(3)
(4)
判別器將輸入圖像映射到概率分布,以估計(jì)輸入是真實(shí)樣本的可能性.因?yàn)樯善鞯那発層解碼高級語義,后面的層解碼低級細(xì)節(jié),判別器前k層提取低級特征,而后面的層提取高級特征,所以將生成器的前幾層權(quán)重共享,將判別器的最后幾層權(quán)重共享.這種權(quán)重共享約束使CoGAN無需監(jiān)督即可學(xué)習(xí)圖像的聯(lián)合分布.訓(xùn)練好的CoGAN可用于合成成對的對應(yīng)圖像,這些對應(yīng)圖像共享相同的高級抽象特征,但具有不同的低級細(xì)節(jié).
損失函數(shù)由的公式(5)定義.
(5)
其中,函數(shù)V由公式(6)定義.
V(f1,f2,g1,g2)=EX1~PX1[-logf1(X1)]+
Ez~Pz[-log(1-f1(g1(z)))]+EX2~PX2[-logf2(X2)]+
Ez~Pz[-log(1-f2(g2(z)))]
(6)
受CoGAN的啟發(fā),本文提出了耦合變分自編碼器模型(CoVAE),旨在學(xué)習(xí)不同屬性圖像的高級特征表示,用于生成不同屬性的圖像元組.由于VAE可以學(xué)習(xí)圖像的高級特征表示,具有堅(jiān)實(shí)的數(shù)學(xué)基礎(chǔ),我們可以通過耦合變分自編碼器學(xué)習(xí)不同屬性圖像的特征表示,從而更準(zhǔn)確的生成不同屬性的圖像元組.CoVAE的結(jié)構(gòu)如圖2所示.
圖2 耦合變分自編碼器結(jié)構(gòu)示意圖Fig.2 Structural sketch of CoVAE
CoVAE模型包括兩個(gè)VAE(VAE1和VAE2),VAE1和VAE2中的編碼器網(wǎng)絡(luò)分別記為q1和q2,VAE1和VAE2的解碼器網(wǎng)絡(luò)分別記為p1和p2.
編碼器負(fù)責(zé)通過兩個(gè)卷積神經(jīng)網(wǎng)絡(luò)擬合出專屬于每個(gè)輸入圖像Xk的均值和方差,
μk=f1(Xk)
(7)
logσk2=f2(Xk)
(8)
再經(jīng)過重采樣算出Zk,
Zk=μk+σk*ε
(9)
其中,ε~N(0,1).
設(shè)X1,X2分別是兩個(gè)不同屬性數(shù)據(jù)集中的圖像,X1~PX1,X2~PX2,編碼器求出兩個(gè)數(shù)據(jù)集分別對應(yīng)的潛變量Z1、Z2.
(10)
(11)
(12)
(13)
CoVAE的損失函數(shù)如下:
LCoVAE=LVAE1+LVAE2
(14)
LVAE1=Lreg1+Lrecon1=DKL(q(Z1|X1)‖p1(Z1))-
Eq(Z1|X1)[logp1(X1|Z1)]
(15)
LVAE2=Lreg2+Lrecon2=DKL(q(Z2|X2)‖p2(Z2))-
Eq(Z2|X2)[logp2(X2|Z2)]
(16)
(17)
VAE的損失函數(shù)等于兩部分之和,將LVAE分成兩部分來看:Eq(Z|X)[logp(X|Z)]的期望和DKL(q(Z|X)‖p(Z))的期望,問題變成了兩個(gè)損失值分別最小化.但是這樣計(jì)算并不能達(dá)到理想的效果,DKL(q(Z|X)‖p(Z))=0表明Z沒有任何辨識度,所以-Eq(Z|X)[logp(X|Z)]不可能小(效果不好);而如果-Eq(Z|X)[logp(X|Z)]小則logp(X|Z)大(效果好),此時(shí)DKL(q(Z|X)‖p(Z))不會(huì)小,所以這兩部分的損失值是相互對抗的.應(yīng)該從整體的看LVAE,整體的LVAE越小模型就越接近收斂,而不能單純觀察某一部分的損失值,而且VAE1和VAE2共享權(quán)重,不能分開計(jì)算損失函數(shù),所以將CoVAE的損失函數(shù)設(shè)計(jì)為一個(gè)整體損失函數(shù),即LCoVAE.
為了驗(yàn)證提出的模型的有效性,使用Celeba數(shù)據(jù)集集中進(jìn)行了測試,該數(shù)據(jù)集包含了202599張人臉圖片,每張人臉圖片有40個(gè)屬性標(biāo)簽,例如可區(qū)分是否微笑、戴眼鏡、發(fā)色、性別、長短發(fā)等屬性特征標(biāo)簽.某張圖片具有該屬性則屬性標(biāo)簽為1,否則為-1,我們按照想要實(shí)現(xiàn)的實(shí)驗(yàn)效果對數(shù)據(jù)集按照屬性標(biāo)簽做任意劃分以訓(xùn)練CoVAE模型.數(shù)據(jù)集中的圖片輸入尺寸標(biāo)準(zhǔn)化成固定尺寸為128×128×3,潛變量空間設(shè)置成200維.本文的實(shí)驗(yàn)分成兩部分,都是通過CoVAE模型實(shí)現(xiàn),主要的實(shí)驗(yàn)是通過CoVAE模型生成不同屬性的人臉元組,另一個(gè)實(shí)驗(yàn)是通過CoVAE模型實(shí)現(xiàn)無監(jiān)督的人臉特征轉(zhuǎn)換以及人臉相互轉(zhuǎn)換.最后通過在MNIST數(shù)據(jù)集上的實(shí)驗(yàn)并與其他模型比較以證明其優(yōu)勢.
在第1個(gè)實(shí)驗(yàn)中,我們希望CoVAE模型生成不同屬性的人臉元組,強(qiáng)調(diào)在訓(xùn)練集中的不同域中沒有對應(yīng)的圖像,我們以不同屬性的人臉數(shù)據(jù)集分別訓(xùn)練兩個(gè)VAE.訓(xùn)練良好的CoVAE可以學(xué)習(xí)不同屬性數(shù)據(jù)集的高級特征表示,最后輸入任意一張人臉圖片,CoVAE模型都可以生成不同屬性的人臉元組.我們按照不同的屬性將Celeba數(shù)據(jù)集分為兩部分,第1部分記為數(shù)據(jù)集1,將人臉圖片標(biāo)準(zhǔn)化成固定尺寸為128×128×3輸入VAE1,第2部分記為數(shù)據(jù)集2,將人臉圖片標(biāo)準(zhǔn)化成固定尺寸為128×128×3輸入VAE2.兩個(gè)數(shù)據(jù)集:一個(gè)是具有該屬性的圖片數(shù)據(jù)集,一個(gè)是不具有該屬性的圖片數(shù)據(jù)集,它們之間不存在任何對應(yīng)關(guān)系或配對.我們輸出了200維潛變量空間的前12維的正態(tài)分布圖像如圖3所示.生成的不同屬性人臉元組如圖4所示.
圖3 潛變量空間的前12維的正態(tài)分布圖像Fig.3 First 12-dimensional normal distribution image of latent variable space
圖4 微笑、眼鏡、發(fā)色的人臉元組圖像Fig.4 Smile,glasses,hair color face tuple image
從圖3中可以看到200維潛變量的前12維的正態(tài)分布,每一維都是一個(gè)正態(tài)分布,這些所有的分布加起來是當(dāng)前圖片的高級特征,所以人臉圖片的高級特征可以理解為是一個(gè)多元正態(tài)分布.
從圖4中可以看到訓(xùn)練良好的CoVAE可以成功的捕獲每個(gè)人臉的高級特征-比如是否微笑,是否帶眼鏡,發(fā)色.圖4中,第1組圖片中,VAE1可以捕獲人臉笑的高級特征,VAE2可以捕獲人臉不笑的高級特征,所以輸入1張人臉圖片,訓(xùn)練良好的CoVAE就可以生成不同屬性的人臉元組,即第1組圖像中第1行微笑的人臉圖像,和第2行不笑的人臉圖像,上下圖像為同一個(gè)人對應(yīng)微笑和不微笑的人臉元組.同樣,第2組圖像中,第1行是CoVAE生成的戴眼鏡的人臉圖像,第2行是第1行中的每個(gè)人臉分別對應(yīng)的不帶眼鏡的圖像.第3組圖像中,CoVAE生成了第1行淺發(fā)色的人臉圖像,第2行圖像為第1行每個(gè)人臉分別對應(yīng)的深發(fā)色圖像.類似于此,訓(xùn)練良好的CoVAE可以生成任意屬性的人臉元組.
此外,我們發(fā)現(xiàn)CoVAE模型可以實(shí)現(xiàn)無監(jiān)督的人臉特征轉(zhuǎn)換以及人臉相互轉(zhuǎn)換效果.單個(gè)VAE可以通過屬性標(biāo)簽學(xué)習(xí)實(shí)現(xiàn)人臉特征轉(zhuǎn)換,在本文實(shí)驗(yàn)中,我們發(fā)現(xiàn)可以應(yīng)用CoVAE模型中兩個(gè)VAE的特點(diǎn)不需要屬性標(biāo)簽也可以實(shí)現(xiàn)人臉特征轉(zhuǎn)換,即用CoVAE模型實(shí)現(xiàn)無監(jiān)督人臉特征轉(zhuǎn)換.使用完整的Celeba數(shù)據(jù)集訓(xùn)練CoVAE模型,訓(xùn)練良好的CoVAE模型可以生成任意屬性特征的人臉圖片,然后將數(shù)據(jù)集按照不同屬性劃分為兩個(gè)數(shù)據(jù)集,分別將兩個(gè)數(shù)據(jù)集輸入兩個(gè)VAE,每個(gè)VAE提取出來對應(yīng)數(shù)據(jù)集的高級特征表示Z,再以兩個(gè)Z相減求出對應(yīng)屬性的特征向量,從而對任意輸入人臉圖片就可以實(shí)現(xiàn)該屬性的加減變換.用VAE1實(shí)現(xiàn)該屬性的相加,用VAE2實(shí)現(xiàn)該屬性的相減.用CoVAE模型實(shí)現(xiàn)人臉屬性相加及人臉屬性相減結(jié)果如圖5所示.隨后又用訓(xùn)練良好的CoVAE模型實(shí)現(xiàn)了人臉的相互轉(zhuǎn)換,實(shí)驗(yàn)結(jié)果如圖6所示.
圖5 微笑、發(fā)色、性別的人臉屬性加減圖像Fig.5 Smile,hair color,gender face attributes plus or minus images
從圖5的第1組圖片中可以看出,CoVAE中VAE1實(shí)現(xiàn)了微笑屬性特征的相加,VAE2實(shí)現(xiàn)了微笑屬性特征的相減,并且是對同一張人臉圖像進(jìn)行特征加減,是同一張人臉圖像的不同屬性元組.中間一組和下邊一組的圖片分別實(shí)現(xiàn)了發(fā)色和性別的屬性加減.第1組圖像中,第1行圖片人臉圖像從不笑到笑,第2行人臉圖像從笑到不笑;第2組圖像中,第1行人臉圖像發(fā)色從黑色到棕色,第2行人臉圖像發(fā)色從棕色到黑色圖片;第3組圖像中,第1行人臉圖像從性別女到男,第2行人臉圖像從性別男到女.可以清楚的看到,即使在潛空間中將一個(gè)特征移動(dòng)很遠(yuǎn)的距離,除了我們想操控的這個(gè)特征,圖像的核心幾乎沒有改變.這證明了CoVAE在捕獲和調(diào)節(jié)圖像中高級特征的強(qiáng)大能力.
從圖6中的3組圖片可以看到CoVAE中VAE1實(shí)現(xiàn)了左邊圖片到右邊圖片的轉(zhuǎn)化,VAE2實(shí)現(xiàn)了反向的轉(zhuǎn)化,并且轉(zhuǎn)化的時(shí)候包含了多種特征屬性(比如微笑,發(fā)色,性別等).這個(gè)實(shí)驗(yàn)顯示了CoVAE的潛空間中應(yīng)該是一個(gè)連續(xù)的空間分布,才能轉(zhuǎn)化和嘗試去生成一個(gè)多種屬性的不同人臉.
圖6 人臉圖像的相互轉(zhuǎn)換Fig.6 Face image conversion
本文使用卷積網(wǎng)絡(luò)來實(shí)現(xiàn)CoVAE,兩個(gè)編碼器、解碼器具有相同的結(jié)構(gòu),為了減少訓(xùn)練參數(shù)加快訓(xùn)練速度我們共享兩個(gè)VAE的編碼器解碼器權(quán)重,每一個(gè)卷積層之后都有一個(gè)歸一化層去加快訓(xùn)練.訓(xùn)練人臉的CoVAE層數(shù)如表1所示.使用ADAM算法進(jìn)行訓(xùn)練,學(xué)習(xí)率設(shè)置為0.0005,最小批量設(shè)置為32.并對CoVAE進(jìn)行了200次迭代訓(xùn)練.
表1 生成人臉的CoVAETable 1 CoVAE for face generation
本文最后將模型應(yīng)用于MNIST數(shù)據(jù)集并與相關(guān)模型作比較,根據(jù)指標(biāo)顯示,CoVAE模型生成圖像優(yōu)于其他模型.我們選用的評價(jià)指標(biāo)包括SSIM、PSNR、MSE、NRMSE.SSIM是一種衡量兩幅圖像相似度的指標(biāo),用均值作為亮度估計(jì),標(biāo)準(zhǔn)差作為對比度估計(jì),協(xié)方差作為結(jié)構(gòu)相似程度的度量.PSNR是峰值信號的能量與噪聲的平均能量之比.MSE是真實(shí)值與預(yù)測值的差值的平方然后求和平均.NRMSE就是將MSE的值開方后變成(0,1)之間.我們將正域和負(fù)域的MNIST數(shù)據(jù)集分別訓(xùn)練兩個(gè)VAE,數(shù)字圖像在潛變量空間分布如圖7所示,生成圖像如圖8所示.我們將CoVAE模型與其他比較流行的模型作比較,CoVAE模型優(yōu)于其他的模型生成效果,結(jié)果數(shù)值如表2所示.
圖7 正域及負(fù)域數(shù)據(jù)在潛變量空間的分布圖Fig.7 Distribution diagram of positive and negative domain data in latent variable space
圖7中的三角形的點(diǎn)代表正域數(shù)字圖像在潛變量空間中的分布,圓形的點(diǎn)代表負(fù)域數(shù)字圖像在潛變量空間中的分布,這些點(diǎn)中每個(gè)點(diǎn)都代表了原圖像在潛變量空間中的坐標(biāo),就是提取出來的高級特征,我們通過這個(gè)特征可以重構(gòu)圖像.圖8中每組圖片第1行的圖像都是CoVAE中VAE1生成的正域數(shù)字圖像,第2行的圖像是VAE2生成的負(fù)域數(shù)字圖像.
圖8 CoVAE生成正負(fù)域的數(shù)字圖像Fig.8 CoVAE generated digital images of positive and negative fields
在表2中,結(jié)構(gòu)相似性SSIM數(shù)值越接近于1,相似度越高,代表融合質(zhì)量越好;峰值信噪比PSNR用于衡量圖像有效信息與噪聲之間的比率,能夠反映圖像是否失真,PSNR值越大融合圖像質(zhì)量越好;均方誤差MSE反映的是變量間的差異程度,用于衡量融合圖像與理想圖像之間的差異,MSE越小,表示融合圖像質(zhì)量越好;歸一化均方根誤差NRMSE是將一個(gè)翻譯空間細(xì)節(jié)信息的評價(jià)指標(biāo)的值變成(0,1)之間,越小越好.我們可以從上表數(shù)值得知,在生成數(shù)字圖像上CoVAE的性能優(yōu)于其他模型,分析原因其一是因?yàn)樽兎肿跃幋a器在提取圖像高級特征上表現(xiàn)的強(qiáng)大能力,利用兩個(gè)卷積神經(jīng)網(wǎng)絡(luò)擬合出來對應(yīng)的均值方差,經(jīng)過重采樣求出對應(yīng)的潛變量,正如同數(shù)學(xué)函數(shù)一樣準(zhǔn)確嚴(yán)謹(jǐn),精致迂回的數(shù)學(xué)推導(dǎo)使其相對于生成對抗網(wǎng)絡(luò)粗狂的對抗訓(xùn)練更準(zhǔn)確;其二CoVAE將潛變量維度擴(kuò)展為100維,更多維的潛變量意味著更加準(zhǔn)確的多維正態(tài)分布,每一維正態(tài)分布都對應(yīng)了圖像的一維特征,多維的正態(tài)分布更能細(xì)致精準(zhǔn)的刻畫每一張圖像的高級特征,所以生成的數(shù)字圖像更清楚準(zhǔn)確.
表2 MNIST數(shù)據(jù)集上不同模型的相關(guān)指標(biāo)結(jié)果Table 2 Correlation index results of different models on MNIST data set
受CoGAN思想的啟發(fā),提出了用于生成不同屬性人臉元組的CoVAE模型.該模型學(xué)習(xí)不同屬性數(shù)據(jù)集高級特征的表示,從而更精確的生成不同屬性的人臉元組,嚴(yán)格控制元組中人臉主體的一致性,相較于CoGAN生成的人臉圖像元組結(jié)果更精準(zhǔn).此外,本文也實(shí)現(xiàn)了CoVAE在無監(jiān)督人臉屬性轉(zhuǎn)換及人臉相互轉(zhuǎn)換的應(yīng)用.但是VAE在生成人臉圖像上并不是很清楚,這也是本文需要進(jìn)一步研究提高的地方.