• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于文本—圖像及流形插值的對抗模型

      2020-09-02 06:31:23張帥楊雪霞
      軟件導(dǎo)刊 2020年8期

      張帥 楊雪霞

      摘 要:針對傳統(tǒng)文本—圖像對抗模型中,由于反卷積網(wǎng)絡(luò)參數(shù)過多容易產(chǎn)生過擬合現(xiàn)象,導(dǎo)致生成圖像質(zhì)量較差,而線性分解方法無法解決文本—圖像對抗模型中輸入單一的問題,提出一種在線性分解基礎(chǔ)上加入流形插值的算法,并對傳統(tǒng)DCGAN模型進行改進,以提高圖像的魯棒性。仿真實驗結(jié)果表明,生成花卉圖像的FID分數(shù)降低了4.73%,生成鳥類的FID分數(shù)降低了4.11%,在Oxford-102和CUB兩個數(shù)據(jù)集上生成圖像的人類評估分數(shù)分別降低了75.64%和58.95%,初始分數(shù)分別提高14.88%和14.39%,說明新模型生成的圖片更符合人類視角,圖片特征更為豐富。

      關(guān)鍵詞:生成圖像;過擬合;深度卷積;流形插值;對抗網(wǎng)絡(luò)

      DOI:10. 11907/rjdk. 201133 開放科學(xué)(資源服務(wù))標識碼(OSID):

      中圖分類號:TP317.4 文獻標識碼:A 文章編號:1672-7800(2020)008-0216-05

      Abstract: In the implementation of the traditional text image confrontation model, many parameters of deconvolution network are easy to produce over fitting phenomenon, resulting in poor image quality, the linear decomposition method cannot solve the problem of single input in the text image confrontation model. In this paper, an algorithm based on linear decomposition with popular interpolation is proposed, and the traditional DCGAN model is improved to enhance its robustness to image size. Through simulation experiment, the FID score of flower image and bird image is reduced by 4.73% and 4.11%, the human evaluation scores of the images generated on oxford-102 and cub data sets are 75.64% and 58.95% lower than the original, and the initial scores are 14.88% and 14.39% higher.The experimental results show that the image generated by the new model is more in line with the human perspective, and the image features are more abundant.

      Key Words: generating image; over-fitting; deep convolution; epidemic interpolation; adversarial network

      0 引言

      隨著人工智能技術(shù)的飛速發(fā)展,深度學(xué)習(xí)技術(shù)成為學(xué)者們的研究熱點,并在計算機視覺、語音識別、自然語言處理等多個領(lǐng)域取得了諸多成果。其中,GoodFellow 等[1-3]于2014年首次提出了GANs(Generative Adversarial Nets)概念,即生成對抗網(wǎng)絡(luò),目前生成對抗網(wǎng)絡(luò)已成功應(yīng)用于圖像處理領(lǐng)域。

      當(dāng)前生成圖像主要是基于生成對抗網(wǎng)絡(luò)模型,而遞歸神經(jīng)網(wǎng)絡(luò)[4]和卷積神經(jīng)網(wǎng)絡(luò)[5]的提出使圖像生成更為高效。遞歸神經(jīng)網(wǎng)絡(luò)常用于處理標題語句,從而形成標題向量,也被用來學(xué)習(xí)區(qū)分文本特征表示;卷積神經(jīng)網(wǎng)絡(luò)用于圖像特征提取,進而形成圖像特征向量,其中深度卷積對抗網(wǎng)絡(luò)也被用于生成人臉、相冊封面和房間內(nèi)部結(jié)構(gòu)。生成對抗網(wǎng)絡(luò)衍生出的模型包括GAN-INT-CLS[6]、GAWWN[7]、StackGAN[8]和StackGAN++[9]等,雖然這些模型在圖像生成方面取得了諸多進展,但其都是以深度卷積對抗網(wǎng)絡(luò)為基礎(chǔ)的,容易造成計算資源浪費以及過擬合現(xiàn)象,主要原因是由于傳統(tǒng)卷積網(wǎng)絡(luò)層數(shù)較淺及參數(shù)量較大。

      為了解決傳統(tǒng)卷積網(wǎng)絡(luò)的缺點,Simonyan[10]提出線性分解方法,在增加卷積網(wǎng)絡(luò)層數(shù)的同時減少參數(shù)數(shù)量,降低計算量,使得生成的圖像不會完全擬合真實圖像,從而降低過擬合。為了解決輸入標題單一導(dǎo)致生成圖片類型單一的問題,本文引入流形插值方法,并結(jié)合線性分解的優(yōu)點,針對如何提高圖像質(zhì)量進行深入研究。

      1 相關(guān)模型

      以DCGAN網(wǎng)絡(luò)為基礎(chǔ),Dosovitskiy等[11]訓(xùn)練一個反卷積網(wǎng)絡(luò),根據(jù)一組指示形狀、位置和照明的圖形代碼生成三維椅子效果圖;Gregor等 [12]提出DRAW模型,該模型應(yīng)用遞歸變分自編碼器與注意機制生成真實的門牌號圖像;Reed等[13]提出一種端對端的可視化類比生成方法,并在實驗中使用卷積解碼器有效模擬了二維形狀、動畫游戲角色與三維汽車模型。上述模型均基于傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)加以構(gòu)建,盡管生成圖像質(zhì)量較高,但由于網(wǎng)絡(luò)層數(shù)較淺,參數(shù)量大,導(dǎo)致計算量過大,而且生成的圖像與訓(xùn)練集中的圖像過于相似,容易造成計算資源浪費以及過擬合現(xiàn)象。

      VGGNet[14]是牛津大學(xué)計算機視覺組和Google DeepMind公司一起研發(fā)的深度卷積神經(jīng)網(wǎng)絡(luò),具有很好的泛化性,較好地解決了傳統(tǒng)神經(jīng)網(wǎng)絡(luò)存在的問題。VGG網(wǎng)絡(luò)最主要的思想是增加網(wǎng)絡(luò)深度、縮小卷積核尺寸。VGG-16網(wǎng)絡(luò)由13個卷積層+5個池化層+3個全連接層疊加而成,包含參數(shù)多達1.38億,其核心思想為線性分解。

      本文基于VGG-16與流形插值[15-16]思想構(gòu)建一種混合網(wǎng)絡(luò)模型,如圖1所示。在確保圖像多樣性的同時,保障了圖像生成質(zhì)量。采用基于 VGG-16 網(wǎng)絡(luò)的思想對傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)進行改進,即對卷積網(wǎng)絡(luò)進行線性分解[17],旨在不過多影響識別準確率的前提下盡量減少網(wǎng)絡(luò)參數(shù)、提高訓(xùn)練效率,同時引入流形插值思想,并豐富生成圖片的類型。

      2 本文算法

      2.1 網(wǎng)絡(luò)結(jié)構(gòu)

      如圖1所示,左側(cè)為生成網(wǎng)絡(luò),右側(cè)為判別網(wǎng)絡(luò),標識A為卷積網(wǎng)絡(luò)在生成器中的位置,本文將對該位置的卷積網(wǎng)絡(luò)進行線性分解。在生成器中,首先從噪聲分布[z~Ν(0,1)]中進行采樣,使用文本編碼器[φ]對文本查詢T進行編碼,使用連接層將嵌入的描述[φ(t)]壓縮為小尺寸,然后采用LeakyReLU激活函數(shù)對其進行處理,最后連接到噪聲矢量[z]。接下來的推理過程就像在一個正常的反卷積網(wǎng)絡(luò)中一樣:通過生成器G將其前饋,一個合成圖像[x]是通過[x←G(z, (t))]生成的。圖像生成對應(yīng)于生成器G中基于查詢文本與噪聲樣本的前饋推理。

      在判別器D中,首先利用空間批處理歸一化和LeakyReLU激活函數(shù)執(zhí)行多個層的步長為2的卷積處理,然后使用全連接層降低描述嵌入[φ(t)]的維數(shù),并對其進行校正。當(dāng)判別器的空間維度為4×4時,在空間上復(fù)制描述嵌入,并執(zhí)行深度連接;接下來執(zhí)行1×1的卷積和校正,再執(zhí)行4×4的卷積,并利用D計算最終分數(shù);最后對所有卷積層執(zhí)行批處理規(guī)范化。

      2.2 匹配感知判別器(GAN-CLS)

      在傳統(tǒng)GAN中,判別器接受兩種輸入:帶有匹配文本的真實圖像和帶有任意文本的合成圖像。因此,其必須隱式地分離兩個錯誤源:錯誤的圖像以及與文本信息不匹配的真實圖像。為此,對GAN訓(xùn)練算法進行改進,以將這些誤差源分離出來。除訓(xùn)練期間對判別器的真/假輸入外,它還添加了第三種輸入,由文本不匹配的真實圖像組成,判別器必須學(xué)會將其評分為假。步長為α的GAN-CLS訓(xùn)練算法如下:

      1: Input: minibatch images x, matching text t, mismatching[t],number of training batch steps S。

      2. for n = 1 to S do

      3. [h← (t)] {Encode matching text description}

      4. [h← (t)]{Encode mis-matching text description}

      5. [z~Ν(0,1)Z]{Draw sample of random noise}

      6. [x←G(z,h)]{Forward through generator}

      7. [sτ←D(x,h)]{real image, right text}

      8. [sw←D(x,h)]{real image, wrong text}

      9. [sf←D(x,h)]{fake image, right text}

      10. [LD←log(sτ)+(log(1-sw)+log( 1-sf))/2]

      11. [D←D-αδLD/δD]{Update discriminator}

      12. [LG←log(sf)]

      13. [G←G-αδLG/δG]{Update generator}

      14. end for

      其中,[x]表示生成的假圖像,[sτ]表示真實圖像及其對應(yīng)句子的關(guān)聯(lián)得分,[sw]表示真實圖像與任意句子的關(guān)聯(lián)分數(shù),[sf]表示假圖像與其對應(yīng)文本的關(guān)聯(lián)分數(shù)。[δLD/δD]表示D的目標相對于其參數(shù)的梯度,G也是如此,第11行和第13行表示采取梯度步驟更新網(wǎng)絡(luò)參數(shù)。

      2.3 卷積網(wǎng)絡(luò)對稱分解

      VGGNet通常用于提取圖像特征,將多個相同的3×3卷積層堆疊在一起,而且網(wǎng)絡(luò)結(jié)構(gòu)越深,性能越好。本文對圖1中A處對應(yīng)卷積網(wǎng)絡(luò)進行線性分解,如圖2所示。

      圖2表示用兩個3×3的卷積網(wǎng)絡(luò)代替一個5×5的卷積網(wǎng)絡(luò)。第一層表示用一個3×3的卷積在5×5的窗格上移動,得到一個3×3的輸出,如第二層所示,接著用一個3×3的卷積核作運算,最后得到第三層的輸出。雖然兩者作用是一樣的,但是卷積網(wǎng)絡(luò)分解在增加網(wǎng)絡(luò)層數(shù)的同時能夠減少參數(shù),達到降低過擬合的效果。

      2.4 流形插值學(xué)習(xí)(GAN-INT)

      流形插值可視為在生成器目標中添加一個附加項,以最小化以下公式:

      其中,[z]從噪聲分布中提取,[β]在文本嵌入[t1]和[t2]之間插值。在實踐中發(fā)現(xiàn),當(dāng)[β]=0.5時效果良好。其中,[t1]和[t2]可能來自不同圖像,甚至是不同類別。

      3 實驗及結(jié)果分析

      3.1 實驗數(shù)據(jù)及參數(shù)設(shè)置

      在實驗數(shù)據(jù)集選擇和參數(shù)設(shè)置上,本文引用鳥類圖像的CUB數(shù)據(jù)集和花卉圖像的Oxford-102數(shù)據(jù)集。在實驗中,將這些圖像劃分為不相交的訓(xùn)練集和測試集。CUB有150個訓(xùn)練類+驗證類和50個測試類,而Oxford-102有82個訓(xùn)練類+驗證類和20個測試類。在進行小批量選擇訓(xùn)練時,隨機選取圖像視圖和其中一個標題。

      本文對所有數(shù)據(jù)集使用相同的GAN體系結(jié)構(gòu),訓(xùn)練圖像大小為64×64×3。在深度連接到卷積特征圖之前,文本編碼器產(chǎn)生1 024維的輸入,并在生成器和判別器網(wǎng)絡(luò)中將圖像投射到128維。在Adam優(yōu)化過程中,設(shè)置學(xué)習(xí)率為0.000 2,動量為0.5,并采用交替步驟更新生成器和判別器網(wǎng)絡(luò)。從100維單位正態(tài)分布中對生成器噪聲進行采樣,使用64個小批量,并訓(xùn)練100輪。

      (3)本實驗中也總結(jié)了人類評估方法,在測試集中隨機選擇30個文本描述,針對每個句子,生成模型生成8個圖像。將8個圖像與對應(yīng)文本描述對不同人按不同方法進行圖像質(zhì)量排名,最后計算平均排名以評價生成圖像的質(zhì)量和多樣性。

      3.2 定性結(jié)果

      本文比較GAN-CLS、GAN-CLS-NA和GAN-CLS- NA-INT 3種模型圖像生成效果,其中CLS-GAN-NA模型在GAN-CLS模型基礎(chǔ)上對卷積網(wǎng)絡(luò)進行線性分解。GAN-CLS得到了一些正確的顏色信息,但圖像看起來并不真實。將3個模型在各個數(shù)據(jù)集上訓(xùn)練及測試完成后,都有8個英文標題作為輸入,每個標題重復(fù)8次,共形成64個標題作為輸入,得到8行8列的圖像,每行8幅圖像對應(yīng)相同的8個標題。在Oxford-102 Flowers數(shù)據(jù)集中,GAN-CLS結(jié)果如圖3所示。

      圖3對應(yīng)的輸入標題有8個,其中2個如下:①the flower shown has yellow anther red pistil and bright red petals;②this flower has petals that are yellow, white and purple and has dark lines。

      在Oxford-102花卉數(shù)據(jù)集上的GAN-CLS-NA結(jié)果如圖4所示。

      在GAN-CLS-NA模型基礎(chǔ)上引入流形插值思想,其中2個標題的變換如下:①the flower shown has yellow anther red pistil and bright red petals→the flower shown has blue anther red pistil and bright yellow petals;②this flower has petals that are yellow, white and purple and has dark lines→ this flower has petals that are red, white and purple and has red lines。

      GAN-CLS-NA-INT模型在Oxford-102 Flowers數(shù)據(jù)集上生成的花卉圖像如圖5所示。

      對比圖3與圖4相同的行可以發(fā)現(xiàn),其對應(yīng)的圖片標題是相同的,花的基本顏色與形狀沒有明顯區(qū)別,但圖4的圖像更為真實;圖5與圖4相比,在相同的行中,前4列標題相同,且基本顏色、形狀及細節(jié)方面都非常接近,后4列則引入了流形插值后生成的圖像,可以發(fā)現(xiàn)背景及花的一部分顏色發(fā)生了改變,使得整體圖像的特征類型更加豐富。在CUB鳥類數(shù)據(jù)集中,GAN-CLS結(jié)果如圖6所示。

      以上圖片對應(yīng)的輸入標題有8個,其中2個如下:①this small bird has a blue crown and white belly;②this small yellow bird has grey wings, and a black bill。

      在CUB鳥類數(shù)據(jù)集上的GAN-CLS-NA結(jié)果如圖7所示。

      在CUB鳥類數(shù)據(jù)集中,GAN-CLS-NA-INT結(jié)果如圖8所示。

      以上圖片對應(yīng)的輸入標題有8個,其中2個標題及變換如下:①this small bird has a blue crown and white belly→this small bird has a red crown and blue belly;②this small yellow bird has grey wings, and a black bill→this small white bird has grey wings, and a blue bill。

      對比圖6與圖7相同的行可以發(fā)現(xiàn),其對應(yīng)的圖片標題是相同的,鳥的基本顏色和形狀沒有明顯區(qū)別,但二者圖像中背景和鳥的姿勢不同,圖7更真實一些;圖8與圖7相比,在相同的行中,前4列標題相同,且基本顏色、形狀及細節(jié)方面都非常接近,但二者圖像中背景和鳥的姿勢各不相同,后4列則引入了流形插值后生成的圖像,可以發(fā)現(xiàn)背景及鳥的一部分顏色和姿勢已發(fā)生改變,使得整體圖像的特征類型更加豐富。

      3.3 定量結(jié)果

      首先利用花卉描述標題集與相應(yīng)圖像數(shù)據(jù)集對CLS-GAN模型進行100輪訓(xùn)練。每輪訓(xùn)練結(jié)束后,輸入花描述語句生成相應(yīng)圖像,總共生成100幅圖像。本文選擇的圖像評價方法為FID分數(shù)評估方法。采用上述圖像評價方法,分別對由CLS-GAN和CLS-GAN-SA兩種模型生成的100幅圖像進行評價,定性結(jié)果如表1所示,而利用初始分數(shù)和人類評分的定量結(jié)果如表2所示。

      從表中可以看出,GAN-CLS-NA在Oxford-102花卉數(shù)據(jù)集上的FID數(shù)值與GAN-CLS結(jié)果相比,F(xiàn)ID分數(shù)降低了2.34%;GAN-CLS-NA在CUB鳥類數(shù)據(jù)集上的FID數(shù)值與GAN-CLS結(jié)果相比,F(xiàn)ID分數(shù)降低了2.29%,說明在判別器中對卷積層進行適當(dāng)分解,在減少參數(shù)量與降低過擬合的同時,也提高了生成圖像質(zhì)量。同時,GAN-CLS-NA-INT在Oxford-102花卉數(shù)據(jù)集和CUB鳥類數(shù)據(jù)集上的初始評分與GAN-CLS結(jié)果相比,分別提高了14.88%和14.39%,說明生成的圖像特征類型更加豐富;人類評估分數(shù)分別降低了75.64%和58.95%,該指標越低說明越符合人類視角,也即表明生成的圖像質(zhì)量越好。

      4 結(jié)語

      本文在GAN-CLS模型基礎(chǔ)上對模型判別器中的卷積網(wǎng)絡(luò)進行線性分解,并用分解后的卷積網(wǎng)絡(luò)提取圖像特征。在Oxford-102花卉數(shù)據(jù)集和CUB鳥類數(shù)據(jù)集上的實驗結(jié)果表明,本文模型效果優(yōu)于基于傳統(tǒng)卷積網(wǎng)絡(luò)模型的效果,證明對卷積網(wǎng)絡(luò)進行適當(dāng)分解可以降低過擬合,提高生成圖像質(zhì)量。另外,引入流形插值在豐富生成圖像類型的同時,也能有效提高圖像質(zhì)量。在未來工作中,將進一步研究如何降低圖像失真現(xiàn)象。

      參考文獻:

      [1] DENTON E, CHINTALA S, SZLAM A, et al. Deep generative image models using a laplacian pyramid of adversarial networks[C]. Advances in Neural Information Processing Systems, 2015:1486-1494.

      [2] HUANG X, LI Y, POURSAEED O, et al. Stacked generative adversarial networks[C]. ?2017 IEEE Conference on Computer Vision and Pattern Recognition , 2017:1866-1875.

      [3] ZHAO J, MATHIEU M, LECUN Y. Energy-based generative adversarial network[C]. Toulon: International Conference on Learning Representations, 2016.

      [4] XU R F,YEUNG D,SHU W H,et al. A hybrid post-processing system for Handwritten Chinese Character Recognition[J]. International Journal of Pattern Recognition and Artificial Intelligence,2002,16(6):657-679.

      [5] 徐冰冰,岑科廷,黃俊杰,等. 圖卷積神經(jīng)網(wǎng)絡(luò)綜述[J/OL]. 計算機學(xué)報,2019:1-31[2020-04-06]. http://kns.cnki.net/kcms/detail/11.1826.tp.20191104.1632.006.html.

      [6] REED S, AKATA Z, YAN X, et al. Generative adversarial text to image synthesis[C]. ?International Machine Learning Society (IMLS),2016:1681-1690.

      [7] REED S,AKATA Z,MOHAN S,et al. Learning what and where to draw[C]. Advances in Neural Information Processing Systems,2016:217-225.

      [8] 陳耀,宋曉寧,於東軍. 迭代化代價函數(shù)及超參數(shù)可變的生成對抗網(wǎng)絡(luò)[J]. 南京理工大學(xué)學(xué)報, 2019,43(1):35-40.

      [9] 徐天宇,王智. 基于美學(xué)評判的文本生成圖像優(yōu)化[J]. 北京航空航天大學(xué)學(xué)報,2019,45(12): 2438 -2448.

      [10] SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale Image recognition[C]. ?International Conference on Learning Representations, 2015:1-12.

      [11] DOSOVITSKIY A,SPRINGENBERG J T,BROX T. Learning to generate chairs with convolutional neural networks[C]. IEEE Conference on Computer Vision & Pattern Recognition,2015:1538-1546.

      [12] GREGOR K, DANIHELKA I, GRAVES A, et al. DRAW: a recurrent neural network for image generation[C]. International Conference on Machine Learning,2015:1462-1471.

      [13] REED S, ZHANG Y, ZHANG Y T, et al. Deep visual analogy-making[C]. ?Advances in Neural Information Processing Systems, 2015: 1252-1260.

      [14] 謝志華,江鵬,余新河,等. 基于VGGNet和多譜帶循環(huán)網(wǎng)絡(luò)的高光譜人臉識別系統(tǒng)[J]. 計算機應(yīng)用, 2019,39(2):388-391.

      [15] BENGIO Y, MESNIL G, DAUPHIN Y, et al. Better mixing via deep representations[C]. International Conference on Machine Learning, 2013:552-560.

      [16] REED S,SOHN K,ZHANG Y T,et al. Learning to disentangle factors of variation with manifold interaction[C]. International Conference on Machine Learning,2014: 3291-3299.

      [17] SZEGEDY C, VANHOUCKE V, IOFFE S, et al. Rethinking the inception architecture for computer vision[C]. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2016: 2818-2826.

      [18] HEUSEL M,RAMSAUER H,UNTERTHINER T,et al. GANs trained by a two time-scale update rule converge to a local nash equilibrium[C]. ?Advances in Neural Information Processing Systems, 2017:6627-6638.

      [19] SALIMANS T,GOODFELLOW I,ZAREMBA W,et al. Improved techniques for training GANs[C]. Advances in Neural Information Processing Systems, 2016:2234-2242.

      (責(zé)任編輯:黃 ?。?/p>

      舒城县| 东乌| 东乌珠穆沁旗| 漠河县| 潜山县| 望江县| 临桂县| 永嘉县| 宜兰县| 饶河县| 德阳市| 泸水县| 南昌市| 遵义市| 余干县| 商洛市| 永顺县| 竹溪县| 垫江县| 顺义区| 通河县| 花垣县| 阳原县| 桐乡市| 灵寿县| 资中县| 多伦县| 翁牛特旗| 石林| 桂平市| 镇江市| 大同市| 咸阳市| 凯里市| 夹江县| 鞍山市| 牡丹江市| 溆浦县| 来宾市| 义马市| 休宁县|