楊振 李丹
摘 ?要:GANs作為典型的生成對抗網(wǎng)絡(luò),具有較高的應(yīng)用價(jià)值和發(fā)展?jié)摿?,文章改進(jìn)了GANs網(wǎng)絡(luò)的一些新技術(shù)(訓(xùn)練深度生成半質(zhì)量網(wǎng)絡(luò)dcgan),針對其中部分缺點(diǎn)進(jìn)行了有效改善,從網(wǎng)絡(luò)架構(gòu)、特征匹配和多形差值學(xué)習(xí)技術(shù)維度進(jìn)行優(yōu)化,并將其與bird數(shù)據(jù)集*80進(jìn)行訓(xùn)練,得出觀察結(jié)果,為未來的應(yīng)用前景和環(huán)境拓展研究提供進(jìn)一步可能性,以期在更多的場景中使用該算法。
關(guān)鍵詞:GANs網(wǎng)絡(luò)的技術(shù)改進(jìn);數(shù)據(jù)新集;網(wǎng)絡(luò)機(jī)構(gòu);特征匹配;多形差值學(xué)習(xí)
中圖分類號:TP18 ? ? 文獻(xiàn)標(biāo)識(shí)碼:A文章編號:2096-4706(2021)21-0102-03
Abstract: As a typical generation countermeasure network, GANs has higher application value and development potential. In this paper, some new technologies of GANs network are improved (training depth generation semi-mass network dcgan), and some of the shortcomings are effectively improved. The algorithm is optimized from the network architecture, feature matching and polymorphic difference learning technology dimensions, and is trained with bird dataset *80 to obtain the observation results, providing further possibility for the research of future application prospects and environment expansion, in order to use the algorithm in more scenarios.
Keywords: GANs network's technology improvement; new dataset; network organization; feature matching; polymorphic difference learning
0 ?引 ?言
一個(gè)生成性的對抗網(wǎng)絡(luò)(GANs)就是由一個(gè)生成器G和一個(gè)鑒別器D所組合構(gòu)成的,它們在兩個(gè)玩家最小游戲中相互競爭:鑒別器嘗試區(qū)分真實(shí)訓(xùn)練數(shù)據(jù)和一個(gè)合成的圖像,生成器嘗試欺騙一個(gè)鑒別器。具體地說,D和 G在V(D、G)上可以玩以下游戲:mingmaxdV(D、G)=exblogpdata(x)[logd(x)]+ex2fpz(z)[log(1-D(G(z)))]。這個(gè)極大的極小函數(shù)博弈公式具有了在pg=pdata時(shí)的博弈全局最優(yōu),并且在溫和的條件下具有全局最優(yōu)。G與D之間有一個(gè)足夠的容量pg收斂在pdata。在實(shí)踐中,在訓(xùn)練開始時(shí),D的樣本非常差,被D充滿信心地拒絕。研究發(fā)現(xiàn),在實(shí)踐中,生成器可以更好地最大化對數(shù)(D(G(z))),而不是最小化對數(shù)(1-D(G(z)))。卷積網(wǎng)絡(luò)監(jiān)督學(xué)習(xí)技術(shù)在計(jì)算機(jī)和視覺應(yīng)用中具有很大的普遍性。與此相比,CNN的無監(jiān)督學(xué)習(xí)方式所受到的重視程度更低。在這個(gè)工作中,我們深切地希望CNN能夠幫助我們彌補(bǔ)其他國家在沒有監(jiān)督和不加以監(jiān)管的學(xué)習(xí)中取得成功。我們希望它能在更深層次上得到應(yīng)用。本文主要介紹了CNN,即卷生成了對抗網(wǎng)絡(luò)(dcgan)。它們都是具有某種系統(tǒng)性和結(jié)構(gòu)上的約束,這也證明了它們都是無監(jiān)督學(xué)習(xí)的強(qiáng)力候選。文本的深度和數(shù)量以及返回網(wǎng)絡(luò)能夠高度識(shí)別和宣傳(學(xué)習(xí)意義的零鏡頭)自動(dòng)學(xué)習(xí)的文本顯示,以文字和文本(red等,016)。這些方法是加州理工大學(xué)加利福尼亞大學(xué)鳥類數(shù)據(jù)庫(WAH等,011)基于以上零鏡頭字幕搜索的屬性。在這些工作的鼓勵(lì)下,我們的目標(biāo)是學(xué)習(xí)從單詞和文本到圖像像素的直接表示技術(shù)。
1 ?技術(shù)改進(jìn)
1.1 ?方法
將深度卷積函數(shù)生成遞歸式為對抗神經(jīng)網(wǎng)絡(luò)的先決條件(dc-gan)將其作為一個(gè)混合字符層卷積函數(shù)遞歸式為神經(jīng)網(wǎng)絡(luò)編碼的文本函數(shù),DC-GAN全稱叫作:Unsupervised Representation Learning with Deep Convolutional Generative Adversarial Networks,在外層,用飽滿的神經(jīng)網(wǎng)絡(luò)代替原始G中的多層傳感器生成網(wǎng)絡(luò)G和傳感器網(wǎng)絡(luò)D,并基于文本特征進(jìn)行前饋推理。DC-GAN同時(shí)還具有兩種功能,dc-gan實(shí)現(xiàn)了兩種功能,一種就是它們可以被用來當(dāng)作無監(jiān)督的特征提取器,類似于k-means。其他一種就是讓這張圖片在語言學(xué)上實(shí)現(xiàn)像字向量一般的類似單詞向量這么多的加減。
1.2 ?網(wǎng)絡(luò)架構(gòu)
使用以下表示法。生成器網(wǎng)絡(luò)表示G:RZ×RT→RD,鑒別器D:RD×RT→{0,1},其中T是文本描述嵌入的尺寸,D是圖像的尺寸,Z是輸入到G的噪聲維度。圖1中說明了本文的網(wǎng)絡(luò)結(jié)構(gòu)。在對生成器G中,首先從文本查詢t(0,1)之前的噪聲中進(jìn)行采樣,并且可以通過使用文本編碼器G對文本查詢t(t)進(jìn)行編碼。為了簡單地描述嵌入式的RI(t),首先要把一個(gè)完整的連接層通過壓縮得到一個(gè)較小的維度(其實(shí)我們是18),然后再通過leaky-relu然后把它與噪聲矢量z相連。接下來,推理像是在一個(gè)正常的逆褶積網(wǎng)絡(luò)中一樣順利地進(jìn)行:我們通過生成器G前饋它;通過 ←G(z,?(t))生成一個(gè)合成圖像 。與基于查詢文本和噪音樣品的生成器G中相對應(yīng)的圖像生成方法是基于查詢文本的生成器G中。在鑒定器D中,我們使用空間批處理歸一化進(jìn)行Ioffe-卷積(Ioffe&Szegedy,015),然后是使用ReLU。我們再次減少了將?(t)嵌入到一個(gè)(單獨(dú)的)全連通層中的描述的維數(shù),然后進(jìn)行了校正。例如,當(dāng)一個(gè)鑒別器的空間維數(shù)設(shè)定為4×4時(shí),我們可以使用空間連接方式來復(fù)制其描述性地嵌入,并執(zhí)行深度連接。然后我們分別執(zhí)行1×1卷積,然后通過校正和4×4卷積計(jì)算D的最終得分。對所有卷積層進(jìn)行批處理歸一化。
生成器和文本識(shí)別者都通常是用于使用新的文本格式編碼器(t)。它被二維投影投射到一個(gè)較低層的維度和深層,與三維圖像中的特征圖和地形圖相互連接,以此更便于進(jìn)一步卷積化并處理下一階段。
1.3 ?特征匹配
GAN網(wǎng)絡(luò)的訓(xùn)練主要包含納什均衡。獲取它的成本函數(shù)是每個(gè)參與者的目的,J(D)(θ(D),θ(G))為判別器,J(G)(θ(D),θ(G))為生成器。納什均衡是一個(gè)點(diǎn)(θ(D),θ(G)),使J(D)相對于θ(D)最小,J(G)相對于θ(G)最小。不幸的是,找到納什均衡是一個(gè)非常困難的問題。對于存在于特殊情況下的算法,我們不知道是否有相關(guān)算法來應(yīng)用到GAN博弈中,代價(jià)函數(shù)處于非凸時(shí),參數(shù)及參數(shù)空間分別對應(yīng)的連續(xù)的和高維的[1]。
當(dāng)參與者代價(jià)處于最小化狀態(tài)時(shí),就會(huì)產(chǎn)生一個(gè)納什均衡,提高了應(yīng)用傳統(tǒng)基于梯度的最小化技術(shù)想法,并且也實(shí)現(xiàn)了每個(gè)參與的成本節(jié)省。但是正確地這樣做有一個(gè)缺點(diǎn)(D)的校正減少了J(D)但增加了J(G),校正減少了J(G)但增加了J(D),例如,如果一個(gè)參與者最小化x與XY,并最小化另一個(gè)參與者與-XY的關(guān)系,則梯度會(huì)落入穩(wěn)定軌道,而不是收斂到x=y=0,即理想平衡點(diǎn)。特征匹配是通過給生成器制訂一個(gè)新的目標(biāo)值來有效地防止它對當(dāng)前的評估器進(jìn)行了過度的訓(xùn)練,從而解決了GANs的不穩(wěn)定性。新的目標(biāo)并不是直接地最大化鑒別儀的輸出,但要求鑒別儀生成與真實(shí)數(shù)據(jù)統(tǒng)計(jì)相對應(yīng)的數(shù)據(jù)。我們只使用鑒別器來指定我們認(rèn)為有用的統(tǒng)計(jì)信息。特別地說,我們的訓(xùn)練產(chǎn)物生成器和識(shí)別函數(shù)在中間層上的期望值都是完全匹配的[2]。這種方法是由于學(xué)習(xí)識(shí)別生成器對于匹配統(tǒng)計(jì)信息進(jìn)行自然選擇,因?yàn)橥ㄟ^學(xué)習(xí)識(shí)別鑒定器,我們需要他找到一個(gè)最有可能準(zhǔn)確地區(qū)分現(xiàn)實(shí)的數(shù)據(jù)和目前模型產(chǎn)生的各種對抗性數(shù)據(jù)。設(shè)f(x)代表判別器中間一層上的激活,我們將新生成器目標(biāo)定義為||ex2010pdataf(x)-ez-pz(z)f(G(z))||,判別器f(x)按常規(guī)訓(xùn)練,等同于GAN訓(xùn)練。這樣使得目標(biāo)存在一個(gè)固定點(diǎn),其(G)能夠?qū)崿F(xiàn)訓(xùn)練數(shù)據(jù)的精準(zhǔn)匹配,目前,在實(shí)驗(yàn)中無法對相關(guān)過程進(jìn)行有效保障,但從豐富的實(shí)驗(yàn)結(jié)果中,表面特征匹配能夠有效地適用于常規(guī)gan不穩(wěn)定情況,更具有應(yīng)用價(jià)值和效果。
1.4 ?多形插值學(xué)習(xí)(GAN-INT)
深度網(wǎng)絡(luò)可以學(xué)習(xí)插值的表示形式,并且已被證明接近數(shù)據(jù)流的形式。在此基礎(chǔ)上,我們可以通過簡單地插入訓(xùn)練短語標(biāo)簽來生成大量額外的文本插入。要插入文本,不需要與實(shí)際筆跡相對應(yīng)的文本,因此不需要額外的標(biāo)簽成本。這意味著生成器可以被看作是增加了一個(gè)額外的術(shù)語,以最小化:ET1,T2 ~ pdata[log(1-D(G(z,βT1+(1-β)T2)))]。
其中Z是從噪聲分布中提取的,將T1和T2插入文本中,實(shí)際上我們已經(jīng)找到了一個(gè)解決方案。b=0.5是有效的。由于插入值是合成的,所以鑒別器D不對應(yīng)于“真實(shí)”圖像和文本對。D學(xué)習(xí)預(yù)測圖像和文本是否一致。如果D在這方面工作得很好,它將對應(yīng)于D的插入文本。如果插入G,您可以學(xué)會(huì)填補(bǔ)訓(xùn)練點(diǎn)之間數(shù)據(jù)流之間的空白 ,T1和T2可以來自不同的圖像,甚至不同的類型[3]。
其中Z從噪聲分布中提取,并插入T1和T2之間的文本。在實(shí)踐中,我們發(fā)現(xiàn)Fix=0.5非常有效。Da這是一種合成插值,當(dāng)D位于該上下文中時(shí),鑒別器D的訓(xùn)練圖像對應(yīng)于“實(shí)際”文本。在T1和T2中,G可以對應(yīng)于D的插入文本,并學(xué)習(xí)如何填充訓(xùn)練點(diǎn)之間的數(shù)據(jù)空間。T1和T2可以從不同的圖像甚至不同的分類中生成[4]。
2 ?實(shí)驗(yàn)數(shù)據(jù)集
我們采用了Birds*80的數(shù)據(jù)集(來自加州理工大學(xué)uasd的數(shù)據(jù)集)來應(yīng)用本文算法,在實(shí)驗(yàn)中,將每個(gè)數(shù)據(jù)圖像進(jìn)行HD5格式轉(zhuǎn)換,并使用其中80組圖像進(jìn)行數(shù)據(jù)集實(shí)驗(yàn),在具體運(yùn)行中環(huán)境和技術(shù)差異因素,我們會(huì)對改進(jìn)的GAN技術(shù)進(jìn)行一定的優(yōu)化調(diào)整。
在實(shí)驗(yàn)過程中,首先出現(xiàn)在kaggle上運(yùn)行visdom時(shí)出現(xiàn)兼容問題,我們通過配置兼容的虛擬環(huán)境進(jìn)行了有效解決,并通過將學(xué)習(xí)率從0.000 2提高一倍到0.000 34時(shí),發(fā)現(xiàn)結(jié)果有了一定的改進(jìn),
經(jīng)過kaggle的訓(xùn)練后得到如下數(shù)據(jù)。從這張圖片中我們可以清楚地看到通過我們對改進(jìn)的GAN算法訓(xùn)練得出來的模型在性能、準(zhǔn)確度等各個(gè)方面都已經(jīng)有了顯著的改善,表明我們所采用的GAN模型已經(jīng)在對建模這一數(shù)據(jù)集的各種條件下分布等技術(shù)上做得很好。
3 ?算法的應(yīng)用
改善的GAN網(wǎng)絡(luò)(DC-GAN)可以應(yīng)用在人臉圖像的生成。原始的GAN網(wǎng)絡(luò)在自我博弈過程中生成的圖像質(zhì)量無法達(dá)到我們的預(yù)期或者不穩(wěn)定容易產(chǎn)生模式單一化或者模型崩潰,這是因?yàn)樯善骱团袆e器運(yùn)用的是相同的反向傳播網(wǎng)絡(luò)。我們將原生成器網(wǎng)絡(luò)用卷積神經(jīng)網(wǎng)絡(luò)替代原理的MLP實(shí)現(xiàn)較為穩(wěn)定的網(wǎng)絡(luò),并產(chǎn)生高質(zhì)量的圖片,這就是DC-GAN的由來[5]。
在山洪、地震等自然災(zāi)害的事后救援行動(dòng)中搜救機(jī)器人就可以通過搭載這種算法不僅能提高救援效率還可以提高資源的利用率,我們希望在以后的研究中將此方向作為研究重點(diǎn)去幫助更多的讀者[6]。
4 ?結(jié) ?論
GAN是一種潛力巨大的生成性對抗網(wǎng)絡(luò),本文所提到的DC-GAN這是其中的一種演變,我們希望在這基礎(chǔ)上做更多的嘗試并加入更多的新技術(shù),例如:半監(jiān)督學(xué)習(xí)、小批量判別等算法進(jìn)一步改善網(wǎng)絡(luò)的質(zhì)量以此來適應(yīng)更多更大的數(shù)據(jù)集。眾所周知,GANs的壓力訓(xùn)練并不穩(wěn)定,往往這樣會(huì)直接導(dǎo)致兩個(gè)制備器同時(shí)產(chǎn)生一個(gè)幾乎毫無意義的壓力輸出。在我們嘗試系統(tǒng)理解和深入分析關(guān)于GANs賦值學(xué)習(xí)的理論基礎(chǔ)上,以及如何將多層次在GANs的中間的賦值函數(shù)進(jìn)行組合表示。還需要進(jìn)行更多的實(shí)驗(yàn)。
參考文獻(xiàn):
[1] YAN X C,YANG J M,SOHNK. Attribute2Image:Conditional Image Generation from Visual Attributes [J/OL].arXiv:1512.00570 [cs.LG].[2021-08-22].https://arxiv.org/abs/1512.00570.
[2] VINYALS O,TOSHEV A,BENGIO S,et al. Show and tell:A neural image caption generator [C]//2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).Boston:IEEE,2015,3156-3164.
[3] FUKUMIZU K,GRETTON A,SUN X H,et al. Kernel Measures of Conditional Dependence [EB/OL].[2021-08-22].http://citeseerx.ist.psu.edu/viewdoc/download;jsessionid=C6AE3A04010B73BEE01147FB4BD2FCC0?doi=10.1.1.143.5575&rep=rep1&type=pdf.
[4] LI Y J,SWERSKY K,ZEMEL R. Generative Moment Matching Networks [J/OL].arXiv:1502.02761 [cs.LG].[2021-08-22].https://arxiv.org/abs/1502.02761.
[5] 翁邦碧,楊波,姚璞,等.應(yīng)用多媒體與實(shí)戰(zhàn)模擬訓(xùn)練法改進(jìn)自救互救技術(shù)教學(xué) [J].西南軍醫(yī),2020,22(5):478-481.
[6] 胡濤,李金龍.基于單階段GANs的文本生成圖像模型 [J].信息技術(shù)與網(wǎng)絡(luò)安全,2021,40(6):50-55.
作者簡介:楊振(2000—),男,漢族,四川井研人,本科在讀,研究方向:人工智能。