• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      噪聲穩(wěn)健性的卡方生成對(duì)抗網(wǎng)絡(luò)

      2020-04-06 08:24:52李洪均李超波張士兵
      通信學(xué)報(bào) 2020年3期
      關(guān)鍵詞:散度卡方損失

      李洪均,李超波,張士兵

      (1.南通大學(xué)信息科學(xué)技術(shù)學(xué)院,江蘇 南通 226019;2.計(jì)算機(jī)軟件新技術(shù)國(guó)家重點(diǎn)實(shí)驗(yàn)室(南京大學(xué)),江蘇 南京 210093;3.南通大學(xué)智能信息技術(shù)研究中心,江蘇 南通 226019;4.南通大學(xué)通科微電子學(xué)院,江蘇 南通 226019)

      1 引言

      深度學(xué)習(xí)[1]作為一種訓(xùn)練深層神經(jīng)網(wǎng)絡(luò)的機(jī)器學(xué)習(xí)算法,被廣泛應(yīng)用于圖像[2-4]、語(yǔ)音[5-6]、自然語(yǔ)言處理[7-8]、大數(shù)據(jù)特征提取[9-10]等方面。生成式網(wǎng)絡(luò)是深度學(xué)習(xí)的重要組成部分,在無(wú)監(jiān)督情況下可以獲取數(shù)據(jù)的高階特性,主要包括深度置信網(wǎng)絡(luò)[11]、受限玻爾茲曼機(jī)[12]、自編碼器[13]和生成對(duì)抗網(wǎng)絡(luò)(GAN,generative adversarial network)[14]等。

      GAN 不同于其他生成式模型,其避免了馬爾可夫計(jì)算、變分下限和近似推斷的復(fù)雜性,大大提高了應(yīng)用效率;GAN 通過對(duì)抗學(xué)習(xí)生成逼真樣本,在圖像合成[15-17]、修復(fù)[18-20]、分類[21-23]、轉(zhuǎn)換[24-26]等任務(wù)中表現(xiàn)出色。但是GAN 在訓(xùn)練和優(yōu)化過程中存在著一些問題[27-28]。例如,對(duì)抗訓(xùn)練過程中生成器與判別器之間需要很好的平衡,如果生成器退化且判別器誤判,會(huì)導(dǎo)致模式崩塌問題,使生成的圖像單一;梯度下降在非凸函數(shù)的情況下很難達(dá)到納什均衡;當(dāng)真實(shí)樣本分布和生成樣本分布沒有重疊或重疊可忽略時(shí),延森-香農(nóng)(JS,Jensen-Shannon)散度接近定值,容易出現(xiàn)梯度消失問題。

      針對(duì)GAN 存在的問題,研究者們提出了有效的改進(jìn)方法[29-30]。Radford 等[31]采用卷積和解卷積的方式代替全連接結(jié)構(gòu),并使用歸一化提升訓(xùn)練的穩(wěn)定性,可以生成多樣化圖像,但是仍需要平衡訓(xùn)練生成器和判別器。Salimans 等[32]提出增加判別器中間層的輸出作為優(yōu)化目標(biāo)之一,雖然不能保證達(dá)到均衡,但提高了網(wǎng)絡(luò)的穩(wěn)定性。Arjovsky 等[33]通過理論分析說明了JS 散度判斷2 個(gè)無(wú)重疊或重疊可忽略分布的功能受限問題。因此,Wesserstein生成對(duì)抗網(wǎng)絡(luò)(WGAN,Wesserstein GAN)[34]引入Wesserstein 距離,在連續(xù)的約束下改進(jìn)損失函數(shù),解決了梯度消失等訓(xùn)練不穩(wěn)定問題,從而生成豐富多樣的樣本。為了解決模式崩塌問題,Ghosh 等[35]提出了包含多個(gè)生成器和一個(gè)判別器的多主體、多樣化生成對(duì)抗網(wǎng)絡(luò),在判定真假樣本的同時(shí)找到制造假樣本的生成器并優(yōu)化。Mao 等[36]提出了最小二乘生成對(duì)抗網(wǎng)絡(luò)(LSGAN,least squares GAN),使用最小二乘損失函數(shù)代替交叉熵?fù)p失,使圖像分布盡可能地接近決策邊界,提高圖像質(zhì)量。Chen 等[37]提出了一種基于感知損失函數(shù)的生成對(duì)抗網(wǎng)絡(luò),使用密集塊構(gòu)建生成器,生成更自然、更真實(shí)的圖像。Tan 等[38]提出了一種提高圖像質(zhì)量的新策略,將損失函數(shù)的梯度從分類識(shí)別器反向傳播到生成器,同時(shí)反饋標(biāo)簽信息,使生成器能夠更有效地學(xué)習(xí),生成高質(zhì)量的圖像。Kancharla 等[39]提出了基于多尺度結(jié)構(gòu)相似度指標(biāo)的生成對(duì)抗網(wǎng)絡(luò),將結(jié)構(gòu)相似度作為GAN 中鑒別器損失函數(shù)的約束,保證局部結(jié)構(gòu)的完整性,提高生成樣本的視覺質(zhì)量。

      以上基于生成對(duì)抗網(wǎng)絡(luò)的改進(jìn)方法大致上可以分為2 類:一類是為了緩解網(wǎng)絡(luò)訓(xùn)練中出現(xiàn)的梯度消失、模式崩塌等問題,另一類是針對(duì)提高圖像生成的質(zhì)量進(jìn)行改進(jìn)。但是,很少研究工作考慮到不同輸入噪聲對(duì)圖像生成質(zhì)量的影響。文獻(xiàn)[40]表明不同分布在數(shù)據(jù)擬合效果上具有一定的差異性,因而不同的噪聲分布對(duì)生成樣本質(zhì)量有一定的影響。不同度量方法對(duì)計(jì)算分布間差異的準(zhǔn)確性有直接影響,歐氏距離、L1 范數(shù)等只考慮絕對(duì)距離,忽視了相對(duì)距離。對(duì)于反映不同分布之間的距離,相對(duì)距離更有實(shí)際意義,卡方散度和熵可以有效反映相對(duì)距離。相比于熵,卡方散度沒有對(duì)數(shù)和指數(shù)運(yùn)算,其計(jì)算復(fù)雜度小,運(yùn)算速度較快。此外,卡方散度還具有稀疏不變性和量化敏感性[41],利于衡量不同分布間細(xì)微的差異。因此,有必要將卡方散度用于生成對(duì)抗網(wǎng)絡(luò)中展開研究。

      為了解決不同分布噪聲下網(wǎng)絡(luò)生成樣本質(zhì)量差異明顯、穩(wěn)健性差的問題,本文提出了一種噪聲穩(wěn)健性的卡方生成對(duì)抗網(wǎng)絡(luò)(CSGAN,chi-square generative adversarial network)。該網(wǎng)絡(luò)結(jié)合卡方散度稀疏不變性和量化敏感性的優(yōu)勢(shì),構(gòu)建網(wǎng)絡(luò)優(yōu)化的目標(biāo)函數(shù),引入卡方散度值作為評(píng)估生成樣本和真實(shí)樣本分布差異的依據(jù),促進(jìn)生成器和判別器在對(duì)抗中不斷優(yōu)化,使不同噪聲下的生成樣本分布能夠盡量擬合真實(shí)樣本分布,增強(qiáng)網(wǎng)絡(luò)的穩(wěn)健性。

      2 相關(guān)工作

      在大數(shù)據(jù)背景下,無(wú)監(jiān)督的生成對(duì)抗網(wǎng)絡(luò)得到廣泛關(guān)注。同時(shí),許多基于生成對(duì)抗網(wǎng)絡(luò)的改進(jìn)方法被提出,例如條件生成對(duì)抗網(wǎng)絡(luò)[42]、深度卷積生成對(duì)抗網(wǎng)絡(luò)[43]、能量生成對(duì)抗網(wǎng)絡(luò)[44]等。下面詳細(xì)介紹經(jīng)典生成對(duì)抗網(wǎng)絡(luò)和Wasserstein 生成對(duì)抗網(wǎng)絡(luò)。

      2.1 經(jīng)典生成對(duì)抗網(wǎng)絡(luò)

      經(jīng)典生成對(duì)抗網(wǎng)絡(luò)是一種典型的生成式網(wǎng)絡(luò),通過對(duì)抗學(xué)習(xí)并使用隨機(jī)梯度下降法進(jìn)行優(yōu)化。這有效避免了馬爾可夫鏈的反復(fù)使用,不需要進(jìn)行變分下限和近似推斷,改善了生成式模型的訓(xùn)練難度和效率。如圖1 所示,生成對(duì)抗網(wǎng)絡(luò)由以下兩部分組成:生成器G 和判別器D。生成器獲取真實(shí)樣本的分布,并根據(jù)所獲取的分布重構(gòu)樣本;判別器相當(dāng)于二分類器,用于判斷輸入數(shù)據(jù)來(lái)自真實(shí)樣本還是由生成器產(chǎn)生的樣本。GAN 的基本思想是訓(xùn)練生成器G 和判別器D,通過討論極小極大化博弈問題尋求全局最優(yōu)解,達(dá)到納什均衡。

      圖1 生成對(duì)抗網(wǎng)絡(luò)

      生成器學(xué)習(xí)真實(shí)樣本x 的分布 pd,輸入服從分布 pz(z)的噪聲z,該噪聲通過生成器映射到一個(gè)新的數(shù)據(jù)分布 pg,得到 G(z)。然后,將真實(shí)樣本x 與G(z)共同輸入判別器D 中,通過 D(x)表示輸入的2 個(gè)數(shù)據(jù)屬于真實(shí)樣本的概率并輸出。初始狀態(tài)下,真實(shí)樣本的 D(x)值趨近于1,而生成樣本的 D(x)值趨近于0;訓(xùn)練D 最大限度地正確區(qū)分生成樣本和真實(shí)樣本,同時(shí)訓(xùn)練G 混淆判別器D,使其不能區(qū)分?jǐn)?shù)據(jù)的來(lái)源。D 和G 的訓(xùn)練是關(guān)于值函數(shù)V(G,D)的極小極大化博弈問題,如式(1)所示。

      訓(xùn)練初期,當(dāng)生成器G 的效果較差時(shí),生成樣本與真實(shí)訓(xùn)練的樣本明顯不同,判別器D 可以輕松判別生成樣本為假圖像。為了增加梯度信息,生成器G 選擇最大化log D(G(z))代替最小化log(1-D(G(z)))進(jìn)行訓(xùn)練。當(dāng)訓(xùn)練樣本足夠多時(shí),對(duì)抗問題的全局最優(yōu)解為 pd=pg,D*(x)=,即真實(shí)樣本分布與生成樣本分布重合,網(wǎng)絡(luò)達(dá)到納什均衡狀態(tài)。

      2.2 Wasserstein 生成對(duì)抗網(wǎng)絡(luò)

      經(jīng)典的GAN 模型通過計(jì)算JS 散度,比較pg和pd之間的距離,要求2 個(gè)分布有重疊,但低維與高維之間有微小重疊或完全沒有重疊的可能性非常大。因此,生成器存在無(wú)法逼近真實(shí)樣本和模型崩塌的問題。Arjovsky 等[34]從數(shù)據(jù)分布相似性度量入手對(duì)GAN 進(jìn)行改進(jìn),提出Wasserstein 生成對(duì)抗網(wǎng)絡(luò)。通過將經(jīng)典GAN 中對(duì)概率分布的距離度量JS 散度替換為Wasserstein 距離,對(duì)于GAN 算法進(jìn)行部分調(diào)整,優(yōu)化了經(jīng)典GAN 訓(xùn)練過程不穩(wěn)定、訓(xùn)練后期生成器梯度消失、模型崩潰的問題,如式(2)所示。

      WGAN 與經(jīng)典GAN 相比做了部分調(diào)整,具體如下。生成器和判別器的目標(biāo)函數(shù)不取對(duì)數(shù)形式,采用RMSProp 優(yōu)化算法,判別器最后一層去掉Sigmoid 激活函數(shù);判別器參數(shù)更新后,通過截?cái)喾绞綄?quán)重限定在一個(gè)固定區(qū)間,避免梯度消失。

      3 卡方生成對(duì)抗網(wǎng)絡(luò)

      3.1 網(wǎng)絡(luò)設(shè)計(jì)

      不同評(píng)估方法會(huì)對(duì)計(jì)算不同分布間差異的準(zhǔn)確性造成直接影響。歐氏距離、L1 范數(shù)等考慮生成樣本分布和真實(shí)樣本分布之間的絕對(duì)距離,忽視了相對(duì)距離;卡方散度和熵可以有效反映不同分布之間的相對(duì)距離。對(duì)于計(jì)算不同分布之間的差異,相對(duì)距離往往更有實(shí)際意義。

      卡方散度是F 散度的一種形式,衡量2 個(gè)分布,即P=(p1,p2,…,pn)和Q=(q1,q2,…,qn)差異的大小,其被定義為

      此外,卡方散度具有量化敏感性和稀疏不變性[41]。量化敏感性表現(xiàn)為卡方距離對(duì)不同輸入與標(biāo)準(zhǔn)模板之間的細(xì)微差異是敏感的。由于不同噪聲服從不同的概率分布,當(dāng)z 服從參數(shù)為λ 的泊松分布,且λ充分大時(shí),z 漸近服從正態(tài)分布 N(λ ,λ);當(dāng)z 服從參數(shù)為α 和β 的伽馬分布,且α 趨于無(wú)窮大時(shí),z漸近服從正態(tài)分布。雖然不同分布在極限條件下存在一定的關(guān)系,但是一般情況下很難達(dá)到極限條件。因此,不同輸入噪聲擬合出的生成樣本分布具有一定的差異,即其與真實(shí)樣本分布的距離也各不相同;卡方散度的量化敏感性可以度量不同噪聲下生成樣本分布與真實(shí)樣本分布的差異,有利于減小不同噪聲對(duì)生成樣本分布的影響,因此使用卡方散度有助于緩解不同輸入噪聲下的穩(wěn)健性問題。

      卡方散度的稀疏不變性的定義是整體距離等于局部最優(yōu)距離。由于真實(shí)樣本中可能存在一些質(zhì)量較差或不服從整體分布的獨(dú)立樣本,如果生成樣本分布無(wú)限擬合真實(shí)樣本分布,會(huì)產(chǎn)生獨(dú)立樣本,影響判別器和生成器的訓(xùn)練。此時(shí),卡方散度的稀疏不變性有利于從整體數(shù)據(jù)中忽略獨(dú)立樣本,使用局部最優(yōu)樣本分布來(lái)代替整體分布。所以,將卡方散度作為樣本分布差異的評(píng)價(jià)依據(jù),可以降低對(duì)真實(shí)樣本質(zhì)量的要求,同時(shí)避免生成一些質(zhì)量較差的獨(dú)立樣本。

      因此,基于卡方散度構(gòu)建卡方生成對(duì)抗網(wǎng)絡(luò)的目標(biāo)函數(shù),如式(4)所示。根據(jù)極大極小值原理,判別器D 希望生成器生成的圖像質(zhì)量較差,從而輕易地判別出真實(shí)樣本和生成樣本。生成器G 根據(jù)判別器的反饋優(yōu)化自身,直到可以混淆判別器的判斷。

      其中,任意輸入噪聲z 服從分布pz,且真實(shí)樣本x 服從分布pd,噪聲經(jīng)過生成器后形成生成樣本 G(z)。判別器以卡方散度為衡量依據(jù),當(dāng)生成器生成樣本與真實(shí)樣本的卡方距離為0 時(shí),生成樣本分布擬合真實(shí)樣本分布,網(wǎng)絡(luò)達(dá)到最優(yōu)。

      下面詳細(xì)說明本文提出的卡方生成對(duì)抗網(wǎng)絡(luò)中目標(biāo)函數(shù)和卡方散度之間的關(guān)系,主要分為以下2 個(gè)步驟:1)假設(shè)生成器參數(shù)固定,尋找最優(yōu)的判別器,且確定判別器的最優(yōu)判別概率,目標(biāo)函數(shù)取得最小值;2)當(dāng)判別器狀態(tài)最優(yōu)時(shí),存在最優(yōu)生成器使判別器可依據(jù)卡方散度計(jì)算得出生成樣本分布和真實(shí)樣本分布的距離為0,目標(biāo)函數(shù)取得最大值。因此,通過相互博弈,以卡方散度為評(píng)價(jià)依據(jù),網(wǎng)絡(luò)的判別器和生成器均可達(dá)到最優(yōu)狀態(tài)。

      一方面,以最小化目標(biāo)函數(shù)為指導(dǎo),先尋求最優(yōu)判別器。假設(shè)生成器固定,真實(shí)樣本為x 且服從分布 pd。對(duì)于任意輸入噪聲z 服從分布 pz,噪聲z經(jīng)過生成器后得到服從分布 pg的生成樣本 G(z)。當(dāng)生成樣本和真實(shí)樣本同時(shí)輸入判別器D 時(shí),目標(biāo)函數(shù)可以寫為

      因此,根據(jù)生成樣本分布和真實(shí)樣本分布求目標(biāo)函數(shù)的最優(yōu)解,可得到定理1。

      定理1給定生成器,最優(yōu)判別器為

      當(dāng)目標(biāo)函數(shù)取最小值時(shí),判別器達(dá)到最優(yōu)。

      證明訓(xùn)練判別器的判別能力時(shí),最小化目標(biāo)函數(shù) K(D,G),即

      對(duì)于任意分布的pg和pd,二次凸函數(shù)pg(x)D2(x)-pd(x)D(x)在時(shí)取最小值,目標(biāo)函數(shù) K(D,G)取得最小值。即生成器固定時(shí),判別器最優(yōu)為D*(x)=。證畢。

      另一方面,當(dāng)判別器達(dá)到最優(yōu)時(shí),以最大化目標(biāo)函數(shù)為目的,尋找最優(yōu)生成器。將最優(yōu)判別器的表達(dá)式代入目標(biāo)函數(shù),可以寫為

      從式(8)可以看出生成樣本分布和真實(shí)樣本分布的關(guān)系,最優(yōu)的生成器希望目標(biāo)函數(shù)取最大值,因此,可以得到定理2。

      定理2當(dāng)判別器達(dá)到最優(yōu)時(shí),存在最優(yōu)生成器使 pg=pd,目標(biāo)函數(shù)取得全局最大值。

      證明

      1)充分性。當(dāng) pg=pd時(shí),D*(x)=D*(G(z))=;代入目標(biāo)函數(shù),可得。

      2)必要性。當(dāng)判別器達(dá)到最優(yōu)時(shí),目標(biāo)函數(shù)可以寫為T(G)=K(D*,G),可得

      根據(jù)卡方散度的定義,將式(9)轉(zhuǎn)換為卡方散度的表示形式,如式(10)所示。

      其中,χ2表示卡方散度。最大化式(9)的值就等同于最大化式(10)的值,由于2 個(gè)分布之間的距離非負(fù),當(dāng) pg和 pd的卡方距離為0 時(shí),T(G)取最大值,即當(dāng) pg=pd時(shí),最大,生成器學(xué)習(xí)到了真實(shí)樣本的分布,網(wǎng)絡(luò)達(dá)到最優(yōu)。證畢。

      因此,在判別器與生成器相互博弈過程中,以卡方散度為評(píng)價(jià)依據(jù)可以降低網(wǎng)絡(luò)對(duì)真實(shí)樣本質(zhì)量的要求,有利于生成樣本分布擬合真實(shí)樣本分布,找到最優(yōu)的生成器使生成樣本逼近真實(shí)樣本,直到判別器難以辨識(shí),網(wǎng)絡(luò)達(dá)到最優(yōu)。

      3.2 網(wǎng)絡(luò)搭建

      網(wǎng)絡(luò)設(shè)計(jì)主要包括生成器和判別器2 個(gè)部分,結(jié)構(gòu)如圖2 所示。生成器相當(dāng)于解碼器,主要利用解卷積實(shí)現(xiàn)每一層特征圖像的獲取,生成最終圖像。在圖像生成過程中,首先輸入噪聲z,經(jīng)過全連接將噪聲轉(zhuǎn)換到張量空間;然后通過3 層解卷積,每一層的輸出作為下一層的輸入,設(shè)置卷積核大小為5×5,步長(zhǎng)為2×2,除最后一層卷積后使用Tanh激活外,其他網(wǎng)絡(luò)層獲取的特征都進(jìn)行歸一化處理后使用ReLU 函數(shù)激活;最后生成樣本。

      判別器相當(dāng)于編碼器,對(duì)生成樣本進(jìn)行評(píng)估,其輸入為真實(shí)樣本和生成樣本,通過3 層卷積提取特征,設(shè)定卷積核為5×5,步長(zhǎng)為2×2。與生成器不同,判別器中的激活函數(shù)采用Leakly ReLU 函數(shù)。第一層卷積后采用Leakly ReLU 激活函數(shù),其他兩層卷積后的特征歸一化后再進(jìn)行Leakly ReLU 激活;卷積后學(xué)習(xí)到的特征經(jīng)過全連接輸出判別概率,判別圖像的真實(shí)性。

      生成器、判別器對(duì)抗的目標(biāo)函數(shù)基于卡方散度,生成器的目標(biāo)是最小化生成樣本分布和真實(shí)樣本分布的卡方距離,而判別器則相反。因此網(wǎng)絡(luò)優(yōu)化的損失函數(shù)可以根據(jù)目標(biāo)函數(shù)進(jìn)行確定,定義為

      圖2 CSGAN 結(jié)構(gòu)

      優(yōu)化過程中生成器和判別器的目標(biāo)均為最小化損失函數(shù)的值。判別器判定輸入真實(shí)樣本的概率D(x)∈[0,1],判定生成樣本的概率 D(G(z))∈[0,1]。判別器在訓(xùn)練過程中希望 D(G(z))盡可能小,那么可以對(duì)其進(jìn)行縮小,因此判別器損失中使用D2(G(z)),而判斷真實(shí)樣本的概率 D(x)不變。生成器希望 D(G(z))的值盡可能大,因此在生成器優(yōu)化時(shí) D(G(z))的值不進(jìn)行縮放。這樣主要有以下2 個(gè)優(yōu)勢(shì)。1)D2(G(z))作為生成樣本屬于真實(shí)樣本的概率,相當(dāng)于對(duì) D(G(z))自動(dòng)按比例進(jìn)行縮小,如果 D(G(z))較大,即判別器判定生成樣本接近真實(shí)樣本,縮小的比例較小;反之,生成樣本和真實(shí)樣本差異大,縮小的比例較大,促使判別器分辨真實(shí)樣本和生成樣本的能力更強(qiáng)。2)判別器分辨真實(shí)樣本和生成樣本能力強(qiáng),避免了在生成樣本質(zhì)量較差時(shí)判別器給生成器錯(cuò)誤的反饋;同時(shí)減少計(jì)算量,加快網(wǎng)絡(luò)訓(xùn)練速度。由于自適應(yīng)優(yōu)化器的超參數(shù)一般不需要調(diào)整,且自動(dòng)調(diào)整學(xué)習(xí)率,適用于梯度存在很大噪聲的優(yōu)化,因此生成器和判別器都采用RMSProp 自適應(yīng)優(yōu)化器,初始化優(yōu)化器的學(xué)習(xí)速率為5×10-5。

      訓(xùn)練時(shí)根據(jù)輸入的真實(shí)樣本優(yōu)化判別器,生成器生成樣本后輸入判別器,判別器更新并向生成器反饋信息更新生成器,網(wǎng)絡(luò)參數(shù)不斷更新優(yōu)化,實(shí)現(xiàn)生成器和判別器的相互對(duì)抗。

      3.3 算法流程

      卡方生成對(duì)抗網(wǎng)絡(luò)算法流程如下。

      迭代次數(shù)為m。

      1)生成器

      輸入噪聲z 服從分布 pz(z)

      輸出生成樣本 G(z)

      2)判別器

      輸入噪聲z 服從分布 pz(z),真實(shí)樣本x 服從

      pd,生成樣本 G(z)服從 pg

      輸出真假圖像判別概率

      更新生成器和判別器參數(shù)。

      重復(fù)m 次1)和2),實(shí)現(xiàn)對(duì)抗,可視化生成樣本。

      4 實(shí)驗(yàn)與仿真

      實(shí)驗(yàn)在深度學(xué)習(xí)框架TensorFlow 上實(shí)現(xiàn)。實(shí)驗(yàn)的硬件環(huán)境為英特爾酷睿i7 6800K 處理器,主頻為3.40 GHz,英偉達(dá)GTX 1080 顯卡;軟件環(huán)境為Windows 10 操作系統(tǒng),Anaconda3 軟件下的Python3.5 平臺(tái),Cuda 9.0 和Cudnn 6.0 支撐。該配置是目前深度學(xué)習(xí)計(jì)算的主流配置之一。在仿真實(shí)驗(yàn)中,算法采用相同的參數(shù)配置。在CIFAR-10 和MNIST[46]數(shù)據(jù)集上驗(yàn)證算法的有效性。

      4.1 MNSIT 驗(yàn)證

      MNIST 是深度學(xué)習(xí)領(lǐng)域常見的數(shù)據(jù)集,共70 000 張大小為28 像素×28 像素的手寫數(shù)字圖像,有60 000 張訓(xùn)練圖片和10 000 張測(cè)試圖片,一部分來(lái)自人口普查局員工,另一部分從高中學(xué)生中收集。本次實(shí)驗(yàn)將標(biāo)準(zhǔn)高斯噪聲作為輸入,使用所有訓(xùn)練集圖像進(jìn)行訓(xùn)練,對(duì)比GAN、LSGAN、WGAN和CSGAN 在相同迭代次數(shù)下生成樣本的質(zhì)量,比較網(wǎng)絡(luò)的性能。訓(xùn)練和測(cè)試過程中網(wǎng)絡(luò)參數(shù)設(shè)置均相同,即學(xué)習(xí)率為5×10-5,批處理大小為50,最大迭代次數(shù)為30 000 次,生成樣本大小為28 像素×28像素,經(jīng)過不同迭代間隔,使用1 000 張測(cè)試集圖像對(duì)網(wǎng)絡(luò)進(jìn)行測(cè)試。圖3 展示了不同算法在不同迭代次數(shù)下生成的手寫數(shù)字圖像。

      在不同迭代次數(shù)下可視化生成樣本,圖3 坐標(biāo)軸外是從測(cè)試數(shù)據(jù)集中隨機(jī)抽取的真實(shí)樣本,坐標(biāo)軸內(nèi)是生成樣本,橫坐標(biāo)為迭代次數(shù),縱坐標(biāo)為使用不同的對(duì)抗網(wǎng)絡(luò)。圖3 中可準(zhǔn)確辨識(shí)圖像用方框進(jìn)行標(biāo)記,從上到下依次是GAN、LSGAN、WGAN和CSGAN 的生成樣本。從圖3 中可以看出,迭代初期4 個(gè)網(wǎng)絡(luò)均生成無(wú)法辨識(shí)的圖像,CSGAN 在迭代2 000 次左右可以生成可辨識(shí)數(shù)字,而WGAN在迭代3 000 次左右才開始生成可辨識(shí)數(shù)字,經(jīng)典GAN和LSGAN需要更多次迭代才能生成可辨識(shí)數(shù)字。本文所提CSGAN 在判別器的判別能力增強(qiáng)后給予生成器反饋,引入卡方散度評(píng)估生成樣本分布和真實(shí)樣本分布的差異,有利于增強(qiáng)生成器的對(duì)抗能力,可更快生成可辨識(shí)的樣本。因此在相同迭代次數(shù)條件下,CSGAN 生成的可辨識(shí)數(shù)字多于其他網(wǎng)絡(luò),也就是說如果達(dá)到相同數(shù)量的可辨識(shí)圖像,CSGAN 需要較少的迭代次數(shù),有利于節(jié)約計(jì)算資源。

      圖3 在不同迭代次數(shù)下不同方法的生成樣本對(duì)比

      除了可視化圖像外,網(wǎng)絡(luò)中訓(xùn)練損失值和測(cè)試損失值的變化趨勢(shì)也反映了網(wǎng)絡(luò)的收斂情況。因此為了進(jìn)一步比較網(wǎng)絡(luò)的性能,本節(jié)分析了不同迭代次數(shù)下網(wǎng)絡(luò)損失值的變化趨勢(shì)。

      理論上,GAN 在達(dá)到最優(yōu)時(shí)判別器和生成器損失分別為ln4 和ln2[14];LSGAN 中網(wǎng)絡(luò)達(dá)到最優(yōu)時(shí),判別器損失值為1.25 且生成器損失值為-0.125[36];WGAN 中網(wǎng)絡(luò)最優(yōu)時(shí)判別器的損失值為0,生成器的損失值為-0.5[34];所提CSGAN 達(dá)到最優(yōu)時(shí)判別器的損失值為-0.25,生成器的損失值為-0.5。為了更直觀地比較不同網(wǎng)絡(luò)損失值的變化趨勢(shì),將GAN的判別器損失和生成器損失分別向下平移1.4和1.2個(gè)單位、LSGAN 的判別器損失向下平移1 個(gè)單位后繪圖。此時(shí)如果網(wǎng)絡(luò)收斂,GAN 判別器和生成器損失分別趨近于0 和-0.5;LSGAN 判別損失趨近于0.25。圖4(a)反映了訓(xùn)練過程中4 個(gè)網(wǎng)絡(luò)判別器損失值整體的變化趨勢(shì),均為先減小再增大最后趨于平緩。產(chǎn)生這種趨勢(shì)的原因是,訓(xùn)練初期相比于生成器,判別器的優(yōu)化能力更強(qiáng);隨著迭代次數(shù)的增加,生成器的優(yōu)化能力逐漸提升,提高了與判別器對(duì)抗的能力;直到最后生成器和判別器都達(dá)到最優(yōu)。當(dāng)損失趨于平緩時(shí),CSGAN 的判別器損失趨近于-0.3,與理論值接近,網(wǎng)絡(luò)收斂;而WGAN的判別器損失值仍存在小幅度上升趨勢(shì),說明WGAN 沒有達(dá)到完全收斂;LSGAN 和GAN 的損失值都穩(wěn)定在-0.1 左右,并沒有收斂到理論值0.25和0。這是由于WGAN 需要權(quán)重裁剪而導(dǎo)致收斂速度較慢,LSGAN 和GAN 在實(shí)際情況下受到網(wǎng)絡(luò)優(yōu)化的影響難以達(dá)到理論效果。其中,圖4(a)中局部放大圖反映了迭代前100 次判別器損失值的下降過程,可以直觀地看出GAN 的下降趨勢(shì)與其他3 種網(wǎng)絡(luò)略有不同,判別器損失值并沒有達(dá)到最小值,原因在于GAN 判別器優(yōu)化的速度較慢;相比于LSGAN 和WGAN,雖然CSGAN 下降的幅度略小,但是判別器開始下降的時(shí)間較早。圖4(b)和圖4(c)是圖4(a)中虛線框內(nèi)曲線的局部放大圖,圖4(b)反映了判別器損失達(dá)到最小后CSGAN 的判別器損失值保持一段時(shí)間后才開始上升,這是由于訓(xùn)練初期CSGAN 中生成器的對(duì)抗能力較弱。但是如圖4(c)所示,隨著迭代次數(shù)的增加,CSGAN 判別器收斂更快,因?yàn)樵鰪?qiáng)判別器的判別能力后,雖然網(wǎng)絡(luò)訓(xùn)練初期生成器的性能較差,但是后期生成器的對(duì)抗能力得到有效提高,有利于生成更高質(zhì)量的圖像。

      圖4 訓(xùn)練時(shí)判別器損失值的變化趨勢(shì)

      每迭代100 次后進(jìn)行網(wǎng)絡(luò)測(cè)試,圖5 展示了測(cè)試時(shí)不同網(wǎng)絡(luò)生成器和判別器損失的變化趨勢(shì)。測(cè)試和訓(xùn)練時(shí)判別器損失的趨勢(shì)大致相似,不同的是進(jìn)行100 次訓(xùn)練后判別器的損失下降幅度較??;GAN 和WGAN 中生成器的損失下降速度先快后慢,而CSGAN 生成器損失的下降速度先慢后快,主要是由于卡方散度計(jì)算復(fù)雜度小,CSGAN 收斂的速度較快。相比于其他網(wǎng)絡(luò),CSGAN 的生成器和判別器損失值在達(dá)到穩(wěn)定時(shí)更加趨近于理論值,收斂性更好。

      圖5 測(cè)試時(shí)不同網(wǎng)絡(luò)損失值的變化趨勢(shì)

      4.2 CIFAR-10

      CIFAR-10[46]相比MNIST 數(shù)據(jù)集所含的信息量更大。其共有60 000 張三通道圖像,圖像大小是32 像素×32 像素,包括飛機(jī)、汽車、鳥、貓、鹿、狗、青蛙、馬、船和卡車10 類圖像,每類6 000 張圖像。汽車和卡車之間沒有重疊,汽車包括轎車、SUV,卡車只包括大型卡車。其中,每10 000 張圖像作為一批,五批用于訓(xùn)練,一批用于測(cè)試。采用CIFAR-10 中的訓(xùn)練集樣本進(jìn)行訓(xùn)練,采用標(biāo)準(zhǔn)高斯噪聲作為生成器的輸入。設(shè)置學(xué)習(xí)率為5 ×10-5,第一批處理64 張圖像,迭代的最大次數(shù)為2 ×105次,生成樣本大小為32 像素×32 像素,使用10 000 張測(cè)試集圖像對(duì)網(wǎng)絡(luò)進(jìn)行測(cè)試。實(shí)驗(yàn)中分別對(duì)GAN、LSGAN、WGAN和CSGAN 在相同迭代次數(shù)下進(jìn)行對(duì)比。圖6 展示了真實(shí)樣本和不同算法生成樣本的對(duì)比效果。

      圖6 真實(shí)樣本以及GAN、LSGAN、WGAN、CSGAN 生成圖對(duì)比

      圖6 展示了CIFAR-10 數(shù)據(jù)庫(kù)部分圖像和不同網(wǎng)絡(luò)在標(biāo)準(zhǔn)高斯噪聲下的部分生成圖,由于原始圖像尺寸較小且分辨率較低,很難觀察出不同生成樣本質(zhì)量的差異。為了定量評(píng)價(jià)生成樣本的質(zhì)量,文獻(xiàn)[47]使用了目前主流的起始分(IS,inception score)和Fréchet 起始距離(FID,Fréchet inception distance)對(duì)不同網(wǎng)絡(luò)生成的樣本進(jìn)行評(píng)估。其中,IS 值是通過網(wǎng)絡(luò)InceptionNet 在ImageNet 數(shù)據(jù)庫(kù)上進(jìn)行預(yù)訓(xùn)練計(jì)算得到的,值越高表示圖像的不確定度越低,圖像的生成質(zhì)量越好;FID 表示真實(shí)樣本和生成樣本在特征空間上的距離,值越低表示生成樣本越接近真實(shí)樣本。

      為了探究所提出網(wǎng)絡(luò)的性能,在CIFAR-10 上比較不同輸入噪聲對(duì)網(wǎng)絡(luò)穩(wěn)健性和生成樣本質(zhì)量的影響。實(shí)驗(yàn)主要探究離散型的泊松分布 z~ P(1)和連續(xù)型的正態(tài)分布 z~ N(0,0.1)、標(biāo)準(zhǔn)高斯分布z~N(0,1)、均勻分布 z~ U(0,1)、伽馬分布z~Ga(0,1)、截?cái)喔咚狗植枷碌脑肼暋?/p>

      LSGAN 的參數(shù)設(shè)置參考文獻(xiàn)[42]。在不同噪聲下分別訓(xùn)練網(wǎng)絡(luò)并測(cè)試,從生成樣本中隨機(jī)抽取1 000 張,從迭代停止前30 000 次開始每隔1 000 次計(jì)算IS 值,獲取最大值并求取平均值。表1 展示了不同噪聲下各網(wǎng)絡(luò)生成樣本質(zhì)量的評(píng)價(jià)指標(biāo)。從整體來(lái)看,IS 平均值和最大值具有一致性,相同噪聲條件下,所提CSGAN 生成樣本的IS 值普遍高于經(jīng)典GAN、LSGAN 和WGAN,這是由于CSGAN 生成樣本的質(zhì)量?jī)?yōu)于其他網(wǎng)絡(luò)。在不同噪聲下,GAN和WGAN 在均勻噪聲下效果較好,IS 均值分別達(dá)到5.14 和5.47;LSGAN 在標(biāo)準(zhǔn)高斯分布的噪聲下IS 均值較高,為5.17;CSGAN 在服從任意分布的輸入噪聲下,評(píng)估生成樣本得到的IS 均值在5.40 左右,最高均值達(dá)到5.53。這是由于卡方散度具有稀疏不變性,會(huì)忽略真實(shí)樣本中可能存在一些質(zhì)量較差或不服從整體分布的獨(dú)立樣本,避免生成一些質(zhì)量較差的獨(dú)立樣本,從而提高生成樣本的整體質(zhì)量。同一方法中最大IS 均值和最小值的差定義為IS 波動(dòng)值,波動(dòng)值越小說明生成樣本質(zhì)量越穩(wěn)定。4 種網(wǎng)絡(luò)的IS 波動(dòng)值分別為1.45、0.26、0.36 和0.16,CSGAN 的IS 波動(dòng)值小于其他網(wǎng)絡(luò),原因是卡方散度具有量化敏感性,有利于減小不同噪聲對(duì)生成樣本分布的影響,因此網(wǎng)絡(luò)受輸入噪聲的影響較小,穩(wěn)健性較強(qiáng)。

      表1 CIFAR-10 不同噪聲分布下各網(wǎng)絡(luò)生成樣本的IS 值

      為了進(jìn)一步探究訓(xùn)練過程中生成樣本質(zhì)量的變化情況及不同網(wǎng)絡(luò)的優(yōu)化情況,在不同迭代次數(shù)下進(jìn)行實(shí)驗(yàn)。表2 反映了不同噪聲下生成樣本IS 值隨迭代次數(shù)的變化情況。每迭代1 000 次后對(duì)生成樣本進(jìn)行測(cè)試,每隔10 000 次計(jì)算一次平均IS 值。從表2 中可以直觀地看出,在同一迭代范圍內(nèi),同一網(wǎng)絡(luò)在不同輸入噪聲下生成樣本的質(zhì)量有一定的差異,不同網(wǎng)絡(luò)在相同噪聲下的生成質(zhì)量也不相同;訓(xùn)練后期,由于GAN 優(yōu)化過程中梯度消失,在伽馬分布、泊松分布、截?cái)喔咚狗植?、正態(tài)分布這4 種噪聲下出現(xiàn)網(wǎng)絡(luò)崩塌問題,對(duì)噪聲的穩(wěn)健性差;CSGAN在訓(xùn)練中期生成樣本的質(zhì)量開始優(yōu)于3 種對(duì)比網(wǎng)絡(luò),并在后期一直保持優(yōu)勢(shì)。其原因是判別器判別真假的能力增強(qiáng)后給予生成器反饋,在訓(xùn)練中期促進(jìn)生成器增強(qiáng)對(duì)抗能力,更有利于生成更高質(zhì)量的樣本。

      為了進(jìn)一步驗(yàn)證網(wǎng)絡(luò)在不同噪聲下的性能,從測(cè)試樣本中抽取1 000 張圖像作為標(biāo)準(zhǔn)數(shù)據(jù)集,隨機(jī)抽取128 張生成樣本計(jì)算FID 值。圖7 顯示了不同網(wǎng)絡(luò)在不同噪聲下生成樣本的FID 值。由于伽馬噪聲和正態(tài)分布噪聲對(duì)生成樣本質(zhì)量的影響較大,不同網(wǎng)絡(luò)在這2 種噪聲下的FID 出現(xiàn)峰值。不同噪聲下由于卡方散度具有量化敏感性和稀疏不變性,CSGAN 生成樣本的FID 普遍較小,最大值和最小值分別為186 和175,波動(dòng)范圍小,這進(jìn)一步說明了CSGAN 有利于提高生成樣本的質(zhì)量且對(duì)噪聲的穩(wěn)健性較強(qiáng)。

      圖7 不同噪聲下生成樣本的FID 值

      5 結(jié)束語(yǔ)

      針對(duì)生成對(duì)抗網(wǎng)絡(luò)在不同噪聲下的穩(wěn)健性及生成樣本質(zhì)量差異明顯的問題,本文提出了一種噪聲穩(wěn)健性的卡方生成對(duì)抗網(wǎng)絡(luò)。引入卡方散度判別真實(shí)樣本分布和生成樣本分布的距離,減小輸入噪聲對(duì)網(wǎng)絡(luò)的影響并增強(qiáng)網(wǎng)絡(luò)穩(wěn)定性;搭建卡方生成對(duì)抗網(wǎng)絡(luò),構(gòu)建全局優(yōu)化目標(biāo)函數(shù),促進(jìn)生成器生成更加逼真的圖像。研究表明,不同網(wǎng)絡(luò)在不同噪聲下的穩(wěn)健性不同,基于卡方散度的CSGAN 能夠生成更高質(zhì)量的樣本,具有較強(qiáng)的穩(wěn)健性。未來(lái)的工作重心是提高網(wǎng)絡(luò)效率,降低計(jì)算損耗,并將該網(wǎng)絡(luò)擴(kuò)展用于檢測(cè)、預(yù)測(cè)等更多實(shí)際應(yīng)用領(lǐng)域。

      猜你喜歡
      散度卡方損失
      卡方檢驗(yàn)的應(yīng)用條件
      卡方變異的SSA的FSC賽車轉(zhuǎn)向梯形優(yōu)化方法
      帶勢(shì)加權(quán)散度形式的Grushin型退化橢圓算子的Dirichlet特征值的上下界
      少問一句,損失千金
      卡方檢驗(yàn)的應(yīng)用條件
      胖胖損失了多少元
      具有部分BMO系數(shù)的非散度型拋物方程的Lorentz估計(jì)
      玉米抽穗前倒伏怎么辦?怎么減少損失?
      H型群上一類散度形算子的特征值估計(jì)
      H?rmander 向量場(chǎng)上散度型拋物方程弱解的Orlicz估計(jì)
      安陆市| 安仁县| 芦溪县| 宁都县| 博罗县| 乐都县| 兴国县| 阜宁县| 莱西市| 甘洛县| 湖南省| 佛山市| 来凤县| 罗定市| 龙游县| 巴彦淖尔市| 巩义市| 德保县| 万宁市| 青神县| 增城市| 宜丰县| 扶风县| 惠东县| 长治县| 花莲县| 嘉黎县| 铜鼓县| 大方县| 桦南县| 湟源县| 金华市| 荃湾区| 汝阳县| 乐至县| 肇东市| 小金县| 满洲里市| 昌都县| 民丰县| 龙口市|