張紅蕊
摘 要:生成式對抗網(wǎng)絡GAN(Generative Adversarial Networks)結合機器學習中的生成模型和判別模型的思想演變?yōu)榫W(wǎng)絡結構中的生成器型用于捕捉真實樣本的概率分布并生成新的樣本,判別器用于對生成結果進行分類,兩者采用對抗訓練方式。本文以GAN的結構特征以及方法原理為基礎,結合風格遷移的理論依據(jù),對真實場景的圖片數(shù)據(jù)進行藝術風格轉換,加入掩膜圖像思想實現(xiàn)局部風格轉換和混合風格轉換。
關鍵字:深度學習 生成式對抗網(wǎng)絡 風格遷移
一、相關工作
(一)GAN原理
GAN[1]源于二人零和博弈理論,它包括生成模型和判別模型:生成器 用于捕捉真實數(shù)據(jù)樣本的概率分布并生成新的樣本;判別器 可以看作是一個二分類器,輸出一個固定的概率值。雙向GAN機制[2-3]包含成對的生成器和判別器,采用深度卷積神經(jīng)網(wǎng)絡實現(xiàn)雙向域中圖像轉換任務。
(二)風格遷移
風格遷移定義為存在一張圖片 提取圖像整體風格,存在另一張圖片 保留紋理內(nèi)容,將兩者因素相互結合在一起生成新的圖片既具有 的風格同時保留 的內(nèi)容。風格遷移方法Neural Style Transfer[4]使用深度神經(jīng)網(wǎng)絡VGG19網(wǎng)絡提取圖像深層次特征信息,采用感知損失函數(shù)計算差異。
二、 方法原理
本文旨在實現(xiàn) 域到 域圖像的轉換任務,對于風格遷移,假定域為內(nèi)容域, 域為風格域,采用GAN網(wǎng)絡架構生成新的圖像既保留 域的圖像內(nèi)容又符合 域的圖像風格。逐像素匹配圖如圖2-1所示,域與域逐像素匹配,將圖像風格進行轉換,使合成圖像為輸入圖像內(nèi)容和目標圖像風格的完美
結合。
(一)全局風格遷移
GAN網(wǎng)絡結構中包含一個生成模型和一個判別模型,兩者采用對抗訓練的方式學習。其中生成器以 圖像尺寸作為輸入,經(jīng)過深度殘差網(wǎng)提取圖像深層次特征信息;判別器則是一個輸入為 的圖像小塊的深度神經(jīng)網(wǎng)絡,在提取特征后反饋給生成器;網(wǎng)絡結構中采用多損失函數(shù)共同計算誤差,并通過反向傳播算法將梯度誤差回饋給生成網(wǎng)絡。
(二)局部風格遷移
網(wǎng)絡模型結合掩膜圖像的思想,理論實現(xiàn)如公式2-1所示。輸出的圖像對應掩膜圖像中值為1的部分保持不變,對應掩膜圖像中值為0的部分為轉換后的效果。原始圖像是A(x, y),轉換后圖像為B(x, y),掩膜圖像為m(x, y),通過代數(shù)運算得到的局部風格轉換圖像為A'(x, y)。
A'(x, y)=A(x, y)∧B(x, y)+m(x, y)∧(-B(x, y)) (公式2-1)
三、實驗結果
實驗細節(jié):實驗數(shù)據(jù)中的原始圖像來源于真實場景的圖像取景,風格圖像為藝術作品圖像;學習率最初默認設定為0.0002,batchsize大小設置為1;網(wǎng)絡結構采用深度學習中Adam優(yōu)化方法和反向傳播算法。實驗結果如圖3-1所示,從左至右依次是內(nèi)容圖 、風格圖 以及生成圖像。
四、 總結與展望
本文應用生成式對抗網(wǎng)絡模型架構,采用生成器和判別器的對抗訓練的方式,結合深度卷積神經(jīng)網(wǎng)絡在提取深層次圖像特征的優(yōu)勢,優(yōu)化損失函數(shù)計算,以風格遷移圖像轉換任務的理論依據(jù)為指導,實現(xiàn)了自然場景圖像與藝術風格遷移轉換任務,并結合圖像處理方法的掩膜思想,將全局風格遷移轉換為局部風格遷移。
參考文獻:
[1] Goodfellow I J, Pouget-Abadie J, Mirza M, et al. Generative Adversarial Networks[J]. Advances in Neural Information Processing Systems, 2014, 3:2672-
2680.
[2] Zhu J Y, Park T, Isola P, et al. Unpaired Image-to-Image Translation Using Cycle-Consistent Adversarial Networks[C]// IEEE International Conference on Computer Vision. IEEE Computer Society, 2017:2242-2251.
[3] Yi Z, Zhang H, Tan P, et al. DualGAN: Unsupervised Dual Learning for Image-to-Image Translation[J]. 2017:2868-2876.
[4] Johnson J, Alahi A, Li F F. Perceptual Losses for Real-Time Style Transfer and Super-Resolution[C]// European Conference on Computer Vision. Springer, Cham, 2016:694-711.