李燕 施華 陳譯
【摘要】? ? 本文針對(duì)傳統(tǒng)的生成對(duì)抗網(wǎng)絡(luò)的圖像風(fēng)格遷移中跨區(qū)域風(fēng)格遷移問題,引入深度特征插值與循環(huán)一致性對(duì)抗網(wǎng)絡(luò)的圖像風(fēng)格遷移方法相結(jié)合,解決圖像特定目標(biāo)之間的風(fēng)格遷移。實(shí)驗(yàn)經(jīng)過橫向與縱向數(shù)據(jù)對(duì)比,對(duì)油畫、懷舊和漫畫等風(fēng)格的圖片有較好的遷移效果。
【關(guān)鍵詞】? ? 深度學(xué)習(xí)? ? 生成式對(duì)抗網(wǎng)絡(luò)? ? 圖像風(fēng)格遷移
引言:
圖像的風(fēng)格遷移是圖像處理領(lǐng)域的一個(gè)重要研究方向。在深度學(xué)習(xí)興起之前,傳統(tǒng)的風(fēng)格遷移方法是分析某種特定風(fēng)格的圖像,并給這種風(fēng)格建立數(shù)學(xué)上的統(tǒng)計(jì)模型,然后針對(duì)要遷移的圖像做改變,使之更好的契合建立的數(shù)學(xué)統(tǒng)計(jì)模型;該方法無法分離圖像與風(fēng)格。隨著卷積神經(jīng)網(wǎng)絡(luò)方法的研究與深入,基于深度學(xué)習(xí)的圖像風(fēng)格遷移顯示了比傳統(tǒng)方法更強(qiáng)大的遷移效果。Gatys于2015年首次將VGG19網(wǎng)絡(luò)應(yīng)用于風(fēng)絡(luò)遷移[1],該方法在卷積神經(jīng)網(wǎng)絡(luò)的內(nèi)容和風(fēng)格是分離的前提下,通過構(gòu)造Gram矩陣提取出任意圖像的風(fēng)格特征表示,開創(chuàng)了深度學(xué)習(xí)方法在圖像風(fēng)格遷移領(lǐng)域的應(yīng)用。CycleGAN是傳統(tǒng)GAN的特殊變體[2],該方法可以創(chuàng)建新的數(shù)據(jù)樣本;與傳統(tǒng)GAN方法相比,它通過轉(zhuǎn)換輸入樣本來實(shí)現(xiàn),而不是從頭開始創(chuàng)建,這些數(shù)據(jù)可由提供此算法數(shù)據(jù)集的人員進(jìn)行選擇。CycleGAN解決了傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)不能在不同圖像風(fēng)格類間轉(zhuǎn)化的問題,其優(yōu)勢在圖像風(fēng)格遷移研究中備受關(guān)注。國內(nèi)學(xué)者近年來也展開了對(duì)圖像風(fēng)格遷移的研究工作[3-6],這些工作是在經(jīng)典的GAN方式的基礎(chǔ)上,結(jié)合卷積網(wǎng)絡(luò)等方法,解決跨區(qū)域的風(fēng)格遷移問題。論文針對(duì)CycleGAN對(duì)于風(fēng)格遷移任務(wù)的定義不夠明確,不能合理度量風(fēng)格的問題,將深度特征插值方法融入CycleGAN遷移方法中,進(jìn)行圖像特定目標(biāo)之間的風(fēng)格遷移探討。
一、基礎(chǔ)算法介紹
(一)GAN算法的基本思想
生成式對(duì)抗網(wǎng)絡(luò)(GAN)是由 Goodfellow 等[7] 于 2014 年提出來的優(yōu)化生成模型,其思想來源于對(duì)抗競爭弈論中的零和博弈?;镜腉AN網(wǎng)絡(luò)由兩部分構(gòu)成:生成器G(Generator)負(fù)責(zé)真實(shí)數(shù)據(jù);判別器D(Discriminator)負(fù)責(zé)生成數(shù)據(jù)。CycleGAN方法[2]在傳統(tǒng)的GAN方法的基礎(chǔ)上做了改進(jìn),可以讓兩個(gè)域的圖片互相轉(zhuǎn)化。傳統(tǒng)的GAN是單向生成,而 CycleGAN 是互相生成,網(wǎng)絡(luò)是個(gè)環(huán)形,所以命名為 Cycle。它實(shí)用的地方就是輸入的兩張圖片可以是任意的兩張圖片,即unpaired。其結(jié)構(gòu)如圖1所示。
(二) 深度特征插值方法的引入
在深度卷積神經(jīng)網(wǎng)絡(luò)[8]的特征空間對(duì)圖像特征進(jìn)行提取和修改,設(shè)計(jì)的深度特征遷移模型包含三個(gè)部分: 1.編碼器:利用卷積神經(jīng)網(wǎng)絡(luò)提取輸入圖像的特征;2.解碼器:利用反卷積從特征向量中還原圖像;3.特征遷移模塊:通過組合圖像的不相近特征在不同域轉(zhuǎn)換特征向量。
傳統(tǒng)的GAN是單向的,訓(xùn)練它需要兩個(gè)loss:生成器的重建Loss和判別器的判別Loss。而CycleGAN是兩個(gè)鏡像對(duì)稱的GAN,構(gòu)成了一個(gè)環(huán)形網(wǎng)絡(luò),這兩個(gè)GAN共享兩個(gè)生成器,并各自帶一個(gè)判別器,即共有兩個(gè)判別器和兩個(gè)生成器。如圖2所示,目標(biāo)域圖像y∈Y,為學(xué)習(xí)一個(gè)映射中φ:X→Y,使得源圖像x通過中映射后具有目標(biāo)域的風(fēng)格特點(diǎn)。該模型通過從域X獲取輸入圖像,該輸入圖像被傳遞到第一個(gè)生成器Gx→Y,其任務(wù)是將來自域X的給定圖像轉(zhuǎn)換到目標(biāo)域Y中的圖像。然后這個(gè)新生成的圖像被傳遞到另一個(gè)生成器GY→X,其任務(wù)是在原始域X轉(zhuǎn)換回圖像x,從而實(shí)現(xiàn)目標(biāo)的特征遷移。
(三)結(jié)合深度特征遷移的生成器
對(duì)于X、Y域的數(shù)據(jù),CycleGAN有Gx: X→Y和GY: Y→X兩個(gè)獨(dú)立生成器,它們各自學(xué)習(xí)相反方向的映射。按照深度特征遷移方法將其融合到CycleGAN中;與傳統(tǒng)的非深度遷移學(xué)習(xí)方法相比,深度遷移學(xué)習(xí)能夠自動(dòng)提取更具表現(xiàn)力的特征,滿足了實(shí)際應(yīng)用中端到端的需求。在生成器網(wǎng)絡(luò)深度不變的情況下,編碼器由生成器的下采樣卷積層與殘差模塊前端構(gòu)建,解碼器由殘差模塊后端與上采樣卷積層構(gòu)建,特征遷移模塊由中間端殘差模塊構(gòu)建,從而組建如圖3所示的特征遷移網(wǎng)絡(luò)。
二、實(shí)驗(yàn)與結(jié)果分析
測試主要分成四組數(shù)據(jù)來體現(xiàn)。第一組首先展示的是迭代3次的風(fēng)格圖像遷移;第二組展示的是迭代10次之后的實(shí)現(xiàn)情況;第三組實(shí)現(xiàn)的是論文所示方法同一內(nèi)容圖像在不同風(fēng)格下的遷移表現(xiàn),分析系統(tǒng)在遷移不同圖像風(fēng)格中的具體差異以及不同的風(fēng)格在同一內(nèi)容圖像上的風(fēng)格損失對(duì)比;第四組則是論文所示方法風(fēng)格圖像的橫向比較,在同一風(fēng)格圖像的基礎(chǔ)上遷移不同的內(nèi)容,不同內(nèi)容在同一風(fēng)格下的遷移損失情況比較。
(一)測試數(shù)據(jù)的實(shí)驗(yàn)結(jié)果
1.少量迭代遷移測試
實(shí)驗(yàn)選取了一組在這組測試中我們選取兩組不同的圖片來展示系統(tǒng)經(jīng)過三次迭代之后的遷移效果。從圖4迭代效果看,內(nèi)容圖片的損失比例較小,但風(fēng)格的遷移效果又難以理解,少量的迭代提取的效果并不能在藝術(shù)審美上真正的體現(xiàn)所謂的圖片風(fēng)格。簡單的迭代展現(xiàn)的只能是色調(diào)上的局部特征遷移,而微觀的圖片紋理并不能夠很好展現(xiàn)。除此之外內(nèi)容上的展現(xiàn)也因?yàn)檫@些局部特征顯得并不明晰,效果不是很好。
2.多次迭代風(fēng)格遷移測試
簡單的迭代只能提取出局部特征,細(xì)微的能體現(xiàn)圖像風(fēng)格的紋理不能在內(nèi)容上很好的體現(xiàn),實(shí)驗(yàn)中增加迭代次數(shù)。從主觀可視化評(píng)價(jià),圖片的紋理得到了很好的展現(xiàn),遷移得到的最終圖片較之原圖有了很好的藝術(shù)風(fēng)格的改變。在色調(diào)上遵循了風(fēng)格圖片的樣式,而內(nèi)容上又有著較大的保留,主體部分的內(nèi)容損失情況良好,沒有體現(xiàn)出大塊的內(nèi)容丟失。這得益于迭代增多之后系統(tǒng)能夠更充分的優(yōu)化總變化損失和細(xì)節(jié)。
3.相同內(nèi)容的不同風(fēng)格遷移測試
對(duì)比迭代次數(shù)不同所展現(xiàn)的效果,進(jìn)行橫向測試。本組測試是系統(tǒng)對(duì)相同內(nèi)容的圖片在不同風(fēng)格中的遷移表現(xiàn)。測試中采用相同原圖,分別在油畫風(fēng)格、懷舊風(fēng)格和漫畫風(fēng)格上進(jìn)行了測試。總體的遷移效果來看,很好的改變了原圖的藝術(shù)風(fēng)格,使原圖呈現(xiàn)了迥然不同的效果。
4.不同內(nèi)容的相同風(fēng)格遷移測試
對(duì)比迭代次數(shù)不同所展現(xiàn)的效果,進(jìn)行縱向測試。在兩組不同風(fēng)格的展現(xiàn)中,整體的風(fēng)格色調(diào)得以較好的體現(xiàn)。
(二)測試結(jié)果分析
實(shí)驗(yàn)進(jìn)行了大量數(shù)據(jù)的測試。論文提出的算法,能夠較好地完成圖片風(fēng)格的轉(zhuǎn)換。實(shí)驗(yàn)中,我們與經(jīng)典的CycleGAN方法在wikiart和Flickr下載的藝術(shù)圖像數(shù)據(jù)集進(jìn)行了對(duì)比。對(duì)比從SSIM結(jié)構(gòu)相似性和PSNR峰值信噪比兩個(gè)方面進(jìn)行,結(jié)果如下表所示。從表中可以看出,論文提出的方法優(yōu)于經(jīng)典的CycleGAN算法
三、結(jié)束語
由于代表圖片風(fēng)格的圖片紋理與人類藝術(shù)風(fēng)格認(rèn)知有一些差距,本文所提方法與現(xiàn)有的經(jīng)典算法都并不能有著特別完美的風(fēng)格遷移?,F(xiàn)有的風(fēng)格遷移更多局限于整體圖片的色調(diào)遷移和細(xì)節(jié)上的紋理遷移,色調(diào)加上細(xì)節(jié)紋理組成了大致上的風(fēng)格相似程度,真正的藝術(shù)風(fēng)格上難以深究。隨著深度學(xué)習(xí)算法的完善與圖像模式表達(dá)的多元化,在風(fēng)格識(shí)別和提取準(zhǔn)確率上將會(huì)更加完善,主體圖片內(nèi)容將會(huì)更加精致與豐富。
作者單位:李燕? ? 施華? ? 陳譯? ? 廈門理工學(xué)院 光電與通信工程學(xué)院
參? 考? 文? 獻(xiàn)
[1] Gatys L A,Ecker A S,Bethge M. Image style transfer using convolutional neural networks[C]. Proceeding of the IEEE Conference on Computer Vision and Pattern Recongnition. 2016: 2414- 2423.
[2] Zhu J Y, Park T, Isola P, et al. Unparied Image-to-Image Transaction Using Cycle-Consistent Adversarial Networks[C]. Proceeding of the IEEE Conference on Computer Vision and Pattern Recongnition. 2017, 2414- 2423.
[3] 劉哲良,朱瑋,袁梓洋. 結(jié)合全卷積網(wǎng)絡(luò)與 CycleGAN 的圖像實(shí)例風(fēng)格遷移[J]. 中國圖象圖形學(xué)報(bào). 2019,24(08):1283-1291.
[4] 陳淮源,張廣馳,陳高,周清峰. 基于深度學(xué)習(xí)的圖像風(fēng)格遷移研究進(jìn)展[J]. 計(jì)算機(jī)工程與應(yīng)用. 2021.57(11):37-45.
[5] 繆永偉,李高怡,鮑陳,張旭東,彭思龍. 基于卷積神經(jīng)網(wǎng)絡(luò)的圖像局部風(fēng)格遷移[J]. 計(jì)算機(jī)科學(xué). 2019.46(9): 259-264.
[6] 張?bào)@雷,厚雅偉. 基于改進(jìn)循環(huán)生成式對(duì)抗網(wǎng)絡(luò)的圖像風(fēng)格遷移[J]. 電子與信息學(xué)報(bào). 2020.42(5):1216-1222.
[7] I.Goodfellow, J.Pougetabadie, et al. Generative adversarial nets[C]. NIPS, 2014.
[8] Radford A, Metz L, Chintala S. Unsupervised representation learning with deep convolutional generative adversarial networks[C]. CVPR, 2015.