林 曉,屈時操,黃 偉,鄭曉妹,馬利莊
顯著區(qū)域保留的圖像風格遷移算法
林 曉1,2,3,屈時操1,3,黃 偉3,4,鄭曉妹1,3,馬利莊5
(1. 上海師范大學(xué)信息與機電工程學(xué)院,上海 200234; 2. 上海師范大學(xué)上海智能教育大數(shù)據(jù)工程技術(shù)研究中心,上海 200234; 3. 上海市中小學(xué)在線教育研究基地,上海 200234; 4. 上海理工大學(xué)光電信息與計算機工程學(xué)院,上海 200093; 5.上海交通大學(xué)電子信息與電氣工程學(xué)院,上海 200240)
基于神經(jīng)網(wǎng)絡(luò)的風格遷移成為近年來學(xué)術(shù)界和工業(yè)界的熱點研究問題之一。現(xiàn)有的方法可以將不同風格作用在給定的內(nèi)容圖像上生成風格化圖像,并且在視覺效果和轉(zhuǎn)換效率上有了較大提升,而側(cè)重學(xué)習(xí)圖像底層特征容易導(dǎo)致風格化圖像丟失內(nèi)容圖像的語義信息。據(jù)此提出了使風格化圖像與內(nèi)容圖像的顯著區(qū)域保持一致的改進方案。通過加入顯著性檢測網(wǎng)絡(luò)生成合成圖像和內(nèi)容圖像的顯著圖,在訓(xùn)練過程中計算兩者的損失,使合成圖像保持與內(nèi)容圖像相一致的顯著區(qū)域,這有助于提高風格化圖像的質(zhì)量。實驗表明,該風格遷移模型生成的風格化圖像不僅具有更好的視覺效果,且保留了內(nèi)容圖像的語義信息。特別是對于顯著區(qū)域突出的內(nèi)容圖像,保證顯著區(qū)域不被扭曲是生成視覺友好圖像的重要前提。
風格遷移;圖像變換;顯著區(qū)域保留;卷積神經(jīng)網(wǎng)絡(luò);顯著性檢測
圖像風格遷移是計算機視覺的一個研究熱點。其將一幅風格圖像的風格應(yīng)用于另一幅內(nèi)容圖像;是一項藝術(shù)創(chuàng)作和圖像編輯技術(shù)。最近,受到卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks, CNN)[1]在視覺感知任務(wù)中的啟發(fā),涌現(xiàn)出大量的基于CNN的風格遷移算法。在油畫繪制[2-3]、卡通動漫制作[4]、圖像季節(jié)轉(zhuǎn)換[5-6]和文字風格變換[7-8]等方面有重要貢獻。并且,一些流行的APP成功地應(yīng)用了這項研究[9]。因此,風格遷移在學(xué)術(shù)界和工業(yè)界得到了普遍關(guān)注。
風格遷移是紋理合成的一項擴展工作。紋理合成利用圖像局部特征的統(tǒng)計模型[10]來描述紋理,然后通過生成更多的類似紋理結(jié)構(gòu)組成更大的紋理圖?;诩y理合成的方法,風格遷移中風格圖像就可以視為一種紋理,利用圖像重建方法將紋理和內(nèi)容圖像結(jié)合即可實現(xiàn)圖像的風格轉(zhuǎn)換。
到目前為止,風格遷移的方法大致可分為2類[11]:
(1) 基于圖像優(yōu)化的風格遷移算法。該算法分別從內(nèi)容圖像和風格圖像中獲得內(nèi)容和風格信息,然后進行圖像重建將兩者結(jié)合。GATYS等[12]首次提出基于神經(jīng)網(wǎng)絡(luò)的風格遷移算法,其主要依賴于經(jīng)過預(yù)訓(xùn)練的VGG網(wǎng)絡(luò)[13]。該方法的內(nèi)容信息是使用內(nèi)容圖像經(jīng)過VGG網(wǎng)絡(luò)后的高層特征來表示,風格信息是使用風格圖像經(jīng)過VGG網(wǎng)絡(luò)后的特征表達上計算Gram矩陣來表示,然后通過圖像重建合成2種信息完成風格遷移。LI 和WAND[14]提出基于馬爾可夫隨機場(Markov random field, MRF)的非參數(shù)化紋理方法建模,其核心思想是以新的MRF損失取代Gram損失,該方法可以很好地保留圖像中的局部結(jié)構(gòu)等信息。然而這類圖像重建過程依賴于多次迭代,每次風格遷移會花費很長的時間和大量的計算成本。
(2) 基于模型優(yōu)化的風格遷移算法。該方法通過訓(xùn)練不同的前向網(wǎng)絡(luò),生成不同的風格遷移模型,解決第一類算法時間開銷和計算開銷的問題。JOHNSON等[15]首次提出一種實時遷移算法,通過為每種風格訓(xùn)練一個前向殘差網(wǎng)絡(luò)來提高轉(zhuǎn)換速度并減少計算消耗。文獻[16]提出條件實例歸一化(conditional instance normalization,CIN),在訓(xùn)練好的風格化模型基礎(chǔ)上在實例歸一化(instance normalization,IN)層做一個仿射變換即可得到不同的風格效果,實現(xiàn)了單網(wǎng)絡(luò)模型遷移多種風格。文獻[17]受CIN層的啟發(fā),提出自適應(yīng)實例歸一化(adaptive instance normalization,AdaIN),AdaIN在特征空間中通過傳遞信道的均值和方差的統(tǒng)計量來進行風格遷移,首次實現(xiàn)了實時的任意風格遷移模型。LI等[18]提出增白和著色轉(zhuǎn)換(whitening and coloring transforms,WCT),通過整合WCT來匹配內(nèi)容和風格特征之間的統(tǒng)計分布和相關(guān)性來實現(xiàn)風格遷移。第二種方法通過預(yù)先訓(xùn)練的前向網(wǎng)絡(luò)來解決計算量大、速度慢的問題。
顯著性檢測是計算機視覺領(lǐng)域中非常具有代表性的問題,其目的是定位出那些最吸引人視覺注意的像素或區(qū)域[19]。近年來,基于CNN的顯著性檢測方法大大提高了檢測結(jié)果的準確性。HOU等[20]提出基于全卷積神經(jīng)網(wǎng)絡(luò)(fully convolutional neural networks,F(xiàn)CNN)[21]的顯著性檢測方法,其在深度特征提取和預(yù)測方面表現(xiàn)出優(yōu)異性且有非常高的準確性。
與之前的工作不同,本文提出了一種顯著信息保留的風格遷移算法。首先,在風格遷移網(wǎng)絡(luò)中加入了顯著性檢測網(wǎng)絡(luò)。以生成合成圖像和內(nèi)容圖像的顯著圖,其使風格化圖像和內(nèi)容圖像保持幾乎一致的顯著區(qū)域,避免顯著區(qū)域扭曲。其次,設(shè)計了顯著性損失函數(shù),在訓(xùn)練過程中計算合成圖像和內(nèi)容圖像的損失。并且在總損失中加入顯著性損失,使得訓(xùn)練好的風格遷移模型能夠生成保留內(nèi)容顯著區(qū)域的風格化圖像。最后,通過與其他算法的比較,本文算法生成的風格化圖像不僅運用了藝術(shù)效果且具有良好的語義信息,在視覺上更令人滿意。
圖1 本文算法流程圖
本文算法包括圖像風格遷移網(wǎng)絡(luò)、感知網(wǎng)絡(luò)和顯著性網(wǎng)絡(luò)3個部分。訓(xùn)練風格遷移網(wǎng)絡(luò),可通過感知網(wǎng)絡(luò)和顯著性網(wǎng)絡(luò)中內(nèi)容損失、風格損失和顯著性損失的引導(dǎo)下生成的風格遷移網(wǎng)絡(luò)模型來生成顯著信息保留的風格化圖像。風格遷移網(wǎng)絡(luò)本質(zhì)上是一個深度殘差神經(jīng)網(wǎng)絡(luò)。如圖1所示,其由3層卷積層,5個殘差塊[22],再加3個卷積層組成。訓(xùn)練輸入和輸出均為彩色3通道圖像,尺寸為256×256。該網(wǎng)絡(luò)未使用池化層,而是使用2個步幅為2的跨步卷積對輸入圖像進行下采樣,使用2個步幅為1/2的微步卷積進行上采樣。下采樣和上采樣在保證輸入圖像和輸出圖像有同樣的尺寸大小,還有2個顯著的優(yōu)點:
(2) 在相同層數(shù)時,下采樣可以增加有效感受野。如,若不進行下采樣,每增加一層3×3的卷積層可以增加2個感受野。經(jīng)過因子的下采樣,有效的感受野可以增加2。即有效感受野越大,可得到更好的風格遷移效果。
風格遷移網(wǎng)絡(luò)的主體使用了GROSS和WILBER[22]提出的殘差網(wǎng)絡(luò),使用殘差網(wǎng)絡(luò)更容易學(xué)到識別功能,使輸出圖像與輸入圖像可以共享結(jié)構(gòu),殘差網(wǎng)絡(luò)共使用了5個殘差塊,每個殘差塊包含2個3×3的卷積層。
除了輸出層之外,在所有的非殘差塊后均使用批歸一化處理(batch normalization)[23]和ReLU非線性激活函數(shù)。在網(wǎng)絡(luò)的最后一層使用tanh函數(shù)保證輸出圖像像素在0~255之間。
根據(jù)文獻[15]的方法,感知網(wǎng)絡(luò)使用由文獻[13]提出的ImageNet[24]對VGG-16模型進行對象分類預(yù)訓(xùn)練。感知網(wǎng)絡(luò)計算內(nèi)容和風格的相似特征表示并不是精確計算圖像的每個像素值,而通過計算目標圖像和合成圖像的距離來產(chǎn)生相應(yīng)的損失。內(nèi)容損失在VGG-16模型的ReLU3_2上計算,風格損失在ReLU1_2,ReLU2_2,ReLU3_3,ReLU4_3上計算。
1.2.1 內(nèi)容損失
假設(shè)第層VGG-16網(wǎng)絡(luò)有C個大小H×W的特征圖。H和W分別表示層特征圖的高和寬。層的響應(yīng)可用矩陣表示為
內(nèi)容損失通過計算內(nèi)容圖像在VGG-16網(wǎng)絡(luò)第l層的特征圖和合成圖像之間的歐氏距離的平方獲得,即
1.2.2 風格損失
風格損失是計算風格圖像和合成圖像在VGG-16網(wǎng)絡(luò)中特征圖的Gram矩陣的F范數(shù)的平方。風格損失計算如下
顯著性損失網(wǎng)絡(luò)1是用來彌補感知網(wǎng)絡(luò)在計算內(nèi)容和風格損失時未考慮內(nèi)容圖像中顯著信息被扭曲的不足,保證風格遷移過程中保留內(nèi)容圖像語義信息,其生成的結(jié)果圖效果更令人滿意。
HOU等[20]提出一種新的深度監(jiān)督的顯著性檢測方法,其通過在HED(holisitcally-nested edge detector)架構(gòu)中引入跳躍層結(jié)構(gòu)的捷徑連接。通過這些短連接,激活每個輸出層,既能突出整體又能準確定位邊界。該框架充分利用從FCN提取的多尺度特征,為每一層提供更高級的表征,這是分割檢測中極為重要的屬性。并且在效率、有效性等方面具有優(yōu)勢,且能在非常復(fù)雜的區(qū)域內(nèi)捕獲顯著區(qū)域。圖2為該顯著性檢測算法的效果圖。
圖2 顯著性檢測((a)原圖;(b)效果圖)
本文模型的總損失total,其將感知損失和顯著性損失合并為一個線性函數(shù),即
根據(jù)總損失,進行風格遷移網(wǎng)絡(luò)迭代優(yōu)化。最終生成風格遷移網(wǎng)絡(luò)模型。該模型生成的風格化圖像不僅自然,富有吸引力,而且保留了內(nèi)容圖像原有的顯著區(qū)域。風格化圖像保留了語義信息,避免了顯著區(qū)域丟失和被扭曲。
圖1中的感知網(wǎng)絡(luò)和顯著性網(wǎng)絡(luò)均加入訓(xùn)練。將內(nèi)容圖像和合成圖像一起輸入感知網(wǎng)絡(luò)和顯著性網(wǎng)絡(luò)。在訓(xùn)練過程中,固定感知網(wǎng)絡(luò)和顯著性網(wǎng)絡(luò),更新風格遷移網(wǎng)絡(luò)中的參數(shù)。這樣,由感知網(wǎng)絡(luò)和顯著性網(wǎng)絡(luò)相互作用優(yōu)化,風格遷移網(wǎng)絡(luò)參數(shù)保持不變,即在改變圖像風格的同時保持了內(nèi)容圖像中的顯著區(qū)域。生成的風格化圖像具有良好的語義信息。圖3為本文算法的效果圖。
圖3 本文算法效果圖((a)風格化圖像;(b)顯著圖對比)
本文對比了文獻[12]、文獻[15]、文獻[17]在相同內(nèi)容圖像和風格圖像下的風格化圖像效果。圖4為風格化圖像對比,圖5為風格化圖像顯著圖對比。為了保證對比實驗的公平性,所有算法均使用作者上傳的源碼并選用與本實驗相同的數(shù)據(jù)集及同樣的配置進行訓(xùn)練。
圖4 風格化圖像對比((a)內(nèi)容圖像;(b) Gatys方法;(c) Johnson方法;(d) AdaIN方法;(e)本文方法;(f)風格圖像)
圖5 風格化圖像顯著圖對比((a)內(nèi)容顯著圖;(b) Gatys顯著圖;(c) Johnson顯著圖;(d) AdaIN顯著圖;(e)本文顯著圖)
通過圖4可以看出,文獻[12]方法是將內(nèi)容特征和風格特征通過迭代完成圖像重建,所以生成的風格化圖像出現(xiàn)了顯著的物體扭曲情況,使得風格化圖像丟失了語義信息。文獻[15]提出的感知損失函數(shù)在一定程度上保留了內(nèi)容圖像的感知信息,但是顯著區(qū)域和背景風格化程度相似,缺少層次感。文獻[17]提出的AdaIN基本上保留了內(nèi)容圖像的顯著區(qū)域,但是出現(xiàn)了較為明顯的“網(wǎng)格化”現(xiàn)象,影響視覺效果。本文算法可生成具有良好視覺效果的風格化圖像。顯著區(qū)域的信息作為前景,和背景的風格改變有著較突出的差異,并著重關(guān)注顯著區(qū)域。結(jié)合圖5可看出,本文算法生成的風格化圖像和內(nèi)容圖像保持了幾乎一致的顯著區(qū)域,風格化圖像具有較好的視覺效果和語義信息。Gatys,Johnson,AdaIN和本文方法的用時分別為35.15 s,2.37 s,5.41 s和2.29 s,其中本文用時最少。
本文在風格遷移網(wǎng)絡(luò)中加入了顯著性檢測網(wǎng)絡(luò),其負責捕捉顯著特征,在風格轉(zhuǎn)換的過程中,保留內(nèi)容圖像的顯著區(qū)域。本文對顯著性模塊進行消融實驗,以驗證該模塊的有效性。
首先,使用風格遷移網(wǎng)絡(luò)和感知網(wǎng)絡(luò)訓(xùn)練生成的模型來生成風格化圖像,結(jié)果為圖6(a)。然后使用風格遷移網(wǎng)絡(luò)、感知網(wǎng)絡(luò)和顯著性網(wǎng)絡(luò)訓(xùn)練生成的模型來生成風格化圖像,結(jié)果為圖6(b)。通過對比可以看出,添加了顯著性檢測網(wǎng)絡(luò)之后生成的風格化圖像可以更好地保留內(nèi)容圖像中的顯著區(qū)域,使其更加突出。
風格遷移是一項具有挑戰(zhàn)性的計算機視覺任務(wù),也是一項藝術(shù)類的任務(wù),所以本文采用用戶調(diào)查的方式來評估各類算法的表現(xiàn)。隨機使用15張不同類的內(nèi)容圖像10張風格圖像,隨機搭配生成風格化圖像,每個算法生成30張風格化圖像。隨機選擇20名用戶對風格化圖像進行打分。
根據(jù)生成的風格化圖像設(shè)計了2個調(diào)查問題。第一,要求參與者選擇能夠更好地表達風格圖像中的色彩和紋理的風格化圖像。第二,要求參與者選擇能夠更好地保留內(nèi)容圖像中的顯著區(qū)域的風格化圖像。本文按照隨機順序排列每個算法生成的風格化圖像,讓參與者分別給2個問題的同一內(nèi)容和風格的不同算法生成的風格化圖像進行打分??偡譃?0分,對20名用戶的打分計算平均值,結(jié)果如圖7所示。根據(jù)調(diào)查結(jié)果顯示,本文算法生成的風格化圖像既有令人滿意的色彩和紋理,又保留了內(nèi)容圖像中的著性區(qū)域。
圖7 用戶調(diào)查結(jié)果
本文提出一種端到端的卷積神經(jīng)網(wǎng)絡(luò)來實現(xiàn)風格遷移。相比之前的基于卷積神經(jīng)網(wǎng)絡(luò)的風格遷移算法,本文提出的算法有3點改進:①在風格遷移網(wǎng)絡(luò)中加入顯著性檢測網(wǎng)絡(luò),在訓(xùn)練階段生成合成圖像和內(nèi)容圖像的顯著圖,使風格化圖像和內(nèi)容圖像保持幾乎一致的顯著區(qū)域,避免顯著區(qū)域扭曲;②設(shè)計了顯著性損失函數(shù),并且在總損失中加入顯著性損失,使得訓(xùn)練好的風格遷移模型能夠生成保留內(nèi)容顯著區(qū)域的風格化圖像;③本文算法生成的風格化圖像與其他算法相比不僅運用了藝術(shù)效果并且具有良好的語義信息,而且在視覺上更令人滿意。特別是在處理顯著區(qū)域突出的圖像,因為圖像在顯著區(qū)域的扭曲會嚴重影響風格化圖像的視覺效果。
[1] KRIZHEVSKY A, SUTSKEVER I, HINTON G E. Imagenet classification with deep convolutional neural networks[C]//Advances in Neural Information Processing Systems.California:NIPS, 2012: 1097-1105.
[2] GATYS L, ECKER A, BETHGE M. A neural algorithm of artistic style[J]. Journal of Vision, 2016, 16(12): 326.
[3] GATYS L A, ECKER A S, BETHGE M, et al. Controlling perceptual factors in neural style transfer[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2017: 3730-3738.
[4] WU R Z, GU X D, TAO X, et al. Landmark assisted CycleGAN for cartoon face generation[EB/OL]. [2021-03-12]. https://xueshu.baidu.com/usercenter/paper/show?paperid=1k5n00d0b7160va0xu7 u0aw0gb439758&site=xueshu_se.
[5] ZHU J Y, PARK T, ISOLA P, et al. Unpaired image-to-image translation using cycle-consistent adversarial networks[C]//2017 IEEE International Conference on Computer Vision (ICCV). New York: IEEE Press, 2017: 2242-2251.
[6] LUAN F J, PARIS S, SHECHTMAN E, et al. Deep photo style transfer[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2017: 6997-7005.
[7] WANG W J, LIU J Y, YANG S, et al. Typography with decor: intelligent text style transfer[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2019: 5882-5890.
[8] GOTO K, NISHINO H. A method of neural style transfer for images with artistic characters[M]//Advances in Intelligent Systems and Computing. Cham: Springer International Publishing, 2018: 911-920.
[9] LIAO J, YAO Y, YUAN L, et al. Visual attribute transfer through deep image analogy[J]. ACM Transactions on Graphics, 2017, 36(4): 120.
[10] PORTILLA J, SIMONCELLI E P. A parametric texture model based on joint statistics of complex wavelet coefficients[J]. International Journal of Computer Vision, 2000, 40(1): 49-70.
[11] JING Y C, YANG Y Z, FENG Z L, et al. Neural style transfer: a review[J]. IEEE Transactions on Visualization and Computer Graphics, 2020, 26(11): 3365-3385.
[12] GATYS L A, ECKER A S, BETHGE M. Image style transfer using convolutional neural networks[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2016: 2414-2423.
[13] SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition[EB/OL]. [2021-03-12]. https://xueshu.baidu.com/usercenter/paper/show?paperid=2801f41808e377a1897a3887b6758c59&site=xueshu_se.
[14] LI C, WAND M. Combining Markov random fields and convolutional neural networks for image synthesis[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2016: 2479-2486.
[15] JOHNSON J, ALAHI A, LI F F. Perceptual losses for real-time style transfer and super-resolution[M]//Computer Vision – ECCV 2016. Cham: Springer International Publishing, 2016: 694-711.
[16] DUMOULIN V, SHLENS J, KUDLUR M. A learned representation for artistic style[EB/OL]. [2021-03-12]. https://openreview.net/forum?id=BJO-BuT1g¬eId=BJO-BuT1g.
[17] HUANG X, BELONGIE S. Arbitrary style transfer in real-time with adaptive instance normalization[C]//2017 IEEE International Conference on Computer Vision (ICCV). New York: IEEE Press, 2017: 1510-1519.
[18] LI Y J, FANG C, YANG J M, et al. Universal style transfer via feature transforms[C]//In Advances in Neural Information Processing Systems. California: NIPS, 2017: 386-396.
[19] 李岳云, 許悅雷, 馬時平, 等. 深度卷積神經(jīng)網(wǎng)絡(luò)的顯著性檢測[J]. 中國圖象圖形學(xué)報, 2016, 21(1): 53-59. LI Y Y, XU Y L, MA S P, et al. Saliency detection based on deep convolutional neural network[J]. Journal of Image and Graphics, 2016, 21(1): 53-59 (in Chinese).
[20] HOU Q B, CHENG M M, HU X W, et al. Deeply supervised salient object detection with short connections[C]//IEEE Transactions on Pattern Analysis and Machine Intelligence. New York: IEEE Press, 2015: 815-828.
[21] SHELHAMER E, LONG J, DARRELL T. Fully convolutional networks for semantic segmentation[C]//IEEE Transactions on Pattern Analysis and Machine Intelligence. New York: IEEE Press, 640-651.
[22] GROSS S, WILBER M. Training and investigating residual nets[EB/OL]. [2021-03-12]. http://torch.ch/blog/2016/02/04/resnets.html.
[23] IOFFE S, SZEGEDY C. Batch normalization: accelerating deep network training by reducing internal covariate shift[EB/OL]. [2021-03-12]. https://xueshu.baidu.com/usercenter/paper/show?paperid=4634f864791a3f3a0817edabeacf4c49.
[24] DENG J, DONG W, SOCHER R, et al. ImageNet: a large-scale hierarchical image database[C]//2009 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2009: 248-255.
[25] MAHENDRAN A, VEDALDI A. Understanding deep image representations by inverting them[C]//2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2015: 5188-5196.
[26] D’ANGELO E, ALAHI A, VANDERGHEYNST P. Beyond bits: Reconstructing images from Local Binary Descriptors[C]//Proceedings of the 21st International Conference on Pattern Recognition (ICPR2012). New York: IEEE Press, 2012: 935-938.
[27] LIN T Y, MAIRE M, BELONGIE S, et al. Microsoft COCO: common objects in context[M]//Computer Vision – ECCV 2014. Cham: Springer International Publishing, 2014: 740-755.
[28] KINGMA D, BA J. Adam: a method for stochastic optimization[EB/OL]. [2021-03-12]. https://arxiv.org/abs/1412.6980v4.
Style transfer algorithm for salient region preservation
LIN Xiao1,2,3, QU Shi-cao1,3, HUANG Wei3,4, ZHENG Xiao-mei1,3, MA Li-zhuang5
(1. The College of Information, Mechanical and Electrical Engineering, Shanghai Normal University, Shanghai 200234, China; 2.Shanghai Engineering Research Center of Intelligent Education and Bigdata, Shanghai Normal University, Shanghai 200234, China; 3.The Research Base of Online Education for Shanghai Middle and Primary Schools, Shanghai 200234, China; 4. School of Optical-Electrical and Computer engineering, University of Shanghai for Science and Technology, Shanghai 200093, China; 5. School of Electronic Information and Electrical Engineering, Shanghai Jiao Tong University, Shanghai 200240, China)
Style transfer based on neural networks has become one of the hot research issues in academia and industry in recent years. Existing methods can apply different styles to a given content image to generate a stylized image and greatly enhance visual effects and conversion efficiency. However, these methods focus on learning the underlying features of the image, easily leading to the loss of content image semantic information of stylized images. Based on this, an improved scheme was proposed to match the salient area of the stylized image with that of the content image. By adding a saliency detection network to generate a saliency map of the composite image and the content image, the loss of the saliency map was calculated during the training process, so that the composite image could almost maintain a saliency area consistent with that of the content image, which is conducive to improving the stylized image. The experiment shows that the stylized image generated by the style transfer model can not only produce better visual effects, but also retains the semantic information of the content image. Ensuring the undistorted ness of salient areas is a significant prerequisite for generating visually friendly images, especially for the content image with prominent salient areas.
style transfer; image transformation; salient region preservation; convolutional neural network; saliency detection
TP 391
10.11996/JG.j.2095-302X.2021020190
A
2095-302X(2021)02-0190-08
2020-08-09;
9 August,2020;
2020-08-27
27 August,2020
國家自然科學(xué)基金項目(61775139,62072126,61772164,61872242)
National Natural Science Foundation of China (61775139,62072126,61772164,61872242)
林 曉(1978-),女,河南南陽人,教授,博士。主要研究方向為圖像處理。E-mail:lin6008@shnu.edu.cn
LIN Xiao (1978-), female, professor, Ph.D. Her main research interest covers image processing. E-mail:lin6008@shnu.edu.cn
鄭曉妹(1973–),女,安徽來安人,講師,博士。主要研究方向為圖像視頻處理。E-mail:xmzheng@shnu.edu.cn
ZHENG Xiao-mei (1973–), female, lecturer, Ph.D. Her main research interest covers image and video processing. E-mail:xmzheng@shnu.edu.cn