• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于雙專用注意力機(jī)制引導(dǎo)的循環(huán)生成對(duì)抗網(wǎng)絡(luò)

      2022-09-01 08:53:40勞俊明葉武劍劉怡俊袁凱奕
      液晶與顯示 2022年6期
      關(guān)鍵詞:鑒別器掩碼斑馬

      勞俊明,葉武劍,劉怡俊,袁凱奕

      (1. 廣東工業(yè)大學(xué) 信息工程學(xué)院,廣東 廣州 510006;2. 廣東工業(yè)大學(xué) 集成電路學(xué)院,廣東 廣州 510006)

      1 引 言

      圖像到圖像的轉(zhuǎn)換任務(wù)一直以來都是人們的研究熱點(diǎn),其目標(biāo)是建立圖像源領(lǐng)域到目標(biāo)領(lǐng)域的映射,被廣泛應(yīng)用于圖像超分辨率重建[1]、風(fēng)格遷移[2]、圖像著色[3]、圖像去霧[4]等多個(gè)領(lǐng)域。

      2014 年,基于博弈思維的生成對(duì)抗網(wǎng)絡(luò)[5]開辟了一個(gè)新的研究領(lǐng)域,大為促進(jìn)了圖像轉(zhuǎn)換領(lǐng)域的發(fā)展。此后,誕生了一系列優(yōu)秀的圖像轉(zhuǎn)換算法,例如Pix2pix[6]、DualGAN[7]、DiscoGAN[8]、UNIT[9]、MUNIT[10]、DRIT[11]、CycleGAN[12]等算法。其中,Pix2pix 算法屬于有監(jiān)督的圖像轉(zhuǎn)換算法,該算法需要匹配的圖像組才能完成圖像轉(zhuǎn)換的任務(wù),然而,匹配的數(shù)據(jù)集制作難度較大、成本較高。為了實(shí)現(xiàn)無配對(duì)圖像之間的轉(zhuǎn)換,Dual?GAN、DiscoGAN 以及CycleGAN 等網(wǎng)絡(luò)模型引入了循環(huán)一致性約束。實(shí)驗(yàn)結(jié)果表明,上述模型在無匹配的圖像轉(zhuǎn)換任務(wù)取得了較好的效果。盡管CycleGAN 等算法在無匹配的圖像轉(zhuǎn)換任務(wù)表現(xiàn)優(yōu)越,但是,由于生成器既需要維持圖像背景區(qū)域不變,又要對(duì)目標(biāo)前景進(jìn)行轉(zhuǎn)換,從而導(dǎo)致生成器對(duì)目標(biāo)圖像轉(zhuǎn)換的效率低下。

      近年來,注意力機(jī)制在深度學(xué)習(xí)中的應(yīng)用引起了研究人員的高度重視,為解決CycleGAN 網(wǎng)絡(luò)等算法存在的問題,研究人員相繼提出了基于注意力機(jī)制的無匹配圖像轉(zhuǎn)換算法UAIT[13]、Attention-GAN[14]、SAT[15]等,但上述算法將獨(dú)立的通用注意力結(jié)構(gòu)加到生成器網(wǎng)絡(luò)中,使得模型的整體結(jié)構(gòu)變得非常龐大,導(dǎo)致其訓(xùn)練時(shí)間變長,而且也難以關(guān)注到圖中關(guān)鍵區(qū)域的所有細(xì)節(jié)。AttentionGAN[16]提出了專用注意力機(jī)制與生成器共享編碼器的結(jié)構(gòu),雖然能夠縮小整體的網(wǎng)絡(luò)結(jié)構(gòu)大小,但是,由于鑒別器沒有注意力機(jī)制引導(dǎo),從而引入背景元素的干擾,影響了生成圖像的質(zhì)量。U-GAT-IT[17]提出了基于類激活CAM[18]注意力機(jī)制引導(dǎo)的生成器和鑒別器,雖然提升了成像質(zhì)量,但整體網(wǎng)絡(luò)的判別器需要從2 個(gè)增加至4 個(gè),不僅大幅增加了模型的復(fù)雜度,并且其提出的基于CAM 注意力機(jī)制引導(dǎo)的生成器不夠優(yōu)越,仍然會(huì)對(duì)整體圖像進(jìn)行修改,圖像轉(zhuǎn)換效率不高,圖像生成質(zhì)量仍然有提升的空間。

      2 基本原理

      為解決上述存在的問題,本文提出了一種新的用于無匹配圖像轉(zhuǎn)換任務(wù)的循環(huán)生成對(duì)抗網(wǎng)絡(luò)(Dual-SAG-CycleGAN),采用不同的專用注意力模塊分別引導(dǎo)生成器和判別器,達(dá)到提升生成圖像質(zhì)量同時(shí)降低模型復(fù)雜度的目的。

      本文的貢獻(xiàn)具體如下:(1)提出了一種名為SAG 的改進(jìn)專用注意力模塊來引導(dǎo)生成器工作,其中,生成器結(jié)構(gòu)由內(nèi)容圖生成子模塊與注意力掩碼圖生成子模塊組成,兩者高度共享參數(shù)權(quán)重。(2)為減少生成器對(duì)無關(guān)內(nèi)容的生成以及削弱判別器對(duì)背景元素的判斷,本文引入了基于CAM 注意力模塊引導(dǎo)的鑒別器。(3)為了生成更加精準(zhǔn)的掩碼圖來輔助圖像轉(zhuǎn)換,本文提出了背景掩碼循環(huán)一致性損失函數(shù)約束掩碼生成器的工作。圖1 所示為本文所提出的模型以及現(xiàn)有對(duì)比模型在馬轉(zhuǎn)斑馬任務(wù)上的生成效果圖。

      圖1 不同模型在馬轉(zhuǎn)斑馬任務(wù)上的表現(xiàn)。(a)原圖;(b)CycleGAN;(c)UNIT;(d)MUNIT;(e)DRIT;(f)本文模型。Fig. 1 Performance of different models on the horse to zebra task.(a)Origin image;(b)CycleGAN;(c)UNIT;(d)MUNIT;(e)DRIT;(f)Ours.

      2.1 整體框架

      圖2 是本文所提出的基于雙專用注意力機(jī)制引導(dǎo)的循環(huán)生成對(duì)抗網(wǎng)絡(luò)的示意圖。本文在Cy?cleGAN 整體網(wǎng)絡(luò)框架的基礎(chǔ)上分別對(duì)生成器和判別器采用不同的注意力機(jī)制進(jìn)行引導(dǎo),其中,生成器采用本文提出的SAG 專用注意力機(jī)制進(jìn)行引導(dǎo),鑒別器使用了基于CAM 技術(shù)的專用注意力機(jī)制進(jìn)行引導(dǎo),兩者構(gòu)成緊密的整體。SAG專用注意力機(jī)制引導(dǎo)生成器修改圖像的目標(biāo)前景,而CAM 專用注意力機(jī)制則引導(dǎo)鑒別器關(guān)注兩組圖像之間差異最大的部分。

      圖2 網(wǎng)絡(luò)示意圖Fig. 2 Network diagram

      圖3 為本文的整體框架圖。在圖像與圖像轉(zhuǎn)換的任務(wù)中,通常有兩組不同的圖像領(lǐng)域,其目標(biāo)是得到域與域之間的映射。為了達(dá)成該目標(biāo),網(wǎng)絡(luò)中需要兩組對(duì)稱的生成器與鑒別器,如圖3所示,一組生成器G的功能是將X域(馬)圖像生成至Y域(斑馬)圖像,該組的鑒別器DY則將生成器生成的G(Y) 域(斑馬)與真實(shí)的Y域(斑馬)區(qū)分開來。同樣,第二組生成器F的功能是將Y域(斑馬)圖像生成至X域(馬)圖像,該組的鑒別器DX則將生成器生成的F(X) 域(馬)與真實(shí)的X域(馬)區(qū)分開來。

      圖3 整體框架示意圖Fig.3 Overall framework

      為了防止網(wǎng)絡(luò)在轉(zhuǎn)換過程中,出現(xiàn)將X域(Y域)所有圖像都映射到Y(jié)域(X域)中同一張圖片的情況,本文與CycleGAN 一樣,引入了兩個(gè)循環(huán)一致性損失。所謂循環(huán)一致性損失就是X域的圖像經(jīng)過生成器G轉(zhuǎn)換至Y域后,仍然可以通過生成器F恢復(fù)至原來的X域中,并且經(jīng)過恢復(fù)的圖像與原圖之間差異不能過大,即前向映射x→G(x)→F(G(x))≈x。同樣,反向映射y→F(y)→G(F(y))≈y亦是如此,本文遵循了CycleGAN 的整體基本原理。

      由于在前向或反向循環(huán)映射過程中,需要修改各自的目標(biāo)前景相同,即各自的背景掩碼一致,故本文引入循環(huán)一致性損失函數(shù)約束掩碼生成器的工作,使其生成更加精準(zhǔn)的掩碼圖來輔助圖像轉(zhuǎn)換。通過兩組對(duì)稱的生成器與鑒別器動(dòng)態(tài)博弈,最終得到相對(duì)理想的X域與Y域之間的映射。

      2.2 基于SAG 專用注意力引導(dǎo)的生成器

      圖4 基于專用注意力機(jī)制引導(dǎo)的生成器G 結(jié)構(gòu)Fig.4 Structure of generator G based on special attention mechanism-guide

      與其他基于注意力機(jī)制引導(dǎo)的模型相比,本文設(shè)計(jì)的基于專用注意力引導(dǎo)的生成器高度共享模型參數(shù)的結(jié)構(gòu),模型計(jì)算復(fù)雜度更低,而且由于我們的內(nèi)容生成子模塊卷積輸出27 維圖像矩陣,相較于其他模型直接輸出3 維圖像矩陣來說,可計(jì)算的映射路徑更多。對(duì)于復(fù)雜場(chǎng)景下的圖像,由于注意力機(jī)制的引入,使得網(wǎng)絡(luò)只需要專注于生成前景目標(biāo),所以映射更加簡(jiǎn)單,網(wǎng)絡(luò)更容易收斂,其生成圖像細(xì)節(jié)更好。

      2.3 基于CAM 專用注意力引導(dǎo)的鑒別器

      為了防止判別器對(duì)生成圖像的背景元素進(jìn)行判斷,減少生成器對(duì)無關(guān)或者虛假內(nèi)容的生成,本文采用了U-GAT-IT 中的鑒別器結(jié)構(gòu),如圖5 所示,其利用了輔助鑒別器基于類激活圖CAM 的原理對(duì)前景目標(biāo)進(jìn)行權(quán)重加權(quán),影響最終鑒別器的輸出,其中,卷積函數(shù)Conv 后的參數(shù)分別為特征輸出通道數(shù)、卷積核大小、步長、四邊填充行數(shù)。

      圖5 基于專用注意力機(jī)制引導(dǎo)的鑒別器結(jié)構(gòu)Fig.5 Structure of discriminator based on special attention mechanism-guide

      鑒別器的整體由輔助鑒別器以及最終鑒別器組成,兩者同樣高度共享權(quán)重參數(shù)。其中,輔助鑒別器的構(gòu)成與傳統(tǒng)的判別器一致,經(jīng)過多層卷積提取特征后,通過池化層計(jì)算后,再通過全連接層后輸出大小為1×1×1 的判別結(jié)果矩陣,將兩個(gè)1×1×1 的判別結(jié)果矩陣拼接在一起,形成2×1×1 大小的輔助鑒別判斷矩陣輸出,從全局的方式去判斷圖像的真?zhèn)?,維持生成目標(biāo)的整體形狀。而最終鑒別器的構(gòu)成則與Cy?cleGAN 的判別器相似,從局部的方式去判斷圖像中每一小塊的真?zhèn)?,其最終輸出大小為30×30 的判斷結(jié)果矩陣,能夠保持生成目標(biāo)紋理的高細(xì)節(jié)、高分辨率。

      最終鑒別器通過輔助鑒別器的卷積層、池化層以及全連接層計(jì)算后,從全局的方式利用CAM 的原理來得出對(duì)目標(biāo)前景加權(quán)的矩陣,再與相應(yīng)的特征矩陣相乘后得到注意力特征矩陣,進(jìn)而輸入到最終判別器進(jìn)行進(jìn)一步的特征提取,使得最終判別器進(jìn)一步收斂至判斷前景目標(biāo)而不是背景元素。

      由圖5 可知,本文采用的基于注意力機(jī)制引導(dǎo)的鑒別器結(jié)構(gòu)具有兩組輸出,其中,ηDX或ηDY為輔助鑒別器輸出,它能夠從全局的形式來判斷圖像的真?zhèn)?,由輔助鑒別器構(gòu)成的生成對(duì)抗損失函數(shù)的數(shù)學(xué)表達(dá)式由式(5)以及式(6)表示。其中,x和y是真實(shí)的圖像,Pdata(x)和Pdata(y)表示真實(shí)圖像的樣本分布,x~Pdata(x)和y~Pdata(y)表示樣本x、y隨機(jī)地從Pdata分布中取出,E則為求解數(shù)學(xué)期望。

      要獲得相似的樣本分布,鑒別器D應(yīng)當(dāng)分辨出真實(shí)的圖像與生成器G、F生成的虛假圖像,也就是ηDY(G(x))及ηDX(F(y))的值要接近0,ηDY(y)及ηDX(x)接近1,即LCAM(G,ηDY,X,Y)越大越好;而生成器G則應(yīng)當(dāng)使生成的圖像盡量可以騙過鑒別器,即ηDY(G(x))及ηDX(F(y))的值要接近1,也即LCAM(G,ηDY,X,Y)越小越好,該最優(yōu)值為0.5。

      最終鑒別器輸出所構(gòu)成的生成對(duì)抗損失函數(shù)與CycleGAN 一致,其數(shù)學(xué)表達(dá)式如式(7)和式(8)所示,類似的原理已在式(5)和式(6)處進(jìn)行了詳細(xì)的解釋,故在此不再重復(fù)描述。

      2.4 注意力引導(dǎo)下的循環(huán)一致性損失函數(shù)

      2.5 優(yōu)化目標(biāo)

      上文介紹了各部分的損失函數(shù),而模型完整的損失函數(shù)方程由6 部分組成,如式(11)所示,分別為X域、Y域最終鑒別器的生成對(duì)抗損失;X域、Y域輔助鑒別器的生成對(duì)抗損失;整體圖像的循環(huán)一致性損失以及背景掩碼的循環(huán)一致性損失。

      在圖像轉(zhuǎn)換任務(wù)中,要獲得相似的樣本分布,生成器G、F應(yīng)當(dāng)使生成的圖像可以騙過鑒別器,而最終鑒別器DX、DY以及輔助鑒別器ηDX、ηDY則應(yīng)當(dāng)準(zhǔn)確分辨出真實(shí)的圖像與由生成器G、F生成的虛假圖像,因此,生成器與鑒別器形成了對(duì)抗的關(guān)系。對(duì)于鑒別器DX、DY、ηDX以及ηDY,本文希望其辨別真實(shí)圖像與生成器生成虛假圖像的能力得到最大的提升,即為最優(yōu)的鑒別器。在最優(yōu)鑒別器的條件下,生成器G、F的優(yōu)化目標(biāo)是最小化圖像的真實(shí)分布與模型生成圖像分布之間的JS 散度,以獲得最優(yōu)的圖像轉(zhuǎn)換映射路徑,同時(shí)本文希望循環(huán)一致性損失函數(shù)值最小。因此,本文網(wǎng)絡(luò)的整體優(yōu)化目標(biāo)方程如式(12)所示:

      3 實(shí)驗(yàn)分析

      3.1 基準(zhǔn)模型

      本文對(duì)兩大類無匹配圖像轉(zhuǎn)換算法進(jìn)行對(duì)比,一類為無注意力機(jī)制引導(dǎo)的圖像轉(zhuǎn)換模型,包 括DualGAN[7]、DiscoGAN[8]、UNIT[9]、MU?NIT[10]、DRIT[11]、CycleGAN[12]、RA[19];另一類為有注意力機(jī)制引導(dǎo)的圖像轉(zhuǎn)換模型,主要有UAIT[13]、Attention-GAN[14]、SAT[15]、Attention?GAN[16]、U-GAT-IT[17]、DA-GAN[20]、TransGa?Ga[21]等模型。

      3.2 數(shù)據(jù)集

      本文采用3 組無匹配的圖像數(shù)據(jù)集對(duì)模型進(jìn)行訓(xùn)練與測(cè)試,各個(gè)數(shù)據(jù)集的詳細(xì)情況如表1所示。

      表1 各數(shù)據(jù)集詳細(xì)信息Tab.1 Details of each dataset

      3.3 參數(shù)設(shè)置

      3.4 評(píng)價(jià)指標(biāo)

      3.4.1 生成圖像質(zhì)量評(píng)價(jià)

      Kernel Inception Distance(KID)[22]指 標(biāo) 通 過計(jì)算原始表征之間最大均值差異的平方來度量真實(shí)樣本與假樣本之間的差異,越低的KID 參數(shù)表示兩組樣本之間越相似。Frchet Inception Dis?tance(FID)[23]指標(biāo)使用Inception V3 模型來提取圖像的高級(jí)語義信息,通過計(jì)算真實(shí)圖像與生成圖像提取特征向量后的均值以及協(xié)方差距離來衡量生成對(duì)抗網(wǎng)絡(luò)生成圖像的質(zhì)量以及真假圖像的相似性。當(dāng)生成的圖像與真實(shí)的圖像特征越相近時(shí),F(xiàn)ID 數(shù)值越小。

      3.4.2 模型復(fù)雜度評(píng)價(jià)

      浮點(diǎn)運(yùn)算Floating Point Operations(FLOPs)以及乘加運(yùn)算Multiply Accumulate Operations(MACs)是常用的模型復(fù)雜度統(tǒng)計(jì)指標(biāo),它們能夠統(tǒng)計(jì)數(shù)據(jù)通過網(wǎng)絡(luò)模型所需要計(jì)算量的大小,即啟用該模型時(shí)所需要的計(jì)算力。Parameters 模型參數(shù)量也是描述模型復(fù)雜度的指標(biāo)之一,Times 為模型運(yùn)行時(shí)實(shí)際消耗時(shí)間而Memory 為模型訓(xùn)練時(shí)占用的實(shí)際顯存空間,三者的數(shù)值越小,代表模型越優(yōu)越。

      3.5 消融實(shí)驗(yàn)

      圖6 為有無本文專用注意力機(jī)制引導(dǎo)的生成器、鑒別器以及背景掩碼的循環(huán)一致性損失函數(shù)對(duì)生成圖像的影響。在上述選項(xiàng)中,無本文專用注意力機(jī)制引導(dǎo)的生成器、鑒別器分別表示使用CycleGAN 的生成器、鑒別器,而無背景掩碼的循環(huán)一致性損失函數(shù)則表示不引入本文所設(shè)計(jì)的背景掩碼的循環(huán)一致性損失函數(shù)。

      圖6 有無本文生成、鑒別器以及背景掩碼循環(huán)一致性損失函數(shù)對(duì)生成圖像質(zhì)量的影響。(a)原圖;(b)無專用注意力引導(dǎo)的生成器;(c)無專用注意力引導(dǎo)的鑒別器;(d)無背景掩碼循環(huán)一致性損失函數(shù);(e)三者都有。Fig. 6 Effect of the generated image’s quality that with or without our generator,discriminator and cycle consistency loss function background mask. (a)Original image;(b)Generator without special at?tention-mechanism guided;(c) Discriminator without special attention-mechanism guided;(d)Without cycle consistency loss function of back?ground mask;(e)All of three factors.

      由圖6(b)可以觀察到,當(dāng)不使用本文的專用注意力引導(dǎo)的生成器時(shí),圖像的背景會(huì)被大幅度地修改,且前景目標(biāo)的生成質(zhì)量非常低。而當(dāng)不使用本文的專用注意力引導(dǎo)的鑒別器時(shí),在訓(xùn)練過程中,當(dāng)鑒別器無法分辨生成器所生成的前景目標(biāo)時(shí),就會(huì)通過背景元素進(jìn)行判斷,這時(shí)候鑒別器也會(huì)引導(dǎo)生成器生成背景元素,如圖6(c)所示,由于判別器對(duì)背景中的天空和海水進(jìn)行判斷,所以引導(dǎo)了生成器生成虛假的內(nèi)容。由圖6(d)觀察到,當(dāng)不引入背景掩碼的循環(huán)一致性損失函數(shù)時(shí),注意力掩碼器所生成的背景掩碼圖會(huì)不完整地覆蓋前景目標(biāo)又或者覆蓋無關(guān)的背景區(qū)域,從而使得生成器生成虛假的背景元素又或生成不完整的前景目標(biāo)。

      由圖6(e)可以觀察到,使用本文的專用注意力機(jī)制引導(dǎo)生成器、鑒別器以及有背景掩碼循環(huán)一致性損失函數(shù)時(shí)模型生成的圖像質(zhì)量最好。

      表2 給出了有無專用注意力引導(dǎo)的生成器、鑒別器以及背景掩碼循環(huán)一致性損失函數(shù)以及對(duì)生成圖像質(zhì)量的量化參數(shù)FID 的影響。在本項(xiàng)測(cè)試中,F(xiàn)ID 越小代表圖像質(zhì)量越高,并且生成的圖像與真實(shí)的圖像越相似,可以觀察到,當(dāng)模型三者都擁有時(shí)能夠取得最小的FID 指數(shù)。

      游戲板塊的選股并不容易。A股中的游戲公司經(jīng)過幾輪下跌后,PE的角度看已經(jīng)十分可觀,甚至作為一個(gè)輕資產(chǎn)行業(yè),部分企業(yè)PB也有一定的吸引力。然而,市場(chǎng)對(duì)于A股游戲公司的財(cái)務(wù)狀況普遍存在不信任,認(rèn)為行業(yè)財(cái)務(wù)舞弊風(fēng)險(xiǎn)較高,純內(nèi)容產(chǎn)業(yè)面臨較大的業(yè)績(jī)不確定性,此外高商譽(yù)問題依舊存在。因此,投資者切勿以某只游戲股的PE或別的估值指標(biāo)極低便選擇入場(chǎng),這也是過去兩年時(shí)間國內(nèi)游戲股深套一批投資者的重要原因。

      表2 在馬轉(zhuǎn)斑馬任務(wù)上模型的消融研究Tab.2 Ablation studies of models on the horse-to-zebra task

      圖7 給出了不同背景掩碼循環(huán)一致性損失函數(shù)的λ系數(shù)在馬轉(zhuǎn)斑馬任務(wù)上對(duì)生成圖像質(zhì)量的影響。由圖7 可以觀察到,當(dāng)λ=0.0 時(shí),模型生成的前景目標(biāo)以及背景掩碼不夠完整,又或者將背景元素引入到了生成圖像中,降低了圖像的質(zhì)量;當(dāng)λ=1.0 時(shí),模型生成的前景目標(biāo)以及背景掩碼最優(yōu),此時(shí)的生成圖像質(zhì)量最好;當(dāng)λ=10.0時(shí),由于過大的權(quán)重,降低了模型生成圖像的清晰度以及產(chǎn)生了失真的色彩,并且使得模型生成了過大的前景目標(biāo)掩碼圖。

      圖7 不同的λ 系數(shù)在馬轉(zhuǎn)斑馬任務(wù)上對(duì)生成圖像質(zhì)量的影響Fig. 7 Effect of different λ-factors on the quality of the generated images on the horse-to-zebra task

      表3 給出了不同背景掩碼循環(huán)一致性損失函數(shù)的λ系數(shù)對(duì)模型生成圖像質(zhì)量量化參數(shù)FID 的影響,其中,F(xiàn)ID 參數(shù)越低越好。

      由表3 可以觀察到,當(dāng)λ=1.0 時(shí),模型生成圖像的FID 參數(shù)最低,此時(shí)的圖像生成質(zhì)量最優(yōu)。

      表3 不同λ 系數(shù)對(duì)圖像生成質(zhì)量的影響Tab.3 Effect of different λ-coefficients on the quality of the generated images

      圖8 和圖9 展示的是本文模型在不同的轉(zhuǎn)換任務(wù)上注意力掩碼圖生成器所生成的背景掩碼圖以及生成器生成的最終效果圖。

      圖8 本文模型在蘋果轉(zhuǎn)橘子和橘子轉(zhuǎn)蘋果任務(wù)上生成的注意力掩碼以及生成效果Fig. 8 Attention mask and images generated by ours model on the apple to orange and orange to apple tasks

      圖9 本文模型在馬轉(zhuǎn)斑馬和斑馬轉(zhuǎn)馬任務(wù)上生成的注意力掩碼以及生成效果Fig. 9 Attention mask and images generated by ours model on the horse to zebra and zebra to horse tasks

      由圖8 和圖9 可以觀察到,本文模型能夠準(zhǔn)確地識(shí)別到需要轉(zhuǎn)換的前景目標(biāo),做到修改前景目標(biāo)的同時(shí)能夠維持原背景圖像不變,最大程度地提升了生成圖像的質(zhì)量。

      3.6 量化結(jié)果

      圖10 是不同模型在馬與斑馬互相轉(zhuǎn)換任務(wù)上的效果圖。由圖10 可以觀察到,RA、Disco?GAN、UNIT、DualGAN、CycleGAN 等模型在生成前景目標(biāo)的同時(shí)也對(duì)背景進(jìn)行了轉(zhuǎn)換,這大幅降低了模型所生成的圖片質(zhì)量。在復(fù)雜的無匹配圖像轉(zhuǎn)換任務(wù)上,這類模型所生成的圖像質(zhì)量更低,而帶有注意力機(jī)制的模型,如UAIT、At?tentionGAN 等模型則只改變或者輕微改變背景元素,提升了生成圖像的質(zhì)量。

      圖10 不同模型在馬與斑馬互換任務(wù)上的表現(xiàn)。(a)原圖;(b)CycleGAN;(c)RA;(d)DiscoGAN;(e)UNIT;(f)DualGAN;(g)UAIT;(h)Attention?GAN;(i)本文模型。Fig. 10 Performance of different models on the horse-ze?bra interchange task.(a)Original image;(b)Cy?cleGAN;(c)RA;(d)DiscoGAN;(e)UNIT;(f)DualGAN;(g)UAIT;(h)AttentionGAN;(i)Ours.

      由于UAIT 等模型引入了獨(dú)立的通用注意力機(jī)制結(jié)構(gòu),大幅增加了模型的復(fù)雜度。雖然AttentionGAN 模型提出的注意力機(jī)制與生成器共享參數(shù)層的結(jié)構(gòu),減少了模型的參數(shù),但是,由于無基于注意力機(jī)制引導(dǎo)的鑒別器,使得生成器生成了許多虛假的幻紋,而本文提出的基于專用注意力機(jī)制引導(dǎo)的生成對(duì)抗網(wǎng)絡(luò)不僅能夠抑制和減少虛假的幻紋的生成,并且進(jìn)一步縮小了模型的結(jié)構(gòu)以及提升了生成圖像的質(zhì)量。

      圖11 是不同模型在自拍照與漫畫臉轉(zhuǎn)換任務(wù)上的效果圖,可以觀察到,本文的模型不僅能夠僅轉(zhuǎn)換前景目標(biāo)區(qū)域圖像,亦可以修改整張圖像。由圖11(h)的臉型、頭發(fā)可以觀察到,本文的模型能夠最大程度地保留原有的語義信息的基礎(chǔ)上來對(duì)圖像進(jìn)行轉(zhuǎn)換。

      圖11 不同模型在自拍與動(dòng)漫互換任務(wù)上的表現(xiàn)。(a)原圖;(b)CycleGAN;(c)UNIT;(d)MUNIT;(e)DRIT;(f)U-GAT-IT;(g)AttentionGAN;(h)本文模型。Fig. 11 Performance of different models on the selfie-anime interchange task.(a)Original image;(b)Cycle?GAN;(c)UNIT;(d)MUNIT;(e)DRIT;(f)U-GAT-IT;(g)AttentionGAN;(h)Ours.

      表4 是不同模型在馬與斑馬以及蘋果與橘子轉(zhuǎn)換任務(wù)的KID 指標(biāo),表5 是不同模型在自拍與漫畫臉轉(zhuǎn)換任務(wù)的KID 指標(biāo),表6 是不同模型在馬與斑馬轉(zhuǎn)換任務(wù)上的FID 指標(biāo),其中,KID 與FID 的值越小,代表網(wǎng)絡(luò)生成的圖像與真實(shí)的圖像越相似,生成圖像質(zhì)量越高,即數(shù)值越小越好。由表4~6 可知,本文的模型在不同的轉(zhuǎn)換任務(wù)上都能取得最優(yōu)的KID 以及FID 參數(shù),即本文模型生成的圖像與真實(shí)的圖像最接近。

      表4 不同模型在不同任務(wù)上的KID×100±std. ×100 指標(biāo)Tab.4 KID×100±std. ×100 metrics for different models on different tasks

      表5 不同模型在自拍轉(zhuǎn)動(dòng)漫任務(wù)上的KID×100±std.×100指標(biāo)Tab.5 KID×100±std.×100 metrics for different models on selfie to anime task

      表6 不同模型在馬與斑馬轉(zhuǎn)換任務(wù)上的FID 指標(biāo)Tab.6 FID metrics for different models on horse to zebra task

      表7為基于注意力機(jī)制引導(dǎo)的各個(gè)模型的復(fù)雜度指標(biāo)。由表7可知,與文獻(xiàn)[14]相比,本文的網(wǎng)絡(luò)模型參數(shù)量降低近32.8%,訓(xùn)練速度快34.5%。

      表7 基于注意機(jī)制引導(dǎo)的不同模型復(fù)雜度分析Tab.7 Complexity analysis of different models guided by attention mechanism

      得益于本文所提出的注意力掩碼生成子模塊與內(nèi)容生成子模塊高度共享參數(shù)的生成器結(jié)構(gòu),本文的模型復(fù)雜度最小,占用硬件顯存資源最少,訓(xùn)練速度最快。

      4 結(jié) 論

      本文提出了一種新的用于無匹配圖像轉(zhuǎn)換任務(wù)的基于雙專用注意力機(jī)制引導(dǎo)的循環(huán)生成對(duì)抗網(wǎng)絡(luò)(Dual-SAG-CycleGAN)。生成器由端到端的、基于專用注意力機(jī)制引導(dǎo)的前背景掩碼圖生成子模塊和內(nèi)容圖生成子模塊所構(gòu)成,兩者高度共享權(quán)重參數(shù)。其中,前景、背景掩碼圖生成子模塊的組成僅需要在原有的內(nèi)容生成器結(jié)構(gòu)中添加一個(gè)額外的卷積層以及Softmax 激活函數(shù)。為了引導(dǎo)前背景掩碼生成子模塊生成更加精準(zhǔn)的掩碼圖以抑制生成器生成降低生成圖像質(zhì)量的無關(guān)背景內(nèi)容,我們提出了背景掩碼循環(huán)一致性損失函數(shù)并引入了基于CAM 專用注意力機(jī)制引導(dǎo)的判別器結(jié)構(gòu)。

      實(shí)驗(yàn)證明,本文結(jié)構(gòu)不僅能夠?qū)崿F(xiàn)自動(dòng)轉(zhuǎn)換圖像相關(guān)目標(biāo)前景的功能,并且擁有更短的訓(xùn)練時(shí)間、更低的硬件開銷、更好的生成圖像質(zhì)量。本文方法與現(xiàn)有同類模型相比,網(wǎng)絡(luò)模型參數(shù)量降低近32.8%,訓(xùn)練速度快34.5%,KID 與FID 最低分別可達(dá)1.13、57.54,擁有更高的成像質(zhì)量。

      但是,由于本文的基于CAM 專用注意力機(jī)制引導(dǎo)的判別器不能非常精確地關(guān)注到感興趣的區(qū)域,在某些復(fù)雜的場(chǎng)景上會(huì)以背景物作為判別依據(jù),所以會(huì)導(dǎo)致生成器生成虛假的幻紋,這也是限制生成圖像質(zhì)量進(jìn)一步提升的重要因素,所以,在后續(xù)的工作中,我們會(huì)重新設(shè)計(jì)一種新的判別器結(jié)構(gòu),設(shè)計(jì)一種識(shí)別能力更加精準(zhǔn)的注意力機(jī)制模塊來引導(dǎo)判別器,以提升判別器識(shí)別感興趣區(qū)域的能力,使得網(wǎng)絡(luò)生成圖像的質(zhì)量有更進(jìn)一步提升。

      猜你喜歡
      鑒別器掩碼斑馬
      基于多鑒別器生成對(duì)抗網(wǎng)絡(luò)的時(shí)間序列生成模型
      我是可愛的小斑馬
      童話世界(2020年17期)2020-07-25 02:18:32
      BirdsonZebras斑馬身上的鳥
      衛(wèi)星導(dǎo)航信號(hào)無模糊抗多徑碼相關(guān)參考波形設(shè)計(jì)技術(shù)*
      低面積復(fù)雜度AES低熵掩碼方案的研究
      你好,我是斑馬
      大灰狼(2018年8期)2018-09-03 18:45:42
      斑馬
      幼兒畫刊(2018年8期)2018-08-29 08:06:00
      基于布爾異或掩碼轉(zhuǎn)算術(shù)加法掩碼的安全設(shè)計(jì)*
      陣列天線DOA跟蹤環(huán)路鑒別器性能分析
      基于掩碼的區(qū)域增長相位解纏方法
      庆安县| 青州市| 平陆县| 平南县| 工布江达县| 长子县| 永城市| 鲁山县| 井冈山市| 保康县| 龙岩市| 三门峡市| 集贤县| 如皋市| 蒙城县| 竹溪县| 舒兰市| 大连市| 平乡县| 英超| 金塔县| 威海市| 军事| 徐闻县| 丰台区| 金昌市| 石门县| 本溪| 新兴县| 澜沧| 宁乡县| 文昌市| 中卫市| 醴陵市| 荥阳市| 祥云县| 河北省| 淮阳县| 葵青区| 汨罗市| 佳木斯市|