• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      人臉超分辨率網(wǎng)絡(luò)(FSRNet)的改進(jìn)

      2021-07-03 10:50:00段燕飛王瑞祥咬登國(guó)
      關(guān)鍵詞:熱圖低分辨率先驗(yàn)

      段燕飛 王瑞祥 咬登國(guó) 張 航

      (成都信息工程大學(xué) 軟件工程學(xué)院, 成都 610225)

      從觀測(cè)到的低分辨率圖像重建出相應(yīng)的高分辨率圖像,這是在人臉圖像識(shí)別過程中需要解決的一個(gè)基本問題。超分辨率(SR)技術(shù)對(duì)于大多數(shù)與面部相關(guān)的應(yīng)用來說是非常重要的。單圖像超分辨率方法[1]依賴于圖像空間中的像素級(jí)均方誤差(MSE)損失,可將輸出像素級(jí)推向更接近真實(shí)的高分辨率(HR)圖像。但采用這樣的方法往往會(huì)產(chǎn)生模糊和平滑的輸出,缺少一些紋理細(xì)節(jié)。作為普通圖像SR的特殊情況,面部圖像中存在特定于面部的先驗(yàn)知識(shí),這對(duì)于面部SR是關(guān)鍵的,而對(duì)于普通圖像SR則不可用[2]。如面部對(duì)應(yīng)字段可以幫助恢復(fù)準(zhǔn)確的面部形狀[3],而面部成分則可以顯示豐富的面部細(xì)節(jié)[4]。

      人臉超分辨網(wǎng)絡(luò)(FSRNet)由粗糙和精細(xì)SR網(wǎng)絡(luò)構(gòu)成,有4個(gè)模塊。通過分析FSRNet各模塊的作用,發(fā)現(xiàn)最后輸出的SR圖像在各項(xiàng)硬指標(biāo)和視覺質(zhì)量上存在不足,原因在于粗糙SR網(wǎng)絡(luò)模塊和損失函數(shù)設(shè)計(jì)上還有欠缺。FSRNet方法過度集中在面部標(biāo)志的定位上,沒有充分考慮標(biāo)志周圍區(qū)域的面部屬性。我們針對(duì)這兩個(gè)部分的問題,對(duì)FSRNet進(jìn)行了改進(jìn):首先,通過引入面部注意力損失,將注意力集中在預(yù)測(cè)目標(biāo)區(qū)域周圍的面部細(xì)節(jié)上;其次,鑒于FSRNet把插值后的低分辨率圖像輸入網(wǎng)絡(luò)而帶來了復(fù)雜的計(jì)算開銷問題,我們改為輸入低分辨率圖像,然后引用轉(zhuǎn)置卷積(Deconv)實(shí)現(xiàn)上采樣操作,以降低復(fù)雜度;其三,因粗糙SR網(wǎng)絡(luò)生成的SR圖像直接影響先驗(yàn)估計(jì)的準(zhǔn)確性,我們采用漸進(jìn)的訓(xùn)練方式,先單獨(dú)訓(xùn)練粗略SR網(wǎng)絡(luò),再訓(xùn)練剩余網(wǎng)絡(luò)部分;同時(shí),為了使粗糙SR網(wǎng)絡(luò)能輸出較高質(zhì)量的圖像,在兩步訓(xùn)練中都增加面部注意力損失和熱圖損失,并進(jìn)行對(duì)抗性損失訓(xùn)練。運(yùn)用文獻(xiàn)[5]提出的壓縮版人臉對(duì)齊網(wǎng)絡(luò)(FAN)來提取人臉關(guān)鍵點(diǎn)熱圖,用于監(jiān)督訓(xùn)練。

      1 FSRNet工作原理

      1.1 網(wǎng)絡(luò)結(jié)構(gòu)

      FSRNet的整體結(jié)構(gòu)如圖1所示,包括粗糙SR網(wǎng)絡(luò)(Coarse SR Network),精細(xì)SR編碼器(Fine SR Encoder),先驗(yàn)估計(jì)網(wǎng)絡(luò)(Prior Estimation Network)和精細(xì)SR解碼器(Fine SR Decoder)共4個(gè)模塊。用插值算法將尺寸為16×16×3低分辨率圖像放大至目標(biāo)圖像尺寸128×128×3后再輸入到網(wǎng)絡(luò)中,最后的輸出是其SR圖像。輸入圖像首先經(jīng)過粗糙SR網(wǎng)絡(luò),不改變圖像的尺寸,目的是預(yù)先快速生成一個(gè)粗略的SR圖像,這樣先驗(yàn)估計(jì)網(wǎng)絡(luò)才能提取到相對(duì)準(zhǔn)確的人臉關(guān)鍵點(diǎn)和解析圖。若沒有粗略的SR網(wǎng)絡(luò)模塊,先驗(yàn)估計(jì)網(wǎng)絡(luò)無法直接從低分辨率圖像中提取到有用的先驗(yàn)信息。經(jīng)過粗糙SR網(wǎng)絡(luò)輸出的粗略SR圖像,被送入先驗(yàn)估計(jì)網(wǎng)絡(luò)和精細(xì)SR編碼器。先驗(yàn)估計(jì)網(wǎng)絡(luò)的任務(wù)是預(yù)測(cè)人臉解析圖和關(guān)鍵點(diǎn)熱圖,并對(duì)輸入圖像進(jìn)行降采樣處理。殘差網(wǎng)絡(luò)(ResNet)已在SR中得到成功應(yīng)用,精細(xì)SR編碼器可利用殘差塊進(jìn)行特征提取,將特征下采樣為64×64像素。先驗(yàn)特征和圖像特征串聯(lián)起來作為精細(xì)SR解碼器的輸入,精細(xì)SR解碼器將特征上采樣到128×128像素,然后恢復(fù)最終的HR圖像。

      圖1 FSRNet網(wǎng)絡(luò)結(jié)構(gòu)

      1.2 目標(biāo)函數(shù)

      低分辨率的輸入圖像,可能對(duì)于先驗(yàn)的估計(jì)而言太模糊,因此首先構(gòu)建粗略的SR網(wǎng)絡(luò),以恢復(fù)粗略的SR圖像。以x表示低分辨率輸入圖像,y和p分別表示恢復(fù)的高分辨率圖像和FSRNet估計(jì)的先驗(yàn)信息。

      yc=C(x)

      (1)

      式中:C表示通過粗糙SR網(wǎng)絡(luò)從低分辨率(LR)圖像x到粗略SR圖像yc的映射。

      然后,將yc分別輸入至先驗(yàn)估計(jì)網(wǎng)絡(luò)P和精細(xì)SR編碼器F。

      p=P(yc),f=F(yc)

      (2)

      式中:f是由精細(xì)SR編碼器F提取的特征。

      在編碼之后,圖像特征f和先驗(yàn)信息p進(jìn)行Concat連接,輸入到SR解碼器D,恢復(fù)最終SR圖像。

      y=D(f,p)

      (3)

      (4)

      式中:Θ表示參數(shù)集;λ指先驗(yàn)損失的權(quán)重;y(i)和p(i)分別指第i個(gè)恢復(fù)的HR圖像和估計(jì)先驗(yàn)信息。

      2 對(duì)FSRNet的改進(jìn)

      2.1 粗糙SR網(wǎng)絡(luò)改進(jìn)

      FSRNet將放大后的低分辨率圖像輸入到網(wǎng)絡(luò)中,因輸入圖像尺寸較大,計(jì)算開銷就較大,假設(shè)圖像要放大n倍,計(jì)算復(fù)雜度則上升到了n2。我們減小輸入圖像的尺寸,直接輸入16×16像素的低分辨率圖像。在粗糙SR網(wǎng)絡(luò),最后采用轉(zhuǎn)置卷積(Deconv)把圖像尺寸放大為128×128×3。FSRNet在粗糙SR網(wǎng)絡(luò)中使用了3個(gè)殘差塊來提取特征,這里對(duì)此不做改變。然后,在最后增加一個(gè)轉(zhuǎn)置卷積層放大圖像。改進(jìn)后的粗糙SR網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。

      圖2 改進(jìn)后的粗糙SR網(wǎng)絡(luò)結(jié)構(gòu)

      2.2 兩步訓(xùn)練法

      FSRNet是端到端的訓(xùn)練,這樣可降低訓(xùn)練的復(fù)雜度,但粗糙SR網(wǎng)絡(luò)訓(xùn)練的結(jié)果卻并不好,得到的粗略SR圖像質(zhì)量差,面部結(jié)構(gòu)并不清晰,存在偽影。因此,我們提出兩步訓(xùn)練法:先單獨(dú)對(duì)粗糙SR網(wǎng)絡(luò)進(jìn)行訓(xùn)練,然后再訓(xùn)練剩余網(wǎng)絡(luò)部分。按照此方法,可以對(duì)人臉關(guān)鍵點(diǎn)區(qū)域施加強(qiáng)約束,更精確地還原面部細(xì)節(jié)。為了讓改進(jìn)后的網(wǎng)絡(luò)擁有更好的性能,我們采用漸進(jìn)式訓(xùn)練法[6-9],并且加入對(duì)抗損失訓(xùn)練,以生成更加逼真的面部細(xì)節(jié)。為了獲得面部注意力損失信息,采用文獻(xiàn)[5]提供的面部對(duì)準(zhǔn)網(wǎng)絡(luò)(FAN)提取熱圖。

      改進(jìn)后的網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示,它由生成器網(wǎng)絡(luò)(人臉SR網(wǎng)絡(luò))和鑒別器網(wǎng)絡(luò)組成。生成器網(wǎng)絡(luò)中,除了粗糙SR網(wǎng)絡(luò)模塊,其余部分基本和FSRNet一致。鑒別器網(wǎng)絡(luò)由卷積層(Conv)、平均池化層(AvgPool)和Leaky ReLU激活函數(shù)組成。

      圖3 改進(jìn)后的網(wǎng)絡(luò)結(jié)構(gòu)

      第一步,對(duì)粗糙SR網(wǎng)絡(luò)進(jìn)行訓(xùn)練,并學(xué)習(xí)將圖像放大4倍。來自生成器的這些4倍放大圖像,經(jīng)過一個(gè)卷積層后送入鑒別器相應(yīng)部分。最后,將輸出圖像與目標(biāo)圖像進(jìn)行比較。

      第二步,將第一步的輸出圖像送入剩余的網(wǎng)絡(luò)部分,進(jìn)行最終的SR訓(xùn)練。最后的SR輸出送入鑒別器,與相應(yīng)的目標(biāo)圖像進(jìn)行比較。

      2.3 目標(biāo)函數(shù)構(gòu)建

      為了生成面部關(guān)鍵區(qū)域的熱圖,采用人臉對(duì)齊網(wǎng)絡(luò)(FAN)提取人臉熱圖,進(jìn)行監(jiān)督訓(xùn)練。

      2.3.1 面部注意力損失

      在訓(xùn)練階段,引入面部注意力損失,以便更好地恢復(fù)面部標(biāo)志相鄰區(qū)域的屬性。把包含關(guān)鍵點(diǎn)位置信息的關(guān)鍵點(diǎn)注意力熱圖M*和放大圖像與目標(biāo)圖像之間的距離逐元素相乘,使面部SR網(wǎng)絡(luò)把注意力集中在面部關(guān)鍵區(qū)域周圍的面部細(xì)節(jié)上。面部注意力損失定義為:

      (5)

      式中:Lattention指面部注意力損失;G代表生成器,即人臉SR網(wǎng)絡(luò);IHR是真實(shí)的高分辨率圖像,ILR是超分辨率生成的圖像。

      在第一步訓(xùn)練時(shí),G表示為粗糙SR網(wǎng)絡(luò)G1;第二步訓(xùn)練時(shí),G代表除C之外的其余網(wǎng)絡(luò)G2。HR和LR分別指目標(biāo)人臉圖像和輸入的圖像。關(guān)鍵點(diǎn)注意力熱圖M*是從目標(biāo)面部圖像生成的目標(biāo)熱圖M的各個(gè)通道最大值。為了補(bǔ)償界標(biāo)之間的差異,熱圖M歸一化為[0,1]。熱圖M的尺寸為N×W×H。其中,N指關(guān)鍵點(diǎn)的數(shù)量。在無特別說明時(shí),W和H是指圖像的寬度和高度,均為128像素。為了使注意力集中在具有足夠信息的圖像上,在兩步訓(xùn)練中均加入面部注意力損失。

      2.3.2 MSE損失

      使用逐像素均方誤差(MSE)損失,最小化HR和SR圖像之間的距離。

      (6)

      式中:Lpixel指均方誤差損失。

      2.3.3 先驗(yàn)損失

      先驗(yàn)估計(jì)網(wǎng)絡(luò)P負(fù)責(zé)預(yù)測(cè)人臉先驗(yàn)信息,通過最小化生成的人臉先驗(yàn)信息和數(shù)據(jù)集提供的目標(biāo)人臉先驗(yàn)信息之間的距離,為SR網(wǎng)絡(luò)提供特定于人臉結(jié)構(gòu)的先驗(yàn)信息。先驗(yàn)損失定義為:

      (7)

      式中:Lprior指先驗(yàn)損失;網(wǎng)絡(luò)P的輸出是經(jīng)過降采樣的,所以W和H均為64像素;ILR是粗糙SR網(wǎng)絡(luò)輸出的圖像,IHR是真實(shí)高分辨率圖像。

      2.3.4 感知損失

      使用預(yù)訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò)VGG16的高級(jí)特征(即relu5_3層的特征),引入感知損失[10],可以防止生成模糊和不真實(shí)的面部圖像,并獲得更逼真的HR圖像。

      φ(G(ILR))(x,y))2

      (8)

      式中:Lpercepual指感知損失;φ指提取高級(jí)特征的VGG16網(wǎng)絡(luò)。

      2.3.5 對(duì)抗性損失

      生成對(duì)抗網(wǎng)絡(luò)(GAN)在超分辨率方面表現(xiàn)出了強(qiáng)大的力量。與基于MSE的深度模型相比,GAN在生成任務(wù)方面取得了成功,并被證明可以有效地恢復(fù)高保真和具有逼真視覺效果的圖像。其關(guān)鍵思想是:使用判別網(wǎng)絡(luò)區(qū)分超分辨圖像和真實(shí)高分辨率圖像,并訓(xùn)練SR網(wǎng)絡(luò)欺騙辨別器。

      為了生成逼真的高分辨率人臉圖像,我們引入對(duì)抗損失來生成逼真的面部圖像。建立一個(gè)鑒別器D,運(yùn)用WGAN的成功經(jīng)驗(yàn)來穩(wěn)定訓(xùn)練過程。在WGAN中,損失函數(shù)定義為目標(biāo)IHR~Pr分布與生成的圖像ISR~Pg分布之間的Wasserstein距離[11]。為了進(jìn)一步提高訓(xùn)練的穩(wěn)定性,我們采用WGAN-GP中提出的Gradient Penalty項(xiàng)[12],強(qiáng)制了鑒別器的Lipschitz - 1條件。因此,損失函數(shù)的表達(dá)式為:

      LWGAN=EIHR∶Pr[D(IHR)]-EISR∶Pg[D(ISR)]+

      (9)

      2.3.6 熱圖損失

      通過最小化生成圖像和目標(biāo)圖像的熱圖之間的距離,改善面部圖像的結(jié)構(gòu)一致性[13]。熱圖損失函數(shù)描述如下:

      Fd(G(ILR))(x,y))2

      (10)

      式中:Lheatmap指熱圖損失;N是關(guān)鍵點(diǎn)的數(shù)量;Fd指預(yù)訓(xùn)練的熱圖提取網(wǎng)絡(luò),即人臉對(duì)齊網(wǎng)絡(luò)(FAN)。

      訓(xùn)練分2步進(jìn)行:第一步訓(xùn)練粗略SR網(wǎng)絡(luò),第二步訓(xùn)練剩余網(wǎng)絡(luò)部分。具體的訓(xùn)練損失表示如下:

      Lstep1=αLpixel+βLperceptual+γLWGAN+

      λLheatmap+ηLattention

      (11)

      Lstep2=αLpixel+βLperceptual+γLWGAN+

      λLheatmap+ηLattention+εLprior

      (12)

      式中:Lstep1是第一步訓(xùn)練的損失函數(shù);Lstep2是第二步訓(xùn)練的損失函數(shù);α、β、γ、ε、λ、η是權(quán)重。

      3 實(shí)驗(yàn)及結(jié)果分析

      3.1 實(shí)驗(yàn)準(zhǔn)備

      選擇數(shù)據(jù)集CelebAMask-HQ[14]進(jìn)行實(shí)驗(yàn),這是一個(gè)大規(guī)模的面部圖像數(shù)據(jù)集。從中選擇30 000張高分辨率面部圖像,每個(gè)圖像具有對(duì)應(yīng)于CelebA的面部屬性的分割蒙版。圖像尺寸調(diào)整為512×512像素,手動(dòng)標(biāo)注為19類,包括面部所有組件,如皮膚、鼻子、眼睛、眉毛、耳朵、嘴巴、嘴唇、頭發(fā)、帽子、眼鏡、耳環(huán)、項(xiàng)鏈、脖子和衣服。我們剪裁圖像的面部區(qū)域,將其尺寸調(diào)整為128×128像素,作為目標(biāo)圖像,并進(jìn)行雙線性下采樣到16×16像素,作為L(zhǎng)R輸入。用29 000張圖像來進(jìn)行訓(xùn)練,將剩下的 1 000張圖像用來對(duì)照評(píng)估。

      直接輸入下采樣的16×16像素的低分辨率圖像,經(jīng)過粗糙SR網(wǎng)絡(luò)后的輸出就與高分辨率圖像尺寸相同。采用PyTorch框架來實(shí)現(xiàn)SR網(wǎng)絡(luò),使用Adam優(yōu)化器以2.5×10-4的學(xué)習(xí)率和16的批量大小來訓(xùn)練網(wǎng)絡(luò)。

      3.2 消融研究

      3.2.1 損失函數(shù)的影響

      為了驗(yàn)證引入的面部注意力損失、熱圖損失和感知損失的有效性,做了3個(gè)實(shí)驗(yàn)來進(jìn)行消融研究。以平均峰值信噪比(PSNR)和結(jié)構(gòu)相似性(SSIM)來評(píng)估各個(gè)損失的影響。

      表1中的數(shù)據(jù),顯示了引入不同損失在數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果。第一次實(shí)驗(yàn),是只有像素?fù)p失和感知損失并進(jìn)行對(duì)抗性訓(xùn)練的結(jié)果;第二次實(shí)驗(yàn),加入了熱圖損失;第三次實(shí)驗(yàn),引入了面部注意力損失??梢钥吹?,在加入面部注意力損失和熱圖損失后,PSNR和SSIM值都有明顯上升,說明改進(jìn)后的方法生成的SR圖像質(zhì)量更高。

      表1 消融研究的PSNR和SSIM值

      3.2.2 粗糙SR網(wǎng)絡(luò)的影響

      為了驗(yàn)證改進(jìn)后的粗糙SR網(wǎng)絡(luò)的性能,將粗糙SR網(wǎng)絡(luò)改進(jìn)后的實(shí)驗(yàn)結(jié)果與原FSRNet的實(shí)驗(yàn)結(jié)果進(jìn)行對(duì)比。我們輸入的低分辨率圖像像素是16×16,原FSRNet的則是128×128,所以粗糙SR網(wǎng)絡(luò)改進(jìn)后的計(jì)算復(fù)雜度較之前降低了42倍。實(shí)驗(yàn)結(jié)果顯示,在粗糙SR網(wǎng)絡(luò)改進(jìn)前,PSNR和SSIM值分別為24.16、0.667;在粗糙SR網(wǎng)絡(luò)改進(jìn)后,PSNR和SSIM值分別上升為24.92、0.702。這說明改進(jìn)后的粗糙SR網(wǎng)絡(luò)性能,優(yōu)于改進(jìn)前的性能。

      3.3 不同方法的測(cè)試結(jié)果

      運(yùn)用不同的人臉超分辨率方法,在CelebAMask-HQ數(shù)據(jù)集上進(jìn)行測(cè)試。實(shí)驗(yàn)結(jié)果顯示,按PSNR和SSIM指標(biāo)來評(píng)價(jià),我們改進(jìn)后的方法(Ours)都具有一定的優(yōu)勢(shì)(見表2)。原FSRNet生成的SR圖像,存在偽影和部分模糊的面部成分;采用我們改進(jìn)后的方法,能夠恢復(fù)精確面部特征,具有更逼真的面部視覺效果(見圖4)。

      表2 不同方法的PSNR和SSIM值

      圖4 不同方法下生成的SR圖像對(duì)比

      4 結(jié) 語

      我們改進(jìn)后的人臉超分辨率網(wǎng)絡(luò),保留了原有的先驗(yàn)估計(jì)網(wǎng)絡(luò),將其用于為精細(xì)SR網(wǎng)絡(luò)提供人臉先驗(yàn)信息,以生成更逼真的面部細(xì)節(jié)。通過改進(jìn)粗糙SR網(wǎng)絡(luò),減小輸入分辨率,在網(wǎng)絡(luò)最后放大圖像,降低了計(jì)算復(fù)雜度;通過加入面部注意力損失、熱圖損失和對(duì)抗性損失訓(xùn)練,提升了網(wǎng)絡(luò)性能。實(shí)驗(yàn)結(jié)果證明,這種改進(jìn)有助于生成更加逼真的粗略SR圖像,使先驗(yàn)估計(jì)網(wǎng)絡(luò)能預(yù)測(cè)更準(zhǔn)確的先驗(yàn)信息。采用兩步訓(xùn)練法:先單獨(dú)訓(xùn)練粗糙的SR網(wǎng)絡(luò),得到更好的SR圖像;然后再訓(xùn)練剩余部分,從而生成精細(xì)的SR圖像。運(yùn)用改進(jìn)的方法,可以生成面部細(xì)節(jié)更加清晰的高質(zhì)量人臉圖像。

      猜你喜歡
      熱圖低分辨率先驗(yàn)
      基于全局和局部特征集成的低分辨率人臉識(shí)別方法
      紅外熱成像中低分辨率行人小目標(biāo)檢測(cè)方法
      基于偏移學(xué)習(xí)的低分辨率人體姿態(tài)估計(jì)
      基于無噪圖像塊先驗(yàn)的MRI低秩分解去噪算法研究
      樹木的低分辨率三維模型資源創(chuàng)建實(shí)踐
      基于自適應(yīng)塊組割先驗(yàn)的噪聲圖像超分辨率重建
      熱圖
      攝影之友(2016年12期)2017-02-27 14:13:20
      熱圖
      每月熱圖
      攝影之友(2016年8期)2016-05-14 11:30:04
      熱圖
      家庭百事通(2016年3期)2016-03-14 08:07:17
      东丰县| 汨罗市| 堆龙德庆县| 博兴县| 鄂伦春自治旗| 克拉玛依市| 元阳县| 望谟县| 大同市| 沁阳市| 荣昌县| 沧州市| 沽源县| 克山县| 陆川县| 中卫市| 华亭县| 乌兰察布市| 伊金霍洛旗| 南昌县| 海丰县| 霍邱县| 通化县| 台南县| 寿阳县| 平江县| 郑州市| 天长市| 伊宁市| 精河县| 隆安县| 威信县| 咸阳市| 临安市| 易门县| 齐河县| 循化| 荔波县| 汤原县| 阿荣旗| 资中县|