基于邊緣先驗的人臉去手勢遮擋修復方法研究

2023-08-01 12:20:01歐靜文志誠

現(xiàn)代信息科技 2023年11期

歐靜　文志誠

摘? 要：針對當下人臉去手勢遮擋任務中常出現(xiàn)的結構缺失和紋理模糊等問題，文章提出一種基于邊緣條件和注意力機制的兩階段修復網(wǎng)絡——EmmNet。第一階段網(wǎng)絡為第二階段細節(jié)修復提供邊緣指導信息，以避免出現(xiàn)過度平滑等問題。第二階段網(wǎng)絡中的并行多擴張卷積模塊可在有效擴大網(wǎng)絡感受野的同時提高對有效像素的利用率。此外，注意力模塊可促使網(wǎng)絡生成具有全局一致性，使研究者獲得符合原圖特征的修復圖像。實驗結果表明，EmmNet在去手勢遮擋任務中可以生成輪廓結構更加完整流暢，細節(jié)紋理更加清晰自然的人臉圖像。

關鍵詞：卷積神經(jīng)網(wǎng)絡；生成對抗網(wǎng)絡；人臉修復；注意力機制

中圖分類號：TP18；TP391.4 文獻標識碼：A 文章編號：2096-4706（2023）11-0097-05

Research on Face Removal and Removing Gesture Occlusion Restoration Method

Based on Edge Prior

OU Jing， WEN Zhicheng

（Hunan University of Technology， Zhuzhou? 412007， China）

Abstract： Aiming at the problems of lack of structure and blurred texture that often appear in the current face removing gesture occlusion task， this paper proposes a two-stage inpainting network based on edge conditions and attention mechanism—EmmNet. The one-stage network provides edge guidance information for the second-stage detail restoration to avoid problems such as over-smoothing. The parallel multi-expansion convolution module in the second-stage network can effectively expand the network receptive field and improve the utilization of effective pixels. In addition， the attention module can promote global consistency in network generation， enabling researchers to obtain repaired images that match the original image features. The experimental results show that EmmNet can generate a face image with a more complete and smooth outline structure and clear and natural detail texture in the removing gesture occlusion task.

Keywords： Convolutional Neural Network; Generative Adversarial Network; face restoration; attention mechanism

0? 引? 言

人臉圖像去遮擋及修復作為圖像修復領域的重要研究課題，具有廣闊的應用空間。在安保監(jiān)控領域，監(jiān)控圖像中的人臉信息因受帽子、口罩、手勢等遮擋物影響而造成人臉識別[1]失敗的情況屢見不鮮。通過人臉修復技術對被遮擋的人臉圖像進行恢復可以有效提高人臉識別系統(tǒng)在處理被遮擋人臉圖像時的準確率，因此，人臉修復結果更需要尊重原始圖像中人臉的五官特征、膚色發(fā)色以及皮膚生長狀態(tài)和紋理。這就要求所生成的人臉圖像要更加貼合原圖的五官結構和紋理特征，要盡可能地減少色彩誤差和紋理扭曲，提高生成結果的準確度。

為此，在圖像生成過程中如何引入必要的先驗知識或特定的假設，以幫助網(wǎng)絡生成完整合理的人臉面部結構信息成為亟需解決的問題之一。鑒于此，本文提出一種基于邊緣條件和注意力機制的人臉圖像修復方法——EmmNet。

整體而言，EmmNet是一個兩階段修復網(wǎng)絡，第一階段主要完成的任務是引入修補的邊緣圖像為修復任務提供先驗信息以避免結構缺失以及生成圖像過渡平滑的問題，第二階段則進行細節(jié)和紋理層面的修復。在網(wǎng)絡的設計中，我們在第二階段增加了門控卷積以減少修復過程中無效像素對特征提取的影響。與此同時，我們使用在不同擴張率下并行工作的多擴張卷積結構來代替?zhèn)鹘y(tǒng)的殘差卷積塊，這樣可以在有效擴大感受野的同時進一步提高網(wǎng)絡對有效像素的利用率。在判別器的選擇上，我們采用可在兩個尺度下同時工作的馬爾可夫判別器，該設計結構可以保證生成圖像結構的一致性，有利于實現(xiàn)穩(wěn)定訓練。

經(jīng)過試驗訓練，EmmNet在實現(xiàn)手勢遮擋方面取得了較好的效果，在PSNR、SSIM等指標上都取得了優(yōu)良的實驗結果，且在不規(guī)則遮擋實驗測試中也表現(xiàn)出優(yōu)秀的修復能力。

1? 近期相關工作

圖像修復方法一般分為基于傳統(tǒng)數(shù)學推理思想的方法和基于深度學習的方法。就修復原理而言，修復網(wǎng)絡需要充分挖掘和利用不完整圖像中顯式存在的像素信息從而進一步推理丟失的圖像內(nèi)容[2]。對于生成的圖像則要求語義連貫，結構完整且局部紋理信息清晰明確。傳統(tǒng)方法在大面積修復效果上具有較大的局限性且修復結構中往往存在明顯的結構缺失和紋理模糊等問題，因此，相較于傳統(tǒng)修復方法，編解碼器結構[3]和生成對抗網(wǎng)絡[4]的提出為圖像修復工作提供了全新的思路和方法。

一方面，深度學習方法中的各種編碼器—解碼器變體結構等建模方法可以在無監(jiān)督模式下通過對高維數(shù)據(jù)進行壓縮編碼來提取圖像中的有效特征信息，進而從海量數(shù)據(jù)庫語料中不斷學習以擬合訓練數(shù)據(jù)集中圖像數(shù)據(jù)在潛在空間中的真實分布。同時，憑借自身優(yōu)秀的“泛化”能力，這些網(wǎng)絡結構可以以此重構出與原始圖像具有相似特征分布的圖像數(shù)據(jù)。然而，基于自編碼器變體的方法本質上是一種可以生成新樣本的概率框架，但其生成的圖像結果往往較為模糊，質量較低。另一方面，基于生成對抗網(wǎng)絡思想而生的網(wǎng)絡變體結構設計一系列損失函數(shù)，采用對抗博弈的方式對生成器和鑒別器進行聯(lián)合訓練，使生成器可以改寫噪聲分布并使其可以無限接近于目標分布。

2? 提出方法

2.1? 網(wǎng)絡結構

如圖1所示，EmmNet網(wǎng)絡由兩階段組成，包括邊緣生成網(wǎng)絡和紋理生成網(wǎng)絡。兩個網(wǎng)絡生成器的兩層下采樣層及兩層上采樣層結構一致，邊緣生成網(wǎng)絡的特征提取部分由8個堆疊排放的殘差卷積塊組成，紋理生成網(wǎng)絡的特征提取部分則由8個多擴張卷積塊[5]和1個注意力模塊堆疊排列而成。注意力模塊可對經(jīng)過特征提取和推理的特征圖像進行進一步的特征匹配，促進生成圖像的全局一致性。在鑒別器的設計上，邊緣生成網(wǎng)絡的鑒別器選用傳統(tǒng)的譜歸一化馬爾可夫鑒別器。紋理生成網(wǎng)絡則由兩層鑒別器構成，第一層鑒別器在原圖尺寸上進行判定，第二層鑒別器則在下采樣后的輸出圖像上進行判定。多擴張卷積塊由四個并行工作擴張率分別為（1、2、4、8）的子內(nèi)核構成，四個子內(nèi)核的通過數(shù)均為64。隨后將來自四個子內(nèi)核的輸出特征在通道維度上進行拼接及特征融合，最后還需與門控值相乘，以此減輕mask中無效元素對特征提取過程的影響。值得注意的是，實驗在確定擴張率的組合值時發(fā)現(xiàn)擴張率別為（1、3、6、9）的擴張卷積在處理256×256的原始圖像時輸出效果略低于（1、2、4、8）。細節(jié)生成網(wǎng)絡的鑒別器由于在兩個尺度的輸出圖像中進行判定并傳遞損失值，因此可將其看作一個多任務學習過程，可由式（1）來表示：

2.2? 注意力模塊

在細節(jié)紋理生成網(wǎng)絡中具有多種擴張率融合的局部卷積核逐層處理圖像特征，雖然可以在一定程度上擴大局部空間的感受野，但是對于從較遠空間位置借用特征仍存在局限性。因此引入了注意力機制，在網(wǎng)絡特征提取后引入一個新的上下文注意層對經(jīng)過修復的特征圖譜進行注意力計算，使之能夠利用全局信息進一步幫助解碼器結構提高圖像的視覺質量，特別是在進行大結構和長距離紋理模式圖像計算時，效果尤為明顯。注意力的計算原理為從已知的背景圖塊中找尋與當前位置關聯(lián)度較高的圖像特征信息以幫助生成缺失面片。并使用歸一化內(nèi)積（即余弦相似度）來度量二者（可表示為Fi和Fj）之間的相似關系，假設? 表示以（ix， iy）和（jx， jy）為中心的特征塊相似性，用于計算二者之間的親和度。隨后通過矩陣乘法計算F的加權平均形式為。最后，將F和? 進行拼接并應用1×1卷積層保持F的原始通道數(shù)。計算過程如式（2）所示：

經(jīng)實驗驗證，該注意力層可以放置在任何一層特征圖輸出層之后并對其進行匹配。然而，注意力計算量與輸入特征圖的尺寸關系密切且對GPU顯存占用較大，因此本文只在編碼器和特征提取的最后階段使用注意力模塊進行處理，該層的特征輸出大小為64×64。我們在試驗中也嘗試在各解碼層后對輸出進行特征提取，但均發(fā)生GPU顯存溢出的現(xiàn)象。

2.3? 損失函數(shù)設置

EmmNet網(wǎng)絡中邊緣網(wǎng)絡的聯(lián)合損失函數(shù)由平均絕對誤差、特征匹配損失及對抗損失組成，如式（3）所示。紋理生成網(wǎng)絡的聯(lián)合損失函數(shù)則由平均絕對誤差、風格損失、感知損失及對抗重建損失構成，如式（4）所示，其中λx表示損失函數(shù)對應的權重超參數(shù)。

其中，特征匹配損失通過對比修復結果的特征圖與原圖特征圖之間的差異返回損失值，以此提升邊緣生成的準確度。感知損失的作用原理是對于生成的圖像不僅要關注像素層級上的重建效果，更要立足于圖像的高層語義特征。風格損失函數(shù)計算生成圖像和原圖二者在預訓練網(wǎng)絡中第i層特征圖譜對應的風格矩陣間（Gram矩陣）的l1距離，并以此為依據(jù)約束生成圖像的風格特征使之獲得向原圖靠近的效果。聯(lián)合損失函數(shù)的設計既保證了生成內(nèi)容的像素級精度，也在結構語義層級上給予約束。經(jīng)過實驗驗證，超參數(shù)設置為λadv= 0.1，λfm = 10，λl1 = 1，λperc = 0.1，λstyle = 250。

3? 實驗設置

為了更有針對性地處理人臉去手勢遮擋任務，我們在訓練時采用了由Voo等人[6]提出的手勢遮擋合成方法，用于生成符合日常生活場景下的手勢遮擋效果。CelebA-HQ[7]數(shù)據(jù)集中包含3×104張高清人臉圖像，也是實驗訓練中主要使用的人臉數(shù)據(jù)，11K Hands數(shù)據(jù)集由Afifi等人[8]提出，其中包含11 076張取自不同性別、不同年齡采集者的正反面手部照片，該數(shù)據(jù)集也是本文實驗中的主要遮擋來源。在測試網(wǎng)絡性能時我們進一步采用了由Liu等人[9]貢獻的不規(guī)則掩碼數(shù)據(jù)集。該數(shù)據(jù)集中包含1.2×104張不規(guī)則掩碼圖像，其掩碼區(qū)域占比從10%擴大到60%，以10%的增量遞增。

為了實現(xiàn)數(shù)據(jù)增強，所有圖像在進入網(wǎng)絡參與訓練前在垂直或水平方向進行隨機翻轉。本文實驗均在大小為256×256的圖像上進行。硬件設施為一塊RTX 3090顯卡及12核CPU，實驗環(huán)境為Ubuntu操作系統(tǒng)，Python 3.8.10，搭配PyTorch 1.8.1深度學習框架及11.7版本CUDA。網(wǎng)絡初始訓練學習率為10-4趨于收斂后調整為10-5，批處理大小為4，Adam優(yōu)化動量分別設置為0和0.9。

4? 結果與分析

4.1? 定量分析

為了更加公平地評價對比網(wǎng)絡與本文網(wǎng)絡的修復性能，我們采用普及面最廣的PSNR（峰值信噪比）、SSIM（結構相似性指數(shù)）、L1誤差以及LPIPS（圖像感知相似度）對各網(wǎng)絡的生成結果進行測試。測試圖像尺寸均為256×256，為了保證測試的公平性，實驗使用在Celeba_HQ測試集中隨機抽樣的1 000張圖片在手勢遮擋的情況下進行修復測試，且對不同的算法在測試時均使用相同的圖像掩碼對，最后對修復結果評價指標取平均值進行比較。

實驗將EdgeConnect[10]、上下文注意力[11]（CA）和本文算法EmmNet進行對比測試。同時，為了驗證本文方法中各環(huán)節(jié)的有效性提出對比實驗：A組（EdgeConnect + 多擴張卷積結構）；B組（EdgeConnect + Attention結構）。本章將就以上五種修復網(wǎng)絡各自的輸出結果進行定量和定性分析比較，評價結果如表1所示。

從表1中可以看出，EmmNet網(wǎng)絡及其兩個對照組實驗結果在四個評價指標上都獲得了較好的數(shù)值結果。具體而言，與原網(wǎng)絡模型相比，EmmNet在結構相似度指標上提高了5‰，在峰值信噪比指標上提高了0.57，且其圖像感知相似度和L1誤差指標均有所降低，這說明網(wǎng)絡在去手勢遮擋修復中的生成內(nèi)容更符合人類視覺感知，且與原圖更加接近，失真更少，精度更高。通過觀察對照組實驗指標可以發(fā)現(xiàn)，相較于原模型，A組（Edge+GM）在PSNR指標上增加了0.45，B組（Edge+Att）在PSNR指標上增加了0.40。在SSIM指標上A組和B組均有所增加，說明多擴張卷積塊與注意力結構可以幫助提高整體網(wǎng)絡的生成性能。

為了更近一步探索EmmNet在不規(guī)則遮擋方面的表現(xiàn)力，我們將其與原EdgeConnect和兩組對照模型在5組不規(guī)則遮擋圖像中進行測試，五組掩膜的遮擋面積占比以10%～50%遞增。測試數(shù)據(jù)如表2所示，測試結果如圖2、圖3所示。與EdgeConnect相比，當缺損面積在0%～10%之間時參數(shù)增量最大，達到4.2，這說明多擴張率的卷積結構在關注較遠上下文的同時還可以關注到局部的修復效果。當缺損比達到50%時，PSNR值分別增加2.35和0.55。LPIPS值縮小0.621，進一步說明模型在擴大感受野以獲取相似結構以及生成更符合人類視覺特征的紋理信息上具有明顯的優(yōu)勢。

4.2? 定性分析

圖2中列舉了包含原Edgeconnect修復網(wǎng)絡、上下文注意力網(wǎng)絡、本文提出方法以及兩項對照組實驗的部分修復結果，圖中紅框標識位置為重點對比區(qū)域。從圖中第一行對比結果中可以看出，即使輸入圖像中已經(jīng)缺失完整的眼、鼻、唇結構，EmmNet依舊可以對其進行修復，且相比較而言，唇、鼻輪廓完整清晰，眼部結構也十分貼合原圖特征，整體效果流暢自然。從圖中第二三行對比結果中可以看出，修復后的圖片雖然與原圖特征略有不同，但眼部結構及細節(jié)真實自然，難以發(fā)現(xiàn)修復痕跡。圖中第四行展示了網(wǎng)絡對面部輪廓的修復效果，EmmNet的輪廓過度更加自然且沒有出現(xiàn)模糊的現(xiàn)象。相較而言，上下文注意力修復會引入明顯的偽影和略顯突兀的紋理信息。原EdgeConnect網(wǎng)絡由于受邊緣輸出的限制會出現(xiàn)結構缺失和弱化的現(xiàn)象，而經(jīng)過改進的EmmNet網(wǎng)絡則完美地結合了二者的優(yōu)勢，生成的面部圖像結構更加完整合理，細節(jié)紋理也更為清晰，符合人類的視覺感知。

5? 結? 論

本文針對人臉去手勢遮擋任務提出一種基于邊緣條件和注意力機制的兩階段修復網(wǎng)絡——EmmNet。由于人臉圖像具有鮮明的結構特征，因此加深對其結構的把握可以有效提升圖像的修復效果。針對這一特征我們采用邊緣這一輔助的預測信息指導修復過程，促進網(wǎng)絡對人臉五官結構的重塑。為了加強對有效像素的利用，網(wǎng)絡放棄了直接堆疊的單擴張率空洞卷積而采用具有不同擴張率的卷積并行結構，以此提高對真實像素點的利用率。此外，注意力模塊的使用也可以幫助缺失區(qū)域匹配相似的信息，提高圖像的全局和局部一致性。

參考文獻：

[1] 劉曉磊.基于生成對抗網(wǎng)絡的口罩遮擋人臉修復與識別的研究 [D].成都：電子科技大學，2022.

[2] 羅海銀，鄭鈺輝.圖像修復方法研究綜述 [J].計算機科學與探索，2022，16（10）：2193-2218.

[3] RUMELHART D E，HINTON G E，WILLIAMS R J. Learning internal representations by error propagation [EB/OL].[2023-03-12].https：//dl.acm.org/doi/10.5555/65669.104449.

[4] GOODFELLOW I J，POUGET-ABADIE J，MIRZA M，et al. Generative adversarial nets [J/OL].arXiv：1406.2661v1 [stat.ML].[2023-03-15].https：//arxiv.org/pdf/1406.2661v1.pdf.

[5] ZENG Y，F(xiàn)U J，CHAO H，et al. Aggregated contextual transformations for high-resolution image inpainting [J/OL].arXiv：2104.01431 [cs.CV].[2023-03-05].https：//arxiv.org/abs/2104.01431.

[6] VOO K T R，JIANG L M，LOY C C. Delving into high-quality synthetic face occlusion segmentation datasets [C]//2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops （CVPRW）. New Orleans：IEEE，2022：4711-4720.

[7] LEE C H，LIU Z W，WU L Y，et al. Maskgan： Towards diverse and interactive facial image manipulation [EB/OL].[2023-02-25].https：//www.zhangqiaokeyan.com/academic-conference-foreign_meeting_thesis/020515722406.html.

[8] AFIFI M. 11K Hands： Gender recognition and biometric identification using a large dataset of hand images [J].Multimedia Tools and Applications，2019，78（15）：20835-20854.

[9] LIU G，REDA F A，SHIH K J，et al. Image inpainting for irregular holes using partial convolutions [EB/OL].[2023-02-29].https：//openaccess.thecvf.com/content_ECCV_2018/html/Guilin_Liu_Image_Inpainting_for_ECCV_2018_paper.html.

[10] NAZERI K，NG E，JOSEPH T，et al. EdgeConnect： generative image inpainting with adversarial edge learning [J/OL].arXiv：1901.00212 [cs.CV].[2023-02-14].https：//arxiv.org/abs/1901.00212.

[11] YU J H，LIN Z，YANG J M，et al. Generative image inpainting with contextual attention [C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City：IEEE，2018：5505-5514.

作者簡介：歐靜（1997—），女，漢族，陜西漢中人，碩士研究生在讀，研究方向：計算機視覺、圖像生成與分析；通訊作者：文志誠（1972—），男，漢族，湖南東安人，教授，碩士研究生導師，博士研究生，研究方向：計算機視覺、數(shù)字圖像處理、模式識別。

收稿日期：2023-04-07