歐靜 文志誠
摘? 要:針對當(dāng)下大面積人臉圖像修復(fù)過程中廣泛存在的色彩差異及生成內(nèi)容丟失主要面部辨識特征等問題,文章提出一種端到端的三分支修復(fù)網(wǎng)絡(luò)結(jié)構(gòu)——TreeNet。單階段的生成網(wǎng)絡(luò)結(jié)構(gòu)簡單清晰且參數(shù)量較少,其中,逐像素濾波操作有益于減少色彩誤差,促進(jìn)生成圖像的細(xì)節(jié)表達(dá),記憶轉(zhuǎn)化模塊促使網(wǎng)絡(luò)在結(jié)構(gòu)記憶存儲器中搜尋相關(guān)結(jié)構(gòu)信息以重建缺失紋理信息。測試結(jié)果表明,TreeNet可以生成五官結(jié)構(gòu)更加清晰自然、細(xì)節(jié)色彩更加逼近原圖的人臉信息。
關(guān)鍵詞:深度學(xué)習(xí);生成對抗網(wǎng)絡(luò);人臉修復(fù);像素濾波
中圖分類號:TP391.4? 文獻(xiàn)標(biāo)識碼:A? 文章編號:2096-4706(2023)09-0094-05
Abstract: To solve the problems of color difference and loss of main facial recognition features in the process of large-scale face inpainting, this paper proposes an end-to-end three branch repair network structure TreeNet. The single stage generation network has a simple and clear structure with fewer parameters. Among them, pixel by pixel filtering operation is beneficial for reducing color errors and promoting the detailed expression of generated images. The memory conversion module enables the network to search for relevant structural information in the structural memory storage to reconstruct missing texture information. The test results show that TreeNet can generate facial information with clearer and more natural facial features and more detailed colors that approximate the original image.
Keywords: deep learning; generative adversarial network; face restoration; pixel filtering
0? 引? 言
人臉圖像去遮擋及修復(fù)是圖像修復(fù)領(lǐng)域的重要研究課題,而今,在實(shí)際應(yīng)用場景中,人臉圖像修復(fù)常被用于消除因人為遮擋(口罩、帽子、手勢遮擋等)和損毀造成的人臉識別失敗等情況。因此,人臉修復(fù)方法始終面臨兩大挑戰(zhàn):一是如何生成準(zhǔn)確度更高,更貼合原文的圖像結(jié)構(gòu);二是在待處理圖像丟失主要面部結(jié)構(gòu)信息時,如何使網(wǎng)絡(luò)對圖像的處理更具有針對性。
針對以上問題本文提出一種新的網(wǎng)絡(luò)結(jié)構(gòu)——TreeNet,即基于多級交互濾波思想的多尺度特征融合神經(jīng)網(wǎng)絡(luò)。TreeNet擯棄了繁復(fù)冗余的多階段深度神經(jīng)生成網(wǎng)絡(luò),試圖構(gòu)建一種單階段可實(shí)現(xiàn)端到端訓(xùn)練和生成的圖像修復(fù)網(wǎng)絡(luò)。因此我們遵循傳統(tǒng)的對抗生成網(wǎng)絡(luò)結(jié)構(gòu)思想,并在此基礎(chǔ)上引入濾波核處理思想[1]。其次,為應(yīng)對大面積連續(xù)缺失帶來的人臉面部結(jié)構(gòu)信息丟失的狀況,網(wǎng)絡(luò)增加了記憶力模塊分支。該分支使經(jīng)過特征提取后的特征圖譜在記憶存儲器中搜尋與之匹配度最高的圖像信息,從而提升網(wǎng)絡(luò)在生成人臉面部結(jié)構(gòu)信息時的合理性能力。
整體而言,TreeNet生成網(wǎng)絡(luò)是一個由三個重要的生成分支組成的端到端生成網(wǎng)絡(luò),三分支主要包括:1)主生成網(wǎng)絡(luò),其中包含用于融合不同尺度感受野的多擴(kuò)張卷積塊。2)用于生成適應(yīng)不同圖像狀態(tài)的濾波核預(yù)測網(wǎng)絡(luò)。3)用于完善大量結(jié)構(gòu)信息重建的記憶轉(zhuǎn)化模塊。為了進(jìn)一步激活該人臉圖像修復(fù)網(wǎng)絡(luò)對大面積連續(xù)缺損圖像的處理能力,試驗(yàn)中采用一種新的數(shù)據(jù)集處理方式,即使用CelebA-HQ人臉圖像[2]和11K Hands數(shù)據(jù)集[3]生成相對應(yīng)的手勢遮擋。經(jīng)過試驗(yàn)訓(xùn)練,TreeNet在實(shí)現(xiàn)手勢遮擋方面取得了最優(yōu)的效果,且具有訓(xùn)練便捷、收斂速度快等優(yōu)勢。
1? 近期相關(guān)工作
1.1? 傳統(tǒng)修復(fù)方法
現(xiàn)存的修復(fù)方法主要包括傳統(tǒng)修復(fù)方法和基于深度網(wǎng)絡(luò)的自我學(xué)習(xí)推理方法。前者以基于偏微分方程的數(shù)學(xué)推理為基本思想,Bertalmio等人[4]提出使有效像素按等光線方向逐步向缺損區(qū)域內(nèi)部延伸以計算得出目標(biāo)像素信息,同時,研究者也嘗試基于變分思想,采用曲率驅(qū)動擴(kuò)散等方式對算法進(jìn)行改進(jìn)。為合成大面積圖像信息,基于補(bǔ)丁匹配思想的修復(fù)方法通過提取圖像中與缺失像素相似像素周圍的局部擴(kuò)展紋理進(jìn)行填充,或通過外部數(shù)據(jù)驅(qū)動的方式經(jīng)過大量搜索計算匹配到相似的補(bǔ)丁進(jìn)行修補(bǔ)[5]。這種方式往往由于缺乏對圖像深層語義結(jié)構(gòu)的理解而產(chǎn)生重復(fù),形成不真實(shí)且不符合感官邏輯的像素內(nèi)容,尤其是在處理人臉圖像此類結(jié)構(gòu)明顯的數(shù)據(jù)時,其弊端更加明顯。
1.2? 基于深度神經(jīng)網(wǎng)絡(luò)的圖像修復(fù)方法
相較于傳統(tǒng)的修復(fù)方法,基于生成對抗網(wǎng)絡(luò)而生的變體結(jié)構(gòu)通過設(shè)計一系列損失函數(shù)對生成器和鑒別器采用min-max的方式進(jìn)行聯(lián)合訓(xùn)練,使生成器可以改寫噪聲分布并使其可以無限接近于目標(biāo)分布。因此基于生成對抗網(wǎng)絡(luò)的方法相較于編碼器而言可以生成更加清晰的圖像,該類方法也是當(dāng)下應(yīng)用范圍最廣的方法。Nazeri等人[6]提出EdgeConnect,意在使用邊緣信息指導(dǎo)圖像修復(fù);Ren等人[7]則提出利用結(jié)構(gòu)信息指導(dǎo)修復(fù)。除此之外,還有利用多種指導(dǎo)知識相互結(jié)合指導(dǎo)的變體網(wǎng)絡(luò)結(jié)構(gòu)。因此,此類網(wǎng)絡(luò)結(jié)構(gòu)多為二階段甚至三階段網(wǎng)絡(luò),存在網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜及參數(shù)量龐大且難以訓(xùn)練的特點(diǎn)。此外人們也嘗試使用各種注意力機(jī)制聚焦圖像中的重要特征信息,以促進(jìn)生成結(jié)果與原始信息間的結(jié)構(gòu)一致性,如Yu等人[8]提出的上下文注意力等,但在訓(xùn)練時對顯存的占用量較大,計算成本較高。
2? 提出方法
2.1? 網(wǎng)絡(luò)整體結(jié)構(gòu)
本文提出一種三分支的單階段修復(fù)網(wǎng)絡(luò)。整體網(wǎng)絡(luò)結(jié)構(gòu)由復(fù)合生成器G(·)和鑒別器G(·)組成,復(fù)合生成器中包括主信息生成分支G1(·)、濾波核預(yù)測分支Gkpn(·)以及一個結(jié)構(gòu)記憶轉(zhuǎn)化分支Gmem(·)。具體而言,主信息分支由一層圖像預(yù)處理層、兩層下采樣、八層序列排放的多擴(kuò)張卷積塊以及包含三層上采樣層的解碼器構(gòu)成。其中的多擴(kuò)張卷積塊由四個并行具有不同擴(kuò)張率的擴(kuò)張卷積組成,根據(jù)Zeng等人[9]的工作經(jīng)驗(yàn),其擴(kuò)張率分別設(shè)置為1、2、4、8時可以使卷積更好地聚合上下文變化進(jìn)而增強(qiáng)其對上下文的推理。濾波核預(yù)測分支Gkpn(·)與主生成分支中的特征信息相結(jié)合可以在語義級和像素層級上根據(jù)輸入的圖像信息生成適合的濾波核,使得圖像生成在細(xì)節(jié)上更加逼真,還原真實(shí)圖像情況的元素信息,同時還可以有效減少色彩誤差。記憶轉(zhuǎn)化分支Gmem(·)的主要任務(wù)是避免連續(xù)大面積結(jié)構(gòu)缺失情況的產(chǎn)生,記憶轉(zhuǎn)化分支中包括特征提取、逐像素記憶搜尋和推理以及結(jié)構(gòu)記憶存儲器。在鑒別器的設(shè)計上我們沿用了經(jīng)典的譜歸一化馬爾可夫判別器結(jié)構(gòu),判別器通過鑒別生成圖像中尺寸大小為70×70的圖像塊與真實(shí)圖像信息的接近程度來反饋參數(shù),進(jìn)一步促進(jìn)網(wǎng)絡(luò)訓(xùn)練,優(yōu)化內(nèi)部參數(shù)。整體網(wǎng)絡(luò)結(jié)構(gòu)流程圖如圖1所示。
2.2? 濾波核預(yù)測網(wǎng)絡(luò)
使用濾波核依次對圖像中的每一個像素進(jìn)行處理,原本常用于圖像去噪、去雨等退化修復(fù)型任務(wù)。其具體實(shí)現(xiàn)思想為,假設(shè)輸入的退化后失真圖像大小為H×W。由于現(xiàn)實(shí)中圖像的狀態(tài)和特征均不同,網(wǎng)絡(luò)在處理每一個像素時都有與之一一對應(yīng)的濾波核,因此,可設(shè)Kp為圖像I中坐標(biāo)為p的像素所對應(yīng)的濾波核。與此同時,所有像素對應(yīng)的濾波核集合可表示為:,K2表示濾波核大小。逐像素濾波操作過程如式(1)所示:
其中, 表示經(jīng)過濾波后圖像? 中的像素p,q是p的相鄰元素,t的取值范圍為? 到 。由式(1)可以看出,濾波修復(fù)思想可表述為通過建立目標(biāo)像素與鄰近像素之間的線性關(guān)系達(dá)到像素信息重建的效果,在修復(fù)缺損信息邊緣時可以在有效減少生成像素與有效像素之間的色彩誤差的同時保持局部信息的一致性。
濾波核以不同的模式來展現(xiàn)其重構(gòu)丟失像素的能力。因此,模型使用深度神經(jīng)網(wǎng)絡(luò)對輸入的失真圖像進(jìn)行特征提取和理解,生成圖像所需的所有濾波核。使用圖像級濾波核可以根據(jù)像素周圍的信息準(zhǔn)確地重建丟失像素,但僅靠循環(huán)過濾并不能使修復(fù)性能有所提升。由于特征圖像中高度展現(xiàn)了圖像的語義信息,那么將濾波思想擴(kuò)展到圖像的語義結(jié)構(gòu)層,對包含語義信息的深層特征進(jìn)行過濾可以實(shí)現(xiàn)對圖像語義信息的深刻理解。假設(shè)FL為圖像I在編碼器中第L層的特征圖像,對其的重建過程如式(2)所示,其中,q∈Np表示包含原像素p及其所有相鄰元素在內(nèi)的K2個元素信息。由此,語義過濾可以實(shí)現(xiàn)在具有低空間分辨率的深層特征圖上修復(fù)所丟失語義信息的效果。
2.3? 記憶轉(zhuǎn)化模塊
如圖2所示,結(jié)構(gòu)記憶存儲器Mem是一個可訓(xùn)練的大小為N×C維實(shí)值向量矩陣,符號表示為 ,其中C的維數(shù)與輸入特征圖的通道位數(shù)相同,N設(shè)置為訓(xùn)練超參數(shù),表示結(jié)構(gòu)記憶存儲器N的最大容量。我們將記憶存儲器Mem的行向量標(biāo)記為mi, 表示記憶實(shí)值向量矩陣的第i行,即結(jié)構(gòu)記憶存儲器的一個存儲項(xiàng)。像素在檢索記憶項(xiàng)時均需要一個大小為1×C的尋址向量,可用符號? 表示。由此,特征圖譜逐像素記憶搜尋的過程可用式(3)表示,即:
綜上所述,稀疏尋址機(jī)制使網(wǎng)絡(luò)模型可以使用更少且更相關(guān)的記憶項(xiàng)來表示人臉圖像中的結(jié)構(gòu)特征,從而促使網(wǎng)絡(luò)在處理大面積損毀的圖像時依然能夠生成合理的人臉五官信息。
2.4? 損失函數(shù)設(shè)置
人臉圖像修復(fù)及優(yōu)化目標(biāo)是保證修復(fù)圖像在人眼視覺下達(dá)到結(jié)構(gòu)完整且符合邏輯,紋理清晰減少偽影和模糊,達(dá)到一定的視覺逼真度,并且要求人眼觀測之外的逐像素重建精度。為此,在訓(xùn)練期間,網(wǎng)絡(luò)嚴(yán)格按照聯(lián)合損失函數(shù)Lcom進(jìn)行反饋和調(diào)整,聯(lián)合損失函數(shù)包括對抗損失Ladv、風(fēng)格損失Lstyle、感知損失Lperc和L1平均絕對誤差損失 。
假定用Ireal表示真實(shí)圖片,生成器輸出圖像為Ipred。表達(dá)式如式(5)所示:
3? 實(shí)驗(yàn)細(xì)節(jié)
3.1? 數(shù)據(jù)集
為了激發(fā)網(wǎng)絡(luò)對于人臉結(jié)構(gòu)的推理能力以及更加符合現(xiàn)實(shí)場景下的應(yīng)用,我們選取了由Voo等人[10]提出的高質(zhì)量合成人臉遮擋分割數(shù)據(jù)集,人臉數(shù)據(jù)信息來自CelebA-HQ,其中包括30 000張高分辨率人臉圖像。用于生成合成圖像的手勢遮擋數(shù)據(jù)來自11K Hands數(shù)據(jù)集,其中包含11 076張來自190名不同年齡段受試者的手部圖像。為了提高網(wǎng)絡(luò)模型的泛化能力避免過擬合,實(shí)驗(yàn)過程中將每個掩碼隨機(jī)旋轉(zhuǎn)0°、90°、180°或270°,并在垂直或水平方向上隨機(jī)翻轉(zhuǎn)達(dá)到數(shù)據(jù)增強(qiáng)的目的。所有圖像包括相對應(yīng)的掩碼圖像在輸入網(wǎng)絡(luò)之前統(tǒng)一將尺寸大小調(diào)整為256×256。
3.2? 實(shí)驗(yàn)過程
我們的實(shí)驗(yàn)硬件為12核CPU及一塊RTX 3090顯卡,搭配cuda版本為11.7。實(shí)驗(yàn)環(huán)境為:在Ubuntu 18.04.5系統(tǒng)下使用Python 3.8.10搭配pytorch 1.8.1深度學(xué)習(xí)框架。訓(xùn)練圖像及對應(yīng)mask在輸入網(wǎng)絡(luò)前均被調(diào)整為256×256,實(shí)驗(yàn)過程中將batch_size設(shè)置為4,將learning_rate設(shè)置為0.000 1,經(jīng)過觀察可知,網(wǎng)絡(luò)在迭代300 000個iteration后達(dá)到收斂。聯(lián)合損失函數(shù)參數(shù)確定為λadv=0.1,=1,λperc=0.1,λstyle=250。
4? 結(jié)果與分析
4.1? 定量分析
為驗(yàn)證本文使用方法在人臉圖像修復(fù)效果上的優(yōu)越性,引入5種對比方法,分別為edge-connect、CA、RFRNet[11]、JpgNet和MISF,且采用普及面最廣的PSNR(峰值信噪比)、SSIM(結(jié)構(gòu)相似性指數(shù))、L1誤差以及LPIPS(圖像感知相似度)對各網(wǎng)絡(luò)的生成結(jié)果進(jìn)行測試。定量比較結(jié)果如表1所示。
從表1中可以看出:模型在峰值信噪比、結(jié)構(gòu)相似度以及L1損失上都獲得了較好的數(shù)值結(jié)果,這說明改進(jìn)模型在去手勢遮擋上的合理性結(jié)構(gòu)生成能力以及像素精度重建上都表現(xiàn)出優(yōu)異的效果。與MISF相比,修復(fù)結(jié)果在PSNR指標(biāo)上平均增加了0.5,在感知相似度指標(biāo)上降低了0.006,且與其他網(wǎng)絡(luò)相比表現(xiàn)出更加優(yōu)異的性能。同時,我們使用不規(guī)則掩碼數(shù)據(jù)集對測試圖像進(jìn)行處理,修復(fù)結(jié)果如圖3所示,評價指標(biāo)如表2所示。與MISF相較,當(dāng)缺損面積變大時修復(fù)結(jié)果的峰值信噪比數(shù)值增長量更大,即當(dāng)缺損比達(dá)到40%和50%時,PSNR值分別增加0.696和1.012,LPIPS值分別縮小0.213和0.356,這說明模型在擴(kuò)大感受野以獲取相似結(jié)構(gòu)以及生成更符合人類視覺特征的紋理信息上具有明顯的優(yōu)勢,且當(dāng)缺損區(qū)域更大時表現(xiàn)得更為明顯。
4.2? 定性分析
我們在圖3中列舉了不同網(wǎng)絡(luò)對人臉手勢遮擋修復(fù)任務(wù)的部分修復(fù)結(jié)果,可以發(fā)現(xiàn),我們的模型所生成的人臉面部五官的結(jié)構(gòu)信息更加自然、準(zhǔn)確、清晰,且符合原圖的人臉特征。圖4展示了不同修復(fù)方法在大面積不規(guī)則缺失修復(fù)任務(wù)中的結(jié)果示例,即使面對大規(guī)模的有效信息丟失,本文提出網(wǎng)絡(luò)也可以做到在生成符合人眼邏輯的五官結(jié)構(gòu)紋理的同時尊重原圖的顏色信息,使最終呈現(xiàn)效果具有更高的保真度。當(dāng)修復(fù)面積增大且大于40%時,相較于對比模型,本文所提方法依舊可以生成更完整的面部信息結(jié)構(gòu),在掩碼邊緣的色彩過渡更為自然和諧,紋理細(xì)節(jié)更加清晰流暢。
5? 結(jié)? 論
本文針對人臉去除手勢遮擋任務(wù)提出一種新的基于預(yù)測濾波核以及結(jié)構(gòu)記憶搜尋的端到端三分支網(wǎng)絡(luò)——TreeNet。濾波和預(yù)測網(wǎng)絡(luò)分支可以有效利用深度神經(jīng)網(wǎng)絡(luò)生成可以感知空間變化以及進(jìn)行語義感知的可學(xué)習(xí)動態(tài)濾波核。結(jié)構(gòu)記憶轉(zhuǎn)化分支促使網(wǎng)絡(luò)在處理大面積損毀的圖像時依然能夠生成合理的人臉五官信息。經(jīng)實(shí)驗(yàn)驗(yàn)證,TreeNet在人臉去手勢遮擋任務(wù)中表現(xiàn)優(yōu)異,生成的人臉圖像五官結(jié)構(gòu)清晰,色彩保真度高且不會引入過多的偽影(即紋理模糊)。
參考文獻(xiàn):
[1] GUO Q,SUN J Y,XU J f,et al. Efficientderain: Learning pixel-wise dilation filtering for high-efficiency single-image deraining [J/OL].arXiv:2009.09238 [cs.CV].[2023-02-12].https://arxiv.org/abs/2009.09238v1.
[2] KARRAS T,AILA T,LAINE S,et al. Progressive growing of gans for improved quality, stability, and variation [J/OL].arXiv:1710.10196 [cs.NE].[2023-02-14].https://arxiv.org/abs/1710.10196v2.
[3] AFIFI M. 11K Hands: Gender recognition and biometric identification using a large dataset of hand images [J/OL].arXiv:1711.04322 [cs.CV].[2023-02-18].https://arxiv.org/abs/1711.04322v8.
[4] BERTALMIO M,SAPIRO G,CASELLES V,et al. Image inpainting [EB/OL].[2023-02-06].https://dl.acm.org/doi/pdf/10.1145/344779.344972.
[5] CRIMINISI A,PéREZ P,TOYAMA K. Region filling and object removal by exemplar-based image inpainting [J].IEEE Transactions on Image Processing,2004,13(9):1200-1212.
[6] NAZERI K,NG E,JOSEPH T,et al. EdgeConnect: generative image inpainting with adversarial edge learning [J/OL].arXiv:1901.00212 [cs.CV].[2023-02-16].https://arxiv.org/abs/1901.00212.
[7] REN Y R,YU X M,ZHANG R N,et al. StructureFlow: image inpainting via structure- aware appearance flow [C]//2019 IEEE/CVF International Conference on Computer Vision (ICCV). Seoul:IEEE,2019:181-190.
[8] YU J H,LIN Z,YANG J M,et al. Generative image inpainting with contextual attention [C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City:IEEE,2018:5505-5514.
[9] ZENG Y H,F(xiàn)u J L,CHAO H Y,et al. Aggregated contextual transformations for high-resolution image inpainting [J/OL].IEEE Transactions on Visualization and Computer Graphics,2022:[2023-02-09].https://ieeexplore.ieee.org/abstract/document/9729564.
[10] VOO K T R,JIANG L M,LOY C C. Delving into high-quality synthetic face occlusion segmentation datasets [C]//2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops (CVPRW).New Orleans:IEEE,2022:4710-4719.
[11] LI J Y,WANG N,ZHANG L F,et al. Recurrent feature reasoning for image inpainting [C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).Seattle:IEEE,2020:7757-7765.
作者簡介:歐靜(1997—),女,漢族,陜西漢中人,碩士研究生在讀,研究方向:計算機(jī)視覺、圖像生成與分析;通訊作者:文志誠(1972—),男,漢族,湖南東安人,教授,碩士研究生導(dǎo)師,博士研究生,研究方向:計算機(jī)視覺、數(shù)字圖像處理、模式識別。