何星辰 郭勇 李奇龍 高唱
人臉識(shí)別是一個(gè)極具挑戰(zhàn)但又非常重要的問題,因?yàn)槠鋸V泛的應(yīng)用場(chǎng)景而受到越來越多的關(guān)注,目前一些一般人臉識(shí)別方法[1-6]在幾個(gè)基準(zhǔn)測(cè)試中已經(jīng)取得了理想的成績(jī),但由于人臉本身存在的較大的類內(nèi)干擾(如表情、光照、年齡等)使得這項(xiàng)工作面臨極大的困難.其中年齡變化所引起的類內(nèi)變化仍然是許多實(shí)際應(yīng)用的主要瓶頸,如尋找多年前的失蹤人口、排查潛逃的犯罪嫌疑人、證件的注冊(cè)及認(rèn)證工作等.相較于其他干擾,年齡相關(guān)的變化取決于內(nèi)因(如壓力和疾病)和外因(如生活環(huán)境和生活方式),以及隨著年齡的增長(zhǎng),臉部的紋理和形狀也會(huì)發(fā)生顯著改變,這使得學(xué)習(xí)不變的模式變得困難.因此,基于相同年齡的的一般人臉識(shí)別模型在處理跨年齡識(shí)別任務(wù)時(shí)無法得到理想的結(jié)果,2015 年Chen等[7]的研究顯示在跨年齡識(shí)別任務(wù)中一般人臉識(shí)別模型的正確率會(huì)降低13%以上.生成模型和判別模型是現(xiàn)有的兩種抗年齡干擾的人臉識(shí)別方法.生成模型通過將面部合成到一個(gè)或多個(gè)年齡類別來進(jìn)行建模,然后利用人工面部表示進(jìn)行識(shí)別[8-10],隨著深度學(xué)習(xí)的迅速發(fā)展,生成模型在抗年齡干擾識(shí)別上更有前景[11-13].然而生成模型的識(shí)別過程通常分為兩步,無法以端到端的方式優(yōu)化識(shí)別性能,并且通過生成模型生成的面部圖像通常不穩(wěn)定,會(huì)引入額外的噪聲到合成圖相中從而對(duì)識(shí)別過程形成干擾.因此,對(duì)判別模型的研究成為近些年來的熱點(diǎn),本文本文提出的深度模型也是屬于判別模型的范疇.
判別模型旨在對(duì)人臉特征進(jìn)行分離,從剔除年齡相關(guān)特征,提取年齡無關(guān)的身份特征的角度提高人臉識(shí)別的穩(wěn)定性.Ling等[14]使用梯度方向金字塔(Gradient orientation pyramid,GOP)作為年齡不變的特征并采用支持向量機(jī)(Support vector machine,SVM)作為面部識(shí)別的分類器.許多判別模型在設(shè)計(jì)適當(dāng)?shù)奶卣骱陀行У钠ヅ湎到y(tǒng)兩個(gè)方面做了深入研究,但大多數(shù)設(shè)計(jì)的特征仍包含干擾信息,為了將特定于人的身份因素與年齡因素分開,Gong等[15-16]提出了隱藏因子分析方法(Hidden factor analysis,HFA),將人的面部圖像表示為在衰老過程中穩(wěn)定的身份特定成分和反映衰老效果的其他成分的組合,表示身份的特征成分用于年齡不變的面部識(shí)別,他們采用期望最大化(Expectation maximization,EM)算法來估計(jì)模型參數(shù),并進(jìn)一步提出最大熵特征.Li等[17]提出了區(qū)域模式選擇(Local patterns selection,LPS)作為跨年齡人臉識(shí)別的新特征描述符.文獻(xiàn)[18]提出了一種稱為跨年齡參考編碼(Cross age reference code,CARC)的編碼框架,CARC能夠使用年齡不變的參考空間對(duì)人臉圖像的低級(jí)特征進(jìn)行編碼.深度學(xué)習(xí)因其在原始特征中直接學(xué)習(xí)一系列非線性特征映射函數(shù)的卓越性能而受到廣泛關(guān)注,相比之下,深度學(xué)習(xí)模型通常通過使用單個(gè)或幾個(gè)具有集中特定損失函數(shù)的年齡模型來處理年齡差異[19-22].Wen等[21]提出一種潛在因子引導(dǎo)卷積神經(jīng)網(wǎng)絡(luò)(Latent factor guided convolutional neural network,LF-CNN)模型來學(xué)習(xí)年齡不變的深層特征.Xu等[22]提出了一種非線性方法來分離整個(gè)特征以獲得身份特征,并提出稱為耦合自動(dòng)編碼器網(wǎng)絡(luò)(Coupled auto-encoder network,CAN)的神經(jīng)網(wǎng)絡(luò)模型,它利用兩個(gè)淺層神經(jīng)網(wǎng)絡(luò)橋接兩個(gè)自動(dòng)編碼器以適應(yīng)老化和衰老過程.Wang等[20]提出正交嵌入CNN (Orthogonal embedding convolutional neural network,OECNN)模型以將深度面部表征分解成兩個(gè)正交分量以表示年齡和身份特定特征.本文基于深度學(xué)習(xí)提出了一種新的抗年齡干擾的人臉識(shí)別模型ADCNN (Age decomposition convolution neural network),如圖1 所示.給出面部圖像年齡標(biāo)簽和身份標(biāo)簽,AD-CNN同時(shí)實(shí)現(xiàn)年齡估計(jì)任務(wù)和人臉識(shí)別任務(wù),第1 個(gè)全連接層輸出包括年齡信息在內(nèi)的所有面部特征,第2 個(gè)全連接層用于輸出通過年齡回歸任務(wù)所提取到的年齡特征,并將其送入含有一層隱藏層的多層感知機(jī)(Multilayer perceptron,MLP)網(wǎng)絡(luò)最終得到年齡相關(guān)因子,通過從整個(gè)特征中減去年齡因子獲得年齡不變特征.此外,ADCNN 在基線網(wǎng)絡(luò)中采用了空間注意力機(jī)制,重新建模了特征提取過程中通道和空間的相互依賴關(guān)系,增強(qiáng)了特征提取性能.
圖1 AD-CNN 模型流程圖Fig.1 The architecture of the proposed AD-CNN
跨年齡識(shí)別任務(wù)的困難在于年齡的變化會(huì)導(dǎo)致較大的類內(nèi)變化(如面部形態(tài)和紋理),但通過觀察我們可以發(fā)現(xiàn),同一年齡段的不同人的面部圖像通常具有相同的特征(如皺紋和皮膚),此外同一個(gè)人在不同的年齡段始終會(huì)有如性別等部分特征保持相對(duì)穩(wěn)定的狀態(tài).因此,本文的目標(biāo)是基于深度學(xué)習(xí)設(shè)計(jì)一種有效的方法,以便從參有年齡信息的混合的特征中有效地學(xué)習(xí)年齡不變的成分.
Gong等[15]和Wen等[21]的研究通過迭代和學(xué)習(xí)的方法將所提取到的混合特征線性分解為年齡特征和抗年齡干擾的身份特征兩部分;Wang等[20]則將混合特征正交分解為年齡特征和身份特征的乘積,并分別對(duì)這兩部分賦予年齡標(biāo)簽和身份標(biāo)簽進(jìn)行聯(lián)合學(xué)習(xí).受上訴方法的啟發(fā),本文延用了文獻(xiàn)[12,18]的思想,將深度卷積神經(jīng)網(wǎng)絡(luò)提取到的原始混合特征看作是年齡特征與年齡無關(guān)的身份特征在高維空間的線性組合,并利用多層感知機(jī)能夠?qū)W習(xí)任何映射函數(shù)的這一數(shù)學(xué)特性[23]在線性空間對(duì)混合特征進(jìn)行了分離.具體來說,首先年齡估計(jì)任務(wù)可以從混合特征中提取出年齡特征,隨后通過含有一層隱藏層的多層感知機(jī)將年齡特征映射回原始混合特征所在的高維線性空間,最后從混合特征中減去年齡特征帶來的干擾得到年齡無關(guān)的身份特征從而完成身份分類的任務(wù),整個(gè)過程可表示為
其中,t,x,y都是128 維向量,t表示輸入圖像的整個(gè)特征,x表示從年齡估計(jì)中獲得的年齡特征,y表示與年齡無關(guān)的人臉潛在特征,W1,W2,W3和b1,b2,b3分別表示全連接層fc3和多層感知機(jī)網(wǎng)絡(luò)的權(quán)重參數(shù)和偏置項(xiàng),relu表示非線性激活函數(shù).h(x)是獲得年齡因子的函數(shù),全連接層fc3 的輸出對(duì)應(yīng)式(1)中的y,它能更好地處理整個(gè)面部特征、年齡特征和不受年齡干擾的人臉特征之間的關(guān)系.在模型中,人臉識(shí)別任務(wù)和年齡估計(jì)任務(wù)同時(shí)進(jìn)行.
隨著CNN 層數(shù)逐漸加深,所能提取到圖像的特征也越來越豐富,但如果簡(jiǎn)單地增加深度,會(huì)帶來梯度彌散或梯度爆炸的問題.He等[24]在2015 年提出了建立在快捷連接和恒等映射基礎(chǔ)上的殘差網(wǎng)絡(luò)(Residual networks,ResNets)結(jié)構(gòu),解決了CNN 隨著深度增加而帶來的網(wǎng)絡(luò)退化問題.
該網(wǎng)絡(luò)的基本組成單元為殘差塊,如圖2 所示,在殘差塊中,上層輸出做為下層輸入的一部分,即在原始卷積層外部加上了躍層連接支路,使得原始映射可以表示為H(x)=F(x)+x,此時(shí)可以將對(duì)H(x)的學(xué)習(xí)轉(zhuǎn)換為對(duì)殘差函數(shù)F(x)=H(x)-x的學(xué)習(xí),使得網(wǎng)絡(luò)更容易擬合.本文采用了類似Res-Nets-34[24]的模型作為CNN 原始特征提取網(wǎng)絡(luò),該模型由4 組殘差塊組成,每個(gè)組的輸入到輸出接有一額外的支路映射shortcut,每個(gè)組中分別包含3,4,6,3 個(gè)殘差塊,每個(gè)殘差塊由2 維卷積層(Conv),批量歸一化層(Batch normalization)[25],非線性激活層(Relu)組成,并且相同的組中殘差塊的輸出通道數(shù)相同,分別為64,128,256和512.每個(gè)殘差塊組之間連接有池化層(Pool)和卷積塊注意力模型(Convolutional block attention module,CBAM)以增強(qiáng)模型的魯棒性及特征提取能力.整個(gè)基線網(wǎng)絡(luò)的計(jì)算過程可以表示為
圖2 殘差塊的結(jié)構(gòu)Fig.2 The structure diagram of residual block
其中,xlin與xlout表示第l個(gè)殘差塊的輸入和輸出,F(·)表示殘差映射函數(shù),g(xlin)表示每個(gè)殘差組的shortcut 支路映射,MCBAM(·)表示注意力模型,表示第l個(gè)殘差塊的權(quán)重參數(shù).
為了增強(qiáng)網(wǎng)絡(luò)模型的特征表達(dá)能力,提升特定區(qū)域的表征,本文在特征提取過程中引入卷積塊注意力模型(CBAM)[26]以提高深度模型對(duì)有用信息的敏感度.CBAM 模塊將注意力機(jī)制同時(shí)運(yùn)用在通道和空間兩個(gè)維度上,通過建模卷積特征通道和空間的相互依賴性來提高網(wǎng)絡(luò)的特征提取能力.在特征空間和通道進(jìn)行校準(zhǔn)的機(jī)制,使網(wǎng)絡(luò)從全局信息出發(fā)來提升有價(jià)值的特征并且抑制對(duì)任務(wù)無用的特征.CBAM 模塊示意圖如圖3 所示.將一個(gè)經(jīng)過卷積變換后的特征圖:F∈RH×W×C作為輸入,M,H,C代表特征圖的三維信息,特征圖F經(jīng)過1 維通道注意力模塊Mc∈R1×1×C和2 維空降注意力模塊Ms∈RH×M×1后得到最終輸出F′′,整個(gè)過程可表示為
圖3 CBAM 注意力模塊示意圖Fig.3 The overview of CBAM attention module
其中,?表示element-wise 的點(diǎn)乘操作,將特征圖F送入通道注意力模塊Mc,并將其結(jié)果與F進(jìn)行點(diǎn)乘得到F′,再將F′送入空間注意力模塊Ms,將其結(jié)果與F′進(jìn)行點(diǎn)乘從而得到最終的輸出F′′.
通道注意力模塊首先利用平均池化和最大池化操作聚合特征圖在每個(gè)通道上的信息,生成兩個(gè)不同的通道上下文描述符即
其中,Pmax(·)表示最大池化操作,Pavg(·)表示平均池化操作,w0∈RN/2×N,w1∈RN×N/2,表示多層感知機(jī)的權(quán)重,并且在w0后接有一個(gè)Relu 激活函數(shù),σ表示Sigmod 激活函數(shù).
空間注意力模塊利用特征的空間關(guān)系生成空間注意力圖層,空間注意力集中在 “哪里”是信息部分,這是對(duì)通道注意力的補(bǔ)充.為了計(jì)算空間注意力,首先沿通道軸應(yīng)用平均池化和最大池化操作,并將它們連接起來以生成有效的特征描述符.通過兩個(gè)池化操作融合特征圖的通道信息,生成兩個(gè)2維特征圖即
其中,N表示特征的通道數(shù)量,Sij(c)表示第c個(gè)特征圖中位于坐標(biāo)(i,j)處的元素,分別表示每個(gè)通道上的平均融合特征和最大融合特征.然后合并這兩個(gè)2 維特征圖并送入卷積層,最終得到空間維度上的注意力權(quán)重,其計(jì)算過程為
其中,σ表示sigmod 激活函數(shù),f7×7表示卷積核大小為的卷積操作.圖4 顯示了兩個(gè)注意力子模塊內(nèi)部的處理流程.
圖4 注意力子模塊示意圖Fig.4 Diagram of each attention sub-module
由于老化過程(例如面部形貌變化、紋理變化等)會(huì)引起不同年齡類別(類內(nèi)變化)中相同個(gè)體的變化,以及從CNN 中提取的深度特征中不可避免地會(huì)出現(xiàn)無關(guān)成分,這都會(huì)給人臉識(shí)別任務(wù)帶來巨大挑戰(zhàn).因此本文提出年齡估計(jì)任務(wù)和人臉識(shí)別任務(wù)聯(lián)合學(xué)習(xí)的方法來克服上述困難.
為了挖掘年齡信息的內(nèi)在表示,本文將線性回歸的方法應(yīng)用在年齡估計(jì)任務(wù)中,如圖1 所示,將全連接層fc2 所得的年齡特征作為輸入,回歸損失表示為
其中,M表示每一個(gè)批次中所含樣本的數(shù)量,zi表示第i個(gè)樣本所對(duì)應(yīng)的年齡標(biāo)簽,||·||表示L2范數(shù),f(x)是關(guān)聯(lián)Xi和zi的映射函數(shù),本文使用的是線性多項(xiàng)式
在進(jìn)行面部識(shí)別時(shí),將分類邊界投影到角度空間,采用A-Softmax[27]類似的損失函數(shù)增大類間距離,減小類內(nèi)距離.先對(duì)全連接層fc3 輸出的面部特征和權(quán)重向量做歸一化處理,使它們的L2范數(shù)都為1,此時(shí)損失函數(shù)可寫為
其中,?(θyi,i)=(-1)kcos(mθyi,i)-2k,θyi,i是第i個(gè)樣本的面部特征Fi與第yi個(gè)類別對(duì)應(yīng)的權(quán)重向量之間的夾角,θyi,i∈[kπ/m,(k+1)π/m],k∈[0,m-1],m≥1是控制角度大小的超參數(shù).s>0 是一個(gè)可調(diào)整的比例因子,用于補(bǔ)償Softmax 的學(xué)習(xí).從幾何角度來看,式(14)增加了一個(gè)約束,該約束保證特征x的角度與其相應(yīng)的權(quán)重向量應(yīng)小于特征x與任何其他權(quán)重向量之間的角度的 1/m,因此,可以增加兩個(gè)任意類之間的余量,與原始的A-Softmax 相比,式(14)引入了一個(gè)新的自由變量s以補(bǔ)償L2規(guī)范化的損失.
綜上,合并式(13)和式(14)以形成多任務(wù)聯(lián)合學(xué)習(xí)的損失函數(shù),即
其中,λ是平衡兩損失的超參數(shù).
本文在MORPH Album 2[28]和FGNET[29]兩個(gè)公共領(lǐng)域跨年齡人臉基準(zhǔn)數(shù)據(jù)集上設(shè)置了實(shí)驗(yàn),以證明所提方法的有效性.MORPH Album 2 數(shù)據(jù)集包含了超過78 000 幅人臉圖像,20 000 個(gè)身份標(biāo)識(shí)(id),年齡范圍從16 歲到77 歲,平均每個(gè)身份id 對(duì)應(yīng)4 幅圖片,每個(gè)id 的年齡跨度較小.FGNET數(shù)據(jù)集由來自于82 個(gè)身份id 的1 002 幅圖像組成,樣本數(shù)相對(duì)較小,但平均每個(gè)身份id 對(duì)應(yīng)12 幅人臉圖像且同一人的年齡跨度較大.兩個(gè)數(shù)據(jù)集的年齡分布如圖5 所示.
圖5 MORPH和FGNET 數(shù)據(jù)集的年齡分布Fig.5 Age range distribution of MORPH and FGNET
使用MTCNN (Multitask cascaded convolutional neural network)[30]檢測(cè)圖像中的面部和面部關(guān)鍵點(diǎn),然后應(yīng)用相似性變換,根據(jù)5 個(gè)面部關(guān)鍵點(diǎn)(兩個(gè)眼睛、鼻子和兩個(gè)嘴角)進(jìn)行人臉對(duì)齊,并將面部貼片裁剪為130×152 像素.為了避免出現(xiàn)過擬合,訓(xùn)練時(shí)本文對(duì)輸入圖像進(jìn)行隨機(jī)裁剪和隨機(jī)翻轉(zhuǎn)的操作,隨機(jī)裁剪后圖像大小為112×112 像素.最后將圖像歸一化到[-1,1]區(qū)間,如圖6 所示.圖6(a)和圖6(c)為來自于數(shù)據(jù)集中的原始圖像,圖6(b)和圖6(d)為處理后的圖像.
圖6 MORPH Album 2 中處理后的圖像Fig.6 Processed images of MORPH Album 2 dataset
考慮到MORPH Album 2和FGNET 的規(guī)模都不大,為防止過擬合,本文將CNN 原始特征提取模型在CASIA-WebFace[23]上進(jìn)行預(yù)訓(xùn)練,實(shí)驗(yàn)時(shí)用跨年齡數(shù)據(jù)集進(jìn)行微調(diào).根據(jù)文獻(xiàn)[27,31]的結(jié)果,將式(13)中提到的超參數(shù)設(shè)置為4,32.對(duì)于權(quán)重因子λ,選取0.1,0.3,0.5,0.7 四個(gè)值分別進(jìn)行實(shí)驗(yàn).所有模型均采用Tensorflow 框架進(jìn)行訓(xùn)練,采用隨機(jī)梯度下降(Stochastic gradient descent,SGD)算法進(jìn)行優(yōu)化.訓(xùn)練批量大小設(shè)置為16,迭代次數(shù)設(shè)置為25 個(gè)epoch.動(dòng)量因子為0.9,初始學(xué)習(xí)率設(shè)置為0.001,并且當(dāng)損失變得穩(wěn)定時(shí)(在第8,16和20 個(gè)迭代周期),訓(xùn)練過程自適應(yīng)地降低學(xué)習(xí)率3 次.
FGNET 包含來自82 個(gè)人的1 002 幅面部圖像,年齡范圍從兒童到老年人的跨度很大.由于FGNET 的規(guī)模較小,本文采用文獻(xiàn)[13,15]中的留一法設(shè)置,以便與之前的方法進(jìn)行公平比較.選取1 幅圖像作為測(cè)試樣本,剩下1 001 幅圖像作為訓(xùn)練集對(duì)模型進(jìn)行微調(diào).重復(fù)此過程1 002 次,對(duì)每個(gè)實(shí)驗(yàn)結(jié)果從Top-1 到Top-n進(jìn)行排序,最后對(duì)這些結(jié)果取平均值得到Rank-n識(shí)別率.考慮到式(15)中調(diào)節(jié)兩個(gè)損失函數(shù)平衡權(quán)重參數(shù)λ會(huì)影響模型性能,本文在FGNET 上設(shè)置了4 組實(shí)驗(yàn)以探索λ合理的取值.圖7 顯示了λ取不同值時(shí),模型正確率的變化曲線,當(dāng)λ取值較小時(shí),年齡估算任務(wù)的重要性較低,使得特征分離不充分,隨著λ逐漸增大,年齡因素和身份因素的相關(guān)性隨之減小,識(shí)別準(zhǔn)確率逐步上升;λ超過一定范圍后,模型對(duì)身份因素的表征能力會(huì)受到干擾,從而使得識(shí)別精度降低.實(shí)驗(yàn)表明,將λ的值設(shè)為0.5 能使模型得到較好的性能.表1 給出了本文方法與其他已發(fā)表方法的Rank-1 識(shí)別率,可以看到本文提出的基于深度學(xué)習(xí)的方法不僅與其他基于線性分析的方法相比有較大優(yōu)勢(shì),其識(shí)別結(jié)果也高于CAN[22]和LF-CNN[21]兩種深度模型.
圖7 不同權(quán)重參數(shù)下的人臉分類準(zhǔn)確率曲線圖Fig.7 Face classification accuracy graph under different weight parameters
表1 不同方法在FGNET 數(shù)據(jù)庫(kù)上的識(shí)別率Table 1 Recognition rate of different method on FGNET
在FGNET 中,受試者的年齡分布不均勻,并且與MORPH 中的年齡分布也不同,在FGNET 中,大約61%的樣本不到16 歲.但對(duì)于MORPH 數(shù)據(jù)集,所有人都超過16 歲.因此,有必要驗(yàn)證所提方法在不同年齡分布下的表現(xiàn).本文將FGNET 中的圖片按照年齡分成了0~4,5~10,11~16,17~24,25~69 五個(gè)年齡段,表2 給出了各年齡段的Rank-1識(shí)別率.
表2 本文方法在FGNET 數(shù)據(jù)庫(kù)上各個(gè)年齡段的識(shí)別正確率Table 2 Performance of our method on different age groups on FGNET
可以看出,本文方法在所有年齡組上均優(yōu)于CNN 基線模型,表明年齡不變的特征能夠成功地從原始特征中分離并良好地表征.但我們注意到,在較小的年齡段中識(shí)別結(jié)果較低,這是因?yàn)樵谟啄陼r(shí)人的臉部輪廓和紋理變化較大,與成年時(shí)期相比面部特征構(gòu)成有所差異.
MORPH Album 2 數(shù)據(jù)集包含了超過78 000幅人臉圖像和20 000 多個(gè)身份id.為了保證與其他方法進(jìn)行對(duì)比的公平性,本文依據(jù)文獻(xiàn)[13,15]對(duì)訓(xùn)練集和測(cè)試機(jī)的劃分,隨機(jī)選取10 000 個(gè)身份id 作為訓(xùn)練集,余下的10 000 個(gè)身份id 作為測(cè)試集.測(cè)試集的每個(gè)身份id 中選取年齡跨度最大的兩幅照片,年齡較小的10 000 幅照片作為gallery 集,較大的作為prob 集,根據(jù)FG-NET 的實(shí)驗(yàn)結(jié)果λ取0.5,實(shí)驗(yàn)結(jié)果如表3 所示.
表3 不同方法在MORPH 數(shù)據(jù)庫(kù)上的識(shí)別率Table 3 Recognition rate of different method on MORPH
從表3 中我們可以得出以下結(jié)論:1)沒有微調(diào)的基線CNN 的結(jié)果僅74.73%,不如表3 中的其他結(jié)果,這表明CASIA-WebFace 數(shù)據(jù)集與MORPH Album 2 數(shù)據(jù)集中的圖片有明顯不同,CASIAWebFace 數(shù)據(jù)集不適合直接用來解決年齡不變問題.2)由MORPH Album 2 微調(diào)的CNN 基線模型可以達(dá)到96.77%的準(zhǔn)確率,這表明卷積神經(jīng)網(wǎng)絡(luò)內(nèi)部具有非常強(qiáng)大的特征提取能力,但原始特征提取網(wǎng)絡(luò)所提取的特征本身包含了年齡因素的干擾,所以與其他方法相比沒有顯著優(yōu)勢(shì),因此設(shè)計(jì)一個(gè)不受年齡因素干擾的卷積神經(jīng)網(wǎng)絡(luò)是有必要的.3)本文所提出的網(wǎng)絡(luò)模型在由MORPH Album 2 上的準(zhǔn)確率達(dá)到了98.93%,相比于CNN 基線模型有明顯的提升,這表明使用估計(jì)任務(wù)來指導(dǎo)年齡不變的人臉識(shí)別任務(wù)是有用的,通過從原始特征中減去年齡特征,成功的得到了抗年齡干擾的身份特征.4)本文方法是建立在人臉分類和年齡回歸聯(lián)合訓(xùn)練基礎(chǔ)之上的,而多任務(wù)聯(lián)合訓(xùn)練也會(huì)影響模型正確率,因此為了進(jìn)一步評(píng)估年齡因素對(duì)人臉識(shí)別帶來的干擾,驗(yàn)證正確率的提升是本文的特征分離方法帶來的而不是聯(lián)合訓(xùn)練所導(dǎo)致,本文設(shè)計(jì)了一組對(duì)比實(shí)驗(yàn),在用MORPH 數(shù)據(jù)集對(duì)原始特征提取網(wǎng)絡(luò)微調(diào)后,分別用本文所提的方法和僅基于聯(lián)合訓(xùn)練的方法繼續(xù)訓(xùn)練,結(jié)果顯示僅基于聯(lián)合訓(xùn)練的方法正確率為97.10%.圖8 給出了訓(xùn)練過程中年齡估計(jì)和面部識(shí)別的曲線圖,年齡估計(jì)采用訓(xùn)練損失表示.從圖中可以看出僅采用聯(lián)合訓(xùn)練的方式無法給識(shí)別正確率帶來明顯提升,正確率曲線在短時(shí)間內(nèi)達(dá)到飽和.采用本文方法時(shí),正確率有較大幅度上漲,并且人臉識(shí)別率曲線與年齡回歸損失曲線發(fā)生顯著變化的時(shí)間段基本吻合,說明隨著網(wǎng)絡(luò)對(duì)年齡的估計(jì)越來越準(zhǔn)確,原始特征的分離也就越徹底,在排除了年齡干擾后,人臉識(shí)別率隨之提升.
圖8 識(shí)別正確率與年齡估計(jì)值的變化曲線Fig.8 The performance of age estimation and cross-age face recognition rate
最后,圖9 顯示了失敗檢索的一些示例.第1行為待測(cè)試的人臉圖像,第2 行對(duì)應(yīng)識(shí)別結(jié)果,第3 行對(duì)應(yīng)真實(shí)的結(jié)果.雖然在這些情況下Rank-1 檢索不正確,但待測(cè)圖像與識(shí)別結(jié)果的視覺相似性高于真實(shí)圖像.
圖9 MORPH Album 2 中部分識(shí)別錯(cuò)誤的人臉圖像Fig.9 Some examples of failed retrievals in MORPH Album 2 dataset
本文提出了一種基于深度學(xué)習(xí)的抗年齡干擾的人臉識(shí)別方法,該方法將面部識(shí)別任務(wù)、年齡估計(jì)任務(wù)和網(wǎng)絡(luò)注意力機(jī)制結(jié)合到同一個(gè)深度模型中,使用Resnet-34-CBAM 提取整張人臉的特征,CBAM 注意力模型使得網(wǎng)絡(luò)所提取到的特征更具有針對(duì)性和完整性,隨后從整個(gè)特征中減去由年齡估計(jì)任務(wù)所得到的年齡因子以消除掉年齡因素對(duì)人臉識(shí)別帶來的干擾,最后使用基于角度損失函數(shù)的人臉識(shí)別方法對(duì)只包含身份信息的特征進(jìn)行識(shí)別.本文方法在MORPH和FGNET 兩個(gè)數(shù)據(jù)庫(kù)上得到了理想的實(shí)驗(yàn)結(jié)果,充分證明了該方法的有效性,此外,本文所引入的年齡因子也可替換為其他干擾因子(如表情、光照等),有望用來解決類似的類內(nèi)干擾較大的人臉識(shí)別問題.