徐遐齡,劉 濤,田國(guó)輝,于文娟,肖大軍,梁陜鵬
1.國(guó)家電網(wǎng)公司華中分部 華中電力調(diào)控分中心,武漢430077
2.南瑞集團(tuán)(國(guó)網(wǎng)電力科學(xué)研究院)有限公司,南京211106
3.北京科東電力控制系統(tǒng)有限責(zé)任公司 研發(fā)技術(shù)中心,北京100192
人臉識(shí)別是通過(guò)抽取并對(duì)比分析人臉視覺(jué)特征信息進(jìn)行身份鑒別的一種方法。具有可靠、操作簡(jiǎn)單和無(wú)接觸等特點(diǎn),已經(jīng)成為生物識(shí)別領(lǐng)域活躍技術(shù)之一。由于深度學(xué)習(xí)技術(shù)在圖像處理領(lǐng)域展示出了良好的建模和自動(dòng)特征抽取能力,使得基于深度學(xué)習(xí)開展人臉識(shí)別相關(guān)問(wèn)題的研究得到了廣泛關(guān)注并取得較大進(jìn)展[1]。盡管如此,多數(shù)人臉識(shí)別模型和算法大多仍是在受限條件下執(zhí)行的,在遇到光線和姿態(tài)變化、圖像分辨率低、存在遮擋等場(chǎng)景時(shí)的識(shí)別準(zhǔn)確率仍需要進(jìn)一步提高。例如,現(xiàn)實(shí)環(huán)境中采集到的人臉圖像通常是多變的,微笑、憤怒、被口罩、墨鏡、帽子等物體遮擋,人臉特征的位置也會(huì)隨之改變,造成人臉固有結(jié)構(gòu)缺失。特別是受新型冠狀病毒肺炎疫情影響,關(guān)于口罩遮擋人臉識(shí)別和檢測(cè)分析更是近期熱門的研究方向。人臉關(guān)鍵特征的提取和對(duì)比是人臉識(shí)別算法的關(guān)鍵,特征是否完整非常關(guān)鍵,遮擋會(huì)造成特征損失、含有噪聲和局部混疊等問(wèn)題,阻礙人臉識(shí)別算法做出準(zhǔn)確的決策。本文聚焦遮擋環(huán)境下基于深度學(xué)習(xí)技術(shù)的人臉識(shí)別方法的研究進(jìn)展,針對(duì)存在遮擋導(dǎo)致的特征提取困難、模型復(fù)雜、數(shù)據(jù)集不夠豐富等問(wèn)題,介紹了基于深度學(xué)習(xí)技術(shù)的人臉識(shí)別常用模型和算法,對(duì)比分析了不同算法的基本原理、性能評(píng)價(jià)以及存在的問(wèn)題,探討了未來(lái)可能的發(fā)展方向。
當(dāng)人臉在清晰可見、無(wú)遮擋環(huán)境之中,在深度學(xué)習(xí)技術(shù)和大量數(shù)據(jù)集支持下,其特征提取較為容易;如果遭到部分遮擋,不僅是被遮擋區(qū)域的特征會(huì)受到影響,整個(gè)臉部特征的提取都會(huì)受到影響。目前,減少未被遮擋區(qū)域的特征所受影響和修復(fù)被遮擋區(qū)域的固有特征是兩種常用思路,它們分別從突出圖像中的人臉區(qū)域和弱化圖像中的非人臉的背景區(qū)域出發(fā)開展研究,并盡量擴(kuò)大用于模型訓(xùn)練和測(cè)試的數(shù)據(jù)集來(lái)提高識(shí)別效果,下面進(jìn)行詳細(xì)介紹。
當(dāng)發(fā)生人臉信息遮擋時(shí),可通過(guò)利用人臉其他未被遮擋部分的特征來(lái)輔助完成遮擋人臉特征提取,即根據(jù)被遮擋區(qū)域的鄰域信息來(lái)補(bǔ)充、恢復(fù)和預(yù)測(cè)缺失區(qū)域的圖像內(nèi)容,再進(jìn)行特征提取。常用的方法如下。
(1)提取人臉的屬性特征
Yang等[2]聚焦人臉屬性解決遮擋人臉檢測(cè)的問(wèn)題,提出了Faceness-Net模型并設(shè)計(jì)了一組屬性感知的深度網(wǎng)絡(luò),如圖1所示。算法首先抽取人臉局部特征,然后從局部到整體得到人臉候選區(qū)域,再對(duì)人臉候選區(qū)域進(jìn)行識(shí)別。其特點(diǎn)是對(duì)各局部特征進(jìn)行共享,對(duì)人臉屬性特征進(jìn)行分類提取,故當(dāng)某部分被遮擋時(shí),其他部分仍可被精確定位,網(wǎng)絡(luò)參數(shù)量降低了83%,整體性能提升了近4個(gè)百分點(diǎn),網(wǎng)絡(luò)的穩(wěn)定性較高,對(duì)環(huán)境有較強(qiáng)的應(yīng)對(duì)能力,能夠檢測(cè)具有較大姿態(tài)變化的人臉,在性能、運(yùn)行速率、召回率、平均精度等方面有優(yōu)勢(shì)。但是,模型需要的條件是人臉圖片比較清晰,這樣會(huì)減少訓(xùn)練難度,增強(qiáng)模型的穩(wěn)定性。當(dāng)被遮擋面積較大或人臉圖片不夠清晰時(shí)會(huì)對(duì)人臉評(píng)分帶來(lái)困難,影響識(shí)別效果。
圖1 Faceness-Net模型Fig.1 Faceness-Net model
(2)增強(qiáng)人臉可見區(qū)域特征
Wang等[3]采用Anchor策略和數(shù)據(jù)增強(qiáng)策略,構(gòu)建了融合注意力機(jī)制的人臉識(shí)別網(wǎng)絡(luò)FAN(Face Attention Network),如圖2所示。在模型訓(xùn)練時(shí),基于人臉尺寸為特征金字塔不同位置的特征圖設(shè)置不同的注意力機(jī)制,即在RetinaNet的anchor上增加了Attention函數(shù),通過(guò)多尺度特征提取、多尺度Anchor、基于語(yǔ)義分割的多尺度注意力機(jī)制,隱式地學(xué)到遮擋區(qū)域的人臉,提升了對(duì)于遮擋人臉的檢測(cè)效果。訓(xùn)練的條件是數(shù)據(jù)集中人臉區(qū)域和遮擋區(qū)域的特征是混合在一起的。這樣就會(huì)使得注意力機(jī)制會(huì)同時(shí)將人臉特征和人臉區(qū)域中包含的遮擋特征同時(shí)增強(qiáng),且基于尺寸劃分不同的注意力圖的方法,并不能保證人臉被劃分到合適的特征圖上去,從而影響識(shí)別效果。
圖2 FAN網(wǎng)絡(luò)模型Fig.2 FAN network model
(3)改進(jìn)損失函數(shù)強(qiáng)化特征
研究者針對(duì)基于深度模型開展人臉識(shí)別任務(wù)設(shè)計(jì)了一系列的損失函數(shù),使得人臉識(shí)別得到更好的效果。例如,CenterLoss是通過(guò)Softmax[4]和L2范數(shù)[5],增大類間距離且同時(shí)減小類內(nèi)距離,有利于預(yù)測(cè)值和真實(shí)樣本之間誤差減小。Liu等[6]提出了一種損失函數(shù)Angular Softmax實(shí)現(xiàn)在超球面上不同類別特征間的分離和同類別特征間的聚合。Liu等[7]提出了Arcface直接在角度空間中來(lái)最大化類內(nèi)距離。Opitz等[8]設(shè)計(jì)了Grid Loss損失函數(shù)來(lái)綜合局部和整體信息對(duì)分類的作用,增強(qiáng)了檢測(cè)模型對(duì)遮擋的魯棒性。如圖3所示[8],該方法采用分塊處理的思想,將人臉特征圖分成若干網(wǎng)格,將每一網(wǎng)格的損失與整張圖的損失求和作為總體損失函數(shù),以強(qiáng)化每一網(wǎng)格的特征辨識(shí)性。實(shí)驗(yàn)結(jié)果表明:使用Grid loss函數(shù)可有效提升有遮擋環(huán)境下人臉的識(shí)別效果,在小樣本訓(xùn)練時(shí)有更好的表現(xiàn),訓(xùn)練難度不大,未產(chǎn)生大量額外的時(shí)間代價(jià),可用于實(shí)時(shí)檢測(cè),穩(wěn)定性較高;不足之處是仍存在難以應(yīng)對(duì)大幅度姿態(tài)變化的問(wèn)題,訓(xùn)練難度大,模型穩(wěn)定性不高,且受損失函數(shù)的影響比較大。
圖3 Grid LossFig.3 Grid Loss model
1.2.1 基于上下文信息融合的特征抽取
考慮到人臉的出現(xiàn)一般與身體其他部位相關(guān)聯(lián),Zhu等[9]利用人體上下文信息來(lái)輔助完成人臉識(shí)別,提出結(jié)合上下文的多尺度區(qū)域卷積神經(jīng)網(wǎng)絡(luò)CMS-RCNN(Contextual Multi-Scale Region-based CNN),如圖4所示。CMS-RCNN提供了一種將全局和局部上下文信息相融合的方法,同時(shí)關(guān)注人臉區(qū)域的特征和人臉上下文信息,對(duì)多層特征圖上的特征進(jìn)行融合,形成一個(gè)長(zhǎng)特征向量用于后續(xù)的分類,該類方法的識(shí)別準(zhǔn)確率較高,不足之處在于各部分的特征權(quán)重分配和整合存在難點(diǎn),速度較慢,也會(huì)影響模型的穩(wěn)定性。雖然可以通過(guò)減少region的數(shù)量或降低輸入圖像的分辨率等方式提升速度,但效果并不明顯。
圖4 CMS-RCNN模型Fig.4 CMS-RCNN model
2018年,Tang等[10]為更充分利用上下文信息,提出了人臉檢測(cè)框架PyramidBox,如圖5所示,PyramidBox采用基于錨點(diǎn)的上下文信息輔助方法來(lái)學(xué)習(xí)較小范圍內(nèi)的、模糊的和受遮擋的人臉的上下文特征;設(shè)計(jì)了一種底層金字塔網(wǎng)絡(luò)來(lái)更好地融合上下文特征;提出了一種上下文敏感的預(yù)測(cè)模塊(Context-sensitive Prediction Module,CPM),從融合的特征中學(xué)習(xí)到更準(zhǔn)確的人臉位置信息和分類信息。同時(shí),結(jié)合感受野模塊(Receptive Field Block,RFB)[11]的特征增強(qiáng)(Feature Enhance Module,F(xiàn)EM)來(lái)更好地融合文本特征和人臉特征。由于FEM采用自頂向下的層間信息融合,在廣度和深度方面可學(xué)習(xí)到更為有效的上下文和語(yǔ)義信息。在Wider Face驗(yàn)證集和測(cè)試集的結(jié)果表明提升了性能。該模型的穩(wěn)定性是比較好的,采用融合特征也大大減少了特征位置對(duì)分類帶來(lái)的影響。不足之處在于,當(dāng)遮擋范圍較大時(shí),特征提取的效果會(huì)受到影響,且在一定程度上增加了模型訓(xùn)練的時(shí)間,模型訓(xùn)練的難度加大。
圖5 PyramidBox框架Fig.5 PyramidBox framework
Zhu等[12]提出了有遮擋環(huán)境下的人臉關(guān)鍵點(diǎn)檢測(cè)的自適應(yīng)深度網(wǎng)絡(luò)ODN(Occlusion-Adaptive Deep Networks),如圖6所示。在該模型中,高層特征在每個(gè)位置的遮擋概率由可以自動(dòng)學(xué)習(xí)人臉外觀和形狀之間關(guān)系的蒸餾模塊(distillation module)來(lái)推斷。遮擋概率被當(dāng)作高層特征的自適應(yīng)權(quán)重。同時(shí),該方法利用低階學(xué)習(xí)模塊學(xué)習(xí)共享結(jié)構(gòu)矩陣來(lái)恢復(fù)丟失的特征并去除冗余特征。首先,將殘差學(xué)習(xí)塊的特征圖輸入到幾何覺(jué)察模塊和蒸餾模塊中,分別捕獲幾何信息并獲得未被遮擋的特征表示。然后,將這兩個(gè)模塊的輸出組合起來(lái)作為低階學(xué)習(xí)模塊的輸入。蒸餾模塊通過(guò)自動(dòng)學(xué)習(xí)人臉外觀和人臉形狀之間的關(guān)系,推算出高層特征在每個(gè)位置的遮擋概率,作為高層特征的自適應(yīng)權(quán)重,用來(lái)減少遮擋產(chǎn)生的影響并獲得清晰的特征表示。由于需要采用推斷的方法獲得遮擋概率,使得高層特征的自適應(yīng)權(quán)重的調(diào)整變化比較大,模型訓(xùn)練難度增加,穩(wěn)定性也表現(xiàn)得比較弱。
圖6 ODN框架Fig.6 ODN framework
1.2.2 多模態(tài)生物特征融合的方法
近年來(lái)一些多模態(tài)融合的深度神經(jīng)網(wǎng)絡(luò)模型也被提出[13-15]來(lái)應(yīng)對(duì)復(fù)雜的外部環(huán)境造成的識(shí)別困難,通過(guò)設(shè)計(jì)融合算法將不同的生物特征進(jìn)行有機(jī)結(jié)合,如掌紋與人臉特征相融合、指紋與聲紋特征相融合、虹膜與指紋特征相融合等,以彌補(bǔ)單模態(tài)生物識(shí)別技術(shù)的安全風(fēng)險(xiǎn)。融合特征提取方法可以針對(duì)不同圖像區(qū)域之間、多個(gè)特征提取方法之間以及多分類器之間的融合。肖珂等[16]采用梅爾頻率倒譜系數(shù)的方法提取聲紋特征,運(yùn)用卷積神經(jīng)網(wǎng)絡(luò)提取人臉特征,再通過(guò)加權(quán)融合算法將它們?nèi)诤?。Liu等[17]提出了ConGAN來(lái)學(xué)習(xí)多模態(tài)數(shù)據(jù)的聯(lián)合分布應(yīng)用于人臉多屬性圖像和彩色深度圖像。王衛(wèi)民等[18]將多種卷積神經(jīng)網(wǎng)絡(luò)模型如ResNet、InceptionV3和VGG19提取的特征進(jìn)行融合,并將融合后的特征應(yīng)用到人臉識(shí)別中,據(jù)此訓(xùn)練出特征融合網(wǎng)絡(luò)模型的網(wǎng)絡(luò)參數(shù),最后利用計(jì)算求出的閾值來(lái)區(qū)分類別。該模型的訓(xùn)練條件是要在線下特征提取,用Keras建??蚣馨讯郈NN特征融合方法建模并用數(shù)據(jù)集訓(xùn)練,訓(xùn)練集迭代1 000次,精度超過(guò)98.2%。Soodeh等[19]提出改進(jìn)的退化條件下的人臉識(shí)別算法,使用極限學(xué)習(xí)機(jī)和稀疏分類器并將它們的輸出進(jìn)行融合,以獲得最佳的識(shí)別率。Li等[20]提出了一種C2D-CNN(二維主成分分析-卷積神經(jīng)網(wǎng)絡(luò)),將從原始像素學(xué)習(xí)到的特征與CNN學(xué)習(xí)到的圖像特征相結(jié)合,進(jìn)行決策級(jí)融合,提高了人臉識(shí)別的性能。張琪[21]提出了虹膜與人臉和眼周融合的方法,基于加權(quán)加法對(duì)虹膜和人臉進(jìn)行了融合,在特征層基于卷積神經(jīng)網(wǎng)絡(luò)對(duì)虹膜和眼周進(jìn)行了自適應(yīng)加權(quán)融合,在CASIA-Iris-M1-S2和CASIA-Iris-M1-S2兩個(gè)庫(kù)上進(jìn)行,獲得了比單模態(tài)識(shí)別更好的性能,優(yōu)于直接將特征層串接融合、分?jǐn)?shù)層加權(quán)加法的融合方法,且占用的存儲(chǔ)空間較少、計(jì)算效率較高。Koo等[22]提出了一種基于面部和人體的多模態(tài)生物識(shí)別方法,并使用VGG-16和ResNet-50的網(wǎng)絡(luò)結(jié)構(gòu)來(lái)識(shí)別部分身體和不規(guī)則的人臉。但其網(wǎng)絡(luò)結(jié)構(gòu)需要通過(guò)增加網(wǎng)絡(luò)層數(shù)來(lái)實(shí)現(xiàn)特征表示,導(dǎo)致其訓(xùn)練過(guò)程比較復(fù)雜,訓(xùn)練難度增大。
盡管目前有大量多模態(tài)融合的方法被提出用于進(jìn)行人臉識(shí)別,它們?nèi)孕枰M(jìn)一步改進(jìn),尤其是在增強(qiáng)融合信息的判別性、減少信息的冗余性、跨層級(jí)融合以及動(dòng)態(tài)融合等方面進(jìn)行提升。模型的整體訓(xùn)練成本會(huì)增加,訓(xùn)練難度也隨之提升。
深度學(xué)習(xí)方法可以通過(guò)不斷學(xué)習(xí)圖像的特征加深對(duì)圖像的了解,圍繞局部和整體兩個(gè)方面對(duì)圖像進(jìn)行修復(fù),增強(qiáng)內(nèi)容紋理處理的連貫性,緩解大塊缺失區(qū)域引發(fā)的修復(fù)困難。
Ge等[23]提出了局部線性嵌入式卷積神經(jīng)網(wǎng)絡(luò)LLECNN(Locally Linear Embedding CNN),探索使用人臉以外區(qū)域的信息對(duì)遮擋區(qū)域的特征嘗試修復(fù)和補(bǔ)全的方法。如圖7所示[23],它由大量圖片構(gòu)成人臉字典和非人臉字典訓(xùn)練出的最近鄰來(lái)細(xì)化描述符,對(duì)遮擋造成的遮擋人臉信息進(jìn)行補(bǔ)全和特征恢復(fù),同時(shí)抑制特征中的噪聲信息。Proposal Module級(jí)聯(lián)了兩個(gè)CNN網(wǎng)絡(luò),用于生成人臉候選區(qū)域及特征提取。候選區(qū)域的生成使用了P-Net,由三個(gè)卷積層和一個(gè)Softmax層組成??紤]到遮擋人臉檢測(cè)難度較大,模型的訓(xùn)練條件是設(shè)置了較低的閾值,以生成較多人臉候選區(qū)域。然后,Embedding Module通過(guò)查字典的方式將被遮擋的特征區(qū)域及其特征恢復(fù)出來(lái),并抑制特征中的噪聲信息。Verification Module利用被修復(fù)的人臉特征進(jìn)行人臉區(qū)域驗(yàn)證,同時(shí)對(duì)人臉位置和尺度的微調(diào)。該網(wǎng)絡(luò)模型在遮擋數(shù)據(jù)集MAFA上的表現(xiàn)突出。但是,由于MAFA數(shù)據(jù)集對(duì)每個(gè)人臉還標(biāo)定了多個(gè)屬性,如mask type、occlusion degree,該模型目前尚未給出這些結(jié)果,模型的穩(wěn)定性還在持續(xù)改進(jìn)中。
圖7 LLE-CNN模型Fig.7 LLE-CNN model
Chan等[24]提出了結(jié)合卷積神經(jīng)網(wǎng)絡(luò)與局部二值模式(Local Binary Patterns,LBP)的特征提取網(wǎng)絡(luò)PCANet。該網(wǎng)絡(luò)提供局部零均值化預(yù)處理以及PCA濾波器功能來(lái)提取主成分特征,并過(guò)濾圖像中的遮擋。但當(dāng)遮擋面積較大時(shí),所得到的整體特征就會(huì)分布于為零值附近。李小薪等[25]提出局部球面規(guī)范化(Local Sphere Normalization)方法,并將其嵌入到PCANet的前兩個(gè)卷積層之后,使局部區(qū)域特征值都位于同一個(gè)球面上,以此增強(qiáng)小特征值的作用,抑制較大特征值的影響,實(shí)現(xiàn)特征均衡化。模型對(duì)光照變化和遮擋等具有較強(qiáng)的魯棒,不足之處在于較高的維度下,LSN的嵌入會(huì)影響PCANet模型的運(yùn)行時(shí)間,且當(dāng)遇到識(shí)別難度越高的測(cè)試集時(shí),平均的運(yùn)行時(shí)間會(huì)變大。
徐迅等[26]針對(duì)深度神經(jīng)網(wǎng)絡(luò)模型參數(shù)過(guò)多而容易引發(fā)過(guò)擬合等問(wèn)題,結(jié)合GoogleNet和ResNet網(wǎng)絡(luò)提出了Inception-ResNet-v1M模型,利用Triplet Loss損失函數(shù)學(xué)習(xí)人臉特征,以強(qiáng)化特征間的可區(qū)分特性,使得模型對(duì)遮擋、表情變化、姿態(tài)角度變化等干擾因素具有一定的魯棒性。模型在遮擋率為20%~30%時(shí),識(shí)別率能夠達(dá)到98.2%。然而,當(dāng)遮擋率大于30%的情況下,模型的效果受到很大影響。
Cai等[27]提出了基于半監(jiān)督學(xué)習(xí)的遮擋感知生成對(duì)抗網(wǎng)絡(luò)(OA-GAN)。通過(guò)對(duì)抗遷移的方式,將配對(duì)數(shù)據(jù)條件下學(xué)習(xí)的人工合成遮擋修復(fù)模型遷移到人臉自然遮擋修復(fù)任務(wù)中。如圖8所示[27],發(fā)生器由遮擋感知模塊和人臉修復(fù)模塊組成。遮擋感知模塊對(duì)帶有遮擋的圖片進(jìn)行預(yù)測(cè),得到一個(gè)遮擋掩碼,這是該模型得以運(yùn)行的前提條件。然后,將遮擋掩碼與帶有遮擋的人臉圖像一起輸入到發(fā)生器中,用于去除人臉的遮擋信息。另一方面,通過(guò)鑒別器中存在的對(duì)抗性損失來(lái)區(qū)分真實(shí)無(wú)遮擋的圖像和通過(guò)去遮擋恢復(fù)后的人臉圖像,以及屬性保留損失,確保去遮擋的圖像保留了原圖像的屬性。修復(fù)模塊則采用非遮擋特征映射的編解碼器體系結(jié)構(gòu),生成遮擋區(qū)域的紋理,來(lái)從輸入的人臉圖像恢復(fù)遮擋區(qū)域和非遮擋區(qū)域的合成人臉圖像。鑒別器用于判斷恢復(fù)后的人臉真?zhèn)?,以及是否能夠維持原人臉圖像中包含的屬性。由于該模型設(shè)計(jì)了一種交替訓(xùn)練的方法,實(shí)現(xiàn)了更好的網(wǎng)絡(luò)收斂,減少了模型的訓(xùn)練難度。該方法在CelebA訓(xùn)練集中達(dá)到了較好的識(shí)別效果。
圖8 OA-GAN模型Fig.8 OA-GAN model
Song等[28]根據(jù)人體的視覺(jué)系統(tǒng)注意力機(jī)制具有忽略被遮擋區(qū)域的性質(zhì),提出了基于掩膜的學(xué)習(xí)策略,來(lái)處理人臉識(shí)別中的特征損失,挖掘人臉遮擋區(qū)域和人臉特征的對(duì)應(yīng)關(guān)系,并禁止被遮擋區(qū)域的特征參與相似度比對(duì)。作者設(shè)計(jì)了PDSN(Pairwise Differential Siamese Network)網(wǎng)絡(luò)結(jié)構(gòu),如圖9所示[28],由CNN主干網(wǎng)和掩膜生成器分支組成,CNN主干網(wǎng)負(fù)責(zé)提取人臉特征,掩膜生成器分支則輸出布爾量掩膜特征,力爭(zhēng)使經(jīng)過(guò)掩膜處理后的特征盡可能相似,來(lái)保證識(shí)別的準(zhǔn)確率。PSDN網(wǎng)絡(luò)通過(guò)采集有遮擋和無(wú)遮擋人臉對(duì)在頂層卷積特征上的差異來(lái)建立掩膜字典,從而記錄并學(xué)習(xí)得到被遮擋區(qū)域和受損特征之間的關(guān)系。當(dāng)處理有遮擋的人臉圖像時(shí),從掩膜字典中選取關(guān)聯(lián)項(xiàng)加以合并,并與提取人臉特征相乘,以消除特征損失的影響。其中,對(duì)人臉識(shí)別貢獻(xiàn)小的特征給予更大的損失值,將遮擋人臉與未遮擋人臉間的特征差異作為評(píng)價(jià)特征元素是否被破壞的標(biāo)志,使掩膜生成器更關(guān)注于被遮擋的區(qū)域。目前存在的問(wèn)題是,由于掩碼未知,只能保存最后的卷積層特征,因此對(duì)于大批量圖像,特征占用空間大高。另外,比對(duì)速度較慢,除了比對(duì)時(shí)要計(jì)算相似度,還要進(jìn)行特征提取過(guò)程,增加了模型訓(xùn)練的難度和時(shí)間成本。
圖9 PSDN網(wǎng)絡(luò)Fig.9 PSDN network
連澤宇等[29]針對(duì)復(fù)雜遮擋條件下人臉檢測(cè)精度低的問(wèn)題,提出了一種基于掩膜生成網(wǎng)絡(luò)的遮擋人臉檢測(cè)方法,通過(guò)屏蔽掉由局部遮擋引起的人臉特征元素?fù)p壞來(lái)提高檢測(cè)精度。模型訓(xùn)練過(guò)程及相關(guān)條件是:首先,預(yù)處理人臉訓(xùn)練集,將訓(xùn)練人臉劃分為25個(gè)子區(qū)域,并為每個(gè)子區(qū)域分別添加遮擋。接著,將一系列添加遮擋的人臉圖像和原始人臉圖像作為圖像對(duì),依次送入掩膜生成網(wǎng)絡(luò)進(jìn)行訓(xùn)練,以生成對(duì)應(yīng)各個(gè)遮擋子區(qū)域的遮擋掩膜字典。然后,通過(guò)組合相關(guān)字典項(xiàng)生成與檢測(cè)人臉遮擋區(qū)域?qū)?yīng)的組合特征掩膜,并將該組合特征掩膜與檢測(cè)人臉深層特征圖相點(diǎn)乘,以屏蔽由局部遮擋引起的人臉特征元素?fù)p壞。在AR數(shù)據(jù)集和MAFA數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,該方法在保持訓(xùn)練時(shí)間損耗低的同時(shí),提高了檢測(cè)的準(zhǔn)確性。如何將算法擴(kuò)展為三維遮擋人臉檢測(cè)算法是作者正在研究的問(wèn)題。
Dong等[30]提出了兩階段的遮擋識(shí)別模型,如圖10所示,不同于通過(guò)一個(gè)生成對(duì)抗性網(wǎng)絡(luò)來(lái)消除遮擋的做法,網(wǎng)絡(luò)由兩個(gè)生成器(即G1和G2)和兩個(gè)鑒別器(即D1和D2)組成。其中G1用于分離遮擋(合成遮擋的圖像),合成器G2用于合成去遮擋的圖片,即G1首先分離出遮擋,再將其作為G2的輸入來(lái)生成更精確的未遮擋圖像。實(shí)驗(yàn)結(jié)果表明,合成的遮擋圖像和去遮擋基本互補(bǔ),合成的無(wú)遮擋圖像與G1合成的遮擋高度相關(guān),在PSNR(峰值信噪比)和SSIM(結(jié)構(gòu)相似性)中都獲得了更高的分?jǐn)?shù)。由于采用兩階段處理的方法,會(huì)產(chǎn)生更多的時(shí)間開銷,增加了訓(xùn)練成本。
圖10 兩階段遮擋感知的GANFig.10 Two stage occlusion-aware GAN model
由于生成對(duì)抗網(wǎng)絡(luò)技術(shù)(Generative Adversarial Networks,GANs)在機(jī)器學(xué)習(xí)任務(wù)中獲得了較好成果,由此也衍生出了基于GAN的生成模型,用于解決遮擋人臉圖像修復(fù)問(wèn)題。
Chen等[31]提出了對(duì)抗性有遮擋感知人臉檢測(cè)器(Adversarial Occlusion-aware Face Detector,AOFD)。它基于生成對(duì)抗網(wǎng)絡(luò)生成了大量遮擋人臉的樣本,來(lái)擴(kuò)充訓(xùn)練數(shù)據(jù)集,利用上下文信息來(lái)分割遮擋區(qū)域,通過(guò)分割的掩膜屏蔽遮擋區(qū)域?qū)θ四樚卣鞯挠绊憽S捎贏OFD是利用多階段目標(biāo)檢測(cè)框架,該方法在一定程度上制約了檢測(cè)速度,在訓(xùn)練條件上需要生成大量的遮擋樣本,也增加了模型所需的訓(xùn)練時(shí)間和訓(xùn)練難度。
Zhang等[32]充分利用人臉周圍信息訓(xùn)練GAN網(wǎng)絡(luò),提出了基于上下文信息的生成對(duì)抗網(wǎng)絡(luò)(Contextual based Generative Adversarial Network,C-GAN),其生成網(wǎng)絡(luò)由上采樣子網(wǎng)和優(yōu)化子網(wǎng)構(gòu)成。其中,將低分辨率圖像轉(zhuǎn)為高分辨率圖像并加以輸出是由上采樣子網(wǎng)完成的,人臉-非人臉、真實(shí)圖像-虛假圖像的鑒別是由鑒別網(wǎng)絡(luò)完成,人臉的邊框檢測(cè)由回歸子網(wǎng)進(jìn)行完善。該模型適用于高分率圖像的檢測(cè),否則需要對(duì)低分辨率進(jìn)行采樣,增加了模型訓(xùn)練的時(shí)間。
Najibi等[33]提出了SSH,通過(guò)濾波器對(duì)上下文信息建模,構(gòu)建了選擇性細(xì)化網(wǎng)絡(luò)SRN(Selective Refinement Network)[34],如圖11所示[33]。該網(wǎng)絡(luò)將VGG網(wǎng)絡(luò)的卷積層輸出分為三支,每個(gè)分支的檢測(cè)和分類流程都相似,通過(guò)分析不同尺度的特征圖,完成多尺度的人臉檢測(cè),以優(yōu)化檢測(cè)性能,提升檢測(cè)精度。然而,由于中間層的輸出特征沒(méi)有足夠的辨別能力,需要對(duì)添加的分支進(jìn)行足夠的訓(xùn)練,這就加大了訓(xùn)練的難度,也增加了訓(xùn)練的時(shí)間。
圖11 SRN網(wǎng)絡(luò)Fig.11 SRN network
Zhang等[35]優(yōu)化了SRN算法,產(chǎn)生改進(jìn)的選擇性細(xì)化網(wǎng)絡(luò)(Improved Selective Refinement Network,ISRN)。Li等[36]基于PyramidBox模型,采用平衡數(shù)據(jù)錨采樣策略(Balanced Data Anchor Sampling)、密集上下文模塊(Dense Context Module)和多任務(wù)訓(xùn)練(Multi-task Training)得到PyramidBox++模型。ISRN檢測(cè)到900張人臉,PyramidBox++檢測(cè)出916張,算法在不損失速度的情況下提高了應(yīng)對(duì)復(fù)雜人臉的檢測(cè)精度。僅對(duì)小尺度人臉增強(qiáng)效果比較明顯,模型的穩(wěn)定性不夠高,當(dāng)逐漸增加人臉的尺度時(shí),模型的訓(xùn)練難度增加,訓(xùn)練所需的時(shí)間也隨之增長(zhǎng)。
Pathak等[37]結(jié)合上下文,提出了一種編碼器-解碼器架構(gòu)(Context Encoder-Decoder),來(lái)學(xué)習(xí)圖像特征并生成圖像待修補(bǔ)區(qū)域?qū)?yīng)的預(yù)測(cè)圖。如圖12所示[37],損失函數(shù)由兩部分組成:編碼解碼器部分的圖像內(nèi)容約束損失和GAN部分的對(duì)抗損失。其中的上下文編碼器是一個(gè)AlexNet,GAN網(wǎng)絡(luò)將編碼器學(xué)習(xí)到的特征與原始特征對(duì)比,通過(guò)生成模型和判別模型相互促進(jìn),使得補(bǔ)全后的圖像更具有真實(shí)性。由于模型僅判斷修復(fù)區(qū)域的圖像的真實(shí)性并不能保證修復(fù)區(qū)域和已知區(qū)域的一致性,當(dāng)缺失區(qū)域形狀多變時(shí),會(huì)造成修復(fù)區(qū)域邊界像素值的不連續(xù)性,產(chǎn)生模糊或不真實(shí)信息,這說(shuō)明模型的穩(wěn)定性不夠高。作者后來(lái)通過(guò)增加邊緣區(qū)域的權(quán)重值使得這個(gè)問(wèn)題得到一定程度的解決。
圖12 Context Encoder-Decoder網(wǎng)絡(luò)結(jié)構(gòu)Fig.12 Context Encoder-Decoder network
Song等[38]為了在修復(fù)過(guò)程中充分使用人臉特有結(jié)構(gòu)的幾何先驗(yàn)信息,提出了FCEN(Geometry-aware face completion and editing)模型,它利用人臉關(guān)鍵點(diǎn)熱力圖與分割圖學(xué)習(xí)幾何感知的人臉修復(fù)模型。如圖13所示,其中關(guān)鍵點(diǎn)熱力圖由幾個(gè)關(guān)鍵點(diǎn)組成,分割圖由眼睛、鼻子、嘴巴、頭發(fā)、背景等構(gòu)成,不同的部件用不同的像素值表征。FCEN模型首先根據(jù)遮擋的人臉圖像推理其對(duì)應(yīng)的關(guān)鍵點(diǎn)熱力圖與分割圖;然后將拼接后的遮擋圖像、關(guān)鍵點(diǎn)熱力圖與分割圖作為修復(fù)模型的輸入,去生成遮擋區(qū)域的內(nèi)容;最后在判別部分加入全局與局部判別器,促進(jìn)生成人臉的視覺(jué)逼真感與整體連貫性。同時(shí)采用低秩損失函數(shù)來(lái)提高人臉修復(fù)模型對(duì)非規(guī)則遮擋物的修復(fù)性能。由此可以看出,該模型訓(xùn)練需要的條件是:首先獲得人臉特有結(jié)構(gòu)的幾何先驗(yàn)信息才能開始修復(fù),且構(gòu)建熱力圖等使得模型的訓(xùn)練也有一定的難度。
圖13 FCEN模型Fig.13 FCEN model
Nazeri等[39]提出一種由邊緣生成器與圖像修復(fù)網(wǎng)絡(luò)組成的兩階段對(duì)抗模型Edgeconnect。如圖14所示,邊緣生成器恢復(fù)缺失區(qū)域的邊緣輪廓,修復(fù)網(wǎng)絡(luò)將恢復(fù)后的邊緣圖作為先驗(yàn)填充缺失區(qū)域,從而合成更精細(xì)的紋理與細(xì)節(jié)描述。然而,在實(shí)際的測(cè)試案例中,EdgeConnect并不能做到百分百還原真實(shí)的邊緣信息,模型訓(xùn)練存在一定的難度,因?yàn)檫吘壣赡P陀袝r(shí)無(wú)法準(zhǔn)確地描繪高度紋理化區(qū)域中的邊緣,或者當(dāng)圖像的大部分缺失時(shí),就無(wú)法生成相關(guān)邊緣信息的修復(fù)結(jié)果。研究者正在通過(guò)改善邊緣生成系統(tǒng),將該模型擴(kuò)展到高分辨率修復(fù)應(yīng)用之中。
圖14 Edgeconnect模型Fig.14 Edgeconnect model
武文杰等[40]為緩解遮擋部位與遮擋大小的限制,或修復(fù)后人臉圖像不夠連貫等問(wèn)題,提出了改進(jìn)的Wasserstein生成對(duì)抗網(wǎng)絡(luò)方法。它將卷積神經(jīng)網(wǎng)絡(luò)作為生成器模型,并在對(duì)應(yīng)層間加入跳躍連接來(lái)增強(qiáng)生成圖像的準(zhǔn)確性。在判別器中引入Wasserstein距離進(jìn)行判別,并引入梯度懲罰來(lái)完善判別器。在CelebA人臉數(shù)據(jù)集與LFW人臉數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),結(jié)果表明該方法的修復(fù)效果良好。與通過(guò)引入額外的構(gòu)建模塊導(dǎo)致更多的網(wǎng)絡(luò)參數(shù),從而增加GPU內(nèi)的方法不同,該方法通過(guò)加入跳躍連接的方法降低訓(xùn)練的難度,提升了性能。
前面介紹的有遮擋環(huán)境下的人臉識(shí)別產(chǎn)生的較好的識(shí)別效果,多數(shù)是建立在大型深度卷積網(wǎng)絡(luò)模型之上的,這需要大量的計(jì)算資源和性能高的處理器支持。在識(shí)別精度得到提高的同時(shí),隨之而來(lái)的就是效率問(wèn)題,特別是不利于將模型移植到移動(dòng)和嵌入式設(shè)備中使用。 效率問(wèn)題主要是模型的存儲(chǔ)和模型進(jìn)行預(yù)測(cè)的速度問(wèn)題。保存多層網(wǎng)絡(luò)的大量權(quán)值參數(shù)對(duì)設(shè)備的內(nèi)存要求很高,且在實(shí)際應(yīng)用中,往往要求響應(yīng)速度是毫秒級(jí)別,這就要求提高處理器性能,或者減少計(jì)算量。為了應(yīng)對(duì)這些問(wèn)題,調(diào)整深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)和參數(shù),使模型在速度和精度上取得平衡,在不顯著降低模型性能的同時(shí)如何對(duì)深度網(wǎng)絡(luò)進(jìn)行模型壓縮和加速成為了一個(gè)新的研究熱點(diǎn),出現(xiàn)了輕量化網(wǎng)絡(luò)模型。輕量化模型設(shè)計(jì)的主要思想在于設(shè)計(jì)更高效的網(wǎng)絡(luò)計(jì)算方式(主要針對(duì)主干網(wǎng)卷積),在減少網(wǎng)絡(luò)參數(shù)的同時(shí),不損失網(wǎng)絡(luò)性能。構(gòu)造輕量化神經(jīng)網(wǎng)絡(luò)的要求是參數(shù)少、速度快和精度高,以此模型訓(xùn)練的難度。
SqueezeNet(design strategies for CNN architectures with few parameters)[41]模型,如圖15所示,使用1×11×1卷積代替3×33×3卷積,參數(shù)減少為原來(lái)的1/9;通過(guò)squeeze layers減少輸入通道數(shù)量,將欠采樣操作延后,給卷積層提供更大的激活圖,保留了更多的信息,可提供更高的分類準(zhǔn)確率。從模型結(jié)構(gòu)上來(lái)看,SqueezeNet的核心為Fire模塊,輸入層先通過(guò)squeeze卷積層進(jìn)行維度壓縮,然后通過(guò)expand卷積層進(jìn)行維度擴(kuò)展。它在ImageNet數(shù)據(jù)集上獲得了AlexNet(參數(shù)量為6 000萬(wàn))級(jí)別的準(zhǔn)確度,而網(wǎng)絡(luò)參數(shù)減少了98%。結(jié)合模型壓縮技術(shù),不降低檢測(cè)精度的同時(shí),將原始AlexNet模型壓縮至原來(lái)的1/500。模型產(chǎn)生較好效果的條件是要求數(shù)據(jù)集具有較好的平衡性,否則影響模型的穩(wěn)定性。當(dāng)數(shù)據(jù)集樣本不平衡時(shí),會(huì)影響分類結(jié)果。同時(shí),需要權(quán)衡好兩種卷積核的比例,這是模型在體積和精度之間選擇的條件。
圖15 SqueezeNet的Fire模塊結(jié)構(gòu)Fig.15 Fire module of SqueezeNet
Google提出的移動(dòng)端模型MobileNet[43]采用了深度級(jí)可分離卷積(depthwise separable convolution),分解為兩個(gè)更小的操作:depthwise convolution和pointwise convolution。標(biāo)準(zhǔn)卷積中卷積核是用在所有的輸入通道上,而depthwise convolution則不同,它針對(duì)每個(gè)輸入通道采用不同的卷積核,一個(gè)卷積核對(duì)應(yīng)一個(gè)輸入通道,pointwise convolution是普通的卷積,只不過(guò)其采用1×1的卷積核。Depthwise separable convolution首先采用depthwise convolution對(duì)不同輸入通道分別進(jìn)行卷積,然后采用pointwise convolution將上面的輸出再進(jìn)行結(jié)合,大大減少了計(jì)算量和模型參數(shù)量,模型訓(xùn)練難度不大,有較好的穩(wěn)定性。MobileNet V1模型在細(xì)粒度識(shí)別中達(dá)到了Inception V3的效果,并且減少了計(jì)算量和尺寸。不足之處是損失了一定的精確性。
MobilefaceNets衍生于MobileNet V2,被認(rèn)為是擁有工業(yè)級(jí)精度和速度的一種輕量級(jí)人臉識(shí)別網(wǎng)絡(luò),模型大小只有4 MB,專為人臉識(shí)別任務(wù)設(shè)計(jì)。它從三個(gè)方面改進(jìn)了MobileNet V2。一是針對(duì)平均池化層,采用了可分離卷積代替平均池化層。二是針對(duì)人臉識(shí)別任務(wù),采用ArcFace的損失函數(shù)進(jìn)行訓(xùn)練。三是針對(duì)網(wǎng)絡(luò)結(jié)構(gòu),通道擴(kuò)張倍數(shù)變小,使用Prelu激活函數(shù)代替relu激活函數(shù),以此減低模型的訓(xùn)練難度。在LFW人臉識(shí)別訓(xùn)練集的測(cè)試結(jié)果表明,模型訓(xùn)練難度不大,穩(wěn)定性好,MobilefaceNets明顯準(zhǔn)確率更高,速度更快,體積更小。
ShuffleNet[44]使用逐點(diǎn)群卷積和通道混洗的方式降低計(jì)算成本,實(shí)現(xiàn)了比MobileNet V1更高的效率。ShuffleNet V2使用了Channel-Split模塊,使得模型的性能進(jìn)一步提高。模型如圖16所示。模型的不足之處在于會(huì)產(chǎn)生邊界效應(yīng),即某個(gè)輸出channel僅僅來(lái)自輸入channel的一小部分,對(duì)完整性和模型的穩(wěn)定性有一定的影響。
圖16 ShuffleNet模型Fig.16 ShuffleNet model
張典等[45]提出了一種深度卷積神經(jīng)網(wǎng)絡(luò)模型Lightfacenet,目標(biāo)也是構(gòu)造輕量化神經(jīng)網(wǎng)絡(luò)單元,緩解深層的神經(jīng)網(wǎng)絡(luò)帶來(lái)的參數(shù)冗余和計(jì)算量大的問(wèn)題,降低模型的訓(xùn)練難度。它將深度可分離卷積、逐點(diǎn)卷積、瓶頸結(jié)構(gòu)和擠壓與激勵(lì)結(jié)構(gòu)相結(jié)合,再通過(guò)改進(jìn)的非線性激活函數(shù)進(jìn)一步提高網(wǎng)絡(luò)識(shí)別的準(zhǔn)確性。該模型在LFW數(shù)據(jù)集上達(dá)到了99.50%的準(zhǔn)確率。非線性激活函數(shù)的選擇是影響模型的一個(gè)條件。
徐先峰等[46]提出的IMISC-NN由一對(duì)結(jié)構(gòu)相同、權(quán)值共享的CNN組成的孿生卷積神經(jīng)網(wǎng)絡(luò)構(gòu)成,引入Inception模型來(lái)提取更加豐富的人臉特征,同時(shí)使用循環(huán)學(xué)習(xí)率優(yōu)化策略來(lái)加快訓(xùn)練速度,用較少的全局循環(huán)可找到最優(yōu)的學(xué)習(xí)率,降低了相同識(shí)別率所需要的迭代次數(shù),減小了訓(xùn)練成本和難度,具有較好的收斂性。在CASIA-webface和Extended Yale B標(biāo)準(zhǔn)人臉數(shù)據(jù)庫(kù)進(jìn)行了訓(xùn)練與測(cè)試,能夠達(dá)到較高的識(shí)別精度。但是,適用條件是目前僅適用于解決非限定性條件下的小規(guī)模數(shù)據(jù)集的人臉識(shí)別,說(shuō)明模型的穩(wěn)定性不高。
申建坤等[47]精簡(jiǎn)了原始的MobileNet V2網(wǎng)絡(luò)結(jié)構(gòu),去除了原始網(wǎng)絡(luò)中的殘差塊,來(lái)減少網(wǎng)絡(luò)的卷積層數(shù)和網(wǎng)絡(luò)的參數(shù)量。通過(guò)降低殘差結(jié)構(gòu)中的擴(kuò)張系數(shù),修改在通道擴(kuò)張為并行擴(kuò)張的方式,使網(wǎng)絡(luò)具有較小的內(nèi)存訪問(wèn)成本,增加實(shí)際的運(yùn)行速度。最后,采用了空間可分離卷積與深度可分離卷積特征進(jìn)行融合的方式,使二者在特征上可以進(jìn)行相互彌補(bǔ),提高識(shí)別精度。同時(shí),改變了損失函數(shù),將Softmax loss改變?yōu)锳rcface,通過(guò)增加對(duì)網(wǎng)絡(luò)的約束能力使得網(wǎng)絡(luò)提取的特征更加具有可分性和魯棒性,增加了模型的穩(wěn)定性,同樣訓(xùn)練條件下網(wǎng)絡(luò)模型尺寸降低為2.3 MB,LFW的測(cè)試精度為99.53%,模型速度是MobileNet V2的5倍,訓(xùn)練難度進(jìn)一步降低。
總的來(lái)看,基于深度學(xué)習(xí)的遮擋人臉檢測(cè)算法在處理背景復(fù)雜、姿態(tài)多變的自然場(chǎng)景人臉檢測(cè)問(wèn)題方面具有優(yōu)越性,在修復(fù)圖像的真實(shí)性上都有較好表現(xiàn),然而同樣面臨網(wǎng)絡(luò)訓(xùn)練困難、訓(xùn)練的穩(wěn)定性較差的問(wèn)題。如何在不影響GAN網(wǎng)絡(luò)收斂的情況下促使特征提取順利進(jìn)行,實(shí)現(xiàn)人臉去遮擋任務(wù)和人臉特征提取任務(wù),是一個(gè)難題。另外,如何設(shè)計(jì)更有效的損失函數(shù),使其能夠精準(zhǔn)指引訓(xùn)練進(jìn)程、生成多樣化樣本仍是需要繼續(xù)深化研究的問(wèn)題。同時(shí),面對(duì)新的移動(dòng)和應(yīng)用場(chǎng)景提供更好的模型,也是一個(gè)值得關(guān)注的方面。上述相關(guān)方法的分析對(duì)比如表1所示。
表1 相關(guān)模型比對(duì)Table 1 Comparison of related models
一個(gè)數(shù)據(jù)完備、變化多樣、標(biāo)注良好的遮擋人臉數(shù)據(jù)集是測(cè)試和提升模型性能的基礎(chǔ)。目前通用人臉數(shù)據(jù)集較多[48-50],然而針對(duì)遮擋人臉問(wèn)題設(shè)計(jì)的數(shù)據(jù)集仍不夠豐富。開源數(shù)據(jù)集有FDDB(Face Detection Data Set and Benchmark)[51]、AFW(Annotated Faces in the Wild,AFW)、AFLW、Wider Face[52]、300W(300 faces inthe-wild challenge)、MAFA和COFW[53]等。其中,F(xiàn)DDB、AFW、AFLW和300W是自然場(chǎng)景下的人臉數(shù)據(jù)集,場(chǎng)景比較豐富,適用于遮擋人臉檢測(cè)問(wèn)題,WiderFace、MAFA、COFW則是特別標(biāo)注了人臉遮擋屬性的數(shù)據(jù)集。下面逐一介紹。
(1)FDDB是人臉檢測(cè)數(shù)據(jù)集和基準(zhǔn)測(cè)試集,是一個(gè)關(guān)于人臉區(qū)域的數(shù)據(jù)集,用于研究非約束環(huán)境下人臉檢測(cè)問(wèn)題。數(shù)據(jù)集含2 845張圖片,包含了大量遮擋、分辨率低、姿態(tài)各異等情況,并提供單獨(dú)評(píng)分和連續(xù)評(píng)分兩種評(píng)分方式。不同算法的評(píng)分值通過(guò)ROC曲線直觀進(jìn)行比較。
中國(guó)水利:我國(guó)糧食生產(chǎn)實(shí)現(xiàn)“十連增”,農(nóng)田水利基礎(chǔ)設(shè)施作用功不可沒(méi)。請(qǐng)您談?wù)劷衲贽r(nóng)田水利建設(shè)開展的情況。
(2)AFW是早期為測(cè)評(píng)模型在自然場(chǎng)景下檢測(cè)能力而提出的數(shù)據(jù)集,標(biāo)注了矩形邊界框,6個(gè)關(guān)鍵點(diǎn)及3種姿態(tài)變,僅有205張圖片。由于數(shù)據(jù)量較小,常被用作測(cè)試集。
(3)AFLW數(shù)據(jù)集包含21 997張人臉和拍照環(huán)境變化較大的圖片,數(shù)據(jù)豐富,用橢圓框、矩形框等進(jìn)行了清晰的標(biāo)注。
(4)300W數(shù)據(jù)集是一個(gè)人臉關(guān)鍵點(diǎn)檢測(cè)數(shù)據(jù)集,并用于300W Challenge挑戰(zhàn)賽的基準(zhǔn)測(cè)試。由于數(shù)據(jù)來(lái)源多樣,模型的泛化能力較好,已得到使用廣泛。它包括AFW、LFPW、HELEN和IBUG四個(gè)數(shù)據(jù)集,人臉圖像樣本均為不受約束環(huán)境中采集得到的。每個(gè)人臉圖像標(biāo)記有68個(gè)關(guān)鍵點(diǎn),訓(xùn)練集含3 146張圖像。
(5)Wider Face數(shù)據(jù)集是從數(shù)據(jù)集Wider中選取了32 203個(gè)圖像并進(jìn)行了人臉標(biāo)記,分為61個(gè)類。每一類別的訓(xùn)練、驗(yàn)證和測(cè)試集比例都是4∶1∶5。該數(shù)據(jù)集含有姿勢(shì)和遮擋度變化較大的樣本,且變換比較復(fù)雜,是目前開源數(shù)據(jù)集中檢測(cè)難度大,數(shù)據(jù)多樣性高的數(shù)據(jù)集之一。
(6)COFW數(shù)據(jù)集來(lái)自美國(guó)加州理工學(xué)院,是規(guī)模較小的遮擋檢測(cè)數(shù)據(jù)集,包含1 852張含遮擋的注釋人臉。其中訓(xùn)練集包含1 345張包未含遮擋的圖片,測(cè)試集包含507張包含遮擋的圖片,平均遮擋率約23%,其中329張圖片被遮擋的點(diǎn)位超過(guò)30%,屬重度遮擋,剩余的178張則是輕微遮擋。
(7)MAFA數(shù)據(jù)集由30 811個(gè)無(wú)遮擋和35 806個(gè)有遮擋圖像構(gòu)成,有多種不同的遮擋尺度,是目前專門用于人臉遮擋的數(shù)據(jù)集。數(shù)據(jù)集被人工標(biāo)注了6種屬性,分別是人臉位置、眼鏡位置、遮擋位置、面孔朝向、遮擋程度和遮擋類型(單一顏色的人造遮擋/具有復(fù)雜紋路的人造遮擋物/人體遮擋及混合遮擋),可用于構(gòu)建基于深度學(xué)習(xí)的復(fù)雜的遮擋人臉識(shí)別數(shù)據(jù)集,以及對(duì)模型的訓(xùn)練和優(yōu)化中。
(8)WFLW[54]是基于Wider Face的一個(gè)用于人臉關(guān)鍵點(diǎn)檢測(cè)的數(shù)據(jù)集,用于評(píng)估檢測(cè)算法對(duì)大角度姿勢(shì)、嚴(yán)重遮擋和復(fù)雜表情下的魯棒性。訓(xùn)練集由7 500張標(biāo)記有98個(gè)關(guān)鍵點(diǎn)的人臉圖像構(gòu)成,測(cè)試集含6個(gè)類別(姿態(tài)、表情、光照、化妝、遮擋、模糊子集),共2 500張圖像。圖像間在表情、姿勢(shì)和遮擋方面差異較大。
常用人臉識(shí)別遮擋數(shù)據(jù)集信息如表2和表3所示。
表2 常用人臉識(shí)別遮擋數(shù)據(jù)集描述Table 2 Description of occlusion data sets for face recognition
表3 常用人臉識(shí)別遮擋數(shù)據(jù)集采樣參數(shù)Table 3 Sampling parameters of occlusion data sets for common face recognition
評(píng)估指標(biāo)主要用于評(píng)估人臉識(shí)別模型的好壞,即評(píng)估訓(xùn)練好的模型在測(cè)試集中的準(zhǔn)確率。較為常見的評(píng)估指標(biāo)有:召回率、誤識(shí)率、準(zhǔn)確率、精準(zhǔn)率以及ROC曲線等。
在二分類問(wèn)題中,數(shù)據(jù)集的所有樣本可以被分為兩類,即正類(positive)和負(fù)類(negative)。當(dāng)樣本輸入一個(gè)分類器后,會(huì)有以下四種情況:該樣本屬于正類且分類器也將該樣本預(yù)測(cè)為正類,稱為TP(True Positive);該樣本屬于負(fù)類但分類器將該樣本預(yù)測(cè)為正類,稱為FP(False Positive);該樣本屬于負(fù)類且分類器也將該樣本預(yù)測(cè)為負(fù)類,稱為TN(True Negative);該樣本屬于負(fù)類但分類器將該樣本預(yù)測(cè)為正類,稱為FN(False Negative)。表4列出了二分類的所有預(yù)測(cè)結(jié)果。TP+FP+TN+FN=樣本總數(shù)。
表4 二分類預(yù)測(cè)結(jié)果Table 4 Prediction results of two types classification
準(zhǔn)確率(Accuracy)是指在所有樣本中可以被分類器正確分類的樣本數(shù)量所占的比例。一般是用來(lái)評(píng)估模型的全局準(zhǔn)確程度,定義如式(1):
精準(zhǔn)率(查準(zhǔn)率,Precision)是指當(dāng)樣本被分類器分類為正類時(shí),其中確實(shí)為正類的比例。在人臉識(shí)別中,該指標(biāo)越高說(shuō)明誤檢越少,定義如式(2):
誤識(shí)率FAR(False Accept Rate)或稱為假正類率,指分類器將負(fù)類樣本誤判為正類樣本的比例,定義如式(3)。FAR越低,人臉假冒者被接受的可能性越低,系統(tǒng)安全性越高。因此,它是衡量算法不正確接受,即無(wú)效輸入的百分比。
召回率(查全率,Recall)指分類器分類正確的正類樣本與所有實(shí)際為正類樣本的比例,定義如式(4):
真正類率TPR(True Positive Rate)指正類樣本被分類器正確分為正類的比例,定義如式(5):
真負(fù)類率TNR(True Negative Rate)指負(fù)類樣本被分類器正確分類為負(fù)類的比例,定義如式(6):
假負(fù)類率FNR(False Negative Rate)指負(fù)類樣本被分類器錯(cuò)分為正類的比例,定義如式(7):
為了能夠評(píng)價(jià)不同算法的優(yōu)劣,在Precision和Recall的基礎(chǔ)上提出了F1值的概念,用來(lái)綜合評(píng)價(jià)精準(zhǔn)率和召回率。定義如式(8):
ROC曲線(Receiver Operating Characteristic Curve,ROC曲線,受試者工作特征曲線)。ROC曲線以FPR為橫坐標(biāo),TPR為縱坐標(biāo)所繪的坐標(biāo)圖。越好的分類器,ROC曲線就應(yīng)該盡可能靠近圖形的左上角。在人臉識(shí)別場(chǎng)景下,通常用它來(lái)評(píng)估模型的誤識(shí)別水平。
AUC(Area under Curve)被定義為ROC曲線下的面積,介于0.1和1之間,作為數(shù)值可以直觀地評(píng)價(jià)分類器的好壞,值越大越好。由于ROC曲線并不能清晰地說(shuō)明哪個(gè)分類器的效果更好,而作為一個(gè)數(shù)值,對(duì)應(yīng)AUC更大的分類器效果更好,正確率越高,因此常常使用AUC值作為評(píng)價(jià)標(biāo)準(zhǔn)。
如圖17所示,紅線(實(shí)線)是ROC曲線,黃色區(qū)域(陰影部分)表示AUC。
圖17 ROC曲線和AUC區(qū)域Fig.17 ROC curve and AUC region
混淆矩陣又稱誤差矩陣,是一個(gè)全面評(píng)估模型的常用手段。把每個(gè)類別下,模型預(yù)測(cè)錯(cuò)誤的結(jié)果數(shù)量或比例,以及錯(cuò)誤預(yù)測(cè)的類別和正確預(yù)測(cè)的數(shù)量或比例都在同一個(gè)矩陣中顯示出來(lái),可方便直觀地評(píng)價(jià)模型分類結(jié)果。
基于深度學(xué)習(xí)的有遮擋人臉識(shí)別方法通過(guò)構(gòu)建合適的深度網(wǎng)絡(luò)結(jié)構(gòu)和上下文相關(guān)信息的支持,并結(jié)合數(shù)據(jù)增強(qiáng)、錨框設(shè)計(jì)和損失函數(shù)設(shè)計(jì)等,對(duì)姿態(tài)變化和局部遮擋有較好的處理能力,在高速硬件的支持下算法檢測(cè)速度和準(zhǔn)確率亦可得到較大提升,有較好的環(huán)境適應(yīng)性和魯棒性。其不足之處在于:復(fù)雜的深度網(wǎng)絡(luò)結(jié)構(gòu)和過(guò)多的網(wǎng)絡(luò)參數(shù)會(huì)導(dǎo)致遮擋人臉識(shí)別的計(jì)算量較大,訓(xùn)練難度加大,算力要求較高,相關(guān)測(cè)試數(shù)據(jù)集亟需擴(kuò)充。
(1)加強(qiáng)對(duì)基于深度學(xué)習(xí)的基礎(chǔ)模型框架的創(chuàng)新及優(yōu)化,支持更多移動(dòng)端和嵌入式應(yīng)用。這包括設(shè)計(jì)輕量型網(wǎng)絡(luò)架構(gòu),發(fā)展高效的訓(xùn)練算法,使其能夠部署在低成本、低功耗和低計(jì)算量移動(dòng)設(shè)備、嵌入式設(shè)備的處理平臺(tái)上,降低對(duì)硬件設(shè)備的要求。一是可以通過(guò)對(duì)訓(xùn)練好的復(fù)雜模型進(jìn)行壓縮得到小模型;二是直接設(shè)計(jì)小模型并進(jìn)行訓(xùn)練和調(diào)優(yōu)。
(2)優(yōu)化損失函數(shù),增加模型的穩(wěn)定性。設(shè)計(jì)優(yōu)良的損失函數(shù),來(lái)最大化實(shí)現(xiàn)類內(nèi)特征的聚合與類間特征的離散,以提升網(wǎng)絡(luò)對(duì)于特異性特征向量的建模能力,減少模型收斂過(guò)程中的震蕩,使收斂過(guò)程更加穩(wěn)定。
(3)利用多模態(tài)生物特征,推進(jìn)多特征、多模型、多算法的有機(jī)結(jié)合。持續(xù)探索人體生理特性(如指紋、指靜脈、人臉、虹膜等)和行為特征(如筆跡、聲音、步態(tài)等)的融合,充分發(fā)揮不同的生物識(shí)別技術(shù)在精度、穩(wěn)定性、識(shí)別速度、便捷性方面的優(yōu)勢(shì)。一方面是加強(qiáng)對(duì)抗神經(jīng)網(wǎng)絡(luò)、注意力機(jī)制和多種信息融合等方面的探索,在保證檢測(cè)精度的同時(shí)降低模型訓(xùn)練難度,更好地提升算法的魯棒性。另一方面探索更精細(xì)的模態(tài)數(shù)據(jù)特征表示,使得多模態(tài)數(shù)據(jù)在語(yǔ)義空間上實(shí)現(xiàn)更好的信息交流。
(4)構(gòu)建用于遮擋人臉檢測(cè)的專門數(shù)據(jù)集和評(píng)測(cè)標(biāo)準(zhǔn),以優(yōu)化模型的訓(xùn)練,提高模型精度、魯棒性和實(shí)時(shí)性,形成數(shù)據(jù)量大且具有姿勢(shì)、光照、遮擋、尺寸等復(fù)雜變化的標(biāo)注和屬性準(zhǔn)確描述的數(shù)據(jù)集也是未來(lái)的重要工作之一。由于包含遮擋等復(fù)雜場(chǎng)景的數(shù)據(jù)集不可能包含所有場(chǎng)景,故可結(jié)合半監(jiān)督、無(wú)監(jiān)督或遷移學(xué)習(xí)方法來(lái)進(jìn)行探索。
(5)推進(jìn)3D人臉識(shí)別研究,加強(qiáng)三維人臉數(shù)據(jù)集的建設(shè)。充分利用其穩(wěn)定的空間幾何信息,減少人臉在識(shí)別階段因光照、視圖的變化而導(dǎo)致的結(jié)果偏差。