• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      面向低質(zhì)量數(shù)據(jù)的3D 人臉識別

      2021-01-22 09:20:08勛,周
      關(guān)鍵詞:低質(zhì)量特征向量人臉識別

      龔 勛,周 煬

      (西南交通大學(xué)信息科學(xué)與技術(shù)學(xué)院 成都 611756)

      人臉作為人類的內(nèi)在屬性,具有唯一性和確定性,因此人臉識別被視為一種非侵入性的生物特征[1]正迅速成為身份識別和監(jiān)控領(lǐng)域的主要工具之一。得益于互聯(lián)網(wǎng)搜索技術(shù)的進(jìn)步,2D 人臉數(shù)據(jù)集可以方便地通過網(wǎng)絡(luò)搜索技術(shù)獲取,因此數(shù)據(jù)規(guī)模通常是百萬級的。在海量數(shù)據(jù)的支持下,基于卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks, CNN)的人臉識別算法在2D 人臉識別上發(fā)揮了巨大的潛力。如FaceNet[2]使用200 萬人臉數(shù)據(jù)來訓(xùn)練CNN,在LFW[3]測試基準(zhǔn)上達(dá)到99.63%的準(zhǔn)確率,超過了人類的水平。由于2D 人臉數(shù)據(jù)規(guī)模足夠大,當(dāng)前的2D 人臉識別的研究[2,4-7]主要集中在設(shè)計(jì)更合理的損失函數(shù),讓不同身份間的人臉特征更加分離,相同身份間的人臉特征聚集更緊湊。盡管性能得到了較大提升,但2D 人臉僅包含圖像的紋理信息,仍不可避免地受到光照、姿態(tài)、表情等因素的干擾[8]。

      3D 人臉除了包含基本的紋理信息,也包含人臉的深度信息,本質(zhì)上可以不受光照變化的約束,能夠克服2D 人臉識別的不足。因此,關(guān)于3D 人臉的識別越來越受到研究者的重視[9-13]。3D 人臉的數(shù)據(jù)采集不能像2D 人臉數(shù)據(jù)[14-16]一樣通過網(wǎng)絡(luò)搜索收集,只能通過特定的三維相機(jī)獲取,經(jīng)濟(jì)及時間代價高,導(dǎo)致3D 數(shù)據(jù)量非常有限。當(dāng)前主要的高質(zhì)量3D 數(shù)據(jù)集ND-2006[17]只包含888 個人的13 450 個模型,Bosphorus[18]只包含105 個人的4 666個模型。這與2D 人臉數(shù)據(jù)集中的MS-Celeb-1M[19]10 萬個人的1 000 萬張人臉圖片,Casia-WebFace[20]1 萬個人的47 萬張人臉圖片相差甚遠(yuǎn)。由于數(shù)據(jù)規(guī)模小且質(zhì)量較高,高質(zhì)量3D 人臉識別難度相對低質(zhì)量人臉數(shù)據(jù)較低,3D 高質(zhì)量人臉識別方法[21]在多個測試標(biāo)準(zhǔn)上如FRGCv2[22]、Bosphorus[18]和BU-3DFE[23]上已經(jīng)接近滿分。但是,高質(zhì)量3D 人臉數(shù)據(jù)采集時間成本高、采集流程復(fù)雜、設(shè)備昂貴且需要對象配合,一定程度上限制了3D 人臉識別技術(shù)的發(fā)展。

      相對于高精度掃描儀,低精度設(shè)備(如Microsoft Kinect,Intel RealSense 等)價格低廉、使用方便,具備更廣闊的應(yīng)用場景。與高質(zhì)量3D 人臉相比,低質(zhì)量人臉圖像表面有大量的毛刺、孔洞,識別難度更高,通常這類數(shù)據(jù)更多使用在姿態(tài)估計(jì)[24]和行為識別[25]等領(lǐng)域。雖在人臉識別[11,16-18,26]上也存在一些嘗試,但所涉及的數(shù)據(jù)規(guī)模有限,實(shí)用性不足。在大規(guī)模低質(zhì)量3D 人臉數(shù)據(jù)集Lock3dFace[27]上當(dāng)前最高的識別準(zhǔn)確率Led3D[28]只有54.28%。

      基于以上分析,研究基于消費(fèi)級相機(jī)采集的低質(zhì)量3D 人臉數(shù)據(jù)應(yīng)用價值強(qiáng),是3D 人臉識別未來的發(fā)展趨勢。針對這類數(shù)據(jù),本文提出了SAD和IR Loss 兩種新方法,基于低質(zhì)量的3D 人臉的幾何信息實(shí)現(xiàn)3D 人臉識別。SAD 和IR Loss 可以作為兩個獨(dú)立的模塊嵌入到CNN 網(wǎng)絡(luò)訓(xùn)練過程中。在推理階段,這兩個模塊都不會參與運(yùn)算,不會影響網(wǎng)絡(luò)的運(yùn)行效率。與當(dāng)前Lock3DFace[27]數(shù)據(jù)集準(zhǔn)確率最高的測試模型Led3D 相比,在不清理任何測試數(shù)據(jù)的情況下,本文方法準(zhǔn)確率達(dá)54.83%,而在遮擋和姿態(tài)子集,本文方法的準(zhǔn)確率分別有17.46%和7.54%的提升。

      1 相關(guān)工作

      本節(jié)從高質(zhì)量和低質(zhì)量兩方面簡要介紹3D 人臉識別方法、人臉識別損失函數(shù)及CNN 中的Dropout 方案的相關(guān)工作。

      1) 高質(zhì)量3D 人臉識別。近年來,隨著傳感器技術(shù)的進(jìn)步和高質(zhì)量3D 人臉模型數(shù)據(jù)庫的推廣,3D 人臉識別技術(shù)得到了較大的發(fā)展。與2D 人臉識別領(lǐng)域相比,基于3D 人臉的深度學(xué)習(xí)方法的探索并不廣泛,這主要是因?yàn)槿狈Υ笠?guī)模公共3D 數(shù)據(jù)庫?;谏疃葘W(xué)習(xí)的人臉識別技術(shù)對數(shù)據(jù)規(guī)模極度依賴,因此需要對人臉數(shù)據(jù)進(jìn)行增強(qiáng)。文獻(xiàn)[10]整合現(xiàn)有基準(zhǔn),通過生成表達(dá)式和姿勢以及隨機(jī)裁剪增加樣本,生成10 K 增強(qiáng)深度人臉,使用這些數(shù)據(jù)在2D 人臉預(yù)訓(xùn)練模型VGG-Face[29]網(wǎng)絡(luò)上微調(diào),在Bosphorus[18]測試基準(zhǔn)上取得當(dāng)時最高的精度98.1%。文獻(xiàn)[21]通過添加私有數(shù)據(jù)集和合成虛擬ID 進(jìn)一步增強(qiáng)數(shù)據(jù),并從零開始訓(xùn)練深度模型,在多個3D 人臉測試標(biāo)準(zhǔn)[17-18]上都較高。高質(zhì)量深度人臉因?yàn)槿狈Υ笠?guī)模的統(tǒng)一測試數(shù)據(jù)集,測試結(jié)果基本接近滿分。

      2) 低質(zhì)量3D 人臉識別。對于低質(zhì)量數(shù)據(jù)的3D人臉識別,研究比較有限。最先采用傳統(tǒng)的特征提取方式,如ICP、PCA、LBP 和HOG,并出現(xiàn)一些 效 果 較 好 的 方 法[9,11,13,30]。但 這 些 方 法 使 用 的 數(shù)據(jù)庫在主題或圖像數(shù)量方面很小,所涉及的變化和數(shù)量也很少。文獻(xiàn)[31]使用孿生神經(jīng)網(wǎng)絡(luò)進(jìn)行RGB和深度圖像的訓(xùn)練,用于面部驗(yàn)證任務(wù)。文獻(xiàn)[32]在文獻(xiàn)[11]的基礎(chǔ)上,采用了一種稱為基于學(xué)習(xí)的重建方法,使用自動編碼器從RGB 和深度圖像中獲取映射函數(shù),并使用映射函數(shù)中重構(gòu)的圖像進(jìn)行識別。文獻(xiàn)[33]使用交叉質(zhì)量數(shù)據(jù)驗(yàn)證,低質(zhì)量3D 人臉識別難度更大。文獻(xiàn)[32]使用深度學(xué)習(xí)技術(shù)解決了特征融合問題,將RGB 和深度兩種模式提供的共同和互補(bǔ)信息有效融合。這些方法除了使用幾何信息,還使用了RGB 信息,但并不能完全克服2D 人臉識別中光照、姿態(tài)等造成的影響,而本文只使用了幾何信息。

      3) 人臉識別中的損失函數(shù)。損失函數(shù)是深度學(xué)習(xí)的關(guān)鍵部分,是人臉識別方向的研究熱點(diǎn),在大規(guī)模數(shù)據(jù)上充分提取到訓(xùn)練數(shù)據(jù)的信息至關(guān)重要。人臉識別中的損失函數(shù)的主要目的是增大不同身份人臉特征向量的類間距離以及縮小相同身份人臉特征向量的類內(nèi)距離,使用這一思路懲罰網(wǎng)絡(luò),使相同身份人臉的特征向量聚集在一起。早期的損失函數(shù)主要是基于歐式距離的損失,如triplet loss[2],它主要構(gòu)建不同的正負(fù)樣本對,利用歐氏距離來度量特征之間的相似性。后來在這些方法的基礎(chǔ)上衍生出center loss[34]和range loss[35],通過最小化類與類中心之間的歐式距離來訓(xùn)練整個模型。但是基于歐式空間的約束不足以實(shí)現(xiàn)最優(yōu)泛化,所以在之后的工作中,研究者改進(jìn)Softmax 損失函數(shù)來增大人臉特征向量類間距離的同時減小類內(nèi)距離,如LSoftmax[36],Am-Softmax[37]。在最近的研究中增加margin 的人臉識別損失能夠增加模型學(xué)習(xí)的難度,所以將角度約束集成到Softmax 損失函數(shù)中,SphereFace[4]、CosFace[5]、ArcFace[6]都應(yīng)用了這種思想。本文方法首次將2D 人臉識別中的聚類中心的思想運(yùn)用到3D 人臉識別,并根據(jù)低質(zhì)量3D 數(shù)據(jù)存在噪聲信息的特點(diǎn),提出新的類間正則化損失函數(shù)。與ArcFace[6]相比,本文方法除使用margin來降低人臉特征向量與類中心的相似度外,還對不同類別的類中心進(jìn)行顯示約束,讓歐氏距離最近的不同類別的類中心相似度變低,避免了類中心相似度越高,不同身份人臉相似度越高的問題。

      4) Dropout[38]是一種用于緩解神經(jīng)網(wǎng)絡(luò)過擬合的正則化技術(shù)。具體來說,在訓(xùn)練階段,對神經(jīng)網(wǎng)絡(luò)全連接層的每個隱藏節(jié)點(diǎn)隨機(jī)置零,丟棄部分信息。這樣網(wǎng)絡(luò)在學(xué)習(xí)的過程中魯棒性更高,達(dá)到良好的正則化效果。與全連接層不同的是,Dropout不能在卷積特征圖上使用,因?yàn)榭臻g相鄰像素在卷積特征圖上具有很強(qiáng)的相關(guān)性,它們共享冗余的上下文信息。因此,傳統(tǒng)的基于像素的Dropout 不能完全拋棄卷積特征圖信息。為了在卷積層上應(yīng)用Dropout,文獻(xiàn)[39]提出了MaxDrop,即在特征圖上通過通道或空間的方式去除最大激活的像素,這種方法能刪除強(qiáng)激活的神經(jīng)元,但也存在一定的局限性,因?yàn)榫矸e操作會共享周圍的神經(jīng)元信息,從而降低丟棄后的效果。文獻(xiàn)[40]提出了Spatial Dropout,即隨機(jī)丟棄特征圖的部分通道,而不是丟棄每個像素。這種基于通道的丟失,可以解決像素丟失的問題。本文方法與Spatial Dropout 的不同之處在于,本文只去除強(qiáng)激活區(qū)域,而不是整個通道區(qū)域。并且本文的方法只在最后一層的卷積層使用,不存在被共享特征的上下文信息。

      2 人臉點(diǎn)云處理

      3D 人臉主要是由空間中一系列的點(diǎn)組成,將所有的點(diǎn)按照x,y,z坐標(biāo)放置在對應(yīng)的坐標(biāo)系下得到的一個點(diǎn)集合。由于構(gòu)成人臉點(diǎn)云數(shù)據(jù)規(guī)模較大,為了易于數(shù)據(jù)對齊并充分利用點(diǎn)云的幾何及拓?fù)湫畔?,本文首先?D 點(diǎn)云數(shù)據(jù)進(jìn)行預(yù)處理,然后生成深度幾何圖像用于后續(xù)識別。本節(jié)主要描述點(diǎn)云數(shù)據(jù)的處理過程,包括鼻尖校準(zhǔn)、人臉標(biāo)準(zhǔn)化、數(shù)據(jù)增強(qiáng)和幾何人臉表示。數(shù)據(jù)處理流程如圖1 所示。

      圖1 人臉點(diǎn)云數(shù)據(jù)處理流程

      2.1 鼻尖校準(zhǔn)

      鼻尖通常被作為3D 人臉的原點(diǎn),鼻尖位置深度值不準(zhǔn)確會干擾三維人臉的表示。雖然現(xiàn)有數(shù)據(jù)集(如Lock3DFace[27])提供了鼻尖位置的x和y軸坐標(biāo),但在低質(zhì)量3D 人臉上存在大量的毛刺和孔洞,通常會導(dǎo)致位置不準(zhǔn)確。本文以給定的xy軸坐標(biāo)為中心,周圍選擇10×10 的網(wǎng)格,以其中值作為鼻尖位置的深度值,如圖1a 所示。需要注意的是,對于原始數(shù)據(jù)集中未提供鼻尖位置的少量樣本,本文使用手動標(biāo)注的方式設(shè)定鼻尖位置。

      2.2 人臉標(biāo)準(zhǔn)化

      在3D 人臉數(shù)據(jù)集中,除包含人臉信息外還包含大量的背景信息。在確定鼻尖位置之后,本文首先以2D 深度圖的鼻尖xy軸坐標(biāo)為中心,在原始2D 深度圖上裁剪出160×160 像素的區(qū)域作為人臉區(qū)域,然后把裁剪后的人臉區(qū)域映射到3D 坐標(biāo)系中,得到3D 的人臉區(qū)域,整體移動人臉,將鼻尖移動到坐標(biāo)(0, 0, 100)。最后把3D 人臉中深度值大于400 的點(diǎn)視為背景去掉,得到標(biāo)準(zhǔn)化的三維人臉,如圖1b 所示。

      2.3 數(shù)據(jù)增強(qiáng)

      由于訓(xùn)練數(shù)據(jù)有限,本文需要對現(xiàn)有的數(shù)據(jù)進(jìn)行擴(kuò)充,數(shù)據(jù)增強(qiáng)通過旋轉(zhuǎn)三維坐標(biāo)軸實(shí)現(xiàn)。將原始3D 人臉點(diǎn)云圖繞y軸從-75°旋轉(zhuǎn)到75°,每間隔15°保存3D 人臉,繞x軸從-30°旋轉(zhuǎn)到30°每間隔15°保存3D 人臉,每張深度圖共生成14 張額外人臉,如圖1c 所示。

      2.4 深度人臉表示

      本文使用歸一化曲面法向量作為最終的人臉表示,計(jì)算過程使用文獻(xiàn)[41]中的方法,將人臉的x,y,z軸法線貼圖圖像(normal map image, NMI)NMIx、NMIy、NMIz的結(jié)果作為人臉的3 個通道堆疊,如圖1d 所示。需要注意的是,本文沒有對3D 人臉的姿態(tài)進(jìn)行校正,這主要是因?yàn)樵诖笞藨B(tài)時,校正后的正面人臉信息丟失嚴(yán)重,無法滿足識別要求。為了追求處理效率,本文方法僅使用了最原始的深度信息,不做任何的濾波和填充處理。

      3 3D 人臉特征提取

      低質(zhì)量3D 人臉表面具有大量的孔洞和毛刺,給識別造成一定的難度,這主要是因?yàn)镃NN 在學(xué)習(xí)的過程中會把部分噪聲當(dāng)作人臉特征,導(dǎo)致識別效果較差。為了解決這一問題,本文提出了基于空間注意力機(jī)制的Dropout 方案,在高層語義特征上進(jìn)行隨機(jī)遮擋,避免網(wǎng)絡(luò)只把噪聲信息當(dāng)作人臉特征。同時,為了避免遮擋后不同身份間的人臉特征相似度過高,本文提出了一個新的類間正則化損失函數(shù),以增加不同身份人臉特征聚類中心之間的相似度。

      3.1 基于空間注意力的Dropout

      圖2 本文方法整體流程圖

      本文使用Grad-Cam[42]可視化了原始ResNet-20[43]網(wǎng)絡(luò)和加入SAD 后的ResNet-20 網(wǎng)絡(luò),最后一層卷積層的結(jié)果如圖3 所示。其中,圖3a 為原始ResNet-20 網(wǎng)絡(luò)的結(jié)果,在不加入SAD 時,網(wǎng)絡(luò)提取到的人臉特征比較單一和集中,由于低質(zhì)量3D數(shù)據(jù)的噪聲來源具有不確定性,容易把噪聲特征識別成人臉特征。圖3b 為加入SAD 后的ResNet-20網(wǎng)絡(luò)的結(jié)果,ResNet-20 網(wǎng)絡(luò)加入SAD 后,模型提取到了更分散的人臉特征,更利于抑制低質(zhì)量3D 人臉噪聲信息的干擾。

      圖3 不同模型最后一層的卷積層的可視化

      3.2 類間正則化損失函數(shù)

      經(jīng)過SAD 遮擋后的特征包含部分值為0 的神經(jīng)元,為了避免在池化過程中遮擋信息丟失,本文沒有使用常規(guī)的池化方法,而是直接將特征圖reshape 成一維特征向量,并通過兩個全連接層對人臉特征進(jìn)行降維。其中,第一層全連接層主要是把reshape 后的人臉特征向量降維到固定512 維,表示當(dāng)前的人臉特征,用來計(jì)算人臉之間的相似度。第二層全連接層把人臉特征向量降維到訓(xùn)練集中人臉的類別數(shù)N,用來預(yù)測每個人臉的ID。特征圖在被遮擋后,得到的特征向量會存在部分0 值的神經(jīng)元,導(dǎo)致不同身份人臉的特征向量之間的距離過近,為了解決這一問題,本文提出了新的類間正 則 化 損 失 函 數(shù)(inter-class regularization loss, IR Loss)。

      當(dāng)前基于深度學(xué)習(xí)的3D 人臉識別方法[9-13]主要設(shè)計(jì)更合理的網(wǎng)絡(luò)結(jié)構(gòu),本文方法除考慮網(wǎng)絡(luò)魯棒性外,還在損失函數(shù)上針對低質(zhì)量3D 人臉數(shù)據(jù)重新設(shè)計(jì),對人臉特征向量的相似度做更嚴(yán)格的約束。類間正則化損失函數(shù)以2D 人臉識別中基于margin 的損失函數(shù)ArcFace[6]為基礎(chǔ),進(jìn)一步對每個類別的聚類中心進(jìn)行約束,讓不同類別的聚類中心更分散。IR Loss 的實(shí)現(xiàn)如下:

      在圖4 中,本文從Lock3DFace 數(shù)據(jù)集中隨機(jī)抽取10 類數(shù)據(jù),每類包含20 個人臉數(shù)據(jù)。使用t-SNE 將人臉特征向量降維到2 維,實(shí)現(xiàn)人臉特征可視化。其中圖4a 表示ResNet-20[43]網(wǎng)絡(luò)使用Softmax 損失函數(shù)的結(jié)果。圖4b 表示ResNet-20 網(wǎng)絡(luò)使用IR Loss 的結(jié)果。結(jié)果表明,在使用相同的ResNet-20 網(wǎng)絡(luò)結(jié)構(gòu)下,IR Loss 相對于Softmax 損失函數(shù)得到的同類特征更緊湊,不同類別間人臉特征更加分散,進(jìn)一步驗(yàn)證了本文方法的有效性。

      圖4 使用不同損失函數(shù)的特征可視化

      4 實(shí)驗(yàn)結(jié)果與分析

      4.1 數(shù)據(jù)集及測試方法

      4.1.1 數(shù)據(jù)集

      Lock3DFace[27]是目前規(guī)模最大的低質(zhì)量3D 人臉公開數(shù)據(jù)集,由KinectV2 收集。它包括5 671個視頻序列509 個個體,每個視頻序列包含59 幀圖片。包括表情的變化、遮擋、姿態(tài)和時間4 個子集,是目前最具挑戰(zhàn)性的3D 人臉識別數(shù)據(jù)集之一。

      CurtinFaces[44]是一個低分辨率的3D 人臉數(shù)據(jù)集。微軟Kinect 傳感器共捕捉52 人的5 000 多張RGB-D 圖像。變化包括姿勢、照明、面部表情和裝飾性的太陽鏡遮擋等子集。CurtinFaces 中的人臉模型由于姿態(tài)變化大且質(zhì)量不高,使得人臉識別任務(wù)具有極大的挑戰(zhàn)性。

      Bosphorus[18]包含105 個人的4 666 張3D 臉。由結(jié)構(gòu)光3D 系統(tǒng)采集,呈現(xiàn)了表情、遮擋和姿態(tài)的變化。

      FRGCv2[22]由466 個人的4 007 個3D 面部模型組成,數(shù)據(jù)集由高精度激光3D 掃描儀采集,每個人的表情都不同。

      4.1.2 測試方法

      1) 閉集測試。實(shí)驗(yàn)部分選擇當(dāng)前Lock3DFace數(shù)據(jù)集準(zhǔn)確率最高的Led3D[28]的方法作為基準(zhǔn),主要在Lock3DFace 數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)。為了實(shí)現(xiàn)更公平的對比,本文采用與文獻(xiàn)[28]相同的設(shè)置。具體來說,選擇509 個人的中性表情的第一個視頻前6 幀作為訓(xùn)練集,并按照2.3 節(jié)中的方法進(jìn)行增強(qiáng),剩余視頻作為測試集,并分別劃分為4 個子集(表情、遮擋、姿態(tài)、時間)。在測試階段,對所有視頻的每一幀的標(biāo)簽進(jìn)行預(yù)測,選擇所有數(shù)據(jù)幀中出現(xiàn)次數(shù)最多的結(jié)果作為該視頻的真實(shí)預(yù)測標(biāo)簽,需要注意的是由于視頻中每幀人臉圖片的相似度極高,本文只選擇了每個視頻的前6 幀數(shù)據(jù)。

      2) 開集測試。文獻(xiàn)[28]還提出了另一種測試設(shè)置,隨機(jī)在509 個個體中選擇340 類的全部視頻數(shù)據(jù)的6 幀用于訓(xùn)練,剩余的169 類作為測試數(shù)據(jù)。訓(xùn)練集中的每個人的第一個中性表情的前6 幀用于數(shù)據(jù)增強(qiáng),其余數(shù)據(jù)使用原始數(shù)據(jù)。用于測試的169 個個體的每個視頻分別提取6 幀,中性表情的第1 幀作為gallery,剩余幀作為probe,包含5 個子集(標(biāo)準(zhǔn)、表情、遮擋、姿態(tài)和時間)。通過計(jì)算probe 集中每個樣本與gallery 集中特征向量的余弦距離,來統(tǒng)計(jì)測試結(jié)果。

      3) CurtinFaces 協(xié)議。為了探索在新的場景中本文方法的有效性,本文也在CurtinFaces[44]數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)。與文獻(xiàn)[44]中的測試方法一致,使用每個人中性表情的16 張圖片作為訓(xùn)練集,并按照2.3 節(jié)中的方法進(jìn)行增強(qiáng)。每個人的剩余數(shù)據(jù)作為測試集,分為3 個子集(姿態(tài)、光照和遮擋)。選擇每人一張中性表情作為gallery,剩余數(shù)據(jù)作為probe。

      所有的訓(xùn)練和測試數(shù)據(jù)都按照第2 節(jié)中的方法預(yù)處理,本文的方法只使用3D 人臉的幾何信息。

      4.2 訓(xùn)練參數(shù)

      本文的特征提取網(wǎng)絡(luò)統(tǒng)一使用ResNet-20[43],所有的訓(xùn)練數(shù)據(jù)都被調(diào)整到128×128。權(quán)重衰減設(shè)置為0.000 5,初始學(xué)習(xí)率為0.1,衰減周期為10,衰減乘數(shù)因子為0.1。模型先在FRGCv2 和Bosphorus兩個高質(zhì)量數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練,然后在對應(yīng)的訓(xùn)練數(shù)據(jù)集上進(jìn)行微調(diào)。所有的CNN 使用相同的SGD優(yōu)化器進(jìn)行訓(xùn)練,Batch Size 為64,遮擋比例k設(shè)置為0.6。實(shí)驗(yàn)的硬件平臺為:Intel(R) Xeon(R)CPU E3-1 231 v3 @ 3.40 GHz(NVIDIA TiTan Xp)12 GB;軟件環(huán)境為:Windows 10,Pytorch1.1.0。

      4.3 實(shí)驗(yàn)結(jié)果和分析

      4.3.1 參數(shù)討論

      為了評估IR Loss 中超參數(shù)s和m對結(jié)果的影響,本文選擇了4 組參數(shù)在ResNet-20[43]網(wǎng)絡(luò)上分別訓(xùn)練4 個模型,遵循4.1 節(jié)中的開集測試協(xié)議,具體參數(shù)值如表1 所示。結(jié)果表明,在m=0.5 和s=64時,識別準(zhǔn)確率最高。s和m為正相關(guān),s越大,對應(yīng)的m更大。

      表1 不同超參數(shù)設(shè)置對結(jié)果的影響 %

      對于SAD,本文也設(shè)置了不同的k值,來探索不同遮擋比例對結(jié)果的影響。實(shí)驗(yàn)結(jié)果如圖5 所示,遮擋比例k=0.6 時網(wǎng)絡(luò)的識別準(zhǔn)確率最高,并且所有的遮擋比例的結(jié)果均優(yōu)于表1 中不添加SAD 的結(jié)果。遮擋比例應(yīng)該設(shè)置到合適的范圍,太大或太小都會降低SAD 模塊的性能。

      圖5 遮擋比例k 與平均識別率曲線

      4.3.2 消融實(shí)驗(yàn)

      為了評估SAD 和IR Loss 模塊的貢獻(xiàn)。本文遵循4.1 節(jié)中的開集測試協(xié)議,訓(xùn)練4 個網(wǎng)絡(luò):1) 原始的ResNet-20[43]網(wǎng)絡(luò)結(jié)構(gòu),使用Softmax 損失函數(shù);2) 使用IR Loss 作為損失函數(shù)的ResNet-20 網(wǎng)絡(luò);3) 在最后一層卷積層之后插入SAD 的ResNet-20 網(wǎng)絡(luò);4) 具有IR Loss 和SAD 模塊的ResNet-20 網(wǎng)絡(luò)。表2 顯示了4 種方法的結(jié)果,與基準(zhǔn)網(wǎng)絡(luò)ResNet-20 相比,可以看到SAD 和IR Loss提高了性能。一方面,SAD 能夠遮擋部分噪聲信息,在正面識別結(jié)果上取得更高的識別率。另一方面,IR Loss 證明了約束不同類別間的類中心距離可以有效提高識別率。在最終結(jié)果中,結(jié)合SAD和IR Loss 的模型能取得最佳性能,且結(jié)合之后提升效果最明顯。

      表2 不同模塊的識別準(zhǔn)確率比較 %

      4.3.3 CurtinFaces 測試結(jié)果對比

      為了評估在其他數(shù)據(jù)集上本文方法的性能,本文在另外一個大規(guī)模的低質(zhì)量3D 人臉數(shù)據(jù)集上驗(yàn)證,并與基準(zhǔn)方法[44]和Led3D[28]比較。測試協(xié)議使用文獻(xiàn)[44]中的方法,實(shí)驗(yàn)結(jié)果如表3 所示。結(jié)果表明,本文方法在不同的數(shù)據(jù)集上具有很好的魯棒性,獲得了最高的準(zhǔn)確率,本文方法的CMC 曲線如圖6 所示。其中文獻(xiàn)[44]中的方法結(jié)合了RGB 信息,Led3D 和本文的方法只使用了幾何信息。相對于Led3D,本文的方法的識別結(jié)果在光照、姿態(tài)、遮擋方面都有較大提升,這主要是因?yàn)長ed3D 對數(shù)據(jù)預(yù)處理要求較高,需要對低質(zhì)量數(shù)據(jù)進(jìn)行填充、濾波、裁剪等一系列復(fù)雜預(yù)處理。本文方法能夠從最原始的低質(zhì)量人臉數(shù)據(jù)中,提取魯棒的特征。

      表3 CurtinFaces 數(shù)據(jù)集的識別率比較 %

      圖6 本文方法在CurtinFaces 數(shù)據(jù)集上的CMC 曲線

      4.3.4 Lock3DFace 測試結(jié)果對比

      將本文方法與多個不同的網(wǎng)絡(luò)結(jié)構(gòu)[29,42,45-46]對比,以驗(yàn)證方法的有效性,結(jié)果如表4 所示。本文方法在多個子集上取得了最好的結(jié)果,并超過了更深的ResNet-34 網(wǎng)絡(luò),在遮擋和姿態(tài)兩個子集中取得了較大提升。特別地,為了與Led3D[28]的測試協(xié)議保持一致,本文使用4.1 節(jié)中的閉集測試協(xié)議。為了避免復(fù)現(xiàn)結(jié)果與原文有差異,表4 中非本文方法的結(jié)果均從文獻(xiàn)[28]中摘錄,本文統(tǒng)計(jì)結(jié)果包含所有的原始數(shù)據(jù),沒有剔除任何數(shù)據(jù)。測試子集的樣本數(shù)量分別為:“表情”1287 個、“遮擋”1005 個、“姿態(tài)”1014 個、“時間”1352 個。

      表4 Lock3DFace 數(shù)據(jù)集測試結(jié)果 %

      5結(jié)束語

      數(shù)據(jù)質(zhì)量差、包含大量噪聲是提取低質(zhì)量3D人臉特征的難點(diǎn)。為了解決這些問題,本文提出了一個新的Dropout 方法SAD和損失函數(shù)IR Loss。作為兩個獨(dú)立的模塊,很容易嵌入到其他網(wǎng)絡(luò)中,而不產(chǎn)生任何計(jì)算復(fù)雜性。可以有效地協(xié)同提取3D人臉特征,為模型特征表示提供了有力的工具。廣泛的實(shí)驗(yàn)已經(jīng)在兩個最具有挑戰(zhàn)性的低分辨率3D人臉數(shù)據(jù)集中給出,結(jié)果顯示本文的方法優(yōu)于其他先進(jìn)的3D人臉識別方法。

      但是本方法也存在一定的局限性,主要是在SAD和IR Loss單獨(dú)使用時,相對于組合使用,對識別準(zhǔn)確率提升不明顯,需要結(jié)合使用。并且IR Loss存在兩個超參數(shù),其數(shù)值的設(shè)置只能根據(jù)經(jīng)驗(yàn)給出,沒有具體量化的計(jì)算公式。本文方法的本質(zhì)是降低訓(xùn)練數(shù)據(jù)上的不確定性噪聲信息對特征提取的干擾,在細(xì)粒度識別、行人重識別、分類等領(lǐng)域也可能發(fā)揮作用,在未來的工作中還需要進(jìn)一步探索。

      本文的研究工作得到了北京航空航天大學(xué)的支持,感謝其提供Lock3DFace[30]數(shù)據(jù)集。此外,本文代碼將在https://github.com/SW JTU-3DVision進(jìn)行共享。

      猜你喜歡
      低質(zhì)量特征向量人臉識別
      雷人畫語
      美文(2023年5期)2023-03-26 03:15:00
      二年制職教本科線性代數(shù)課程的幾何化教學(xué)設(shè)計(jì)——以特征值和特征向量為例
      人臉識別 等
      克羅內(nèi)克積的特征向量
      揭開人臉識別的神秘面紗
      一類特殊矩陣特征向量的求法
      EXCEL表格計(jì)算判斷矩陣近似特征向量在AHP法檢驗(yàn)上的應(yīng)用
      低質(zhì)量的婚姻不如高質(zhì)量的單身,是真的嗎?(一)
      婦女生活(2017年5期)2017-05-16 21:04:56
      破解學(xué)前教育低質(zhì)量現(xiàn)象
      基于類獨(dú)立核稀疏表示的魯棒人臉識別
      延吉市| 唐海县| 濮阳市| 昌邑市| 齐河县| 龙里县| 汶川县| 达尔| 镇康县| 章丘市| 布尔津县| 桂林市| 仙游县| 会同县| 抚顺县| 丰镇市| 祁门县| 漳州市| 揭阳市| 岢岚县| 磐安县| 郓城县| 疏附县| 新田县| 郴州市| 大悟县| 社会| 富顺县| 东乡县| 永宁县| 南安市| 织金县| 长垣县| 舟山市| 临江市| 高邑县| 双流县| 哈尔滨市| 惠东县| 武穴市| 中牟县|