多姿態(tài)的人臉識別算法研究

2022-05-30 14:51:41顧立春雷鳴

電腦知識與技術(shù) 2022年21期

關(guān)鍵詞：卷積神經(jīng)網(wǎng)絡(luò)魯棒性人臉識別

顧立春雷鳴

摘要：隨著當(dāng)前計(jì)算機(jī)軟硬件和物聯(lián)網(wǎng)等相關(guān)產(chǎn)業(yè)的進(jìn)步，智能識別正向著無接觸、智能化的方向發(fā)展，客觀上推動了人臉識別技術(shù)的快速發(fā)展和普及。然而在實(shí)際應(yīng)用場景中，人臉識別技術(shù)還存在一些問題和挑戰(zhàn)，如拍攝角度、姿態(tài)表情變化等對識別精度會產(chǎn)生很大影響。本文提出了一種基于多姿態(tài)的人臉識別算法，通過將不同角度和姿態(tài)的人臉圖像進(jìn)行歸一化處理，對面部的關(guān)鍵特征點(diǎn)進(jìn)行變換得到人臉的正面圖像，再將變換后的圖像與數(shù)據(jù)庫比對完成人臉識別，算法在多個公開數(shù)據(jù)集均得到了較高的識別準(zhǔn)確率。

關(guān)鍵詞：人臉識別;卷積神經(jīng)網(wǎng)絡(luò);多姿態(tài);仿射變換;魯棒性

中圖分類號：TP391? ? ? 文獻(xiàn)標(biāo)識碼：A

文章編號：1009-3044（2022）21-0070-03

開放科學(xué)（資源服務(wù)）標(biāo)識碼（OSID）：

人臉識別是計(jì)算機(jī)圖像處理領(lǐng)域一個重要的研究方向，在智能安檢、案件偵查、移動支付等領(lǐng)域得到了廣泛應(yīng)用。在身份鑒定方面，相比于指紋識別和虹膜識別等，人臉識別對人體姿態(tài)配合度的要求低，檢測方便快捷，具有非侵入式，遠(yuǎn)距離且方式友好等優(yōu)勢;人臉識別技術(shù)難度更大，首先人臉的特征復(fù)雜度相對更高，而且圖像特征容易受到光線明暗、表情變化、成像角度、交叉遮擋等多種因素的影響，因此人臉識別是一項(xiàng)非常具有挑戰(zhàn)性的課題。

1 研究現(xiàn)狀

早期的識別主要是基于靜態(tài)圖像識別技術(shù)，從圖像中提取特征信息。隨著視頻技術(shù)的發(fā)展，在靜態(tài)圖像的識別基礎(chǔ)上引入時間序列信息，利用視頻連續(xù)幀的時間空間延續(xù)性，提高了識別的準(zhǔn)確率。人臉識別技術(shù)主要包括以下幾個方面：

1.1 基于幾何特征的人臉識別技術(shù)

人的面部輪廓特征和器官位置相對固定，不同人關(guān)鍵點(diǎn)之間的框架結(jié)構(gòu)也基本一致。因此，早期人臉識別的研究階段，將人臉面部的幾何特征作為特征向量數(shù)據(jù)存儲于模型庫中，在進(jìn)行人臉識別時，只需要將待識別人臉的幾何特征向量與模型庫中的特征向量進(jìn)行比對，滿足設(shè)定閾值的一致性即為對應(yīng)結(jié)果。

Kanada[1]提出了一種基于不同角度灰度投影技術(shù)，測定出投影的數(shù)值，根據(jù)數(shù)值的范圍判定人臉圖像，完成面部特征的標(biāo)記，面部標(biāo)記的結(jié)果進(jìn)行歸一化，得到特征向量形成標(biāo)準(zhǔn)的結(jié)構(gòu)數(shù)據(jù)。進(jìn)行面部識別時，計(jì)算人臉信息的特征點(diǎn)之間的距離、夾角和空間信息，得到面部圖像中各器官之間的歐式距離，最后得到判定的結(jié)果，其在一組20人的實(shí)驗(yàn)中，有效識別率達(dá)到了75%。Cox[2]利用了同樣的原理，延伸面部特征點(diǎn)的數(shù)量，提取30維的特征向量，采用圖像模板匹配的算法，描繪出面部器官的特征信息，僅用一幅圖像訓(xùn)練樣本的情況下，算法的識別率達(dá)到95%。Kakadiaris[3]將面部幾何特征的算法推廣到側(cè)影圖像，實(shí)現(xiàn)了對車輛駕駛?cè)藛T的面部識別。

1.2 基于局部特征的人臉識別技術(shù)

局部特征信息主要是分割出人臉圖像的明顯特征區(qū)域，如傷痕、紋身等，這些明顯區(qū)別于他人的特征信息，就可以作為面部識別的判別依據(jù)。另外，不同人臉具有不同的局部特征結(jié)構(gòu)，如眼睛間距、眼睛鼻子角度等，統(tǒng)計(jì)模型記錄人臉中這些相對固定的特征量和受外界影響較小的特征量，同樣是人臉識別的判定手段。

Kotropoulos[4]采用了Gabor小波技術(shù)提取人臉特征，通過Gabor濾波器在不同尺度和方向上對樣本圖像的每個像素作卷積操作，利用彈性約束匹配采用全局特征描述，基于采樣局部的關(guān)鍵采樣點(diǎn)實(shí)現(xiàn)算法識別。Gabor算法特征位數(shù)較高，算法復(fù)雜度大，對硬件要求高，難以實(shí)現(xiàn)實(shí)時識別。Liu[5]對該算法進(jìn)行了改進(jìn)，選取少量關(guān)鍵點(diǎn)并進(jìn)行了下采樣的方式實(shí)現(xiàn)算法特征降維處理，大大減低了算法的復(fù)雜度，特征關(guān)鍵點(diǎn)的選取保證了算法準(zhǔn)確率。Timo[6]使用了LBP算子得到圖像局部紋理特征信息，并通過對各像素點(diǎn)的灰度值與周圍相鄰點(diǎn)的關(guān)系來描述人面部圖像的局部特征，該算法在人臉識別中得到了較好的效果。

1.3 基于子空間的人臉識別技術(shù)

基于子空間的識別是通過線性或非線性的算法變換，將人臉圖像特征的高維信息進(jìn)行降維操作，把人臉的特征點(diǎn)和特征向量等映射到低維子空間，在子空間中進(jìn)行特征分類識別。

基于子空間的識別算法中以Eigenfaces[7]和Fisherfaces[8]應(yīng)用最為廣泛。Eigenfaces算法是通過基于主成分分析的方法對人臉圖像的各種特征進(jìn)行表達(dá)，任意的人臉圖像均可以采用特征量組合的方式進(jìn)行呈現(xiàn)，特征向量就是特征臉譜組合的關(guān)系系數(shù)。Fisherfaces算法是針對Eigenfaces的改良，Eigenfaces算法對樣本標(biāo)簽的信息利用有限，高階信息存在一定的缺失。而Fisherfaces算法采用了子空間映射投影的方法，將同一類信息通過映射的方式投影到一個維度，而不同類的數(shù)據(jù)信息投影到不同的算法維度，這樣實(shí)現(xiàn)了數(shù)據(jù)的有效分類，解決了樣本數(shù)據(jù)的高效分類利用。

1.4 深度學(xué)習(xí)的人臉識別技術(shù)

隨著計(jì)算機(jī)硬件資源的發(fā)展，深度學(xué)習(xí)的算法得到了快速發(fā)展，并應(yīng)用在各種學(xué)科領(lǐng)域，深度學(xué)習(xí)也成了近年來人臉識別的主流算法。

Taigman[9]提出了DeepFace算法，該算法基于深度卷積神經(jīng)網(wǎng)絡(luò)，使用了200萬張不同姿態(tài)、光照等人臉圖像的數(shù)據(jù)訓(xùn)練集，其結(jié)果在人臉評測數(shù)據(jù)庫LFW上達(dá)到了99%以上的識別精度。谷歌提出的FaceNet[10]網(wǎng)絡(luò)，該算法的數(shù)據(jù)結(jié)構(gòu)使用了27層網(wǎng)絡(luò)，在2億的超大規(guī)模人臉數(shù)據(jù)庫訓(xùn)練數(shù)據(jù)，其算法識別精度已經(jīng)遠(yuǎn)遠(yuǎn)超過人類的識別極限。深度學(xué)習(xí)算法性能優(yōu)異，但是往往數(shù)據(jù)集龐大，對資源消耗也是巨大的。

上述的四種人臉識別技術(shù)，通常都需要一定量的圖像信息，圖像的質(zhì)量對識別效果起到了關(guān)鍵的作用。當(dāng)圖像數(shù)量樣本較少，低分辨率的情況下，識別難以達(dá)到令人滿意的效果。文章采用改進(jìn)的特征提取算法，實(shí)現(xiàn)在復(fù)雜環(huán)境下多姿態(tài)的低分辨率人臉圖像的識別。

2 多姿態(tài)的低分辨率人臉識別

人臉識別主要包括人臉檢測，關(guān)鍵特征提取和人臉識別幾個主要步驟。首先，通過視頻采集設(shè)備獲取人臉的圖像信息，通過人臉檢測技術(shù)識別出圖像中人臉的數(shù)量、大小和位置等信息，并通過特征提取獲取面部的關(guān)鍵點(diǎn)，再進(jìn)行歸一化處理獲得人臉特征，將得到的圖像特征與數(shù)據(jù)庫進(jìn)行特征匹配，進(jìn)而對圖像的人員身份進(jìn)行判別，識別的原理框圖如下：

2.1 人臉檢測

人臉檢測是指提取圖像中所有人臉的信息，包括數(shù)量、位置和大小等。在無約束圖像中人臉的位置是隨機(jī)的，且一般很難有正面的完整圖像，通常存在一定的遮擋、角度變化、表情變化、光線陰影等，這些問題給準(zhǔn)確地判定人臉區(qū)域帶來了一定的困難。

檢測首先是在輸入圖像上進(jìn)行候選區(qū)域的匹配，按照一定的判別規(guī)則，選擇一個矩形區(qū)域作為候選的人臉區(qū)域;其次在候選的人臉區(qū)域中提取關(guān)鍵特征作為初判的特征描述;最后根據(jù)區(qū)域的特征描述與閾值的比較，判定是否包含人臉。本文采用的是基于多任務(wù)的級聯(lián)卷積神經(jīng)網(wǎng)絡(luò)人臉檢測算法，算法由三級的卷積神經(jīng)網(wǎng)絡(luò)組成，如圖2所示。第一級是候選網(wǎng)絡(luò)，屬于全卷積網(wǎng)絡(luò)，生成候選窗口和邊框的回歸向量，并使用回歸的方法來進(jìn)行候選區(qū)域的校準(zhǔn)，用逼近算法合并去重得到第一步輸出。第二級網(wǎng)絡(luò)是對第一層網(wǎng)絡(luò)的候選區(qū)域進(jìn)行進(jìn)一步分析，使用非極大抑制和回歸算法對候選區(qū)域進(jìn)行分類，去除弱相關(guān)的候選人臉區(qū)域，這一步通常能去除大量的錯誤候選區(qū)域。第三級網(wǎng)絡(luò)是對剩余的候選人臉區(qū)域甄選，添加監(jiān)督信息，得到最后的人臉目標(biāo)圖像。

2.2 人臉關(guān)鍵特征提取

為了提高人臉識別的準(zhǔn)確率，通常會對圖像進(jìn)行歸一化處理，核心思想就是關(guān)鍵點(diǎn)檢測，通過關(guān)鍵點(diǎn)定位人臉，關(guān)鍵點(diǎn)可將人臉表示為一系列的特征向量，這時通過關(guān)鍵點(diǎn)的坐標(biāo)就得到了輸入圖像的人臉形狀[P]，歸一化處理后與數(shù)據(jù)庫P進(jìn)行對比，得到最小化的期望誤差：

[Er=minP-P]

其中[Er]作為數(shù)據(jù)的訓(xùn)練目標(biāo)。

本文關(guān)鍵點(diǎn)提取算法是基于深度卷積的神經(jīng)網(wǎng)絡(luò)。算法將人臉圖像作為卷積神經(jīng)網(wǎng)絡(luò)的輸入，獲取圖像的全局特征，在第一層卷積網(wǎng)絡(luò)提取出圖像中的特征關(guān)鍵點(diǎn)，而全局特征對關(guān)鍵點(diǎn)的精確提取提供了支撐。第一層網(wǎng)絡(luò)使用了三個深度卷積網(wǎng)絡(luò)，分別對應(yīng)全局人臉區(qū)域、眼部和鼻子區(qū)域、鼻子和嘴巴區(qū)域三個網(wǎng)絡(luò)輸入，每個網(wǎng)絡(luò)都進(jìn)行特征點(diǎn)的預(yù)測和提取，再將預(yù)測結(jié)果作為三個網(wǎng)絡(luò)的輸出。第二層和第三層卷積神經(jīng)網(wǎng)絡(luò)將前面的特征點(diǎn)作為輸入，包括眼睛中心點(diǎn)、鼻尖、鼻子左右下緣、左右嘴角共七個關(guān)鍵點(diǎn)，以這七個關(guān)鍵點(diǎn)的局部區(qū)域進(jìn)行精細(xì)處理，并將結(jié)果進(jìn)行修正，得到最終的人臉關(guān)鍵點(diǎn)。

2.3 人臉識別

上述得到的人臉特征點(diǎn)是不規(guī)則的，需要將人臉的特征信息規(guī)則化，得到正面圖像，并對齊到一個規(guī)則的框架中進(jìn)行識別。本文采用姿態(tài)引導(dǎo)的損失函數(shù)來監(jiān)督深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)，得到正面人臉信息特征。用[If]表示數(shù)據(jù)庫注冊的正面人臉圖像，[Ip]表示輸入的人臉圖像，[xf1、xf2······xfn]表示數(shù)據(jù)庫注冊的正面人臉圖像的關(guān)鍵點(diǎn)向量，[xp1、xp2······xpn]表示輸入人臉圖像的關(guān)鍵點(diǎn)向量。輸入的人臉圖像按照眼睛中心點(diǎn)、鼻尖、鼻子左右下緣、左右嘴角七個關(guān)鍵點(diǎn)的相對位置、角度、距離等通過加權(quán)仿射變換，得到轉(zhuǎn)換后的正面人臉圖像[Ip]，正面人臉的關(guān)鍵點(diǎn)向量為[x'p1、x'p2······x'pn]。人臉識別通過對比數(shù)據(jù)庫和轉(zhuǎn)換后的正面人臉圖像關(guān)鍵點(diǎn)向量的距離[DisIf，I'P]，來判定相似度。當(dāng)輸入圖像多于一張時，采用多組距離平均值進(jìn)行人臉識別的判定[1N1n-1Disi]，判別流程如圖3所示。

算法的優(yōu)勢在于少樣本時，同樣能夠達(dá)到較高的精度，在低分辨率的圖像中，關(guān)鍵點(diǎn)會進(jìn)行多次提取比對。算法在ORL、GT、AR、YaleB和LFW等數(shù)據(jù)集均取得了不錯的效果，算法識別率均達(dá)到了97.8%。低分辨率圖像的識別效果如圖4所示，可以看出，算法有效地提取了人臉關(guān)鍵點(diǎn)，不同角度圖像實(shí)現(xiàn)了準(zhǔn)確識別。

3 結(jié)語

文章對人臉識別技術(shù)的主流算法進(jìn)行了分析總結(jié)，提出了一種基于多姿態(tài)的人臉識別方法。針對不同角度和表情的人臉輸入圖像，首先進(jìn)行人臉檢測，利用三級卷積神經(jīng)網(wǎng)絡(luò)完成人臉候選區(qū)域的初步判定;然后通過深度卷積神經(jīng)網(wǎng)絡(luò)，在人臉候選框內(nèi)選取全局特征點(diǎn)，再利用兩層網(wǎng)絡(luò)得到眼睛中心點(diǎn)、鼻尖、鼻子左右下緣、左右嘴角等局部七個關(guān)鍵點(diǎn);最后利用仿射變換進(jìn)行人臉姿態(tài)的引導(dǎo)轉(zhuǎn)換，實(shí)現(xiàn)人臉識別。

算法在多個數(shù)據(jù)集的試驗(yàn)結(jié)果均得到了令人滿意的效果，魯棒性和穩(wěn)定性也得到了驗(yàn)證，特別在多角度多個圖像輸入時，人臉識別精度顯著提高。后續(xù)多姿態(tài)人臉識別算法將在處理遮擋、多人面部交錯等方面進(jìn)行研究。

參考文獻(xiàn)：

[1] Kanade T.Picture processing system by computer complex and recognition of human faces[D]. Kyoto University， Japan， PhD. Thesis，1973.

[2] Cox I J，Ghosn J，Yianilos P N.Feature-based face recognition using mixture-distance[C]//Proceedings CVPR IEEE Computer Society Conference on Computer Vision and Pattern Recognition.San Francisco，CA，USA.IEEE，：209-216.

[3] Kakadiaris I A，Abdelmunim H，Yang W，et al.Profile-based face recognition[C]//2008 8th IEEE International Conference on Automatic Face & Gesture Recognition.Amsterdam，Netherlands.IEEE，2008：1-8.

[4] Kotropoulos C，Tefas A，Pitas I.Frontal face authentication using morphological elastic graph matching[J].IEEE Transactions on Image Processing，2000，9（4）：555-560.

[5] Liu D H，Lam K M，Shen L S.Optimal sampling of Gabor features for face recognition[J].Pattern Recognition Letters，2004，25（2）：267-276.

[6] Timo A， Abdenour H， Matti P. Face recognition with local binary patterns[C]//In proceedings of the 8th European Conference on Computer Vision（ECCV2004）， Prague： Czech Republic，2004：469-481.

[7] 程正東，賈慧星，李樂.基于子空間的人臉識別[M].北京：清華大學(xué)出版社，2009.

[8] Rao C R.Linear Statistical Inference and its Applications[M].Hoboken，NJ，USA：John Wiley & Sons，Inc.，1973.

[9] Taigman Y，Yang M，Ranzato M，et al.DeepFace：closing the gap to human-level performance in face verification[C]//2014 IEEE Conference on Computer Vision and Pattern Recognition.Columbus，OH，USA.IEEE，：1701-1708.

[10] Schroff F，Kalenichenko D，Philbin J.FaceNet：a unified embedding for face recognition and clustering[C]//2015 IEEE Conference on Computer Vision and Pattern Recognition.Boston，MA，USA.IEEE，：815-823.

【通聯(lián)編輯：唐一東】