顧立春 雷鳴
摘要:隨著當(dāng)前計(jì)算機(jī)軟硬件和物聯(lián)網(wǎng)等相關(guān)產(chǎn)業(yè)的進(jìn)步,智能識別正向著無接觸、智能化的方向發(fā)展,客觀上推動了人臉識別技術(shù)的快速發(fā)展和普及。然而在實(shí)際應(yīng)用場景中,人臉識別技術(shù)還存在一些問題和挑戰(zhàn),如拍攝角度、姿態(tài)表情變化等對識別精度會產(chǎn)生很大影響。本文提出了一種基于多姿態(tài)的人臉識別算法,通過將不同角度和姿態(tài)的人臉圖像進(jìn)行歸一化處理,對面部的關(guān)鍵特征點(diǎn)進(jìn)行變換得到人臉的正面圖像,再將變換后的圖像與數(shù)據(jù)庫比對完成人臉識別,算法在多個公開數(shù)據(jù)集均得到了較高的識別準(zhǔn)確率。
關(guān)鍵詞:人臉識別;卷積神經(jīng)網(wǎng)絡(luò);多姿態(tài);仿射變換;魯棒性
中圖分類號:TP391? ? ? 文獻(xiàn)標(biāo)識碼:A
文章編號:1009-3044(2022)21-0070-03
開放科學(xué)(資源服務(wù))標(biāo)識碼(OSID):
人臉識別是計(jì)算機(jī)圖像處理領(lǐng)域一個重要的研究方向,在智能安檢、案件偵查、移動支付等領(lǐng)域得到了廣泛應(yīng)用。在身份鑒定方面,相比于指紋識別和虹膜識別等,人臉識別對人體姿態(tài)配合度的要求低,檢測方便快捷,具有非侵入式,遠(yuǎn)距離且方式友好等優(yōu)勢;人臉識別技術(shù)難度更大,首先人臉的特征復(fù)雜度相對更高,而且圖像特征容易受到光線明暗、表情變化、成像角度、交叉遮擋等多種因素的影響,因此人臉識別是一項(xiàng)非常具有挑戰(zhàn)性的課題。
1 研究現(xiàn)狀
早期的識別主要是基于靜態(tài)圖像識別技術(shù),從圖像中提取特征信息。隨著視頻技術(shù)的發(fā)展,在靜態(tài)圖像的識別基礎(chǔ)上引入時間序列信息,利用視頻連續(xù)幀的時間空間延續(xù)性,提高了識別的準(zhǔn)確率。人臉識別技術(shù)主要包括以下幾個方面:
1.1 基于幾何特征的人臉識別技術(shù)
人的面部輪廓特征和器官位置相對固定,不同人關(guān)鍵點(diǎn)之間的框架結(jié)構(gòu)也基本一致。因此,早期人臉識別的研究階段,將人臉面部的幾何特征作為特征向量數(shù)據(jù)存儲于模型庫中,在進(jìn)行人臉識別時,只需要將待識別人臉的幾何特征向量與模型庫中的特征向量進(jìn)行比對,滿足設(shè)定閾值的一致性即為對應(yīng)結(jié)果。
Kanada[1]提出了一種基于不同角度灰度投影技術(shù),測定出投影的數(shù)值,根據(jù)數(shù)值的范圍判定人臉圖像,完成面部特征的標(biāo)記,面部標(biāo)記的結(jié)果進(jìn)行歸一化,得到特征向量形成標(biāo)準(zhǔn)的結(jié)構(gòu)數(shù)據(jù)。進(jìn)行面部識別時,計(jì)算人臉信息的特征點(diǎn)之間的距離、夾角和空間信息,得到面部圖像中各器官之間的歐式距離,最后得到判定的結(jié)果,其在一組20人的實(shí)驗(yàn)中,有效識別率達(dá)到了75%。Cox[2]利用了同樣的原理,延伸面部特征點(diǎn)的數(shù)量,提取30維的特征向量,采用圖像模板匹配的算法,描繪出面部器官的特征信息,僅用一幅圖像訓(xùn)練樣本的情況下,算法的識別率達(dá)到95%。Kakadiaris[3]將面部幾何特征的算法推廣到側(cè)影圖像,實(shí)現(xiàn)了對車輛駕駛?cè)藛T的面部識別。
1.2 基于局部特征的人臉識別技術(shù)
局部特征信息主要是分割出人臉圖像的明顯特征區(qū)域,如傷痕、紋身等,這些明顯區(qū)別于他人的特征信息,就可以作為面部識別的判別依據(jù)。另外,不同人臉具有不同的局部特征結(jié)構(gòu),如眼睛間距、眼睛鼻子角度等,統(tǒng)計(jì)模型記錄人臉中這些相對固定的特征量和受外界影響較小的特征量,同樣是人臉識別的判定手段。
Kotropoulos[4]采用了Gabor小波技術(shù)提取人臉特征,通過Gabor濾波器在不同尺度和方向上對樣本圖像的每個像素作卷積操作,利用彈性約束匹配采用全局特征描述,基于采樣局部的關(guān)鍵采樣點(diǎn)實(shí)現(xiàn)算法識別。Gabor算法特征位數(shù)較高,算法復(fù)雜度大,對硬件要求高,難以實(shí)現(xiàn)實(shí)時識別。Liu[5]對該算法進(jìn)行了改進(jìn),選取少量關(guān)鍵點(diǎn)并進(jìn)行了下采樣的方式實(shí)現(xiàn)算法特征降維處理,大大減低了算法的復(fù)雜度,特征關(guān)鍵點(diǎn)的選取保證了算法準(zhǔn)確率。Timo[6]使用了LBP算子得到圖像局部紋理特征信息,并通過對各像素點(diǎn)的灰度值與周圍相鄰點(diǎn)的關(guān)系來描述人面部圖像的局部特征,該算法在人臉識別中得到了較好的效果。
1.3 基于子空間的人臉識別技術(shù)
基于子空間的識別是通過線性或非線性的算法變換,將人臉圖像特征的高維信息進(jìn)行降維操作,把人臉的特征點(diǎn)和特征向量等映射到低維子空間,在子空間中進(jìn)行特征分類識別。
基于子空間的識別算法中以Eigenfaces[7]和Fisherfaces[8]應(yīng)用最為廣泛。Eigenfaces算法是通過基于主成分分析的方法對人臉圖像的各種特征進(jìn)行表達(dá),任意的人臉圖像均可以采用特征量組合的方式進(jìn)行呈現(xiàn),特征向量就是特征臉譜組合的關(guān)系系數(shù)。Fisherfaces算法是針對Eigenfaces的改良,Eigenfaces算法對樣本標(biāo)簽的信息利用有限,高階信息存在一定的缺失。而Fisherfaces算法采用了子空間映射投影的方法,將同一類信息通過映射的方式投影到一個維度,而不同類的數(shù)據(jù)信息投影到不同的算法維度,這樣實(shí)現(xiàn)了數(shù)據(jù)的有效分類,解決了樣本數(shù)據(jù)的高效分類利用。
1.4 深度學(xué)習(xí)的人臉識別技術(shù)
隨著計(jì)算機(jī)硬件資源的發(fā)展,深度學(xué)習(xí)的算法得到了快速發(fā)展,并應(yīng)用在各種學(xué)科領(lǐng)域,深度學(xué)習(xí)也成了近年來人臉識別的主流算法。
Taigman[9]提出了DeepFace算法,該算法基于深度卷積神經(jīng)網(wǎng)絡(luò),使用了200萬張不同姿態(tài)、光照等人臉圖像的數(shù)據(jù)訓(xùn)練集,其結(jié)果在人臉評測數(shù)據(jù)庫LFW上達(dá)到了99%以上的識別精度。谷歌提出的FaceNet[10]網(wǎng)絡(luò),該算法的數(shù)據(jù)結(jié)構(gòu)使用了27層網(wǎng)絡(luò),在2億的超大規(guī)模人臉數(shù)據(jù)庫訓(xùn)練數(shù)據(jù),其算法識別精度已經(jīng)遠(yuǎn)遠(yuǎn)超過人類的識別極限。深度學(xué)習(xí)算法性能優(yōu)異,但是往往數(shù)據(jù)集龐大,對資源消耗也是巨大的。
上述的四種人臉識別技術(shù),通常都需要一定量的圖像信息,圖像的質(zhì)量對識別效果起到了關(guān)鍵的作用。當(dāng)圖像數(shù)量樣本較少,低分辨率的情況下,識別難以達(dá)到令人滿意的效果。文章采用改進(jìn)的特征提取算法,實(shí)現(xiàn)在復(fù)雜環(huán)境下多姿態(tài)的低分辨率人臉圖像的識別。
2 多姿態(tài)的低分辨率人臉識別
人臉識別主要包括人臉檢測,關(guān)鍵特征提取和人臉識別幾個主要步驟。首先,通過視頻采集設(shè)備獲取人臉的圖像信息,通過人臉檢測技術(shù)識別出圖像中人臉的數(shù)量、大小和位置等信息,并通過特征提取獲取面部的關(guān)鍵點(diǎn),再進(jìn)行歸一化處理獲得人臉特征,將得到的圖像特征與數(shù)據(jù)庫進(jìn)行特征匹配,進(jìn)而對圖像的人員身份進(jìn)行判別,識別的原理框圖如下:
2.1 人臉檢測
人臉檢測是指提取圖像中所有人臉的信息,包括數(shù)量、位置和大小等。在無約束圖像中人臉的位置是隨機(jī)的,且一般很難有正面的完整圖像,通常存在一定的遮擋、角度變化、表情變化、光線陰影等,這些問題給準(zhǔn)確地判定人臉區(qū)域帶來了一定的困難。
檢測首先是在輸入圖像上進(jìn)行候選區(qū)域的匹配,按照一定的判別規(guī)則,選擇一個矩形區(qū)域作為候選的人臉區(qū)域;其次在候選的人臉區(qū)域中提取關(guān)鍵特征作為初判的特征描述;最后根據(jù)區(qū)域的特征描述與閾值的比較,判定是否包含人臉。本文采用的是基于多任務(wù)的級聯(lián)卷積神經(jīng)網(wǎng)絡(luò)人臉檢測算法,算法由三級的卷積神經(jīng)網(wǎng)絡(luò)組成,如圖2所示。第一級是候選網(wǎng)絡(luò),屬于全卷積網(wǎng)絡(luò),生成候選窗口和邊框的回歸向量,并使用回歸的方法來進(jìn)行候選區(qū)域的校準(zhǔn),用逼近算法合并去重得到第一步輸出。第二級網(wǎng)絡(luò)是對第一層網(wǎng)絡(luò)的候選區(qū)域進(jìn)行進(jìn)一步分析,使用非極大抑制和回歸算法對候選區(qū)域進(jìn)行分類,去除弱相關(guān)的候選人臉區(qū)域,這一步通常能去除大量的錯誤候選區(qū)域。第三級網(wǎng)絡(luò)是對剩余的候選人臉區(qū)域甄選,添加監(jiān)督信息,得到最后的人臉目標(biāo)圖像。
2.2 人臉關(guān)鍵特征提取
為了提高人臉識別的準(zhǔn)確率,通常會對圖像進(jìn)行歸一化處理,核心思想就是關(guān)鍵點(diǎn)檢測,通過關(guān)鍵點(diǎn)定位人臉,關(guān)鍵點(diǎn)可將人臉表示為一系列的特征向量,這時通過關(guān)鍵點(diǎn)的坐標(biāo)就得到了輸入圖像的人臉形狀[P],歸一化處理后與數(shù)據(jù)庫P進(jìn)行對比,得到最小化的期望誤差:
[Er=minP-P]
其中[Er]作為數(shù)據(jù)的訓(xùn)練目標(biāo)。
本文關(guān)鍵點(diǎn)提取算法是基于深度卷積的神經(jīng)網(wǎng)絡(luò)。算法將人臉圖像作為卷積神經(jīng)網(wǎng)絡(luò)的輸入,獲取圖像的全局特征,在第一層卷積網(wǎng)絡(luò)提取出圖像中的特征關(guān)鍵點(diǎn),而全局特征對關(guān)鍵點(diǎn)的精確提取提供了支撐。第一層網(wǎng)絡(luò)使用了三個深度卷積網(wǎng)絡(luò),分別對應(yīng)全局人臉區(qū)域、眼部和鼻子區(qū)域、鼻子和嘴巴區(qū)域三個網(wǎng)絡(luò)輸入,每個網(wǎng)絡(luò)都進(jìn)行特征點(diǎn)的預(yù)測和提取,再將預(yù)測結(jié)果作為三個網(wǎng)絡(luò)的輸出。第二層和第三層卷積神經(jīng)網(wǎng)絡(luò)將前面的特征點(diǎn)作為輸入,包括眼睛中心點(diǎn)、鼻尖、鼻子左右下緣、左右嘴角共七個關(guān)鍵點(diǎn),以這七個關(guān)鍵點(diǎn)的局部區(qū)域進(jìn)行精細(xì)處理,并將結(jié)果進(jìn)行修正,得到最終的人臉關(guān)鍵點(diǎn)。
2.3 人臉識別
上述得到的人臉特征點(diǎn)是不規(guī)則的,需要將人臉的特征信息規(guī)則化,得到正面圖像,并對齊到一個規(guī)則的框架中進(jìn)行識別。本文采用姿態(tài)引導(dǎo)的損失函數(shù)來監(jiān)督深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí),得到正面人臉信息特征。用[If]表示數(shù)據(jù)庫注冊的正面人臉圖像,[Ip]表示輸入的人臉圖像,[xf1、xf2······xfn]表示數(shù)據(jù)庫注冊的正面人臉圖像的關(guān)鍵點(diǎn)向量,[xp1、xp2······xpn]表示輸入人臉圖像的關(guān)鍵點(diǎn)向量。輸入的人臉圖像按照眼睛中心點(diǎn)、鼻尖、鼻子左右下緣、左右嘴角七個關(guān)鍵點(diǎn)的相對位置、角度、距離等通過加權(quán)仿射變換,得到轉(zhuǎn)換后的正面人臉圖像[Ip],正面人臉的關(guān)鍵點(diǎn)向量為[x'p1、x'p2······x'pn]。人臉識別通過對比數(shù)據(jù)庫和轉(zhuǎn)換后的正面人臉圖像關(guān)鍵點(diǎn)向量的距離[DisIf,I'P],來判定相似度。當(dāng)輸入圖像多于一張時,采用多組距離平均值進(jìn)行人臉識別的判定[1N1n-1Disi],判別流程如圖3所示。
算法的優(yōu)勢在于少樣本時,同樣能夠達(dá)到較高的精度,在低分辨率的圖像中,關(guān)鍵點(diǎn)會進(jìn)行多次提取比對。算法在ORL、GT、AR、YaleB和LFW等數(shù)據(jù)集均取得了不錯的效果,算法識別率均達(dá)到了97.8%。低分辨率圖像的識別效果如圖4所示,可以看出,算法有效地提取了人臉關(guān)鍵點(diǎn),不同角度圖像實(shí)現(xiàn)了準(zhǔn)確識別。
3 結(jié)語
文章對人臉識別技術(shù)的主流算法進(jìn)行了分析總結(jié),提出了一種基于多姿態(tài)的人臉識別方法。針對不同角度和表情的人臉輸入圖像,首先進(jìn)行人臉檢測,利用三級卷積神經(jīng)網(wǎng)絡(luò)完成人臉候選區(qū)域的初步判定;然后通過深度卷積神經(jīng)網(wǎng)絡(luò),在人臉候選框內(nèi)選取全局特征點(diǎn),再利用兩層網(wǎng)絡(luò)得到眼睛中心點(diǎn)、鼻尖、鼻子左右下緣、左右嘴角等局部七個關(guān)鍵點(diǎn);最后利用仿射變換進(jìn)行人臉姿態(tài)的引導(dǎo)轉(zhuǎn)換,實(shí)現(xiàn)人臉識別。
算法在多個數(shù)據(jù)集的試驗(yàn)結(jié)果均得到了令人滿意的效果,魯棒性和穩(wěn)定性也得到了驗(yàn)證,特別在多角度多個圖像輸入時,人臉識別精度顯著提高。后續(xù)多姿態(tài)人臉識別算法將在處理遮擋、多人面部交錯等方面進(jìn)行研究。
參考文獻(xiàn):
[1] Kanade T.Picture processing system by computer complex and recognition of human faces[D]. Kyoto University, Japan, PhD. Thesis,1973.
[2] Cox I J,Ghosn J,Yianilos P N.Feature-based face recognition using mixture-distance[C]//Proceedings CVPR IEEE Computer Society Conference on Computer Vision and Pattern Recognition.San Francisco,CA,USA.IEEE,:209-216.
[3] Kakadiaris I A,Abdelmunim H,Yang W,et al.Profile-based face recognition[C]//2008 8th IEEE International Conference on Automatic Face & Gesture Recognition.Amsterdam,Netherlands.IEEE,2008:1-8.
[4] Kotropoulos C,Tefas A,Pitas I.Frontal face authentication using morphological elastic graph matching[J].IEEE Transactions on Image Processing,2000,9(4):555-560.
[5] Liu D H,Lam K M,Shen L S.Optimal sampling of Gabor features for face recognition[J].Pattern Recognition Letters,2004,25(2):267-276.
[6] Timo A, Abdenour H, Matti P. Face recognition with local binary patterns[C]//In proceedings of the 8th European Conference on Computer Vision(ECCV2004), Prague: Czech Republic,2004:469-481.
[7] 程正東,賈慧星,李樂.基于子空間的人臉識別[M].北京:清華大學(xué)出版社,2009.
[8] Rao C R.Linear Statistical Inference and its Applications[M].Hoboken,NJ,USA:John Wiley & Sons,Inc.,1973.
[9] Taigman Y,Yang M,Ranzato M,et al.DeepFace:closing the gap to human-level performance in face verification[C]//2014 IEEE Conference on Computer Vision and Pattern Recognition.Columbus,OH,USA.IEEE,:1701-1708.
[10] Schroff F,Kalenichenko D,Philbin J.FaceNet:a unified embedding for face recognition and clustering[C]//2015 IEEE Conference on Computer Vision and Pattern Recognition.Boston,MA,USA.IEEE,:815-823.
【通聯(lián)編輯:唐一東】