閆月影 北京城市學(xué)院
非受控場景下的二維人臉識別研究
閆月影 北京城市學(xué)院
近年來,人臉識別是生物特征識別、計算機視覺等領(lǐng)域研究的熱點課題之一。人臉識別按照測試數(shù)據(jù)類型可以分為受控場景人臉識別和非受控場景人臉識別。在受控的場景下,人臉識別技術(shù)已經(jīng)達到了令人滿意的效果。然而在實際的應(yīng)用過程中,由于光照變化、姿態(tài)變化、遮擋和表情變化等一系列非可控因素的影響,可能導(dǎo)致非受控場景下的人臉圖像類內(nèi)變化遠大于類間變化,使得人臉識別的性能急劇下降,無法滿足實際應(yīng)用的需求。因此,本文將針對非受控場景中的人臉識別問題展開深入研究與分析,針對其中的關(guān)鍵問題和難點,提出相應(yīng)的解決辦法。本課題針對非受控人臉識別問題中的各類干擾因素以及“數(shù)據(jù)缺失”現(xiàn)象,對人臉識別算法進行了研究和設(shè)計。針對非受控人臉識別中各類干擾因素的影響,本文設(shè)計出一種改進的卷積神經(jīng)網(wǎng)絡(luò)(CNN)進行人臉識別工作。該CNN模型具有多個隱藏層,通過逐層提取特征的方式,能夠很好地消除非受控狀態(tài)下人臉識別問題中各種復(fù)雜干擾的影響。
人臉識別 非受控 卷積神經(jīng)網(wǎng)絡(luò)
隨著電子商務(wù)(Electronic Commerce)在世界范圍內(nèi)的迅速發(fā)展,在Internet等開放式網(wǎng)絡(luò)中進行電子交易等商務(wù)活動逐漸步入公眾的視野。然而,網(wǎng)絡(luò)上存在著一些敏感的個人信息,這些個人信息通過授權(quán)后才能允許訪問,因此作為網(wǎng)絡(luò)安全的一個關(guān)鍵問題,身份鑒別引起越來越多的關(guān)注。傳統(tǒng)的身份驗證方式包括用戶口令、用戶賬號、身份證和智能卡等,但是,隨著信息技術(shù)的不斷發(fā)展,這些傳統(tǒng)的身份認證方式變得不再安全。例如一些網(wǎng)絡(luò)黑客會通過網(wǎng)絡(luò)竊取用戶個人信息,給網(wǎng)絡(luò)用戶帶來巨大的損失,解決這一問題迫在眉睫。生物特征識別技術(shù)是指計算機利用人體生物特征進行身份識別或個體驗證的一種技術(shù)。與傳統(tǒng)身份驗證方式相比,生物特征識別技術(shù)具有其獨特的屬性(生物特征通常具有唯一性),因此能夠在一定程度上解決這一問題。
人臉識別技術(shù)由于其直接、友好等特性,易于為用戶所接受,逐漸在眾多生物識別技術(shù)(視網(wǎng)膜識別、聲音識別、指紋識別等)中脫穎而出。人臉識別技術(shù)是通過計算機分析人臉圖像,利用特殊方法提取人臉中有效的識別信息,進行身份驗證的一門技術(shù)。
人臉識別按照測試數(shù)據(jù)類型可分為受控場景人臉識別和非受控場景人臉識別。非受控場景下的人臉識別是指使用在個體不被告知或不被打擾的情況下獲得的圖像進行身份識別。與注冊圖像相比,測試圖像會存在人臉局部遮擋、姿態(tài)變化、光照變化、表情變化、化妝甚至成像質(zhì)量下降等一個或多個情況,這給人臉識別帶來了巨大挑戰(zhàn)。因此,本文通過分析非受控狀態(tài)下人臉識別過程中可能遇到的各種問題,給出相應(yīng)的解決策略。
人臉識別屬于圖像識別的一種,其大致工作過程如下:首先輸入需要進行身份識別的人臉圖像,經(jīng)過預(yù)處理和特征提取等步驟逐漸減少數(shù)據(jù)量,并得到特征向量。然后將提取到的特征向量與樣本特征庫中的特征進行比較,輸出識別結(jié)果。輸入的圖像可以使二維平面圖像或含有豐富人臉信息的三維點云數(shù)據(jù)。一個人臉識別系統(tǒng)通常有兩種模式,人臉認證模式和人臉識別模式。人臉認證模式下進行的是一對一的處理,將輸入人臉圖像提取出的特征與已經(jīng)獲得分類信息的圖像進行特征匹配,通過對比輸入圖像的特征與樣本庫中的特征判斷是否具有相同身份。人臉識別模式下進行一對多處理,將輸入圖像的特征與有標簽數(shù)據(jù)集中的所有對象分別進行匹配,找出與之匹配程度最高的一個對象,從而識別出輸入圖像的身份。圖2-1顯示了人臉識別的過程。
圖2-1 人臉識別過程
在實際應(yīng)用過程中,人臉識別系統(tǒng)的性能往往會受到各類綜合因素的影響,例如光照變化、姿態(tài)變化、面部表情、年齡跨度、面部遮擋等。人臉識別可以分為兩大類:合作情況(受控狀態(tài))與非合作情況(非受控狀態(tài))。
合作的情況主要有以下這些應(yīng)用:安全檢查系統(tǒng)、計算機登錄和電子護照等。在這種情況下,用戶愿意主動配合,并以要求的方式(如中性表情、眼睛睜開的正面姿勢)來表現(xiàn)他們的人臉以獲得訪問權(quán)限或通過檢查。在非合作的情況下,例如視頻監(jiān)控中,用戶可能并不知道到他們正在被監(jiān)控。同時通常在用戶主動配合的情況下,如計算機登錄等,距離一般少于1米,這樣的人臉識別問題相對來說是比較簡單的。而非合作情況下的應(yīng)用一般距離都較遠,如視頻監(jiān)控識別等,非常富有挑戰(zhàn)性。
雖然非受控狀態(tài)下的人臉識別比受控狀態(tài)下的識別難度大,但顯然非受控狀態(tài)下的人臉識別應(yīng)用范圍更加廣泛。
近年來,雖然人臉識別技術(shù)由于其友好性和非打擾等優(yōu)勢,逐漸被廣泛應(yīng)用在各個領(lǐng)域。同時,在應(yīng)用過程中它的很多缺陷與問題也逐漸突顯出來,成為其進一步發(fā)展的阻礙,主要表現(xiàn)在以下幾個方面:
①光照變化。在實際應(yīng)用中,受到外界的光照干擾等因素影響,會導(dǎo)致拍攝到的人臉圖像部分區(qū)域出現(xiàn)過亮或過暗現(xiàn)象,嚴重者可能導(dǎo)致人臉特征完全消失,給預(yù)處理等過程帶來極大的不便。由于在非受控狀態(tài)下,光照條件保持穩(wěn)定是完全不可能實現(xiàn)的,目前眾多人臉識別方法都對光照條件有一定的要求,因此光照是人臉識別技術(shù)需要克服的最大技術(shù)難題之一。
②姿態(tài)變化。這里的姿態(tài)變化是指人臉相對于攝像機的視角發(fā)生變化,這也是一個會對人臉識別系統(tǒng)的性能產(chǎn)生極大影響的因素。當同一身份的人臉頭部發(fā)生姿態(tài)變化時(旋轉(zhuǎn)或傾斜),人臉特征會隨之發(fā)生較大變化。同時,在實際應(yīng)用中,大部分情況下被識別者的動作是非受控的,這就會導(dǎo)致人臉發(fā)生大姿態(tài)變化,有可能只能采集到小部分人臉,給人臉識別帶來極大的困難。因此,提高識別系統(tǒng)對人臉姿態(tài)的魯棒性也是人臉識別中的挑戰(zhàn)之一。
③表情變化。人臉由于人類發(fā)達的面部肌肉可以做出各種豐富的表情。人臉表情的變化會引起人臉幾何形狀及面部特征的變化,同時引起采集的二維人臉圖像發(fā)生變化,對人臉識別系統(tǒng)的性能產(chǎn)生干擾。因此,即便是身份相同的人,在表情變化的影響下,人臉特征會發(fā)生極大變化,使人臉識別算法難以提取有效識別特征,影響人臉識別算法的性能。
④有無遮擋。人臉面部可能存在眼鏡、胡須、帽子、圍巾等遮擋物。尤其是當這些遮擋物的面積過大或遮擋住了人臉的關(guān)鍵部位時,會對人臉識別系統(tǒng)產(chǎn)生影響,導(dǎo)致系統(tǒng)難以獲得足夠的人臉特征而發(fā)生漏判或錯判,導(dǎo)致識別率的下降。
⑤非人臉和類膚色干擾。在非受控狀態(tài)下的人臉圖像采集中,背景中有時會存在和膚色類似的像素,同時人臉附近也可能存在有非人臉膚色部分,導(dǎo)致人臉圖像的膚色區(qū)域難以分離出來,導(dǎo)致人臉識別系統(tǒng)無法檢測出準確的人臉位置和區(qū)域而發(fā)生錯誤,致使識別率下降。
⑥其他因素。除了以上幾種常見因素之外,非受控狀態(tài)下的人臉識別還存在大量干擾因素:年齡跨度導(dǎo)致人臉特征發(fā)生變化;人臉采集設(shè)備(如噪聲、曝光不足、模糊等)會對拍攝到的人臉圖像產(chǎn)生不同的影響。因此要解決如此多復(fù)雜因素的影響,就必須設(shè)計出魯棒性更強,人臉識別準確率更高的人臉識別方法。
2.3.1 卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
卷積神經(jīng)網(wǎng)絡(luò)是一種結(jié)構(gòu)特殊的神經(jīng)網(wǎng)絡(luò),包含輸入層、輸出層和隱藏層等各層,每一層由若干二維平面構(gòu)成,而每個二維平面由眾多獨立的神經(jīng)元組成。通常第一層為輸入層,而與它直接連接的是特征提取層C,而與C層連接的則是特征映射層S。網(wǎng)絡(luò)中最重要的部分就是中間的隱藏層,包括卷積層和下采樣層。其中卷積層是由抗形變的C元聚合而成,而下采樣層則由S元構(gòu)成(承擔特征提取工作)。輸入層的所有局部感受野都與C層中的每一個神經(jīng)元相連接,用來提取輸入層的局部特征。首先將樣本圖像輸入卷積層進行卷積(卷積層中包含濾波器),這個濾波器可以添加偏置并且可以訓(xùn)練,卷積后在C1層產(chǎn)生n個特征映射圖。接下來對這些特征映射圖進行分組求和加權(quán)以及偏置。接著通過Sigmoid等激活函數(shù)得到S2層的n個特征映射圖。最后循環(huán)執(zhí)行以上過程(循環(huán)次數(shù)人為設(shè)定),最后一個下采樣層與輸出層全連接,得到最終輸出結(jié)果。
2.3.2 卷積神經(jīng)網(wǎng)絡(luò)在非受控人臉識別上的優(yōu)勢
卷積神經(jīng)網(wǎng)絡(luò)采用局部感知野、權(quán)值共享以及多個濾波器等方法綜合在一起,因此具有網(wǎng)絡(luò)結(jié)構(gòu)簡單、訓(xùn)練參數(shù)較少和適應(yīng)性強等特點。卷積神經(jīng)網(wǎng)絡(luò)的特殊結(jié)構(gòu)避免了傳統(tǒng)算法中復(fù)雜的特征提取和特征重建過程,在訓(xùn)練過程中能夠并行進行特征提取和模式分類。
卷積神經(jīng)網(wǎng)絡(luò)可以分層提取特征,然后再進行人臉驗證工作,這種結(jié)構(gòu)顯然能夠解決解決非受控狀態(tài)下的人臉識別問題。因為無論對于具有相似干擾(遮擋部位)的圖像還是具有不同干擾的圖像,通過卷積神經(jīng)網(wǎng)絡(luò)的分層特征提取都可以解決。
正是卷積神經(jīng)網(wǎng)絡(luò)的這種特殊結(jié)構(gòu),它才可以完全解決非受控問題中諸如姿態(tài)變化、光照變化、表情變化、遮擋、旋轉(zhuǎn)和尺度變換等綜合干擾因素的影響以及大姿態(tài)、大范圍遮擋下的“數(shù)據(jù)缺失”問題。
卷積神經(jīng)網(wǎng)絡(luò)是人工神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)思想結(jié)合的產(chǎn)物,具有層次結(jié)構(gòu)化、局部感知區(qū)域、特征提取和分類過程結(jié)合的全局訓(xùn)練等特點。研究表明,CNN網(wǎng)絡(luò)通過多層非線性映射,能夠很好地解決姿態(tài)變化、光照變化、表情變化、遮擋、旋轉(zhuǎn)和尺度變換等綜合干擾影響對人臉識別工作的影響。
[1]Hinton G E, Salakhutdinov R R. Reducing the dimensionality of data with neural networks[J].Science,2006, 313(5786): 504-507.
[2]Belhumeur P N. Ongoing Challenges in Face Recognition. Frontiers of Engineering: Reports on Leading-Edge Engineering from the 2005 Symposium[R], New York USA, 2005: 5-14.
閆月影,女,北京市,漢,本科,北京城市學(xué)院,助教,研究方向:計算機科學(xué)與技術(shù)。