黃興晗,杜小甫,劉沂杰
(廈門大學(xué)嘉庚學(xué)院信息科學(xué)與技術(shù)學(xué)院,福建漳州,363105)
人臉識(shí)別技術(shù)是指利用計(jì)算機(jī)技術(shù)對(duì)人臉圖像進(jìn)行分析,進(jìn)而實(shí)現(xiàn)身份識(shí)別與驗(yàn)證的身份檢測技術(shù)?,F(xiàn)今人臉識(shí)別技術(shù)有兩種主要的研究方向:以人工設(shè)計(jì)的特征檢測為主的非深度學(xué)習(xí)方法,以及近年來發(fā)展成熟的基于深度學(xué)習(xí)卷積神經(jīng)網(wǎng)絡(luò)的人臉識(shí)別方法。
基于幾何特征的方法是傳統(tǒng)方法,在該方法中認(rèn)為人臉由各部分器官組成,而各部分器官又有許多相應(yīng)的特征點(diǎn),因此能夠通過所有特征點(diǎn)的幾何特征的集合來進(jìn)行判斷與分析。
Yang等人指出人臉是一個(gè)復(fù)雜的圖案,在場景中自動(dòng)發(fā)現(xiàn)人臉是一個(gè)困難但重要的問題。然后提出了一種復(fù)雜背景下人臉定位的新方法。該方法采用基于知識(shí)的分層方法,由三個(gè)層次組成:較高的兩層是基于不同分辨率的馬賽克圖像;最低一層上提出了一種改進(jìn)的邊緣檢測方法。最后該方法能夠在復(fù)雜的黑白圖像中定位大范圍的未知人臉。后來盧春雨等人改進(jìn)了這種方法,基于區(qū)域特征思想提出一種新的人臉識(shí)別快速方法,比Yang的方法快很多,適用性也更強(qiáng)。
章品正等人,針對(duì)復(fù)雜背景中人臉檢測的受影響問題,提出了一種新方法。該方法首先通過預(yù)處理,將光照變化帶來的影響降低。然后通過多種劃分分辨率,對(duì)人臉圖案設(shè)置不同檢測規(guī)則,經(jīng)過多種不同分辨率的檢測對(duì)比,以提高檢測準(zhǔn)確度。然后對(duì)檢測結(jié)果進(jìn)行進(jìn)一步驗(yàn)算,使用最小同值分割吸收核區(qū),這種方法具有非常優(yōu)秀的抗干擾能力。最終對(duì)復(fù)雜背景中,具有較高噪聲的人臉輸入進(jìn)行識(shí)別,結(jié)果證明具有較好的準(zhǔn)確率和抗干擾效果。
所謂基于特征臉的方法,首先給出了特征臉的定義。特征臉指的是利用一組規(guī)范化的人臉圖像來構(gòu)造數(shù)學(xué)模型,將人臉圖像公有的像素空間特征進(jìn)行總結(jié),得到的一組標(biāo)準(zhǔn)數(shù)據(jù)。然后再識(shí)別未知圖像時(shí),將未知圖像的像素信息投射到前面的模型中,得到相似度的數(shù)值。數(shù)值高于某個(gè)閾值時(shí),認(rèn)為輸入的是人臉圖像,否則認(rèn)為輸入的不是。根據(jù)最后的比較過程中所使用的的方法不同,可以將前人工作劃分為幾種不同算法。特征臉是一種典型的主成分分析方法。
Shatnawi等人為了解決嵌入式系統(tǒng)中對(duì)人臉識(shí)別的實(shí)時(shí)性要求,提出了對(duì)人臉識(shí)別的準(zhǔn)確度和所需計(jì)算量進(jìn)行衡量,找到最優(yōu)的平衡。具體研究了3中不同的距離測量方法。即:歐幾里德距離,街區(qū)城市距離,和國際象棋距離。試驗(yàn)結(jié)果表明,可以找出最優(yōu)的特征臉的數(shù)目,可以提供在可接受的執(zhí)行時(shí)間內(nèi)的最高識(shí)別率。此外,特征臉的最佳數(shù)目很大程度上取決于所選擇的距離度量。Rosnelly等人針對(duì)筆記本電腦攝像頭的人臉識(shí)別算法進(jìn)行了研究,該方法是基于特征臉技術(shù)的。通過攝像頭獲取320 x 240和100 x 100兩種分辨率的人臉圖像,進(jìn)行特征比對(duì),進(jìn)行身份識(shí)別。然后通過表情捕捉,左右傾斜等動(dòng)作要求,來進(jìn)行生物信息識(shí)別,判斷輸入的是活體生物信息而不是靜態(tài)圖像。Hu等人提出了一種全新的人臉識(shí)別方法,將人臉圖像的增強(qiáng)雙樹復(fù)小波變換(ADT-CWT)表示與正則化鄰域投影判別分析(RNPDA)方法相結(jié)合。ADT-CWT首先通過空間頻率、空間局域性和方向選擇性來獲取人臉特征,以應(yīng)對(duì)光照和面部表情的變化。然后采用RNPDA進(jìn)一步降低了ADT-CWT特征的求導(dǎo)維數(shù),通過簡單的回歸框架直接得到一組最優(yōu)特征向量,從而克服了NPDA樣本量小的問題。在FERET數(shù)據(jù)庫、擴(kuò)展YALEB數(shù)據(jù)庫和CMU PIE數(shù)據(jù)庫上進(jìn)行了大量實(shí)驗(yàn),比較了該方法與一些流行的降維方法的識(shí)別性能。實(shí)驗(yàn)結(jié)果驗(yàn)證了該方法的有效性。
此外,基于統(tǒng)計(jì)理論的方法也是早期研究中常見的一種人臉識(shí)別方法。
Moghaddam等人提出了一種無監(jiān)督的視覺學(xué)習(xí)技術(shù),它基于高維空間的密度估計(jì),利用特征空間分解。為訓(xùn)練數(shù)據(jù)建模,導(dǎo)出了兩種類型的密度估計(jì):多變量高斯模型(用于單峰分布)和混合高斯模型(用于多峰分布)。然后利用這些概率密度建立一個(gè)最大似然估計(jì)框架,用于視覺搜索和目標(biāo)檢測,用于自動(dòng)目標(biāo)識(shí)別和編碼。這種學(xué)習(xí)技術(shù)可以應(yīng)用于人臉和非剛性物體(如手)的概率視覺建模、檢測、識(shí)別和編碼,效果良好。
卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networkm,CNN),是一種深度神經(jīng)網(wǎng)絡(luò),能夠直接使用圖像的像素值作為輸入,將神經(jīng)網(wǎng)絡(luò)中的圖像空間,分為多塊進(jìn)行復(fù)雜計(jì)算,通過各種參數(shù)的計(jì)算、共享等數(shù)據(jù)挖掘方式,將局部性的特征進(jìn)行完全的自主學(xué)習(xí)。最后得到一個(gè)完整的圖像識(shí)別模型,后續(xù)就可使用此模型對(duì)其他圖像進(jìn)行識(shí)別,并且能夠給出相應(yīng)的相似率進(jìn)行參考。在人臉識(shí)別領(lǐng)域,基于深度學(xué)習(xí)的識(shí)別算法比較多。
通過多個(gè)不同的卷積核,將一張圖片上多個(gè)不同的特征分別進(jìn)行提取,最后再將多個(gè)特征相結(jié)合,形成更高層級(jí)的特征。層級(jí)越高,特征越易描述,越具體。將傳統(tǒng)方法與深度學(xué)習(xí)方法相結(jié)合。
馬駿的研究指出由于單一的神經(jīng)網(wǎng)絡(luò)通道進(jìn)行人臉表情識(shí)別會(huì)造成特征信息丟失,設(shè)計(jì)了一種特征融合的算法。首先將直方圖均衡化處理后的面部表情圖片通過卷積神經(jīng)網(wǎng)絡(luò)提取全局特征,將原圖通過局部二值模式處理后,送入另一個(gè)卷積神經(jīng)網(wǎng)絡(luò)模型中,進(jìn)行圖片局部特征的提取,然后把前兩步驟中得到的全局特征和局部特征進(jìn)行加權(quán)平均,最后通過softmax進(jìn)行分類。這種方法在FER+數(shù)據(jù)集上測試得到了較好的識(shí)別結(jié)果,驗(yàn)證了模型的有效性。He等人針對(duì)異構(gòu)人臉識(shí)別進(jìn)行了深入研究,提出一種名為Wasserstein CNN的卷積神經(jīng)網(wǎng)絡(luò),對(duì)紅外圖像和普通可見光視頻圖像相結(jié)合,對(duì)異構(gòu)人臉圖像進(jìn)行識(shí)別,取得很好的效果。在三個(gè)具有挑戰(zhàn)性的NIR-VIS人臉識(shí)別數(shù)據(jù)庫上的廣泛實(shí)驗(yàn)表明,Wasserstein CNN與目前其他最先進(jìn)的方法相比,也具有顯著的優(yōu)勢。
在傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)中加入一些深度可分離卷積。通過逐通道卷積與逐點(diǎn)卷積等方法,降低參數(shù)量與運(yùn)算成本。能夠提取不同深度的特征信息,提高網(wǎng)絡(luò)結(jié)構(gòu)的魯棒性與準(zhǔn)確性(一般用于輕量級(jí)網(wǎng)絡(luò))。周麗指出在現(xiàn)實(shí)生活中,面部表情識(shí)別常被使用在社交、公共安全、人機(jī)交互和計(jì)算機(jī)視覺中。在實(shí)驗(yàn)中常使用眾包表情數(shù)據(jù)集Fer2013來訓(xùn)練網(wǎng)絡(luò),但該數(shù)據(jù)集噪聲較多,模型準(zhǔn)確率達(dá)到65%后很難再提升。于是,文章改為使用重新整理后的表情數(shù)據(jù)集Fer+。Fer+數(shù)據(jù)集不僅標(biāo)注出了無效人臉數(shù)據(jù),并且重新整理了表情標(biāo)簽,為每個(gè)表情類別都標(biāo)記了分類概率,利于實(shí)現(xiàn)人臉的復(fù)合表情識(shí)別。該論文使用簡化Xception模型,在原模型基礎(chǔ)上修改了網(wǎng)絡(luò)模型寬度,并且只使用了4個(gè)具有殘差連接的深度可分離卷積層,最終在Fer+數(shù)據(jù)集上得到了80%左右的測試準(zhǔn)確率。
Parkhi等人針對(duì)超大規(guī)模訓(xùn)練數(shù)據(jù)集在卷積神經(jīng)網(wǎng)絡(luò)中的應(yīng)用問題進(jìn)行研究,使用了一個(gè)超過260萬張圖片的超大規(guī)模數(shù)據(jù)及,通過自動(dòng)化方法循環(huán)自動(dòng)組裝,實(shí)現(xiàn)了深度網(wǎng)絡(luò)訓(xùn)練的遍歷和人臉識(shí)別的復(fù)雜度的控制,在數(shù)據(jù)準(zhǔn)確性和算法時(shí)間之間取得了良好的平衡。最后在標(biāo)準(zhǔn)LFW和YTF人臉數(shù)據(jù)集上驗(yàn)證,實(shí)驗(yàn)效果良好。
本文總結(jié)了當(dāng)前人臉識(shí)別技術(shù)的分類,重點(diǎn)對(duì)基于特征檢測的傳統(tǒng)方法進(jìn),和對(duì)基于卷曲神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)方法進(jìn)行了分類對(duì)比。對(duì)較為先進(jìn)的方法進(jìn)行闡述,對(duì)各種方法中的優(yōu)缺點(diǎn)進(jìn)行分析,幫助我們后期進(jìn)行深入的人臉識(shí)別研究。