童嘯
(江蘇省常熟職業(yè)教育中心校 江蘇 常熟 215500)
身份識(shí)別是我們每個(gè)人在日常生活中經(jīng)常遇到的問(wèn)題,例如我們經(jīng)常使用身份證、工作證、信用卡、個(gè)人設(shè)置密碼等方法來(lái)證明身份。但是,它們不僅攜帶不便、不易保管、記憶復(fù)雜,而且容易丟失、忘記、被他人竊取和盜用,這些方法都不夠保險(xiǎn),為了解決這些困難,人們提出了一種根據(jù)人體自身的生物特征來(lái)進(jìn)行身份識(shí)別的方法,即所謂的生物特征識(shí)別技術(shù)[1-3]。其中人臉識(shí)別是生物特征識(shí)別技術(shù)中的重要研究課題之一,也是近年來(lái)的一個(gè)研究熱點(diǎn)[3]。
人臉識(shí)別是模式識(shí)別領(lǐng)域中的一個(gè)重要課題,具有非常廣泛的研究前景。近幾年來(lái),人臉識(shí)別得到了很大的發(fā)展,提出了很多優(yōu)秀的算法。其中,Turk等人提出的特征臉?lè)椒ǎ‥igenfaces)方法[4]和 Belhumeur等人提出的 Fisher臉(Fisherfaces)方法[5]是應(yīng)用最為廣泛的兩種的算法。簡(jiǎn)單說(shuō),特征臉?lè)椒ň褪峭ㄟ^(guò)主成分分析(Principal Component Analysis,PCA)來(lái)進(jìn)行人臉識(shí)別,計(jì)算向量樣本的總體協(xié)方差矩陣,其最大的d個(gè)特征值對(duì)應(yīng)的特征向量作為鑒別矢量集,然后樣本在鑒別矢量集上投影,得到的d個(gè)系數(shù)就是抽取出的特征。Fisher臉?lè)椒ú捎镁€(xiàn)性判別分析(Linear Discriminant Analysis, LDA)[6]方法從高維特征空間里提取出最具有判別能力的低維特征。近來(lái)Fisher臉又有新的發(fā)展[7-9]。但是,LDA有以下幾個(gè)缺點(diǎn):1)處理高維圖像時(shí)容易產(chǎn)生“小樣本問(wèn)題”,即樣本維數(shù)大大超過(guò)訓(xùn)練圖像個(gè)數(shù)的問(wèn)題,因此在小樣本情況下,如何抽取Fisher最優(yōu)鑒別特征成為一個(gè)公認(rèn)的難題[10-13];2)線(xiàn)性判別分析LDA最多有C-1個(gè)判別特征,但是在一些高維空間中往往是不夠的[1];3)在計(jì)算類(lèi)間散布矩陣時(shí),僅僅只考慮了類(lèi)的中心值,并沒(méi)有有效地捕獲類(lèi)的邊界結(jié)構(gòu),而這些邊界結(jié)構(gòu)已經(jīng)被證明在分類(lèi)中是非常有用的。這時(shí)LDA方法并不能取得很好的結(jié)果[14]。為了克服這些缺點(diǎn),取得更好的識(shí)別率,Li[15]等提出了非參數(shù)子空間分析(nonparametric subspace analysis,NSA)方法。
本文秉承核判別分析的思想,先對(duì)圖像進(jìn)行分塊,對(duì)分塊得到的子圖像矩陣再用NSA方法進(jìn)行鑒別分析——這種方法稱(chēng)為分塊NSA。這樣做主要基于下面兩點(diǎn)考慮,一是在人臉識(shí)別中當(dāng)人臉表情和光照條件變化較大時(shí),由于通常的NSA方法抽取的是圖像的全局特征,所以其識(shí)別效果并不理想。而實(shí)際上當(dāng)人臉表情和光照條件變化時(shí),僅部分人臉區(qū)域變化明顯,而其它部分變化不大,甚至無(wú)變化,對(duì)劃分后的子圖像進(jìn)行鑒別分析可以捕捉人臉的局部信息特征,從而有利于識(shí)別;二是對(duì)原始圖像進(jìn)行分塊,不僅可以方便地以2的指數(shù)次冪降低圖像向量的維數(shù),而且可以以2的指數(shù)次冪增加子圖訓(xùn)練樣本的數(shù)目,緩解小樣本問(wèn)題,減少問(wèn)題的復(fù)雜度。在ORL和XM2VTS人臉庫(kù)上驗(yàn)證了該方法在識(shí)別性能上優(yōu)于NSA和分塊LDA方法。
則所有訓(xùn)練圖像樣本的類(lèi)間散布矩陣SNb和類(lèi)內(nèi)散布矩陣Sw為
其中,權(quán)值函數(shù) w(i,j,l)和 K 最近鄰均值 mj(xil)的定義如下:
式中α是一個(gè)從零到無(wú)窮大變化的且控制權(quán)值方面距離比變化速度的一個(gè)參數(shù),d(v1,v2)是矢量 v1和 v2的歐幾里得距離,NNp(xil,j)是第 j類(lèi)中第 p 幅人臉到人臉矢量 xil最近鄰距離。
從式(3)我們發(fā)現(xiàn):第一,如果我們選擇k=Ni和設(shè)置所有的權(quán)值函數(shù)值都為1時(shí)mj(Xil)就變?yōu)榈趈類(lèi)的樣本均值。這就意味著NSA方法基本上是LDA方法的泛化。第二,與LDA相比,LDA最多只能提取C-1個(gè)判別特征,而NSA打破了使用所有的訓(xùn)練樣本來(lái)構(gòu)造類(lèi)間散布矩陣Sb的固有限制,僅僅使用類(lèi)中心來(lái)構(gòu)造。因此,更多的特征能被提取出來(lái)進(jìn)行判別從而加強(qiáng)了分類(lèi)性能。第三,NSA方法比LDA方法更好的利用不同類(lèi)別的邊界結(jié)構(gòu)信息。這個(gè)可以從Xil-mj(xil)的定義中看出。
由式(3)和(4)我們可以定義最優(yōu)判別準(zhǔn)則函數(shù)為:
其中,W是最優(yōu)辨識(shí)投影空間。我也可以將J(W)轉(zhuǎn)化成廣義特征值問(wèn)題,定義如下
從式(8)我們可以看出,當(dāng)Sw可逆時(shí),可以寫(xiě)成如下的標(biāo)準(zhǔn)特征值求解問(wèn)題
計(jì)算Sw-1SNb的特征分解,得到d個(gè)最大特征值對(duì)應(yīng)的特征向量。
從上述分析,我們注意到k近鄰點(diǎn)k的取值在某種程度上影響著算法的識(shí)別性能。因此NSA方法就是討論如何選擇適當(dāng)?shù)膋值,從而得到更高的算法識(shí)別率。
分塊LDA思想是先將一個(gè)m·n的圖像矩陣I分成p·q分塊圖像矩陣(類(lèi)似于線(xiàn)性代數(shù)中矩陣的分塊),即
把所有訓(xùn)練圖像樣本的子圖像矩陣視為訓(xùn)練樣本圖像向量,再施行NSA方法。則所有訓(xùn)練圖像樣本的子圖像矩陣的類(lèi)間散布矩陣為
所有訓(xùn)練圖像樣本的子圖像矩陣的類(lèi)內(nèi)散布矩陣Sw為
接下來(lái)的任務(wù)與NSA的類(lèi)似,計(jì)算在最佳投影矩陣下的前d個(gè)最大特征值所對(duì)應(yīng)的特征向量Z1,Z2,…,Zd,設(shè)最優(yōu)投影矩陣 Q=[Z1,Z2,…,Zd],則訓(xùn)練樣本 Aij的特征矩陣為
通過(guò)NSA的特征提取后,每個(gè)圖像對(duì)應(yīng)一個(gè)特征矩陣,對(duì)此特征矩陣,利用最小距離分類(lèi)器進(jìn)行分類(lèi)。
其特征矩陣(pd×q)為:
測(cè)試樣本:
特征矩陣(pd×q)為:
此外,我們得指出的是NSA是分塊NSA的特殊情況,因此,本文的分塊NSA方法是NSA方法的推廣。
ORL庫(kù)由40人的臉部圖像組成,每人10幅112×92的圖像,其中有些圖像拍攝于不同的時(shí)期,臉部表情、細(xì)節(jié)及姿態(tài)均有變化,深度旋轉(zhuǎn)與平面旋轉(zhuǎn)可達(dá)20°,人臉尺度有最多10%的變化[16]。如圖1是ORL數(shù)據(jù)庫(kù)中的一些人臉圖像:
由于本試驗(yàn)的目的之一是為了檢驗(yàn)本文算法對(duì)光照的敏感程度,故在圖像規(guī)一化的過(guò)程中,我們對(duì)圖像的灰度不做任何處理。試驗(yàn)中采用每人的前5幅圖像作為訓(xùn)練樣本,后5幅作為測(cè)試樣本,這樣訓(xùn)練樣本和測(cè)試樣本總數(shù)均為200。表1給出了對(duì)原始圖像矩陣進(jìn)行2×2,2×4和4×4三種分塊后得到的結(jié)果。3種情況下分塊子矩陣的大小分別為56×46,56×23,28×23。 取 k 個(gè)投影軸,則所得的整體投影特征向量的維數(shù)分別是 56×k,56×k和28×k。 采用的分類(lèi)器是最小距離分類(lèi)器。從表中結(jié)果我們發(fā)現(xiàn)本文方法的結(jié)果優(yōu)于NSA和分塊LDA方法的結(jié)果。
表1 ORL數(shù)據(jù)庫(kù)中各算法的識(shí)別率Tab.1 Recognition rate of every algorithm with ORL database
圖2給出了對(duì)ORL原始圖像矩陣進(jìn)行2×2,2×4和 4×4三種分塊后得到的結(jié)果。3種情況下分塊子矩陣的大小分別為 56×46,56×23,28×23。取 k 個(gè)投影軸,則所得的整體投影特征向量的維數(shù)分別是 56×k,56×k和 28×k。 采用的分類(lèi)器是最小距離分類(lèi)器。從表中結(jié)果我們發(fā)現(xiàn)本文方法的結(jié)果優(yōu)于NSA和分塊LDA方法的結(jié)果。
圖2 ORL數(shù)據(jù)庫(kù)中各算法的識(shí)別率Fig.2 Recognition rate of every algorithm with ORL database
XM2VTS人臉庫(kù)包括295人在4個(gè)月時(shí)間內(nèi)4次錄制的人臉和語(yǔ)音數(shù)據(jù)[16]。在每個(gè)時(shí)間段,沒(méi)人被記錄了2個(gè)頭部旋轉(zhuǎn)的視頻片段和6個(gè)語(yǔ)音視頻片段。其中每幅圖像的分辨率為55×51。圖3是XM2VTS數(shù)據(jù)庫(kù)中的一些人臉圖像。
由于本試驗(yàn)的目的之一是為了檢驗(yàn)本文算法對(duì)光照的敏感程度,故在圖像規(guī)一化的過(guò)程中,我們對(duì)圖像的灰度不做任何處理。試驗(yàn)中采用每人的前4幅圖像作為訓(xùn)練樣本,后4幅作為測(cè)試樣本,這樣訓(xùn)練樣本和測(cè)試樣本總數(shù)均為295×4。 表 2 給出了對(duì)原始圖像矩陣進(jìn)行 5×3,5×17 和 11×17三種分塊后得到的結(jié)果。3種情況下分塊子矩陣的大小分別為 11×17,11×3,5×3。 取 k 個(gè)投影軸,則所得的整體投影特征向量的維數(shù)分別是11×k,11×k和5×k。采用的分類(lèi)器是最小距離分類(lèi)器。從表中結(jié)果我們發(fā)現(xiàn)本文方法的結(jié)果優(yōu)于NSA和分塊LDA方法的結(jié)果。
圖3 XM2VTS數(shù)據(jù)庫(kù)中的人臉圖像Fig.3 Image of ORL XM2VTS database
表2 XM2VTS上跟算法的識(shí)別率Tab.2 Recognition rate of every algorithm with XM2VTS database
圖4給出了對(duì)XM2VTS原始圖像矩陣進(jìn)行5×3,5×17和11×17三種分塊后得到的結(jié)果。3種情況下分塊子矩陣的大小分別為 11×17,11×3,5×3。 取 k 個(gè)投影軸,則所得的整體投影特征向量的維數(shù)分別是11×k,11×k和5×k。采用的分類(lèi)器是最小距離分類(lèi)器。從表中結(jié)果我們發(fā)現(xiàn)本文方法的結(jié)果優(yōu)于NSA和分塊LDA方法的結(jié)果。
圖4 XM2VTS上跟算法的識(shí)別率Fig.4 Recognition rate of every algorithm with XM2VTS database
實(shí)驗(yàn)結(jié)果表明,本節(jié)的新算法在選取不同分塊做人臉識(shí)別時(shí)均可以得到不錯(cuò)的識(shí)別率。
通過(guò)上述實(shí)驗(yàn)我們可知,分塊NSA方法是NSA方法的推廣,它的識(shí)別率要高于NSA的識(shí)別率,因?yàn)槲覀兪紫葘?duì)訓(xùn)練樣本圖像進(jìn)行分塊,這樣就很容易的提取到訓(xùn)練樣本圖像的局部特征,而這些局部特征更能反映出圖像的差異性。
本文提出了分塊NSA方法并將其應(yīng)用于人臉識(shí)別。所提出的方法是一種直接基于子圖像矩陣的非線(xiàn)性特征提取方法,與以往的基于圖像向量的非線(xiàn)性特征提取方法 (比如NSA方法)相比,由于對(duì)原始圖像進(jìn)行分塊,可以方便地在較小的圖像上進(jìn)行特征提取方法,使其過(guò)程簡(jiǎn)便,如分塊NSA可以避免使用矩陣的奇異值分解理論。在ORL人臉庫(kù)和XM2VTS人臉庫(kù)上的實(shí)驗(yàn)結(jié)果表明,所提出的方法的識(shí)別率比NSA和分塊LDA的識(shí)別率要高。
[1]苑瑋琦,柯麗,白云.生物特征識(shí)別技術(shù)[M].北京:科學(xué)出版社,2009:1-5.
[2]田捷,楊鑫.生物特征識(shí)別技術(shù)理論與應(yīng)用[M].北京:電子工業(yè)出版社,2004:1-5.
[3]王映輝.人臉識(shí)別—原理、方法與技術(shù)[M].北京:科學(xué)出版社,2010.
[4]Turk M,Pentland A.Face recognition using eigenfaces[C]//Proceedings of the IEEE Computer Society Conference on ComputerVision and Pattern Recognition (CVPR’91).Washington,1991:586-591.
[5]Belhumeur P N,Hespanha J P,Kriegman D J.Eigenfaces vs fisherfaces:recognition using class specific linear projection[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,1997,19(7):711-720.
[6]Swets D L,Weng J.Using discriminant eigenfeatures for image retrieval[J].IEEE Trans.Pattern Analysis and Machine Intelligence,1996,18(8):831-836.
[7]Chen L F,Liao H Y,et al.A new LDA-based face recognition system which can solve the smalls ample size problem[J].Patern Recognition,2000,33(9):1713-1726.
[8]YU Hua,YANG Jie.A direct LDA algorithm for high-dimensional data with application to face recognition[J].Pattern Recognition,2001,34(10):2067-2070.
[9]JIN ZHong,YANG Jing-yu.Face recognition based on the uncorrelated discriminant transformation[J].Pattern Recognition,2001,34(7),1405-1416.
[10]CHEN Li-Fen,LIAO H-Y,KO M-T,et al.A new LDA-based face recognition system which can solve the small sample size problem[J].Pattern Recognition,2000,33(10):1713-1726.
[11]YU Hua,YANG Jie.A direct LDA algorithm for highdimensional data-with application to face recognition[J].Pattern Recognition,2001,34(10):2067-2070.
[12]Yang J,Yang J Y,Ye H,et al.Theory of fisher linear discriminant analysis and its application[J].Acta automatic Sinica,2003,29(4):482-493.
[13]YANG Jian,YANG Jing-yu.Why can LDA be performed in PCA transformed space?[J].Pattern Recognition,2003,36(2):563-566.
[14]Marinez A M,Kak A C.PCA versus LDA[J].IEEE PAM I,2001,23(2):228-233.
[15]LI Zhi-feng,TANG Xiao-ou.Nonparametric discriminant analysis for face recognition[J].Pattern Analysis Machine Intelligence, 2009, 31(4): 755-761.
[16]Friedman N,Geiger D,Goldszmidt M.Bayesian network classifiers[J].Machine Learning,1997,29(2/3):131-163.