張如艷 王士同
①(江南大學(xué)物聯(lián)網(wǎng)工程學(xué)院 無(wú)錫 214122)
②(江南大學(xué)數(shù)字媒體學(xué)院 無(wú)錫 214122)
人臉識(shí)別技術(shù)自誕生之日起,因其操作簡(jiǎn)單,實(shí)現(xiàn)方便等特點(diǎn)而成為生物識(shí)別技術(shù)中應(yīng)用最為廣泛的方法之一。這些優(yōu)點(diǎn)通常只有在比較理想的人臉圖像中才能得到充分體現(xiàn)。但是在實(shí)際應(yīng)用中,會(huì)有各種類型不確定的噪聲,對(duì)人臉圖像的質(zhì)量和識(shí)別效果產(chǎn)生影響。
通常,噪聲模型會(huì)被估計(jì)為高斯噪聲,而研究發(fā)現(xiàn),在工程應(yīng)用中,噪聲模型往往表現(xiàn)出非高斯性,即概率密度函數(shù)分布往往表現(xiàn)出較厚的尾部統(tǒng)計(jì)特性[1],如合成孔徑雷達(dá)圖像中、海雜波的尖峰幅度分布情況,都呈現(xiàn)出很多幅度較大的噪聲,此時(shí)的噪聲已經(jīng)不再是高斯噪聲,而是重尾噪聲。對(duì)于重尾噪聲的研究和應(yīng)用并不僅僅局限于海波、雷達(dá)等領(lǐng)域。人臉識(shí)別作為一種被廣泛使用的模式識(shí)別方法,有必要將重尾噪聲引入到人臉圖像中,研究其分類識(shí)別算法,這對(duì)于研究人臉識(shí)別技術(shù)具有重要意義。
概率密度函數(shù)估計(jì),考慮樣本數(shù)據(jù)的實(shí)際分布情況,能夠?yàn)樨惾~斯分類提供有力工具。最大后驗(yàn)概率[2]把分類問(wèn)題看成一個(gè)統(tǒng)計(jì)估計(jì)問(wèn)題,根據(jù)其所屬類別概率做出統(tǒng)計(jì)判斷。t分布具有尖峰后尾的統(tǒng)計(jì)特性[3],符合非高斯噪聲模型特性。因此,文中將其結(jié)合,得到t分布下基于核函數(shù)的最大后驗(yàn)概率分類方法(T Kernel-based MaximumA Posteriori,TKMAP),并驗(yàn)證其對(duì)含重尾噪聲的人臉圖像的識(shí)別效果。
常用的噪聲模型有椒鹽噪聲,乘性噪聲,高斯噪聲,重尾噪聲等[4]。本文研究重尾噪聲,重尾噪聲分布模型有 Cauchy噪聲,Erlang噪聲,Laplace噪聲,負(fù)指數(shù)噪聲以及混合高斯噪聲等。其概率密度函數(shù)的詳細(xì)描述如下。
其中a>0,b是正整數(shù),均值為b/a,方差為b/a2。
(5)混合高斯噪聲由高斯噪聲獲得,即若f1(x)是的概率密度函數(shù),)的概率密度函數(shù),則以+αf2(x)為概率密度函數(shù)的隨機(jī)變量,即為混合高斯噪聲。其中α為閃光頻率,一般情況下,α很小,μ1=μ2且σ1≤σ2。
在人臉識(shí)別中,樣本數(shù)往往小于人臉維數(shù),這就是小樣本問(wèn)題[5]。而基于核函數(shù)的方法只需要明確樣本數(shù)目而非具體維數(shù),所以,在很大程度上,解決了維數(shù)災(zāi)難的問(wèn)題。
理論上,滿足Mercer定理[6]的函數(shù)都可以作為核函數(shù),目前常用的核函數(shù)有
(1)RBF(高斯徑向)核函數(shù):
其中σ為尺度參數(shù),σ在很大程度上影響著RBF核函數(shù)的性能。
RBF核函數(shù)是典型的局部性核函數(shù),距離較遠(yuǎn)的樣本對(duì)核函數(shù)的值影響較小。文獻(xiàn)[7]表明,只要選擇合適的σ,對(duì)于任意給定的樣本集,RBF核函數(shù)可以對(duì)訓(xùn)練樣本集做出正確分類。
其中c為常數(shù),d為多項(xiàng)式階數(shù)。當(dāng)c=0,d=1時(shí),多項(xiàng)式核函數(shù)變成線性核函數(shù)。
多項(xiàng)式核函數(shù)是典型的全局性核函數(shù),較遠(yuǎn)的樣本點(diǎn)對(duì)核函數(shù)的值有較大的影響。在d很大時(shí),
(3)Sigmoid核函數(shù):
其中scale和offset分別為尺度和衰減參數(shù)。
通常,Sigmoid只有在scale>0和offset<0時(shí)才適合做核函數(shù),由于Sigmoid核函數(shù)沒(méi)有特別的優(yōu)勢(shì),因此一般不選擇其作為核函數(shù)。
目前,核函數(shù)類型多數(shù)是由特定領(lǐng)域的專業(yè)知識(shí)以及經(jīng)驗(yàn)來(lái)確定。核函數(shù)參數(shù)的確定,主要有試湊法和最優(yōu)化方法[8]。人臉圖像在加入重尾噪聲后,其特征分布與原始人臉圖像相比,發(fā)生了很大變化。RBF核函數(shù)作為一種局部性核函數(shù),能夠根據(jù)圖像的局部特征,很好地進(jìn)行平滑運(yùn)算,分類性能好。所以本文采用RBF核函數(shù),并根據(jù)試湊法確定其中的參數(shù)。
貝葉斯分類方法具有堅(jiān)定的數(shù)學(xué)基礎(chǔ),它以Bayes理論為基礎(chǔ),以先驗(yàn)概率和條件概率密度函數(shù)為依托,是一種有指導(dǎo)的模式識(shí)別方法。與其他算法相比,貝葉斯分類器具有最小出錯(cuò)率[9]。其關(guān)鍵是確定樣本數(shù)據(jù)的概率密度函數(shù)p(φ(x)|Ci)[10]。
假設(shè)m類樣本數(shù)據(jù)為第i類數(shù)據(jù)個(gè)數(shù)。核空間中,貝葉斯分類器的設(shè)計(jì)為以下 3個(gè)步驟:
首先,計(jì)算類Ci的先驗(yàn)概率p(Ci)。通常,無(wú)法得到p(Ci)的精確值,故根據(jù)類Ci的樣本比率估計(jì)[11],即p(Ci)=Ni/N。
其次,利用如下的貝葉斯公式計(jì)算后驗(yàn)概率p(Ci|φ(x))。
最后,根據(jù)分類規(guī)則,如果p(Cw|φ(x))=則x∈Cw,選擇具有最大后驗(yàn)概率的類Cw作為該樣本所屬的類別。
目前,概率密度估計(jì)主要有參數(shù)估計(jì)法和非參數(shù)估計(jì)法。文中選擇參數(shù)估計(jì)法,利用t分布下的概率密度函數(shù)估計(jì),采用最大似然方法,獲得分類概率。
假定一組獨(dú)立的p維數(shù)據(jù) {x1,x2,…,xN},多元t分布為t(μ,∑,v)。其中,μ是中心;∑是對(duì)稱、正定的矩陣;v>0是自由度,控制t分布的尾部形狀。核空間中,t分布的類條件概率密度函數(shù)為
定義
3.3.1 協(xié)方差矩陣規(guī)整化和對(duì)角化均值μi和協(xié)方差∑i的表達(dá)式為
從式(4)和式(5)中可以看到,∑i只與樣本個(gè)數(shù)有關(guān),而與其數(shù)據(jù)維數(shù)無(wú)關(guān)。因此,在小樣本情況下,根據(jù)μi和∑i求得的均值和協(xié)方差是病態(tài)的,可以利用如下的規(guī)整化方法。
由于映射函數(shù)φ未知,故無(wú)法求出∑i。而由于∑i是對(duì)稱、正定矩陣,可以將其對(duì)角化[12]為如下形式:
其中λij為∑i的第j個(gè)特征值,wij為與λij相對(duì)應(yīng)的特征向量,∑i的特征值已經(jīng)按照從大到小的順序排列。
將∑i代入式(5)中,得到
3.3.2 Mahalanobis距離公式由于高維的人臉特征對(duì)人臉?lè)诸惖淖饔貌⒉坏韧詾闇p少時(shí)間復(fù)雜度,先進(jìn)行降維處理。主成分分析(Principal Component Analysis,PCA)作為一種經(jīng)典有效的降維方法,已經(jīng)廣泛的應(yīng)用到人臉識(shí)別中[13],其降維過(guò)程不考慮樣本數(shù)據(jù)的類別屬性,而是將全體數(shù)據(jù)作為一個(gè)整體,求得樣本在投影方向上具有最大方差的特征。
借鑒PCA降維思想,但與PCA不同的是,文中并沒(méi)有舍棄第k+1個(gè)以后的特征值,而是用第k+ 1 個(gè)特征值hi(k+1)代替第k+1個(gè)后的所有特征值,以減少能量的損失[14]。則式(8)變?yōu)?/p>
根據(jù)再生核理論,所有對(duì)應(yīng)于λij≠ 0 的特征向量wij必存在于φ(x1),φ(x2),…,φ(xN)所張成的空間中。因此,wij可以用它們的線性組合來(lái)表示[15],即存在系數(shù)αi(i=1,2,…,N)使
由協(xié)方差矩陣定義可知,一對(duì)特征值與特征向量{λij,wij}滿足
由于特征向量之間是正交的,式(11)有如下變形
將式(7)和式(10)代入式(12),得到λij為
其中
同理,得
將式(13)和式(14)代入式(9)中,得
其中λij和αij是矩陣M的一對(duì)特征值與特征向量。
(1)分析5種重尾噪聲分布模型,得到含重尾噪聲的待識(shí)別人臉圖像。根據(jù)含重尾噪聲的人臉圖像的特性,選擇具有良好平滑性的RBF核函數(shù)。
(2)在核空間中,將t分布與核函數(shù)、貝葉斯公式相結(jié)合進(jìn)行推導(dǎo),得到 Mahalanobis距離ti(φ(x))。
(3)采用試湊法確定RBF核函數(shù)以及ti(φ(x))中的參數(shù)值。首先設(shè)定參數(shù)的初始值,然后根據(jù)實(shí)驗(yàn)結(jié)果不斷調(diào)試參數(shù)值,直至得到比較滿意的實(shí)驗(yàn)數(shù)值。
(4)根據(jù)貝葉斯分類方法,得到某一樣本數(shù)據(jù)的類別可信度,由最大后驗(yàn)概率確定樣本所屬分類。
實(shí)驗(yàn)在ORL和Yale數(shù)據(jù)集上進(jìn)行。為了驗(yàn)證本文所提出的算法的分類性能,引入3種對(duì)比算法,Gauss分布下基于核函數(shù)的最大后驗(yàn)概率分類方法(Gaussian Kernel-based MaximumA Posteriori,GKMAP),核主成分分析方法 (Kernel Principal Component Analysis,KPCA)和核Fisher判別方法(Kernel Fisher Discrimiant Analysis,KFDA)。
ORL人臉數(shù)據(jù)集由40人,每人10幅112×92的圖像組成,其中的人臉圖像是正面圖像,光照、姿態(tài)表情變化不是很大。Yale人臉數(shù)據(jù)集中共有15人,每人11幅圖像,其中的圖像拍攝環(huán)境較復(fù)雜,光照強(qiáng)度、姿態(tài)表情的變化比較大。為了降低時(shí)間復(fù)雜度,將ORL中的人臉圖像大小歸一化為53×64,將Yale中的人臉圖像大小歸一化為50×50,但并未做任何內(nèi)容上的更改。圖1和圖2顯示了ORL和Yale中的部分人臉圖像。
圖1 ORL中的部分人臉圖像
圖2 Yale中的部分人臉圖像
在ORL和Yale中,分別添加5種類型的重尾噪聲,在每種噪聲中設(shè)置3種參數(shù),從而得到同種噪聲模型下,受污染程度不同的人臉圖像,添加噪聲后的某人臉圖像如圖3和圖4所示。圖3和圖4中,從左到右的5列圖像,分別為添加3種噪聲參數(shù)的Cauchy噪聲,Erlang噪聲,Laplace噪聲,負(fù)指數(shù)噪聲和混合高斯噪聲的人臉圖像。
經(jīng)過(guò)反復(fù)實(shí)驗(yàn),ORL和Yale中的參數(shù)值分別為,RBF核函數(shù)中的參數(shù)σ=15和σ=10,規(guī)整化參數(shù)θ=0 .01,η=0 .03和θ=0 .01,η=0.06,自由度參數(shù)v=5和v=3。
實(shí)驗(yàn)中,在ORL和Yale中隨機(jī)選擇2,3,4,5和6張人臉圖像作為訓(xùn)練樣本集,剩下的人臉圖像作為測(cè)試樣本集。限于文章篇幅,只列出ORL中添加Cauchy噪聲的人臉圖像的識(shí)別率,如表1所示,Yale中添加Erlang噪聲的人臉圖像的識(shí)別率,如表2所示,ORL和Yale中含其他4種重尾噪聲的人臉圖像識(shí)別率在4種算法中有類似的實(shí)驗(yàn)結(jié)果。實(shí)驗(yàn)結(jié)果為20次實(shí)驗(yàn)的平均值。
圖3 ORL中含5種重尾噪聲的人臉圖像
圖4 Yale中含5種重尾噪聲的人臉圖像
表1 ORL中含Cauchy噪聲的人臉圖像的識(shí)別率(%)
從實(shí)驗(yàn)結(jié)果可以看到,隨著訓(xùn)練樣本數(shù)目的增加,4種人臉?lè)诸愃惴ǖ淖R(shí)別率均有提高。在樣本數(shù)目相同的前提下,前兩種算法 KPCA和 KFDA的識(shí)別效果沒(méi)有后兩種算法 GKMAP和 TKMAP理想。這是因?yàn)?,雖然核函數(shù)在一定程度上解決了小樣本問(wèn)題,但是其并沒(méi)有考慮人臉圖像的實(shí)際概率密度分布情況,而后兩種算法在核函數(shù)的基礎(chǔ)上,結(jié)合統(tǒng)計(jì)分布概念,能夠比較合理地估計(jì)人臉圖像的概率密度分布。
算法GKMAP和TKMAP的比較,識(shí)別精度上,第一,由于t分布對(duì)尖峰拖尾情況有比較好的適應(yīng)性,故算法TKMAP比GKMAP的魯棒性好。第二,當(dāng)人臉圖像中的噪聲點(diǎn)比較少時(shí),TKAMP比GKMAP的識(shí)別率高很多,而當(dāng)噪聲點(diǎn)比較多時(shí),人臉特征變化較大,相應(yīng)地概率密度函數(shù)的變化也很大,無(wú)法通過(guò)試湊法比較準(zhǔn)確地確定其中的參數(shù)值,故兩種方法的識(shí)別效果相差不大。復(fù)雜度上,由于 TKMAP需要不斷調(diào)整參數(shù)v,所以比GKMAP耗時(shí),但是由此換來(lái)了更好的實(shí)驗(yàn)效果。
本文將概率密度函數(shù)估計(jì)中的參數(shù)估計(jì)、核函數(shù)以及貝葉斯理論結(jié)合起來(lái),提出t分布下的基于核函數(shù)的最大后驗(yàn)概率多分類方法TKMAP。該算法主要利用t分布能夠比較好地適應(yīng)樣本數(shù)據(jù)的拖尾特性,進(jìn)而能夠?qū)匚苍肼暤娜四槇D像的實(shí)際拖尾情況進(jìn)行有效估計(jì)。實(shí)驗(yàn)結(jié)果證明,與其他3種算法相比,TKMAP在去除重尾噪聲方面表現(xiàn)出了良好的抗噪能力。但在算法實(shí)現(xiàn)中也存在一些問(wèn)題,例如如何根據(jù)含重尾噪聲的人臉圖像的拖尾情況,定量確定t分布中的自由度參數(shù)v,是一個(gè)值得深入研究的問(wèn)題。
表2 Yale中含Erlang噪聲的人臉圖像的識(shí)別率(%)
[1]Mukherjee A and Sengupta A.Estimating the probability density function of a nonstationary non-Gaussian noise[J].IEEE Transactions on Industrial Electronics,2010,57(4):1429-1435.
[2]Duda R O,Hart P E,and Stork D G.Pattern Classification[M].Wiley-Interscience Publication,2000:20-102.
[3]Wang Zhi-min and Song Qing.Robust curve clustering based on a multivariate t-distribution model[J].IEEE Transactions on Neural Networks,2010,21(12):1976-1984.
[4]王橋.數(shù)字圖像處理[M].第 1版,北京:科學(xué)出版社,2009:21-30.Wang Qiao.Digital Image Processing[M].First Edition,Beijing:Science Press,2009:21-30.
[5]樓宋江,張國(guó)印.零空間保局判別本征臉[J].電子與信息學(xué)報(bào),2011,33(4):962-966.Lou Song-jiang and Zhang Guo-yin.Null space locality preserving discriminant intrinsicface[J].Journalof Electronics&Information Technology,2011,33(4):962-966.
[6]John S T and Cristianini N.Kernel Methods for Pattern Analysis[M].Cambridge University Press,2004:289-325.
[7]褚蕾蕾,陳綏旭,周夢(mèng).計(jì)算智能的數(shù)學(xué)基礎(chǔ)[M].北京:科學(xué)出版社,2002:105-110.Chu Lei-lei,Chen Sui-xu,and Zhou Meng.Mathematical Basis of Computation Intelligence[M].Beijing:Science Press,2002:105-110.
[8]劉向東,駱斌,陳兆乾.支持向量機(jī)最優(yōu)模型選擇的研究[J].計(jì)算機(jī)研究與發(fā)展,2005,42(2):576-581.Liu Xiang-dong,Luo Bin,and Chen Zhao-qian.Optimal model selection for support vector machines[J].Journal of Computer Research and Development,2005,42(2):576-581.
[9]張全新,鄭建軍,朱振東,等.貝葉斯分類器集成的增量學(xué)習(xí)方法[J].北京理工大學(xué)學(xué)報(bào),2008,28(5):397-400.Zhang Quan-xin,Zheng Jian-jun,Zhu Zhen-dong,et al..Increment learning algorithm based on Bayesian classifier integration[J].Transactions of Beijing Institute of Technology,2008,28(5):397-400.
[10]Zhang Yan and Zhang Tao.Kernel-based Bayesian face recognition[C].2009 Fifth International Conference on Natural Computation,Tianjin,China,2009,7:568-572.
[11]鐘樺,焦李成,侯鵬.基于非下采樣Contourlet變換的視網(wǎng)膜分割[J].計(jì)算機(jī)學(xué)報(bào),2011,34(3):574-582.Zhong Hua,Jiao Li-cheng,and Hou Peng.Retial vessal segmentation using subsampled Contourlet transform[J].Chinese Journal of Computers,2011,34(3):574-582.
[12]Ruiz A and Lopez-de Teruel P E.Nonlinear kernel-based statistical pattern analysis[J].IEEE Transactions on Neural Networks,2001,12(1):16-32.
[13]Zhao Hai-tao,Yuen Pong-chi,and Kwok J T.A novel incremental principal component analysis and its application for face recognition[J].IEEE Transactions on Systems,Man,and Cybernetics,2006,36(4):873-886.
[14]Xu Zeng-lin,Huang Kai-zhu,Zhu Jian-ke,et al..A novel kernel-based maximum a posteriori classification method[J].Neural Networks,2009,22(7):977-987.
[15]Sch?lkopf B,Smola A,and Müller K R.Nonlinear component analysis as a kernel eigenvalue problem[J].Neural Computation,1998,10(5):1299-1319.