趙永卿,安建成
(太原理工大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,山西 太原 030024)
一個(gè)完整的人臉自動(dòng)識(shí)別系統(tǒng)必須能可靠地完成人臉檢測(cè)、特征提取和人臉識(shí)別。在此之前,一些研究人員使用了局部面部特征提取和分類來達(dá)到理想目標(biāo)。自動(dòng)人臉識(shí)別系統(tǒng)分為基于部件識(shí)別和基于面部識(shí)別[1]。可靠的面部特征提取是一個(gè)極其復(fù)雜的任務(wù),因?yàn)槿四槷?dāng)大小和形狀發(fā)生微小的變化時(shí)將會(huì)引起提取的特征發(fā)生變化。因此,研究人員提出把人臉看作二維強(qiáng)度模式的基于面部識(shí)別系統(tǒng),并且通過檢測(cè)和匹配其統(tǒng)計(jì)特性,將該系統(tǒng)實(shí)現(xiàn),本文主要介紹基于面部識(shí)別。
Kirby[2]等人利用主成分分析法(Principal Component Analysis,PCA)把人臉描述成加權(quán)特征向量的線性組合,基于PCA的人臉識(shí)別系統(tǒng)有辨別能力差和計(jì)算量過大的缺點(diǎn),J.Lu[3]等人為了改進(jìn)人臉識(shí)別,提出利用線性判別分析法(Linear Discriminant Analysis,LDA)使類間散布矩陣和類內(nèi)散布矩陣的比例達(dá)到最大值。J.M.Fellus[4]提出EP(Evolutionary Pursuit)法和彈性束圖匹配法(Elastic Bunch Graph Matching,EBGH)以期產(chǎn)生最優(yōu)軸投影。為了改善針對(duì)高維圖像的人臉識(shí)別系統(tǒng)的性能,近些年研究的基于曲波變換的人臉識(shí)別方法有基于曲波變換的PCA法[5]、基于曲波變換的 LDA 法[6]和基于曲波變換的PCA+LDA法[7]。人臉識(shí)別算法有其自身局限性,比如對(duì)視點(diǎn)的變化、原型數(shù)量、分類速度有較大的敏感性。本文把曲波變換與雙向二維主成分分析(Bidirectional Two Dimensional Principal Component Analysis,B2DPCA)和極端學(xué)習(xí)機(jī)(Extreme Learning Machine,ELM)結(jié)合起來消除以往方法中固有的缺陷。
小波變換在傳達(dá)準(zhǔn)確的時(shí)間和空間信息上是一個(gè)顯著的多分辨率分析工具,但小波變換也存在很多問題,針對(duì)這些問題,Candes和Donoho在1999年提出了曲波變換理論[9],并構(gòu)造了曲波的緊框架,對(duì)于具有光滑奇異性曲線的目標(biāo)函數(shù),曲波提供了穩(wěn)定的、高效的和近乎最優(yōu)的表示。曲波變換直接以邊緣為基本表示元素,曲波變換是各向異性的,具有很強(qiáng)的方向性,非常有利于圖像邊緣的高效表示。它符合生理學(xué)研究所指出的“最優(yōu)”的圖像表示方法應(yīng)具有的特征。
第一代曲波變換理論由脊波理論衍生而來。曲波變換和小波變換相同之處是都是多尺度變換,以刻度和空間位置參數(shù)為構(gòu)成基礎(chǔ)。但曲波變換有方向參數(shù),曲波金字塔包含一種方向特征的基本原理。此外曲波變換基于各向異性尺度法則。
第二代曲波與第一代曲波在構(gòu)造上已經(jīng)完全不同,第一代曲波的構(gòu)造思想是通過足夠小的分塊將曲線近似地當(dāng)作每個(gè)分塊中的直線來看待,然后利用局部的脊波分析其特性。而第二代曲波和脊波理論并沒有關(guān)系,實(shí)現(xiàn)過程也不需要用到脊波。本文中主要利用曲波變換分解圖像。
Karhunen-Loeve展開式,又被稱作主成分分析法(PCA),是一種被廣泛地應(yīng)用在模式識(shí)別和壓縮的數(shù)據(jù)表示技術(shù)。Yang[10]等人提出了2DPCA圖像表示法,與PCA不同,2DPCA是基于二維矩陣而不是一維向量。因此,圖像的矩陣在進(jìn)行特征提取前不需要矢量化,而是使用原始圖像矩陣直接計(jì)算圖像協(xié)方差矩陣。
設(shè)X表示一個(gè)q維單位化列向量,2DPCA的思想是將p×q圖像的矩陣A經(jīng)線性變換Y=AX直接投影到X上,得到一個(gè)A的投影特征向量Y??梢杂猛队皹颖镜目傮w散布情況來衡量投影向量X對(duì)樣本的識(shí)別能力。投影樣本的總體散布可用投影特征向量的協(xié)方差矩陣的跡進(jìn)行描述。這樣,可采用以下判定準(zhǔn)則
式中:SX表示訓(xùn)練樣本的投影特征向量的協(xié)方差矩陣,tr(SX)表示SX的跡。找出上式中判定準(zhǔn)則的最大值的物理意義是找到一個(gè)使所有樣本都能被涉及到的投影方向X,以使這些投影樣本的總體散布被最大化。協(xié)方差矩陣SX可以表示為
所以
定義一個(gè)圖像的協(xié)方差矩陣Gt
從定義容易證明Gt是一個(gè)非負(fù)的q×q矩陣。可使用訓(xùn)練圖像樣本直接計(jì)算Gt。假定共有M個(gè)訓(xùn)練圖像樣本,第α個(gè)訓(xùn)練圖像樣本用一個(gè)p×q矩陣Aα表示(α=1,2,…,M),所有訓(xùn)練圖像樣本的平均圖像用A表示。則Gt可由下式計(jì)算得到
則有
使判定準(zhǔn)則J(X)取最大值的線性向量Xopt稱作最佳投影軸,一般情況下,只有一個(gè)最佳投影軸是不夠的,通常需要選擇滿足正交條件和使判定準(zhǔn)則J(X)取最大值的一簇投影軸 X1,X2,…,XM,實(shí)際上,最佳投影軸是 Gt對(duì)應(yīng)于前M個(gè)最大本征值的正交本征向量。
基于2DPCA識(shí)別的局限性使它的可操作性只能沿著行方向,Zhang和Zhou[11]在基于假設(shè)訓(xùn)練圖像零均值的基礎(chǔ)上提出(2D)2PCA方法。因此,可以用行/列圖像矢量的外積計(jì)算圖像的協(xié)方差矩陣。利用式(5)計(jì)算出GtRow和GtCol,首先按照Aα和A的行向量計(jì)算,接著對(duì)其列向量用相同方法。對(duì)GtRow和GtCol的最佳投影軸進(jìn)行取值分別記作X1opt和Z1opt,值得一提的是Gt和GtRow都是基于行計(jì)算的,因此它們的最佳投影軸Xopt和X1opt是相似的,通過變換把Aα表示成。
為了保證行列關(guān)系和生成區(qū)別特征集,降維算法沿行列是獨(dú)立完成的,本文方法是利用最佳投影軸生成圖像協(xié)方差矩陣[11],并對(duì)其進(jìn)一步優(yōu)化。一旦最佳投影軸把Xoptα計(jì)算出來,圖像的矩陣Aα沿其列向量降維,利用式(7)得到圖像集Aβ,把新生成的圖像集看作一個(gè)新的數(shù)據(jù)庫(kù),計(jì)算得出新的圖像協(xié)方差矩陣Gtβ和新的最佳投影軸Xoptβ。最后,通過式(8左乘Aβ得到輸出矩陣AΘ
Kong[12]等人將 2DPCA 進(jìn)行改進(jìn),提出了 B2DPCA(Binary Two Dimensional Principal Component Analysis)算法來降維。本文在算法一中簡(jiǎn)單介紹了此算法主要步驟。
算法一:B2DPCA算法
INPUT:輸入圖像的矩陣 AN×N,N∈Z+。
OUTPUT:輸出M×M矩陣AΘ,N∈Z+。
1)利用式(5)計(jì)算Aα圖像的協(xié)方差矩陣Gtα;
2)計(jì)算 J(X)=XTGtαX;
3)最佳投影軸 Xoptα={X1,X2,…,XM},Xi表示正交向量;
4)沿列降維得到 Aβ=AαXoptα;
5)計(jì)算Aβ的圖像協(xié)方差矩陣Gtβ;
6)同步驟(3)計(jì)算 Xoptβ;
7)通過式(8)進(jìn)行行降維。
傳統(tǒng)前饋神經(jīng)網(wǎng)絡(luò)多采用梯度下降算法調(diào)整權(quán)值,缺點(diǎn)是學(xué)習(xí)速度較慢、泛化性能差,為了解決這些缺陷,Huang[13]等人提出了極端學(xué)習(xí)機(jī)算法(Extreme Learning Machine,ELM),該算法對(duì)單隱層神經(jīng)網(wǎng)絡(luò)的輸入權(quán)值和隱層節(jié)點(diǎn)偏移量進(jìn)行隨機(jī)賦值,并且只通過一步計(jì)算即可解析求出網(wǎng)絡(luò)輸出權(quán)值,如圖1所示。
考慮到N 個(gè)不同樣本集(xi,ti),其中 xi=[xi1,xi2,…,xin]T∈Rn,ti=[ti1,ti2,…,tim]T∈Rm,可以把含有 L 個(gè)隱節(jié)點(diǎn)和一個(gè)激活函數(shù)ξ(x)的ELM建模為
圖1 極端學(xué)習(xí)機(jī)分類器結(jié)構(gòu)
式中:wi=[wi1,wi2,…,win]表示輸入;γi=[γi1,γi2,…,γin]表示隱含層權(quán)值向量;bi是隱節(jié)點(diǎn)偏移量。極端學(xué)習(xí)機(jī)以最小的誤差近似于N個(gè)樣本如下
式(10)也可以表示成 δγ = τ ,δ =(w1,w2,…,wL,b1,b2,…,bL,x1,x2,…,xN),這樣 δ 的第 i列就表示輸入為x1,x2,…,xN的第i層隱節(jié)點(diǎn)的輸出。如果激活函數(shù)ξ(x)是無窮可微的,事實(shí)證明隱節(jié)點(diǎn)數(shù)L?N,極端學(xué)習(xí)機(jī)的訓(xùn)練需要把誤差函數(shù)E最小化
經(jīng)典神經(jīng)網(wǎng)絡(luò)δ是利用梯度下降算法調(diào)整的,在學(xué)習(xí)效率為ρ情況下,把輸入權(quán)值wi,隱含層權(quán)值γi,隱節(jié)點(diǎn)偏移量bi進(jìn)行迭代調(diào)整。ρ值過小將會(huì)使學(xué)習(xí)算法收斂速度過慢,而ρ值過大又會(huì)導(dǎo)致不穩(wěn)定。為了解決這一問題,ELM采用了極小范數(shù)最小二乘法。網(wǎng)絡(luò)的輸入權(quán)值和偏移量可直接隨機(jī)賦值而不必采用梯度下降算法迭代調(diào)整,而δγ=τ的最小二乘法可以簡(jiǎn)化這個(gè)問題。隱含層輸出矩陣δ是一個(gè)非方陣,范數(shù)最小二乘法可以歸納為γ=δ*τ,其中δ*表示δ的廣義逆矩陣。因?yàn)镋LM表示一個(gè)線性系統(tǒng)的最小二乘法,所以可以得到一個(gè)無限小的訓(xùn)練誤差,公式為
本文方法是基于曲波變換的圖像分解和使用降維后的系數(shù)來識(shí)別的,利用B2DPCA得的特征集來訓(xùn)練和測(cè)試ELM分類器,算法示意圖如圖2所示。
圖2 本文人臉識(shí)別算法示意圖
數(shù)據(jù)庫(kù)中每個(gè)圖像大小減小一倍轉(zhuǎn)換成灰度圖像,每個(gè)圖像數(shù)據(jù)庫(kù)隨機(jī)分為訓(xùn)練集和測(cè)試集,這樣每個(gè)目標(biāo)圖像有40%~45%當(dāng)作原型,剩下的圖像用在測(cè)試階段。曲波變換用來生成初始特征向量,因?yàn)樗粌H在存有奇異點(diǎn)的高維矩陣中顯示優(yōu)越的性能,而且能以最小的噪聲影響增強(qiáng)高頻成分的定位。首先把輸入圖像尺寸重置,因?yàn)楫?dāng)全局信息在同一層次的時(shí)候,類似圖像尺寸支持曲波特征向量的生成。此外,所有數(shù)據(jù)庫(kù)中圖像的曲波分解是在3個(gè)尺度8個(gè)角方向下計(jì)算的,因此,長(zhǎng)生25個(gè)不同的子帶。
計(jì)算出每個(gè)子帶的標(biāo)準(zhǔn)差,選取標(biāo)準(zhǔn)差最大的子帶作為初始特征向量,尺寸為U×V,其中U×V?R×C,其中R×C是輸入圖像尺寸。與T.Mandal[14]等人選擇2個(gè)子帶相比,本文僅僅選擇了1個(gè)子帶,那是因?yàn)?個(gè)標(biāo)準(zhǔn)差不同子帶的區(qū)別是十分明顯的,所有被測(cè)試數(shù)據(jù)庫(kù)標(biāo)準(zhǔn)差都有顯著差別。該方法的基礎(chǔ)是選擇最大標(biāo)準(zhǔn)差的子帶,這在降維時(shí)可以最大限度地節(jié)約計(jì)算成本。
B2DPCA是用來生成獨(dú)特特征集的,并且使整體框架計(jì)算復(fù)雜度最簡(jiǎn)化。2DPCA法以一個(gè)單一的協(xié)方差矩陣分別沿行和列對(duì)圖像降維,然而本文提出的方法是沿與坐標(biāo)軸無關(guān)的正交方向降維。通過初始特征矩陣的初次降維提取中間特征,即沿其列選取曲波子帶。然后沿中間特征的行對(duì)其進(jìn)行降維以得到最終特征集,每個(gè)特征集尺寸為U′×C′,其中U′×C′?U ×V。本文經(jīng)過改進(jìn)的方法能保存臨近像素點(diǎn)之間的關(guān)鍵鄰域信息,并且能生成區(qū)別性的特征。對(duì)于每一個(gè)數(shù)據(jù)集,隨機(jī)選擇其中降維后的曲波特征集用于ELM的訓(xùn)練,而同一個(gè)數(shù)據(jù)集中剩余特征集用來判斷框架的可分離性。
利用ORL和GTech人臉數(shù)據(jù)庫(kù),用本文提出的方法進(jìn)行了大量實(shí)驗(yàn)。所有圖像的維數(shù)降低一倍,并從RGB轉(zhuǎn)換成灰度圖像。在所有數(shù)據(jù)庫(kù)中,每個(gè)目標(biāo)圖像的40%~45%作為原型,而剩下的用作測(cè)試目的。利用曲波變換在3個(gè)尺度8個(gè)角方向下訓(xùn)練和測(cè)試圖像,先利用B2PCA得到降維后的近似曲波系數(shù),接著利用ELM進(jìn)行矢量化、訓(xùn)練和測(cè)試。針對(duì)每個(gè)數(shù)據(jù)庫(kù),每個(gè)實(shí)驗(yàn)做100次,保留平均結(jié)果。為了簡(jiǎn)單起見,接下來的實(shí)驗(yàn)把本文方法的結(jié)果和基于曲波的PCA+LAD方法[14]得到的結(jié)果相比較。
通過ORL數(shù)據(jù)庫(kù)和GTech數(shù)據(jù)庫(kù),用不同數(shù)目主成分實(shí)驗(yàn)得到的平均識(shí)別率和基于曲波的PCA+LAD法相比較得到的結(jié)果如表1所示。以下實(shí)驗(yàn)數(shù)據(jù)可以看出,本文提出的方法識(shí)別準(zhǔn)確率高于基于PCA+LAD的方法。本文的方法對(duì)于ORL數(shù)據(jù)庫(kù)和GTech數(shù)據(jù)庫(kù)識(shí)別率的提高是明顯的,并且適用于具有挑戰(zhàn)性的數(shù)據(jù)庫(kù)(視點(diǎn)在各個(gè)方向)。值得一提的是,增加主成分?jǐn)?shù)量不是提高識(shí)別率的必要條件,利用人臉識(shí)別的局部信息也有可能產(chǎn)生更好的結(jié)果。本文提出的方法和其他人臉識(shí)別算法相比除了提高了識(shí)別率之外,另一個(gè)優(yōu)點(diǎn)是原型的數(shù)量對(duì)于識(shí)別率影響非常小。ORL數(shù)據(jù)庫(kù)中原型數(shù)量分別占30%,40%,60%,70%時(shí)的識(shí)別率如圖3所示(y軸表示平均識(shí)別率,x軸表示主成分的數(shù)量)。
表1 ORL和GTech人臉數(shù)據(jù)庫(kù)平均識(shí)別率 %
圖3 原型數(shù)量占不同比例時(shí)的平均識(shí)別率
本文基于曲波特征空間提出了一種高效的人臉識(shí)別技術(shù),曲波變換是用來實(shí)現(xiàn)高維稀疏性的,利用B2DPCA對(duì)稀疏特征降維得到不同特征集。最后把這些特征集作為ELM的輸入來分析學(xué)習(xí)最優(yōu)模型。實(shí)驗(yàn)證明本文提出的方法不僅比現(xiàn)存的方法識(shí)別準(zhǔn)確率有所提高,而且在用以訓(xùn)練的原型數(shù)量上具有獨(dú)立性。在將來,希望能把局部特征和基于曲波分解的全局信息結(jié)合起來應(yīng)用到識(shí)別精度和分類速度上。
[1]閆娟,程武山,孫鑫.人臉識(shí)別的技術(shù)研究與發(fā)展概況[J].電視技術(shù),2006,30(12):67-69.
[2]KIRBY M,SIROVICH L.Application of the Karhunen– Loeve procedure for the characterization of human faces[J].IEEE Trans.Pattern A-nalysis and Machine Intelligence,1990,12(1):103-108.
[3]LU J,PLATANIOTIS K N,VENETSANOPOULOS A N.Face recognition using LDA-based algorithms[J].IEEE Trans.Neural Networks,2003,14(1):195-200.
[4]WISKOTT L,F(xiàn)ELLUS J M,KRUGER N,et al.Face recognition by elastic bunch graph matching[J].IEEE Trans.Pattern Analysis and Machine Intelligence,1997,19(7):775-779.
[5]FENG G C,YUEN P C,DAI D Q.Human face recognition using PCA on wavelet subband[J].Journal of Electronic Imaging,2000,9(2):226-233.
[6]CHIEN J T,WU C C.Discriminant waveletfaces and nearest feature classifiers for face recognition[J].IEEE Trans.Pattern Analysis and Machine Intelligence,2004,24(2):1644-1649.
[7]MANDAL T,WU Q M,YUAN Y.Curvelet based face recognition via dimension reduction[J].Elsevier Signal Processing,2009,89(3):2345-2353.
[8]吳春穎.淺談曲波變換的應(yīng)用[J].福建電腦,2011(10):79-80.
[9]CANDES E J,DEMANET L,DONOHO D L,et al.Fast discrete curvelet trans-forms[J].Multiscale Modeling and Simulation,2006,5(3):861-899.
[10]YANG L,ZHANG D,F(xiàn)RANGI A F,et al.Two-dimensional PCA:a new approach to appearance based face representation and recognition[J].IEEE Trans.Pattern Analysis and Machine Intelligence,2004,26(1):131-137.
[11]ZHANG D,ZHOU Z H.(2D)2PCA:two-directional two-dimensional PCA for efficient face representation and recognition[J].Elsevier Neurocomputing,2005,69(1):224-231.
[12]KONG H,WANG L,TEOH E K,et al.Generalized 2D principal component analysis for face image representation and recognition[J].Neural Networks,2005,18(5-6):589-594.
[13]HUANG G Q,ZHU Q,SIEW C.Extreme learning machine:theory and applications[J].Elsevier Neurocomputing,2006,70(1-3):489-501.
[14]MANDAL T,WU Q M,YUAN Y.Curvelet based face recognition via dimension reduction[J].Elsevier Signal Processing,2009,89(3):2345-2353.