李春英,湯志康,黃春艷,顏春萍,張仙玉,陳 嵐
(1.肇慶學(xué)院 計算機學(xué)院,廣東 肇慶 526061;2.廣東技術(shù)師范學(xué)院 計算機學(xué)院,廣東 廣州 510665)
人臉表情識別就是對面部表情信息進(jìn)行特征提取并加以分析.目前表情識別已成為人機交互、情感計算、機器視覺、圖像處理與模式識別等領(lǐng)域的重要研究課題.表情識別模型研究的重點主要集中在表情特征提取和特征分類2方面.國內(nèi)外學(xué)者在此2方面已做了大量的研究,表情特征提取主要分為整體特征提取[1,2]和局部特征提取[3-5].其中,整體特征提取主要集中在面部的整體變化,并沒有考慮面部肌肉的紋理、皺褶等局部變化所蘊含的信息;局部特征可以充分考慮不同尺度和方向的信息,不過特征向量維數(shù)過大、算法實時性較差.特征分類方法分為基于貝葉斯網(wǎng)絡(luò)的分類方法[6]和基于距離度量的分類方法.前者缺點在于需要屬性之間相互獨立的假設(shè),因此在一定程度上影響了算法的識別率;后者是通過計算樣本之間的距離來實現(xiàn)表情分類,代表算法有近鄰法[4]72-74和SVM算法[7].近鄰法算法的存儲量和計算量都比較大,而SVM算法是二類分類算法,在多類分類和大規(guī)模樣本的運算上,還存在著一定的缺陷.基于以上分析,我們提出了一種表情識別模型:首先,將人臉圖像預(yù)處理后,融合2種人臉表情局部特征描述算子(Gabor小波特征和多元中心化二值模式(MCBP)特征);然后通過主成份分析法(PCA)對各表情子區(qū)域的特征向量進(jìn)行降維處理,避免特征向量維數(shù)過大的缺點,同時構(gòu)建PCA隨機子空間訓(xùn)練分類器,分類器采用文獻(xiàn)[8]中心最近鄰分類器(CNN),通過計算已標(biāo)記點與該類中心的距離來度量樣本特征的表情屬性;最后,利用組合分類器實現(xiàn)對表情特征的精確分類.
為了更好的提取局部特征,原始圖像的預(yù)處理是一個重要且必須的過程,目的是統(tǒng)一圖像的灰度值及尺寸,輸出純表情區(qū)域,為表情特征提取奠定基礎(chǔ).預(yù)處理包括圖像的歸一化和表情區(qū)域的分割處理:前者包括圖像的尺度歸一化和灰度歸一化,后者指從圖像中分割出與表情最相關(guān)的區(qū)域.本文預(yù)處理的過程包括如下幾個步驟:1)將人臉表情圖像大小變?yōu)?28×128像素,兩眼之間的距離72像素;2)圖像灰度的歸一化,每像素是256灰度級;3)圖像按照空間位置劃分成64個大小為16×16且互不重疊的網(wǎng)格;4)根據(jù)人臉某些部位的信息對表情識別的貢獻(xiàn)度(如眼睛、嘴部,被賦予較大的權(quán)值,而其他部位的貢獻(xiàn)較小則被賦予較小的權(quán)值)分成13個表情子區(qū)域.表情圖像預(yù)處理的流程如圖1所示,其中表情貢獻(xiàn)度按顏色深淺權(quán)值之比為1:2:4.賦予不同權(quán)值的目的是在最終分類決策的時候采用加權(quán)投票法進(jìn)行融合處理.
圖1 表情圖像預(yù)處理
相比全局特征描述,局部特征本身具有空間性和方向性的選擇,且局部特征主要描述人臉表情的細(xì)節(jié)變化,方便進(jìn)行精確識別.局部特征提取的經(jīng)典方法是Gabor小波法和LBP(Local Binary Pattern)算子法[9].Gabor小波可以提取圖像特定區(qū)域內(nèi)不同尺度和方向空間的小波核函數(shù),像顯微鏡一樣放大灰度的變化,增強一些關(guān)鍵特征(眼睛、鼻子和嘴部).LBP特征可以更快地從原始圖像中提取出來且位于較低維的空間,同時保留了有效的人臉信息;不過LBP算子本質(zhì)上提取的是圖像邊緣、角點等局部變化特征,產(chǎn)生的直方圖維數(shù)過長,影響識別速度,且沒有考慮中心像素點的作用,因此特定情況下會丟失某些局部結(jié)構(gòu)信息.綜合以上因素,筆者采用Gabor小波特征和同時考慮多個尺度、中心化的LBP特征(Multi-scale Centralized Binary Pattern),簡稱MCBP特征.
二維Gabor小波的核函數(shù)定義為一個用高斯包絡(luò)函數(shù)約束的平面波:
其中:ku,v=kveiφu,kv=kmax/fv表示核函數(shù)的尺度(頻率),φu=uπ/6表示核函數(shù)的方向,且φu∈[0,π),通常v∈{0,1,2,3},u∈{0,1,2,3,4,5},文中采用4個中心頻率,6個方向組成的24個Gabor小波組成的小波簇用于表情特征的提取.Gabor變換的本質(zhì)實際上是人臉圖像I(z)與ψu,v(z)的卷積.
MCBP特征是由不同尺度的中心化二元模式(CBP)組成的.CBP是基于局部二元模式(LBP)基礎(chǔ)上改進(jìn)得來的,CBP是一種有效的紋理描述算子,可以對灰度圖像中局部鄰近區(qū)域的紋理信息進(jìn)行度量和提取.用CBP算子標(biāo)記一幅圖像f(x,y)的像素時,首先要確定中心像素及環(huán)形鄰域,它由半徑為R的圓周上對稱分布的P個鄰點構(gòu)成,P和R可取任意值.需要指出的是:比較的“近鄰點對”必須滿足其連線穿過中心像素點gc,且中心像素點gc擁有最高權(quán)重.描述局部圖像灰度特性的CBP碼[4]:
其中,指gc表示環(huán)形鄰域中心點的灰度值,gp表示半徑為R的圓周上對稱分布的P個鄰點的灰度值,C是閾值,可手動設(shè)定.為進(jìn)一步表征人臉各個局部區(qū)域上灰度幅值的變化,參考文獻(xiàn)[10]引入梯度信息,即對人臉圖像中每個像素點計算其梯度.假設(shè)人臉圖像的f(x,y),在其坐標(biāo)(x,y)的梯度則通過一個二維列向量表示: 一般來講梯度向量指向坐標(biāo)(x,y)的f最大變化率方向,向量的模值表示為:,在具體實現(xiàn)時文中采用作為梯度值.在人臉圖像的每個像素點計算其梯度,并采用CBP在此梯度圖上提取梯度直方圖.對于每個網(wǎng)格MCBP特征的提取,通過改變參量R,分別計算出灰度的直方圖和梯度的直方圖(由向量表示)后,將它們串接起來構(gòu)成的特征向量,得到ΦMCBP=,即融入梯度信息的特征MCBP特征向量.其中,CBPh(P,Rj)指由CBP算子產(chǎn)生的直方圖.相比單純由灰度的CBP直方圖構(gòu)成的特征,融入梯度信息的MCBP特征具有更強的鑒別能力.
本文提出的人臉表情識別模型分成兩大部分:圖像的預(yù)處理和多特征融合判別分析(multi-feature fusion recognition analysis).圖像預(yù)處理如前文所述進(jìn)行圖像的歸一化和表情區(qū)域的分割處理,多特征融合判別分析分成4個部分:特征提取模塊、數(shù)據(jù)處理模塊、分類器訓(xùn)練模塊、多分類器融合模塊.具體過程如圖2所示,為了更好地說明多特征融合判別分析的過程,將其分成訓(xùn)練過程和測試過程進(jìn)行詳細(xì)描述.
訓(xùn)練過程:特征提取模塊將預(yù)處理后的圖像按照空間位置網(wǎng)格化后,提取采用4個尺度、6個方向的Gabor小波,即每個網(wǎng)格特征向量的維數(shù)為16×16×4×6=6144.由于后續(xù)的分類器很難處理如此高維度的特征向量,我們利用4×4的空間網(wǎng)格對Gabor特征進(jìn)行采樣來降低維度,最終每個網(wǎng)格的Gabor特征向量的維數(shù)是384維;對于MCBP特征,提取半徑R∈{1,3,5,7,9},P=(8個鄰點)5個尺度8個方向的灰度直方圖和梯度直方圖CBP特征,然后將它們串接起來構(gòu)成MCBP特征向量.單網(wǎng)格上每個尺度下的直方圖為64(25×2)維,若把5個尺度下的直方圖串接起來構(gòu)成的每個網(wǎng)格特征維數(shù)將會是320(64×5)維.提取完2種特征后,將每種特征向量(圖1)的表情子區(qū)域進(jìn)行分組,2種特征向量共形成26組向量由于每組向量Φi的維度還比較高,影響識別的速度,我們通過主成份分析法(PCA)進(jìn)行降維處理.假設(shè)原始數(shù)據(jù)每個樣本有M個輸入和N個輸出.即原始數(shù)據(jù)表示為X1,X2,…,Xi∈RM,Y1,Y2,…,Yj∈RN.PCA具體算法如下:
Step1 根據(jù)相關(guān)系數(shù)公式,計算輸入數(shù)據(jù)的相關(guān)矩陣R∈RM×M;
Step2 計算相關(guān)矩陣R的特征值,將非負(fù)的特征值按降序排列λ1≥λ2,…,λM≥0,對應(yīng)的特征向量φ1, φ2,…,φM;
Step4 將變換矩陣Ln乘以原始輸入數(shù)據(jù),xi=Lnxi,得到反映數(shù)據(jù)主要信息量的前n個主成份.
由于整個面部按表情貢獻(xiàn)度進(jìn)行分組,分組后的部分子區(qū)域向量維數(shù)會達(dá)到上千維,為盡量避免表情圖像的信息丟失,同時考慮計算量的大小,主成份分析后的向量維數(shù)保持在300維.在訓(xùn)練集數(shù)據(jù)處理模塊中對降維處理后的特征向量Φi,通過相關(guān)矩陣中非零特征值所對應(yīng)的特征向量來構(gòu)建8個隨機PCA子空間其中每個子空間的維數(shù)是300維,前200維由前200個固定最大的特征值所對應(yīng)的特征向量整合而成,后100維在剩余的特征向量中隨機抽取.這樣做的目的是既能保留圖像中大部分不變特征,又能抓住圖像的細(xì)節(jié)特征.對每個PCA子空間利用Bagging技術(shù)從原始訓(xùn)練集中產(chǎn)生5個同等規(guī)模的訓(xùn)練集來訓(xùn)練5個單分類器.通過這種方式每個表情子區(qū)域會產(chǎn)生5×8個分類器.
測試過程:和訓(xùn)練過程一樣將預(yù)處理后的圖像提取2種特征向量,并按表情貢獻(xiàn)度分組和進(jìn)行PCA降維,然后經(jīng)過數(shù)據(jù)處理模塊處理,最后利用訓(xùn)練好的子空間分類器輸出每個分組的判別結(jié)果.在多分類器融合模塊中,分類器采用中心最近鄰分類器,先利用最?。畲笾狄?guī)范化的方法把不同子空間分類器的輸出歸一化[11].然后利用加權(quán)投票法進(jìn)行最終判別,權(quán)值的分配按照圖1的表情貢獻(xiàn)度(1:2:4)進(jìn)行處理.
圖2 人臉表情識別模型
為驗證算法的有效性,選用人臉表情庫(JAFFE)進(jìn)行實驗,此數(shù)據(jù)庫包含了10名日本女性的213幅圖像,每人包含6種基本表情(生氣、厭惡、恐懼、高興、悲傷、吃驚)和2~4個中性表情灰度圖像.圖3是數(shù)據(jù)庫中的部分表情圖像.實驗分為2個階段.
圖3 JAFFE部分表情圖像
1)檢驗算法的廣泛適用性.從JAFFE數(shù)據(jù)庫中選取210幅圖像(保證6種基本表情3幅)作為樣本,采用10-fold交叉驗證(cross-validation)的實驗方案,分類器采用中心最近鄰分類器(CNN).從實驗結(jié)果(見表1)可以算出7種表情的平均識別率達(dá)到91.1%.其中,高興、驚訝、中性表情的識別率較好,厭惡、悲傷的識別率較低;因為表情變化越明顯,相應(yīng)的特征向量的差異越大越容易識別,而變化不明顯的表情,相應(yīng)的特征向量變化差異較小,識別效果相對會差一些.
2)檢驗?zāi)P退惴ǖ聂敯粜?實驗前,根據(jù)文獻(xiàn)[12]中算法對JAFFE人臉庫中的圖像做了不同程度的光照處理,得到處理后的圖像210幅,加上原來選取的210幅表情圖像,這樣實驗數(shù)據(jù)庫中共有420幅表情圖像.實驗中,隨機選取每個人每種表情的3幅圖像共210幅作為訓(xùn)練集,剩余圖像作為測試集.分別選擇單獨使用Gabor小波特征和MCBP特征以及采取2種特征相結(jié)合的特征描述算子,共3種方法進(jìn)行實驗,并生成累積匹配特征曲線(CMC),如圖4所示.圖中顯示采用多特征融合的判別方式明顯好于單一特征,即使有光照的影響,模型Rank-1的識別率也已經(jīng)達(dá)到87%,具備較好的魯棒性.需要說明的是,累積匹配特征曲線的橫坐標(biāo)為排名次序,縱坐標(biāo)為測試者的正確表情包含在識別系統(tǒng)提供的最相似的候選者中的概率.如果由人臉識別系統(tǒng)在一個大型的人臉數(shù)據(jù)庫中僅找出一幅與測試者最近的人臉圖像,那么結(jié)果未必是正確的;如果允許識別系統(tǒng)找出多幅與測試者最相近的人臉圖像,那么結(jié)果正確的概率就會增加.隨著允許識別系統(tǒng)找出最相近的人臉圖像數(shù)目的增加,結(jié)果正確的概率也會隨之增加.比如:在表情識別的測試集中某人“高興”的表情有3幅圖像,累積匹配特征曲線能夠指出3幅圖像的排名次序,但同樣都是識別正確.在JAFFE表情庫上的實驗表明,提出的多特征融合的判別模型具有較好的識別精度和魯棒性.
表1 JAFFE表情識別結(jié)果統(tǒng)計
圖4 不同方法的累積匹配特征曲線
提出了一種基于多特征融合的人臉表情識別模型:利用人臉識別領(lǐng)域被證明非常成功的2種局部描述算子(Gabor小波特征和MCBP特征),根據(jù)表情變化的先驗知識將圖像劃分為權(quán)值不同的表情子區(qū)域,為保證識別的速度,利用主成份分析法(PCA)降低局部特征向量的維度,通過Bagging技術(shù)提高多分類器的魯棒性.實驗表明該方法具有良好的識別效果.下一步的工作重點是如何在任意采集的圖像或圖像序列中提取維度較低且具有代表力的局部特征,對其進(jìn)行表情分類.此外,人臉表情識別是人機交互、機器學(xué)習(xí)和圖像處理等領(lǐng)域涉及的重要研究方向,這是一項極具挑戰(zhàn)性的研究任務(wù),需要心理學(xué)、生理學(xué)以及計算機視覺、模式識別等不同領(lǐng)域的研究者共同進(jìn)行探索.
[1] 周書仁,朱燦.基于ICA和HMM的表情識別[J].中國圖象圖形學(xué)報,2008,13(12):2321-2328.
[2] 應(yīng)自爐,唐京海,李景文,等.支持向量鑒別分析及在人臉表情識別中的應(yīng)用[J].電子學(xué)報,2008,36(4):725-730.
[3] KYPEROUNTAS M,TEFAS A,PITAS I.Salient feature and reliable classifier selection for facial expression classification[J]. Pattern Recognition,2010,43:972-986.
[4] 付曉峰.基于二元模式的人臉識別與表情識別研究[D].杭州.浙江大學(xué),2008.
[5] XIE X D,LAM K M,Facial expression recognition based on shape and texture[J].Pattern Recognition,2009,42:1 003-1 011.
[6] WANG T H,LIEN J,Facial expression recognition system based on rigid and non-rigid motion separation and 3D pose estimation[J].Pattern Recognition,2009,42:962-977
[7] 徐琴珍,章品正,裴文江,等.基于混淆交叉支撐向量機樹的自動面部表情分類方法[J].中國圖象圖形學(xué)報,2008,13(7): 1329-1334.
[8] GAO Q,WANG Z.Center-based nearest neighbor classifier[J].Pattern Recognition,2007,40:346-349.
[9] 蔣斌,賈克斌,楊國勝.人臉表情識別的研究進(jìn)展[J].計算機科學(xué),2011,38(4):25-30.
[10] OJALA T,PIETIKAINEN M,MAENPAA T.Multi-resolution gray-scale and rotation invariant texture classification with local binary patterns[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2002,24(7):971-987.
[11] LI Z F,UNSANG P,JAIN K A.A Discriminative Model for Age Invariant Face Recognition[J].IEEE Transactions on Information Forensics and Security.2011,6(3):1028-1037.
[12] 白雪飛,李茹.神經(jīng)網(wǎng)絡(luò)集成的多表情人臉識別方法[J].計算機工程與應(yīng)用,2010,46(4):145-148.