趙棟杰
(江蘇科技大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)院,江蘇 鎮(zhèn)江212003)
改進(jìn)的LBP算子和稀疏表達(dá)分類在人臉表情識(shí)別上的應(yīng)用
趙棟杰
(江蘇科技大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)院,江蘇 鎮(zhèn)江212003)
在人臉表情識(shí)別中,基于局部二值模式(LBP)算子算法與傳統(tǒng)的特征提取算法相比具有特征提取準(zhǔn)確、精細(xì)、光照不變性等優(yōu)點(diǎn),但也有直方圖維數(shù)高、判別能力差、具有冗余信息等缺點(diǎn)。本文提出一種C-LBP算法通過加入中心點(diǎn)到算法中進(jìn)行特特征提取,能夠更有效的提取特征數(shù)據(jù)。再結(jié)合使用稀疏表達(dá)分類器實(shí)現(xiàn)對(duì)特征進(jìn)行分類和識(shí)別。經(jīng)實(shí)驗(yàn)結(jié)果表明,與傳統(tǒng)LBP算法對(duì)比,文中算法用于人臉表情的識(shí)別的識(shí)別率得到大幅度提高。
LBP;C-LBP;特征提??;稀疏表達(dá);分類器
人臉表情是人類情感信息傳播與人際關(guān)系協(xié)調(diào)的重要方式。人臉表情識(shí)別在人際交流以及交互中作用非常的重要,多被應(yīng)用到機(jī)器視覺、智能控制、模式識(shí)別等領(lǐng)域,它根據(jù)人的表情不同做出不同的判斷,更好地滿足人類生活需求。在表情識(shí)別技術(shù)中,如何提取和選擇有效的人臉描述特征是研究的關(guān)鍵內(nèi)容。表情識(shí)別主要由人臉表情識(shí)別的特征提取和稀疏表示分類器的選擇兩個(gè)部分組成。
特征提取在人臉表情識(shí)別中有著相當(dāng)重要的作用,提取出來的特征也影響著整個(gè)識(shí)別系統(tǒng)的正確率,目前普遍為大家所用的包括整體法、局部法、光流法、模型法和幾何法,整體法和局部法主要用于靜態(tài)圖像特征提取,光流法、模型法和幾何法主要用于動(dòng)態(tài)圖像特征的提取。其中在整體法中較為熟知的提取算法有PCA特征[1]、LDA特征[2]和ICA特征[3];局部法中比較經(jīng)典的算法有LBP算子法和Gabor小波法[4]。Gabor小波在提取目標(biāo)的局部空間和頻率域信息方面具有良好的特性,然而,該算法需要計(jì)算不同尺度和方向的小波核函數(shù),提取出的高維特征向量對(duì)整個(gè)算法造成冗余。相比而言,傳統(tǒng)的LBP算子法是一種簡(jiǎn)單,有效的紋理分類的特征提取算法,在紋理分析方面有著廣泛的應(yīng)用,近幾年在人臉識(shí)別領(lǐng)域取得了巨大的發(fā)展。從傳統(tǒng)的LBP算子法到MB_LBP算子法再到后來的完整LBP算子法[5],每一次的改進(jìn)都在人臉識(shí)別領(lǐng)域取得了較大的成功。例如,LBP算子法到MB_LBP算子法的改進(jìn),相比原始LBP算法整幅圖片進(jìn)行編碼,MB-LBP特征首先將特提取特征的圖像分區(qū)域,在某一塊區(qū)域中再等分成9塊,再以每一小塊的平均灰度值替代原始LBP特征算法的3x3模式中的臨域點(diǎn)灰度值,之后將平均值和中心塊像素值相比,得到MP-LBP特征碼。文中首先采用MB-LBP算法進(jìn)行特征提取,再利用C-LBP算法把中心像素考慮了進(jìn)去并賦予最高的權(quán)值,提高了特征判別力和特征的有效性。
1.1 LBP算子
局部二值模式(Local Binary Pattern,LBP)特征是一種描述紋理特征的強(qiáng)有力的方法,可對(duì)圖像中局部鄰近區(qū)域的紋理信息進(jìn)行度量和提取。原始的LBP算子為圖像的每個(gè)像素定義了一個(gè)以該像素為中心的3×3的窗口,然后計(jì)算圖像中每個(gè)像素與其局部鄰域點(diǎn)在灰度上的二值關(guān)系,再對(duì)二值關(guān)系按一定規(guī)則加權(quán)編碼形成像素的LBP值,最后把所有區(qū)域的LBP直方圖組合成序列作為圖像的特征描述。如圖1所示,每個(gè)像素需要和其鄰域點(diǎn)像素的灰度值比較大小,大的置1,小的置0,這樣圖像中每個(gè)像素點(diǎn)都得到一個(gè)二進(jìn)制數(shù),將此二進(jìn)制數(shù)轉(zhuǎn)換為十進(jìn)制數(shù)則為像素點(diǎn)的LBP碼,把每幅圖像中所有像素點(diǎn)的LBP碼所構(gòu)成的直方圖作為該圖像的LBP特征。
圖1 LBP計(jì)算示意圖
其中,N、R分別表示該像素點(diǎn)的臨域點(diǎn)個(gè)數(shù)、半徑(所謂半徑就是以中心像素點(diǎn)作為圓心,連接臨域點(diǎn)所做的圓的半徑),tn為周圍像素灰度值,tc是中心像素點(diǎn),函數(shù)s(x)定義如下:
LBP算子對(duì)整幅圖像進(jìn)行編碼得到LBP編碼圖像如圖2所示,將LBP特征用于人臉識(shí)別,典型的方法是將人臉圖像進(jìn)行分塊,對(duì)于每個(gè)小塊進(jìn)行提取LBP特征直方圖,最后形成表示人臉的LBP特征直方圖,可表示為:
其中圖1中3×3模式LBP碼是8位的二進(jìn)制數(shù),則LBP碼的數(shù)量為n=256(28)。
圖2 圖像KA_HA1和對(duì)應(yīng)的LBP編碼圖像
但是,LBP算子在人臉表情識(shí)別有一些不足點(diǎn),主要有以下幾個(gè)方面:1)LBP算子僅考慮了周圍像素并沒有考慮全局的灰度分布;2)產(chǎn)生的直方圖維數(shù)過大,一幅圖像的特征維數(shù)過高會(huì)造成信息冗余并消耗大量的計(jì)算時(shí)間;3)傳統(tǒng)LBP沒有將中心像素點(diǎn)加入計(jì)算,在某些特定情況下,中心像素點(diǎn)要比近鄰點(diǎn)提供更重要的信息。
1.2 改進(jìn)的LBP算子
由于傳統(tǒng)LBP算子的不足之處就是特征維數(shù)較大,文中對(duì)LBP算子進(jìn)行了改進(jìn),首先將特提取特征的圖像分區(qū)域,以某一分成9塊子區(qū)域?yàn)槔?,再以每一小塊的平均灰度值替代原始LBP特征算法的3×3模式中的臨域點(diǎn)灰度值,再把中心像素加入到LBP算子中計(jì)算,即C-LBP算子。
圖3 MB-LBP特征提取方式
對(duì)于圖3,整體的區(qū)域分為9個(gè)小子區(qū)域,每個(gè)子區(qū)域有6個(gè)像素點(diǎn),將6個(gè)像素點(diǎn)的平均灰度值作為3×3模式中的臨域點(diǎn)灰度值,對(duì)于均值化后的3×3模式如圖4所示。
圖4 均值化后的3×3模式
改進(jìn)后的公式為:
其中,ta=(t0+t1+…+t7+tc)/9。tn為周圍像素灰度值,tc是中心像素點(diǎn),函數(shù)s(x)定義如下:
其中M為閾值常數(shù)。我們首先使用MB-LBP提取特征,該方法不再基于單個(gè)像素,而是將特征計(jì)算擴(kuò)展到任意大小的“子塊區(qū)域”?!白訅K區(qū)域”的大小決定了捕獲的特征結(jié)構(gòu)的大小,選取不同大小的“子塊”尺度,得到不同尺度的描述特征,增強(qiáng)了特征描述性。使用“子塊區(qū)域”的灰度平均值進(jìn)行特征計(jì)算,增加了像素與像素之間的相關(guān)性,從而削弱了噪聲對(duì)特征計(jì)算的干擾。而后對(duì)處理后的方陣進(jìn)行C-LBP特征提出,這樣做的原因在于傳統(tǒng)的LBP算子將中心像素點(diǎn)tc一直被置為0,然而,在大多數(shù)情況下中心像素點(diǎn)要比其近鄰點(diǎn)提供更重要的信息,因此我們要把tc考慮進(jìn)來,并給予它最高權(quán)值。
2.1 稀疏表示原理
稀疏表示理論是基于壓縮感知理論[6-7]提出的。其理論依據(jù)是只要信號(hào)是可壓縮的或者在某個(gè)變換域是稀疏的,便可以用一個(gè)與變換基不相關(guān)的觀測(cè)矩陣將所得高維信號(hào)投影到低維空間,這樣便能夠?qū)BP編碼特征組成的高維度直方圖序列降維來方便分類。
2.2 稀疏表示分類器
假設(shè)矩陣A=[A1,A2,…,AN]為表情庫(kù)中的一組訓(xùn)練樣本集,我們也可以稱之為字典,N為庫(kù)中包含的N種表情,Ai=[vi,1,vi,2,…,vi,m]∈Ru×m,Ai為第i類的訓(xùn)練樣本集,vi,m表示第 i類中第m個(gè)樣本。
此時(shí),一幅測(cè)試圖像y可表示為所有訓(xùn)練樣本的線性組合,即
其中,x=[0,0,…,0…αk,1,αk,2,…0,…,0]∈Ru;由稀疏理論可知,為了能得到方程y=Ax的最稀疏的解,即所求的系數(shù)向量x包含的非零向量應(yīng)盡量少就越可以判斷出測(cè)試樣本y所屬的類別。因此我們可以通過求解如下最優(yōu)化問題來計(jì)算x
其中‖g‖0表示l0范數(shù),表示一個(gè)矢量中非零系數(shù)的個(gè)數(shù)。然而由于X解的不確定性,該稀疏系數(shù)求解問題屬于非凸最優(yōu)化問題,是一個(gè)N-P難題。不過根據(jù)文獻(xiàn)[8],只要滿足一定條件,最小化l0最小范數(shù)的NP難題可以轉(zhuǎn)換為最小化l1范數(shù)問題來進(jìn)行求解,即:
問題(8)屬于可求解的凸優(yōu)化問題,已有許多成熟的求解算法,最常用的l1快速求解算法包括L1-homotopy算法[9-11]、OMP算法[12]、ALM算法、L1-magic范數(shù)算法,這些算法已經(jīng)能近似求出此問題的解法并且得到了很好的識(shí)別效果。我們選用稀疏表示來識(shí)別圖像,一般稱為稀疏表示識(shí)別[13](Sparse-based Representation Classification,SRC),通俗來說就是把庫(kù)中的不同對(duì)象放在訓(xùn)練集中,對(duì)于某個(gè)未識(shí)別的圖像進(jìn)行分類的時(shí)候,可以利用訓(xùn)練集中的每個(gè)樣本來線性組合表示這個(gè)未知類的對(duì)象。稀疏表示分類人臉識(shí)別算法的流程圖如圖5所示。
圖5 SRC人臉識(shí)別算法的流程圖
綜上,以下給出基于稀疏表達(dá)的分類器算法:
1)利用改進(jìn)的LBP算法來提取測(cè)試圖像的LBP特征編碼值。
2)輸入N類A=[A1,A2,…,AN]訓(xùn)練樣本構(gòu)成特征矩陣。測(cè)試樣本向量為y∈Ru,并且歸一化矩陣A的每一列。
3)利用L1-homotopy算法求解l1范數(shù)最小化問題:
4)計(jì)算殘差ri(y)=‖y-AX‖2的最小值作為識(shí)別依據(jù)。
5)輸出類別identity(y)=arg minxri(y)。
文中利用經(jīng)典Jaffe人臉數(shù)據(jù)庫(kù)[14]人臉數(shù)據(jù)庫(kù)進(jìn)行仿真實(shí)驗(yàn)。Jaffe數(shù)據(jù)庫(kù)中有7種表情(生氣、厭惡、恐懼、高興、悲傷、普通以及驚奇),每一種表情有2到4張圖片,包含10位不同女性的圖片,共有213張人臉圖片。以下圖6為Jaffe人臉數(shù)據(jù)庫(kù)中部分7種表情從左到右分別是:憤怒、厭惡、驚恐、高興、中性、悲傷、驚訝。
對(duì)于Jaffe數(shù)據(jù)庫(kù),由于此數(shù)據(jù)庫(kù)每種表情至少有29副圖像,因此從每類選取29張來進(jìn)行實(shí)驗(yàn)。每次實(shí)驗(yàn),每類隨機(jī)選取15副作為訓(xùn)練集,共105張;余下的每種表情14張分別作為測(cè)試集。降維統(tǒng)一采用PCA降維,最后利用稀疏表達(dá)分類器進(jìn)行人臉表情的識(shí)別和分類。實(shí)驗(yàn)結(jié)果如表1所示。
圖6 Jaffe人臉表情庫(kù)中部分人臉圖像
表1 各種方法的表情識(shí)別率對(duì)比
由表1可看出文中提出的算法相比較傳統(tǒng)LBP特征有了明顯的提高,平均識(shí)別率高出了傳統(tǒng)LBP+SRC算法10個(gè)多百分點(diǎn),高出SRC算法接近30個(gè)百分點(diǎn);傳統(tǒng)LBP特征與本文算法都比只用稀疏表達(dá)分類器得到的識(shí)別效果好,也由此說明了LBP這種特征提取方法的確是有效果的,有些表情比較容易識(shí)別如高興厭惡等,有些表情如恐懼難以識(shí)別,可見每一類表情的識(shí)別率都不相同。通過分別對(duì)Jaffe人臉數(shù)據(jù)庫(kù)實(shí)驗(yàn)可以看出,通過MB-LBP提取局部區(qū)域的特征值,再利用本文的C-LBP算法對(duì)圖像進(jìn)行特征提取,并通過稀疏表達(dá)分類器學(xué)習(xí)分類識(shí)別,比傳統(tǒng)LBP算法效果提高了10%以上的識(shí)別率(達(dá)到了80%以上),并且有效的減少了特征值維數(shù)(信息冗余),處理效率也得到了提高。
文中基于傳統(tǒng)LBP算子的編碼直方圖序列維數(shù)高和局部判別能力不強(qiáng)的缺點(diǎn),對(duì)LBP特征算子進(jìn)行了改進(jìn),首先采用MB-LBP算法對(duì)其優(yōu)化改進(jìn),再利用C-LBP算法對(duì)其進(jìn)行特征提取獲取特征值,利用稀疏表達(dá)的分類器對(duì)提取的表情特征進(jìn)行人臉表情識(shí)別,最后進(jìn)行了相關(guān)的仿真實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明,改進(jìn)LBP+SRC算法組合的識(shí)別率高于傳統(tǒng)LBP+SRC算法組合以及單獨(dú)的SRC算法。但是此實(shí)驗(yàn)結(jié)果只是基于Jaffe數(shù)據(jù)庫(kù)中的7種表情識(shí)別,我們知道人臉表情是復(fù)雜變化的,單一的在這個(gè)表情庫(kù)中得出的結(jié)論還是不夠的,我們不能簡(jiǎn)單就把人臉表情劃為文中的這七類,再加上遮擋,光照,角度等問題,對(duì)表情的識(shí)別會(huì)有很大的影響,以后還需要對(duì)人臉復(fù)雜的變化的表情研究,以求實(shí)現(xiàn)能應(yīng)對(duì)復(fù)雜變化的表情識(shí)別。
[1]CHEN Juan-juan,ZHAO Zheng,SUN Han,et al.Facial expression recognition based on PCA reconstruction[C]//2010 5th Inter-national Conference on Computer Science and Education(ICCSE),2010:195-198.
[2]David M Blei,Andrew Y Ng,Michael I jordan.Latent Dirichletallocation[J].Journal of Machine Learning Research,2009(3):993-1022.
[3]周書仁,梁昔明,楊秋芬,等.基于PSO與ICA的表情特征提?。跩].計(jì)算機(jī)應(yīng)用,2007(11):224-245.
[4]LIXiao-li,RUAN Qiu-qi,RUAN Cheng-xiong.Facial expression recognition with local Gaborfilters[C]//2010 IEEE 10thInter-national Conference on Signal Processing(ICSP2010),2010:334-339.
[5]GUO Zhen-hua,Zhang L,Zhang D.A completed modeling of localbinary pattern operator for texture classification[J].IEEE Transactionson Image Processing,2010,19(6):1657-1663.
[6]Chaiyasit Tanchotsrinon,Suphakant phimoltares,saranya Maneeroj.Facial expression recognition using graph-based features and artificial neural networks[C]//2011 IEEE International Conference on Imaging Systems and Techniques(IST),2011:331-334.
[7]Erdos L,Ramirez J,Schlein B,et al.Bulk universality for wigner hermitian matrices with subexponential decay[J]. Mathematical Research Letters,2010,17(4):667-674.
[8]DonohoDL.Compressedsensing[J].IEEE Transactions on Information Theory,2006,52(4):1289-1306.
[9]Emmanuel Candes,Justin Romberg.L1-magic:Recovery of sparse signals via convex programming[R]//Caltech,2005.
[10]Tony Cai T,Lie Wang.Orthogonal matching pursuit for sparse signal recovery with noise[J].IEEE Transactions on Information Theory,2011,57(7):4680-4688.
[11]Osborne M R,Turlach B A.A homotopy algorithm for the quantile regression lasso and related piecewise linear problems[C]//JounalofComputionaland GraphicalStatistics,2010.
[12]劉亞峰,劉昱,段繼忠,等.基于DSP的OMP算法實(shí)現(xiàn)及音頻信號(hào)處理[J].電聲技術(shù),2012(2):37-39.
[13]Xu Y,David Zhang,Jian Yang,et al.A two-phase test sample sparse representation method for use with face recognition[C]//IEEE Transactions on Circuits and Systems for Video Technology,2011:1255-1262.
[14]Lyons M,Akamatsu S.Coding facial expressionswith Gabor Wavelets[C]//Proceedings of the Third IEEE International Conference on Automatic Face and Gesture recognition,2014:200-205.
Facial expression recognition based on improved LBP operator and sparse representation
ZHAO Dong-jie
(School of Computer Science and Engineering,Jiangsu University of Science and Technology,Zhenjiang 212003,China)
In facialexpression recognition,the algorithm LBPwhich based on localbinary pattern has the following advantages,such as the accuration of characteristics extraction,fine and illumination invariant comparing to the traditional feature extraction algorithm,but it also has disadvantages such as high dimension histogram,poor discriminant abilitys,much redundant information and so on.The C-LBP operator algorithm that presented in the paper extracts the feature datamore efficiently by adding the central point to the algorithm for feature extraction.And using the algorithm made the classification and recognition of characteristics which using sparse expression classifier come true.The experimental results show that,compared with the traditional LBPalgorithm,the recognition rate of facialexpression recognition isgreatly improved.
LBP;C-LBP;feature extraction;sparse expression;classifier
TN0
A
1674-6236(2016)20-0174-04
2015-10-20 稿件編號(hào):201510124
趙棟杰(1990—),男,江蘇丹陽人,碩士。研究方向:人臉識(shí)別。