段曉珊,王坤俠
(安徽建筑大學(xué) 電子與信息工程學(xué)院,安徽 合肥230601)
面部表情是人類(lèi)情緒一種直觀的外在表達(dá)方式,是人與人之間非語(yǔ)言交流的有效手段。心理學(xué)家Mehrabian[1]在對(duì)人們交流過(guò)程中的信息傳達(dá)進(jìn)行了一系列的研究中得出一個(gè)公式:“信息的總效果=7%言詞+38%語(yǔ)調(diào)+55%面部表情。”由此可見(jiàn),面部表情在信息傳達(dá)中占有很重要的比重。人臉表情情感識(shí)別的研究可以使計(jì)算機(jī)更智能、更高效的為人們服務(wù)。
作為一種良好的人機(jī)情感互動(dòng)方式,表情識(shí)別的研究在近些年受到了眾多學(xué)者的重視。根據(jù)人類(lèi)情感的不同,Ekman等[2]定義了六種基本情感:憤怒、恐懼、厭惡、快樂(lè)、悲傷、驚訝。并且提出了面部運(yùn)動(dòng)編碼系統(tǒng)(FACS),根據(jù)臉部特征部位的運(yùn)動(dòng)來(lái)更好的描述表情動(dòng)作。表情識(shí)別系統(tǒng)一般包括人臉檢測(cè)與定位、表情圖像預(yù)處理、表情圖像特征提取和情感識(shí)別分類(lèi)四個(gè)步驟。表情特征的好壞直接影響到識(shí)別性能的好壞,因此提取到魯棒性強(qiáng)的特征在表情識(shí)別中起到很重要的作用。人臉表情特征主要有幾何特征、統(tǒng)計(jì)特征、頻率特征等特征。不同的特征在識(shí)別中各有各的優(yōu)缺點(diǎn)。提取表情特征的方法主要有幾何特征提取方法[3,4]、外貌特征提取方法[5]、特征點(diǎn)跟蹤法[6]、彈性圖匹配法[7,8]等。
Gabor濾波器的頻率和方向與人類(lèi)的視覺(jué)系統(tǒng)類(lèi)似,適合用于紋理表示與判別。因此,Gabor小波變化在人臉表情識(shí)別的研究受到廣泛研究者的關(guān)注。龔安等[9]使用Gabor變換進(jìn)行人臉表情圖像的特征提取,并利用局部線性嵌入(LLE)系列算法進(jìn)行數(shù)據(jù)降維。公維軍等[10]提出了一種改進(jìn)的基于基于Gabor的局部敏感人臉識(shí)別算法,該方法先用Gabor小波提取局部敏感人臉特征,再用改進(jìn)的邊界Fisher分析(MFA)算法進(jìn)行分析。
一些研究者將提取圖像的Gabor特征和其他特征融合之后進(jìn)行情感識(shí)別。陳鵬展等[11]融合Gabor、LBP、LPQ三種特征,并利用基于ELM神經(jīng)網(wǎng)絡(luò)面部表情分類(lèi)器來(lái)進(jìn)行分類(lèi)。江淵廣等[12]融合了Gabor特征和幾何特征,對(duì)提取的特征塊分別進(jìn)行Procrustes Analysis,提出了一種基于特征塊權(quán)重化的Bp神經(jīng)網(wǎng)絡(luò)算法來(lái)進(jìn)行分類(lèi)。
Gabor特征具有很好的識(shí)別性能,但其冗余度和特征維數(shù)較高。為了克服這些缺點(diǎn),本文提出一種基于人臉T型區(qū)域Gabor小波變換的表情識(shí)別方法。該方法先提取檢測(cè)表情圖像的人臉區(qū)域并進(jìn)行分割,對(duì)該區(qū)域進(jìn)行尺寸歸一化和直方均衡化預(yù)處理之后,利用構(gòu)造好的Gabor濾波器對(duì)圖像進(jìn)行不同尺度和方向的卷積。之后提取人臉T型區(qū)域的Gabor特征構(gòu)造成特征向量,通過(guò)PCA方法對(duì)特征向量進(jìn)行降維。實(shí)驗(yàn)中通過(guò)改變Gabor的不同參數(shù)、降維的維數(shù)、劃分測(cè)試集訓(xùn)練集的方式和比例,在SVM不同核函數(shù)下進(jìn)行分類(lèi),來(lái)分析不同參數(shù)的識(shí)別效果。
根據(jù)人臉表情識(shí)別系統(tǒng)的步驟,本文分為表情圖像預(yù)處理、Gabor小波特征提取和情感分類(lèi)三個(gè)步驟。本實(shí)驗(yàn)的流程圖如圖1。
圖1 系統(tǒng)流程圖
由于圖像采集設(shè)備的不同和采集環(huán)境的不同,原始的表情圖像往往存在著噪聲、光照明暗不均、對(duì)比度不夠的問(wèn)題。為了保證人臉圖像中人臉大小,眼睛位置以及人臉圖像質(zhì)量的一致性,在表情識(shí)別過(guò)程中,首要環(huán)節(jié)就是對(duì)輸入的原始表情圖像進(jìn)行預(yù)處理。
原始的JAFFE表情圖像庫(kù)存在背景、頭發(fā)等干擾因素,在實(shí)驗(yàn)中先進(jìn)行人臉檢測(cè),只提取人臉部分進(jìn)行識(shí)別,可以很好的去除干擾。實(shí)驗(yàn)中先用OpenCv下的Haar級(jí)聯(lián)分類(lèi)器進(jìn)行人臉檢測(cè),對(duì)原始表情圖像截取到人臉部分之后,由于得到的人臉部分圖片尺寸不一,需要將圖片尺寸歸一化為100*100尺寸。為了保證表情圖像消除光線和光照強(qiáng)度的影響,再對(duì)表情圖像進(jìn)行灰度化和直方圖均衡化處理,預(yù)處理之后的圖像如圖2:
圖2 預(yù)處理后的表情圖像
Gabor小波變換[13]具有時(shí)域信號(hào)和頻域信號(hào)的局部化的優(yōu)點(diǎn),能夠很好地提取目標(biāo)圖像的不同空間位置、頻率和方向上的特征,并且能夠克服光照、尺度、角度等全局干擾對(duì)識(shí)別效果的影響[14]。因此在人臉識(shí)別領(lǐng)域獲得了廣泛的應(yīng)用。
Gabor變換是一種采用高斯函數(shù)作為窗函數(shù)時(shí)的短時(shí)傅里葉變換,二維Gabor小波定義如下:
其中μ,ν分別表示Gabor濾波器的方向和尺度,‖‖.表示范數(shù),z(x,y)表示圖片的某一點(diǎn)像素的坐標(biāo),σ表示高斯包絡(luò),kμ,ν決定控制高斯窗的寬度、震蕩部分波長(zhǎng)及方向。定義kμ,ν為:
其中,kν為濾波器采樣頻率,kmax為最大頻率,fυ表示限制頻域中核函距離的間隔因子。實(shí)驗(yàn)中經(jīng)常采用5個(gè)頻率和8個(gè)方向組成的40個(gè)濾波器,采用 σ=2π,μ=0,1,2,3,4。υ=0,1,2,3,4,5,6,7。濾波器核函數(shù)的圖像如下圖3。
圖3 Gabo核函數(shù)圖
對(duì)經(jīng)過(guò)預(yù)處理之后的圖像,用構(gòu)造好的Gabor小波核函數(shù)與其進(jìn)行卷積。用I(z)表示經(jīng)過(guò)預(yù)處理之后的圖像,ψ(z)表示 Gabor核幅值特性,Iμ,ν(z)表示Gabor核函數(shù)和圖像進(jìn)行卷積后的結(jié)果。圖像的卷積輸出為復(fù)數(shù)形式,該復(fù)數(shù)的量值為提取的Gabor特征值。得到的40個(gè)卷積后的圖像如圖4。
圖4 與Gabor卷積后的圖
由于人臉信息大部分存于眼睛、鼻子、嘴巴等區(qū)域,且Gabor小波變換存在著冗余度大的問(wèn)題。如實(shí)驗(yàn)中預(yù)處理之后的圖片尺寸為100*100,使用40個(gè)Gabor濾波器與圖像進(jìn)行卷積后得到的特征維度為400000(100*100*5*8)。本文提出的提取人臉T型區(qū)域進(jìn)行識(shí)別的方法,區(qū)域包括眼睛,鼻子,嘴巴。T型區(qū)域主要包括兩部分,第一部分選取濾波后圖像的0-100行中間20-50列的像素,第二部分選取濾波后圖像的20-75行中間50-95列的像素。T型區(qū)域共5475(100*30+55*45)個(gè)像素,為原圖像一半的像素,進(jìn)行卷積后得到219000維特征維度,因此采用T型分布的Gabor特征,不僅可以保留絕大部分重要的Gabor特征點(diǎn),同時(shí)很好地降低Gabor矢量的特征維數(shù)。得到的T型區(qū)域如下圖5。
圖5 人臉T型圖
經(jīng)過(guò)Gabor變換后的特征向量維度高,實(shí)驗(yàn)采用PCA方法,即主成分分析法進(jìn)行特征向量降維。PCA應(yīng)用在人臉識(shí)別的基本思想就是從人臉圖像中找出最能代表人臉的特征空間,去除一些不能代表人臉特征的屬性。圖片經(jīng)過(guò)PCA降維投影到特征空間,使得數(shù)據(jù)在一個(gè)低維的空間里被處理,減少的冗余同時(shí)還可以保留原始數(shù)據(jù)的絕大部分信息。PCA方法步驟如下:
(1)按列計(jì)算數(shù)據(jù)矩陣的均值。
(2)計(jì)算步驟(1)的協(xié)方差矩陣。
(3)計(jì)算步驟(2)的特征值和特征向量。
(4)按從大到小順序排列特征,選擇前k個(gè)組成特征向量。
實(shí)驗(yàn)在日本JAFFE庫(kù)上進(jìn)行,該庫(kù)由10名女性的7種表情構(gòu)成,分別為生氣、厭惡、害怕、高興、中性、悲傷和驚訝。每種情感有3-4張圖像,總共有213張圖像。實(shí)驗(yàn)中隨機(jī)選取170張圖片作為訓(xùn)練集,43張圖片作為測(cè)試集。選取支持向量機(jī)(SVM)作為分類(lèi)方法,根據(jù)SVM的核函數(shù)可應(yīng)用于不同的分類(lèi)情況。實(shí)驗(yàn)中在不同核函數(shù)條件下分別計(jì)算了相對(duì)應(yīng)的識(shí)別率。
實(shí)驗(yàn)結(jié)果經(jīng)過(guò)整理如表1、表2。由表1可見(jiàn),生氣、厭惡、害怕和中性表情的識(shí)別率最高,其次為驚訝和悲傷,高興的識(shí)別率最低,平均識(shí)別率可達(dá)88.37%。因?yàn)樵诙嘟嵌榷喾较虻腉abor濾波器作用下,生氣、厭惡、害怕和中性的特征容易提取,而高興的表情特征相對(duì)于不容易提取,因此識(shí)別效率相對(duì)于較差。表2未經(jīng)過(guò)T型提取的實(shí)驗(yàn)結(jié)果,表情識(shí)別率可達(dá)86%,對(duì)比可知,T型區(qū)域(眼睛、鼻子和嘴巴)進(jìn)行人臉識(shí)別可有效提高識(shí)別性能和效率且T型區(qū)域具有明顯的人臉表情特征。表3給出了主要分類(lèi)指標(biāo)的文本報(bào)告。根據(jù)每種情感的精度、召回率和F1值的結(jié)果綜合評(píng)價(jià),可以看出生氣和中性的F1值達(dá)到了1,表明這兩種情感的特征比較明顯,精度和召回率都達(dá)到了最佳。
表1 人臉T型Gabor小波變換識(shí)別效果
表2 人臉原臉Gabor小波變換識(shí)別效果
Gabor濾波器可構(gòu)造不同方向和不同角度的核函數(shù),與圖像進(jìn)行卷積即可得到不同方向和角度的特征圖像,實(shí)驗(yàn)中選擇了Gabor核函數(shù)為5*8、4*8和3*8的三組濾波器分別進(jìn)行,得到的結(jié)果如表4。可以看到,當(dāng)選擇了3*8的Gabor核函數(shù)可以達(dá)到90.7%的準(zhǔn)確率,在時(shí)間效率上也有一定提高。
表3 人臉T型Gabor小波變換分類(lèi)報(bào)告
經(jīng)過(guò)Gabor濾波器之后的特征向量特征維度較高,實(shí)驗(yàn)采用PCA進(jìn)行降維,根據(jù)實(shí)驗(yàn)可知,不同的維度可產(chǎn)生不同的識(shí)別率。不同維度的識(shí)別率結(jié)果如表5.根據(jù)表5所示,進(jìn)行PCA降維后,與未進(jìn)行降維相比,可達(dá)到同樣的準(zhǔn)確率88.37%,但是大大縮短了識(shí)別時(shí)間。
實(shí)驗(yàn)采用了隨機(jī)劃分和交叉驗(yàn)證的兩種劃分方式來(lái)探究對(duì)識(shí)別率的影響。train_test_split是將數(shù)據(jù)集隨機(jī)劃分為矩陣訓(xùn)練集和測(cè)試集。StratifiedKFold分層采樣交叉切分,確保訓(xùn)練集,測(cè)試集中各類(lèi)別樣本的比例與原始數(shù)據(jù)集中相同。由表6可知,選取隨機(jī)分配方式,測(cè)試集比例為0.1的時(shí)候可達(dá)最高準(zhǔn)確率95.45%。
人臉T型區(qū)域Gabor小波變換的表情識(shí)別方法很好的降低了Gabor濾波器提取的特征維度。與人臉全臉表情識(shí)別相比較,該方法具有更高的表情識(shí)別率以及更強(qiáng)的魯棒性,并且在時(shí)間效率上也有很大的提升。實(shí)驗(yàn)結(jié)果證明,選擇構(gòu)造合適的Gabor濾波器組、PCA降維維度和圖像測(cè)試集訓(xùn)練集劃分方式和比例對(duì)識(shí)別結(jié)果都有一定的影響。
表4 不同Gabor參數(shù)的識(shí)別率效果
表5 不同維度的識(shí)別率效果
表6 劃分方式不同的識(shí)別率效果