唐爽
摘 要微表情是一種極為短暫的面部表情,當(dāng)人們想要掩飾內(nèi)心的真實(shí)情感時(shí),就會(huì)不自覺的流露出來。由于微表情的持續(xù)時(shí)間短,動(dòng)作幅度小等特點(diǎn),檢測(cè)和識(shí)別微表情就變得尤為困難。為了解決傳統(tǒng)圖像識(shí)別的方法的識(shí)別率低和預(yù)處理復(fù)雜等缺點(diǎn),本文提出了采用深度神經(jīng)網(wǎng)絡(luò)的方法來對(duì)微表情進(jìn)行識(shí)別。該深度神經(jīng)網(wǎng)絡(luò)由卷積神經(jīng)網(wǎng)絡(luò)(CNN)和長(zhǎng)短時(shí)記憶型(LSTM)遞歸神經(jīng)網(wǎng)絡(luò)組合而成,CNN層負(fù)責(zé)提取微表情的靜態(tài)圖像特征,LSTM層將提取到的卷積特征進(jìn)行整合,而得到這些特征在時(shí)域上的信息,進(jìn)而對(duì)這些信息進(jìn)行分類訓(xùn)練。在CASM2數(shù)據(jù)集下,該方法對(duì)5類表情的識(shí)別率比傳統(tǒng)方法高。
【關(guān)鍵詞】微表情識(shí)別 卷積神經(jīng)網(wǎng)絡(luò) 長(zhǎng)短時(shí)記憶
1 引言
人們的內(nèi)心想法通常都會(huì)表現(xiàn)在面部表情上,然而在一些極端環(huán)境下,人們?yōu)榱藟阂肿约旱恼鎸?shí)內(nèi)心情感時(shí),他們的面部變化十分微小,我們通常稱之為微表情。在刑偵、醫(yī)學(xué)、教育、心理和國(guó)防等領(lǐng)域上,微表情的應(yīng)用前景十分遠(yuǎn)大, 不過即便是經(jīng)過訓(xùn)練的人也很難用肉眼來準(zhǔn)確的檢測(cè)和識(shí)別微表情。其主要原因就是它的持續(xù)時(shí)間短,僅為1/5~1/25s,而且動(dòng)作幅度很小。
人臉表情識(shí)別技術(shù)早已發(fā)展到一定程度了,甚至不少研究團(tuán)隊(duì)提出的方法針對(duì)6種基本表情的識(shí)別率已經(jīng)達(dá)到90%。然而微表情識(shí)別技術(shù)的研究在近幾年來才剛剛開始,如Pfister等提出了一種結(jié)合時(shí)域插值模型和多核學(xué)習(xí)的方法來識(shí)別微表情; Wu等設(shè)計(jì)了一種使用Gabor特征和支持向量機(jī)的微表情識(shí)別系統(tǒng);唐紅梅等在LTP做出改進(jìn)而提出的MG-LTP算法,然后采用極限學(xué)習(xí)機(jī)對(duì)微表情進(jìn)行訓(xùn)練和分類;Wang等提出了基于判別式張量子空間分析的特征提取方法,并利用極限學(xué)習(xí)機(jī)訓(xùn)練和分類微表情。
上述的識(shí)別技術(shù)都是基于傳統(tǒng)機(jī)器學(xué)習(xí)的方法,而近幾年來,利用深度學(xué)習(xí)技術(shù)來解決圖像識(shí)別問題是當(dāng)前的研究熱點(diǎn)。在ILSVRC-2012圖像識(shí)別競(jìng)賽中,Krizhevsky等利用深度卷積神經(jīng)網(wǎng)絡(luò)的自適應(yīng)特征提取方法,其性能遠(yuǎn)遠(yuǎn)超過使用人工提取特征的方法,并且在近幾年內(nèi)的ImageNet大規(guī)模視覺識(shí)別挑戰(zhàn)比賽中連續(xù)刷新了世界紀(jì)錄。
本文決定使用卷積神經(jīng)網(wǎng)絡(luò)(CNN)來提取人臉微表情特征,它能讓機(jī)器自主地從樣本數(shù)據(jù)中學(xué)習(xí)到表示這些微表情的本質(zhì)特征,而這些特征更具有一般性。由于微表情的特性,要充分利用微表情的上下文信息才能更為精確的識(shí)別微表情,這里我們采用長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(LSTM),它是遞歸神經(jīng)網(wǎng)絡(luò)(RNN)中的一種變換形式,它能夠充分的利用數(shù)據(jù)的上下文信息,在對(duì)序列的識(shí)別任務(wù)中表現(xiàn)優(yōu)異,近幾年來它被充分的利用到自然語(yǔ)言處理、語(yǔ)音識(shí)別機(jī)器翻譯等領(lǐng)域。綜上所述,本文提出一種CNN和LSTM結(jié)合的微表情識(shí)別方法。
2 相關(guān)工作
2.1 卷積神經(jīng)網(wǎng)絡(luò)模型
卷積神經(jīng)網(wǎng)絡(luò)模型(CNN)最早是由LeCun等在1990年首次提出,現(xiàn)已在圖像識(shí)別領(lǐng)域取得巨大成功,它能夠發(fā)現(xiàn)隱藏在圖片中的特征,相比人工提取的特征更具有區(qū)分度,而且不需要對(duì)原始數(shù)據(jù)做過多的預(yù)處理。
卷積神經(jīng)網(wǎng)絡(luò)(CNN)通過三種方式來讓網(wǎng)絡(luò)所學(xué)習(xí)到的特征更具有魯棒性:局部感受野、權(quán)值共享和降采樣。局部感受野是指每一個(gè)卷積層的神經(jīng)元只能和上一層的一部分神經(jīng)元連接,而不是一般神經(jīng)網(wǎng)絡(luò)里所要求的全連接,這樣每一個(gè)神經(jīng)元能夠感受到局部的視覺特征,然后在更高層將局部信息進(jìn)行整合,進(jìn)而得到整個(gè)圖片的描述信息。權(quán)值共享是指每一個(gè)神經(jīng)元和上一層的部分神經(jīng)元所連接的每一條邊的權(quán)值,和當(dāng)前層其他神經(jīng)元和上一層連接的每一條邊的權(quán)值是一樣的,首先這樣減少了需要訓(xùn)練的參數(shù)個(gè)數(shù),其次我們可以把這種模式作為提取整個(gè)圖片特征的一種方式。降采樣是指通過將一定范圍內(nèi)的像素點(diǎn)壓縮為一個(gè)像素點(diǎn),使圖像縮放,減少特征的維度,通常在卷積層之后用來讓各層所得到的特征具有平移、縮放不變形,從而使特征具有更強(qiáng)的泛化性。
2.2 長(zhǎng)短時(shí)記憶型遞歸神經(jīng)網(wǎng)絡(luò)模型
長(zhǎng)短時(shí)記憶(LSTM)模型是由Hochreiter提出,它解決了傳統(tǒng)RNN在處理長(zhǎng)序列數(shù)據(jù)時(shí)存在的梯度消失問題,這一切都要?dú)w結(jié)于LSTM結(jié)構(gòu)的精心設(shè)計(jì)。一個(gè)常規(guī)的LSTM結(jié)構(gòu)如圖1所示。
每一個(gè)LSTM結(jié)構(gòu)都有一個(gè)記憶單元Ct(t表示當(dāng)前時(shí)刻),它保存著這個(gè)時(shí)刻LSTM結(jié)構(gòu)的內(nèi)部狀態(tài),同時(shí)里面還有三個(gè)門來控制整個(gè)結(jié)構(gòu)的變化,它們分別是輸入門(xt),忘記門(ft)和輸出門(ht),它們的定義如下所示:
(1)
(2)
(3)
(4)
(5)
(6)
其中σ是一個(gè)sigmod函數(shù),而則表示輸入數(shù)據(jù)的非線性變化,W和b是模型需要訓(xùn)練得到的參數(shù)。等式5展示了當(dāng)前的記憶單元是由忘記門和上一時(shí)刻的內(nèi)部狀態(tài)所控制的,ft決定了上一時(shí)刻的內(nèi)部狀態(tài)對(duì)當(dāng)前時(shí)刻的內(nèi)部狀態(tài)的影響程度,而it則確定了輸入數(shù)據(jù)的非線性變換得到的狀態(tài)對(duì)當(dāng)前時(shí)刻記憶單元的影響程度。等式6展示了輸出門和當(dāng)前時(shí)刻的內(nèi)部狀態(tài)決定了該LSTM的輸出。正因?yàn)檫@個(gè)巧妙的設(shè)計(jì),LSTM就能處理長(zhǎng)序列的數(shù)據(jù),并且能夠從輸入序列中獲取時(shí)間上的關(guān)聯(lián)性,這一特性對(duì)于微表情的識(shí)別尤為重要。
3 網(wǎng)絡(luò)結(jié)構(gòu)調(diào)優(yōu)和改進(jìn)
3.1 卷積神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)
本文針對(duì)輸入大小為96×96的灰度圖,構(gòu)建了4個(gè)卷積層(C1,C2,C3,C4),4個(gè)池化層(S1,S2,S3,S4),1個(gè)全連接層(FC1)和1個(gè)Softmax層組成的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),如圖2所示。卷積核(C1,C2,C3,C4)的大小分別為3×3,3×3,5×5,5×5,分別有32,32,32,64個(gè)。池化層的降采樣核大小均為2×2,并且全部采用的是最大采樣,每一個(gè)池化層都在對(duì)應(yīng)的卷積層之后,而在所有的卷積層之后,連接了一個(gè)包含256個(gè)神經(jīng)元的全連接層,為了盡可能的避免過擬合問題,本文在全連接層后加入一個(gè)p=0.75的Dropout層,除了softmax層,其余層的激活函數(shù)全部是采用ReLU,CNN的參數(shù)訓(xùn)練都是采用隨機(jī)梯度下降算法,每一批次包含100張圖片,并設(shè)置沖量為0.9,學(xué)習(xí)速率為0.001。
3.2 長(zhǎng)短時(shí)記憶型遞歸神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)
盡管CNN已經(jīng)從人臉微表情圖片從學(xué)習(xí)到了特征,但是單一的CNN模型忽略了微表情在時(shí)域上的信息。于是我們提出通過LSTM來學(xué)習(xí)不同人臉表情在時(shí)域上的關(guān)聯(lián)特征。我們構(gòu)建了多個(gè)LSTM層,以及一個(gè)softmax層。
我們首先先訓(xùn)練好CNN的參數(shù),然后把訓(xùn)練好的CNN模型,作為一個(gè)提取人臉微表情的工具,對(duì)于每一幀圖片,我們把最后一個(gè)全連接層的256維的向量輸出作為提取的特征。那么給定一個(gè)時(shí)間點(diǎn)t,我們?nèi)≈暗腤幀圖片([t-W+1,t])。然后將這些圖片傳入到訓(xùn)練好的CNN模型中,然后提取出W幀圖片的特征,如果某一個(gè)序列的特征數(shù)目不足,那么用0向量補(bǔ)全,每一個(gè)特征的維度為256,接著將這些圖片的特征依次輸入到LSTM的節(jié)點(diǎn)中去,只有t時(shí)刻,LSTM才會(huì)輸出它的特征到softmax層。同樣LSTM網(wǎng)絡(luò)的參數(shù)訓(xùn)練還是采用隨機(jī)梯度下降算法,每一批次為50個(gè)序列,沖量為0.85,學(xué)習(xí)速率為0.01。
4 實(shí)驗(yàn)
4.1 微表情數(shù)據(jù)集
該實(shí)驗(yàn)的訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)均來自于中國(guó)科學(xué)院心理研究所傅小蘭團(tuán)隊(duì)的第2代改進(jìn)數(shù)據(jù)庫(kù)CASMEII。該數(shù)據(jù)庫(kù)從26名受試者中捕捉到近3000個(gè)面部動(dòng)作中選取的247個(gè)帶有微表情的視頻,并且給出了微表情的起始和結(jié)束時(shí)間以及表情標(biāo)簽,由于其中悲傷和害怕表情的數(shù)據(jù)量并不多,因此本文選取了里面的5類表情(高興,惡心,驚訝,其他,中性),由于數(shù)據(jù)庫(kù)中的圖片尺寸不一樣并且是彩色圖片,因此先將圖片進(jìn)行灰度處理,并歸一化到 大小作為網(wǎng)絡(luò)的輸入。本實(shí)驗(yàn)采用5折交叉驗(yàn)證的方法,選取245個(gè)微表情序列等分成5份,每個(gè)序列的圖片有10張到70張不等,每份均包含5類表情。
4.2 CNN+LSTM和CNN的對(duì)比實(shí)驗(yàn)
從圖2中可以看出不同策略在五類表情里的識(shí)別率。當(dāng)我們采用單一的CNN模型來對(duì)人臉微表情進(jìn)行分類時(shí),我們采取了dropout策略和數(shù)據(jù)集擴(kuò)增策略來防止CNN過擬合。CNN+D表示采取了dropout策略的CNN模型,CNN+A表示采取了數(shù)據(jù)擴(kuò)增策略的CNN模型, 即對(duì)每一張圖片進(jìn)行了以下四種變換:旋轉(zhuǎn)、水平平移、垂直平移、水平翻轉(zhuǎn)。從而能將數(shù)據(jù)集擴(kuò)增至4倍。CNN+AD表示采取了兩種策略的CNN模型。CNN+LSTM表示結(jié)合了CNN和LSTM的網(wǎng)絡(luò)模型。
從表1中我們可以看出,添加了策略的CNN,在人臉微表情識(shí)別上的表現(xiàn)要好于沒有添加策略的CNN,這可能是因?yàn)橛?xùn)練圖片較少,而CNN網(wǎng)絡(luò)層次較深,導(dǎo)致沒有添加策略的CNN在訓(xùn)練參數(shù)的過程中很容易就過擬合了。而對(duì)于CNN+LSTM的表現(xiàn)要好于單一的CNN模型,這說明LSTM的確能夠充分利用時(shí)域上的特征信息,從而能夠更好識(shí)別序列數(shù)據(jù),這證明了CNN+LSTM的模型可以用于識(shí)別人臉微表情的可行性。從表1中,我們還可以看出高興和驚訝的表情識(shí)別率較高,而其他的則相對(duì)較低,這可能是因?yàn)楦吲d和驚訝的區(qū)分度較大,并且樣本較多。
4.3 LSTM的參數(shù)調(diào)整
下面我們逐一的研究不同參數(shù)對(duì)CNN+LSTM模型的微表情識(shí)別率的影響程度。
圖4顯示輸入的序列個(gè)數(shù)為100左右能夠擁有相對(duì)較高的準(zhǔn)確率,這說明只有充分利用每一個(gè)微表情序列的時(shí)域信息,這樣,訓(xùn)練出的模型才更加具有一般性。
圖5顯示出當(dāng)LSTM隱層的神經(jīng)元個(gè)數(shù)為128時(shí),此時(shí)的微表情平均識(shí)別率最高,這說明隱層需要足夠多的神經(jīng)元才能保留更長(zhǎng)的時(shí)域信息,對(duì)于微表情識(shí)別來說,能夠擁有更高的精度。
圖6顯示了LSTM隱層的個(gè)數(shù)為5時(shí),該模型擁有最好的識(shí)別率,這說明較深的LSTM網(wǎng)絡(luò)才能充分挖掘特征的時(shí)域信息。因此經(jīng)過以上實(shí)驗(yàn),我們得到了一個(gè)由5層LSTM,每一層包含128個(gè)神經(jīng)元,并能夠處理長(zhǎng)度為100的特征序列的模型。
4.4 和非深度學(xué)習(xí)算法的實(shí)驗(yàn)對(duì)比
為了比較傳統(tǒng)機(jī)器學(xué)習(xí)算法和深度學(xué)習(xí)算法孰優(yōu)孰劣,我們使用傳統(tǒng)機(jī)器學(xué)習(xí)算法在Casme2進(jìn)行了一樣的實(shí)驗(yàn),從表2中可以看出,本文所提出的CNN+LSTM模型相對(duì)于這些傳統(tǒng)機(jī)器學(xué)習(xí)模型,有著較為優(yōu)異的表現(xiàn)。
本文中的實(shí)驗(yàn)均是基于Google的開源機(jī)器學(xué)習(xí)庫(kù)TensorFlow上進(jìn)行的,硬件平臺(tái)是dell工作站:Intel(R) Core(TM) i7-5820K CPU、主頻3.3GHZ,內(nèi)存64GB、Nvida GeForce GTX TITAN X GPU、顯存12GB。
5 結(jié)束語(yǔ)
本文針對(duì)傳統(tǒng)方法對(duì)微表情識(shí)別率低,圖片預(yù)處理復(fù)雜的情況,提出了采用卷積神經(jīng)網(wǎng)絡(luò)和遞歸神經(jīng)網(wǎng)絡(luò)(LSTM)結(jié)合的方式,通過前面的卷積網(wǎng)絡(luò)層來提取微表情的靜態(tài)特征,省去了傳統(tǒng)機(jī)器學(xué)習(xí)方法,需要人工提取特征的過程,簡(jiǎn)化了特征提取的工作。然后再通過后面的遞歸神經(jīng)網(wǎng)路,充分利用表情特征序列的上下文信息,從而在序列數(shù)據(jù)中發(fā)現(xiàn)隱藏在其中的時(shí)域信息,從實(shí)驗(yàn)結(jié)果中可以看出,利用了時(shí)域信息的CNN+LSTM比單純使用CNN的識(shí)別率更高,而且相對(duì)于傳統(tǒng)機(jī)器學(xué)習(xí)方法也更為優(yōu)秀。但是當(dāng)數(shù)據(jù)量越大時(shí),如果網(wǎng)絡(luò)的層次比較深的話,模型的訓(xùn)練時(shí)間就會(huì)很長(zhǎng),并且極度依賴硬件設(shè)備,這算是深度學(xué)習(xí)通有的弊病。為了進(jìn)一步投入到應(yīng)用中去,接下來還得提高微表情的識(shí)別率,以及在實(shí)時(shí)環(huán)境下,如何能夠動(dòng)態(tài)和準(zhǔn)確的識(shí)別微表情,這些都將會(huì)是以后研究的重點(diǎn)。
參考文獻(xiàn)
[1]PORTER S,TEN BRINKE L.Reading between the Lies Identifying Concealed and Falsified Emotions in Universal Facial Expressions[J].Psychological Science,2008,19(05):508-514.
[2]Pfister T,Li X,Zhao G,Pietikainen M (2011) Recognising spontaneous facial micro-expressions.2011 Proc IEEE Int Conf Comput Vis (ICCV): IEEE.pp.1449-1456.
[3]Wu Q,Shen X,F(xiàn)u X (2011) The Machine Knows What You Are Hiding: An Automatic Micro-expression Recognition System.In: DMello S,Graesser A,Schuller B,Martin J-C,editors.Affect Comput Intell Interact.Springer Berlin/ Heidelberg. pp.152-162.
[4]唐紅梅,石京力,郭迎春,韓力英,王霞. 基于MG-LTP與ELM的微表情識(shí)別[J].電視技術(shù),2015,39(03):123-126.
[5]WANG S J,CHEN H L,YAN W J,et al. Face Recognition and Micro-Expression Recognition Based on Discriminant Tensor Subspace Analysis Plus Extreme Learning Machine[J].Neural Processing Letters,2014,39(01):25-43.
[6]Krizhevsky A,Sutskever I,Hinton G E.ImageNet classification with deep convolutional neural networks. In:Advances in Neural Information Processing Systems 25.Lake Tahoe, Nevada,USA:Curran Associates,Inc., 2012.1097?1105
[7]DENG J,DONG W,SOCHER R,et al.Imagenet:A large-scale hierarchical image database [C]//IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE,2009:248-255.
[8]BENGIO Y,DELALLEAU O.On the expressive power of deep archi-tectures[C]//Proc of the 14th International Conference on Discovery Science.Berlin:Springer-Verlag,2011:18-36.
[9]LeCun Y,Boser B,Denker J S,Howard R E,Hubbard W,Jackel L D,Henderson D.Handwritten digit recogni- tion with a back-propagation network. In: Proceedings of Advances in Neural Information Processing Systems 2. San Francisco,CA,USA:Morgan Kaufmann Publishers Inc.,1990.396-404.
[10]許可.卷積神經(jīng)網(wǎng)絡(luò)在圖像識(shí)別上的應(yīng)用研究[D].杭州:浙江大學(xué)[學(xué)位論文],2012.
[11]Hochreiter S,Sehmidhuber J.Long Short-Term Memory.Neural Computation,1997,9(08):1735-1780
[12]LUCEY P,COHN J F,KANADE T,et al.The Extended Cohn-Kanade Dataset ( CK + ): A complete dataset for ac- tion unit and emotion-specified expression [C] //IEEE Computer Society Conference on Computer Vision and Pattern Recognition Workshops (CVPRW).New York:IEEE,2010:94-101.
[13]Dayan P,Abott L F.Theoretical Neuroscience.Cambridge:MIT Press, 2001.
[14]YAN W J, LI X, WANG S J, et al. CASME II: An Improved Spontaneous Micro-Expression Database and the Baseline Evaluation [J].Plos One, 2014,9(01):1-8.
[15]Yandan Wang,John See,Raphael C-W Phan,Yee-Hui Oh. Efficient Spatio-Temporal Local Binary Patterns for Spontaneous Facial Micro-Expression Recognition[J].PLOS ONE,2013,10(05): 11-12
[16]張軒閣,田彥濤,郭艷君,王美茜.基于光流與LBP-TOP特征結(jié)合的微表情識(shí)別[J].吉林大學(xué)學(xué)報(bào):信息科學(xué)版, 2015,33(05):521-522.
[17]Martín Abadi, Paul BarhamJianmin, Chen el.TensorFlow:Large-Scale Machine Learning on Heterogeneous Distributed Systems[EB/OL].https://arxiv.org/abs/1605.08695.
作者單位
合肥工業(yè)大學(xué) 安徽省 230009