基于改進特征融合的微表情識別方法

2021-04-18 23:45:40錢澤鋒錢夢瑩

軟件工程 2021年4期

錢澤鋒錢夢瑩

摘? 要：微表情的變化是非常微小的，這使得微表情的研究非常困難。微表情是不能偽造和壓制的，因此也成為判斷人們主觀情感的重要依據(jù)。本文提出了以卷積神經(jīng)網(wǎng)絡(luò)及改進長短時記憶網(wǎng)絡(luò)特征融合為依托的微表情識別方法，先介紹了相關(guān)的背景知識，再介紹了實驗的預(yù)處理過程、特征提取以及相應(yīng)的特征融合的過程，將所得的結(jié)果用于實驗?zāi)Ｐ偷念A(yù)測分類。實驗結(jié)果表明，新模型具有更好的識別率。

關(guān)鍵詞：微表情識別;特征融合;微表情分類;卷積神經(jīng)網(wǎng)絡(luò);LSTM

中圖分類號：TP3-0? ? ?文獻標識碼：A

文章編號：2096-1472（2021）-04-26-04

Abstract： Changes in micro-expressions are very small， which makes it hard to study micro-expression. Besides， micro-expression cannot be forged and suppressed， which makes it an important basis for judging people's emotions. This paper proposes a micro-expression recognition method based on convolutional neural networks and improved Long-Short-Term Memory （LSTM） network feature fusion. First， it introduces relevant background knowledge and then introduces experimental preprocessing process， feature extraction and corresponding feature fusion process. Results are used in prediction classification of experiment model. Experimental results show that the new model has a better recognition rate.

Keywords： micro-expression recognition; feature fusion; micro-expression classification; convolutional neural network;?LSTM

1? ?引言（Introduction）

微表情的變化是非常微小的，這使得微表情的研究非常困難。這種表達方式是不能偽造和壓制的，因此也成為判斷人們主觀情感的重要依據(jù)[1-3]。

2002年，國外學者Russell等人將首個微表情訓練工具開發(fā)出來。其后，Ekman團隊又研究出來一個新的微表情識別測量工具：短暫表情識別測驗。除了METT和JACBART技術(shù)之外，Ekman團隊還設(shè)計了面部動作編碼系統(tǒng)（Facial Action Coding System，F(xiàn)ACS）[4-5]。FACS根據(jù)人臉肌肉不同的部分，以生物學中的解剖學為基礎(chǔ)，將人臉的不同區(qū)域劃分成44個運動單元（Action Unit，AU），它們彼此獨立又相互聯(lián)系，同時把不同的AU單元整合在一起，使FACS碼得以形成，任意一種面部表情與特定的FACS碼相對應(yīng)。圖1和圖2給出了FACS編碼中A0和A4的區(qū)別。

2? ?基本理論（Basic theory）

數(shù)據(jù)的預(yù)處理在大部分的實驗中都是極其重要的，如果微表情圖像不經(jīng)過預(yù)處理就會有許多噪聲影響，這會使得微表情識別率不高。在檢測微表情時，預(yù)處理圖像是必需的步驟。在識別時，通常來說，預(yù)處理步驟是：人臉配準（Face Alignment）、人臉切割（Face Cope）、圖像歸一化（Image Resize）[6-8];之后則是特征提取過程，這一步驟直接影響到后面分類的準確性;還有對CNN和LSTM背景知識的介紹。

2.1? ?人臉檢測及配準

人臉檢測與對齊簡稱人臉配準，人臉配準的好壞對識別結(jié)果有很大的影響。人臉檢測的過程：先給出一張圖像，通過計算機自動檢測判斷出該圖像中的人臉區(qū)域有沒有存在，倘若沒有包括在內(nèi)，就會進行提醒;相反，就會給出相應(yīng)的人臉區(qū)域[9]。2006年，Cootes等人提出局部約束模型算法（CLM算法）[10-11]。與活動形狀模型和活動表觀模型對比，這一方法不僅可以有效定位正臉，同時可以有效解決臉部形狀變化下產(chǎn)生的魯棒性問題，還解決了光照因素的魯棒性問題。不僅如此，這一模型的局部紋理關(guān)鍵點維度要低一些，在計算速度方面要快一些。盡管局部約束模型具有以上優(yōu)點，但是其也有缺點，就是配準結(jié)果不平穩(wěn)[12-14]。

2.2? ?人臉切割及圖像歸一化

在人臉對齊后要實施人臉切割，也就是把之前圖像中人臉區(qū)域進行有效劃分。對于不同的圖像處理技術(shù)，如人臉檢測、表情以及年紀識別等均要實施圖像歸一化，利用這一操作，可以令圖像數(shù)量不發(fā)生變化，同時消除外部環(huán)境影響[15]。利用這一技術(shù)，不僅能夠消除無關(guān)的影響因素，還能在后續(xù)操作中使提取準確率得以保證，使分類識別準確率提升。圖像歸一化處理有兩個方面，一是尺寸歸一化;二是灰度值歸一化。

2.3? ?微表情檢測特征提取

在各種圖像分類識別的模型中，特征提取都是至關(guān)重要的一環(huán)，是算法的核心步驟。有效的特征提取方法不僅能夠降低不必要因素的干擾，獲得完整而準確的圖像特征信息，還能夠降低數(shù)據(jù)維數(shù)，減少數(shù)據(jù)運算，使之后的圖像更好地分類[16-18]。此外，有效的特征提取方法穩(wěn)定性好，抗干擾能力突出。

2.4? ?卷積神經(jīng)網(wǎng)絡(luò)

卷積神經(jīng)網(wǎng)絡(luò)（CNN）為神經(jīng)網(wǎng)絡(luò)拓展的一類形式。神經(jīng)網(wǎng)絡(luò)的關(guān)鍵環(huán)節(jié)是把一個或多個傳入輸送到一個模型之中，并且獲得一個傳出，這個環(huán)節(jié)叫作神經(jīng)元，如圖3所示。

與傳統(tǒng)神經(jīng)網(wǎng)絡(luò)一樣，CNN也是層級的網(wǎng)絡(luò)，不過層的作用與模式各異。卷積運算為獲取圖像特點的很好方式。從卷積核之中獲取特點之后，把獲得的特點傳送到完整的聯(lián)結(jié)層。CNN模型涵蓋卷積與池化執(zhí)行。每一個執(zhí)行還涵蓋對應(yīng)的傳入、激活、剪枝、傳出幾個板塊，如圖4所示。

2.5? ?長短時記憶網(wǎng)絡(luò)

循環(huán)神經(jīng)網(wǎng)絡(luò)（RNN）可以通過獨特的記憶單元Unit將所有的時序進行一些改變。所以，RNN的輸入數(shù)據(jù)、權(quán)值比重等影響著循環(huán)神經(jīng)網(wǎng)絡(luò)的輸出數(shù)據(jù)。而對于面部微表情的一些序列來說，它們彼此之間是有一定的關(guān)聯(lián)的，這也說明了不僅微表情的像素彼此之間是牽連的，而且序列之間的元素也是有一定關(guān)系的，因此通過RNN進行學習可以得到更好的效果。

長短時記憶（Long Short-Term Memory， LSTM）網(wǎng)絡(luò)是RNN的一種特殊形式，它具有記憶能力，所以能更好地表現(xiàn)前后信息特征之間的相關(guān)性。RNN中存在梯度消失等問題，但是LSTM的出現(xiàn)很好地解決了這個問題。

3 基于CNN和改進LSTM特征融合的表情識別（Expression recognition based on CNN and improved LSTM feature fusion）

微表情圖像序列的特征提取對之后的識別研究起著關(guān)鍵性的作用，如何提取有效的特征對于微表情識別至關(guān)重要，有效的圖像特征能極大提高最終的識別率。本節(jié)通過將深度學習與微表情識別相結(jié)合，提出一種有效的特征提取方法，通過CNN及改進的LSTM獲取相應(yīng)特征整合構(gòu)成了微表情圖像序列的新特點，而且把獲得的特點使用在最后的預(yù)估劃分中。

3.1? ?CNN和改進LSTM特征融合的模型

因為通常特征表達符和我們需要的預(yù)估情感劃分相互之間存在一定的距離，所以微表達辨別的精準性并不高。為求縮小特征表達符與微表情類別相互之間的距離，此小節(jié)給出了一種新的融合特征描述符，并將該描述符用于微表情識別，CNN與LSTM特征集中于全部圖像序列之中。除此之外，我們還通過CNN-LSTM特征融合層將兩者融合生成全局特征，并對LSTM結(jié)構(gòu)提出改進，然后將全局特征輸入分類器進行預(yù)測分類，如圖5所示。

從光流圖中提取完整有效的時間特征，將兩幀之間的光流位移場圖當作傳入值來做時間LSTM構(gòu)建。我們使用AlexNet構(gòu)建時間LSTM與空間CNN之間的關(guān)系。在我們的CNN之中，有5個卷積層、3個池化層與4個FC層。為了防止過擬合現(xiàn)象的發(fā)生，我們的池化層使用最大池化策略。而CNN的傳入大小為96×96×3，其中，3表示三通道圖像，如圖6所示。

3.2? ?實驗過程

我們使用最常用的SMIC和CASMEⅡ微表情數(shù)據(jù)庫進行實驗驗證，以此評估提出方法的識別準確性。我們使用具有16 GB顯存的Tesla GPU進行訓練學習。實驗的系數(shù)設(shè)立如下：對于CNN與LSTM特征的訓練環(huán)節(jié)，批處理大小的數(shù)值為50，最大輪次數(shù)設(shè)置為6，000，其中學習率取值為0.0005。

首先是預(yù)處理過程：為求達成適應(yīng)的CNN，我們按照先前闡述的方式實施了人臉測試與人臉對齊，而且把圖像的序列調(diào)節(jié)到96×96的大小。每兩幀相互之間的光流位移場圖當作CNN的傳入。

因為圖像序列的幀數(shù)并不完全一樣，圖像的信息比較少，為求達成拓寬它包含的信息，我們對每一個所得的序列實施了劃分，把圖像切換為大量幀與幀之間的片段，而且應(yīng)用片段當作傳入的信息。

為了使微表情識別的效果最好，應(yīng)用以下方式來拓展訓練信息的起點。我們把每一個片段的幀數(shù)定義為X，區(qū)間為[2，30]，通過實驗證明出現(xiàn)X的取值為20時最好。其中，當圖像序列中的幀數(shù)高于20時，前、后（X-20）/2幀被去除;反之，如若幀數(shù)低于20，則獲取最前和最后的（X-20）/2幀。

對于時間的LSTM，我們直接將包含的20幀圖像作為起始輸入數(shù)據(jù)。每20幀圖像可以得到19幅時間圖像，相鄰的兩幅圖像可以取得一幅時間圖像。我們把時間的數(shù)據(jù)定義為一組運動矢量dt，dt由第t幀與第t+1幀計算而得。時間圖像涵蓋兩個分量：dtx與dty。兩者依次代表的是第t幀到第t+1幀之間X與Y方向相應(yīng)的位置改變?？紤]到網(wǎng)絡(luò)的傳入大小，我們利用dtx與dty的平方根計算第三個分量dtz，以此來表示輸入時間圖像。

為了防止過擬合，我們先將圖像序列中隱含的特征提取出來，接下來把該特點當作傳入值傳入網(wǎng)絡(luò)實施學習與預(yù)估劃分，具體模型按照之前所給出的。我們將20個處理過的96×96×3大小的圖像片段傳入模型中獲取相應(yīng)的特征，最后進行特征整合的過程，在給出的CNN-LSTM特征融合模型中，核心為訓練好的整合層。

在實驗探討環(huán)節(jié)中，我們研究了各異的時空特征整合方式，如出現(xiàn)空間數(shù)據(jù)、時態(tài)數(shù)據(jù)特征整合為一個單一結(jié)果的情況。在微表情識別實驗中使用該全局特征識別效果最好。除了這些之外，我們還嘗試在各異的層之間放置改進的CNN-LSTM整合層，而且探討了可以訓練的策略和與之相反的策略之間的差異。最終，我們還對某些比較經(jīng)典的微表情識別方式進行了對比，例如LBP-TOP+SVM、FDM及MDMO等，以此證實我們所給出的新方式的適用性。

4? 實驗結(jié)果及分析（Experimental results and analysis）

根據(jù)以上的分析，我們可以得出在兩種模式之下對CNN-LSTM特征融合的微表情識別會有不同的結(jié)果，非訓練模式的模型表現(xiàn)要比訓練模式的模型效果差。在SMIC數(shù)據(jù)庫數(shù)據(jù)識別率過程中，訓練模式要比非訓練模式高出5.4%;在CASMEⅡ數(shù)據(jù)庫的數(shù)據(jù)識別過程中，訓練模式要比非訓練模式高出5%，如表1所示。

由此我們可以推斷，在訓練模式的條件下，CNN-LSTM時空特征融合層可以更加準確地獲取到圖像序列;而在非訓練模式的條件下CNN-LSTM特征融合層僅僅是將過去的神經(jīng)網(wǎng)絡(luò)各個層中提取到的時間和空間特征進行整合，因為沒有對其進行提前的訓練，所以獲取特征信息的能力也就相對比較薄弱。

相較于FC6之后插入時空特征融合層得到的性能表現(xiàn)，F(xiàn)C7合格率更高。在SMIC數(shù)據(jù)庫中提取數(shù)據(jù)時，F(xiàn)C7比FC6識別率高了6.2%;在CASMEⅡ數(shù)據(jù)庫中提取數(shù)據(jù)時，F(xiàn)C7比FC6識別率高了2.5%，如表2所示。

在以上的各個實驗中，為了確保對比實驗輸入數(shù)據(jù)的數(shù)量相同，使用每個片段19幀的空間圖像和每個片段19幀的時間圖像進行微表情分類實驗。

表3的結(jié)果表明，為了更好地識別微表情，可以使用特征融合，而且相較于時間/空間特征提取出來的微表情，融合特征提取出來的微表情得到的識別效果更好。出現(xiàn)這種情況主要是因為時空特征融合提取出了微表情圖像中更為關(guān)鍵有用的內(nèi)容，因此識別效果更好。

新的特征融合模型在識別方面的功能要遠遠高于過去以往的方法。出現(xiàn)這種情況源于微表情圖像序列中的時間和空間特征信息在我們提出的模型中得到了充分利用，與此同時在特征融合的作用下產(chǎn)生了功能更加齊全完善的時空特性。另外，在以上的種種實驗過程中我們還得到一些其他的發(fā)現(xiàn)，利用這些方法進行識別的時候，因為CASMEⅡ的數(shù)據(jù)質(zhì)量比SMIC要高，所以如果識別的對象是CASMEⅡ，那么它的成功率遠遠比識別數(shù)據(jù)庫SMIC要高。從這一方面我們可以看出，如果數(shù)據(jù)庫的樣本是高質(zhì)量的，那么對于微表情的研究則有一定的推動作用，如表4所示。

5? ?結(jié)論（Conclusion）

本文對微表情識別的三個階段，即預(yù)處理、特征提取和微表情分類進行了分析。重點介紹了三個階段中所采用的主要方法和關(guān)鍵技術(shù)并對其進行了比較，指出了所采用算法的基本原理和優(yōu)缺點。

經(jīng)過實驗，利用各種層次的方式對特征進行提取，然后將新提取的特征進行特征融合，再送到分類器對微表情進行分門別類。實驗最終的數(shù)據(jù)顯示，利用訓練的模式比未經(jīng)訓練的模式表現(xiàn)更好。根據(jù)其他的實驗結(jié)果，該方法相較于經(jīng)典主流特征提取算法表現(xiàn)出了更好的識別分類效果，驗證了該方法對提取基于圖像序列的微表情特征有著更好的效果。

參考文獻（References）

[1] EKMAN P， FRIESEN W V. The repertoire of nonverbal behavior： Categories， origins， usage， and coding[J]. SEMIOTICA， 1969， 1（4）：49-98.

[2] EKMAN P， ROSENBERG E L. What the face reveals： Basic and applied studies of spontaneous expression using the facial action coding system（FACS）[M]. New York： Oxford University Press， 1997， 12（2）：7-10.

[3] EKMAN P， FRIESEN W V， HAGAR J C. Facial action coding system investigator's guide[R].Salt Lake City： A Human Face， 2002， 22（6）：10-16.

[4] SARAGIH J M， LUCEY S， COHN J F. Deformable model fitting by regularized landmark mean-shift[J]. International Journal of Computer Vision， 2011， 91（2）：200-215.

[5] 劉宇灝.微表情識別的理論和方法研究[D].南京：東南大學，2016，34（2）：56-58.

[6] 伍凱，朱恒亮，郝陽陽，等.級聯(lián)回歸的多姿態(tài)人臉配準[J].中國圖像圖形學報，2017， 22（2）：257-264.

[7] 張余敬，常丹華，劉宇，等.基于Gabor小波變換的人臉表情識別技術(shù)研究[J].計算機測量與控制，2010，18（4）：906-908.

[8] 王建超.微表情數(shù)據(jù)庫的建立和微表情檢測技術(shù)研究[D].青島：山東大學，2017，45（2）：15-18.

[9] 吳雪.基于單演二值模式的微表情識別研究[D].天津：河北工業(yè)大學，2015，35（12）：12-20.

[10] 郭艷君.基于動態(tài)序列的微表情識別[D].長春：吉林大學，2015，26（5）：30-38.

[11] 陳夢婷.基于視頻序列的微表情自動識別算法研究[D].哈爾濱：哈爾濱工業(yè)大學，2016，34（3）：34-39.

[12] 趙中原.基于微表情特征的表情識別研究[D].北京：華北電力大學，2016，44（12）：55-58.

[13] 楊成.微表情識別算法研究[D].南京：南京郵電大學，2017，46（8）：15-24.

[14] 朱勇.基于CBP-TOP的人臉表情識別研究[D].鎮(zhèn)江：江蘇大學，2011，45（2）：46-48.

[15] CUN Y L， BOSER B， DENKER J S， et al. Handwritten digit recognition with a back-propagation network[J]. Advances in Neural Information Processing Systems， 1990， 2（2）：396-404.

[16] 楊雪.基于深度學習的微表情特征提取算法設(shè)計與實現(xiàn)[D].北京：北京交通大學，2017，18（2）：8-16.

[17] 張軒閣，田彥濤，郭艷君，等.基于光流與LBP-TOP特征結(jié)合的微表情識別[J].吉林大學學報（信息科學版），2015，33（05）：516-523.

[18] HINTON G E， SALAKHUTDINOV R R. Reducing the dimensionality of data with neural networks[J]. Science， 2006， 313（5786）：504-507.

作者簡介：

錢澤鋒（1994-），男，碩士生.研究領(lǐng)域：表情識別.

錢夢瑩（1988-），女，本科生.研究領(lǐng)域：環(huán)境監(jiān)測.