• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于空時(shí)注意力網(wǎng)絡(luò)的面部表情識別

      2020-04-29 00:44:03馮曉毅黃東崔少星王坤偉
      關(guān)鍵詞:注意力機(jī)制深度學(xué)習(xí)

      馮曉毅 黃東 崔少星 王坤偉

      摘要:基于視頻序列的面部表情識別問題主要有兩個(gè)特點(diǎn):空時(shí)性和顯著性。近年來,許多研究人員利用卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)、三維卷積神經(jīng)網(wǎng)絡(luò)等深度學(xué)習(xí)方法處理該問題的空時(shí)特性。但是,面部表情的顯著性問題卻往往被忽視。隨著注意力機(jī)制在深度學(xué)習(xí)網(wǎng)絡(luò)中的應(yīng)用發(fā)展,其能夠有效地解決各類任務(wù)中的顯著性問題。該文將空時(shí)注意力機(jī)制應(yīng)用到面部表情識別中,使得深度網(wǎng)絡(luò)更多地關(guān)注空時(shí)特征中的顯著性。具體地,該文將空間注意力模塊嵌入到卷積網(wǎng)絡(luò)中,以使空域特征更加關(guān)注對表情識別重要的區(qū)域,將時(shí)間注意力模塊嵌入到門控循環(huán)單元(gated recurrent units,GRU)后,使得時(shí)域特征更加關(guān)注信息豐富的視頻幀。在RECOLA情感數(shù)據(jù)庫上的實(shí)驗(yàn)表明,與一般的深度模型相比,該文的深度空時(shí)注意力網(wǎng)絡(luò)顯著提高了面部表情識別的性能。

      關(guān)鍵詞:深度學(xué)習(xí);空時(shí)方法;注意力機(jī)制;面部表情識別

      中圖分類號:TP391.41

      DOI:10.16152/j.cnki.xdxbzr.2020-03-002

      Spatial-temporal attention network forfacial expression recognition

      FENG Xiaoyi1, HUANG DongCUI Shaoxing WANG Kunwei

      Abstract: Facial expression recognition (FER) based on video sequences has two main characteristics: spatio-temporal and significance. Of late, many researchers? combined

      convolutional neural networks (CNNs), recurrent neural networks (RNNs) and 3D CNN to address the spatio-temporal characteristics. However, few works focus on the salient features of this issue. Meanwhile, with the development of the attention mechanism for deep learning, its effectiveness in the salient problem has attracted the interest of researchers. In this paper, we introduce the attention mechanism into FER, by which our deep network pays more attention to the salient? extraction of spatial-temporal features. Specifically, a spatial attention module is inserted into the CNN networks to make the spatial feature extraction more objectively. A temporal attention module is inserted into the output of the gated recurrent units (GRU) at each? step of a sequence, so that the temporal features pay more attention to the informative frames. We validate our approach on the RECOLA emotion database. A comparison of the results with attention and without attention shows that our deep attention network improves the performance compared to the general deep model.

      Key words: deep learning; spatial-temporal method; attention mechanism; facial expression recognition

      面部表情是人類語言的一部分,通常,它是一種用于傳達(dá)情緒的生理和心理反應(yīng)[1-2]。面部表情識別(facial expression recognition,F(xiàn)ER)的研究可以應(yīng)用于人機(jī)交互、情感分析和心理健康評估等多個(gè)領(lǐng)域[3]。近幾十年來,這項(xiàng)技術(shù)引起了計(jì)算機(jī)科學(xué)家和心理學(xué)家的極大興趣,該問題也由最開始的人臉基本表情的分類逐步演變?yōu)楝F(xiàn)在更加細(xì)致的對表情強(qiáng)度的分析。特別是深度學(xué)習(xí)技術(shù)的發(fā)展使得模式識別可以去探索更為細(xì)致的變化,所以,當(dāng)前的研究多是趨向于后一類強(qiáng)度分析問題[4]。

      此外,由于面部表情的研究可受益于視頻序列中連續(xù)幀的時(shí)間相關(guān)性,因此,基于視頻的面部表情識別得到了更加廣泛的關(guān)注。在該問題中,面部表情呈現(xiàn)出兩個(gè)特點(diǎn):空時(shí)性和顯著性[5]??諘r(shí)性即面部表情在空間和時(shí)間上具有動(dòng)態(tài)變化的特點(diǎn),而顯著性則是在空間上人臉只有部分區(qū)域?qū)Ρ砬樽R別是起作用的,在時(shí)間上只有部分的圖像幀才具有表情信息。因此,面部表情識別問題存在著兩個(gè)主要的挑戰(zhàn),一個(gè)是如何描述空時(shí)特征,另一個(gè)是如何體現(xiàn)視頻序列中重要信息幀的重要區(qū)域。

      隨著深度學(xué)習(xí)技術(shù)的發(fā)展,許多深度學(xué)習(xí)方法被提出來應(yīng)對這些挑戰(zhàn)。循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural networks,RNN)因其可以從連續(xù)數(shù)據(jù)中獲取動(dòng)態(tài)信息,在該領(lǐng)域得到了廣泛的使用[6-9]。卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)也應(yīng)用到該問題中,例如三維卷積神經(jīng)網(wǎng)絡(luò)(3D convolutional neural networks,C3D)[10],被用于動(dòng)態(tài)面部表情識別以獲取空時(shí)動(dòng)態(tài)特征[11-15]。與此同時(shí),一些研究人員認(rèn)為CNN可以提取更有效的空域特征,因此,他們將CNN和RNN結(jié)合起來以生成面部表情的空時(shí)特征[6,12,16-19]。對于FER的第二個(gè)挑戰(zhàn),即顯著性問題,一些研究人員利用注意力機(jī)制來處理。注意力模塊根據(jù)CNN中的特征圖譜自動(dòng)計(jì)算注意力權(quán)重[5,20-22]。然而,這些方法只關(guān)注了靜態(tài)圖像的問題,并沒有提供動(dòng)態(tài)面部表情識別的解決方案。

      據(jù)此,本文針對面部表情識別的這兩個(gè)挑戰(zhàn)提出了一個(gè)深度空時(shí)注意力網(wǎng)絡(luò),該網(wǎng)絡(luò)包括空域子網(wǎng)絡(luò)和時(shí)域子網(wǎng)絡(luò),在兩個(gè)子網(wǎng)絡(luò)中分別嵌入相應(yīng)的注意力模塊,使得CNN提取空域特征時(shí),更加關(guān)注與表情識別最為相關(guān)的區(qū)域,RNN提取時(shí)間特征時(shí),更專注信息量更大的圖像幀。

      本文的主要貢獻(xiàn)如下:

      1)將空間注意力模塊添加到空域子網(wǎng)絡(luò)的卷積過程中,并將全連接層修改為回歸任務(wù)。首先,訓(xùn)練空域子網(wǎng)絡(luò),使其完成FER的任務(wù),然后,可視化空間注意力模塊所學(xué)習(xí)到的結(jié)果,得到與面部表情識別最相關(guān)的區(qū)域。

      2)訓(xùn)練好的空域子網(wǎng)絡(luò)作為特征提取器提取空域特征,將每一個(gè)時(shí)間步驟的空域特征輸入到GRU中,得到時(shí)域動(dòng)態(tài)特征。隨后,將GRU的輸出經(jīng)過時(shí)間注意力模塊,獲得每一個(gè)時(shí)間步驟的權(quán)重。利用注意力權(quán)重對時(shí)域動(dòng)態(tài)特征進(jìn)行加權(quán)平均,得到具有空時(shí)注意力的動(dòng)態(tài)特征。

      3)在RECOLA表情數(shù)據(jù)庫進(jìn)行了大量的實(shí)驗(yàn)驗(yàn)證。從實(shí)驗(yàn)結(jié)果可以看出,本文提出的深度空時(shí)注意力網(wǎng)絡(luò)對比于其他方法具有明顯優(yōu)勢。

      1 相關(guān)的研究工作

      1.1 面部表情識別方法

      近年來,由于深度學(xué)習(xí)的出現(xiàn),越來越多的深度網(wǎng)絡(luò)被應(yīng)用于基于視頻的面部表情識別,模型的性能表現(xiàn)也越來越好。在這些工作中,他們采取相應(yīng)的網(wǎng)絡(luò)框架提取面部表情識別中涉及到的空時(shí)動(dòng)態(tài)特征。

      由于RNN能夠探索連續(xù)數(shù)據(jù)之間的動(dòng)態(tài)變化關(guān)系,因此,它被用于表情識別的各種任務(wù)中。在2015年,自然場景的情感識別(EmotiW)挑戰(zhàn)賽中引入了RNN就獲得了比僅使用CNN網(wǎng)絡(luò)更好的結(jié)果[6]。Zhang等人提出了一種基于部件的分層雙向循環(huán)神經(jīng)網(wǎng)絡(luò)[9],以獲取視頻序列中的動(dòng)態(tài)面部表情信息。在Yan等人的工作中,雙向遞歸神經(jīng)網(wǎng)絡(luò)的框架被用來捕獲面部紋理的動(dòng)態(tài)變化[7]。在最近的研究中,Yu等人提出了一個(gè)嵌套長期短期記憶(long short-term memory,LSTM)模型[8],該模型由T-LSTM模型和C-LSTM兩個(gè)子模型組成。其中,T-LSTM模型從時(shí)間上對所學(xué)的特征進(jìn)行建模,C-LSTM將所有T-LSTM的輸出集成在一起,以便對網(wǎng)絡(luò)的中間層進(jìn)行多層級編碼。

      與RNN相比,CNN非常適合應(yīng)用于計(jì)算機(jī)視覺的任務(wù),因此,它的衍生物C3D被廣泛應(yīng)用到相應(yīng)的研究中來。在Liu等人的工作中,C3D與可變形的面部動(dòng)作約束條件結(jié)合在一起,以表示動(dòng)態(tài)運(yùn)動(dòng)信息[14]。Jung等人應(yīng)用了在時(shí)間軸上不共享權(quán)值的3D卷積核,提出了一種深度時(shí)間表觀分析網(wǎng)絡(luò),每個(gè)卷積核的重要性可以隨時(shí)間的變化而變化[13]。Iman等人在生成的數(shù)據(jù)集中訓(xùn)練了一個(gè)深層C3D,以對面部表情進(jìn)行分類[11]。另外,F(xiàn)an等人以后融合的方式將C3D和RNN結(jié)合在一起解決了16年EmotiW挑戰(zhàn)賽所提出的問題[12]。Zhao等人提出了一種3D CNN架構(gòu),可從面部視頻序列中同時(shí)學(xué)習(xí)靜態(tài)和動(dòng)態(tài)特征,并從光流序列中提取高層次的動(dòng)態(tài)特征[15]。

      與此同時(shí),還有一些研究人員致力于利用CNN和RNN的組合來探究面部表情識別的問題。Donahue等人設(shè)計(jì)了一個(gè)空時(shí)的深度模型,該模型將CNN與LSTM相結(jié)合來解決不同視覺任務(wù)中輸入視頻長度不同的問題[16]。Kim等人在CNN和RNN的組合框架中,使用了不同的強(qiáng)度狀態(tài)(起始,起始到峰值,峰值,峰值到結(jié)束和結(jié)束),以及五個(gè)損失函數(shù)(表情分類損失,同類表情類內(nèi)變化損失,同類表情強(qiáng)度分類損失、表觀特征變化損失和表情空間特征連續(xù)性損失)來對表情的各個(gè)強(qiáng)度狀態(tài)進(jìn)行編碼,通過優(yōu)化這些損失函數(shù)來訓(xùn)練網(wǎng)絡(luò)[18]。Jain等人提出了基于多角度最佳模式的深度學(xué)習(xí)方法,以糾正光照突然變化所帶來的影響,使用CNN-LSTM對面部表情進(jìn)行預(yù)測[17]。Rodriguez等人通過將CNN與LSTM相結(jié)合來完成疼痛表情識別的任務(wù),使用了預(yù)先訓(xùn)練的VGG網(wǎng)絡(luò)來微調(diào)疼痛表情數(shù)據(jù)庫,隨后,LSTM對VGG網(wǎng)絡(luò)的輸出進(jìn)行了分類[19]。

      1.2 注意力機(jī)制的相關(guān)研究

      到目前為止,注意力機(jī)制已經(jīng)成功地應(yīng)用于許多領(lǐng)域,包括圖像描述、機(jī)器翻譯、特征圖轉(zhuǎn)換等方面[23]。其中,在圖像描述和機(jī)器翻譯的應(yīng)用中,所提出的模型都是基于編碼器和解碼器的結(jié)構(gòu),而在其他應(yīng)用中因?yàn)闆]有解碼器的存在,往往通過特征圖轉(zhuǎn)換來學(xué)習(xí)注意力權(quán)重。

      關(guān)于面部表情識別,也有一些工作致力于注意力機(jī)制的發(fā)展。例如,Barros等人提出了一個(gè)可以關(guān)注于表情變化和表情識別的深度模型[5]。該模型由一個(gè)深層的網(wǎng)絡(luò)組成,在網(wǎng)絡(luò)中利用CNN來定位復(fù)雜場景中的情感表現(xiàn)。為了解決面部表情識別的問題,Sun等人提出了CNN注意力模型[22],在CNN提取的特征圖上學(xué)習(xí)注意力權(quán)重,然后利用注意力特征對表情進(jìn)行分類,以提高網(wǎng)絡(luò)性能。Li等人提出了具有注意力機(jī)制的CNN網(wǎng)絡(luò)用于面部表情識別[20],該網(wǎng)絡(luò)可專注于面部最具判別性的區(qū)域,其描述了兩種注意力類型,一種是基于局部的注意力,另一種是基于全局和局部的注意力,實(shí)驗(yàn)結(jié)果表明,所提出的方法在多個(gè)面部表情數(shù)據(jù)集上的識別精度均得到了提升。Minaee等人采用了空間轉(zhuǎn)換網(wǎng)絡(luò)模塊,通過該模塊,網(wǎng)絡(luò)可以專注于與表情最為相關(guān)的區(qū)域,從而改善實(shí)驗(yàn)結(jié)果[21]。對于基于面部表情的年齡估計(jì)問題,Pei等人提出了一個(gè)端到端的注意力模型,從CNN特征圖中學(xué)習(xí)注意力權(quán)重,在LSTM處理信息的過程中,學(xué)習(xí)了每一時(shí)間步驟的注意力權(quán)重,然后,對輸出特征向量進(jìn)行加權(quán)平均,用以進(jìn)行后續(xù)的回歸任務(wù)[24]。

      越來越多的計(jì)算機(jī)視覺研究傾向于探索注意力機(jī)制的應(yīng)用。在現(xiàn)階段的面部表情識別研究中,也有像上文所提到一些研究開始專注于特定區(qū)域,他們試圖在空間維度上選取相關(guān)性的區(qū)域[25-26],但還沒有面部表情識別的相關(guān)工作同時(shí)涉及到空時(shí)上的注意力。故基于以上分析,本文提出基于一種空時(shí)注意力網(wǎng)絡(luò)來同時(shí)解決面部表情識別中的空時(shí)特性和顯著特性的問題。

      2 基于空時(shí)注意力網(wǎng)絡(luò)的面部表情識別

      2.1 整體網(wǎng)絡(luò)框架

      本文提出了一種用于視頻面部表情識別的深度空時(shí)注意力網(wǎng)絡(luò)。為了解決視頻序列中表情識別的空時(shí)性和顯著性的問題,采用了空時(shí)注意力機(jī)制,該機(jī)制可使網(wǎng)絡(luò)在空域中專注于與表情最相關(guān)的區(qū)域,在時(shí)域中更加關(guān)注信息量豐富的視頻幀。

      圖1為本文所提空時(shí)注意力網(wǎng)絡(luò)的整體框架,該網(wǎng)絡(luò)主要包括兩個(gè)子網(wǎng)絡(luò):空域子網(wǎng)絡(luò)和時(shí)域子網(wǎng)絡(luò)。整體框架將視頻序列作為輸入,將這些圖像輸入到空域子網(wǎng)絡(luò)中,并表示為特征圖譜。在空域子網(wǎng)絡(luò)中間,存在一個(gè)空間注意力模塊,該模塊可以使網(wǎng)絡(luò)更多地關(guān)注與面部表情識別最為相關(guān)的區(qū)域。隨后,將全連接網(wǎng)絡(luò)(FC)的特征輸入到時(shí)域子網(wǎng)絡(luò)部分。在該部分中,將每個(gè)時(shí)間步驟的特征輸入到GRU單元以生成時(shí)域動(dòng)態(tài)特征。這些特征通過時(shí)間注意力模塊使網(wǎng)絡(luò)專注于信息豐富的視頻幀。

      2.2 空間注意力模塊

      空間注意力模塊的作用是自動(dòng)評估圖像中每個(gè)區(qū)域的重要性以及每個(gè)區(qū)域與目標(biāo)任務(wù)的相關(guān)性。在空域子網(wǎng)絡(luò)中,該模塊由嵌入在特征圖譜之后的卷積濾波器實(shí)現(xiàn),它可以根據(jù)目標(biāo)任務(wù)計(jì)算出每個(gè)區(qū)域的重要性,其結(jié)構(gòu)如圖2所示。

      假設(shè)第L層卷積層的輸出特征圖譜尺寸為W×H×C,也即C個(gè)尺寸大小為W×H的特征圖譜。這些特征輸入到空間注意力模塊得到注意力矩陣A。A

      的尺寸大小也為W×H,其中的元素Aij表示特征向量Fij的重要性權(quán)重。Fij為卷積層輸出特征圖譜在(i,j)位置的特征向量,故|Fij|=C。每個(gè)特征向量都對應(yīng)原圖的一個(gè)接受域,因此,在卷尺層后嵌入空間注意力模塊能夠讓卷積網(wǎng)絡(luò)自動(dòng)地改變各個(gè)接受域的重要性權(quán)重大小。

      根據(jù)Pei等人[24]在注意力機(jī)制方面的研究,本文也采用了類似的空間索引的注意力機(jī)制。從圖2中可以看出,注意力權(quán)重矩陣A由兩層全連接網(wǎng)絡(luò)計(jì)算所得到,第一層中對于每個(gè)輸入的特征向量采用個(gè)性化的權(quán)值參數(shù),第二層則采用共享的權(quán)值參數(shù)。因此,各個(gè)位置的注意力權(quán)重Aij可由式(1)得到:

      Aij=σ(uTtanh(WijFij+bij)+c)。(1)

      其中,Wij∈Rd×C和bij∈Rd×1分別是第一層的參數(shù)矩陣和偏置,u∈Rd×1和c分別是第二層的參數(shù)矩陣和偏置。在第二層的輸出之后添加sigmoid函數(shù)σ,使得注意力權(quán)重矩陣的取值都位于[0,1]。注意力權(quán)重矩陣A通過與特征圖譜F進(jìn)行元素級的相乘操作控制下一層卷積層的信息流入,得到空間注意力模塊的最終輸出O。

      本文在空間注意力模塊中的第一層使用個(gè)性化的權(quán)值參數(shù),第二層使用共享的權(quán)值參數(shù),是因?yàn)樵撃K中第一層網(wǎng)絡(luò)被用來捕捉局部的詳細(xì)信息,第二層網(wǎng)絡(luò)被用來感知全局信息的變化。在Xu等人使用兩層都是權(quán)值共享的網(wǎng)絡(luò)研究圖像分類[27]。而本文的任務(wù)則是表情識別,這就需要網(wǎng)絡(luò)能夠?qū)W習(xí)到紋理上的細(xì)微變化,如果采用文獻(xiàn)[27]的方法,學(xué)習(xí)得到的注意力權(quán)重就會偏向模糊[24],因此,本文采用空間索引的空間注意力機(jī)制。

      2.3 時(shí)間注意力模塊

      注意力機(jī)制不僅可以應(yīng)用于空域特征提取,還可以應(yīng)用到時(shí)域特征的融合。因?yàn)樵谝欢我曨l序列中,每一幀都包含不同的信息,有的幀具有明顯的表情信息,而有的幀則沒有。這就需要網(wǎng)絡(luò)對視頻幀的時(shí)序特征選擇性地處理,而非一視同仁。因此,本文設(shè)計(jì)了時(shí)域子網(wǎng)絡(luò),其包含時(shí)間注意力模塊,如圖3所示。以這種方法可以獲得每個(gè)時(shí)間步長相對應(yīng)的權(quán)重,該權(quán)重可用于得到具有時(shí)間注意力的特征。

      假設(shè)空域子網(wǎng)絡(luò)在時(shí)間t的輸出為st,那么GRU對該時(shí)間步驟的特征的表達(dá)為

      另外,在訓(xùn)練空域子網(wǎng)絡(luò)時(shí),ground-truth為每幀圖像的標(biāo)簽。在時(shí)域子網(wǎng)絡(luò)的訓(xùn)練中,使用序列中圖像幀標(biāo)簽的平均值作為ground-truth。這是因?yàn)閿?shù)據(jù)庫中只有很少的長視頻序列,必須將視頻序列分成多個(gè)片段以訓(xùn)練深度網(wǎng)絡(luò)。至此,整個(gè)網(wǎng)絡(luò)和損失函數(shù)都是可微的,將損失進(jìn)行反向傳播以優(yōu)化每個(gè)層的參數(shù)。

      3 實(shí)驗(yàn)驗(yàn)證

      3.1 數(shù)據(jù)庫

      由Ringeval等人發(fā)布的RECOLA數(shù)據(jù)庫提供了具有時(shí)間連續(xù)性的自發(fā)情感數(shù)據(jù)[28]。這是一個(gè)多模態(tài)的數(shù)據(jù)集,包含了聲音、視頻、心電圖和皮膚導(dǎo)電圖。該數(shù)據(jù)庫中的實(shí)驗(yàn)對象包含23個(gè)參與者,總長度為9.5 h,其中每5 min進(jìn)行一次標(biāo)注,錄制的內(nèi)容是一個(gè)執(zhí)行協(xié)作任務(wù)的視頻會議。參與者中有17名法國人,3名德國人以及3名意大利人。視頻數(shù)據(jù)包含兩個(gè)部分:9個(gè)視頻序列用于訓(xùn)練,9個(gè)視頻序列用于驗(yàn)證。視頻序列中的每一幀都有兩個(gè)標(biāo)簽:價(jià)分?jǐn)?shù)和喚醒。由于價(jià)分?jǐn)?shù)與視頻之間的相關(guān)性很高,因此,在本文實(shí)驗(yàn)中采用了價(jià)分?jǐn)?shù)的注釋。

      3.2 實(shí)驗(yàn)設(shè)置

      從圖1能夠看出,空域子網(wǎng)絡(luò)的主體部分是一個(gè)VGG-16的結(jié)構(gòu)。這是因?yàn)楸敬螌?shí)驗(yàn)的數(shù)據(jù)庫是中等尺寸的數(shù)據(jù)庫,如果使用較淺的網(wǎng)絡(luò),實(shí)驗(yàn)結(jié)果達(dá)不到最優(yōu),如果使用較深的網(wǎng)絡(luò)則很容易陷入局部最小點(diǎn),導(dǎo)致過擬合的發(fā)生,故使用一個(gè)表情數(shù)據(jù)庫FER2013[29]上的預(yù)訓(xùn)練模型來初始化網(wǎng)絡(luò)參數(shù)將會極大提高網(wǎng)絡(luò)的實(shí)驗(yàn)表現(xiàn)和收斂速度。

      由于空域子網(wǎng)絡(luò)是用來估計(jì)靜態(tài)圖像的表情強(qiáng)度的,故除了嵌入空間注意力模塊,將VGG-16最后一層的神經(jīng)元個(gè)數(shù)修改為1,對應(yīng)表情強(qiáng)度估計(jì)的任務(wù)。故第一步是先訓(xùn)練空域子網(wǎng)絡(luò),遍歷整個(gè)數(shù)據(jù)庫,隨后移除最后一層,將整個(gè)空域子網(wǎng)絡(luò)視作一個(gè)特征提取器。本次實(shí)驗(yàn)中將VGG-16的FC7層的特征作為一幅圖像的特征。

      在時(shí)域子網(wǎng)絡(luò)中,因?yàn)槠胀ǖ难h(huán)神經(jīng)網(wǎng)絡(luò)極易發(fā)生梯度爆炸,故采取LSTM和GRU來替換普通的循環(huán)神經(jīng)網(wǎng)絡(luò)。并且從Chung等人的研究中可知,GRU網(wǎng)絡(luò)更加簡單有效[30],因此,在本次實(shí)驗(yàn)的時(shí)域部分采用GRU網(wǎng)絡(luò)。

      本實(shí)驗(yàn)使用隨機(jī)梯度下降(stochastic gradient descent,SGD)方法優(yōu)化模型。動(dòng)量設(shè)置為0.9,權(quán)重衰減設(shè)置為0.000 5。初始的學(xué)習(xí)率設(shè)置為0.000 1,隨后,從第15次循環(huán)開始,每5次循環(huán)學(xué)習(xí)率降為原來的0.9倍。在所有的訓(xùn)練步驟中,批尺寸大小為8,全連接網(wǎng)絡(luò)以0.5的概率隨機(jī)臨時(shí)刪除神經(jīng)元。通過將圖像尺寸變?yōu)?56*256,然后隨機(jī)裁剪為224*224來實(shí)現(xiàn)數(shù)據(jù)增強(qiáng)。另外,因?yàn)闃?biāo)注的數(shù)值較為接近,故將該數(shù)值進(jìn)行歸一化到[0,1]。參照Tzirakis等人的預(yù)處理流程[31],本次實(shí)驗(yàn)對標(biāo)簽還進(jìn)行了以下處理:①時(shí)間移動(dòng),因?yàn)闃?biāo)注和實(shí)際的表情強(qiáng)度存在著大約2s的時(shí)間偏差,故對標(biāo)簽進(jìn)行時(shí)間移動(dòng)使得表情和實(shí)際相一致。②均值移動(dòng),因?yàn)轭A(yù)測和目標(biāo)存在均值差異,通過對預(yù)測值進(jìn)行均值移動(dòng)實(shí)現(xiàn)更優(yōu)的實(shí)驗(yàn)表現(xiàn)。

      根據(jù)以往在RECOLA數(shù)據(jù)庫的工作[31-34],本文在實(shí)驗(yàn)中采用一致性相關(guān)系數(shù)(concordance correlation coefficient,CCC)作為評價(jià)標(biāo)準(zhǔn)。

      3.3 空間注意力模塊性能評估

      首先,測試空間注意力模塊在空域子網(wǎng)絡(luò)中不同位置所呈現(xiàn)的不同結(jié)果。本實(shí)驗(yàn)一共測試了5個(gè)在池化層之后的不同位置,結(jié)果如圖4所示,從結(jié)果能夠看出,注意力模塊放置于前3個(gè)位置,這些模型的性能甚至不如沒有注意力的模型,原因是對于表情強(qiáng)度估計(jì)的任務(wù)而言,低級的特征圖譜上注意力圖的接受域太小,無法完全包含重要的區(qū)域。當(dāng)注意力模塊應(yīng)用于最后一個(gè)位置時(shí),結(jié)果會略有下降,這是因?yàn)樵诟呒壧卣鲌D譜上注意力圖的接受域太寬,以至于無法關(guān)注重要信息的區(qū)域。從結(jié)果來看,最佳位置是位置4。

      此外,實(shí)驗(yàn)為了顯示所學(xué)到的注意力圖的有效性,將注意力圖應(yīng)用到輸入圖像上,結(jié)果如圖5所示,第一行是原始的圖像,第二行為注意力圖應(yīng)用到原圖上的結(jié)果。從結(jié)果來看,空間注意力模塊的確能夠使得卷積網(wǎng)絡(luò)更加關(guān)注眼睛、鼻子以及嘴部的區(qū)域,這些區(qū)域最能反應(yīng)表情強(qiáng)度。

      3.4 時(shí)間注意力模塊性能評估

      本節(jié)將測試時(shí)間注意力模塊的作用,實(shí)驗(yàn)共分為兩組:包含時(shí)間注意力模塊的和不包含時(shí)間注意力模塊的。表1為不同時(shí)間長度下包含時(shí)間注意力模塊和不包含時(shí)間注意力模塊的CCC結(jié)果對比,從實(shí)驗(yàn)結(jié)果可以看出,在特定的時(shí)間步驟長度上,時(shí)間注意力方法要明顯優(yōu)于普通方法的。

      為了顯示時(shí)間注意力模塊的作用,本實(shí)驗(yàn)可視化了該模塊所學(xué)到的時(shí)間步驟權(quán)重,結(jié)果如圖6所示,可以看出,時(shí)間注意力模塊使得網(wǎng)絡(luò)自動(dòng)地調(diào)整某些重要的圖像幀的權(quán)重,特征表達(dá)更加準(zhǔn)確。

      此外,由于本文整個(gè)網(wǎng)絡(luò)的訓(xùn)練方式為逐步訓(xùn)練,即先訓(xùn)練空域子網(wǎng)絡(luò),然后固定該子網(wǎng)絡(luò),再訓(xùn)練時(shí)域子網(wǎng)絡(luò),因此,將整個(gè)網(wǎng)絡(luò)進(jìn)行了端對端的聯(lián)合訓(xùn)練,實(shí)驗(yàn)對比結(jié)果如圖7所示。從圖7能夠看出,端對端的聯(lián)合訓(xùn)練方式不會讓網(wǎng)絡(luò)實(shí)驗(yàn)表現(xiàn)更好,這是因?yàn)閷?shí)驗(yàn)數(shù)據(jù)庫是中等尺寸的數(shù)據(jù)庫,同時(shí)更新空域子網(wǎng)絡(luò)部分和時(shí)域子網(wǎng)絡(luò)部分將會對訓(xùn)練產(chǎn)生阻礙。

      3.5 與現(xiàn)有方法的比較

      表2為本文所提出方法與現(xiàn)有方法的對比結(jié)果。從表2能夠看出,本文所提出的空時(shí)注意力方法對比現(xiàn)有方法具有明顯的優(yōu)勢。

      4 結(jié) 論

      本文針對面部表情估計(jì)中的空時(shí)顯著性問題,提出了一種深度空時(shí)注意力的方法。在空域子網(wǎng)絡(luò)部分,在卷積過程中嵌入空間注意力模塊,使得空間子網(wǎng)絡(luò)能夠更加關(guān)注與面部表情識別最為相關(guān)的區(qū)域??沼蜃泳W(wǎng)絡(luò)被訓(xùn)練之后,將其視作特征提取器,提取每一幅圖像的空域特征。在時(shí)域子網(wǎng)絡(luò)采用GRU作為主體部分,在每一時(shí)間步驟中,將GRU的輸出作為時(shí)間注意力模塊的輸入,以獲得時(shí)域上每一幀圖像的權(quán)重。通過注意力權(quán)重對每個(gè)時(shí)間步驟的輸出時(shí)域特征進(jìn)行加權(quán)平均,生成最終的時(shí)域注意力特征,隨后,網(wǎng)絡(luò)將使用該特征根據(jù)標(biāo)簽進(jìn)行回歸擬合。在RECOLA數(shù)據(jù)庫上的實(shí)驗(yàn)表明,該方法取得了較好的效果,實(shí)驗(yàn)中可視化了空間注意力權(quán)重,從而顯示了與面部表情強(qiáng)度估計(jì)最為相關(guān)的區(qū)域,時(shí)間注意力權(quán)重也呈現(xiàn)了與標(biāo)簽大致相同的趨勢。與現(xiàn)有的方法相比,本文所提出的深度空時(shí)注意力網(wǎng)絡(luò)具有明顯的優(yōu)勢。

      參考文獻(xiàn):

      [1]SCHLOSBERG H. Three dimensions of emotion[J]. Psychological Review,1954,61(2):81-88.

      [2]TIAN Y I, KANADE T, COHN J F. Recognizing action units for facial expression analysis[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2001, 23(2):97-115.

      [3]彭先霖,張海曦,胡琦瑤.基于多任務(wù)深度卷積神經(jīng)網(wǎng)絡(luò)的人臉/面癱表情識別方法[J].西北大學(xué)學(xué)報(bào)(自然科學(xué)版),2019,49(2):22-27.

      PENG X L, ZHANG H X, HU Q Y. Facial/parelysis expression recognition based on multitask learning of deep convolution neural network[J].Journal of Northwest University(Natural Science Edition), 2019, 49(2):22-27.

      [4]張璟.基于卷積神經(jīng)網(wǎng)絡(luò)的人臉表情識別研究[J].電腦知識與技術(shù), 2019, 15(16):213-215.

      ZHANG J. Research on face expression recognition based on convolutional neural network[J].Computer Knowledge and Technology,2019,15(16):213-215.

      [5]BARROS P, PARISI G I, WEBER C, et al. Emotion-modulated attention improves expression recognition: A deep learning model[J]. Neurocomputing, 2017, 253:104-114.

      [6]KAHOU S E, MICHALSKI V, KONDA K, et al. Recurrent neural networks for emotion recognition in video[C]∥Proceedings of the 2015 ACM? International Conference on Multimodal Interaction. ACM,2015:467-474.

      [7]YAN J, ZHENG W, ZHEN C, et al. Multi-clue fusion for emotion recognition in the wild[C]∥Proceedings of the 18th ACM International Conference on Multimodal Interaction. ACM, 2016:458-463.

      [8]YU Z, LIU G, LIU Q, et al. Spatio-temporal convolutional features with nested LSTM for facial expression recognition[J]. Neurocomputing, 2018, 317:50-57.

      [9]ZHANG K, HUANG Y, DU Y, et al. Facial expression recognition based on deep evolutional spatial-temporal networks[J]. IEEE Transactions on Image Processing, 2017, 26(9):4193-4203.

      [10]TRAN D, BOURDEV L, FERGUS R, et al. Learning spatiotemporal features with 3D convolutional networks[C]∥Proceedings of the IEEE International Conference on Computer Vision. IEEE, 2015:4489-4497.

      [11]ABBASNEJAD I, SRIDHARAN S, NGUYEN D, et al. Using synthetic data to improve facial expression analysis with 3D convolutional networks[C]∥2017 IEEE International Conference on Computer Vision Workshop. IEEE, 2017:1609-1618.

      [12]FAN Y, LU X, LI D, et al. Video-based emotion recognition using CNN-RNN and C3D hybrid networks[C]∥Proceedings of the 18th ACM International Conference on Multimodal Interaction. ACM, 2016:445-450.

      [13]JUNG H, LEE S, YIM J, et al. Joint fine-tuning in deep neural networks for facial expression recognition[C]∥2015 IEEE International Conference on Computer Vision. IEEE, 2015:2983-2991.

      [14]LIU M, LI S, SHAN S, et al. Deeply learning deformable facial action parts model for dynamic expression analysis[C]∥Asian Conference on Computer Vision. Springer,2014:143-157.

      [15]ZHAO J, MAO X, ZHANG J.Learning deep facial expression features from image and optical flow sequences using 3D CNN[J]. Visual Computer, 2018, 34(1):1461-1475.

      [16]DONAHUE J, HENDRICKS L A, ROHRBACH M, et al. Long-term recurrent convolutional networks for visual recognition and description[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2014, 39(4):677-691.

      [17]JAIN D K, ZHANG Z, HUANG K Q, et al. Multi angle optimal pattern-based deep learning for automatic facial expression recognition[J]. Pattern Recognition Letters, 2017:1-9.

      [18]KIM D H, BADDAR W J, JANG J, et al. Multi-objective based spatio-temporal feature representation learning robust to expression intensity variations for facial expression recognition[J]. IEEE Transactions on Affective Computing, 2017, 10(2):223-236.

      [19]RODRIGUEZ P, CUCURULL G, GONZLEZ J, et al. Deep pain: Exploiting long short-term memory networks for facial expression classification[J]. IEEE Transactions on Cybernetics, 2017(99):1-11.

      [20]LI Y, ZENG J, SHAN S, et al. Occlusion aware facial expression recognition using cnn with attention mechanism[J]. IEEE Transactions on Image Processing, 2018, 28(5):2439-2450.

      [21]MINAEE S, ABDOLRASHIDI A. Deep-emotion: Facial expression recognition using attentional convolutional network[EB/OL]. 2019: arXiv:1902.01019[cs.CV].https://arxiv.org/abs/1902.01019.

      [22]SUN W, ZHAO H, JIN Z. A visual attention based ROI detection method for facial expression recognition[J].Neurocomputing, 2018, 296:12-22.

      [23]謝飛,穆昱,管子玉,等.基于具有空間注意力機(jī)制的Mask R-CNN的口腔白斑分割[J].西北大學(xué)學(xué)報(bào)(自然科學(xué)版), 2020, 50(1):9-15.

      XIE F, MU Y, GUAN Z Y, et al. Oral leukoplakia (OLK) segmentation baesd on Mask R-CNN with spatial attention mechanism[J].Journal of Northwest University(Natural Science Edition), 2020, 50(1):9-15.

      [24]PEI W, DIBEKLIOLU H, BALTRUAITIS T, et al. Attended end-to-end architecture for age estimation from facial expression videos[J]. IEEE Transactions on Image Processing, 2019, 29:1972-1984.

      [25]LI W, ABTAHI F, ZHU Z. Action unit detection with region adaptation, multi-labeling learning and optimal temporal fusing[C]∥Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. IEEE, 2017:1841-1850.

      [26]ZHAO K, CHU W S, ZHANG H. Deep region and multi-label learning for facial action unit detection[C]∥Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. IEEE, 2016:3391-3399.

      [27]XU K, BA J, KIROS R, et al. Show, attend and tell: Neural image caption generation with visual attention[C]∥International Conference on Machine Learning, 2015:2048-2057.

      [28]RINGEVAL F, SONDEREGGER A, SAUER J, et al. Introducing the RECOLA multimodal corpus of remote collaborative and affective interactions[C]∥2013 10th IEEE International Conference and Workshops on Automatic Face and Gesture Recognition. IEEE, 2013:1-8.

      [29]GOODFELLOW I J, ERHAN D, CARRIER P L, et al. Neural Information Processing[M].Berlin:Springer,2013:117-124.

      [30]CHUNG J, GULCEHRE C, CHO K, et al. Empirical evaluation of gated recurrent neural networks on sequence modeling[EB/OL].2014: arXiv:1412.3555[cs.NE].https://arxiv.org/abs/1412.3555.

      [31]TZIRAKIS P, TRIGEORGIS G, NICOLAOU M A, et al. End-to-end multimodal emotion recognition using deep neural networks[J]. IEEE Journal of Selected Topics in Signal Processing, 2017, 11(8):1301-1309.

      [32]VALSTAR M, GRATCH J, SCHULLER B, et al. Avec 2016: Depression, mood, and emotion recognition workshop and challenge[C]∥Proceedings of the 6th International Workshop on Audio/Visual Emotion Challenge.ACM,2016:3-10.

      [33]HUANG Z C, STASAK B, DANG T, et al. Staircase regression in OA RVM, data selection and gender dependency in AVEC 2016[C]∥Proceedings of the 6th International Workshop on Audio/Visual Emotion Challenge.ACM,2016:19-26.

      [34]HAN J, ZHANG Z, CUMMINS N, et al. Strength modelling for real-world automatic continuous affect recognition from audiovisual signals[J]. Image and Vision Computing, 2017, 65:76-86.

      (編 輯 李 靜)

      收稿日期:2020-04-02

      基金項(xiàng)目:國家自然科學(xué)基金資助項(xiàng)目(61702419);陜西省科技計(jì)劃資助項(xiàng)目(2020GY-050,2018ZDXM-GY-186);陜西省自然科學(xué)基礎(chǔ)研究計(jì)劃資助項(xiàng)目(2018JQ6090)

      作者簡介:馮曉毅,女,陜西西安人,教授,博士生導(dǎo)師,從事計(jì)算機(jī)視覺和模式識別研究。

      猜你喜歡
      注意力機(jī)制深度學(xué)習(xí)
      面向短文本的網(wǎng)絡(luò)輿情話題
      基于自注意力與動(dòng)態(tài)路由的文本建模方法
      基于深度學(xué)習(xí)的問題回答技術(shù)研究
      基于LSTM?Attention神經(jīng)網(wǎng)絡(luò)的文本特征提取方法
      基于注意力機(jī)制的雙向LSTM模型在中文商品評論情感分類中的研究
      軟件工程(2017年11期)2018-01-05 08:06:09
      InsunKBQA:一個(gè)基于知識庫的問答系統(tǒng)
      有體驗(yàn)的學(xué)習(xí)才是有意義的學(xué)習(xí)
      電子商務(wù)中基于深度學(xué)習(xí)的虛假交易識別研究
      MOOC與翻轉(zhuǎn)課堂融合的深度學(xué)習(xí)場域建構(gòu)
      大數(shù)據(jù)技術(shù)在反恐怖主義中的應(yīng)用展望
      贺兰县| 北安市| 和田市| 大田县| 罗山县| 洱源县| 龙陵县| 寿阳县| 皮山县| 温泉县| 扎鲁特旗| 松江区| 信阳市| 长沙县| 湘阴县| 海丰县| 方城县| 北流市| 增城市| 德庆县| 庆云县| 盐山县| 天津市| 元氏县| 民和| 山丹县| 靖西县| 莱阳市| 青阳县| 壶关县| 西乌| 洞口县| 偏关县| 澄迈县| 阿巴嘎旗| 临高县| 遵义市| 湖州市| 新和县| 富锦市| 来宾市|