• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于光流法與偽三維殘差網(wǎng)絡(luò)的微表情識(shí)別

      2022-06-23 02:45:38唐宏朱龍嬌范森劉紅梅
      信號(hào)處理 2022年5期
      關(guān)鍵詞:光流殘差卷積

      唐宏 朱龍嬌 范森 劉紅梅

      (1.重慶郵電大學(xué)通信與信息工程學(xué)院,重慶 400065;2.重慶郵電大學(xué)移動(dòng)通信技術(shù)重慶市重點(diǎn)實(shí)驗(yàn)室,重慶 400065)

      1 引言

      面部表情是人與人之間信息傳遞的重要形式,面部表情識(shí)別可以促進(jìn)對(duì)人的心理狀態(tài)的了解,面部表情一般分為宏表情和微表情。宏表情是人們?cè)谌粘;?dòng)中看到的正常表情,通常持續(xù)時(shí)間在1/2~4 s 之間,產(chǎn)生幅度大,同時(shí)出現(xiàn)在面部多個(gè)部位[1],它容易被偽裝,無(wú)法真正理解人們隱藏的真實(shí)想法和內(nèi)心感受。微表情通常出現(xiàn)在緊張或者高風(fēng)險(xiǎn)情況下,是一種無(wú)法抑制或隱藏的自發(fā)性表情,持續(xù)時(shí)間只有1/25~1/5 s,運(yùn)動(dòng)強(qiáng)度非常微弱,僅出現(xiàn)在人臉局部區(qū)域[2],可以揭示人類最真實(shí)的情感,有助于理解人類的欺騙行為。因此,微表情可以應(yīng)用于多種領(lǐng)域[3-4],如刑事審訊、精神分析、臨床診斷、公共安全等。然而,由于微表情發(fā)生的時(shí)間很短,強(qiáng)度微弱,即使是經(jīng)過(guò)專業(yè)訓(xùn)練的人對(duì)微表情的識(shí)別率也只達(dá)到47%[5]。因此,開發(fā)自動(dòng)的微表情識(shí)別方法非常重要。

      近年來(lái),隨著微表情研究的深入和計(jì)算機(jī)視覺(jué)技術(shù)的迅速發(fā)展,微表情自動(dòng)識(shí)別取得了較多的研究成果。Ben 等人[6]針對(duì)已有的微表情研究進(jìn)行了詳細(xì)的分析與總結(jié),包含了最新的微表情數(shù)據(jù)集,常見(jiàn)的圖像和視頻特征,并對(duì)具有代表性的微表情識(shí)別方法進(jìn)行了統(tǒng)一比較,提出了該領(lǐng)域面臨的挑戰(zhàn)與未來(lái)的研究方向,為后續(xù)研究提供了理論價(jià)值。目前,微表情的自動(dòng)識(shí)別方法主要有傳統(tǒng)方法和深度學(xué)習(xí)方法。其中,傳統(tǒng)方法主要有基于局部二值模式的方法,基于梯度特征的方法和基于光流特征的方法等。Pfister等人[7]提出三正交平面的局部二值模式(LBP-TOP)的特征描述符,通過(guò)在三個(gè)正交平面上編碼LBP 特征進(jìn)行微表情識(shí)別。Li等人[8]提出在三個(gè)正交平面上使用梯度方向直方圖和圖像梯度直方圖并結(jié)合運(yùn)動(dòng)放大方法提取微表情時(shí)空特征,該方法取得了很好的微表情識(shí)別效果。由于光流可以推斷出不同幀之間的相對(duì)運(yùn)動(dòng)信息,一些研究者開始使用基于光流的方法從微表情視頻或序列中提取其運(yùn)動(dòng)相關(guān)的信息進(jìn)行微表情識(shí)別。Liu等人[9]提出主方向平均光流(MDMO),該方法利用光流構(gòu)造一個(gè)基于感興趣區(qū)域的特征向量來(lái)描述人臉微表情的局部運(yùn)動(dòng),最后將特征向量輸入支持向量機(jī)進(jìn)行微表情識(shí)別。除了具有緊湊的特征表示外,它還對(duì)平移、旋轉(zhuǎn)和光照變化具有魯棒性。Xu等人[10]使用了另一種基于光流的人臉動(dòng)態(tài)圖(FDM)方法,取得了較好的微表情識(shí)別精度。馬浩源等人[11]提出一種新的平均光流方向直方圖(MHOOF),該方法將人臉區(qū)域劃分為13 個(gè)感興趣區(qū)域,通過(guò)HOOF 特征檢測(cè)頂點(diǎn)幀,并基于13個(gè)感興趣區(qū)域提取微表情相鄰幀的MHOOF 特征進(jìn)行微表情識(shí)別,識(shí)別率均優(yōu)于MDMO,DiSTLBP-RIP 算法。Liong 等人[12]提出了雙加權(quán)定向光流(Bi-WOOF)特征描述符,該方法僅使用兩幀(即起始幀和峰值幀)表示微妙的微表情序列,并將光流幅值和光學(xué)應(yīng)變大小都用作權(quán)值,生成人臉區(qū)域各塊的方向直方圖,以強(qiáng)調(diào)每個(gè)光流的重要性進(jìn)行微表情識(shí)別。傳統(tǒng)的微表情識(shí)別方法提取用于微表情識(shí)別的時(shí)空特征,其優(yōu)點(diǎn)是它們不依賴于數(shù)據(jù)質(zhì)量,符合微表情識(shí)別任務(wù)小數(shù)據(jù)集的特點(diǎn),為微表情識(shí)別研究做出了重要貢獻(xiàn)。然而,這些方法計(jì)算繁重,耗費(fèi)時(shí)間長(zhǎng)且普適性差,最為重要的一點(diǎn)是在準(zhǔn)確性方面顯示了它們的局限性。

      最近,深度學(xué)習(xí)在各個(gè)領(lǐng)域顯示了強(qiáng)大的學(xué)習(xí)能力,并超過(guò)了傳統(tǒng)的手工特征描述符以及淺層分類器,越來(lái)越多的研究人員開始使用深度學(xué)習(xí)方法來(lái)解決微表情識(shí)別問(wèn)題。Peng 等人[13]提出了一種基于圖像的殘差模型,使用了從宏表情到微表情的遷移學(xué)習(xí),并加入了微注意單元。該方法在MEGC2018 中達(dá)到了最佳識(shí)別結(jié)果,為微表情識(shí)別研究提供了新的思路,但是該方法沒(méi)有考慮微表情的時(shí)間信息,而微表情是一個(gè)連續(xù)變化的動(dòng)態(tài)過(guò)程,時(shí)間信息對(duì)微表情識(shí)別非常重要。Xia 等人[14]提出了一種時(shí)空遞歸卷積網(wǎng)絡(luò)(STRCN),通過(guò)使用具有遞歸連接的卷積神經(jīng)網(wǎng)絡(luò)(CNN)來(lái)建模微表情的時(shí)空運(yùn)動(dòng)變形和細(xì)微變化。Gan等人[15]提出了一個(gè)OFF-ApexNet 模型識(shí)別微表情,通過(guò)CNN 進(jìn)一步學(xué)習(xí)微表情視頻中一些關(guān)鍵幀的光流特征來(lái)識(shí)別微表情,與基于光流的傳統(tǒng)方法相比,該方法在三個(gè)數(shù)據(jù)集上取得了最好的識(shí)別效果,也是第一個(gè)在三個(gè)不同的數(shù)據(jù)集上進(jìn)行跨數(shù)據(jù)庫(kù)微表情識(shí)別的方法。微表情識(shí)別中使用的深度學(xué)習(xí)方法一般是CNN 或RNN,或者將兩者結(jié)合,但是這些方法不能夠同時(shí)提取微表情的時(shí)空信息。三維卷積神經(jīng)網(wǎng)絡(luò)(3D CNN)在基于視頻序列的運(yùn)動(dòng)識(shí)別研究中得到了廣泛的應(yīng)用,它能夠同時(shí)提取空間和時(shí)間特征,使用3D CNN 進(jìn)行微表情識(shí)別提升效果明顯。然而,相比2D CNN,3D CNN 的參數(shù)呈爆炸式增長(zhǎng),從頭開始開發(fā)3D CNN 會(huì)導(dǎo)致昂貴的計(jì)算成本和內(nèi)存需求。同時(shí),由于微表情數(shù)據(jù)嚴(yán)重缺乏,使用3D CNN 來(lái)提取時(shí)空特征進(jìn)行微表情識(shí)別容易產(chǎn)生過(guò)擬合問(wèn)題,從而對(duì)識(shí)別結(jié)果產(chǎn)生一定的影響。

      通過(guò)以上分析,本文提出了一種基于光流法與偽三維殘差網(wǎng)絡(luò)(P3D ResNet)的微表情識(shí)別方法。首先,將三個(gè)主流數(shù)據(jù)集SMIC、CASME Ⅱ和SAMM進(jìn)行融合,擴(kuò)大數(shù)據(jù)樣本量,然后使用光流法提取微表情的水平光流序列和垂直光流序列,將水平光流序列和垂直光流序列與原始的灰度圖像序列進(jìn)行通道連接,光流圖像可以表征微表情的運(yùn)動(dòng)信息,突出關(guān)鍵特征,同時(shí)可以豐富輸入數(shù)據(jù)的維度,為網(wǎng)絡(luò)提供高效的輸入。最后將獲得的微表情數(shù)據(jù)采用增強(qiáng)策略進(jìn)一步擴(kuò)大數(shù)據(jù)的樣本量以緩解過(guò)擬合的問(wèn)題,并送入P3D ResNet 進(jìn)行微表情的時(shí)空特征提取以實(shí)現(xiàn)微表情識(shí)別。其中,P3D ResNet可以保證構(gòu)建更深的網(wǎng)絡(luò)的同時(shí)不會(huì)降低網(wǎng)絡(luò)的性能,采用(2+1)D 卷積濾波器代替3D 卷積濾波器可以很大程度上減少參數(shù)量,降低計(jì)算成本和內(nèi)存需求。本文有效地將光流法與偽三維殘差網(wǎng)絡(luò)進(jìn)行結(jié)合,從而提高微表情的識(shí)別性能。

      2 基于光流法與偽三維殘差網(wǎng)絡(luò)的微表情識(shí)別

      本文提出的微表情識(shí)別方法系統(tǒng)框架如圖1所示,微表情的識(shí)別過(guò)程主要分為數(shù)據(jù)預(yù)處理、微表情的時(shí)空特征提取以及微表情分類。首先需要對(duì)原始的微表情序列進(jìn)行預(yù)處理,包括人臉關(guān)鍵點(diǎn)檢測(cè)、裁剪、數(shù)據(jù)標(biāo)準(zhǔn)化,然后使用光流法提取微表情的光流特征序列,將光流特征序列與微表情灰度圖像序列進(jìn)行通道連接并進(jìn)行數(shù)據(jù)增強(qiáng),最后送入P3D ResNet 進(jìn)行微表情時(shí)空特征提取實(shí)現(xiàn)微表情的識(shí)別分類。

      2.1 微表情數(shù)據(jù)預(yù)處理

      由于大部分微表情視頻都是使用高幀率相機(jī)(即幀速率≥100)拍攝的,產(chǎn)生了大量的冗余幀。因此,在強(qiáng)調(diào)微表情動(dòng)作的重要特征和線索的同時(shí),消除多余的冗余幀信息是非常必要的。在本文中,為了保證微表情起始幀、峰值幀、結(jié)束幀的關(guān)鍵信息不被丟失,同時(shí)為了滿足后續(xù)P3D ResNet 輸入幀數(shù)必須一致的要求,針對(duì)每個(gè)微表情樣本,以峰值幀為中間幀,向兩邊展開選擇合理的17幀圖片以統(tǒng)一微表情序列的幀長(zhǎng)。其中,CASME Ⅱ和SAMM數(shù)據(jù)集都標(biāo)注了峰值幀的位置,可以直接使用標(biāo)注的峰值幀,SMIC數(shù)據(jù)集的標(biāo)簽只注明了起始幀和結(jié)束幀,沒(méi)有標(biāo)注峰值幀。根據(jù)Zhou等人[16]的研究結(jié)果表明,為了降低計(jì)算成本,在微表情樣本中使用中間位置幀代替峰值幀進(jìn)行微表情識(shí)別是合理的。因此,本文在SMIC 數(shù)據(jù)集中也采用了中間位置幀代替峰值幀的方法。

      原始微表情序列中含有無(wú)關(guān)的背景信息,因此,需要進(jìn)行人臉關(guān)鍵點(diǎn)檢測(cè)獲取僅包含微表情的人臉區(qū)域,移除無(wú)關(guān)的背景噪聲。首先,使用OpenCV的Dlib庫(kù)中的68點(diǎn)檢測(cè)算法[17]來(lái)檢測(cè)每個(gè)微表情樣本的第一幀,根據(jù)得到的68個(gè)關(guān)鍵點(diǎn)坐標(biāo)確定最貼合人臉的矩形區(qū)域,并根據(jù)獲得的坐標(biāo)裁剪微表情樣本的其余幀,然后根據(jù)確定的面部矩形區(qū)域分別向下、向右、向左上共三個(gè)方向平移10 個(gè)像素,并根據(jù)平移后樣本的第一幀面部區(qū)域裁剪其余幀,使得每個(gè)微表情樣本共獲得4個(gè)微表情序列,將樣本擴(kuò)充了4 倍。最后,使用平面線性插值的方法將每幀的尺寸大小調(diào)整為96×96像素。經(jīng)過(guò)上述處理,每個(gè)微表情樣本的數(shù)據(jù)大小為17×96×96×3。其中,17 為樣本的幀數(shù),96 為樣本的高和寬,3 為RGB 通道。68 點(diǎn)人臉關(guān)鍵點(diǎn)的檢測(cè)結(jié)果及平移方式如圖2所示。

      在微表情識(shí)別中,彩色圖像不僅會(huì)增加處理的難度,而且對(duì)微表情的識(shí)別也沒(méi)有太大的影響。因此,需要對(duì)微表情序列進(jìn)行灰度化,同時(shí)便于光流特征的提取。如圖3所示,(a)為裁剪后的微表情序列,(b)為微表情灰度圖像序列。此時(shí),每個(gè)微表情樣本的數(shù)據(jù)大小為17×96×96×1。

      2.2 光流特征提取

      光流法可以提取微表情相鄰幀之間具有代表性的運(yùn)動(dòng)特征,與原始像素?cái)?shù)據(jù)相比,它能夠獲得更高的信噪比,為網(wǎng)絡(luò)提供豐富且關(guān)鍵的輸入特征。同時(shí),它可以有效地減少不同數(shù)據(jù)集的域差異,對(duì)提高跨數(shù)據(jù)庫(kù)微表情識(shí)別的性能有著非常重要的作用。

      光流法是基于亮度恒定原則來(lái)估計(jì)視頻中的運(yùn)動(dòng)物體,提取相鄰幀之間的運(yùn)動(dòng)特征。假設(shè)一個(gè)微表情樣本序列第t幀位于(x,y)處的像素強(qiáng)度為I(x,y,t),經(jīng)過(guò)時(shí)間△t后,它移動(dòng)了(△x,△y)的距離到達(dá)了微表情序列的第t+1 幀,此時(shí),該像素點(diǎn)的強(qiáng)度為I(x+△x,y+△y,t+△t),根據(jù)亮度恒定原則,可以得到:

      對(duì)式(1)進(jìn)行泰勒級(jí)數(shù)展開,可得:

      其中,ε代表二階無(wú)窮小,可以忽略不計(jì)。再將式(2)代入式(1)同除以△t,可得:

      設(shè)p,q分別為像素沿水平和垂直方向的速度分量,則:

      其中,Ix,Iy,It可由圖像數(shù)據(jù)求得,(p,q)即為所求的微表情光流估計(jì)矢量,表示圖像上每個(gè)像素運(yùn)動(dòng)的大小和方向。

      Liong 等人[18]的實(shí)驗(yàn)結(jié)果表明,在微表情識(shí)別研究中,TVL1 光流法相對(duì)于其他四種光流法更具噪聲魯棒性,取得了最好的識(shí)別效果。因此,本文也采用TVL1 光流法進(jìn)行光流特征提取,每個(gè)微表情樣本均獲得16 幀水平光流序列和16 幀垂直光流序列。光流特征提取之后,將微表情灰度圖像序列、水平光流序列、垂直光流序列中相對(duì)應(yīng)的每一幀進(jìn)行通道連接,構(gòu)成新的三通道的微表情序列,此時(shí),每個(gè)微表情的樣本數(shù)據(jù)大小為16×96×96×3。圖4 展示了微表情數(shù)據(jù)集CASME Ⅱ中一個(gè)消極樣本的灰度圖像序列和兩個(gè)對(duì)應(yīng)的光流特征序列。

      深度學(xué)習(xí)通常需要大量的數(shù)據(jù)進(jìn)行訓(xùn)練,由于微表情樣本不足,經(jīng)常出現(xiàn)過(guò)擬合的問(wèn)題,因此,本文采用增強(qiáng)策略來(lái)擴(kuò)大數(shù)據(jù)樣本量以緩解過(guò)擬合。增強(qiáng)策略主要有翻轉(zhuǎn)和旋轉(zhuǎn),包括水平翻轉(zhuǎn)及旋轉(zhuǎn)90°、180°、270°,垂直翻轉(zhuǎn)及旋轉(zhuǎn)90°、180°、270°,此時(shí),樣本量擴(kuò)大了8 倍,包括上述的平移操作,微表情樣本量一共擴(kuò)大了12倍。

      2.3 P3D殘差網(wǎng)絡(luò)設(shè)計(jì)

      CNN 是一種強(qiáng)大的圖像識(shí)別模型,然而,在使用CNN 學(xué)習(xí)視頻時(shí)空特征時(shí)并非易事。一些研究表明,執(zhí)行三維卷積是在視頻中捕獲空間和時(shí)間特征的有效方法,而從頭開始開發(fā)一個(gè)3D CNN 會(huì)導(dǎo)致昂貴的計(jì)算成本和內(nèi)存需求,因此,可以使用改進(jìn)的三維卷積對(duì)基于視頻識(shí)別的研究進(jìn)行處理[19]。近年來(lái),殘差網(wǎng)絡(luò)在眾多具有挑戰(zhàn)性的圖像識(shí)別任務(wù)中表現(xiàn)出眾,在網(wǎng)絡(luò)加深的情況下,依然保持良好的性能。通過(guò)以上分析,本文采用P3D ResNet 進(jìn)行微表情的時(shí)空特征提取,在殘差網(wǎng)絡(luò)的框架中,通過(guò)在空間域上使用1×3×3 的卷積濾波器提取微表情空間特征與在時(shí)間域上使用3×1×1 的卷積濾波器構(gòu)造相鄰特征圖的時(shí)間連接來(lái)模擬3×3×3 的卷積濾波器,該網(wǎng)絡(luò)在增加深度不會(huì)降低網(wǎng)絡(luò)性能的同時(shí)減少了網(wǎng)絡(luò)的參數(shù)量和提升了網(wǎng)絡(luò)的訓(xùn)練速度。如圖5 所示,為本文的一個(gè)21 層的P3D ResNet,主要由卷積層、池化層、殘差塊、P3D-A、P3D-B、P3D-C、平坦層以及最終的softmax 層組成,網(wǎng)絡(luò)開始采用了零填充策略是為了防止邊緣信息的丟失。

      卷積神經(jīng)網(wǎng)絡(luò)能夠提取不同等級(jí)的特征,有低層、中層和高層特征,通過(guò)增加網(wǎng)絡(luò)的層數(shù),提取到的特征與特征組合信息越多,有利于提升網(wǎng)絡(luò)的性能。但簡(jiǎn)單地增加網(wǎng)絡(luò)深度或者網(wǎng)絡(luò)深度達(dá)到一定程度時(shí),容易產(chǎn)生梯度消失和梯度爆炸的問(wèn)題。即使是使用傳統(tǒng)的數(shù)據(jù)初始化和正則化來(lái)解決梯度問(wèn)題,使得網(wǎng)絡(luò)能夠繼續(xù)訓(xùn)練,但常常會(huì)出現(xiàn)隨著網(wǎng)絡(luò)深度的增加,網(wǎng)絡(luò)反而表現(xiàn)出性能退化的現(xiàn)象。He 等人[20]提出的深度殘差網(wǎng)絡(luò)(ResNet)解決了這個(gè)難題,它能夠在網(wǎng)絡(luò)加深的情況下依然保持良好的性能,同時(shí)也解決了梯度問(wèn)題。ResNet 由大量的殘差單元組成,如圖6所示。

      每個(gè)殘差單元均含有兩種映射,即恒等映射與殘差映射。如圖6 中弧線部分所示,為殘差單元的恒等映射,它通過(guò)跳躍連接的方式將該殘差單元的輸入數(shù)據(jù)x直接連接到輸出上。含有兩個(gè)權(quán)重層的直連路徑為殘差單元的殘差映射,該部分的輸出為F(x),殘差單元的最終輸出為H(x)=F(x) +x。殘差單元通過(guò)直連路徑的權(quán)重層來(lái)增加網(wǎng)絡(luò)的深度,并增加跳躍連接,即使網(wǎng)絡(luò)的性能已經(jīng)達(dá)到最優(yōu)狀態(tài),殘差映射部分的輸出F(x)將趨于0,但由于恒等映射的存在,使得最終輸出H(x)=x,網(wǎng)絡(luò)一直處于最優(yōu)的狀態(tài),這樣即使增加了網(wǎng)絡(luò)的深度,網(wǎng)絡(luò)的性能至少不會(huì)變差。當(dāng)然,如果殘差映射部分學(xué)習(xí)到有用信息,殘差網(wǎng)絡(luò)將會(huì)表現(xiàn)的更好。一般的卷積網(wǎng)絡(luò)隨著網(wǎng)絡(luò)層數(shù)的增加,模型精度不斷提升,當(dāng)其達(dá)到飽和狀態(tài)時(shí),繼續(xù)增加網(wǎng)絡(luò)的深度,直連路徑的H(x)趨于0,由于沒(méi)有跳躍連接,導(dǎo)致前向傳播和反向傳播無(wú)法繼續(xù)進(jìn)行,權(quán)重層參數(shù)無(wú)法更新,網(wǎng)絡(luò)學(xué)不到新的特征,網(wǎng)絡(luò)性能退化。此外,一般的卷積網(wǎng)絡(luò)需要學(xué)習(xí)輸入x到輸出H(x)的映射,當(dāng)網(wǎng)絡(luò)較深時(shí),這是一個(gè)比較復(fù)雜的學(xué)習(xí)過(guò)程。而ResNet 將輸入信息直接傳到后面的層中,不僅保護(hù)了信息的完整性,而且網(wǎng)絡(luò)不需要學(xué)習(xí)整個(gè)的輸出H(x),只需要學(xué)習(xí)殘差映射F(x),這樣可以簡(jiǎn)化學(xué)習(xí)目標(biāo)的難度,加速了神經(jīng)網(wǎng)絡(luò)的訓(xùn)練。由于微表情數(shù)據(jù)集是小樣本數(shù)據(jù)集,為了避免在較深的網(wǎng)絡(luò)訓(xùn)練中所帶來(lái)的網(wǎng)絡(luò)性能下降和梯度問(wèn)題,因此,本文在殘差網(wǎng)絡(luò)的框架中設(shè)計(jì)偽三維卷積操作。

      該網(wǎng)絡(luò)的三個(gè)不同的P3D 模塊,即P3D-A、P3D-B、P3D-C,如圖7 所示。P3D-A 采用堆疊架構(gòu),將空間2D 濾波器(S)與時(shí)域1D 濾波器(T)進(jìn)行級(jí)聯(lián),兩種濾波器在同一路徑上直接相互影響,只有1D 濾波器與恒等映射I 進(jìn)行特征相加,如式(6)所示:

      其中,xt是第t個(gè)殘差單元的輸入,xt+1是第t個(gè)殘差單元的輸出。S 與T 為非線性殘差函數(shù),T(xt)及S(xt)表示在xt上執(zhí)行殘差函數(shù)。

      P3D-B 模塊將空間2D 濾波器(S)與時(shí)域1D 濾波器(T)放在不同的路徑上,兩種濾波器之間以并行的方式間接影響,并與恒等映射I 都連接到最終的輸出上,如式(7)所示:

      P3D-C 模塊將P3D-A 和P3D-B 進(jìn)行了折中,同時(shí)建立兩種濾波器和最終輸出之間的直接影響,如式(8)所示:

      根據(jù)基本的二維殘差單元,將其修改為具有瓶頸結(jié)構(gòu)的三層3D 殘差單元來(lái)減少計(jì)算和參數(shù)量,第一個(gè)和最后一個(gè)1×1×1的卷積層分別用于降低和恢復(fù)數(shù)據(jù)的通道維度,使得中間的卷積層具有較小的輸入和輸出。使用P3D-A、P3D-B、P3D-C 來(lái)實(shí)現(xiàn)該瓶頸結(jié)構(gòu),將1×3×3 卷積濾波器和3×1×1 卷積濾波器代替3×3×3 卷積濾波器。因此,該結(jié)構(gòu)設(shè)計(jì)在降低空間二維卷積輸入維度和時(shí)域一維卷積輸出維度的同時(shí)能夠?qū)崿F(xiàn)微表情的時(shí)空特征提取。3D殘差單元及三個(gè)不同的P3D 模塊的具體結(jié)構(gòu)如圖8所示。

      殘差塊的結(jié)構(gòu)如圖9所示,在3D 殘差單元的基礎(chǔ)上,它在跳躍連接的支路上加入了1×1×1 的卷積操作,可以增加不同模塊之間的特征圖的數(shù)量,便于提取更豐富的微表情特征。

      3 實(shí)驗(yàn)分析

      3.1 數(shù)據(jù)集

      本文在融合數(shù)據(jù)集以及三個(gè)公開的自發(fā)微表情數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),采用LOSO 交叉驗(yàn)證評(píng)估本文方法的性能,數(shù)據(jù)集分別是3DB-combined、SMIC[21]、CASME Ⅱ[22]、SAMM[23]。

      SMIC 數(shù)據(jù)集包含來(lái)自16 個(gè)參與者的164 個(gè)微表情樣本,每個(gè)微表情的幀速率為100 fps。樣本分辨率為640×640 像素,面部區(qū)域的分辨率為190×230像素左右,情緒類別為積極、消極、驚訝。

      CASME Ⅱ數(shù)據(jù)集包含來(lái)自26 個(gè)參與者的247個(gè)微表情樣本,這些參與者均為亞洲人,平均年齡為22.03 歲,每個(gè)微表情的幀速率為200 fps。樣本的分辨率為640×640 像素,面部區(qū)域的分辨率為190×230像素左右,情緒類別為幸福、厭惡、壓抑、驚訝和其他。

      SAMM數(shù)據(jù)集包含來(lái)自32個(gè)參與者的159個(gè)微表情樣本,這些參與者來(lái)自13 個(gè)種族,平均年齡為33.24 歲,男女性別均分。樣本的分辨率為2040×1088 像素,面部區(qū)域的分辨率為400×400 像素左右,情緒類別為幸福、驚訝、厭惡、壓抑、憤怒、恐懼和蔑視。

      為了避免三個(gè)數(shù)據(jù)集組合在一起時(shí)類別的混亂和復(fù)雜性,將每個(gè)樣本重新標(biāo)記,分別為積極,消極和驚訝。根據(jù)新的通用類別合并數(shù)據(jù)集之后,融合數(shù)據(jù)集3DB-combined包含來(lái)自68個(gè)參與者(16個(gè)來(lái)自SMIC,24 個(gè)來(lái)自CASME Ⅱ,28 個(gè)來(lái)自SAMM)的444個(gè)微表情樣本,樣本數(shù)據(jù)具有多樣性,更加符合真實(shí)場(chǎng)景,微表情數(shù)據(jù)集的詳細(xì)信息如表1所示。

      3.2 評(píng)價(jià)指標(biāo)

      本文采用LOSO 交叉驗(yàn)證作為微表情識(shí)別的驗(yàn)證方法,融合數(shù)據(jù)集包含68名參與者,因此實(shí)驗(yàn)分為68折,每1折1名參與者的樣本用于測(cè)試,而其余參與者的樣本均用于訓(xùn)練。在三個(gè)獨(dú)立的數(shù)據(jù)集上分別進(jìn)行16折、24折、28折LOSO交叉驗(yàn)證。由于合并后的數(shù)據(jù)集情感類別仍然不平衡(109個(gè)積極、252個(gè)消極,83個(gè)驚訝),因此使用兩個(gè)平衡的指標(biāo)來(lái)減少潛在的類別偏見(jiàn),即未加權(quán)F1 值(UF1)和未加權(quán)平均召回率(UAR),UF1 和UAR的計(jì)算如下:

      其中,C 為微表情的情緒類別,TPc、FPc、FNc分別為類別c 的真正、假正、假負(fù)數(shù)量,即實(shí)際類別為c 預(yù)測(cè)結(jié)果也為c 的數(shù)量、實(shí)際類別不是c 預(yù)測(cè)結(jié)果為c的數(shù)量、實(shí)際類別是c 預(yù)測(cè)結(jié)果不是c 的數(shù)量,然后對(duì)每個(gè)類別c 的F1c求均值得到UF1。Nc為類別c的數(shù)量,Accc為類別c 的準(zhǔn)確率,對(duì)每個(gè)類別c 的準(zhǔn)確率求均值得到UAR。

      3.3 實(shí)驗(yàn)配置

      本文提出的方法基于Keras 框架并運(yùn)行在Win?dows 10 操作系統(tǒng)上,使用了NVIDIA Quadro RTX 6000 GPU 進(jìn)行實(shí)驗(yàn)。實(shí)驗(yàn)中標(biāo)準(zhǔn)化的輸入數(shù)據(jù)為16×96×96×3,平移操作像素移動(dòng)大小為10,學(xué)習(xí)率為0.01,批處理大小為32,訓(xùn)練迭代次數(shù)設(shè)置為50。網(wǎng)絡(luò)采用交叉熵?fù)p失函數(shù)和SGD 優(yōu)化器進(jìn)行編譯,具體的參數(shù)設(shè)置如表2所示。

      表2 實(shí)驗(yàn)參數(shù)Tab.2 Parameters of experiment

      3.4 實(shí)驗(yàn)對(duì)比分析

      3.4.1 與主流方法對(duì)比

      表3為本文提出的微表情識(shí)別方法與具有代表性的七種微表情識(shí)別方法的實(shí)驗(yàn)結(jié)果對(duì)比,所有方法在融合數(shù)據(jù)集和三個(gè)獨(dú)立數(shù)據(jù)集上均采用UF1和UAR 評(píng)價(jià)指標(biāo)以及相同的LOSO 驗(yàn)證策略。其中,LBP-TOP 為基準(zhǔn)方法,Bi-WOOF 為具有代表性的傳統(tǒng)方法,H-SVM 為最近的傳統(tǒng)方法,其他均為具有代表性的深度學(xué)習(xí)方法。從表3 中可以看出,相對(duì)于基準(zhǔn)方法,本文提出的方法在融合數(shù)據(jù)集上有很大的提高,UF1 達(dá)到了0.7353,UAR 達(dá)到了0.7243,分別提高了14.71%、14.58%,并且在融合數(shù)據(jù)集和SMIC、CASME Ⅱ、SAMM 數(shù)據(jù)集上取得的性能均優(yōu)于對(duì)比方法。因此,本文提出的基于光流法與偽三維殘差網(wǎng)絡(luò)的微表情識(shí)別方法具有較強(qiáng)的時(shí)空特征表示和特征提取能力,且具有較好的泛化能力,在各個(gè)數(shù)據(jù)集上的性能都有較大的提升。從表中可以看出,相對(duì)于其他數(shù)據(jù)集,所有方法在CASME Ⅱ上的性能表現(xiàn)最佳,主要原因是CASMEⅡ樣本采用高幀頻的先進(jìn)設(shè)備采集,數(shù)據(jù)質(zhì)量較高,而SMIC 數(shù)據(jù)集上的數(shù)據(jù)采用較低的幀頻捕獲,并且受到各種噪聲的影響,SAMM 數(shù)據(jù)集上存在嚴(yán)重的類別失衡,且參與者們的年齡和種族差異較大。此外,本文提出的方法與前三種基于深度學(xué)習(xí)方法最明顯的區(qū)別在于它們僅使用峰值幀描述微表情序列,可以利用具有更少參數(shù)的基于CNN 的模型來(lái)提取高層次的微表情特征。相比之下,本文方法除了有效地提取微表情的空間特征,考慮了更多的時(shí)間動(dòng)態(tài)信息,使用包含微表情重要信息的更多關(guān)鍵幀表征微表情序列,盡管本文的方法存在過(guò)擬合的問(wèn)題,但通過(guò)跨數(shù)據(jù)庫(kù)和數(shù)據(jù)增強(qiáng)策略得到了很大的緩解,在四個(gè)微表情數(shù)據(jù)集上取得了較好的識(shí)別結(jié)果。

      表3 不同方法的微表情識(shí)別率對(duì)比Tab.3 Comparison of the micro-recognition rates of different methods

      為了進(jìn)一步分析本文方法的微表情識(shí)別性能,表4~表7 分別給出了每個(gè)數(shù)據(jù)集的混淆矩陣,該混淆矩陣詳細(xì)地說(shuō)明了每類微表情的識(shí)別準(zhǔn)確率以及被分類為其他類別的概率。其中,對(duì)角線上的數(shù)值表示為每類微表情的識(shí)別準(zhǔn)確率。從表中可以明顯看出,在四個(gè)數(shù)據(jù)集上,消極情緒識(shí)別率均是最高的,積極與驚訝類別除了可接受的正確預(yù)測(cè)外,容易被預(yù)測(cè)為消極類別,主要是因?yàn)橄麡O類別在數(shù)據(jù)樣本中數(shù)量最多,大部分占一半以上數(shù)量。

      表4 融合數(shù)據(jù)集的混淆矩陣Tab.4 Confusion matrix on 3DB-combined database

      3.4.2 參數(shù)選擇對(duì)本文方法的影響

      重要參數(shù)的選擇對(duì)實(shí)驗(yàn)的影響非常重要,包括學(xué)習(xí)率的設(shè)置,迭代次數(shù)的選擇以及擴(kuò)大樣本量時(shí)像素平移的大小。在下面的實(shí)驗(yàn)中,每次僅改變一個(gè)參數(shù),而其他參數(shù)使用基本值(參考表2)。由于LOSO 交叉驗(yàn)證需要消耗的時(shí)間較長(zhǎng),所以對(duì)于參數(shù)選擇的實(shí)驗(yàn)均在數(shù)據(jù)集CASME Ⅱ上進(jìn)行。

      表5 SMIC數(shù)據(jù)集的混淆矩陣Tab.5 Confusion matrix on SMIC database

      表6 CASME II數(shù)據(jù)集的混淆矩陣Tab.6 Confusion matrix on CASME II database

      表7 SAMM數(shù)據(jù)集的混淆矩陣Tab.7 Confusion matrix on SAMM database

      圖10 顯示了訓(xùn)練迭代次數(shù)對(duì)微表情識(shí)別性能的影響,從圖中可以看出,隨著訓(xùn)練迭代次數(shù)的增加,本文提出的方法在數(shù)據(jù)集CASME Ⅱ上的性能出現(xiàn)了一些波動(dòng),訓(xùn)練迭代次數(shù)較小時(shí),網(wǎng)絡(luò)沒(méi)有充分地學(xué)習(xí)到微表情的時(shí)空特征,訓(xùn)練迭代次數(shù)較大時(shí),網(wǎng)絡(luò)過(guò)度學(xué)習(xí)無(wú)關(guān)的特征,均會(huì)導(dǎo)致微表情識(shí)別性能較低。當(dāng)訓(xùn)練迭代次數(shù)設(shè)置為50 時(shí),UF1 和UAR 均達(dá)到最高值。由此可以說(shuō)明,選擇恰當(dāng)?shù)挠?xùn)練迭代次數(shù)有利于提升微表情識(shí)別性能。

      圖11顯示了學(xué)習(xí)率對(duì)微表情識(shí)別性能的影響,本文學(xué)習(xí)率的設(shè)置主要根據(jù)經(jīng)驗(yàn)取值,從圖中可以看出,隨著學(xué)習(xí)率的增加,本文提出的方法的微表情識(shí)別性能有所提升,當(dāng)學(xué)習(xí)率為0.01 時(shí),UF1 和UAR 達(dá)到最高值。實(shí)驗(yàn)結(jié)果表明,選擇恰當(dāng)?shù)膶W(xué)習(xí)率有利于提升微表情識(shí)別性能,學(xué)習(xí)率為0.01 時(shí),本文提出的方法性能表現(xiàn)最優(yōu)。

      圖12 顯示了像素平移大小對(duì)微表情識(shí)別性能的影響,圖像平移是數(shù)據(jù)增強(qiáng)策略之一,可以擴(kuò)大小數(shù)據(jù)集的樣本量,網(wǎng)絡(luò)可以更好地進(jìn)行數(shù)據(jù)特征學(xué)習(xí)。然而,像素平移的大小很大程度上會(huì)影響數(shù)據(jù)的整體質(zhì)量,直接影響微表情識(shí)別性能的高低。從圖中可以看出,像素平移大小為0,即不進(jìn)行平移操作時(shí),數(shù)據(jù)樣本量小,送入P3D ResNet 訓(xùn)練容易產(chǎn)生過(guò)擬合,從而導(dǎo)致微表情的識(shí)別性能較低。像素平移大小為10 時(shí),樣本量擴(kuò)大,網(wǎng)絡(luò)有效地學(xué)習(xí)了微表情的時(shí)空特征,UF1 和UAR 分別達(dá)到了81.89%、81.07%,本文方法取得了最好的識(shí)別效果。當(dāng)像素平移大小繼續(xù)增大時(shí),樣本量擴(kuò)大的同時(shí)數(shù)據(jù)質(zhì)量嚴(yán)重降低,從而導(dǎo)致微表情識(shí)別性能降低。

      3.4.3 光流法對(duì)本文方法的影響

      本文使用光流法提取微表情相鄰幀之間的動(dòng)態(tài)信息,豐富輸入數(shù)據(jù)的同時(shí)為網(wǎng)絡(luò)提供高效的特征。為了分析光流法對(duì)本文提出的微表情識(shí)別方法的影響,在3DB-combined、SMIC、CASME Ⅱ、SAMM 數(shù)據(jù)集上分別進(jìn)行了無(wú)光流數(shù)據(jù)和有光流數(shù)據(jù)的實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如圖13所示。

      從圖中可以看出,對(duì)于性能指標(biāo)UF1,在3DBcombined、SMIC、CASME Ⅱ、SAMM 數(shù)據(jù)集上,本文提出的方法使用有光流數(shù)據(jù)比無(wú)光流數(shù)據(jù)分別提高了2.05%、1.25%、2.70%、1.35%。對(duì)于性能指標(biāo)UAR,在3DB-combined、SMIC、CASME Ⅱ、SAMM數(shù)據(jù)集上,本文提出的方法使用有光流數(shù)據(jù)比無(wú)光流數(shù)據(jù)分別提高了1.56%、1.47%、3.41%、1.33%。實(shí)驗(yàn)結(jié)果表明,光流法可以有效地提取微表情動(dòng)作信息,從而提高本文方法的微表情識(shí)別性能。

      3.4.4 P3D ResNet及其變體的實(shí)驗(yàn)對(duì)比分析

      表8展示了P3D ResNet及其變體在融合數(shù)據(jù)集上的UF1 和UAR,其中P3D-A ResNet 是將P3D ResNet 中的所有P3D 模塊替換為P3D-A,P3D-B ResNet 是將P3D ResNet 中的所有P3D 模塊替換為P3D-B,P3D-C ResNet是將P3D ResNet中的所有P3D模塊替換為P3D-C。

      從表8 中可以看出,P3D ResNet 網(wǎng)絡(luò)模型的性能指標(biāo)UF1和UAR 均高于三種變體P3D-A ResNet、P3D-B ResNet、P3D-C ResNet 的性能指標(biāo)。對(duì)于性能指標(biāo)UF1,P3D ResNet 相對(duì)于三種變體分別提高了5.21%、3.65%、1.75%;對(duì)于性能指標(biāo)UAR,P3D ResNet相對(duì)于三種變體分別提高了2.71%、2.64%、2.18%。實(shí)驗(yàn)結(jié)果表明,在較深的網(wǎng)絡(luò)中,網(wǎng)絡(luò)模型的結(jié)構(gòu)多樣性有利于提升網(wǎng)絡(luò)的性能,本文的P3D ResNet網(wǎng)絡(luò)模型表現(xiàn)最優(yōu)。

      表8 偽三維殘差網(wǎng)絡(luò)及其變體在融合數(shù)據(jù)集上的UF1和UARTab.8 UF1 and UAR of pseudo three-dimensional residual network and its variants on 3DB-combined database

      3.4.5 算法復(fù)雜度

      為綜合分析本文提出方法的復(fù)雜度,主要從空間復(fù)雜度和時(shí)間復(fù)雜度兩個(gè)角度進(jìn)行研究,采用訓(xùn)練參數(shù)量(Params)表征網(wǎng)絡(luò)模型的空間復(fù)雜度,浮點(diǎn)運(yùn)算數(shù)(FLOPs)表征網(wǎng)絡(luò)模型的時(shí)間復(fù)雜度。表9給出了傳統(tǒng)的三維卷積神經(jīng)網(wǎng)絡(luò)與本文方法的算法復(fù)雜度對(duì)比分析,其中,傳統(tǒng)的三維卷積神經(jīng)網(wǎng)絡(luò)C3D 由Ji 等人[29]提出,它能夠同時(shí)對(duì)視頻序列進(jìn)行時(shí)間和空間特征學(xué)習(xí),在各類視頻分析任務(wù)上都優(yōu)于2D 卷積神經(jīng)網(wǎng)絡(luò)。本文在C3D 結(jié)構(gòu)的基礎(chǔ)上進(jìn)行了微調(diào),為了保證實(shí)驗(yàn)的客觀性,該網(wǎng)絡(luò)模型的實(shí)驗(yàn)條件與本文的P3D ResNet 實(shí)驗(yàn)條件完全相同。從表9中可以看出,C3D的網(wǎng)絡(luò)深度為11,大約是P3D ResNet 網(wǎng)絡(luò)深度的一半,但是其參數(shù)量和浮點(diǎn)運(yùn)算數(shù)遠(yuǎn)大于P3D ResNet 網(wǎng)絡(luò),其所需的內(nèi)存和模型訓(xùn)練時(shí)間遠(yuǎn)大于P3D ResNet 網(wǎng)絡(luò)。對(duì)于性能指標(biāo)UF1 和UAR,P3D ResNet網(wǎng)絡(luò)均優(yōu)于C3D 網(wǎng)絡(luò)。實(shí)驗(yàn)結(jié)果表明,相對(duì)于傳統(tǒng)的三維卷積神經(jīng)網(wǎng)絡(luò),使用P3D ResNet 進(jìn)行微表情的時(shí)空特征提取具有優(yōu)越性。

      表9 算法復(fù)雜度Tab.9 Algorithm complexity

      4 結(jié)論

      本文提出了一種基于光流法與偽三維殘差網(wǎng)絡(luò)的微表情識(shí)別方法,首先使用光流法提取微表情的光流特征序列,將微表情灰度圖像序列與光流特征序列進(jìn)行通道連接,然后采用跨數(shù)據(jù)庫(kù)和數(shù)據(jù)增強(qiáng)策略擴(kuò)大樣本量以滿足深度學(xué)習(xí)需要大規(guī)模數(shù)據(jù)訓(xùn)練的需求,同時(shí)防止網(wǎng)絡(luò)過(guò)擬合,最后將微表情數(shù)據(jù)送入P3D ResNet 同時(shí)進(jìn)行微表情的時(shí)空特征提取,實(shí)現(xiàn)微表情的識(shí)別分類。本文在融合數(shù)據(jù)集以及三個(gè)獨(dú)立數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),采用LOSO 交叉驗(yàn)證以保證參與對(duì)象獨(dú)立評(píng)估。實(shí)驗(yàn)結(jié)果表明,相對(duì)于基準(zhǔn)方法,本文提出的方法在四個(gè)數(shù)據(jù)集上的性能有很大的提升,且性能表現(xiàn)均優(yōu)于對(duì)比算法,實(shí)驗(yàn)證實(shí)了本文方法的有效性以及魯棒性。在融合數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,相對(duì)于傳統(tǒng)的三維卷積神經(jīng)網(wǎng)絡(luò),本文方法在保證網(wǎng)絡(luò)性能的同時(shí)具有較低的復(fù)雜度,模型訓(xùn)練所需的參數(shù)量和訓(xùn)練時(shí)間得到了很大的改善。然而,本文提出的方法更多的是從人臉全局區(qū)域考慮,而沒(méi)有考慮微表情發(fā)生在人臉局部區(qū)域這一特點(diǎn),因此,希望未來(lái)結(jié)合微表情局部區(qū)域的特點(diǎn)進(jìn)行微表情識(shí)別研究。

      猜你喜歡
      光流殘差卷積
      利用掩膜和單應(yīng)矩陣提高LK光流追蹤效果
      基于雙向GRU與殘差擬合的車輛跟馳建模
      基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
      基于殘差學(xué)習(xí)的自適應(yīng)無(wú)人機(jī)目標(biāo)跟蹤算法
      基于遞歸殘差網(wǎng)絡(luò)的圖像超分辨率重建
      從濾波器理解卷積
      電子制作(2019年11期)2019-07-04 00:34:38
      基于物理學(xué)的改善粒子圖像測(cè)速穩(wěn)健光流方法研究
      基于傅里葉域卷積表示的目標(biāo)跟蹤算法
      平穩(wěn)自相關(guān)過(guò)程的殘差累積和控制圖
      河南科技(2015年8期)2015-03-11 16:23:52
      融合光流速度場(chǎng)與背景差分的自適應(yīng)背景更新方法
      404 Not Found

      404 Not Found


      nginx
      南汇区| 北票市| 全椒县| 七台河市| 新沂市| 安康市| 鄄城县| 荣成市| 翁源县| 客服| 友谊县| 镇沅| 吉林省| 达尔| 凯里市| 堆龙德庆县| 巴林左旗| 余庆县| 翁牛特旗| 怀宁县| 新宾| 贺兰县| 湘潭县| 马尔康县| 县级市| 浏阳市| 广宁县| 措美县| 沙田区| 靖安县| 方城县| 蒙阴县| 宣恩县| 唐河县| 讷河市| 汝州市| 常州市| 读书| 安宁市| 徐闻县| 金门县|