• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      一種基于深度學習的面部視頻情感識別方法

      2020-11-18 14:00:26雷單月安建偉
      現(xiàn)代計算機 2020年28期
      關鍵詞:識別率生理卷積

      雷單月,安建偉

      (北京科技大學計算機與通信工程學院,北京100036)

      0 引言

      情感是人類交往中的重要信息。面部表情、語音語調和身體姿態(tài)等可以傳達不同的情感。因此,如何讓機器識別人的喜怒哀樂等不同情緒,成為影響人機交互和機器智能發(fā)展的關鍵因素。通常面部包含的情感信息是最直接也是最豐富的,美國心理學家??寺‥kman,1984)經過大量的研究表明,盡管人類有膚色、語言、社會地位等差異,但是面部表情、面部肌肉運動的基本模式是一致的。

      目前為止,基于面部表情的情感識別研究趨于成熟,大量的研究開始轉向研究語音與表情、表情與姿態(tài)、表情與生理信號等雙模態(tài)或多模態(tài)情感識別研究??紤]到人機交互的一些特定場景,例如課堂聽講,疲勞駕駛檢測等僅能獲取到人的面部表情的場景,只考慮面部特征進行情感識別是很有必要的。研究表明,面部視頻中包含有心率和呼吸頻率等生理信息[1]。而大多數(shù)的面部情感識別方法都只考慮了面部的表情特征,即基本的外觀特征,忽略了面部蘊含的生理信息,導致識別率不能進一步提升。文獻[2]文提出了一種基于面部表情和面部生理信號的雙模態(tài)視頻情感識別方法,該方法從面部視頻中提取生理信號,再進行時頻域和非線性分析,手工設計生理信號的特征。然而當視頻的時長較短時,由于手工設計特征的方法提取的特征難以表示生理信號,以至于識別結果并不理想。

      基于上述問題,本文提出一種基于深度學習的面部視頻情感識別方法,該方法基于三維卷積神經網絡,自動提取面部表情特征與面部生理特征,然后分別送入分類器,最后將兩個分類器得到的結果進行決策融合。

      1 相關研究

      1.1 視頻情感識別

      傳統(tǒng)的視頻分析方法有三個步驟。首先,將將視頻分為單個幀,然后,根據(jù)人臉的標志點,通過手工設計或卷積神經網絡(CNN)提取人臉特征。最后,將每個幀的特征輸入分類器。但是這種方法的缺點是沒有考慮視頻圖像之間的時序關系,就像使用靜態(tài)圖像分類模型一樣。近年來,研究者們提出視頻中的時序信息是非常重要的,并做了一些相關的工作。主要有兩種方法,一種是用CNN 提取圖像特征,然后用長短時記憶網絡(LSTM)來理解時序特征。CNN 在分類任務方面具有最先進的性能,LSTM 可以分析不同長度的視頻序列。這兩個強大的算法創(chuàng)建了一個適合于視頻分析的系統(tǒng)。文獻[3]將遞歸神經網絡(RNN)與CNN 框架相結合,在2015 年的野外情緒識別(EmotiW)挑戰(zhàn)中的研究結果表明,RNNCNN 系統(tǒng)的性能優(yōu)于深度學習CNN 模型。文獻[4]分兩部分進行情感識別。第一部分是CNN 結構提取空間特征,第二部分利用第一部分的特征訓練LSTM 結構來理解時間信息。另一種是使用文獻[10]提出的三維卷積神經網絡(C3D),對處理視頻分析類的任務非常有效。文獻[5]利用C3D 結合深度信念網絡(DBN)提取音頻和視頻流時空特征,獲得了多模態(tài)情感識別研究的先進性能。文獻[6]結合RNN和C3D,其中RNN 在單個圖像上提取的外觀特征作為輸入,然后對運動進行編碼,而C3D 則同時對視頻的外觀和運動進行建模,顯著提高視頻情感識別的識別率。

      1.2 融合表情與生理信號情感識別

      雖然面部表情能夠直觀地反應情感的變化,但是許多情感變化無法通過視覺感知,于是有學者提出通過生理信號來分析人體潛在的情感狀態(tài),彌補面部表情單模態(tài)情感識別的不足。文獻[7]從皮膚電信號和心率信號中提取人的生理特征,再結合面部表情特征進行情感識別,實驗結果表明皮膚電和心率信號具有與面部表情特征的互補信息,有助于情緒識別。文獻[8]提取了面部表情特征和ECG 生理特征,分別在特征層融合和決策層進行了融合,實驗結果表明基于決策層融合的方法識別率優(yōu)于特征層融合。由于一般生理信號的采集需要受試者佩戴專業(yè)的設備,因此采集過程較為困難和繁瑣且費用較高。文獻[9]提出了一種提取面部血容量脈沖信號的情感識別方法,無需與人體進行接觸就能獲取生理信號,最終的實驗結果也證明了該方法的有效性。但這也存在一定的局限性,對于生理特征的提取,文獻[9]采用的是傳統(tǒng)的時頻域特征分析方法,容易受到噪聲的影響,魯棒性較差。

      2 雙模態(tài)情感識別方法

      本文提出的方法結合視頻中的面部表情特征和隱藏的面部生理特征進行情感識別。首先對面部視頻進行人臉檢測與裁剪,然后分別提取面部外觀特征和面部生理特征,并結合兩種模態(tài)的分類結果進行最終的情感分類,模型框架如圖1 所示。

      圖1 雙模態(tài)融合情感識別框架

      2.1 視頻預處理

      由于原始視頻尺寸太大,包含很多不必要的背景信息,對模型的訓練效率和準確率都會造成一定的影響。所以首先要對視頻進行人臉檢測與裁剪,對裁剪后的視頻進行分幀。除此之外,為了增加數(shù)據(jù)的多樣性,提高模型的泛化能力,對從視頻中提取的人臉圖像進行數(shù)據(jù)增強處理,包括平移、翻轉等操作。

      由于心臟周期性地收縮和擴張,臉部血容量會發(fā)生相應的變化,根據(jù)臉部血容量和面部其他組織器官對光線吸收不同的特點,臉部血容量變化會引起臉部細微的顏色變化。為了獲取面部視頻中潛藏的生理信號,在視頻人臉裁剪之后,采用歐拉顏色放大算法[10]對人臉視頻進行顏色放大處理,使面部微弱的顏色變化得到增強,便于提取面部生理特征。

      歐拉視頻顏色放大首先是對輸入的視頻圖像進行空間分解,將其分解為不同尺度的視頻圖像,其相當于對視頻進行空間濾波;然后將空間濾波后的視頻圖像進行帶通濾波處理,再乘以一個放大因子得到放大后的視頻圖像;最后將前兩步得到的視頻圖像進行金塔重構,得到放大后的視頻圖像。經歐拉視頻顏色放大后的圖像如圖2 所示。

      圖2 視頻顏色放大前后對比圖

      2.2 C3D特征提取

      在二維卷積網絡中,卷積和池化操作僅在空間上應用于二維靜態(tài)圖像。而在三維卷積網絡(C3D)中,添加了一個額外的時間維度,可以在時空上進行卷積和池化[11]。二維卷積將多張圖像作為多個通道輸入,每次輸出一張輸出圖像的特征,因此每次卷積運算后都會丟失輸入信號的時間信息。而三維卷積將多張圖像疊加成一個立方體作為一個通道輸入,輸出多張圖像的特征才能保留輸入信號的時間信息,從而提取序列的時間特征。

      本文訓練了兩個C3D 網絡,一個用于提取面部表情特征,一個用于提取面部生理特征,具體結構細節(jié)在第3 節(jié)給出。

      2.3 雙模態(tài)融合

      多模態(tài)數(shù)據(jù)的融合可以通過不同的融合方法來實現(xiàn)。應用適當?shù)娜诤戏椒?,例如在低層(信號層的早期融合或特征融合)、中間層或高層(語義、后期融合或決策層的融合),以達到最佳精度。特征融合是一種常用的方法,它可以特征連接成一個高維特征向量,然后送入分類器。但是隨著組合特征中添加了大量的信息,訓練效率和計算資源都會受到很大影響。而決策融合是給不同特征訓練得到的分類器分配融合權重進行融合,得到最終的判別結果,既融合了不同模態(tài)的結果,又不會增加訓練負擔。

      決策融合關鍵的一步是如何分配不同模態(tài)的權重,常見的融合準則有最值準則、均值準則和乘積準則,但這些方法都是依據(jù)簡單的數(shù)學計算,并沒有考慮到準則以外的其它權重分配的可能性。針對雙模態(tài)融合的權重分配,本文提出一種自動權重尋優(yōu)方法,從足夠多數(shù)量的權重組合中,找出兩種模態(tài)的最佳權重分配方案。雙模態(tài)融合結果的計算公式如下,

      其中,y 表示預測類別,wa表示表情特征識別結果的權重,wb表示生理特征識別權重,且wb=1-wa,proa為表情特征預測結果的類別概率,prob為生理特征預測結果的類別概率。

      自動權重尋優(yōu)策略的步驟如下,具體的測試結果在第4 節(jié)給出。

      (1)初始化權重wa,分別提取兩個模態(tài)的類別預測proa、prob,以及真實的標簽值ytrue;

      (2)從wa=0.0 開始,以0.001 的步長增加,最大為1.0,wb=1-wa,共1000 組權重;

      (3)循環(huán)計算預測類別ypred=arg max(wa*proa+wb*prob),同時保存權重;

      (4)循環(huán)將預測標簽ypred與真實標簽ytrue對比,計算準確率;

      (5)選擇最高的準確率,并得到最高準確率對應的權重,即最優(yōu)權重。

      3 實驗與分析

      3.1 實驗數(shù)據(jù)集

      eNTERFACE'05 數(shù)據(jù)集包含44 名受試者,每個受試者表達憤怒、厭惡、恐懼、快樂、悲傷和驚訝六種情緒,數(shù)據(jù)庫總共包含1166 個視頻序列。

      RAVDESS 是一個多模態(tài)情感語音和歌曲視聽情感數(shù)據(jù)庫,該數(shù)據(jù)集由24 位專業(yè)演員(12 位女性,12位男性)錄制,包括平靜、快樂、悲傷、憤怒、恐懼、驚奇和厭惡中性8 種情緒,實驗選取1440 個只包含視頻的數(shù)據(jù)集。

      3.2 實驗環(huán)境與參數(shù)

      本文實驗在64 位的Ubuntu 18.04 操作系統(tǒng)上進行,使用NVIDIA GeForce RTX2080Ti 顯卡進行GPU 加速。網絡的輸入大小為3×16×112×112,其中3 表示三種顏色通道,16 表示一次輸入的幀數(shù)量。在文獻[12]設計的C3D 網絡結構的基礎上進行微調,該網絡有8個卷積層、5 個最大池化層和3 個完全連接層。各卷積層的卷積核數(shù)量。8 個卷積層的卷積核的數(shù)量分別為64、128、128、256、256、512、512、512;卷積核大小均為3,步長為1。池化層的核大小均為2,步長為2;前兩個全連接層的輸出特征數(shù)量為4096,第三個全連接層輸出特征數(shù)量為數(shù)據(jù)集的類別數(shù)。使用經過預先訓練的C3D 模型進行訓練,損失函數(shù)為交叉熵函數(shù),采用隨機梯度下降算法優(yōu)化損失函數(shù),使用20 個視頻片段的小批量訓練網絡,初始學習率為0.0001,每10 個epoch后,學習率縮小10 倍,一共訓練50 個epoch。

      3.3 實驗結果與分析

      為了驗證本文提出的雙模態(tài)情感識別方法的性能,分別在RAVDESS 數(shù)據(jù)集和eNTERFACE'05 數(shù)據(jù)集上,對單模態(tài)模型與雙模態(tài)方法進行了實驗,比較了面部表情模態(tài)、面部生理模態(tài)和雙模態(tài)融合的識別準確率。

      首先在兩個數(shù)據(jù)集上分別進行單模態(tài)情感識別實驗,然后將兩個數(shù)據(jù)集上單模態(tài)的分類概率分別進行基于權重的決策融合,圖3 和圖4 為本文提出的自動權重尋優(yōu)策略在兩個數(shù)據(jù)集上尋找最優(yōu)權重分配的結果,橫軸表示面部表情的權重,則面部生理特征的權重為1 減去面部表情權重。由圖可知,當面部表情的權重分別為0.465 和0.455 面部生理特征權重分別為0.535 和0.545 時,兩個數(shù)據(jù)集上取得最佳識別率0.8873 和0.6122。

      圖3 權重尋優(yōu)結果(RAVDESS)

      圖4 權重尋優(yōu)結果(eNTERFACE’05)

      如表1 所示,本文的方法在RAVDESS 數(shù)據(jù)集上面部表情單模態(tài)識別率82.04%,面部生理信號單模態(tài)識別率為79.0%,基于決策層融合后,識別率為88.7%。在eNTERFACE’05 數(shù)據(jù)集上面部表情單模態(tài)識別率55.9%,面部生理信號單模態(tài)識別率為48.3%,基于決策層融合后,識別率為61.22%。相較于單模態(tài)情感識別,進行雙模態(tài)融合后在RAVDESS 和eNTERFACE’05 上的識別率分別提升了6.66%和5.32%,驗證了在只考慮面部信息的情況下,面部表情和面部蘊含的生理信號具有互補的情感信息。

      表1 不同模態(tài)的識別率

      圖5 和圖6 分別為兩個數(shù)據(jù)集上測試集的雙模態(tài)融合結果的混淆矩陣,在兩個測試集上,相對于其他類別,“傷心”類別的分類錯誤最多。

      圖5 雙模態(tài)混淆矩陣(RAVDESS)

      圖6 雙模態(tài)混淆矩陣(eNTERFACE’05)

      本文最后對比了其他方法得到的識別率,如表2示。結果表明本文的方法優(yōu)于文獻[13-16],進一步證明了本文方法的可行性。

      表2 不同面部視頻情感識別方法識別率

      4 結語

      目前情感識別領域仍然是一個具有挑戰(zhàn)性的問題,如何只利用視頻中的面部信息進行有效的情感識別是實現(xiàn)人機交互的關鍵。為了充分利用面部包含的情感信息,本文提出使用三維卷積網絡分別提取面部表情特征和面部生理特征進行訓練和分類,在決策層給不同模態(tài)分配相應的權重進行結果融合。實驗結果證明使用卷積神經網絡能夠提取面部表情與面部生理信號的互補特征。由于本文沒有對特征提取方法做詳細研究,在未來的研究中我們將探索如何使用更好的特征提取方法提取更具有代表性的特征。

      猜你喜歡
      識別率生理卷積
      基于3D-Winograd的快速卷積算法設計及FPGA實現(xiàn)
      基于類圖像處理與向量化的大數(shù)據(jù)腳本攻擊智能檢測
      計算機工程(2020年3期)2020-03-19 12:24:50
      打破生理“平衡”
      世界科學(2020年1期)2020-02-11 07:39:34
      基于BP神經網絡的旋轉血泵生理控制
      從濾波器理解卷積
      電子制作(2019年11期)2019-07-04 00:34:38
      基于真耳分析的助聽器配戴者言語可懂度指數(shù)與言語識別率的關系
      提升高速公路MTC二次抓拍車牌識別率方案研究
      基于傅里葉域卷積表示的目標跟蹤算法
      媽媽們產后的生理煩惱
      Coco薇(2017年5期)2017-06-05 13:03:24
      高速公路機電日常維護中車牌識別率分析系統(tǒng)的應用
      岳池县| 尖扎县| 宁武县| 新巴尔虎左旗| 汕头市| 甘南县| 嘉义市| 九龙坡区| 盘锦市| 思茅市| 白城市| 江川县| 诏安县| 永川市| 普定县| 灵石县| 怀化市| 白沙| 垣曲县| 彭泽县| 丰县| 马尔康县| 榆中县| 车致| 娄烦县| 双辽市| 绥芬河市| 衡阳市| 定结县| 平利县| 深水埗区| 丘北县| 临潭县| 韩城市| 富民县| 盐亭县| 长顺县| 揭东县| 武平县| 仙游县| 开封县|