羅徑庭 王勇 王瑛
(廣東工業(yè)大學(xué)計算機(jī)學(xué)院 廣東省廣州市 510003)
智能機(jī)器正成為現(xiàn)代生活中不可或缺的一部分。近年來,這個問題的重要性引起了人們對人機(jī)交互領(lǐng)域的更多關(guān)注。大家期望改善人與機(jī)器之間的關(guān)系質(zhì)量,以使其更加貼近現(xiàn)實(shí),友好,更具有互動性。要大幅增進(jìn)人機(jī)關(guān)系,其中最大的影響因素之一就是通過機(jī)器識別人類的情感,從而讓其做出適當(dāng)?shù)姆答?。言語是人與人之間表達(dá)情感的一種普遍交流方式。盡管如此,行為、口音等的復(fù)雜性可能會對從語音中識別情感造成困擾。除了語音分析外,還可以利用面部表情的研究來識別人類的情感,將兩者加以融合分析的識別效果會更佳。在多模態(tài)情感識別領(lǐng)域,前人已經(jīng)提出了大量計算模型,包括張量融合網(wǎng)絡(luò)、記憶融合網(wǎng)絡(luò)、多級注意力循環(huán)網(wǎng)絡(luò)等。傳統(tǒng)的多模態(tài)情感識別方法通常將單個模態(tài)信號建模為獨(dú)立的向量表示,通過模態(tài)融合進(jìn)行多模態(tài)之間相互關(guān)聯(lián)信息的情感建模。但在處理面部模態(tài)信息時往往分別對單幀圖像進(jìn)行特征提取,導(dǎo)致連續(xù)幀的幀間信息沒有充分利用。為解決傳統(tǒng)的多模態(tài)情感識別系統(tǒng)的問題,本文將面部界標(biāo)在連續(xù)幀上的位移看作一組時間序列,通過離散小波變換(Discrete Wavelet Transform, DWT)[1]提取出視覺特征。DWT 通過將原始信號分為低頻和高頻分量,即近似分量和細(xì)節(jié)分量,來揭示隱藏在信號中的信息,將子帶系數(shù)中收集的信息進(jìn)行組合形成視覺特征,并與音頻特征進(jìn)行融合構(gòu)建出最終的特征向量。
人類通過情感表達(dá)來進(jìn)行更有效的交流,這體現(xiàn)在面部運(yùn)動、語調(diào)變化、手或身體運(yùn)動以及生物信號之中。人類情感狀態(tài)的分析已被納入情感計算領(lǐng)域,情感計算是對人類情感系統(tǒng)的研究和開發(fā)的過程,該系統(tǒng)由計算機(jī)科學(xué)、心理學(xué)和認(rèn)知科學(xué)交叉形成,它們共同協(xié)作來識別、解釋、處理和模擬人類情感。情感識別領(lǐng)域的主要挑戰(zhàn)之一是缺乏統(tǒng)一的分類系統(tǒng)的協(xié)議。每個人的情感行為都是復(fù)雜多變的,而情感本身取決于個體的性格特征和內(nèi)心狀態(tài)。因此在大多數(shù)情況下無法用一套基本情感作為標(biāo)準(zhǔn)來對情感進(jìn)行分類。心理學(xué)家根據(jù)這個理論性的問題引入了不同的情感分類模型,既情感是一種離散現(xiàn)象,因此是可區(qū)分、可測量且可分離的。前人對不同文化之間的情感的相似性和差異性做了各種研究,提出了六種基本的人類情感,即恐懼、厭惡、憤怒、驚訝、喜悅和悲傷。而基本情感可以用不同的方式組合起來,形成與人類情感相關(guān)的全部復(fù)雜情感。例如,憤怒和厭惡可以組合起來表示鄙視。在情感識別系統(tǒng)中,特征提取過程的地位至關(guān)重要。本研究中提取的特征分為音頻特征模態(tài)和視覺特征模態(tài)這兩種不同的模式。并且提出了一種新的視覺特征提取方法,該方法通過分析各個面部界標(biāo)的位移信號來識別面部表情。本文將連續(xù)的跨幀語音界標(biāo)位移用于視覺特征提取。因為是各種情感所對應(yīng)的特定界標(biāo)的位置是不同的,所以生成的位移時間序列將有所不同,可以用作特征提取的原始數(shù)據(jù)。將界標(biāo)的運(yùn)動變化看作一個時間序列,本文就能夠采用不同的信號變換來提取特征。在音頻模態(tài)中,除了韻律特征之外,本文還提取了三種聲譜和倒譜的特征類型,即梅爾頻率倒譜系數(shù)[2],感知線性預(yù)測[3],線性預(yù)測編碼[4]以及第一、第二時間特征導(dǎo)數(shù)[5]。情感識別領(lǐng)域的主要挑戰(zhàn)之一是缺乏統(tǒng)一的分類系統(tǒng)的協(xié)議。每個人的情感行為都是由模棱兩可和復(fù)雜的情感組合而成,而情感本身取決于性格特征以及人的內(nèi)心狀態(tài)。因此,在大多數(shù)情況下,無法用一套基本情感作為標(biāo)準(zhǔn)來對情感進(jìn)行分類。根據(jù)這個理論性的問題本文引入了不同的情感分類模型。情感是一類離散的行為,或者是一個更大連續(xù)體的一部分。情感是一種離散現(xiàn)象,因此是可分離的。人類普遍文化中的主要情感有六種,包括恐懼,厭惡,憤怒,驚訝,喜悅和悲傷。相比較地,從維度的角度來看,所有情感都具有二維或三維的特征,在大多數(shù)模型中這些維度通常是效價和喚醒的。
常見的多模態(tài)情感識別的結(jié)構(gòu)由五個主要部分組成,第一部分是將系統(tǒng)創(chuàng)建適當(dāng)?shù)臄?shù)據(jù)集作為先決條件。該部分的各個階段包括記錄不同人類情感狀態(tài)下的語音,標(biāo)記面部并進(jìn)行跟蹤,以及從語音中提取說話聲音;識別并提取與情感關(guān)聯(lián)度最高的相關(guān)特征;融合音頻和視頻特征,這些特征可以在提高模型效率方面發(fā)揮重要作用。特征向量可能包含多個不相關(guān)的特征,使模型變得復(fù)雜。而應(yīng)用降維技術(shù)可以提高效率,并降低最終模型的復(fù)雜程度。在上述過程進(jìn)行到最后階段時,進(jìn)行情感分類。分類過程中的重要過程是選擇適當(dāng)?shù)囊暵犔卣骱透咝У姆诸惸P停@樣才能得出更準(zhǔn)確的模型。本文使用了韻律和聲譜域特征作為音頻特征,包括音量,ZCR,MFCC,LPC 以及一階和二階時間導(dǎo)數(shù)。除此之外,本文使用界標(biāo)位移信號的提取方法來提取視覺特征,該方法利用了人臉上特定界標(biāo)的位移。為了做到這點(diǎn),采用了信號處理領(lǐng)域中的離散小波變換方法。提取到視聽特征后,進(jìn)行特征融合。我們在兩個不同的級別上進(jìn)行融合,即分為特征級融合和決策級融合。在特征級融合中,將從語音和視頻中提取的特征向量組合在一起,用于開發(fā)智能情感識別模型。而在決策級融合中,先通過視覺和聽覺特征導(dǎo)出相應(yīng)的個體模型,然后以不同的決策方式得到模型輸出組合。在本項研究中,將音頻和視覺特征向量混合在一起的特征水平融合方法構(gòu)成了可用于推導(dǎo)出分類模型的最終特征向量。特征向量可能包含許多無關(guān)和無用的特征,一方面增加了模型整體的復(fù)雜性,另一方面又降低了模型的精度。所以降維過程有助于簡化模型并提高效率。通過應(yīng)用降維技術(shù)減少特征向量維數(shù)并提高最終模型的性能。最后一步是分類,將觀測值進(jìn)行分類,即將數(shù)據(jù)集的特征分配到預(yù)定義的類別中。在這項研究中,各種類型的分類技術(shù)被歸入兩個大類來運(yùn)用,即個體模型類和集成模型類。集成學(xué)習(xí)法就是基于此原理進(jìn)行操作,一組分類器的預(yù)測組合往往比單個模型預(yù)測更好。按照這種思路,先是構(gòu)建一系列基礎(chǔ)學(xué)習(xí)器,然后以各種方式進(jìn)行組合,用以提高準(zhǔn)確性,減少錯誤率。本研究中提取的特征將分為音頻特征模態(tài)和視覺特征模態(tài)這兩種不同的模式。面部特征提取方法可以分為以下幾種:一是幾何特征,用于研究面部敏感區(qū)域,例如眉毛、嘴巴和嘴唇,可以檢測情感。臉部界標(biāo)之間的距離、角度和面部上特定區(qū)域的形狀就屬于此類示例。二是表達(dá)面部豐富的表情紋理變化的外貌特征,例如皮膚的褶皺。然而主要的挑戰(zhàn)來自所提出的方法的魯棒性、環(huán)境條件以及由于面部解剖結(jié)構(gòu)的復(fù)雜性而引起的個體差異之間的沖突。本文提出的基于界標(biāo)位移的視覺特征提取方法通過分析各個面部界標(biāo)的位移信號來識別面部表情,將連續(xù)的跨幀語音界標(biāo)位移用于視覺特征提取。這么做的主要原因是各種情感所對應(yīng)的特定界標(biāo)的位置是不同的。所以生成的位移時間序列將有所不同,可以用作特征提取的原始數(shù)據(jù)。將界標(biāo)的運(yùn)動變化看作一個時間序列,我們就能夠采用不同的信號變換來提取特征,比如可以使用離散小波變換這個信號處理應(yīng)用中常用的工具來提取特征。
界標(biāo)的位移信號可以看作是所提出的視覺提取方法的原始數(shù)據(jù)。位移信號是根據(jù)連續(xù)幀中界標(biāo)位置的變化生成的。假設(shè)在二維坐標(biāo)中將每個界標(biāo)定義為(x,y),并生成兩種不同的信號,一種用于表示沿水平軸位移的界標(biāo),另一個用于表示沿垂直軸位移的界標(biāo)。則信號的總數(shù)為2×n,其中n 是界標(biāo)的數(shù)量。
應(yīng)用數(shù)學(xué)信號變換可以揭示原始信號中的隱藏信息。在這項研究中,離散小波變換被用來提取視覺特征。由此運(yùn)用到了DWT系數(shù),即近似值和細(xì)節(jié)系數(shù)。這些系數(shù)通過使用快速小波變換算法來算得,該算法運(yùn)用一系列具有不同截止頻率的高通和低通濾波器,將信號分解為不同的子帶。每個低通濾波器的輸出會被再次過濾,以便進(jìn)一步分解。 下一步計算統(tǒng)計參數(shù)。利用離散小波變換的輸出,包含不同層別的近似值和細(xì)節(jié)系數(shù)來形成最終的特征向量。然而,由于子帶系數(shù)的數(shù)量眾多,因此放棄使用所有系數(shù),轉(zhuǎn)而使用統(tǒng)計參數(shù),例如均值和標(biāo)準(zhǔn)差。在最后階段,以不同子帶系數(shù)的平均值和標(biāo)準(zhǔn)偏差值為基礎(chǔ)來構(gòu)建整體特征向量。為構(gòu)建好這個向量,使用到了所有與面部的界標(biāo)相關(guān)聯(lián)的信號。本研究中也使用到了原始信號的均值和標(biāo)準(zhǔn)差。在音頻模態(tài)的研究案例中,除了韻律特征,即音量和ZCR 之外,還提取了三種聲譜和倒譜的特征類型,即梅爾頻率倒譜系數(shù)(MFCC),感知線性預(yù)測(PLP),線性預(yù)測編碼(LPC)以及第一、第二時間特征導(dǎo)數(shù)。MFCC 用來估算人類聽覺系統(tǒng)的頻率響應(yīng),并運(yùn)用它的非線性頻率標(biāo)尺,即梅爾頻率來估算人類聽覺系統(tǒng)的靈敏度。PLP 以三種與聽覺概念相關(guān)的人類心理物理學(xué)為基礎(chǔ)進(jìn)行語音建模,這三種物理學(xué)分別是臨界帶聲譜分辨率,等響度曲線和強(qiáng)度響度冪律;與MFCC 不同,這種方法是基于Bark 標(biāo)尺來扭曲聲譜。LPC 則以激發(fā)源通過線性濾波器的形式來估算語音生成過程;由于人類聽覺系統(tǒng)對電極反應(yīng)相當(dāng)敏感,因此LPC 認(rèn)為聲道是純粹的電極模型。
我們應(yīng)用不同的分類方法比較不同模型的性能,并且比較了在特征融合前后以及使用降維方法前后的分類模型的性能。本文使用了SAVEE 情感數(shù)據(jù)集進(jìn)行測試。由于數(shù)據(jù)集樣本中被試者面部共標(biāo)記有65 個界標(biāo),則x 軸和y 軸上共會生成130 個位移信號。通過使用三級DWT,提取子帶系數(shù),分別為cD1、cD2、cD3 和cA3,然后用DWT 系數(shù)的均值和標(biāo)準(zhǔn)差以及原始信號形成最終特征向量。本文采用十折交叉驗證法測試模型的性能。如前所述,音頻特征向量包括ZCR、MFCC、LPC、RASTA-PLP 以及第一和第二時間導(dǎo)數(shù)。使用重疊率為25%的漢明窗將每幀的長度控制為20ms,并使用所有語音幀的均值和標(biāo)準(zhǔn)偏差系數(shù)來獲得音頻特征向量。 則最終特征向量的大小為 。為了比較和評估本文提出的模型性能,選用以下幾種主流的多模態(tài)情感分析方法作為對比,實(shí)驗結(jié)果如表1 所示。MFM(Multimodal Factorization Model):該方法提出了一種全新的視角來學(xué)習(xí)多模態(tài)特征表示,它能夠?qū)⒚糠N模態(tài)信息分解為共享的判別因子和獨(dú)有的生成因子。MCTN(Multimodal Cyclic Translation Network):該方法基于編碼器和解碼器結(jié)構(gòu),學(xué)習(xí)模態(tài)之間的轉(zhuǎn)換關(guān)系,并利用循環(huán)一致性損失構(gòu)建多模態(tài)特征表示。RMFN(Recurrent Multistage Fusion Network):該模型將跨模態(tài)的融合過程分解為多個階段進(jìn)行,并使用循環(huán)神經(jīng)網(wǎng)絡(luò)捕獲時序模態(tài)內(nèi)部的信息。CIM-MTL:該方法是基于多任務(wù)學(xué)習(xí)的多模態(tài)情感分析模型,它利用情感細(xì)粒度的多標(biāo)簽分類任務(wù),輔助提升主任務(wù)的性能。MulT:該模型基于多頭注意力機(jī)制和Transformer結(jié)構(gòu),學(xué)習(xí)模態(tài)兩兩之間的轉(zhuǎn)換關(guān)系,能夠捕捉跨模態(tài)的交互關(guān)系。
表1: SAVEE 數(shù)據(jù)集上的實(shí)驗結(jié)果
本文采用七分類準(zhǔn)確度(Acc-7)、二分類準(zhǔn)確度(Acc-2)、F1 值、平均絕對誤差(Mean Absolute Error,MAE)和皮爾遜相關(guān)系數(shù)(Pearson Correlation,Corr)作為評價指標(biāo)。根據(jù)實(shí)驗結(jié)果可以得出結(jié)論,本文方法在SAVEE 數(shù)據(jù)集上取得了最優(yōu)的結(jié)果。
本篇論文介紹了一種多模態(tài)情感識別系統(tǒng)。其中音頻特征包括過零率、MFCC、LPC、RASTA-PLP 和時間導(dǎo)數(shù)。我們提出了一種新穎的視覺特征提取方法,并將其作為識別系統(tǒng)的主要部分。該方法使用跨連續(xù)幀的界標(biāo)隨時間變化而產(chǎn)生的時間序列進(jìn)行特征提取。本文使用位移界標(biāo)信號的DWT系數(shù)來構(gòu)建最終特征向量。同時,為了降低生成模型的復(fù)雜程度,我們應(yīng)用了各種以關(guān)聯(lián)性為基礎(chǔ)的特征選擇技術(shù)。本研究各項實(shí)驗結(jié)果都是在SAVEE 數(shù)據(jù)集上運(yùn)行得出的。實(shí)驗結(jié)果表明,F(xiàn)RNN 分類器在三種數(shù)據(jù)集上都表現(xiàn)最優(yōu)。證明了與原始位移信號相關(guān)的特征在情感識別過程中起著重要作用,并且它們在選定的特征總數(shù)中占了很大一部分比例,如DWT子帶特征,研究結(jié)果表明將DWT 系數(shù)降到較低的層級后,它對模型性能的提高會起到更加重要的作用。此外,在大多數(shù)情況下,音頻和視覺特征的融合會促使派生模型的性能得到改善。