• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于BOOSTING框架的視覺(jué)語(yǔ)音多模態(tài)情感識(shí)別檢測(cè)方法

      2017-12-20 16:21:17張芬
      現(xiàn)代電子技術(shù) 2017年23期

      張芬

      摘 要: 情感識(shí)別技術(shù)是智能人機(jī)交互的重要基礎(chǔ),它涉及計(jì)算機(jī)科學(xué)、語(yǔ)言學(xué)、心理學(xué)等多個(gè)研究領(lǐng)域,是模式識(shí)別和圖像處理領(lǐng)域的研究熱點(diǎn)。鑒于此,基于Boosting框架提出兩種有效的視覺(jué)語(yǔ)音多模態(tài)融合情感識(shí)別方法:第一種方法將耦合HMM(coupled HMM)作為音頻流和視頻流的模型層融合技術(shù),使用改進(jìn)的期望最大化算法對(duì)其進(jìn)行訓(xùn)練,著重學(xué)習(xí)難于識(shí)別的(即含有更多信息的)樣本,并將AdaBoost框架應(yīng)用于耦合HMM的訓(xùn)練過(guò)程,從而得到AdaBoost?CHMM總體分類器;第二種方法構(gòu)建了多層Boosted HMM(MBHMM)分類器,將臉部表情、肩部運(yùn)動(dòng)和語(yǔ)音三種模態(tài)的數(shù)據(jù)流分別應(yīng)用于分類器的某一層,當(dāng)前層的總體分類器在訓(xùn)練時(shí)會(huì)聚焦于前一層總體分類器難于識(shí)別的樣本,充分利用各模態(tài)特征數(shù)據(jù)間的互補(bǔ)特性。實(shí)驗(yàn)結(jié)果驗(yàn)證了兩種方法的有效性。

      關(guān)鍵詞: 情感識(shí)別; 表情識(shí)別; Boosting方法; 情感數(shù)據(jù)庫(kù)

      中圖分類號(hào): TN911.73?34; TM417 文獻(xiàn)標(biāo)識(shí)碼: A 文章編號(hào): 1004?373X(2017)23?0059?05

      Abstract: As the important basis of intelligent human?computer interaction, the emotion recognition technology relates to the computer science, linguistics, psychology and other research fields, and is a research hotspot in pattern recognition and image processing fields. Based on the Boosting framework, two effective multi?modal emotion recognition methods fusing vision and speech are proposed. In the first method, the coupled hidden Markov model (HMM) is taken as the model?layer fusion technology of audio and video streams, and the improved expectation maximization algorithm is used to train it, and pay attention to the learning of the samples which are difficult to recognize emphatically; the AdaBoost framework is applied to the training process of HMM coupling to get the AdaBoost?CHMM general classifier. In the second method, the multi?layer Boosted HMM (MBHMM) classifier is constructed, and the data streams with the modals of facial expression, shoulder movement and speech are respectively applied to the classifier of a certain layer. The current layer′s overall classifier while training will focus on the sample which is difficultly recognized by the overall classifier in the former layer. The MBHMM classifier makes full use of the complementary characteristic of the feature data in each mode. The validity of the two methods was verified with experimental results.

      Keywords: emotion recognition; facial expression recognition; Boosting method; emotion database

      在人類交往中,除了通過(guò)自然語(yǔ)言傳遞信息外,還可以利用很多其他形體語(yǔ)言如臉部表情、身體動(dòng)作來(lái)進(jìn)行交流。人臉表情在人們?nèi)粘I畹慕煌蜏贤ㄖ邪缪葜匾慕巧?,為人的情感狀態(tài)、心理活動(dòng)或意圖愿望等心智活動(dòng)提供了重要的線索和信息。目前,各個(gè)領(lǐng)域的研究者們都十分關(guān)注如何從人臉表情信號(hào)和語(yǔ)音信號(hào)中自動(dòng)識(shí)別出說(shuō)話人的情感狀態(tài)及變化,并做出合理恰當(dāng)?shù)姆磻?yīng),最終達(dá)到建立和諧人機(jī)環(huán)境的目的。鑒于此,本文提出兩種基于AdaBoost框架的視覺(jué)語(yǔ)音多模態(tài)融合情感識(shí)別方法。

      1 基于Boosted耦合HMM的雙通道情感識(shí)別

      方法

      1.1 耦合HMM及其EM訓(xùn)練算法

      隱馬爾可夫模型(HMM)可以有效地應(yīng)用于多模態(tài)(通道)融合的識(shí)別技術(shù)中。在特征級(jí)融合方法中,可以將語(yǔ)音和視覺(jué)通道的特征相連接,組成一個(gè)觀察向量,然后經(jīng)過(guò)特征降維,再將最終的觀察序列使用從左向右的HMM進(jìn)行建模。在決策級(jí)融合方法中,首先對(duì)各個(gè)模態(tài)(通道)獨(dú)立計(jì)算類條件概率,然后再產(chǎn)生總體的條件概率。獨(dú)立HMM分別用兩個(gè)分量HMM來(lái)表示音頻和視頻序列,與多流HMM相比,可以更靈活地對(duì)兩個(gè)特征流的狀態(tài)異步性進(jìn)行建模。多流HMM和獨(dú)立HMM作為決策級(jí)融合技術(shù),都不能很好地處理音頻流和視頻流間的時(shí)域關(guān)聯(lián)。endprint

      一個(gè)耦合HMM由多個(gè)分量HMM組合而成,不同分量HMM的隱節(jié)點(diǎn)間可以進(jìn)行交互,同時(shí)各個(gè)分量HMM的隱節(jié)點(diǎn)具有獨(dú)立的觀察變量。在[t]時(shí)刻,某個(gè)分量HMM的隱節(jié)點(diǎn)狀態(tài)依賴于所有相關(guān)的分量HMM在[t]時(shí)刻的隱節(jié)點(diǎn)狀態(tài)。本節(jié)使用了連續(xù)型二分量耦合HMM,其中兩個(gè)分量HMM分別對(duì)語(yǔ)音通道和視覺(jué)通道的特征流建模,如圖1所示。

      式中:[s∈audio,visual]表示某個(gè)通道(由分量HMM表示)。式(1)中,[πi]是耦合HMM的初始隱狀態(tài)概率分布,[πsis]是各分量HMM的初始隱狀態(tài)概率分布。[is]指某個(gè)分量HMM的隱狀態(tài)。式(2)中,[bti]是耦合HMM的觀察概率密度函數(shù),[bstis]是某分量HMM中隱狀態(tài)[is]的觀察概率密度函數(shù),其形式是混合高斯概率密度函數(shù)(如式(2)等號(hào)右側(cè)所示),其中,[Msi]表示在該分量HMM中,隱狀態(tài)[is]的觀察概率密度函數(shù)中高斯密度函數(shù)的混合數(shù)。[wsi,m,][μsi,m,][Usi,m]分別表示在該分量HMM中,隱狀態(tài)[is]的第[m]個(gè)高斯密度函數(shù)的混合權(quán)重、均值向量和對(duì)角協(xié)方差矩陣。[qst]和[Ost]分別表示某個(gè)分量HMM在[t]時(shí)刻的隱狀態(tài)取值和觀察向量。[λs]是某個(gè)分量HMM對(duì)應(yīng)的指數(shù)。式(3)中,[aij]表示耦合HMM的狀態(tài)轉(zhuǎn)移概率,[asisj]表示從[t-1]時(shí)刻所有分量HMM的隱狀態(tài)集合[j]到[t]時(shí)刻某個(gè)分量HMM的隱狀態(tài)[is]的轉(zhuǎn)移概率。

      1.2 改進(jìn)的EM算法

      為了配合AdaBoost框架的建立,本節(jié)對(duì)耦合HMM的EM訓(xùn)練方法進(jìn)行修改,使得訓(xùn)練過(guò)程中加入對(duì)樣本權(quán)重信息的考慮,重點(diǎn)學(xué)習(xí)難于識(shí)別的樣本。假設(shè)耦合HMM的訓(xùn)練樣本集中共有[R]個(gè)樣本,每個(gè)樣本的權(quán)重為[Wr,r=1,2,…,R]。在耦合HMM的EM訓(xùn)練算法中,修改用于重估模型參數(shù)[wsi,m,][μsi,m,][Usi,m]和[asisj]的等式,將這4個(gè)等式右側(cè)的每一項(xiàng)[1Pr]都替換成[WrPr]。改進(jìn)后的EM算法如算法1所示。

      算法1:耦合HMM改進(jìn)的EM訓(xùn)練算法

      1.3 情感識(shí)別實(shí)驗(yàn)與性能對(duì)比

      從WOZ表情語(yǔ)音情感數(shù)據(jù)庫(kù)1中取出5個(gè)實(shí)驗(yàn)者(2男3女)的錄制數(shù)據(jù)進(jìn)行實(shí)驗(yàn)。這些實(shí)驗(yàn)數(shù)據(jù)是由實(shí)驗(yàn)者在引導(dǎo)式(Wizard of Oz)場(chǎng)景下朗讀帶有七種基本情感(高興、悲傷、憤怒、厭惡、恐懼、驚訝和中性)的句子。在基本情感類別的基礎(chǔ)上,實(shí)驗(yàn)數(shù)據(jù)使用activation?evaluation空間粗分類方法進(jìn)行了再次標(biāo)注。隨機(jī)選擇4個(gè)人的情感數(shù)據(jù)作為訓(xùn)練集合,將剩下那個(gè)人的情感數(shù)據(jù)作為測(cè)試集合,分別評(píng)估本節(jié)方法在兩種情感類別集合下的識(shí)別效果。整個(gè)識(shí)別過(guò)程是獨(dú)立于實(shí)驗(yàn)者的,實(shí)驗(yàn)中執(zhí)行五重交叉驗(yàn)證。

      常規(guī)的耦合HMM可以對(duì)不同通道特征流的異步性進(jìn)行建模,并捕獲它們之間的時(shí)域關(guān)聯(lián),識(shí)別性能明顯優(yōu)于單模態(tài)的識(shí)別技術(shù)。而基于Boosted耦合HMM的雙通道情感識(shí)別方法將耦合HMM作為分量分類器,基于改進(jìn)的EM訓(xùn)練算法對(duì)其進(jìn)行訓(xùn)練,從而在學(xué)習(xí)過(guò)程中偏重于難于識(shí)別的樣本;并應(yīng)用AdaBoost框架整合多個(gè)“弱”分量分類器,進(jìn)一步增強(qiáng)耦合HMM的性能,從而得到識(shí)別率高的總體分類器。

      表1展示了同樣的實(shí)驗(yàn)數(shù)據(jù)在activation?evaluation空間中進(jìn)行類別劃分時(shí),基于Boosted耦合HMM的雙通道情感識(shí)別方法和上述三種方法的識(shí)別性能比較結(jié)果。實(shí)驗(yàn)結(jié)果表明,基于Boosted耦合HMM的雙通道情感識(shí)別方法仍然具有較高的識(shí)別率和魯棒性。

      接下來(lái),使用SEMAINE數(shù)據(jù)庫(kù)中的自然情感語(yǔ)音?視頻數(shù)據(jù)來(lái)測(cè)試基于Boosted耦合HMM的雙通道情感識(shí)別方法。從ID為2,3,7和16的四位實(shí)驗(yàn)者的數(shù)據(jù)中提取出均勻分布的160個(gè)正面視頻?語(yǔ)音片段,其中既包含用戶角色,也包含操作員角色,每個(gè)片段被標(biāo)注為屬于activation?evaluation情感空間的某一個(gè)象限。

      由表2中的實(shí)驗(yàn)結(jié)果可以看出,由于SEMAINE數(shù)據(jù)庫(kù)中的情感數(shù)據(jù)更接近于自然情感,其中的特征變化相比WOZ引導(dǎo)式情感數(shù)據(jù)庫(kù)更為細(xì)微,所以基于Boosted耦合HMM的雙通道情感識(shí)別方法在SEMAINE數(shù)據(jù)庫(kù)中的平均識(shí)別率(75.6%)要低于在WOZ情感數(shù)據(jù)庫(kù)1上的準(zhǔn)確率,但也取得了令人滿意的結(jié)果,基于Boosted耦合HMM的雙通道情感識(shí)別方法具有更高的計(jì)算效率。

      2 基于多層Boosted HMM的多模態(tài)情感識(shí)別

      方法

      2.1 多層Boosted HMM分類器的結(jié)構(gòu)

      對(duì)于待識(shí)別的每個(gè)情感類別,建立一個(gè)多層Boosted HMM(MBHMM)分類器。由于使用了三個(gè)模態(tài)的特征數(shù)據(jù),所以MBHMM分類器共有三層,包括第1層總體分類器、第2層總體分類器和第3層總體分類器。每層總體分類器由從左向右的[kv]個(gè)連續(xù)型HMM分量分類器組合而成,其中[v]表示當(dāng)前層使用的模態(tài)。在MBHMM分類器的每層中,基于AdaBoost算法框架對(duì)分量HMM分類器進(jìn)行訓(xùn)練,產(chǎn)生一個(gè)強(qiáng)總體分類器。由當(dāng)前層的總體分類器計(jì)算得出的訓(xùn)練樣本權(quán)重用作下一層中樣本的初始權(quán)重,第一層中令每個(gè)樣本的初始權(quán)重都相等。各層的總體分類器經(jīng)過(guò)線性組合,得到高識(shí)別率的MBHMM分類器。

      2.2 改進(jìn)的Baum?Welch訓(xùn)練算法

      使用單一的特征流作為樣本數(shù)據(jù)來(lái)訓(xùn)練連續(xù)型分量HMM分類器。三層總體分類器中每個(gè)分量HMM分類器的模型參數(shù)為[λ=N,A,wsi,m,μsi,m,Usi,m,π],其中[N]表示模型的隱狀態(tài)數(shù),[π]表示模型的初始隱狀態(tài)概率分布,[A]為狀態(tài)轉(zhuǎn)移概率矩陣,[A=aij,1≤i, j≤N]。模型的觀察概率密度函數(shù)為混合高斯密度函數(shù):

      Baum?Welch算法常被用來(lái)訓(xùn)練HMM,從而得到模型參數(shù)的最大似然估計(jì)。對(duì)Baum?Welch算法進(jìn)行修改,考慮訓(xùn)練樣本的權(quán)重,并使訓(xùn)練過(guò)程聚焦于那些難于識(shí)別的樣本。修改后的Baum?Welch算法如算法2所示。endprint

      算法2:改進(jìn)的Baum?Welch訓(xùn)練算法

      式中:[Pr]指樣本觀察序列[xr]在該HMM模型下的概率;[γj,it]是在時(shí)刻[t]隱狀態(tài)[j]到[i]的狀態(tài)轉(zhuǎn)換后驗(yàn)概率;[ξi,mt]表示時(shí)刻[t]的觀察向量[Ot]在隱狀態(tài)[i]的第[m]個(gè)高斯密度函數(shù)下的概率。

      可以證明,改進(jìn)后的Baum?Welch訓(xùn)練算法仍然是收斂的。改進(jìn)的Baum?Welch算法使得迭代求解HMM分量分類器模型參數(shù)的過(guò)程中考慮到各樣本的權(quán)重,使得訓(xùn)練著重于難于識(shí)別的樣本。

      2.3 情感識(shí)別實(shí)驗(yàn)與性能對(duì)比

      從WOZ表情語(yǔ)音情感數(shù)據(jù)庫(kù)2中取出5個(gè)實(shí)驗(yàn)者(2男3女)的錄制數(shù)據(jù)進(jìn)行實(shí)驗(yàn)。情感場(chǎng)景中,攝錄機(jī)從正面和側(cè)面同步錄下包含實(shí)驗(yàn)者臉部表情及肩部運(yùn)動(dòng)數(shù)據(jù)的視頻和語(yǔ)音片段。場(chǎng)景腳本中,每一種情感有3個(gè)不同的句子,每個(gè)實(shí)驗(yàn)者將每句話重復(fù)5遍。

      其中[P]表示當(dāng)前模態(tài)特征流的特征維數(shù),對(duì)于語(yǔ)音模態(tài),[P=14];對(duì)于臉部表情模態(tài),[P=14];對(duì)于肩部運(yùn)動(dòng)模態(tài),[P=10]。

      對(duì)于高斯概率密度函數(shù)的均值向量[μi,m,]將訓(xùn)練樣本當(dāng)前模態(tài)的每個(gè)觀察序列分成[N]段,然后在每段內(nèi)用K均值聚類算法產(chǎn)生高斯密度函數(shù)的均值向量[μi,m]的初值。

      實(shí)驗(yàn)結(jié)果如表3所示。表3展示了本節(jié)方法與以下五種方法的識(shí)別率對(duì)比:僅使用語(yǔ)音特征的HMM(其隱狀態(tài)數(shù)設(shè)為5);僅使用臉部表情特征的HMM(其隱狀態(tài)數(shù)設(shè)為5);僅使用肩部運(yùn)動(dòng)特征的HMM(其隱狀態(tài)數(shù)設(shè)為3);常規(guī)3分量?耦合HMM(實(shí)驗(yàn)中3個(gè)分量HMM分別對(duì)應(yīng)語(yǔ)音、臉部表情和肩部運(yùn)動(dòng)模態(tài),各分量HMM的隱狀態(tài)數(shù)取法和單特征HMM中的取法相同);Boosted耦合HMM(耦合HMM的3個(gè)分量HMM分別對(duì)應(yīng)語(yǔ)音、臉部表情和肩部運(yùn)動(dòng)模態(tài),各分量HMM的隱狀態(tài)數(shù)取法和單特征HMM中的取法相同)。

      從實(shí)驗(yàn)結(jié)果可以看出,MBHMM分類器的識(shí)別性能在兩種情感類別集合下都要明顯高于單模態(tài)HMM和常規(guī)耦合HMM,同時(shí)也略高于Boosted耦合HMM。雖然不屬于模型層融合方法,但MBHMM分類器在訓(xùn)練過(guò)程中充分利用了多模態(tài)信息之間的互補(bǔ)性,不但在使用某一模態(tài)的特征流進(jìn)行訓(xùn)練時(shí)著重于識(shí)別難度大的樣本,并且在使用某一特征流訓(xùn)練當(dāng)前層總體分類器時(shí)著重于前一特征流的總體分類器難于識(shí)別的樣本,所以取得了良好的識(shí)別效果。

      接下來(lái),使用SEMAINE數(shù)據(jù)庫(kù)中的自然情感語(yǔ)音?視頻數(shù)據(jù)來(lái)測(cè)試基于多層Boosted HMM的多模態(tài)情感識(shí)別方法,實(shí)驗(yàn)數(shù)據(jù)的選取方式及實(shí)驗(yàn)過(guò)程與基于Boosted耦合HMM的雙通道情感識(shí)別方法相同。分類的目標(biāo)是將某個(gè)自然情感數(shù)據(jù)片段識(shí)別為隸屬于Activation?Evaluation空間中的某一象限。實(shí)驗(yàn)中,MBHMM分類器的第1層總體分類器(對(duì)應(yīng)語(yǔ)音模態(tài))和第2層總體分類器(對(duì)應(yīng)臉部表情模態(tài))中的連續(xù)型HMM分量分類器的隱狀態(tài)數(shù)[N]設(shè)為7,第3層總體分類器(對(duì)應(yīng)肩部運(yùn)動(dòng)模態(tài))中的連續(xù)型HMM分量分類器的隱狀態(tài)數(shù)[N]設(shè)為4。表4展示了基于多層Boosted HMM的多模態(tài)情感識(shí)別方法在SEMAINE數(shù)據(jù)庫(kù)中的分類準(zhǔn)確率。

      由表4中數(shù)據(jù)可見(jiàn),使用本節(jié)方法在SEMAINE自然情感數(shù)據(jù)庫(kù)中的平均識(shí)別率為79.4%,略高于基于Boosted耦合HMM的雙通道情感識(shí)別方法。

      3 結(jié) 論

      在Boosting方法的基礎(chǔ)上,本文提出兩種基于AdaBoost算法框架的多模態(tài)(通道)情感識(shí)別方法。第一種方法使用視覺(jué)和語(yǔ)音雙通道特征,采用改進(jìn)的EM訓(xùn)練算法,結(jié)合AdaBoost框架來(lái)增強(qiáng)分量耦合HMM(coupled HMM)的性能,使之在訓(xùn)練過(guò)程中更著重于難于識(shí)別的樣本,得到AdaBoost?CHMM總體分類器。第二種方法稱為多層Boosted HMM(MBHMM)分類器,分別使用臉部表情、語(yǔ)音和肩部運(yùn)動(dòng)三個(gè)模態(tài)的特征之一作為MBHMM分類器每一層的輸入。改進(jìn)的Baum?Welch學(xué)習(xí)算法在訓(xùn)練分量HMM分類器時(shí)偏重于該模態(tài)特征難于識(shí)別的樣本,進(jìn)而獲得該層的總體分類器。下一層總體分類器的訓(xùn)練過(guò)程著重于前一層總體分類器識(shí)別困難的樣本,從而實(shí)現(xiàn)不同模態(tài)間的信息互補(bǔ)。在引導(dǎo)式表情語(yǔ)音情感數(shù)據(jù)庫(kù)以及SEMAINE自然情感數(shù)據(jù)庫(kù)上的實(shí)驗(yàn)驗(yàn)證了這兩種方法的有效性。

      參考文獻(xiàn)

      [1] 趙力,黃程韋.實(shí)用語(yǔ)音情感識(shí)別中的若干關(guān)鍵技術(shù)[J].數(shù)據(jù)采集與處理,2014,29(2):157?170.

      [2] 宋靜,張雪英,孫穎,等.基于模糊綜合評(píng)價(jià)法的情感語(yǔ)音數(shù)據(jù)庫(kù)的建立[J].現(xiàn)代電子技術(shù),2016,39(13):51?54.

      [3] 韓文靜,李海峰,阮華斌,等.語(yǔ)音情感識(shí)別研究進(jìn)展綜述[J].軟件學(xué)報(bào),2014,25(1):37?50.

      [4] 蔣斌,賈克斌.一種用于表情識(shí)別的局部判別分量分析算法[J].電子學(xué)報(bào),2014,42(1):155?159.

      [5] 郝俊壽,丁艷會(huì).基于智能視覺(jué)的動(dòng)態(tài)人臉跟蹤[J].現(xiàn)代電子技術(shù),2015,38(24):12?15.

      [6] 吳迪,吳限,秦瀚.基于回歸函數(shù)的多角度人臉識(shí)別算法研究[J].聲學(xué)技術(shù),2015,34(2):172?175.

      [7] 肖秦琨,錢春虎,高嵩.一種基于Boosting目標(biāo)識(shí)別方法[J].電氣自動(dòng)化,2013,35(5):101?103.

      [8] 閆靜杰,鄭文明,辛明海,等.表情和姿態(tài)的雙模態(tài)情感識(shí)別[J].中國(guó)圖象圖形學(xué)報(bào),2013,18(9):1101?1106.

      [9] 王寶軍,薛雨麗,于適寧,等.多模情感數(shù)據(jù)庫(kù)的設(shè)計(jì)與評(píng)價(jià)[J].中國(guó)科技論文,2015(20):2395?2398.

      [10] 夏曉玲.集成語(yǔ)音信號(hào)與表面肌電信號(hào)的情感自動(dòng)識(shí)別模型[J].激光雜志,2015,36(4):131?134.endprint

      临澧县| 咸阳市| 宁蒗| 胶南市| 永仁县| 广南县| 鹤岗市| 盱眙县| 苗栗县| 开原市| 淮阳县| 文成县| 周至县| 武夷山市| 鲜城| 苍南县| 公安县| 乌鲁木齐市| 巴林右旗| 绥中县| 东源县| 景东| 时尚| 新乐市| 尖扎县| 靖西县| 新巴尔虎左旗| 尖扎县| 佛冈县| 获嘉县| 龙里县| 丘北县| 长武县| 当阳市| 仁怀市| 长宁县| 苗栗市| 桃园市| 平阳县| 韶关市| 湘乡市|