黃永明,章國寶,劉海彬,達飛鵬
(東南大學(xué)自動化學(xué)院,南京 210096)
情感在人類交流中具有重要作用.情感檢測系統(tǒng)也在遠程教學(xué)[1]、電子機器寵物[2]、輔助測謊[3]、自動遠程電話服務(wù)中心[4]以及臨床醫(yī)學(xué)[5]等方面有著廣闊的應(yīng)用前景.語音信號視頻信號都能傳遞豐富的情感信息,由于音頻、視頻在情感檢測上都存在一些固有的缺陷,從單一的途徑來進行情感檢測已經(jīng)越來越不能滿足工程的實際需求,因此,從雙模提取互補性的特征成為提高識別率的新途徑.
多分類器信息融合,首先是分類器之間要有差異性,且融合算法要考慮分類器對各種情感的敏感度,這樣才能得到較好的信息融合效果.對于分類器選擇,如果選用同性質(zhì)的分類器,雖然融合簡單,但無法保證分類器的差異性.對于融合算法,簡單采用多個分類器的投票法、加法法則、乘法法則,由于沒有考慮到分類器的差異性,故而分類效果并不理想;采用傳統(tǒng)的融合算法融合,雖然考慮到分類器的差異性,但卻忽略了分類器本身對特定情感的敏感度,并不能保證有更好的分類效果;使用層疊泛化算法,即引入二級分類器對一級分類器的結(jié)果進行仲裁[6],這樣雖然考慮得比較全面,但是二級分類器的物理意義顯得很不明確,也不容易收斂,并不能保證有更好的分類效果,并且引入二級分類器,使系統(tǒng)的訓(xùn)練和識別的運算復(fù)雜度提高,影響實時性.
針對這些問題,筆者從音頻、視頻提取雙模特征參數(shù),引入了不同性質(zhì)的分類器,即基于概率統(tǒng)計的混合高斯模型(Caussian mixture models,GMMs)分類器和基于函數(shù)擬合的小波神經(jīng)網(wǎng)絡(luò)(module wavelet neural network,MWNN)分類器;為保證分類器間的差異性,引入表情圖片特征的一階、二階差分特征向量對GMMs 進行了時序化補償;在分類器輸出匹配化后,引入了基因遺傳算法(genetic algorithm,GA)信息融合算法,充分發(fā)揮各分類器本身對特定情感的敏感特性,達到較好的融合效果.為了比較,本文還進行了單獨MWNN 識別、單獨GMMs 識別、無差別投票法、加法法則、乘法法則和層疊泛化算法(其二級分類器為BP 神經(jīng)網(wǎng)絡(luò))識別實驗,為了更好地參照效果,針對本文的特定情況(只有2 個分類器,且分類器性質(zhì)不同),將以上傳統(tǒng)融合算法進行了匹配化輸出融合改進.
如圖1 所示,整個流程大致分為信號處理與情感訓(xùn)練識別兩大部分.首先,對麥克風(fēng)的語音輸入進行適當?shù)念A(yù)處理以獲取有效的語音信號,這些預(yù)處理包括分幀、預(yù)加重、端點檢測等;對攝像頭捕獲的表情視頻文件分幀,每幀轉(zhuǎn)成圖片格式,然后進行人臉檢測、定位等預(yù)處理以獲取有效的表情圖片信息.隨后,從這些處理過的語音信號里提取韻律特征、處理過的表情圖片提取人臉幾何特征分別形成特征向量.最后,語音韻律特征向量和人臉幾何特征向量都利用主元分析法(principle component analgs,PCA)來降維,從而獲取最終的特征向量.
在訓(xùn)練階段,基于語音訓(xùn)練樣本的韻律特征被用來訓(xùn)練MWNN 模型,從表情圖片訓(xùn)練樣本提取幾何特征來訓(xùn)練GMMs 模型.在模型訓(xùn)練好的基礎(chǔ)上,再次將訓(xùn)練樣本輸入到MWNN 模型和GMMs 模型,將識別結(jié)果形成一個新的樣本空間,用GA 在這個樣本空間里搜索最優(yōu)的融合系數(shù)向量其中每個λ分別對應(yīng)一種情感.在識別階段,音頻測試樣本經(jīng)韻律特征參數(shù)提取、降維后輸入訓(xùn)練好的MWNN 模型識別,視頻測試樣本經(jīng)人臉幾何特征參數(shù)提取、降維后輸入訓(xùn)練好的GMMs 模型識別.最后對GMMs、MWNN 2 個分類器的識別結(jié)果進行融合,并對情感進行最后裁定.
如何給情感分類是個有趣又復(fù)雜的問題,不同研究者在進行情感識別的研究時選擇的情感分類數(shù)量和種類往往不盡相同[7-8].本文的最終目的是為了讓機器寵物更好地識別主人的基本情感,因此選擇了生活中幾種常見的基本情感(生氣、平靜、高興、悲傷和厭煩)來對情感進行分類.
心理學(xué)和韻律學(xué)研究表明,說話者的情感在語音中最直觀的表現(xiàn)是韻律特征和語音質(zhì)量的變化,如音調(diào)、音強和音質(zhì)的變化[9].通常與情感相關(guān)的聲學(xué)特征包括基音、持續(xù)時間、能量和共振峰,以及它們衍生的均值、最大值、最小值、中間值、取值范圍、一階導(dǎo)、二階導(dǎo)和變化率等.經(jīng)過反復(fù)地實驗,本文最終選取了下面幾種韻律特征:語速、能量最大值、能量均值、極點數(shù)、基音頻率、最大共振峰.
人臉特征一般有幾何特征、外貌特征、混合特征這3 種.外貌(appearance)特征泛指使用全部人臉圖像像素的特征,反映了人臉圖像底層的信息,側(cè)重于提取局部的細微變化,由于要提取的特征點較多,造成維數(shù)過高、運算復(fù)雜.混合特征將幾何特征、外貌特征兩者結(jié)合起來,計算也較為復(fù)雜,而且初始點獲取困難.雖然幾何特征的識別效果對基準點提取的準確性要求較高,同時幾何特征的提取忽略了臉部其他部分的信息(如皮膚的紋理變化)等,但其能描述人臉宏觀的結(jié)構(gòu)變化,且提取簡單、維數(shù)較低,非常符合本系統(tǒng)的要求.
1.3.1 GMMs 模型建立
用多個高斯(正態(tài))概率密度函數(shù)的線性組合可以逼近任意密度分布,基于統(tǒng)計思想的GMMs 可以對任意的圖片表情特征分布進行精確的描述.由于經(jīng)過PCA 降維后的20 維的人臉表情幾何特征向量在20維空間中的分布不是橢球狀的,單個的標準高斯分布不能很好地擬合,所以要建立GMMs 模型.雖然更多的高斯分布能更準確地擬合人臉表情幾何特征的分布,但勢必會引起更高的運算復(fù)雜度,而這對于基于嵌入式平臺的智能機器寵物顯然無法承受,為了更貼近工程運用,選用4 個高斯函數(shù)來加權(quán)表示,即
筆者采用最大似然估計法(EM 算法)求取最佳P(θ)的參數(shù)值θ,為此需要構(gòu)造函數(shù)
并求其最大值.為討論方便,引入數(shù)學(xué)符號
為求 ()J θ極值,求其對 jμ與 jσ的微分,并令其為零,得到8+4d 變量的方程.采用迭代法,得到最佳的(P)x的參數(shù)值.
訓(xùn)練就是使用EM 算法確定每種情感的權(quán)重系數(shù)、均值和協(xié)方差,建立各情感的模型,識別過程為求取各情感模型產(chǎn)生測試語音的觀測特征序列的條件概率;最大條件概率對應(yīng)的情感即可作為識別結(jié)果.
1.3.2 MWNN 模型的建立
MWNN 有5 個子網(wǎng)絡(luò)構(gòu)成[10],如圖2(a)所示,每個子網(wǎng)絡(luò)分別對應(yīng)一種測試的情感.對于每條情感語句,其情感的識別過程為:語音特征向量分別輸入到5個子網(wǎng)絡(luò),然后會得到一個輸出向量 (v1,…,v5),這個向量表征的是輸入的情感語句與5 個情感子網(wǎng)絡(luò)的相似度,最后根據(jù)輸出向量元素值、邏輯判決器選取最大值(超過一定閾值時)所代表的情感子網(wǎng)絡(luò),并將該子網(wǎng)絡(luò)所對應(yīng)的情感作為最終識別結(jié)果.
圖2 MWNN識別過程及其子網(wǎng)絡(luò)拓撲Fig.2 Recognition processing flow and sub-networks of WMNN
圖2(b)顯示了MWNN 的5 個子網(wǎng)絡(luò)的結(jié)構(gòu),每個子網(wǎng)絡(luò)都為3 層網(wǎng)絡(luò),由5 個節(jié)點的輸入層、12 個節(jié)點的中間層以及1 個輸出節(jié)點的輸出層構(gòu)成.當訓(xùn)練時,輸出節(jié)點值為0.99 或0.01 的一個邏輯量,如果輸入的情感語句與對應(yīng)的情感子網(wǎng)絡(luò)相匹配,則輸出值為0.99,否則為0.01.用5 個單獨的子網(wǎng)絡(luò)對應(yīng)5 種測試的情感,使得每個網(wǎng)絡(luò)能夠單獨調(diào)整.如果能夠只改變單獨的1 個子網(wǎng)絡(luò)參數(shù),而不需要對整個網(wǎng)絡(luò)進行調(diào)整,對于提高神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)效率與更新特征參數(shù)都是非常有利的.為了提高學(xué)習(xí)效率,加快收斂速度,采用增加動量梯度下降的學(xué)習(xí)算法有式中α為動量系數(shù),一般有α∈ (0,1).動量項反映了以前積累的經(jīng)驗,對于t 時刻的調(diào)整起阻尼作用.關(guān)于小波基函數(shù)的選取,目前尚無統(tǒng)一理論方法,通常依據(jù)經(jīng)驗及實際情況而定,也可借鑒小波分析中的經(jīng)驗,較早提出的Morlet 小波cos(1.75x )e-0.5x2(該小波為有限支撐、對稱、余弦調(diào)制的高斯波)已被廣泛用于特征提取、圖像壓縮、分類等領(lǐng)域,本文基于這種思想,選取Morlet 小波作為網(wǎng)絡(luò)隱層的激活函數(shù).
1.4.1 傳統(tǒng)的融合算法及改進
1) 無差別投票法
傳統(tǒng)的投票法采用少數(shù)服從多數(shù)的原則,一般來說分類器多于2個,且為奇數(shù),避免出現(xiàn)票數(shù)相等的情況.由于考慮工程應(yīng)用的實時性,本文只選擇了2 個分類器,且性質(zhì)不同.MWNN 基于非線性函數(shù)擬合,其值較大,接近1;GMMs基于概率統(tǒng)計,其值較?。邤?shù)量級不匹配,因此要進行改進,規(guī)則為:① 2 個分類器意見統(tǒng)一時直接輸出;② 意見不統(tǒng)一時,則先對GMMs 的輸出結(jié)果匹配化處理(式(8)),使GMMs與MWNN 輸出數(shù)量級匹配,然后輸出大者勝出.
式中n=1,2,3,4,5.
2) 求和法
傳統(tǒng)的求和法為
為了改進效果,將GMMs 的輸出用式(8)匹配,則
求積法和單系數(shù)融合法也用上述方法改進.
3) 改進的求積法
4) 層疊泛化算法
層疊泛化算法即為引入二級分類器對一級多分類器的結(jié)果進行仲裁.本文引入的二級分類器為收斂速度比較快的BP神經(jīng)網(wǎng)絡(luò),其為3 層網(wǎng)絡(luò),由10 個節(jié)點的輸入層、12個節(jié)點的中間層以及5 個輸出節(jié)點的輸出層構(gòu)成.訓(xùn)練時,將每個訓(xùn)練樣本經(jīng)過MWNN與GMMs 的輸出組成一個10 維的向量來構(gòu)成此2 級BP 分類器的訓(xùn)練樣本集,輸出節(jié)點值為0.99 或0.01的一個邏輯量,如果輸入的情感語句與對應(yīng)的情感子網(wǎng)絡(luò)相匹配,則輸出值為0.99,否則為0.01.
5) 改進的單系數(shù)融合算法
1.4.2 基于GA 的雙模融合算法
1) 分類器輸出匹配化處理
由于GMMs 模型的各個子模型得到的似然估計是個非常小的正數(shù),而MWNN 模型的各個子網(wǎng)絡(luò)得到的是介于(0,1)之間的一個較大的正整數(shù),直接融合效果不佳,本文使用式(8)匹配化處理.
2) 建立適應(yīng)度函數(shù)(目標函數(shù))
設(shè)輸入的測試樣本屬于m 類,則GA 搜索的適應(yīng)度函數(shù)為
為了簡化運算,加入約束條件:①0.01 ≤λn≤1 .00;②λn只能取0.01 的整數(shù)倍;③采用十進制編碼.
3)信息融合
利 用 融 合 系 數(shù)(λ1,λ2,λ3,λ4,λ5)對 匹 配 化 后 的GMMs 及WMNN 的輸出結(jié)果進行融合,即
邀請了3 位富有表演天賦的同學(xué)(分別用M1、F1、F2 表示)來完成情感音頻、視頻聯(lián)合數(shù)據(jù)庫錄制,錄制者正臉對著攝像頭,近距離對話筒以5 種不同的情感來朗讀筆者準備好的30 條情感短句.其中音頻文件錄制要求嘴唇到話筒距離2~3,cm,采樣頻率11,025,Hz,16 位量化精度,單聲道,并以WAV 格式保存.視頻文件采用Sony 攝像頭錄制,人臉距攝像頭50,cm,25 幀/s,并以AVI 格式存儲.錄制結(jié)束,音頻文件要用Cool Edit Pro 1.2a 進行適當?shù)仡A(yù)處理,視頻文件用AD Video Processor 軟件將AVI 視頻轉(zhuǎn)成連續(xù)的BMP 格式圖片保存.最后還要進行語音庫、圖片庫情感成分測試,測試結(jié)束,只有符合要求的語句與圖片被保留,其他被刪除,并將語音文件與圖片序列關(guān)聯(lián)保存,作為最后訓(xùn)練與測試的樣本.圖3 為M1以“高興”情感朗讀“過來”這個語句的聯(lián)合樣本.
2.2.1 語音韻律特征
實驗采用短時分析法來分析語音特征,一幀的短時特征為
式中:s(n)為語音信號;w(m-n)為幀長為N的窗體[11].實驗最終選擇語速、能量最大值、能量均值、極點數(shù)、基音頻率和最大共振峰作為韻律參數(shù),每一幀的短時能量和過零率分別為
2.2.2 人臉幾何特征
本文應(yīng)用數(shù)學(xué)形態(tài)學(xué)和點輪廓檢測法[12](point contour detection method,PCDM)獲取眼睛、嘴、眉毛和鼻子這4 個正面特征器官的正確輪廓.該方法在提取特征之前,應(yīng)用數(shù)學(xué)形態(tài)學(xué)技術(shù)產(chǎn)生邊界強度圖像,結(jié)合原圖、先驗知識,給面部器官定位.定義原始圖像為I,邊界強度圖像為edgeφ.
式中:dilation 為膨脹操作;erosion 為腐蝕操作.圖4為實驗中“高興-過來” 表情圖片的處理結(jié)果.
圖4 表情圖片輪廓提取過程Fig.4 Contour extraction processing flow of facial expres-Fig.4 sion
按照上述的方法,每張表情圖片提取20 個面部特征點來描述上述4 個特征器官的位置和形狀,其中每條眉毛3 個點,每只眼4 個點,鼻子2 個點,嘴巴4個點,坐標原點取眉心處.
為了體現(xiàn)視頻分幀后的表情圖片的時序特性,每張(幀)表情圖片先用20×2 的向量表示,然后進行向量拉直為40×1 向量,這些向量作為一次樣本,引入一階差分特征、二階差分特征,形成二次樣本;將這些樣本集合起來,經(jīng)過PCA 降維后形成20 維的樣本集,作為最終的GMMs 訓(xùn)練、識別樣本集.
2.3.1 泛化能力
分類器在工程應(yīng)用中最為核心的問題就是它的泛化性能(推廣能力),即訓(xùn)練完成后的模型對測試樣本或工作樣本做出正確反應(yīng)的能力,沒有泛化能力的分類器便沒有任何價值.
由圖5 可見,傳統(tǒng)的融合算法如果不匹配化處理,如傳統(tǒng)求和法得到的識別率與單獨MWNN 是一樣的(50 樣本時均為82%,100 樣本時均為84%),這是因為基于統(tǒng)計規(guī)律的分類器GMMs 輸出結(jié)果很小,加到MWNN 的輸出結(jié)果上并不能起到改進的效果.經(jīng)過分類器匹配化處理后,求和法、求積法和投票法識別率都得到提高,雖然層疊泛化算法效果也比較好,但無論是小訓(xùn)練樣本(50 個訓(xùn)練樣本),還是大訓(xùn)練樣本(100 個訓(xùn)練樣本),基于新的GA 融合算法在相同條件下都能獲得更高的識別率,分別為92%和94%,因而具有更強的泛化能力.
圖5 各種算法的泛化能力Fig.5 Generalization ability of various algorithms
2.3.2 識別率
圖6中所有的識別結(jié)果都是以100 個樣本進行訓(xùn)練,50 個樣本進行測試,不難發(fā)現(xiàn),對于3 位測試者(M1、F1、F2),都存在如下規(guī)律.
(1) 對于分類器匹配化,傳統(tǒng)的融合算法中求和法則與求積法則受分類器性質(zhì)的影響最大,如果不匹配化輸出,則結(jié)果與單獨MWNN 一樣,基本不會有任何改善;投票法、直接融合算法雖然也受影響,但影響不大,匹配化后識別率也會有一定的提升;分類器性質(zhì)對層疊泛化這種傳統(tǒng)融合算法基本不會有任何影響,所以這種算法不需要匹配化輸出.
(2) 對于識別率,在傳統(tǒng)的融合算法中,層疊泛化算法是最高的,其次是改進后的直接融合算法,經(jīng)過輸出匹配后,求和法、求積法、投票法各有千秋,其中求和法與投票法識別率相對比較穩(wěn)定,而求積法更容易受數(shù)據(jù)庫的影響(對于F1 識別率在三者中最低,到了F3 則變?yōu)樽罡?.
對于所有測試者,圖6 還顯示了一個更為明顯的結(jié)論:相比于單模態(tài)或其他的分類器融合算法,基于新的GA 融合算法在相同條件下都能獲得更高的識別率, F1 為94%、F2 為92%、M1 為90%.
圖6 各種算法的識別率Fig.6 Recognition rate of various algorithms
為了提高識別率和泛化能力,筆者從音頻、視頻兩方面來提取特征參數(shù)(語音韻律參數(shù)與人臉幾何參數(shù)),選擇了差異性強的MWNN和GMMs 分類器,并匹配化了分類器輸出,提取表情圖片特征的一階、二階差分特征向量對GMMs 進行時序化補償,引入了GA 算法來搜索最優(yōu)的融合系數(shù)向量,充分發(fā)揮各分類器本身對特定情感的敏感特性,提高了融合效率.
為了更貼近工程運用,并最終應(yīng)用于智能機器寵物,GMMs 只引入4 個基本高斯分布來簡化模型,MWNN 每個子網(wǎng)絡(luò)均采用單隱層,5 個輸入節(jié)點,單輸出節(jié)點的簡單網(wǎng)絡(luò)拓撲結(jié)構(gòu),WMNN、GMMs 均為5個獨立的子模型構(gòu)成,每個模型對應(yīng)一種情感,當系統(tǒng)進行反饋學(xué)習(xí)時,只要調(diào)節(jié)相應(yīng)的子模型即可,簡化了再學(xué)習(xí)過程.特征提取后,利用PCA 進行降維處理,降低系統(tǒng)的計算復(fù)雜度,WMNN 采用增加動量梯度下降的學(xué)習(xí)算法來提高收斂速度,提高系統(tǒng)的實時性.筆者根據(jù)識別結(jié)果加入一個反饋再學(xué)習(xí)環(huán)節(jié),因此分類器模型不是固定不變的,而是隨著時間更新而動態(tài)變化,這樣才符合人類情緒表達方式會隨著時間推移而變化的事實.
[1]Fragopanagos N,Taylor J G. Emotion recognition in human-computer interaction[J].Neural Networks,2005,18(4):389-405.
[2]Bosch L. Emotions speech and the ASR framework[J].Speech Communication,2003,40(1/2):213-225.
[3]Cowie R,Douglas-Cowie E,Tsapatsoulis N,et al. Emotion recognition in human-computer interaction[J].IEEE Signal Processing Magazine,2001,18(1):32-80.
[4]Morrison D,De Silva L C. Voting ensembles for spoken affect classification[J].Journal of Network and Computer Applications,2007,30(4):1356-1365.
[5]France D J,Shiavi R G,Silverman S,et al. Acoustical properties of speech as indicators of depression and suicidal risk[J].IEEE Trans Biomed Eng,2000,47(7):829-837.
[6]Morrison D,Wang Ruili, De Silva L C. Ensemble methods for spoken emotion recognition in call-centres[J].Speech Communication,2007,49(2):98-112.
[7]Bhatti M W,Wang Y,Guan L. A neural network approach for human emotion recognition in speech[C]//IEEE International Symposium on Circuits and System. Canada,2004:181-184.
[8]Murry I R,Arnott J L. Applying an analysis of acted vocal emotions to improve the simulation of synthetic speech[J].Computer Speech and Language,2008,22(2):107-129.
[9]林弈琳,韋 崗,楊康才. 語音情感識別的研究進展[J]. 電路與系統(tǒng)學(xué)報,2007,12(1):90-98.Lin Yilin,Wei Gang,Yang Kangcai. A survey of emotion recognition in speech[J].Journal of Circuits and Systems,2007,12(1):90-98(in Chinese).
[10]Huang Yongming,Zhang Guobao,Xu Xiaoli. Speech emotion recognition research based on wavelet neural network for robot pet[C]// 5th International Conference on Intelligent Computing.Korea,2009:993-1000.
[11]Ververidis D,Kotrropoulos K. Emotional speech recognition:Resource,features,and methods[J].Speech Communication,2006,48(9):1162-1181.
[12]Chang J Y,Chen J L. Automated facial expression recognition system using neural networks[J].Journal of the Chinese Institute of Engineer,2000,24(3):345-356.