邵兵 杜鵬飛
摘 要:語(yǔ)音是人與人之間最直接、最自然的交互途徑,也是人機(jī)交互的重要方式。在人工智能領(lǐng)域,對(duì)語(yǔ)音的情感識(shí)別和理解至關(guān)重要,而一般的語(yǔ)音識(shí)別系統(tǒng)在實(shí)現(xiàn)語(yǔ)音轉(zhuǎn)文字時(shí)往往損失了很多的語(yǔ)音情感信息。該文介紹一種利用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行語(yǔ)音情感識(shí)別的方法。論文首先從心理學(xué)與人工智能的角度討論了情感計(jì)算的框架和語(yǔ)音情感識(shí)別的方法,然后介紹了語(yǔ)音的關(guān)鍵特征提取和歸一化問(wèn)題,通過(guò)40組濾波器來(lái)提取每一幀音頻的數(shù)據(jù),之后通過(guò)構(gòu)建卷積神經(jīng)網(wǎng)絡(luò),對(duì)輸入的音頻特征進(jìn)行逐層訓(xùn)練,通過(guò)特征的逐層表達(dá)實(shí)現(xiàn)高層顯著特征的凸顯,最終產(chǎn)生語(yǔ)音情感分類的模型,最后通過(guò)一定的數(shù)據(jù)集,對(duì)分類模型進(jìn)行驗(yàn)證。
關(guān)鍵詞:卷積神經(jīng)網(wǎng)絡(luò) 語(yǔ)音情感識(shí)別 語(yǔ)音特征提取 情感計(jì)算
中圖分類號(hào):TN912.34;TP183 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1674-098X(2016)02(c)-0087-04
1 情感識(shí)別框架研究
創(chuàng)造具備自我認(rèn)知和自我意識(shí)的強(qiáng)人工智能一直是人工智能研究人員的終極目標(biāo)。從心理學(xué)的角度來(lái)講認(rèn)知、意識(shí)和情感是緊密相連和相互作用的。(見(jiàn)圖1)
情感是智能的本源。研究情感計(jì)算對(duì)真正強(qiáng)人工智能的誕生,對(duì)人類認(rèn)知、意識(shí)和高等生命體本質(zhì)的研究起著重要作用。但是在人工智能最開(kāi)始的研究階段,研究的重點(diǎn)主要是推理、語(yǔ)音識(shí)別、圖像分類等領(lǐng)域。雖然有科學(xué)家提出情感對(duì)人工智能的發(fā)展重要性,但是一直沒(méi)有引起足夠的認(rèn)識(shí)。直到1995年MIT的Picard教授才正式提出情感計(jì)算概念,研究賦予機(jī)器像人一樣觀察、理解和生成各種情感特征的能力。情感計(jì)算主要研究如何將人的情感進(jìn)行數(shù)字化和量化。主要方向包括情感識(shí)別和表示、情感的合成、情感系統(tǒng)的建模等。在情感識(shí)別方面主要又包括基于生理體征,例如心率信號(hào)、皮膚電信號(hào)、腦電信號(hào)等進(jìn)行的識(shí)別和基于人體表征,例如表情圖片、語(yǔ)音進(jìn)行的識(shí)別。近年來(lái)語(yǔ)音情感識(shí)別領(lǐng)域(SER, Speech Emotion Recognition)吸引了越來(lái)越多的人進(jìn)行研究,而且目前大部分的自動(dòng)語(yǔ)音識(shí)別(ASR,Automatic Speech Recognition)系統(tǒng)尚不能有效地識(shí)別語(yǔ)音的情感特性。這導(dǎo)致在語(yǔ)音與文本進(jìn)行轉(zhuǎn)化時(shí)造成了很大一部分信息的流失,所以研究語(yǔ)音情感識(shí)別問(wèn)題非常重要。
語(yǔ)音情感識(shí)別的關(guān)鍵技術(shù)包括:情感庫(kù)的建立、語(yǔ)音情感特征提取、特征降維與選擇、情感識(shí)別[1]。(見(jiàn)圖2)
該研究首先采用40組濾波器組對(duì)音頻轉(zhuǎn)化的頻域數(shù)據(jù)進(jìn)行特征提取。對(duì)訓(xùn)練的音頻數(shù)據(jù)進(jìn)行分幀截取操作。然后采用卷積神經(jīng)網(wǎng)絡(luò),通過(guò)自稀疏編碼的方式對(duì)原始數(shù)據(jù)進(jìn)行逐層的特征抽取,從初級(jí)層次特性至到產(chǎn)生高層次的有效特征。最后對(duì)提取的高層次有效特征采用SoftMax回歸分類器進(jìn)行有效分類。
2 情感語(yǔ)音信號(hào)的特征抽取
2.1 語(yǔ)音情感特征概述
語(yǔ)音情感識(shí)別問(wèn)題本質(zhì)上是一個(gè)機(jī)器分類問(wèn)題,對(duì)于機(jī)器分類問(wèn)題,特征的選擇與提取非常重要,目前來(lái)說(shuō)在語(yǔ)音情感識(shí)別領(lǐng)域有效特征大體分為如下幾類。
2.1.1 基于聲學(xué)的特性
包括語(yǔ)音的基頻特性、共振峰、短時(shí)能量、短時(shí)能量峰值和基頻倒譜以及梅爾倒譜等特性。
2.1.2 基于文本的特性
通過(guò)ASR系統(tǒng)進(jìn)行文本轉(zhuǎn)化后,對(duì)提取的文本進(jìn)行處理,提取有效詞頻特征信息。
2.1.3 基于聲學(xué)和語(yǔ)言學(xué)混合特性
結(jié)合音頻的聲學(xué)特性和文本特性進(jìn)行綜合識(shí)別。
2.2 音頻特征提取的主要方法
語(yǔ)音信號(hào)處理領(lǐng)域通過(guò)對(duì)原始的頻譜特征進(jìn)行變換產(chǎn)生的波形非常多。過(guò)去雖然對(duì)原始頻譜進(jìn)行變換丟失了不少的語(yǔ)音數(shù)據(jù)信息,但是產(chǎn)生的多種變換特征促進(jìn)了語(yǔ)音識(shí)別和語(yǔ)音情感分類系統(tǒng)的識(shí)別率提升。比較典型的除了短時(shí)平均幅值、短時(shí)最大幅值、共振峰、基頻等,被應(yīng)用最多的為梅爾頻率倒譜系統(tǒng)(MFCC)特征。梅爾頻率倒譜系數(shù)將人耳的聽(tīng)覺(jué)感知特性和語(yǔ)音信號(hào)的產(chǎn)生機(jī)制有機(jī)結(jié)合,其通過(guò)對(duì)頻譜能量譜用三角濾波變換后得到濾波器組,然后取對(duì)數(shù),最后進(jìn)行反離散余弦得到MFCC,在語(yǔ)音情感分類領(lǐng)域利用39維的MFCC系數(shù)取得了一定的突破,但是MFCC丟失了很多原始信息,而利用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行學(xué)習(xí)時(shí)越原始的數(shù)據(jù)帶來(lái)越好的效果。原始頻域不僅保留更多的信息,而且可以使用卷積和池化(pooling)操作表達(dá)處理語(yǔ)音多變性。這里根據(jù)Sainath等人[2]提出的通過(guò)學(xué)習(xí)定義在能量譜上的濾波器數(shù)組參數(shù)作為輸入特征。(見(jiàn)圖3)
(1)具體處理過(guò)程如下:
(2)首先讀取音頻時(shí)域數(shù)據(jù)和采樣率。
(3)對(duì)時(shí)域數(shù)據(jù)進(jìn)行分幀處理。
(4)對(duì)分幀數(shù)據(jù)加漢明窗。
(5)進(jìn)行傅立葉變換轉(zhuǎn)化為頻域數(shù)據(jù)。
(6)利用濾波器組進(jìn)行變換每一幀得到40組梅爾濾波器組特征。
(7)進(jìn)行歸一化操作。
(8)對(duì)音頻進(jìn)行裁剪,裁剪的音頻幀數(shù)為40。
3 使用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行音頻情感分類
3.1 卷積神經(jīng)網(wǎng)絡(luò)
人工神經(jīng)網(wǎng)絡(luò)提出于20世紀(jì)80年代,由單層感知機(jī)逐步發(fā)展為多層感知機(jī),它從信息處理角度對(duì)人腦的神經(jīng)元進(jìn)行抽象。大量的節(jié)點(diǎn)之間相互連接,每個(gè)節(jié)點(diǎn)都有特定的激勵(lì)函數(shù)。在早期發(fā)展階段,由于梯度爆炸問(wèn)題和計(jì)算能力有限,神經(jīng)網(wǎng)絡(luò)的發(fā)展一直停滯。2006年Hinton提出了深度置信網(wǎng)絡(luò)(Deep Belief Network,DBN)的深度產(chǎn)生模式[3]。使用這種算法可以更好地初始化DNN的訓(xùn)練,從而開(kāi)啟了深度學(xué)習(xí)發(fā)展的新篇章。
卷積神經(jīng)網(wǎng)絡(luò)(Convolution Neural Network)為深度學(xué)習(xí)在目標(biāo)識(shí)別和分類領(lǐng)域的較早應(yīng)用。近年GPU計(jì)算能力增加和海量業(yè)務(wù)數(shù)據(jù)的出現(xiàn),使得大規(guī)模的CNN在機(jī)器視覺(jué)和語(yǔ)音分類等領(lǐng)域得到了廣泛應(yīng)用。
卷積神經(jīng)網(wǎng)絡(luò)本質(zhì)是一種前饋神經(jīng)網(wǎng)絡(luò),卷積神經(jīng)網(wǎng)絡(luò)有3種結(jié)構(gòu)上的特征:局部連接、權(quán)重共享以及空間或時(shí)間上的次采樣。卷積神經(jīng)網(wǎng)絡(luò)的層與層之間采用局部連接,減少了計(jì)算量。
卷積神經(jīng)網(wǎng)絡(luò)的層與層之間的連接權(quán)值是共享的,比如圖4中的m層與m-1層,每個(gè)m層神經(jīng)元與3個(gè)m-1層的神經(jīng)元進(jìn)行連接,這個(gè)3個(gè)連接的權(quán)值是一樣的。實(shí)際應(yīng)用中,可以通過(guò)設(shè)置多種不同的濾波器來(lái)提取不同的濾波參數(shù),從而實(shí)現(xiàn)提取不同的目標(biāo)特征。例如對(duì)于圖像而言,就是提取不同的圖像邊緣。在卷積神經(jīng)網(wǎng)絡(luò)中隱藏層的參數(shù)個(gè)數(shù)和隱藏層的神經(jīng)元個(gè)數(shù)無(wú)關(guān),只和濾波器大小和濾波器的種類有關(guān)系。
卷積神經(jīng)網(wǎng)絡(luò)除了局部連接和權(quán)值共享的特性,糾正線性單元(ReLU,Rectified Linear Units)激活函數(shù)也保證了實(shí)際訓(xùn)練中的單邊抑值和稀疏特性,同時(shí)為了保證泛化特性,采用L2/L1正則化范數(shù)作為激活偏置。
3.2 具體實(shí)現(xiàn)
(1)輸入層:輸入按幀數(shù)進(jìn)行裁剪的音頻40×40。
(2)卷積層1:濾波器大小為3×3,共有20個(gè)濾波器,得到20個(gè)大小為36×36的特征映射。
(3)池化層1:卷積層1后面跟著子采樣層。子采樣層的目的是減少特征映射的神經(jīng)元個(gè)數(shù)。通過(guò)池化操作,可以大大降低特征的維數(shù),避免過(guò)擬合。最大子采樣函數(shù)的定義為:
(1)
該層采用最大子采樣方法,由特征映射中2×2的領(lǐng)域點(diǎn)采樣為1個(gè)點(diǎn),也就是4個(gè)數(shù)中最大的。最終的特征映射數(shù)目為18×18。
(4)卷積層2:濾波器大小為3×3,采用40組濾波,最終特征映射的數(shù)目為16×16。神經(jīng)元的個(gè)數(shù)共有40×16×16=10240。
(5)池化層2:采用2×2的池化操作,特征映射數(shù)目為8×8。
(6)卷積層3:采用的濾波器大小為3×3,采用60組濾波器,最終特征映射的數(shù)目為6×6,神經(jīng)元的個(gè)數(shù)為60×6×6。
(7)池化層3:得到特征映射數(shù)目為3×3。
(8)卷積層4:采用濾波器大小為2×2,采用80組濾波。特征映射數(shù)目為2×2。
(9)全聯(lián)接層:共有80×2×2=320個(gè)神經(jīng)元。
(10)輸出層:通過(guò)softmax回歸算法將特征映射到目標(biāo)的6個(gè)分類。softmax是logistic回歸的多類形態(tài)。利用softmax函數(shù)定義目標(biāo)y=c的后驗(yàn)概率為:
(2)
對(duì)于樣本(x,y),輸出目標(biāo)y={1,…,C}。我們用C維的one-hot向量表示輸出目標(biāo)。對(duì)于類別C
(3)
具體表現(xiàn)見(jiàn)圖5。
4 測(cè)試與驗(yàn)證
驗(yàn)證采用CASIA漢語(yǔ)情感語(yǔ)料庫(kù)。該數(shù)據(jù)庫(kù)由中科院自動(dòng)化所錄制,由4位錄音人(兩男兩女)在純凈錄音環(huán)境下(信噪比約為35 dB)分別在5類不同情感下(高興、悲哀、生氣、驚嚇、中性)對(duì)500句文本進(jìn)行演繹而得到,16 kHz采樣,16 bit量化。經(jīng)過(guò)聽(tīng)辨篩選,最終保留其中9 600句。
輸出結(jié)果測(cè)試:見(jiàn)圖6。
在epoch次數(shù)為200時(shí)準(zhǔn)確率達(dá)到81%。
參考文獻(xiàn)
[1] 詹永照.視覺(jué)語(yǔ)音情感識(shí)別[M].北京:科學(xué)出版社,2013.
[2] T.Sainath,B.Kingsbury,A.Mohamed,etal.Learningfilter banks within a deep neural network framework[M].In Proceedingsof The Automatic Speech Recognition and Understanding Workshop(ASRU).2013.
[3] G.Hinton,S.Osindero,Y.Teh.A fast learning algorithm for deepbelief nets[J].Neural Computation,2006(18):1527-1554.
[4] 韓文靜,李海峰,阮華斌,等.語(yǔ)音情感識(shí)別研究進(jìn)展綜述[J].軟件學(xué)報(bào),2014,25(1):37-50.