余 華,章勤杰,趙 力
(1.江蘇開放大學(xué),南京 210065;2.東南大學(xué)信息科學(xué)與工程學(xué)院,南京 210096)
語音情感識別算法中新型參數(shù)研究*
余 華1*,章勤杰2,趙 力2
(1.江蘇開放大學(xué),南京 210065;2.東南大學(xué)信息科學(xué)與工程學(xué)院,南京 210096)
語音情感識別是實(shí)現(xiàn)智能人機(jī)交互的關(guān)鍵技術(shù)之一。然而,用于語音情感識別的語音情感特征十分有限。為此,提出一種新型的語譜圖顯著性特征來改善語音情感識別效果。識別算法利用選擇性注意模型獲取語音信號語譜圖像的顯著圖,并從中提取顯著性特征,結(jié)合語音信號傳統(tǒng)的時頻特征構(gòu)成語音情感識別特征向量。最后,利用KNN分類方法進(jìn)行語音情感識別。實(shí)驗(yàn)結(jié)果表明,加入顯著性特征后識別率有明顯提升。
語音情感識別;顯著性特征;KNN分類
當(dāng)今世界科技水平高速發(fā)展,人們也對計算機(jī)提出了更多要求。在智能人機(jī)交互系統(tǒng)構(gòu)建中,語音情感識別已成為關(guān)鍵技術(shù)之一。對語音信號的情感分析,使得人機(jī)交互更加流暢[1-2]。智能人機(jī)交互系統(tǒng)通過對操作者的情感進(jìn)行分析,可以更主動、更準(zhǔn)確的去完成操作者的指示,并實(shí)時調(diào)整對話的方式,使交流變得更加友好、和諧和智能[3]。此外對單調(diào)的、高強(qiáng)度的任務(wù)中,執(zhí)行人員的某些負(fù)面情緒監(jiān)測具有使用價值。因此,對語音信號情感識別的研究仍具有重要意義。
本文針對語音情感識別中特征參數(shù)的構(gòu)造問題,提出基于語音信號語譜圖的新型特征參數(shù)提取方法,并用于構(gòu)建語音情感識別算法。算法利用語譜圖像的顯著性特征提取用于情感識別的特征參數(shù),構(gòu)建情感識別特征參數(shù)向量,最后利用KNN分類算法建立語音情感識別算法。
語音信號是一種典型的非平穩(wěn)信號。但是,由于語音的形成過程是與發(fā)音器官的運(yùn)動密切相關(guān)的,這種物理運(yùn)動比起聲音振動速度來要緩慢的多,因此語音信號常常可假定為短時平穩(wěn)的,即在10 ms~30 ms這樣的時間段內(nèi),其頻譜特性和某些物理特征參量可近似地看作是不變的。這樣就可以采用平穩(wěn)過程的分析處理方法來對其進(jìn)行處理。語音信號的特征計算都是以幀為單位進(jìn)行的。一般來說,語音中的情感特征往往通過語音韻律的變化表現(xiàn)出來。例如,當(dāng)一個人發(fā)怒的時候,講話的速率會變快,音量會變大,音調(diào)會變高等,這些都是人們直接可以感覺到的。因此在語音情感識別中,韻律特征起著非常重要的作用,而韻律特征往往用語音的時域特征表示。進(jìn)行語音情感識別時,首先要對輸入的語音數(shù)據(jù)進(jìn)行預(yù)處理,然后計算特征參數(shù),再利用特定的模式匹配算法把這些特征參數(shù)與語音信息庫中的標(biāo)準(zhǔn)情感語句的參數(shù)相匹配,最后得到語音的情感類型。語音情感識別的整體流程如圖1所示。
圖1 語音情感識別流程圖
語音信號具有短時平穩(wěn)性。語音信號經(jīng)過與處理之后,進(jìn)行加窗分幀處理,能夠有效利用語音信號的短時平穩(wěn)性進(jìn)行特征提取和分析。把原始的語音信號與特定的窗函數(shù)w(n)相乘得到加窗語音信號xw(n)=x(n)w(n)。
用En表示第n幀語音信號xn(m)的短時能量,定義:
(1)
從En的表達(dá)是可以看出,當(dāng)語音信號中存在一個較高的采樣值時,這個異值會使得短時能量很高,造成一定的誤導(dǎo)。為了消除這中噪聲敏感的特性,我們用短時平均幅度函數(shù)An來刻畫信號幅值的變化,其計算公式如下:
(2)
從短時能量和短時平均幅度兩者的計算公式可以看出,前者對于信號的最值反應(yīng)很敏感,單個的采樣結(jié)果對最終的短時能量的影響突出;而后者這種敏感性較低。
定義語音信號xn(m)的短時過零率Zn為:
(3)
式中:sgn[ ]是符號函數(shù)。
相關(guān)分析經(jīng)常會在信號的時域分析中用到,有自相關(guān)和互相關(guān)的分別。我們主要討論自相關(guān)函數(shù)。定義第n幀語音信號xn(m)的短時自相關(guān)函數(shù)為:
(4)
Rn(k)不為零的范圍為k=(-N+1)~(N-1),為偶函數(shù)。
本文將普遍存在于人類感知領(lǐng)域中的聽覺和視覺選擇性注意機(jī)制引入到情感語音的特征提取當(dāng)中。利用選擇性注意模型[4,7]對語音信號的語譜圖像進(jìn)行顯著性分析。模型首先將圖像進(jìn)行分解,提取視覺特征(顏色、強(qiáng)度和方向),并進(jìn)行中心周圍差和歸一化運(yùn)算得到各特征圖;將個尺度的特征度跨尺度融合得到各通道的關(guān)注圖;最后將個關(guān)注圖跨通道合并得到顯著圖。分析情感語音語譜圖像的顯著圖,提取特征參數(shù)用于情感識別。
3.1 顯著圖計算
首先對圖像進(jìn)行分解,得到不同尺度的圖像,這過程稱為對尺度濾波。通過將圖像與線性分解高斯核(6×6的高斯核[1,5,10,10,5,1]/32)進(jìn)行卷積運(yùn)算來完成分解,這也被形象的稱為高斯金字塔分解。各層高斯金字塔分解圖像之間的關(guān)系可用如式(5)表示:
I(σ+1)=I(σ)/2
(5)
式中:σ為層數(shù)、I(σ)代表第σ層卷積分解圖像。根據(jù)卷積結(jié)果算出各層上的分解圖像。之后,在不同尺度的的圖像上提取圖像的顏色、亮度和方向特征,分別形成顏色、亮度和方向金字塔序列圖像。
3.1.1 顏色特征高斯金字塔分解圖
r、g、b分別表示一幅彩色圖像中紅、綠、藍(lán)分量值,根據(jù)德國生理學(xué)家赫林提出的拮抗色學(xué)說,用R-G和B-Y的拮抗作用來模表示顏色信息對最終顯著圖的貢獻(xiàn),這兩對顏色對相應(yīng)的高斯金字塔分解圖像由如下公式算得:
PR-G(σ)=(r-g)/max(r,g,b)
(6)
PB-Y(σ)=(b-min(r,g))/max(r,g,b)
(7)
式中:PR-G(σ)和PB-Y(σ)分別表示R-G和B-Y顏色對在對應(yīng)尺度σ圖像上的高斯金字塔分解圖。
3.1.2 亮度特征高斯金字塔分解圖
模型中的亮度特征通道的高斯金字塔分解圖像可以簡單地由圖像的r、g、b分量的平均值來表示:
PI(σ)=(r+g+b)/3
(8)
式中:PI(σ)表示在相應(yīng)尺度σ上的高斯金字塔分解圖像。
3.1.3 方向特征高斯金字塔分解圖
圖像的方向特征可以通過二維Gabor方向?yàn)V波器來提取。Gabor濾波器與人類視覺系統(tǒng)中簡單細(xì)胞的視覺刺激響應(yīng)非常相似,可以很好的模擬視網(wǎng)膜感受野方向選擇的機(jī)制。將濾波器與相應(yīng)尺度的圖像進(jìn)行卷積得到方向通道的高斯金字塔分解圖。
Pθ(σ)=|PI(σ)*G0(θ)|+|PI(σ)*Gπ/2(θ)|
(9)
不同尺度上,不同方向角度的方向特征高斯金字塔分解圖即可由上式計算出來。
得到各特征通道的子關(guān)注圖像之后,經(jīng)過一定的合并策略將這些子關(guān)注圖合并成3個通道對應(yīng)的關(guān)注圖:顏色關(guān)注圖、亮度關(guān)注圖與方向關(guān)注圖,將這3幅關(guān)注圖求和平均后即得到最終的顯著圖像。
3.2 顯著圖分析
根據(jù)上述的顯著圖計算方法,我們對不同情感語音信號語譜圖對應(yīng)的顯著圖進(jìn)行分析。
分析結(jié)果如表1。
表1 各情感類型顯著圖灰度級分布比例
從表1可以看出,3種情感語音信號顯著圖的0~150灰度級所占比例均在90%以上,說明各情感顯著圖的灰度大部分都集中在0~150這個范圍內(nèi)。為了體現(xiàn)各情感語音信號顯著圖間的差異,我們選取0~100灰度范圍所占比例作為衡量灰度級分布的參數(shù)用于情感識別。
圖2 顯著圖中Sv(a)和Sh(b)對應(yīng)的圖像
顯著圖中較為明亮的部分對應(yīng)于語譜圖中有效譜線對應(yīng)的部分,能量越高的部分對應(yīng)于顯著圖中越明亮的部分?;谶@樣的一個事實(shí)我們對顯著圖進(jìn)行一些處理,劃分出兩類面積:一類是語譜圖中有效譜線對應(yīng)的面積,我們用Sv表示;一類是語譜圖在顯著圖中比較突出的部分對應(yīng)的面積,我們用Sh表示。顯著圖中Sv和Sh對應(yīng)關(guān)系如圖2所示。
將Sh和Sv的比值Ss作為顯著圖第2參數(shù),并將其用于后續(xù)的情感識別算法中。
本文的情感識別算法采用語音信號傳統(tǒng)時域特征和語譜圖顯著性特征相結(jié)合的方法構(gòu)建特征參數(shù)向量。所采用的特征參數(shù)向量包括:語譜圖顯著圖灰度分布參數(shù)、顯著圖面積比參數(shù)、能量、幅度、過零率和基音頻率這6種參數(shù)作為識別模型的特征參數(shù)向量進(jìn)行識別。
實(shí)驗(yàn)中我們使用到的情感語音信號四名錄制者(男女各兩名),語音內(nèi)容為20句不同的話語,每位錄制者分別對這20句話用不同的情感表達(dá),采用專業(yè)的錄音工具錄制而得。每種情感含有80個樣本語音,每個語音樣本的采樣率為11 025 Hz,以16 bit、“.wav”的格式保存于PC機(jī)中。從錄制完的語音情感庫中每種情感選取120個樣本作為訓(xùn)練樣本集,也即標(biāo)本庫。選取剩余120句作為測試樣本集,也即待測庫。
識別測試中我們使用KNN分類算法進(jìn)行識別[8]。并對僅使用四維時域特征(基頻、能量、幅度和過零率)和使用六維特征(加入兩個顯著圖參數(shù):顯著圖分布參數(shù)和顯著圖面積比)兩種情況下的識別率進(jìn)行對比。
4.1 四維特征識別率和六維特征識別結(jié)果對比
在不使用顯著性參數(shù)的情況下,構(gòu)建四維特征參數(shù)向量進(jìn)行情感識別。各情感及不同分類算法的識別結(jié)果如表2所示。在特征參數(shù)向量中加入顯著圖參數(shù),構(gòu)建六維特征參數(shù)向量進(jìn)行情感識別。各情感及不同分類算法的識別結(jié)果如表3所示。
表1 四維特征識別結(jié)果
表2 六維特征識別結(jié)果
4.2 實(shí)驗(yàn)結(jié)果分析
從以上四維和六維特征的識別結(jié)果可以看出:加入顯著圖特征參數(shù)之后,算法的情感識別率均有所提升,各情感的識別率均在80%左右,憤怒(ang)和傷心(sad)情感的識別率接近于90%,在四維特征識別率中表現(xiàn)不佳的高興(hap)情感識別率在加入顯著圖特征參數(shù)后識別率提升至80%以上。這表明引入顯著圖特征參數(shù)后算法的識別率有了一定的改善。
本文主要對情感識別算法中新型特征參數(shù)的構(gòu)造進(jìn)行分析研究,提出兩種顯著性特征參數(shù)用于情感識別。基于傳統(tǒng)特征參數(shù)識別算法的識別率基本保持在70%~80%之間;在特征參數(shù)向量中加入提出的兩種顯著性參數(shù)后識別效率基本在80%~90%范圍內(nèi)。由此可見,基于顯著性參數(shù)的識別模型具有較好的識別性能,相比于利用傳統(tǒng)特征參數(shù)進(jìn)行識別的模型來說有進(jìn)10%的提升,具有較高的研究價值。
[1] Song K T,Han M J,Wang S C. Speech Signal-Based Emotion Recognition and Its Application to Entertainment Robots[J]. Journal of the Chinese Institute of Engineers,2014,37(1):14-25.
[2] Attabi Y,Dumouchel P. Anchor Models for Emotion Recognition from Speech[J]. Ieee Transactions on Affective Computing,2013,4(3):280-290.
[3] Ramakrishnan S,El Emary I M M. Speech Emotion Recognition Approaches in Human Computer Interaction[J]. Telecommunication Systems,2013,52(3):1467-1478.
[4] Planet S,Iriondo I. Children's Emotion Recognition from Spontaneous Speech Using a Reduced Set of Acoustic and Linguistic Features[J]. Cognitive Computation,2013,5(4):526-532.
[5] Schr?der M. Speech Emotion Recognition Using Hidden Markov Models[J]. 2016.
[6] Jin Q,Li C,Chen S,et al. Speech Emotion Recognition with Acoustic and Lexical Features[J]. 2015:4749-4753.
[7] Ferreira C B R,Soares F,Martins W S. Parallel CUDA Based Implementation of Gaussian Pyramid Image Reduction[C]//XII Workshop de Vis?o Computacional. 2016.
[8] Liu Q,Liu C. A Novel Locally Linear KNN Model for Visual Recognition[C]//IEEE Conference on Computer Vision and Pattern Recognition. IEEE,2015:1329-1337.
PracticalSpeechEmotionRecognitonAlgorithmResearch*
YUHua1*,ZHANGQinjie2,ZHAOLi2
(1.Jiangsu Open University,Nanjing 210065,China;2.School of Information Engineering,Southeast University,Nanjing 210096,China)
Speech Emotion recognition is one of the key technologies of intelligent human-computer interaction. However,the speech emotion feature for speech emotion recognition is very limited. Therefore,a new spectrogram of significant features is proposed to improve speech emotion recognition effect. Using selective attention model to obtain significant speech signal spectral image of the language,and extract significant features,recognition algorithm combined with the frequency characteristics of the speech signal constitutes the traditional speech emotion recognition feature vectors. Finally,we use KNN classification method for speech emotion recognition. Experimental results show that adding significant feature recognition rate has improved significantly.
speech emotion recognition;significant features;KNN classification method
10.3969/j.issn.1005-9490.2017.05.035
項(xiàng)目來源:國家自然科學(xué)基金項(xiàng)目(61673108)
2017-05-08修改日期2017-06-22
TN912;TP317.5
A
1005-9490(2017)05-1234-04
余華(1963-),女,江蘇開放大學(xué)教授,研究方向?yàn)榍楦行畔⑻幚?、電子與通信。