汪蘭蘭, 蔡昌新
(長江大學(xué)電子信息學(xué)院, 荊州 434023)
要實(shí)現(xiàn)自然人機(jī)交互,需要計(jì)算機(jī)能夠?qū)W習(xí)和理解人類情感,現(xiàn)今語音情感識(shí)別隨著人們對于機(jī)器智能化要求的增加,逐漸被許多研發(fā)人員開始研究與應(yīng)用??茖W(xué)實(shí)驗(yàn)證實(shí),語音情感在基礎(chǔ)的理性和智能行為中起到重要作用,此外,語音情感識(shí)別不但可以增進(jìn)人與人之間交互的質(zhì)量,且直接影響人們以智能的方式進(jìn)行交互的能力。語音情感識(shí)別作為信號(hào)處理、人工智能、自然語言處理等各個(gè)領(lǐng)域的交叉學(xué)科研究,在研究前期,主要是對語音信號(hào)進(jìn)行初期的探索,語音信號(hào)是傳遞信息的載體,其中包含大量聲學(xué)、韻律學(xué)等復(fù)雜的特征信息,對于語音信號(hào)中準(zhǔn)確提取表征情感的特征參數(shù)一直是語音情感識(shí)別研究的重點(diǎn)。
在語音信號(hào)探索初期至今為止,語音識(shí)別相關(guān)的研究和應(yīng)用方向已經(jīng)發(fā)展較為成熟。目前智能語音識(shí)別在生活中有著具體的體現(xiàn),比如手機(jī)語音助手、車載語音識(shí)別系列功能、家庭智能語音遙控等,這些應(yīng)用表明了語音識(shí)別在噪聲環(huán)境下也具有準(zhǔn)確識(shí)別的能力,但目前語音識(shí)別僅在低信噪比環(huán)境下研究較多。王群等[1]根據(jù)語音識(shí)別在低信噪比中所使用的語音增強(qiáng)算法并不能明顯提高識(shí)別率的這種情況,提出一種麥克風(fēng)陣列增強(qiáng)算法,從而提高語音識(shí)別的魯棒性,利用梅爾頻率倒譜系數(shù)(Mel-frequency ceptral coefficients,MFCC)和隱馬爾可夫模型(hidden Markov model,HMM)來對增強(qiáng)后的信號(hào)進(jìn)行特征提取和識(shí)別,實(shí)驗(yàn)表明此增強(qiáng)算法有效提高了真實(shí)環(huán)境下的語音識(shí)別魯棒性。戚龍等[2]提出利用改進(jìn)BP神經(jīng)網(wǎng)絡(luò)(back propagation neural network)來提高語音識(shí)別率,并根據(jù)非特定人群中出現(xiàn)連續(xù)和非連續(xù)語音的情況都能夠準(zhǔn)確識(shí)別。而語音情感識(shí)別作為語音識(shí)別方向的分支,相比語音識(shí)別而言其研究要較為落后,陳鵬展等[3]提出一種改進(jìn)k最近鄰(k-nearest neighbor,KNN)識(shí)別算法,利用此算法能夠識(shí)別出個(gè)人情感;楊明極等[4]提出將卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)和長短期記憶網(wǎng)絡(luò)(long short-term memory,LSTM)先后提取語音情感特征的方法,最后得出兩者結(jié)合比單一模型能夠提高語音情感識(shí)別率。
對比中外語音識(shí)別和語音情感識(shí)別的研究,語音情感識(shí)別在噪聲干擾下的研究較少,且未應(yīng)用到實(shí)際生活中,主要原因有三點(diǎn):一是目前大部分實(shí)驗(yàn)數(shù)據(jù)來源相比其他類型構(gòu)建困難,只能利用現(xiàn)有的情感語料集進(jìn)行實(shí)驗(yàn)分析及驗(yàn)證;二是目前語音特征提取方法較多,但同時(shí)具有準(zhǔn)確表征語音情感和抗噪性的特征提取方法目前并沒有提及;三是情感語料集中的語音都是專業(yè)發(fā)音人員在無噪環(huán)境下進(jìn)行錄制,應(yīng)用到實(shí)際噪聲干擾環(huán)境中會(huì)使得語音情感識(shí)別率較低。針對此三點(diǎn)情況,現(xiàn)提出一種新的特征提取方法,即線性預(yù)測基音頻率特征提取方法,利用模型相同的LPC美爾倒頻譜系數(shù)(LPC Mel cepstral coefficients,LPCMCC)[5]特征提取方法來改進(jìn),從而改善噪聲干擾下所出現(xiàn)的情感分類模糊化問題,并設(shè)計(jì)基于改進(jìn)特征的語音情感識(shí)別系統(tǒng),測試此改進(jìn)特征在實(shí)際生活中的應(yīng)用價(jià)值。
基于人的發(fā)音器官特點(diǎn)和語音產(chǎn)生的機(jī)理,構(gòu)成了語音信號(hào)生成的數(shù)學(xué)模型[6]。而線性預(yù)測模型則是將數(shù)學(xué)模型進(jìn)行簡化處理,并提出了一種非常好的聲道模型(全極點(diǎn)模型)及模型參數(shù)估計(jì)方法。其實(shí)質(zhì)是將聲門激勵(lì)、聲道以及輻射的全部效應(yīng)簡化為一個(gè)時(shí)變的數(shù)字濾波器來等效,簡化模型如圖1所示。
圖1 簡化模型Fig.1 The simplified model
其模型傳遞函數(shù)為
(1)
式(1)中:S(z)為語音信號(hào)的z變換形式;U(z)為激勵(lì)信號(hào)的z變換形式;ai為線性預(yù)測系數(shù),其中i=1,2,…,p;p為線性預(yù)測模型階數(shù);G為聲道濾波器增益。將式(1)變換為s(n)和u(n)之間的關(guān)系,即
(2)
線性預(yù)測模型的數(shù)學(xué)表達(dá)形式為
(3)
由式(3)可知,線性預(yù)測分析的基本思想是由s(n)過去p個(gè)樣本值加權(quán)線性組合來預(yù)測或估計(jì)當(dāng)前語音信號(hào),通過在方均誤差準(zhǔn)則下使e(n)達(dá)到最小值的方法來獲得線性預(yù)測系數(shù)[7],主要原理過程如下。
首先定義某一幀內(nèi)的短時(shí)方均預(yù)測誤差為E,可表示為
(4)
式(4)中:N為語音幀數(shù);e(n)為預(yù)測誤差。對式中ai求偏導(dǎo)后,由于求導(dǎo)后運(yùn)算較為復(fù)雜,引入自相關(guān)函數(shù)來降低運(yùn)算量,自相關(guān)函數(shù)[8]表示為
(5)
式(5)中:N為語音段的N個(gè)樣點(diǎn)。將式(5)代入式(4)求偏導(dǎo)過程中,則最小方均預(yù)測誤差可表示為
(6)
φ(j,i)的計(jì)算較為復(fù)雜,根據(jù)自相關(guān)法將最小方均預(yù)測誤差改寫為
(7)
式(6)中:r(i)為語音段s(n)的自相關(guān)函數(shù),為求得式(7)最小解,引入萊文遜-杜賓(Levinson-Durbin)算法進(jìn)行遞推求解,最終求得解集為
(8)
式(8)中:E隨著預(yù)測器階數(shù)p的增加而減小,表明了線性預(yù)測模型的精度會(huì)隨著階數(shù)的增加而提高,在實(shí)驗(yàn)時(shí)取得較為合適的階數(shù)能夠提高語音情感識(shí)別率,當(dāng)階數(shù)無窮大時(shí),誤差并不會(huì)消除。
根據(jù)式(2)和式(3)可知,線性預(yù)測模型并沒有考慮到聲帶激勵(lì)信號(hào)中的聲學(xué)參數(shù),而基音周期[9]作為語音信號(hào)處理中描述激勵(lì)源的重要參數(shù)之一,在語音合成、語音壓縮編碼、語音識(shí)別和說話人識(shí)別等領(lǐng)域有著廣泛的應(yīng)用。
基音周期相應(yīng)的頻率稱為基音頻率[10]。基音頻率與個(gè)人聲帶的長短、厚薄、韌性和發(fā)音習(xí)慣等相關(guān),且隨著人的性別、年齡不同而有所不同。一般男性說話者的基音頻率較低,大部分在70~200 Hz的范圍內(nèi),女性說話者和小孩的基音頻率相對較高,為200~450 Hz,因此相比基音周期而言,基音頻率在聲帶激勵(lì)信號(hào)中更能表征說話人情感特征。通常使用基音頻率作為特征提取方法不能準(zhǔn)確表征說話人情感特性,導(dǎo)致情感識(shí)別時(shí)出現(xiàn)分類模糊化情況,主要原因?yàn)椋浩湟唬纛l率能夠在無噪環(huán)境中利用公式進(jìn)行準(zhǔn)確提取,但在含噪語音中的噪聲干擾或類噪激勵(lì)信號(hào)干擾下,反映基音信息的特征將會(huì)變得不清晰;其二,語音信號(hào)中的聲道響應(yīng)信息也會(huì)對基音信息提取造成困難。
為解決這些問題,提取一種新的特征提取方法,即線性預(yù)測基音頻率特征提取方法。首先,此方法利用線性預(yù)測模型去除語音信號(hào)中的聲道響應(yīng)信息,對分幀語音進(jìn)行線性預(yù)測模型得到主要預(yù)測系數(shù)ai,利用預(yù)測系數(shù)構(gòu)成逆濾波器為
(9)
將原分幀語音通過式(9)進(jìn)行濾波,得到不包含聲道響應(yīng)信息的預(yù)測余量信號(hào)v(n),為提取包含噪聲干擾的激勵(lì)信息,利用常用的倒譜分析方法,即對v(n)做傅里葉變換、取對數(shù)。由于語音基音頻率一般低于500 Hz,根據(jù)信號(hào)特性和噪聲特性,通過一個(gè)低通濾波器或者將高頻分量置0來抑制噪聲干擾。本文利用將高頻分量置0的方式,這樣操作既可實(shí)現(xiàn)低通濾波,又可以濾去含噪語音中的噪聲和激勵(lì)源的高頻分量,由于噪聲不可消除,此方法對噪聲干擾有較好的抑制作用。此后作傅里葉逆變換得到原分幀信號(hào)的倒譜,尋找倒譜信號(hào)樣本點(diǎn)最大值,利用區(qū)間篩選出基音周期,選擇區(qū)間為
(10)
式中:fs為語音信號(hào)的抽樣頻率; 60、500 Hz為帶寬,選擇60 Hz是為了降低低頻上的噪聲干擾,選擇500 Hz是由于基音頻率一般低于500 Hz。基音周期參數(shù)中包含一些“野點(diǎn)”,這些點(diǎn)偏離其他點(diǎn)的軌跡,并不具有一定的參考價(jià)值,采用中值平滑濾波來去除野點(diǎn)。基音頻率利用公式為
(11)
式(11)中:T為篩選出的基音周期,計(jì)算后得到一個(gè)語音信號(hào)的線性預(yù)測基音頻率,在此算法過程表述中,解決了情感識(shí)別時(shí)出現(xiàn)的模糊化問題,濾除聲道響應(yīng)信息,抑制噪聲干擾。
目前與本文提出新的特征提取方法較為相似的僅有LPCMCC特征提取方法,都是基于線性預(yù)測分析以及倒譜分析進(jìn)行算法完善。LPCMCC實(shí)質(zhì)是提取包含聲學(xué)特性與聽覺特性的特征參數(shù),其算法原理如下。
先設(shè)通過線性預(yù)測分析得到的聲道模型系統(tǒng)函數(shù)為
(12)
式(12)中:p為線性預(yù)測階數(shù)。
其次設(shè)h1(n)為h(n)的復(fù)倒譜,將式(12)代入H1(z)=ln[H(z)]中,兩邊對z-1求導(dǎo)數(shù),有
(13)
令式(13)左右兩邊的常數(shù)項(xiàng)和z-1各次冪的系數(shù)分別相等,則由ak求出h1(n):
(14)
由式(14)得出復(fù)倒譜,需將復(fù)倒譜變換為倒譜,由
(15)
得到倒譜c(n),此倒譜為實(shí)際頻率尺度的倒譜系數(shù),稱為LPC倒譜系數(shù)(linear predictive cepstral coding,LPCC)[11]。將此LPCC系數(shù)進(jìn)一步按符合人的聽覺特性的Mel尺度進(jìn)行非線性變換,從而求出LPCMCC[12]為:
(16)
式(16)中:n為迭代次數(shù);k為Mel倒譜階數(shù);?為自定義因子。
綜上算法原理概述,對比LPCMCC特征與線性預(yù)測基音頻率,兩者相同之處在于都是基于線性預(yù)測分析與倒譜分析進(jìn)行算法完善,不同之處在于LPCMCC特征不僅具有聲學(xué)特性,且在此基礎(chǔ)上增加了聽覺特性,而線性預(yù)測基音頻率特征中僅僅只包含聲學(xué)特性。
目前語音特征分類較廣,大體分為兩類:根據(jù)人的發(fā)音器官而產(chǎn)聲的聲學(xué)特性,以及根據(jù)人耳聽覺的生理結(jié)構(gòu)和心理特性而識(shí)音的聽覺特性。將聲學(xué)特性與聽覺特性都包含的特征提取方法并不常見,本文提出新的特征提取方法僅僅基于聲學(xué)特性的部分特征提取,而LPCMCC特征提取方法基于聲學(xué)特性和聽覺特性的部分特征混合提取,將兩者結(jié)合后得到改進(jìn)線性預(yù)測基音頻率特征,改進(jìn)線性預(yù)測基音頻率算法框圖如圖2所示,此改進(jìn)線性預(yù)測基音頻率的具體步驟如下。
(1)對輸入語音進(jìn)行分幀加窗,此后對分幀段進(jìn)行LPC分析,得到線性預(yù)測系數(shù)并由此系數(shù)構(gòu)成逆濾波器A(z)。
(2)將原分幀段通過逆濾波器得到預(yù)測誤差e(n)。
(3)將此預(yù)測誤差進(jìn)行傅里葉變換、取模和對數(shù)之后,將此信號(hào)作反傅里葉變換后得到原信號(hào)的倒譜。
(4)在最大值和最小值區(qū)間內(nèi)尋找語音幀的最大值,獲取整個(gè)語音的全部基音周期后聽過五點(diǎn)中值平滑算法去除偏離基音軌跡的“野點(diǎn)”。
(5)利用F=fs/T公式,獲得最終線性預(yù)測基音頻率F。
(6)將線性預(yù)測系數(shù)通過傅里葉變換、取模、取對數(shù)后得到復(fù)倒譜信號(hào),利用式(15)轉(zhuǎn)換為倒譜信號(hào)。
(7)根據(jù)符合人聽覺特性的Mel尺度進(jìn)行非線性變換,即在式(16)的運(yùn)算下最終獲得LPCMCC特征參數(shù)。
(8)利用矩陣運(yùn)算的法則,將線性預(yù)測基音頻率特征參數(shù)進(jìn)行數(shù)據(jù)處理后與LPCMCC特征參數(shù)進(jìn)行融合運(yùn)算,最后得到改進(jìn)線性預(yù)測基音頻率特征參數(shù)。
為了驗(yàn)證線性預(yù)測基音頻率特征提取方法是否在噪聲干擾下對語音情感識(shí)別具有較好的應(yīng)用性,設(shè)計(jì)基于線性基頻的語音情感識(shí)別實(shí)驗(yàn)。設(shè)計(jì)基于LPCMCC的對比實(shí)驗(yàn),探究線性基頻特征提取方法與目前特征提取方法在語音情感識(shí)別領(lǐng)域的精確度。設(shè)計(jì)基于改進(jìn)線性預(yù)測基音頻率的語音情感識(shí)別實(shí)驗(yàn),研究此改進(jìn)方法相比以上兩類方法所提高的情感識(shí)別率。在設(shè)計(jì)的三類實(shí)驗(yàn)中,部分算法是在MATLAB2020b和Spyder (anaconda3)平臺(tái)上進(jìn)行編譯,訓(xùn)練和預(yù)測函數(shù)均調(diào)用libsvm-3.20工具箱,下載相對應(yīng)的C語言編譯器,通過生成的mex文件來調(diào)用C語言函數(shù)文件。
采用CASIA漢語情感語料庫對實(shí)驗(yàn)所需數(shù)據(jù)集進(jìn)行構(gòu)建,整理出適應(yīng)自然環(huán)境下的含噪數(shù)據(jù)集。選取300句語音文件,其中包括說話內(nèi)容相同的6種情感各具50個(gè)語音文件,將噪聲和選取的300句純凈語音在-5 db的信噪比下進(jìn)行語音合成,其中所選用的噪聲為常見的加性噪聲[13]:語音干擾(babble noise)、周期噪聲(f16 noise)、沖激噪聲(machinegun noise)、寬帶噪聲(white noise),而語音合成后的4類含噪情感數(shù)據(jù)集則是本文所需的實(shí)驗(yàn)數(shù)據(jù)集。部分?jǐn)?shù)據(jù)集類別和數(shù)量分布如表1所示,其中將實(shí)驗(yàn)數(shù)據(jù)集劃分為60%的訓(xùn)練集和40%的測試集。
表1 部分?jǐn)?shù)據(jù)集類別和數(shù)量分布Table 1 Part of the dataset category and quantity distribution
在CASIA漢語情感語料庫與4類噪聲按照信噪比為-5 db進(jìn)行合成數(shù)據(jù)集過程中,設(shè)置采樣頻率為16 kHz,使得合成語音為人耳適應(yīng)的范圍。在語音預(yù)處理階段,設(shè)置的幀長和幀移分別為320、80,所加窗函數(shù)為漢明窗,窗長為320。在開始對線性預(yù)測基音頻率以及LPCMCC、改進(jìn)線性預(yù)測基音頻率實(shí)驗(yàn)前,都需要進(jìn)行線性預(yù)測分析,在線性預(yù)測分析中階數(shù)設(shè)置為36。式(16)中參數(shù)?的選取對于后期實(shí)驗(yàn)較為關(guān)鍵,即?的選取會(huì)對語音情感識(shí)別的準(zhǔn)確率有較高的影響,目前中外研究有兩類此參數(shù)的選?。寒?dāng)抽樣頻率為8 kHz時(shí),?的取值為0.31;抽樣頻率為10 kHz時(shí),?的取值為0.35,但本文選取的抽樣頻率為16 kHz,并不適合以上兩類情況。設(shè)計(jì)基于LPCMCC的SVM語音情感識(shí)別實(shí)驗(yàn)來選取較為適合的?參數(shù),選取6種情感平均F1作為評(píng)估指標(biāo),?參數(shù)的選取下平均F1情況如表2所示。
表2 ?參數(shù)的選取下平均F1情況Table 2 The average F1 situation under the selection of ? parameters
根據(jù)上述實(shí)驗(yàn)情況可以得出,在babble數(shù)據(jù)集上的語音情感識(shí)別率在?為0.47時(shí)達(dá)到最高;在f16數(shù)據(jù)集上?從0.43~0.48波動(dòng)時(shí),語音情感識(shí)別率從穩(wěn)定的64%下降為56%,說明?為0.47時(shí)已經(jīng)趨于穩(wěn)定;在machinegun數(shù)據(jù)集上?從0.45~0.47過渡時(shí),語音情感識(shí)別率從64%下降為60%,但從這后面基本趨于穩(wěn)定不變;在white數(shù)據(jù)集上?從0.43~0.47波動(dòng)時(shí),語音情感識(shí)別率基本趨于穩(wěn)定狀態(tài),并達(dá)到峰值為62%。以上的4種情況可以說明當(dāng)?為0.47時(shí),語音情感識(shí)別率不僅可以達(dá)到最高,且相比其他參數(shù)而言較為穩(wěn)定。
設(shè)計(jì)基于線性預(yù)測基音頻率、改進(jìn)線性預(yù)測基音頻率與LPCMCC的三類語音情感識(shí)別實(shí)驗(yàn),實(shí)驗(yàn)中所用情感識(shí)別模型則是選用在小樣本上識(shí)別效果較好的非線性SVM(支持向量機(jī)),并沒有選取目前較為流行的神經(jīng)網(wǎng)絡(luò)算法,主要在于神經(jīng)網(wǎng)絡(luò)并不適合應(yīng)用于小樣本數(shù)據(jù)上,并且實(shí)驗(yàn)結(jié)果具有不穩(wěn)定性,并不具有實(shí)際應(yīng)用價(jià)值。而非線性SVM在解決小樣本、非線性及高維數(shù)據(jù)模式識(shí)別等這些方面,具有穩(wěn)健的識(shí)別率?;诟倪M(jìn)特征部分?jǐn)?shù)據(jù)如表3所示,計(jì)算F1評(píng)估指標(biāo)均值的三個(gè)特征提取方法對比數(shù)據(jù),方法對比數(shù)據(jù)如表4所示。
表3 基于改進(jìn)特征部分?jǐn)?shù)據(jù) Table 3 Partial data based on improved features
表4 方法對比數(shù)據(jù)Table 4 Method comparison data
從表3可以看出,其中悲傷的精確度、召回率、F1在兩類數(shù)據(jù)集下都是一樣的,并且相比其他情感要低于10%~20%。說明在數(shù)據(jù)處理過程中對于悲傷這一類語音文件的情感特征并沒有很好地進(jìn)行提取,導(dǎo)致最后語音情感識(shí)別率較低,但對于其他類別情感的語音情感識(shí)別率較高。整體說明改進(jìn)線性預(yù)測基音頻率的特征提取方法在噪聲干擾下具有抗噪性,并且應(yīng)用到語音情感識(shí)別中的識(shí)別率較高。從表4可以看出,改進(jìn)線性預(yù)測基音頻率特征參數(shù)下的情感識(shí)別精度相比LPCMCC最高提高了20%,相比線性預(yù)測基音頻率最高提高了32%。說明本文提出新的語音特征提取方法在噪聲干擾下能夠有效地識(shí)別出語音情感,以及在此基礎(chǔ)上改進(jìn)的特征提取方法在原先的基礎(chǔ)上能夠較大的提高語音情感識(shí)別率,并比國內(nèi)目前的特征提取方法在噪聲干擾下的語音情感識(shí)別率要高。反映出改進(jìn)特征提取方法不僅具有抗噪性,也具有在語音情感識(shí)別方面的應(yīng)用價(jià)值。
為了驗(yàn)證基于改進(jìn)特征是否具有廣泛實(shí)際應(yīng)用價(jià)值,設(shè)計(jì)基于MATLAB GUI技術(shù)[14]的語音情感識(shí)別系統(tǒng)仿真界面。MATLAB GUI界面是通過MATLAB命令行運(yùn)行g(shù)uide設(shè)計(jì)平臺(tái),并在guide平臺(tái)上擺放按鈕、圖形句柄、文本編輯框等控件,設(shè)計(jì)完成基于改進(jìn)線性預(yù)測基音頻率的語音情感識(shí)別系統(tǒng)仿真界面,所包含的功能為導(dǎo)入語音文件、波形顯示、端點(diǎn)檢測、語音增強(qiáng)、改進(jìn)特征參數(shù)提取、情感識(shí)別。在設(shè)計(jì)完成后對系統(tǒng)進(jìn)行功能性測試,其中隨機(jī)錄制不同環(huán)境下的語音文件導(dǎo)入系統(tǒng)中進(jìn)行測試,部分測試界面如圖3~圖5所示。
圖3 正確識(shí)別為“中性”情感Fig.3 Correctly identified as “neutral” emotion
圖4 正確識(shí)別為“高興”情感Fig.4 Correctly identified as “happy” emotion
圖5 錯(cuò)誤識(shí)別為“驚訝”情感Fig.5 Misidentified as “surprise” emotion
圖3和圖4顯示界面是在不同高信噪比環(huán)境下進(jìn)行測試實(shí)驗(yàn)的結(jié)果,圖3為正確識(shí)別為“中性”情感的測試結(jié)果,圖4為正確識(shí)別為“高興”情感的測試結(jié)果。從圖3(b)和圖4(b)標(biāo)的語譜圖[15]可以看出,其中含有較清晰的黑紅橫條(共振峰頻率)和豎直條紋(基音頻率),從側(cè)面印證了語音文件含噪率較低,少量噪聲對于語音情感的正確識(shí)別并沒有影響。以上說明反映了基于本文所提出新的特征提取方法的改進(jìn)特征,在高信噪比環(huán)境下具有實(shí)際語音情感識(shí)別應(yīng)用價(jià)值,降低了分類模糊化出現(xiàn)的情況。圖5顯示界面是在較低信噪比環(huán)境下進(jìn)行測試實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果為錯(cuò)誤地將“害怕”識(shí)別為“驚訝”。從圖5(b)標(biāo)的語譜圖中看出噪聲將整個(gè)語音段進(jìn)行覆蓋,但圖5(d)標(biāo)的濾波語譜圖相比圖5(b)標(biāo)而言噪聲含量較少,但相應(yīng)地濾掉部分重要特征,使得最后的識(shí)別結(jié)果與預(yù)期不同。以上說明反映了改進(jìn)特征提取方法在較低信噪比環(huán)境下的語音情感識(shí)別率較低,選用的語音增強(qiáng)算法并不適用于改進(jìn)特征提取方法。綜上所述,基于本文所提出新的特征提取方法的改進(jìn)特征在日常生活中具有廣泛實(shí)際應(yīng)用價(jià)值,但在一些噪聲完全覆蓋說話者語音的情況下并不具有實(shí)際應(yīng)用價(jià)值。
首先,利用線性預(yù)測模型對本文提出新的語音特征提取方法進(jìn)行算法完善,設(shè)計(jì)基于線性預(yù)測基音頻率的SVM語音情感識(shí)別實(shí)驗(yàn),驗(yàn)證其在日常噪聲干擾下的語音情感識(shí)別應(yīng)用中是否具有一定的抗噪性。實(shí)驗(yàn)結(jié)果表明,其在語音情感識(shí)別中具有一定的抗噪性,但提取的特征并不能很好地表征情感特征。其次,根據(jù)LPCMCC原理對其進(jìn)行改進(jìn)得到改進(jìn)線性預(yù)測基音頻率特征提取方法,利用線性預(yù)測基音頻率、LPCMCC、改進(jìn)線性預(yù)測基音頻率這3類方法對4類自建含噪數(shù)據(jù)集分別進(jìn)行特征提取。最后,將3類特征提取方法所提取的特征各自導(dǎo)入SVM模型中進(jìn)行訓(xùn)練和測試。實(shí)驗(yàn)表明,相比線性基頻以及LPCMCC而言,改進(jìn)特征能夠改善分類模糊化這類情況,比線性預(yù)測基音頻率和LPCMCC要高出22%、14%。為驗(yàn)證改進(jìn)特征在真實(shí)環(huán)境下的實(shí)際應(yīng)用價(jià)值,設(shè)計(jì)基于改進(jìn)方法的語音情感識(shí)別系統(tǒng),整體系統(tǒng)界面基于MATLAB GUI技術(shù)進(jìn)行功能性完善,對其系統(tǒng)進(jìn)行功能性測試。實(shí)驗(yàn)結(jié)果表明其改進(jìn)方法在日常噪聲干擾下具有廣泛實(shí)際應(yīng)用價(jià)值。在接下來的研究工作中,會(huì)嘗試在較低信噪比環(huán)境下對改進(jìn)方法進(jìn)行優(yōu)化。