李尚卿,王曉原,2,張 楊,李 浩,項(xiàng) 徽
1.青島科技大學(xué) 機(jī)電工程學(xué)院,山東 青島266000
2.青島科技大學(xué) 智能綠色制造技術(shù)與裝備協(xié)同創(chuàng)新中心,山東 青島266000
在已有的交通事故致因分析中,有研究表明人為因素占到90%以上[1],在人為因素中,“路怒”正是造成交通事故的重要原因之一,其用以形容在交通阻塞情況下開(kāi)車壓力與挫折所導(dǎo)致的憤怒情緒[2],既有研究表明,我國(guó)約有60.72%的機(jī)動(dòng)車駕駛員有“路怒”的經(jīng)歷[3]。語(yǔ)音是表達(dá)情緒信息的重要載體,在語(yǔ)音情感識(shí)別領(lǐng)域,高效的語(yǔ)音特征和適合的識(shí)別模型一直是較熱門(mén)的研究方向。語(yǔ)音的聲學(xué)特征分為兩類:時(shí)域和頻域特征,普遍使用的時(shí)域特征有音高、短時(shí)能量、短時(shí)過(guò)零率、平均幅度、諧波噪聲比、自相關(guān)系數(shù)等;頻域特征有共振峰頻率、Mel頻率倒譜系數(shù)(MFCC)、線性預(yù)測(cè)倒譜系數(shù)(LPCC)、線譜對(duì)(LSP)等;Sato等人[4]使用基于MFCC的情感識(shí)別系統(tǒng)證明了頻域特征比時(shí)域特征對(duì)于情感識(shí)別具有更好的準(zhǔn)確率。Bozkurt等人[5]計(jì)算了共振峰位置信息并與MFCC進(jìn)行融合,在柏林?jǐn)?shù)據(jù)庫(kù)上得到了16.5%的識(shí)別率。Milton等人[6]將MFCC、音調(diào)、共振峰等特征組合,在柏林?jǐn)?shù)據(jù)庫(kù)、Savee數(shù)據(jù)庫(kù)、Enterface數(shù)據(jù)庫(kù)上得到了82.8%、56.3%和74.3%的準(zhǔn)確率。Ton-That等人[7]介紹了一種語(yǔ)音情感分類的方法,根據(jù)MFCC特征,基于模糊推理方法進(jìn)行語(yǔ)音情感的識(shí)別。Ancilin等人[8]利用幅值譜代替能量譜,改進(jìn)MFCC特征參數(shù)進(jìn)行語(yǔ)音情感識(shí)別,在烏爾都語(yǔ)數(shù)據(jù)庫(kù)中識(shí)別率達(dá)到95.25%。既有的研究表明通過(guò)將梅爾頻率倒譜系數(shù)進(jìn)行改進(jìn)或與其他特征融合,情感識(shí)別率得到了提高?;诖耍疚囊月放榫w為研究對(duì)象,利用模擬駕駛系統(tǒng)建立數(shù)據(jù)集,分析駕駛員語(yǔ)音的頻譜特性,將短時(shí)能量及短時(shí)過(guò)零率和改進(jìn)MFCC特征融合構(gòu)成特征參數(shù)向量。
獲得特征參數(shù)后,利用模型對(duì)情感進(jìn)行識(shí)別。目前常用的識(shí)別模型主要有支持向量機(jī)(support vector machine,SVM)、近鄰算法(K-nearest neighbor,KNN)、BP神經(jīng)網(wǎng)絡(luò)(back propagation,BP)、概率神經(jīng)網(wǎng)絡(luò)(PNN)、學(xué)習(xí)向量化神經(jīng)網(wǎng)絡(luò)(learning vector quantization,LVQ)等。Shahin等人[9]證明神經(jīng)網(wǎng)絡(luò)算法比SVM識(shí)別準(zhǔn)確率提升4.6%。Mohanty等人[10]證明PNN在情緒識(shí)別領(lǐng)域具有顯著優(yōu)勢(shì)。Pawar等人[11]證明神經(jīng)網(wǎng)絡(luò)算法相對(duì)于近鄰算法更好的性能評(píng)估。螢火蟲(chóng)算法(FA)是2009年Yang教授提出的一種啟發(fā)式算法。Huang等人[12]構(gòu)建了基于螢火蟲(chóng)算法優(yōu)化徑向基神經(jīng)網(wǎng)絡(luò)(radial basis function neural network,RBFNN)的嵌入式系統(tǒng),結(jié)果表明系統(tǒng)控制性能更優(yōu)。Bacanin等人[13]利用螢火蟲(chóng)算法尋找卷積神經(jīng)網(wǎng)絡(luò)超參數(shù),提高軸向腦腫瘤圖像分類的效率。既有的研究表明,在語(yǔ)音情感識(shí)別領(lǐng)域,神經(jīng)網(wǎng)絡(luò)算法分類性能更好,同時(shí),螢火蟲(chóng)算法優(yōu)化神經(jīng)網(wǎng)絡(luò)可以提高準(zhǔn)確率和魯棒性?;诖?,本文利用螢火蟲(chóng)算法(firefly algorithm,F(xiàn)A)優(yōu)化概率神經(jīng)網(wǎng)絡(luò)(PNN),建立一種駕駛員路怒情緒識(shí)別模型,在Matlab R2019a環(huán)境下利用實(shí)測(cè)數(shù)據(jù)對(duì)模型進(jìn)行驗(yàn)證及對(duì)比分析。
本研究語(yǔ)音數(shù)據(jù)集在駕駛員路怒情緒以及非路怒情緒下進(jìn)行采集,考慮到路怒情緒下駕駛員駕車具有一定的危險(xiǎn)性,所以組織模擬駕駛實(shí)驗(yàn)。交互式模擬駕駛系統(tǒng)由力反饋方向盤(pán)、擋桿、駕駛座椅器以及Assetto Corsa軟件構(gòu)成,如圖1。本實(shí)驗(yàn)對(duì)于實(shí)驗(yàn)人員條件要求以及音頻數(shù)據(jù)的格式要求如表1。
圖1 交互式模擬駕駛系統(tǒng)Fig.1 Interactive driving simulation system
表1 實(shí)驗(yàn)要求規(guī)范Table 1 Experimental requirements and specifications
對(duì)40名實(shí)驗(yàn)對(duì)象按照從1~40的序號(hào)進(jìn)行編號(hào),對(duì)實(shí)驗(yàn)對(duì)象進(jìn)行模擬駕駛訓(xùn)練,使其能夠熟練操控模擬駕駛系統(tǒng)。在模擬駕駛實(shí)驗(yàn)開(kāi)始之前,從網(wǎng)絡(luò)上收集真實(shí)駕駛情況下行車記錄儀記錄的路怒視頻中駕駛員的話語(yǔ),各取頻率出現(xiàn)最高的50句話,形成實(shí)驗(yàn)誘發(fā)情緒的文本材料[14]。
本文采用的情緒誘發(fā)方法為組合情感誘發(fā)方法[15]。一種為虛擬現(xiàn)實(shí)情感誘發(fā)法[16],另一種文本材料誘發(fā)法,能夠輔助刺激鞏固誘發(fā)的情緒,避免駕駛員在實(shí)驗(yàn)過(guò)程中由于情緒消散導(dǎo)致采集的實(shí)驗(yàn)數(shù)據(jù)不準(zhǔn)確。
模擬駕駛實(shí)驗(yàn)中,利用虛擬的駕駛環(huán)境激發(fā)駕駛員的憤怒情緒,其具體的實(shí)現(xiàn)方式為:每次駕駛實(shí)驗(yàn)安排2名駕駛員,其中模擬駕駛座椅的實(shí)驗(yàn)者為主要測(cè)試者,輔助測(cè)試者的作用是在實(shí)驗(yàn)過(guò)程中,對(duì)主要研究對(duì)象的車輛做出強(qiáng)行變道、加塞、時(shí)快時(shí)慢駕車等行為[17],目的是誘發(fā)主要研究對(duì)象的憤怒情緒并保持。文本材料由平板顯示在顯示器下方,保持在駕駛員視線范圍之內(nèi),輔助刺激主要研究者的路怒情緒。對(duì)于非路怒情緒采用音樂(lè)情緒誘發(fā)法,所用音頻取自中國(guó)情緒刺激材料庫(kù)中的中國(guó)情緒音樂(lè)材料庫(kù)(CAMS)。
本實(shí)驗(yàn)是對(duì)40名實(shí)驗(yàn)對(duì)象依次進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)過(guò)程中,以主要研究對(duì)象誘發(fā)出的話語(yǔ)為次數(shù)基準(zhǔn),每個(gè)主要研究對(duì)象兩類情緒誘發(fā)次數(shù)都不少于25次,采集到2 000份樣本數(shù)據(jù)。最后,每個(gè)主要研究對(duì)象對(duì)自己的音頻進(jìn)行自我評(píng)價(jià)并標(biāo)注情感類型。針對(duì)研究者可能存在不準(zhǔn)確的主觀評(píng)價(jià),本研究利用聽(tīng)辨評(píng)判法保證數(shù)據(jù)集標(biāo)注的可靠性,每條樣本由5名未參與實(shí)驗(yàn)的人員進(jìn)行評(píng)判。
在本研究的評(píng)判方法中,采用度量值為1、3、5、7、9五個(gè)等級(jí)表達(dá)情感的強(qiáng)度,分別為極弱、較弱、一般、較強(qiáng)、極強(qiáng)。每個(gè)聽(tīng)辨人對(duì)數(shù)據(jù)樣本都會(huì)給出一個(gè)評(píng)判的結(jié)果為評(píng)判值。本方法融合所有聽(tīng)辨人的評(píng)判結(jié)果,利用加權(quán)融合的準(zhǔn)則得到每個(gè)樣本的最終評(píng)判結(jié)果,并作為最終情感標(biāo)注。公式如式(1):
式中,gr為聽(tīng)辨人評(píng)判結(jié)果的融合權(quán)重;為情感樣本;R為聽(tīng)辯人總數(shù),R=5;r為聽(tīng)辨人。計(jì)算融合權(quán)值gr,先計(jì)算聽(tīng)辯人間的相似性ρpq,再得到一致度矩陣ρ,根據(jù)矩陣計(jì)算平均一致度ρˉr,歸一化后即可得到,公式如下:
式(2)中,p、q為兩個(gè)聽(tīng)辨人;J為情感類別種類,J=2;a為樣本總數(shù),a=2 000。本研究得到的語(yǔ)料庫(kù)中有2 000個(gè)樣本,其中路怒情緒樣本和非路怒數(shù)據(jù)各1 000個(gè)。
本文以三維聲譜圖對(duì)駕駛員語(yǔ)音信號(hào)進(jìn)行分析。聲譜圖從時(shí)間、頻率以及能量強(qiáng)度三個(gè)維度描述信號(hào)語(yǔ)音信號(hào)的特征。圖2給出了路怒和非路怒情緒下具有代表性的三維聲譜圖。
圖2 路怒及非路怒情緒下的語(yǔ)譜圖Fig.2 Spectrum of road rage and non-road rage
通過(guò)分析發(fā)現(xiàn):駕駛員非路怒情緒下的頻率能量集中分布于1 000~4 000 Hz,而路怒情緒下的頻率能量集中分布于2 000~8 000 Hz,說(shuō)明不同情緒的頻率集中分布范圍差異較大,從而能量分布和豐富度也相差較大,同時(shí),反應(yīng)出非路怒情緒下語(yǔ)音信號(hào)的能量變化相對(duì)平穩(wěn),相鄰兩幀信號(hào)之間的相似度高。
2.2.1 預(yù)處理
預(yù)加重,根據(jù)上述頻譜特征得出路怒情緒語(yǔ)音的頻率能量大部分集中于2 000~8 000 Hz,頻率高于2 000 Hz時(shí)會(huì)有10 dB的衰減,通過(guò)預(yù)加重能補(bǔ)償高頻能量,其函數(shù)如式(6):
其中,n為信號(hào),μ∈[0.9,1],一般情況下取μ=0.95。
分幀加窗,由于音頻的短時(shí)平穩(wěn)性[18],可以對(duì)信號(hào)分幀處理,通常每秒取33~100幀,幀的長(zhǎng)度一般為10~30 ms[19],同時(shí)采用交疊分段的方法,保持音頻信號(hào)的連續(xù)性,用窗函數(shù)w(n)乘以原始信號(hào)s(n),形成分幀加窗后的音頻信號(hào)為sw(n)=s(n)*w(n),本文采用漢明窗,窗函數(shù)公式如式(7):
式中,N為幀長(zhǎng),0≤n≤N-1。
2.2.2 短時(shí)能量
短時(shí)能量(short time energy)是指語(yǔ)音中的能量以幀數(shù)為單位的量值,假定當(dāng)前為第i幀,則該幀音頻信號(hào)的短時(shí)能量公式如式(8):其中,si(n)是第i幀預(yù)處理后的音頻信號(hào),N為幀長(zhǎng),E(i)為第i幀音頻信號(hào)的短時(shí)能量值。如圖3中所示,路怒情緒下的語(yǔ)音和非路怒情緒下的語(yǔ)音能量幅度相差明顯,本研究取每個(gè)樣本短時(shí)能量的最大值、最小值、均值、方差為特征參數(shù)。
圖3 路怒及非路怒情緒下的短時(shí)能量Fig.3 Short-term energy in road rage and non-road rage
2.2.3 短時(shí)過(guò)零率
短時(shí)過(guò)零率(short time zero crossing rate)表示信號(hào)在波形中穿過(guò)橫軸(零點(diǎn))的次數(shù),如圖4所示,路怒情況下語(yǔ)音過(guò)零的次數(shù)明顯多于非路怒情況,本研究取每個(gè)樣本的最大短時(shí)過(guò)零率值為特征參數(shù),短時(shí)過(guò)零率公式如式(9):
圖4 路怒及非路怒情緒下的短時(shí)過(guò)零率Fig.4 Short-time zero crossing rate of road rage and non-road rage
式中,音頻信號(hào)沒(méi)有負(fù)值,sgn[*]是符號(hào)函數(shù),如式(10):
2.2.4 MFCC的改進(jìn)及提取
MFCC(Mel frequency cepstral coefficients)梅爾頻率倒譜系數(shù),是語(yǔ)音信號(hào)處理中最為常用的特征參數(shù)。傳統(tǒng)MFCC中,通過(guò)求其一階差分來(lái)描述不同幀數(shù)的動(dòng)態(tài)變化,但是只能獲得有限的動(dòng)態(tài)特性,不能充分獲取信號(hào)的動(dòng)態(tài)特征。針對(duì)這個(gè)問(wèn)題,本文利用經(jīng)驗(yàn)?zāi)B(tài)分解(empirical mode decomposition,EMD)將音頻信號(hào)按照時(shí)間尺度自適應(yīng)分解,得到若干個(gè)本征模函數(shù)(intrinsic mode function,IMF)分量。改進(jìn)MFCC特征提取流程如圖5,具體步驟如下:
圖5 改進(jìn)MFCC特征提取流程圖Fig.5 Flowchart of improved MFCC feature extraction
預(yù)處理后得到信號(hào)Si(n),其中下標(biāo)i表示分幀加窗后的第i幀。
(1)確定語(yǔ)音信號(hào)Si(n)的局部極大值和極小值點(diǎn),得到上下包絡(luò)線z1(n)和z2(n),計(jì)算h(n),公式如式(11):
其中,m1(n)為上下包絡(luò)線的均值。
(2)IMF分量有兩個(gè)限制條件。在時(shí)域內(nèi):①過(guò)零點(diǎn)和極值點(diǎn)數(shù)目相等或最多差一個(gè);②上下包絡(luò)線的均值為0。若h1(n)不滿足限制條件,則將h1(n)重新作為待分解信號(hào)輸入,重復(fù)上述步驟(1),直到滿足限制條件,確定第一個(gè)IMF記為c1(n)。
(3)從S(n)中分離出c1(n)后得到r1(n),將r1(n)作為輸入信號(hào),重復(fù)步驟(1)、(2)。
其中,r1(n)代表語(yǔ)音信號(hào)的趨勢(shì)分量,最終在滿足rt(n)小于Sd后停止迭代,Sd為單調(diào)性函數(shù),公式如式(13):
式中,T為信號(hào)時(shí)間長(zhǎng)度,原始信號(hào)可以由P個(gè)IMF分量和趨勢(shì)余項(xiàng)的和表示,如式(14):
對(duì)信號(hào)S(n)進(jìn)行FFT變換并計(jì)算每一幀譜線能量,如式(15):
式中,i表示第i幀,k表示頻域中的第k條譜線。傳統(tǒng)MFCC采用三角濾波器組,三角形的特性使得每個(gè)通帶的頂點(diǎn)與相鄰?fù)◣У钠瘘c(diǎn)或終點(diǎn)相交構(gòu)成交疊區(qū)域。導(dǎo)致交疊區(qū)域內(nèi)信號(hào)的能量值會(huì)分配到相鄰?fù)◣е?。致使每個(gè)通帶的輸出在統(tǒng)計(jì)上不均等[20]。針對(duì)這個(gè)問(wèn)題,本文選用梯形濾波器組,使得通帶能量相互不影響,保證每個(gè)通帶的輸出在統(tǒng)計(jì)原則上均等。
在頻譜范圍內(nèi)設(shè)置濾波器Hm(l),0≤m≤M,M為濾波器個(gè)數(shù),一般濾波器個(gè)數(shù)為12~24,為了使得截取分析的數(shù)據(jù)更精確,本研究取M=23。每個(gè)濾波器具有梯形濾波特性,其中心頻率為f(m),傳遞函數(shù)如式(16):為梅爾頻率,是由實(shí)際頻率根據(jù)
其中人耳聽(tīng)覺(jué)特性轉(zhuǎn)化而來(lái)的頻率尺度,公式如式(17),中心頻率f(m)如式(18):
式中,f0為原始頻率;fh和fl分別為最高頻率和最低頻率。根據(jù)求出的每幀譜線的能量計(jì)算在每個(gè)通帶中的能量,將能量取對(duì)數(shù)后計(jì)算DCT倒譜,得到最終參數(shù),公式如式(19):
本文采用改進(jìn)MFCC與時(shí)域分析中的短時(shí)能量、短時(shí)過(guò)零率在特征層融合得到關(guān)鍵語(yǔ)音信號(hào)的新特征矢量,改進(jìn)MFCC特征向量為T(mén)1=[FY1,FY2,…,FYR],共23維;短時(shí)能量利用其最大值、最小值、均值、方差構(gòu)成特征向量為T(mén)2=[EY1,EY2,EY3,EY4];短時(shí)過(guò)零率的特征向量為T(mén)3=[HY1];融合后特征向量T,如式(20):
融合特征向量構(gòu)成如表2。
表2 特征向量Table 2 Eigenvectors
進(jìn)行數(shù)據(jù)歸一化。利用離差標(biāo)準(zhǔn)化方法,使結(jié)果值映射到[0,1]之間。函數(shù)如式(21):
式中,a′為原始數(shù)據(jù)。部分實(shí)驗(yàn)數(shù)據(jù)列舉如表3。
表3 實(shí)驗(yàn)數(shù)據(jù)Table 3 Experimental data
本研究搭建了改進(jìn)MFCC融合特征與FA-PNN組合的識(shí)別模型。根據(jù)駕駛員語(yǔ)音特性將頻域MFCC參數(shù)改進(jìn)后與時(shí)域中短時(shí)能量及短時(shí)過(guò)零率參數(shù)融合歸一化后構(gòu)成特征向量,利用FA優(yōu)化PNN神經(jīng)網(wǎng)絡(luò),構(gòu)建識(shí)別模型,流程如圖6所示。PNN是利用貝葉斯決策規(guī)則和高斯Parcen激活函數(shù)的一種前饋網(wǎng)絡(luò)模型。其網(wǎng)絡(luò)直接從訓(xùn)練范例中加載數(shù)據(jù),無(wú)迭代過(guò)程,所以學(xué)習(xí)速度快,適用于需求實(shí)時(shí)性較高的場(chǎng)所,并且它具有徑向基神經(jīng)網(wǎng)絡(luò)與概率密度估計(jì)原理的優(yōu)點(diǎn),在模式分類方面具有較為顯著的優(yōu)勢(shì),符合本研究的要求。
圖6 識(shí)別模型流程圖Fig.6 Flowchart of model identification
PNN網(wǎng)絡(luò)有輸入層、模式層、求和層和輸出層。本研究特征參數(shù)為28維,即輸入層神經(jīng)元數(shù)為28,即數(shù)據(jù)維數(shù)d=28;高斯核函數(shù)連接輸入層和模式層,求得輸入層和模式層中神經(jīng)元之間的匹配程度。模式層輸出為相似度,公式如式(22),在求和層做模式層輸出的加權(quán)平均,公式如式(23),輸出層取求和層中最大值作為輸出的識(shí)別結(jié)果,公式如式(24)。
式(22)中xaj為第a個(gè)樣本的第j個(gè)中心;σ為平滑因子。式(23)中,vaj表示第a個(gè)樣本為j類別的輸出;L表示神經(jīng)元個(gè)數(shù),L=28。
利用螢火蟲(chóng)算法優(yōu)化平滑因子,平滑因子作為PNN神經(jīng)網(wǎng)絡(luò)的唯一的重要輸入?yún)?shù),其取值不同會(huì)直接影響到整個(gè)樣本模式的概率密度函數(shù)的分布[21],對(duì)模型的識(shí)別性能有直接的影響。本文利用螢火蟲(chóng)算法對(duì)平滑因子σ進(jìn)行尋優(yōu),螢火蟲(chóng)算法在局部和全局優(yōu)化、魯棒性能等方面有著獨(dú)特優(yōu)勢(shì),算法概念簡(jiǎn)單,流程清晰,需要調(diào)整的參數(shù)較少,收斂速度較快,同時(shí)搜索精度較高,更加容易實(shí)現(xiàn)。螢火蟲(chóng)群都受種群中亮度最大的螢火蟲(chóng)的吸引,并改變自身位置向其靠攏。將平滑因子σ隨機(jī)初始化為向量σ=[σ1,σ2,…,σs],作為螢火蟲(chóng)的初始種群,隨機(jī)分布位置。本研究中FA算法的目標(biāo)函數(shù)定義為均方根誤差(root mean square error,RMSE),如式(25):
式中,J表示PNN網(wǎng)絡(luò)輸出層的節(jié)點(diǎn)個(gè)數(shù),等于類別數(shù);yi、ci分別表示PNN網(wǎng)絡(luò)輸出層的第i個(gè)節(jié)點(diǎn)的測(cè)試輸出和期望輸出。具體公式如下:
式(26)中,γ表示光吸收因子;式(27)中,d為空間維數(shù),σc,k為螢火蟲(chóng)c在d維空間中的第k個(gè)分量;式(28)中,β0表示最大吸引力值;式(29)中,φ表示迭代次數(shù);σc、σd分別為螢火蟲(chóng)c和d的空間位置;α表示步長(zhǎng)因子;βcd為c對(duì)d的吸引力;εd為[0,1]上服從高斯分布的隨機(jī)因子。優(yōu)化模型流程如圖7所示,具體步驟如下:
圖7 FA-PNN算法流程圖Fig.7 Fa-PNN algorithm flow chart
步驟1初始化螢火蟲(chóng)的位置,將平滑因子σ作為螢火蟲(chóng)個(gè)體,σ=40,σ∈(0,4),初始化螢火蟲(chóng)位置。然后設(shè)定光吸收因子γ=1.0、步長(zhǎng)因子α=0.2、最大吸引力值β0=1.0,設(shè)定當(dāng)前迭代次數(shù)φ=1。
步驟2每個(gè)螢火蟲(chóng)的亮度Icd根據(jù)式(26)計(jì)算,吸引力βcd根據(jù)式(28)計(jì)算。亮度決定螢火蟲(chóng)的移動(dòng)方向,吸引力決定移動(dòng)距離。
步驟3式(29)更新計(jì)算螢火蟲(chóng)的位置。
步驟4在每個(gè)螢火蟲(chóng)的位置更新后,利用式(25)再次計(jì)算亮度。判斷是否滿足目標(biāo)函數(shù)收斂或到達(dá)最大迭代次數(shù),進(jìn)行步驟5;否則φ=φ+1,返回步驟3。
步驟5將得到的平滑因子σ作為PNN網(wǎng)絡(luò)的參數(shù)進(jìn)行訓(xùn)練,得到識(shí)別模型。
將樣本導(dǎo)入模型中進(jìn)行訓(xùn)練,F(xiàn)A-PNN中平滑因子的優(yōu)化過(guò)程如圖8所示,橫坐標(biāo)表示迭代次數(shù),縱坐標(biāo)表示訓(xùn)練樣本的輸出值與實(shí)際值的均方誤差,從圖中可以得出,當(dāng)優(yōu)化到第6代左右達(dá)到了局部最優(yōu),RMSE值為0.223,當(dāng)達(dá)到33代時(shí)逃離局部最優(yōu),33代后值為0,表示PNN網(wǎng)絡(luò)的訓(xùn)練樣本的輸出值與實(shí)際值的均方根誤差值為0,最優(yōu)時(shí)σ=1.1,即設(shè)定PNN網(wǎng)絡(luò)參數(shù)平滑因子為1.1。
圖8 FA-PNN的迭代過(guò)程Fig.8 Iterative process of FA-PNN
實(shí)驗(yàn)1由于汽車內(nèi)設(shè)備存在一定的噪聲,信噪比是指電子設(shè)備中信號(hào)與噪聲的比例,信噪比越大噪聲越小,以此來(lái)進(jìn)行模型抗噪性能的評(píng)判。本研究針對(duì)不同信噪比情況下傳統(tǒng)MFCC、改進(jìn)MFCC、融合特征三種特征提取方法兩類情緒樣本進(jìn)行識(shí)別正確率對(duì)比,如圖9所示,圖中表明,信噪比越高,三種特征提取方法識(shí)別正確率均越高,但隨著信噪比的降低,傳統(tǒng)MFCC正確率下降最快,改進(jìn)MFCC正確率高于傳統(tǒng)MFCC,融合特征參數(shù)正確率最優(yōu);同時(shí),改進(jìn)MFCC特征在25~30 dB準(zhǔn)確率快速提高,而傳統(tǒng)MFCC在30 dB后才快速提高,證明了本特征提取方法相比傳統(tǒng)方法具有較好的抗噪性,體現(xiàn)了較好的魯棒性。
圖9 不同信噪比正確率Fig.9 Accuracy of different SNR
實(shí)驗(yàn)2為了驗(yàn)證優(yōu)化識(shí)別算法的優(yōu)越性,本文利用融合特征處理后的相同數(shù)據(jù),分別輸入傳統(tǒng)PNN和FA-PNN神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練并測(cè)試,同時(shí)輸入傳統(tǒng)模型SVM、BP、KNN、LVQ進(jìn)行對(duì)比分析。利用真陽(yáng)性(true positive,TP)、真陰性(true negative,TN)、假陽(yáng)性(false positive,F(xiàn)P)、假陰性(false negative,F(xiàn)N)計(jì)算準(zhǔn)確率、精確率、F1-Score值、召回率對(duì)兩種神經(jīng)網(wǎng)絡(luò)的識(shí)別結(jié)果進(jìn)行評(píng)估,由于精確率和召回率之間存在相對(duì)性影響,所以引進(jìn)F1-Score值,F(xiàn)1-Score值為精確值和召回率的調(diào)和平均,因此,該指標(biāo)更加合理,得分范圍為[0,1],得分越高,性能越好。公式如下:
兩種神經(jīng)網(wǎng)絡(luò)測(cè)試結(jié)果的混淆矩陣如圖10。根據(jù)圖10(a)可知,對(duì)于FA-PNN神經(jīng)網(wǎng)絡(luò),在100組的路怒情緒樣本中,有98組樣本識(shí)別正確,有2組樣本被模型判為非路怒情緒;在100組的非路怒情緒樣本中,有88組樣本識(shí)別正確,有12組樣本被模型判為路怒情緒。根據(jù)圖10(b)可知,對(duì)于PNN神經(jīng)網(wǎng)絡(luò),在100組的路怒情緒樣本中,有87組樣本識(shí)別正確,有13組樣本被模型判為非路怒情緒;在100組的非路怒情緒樣本中,有77組樣本識(shí)別正確,有23組樣本被模型判為路怒情緒。
圖10 混淆矩陣Fig.10 Confusion matrix
從表4可以得出本研究的網(wǎng)絡(luò)模型相比傳統(tǒng)的PNN神經(jīng)網(wǎng)絡(luò)識(shí)別準(zhǔn)確率提高了11個(gè)百分點(diǎn),F(xiàn)1值相對(duì)傳統(tǒng)PNN網(wǎng)絡(luò)提高了0.104 7,PNN網(wǎng)絡(luò)的識(shí)別準(zhǔn)確率較低于LVQ網(wǎng)絡(luò),但FA-PNN網(wǎng)絡(luò)相對(duì)于SVM、BP、KNN、LVQ模型平均識(shí)別準(zhǔn)確率提高了約10個(gè)百分點(diǎn),F(xiàn)1值也有所提高,說(shuō)明本研究方法具有很好的性能。綜上所述,改進(jìn)MFCC融合特征與FA-PNN組合的識(shí)別模型識(shí)別效果要明顯優(yōu)于傳統(tǒng)MFCC及常用識(shí)別模型。
表4 評(píng)估結(jié)果表Table 4 Evaluation results
駕駛員路怒情緒的識(shí)別研究對(duì)于降低道路安全隱患具有重大意義,語(yǔ)音信號(hào)處理技術(shù)為汽車主動(dòng)安全駕駛預(yù)警研究提供了新方法。本文利用模擬駕駛系統(tǒng)采集駕駛員語(yǔ)音數(shù)據(jù),根據(jù)語(yǔ)音的頻譜特性,將時(shí)域中短時(shí)能量及短時(shí)過(guò)零率特征參數(shù)和改進(jìn)MFCC特征參數(shù)融合構(gòu)成特征參數(shù)向量,利用螢火蟲(chóng)算法優(yōu)化PNN神經(jīng)網(wǎng)絡(luò),實(shí)現(xiàn)駕駛員路怒情緒的識(shí)別。與傳統(tǒng)MFCC特征參數(shù)及傳統(tǒng)PNN神經(jīng)網(wǎng)絡(luò)進(jìn)行了對(duì)比實(shí)驗(yàn),結(jié)果表明,相同神經(jīng)網(wǎng)絡(luò)下,改進(jìn)MFCC融合特征提取方法對(duì)于傳統(tǒng)MFCC特征提取方法,在不同信噪比情況下識(shí)別正確率高而且抗噪性能更優(yōu)。相同特征提取方法下,F(xiàn)A-PNN模型識(shí)別準(zhǔn)確率為93%,相比傳統(tǒng)PNN模型提高11個(gè)百分點(diǎn);F1-Score為0.932 8,相比傳統(tǒng)PNN模型提高0.104 7,同時(shí)也明顯優(yōu)于其他傳統(tǒng)識(shí)別模型。因此,本文所提出的識(shí)別方法在識(shí)別駕駛員路怒情緒方面表現(xiàn)優(yōu)異。在本文中,只考慮了駕駛員的語(yǔ)音信息,后續(xù)研究中將進(jìn)一步分析駕駛員語(yǔ)音特性及文本信息,進(jìn)一步提高駕駛員路怒識(shí)別方法的精度和魯棒性。