• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于KPCA和模糊核Fisher判別的語音情感識(shí)別*

      2013-11-02 00:33:04邢玉娟李恒杰胡建軍王萬軍
      關(guān)鍵詞:識(shí)別率特征向量語音

      邢玉娟,李恒杰,胡建軍,王萬軍

      (甘肅聯(lián)合大學(xué)電子與信息工程學(xué)院,甘肅蘭州730000)

      語音情感識(shí)別[1]就是根據(jù)說話人的語音特征識(shí)別出說話人的情感狀態(tài)(如憤怒、喜悅、驚訝、悲傷、害怕、厭惡等),包含語音情感特征參數(shù)的提取以及情感狀態(tài)的判定,在信號(hào)處理和人工智能領(lǐng)域有著重要的研究意義。

      在語音情感識(shí)別中,為了獲得理想的識(shí)別率,主要提取基音頻率、短時(shí)能量、共振峰、MFCC參數(shù)以及它們的派生參數(shù)作為語音的情感特征。特征向量的維數(shù)很高,并且高維特征向量往往也存在著一些對(duì)情感分類貢獻(xiàn)小,甚至沒有貢獻(xiàn)的特征[2]。采用這樣的高維特征向量進(jìn)行情感識(shí)別,勢必會(huì)產(chǎn)生識(shí)別率低和實(shí)時(shí)性差的問題。近幾年來,基于核函數(shù)的機(jī)器學(xué)習(xí)方法如支持向量機(jī)法、核Fisher判別技術(shù)等以其出色的分類性能成為模式識(shí)別領(lǐng)域的研究熱點(diǎn)。核Fisher判別(Kernel Fisher Discriminant,KFD)技術(shù)在分類時(shí)采用了所有的訓(xùn)練樣本,而不是少量的稱之為“支持向量”的樣本,因此KFD的識(shí)別率在某種程度上優(yōu)于支持向量機(jī)[3]。然而KFD的求解難度隨著樣本數(shù)目的增加急劇提高,同時(shí)在KFD的計(jì)算中并沒有考慮到樣本對(duì)所屬類別的相對(duì)重要性或?qū)λ鶎兕悇e貢獻(xiàn)的大小問題,并且語音特征向量中存在噪聲點(diǎn)和野值向量,導(dǎo)致KFD訓(xùn)練速度慢且識(shí)別率不高。因此此處提出一種基于核主成分空間的(Kernel Principle Component Space,KPCS)模糊核Fisher判別(Fuzzy Kernel Fisher Discriminant,F(xiàn)KFD)語音情感識(shí)別方法。采用核主成分分析(Kernel Principle Component Analysis,KPCA)和模糊C均值聚類(Fuzzy C-means Clustering,F(xiàn)CM)對(duì)特征向量進(jìn)行降維去噪、聚類的同時(shí),對(duì)不同的樣本賦予不同的懲罰權(quán)系數(shù),得到樣本的隸屬度,使得不同樣本對(duì)Fisher目標(biāo)函數(shù)的貢獻(xiàn)不同,進(jìn)而提高FKFD判別的準(zhǔn)確率。

      1 基于KPCA核主成分空間的模糊核Fisher判別在語音情感識(shí)別中的應(yīng)用

      此處提出的語音情感識(shí)別方法的系統(tǒng)框圖如圖1所示。

      圖1 語音情感識(shí)別系統(tǒng)框圖

      1.1 KPCA 降維去噪

      KPCA的核心思想是通過核函數(shù)技巧,將原始數(shù)據(jù)映射到高維特征空間,然后在高維特征空間中利用主成分分析法(Principle Component Analysis,PCA)求出最佳投影方向,從而獲得非線性特征[4]。

      假設(shè)情感語音樣本為{x1,x2,…,xN},xi∈Rm,通過非線性映射Φ:x∈Rm→z∈Rh將樣本映射到高維空間H。在該空間樣本的協(xié)方差矩陣可以表示為:

      其中<x,v>代表x與v的點(diǎn)積。公式(2)意味著λ≠0所對(duì)應(yīng)的v都一定在)中,因此,存在系數(shù)αi(i=1,…,n)可以滿足:

      將式(4)得到的特征值由大到小排序,λ1≥λ2≥…≥λn,其對(duì)應(yīng)的特征向量為 μ1,μ2,…,μn。語音特征向量經(jīng)過KPCA變換之后,選擇前q個(gè)特征分量構(gòu)成核主成分空間:,…,N。

      1.2 模糊C均值聚類

      在核主成分空間P(s)中,對(duì)KPCA降維去噪后得到的約簡特征向量集,采用模糊C均值聚類計(jì)算向量的隸屬度。假設(shè)約簡數(shù)據(jù)集,其中xi∈Rq,F(xiàn)CM聚類主要是最小化目標(biāo)函數(shù):

      其中n是訓(xùn)練樣本的數(shù)目,c表示指定的聚類數(shù)目。X={x1,x2,…,xn}和M={m1,m2,…,mc}分別表示訓(xùn)練樣本集和聚類中心。模糊矩陣U=(uj(xi))c×n由每一個(gè)訓(xùn)練樣本xi對(duì)于聚類mj的模糊隸屬度組成。同時(shí),b>1用于控制分類結(jié)果模糊量的指數(shù)權(quán)重。是樣本xi到聚類中心 mj的歐幾里得距離。根據(jù)定義,每個(gè)樣本xi滿足條件:

      在此條件下,最小化目標(biāo)函數(shù)。這是一種受限優(yōu)化問題,通過拉格朗日乘子法將其轉(zhuǎn)換為一個(gè)非受限優(yōu)化問題。

      FCM算法的具體步驟如下:

      Step1:確定聚類的數(shù)目c,b=2,給定非負(fù)的收斂誤差ε,同時(shí)設(shè)定t=0用于記錄聚類中心。

      Step4:如果‖Ut-Ut-1‖<ε停止聚類,否則轉(zhuǎn)到step3。

      1.3 KFKD 最終判別

      由于核主成分空間已經(jīng)是高維線性空間,因此在該空間KFD的核函數(shù)映射計(jì)算可以省略,直接采用線性判別(Linear Discriminant Analysis,LDA)算法進(jìn)行最終分類識(shí)別。LDA核心問題是樣本隸屬度的確定以及如何在目標(biāo)函數(shù)中引入隸屬度。在目標(biāo)函數(shù)中起決定作用的是類間離散度矩陣Sb和類內(nèi)離散度矩陣Sw。因此,提出在用FCM得到的模糊隸屬度矩陣U=(uij)C×N和聚類中心矩陣M=[m1,m2,…,mC]對(duì)Sb和Sw進(jìn)行重新定義[5]。

      類內(nèi)離散度矩陣和類間離散度矩陣可重新定義為:

      其中p是控制模糊量的指數(shù)權(quán)重,mi是第i類樣本的聚類中心,ˉm是樣本的整體均值向量。將重新定義的FSb和FSw代入Fisher目標(biāo)函數(shù)式可得:

      重新計(jì)算輸入樣本的最優(yōu)投影方向w=Sw(m1-m2),最后使用分類判別函數(shù)式(12)即可得出識(shí)別結(jié)果。

      綜上所述,F(xiàn)KFD判別算法描述如下:

      Step 1:在KPCA的核主成分空間進(jìn)行模糊C-均值聚類,得到模糊隸屬度矩陣U=(uij)C×N和類中心矩陣 M=[m1,m2,…,mC]。

      Step 2:根據(jù)模糊隸屬度矩陣U和類中心矩陣M重新計(jì)算LDA中的類內(nèi)離散度矩陣Sw和類間離散度矩陣Sb。

      Step 3:將FSb和FSw代入目標(biāo)函數(shù)計(jì)算樣本的最優(yōu)投影方向。

      Step 4:根據(jù)最優(yōu)投影方向采用判別函數(shù)得出識(shí)別結(jié)果。

      在語音情感識(shí)別中,很明顯識(shí)別模型是一個(gè)多元分類器,在此參照支持向量機(jī)構(gòu)造多類分類器的方法,設(shè)計(jì)了一個(gè)二叉樹FKFD多元分類器,其結(jié)構(gòu)如圖2所示。

      圖2 二叉樹FKFD多元分類器

      2 實(shí)驗(yàn)結(jié)果及分析

      2.1 實(shí)驗(yàn)環(huán)境及語音情感數(shù)據(jù)庫

      仿真實(shí)驗(yàn)平臺(tái)為PC2.6G/1G,Windows XP2003操作系統(tǒng)/Matlab7.0,結(jié)合語音工具箱 Voicebox以及SVM Toolbox 1.0驗(yàn)證語音情感識(shí)別的性能。核函數(shù)采用分類性能較好的RBF核函數(shù)(σ=1.3)。采用自己錄制的語音數(shù)據(jù),錄音軟件采用Cool Edit pro 2.0,錄音時(shí)采用單聲道、11.025 kHz采樣頻率、16位采樣精度,錄制語音保存為PCM編碼的wav格式。錄制26位說話人的6種情感狀態(tài)語音:憤怒、喜悅、驚訝、悲傷、害怕、厭惡。其中男性13名,女性13名,每人每種情感錄制10條語句,其中5句用于訓(xùn)練,剩余5句用于測試。利用Cool Edit中的降噪器工具,清除各種背景雜音。

      2.2 情感特征提取

      對(duì)語音庫中每條語句進(jìn)行端點(diǎn)檢測、預(yù)加重,以幀長30 ms、幀移15 ms為語音信號(hào)加漢明窗,窗長N=200。提取基音頻率、第一共振峰、短時(shí)能量、MFCC(Mel-frequency Cepstral Coefficients)4類基本情感聲學(xué)特征及其派生特征參數(shù)作為語音情感特征向量。在仿真實(shí)驗(yàn)中,逐幀計(jì)算語音的基音頻率、第一共振峰和短時(shí)能量的最大值、最小值、均值、范圍、標(biāo)準(zhǔn)差、斜度、峰度、曲線抖動(dòng)均值以及曲線抖動(dòng)范圍,各9維共27維特征向量。逐幀提取前13維MFCC參數(shù)。通過語音情感參數(shù)的提取,每位說話人的每條語句共可提取40維的特征向量。全部特征參數(shù)數(shù)據(jù)歸一化到[0,1]。

      圖3所示為語音庫中一名男性語音“你可真?zhèn)ゴ笱?”的喜悅和悲傷兩種情感語音的短時(shí)能量和基音周期,其中基音周期采用短時(shí)自相關(guān)函數(shù)法檢測。

      圖3 喜悅和悲傷兩種情感語音短時(shí)能量和基音周期

      2.3 實(shí)驗(yàn)結(jié)果

      實(shí)驗(yàn)1 識(shí)別性能實(shí)驗(yàn)。在實(shí)驗(yàn)中,此處提出的方法和傳統(tǒng)的支持向量機(jī)法、核Fisher判別法進(jìn)行比較分析,實(shí)驗(yàn)結(jié)果如表1所示。

      表1 情感識(shí)別率 %

      由表1可知,在3種方法中,此處提出的方法在憤怒和驚訝狀態(tài)識(shí)別率都有顯著的提高。在憤怒狀態(tài),KPCA+FKFD方法比SVM提高了7.81%,比KFD方法提高了4.62%;在驚訝狀態(tài),KPCA+FKFD方法比SVM提高了6.99%,比KFD方法提高了4.7%。而3種方法的悲傷、害怕和厭惡的識(shí)別率都普遍不高,主要是由于這3種情感在發(fā)音時(shí),許多生理特征相似,較易混淆。

      實(shí)驗(yàn)2 抗噪實(shí)驗(yàn)。為了測試提出方法的抗噪性能,采用Matlab7.0對(duì)測試語音進(jìn)行加噪處理,產(chǎn)生帶白噪聲的語音測試庫[6]。選擇的信噪比分別為:40 dB、35 dB、30 dB、25 dB、20 dB、15 dB、10 dB、5 dB。實(shí)驗(yàn)結(jié)果如表2所示。為了更好地描述不同信噪比下識(shí)別算法的情感平均正確識(shí)別率的變化趨勢,繪制了情感平均識(shí)別率曲線圖,如圖4所示。

      表2 不同信噪比下的情感平均正確識(shí)別率 %

      圖4 不同信噪比下情感平均識(shí)別率曲線圖

      由表2和圖4可知,在不同的信噪比實(shí)驗(yàn)中,隨著信噪比的降低(噪聲的增加),SVM和KFD分類器的情感平均正確識(shí)別率下降較快,而此處提出的方法(KPCA+FKFD)下降較慢,而且平均正確識(shí)別率均高于其他方法。即使當(dāng)信噪比降低到5 dB時(shí),此時(shí)語音信號(hào)中的噪聲強(qiáng)度已經(jīng)非常高,KPCA+FKFD的情感平均正確識(shí)別率也達(dá)到了48.17%,而其他兩種的情感平均正確識(shí)別率降至20%左右。因此,在上述3種情感識(shí)別方法中,KPCA+FKFD具有最好的抗噪聲性能。主要原因是KPCA在對(duì)語音數(shù)據(jù)降維的同時(shí),也去除了語音向量中的冗余信息,這些冗余信息主要是一些噪聲信息。

      3 總結(jié)

      在深入分析研究語音情感識(shí)別算法的基礎(chǔ)上,提出基于核主成分空間的模糊核Fisher判別算法。該算法一方面借助于KPCA和FCM對(duì)語音數(shù)據(jù)在維度和數(shù)量上進(jìn)行了約簡,可以有效地降低后續(xù)LDA的計(jì)算復(fù)雜度;另一方面,通過KPCA的轉(zhuǎn)換矩陣得到核主成分空間,在該空間進(jìn)行FCM,對(duì)不同輸入樣本根據(jù)其貢獻(xiàn)度引入隸屬度,根據(jù)隸屬度重新定義LDA,不僅大大地簡化了KFD的計(jì)算步驟,并且有效地提高了KFD的高分類性能。仿真實(shí)驗(yàn)結(jié)果表明,此處提出的方法和傳統(tǒng)SVM、KFD相比,在純凈語音和噪聲語音的情況下都取得了較為理想的的情感平均正確識(shí)別率,具有良好的抗噪性能,是一種有效可行的語音情感識(shí)別算法。然而,仿真實(shí)驗(yàn)也表明,悲傷、害怕和厭惡3種情感狀態(tài)的識(shí)別率不高,因此在后續(xù)的研究工作中,將側(cè)重于尋找更有效的參數(shù)提取方法,使得這3種情感狀態(tài)識(shí)別率也能具有較高的識(shí)別率。

      [1]AYADI E l M.Survey on speech emotion recognition:Features,classification schemes,and databases[J].Pattern Recognition,2011,44(3):572-587

      [2]BITOUK D,VERMA R,NENKOVA A.Class-level spectral features for emotion recognition[J].Speech Communication,2010,52(7/8):613-625

      [3]WANG J H,LI Q,YOU J,et al.Fast kernel Fisher discriminant analysis via approximating the kernel principal component analysis[J].Neurocomputing,2011,74(17):3313-3322

      [4]李童.基于改進(jìn)的2DPCA人臉識(shí)別方法研究[J].重慶工商大學(xué)學(xué)報(bào):自然科學(xué)版,2012,29(04):45-49

      [5]ZHENG Y J,YANG J Y,WANG W D,et al.Fuzzy Kernel Fisher Discriminant Algorithm with Application to Face Recognition[A].The proceedings of Sixth World Congress on Intelligent Control and Automation(WCICA2006)[C].中國,大連:2006

      [6]張石清,趙知?jiǎng)?噪聲背景下的語音情感識(shí)別[J].西南交通大學(xué)學(xué)報(bào),2009,44(3):442-447

      猜你喜歡
      識(shí)別率特征向量語音
      二年制職教本科線性代數(shù)課程的幾何化教學(xué)設(shè)計(jì)——以特征值和特征向量為例
      克羅內(nèi)克積的特征向量
      基于類圖像處理與向量化的大數(shù)據(jù)腳本攻擊智能檢測
      魔力語音
      基于MATLAB的語音信號(hào)處理
      電子制作(2019年14期)2019-08-20 05:43:38
      基于真耳分析的助聽器配戴者言語可懂度指數(shù)與言語識(shí)別率的關(guān)系
      基于MQ3與MP3的價(jià)廉物美的酒駕語音提醒器
      電子制作(2019年9期)2019-05-30 09:42:10
      對(duì)方正在輸入……
      小說界(2018年5期)2018-11-26 12:43:42
      提升高速公路MTC二次抓拍車牌識(shí)別率方案研究
      一類特殊矩陣特征向量的求法
      习水县| 高青县| 道真| 普格县| 依兰县| 玉树县| 眉山市| 铜梁县| 太仆寺旗| 克山县| 资源县| 汪清县| 宜城市| 彭水| 江门市| 崇义县| 青铜峡市| 尖扎县| 屏东县| 麻阳| 元氏县| 南昌县| 利津县| 恩施市| 东阿县| 磐安县| 建平县| 如东县| 闽清县| 新巴尔虎左旗| 龙泉市| 望谟县| 恩施市| 边坝县| 鹤壁市| 晋城| 和田市| 农安县| 邢台市| 梓潼县| 威海市|