• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于多特征組合優(yōu)化的漢語數(shù)字語音識別研究

      2013-12-21 06:23:26
      電子器件 2013年2期
      關(guān)鍵詞:降維特征參數(shù)識別率

      蔡 敏

      (蘇州工業(yè)園區(qū)工業(yè)技術(shù)學(xué)院機(jī)電中心,江蘇 蘇州215123)

      漢語數(shù)字語音識別是語音識別領(lǐng)域中一個重要的分支,在日常生活中的電話撥號、人機(jī)交互、密碼身份識別等領(lǐng)域都有著重要的應(yīng)用價值,但由于漢語數(shù)字語音的發(fā)音特點(diǎn),容易產(chǎn)生互相之間混淆,導(dǎo)致識別率不高。

      漢語數(shù)字語音識別系統(tǒng)主要包括了語音特征提取和分類器兩部分[1]。特征參數(shù)的選擇是其中的關(guān)鍵問題。線性預(yù)測倒譜系數(shù)[2](LPCC)參數(shù)是根據(jù)聲管模型建立的特征參數(shù),可以準(zhǔn)確反映聲道響應(yīng)信息。梅爾頻率倒譜系數(shù)[3](MFCC)參數(shù)則充分考慮了人耳的聽覺特性,具有較好的魯棒性和識別性能。

      本文首先提取了漢語數(shù)字語音的LPCC 參數(shù)、MFCC 參數(shù)及其一階差分,并進(jìn)行特征組合。針對每個語音每幀均需要提取系數(shù),導(dǎo)致維數(shù)過高的問題,按照參數(shù)矩陣按列求取均值和方差的方法進(jìn)行首次降維,隨后采用基于關(guān)聯(lián)規(guī)則的特征選擇算法[4]進(jìn)行二次降維,最后采用C4.5 決策樹算法[5]進(jìn)行識別實(shí)驗(yàn)。

      1 特征提取算法及優(yōu)化

      1.1 線性預(yù)測倒譜系數(shù)(LPCC)

      線性預(yù)測分析技術(shù)就是由語音信號直接求出一組線性預(yù)測系數(shù),通過在最小均方誤差準(zhǔn)則條件下求預(yù)測系數(shù)的最佳估計(jì)值,而該組預(yù)測系數(shù)恰好能反映聲道的響應(yīng)信息。

      語音信號的聲道傳輸函數(shù)為:

      其中ai(i = 1,2,…,p)即預(yù)測系數(shù),可采用Levinson-Durbin 遞推算法求解。線性預(yù)測系數(shù)能夠用于模擬聲道模型,但獲取系數(shù)時語音信號產(chǎn)生過程中的激勵信息也混入其中。倒譜分析利用同態(tài)處理方法,能夠?qū)o關(guān)的激勵信息從中分離出來。首先對語音信號求離散傅里葉變換,然后取絕對值的對數(shù)進(jìn)行反變換,同時設(shè)計(jì)一個濾波器,把需要的聲道響應(yīng)信息留下來而把聲門激勵信號去除,就能夠得到所需特征。

      1.2 梅爾頻率倒譜系數(shù)(MFCC)

      梅爾頻率倒譜參數(shù)是將人耳的聽覺特性和語音的產(chǎn)生機(jī)制相結(jié)合而產(chǎn)生的一組特征參數(shù)。人耳具有一些特殊的功能,在1 kHz 以下為線性尺度,而在1 kHz 以上則為對數(shù)尺度,這就意味著人耳對低頻信號更加敏感。突出低頻信息有利于屏蔽噪聲的干擾,提取穩(wěn)定性很高的語音特征參數(shù)。

      Mel 頻率和實(shí)際頻率的轉(zhuǎn)換關(guān)系和圖示如下:

      首先將信號S(n)預(yù)加重后采用漢明窗進(jìn)行加窗分幀,得到每幀信號xn(m),然后通過短時傅里葉變換得到其頻譜Xn(k),隨后求取頻譜的平方,即能量譜Pn(k)。用梅爾帶通濾波器對Pn(k)進(jìn)行濾波,將每個濾波器頻帶內(nèi)的能量進(jìn)行疊加,取對數(shù)功率譜并進(jìn)行反離散余弦變換,即得到MFCC 系數(shù)。

      1.3 特征降維

      提取LPCC 和MFCC 參數(shù)后,通過求取其系數(shù)矩陣的均值和方差的方式進(jìn)行一次降維,如圖1 所示,得到24 階LPCC,24 階MFCC 及其一階差分(24階ΔMFCC)。

      圖1 MFCC、LPCC 第1 次降維過程

      將完成第1 次降維后的參數(shù),采用特征參數(shù)優(yōu)化選擇方法,實(shí)現(xiàn)二次降維。關(guān)聯(lián)規(guī)則能夠發(fā)現(xiàn)數(shù)據(jù)庫中屬性間隱藏的關(guān)聯(lián)網(wǎng),通過優(yōu)先選擇短規(guī)則選擇相關(guān)屬性,有可能得到最小的屬性子集[8]?;舅枷胧鞘紫韧诰蚝蠹轭悓傩缘膹?qiáng)關(guān)聯(lián)規(guī)則,再根據(jù)關(guān)聯(lián)規(guī)則參數(shù)找出與類屬性密切相關(guān)的屬性子集。

      設(shè)I={i1,i2,…,im}是項(xiàng)的集合,A 是一個項(xiàng)集,關(guān)聯(lián)規(guī)則是形如A?B 的蘊(yùn)涵式,其中A?I,B?I,且A∩B=φ。參數(shù)描述如下:

      支持度

      置信度

      提升度

      2 C4.5 決策樹算法

      決策樹方法是數(shù)據(jù)挖掘中分類方法的一種,其核心思想是根據(jù)某種規(guī)則將測試樣本生成決策樹模型,然后利用生成的決策樹模型對未知數(shù)據(jù)進(jìn)行分類預(yù)測。決策樹是一個類似流程圖的樹型結(jié)構(gòu),如圖2 所示,采用自頂向下的遞歸方式,通過把樣本從根節(jié)點(diǎn)排列到某個葉子節(jié)點(diǎn)來進(jìn)行分類,根據(jù)不同的屬性值判斷從該節(jié)點(diǎn)向下的分支,葉節(jié)點(diǎn)即為實(shí)例所屬的分類。

      圖2 決策樹示意圖

      C4.5 決策樹算法作為在經(jīng)典決策樹ID3 算法基礎(chǔ)上進(jìn)行了改進(jìn),以樣本的最高信息增益率作為屬性選擇的判決依據(jù)。用離散屬性A 對樣本集T進(jìn)行劃分的信息增益率:

      式中,inf(T)表示信息熵。

      3 實(shí)驗(yàn)結(jié)果及數(shù)據(jù)分析

      本文采用了蘇州大學(xué)語音實(shí)驗(yàn)室錄制的漢語數(shù)字語音庫進(jìn)行實(shí)驗(yàn)(SZDX-2006),語音信號的特性是11 025 Hz,16 bit,單聲道。選用數(shù)字語音0 ~9各100 個,共1 000 個語音文檔進(jìn)行實(shí)驗(yàn)。

      采用10 折交叉驗(yàn)證方式進(jìn)行實(shí)驗(yàn),表1 為二次降維前不同特征組合的識別通過比較發(fā)現(xiàn)MFCC+ΔMFCC 組合得到較高的識別結(jié)果,為94.9%,識別時間從0.1 s 到0.3 s 不等。

      表1 二次降維前識別結(jié)果

      對組合特征進(jìn)行特征優(yōu)化選取實(shí)現(xiàn)二次降維后實(shí)驗(yàn)結(jié)果如表2 所示,在保持高識別率的同時,大大縮短了識別時間。且LPCC+MFCC+ΔMFCC 的識別率識別率高達(dá)95.3%,識別時間相對較短,可信度高,誤差小,由此可見采用特征組合的方法并進(jìn)行二次降維以后,與二次降維前相比,去除了特征中的冗余信息,既有效的縮短了識別時間,又進(jìn)一步提高了語音識別率。

      表2 二次降維前識別結(jié)果

      對比二次降維前后語音識別率如圖3 所示,除MFCC+ΔMFCC 特征組合降維后識別率有所降低以外,MFCC,MFCC+LPCC,MFCC+LPCC+ΔMFCC 組合識別率均得到了一定的提高,且MFCC+LPCC+ΔMFCC 識別率提高到95.3%。

      圖3 二次降維前后識別率比較

      4 結(jié)論

      本文提取了漢語數(shù)字語音特征參數(shù)并進(jìn)行組合,通過求取其系數(shù)矩陣的均值和方差的方式進(jìn)行一次降維后,采用基于關(guān)聯(lián)規(guī)則的特征選擇算法進(jìn)行二次降維處理,并采用C4.5 決策樹算法進(jìn)行識別,通過實(shí)驗(yàn)發(fā)現(xiàn)本文提出的方法能有效縮短識別時間,且LPCC+MFCC+ΔMFCC 的組合識別率最高,達(dá)95.3%。在今后的研究中,如何找到更優(yōu)的特征降維算法和分類算法,以提高漢語數(shù)字語音的識別率,還有待于進(jìn)一步研究。

      [1] 劉雅琴,智愛娟.幾種語音識別特征參數(shù)的研究[J].計(jì)算機(jī)技術(shù)與發(fā)展,2009:67-70.

      [2] 韓紀(jì)慶,張磊,鄭鐵然. 語音信號處理[M]. 北京:清華大學(xué)出版社,2004.

      [3] Sri Rama Murty K,Yegnanarayana B. Combining Evidence from Residual Phase and MFCC Features for Speaker Recognition[J].IEEE Signal Processing Letters,2006,13(1):52-55.

      [4] 程險(xiǎn)峰.多種關(guān)聯(lián)規(guī)則挖掘算法的研究與分析[J].長春理工大學(xué)學(xué)報(bào)(自然科學(xué)版),2011:107-109.

      [5] Kirchner K,Tolle K H,Krieter J.Decision Tree Technique Applied to Pig Farming Datasets[J]. Livestock Production Science,2004,90:191-200.

      [6] Mahadeva Prasanna S R,Cheedella S Gupta,Yegnanarayana B.Extraction of Speaker-Specific Excitation Information from Linear Prediction Residual of Speech[J]. Speech Communication,2006,48:1243-1261.

      [7] Li Fuhai,Ma Jinwen,Huang Dezhi. MFCC and SVM Based on Recognition of Chinese Vowels[J].CIS,2005:812-819.

      [8] 武建華,宋擒豹,沈均毅,等. 基于關(guān)聯(lián)規(guī)則的特征選擇算法[J].模式識別與人工智能,2009,4:256-262.

      猜你喜歡
      降維特征參數(shù)識別率
      Three-Body’s epic scale and fiercely guarded fanbase present challenges to adaptations
      故障診斷中信號特征參數(shù)擇取方法
      基于特征參數(shù)化的木工CAD/CAM系統(tǒng)
      基于類圖像處理與向量化的大數(shù)據(jù)腳本攻擊智能檢測
      降維打擊
      海峽姐妹(2019年12期)2020-01-14 03:24:40
      基于真耳分析的助聽器配戴者言語可懂度指數(shù)與言語識別率的關(guān)系
      提升高速公路MTC二次抓拍車牌識別率方案研究
      基于PSO-VMD的齒輪特征參數(shù)提取方法研究
      高速公路機(jī)電日常維護(hù)中車牌識別率分析系統(tǒng)的應(yīng)用
      統(tǒng)計(jì)特征參數(shù)及多分類SVM的局部放電類型識別
      電測與儀表(2015年7期)2015-04-09 11:40:04
      莆田市| 武川县| 宜阳县| 博乐市| 喀喇| 凌云县| 荔波县| 台北县| 桐梓县| SHOW| 内乡县| 河北区| 垫江县| 柳河县| 龙海市| 漯河市| 化隆| 奉新县| 额敏县| 德江县| 克拉玛依市| 新营市| 平乐县| 桐柏县| 都安| 芷江| 双城市| 临漳县| 华池县| 青河县| 英超| 绥阳县| 绥芬河市| 汶上县| 丹巴县| 当涂县| 邛崃市| 临潭县| 类乌齐县| 台州市| 安阳市|