基于多特征組合優(yōu)化的漢語數(shù)字語音識別研究

2013-12-21 06:23:26蔡敏

電子器件 2013年2期

蔡敏

(蘇州工業(yè)園區(qū)工業(yè)技術(shù)學(xué)院機(jī)電中心，江蘇蘇州215123)

漢語數(shù)字語音識別是語音識別領(lǐng)域中一個重要的分支，在日常生活中的電話撥號、人機(jī)交互、密碼身份識別等領(lǐng)域都有著重要的應(yīng)用價值，但由于漢語數(shù)字語音的發(fā)音特點(diǎn)，容易產(chǎn)生互相之間混淆，導(dǎo)致識別率不高。

漢語數(shù)字語音識別系統(tǒng)主要包括了語音特征提取和分類器兩部分［1］。特征參數(shù)的選擇是其中的關(guān)鍵問題。線性預(yù)測倒譜系數(shù)［2］(LPCC)參數(shù)是根據(jù)聲管模型建立的特征參數(shù)，可以準(zhǔn)確反映聲道響應(yīng)信息。梅爾頻率倒譜系數(shù)［3］(MFCC)參數(shù)則充分考慮了人耳的聽覺特性，具有較好的魯棒性和識別性能。

本文首先提取了漢語數(shù)字語音的LPCC 參數(shù)、MFCC 參數(shù)及其一階差分，并進(jìn)行特征組合。針對每個語音每幀均需要提取系數(shù)，導(dǎo)致維數(shù)過高的問題，按照參數(shù)矩陣按列求取均值和方差的方法進(jìn)行首次降維，隨后采用基于關(guān)聯(lián)規(guī)則的特征選擇算法［4］進(jìn)行二次降維，最后采用C4.5 決策樹算法［5］進(jìn)行識別實(shí)驗(yàn)。

1 特征提取算法及優(yōu)化

1.1 線性預(yù)測倒譜系數(shù)(LPCC)

線性預(yù)測分析技術(shù)就是由語音信號直接求出一組線性預(yù)測系數(shù)，通過在最小均方誤差準(zhǔn)則條件下求預(yù)測系數(shù)的最佳估計(jì)值，而該組預(yù)測系數(shù)恰好能反映聲道的響應(yīng)信息。

語音信號的聲道傳輸函數(shù)為:

其中ai(i = 1，2，…，p)即預(yù)測系數(shù)，可采用Levinson-Durbin 遞推算法求解。線性預(yù)測系數(shù)能夠用于模擬聲道模型，但獲取系數(shù)時語音信號產(chǎn)生過程中的激勵信息也混入其中。倒譜分析利用同態(tài)處理方法，能夠?qū)o關(guān)的激勵信息從中分離出來。首先對語音信號求離散傅里葉變換，然后取絕對值的對數(shù)進(jìn)行反變換，同時設(shè)計(jì)一個濾波器，把需要的聲道響應(yīng)信息留下來而把聲門激勵信號去除，就能夠得到所需特征。

1.2 梅爾頻率倒譜系數(shù)(MFCC)

梅爾頻率倒譜參數(shù)是將人耳的聽覺特性和語音的產(chǎn)生機(jī)制相結(jié)合而產(chǎn)生的一組特征參數(shù)。人耳具有一些特殊的功能，在1 kHz 以下為線性尺度，而在1 kHz 以上則為對數(shù)尺度，這就意味著人耳對低頻信號更加敏感。突出低頻信息有利于屏蔽噪聲的干擾，提取穩(wěn)定性很高的語音特征參數(shù)。

Mel 頻率和實(shí)際頻率的轉(zhuǎn)換關(guān)系和圖示如下:

首先將信號S(n)預(yù)加重后采用漢明窗進(jìn)行加窗分幀，得到每幀信號xn(m)，然后通過短時傅里葉變換得到其頻譜Xn(k)，隨后求取頻譜的平方，即能量譜Pn(k)。用梅爾帶通濾波器對Pn(k)進(jìn)行濾波，將每個濾波器頻帶內(nèi)的能量進(jìn)行疊加，取對數(shù)功率譜并進(jìn)行反離散余弦變換，即得到MFCC 系數(shù)。

1.3 特征降維

提取LPCC 和MFCC 參數(shù)后，通過求取其系數(shù)矩陣的均值和方差的方式進(jìn)行一次降維，如圖1 所示，得到24 階LPCC，24 階MFCC 及其一階差分(24階ΔMFCC)。

圖1 MFCC、LPCC 第1 次降維過程

將完成第1 次降維后的參數(shù)，采用特征參數(shù)優(yōu)化選擇方法，實(shí)現(xiàn)二次降維。關(guān)聯(lián)規(guī)則能夠發(fā)現(xiàn)數(shù)據(jù)庫中屬性間隱藏的關(guān)聯(lián)網(wǎng)，通過優(yōu)先選擇短規(guī)則選擇相關(guān)屬性，有可能得到最小的屬性子集［8］?；舅枷胧鞘紫韧诰蚝蠹轭悓傩缘膹?qiáng)關(guān)聯(lián)規(guī)則，再根據(jù)關(guān)聯(lián)規(guī)則參數(shù)找出與類屬性密切相關(guān)的屬性子集。

設(shè)I={i1，i2，…，im}是項(xiàng)的集合，A 是一個項(xiàng)集，關(guān)聯(lián)規(guī)則是形如A?B 的蘊(yùn)涵式，其中A?I，B?I，且A∩B=φ。參數(shù)描述如下:

支持度

置信度

提升度

2 C4.5 決策樹算法

決策樹方法是數(shù)據(jù)挖掘中分類方法的一種，其核心思想是根據(jù)某種規(guī)則將測試樣本生成決策樹模型，然后利用生成的決策樹模型對未知數(shù)據(jù)進(jìn)行分類預(yù)測。決策樹是一個類似流程圖的樹型結(jié)構(gòu)，如圖2 所示，采用自頂向下的遞歸方式，通過把樣本從根節(jié)點(diǎn)排列到某個葉子節(jié)點(diǎn)來進(jìn)行分類，根據(jù)不同的屬性值判斷從該節(jié)點(diǎn)向下的分支，葉節(jié)點(diǎn)即為實(shí)例所屬的分類。

圖2 決策樹示意圖

C4.5 決策樹算法作為在經(jīng)典決策樹ID3 算法基礎(chǔ)上進(jìn)行了改進(jìn)，以樣本的最高信息增益率作為屬性選擇的判決依據(jù)。用離散屬性A 對樣本集T進(jìn)行劃分的信息增益率:

式中，inf(T)表示信息熵。

3 實(shí)驗(yàn)結(jié)果及數(shù)據(jù)分析

本文采用了蘇州大學(xué)語音實(shí)驗(yàn)室錄制的漢語數(shù)字語音庫進(jìn)行實(shí)驗(yàn)(SZDX-2006)，語音信號的特性是11 025 Hz，16 bit，單聲道。選用數(shù)字語音0 ～9各100 個，共1 000 個語音文檔進(jìn)行實(shí)驗(yàn)。

采用10 折交叉驗(yàn)證方式進(jìn)行實(shí)驗(yàn)，表1 為二次降維前不同特征組合的識別通過比較發(fā)現(xiàn)MFCC+ΔMFCC 組合得到較高的識別結(jié)果，為94.9%，識別時間從0.1 s 到0.3 s 不等。

表1 二次降維前識別結(jié)果

對組合特征進(jìn)行特征優(yōu)化選取實(shí)現(xiàn)二次降維后實(shí)驗(yàn)結(jié)果如表2 所示，在保持高識別率的同時，大大縮短了識別時間。且LPCC+MFCC+ΔMFCC 的識別率識別率高達(dá)95.3%，識別時間相對較短，可信度高，誤差小，由此可見采用特征組合的方法并進(jìn)行二次降維以后，與二次降維前相比，去除了特征中的冗余信息，既有效的縮短了識別時間，又進(jìn)一步提高了語音識別率。

表2 二次降維前識別結(jié)果

對比二次降維前后語音識別率如圖3 所示，除MFCC+ΔMFCC 特征組合降維后識別率有所降低以外，MFCC，MFCC+LPCC，MFCC+LPCC+ΔMFCC 組合識別率均得到了一定的提高，且MFCC+LPCC+ΔMFCC 識別率提高到95.3%。

圖3 二次降維前后識別率比較

4 結(jié)論

本文提取了漢語數(shù)字語音特征參數(shù)并進(jìn)行組合，通過求取其系數(shù)矩陣的均值和方差的方式進(jìn)行一次降維后，采用基于關(guān)聯(lián)規(guī)則的特征選擇算法進(jìn)行二次降維處理，并采用C4.5 決策樹算法進(jìn)行識別，通過實(shí)驗(yàn)發(fā)現(xiàn)本文提出的方法能有效縮短識別時間，且LPCC+MFCC+ΔMFCC 的組合識別率最高，達(dá)95.3%。在今后的研究中，如何找到更優(yōu)的特征降維算法和分類算法，以提高漢語數(shù)字語音的識別率，還有待于進(jìn)一步研究。

［1］劉雅琴，智愛娟.幾種語音識別特征參數(shù)的研究［J］.計(jì)算機(jī)技術(shù)與發(fā)展，2009:67-70.

［2］韓紀(jì)慶，張磊，鄭鐵然. 語音信號處理［M］. 北京:清華大學(xué)出版社，2004.

［3］ Sri Rama Murty K，Yegnanarayana B. Combining Evidence from Residual Phase and MFCC Features for Speaker Recognition［J］.IEEE Signal Processing Letters，2006，13(1):52-55.

［4］程險(xiǎn)峰.多種關(guān)聯(lián)規(guī)則挖掘算法的研究與分析［J］.長春理工大學(xué)學(xué)報(bào)(自然科學(xué)版)，2011:107-109.

［5］ Kirchner K，Tolle K H，Krieter J.Decision Tree Technique Applied to Pig Farming Datasets［J］. Livestock Production Science，2004，90:191-200.

［6］ Mahadeva Prasanna S R，Cheedella S Gupta，Yegnanarayana B.Extraction of Speaker-Specific Excitation Information from Linear Prediction Residual of Speech［J］. Speech Communication，2006，48:1243-1261.

［7］ Li Fuhai，Ma Jinwen，Huang Dezhi. MFCC and SVM Based on Recognition of Chinese Vowels［J］.CIS，2005:812-819.

［8］武建華，宋擒豹，沈均毅，等. 基于關(guān)聯(lián)規(guī)則的特征選擇算法［J］.模式識別與人工智能，2009，4:256-262.