蔡 敏
(蘇州工業(yè)園區(qū)工業(yè)技術(shù)學(xué)院機(jī)電中心,江蘇 蘇州215123)
漢語數(shù)字語音識別是語音識別領(lǐng)域中一個重要的分支,在日常生活中的電話撥號、人機(jī)交互、密碼身份識別等領(lǐng)域都有著重要的應(yīng)用價值,但由于漢語數(shù)字語音的發(fā)音特點(diǎn),容易產(chǎn)生互相之間混淆,導(dǎo)致識別率不高。
漢語數(shù)字語音識別系統(tǒng)主要包括了語音特征提取和分類器兩部分[1]。特征參數(shù)的選擇是其中的關(guān)鍵問題。線性預(yù)測倒譜系數(shù)[2](LPCC)參數(shù)是根據(jù)聲管模型建立的特征參數(shù),可以準(zhǔn)確反映聲道響應(yīng)信息。梅爾頻率倒譜系數(shù)[3](MFCC)參數(shù)則充分考慮了人耳的聽覺特性,具有較好的魯棒性和識別性能。
本文首先提取了漢語數(shù)字語音的LPCC 參數(shù)、MFCC 參數(shù)及其一階差分,并進(jìn)行特征組合。針對每個語音每幀均需要提取系數(shù),導(dǎo)致維數(shù)過高的問題,按照參數(shù)矩陣按列求取均值和方差的方法進(jìn)行首次降維,隨后采用基于關(guān)聯(lián)規(guī)則的特征選擇算法[4]進(jìn)行二次降維,最后采用C4.5 決策樹算法[5]進(jìn)行識別實(shí)驗(yàn)。
線性預(yù)測分析技術(shù)就是由語音信號直接求出一組線性預(yù)測系數(shù),通過在最小均方誤差準(zhǔn)則條件下求預(yù)測系數(shù)的最佳估計(jì)值,而該組預(yù)測系數(shù)恰好能反映聲道的響應(yīng)信息。
語音信號的聲道傳輸函數(shù)為:
其中ai(i = 1,2,…,p)即預(yù)測系數(shù),可采用Levinson-Durbin 遞推算法求解。線性預(yù)測系數(shù)能夠用于模擬聲道模型,但獲取系數(shù)時語音信號產(chǎn)生過程中的激勵信息也混入其中。倒譜分析利用同態(tài)處理方法,能夠?qū)o關(guān)的激勵信息從中分離出來。首先對語音信號求離散傅里葉變換,然后取絕對值的對數(shù)進(jìn)行反變換,同時設(shè)計(jì)一個濾波器,把需要的聲道響應(yīng)信息留下來而把聲門激勵信號去除,就能夠得到所需特征。
梅爾頻率倒譜參數(shù)是將人耳的聽覺特性和語音的產(chǎn)生機(jī)制相結(jié)合而產(chǎn)生的一組特征參數(shù)。人耳具有一些特殊的功能,在1 kHz 以下為線性尺度,而在1 kHz 以上則為對數(shù)尺度,這就意味著人耳對低頻信號更加敏感。突出低頻信息有利于屏蔽噪聲的干擾,提取穩(wěn)定性很高的語音特征參數(shù)。
Mel 頻率和實(shí)際頻率的轉(zhuǎn)換關(guān)系和圖示如下:
首先將信號S(n)預(yù)加重后采用漢明窗進(jìn)行加窗分幀,得到每幀信號xn(m),然后通過短時傅里葉變換得到其頻譜Xn(k),隨后求取頻譜的平方,即能量譜Pn(k)。用梅爾帶通濾波器對Pn(k)進(jìn)行濾波,將每個濾波器頻帶內(nèi)的能量進(jìn)行疊加,取對數(shù)功率譜并進(jìn)行反離散余弦變換,即得到MFCC 系數(shù)。
提取LPCC 和MFCC 參數(shù)后,通過求取其系數(shù)矩陣的均值和方差的方式進(jìn)行一次降維,如圖1 所示,得到24 階LPCC,24 階MFCC 及其一階差分(24階ΔMFCC)。
圖1 MFCC、LPCC 第1 次降維過程
將完成第1 次降維后的參數(shù),采用特征參數(shù)優(yōu)化選擇方法,實(shí)現(xiàn)二次降維。關(guān)聯(lián)規(guī)則能夠發(fā)現(xiàn)數(shù)據(jù)庫中屬性間隱藏的關(guān)聯(lián)網(wǎng),通過優(yōu)先選擇短規(guī)則選擇相關(guān)屬性,有可能得到最小的屬性子集[8]?;舅枷胧鞘紫韧诰蚝蠹轭悓傩缘膹?qiáng)關(guān)聯(lián)規(guī)則,再根據(jù)關(guān)聯(lián)規(guī)則參數(shù)找出與類屬性密切相關(guān)的屬性子集。
設(shè)I={i1,i2,…,im}是項(xiàng)的集合,A 是一個項(xiàng)集,關(guān)聯(lián)規(guī)則是形如A?B 的蘊(yùn)涵式,其中A?I,B?I,且A∩B=φ。參數(shù)描述如下:
支持度
置信度
提升度
決策樹方法是數(shù)據(jù)挖掘中分類方法的一種,其核心思想是根據(jù)某種規(guī)則將測試樣本生成決策樹模型,然后利用生成的決策樹模型對未知數(shù)據(jù)進(jìn)行分類預(yù)測。決策樹是一個類似流程圖的樹型結(jié)構(gòu),如圖2 所示,采用自頂向下的遞歸方式,通過把樣本從根節(jié)點(diǎn)排列到某個葉子節(jié)點(diǎn)來進(jìn)行分類,根據(jù)不同的屬性值判斷從該節(jié)點(diǎn)向下的分支,葉節(jié)點(diǎn)即為實(shí)例所屬的分類。
圖2 決策樹示意圖
C4.5 決策樹算法作為在經(jīng)典決策樹ID3 算法基礎(chǔ)上進(jìn)行了改進(jìn),以樣本的最高信息增益率作為屬性選擇的判決依據(jù)。用離散屬性A 對樣本集T進(jìn)行劃分的信息增益率:
式中,inf(T)表示信息熵。
本文采用了蘇州大學(xué)語音實(shí)驗(yàn)室錄制的漢語數(shù)字語音庫進(jìn)行實(shí)驗(yàn)(SZDX-2006),語音信號的特性是11 025 Hz,16 bit,單聲道。選用數(shù)字語音0 ~9各100 個,共1 000 個語音文檔進(jìn)行實(shí)驗(yàn)。
采用10 折交叉驗(yàn)證方式進(jìn)行實(shí)驗(yàn),表1 為二次降維前不同特征組合的識別通過比較發(fā)現(xiàn)MFCC+ΔMFCC 組合得到較高的識別結(jié)果,為94.9%,識別時間從0.1 s 到0.3 s 不等。
表1 二次降維前識別結(jié)果
對組合特征進(jìn)行特征優(yōu)化選取實(shí)現(xiàn)二次降維后實(shí)驗(yàn)結(jié)果如表2 所示,在保持高識別率的同時,大大縮短了識別時間。且LPCC+MFCC+ΔMFCC 的識別率識別率高達(dá)95.3%,識別時間相對較短,可信度高,誤差小,由此可見采用特征組合的方法并進(jìn)行二次降維以后,與二次降維前相比,去除了特征中的冗余信息,既有效的縮短了識別時間,又進(jìn)一步提高了語音識別率。
表2 二次降維前識別結(jié)果
對比二次降維前后語音識別率如圖3 所示,除MFCC+ΔMFCC 特征組合降維后識別率有所降低以外,MFCC,MFCC+LPCC,MFCC+LPCC+ΔMFCC 組合識別率均得到了一定的提高,且MFCC+LPCC+ΔMFCC 識別率提高到95.3%。
圖3 二次降維前后識別率比較
本文提取了漢語數(shù)字語音特征參數(shù)并進(jìn)行組合,通過求取其系數(shù)矩陣的均值和方差的方式進(jìn)行一次降維后,采用基于關(guān)聯(lián)規(guī)則的特征選擇算法進(jìn)行二次降維處理,并采用C4.5 決策樹算法進(jìn)行識別,通過實(shí)驗(yàn)發(fā)現(xiàn)本文提出的方法能有效縮短識別時間,且LPCC+MFCC+ΔMFCC 的組合識別率最高,達(dá)95.3%。在今后的研究中,如何找到更優(yōu)的特征降維算法和分類算法,以提高漢語數(shù)字語音的識別率,還有待于進(jìn)一步研究。
[1] 劉雅琴,智愛娟.幾種語音識別特征參數(shù)的研究[J].計(jì)算機(jī)技術(shù)與發(fā)展,2009:67-70.
[2] 韓紀(jì)慶,張磊,鄭鐵然. 語音信號處理[M]. 北京:清華大學(xué)出版社,2004.
[3] Sri Rama Murty K,Yegnanarayana B. Combining Evidence from Residual Phase and MFCC Features for Speaker Recognition[J].IEEE Signal Processing Letters,2006,13(1):52-55.
[4] 程險(xiǎn)峰.多種關(guān)聯(lián)規(guī)則挖掘算法的研究與分析[J].長春理工大學(xué)學(xué)報(bào)(自然科學(xué)版),2011:107-109.
[5] Kirchner K,Tolle K H,Krieter J.Decision Tree Technique Applied to Pig Farming Datasets[J]. Livestock Production Science,2004,90:191-200.
[6] Mahadeva Prasanna S R,Cheedella S Gupta,Yegnanarayana B.Extraction of Speaker-Specific Excitation Information from Linear Prediction Residual of Speech[J]. Speech Communication,2006,48:1243-1261.
[7] Li Fuhai,Ma Jinwen,Huang Dezhi. MFCC and SVM Based on Recognition of Chinese Vowels[J].CIS,2005:812-819.
[8] 武建華,宋擒豹,沈均毅,等. 基于關(guān)聯(lián)規(guī)則的特征選擇算法[J].模式識別與人工智能,2009,4:256-262.