• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      一種提高語音特征參數(shù)穩(wěn)健性MLMCC算法的研究

      2014-04-29 00:50:36杜文龍
      智能計算機(jī)與應(yīng)用 2014年4期

      杜文龍

      摘要:語音特征參數(shù)的提取是語音識別的前提和基礎(chǔ),特別是在噪聲環(huán)境中,如何尋找對噪聲不敏感的語音特征即是目前研究的一個難點和重點。本文在對LPCC和MFCC兩種參數(shù)深入分析的基礎(chǔ)上,分析一種MLMCC特征參數(shù)提取方法,實驗證明具有良好的抗噪能力。

      關(guān)鍵詞:MFCC倒譜參數(shù); LPCC倒譜參數(shù); MLMCC倒譜參數(shù)

      中圖分類號:TP391 文獻(xiàn)標(biāo)識碼:A文章編號:2095-2163(2014)04-0094-03

      Abstract:Extraction of speech feature is the premise and basis of speech recognition, especially in noise environment, how to find the speech feature insensitive to noise is one of the research emphases and difficulty. Based on the analysis of two kinds of parameters such as LPCC and MFCC, the paper proposes extraction method for MLMCC characteristic parameters, and the experiment proves that the method has have good anti noise ability.

      Key words:MFCC Parameter; LPCC Parameter; MLMCC Parameter

      0引言

      伴隨計算機(jī)技術(shù)的快速發(fā)展,針對語音識別的技術(shù)研究已經(jīng)取得了實質(zhì)性的突破,大量成功的語音識別系統(tǒng)也相繼問世。但其中多數(shù)類似系統(tǒng)都僅適合于“干凈”的語音,而在實際應(yīng)用中,語音卻會受到各種環(huán)境因素[1],諸如背景噪聲、信道畸變等的影響,這些都將大大降低識別系統(tǒng)的性能。語音識別系統(tǒng)的穩(wěn)健性是指當(dāng)語音的音素特性、分割特性或聲學(xué)特性發(fā)生變化導(dǎo)致聲音質(zhì)量下降時,而在測試和訓(xùn)練環(huán)境中,語音識別系統(tǒng)卻仍然保持較高識別率的性質(zhì)。在其對應(yīng)研究中,環(huán)境噪聲對語音的聲學(xué)特性影響較大,也是該領(lǐng)域研究的重點,有人將該研究稱為“抗噪聲語音識別”。隨著語音識別技術(shù)進(jìn)入實際應(yīng)用,穩(wěn)健語音識別系統(tǒng),即能在復(fù)雜且動態(tài)時變的環(huán)境中保持較好識別率的語音識別系統(tǒng)的開發(fā)變得越來越重要。

      1MFCC倒譜參數(shù)(MFCC Parameter)

      人的聽覺系統(tǒng),在沒有人的主觀傾向影響的情況下,可以說是一個比較好的話者識別系統(tǒng),具有很高的準(zhǔn)確性。因此,模擬人的聽覺,從而建立自動語音識別系統(tǒng)的思路,既是可行的,又是完全必要的。MFCC[2] (Mel Frequency Cepstrum Coefficient)即美爾頻率倒譜參數(shù)正是基于人的聽覺系統(tǒng)的一種參數(shù)。MFCC計算過程[2]如圖1所示。

      5實驗結(jié)果

      本實驗利用HTK[5](HMM ToolKit)搭建基于LPCC和MFCC的HMM語音識別系統(tǒng),然后利用此平臺進(jìn)行測試與比較。訓(xùn)練和識別主要使用了TiDigits數(shù)據(jù)庫,由Texas Instruments公司設(shè)計, 有 326 人(111個成年男性,114個成年女性,50 個男孩,51個女孩)參與其中,每人77個數(shù)字串發(fā)音,本論文實驗中訓(xùn)練使用TiDigits數(shù)據(jù)庫15個說話人的500句話,識別測試使用庫中與訓(xùn)練無關(guān)的4個人的100句話,語音數(shù)據(jù)的采樣率為16KHz,采樣比特為 16bit。同時也使用了Aurora2數(shù)據(jù)庫,主要由TiDigits數(shù)據(jù)庫演變而來,可用于抗噪語音算法的測試。主要特征是16階MFCC_W_D參數(shù),其中靜態(tài)參數(shù)階數(shù)為12,動態(tài)參數(shù)階數(shù)為4, Mel濾波器的個數(shù)為26,其低頻截止頻率為 100Hz,高頻截止頻率為3 800Hz;16階LPCC_W_D參數(shù),其中靜態(tài)參數(shù)階數(shù)為12,動態(tài)參數(shù)階數(shù)為4;語音幀長度16ms,幀間重疊為8ms;預(yù)加重系數(shù)為0.97。

      基線系統(tǒng)使用了12個HMM全詞模型, 每個HMM采用了狀態(tài)從左至右無跳轉(zhuǎn)的拓?fù)浣Y(jié)構(gòu),其中第一個和最后一個狀態(tài)分別為起始狀態(tài)和終止?fàn)顟B(tài),其余狀態(tài)為特征輸出狀態(tài),統(tǒng)計特性為由高斯分量疊加擬合而成的連續(xù)概率密度,每個高斯分量的協(xié)方差矩陣采用了對角化矩陣,即各維特征在高斯分量級上是互不相關(guān)的。在 TiDigits 數(shù)據(jù)庫訓(xùn)練中,通過3次分段K平均算法來獲得較好的模型參數(shù)初始值,最后通過6次EM(Expectation Maximization)最大期望算法迭代使模型收斂至初始值附近的局部最優(yōu)點;Aurora2 數(shù)據(jù)庫訓(xùn)練過程為:

      第一步,是對所有的訓(xùn)練數(shù)據(jù)進(jìn)行統(tǒng)計,獲得整體均值和方差,并將上述參數(shù)作為原型模型的初始值進(jìn)行3次EM重估迭代;

      參考文獻(xiàn):

      [1]何勇軍,付茂國,孫廣路.語音特征增強(qiáng)方法綜述[J].哈爾濱理工大學(xué)學(xué)報,2014(2):19-21.

      [2]龐程, 李曉飛,劉宏. 基于MFCC與基頻特征貢獻(xiàn)度識別說話人性別[J].華中科技大學(xué)學(xué)報(自然科學(xué)版), 2013(s1):108-110.

      [3]王彪.基于LPCC參數(shù)的語音識別系統(tǒng)[J]. 電子設(shè)計工程,2012(7):18-20.

      [4]田莎莎,唐菀,佘緯.改進(jìn)MFCC參數(shù)在非特定人語音識別中的研究[J]. 科技通報, 2013(3):139-143.

      [5]孫一鳴,劉葳.基于HTK的日語連續(xù)語音識別系統(tǒng)的建立與研究[J].計算機(jī)光盤軟件與應(yīng)用, 2013(21):86-88.

      合山市| 永定县| 阳江市| 石城县| 蒙自县| 太康县| 土默特右旗| 邵阳市| 辽宁省| 聂拉木县| 阳信县| 台东县| 辉县市| 靖远县| 曲阜市| 大兴区| 新宁县| 松原市| 山东省| 天柱县| 河曲县| 高青县| 景洪市| 娱乐| 昔阳县| 镇赉县| 景泰县| 确山县| 衡东县| 手游| 朝阳县| 阜南县| 娄底市| 安陆市| 正阳县| 南宁市| 盐源县| 枝江市| 武平县| 汕头市| 万载县|