• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      倒譜形狀規(guī)整在噪聲魯棒性語音識(shí)別中的應(yīng)用

      2010-07-18 03:11:48戴禮榮王仁華
      中文信息學(xué)報(bào) 2010年2期
      關(guān)鍵詞:規(guī)整形狀語音

      杜 俊,戴禮榮,王仁華

      (中國科學(xué)技術(shù)大學(xué)電子工程與信息科學(xué)系科大訊飛語音實(shí)驗(yàn)室,安徽合肥230027)

      1 引言

      隨著自動(dòng)語音識(shí)別(ASR:Automatic Speech Recognition)技術(shù)的發(fā)展,語音識(shí)別器的噪聲魯棒性在實(shí)際系統(tǒng)的開發(fā)中得到了越來越多的關(guān)注。各種各樣的噪聲魯棒性技術(shù)層出不窮,既有特征域方法也有模型域方法[1-2]。由于模型域方法對(duì)運(yùn)算復(fù)雜度要求更高,因此本文中我們關(guān)注于特征域方法。在特征域方法中,有一大類稱為特征規(guī)整方法。首先最簡單的是倒譜均值規(guī)整(CMN:Cepstral Mean Normalization),CMN雖然簡單,但卻是一種非常有效的去除時(shí)不變信道影響的途徑,在很多實(shí)際系統(tǒng)中都加以采用;CMN的一個(gè)自然擴(kuò)展是倒譜均值方差規(guī)整(MVN:M ean and V ariance Normalization)[3],它通過同時(shí)對(duì)均值和方差做規(guī)整,在達(dá)到對(duì)信道影響去除的基礎(chǔ)上,也能對(duì)加性噪聲進(jìn)行很好的抑制。從統(tǒng)計(jì)學(xué)角度來看,均值和方差分別是和一階矩和二階矩相關(guān)的,因此自然而然就會(huì)想到更為一般化的倒譜高階矩規(guī)整(HOCMN:High Order Cepstral M oment Normalization)[4],實(shí)驗(yàn)證明HOCMN確實(shí)有更好的噪聲魯棒性。此外,從累積分布函數(shù)匹配(Cumu lative Density Function M atching)的角度,有人提出了所謂的雙高斯規(guī)整(DGN:Double Gaussian Norm alization)[5],DGN方法基于這樣一個(gè)假設(shè):噪聲環(huán)境下語音特征分布往往表現(xiàn)出雙峰特點(diǎn)。上面這些規(guī)整方法都是基于參數(shù)化模型,另外還有一類方法是基于非參數(shù)化模型的,比如使用累積直方圖的直方圖均衡(HEQ:H istogram EQualization)[6]。HEQ相比于 CMN和MVN最大的優(yōu)勢(shì)在于其非線性變換特性,不僅僅匹配特征分布的均值方差,而是考慮了特征整體分布。針對(duì)傳統(tǒng)HEQ方法的某些缺陷,又有一系列改進(jìn)算法,如分?jǐn)?shù)位直方圖均衡(Quantile HEQ)[7]、漸進(jìn)式直方圖均衡(Progressive HEQ)[8]和多項(xiàng)式擬合直方圖均衡(Polynomial-fitHEQ)[9]。

      我們提出的倒譜形狀規(guī)整(CSN:Cepstral Shape Normalization)方法可以說不僅考慮了以上各種方法存在的缺陷,而且具有更加明確的物理意義。首先CMN和MVN方法本身過于簡單,無法對(duì)付復(fù)雜的噪聲環(huán)境;HOCMN雖然有所改進(jìn),但是其解法并不直接,特別是奇數(shù)階和偶數(shù)階還要分開考慮;HEQ需要較多的數(shù)據(jù)量來計(jì)算累積分布函數(shù),這對(duì)于句子級(jí)規(guī)整來說,總是一個(gè)問題。其次,在文獻(xiàn)[10-12]中,討論了語音特征分布的建模問題,并且我們的初步實(shí)驗(yàn)表明在噪聲環(huán)境下語音倒譜特征分布每一維都可以用一般化高斯分布(GGD:Generalized Gaussian Density)來很好的近似。綜合以上兩方面討論,提出了CSN方法。它不僅物理意義明確,而且解法也很簡單,只需要估計(jì)形狀因子,對(duì)數(shù)據(jù)量的要求很小。

      下面我們將分幾部分對(duì)CSN方法加以介紹。首先在第二節(jié)中,將從原理出發(fā)對(duì)CSN進(jìn)行分析和推導(dǎo);然后在第三節(jié)和第四節(jié)中,我們將給出實(shí)驗(yàn)配置和實(shí)驗(yàn)結(jié)果,最后在第五節(jié)中給出結(jié)論。

      2 倒譜形狀規(guī)整(CSN)方法介紹

      2.1 語音特征分布分析

      在介紹CSN方法之前,我們首先來對(duì)噪聲環(huán)境下的語音特征分布進(jìn)行初步的分析。在圖1中,我們給出了干凈環(huán)境和噪聲環(huán)境下各維特征分布的對(duì)比,這里的特征我們都做了MVN預(yù)處理,因?yàn)槲覀冎魂P(guān)心分布形狀的變化。我們觀察到:在干凈環(huán)境下,C0維和對(duì)數(shù)能量維的分布呈現(xiàn)出雙峰,而其他維都是單峰的;在噪聲環(huán)境下(信噪比0dB時(shí)),各維分布形狀都發(fā)生了變化。不過我們發(fā)現(xiàn)所有維(包括C0和對(duì)數(shù)能量)都比較像高斯分布,區(qū)別在于不同維分布形狀的峰度和偏度不同。

      受此啟發(fā),我們引入一般化高斯分布(GGD)[12],這里我們用它來很好的擬合噪聲環(huán)境下的語音特征分布。對(duì)于統(tǒng)計(jì)信號(hào) x,假設(shè)具有零均值和單位方差,那么其一般化高斯分布的概率密度函數(shù)如下:

      A(v)定義了GGD分布的散度(Dispersion)和尺度(Scale),參數(shù)v則描述了指數(shù)衰減的速率,一般反映了分布的形狀(Shape)或者偏度(Skewness)。圖2給出了不同v值對(duì)應(yīng)的概率密度分布圖,可以看出,v越小會(huì)產(chǎn)生越明顯的拖尾和更尖銳的峰。當(dāng)v=2時(shí),GGD對(duì)應(yīng)于標(biāo)準(zhǔn)高斯或者正態(tài)分布。

      圖2 不同v值對(duì)應(yīng)的概率密度函數(shù)分布圖

      2.2 CSN算法描述

      基于2.1節(jié)的分析,CSN算法可以概述為以下兩個(gè)步驟(同時(shí)對(duì)訓(xùn)練和測試數(shù)據(jù)處理)。步驟1:對(duì)倒譜參數(shù)進(jìn)行MVN預(yù)處理。

      此處x(n,k)表示第n幀原始特征向量的第k維,μ(k)和σ(k)分別表示當(dāng)前句子第k維特征向量的均值和標(biāo)準(zhǔn)差。

      步驟2:利用指數(shù)因子進(jìn)行形狀規(guī)整。

      α(k)是第k維形狀因子,和GGD分布里面的形狀參數(shù)v類似。公式(5)中我們的目的就是使得變換之后的特征滿足一個(gè)由GGD分布表征的參考分布。

      為了求出形狀因子α(k),這里采用矩匹配估計(jì)(MME:Moment M atching Estim ator)[12]。首先我們定義形狀參數(shù)為v0的GGD分布的r階絕對(duì)中心矩(Absolute CentralM oment):

      我們把公式(1)帶入上式,則可以進(jìn)一步得到:

      接著定義一般化高斯比函數(shù)(Generalized Gaussian Ratio Function):

      可以看出,公式(8)是根據(jù)GGD分布的參數(shù)得到的;另一方面,我們利用當(dāng)前句子本身信息可以得到一般化高斯比函數(shù)的估計(jì)形式如下:

      根據(jù)MME準(zhǔn)則,我們可以得到形狀因子的方程:

      很顯然,只要求出上述方程的根,就能得到形狀因子。可以證明,上式左邊函數(shù)是關(guān)于形狀因子的單調(diào)函數(shù),因此我們可以采用數(shù)值迭代方法快速找到方程的根。最后,我們討論一下公式(10)中兩個(gè)自由參數(shù)v0和r的確定。我們初步做了一些挑選實(shí)驗(yàn)發(fā)現(xiàn)當(dāng)v0=2和r=2時(shí),可以達(dá)到最佳性能,其實(shí)這組參數(shù)具有很強(qiáng)的物理意義。首先,v0=2表示我們采用的參考分布是標(biāo)準(zhǔn)高斯分布;其次,r=2表示公式(7)中我們采用的是統(tǒng)計(jì)學(xué)里面很重要的物理量—峰度(Kurtosis)。

      2.3 特征的時(shí)序平滑(Temporal Smoothing)

      雖然CSN規(guī)整方法能有效地使得測試和訓(xùn)練在統(tǒng)計(jì)上達(dá)到匹配,但是在某些情況下,由非穩(wěn)態(tài)噪聲引起時(shí)序上的毛刺,無法通過規(guī)整算法進(jìn)行很好的處理,一般使用一個(gè)簡單的平滑濾波器解決這個(gè)問題,比如本文中采用的ARMA濾波器[13]。

      3 實(shí)驗(yàn)配置介紹

      我們的CSN方法將在aurora2和aurora3兩個(gè)數(shù)據(jù)庫上加以驗(yàn)證。這兩個(gè)數(shù)據(jù)庫都是專門為驗(yàn)證噪聲魯棒性算法設(shè)計(jì)的。Aurora2是人工加噪(包括加性噪聲和信道影響)的英文數(shù)字串任務(wù),干凈數(shù)據(jù)來源來TIDigits數(shù)據(jù)庫。定義了兩種訓(xùn)練方式,一種是干凈訓(xùn)練(Clean Condition Training),即訓(xùn)練中只有干凈數(shù)據(jù);另一種是加噪訓(xùn)練(M u lti Condition Training),即將各種環(huán)境下加噪之后的數(shù)據(jù)混在一起訓(xùn)練,本文實(shí)驗(yàn)只采用了干凈訓(xùn)練,因?yàn)檫@種情況下測試和訓(xùn)練的不匹配程度最高,能很好的體現(xiàn)規(guī)整算法的有效性。測試集按照不同信噪比和噪聲環(huán)境的組合劃分了很多子集,如果按照大類可分為SetA/SetB/SetC三個(gè)集合,其中SetA的噪聲環(huán)境是和加噪訓(xùn)練集完全匹配的,SetB的加性噪聲環(huán)境和加噪訓(xùn)練集不匹配,而SetC在加性噪聲和信道影響兩方面都不匹配。

      Aurora3也是數(shù)字串任務(wù),不過它的數(shù)據(jù)都是在各種真實(shí)的車載環(huán)境下采集的,并且包含四種語言:丹麥語、德語、西班牙語和芬蘭語。根據(jù)測試和訓(xùn)練的匹配程度定義了三種實(shí)驗(yàn)?zāi)J剑焊叨绕ヅ?Well-Matched)、中度不匹配(M id-M ismatch)、高度不匹配(High-Mismatch)。

      實(shí)驗(yàn)中我們采用的前端特征包括12維MFCC、C0和對(duì)數(shù)能量,再加上這些特征對(duì)應(yīng)的一階和二階動(dòng)態(tài)擴(kuò)展特征,其中C0和對(duì)數(shù)能量每次只選其一。所有的規(guī)整方法只對(duì)靜態(tài)特征處理。后端訓(xùn)練和測試部分采用的是aurora任務(wù)提供的標(biāo)準(zhǔn)配置,具體可參見文獻(xiàn)[14-15]。

      4 實(shí)驗(yàn)結(jié)果與分析

      4.1 CSN方法和其它方法對(duì)比

      這一小節(jié)中,我們將CSN方法和四種傳統(tǒng)規(guī)整方法(MVN,DGN,HEQ,HOCMN)在性能方面進(jìn)行對(duì)比,并且選擇對(duì)數(shù)能量而不是C0。由于M VN是最簡單的規(guī)整算法,所以可以看成是基線系統(tǒng),另外HOCMN中奇數(shù)階和偶數(shù)階分別設(shè)成3和4。

      從表1中可以看出,在aurora2數(shù)據(jù)庫上,CSN方法在不同集合上均表現(xiàn)出最佳性能。并且和MVN相比,總體詞錯(cuò)誤率有38.0%的相對(duì)下降。

      表1 Aurora2數(shù)據(jù)庫干凈訓(xùn)練方式下CSN方法和其他規(guī)整方法在不同測試集上的性能比較

      從信噪比的角度,我們?cè)诒?中也做了對(duì)比。我們發(fā)現(xiàn)在高信噪比時(shí),CSN方法和其他方法都可比;而在低信噪比時(shí)(5dB以下),CSN要明顯好于其他方法。

      表2 Aurora2數(shù)據(jù)庫干凈訓(xùn)練方式下CSN方法和其他規(guī)整方法在不同信噪比時(shí)的性能比較

      另外,規(guī)整算法的有效性還可以通過下面定義的平均距離來度量:

      表3 Aurora2數(shù)據(jù)庫CSN方法和其他規(guī)整方法關(guān)于平均距離度量的比較

      下面我們?cè)賮砜纯丛赼urora3數(shù)據(jù)庫上的對(duì)比結(jié)果。如表4所示,CSN方法在三種模式下(高度匹配、中度不匹配和高度不匹配)的平均性能都取得了最好性能,特別是在高度不匹配的時(shí)候更為明顯。并且和M VN相比,總體詞錯(cuò)誤率有25%的相對(duì)下降。另外,從不同語言來看,CSN在絕大多數(shù)時(shí)候也都是最佳。如果對(duì)比表1和表4,我們發(fā)現(xiàn)傳統(tǒng)方法如 DGN、HEQ、HOCMN,在 aurora2和 aurora3兩個(gè)數(shù)據(jù)庫上的性能排序并不完全一致,這也說明了我們的CSN方法在不同數(shù)據(jù)庫上的表現(xiàn)更加穩(wěn)定。

      表4 Aurora3數(shù)據(jù)庫CSN方法和其它規(guī)整方法的性能比較

      4.2 考慮各種改進(jìn)的CSN方法

      為了得到進(jìn)一步的性能提升,考慮將下面幾種技術(shù)和CSN結(jié)合在一起使用:1)采用C0代替對(duì)數(shù)能量,有實(shí)驗(yàn)室表明C0在噪聲環(huán)境下更加魯棒;2)之前提到的規(guī)整算法都是基于句子級(jí),其實(shí)當(dāng)句子很長時(shí),有時(shí)采用分段規(guī)整效果會(huì)更好,即對(duì)于當(dāng)前幀,左右各取L/2幀組成一段數(shù)據(jù),再計(jì)算各種統(tǒng)計(jì)量,我們發(fā)現(xiàn)段規(guī)整在aurora2上有效果,但aurora3上效果并不明顯;3)加入M階的ARMA平滑濾波器。

      圖3 Aurora2數(shù)據(jù)庫各種技術(shù)和CSN結(jié)合后的性能比較

      圖4 Aurora3數(shù)據(jù)庫各種技術(shù)和CSN結(jié)合后的性能比較

      各種改進(jìn)之后的性能對(duì)比如圖3和圖4所示。圖中,LogE表示未做任何改進(jìn)的CSN,C0表示用C0替換LogE,L表示采用長度為L的段級(jí)規(guī)整,M表示使用M階ARMA濾波器??梢姼倪M(jìn)后效果比較明顯,相比于未做任何改進(jìn)的CSN,最好性能在aurora2和aurora3兩個(gè)庫上分別帶來詞錯(cuò)誤率18.9%和26.4%的相對(duì)下降。

      5 結(jié)論與展望

      本文中提出的CSN規(guī)整算法,直接對(duì)特征分布的形狀進(jìn)行規(guī)整,實(shí)驗(yàn)證明非常有效,比MVN方法好了很多,相比其他傳統(tǒng)方法也是一致變好。并且通過一些對(duì)CSN的簡單改進(jìn),進(jìn)一步帶來了提升。在將來的工作中,我們會(huì)考慮將CSN算法和其它魯棒性技術(shù)進(jìn)一步結(jié)合,以期帶來更好的性能。

      [1] 丁沛,曹志剛.基于語音增強(qiáng)失真補(bǔ)償?shù)目乖肼曊Z音識(shí)別技術(shù)[J].中文信息學(xué)報(bào),2004,18(5):64-69.

      [2] Y.Gong.Speech Recognition in Noisy Environments:A Survey[J].Speech Communication,1995,16(3):261-291.

      [3] O.V iikki and K.Laurila.Cepstral Domain Segmental Feature Vector Normalization for Noise Robust Speech Recognition[J].Speech Communication,1998,25(1):133-147.

      [4] C.-W.Hsu and L.-S.Lee.Higher Order Cepstral M oment Normalization(HOCMN)for Robust Speech Recognition[C]//IEEE Proc.of ICASSP,2004:197-200.

      [5] B.Liu,L.-R.Dai,J.-Y.Li and R.-H.Wang.Double Gaussian Based Feature Normalization for Robust Speech Recognition[C]//Proc.of ISCSLP,2004,253-256.

      [6] A.de la Torre,J.C.Segura,C.Benitez,A.M.Peinado and A.J.Rubio.Non-linear Transformations of the Feature Space for Robust Speech Recognition[C]//IEEE Proc.of ICASSP,2002:401-404.

      [7] F.Hilger and H.Ney.Quantile Based H istogram E-qualization for Noise Robust Speech Recognition[C]//Proc.of EUROSPEECH,2001:1135-1138.

      [8] S.-N.Tsai and L.-S.Lee.A New Feature Extraction Front-End for Robust Speech Recognition using Progressive H istogram Equalization and Mu lti-Eigenvector Temporal Filtering[C]//Proc.of ICSLP,2004:165-168.

      [9] S.-H.Lin,Y.-M.Yeh and B.Chen.Exp loiting Polynom ial-fit H istogram Equalization and Temporal Average for Robust Speech Recognition[C]//Proc.of ICSLP,2006,2522-2525.

      [10] S.Gazor and W.Zhang.Speech Probability Distribution[J].IEEE Signal Processing Letters,2003,10(7):204-207.

      [11] J.W.Shin,J.-H.Chang and N.S.K im.Statistical M odeling o f Speech Signals Based on Generalized Gamma Distribution[J].IEEE Signal Processing Letters,2005,12(3):258-261.

      [12] K.Kokkinakis and A.K.Nandi.Speech Modelling Based on Generalized Gaussian Probability Density Functions[C]//IEEE Proc.of ICASSP,2005:381-384.

      [13] C.-P.Chen,J.Bilmes and K.K irchhoff.Low-Resource Noise-robust Feature Post-processing on Aurora2.0[C]//Proc.of ICSLP,2002:2445-2448.

      [14] H.G.H irsch and D.Pearce.The AURORA Experimental Framework for the Performance Evaluations of Speech Recognition Systems under Noisy Conditions[C]//Proc.of ISCA ITRW ASR,2000:181-188.

      [15] A.M oreno,et al.SpeechDat-Car:A Large Speech Database for Automotive Environments[C]//Proc.of LREC,2000:373-378.

      猜你喜歡
      規(guī)整形狀語音
      挖藕 假如悲傷有形狀……
      300kt/a硫酸系統(tǒng)規(guī)整填料使用情況簡介
      魔力語音
      基于MATLAB的語音信號(hào)處理
      電子制作(2019年14期)2019-08-20 05:43:38
      基于MQ3與MP3的價(jià)廉物美的酒駕語音提醒器
      電子制作(2019年9期)2019-05-30 09:42:10
      你的形狀
      對(duì)方正在輸入……
      小說界(2018年5期)2018-11-26 12:43:42
      提高日用玻璃陶瓷規(guī)整度和表面光滑度的處理方法
      佛山陶瓷(2016年11期)2016-12-23 08:50:27
      看到的是什么形狀
      電梯的建筑化藝術(shù)探索
      大觀(2016年9期)2016-11-16 10:31:30
      呼伦贝尔市| 双流县| 碌曲县| 襄城县| 潍坊市| 牟定县| 英德市| 麻江县| 哈巴河县| 大新县| 康马县| 巫山县| 旺苍县| 呼图壁县| 宜城市| 仙桃市| 高唐县| 永康市| 闵行区| 海门市| 马公市| 嵊泗县| 崇文区| 循化| 井冈山市| 津南区| 新巴尔虎左旗| 彭阳县| 丹阳市| 湘西| 贵德县| 新乐市| 化州市| 万载县| 盱眙县| 商水县| 甘泉县| 綦江县| 靖边县| 高碑店市| 大竹县|