• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于區(qū)分性Model Pushing的語種識別方法*

      2012-07-03 00:24:40劉偉偉吉立新李邵梅
      電子技術(shù)應(yīng)用 2012年4期
      關(guān)鍵詞:語種區(qū)分高斯

      劉偉偉,吉立新,李邵梅,徐 文

      (1.國家數(shù)字交換系統(tǒng)工程技術(shù)研究中心,河南 鄭州450002;2.61906部隊,江西 鷹潭335000)

      隨著信息技術(shù)的不斷發(fā)展,自動語種識別技術(shù)在信息服務(wù)、信息檢索及安全領(lǐng)域的應(yīng)用日益廣泛。當(dāng)前主流的語種識別方法,根據(jù)使用特征參數(shù)的不同,分為基于音素特征的模型方法和基于聲學(xué)特征的模型方法。

      目前應(yīng)用最廣泛的聲學(xué)模型GSV-SVM進(jìn)行識別時,每一段測試語音首先在GMM通用背景模型GMMUBM(GMM-Universal Background Model)上自適應(yīng)生成GSV作為SVM的輸入特征[1]。在測試長度小于1 min的短語音語種識別應(yīng)用中,由于測試語音較短,自適應(yīng)得到的GSV并不能準(zhǔn)確反映測試語音的語種屬性,性能下降較為嚴(yán)重。為了解決該問題,Campbell等人提出了Model Pushing[2]的概念,首先利用SVM訓(xùn)練得到支持向量,再利用支持向量反過來建立GMM模型。因為支持向量中包含了訓(xùn)練語音的區(qū)分性信息,所以反推得到的GMM模型包含了對最具區(qū)分性分類邊界的描述。這樣,反推的GMM模型就繼承了SVM訓(xùn)練得到的區(qū)分性信息。但是,由于該方法只選取了分類邊界上的支持向量,所以利用Model Pushing后推得到的GMM并不能充分描述各語種特征分布的區(qū)分性。

      為進(jìn)一步提高M(jìn)odel Pushing算法的識別性能,本文結(jié)合快速區(qū)分性訓(xùn)練[3]提出了一種區(qū)分性Model Pushing方法。由于進(jìn)一步增大了不同語種間的區(qū)分性并能更充分地描述各語種的特征分布,同時利用了GMM在短時語音識別上的優(yōu)勢,該方法提高了在短語音條件下的應(yīng)用效果。對實驗室條件下采集的電話信道漢語普通話、英語和日語三種語音的測試實驗表明,區(qū)分性Model Pushing方法獲得了最低的等錯誤率 (EER),相對于GMM-UBM、GSV-SVM及 Model Pushing方法,EER分別降低了18.95%、8.55%和3.54%。

      1 基于GSV-SVM的語種識別分析

      基于GSV-SVM的語種識別系統(tǒng)包含訓(xùn)練和測試兩個階段。訓(xùn)練階段在通用背景模型UBM(Universal Background Model)上通過最大后驗概率MAP[4](Maximum A Posterior)自適應(yīng)得到各訓(xùn)練語音的GSV訓(xùn)練SVM模型;識別階段同樣通過MAP自適應(yīng)從UBM中得到各測試語音的GSV,然后輸入訓(xùn)練好的SVM中進(jìn)行分類識別,得到識別結(jié)果。

      1.1 GSV

      GMM用多個單高斯分布的線性組合來描述幀特征在特征空間的分布,即:

      其中,x為語音幀聲學(xué)特征向量,M為高斯混合數(shù),wi為混合權(quán)重,μi和 Σi為第 i個高斯混合成分的均值向量和協(xié)方差矩陣。對于訓(xùn)練數(shù)據(jù),通過期望最大化算法EM(Expectation Maximum)[5]得到一個UBM。每一個訓(xùn)練和測試的語句通過MAP準(zhǔn)則從UBM中自適應(yīng)得到各自對應(yīng)的GMM模型。在MAP自適應(yīng)過程中,由于考慮到計算量的原因,通常只對均值向量μi進(jìn)行修正調(diào)整,而權(quán)重和協(xié)方差矩陣都保持與UBM模型一致。將自適應(yīng)得到的各高斯混合成分的均值向量按順序排列起來即構(gòu)成超矢量(GSV)。

      1.2 SVM

      SVM是一種應(yīng)用廣泛的機器學(xué)習(xí)方法。在二分類問題中,給出樣本{xi,yi},i=1,2,…N,xi∈RD為 D 維的特征向量,yi∈{+1,-1}為類別標(biāo)簽,其分類判決函數(shù)表示為特征向量內(nèi)積的形式:

      對于非線性的問題,通常采用核函數(shù)將輸入特征向量(即GSV)非線性地映射到高維空間,當(dāng)作線性問題處理。核函數(shù)形式為K(xi,xj)=φ(xi)×φ(xj),這樣在高維空間只需要內(nèi)積運算即可,判決函數(shù)轉(zhuǎn)換為如下形式:

      SVM的核函數(shù)采用度量GMM距離的Kullback-Leibler核函數(shù)(K-L核)[6],其表達(dá)式為:

      其中 μa和 μb代表兩個語音段的 GSV,μia和 μib分別是各自 GMM第i個高斯混合成分的均值矢量,ωi是UBM第i個高斯混合成分的權(quán)重,Σi是UBM第個高斯混合成分的協(xié)方差矩陣,M為混合數(shù),T為轉(zhuǎn)置符號。由式 (4)可知,在SVM中采用K-L核函數(shù)相當(dāng)于先利用UBM的權(quán)重和方差對GSV進(jìn)行歸一化,然后用SVM的線性核函數(shù)進(jìn)行訓(xùn)練和識別。而對GSV的歸一化可以理解為將GSV投影到另一個空間(K-L空間),然后利用 SVM的線性核函數(shù)在K-L空間進(jìn)行訓(xùn)練和識別。

      2 基于區(qū)分性Model Pushing的語種識別

      GSV-SVM通常采用一對多的SVM分類模式,即在目標(biāo)語種和非目標(biāo)語種間尋找出最優(yōu)分類面,如在漢語和非漢語(英語、日語等任意非漢語)間進(jìn)行分類。SVM使用K-L核,對目標(biāo)語種和非目標(biāo)語種進(jìn)行分類。

      以簡單的二維聲學(xué)特征和2個高斯混元為例介紹區(qū)分性Model Pushing的過程,如圖1所示。圖1(a)表示為原始特征空間的分布,GMM-UBM有兩個混元,目標(biāo)語種和非目標(biāo)語種的混元是從GMM-UBM中自適應(yīng)得到的,能夠描述其特征的分布,目標(biāo)語種和非目標(biāo)語種在特征域空間的分布存在嚴(yán)重的混疊,難以有效區(qū)分。

      圖1(c)所示為K-L空間 SVM訓(xùn)練后的結(jié)果,其中處于分類邊界虛線上的即為支持向量。為了減少特征域空間目標(biāo)語種和非目標(biāo)語種分布的混疊,利用K-L空間訓(xùn)練得到的最優(yōu)分類面對其進(jìn)行適當(dāng)處理,即在K-L空間沿著最優(yōu)分類面法線的方向進(jìn)行移動。假如目標(biāo)語種訓(xùn)練得到n個支持向量,非目標(biāo)語種有m個支持向量,則對其移動的結(jié)果為:

      其中,xt,i和xn,i表示目標(biāo)語種和非目標(biāo)語種的第 i個支持向量 (GSV在K-L空間的投影),λtk和 λnk表示目標(biāo)語種和非目標(biāo)語種的支持向量沿法向量移動的尺度,w表示目標(biāo)語種和非目標(biāo)語種最優(yōu)分類面的法向標(biāo)語種和非目標(biāo)語種的第i個支持向量移動后的結(jié)果。

      利用移動后的支持向量構(gòu)建目標(biāo)語種和非目標(biāo)語種的GSV在K-L空間的投影,即得到:取 λt≥0、λn≤0。 對支持向量 的移 動反映到特征域空間就使得重構(gòu)的目標(biāo)語種和非目標(biāo)語種的GMM分布混疊減少,增大區(qū)分性,如圖1(b)所示。顯然,λt、λn不宜過大,否則移動過度將產(chǎn)生原本屬于目標(biāo)語種的測試語音對其自身GMM的似然度得分比對UBM的還要小的問題。因此,λt、λn至少要使目標(biāo)語種的測試語音在其GMM的似然度得分比在UBM上的得分要大。

      如圖2所示,區(qū)分性Model Pushing與GSV-SVM相比在訓(xùn)練階段多了一個對支持向量移動反推的過程,得到目標(biāo)語種和非目標(biāo)語種的GMM;測試階段只需提取測試語音的特征參數(shù)然后對目標(biāo)和非目標(biāo)GMM的對數(shù)似然得分進(jìn)行分類判決,分類判決的分?jǐn)?shù)計算如下:

      其中yi為語音幀特征向量,gtar(y)和 gnon-tar(y)為目標(biāo)語種和非目標(biāo)語種特征向量的GMM概率密度函數(shù)。

      由于該方法在測試階段避開了GSV的計算,同時利用了訓(xùn)練階段得到的SVM區(qū)分性信息,因此能夠提高短語音條件下語種識別的性能。

      3 實驗設(shè)置和結(jié)果分析

      3.1 實驗數(shù)據(jù)庫及評測方法

      語料庫為實驗室采集的電話信道通話語音,包括漢語普通話、英語和日語3個語種,共有4 600段30 s的語音以及300段5 min左右的長時語音。語音信號的采樣頻率為8 kHz,并經(jīng)過 16 bit量化處理。30 s語料中,有漢語 1 800段(男女各 900段)、英語 1 250段(男600段,女 650段)、日語 1 550段(男 850段,女 700段)。5 min長時語料中,每個語種有100段話音 (男女各50段)。上述語音段中所含的說話人均不相同,且每段語音僅含一個說話人。實驗采用30 s的語音進(jìn)行訓(xùn)練和測試,從各語種挑選 600段(每個語種男女各 300段)用于訓(xùn)練高斯混合數(shù)為512的UBM模型。從30 s的語音中為每個語種挑選200段語音 (男女各100段)作為SVM的訓(xùn)練語料,剩余語料有漢語1 000段,英語450段及日語750段作為測試語音。

      本文采用檢測錯誤折中DET(Detection Error Tradeoff)曲線及等錯誤率EER(Equal Error Rate)來衡量語種確認(rèn)系統(tǒng)的性能。

      3.2 系統(tǒng)描述

      本文的特征參數(shù)是 MFCC加 SDC(7-1-3-7),共 56維,前端預(yù)加重系數(shù)為 0.97,幀長 25 ms,幀移 10 ms。 利用VAD算法[7]去除了靜音幀,同時通過 CMS[4]去除了倒譜域的卷積噪聲。GMM混合高斯數(shù)選擇512,SVM算法采用臺灣林智仁教授開發(fā)的LibSVM工具包[8]實現(xiàn)。

      為了驗證所提算法的有效性,以GMM-UBM 、GSVSVM和Model Pushing方法作為基線系統(tǒng),與本文提出的區(qū)分性Model Pushing進(jìn)行對比測試。

      3.3 實驗結(jié)果

      為了尋求最優(yōu)的移動系數(shù)λt和λn,實驗中選取了多組值進(jìn)行對比測試,識別結(jié)果如表1所示。

      其中,λt=0,λn=0表示最原始的沒有進(jìn)行任何移動操作的Model Pushing。從表1可以看出在λt=0.6,λn=-0.4的情況下系統(tǒng)性能是最好的,此時的EER為7.91%。而λt=1.4、λn=-1.4時系統(tǒng)性能最差,即出現(xiàn)了移動過度的現(xiàn)象。

      圖3給出了各系統(tǒng)的DET曲線圖。其中MP代表Model Pushing方法,Dis MP代表本文所提的區(qū)分性Model Pushing方法。表2給出了各系統(tǒng)對應(yīng)的EER。

      從圖3和表2可以看出,在測試集內(nèi),本文所提的區(qū)分性Model Pushing方法獲得了最低的 EER,即性能最優(yōu),相對于 GMM-UBM、GSV-SVM及Model Pushing方法,EER分別相對降低了18.95%、8.55%和3.54%。這也證明了本文所提方法的有效性。

      針對 GSV-SVM在短語音條件下應(yīng)用的不足,本文提出了一種區(qū)分性Model Pushing方法。該方法在保留了SVM的區(qū)分性信息的同時,充分利用了GMM在短時語音上的優(yōu)勢。在最能區(qū)分目標(biāo)語種和非目標(biāo)語種的方向上對支持向量進(jìn)行適當(dāng)移動,減少了目標(biāo)語種與非目標(biāo)語種語音特征間的混疊,增加了區(qū)分性,提高了識別性能。實驗結(jié)果證實了該方法的有效性。

      表2 各系統(tǒng)EER(%)

      [1]CAMPBELL W M,STURIM D E,REYNOLDS D A,et al.SVM based speaker verification ssing a GMM supervector kernel and NAP variability compensation[C].in Proc.ICASSP 2006.

      [2]CAMPBELL W M.A covariance kernel for SVM language recognition[C].in Proc.ICASSP 2008.

      [3]CASTALDO F,COLIBRO D,DALMASSO E,et al.Acoustic language identification using fast discriminative training[C].in Proc.Interspeech,2007.

      [4]REYNOLDS D A,QUATIERI T F,DUNN R B.Speaker verification using adapted Gaussian mixture models[J].Digital Signal Processing,2000,10(1):19-41.

      [5]REYNOLDS D A,ROSE R C.Robust text-independent speaker identification using gaussian mixture speaker models[C].IEEE Trans.Speech Audio Process 1995.

      [6]MORENO P J,HO P P,VASCONCELOS N.A kullbackleibler divergence based kernel for SVM classification in multimedia applications[M].in Adv.in Neural Inf.Proc.Systems 16,MIT Press,Cambridge,MA,2004.

      [7]LAMEL L F,RABINER L R.An improved endpoint detector for isolated word recognition[C].IEEE Transactions on Acoustics,Speech,and Signal Processing.1981.

      [8]LIN C.LIBSVM:A library for support vector machines[EB/OL.](2010-12-14).http://www.csic.ntu.tw/cjlin/libsvm/index.html.2010.

      猜你喜歡
      語種區(qū)分高斯
      小高斯的大發(fā)現(xiàn)
      區(qū)分“旁”“榜”“傍”
      你能區(qū)分平衡力與相互作用力嗎
      《波斯語課》:兩個人的小語種
      時代郵刊(2021年8期)2021-07-21 07:52:44
      天才數(shù)學(xué)家——高斯
      “一帶一路”背景下我國的外語語種規(guī)劃
      教你區(qū)分功和功率
      有限域上高斯正規(guī)基的一個注記
      罪數(shù)區(qū)分的實踐判定
      走出報考小語種專業(yè)的兩大誤區(qū)
      共和县| 宁夏| 府谷县| 昌邑市| 江北区| 桦川县| 伊川县| 凉城县| 高平市| 高青县| 南康市| 乌什县| 连云港市| 凭祥市| 高雄市| 明溪县| 宿松县| 乌兰察布市| 厦门市| 奉化市| 吉林市| 廉江市| 台北市| 东莞市| 武城县| 凌源市| 八宿县| 南平市| 漳平市| 望奎县| 德兴市| 洪洞县| 松潘县| 平江县| 沈阳市| 乐业县| 曲沃县| 邓州市| 银川市| 广平县| 望城县|