• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      一種改進的GOP算法在區(qū)分性訓(xùn)練的應(yīng)用*

      2014-09-17 12:31:58熱米拉艾山江
      通信技術(shù) 2014年5期
      關(guān)鍵詞:后驗集上區(qū)分

      熱米拉·艾山江,黃 浩

      (新疆大學(xué)信息科學(xué)與工程學(xué)院,新疆烏魯木齊830046)

      0 引言

      隨著語音識別技術(shù)的不斷發(fā)展和完善,基于計算機輔助的語言學(xué)習(xí)成為語音信息處理技術(shù)研究領(lǐng)域的一個活躍的研究方向。計算機輔助語言學(xué)習(xí)的核心部分是自動發(fā)音檢錯系統(tǒng),它的主要作用是通過計算機檢測說話人語音中的錯誤發(fā)音并對此進行改進,從而為學(xué)習(xí)者提供更有效的學(xué)習(xí)。自動發(fā)音錯誤檢測系統(tǒng)作為計算機輔助語言學(xué)習(xí)的核心部分,它的檢錯性能非常重要,而系統(tǒng)的檢錯性能依賴于經(jīng)過正確訓(xùn)練參數(shù)的聲學(xué)模型[1],因此國內(nèi)外很多研究人員在聲學(xué)模型的建模和訓(xùn)練方面開展了很多研究。目前主流的聲學(xué)建模是基于HMM的聲學(xué)建模,而傳統(tǒng)的發(fā)音質(zhì)量評估方法是基于后驗概率的GOP算法。

      在發(fā)音檢錯系統(tǒng)的聲學(xué)模型參數(shù)[2]訓(xùn)練上基于區(qū)分性原理的參數(shù)優(yōu)化方法從最近的的研究結(jié)果看表現(xiàn)出高效率性。區(qū)分性原理在語音識別研究領(lǐng)域中的應(yīng)用已經(jīng)取得了很大成功,常用的區(qū)分性訓(xùn)練準則主要包括最小分類錯誤(MCE,Minimum Classification Error)[3]、最大互信息(MMI,Maximum Mutual Information)[4]以及近年來流行的最小音子錯誤(MPE,Minimum Phone Error)準則[5]。在這些區(qū)分性準則的指導(dǎo)下通過定義一個與識別率相一致的目標函數(shù),優(yōu)化目標函數(shù)來直接提高識別率,成功的解決了傳統(tǒng)最大似然參數(shù)訓(xùn)練方法的局限性[6]。因此研究人員將語音識別里提出的成功的區(qū)分性訓(xùn)練方法擴展到發(fā)音檢錯系統(tǒng)的性能優(yōu)化方面。與語音識別不同的是在發(fā)音檢錯中,其性能包括正確率和檢出率,導(dǎo)致定義目標函數(shù)比較困難,因此從錯誤檢測度量的評估來處理這個問題[7]。根據(jù)上述思想,文中提出最大化F1值準則的算法。基于最大化F1值(MFC)的區(qū)分性訓(xùn)練方法,將正確度標注的非母語語音數(shù)據(jù)庫上的發(fā)音錯誤檢測的F1值的最大化作為模型參數(shù)的訓(xùn)練準則。通過Sigmoid函數(shù)平滑后的F1值函數(shù)作為目標函數(shù),用弱意義輔助函數(shù)方法優(yōu)化目標函數(shù),通過采用擴展的Baum-Welch算法來進行參數(shù)更新,獲得明顯的改進。

      文中在最大化F1值的區(qū)分性訓(xùn)練方法[8]的質(zhì)量評估上提出一種先歸一化再求后驗概率的改進的GOP算,根據(jù)改進GOP算法給出了使用改進GOP算法最大F1準則的參數(shù)更新公式,發(fā)音檢錯實驗結(jié)果表明基于改進的GOP算法的最大F1值準則訓(xùn)練較使用傳統(tǒng)的GOP算法能夠進一步提高檢錯F1值。

      1 改進的GOP計算公式

      傳統(tǒng)的GOP(Goodness of Pronunciation)算法屬于后驗概率的算法,它是針對漢語的聲母、韻母定義的音素,其主要方法是通過給出的某一語音段,計算其正確程度的定量得分的[9]。GOP得分計算公式[10]為:

      式中,Or,n=1,…,r,…,R 表示為每條訓(xùn)練語句的特

      式中,κ是在區(qū)分性訓(xùn)練中常用的用來減少模型概率動態(tài)范圍的比例因子,其取值范圍是0<κ<1。按照上述假設(shè)定義如下判別函數(shù):

      用改進的GOP算法定義語音段(r,n)的檢錯測度可以寫成:

      式中,d(r,n)<0 表示該語音段 Or,n被判定為錯誤發(fā)音,d(r,n)<0表示被判定為正確的。τ是門限值,它可以由經(jīng)驗值調(diào)整,也可以由訓(xùn)練集統(tǒng)計訓(xùn)練得到。

      2 最大F1值準則目標函數(shù)

      2.1 目標函數(shù)

      根據(jù)最大化F1值區(qū)分性訓(xùn)練方法。F1值是精確度和召回率的調(diào)和平均,其計算公式為:

      式中,Precision為精確度,Recall為召回率,由于F1值函數(shù)對模型參數(shù)的不連續(xù)性,因此利用Sigmoid對F1值函數(shù)進行平滑,則得如下平滑后的F1值目標函數(shù):

      式中,NW是人工標注為錯誤的因素數(shù)目,Err(r,n)表示語音段(r,n)的人工標注結(jié)果。NSWW(λ)為平滑后的被人工和機器同時判定為錯誤發(fā)音的個數(shù),是平滑后的機器判定為錯誤發(fā)音的個數(shù)。

      2.2 目標函數(shù)的優(yōu)化

      在MFC參數(shù)優(yōu)化采用構(gòu)造弱意義輔助函數(shù)[11]的方法,根據(jù)弱意義輔助函數(shù)優(yōu)化原理,通過計算零階,一階,二階累積量從而對輔助函數(shù)的HMM高斯參數(shù)的均值與方差利用EBW迭代公式進行優(yōu)化。累積量的計算公式如下[12]:

      式中,I(r,n)和 L(r,n)分別是語音段(r,n)的起始幀和結(jié)束幀;γMFCq是t時刻觀察矢量O(t)在狀態(tài)s中混合高斯m的后驗概率,通過強制對齊的起止時刻以及該語音段的觀察序列O(r,n)進行前后向計算得到,γMFCq是MFC參數(shù)訓(xùn)練中的累積量。式(7)~式(9)中的的計算式把的計算公式的換成就可計算。

      有上述模型參數(shù)可以看出,模型參數(shù)更新主要取決于MFC參數(shù)的計算。的計算公式為:

      將式(6)中目標函數(shù)表達式代入上式,根據(jù)鏈式求導(dǎo)法則,分別計算上式中的的偏導(dǎo)數(shù):

      式中,根據(jù)傳統(tǒng)的GOP算法算出來的語音段(r,n)上音素q的后驗概率為γq(r,n):

      根據(jù)文中提出來的改進的GOP算法計算γq(r,n)得:

      使用改進的GOP算法優(yōu)化系統(tǒng)參數(shù)步驟如下:

      1)初始化。

      2)在訓(xùn)練語段中的每個語音段(r,n)計算GOP值。

      3)求使FMFC最大化的發(fā)音相關(guān)門限值τ的最優(yōu)值。

      6)更新模型參數(shù)。

      7)若未達到最優(yōu)值,返回步驟2),繼續(xù)進行參數(shù)更新。

      3 實驗與結(jié)果

      3.1 數(shù)據(jù)庫和實驗配置

      在文中通過漢語普通話發(fā)音錯誤檢測實驗來驗證所提方法的有效性。該實驗基于面向新疆大學(xué)在校進行預(yù)科語言學(xué)習(xí)的維吾爾族大學(xué)生的漢語發(fā)音錯誤檢測任務(wù),普通話發(fā)音檢錯任務(wù)應(yīng)當(dāng)包括音素錯誤檢測和聲調(diào)錯誤檢測兩個部分?;€聲學(xué)模型訓(xùn)練來自863漢語普通話語音數(shù)據(jù)庫(L1語音庫)中160個說話人(男女各80個人)的86 271條訓(xùn)練語句。

      區(qū)分性訓(xùn)練在非母語說話人語音庫(L2)上進行。L2語音數(shù)據(jù)選自100名維吾爾族大學(xué)生的朗讀數(shù)據(jù)集。每名說話人朗讀2~3套文本材料,每套文本材料包括50個單音節(jié)字、25個雙音節(jié)詞以及20個短句。這些數(shù)據(jù)經(jīng)過人工標注出發(fā)音錯誤。實驗過程中將這些數(shù)據(jù)分為L2訓(xùn)練集(18 643句)、L2測試集(7 030句)。概率平衡因子根據(jù)經(jīng)驗選取為κ=0.1,Sigmoid參數(shù)選取為q=10.0。

      3.2 實驗結(jié)果

      表1給出了在傳統(tǒng)的GOP算法和改進的GOP算法上所得的發(fā)音檢錯訓(xùn)練集和測試集的目標函數(shù)FMFC和F1的值。

      表1 目標函數(shù)FMFC和F1值Table 1 Objective function value FMFC and F1

      表1中,在基線模型上使用傳統(tǒng)GOP算法和改進的GOP算法,在訓(xùn)練集和測試集上的FMFC和F1值分別為0.369,0.395,0.365 和0.392。在 MFC 準則下的模型上使用傳統(tǒng)的GOP算法時,在訓(xùn)練集和測試集上的 FMFC值,分別從0.369 上升到0.673,從0.365上升到0.452,而訓(xùn)練集和測試集上的F1值分別從0.395 升高到0.719,從0.392 上升到0.479,可以看出在MFC上使用GOP算法時,訓(xùn)練集和測試集上的FMFC和F1值大大的增大。我們再在MFC準則下的模型上使用改進的GOP算法時,在訓(xùn)練集上FMFC和 F1值分別為0.665 和0.616,在測試集上FMFC和F1值分別為0.454和0.489。在使用傳統(tǒng)的GOP算法時在訓(xùn)練集上的FMFC值為0.673時,在測試集上的F1值為0.479,而使用改進的GOP算法時,在訓(xùn)練集上FMFC值為0.665時,在測試集上F1值為0.489,較傳統(tǒng)的方法提高了1%。由此可以看出利用改進的GOP算法時,訓(xùn)練集上的目標函數(shù)值不用增很多就能得到較好的測試集上的F1值。

      4 結(jié)語

      文中首先介紹了傳統(tǒng)的發(fā)音質(zhì)量評估方法GOP,然后在此基礎(chǔ)上得到了一種改進的GOP算法公式。改進的GOP算法把傳統(tǒng)的GOP算法的先求后驗概率再歸一化的模式改成先歸一化再求后驗概率。然后利用改進的GOP算法計算最大化F1值區(qū)分性訓(xùn)練中的語音段(r,n)的新的檢錯測度和后驗概率,實驗結(jié)果表明,用改進的GOP算法得到的檢錯測度和后驗概率在MFC訓(xùn)練上更有效率性,在訓(xùn)練集上較低的目標函數(shù)值時在測試集上也能得到較好的的F1值,具有了較好的過訓(xùn)練抑制性,從而達到了提高發(fā)音檢錯系統(tǒng)性能的提高。

      [1] 米日古力·阿布都熱素,艾克白爾·帕塔爾,艾斯卡爾·艾木都拉.基于電話語料的維吾爾連續(xù)音素識[J].通信技術(shù),2012,45(07):54-59.Mirigul Abdurusul,Akbar pattar,Askar Hamdulla.Telephone Speech Corpus-based Uyghur Continuous Phone Recognition.Communications Technology,2012,45(7):54-59.

      [2] 古力努爾·艾爾肯,艾斯卡爾·艾木都拉,地里木拉提·吐爾遜.維吾爾語四音節(jié)元音和諧詞的共振峰模式研究[J].通信技術(shù),2013,46(11):47-50.Gulnur Arkin,Askar Hamdulla,Dilmurat Tursun.Formant Features Analysis of Vowel Harmonious in Four-Syllabic UyghurWords. Communication Technology,2013,46(11):54-59.

      [3] POVEY D.Discriminative Training for Large Vocabulary Speech Recognition[D].England:Cambridge University,2004.

      [4] NORMANDIN Y.Maximum Mutual Information Estimation of Hidden Markov Models[C]//Pro.Of Automatic Speech and Speaker Recognition.Holland:Kluwer Academic Publishers ,1996:57-81.

      [5] POVEY D ,WOODLAND P C.Minimum Phone Error and I-smoothing for Improved Discriminative Training[C]//Proc.of ICASSP.Orlando,USA:IEEE press,2002:105-108.

      [6] 張峰.基于統(tǒng)計模式識別的發(fā)音錯誤自動檢測的研究[D].合肥:中國科學(xué)技術(shù)大學(xué),2009:13-35.ZHANG Feng.A Study on Automatic Mispronunciation Detection based on Statistical Pattern Recognition[D].He Fei:University of Science and Technology of China,2009,13-35.

      [7] 劉金鑫.區(qū)分性訓(xùn)練在計算機輔助發(fā)音訓(xùn)練系統(tǒng)中的應(yīng)用[D].天津:南開大學(xué),2011:38-44.LIU Jin-xin.Application of Discriminative Training in Computer Assisted Pronunciation Training System[D].Tian Jin:Nankai University,2011,38-44.

      [8] HUANG Hao,WANG Jian-ming,Abdureyimu Halidan.Maximum F1-Score Discriminative Training for Automatic Mispronunciation Dtection in Computer-Assisted Language Learning[R].USA:ISCA,2012:815-818.

      [9] 竺博.區(qū)分性訓(xùn)練和區(qū)分性自適應(yīng)在自動語音識別聲學(xué)模型優(yōu)化中的應(yīng)用[D].合肥:中國科學(xué)技術(shù)大學(xué),2009:16-28.ZHU Bo.Application of DT and DT Adaption Acoustic Model of ASR[D].He Fei:University of Science and Technology of China,2009,16-28.

      [10] WITT S M,YOUNG S J.Phone-level Pronunciation Scoring and Assessment for Interactive Language Learning[J].Speech Communication,2000,30(2-3):95-108.

      [11] POVEY D.DiscriminativeTraining for Large Vocabulary Speech Recognition[D].England:University 0f Cambridge,2004:25-34.

      [12] 黃浩,王建明,哈力旦·阿不都熱依木,吾守爾·斯拉木.自動發(fā)音錯誤檢測中基于F1值最大化的聲學(xué)模型訓(xùn)練方法[J].聲學(xué)學(xué)報,2013,38(06):751-758.HUANG Hao,WANG Jian-ming,Abdureyimu Halidan,Silamu Wushour.Maximum F1-Score Discriminative Training for Automatic Mispronunciation Detection[J].ACTA ACUSTICA,2013,38(6):751-758.

      猜你喜歡
      后驗集上區(qū)分
      區(qū)分“旁”“榜”“傍”
      你能區(qū)分平衡力與相互作用力嗎
      Cookie-Cutter集上的Gibbs測度
      基于對偶理論的橢圓變分不等式的后驗誤差分析(英)
      鏈完備偏序集上廣義向量均衡問題解映射的保序性
      貝葉斯統(tǒng)計中單參數(shù)后驗分布的精確計算方法
      復(fù)扇形指標集上的分布混沌
      教你區(qū)分功和功率
      一種基于最大后驗框架的聚類分析多基線干涉SAR高度重建算法
      罪數(shù)區(qū)分的實踐判定
      无极县| 尚志市| 雷山县| 安龙县| 友谊县| 杨浦区| 明水县| 两当县| 镶黄旗| 平顺县| 鹿邑县| 万全县| 高碑店市| 谢通门县| 长宁区| 太仓市| 临城县| 镇远县| 乐平市| 龙南县| 和龙市| 敖汉旗| 孟村| 交城县| 南华县| 贵溪市| 澎湖县| 远安县| 大城县| 盐津县| 常山县| 芒康县| 射阳县| 炉霍县| 凌海市| 镇康县| 绥芬河市| 东宁县| 朝阳市| 商水县| 扶风县|