熱米拉·艾山江,黃 浩
(新疆大學(xué)信息科學(xué)與工程學(xué)院,新疆烏魯木齊830046)
隨著語音識別技術(shù)的不斷發(fā)展和完善,基于計算機輔助的語言學(xué)習(xí)成為語音信息處理技術(shù)研究領(lǐng)域的一個活躍的研究方向。計算機輔助語言學(xué)習(xí)的核心部分是自動發(fā)音檢錯系統(tǒng),它的主要作用是通過計算機檢測說話人語音中的錯誤發(fā)音并對此進行改進,從而為學(xué)習(xí)者提供更有效的學(xué)習(xí)。自動發(fā)音錯誤檢測系統(tǒng)作為計算機輔助語言學(xué)習(xí)的核心部分,它的檢錯性能非常重要,而系統(tǒng)的檢錯性能依賴于經(jīng)過正確訓(xùn)練參數(shù)的聲學(xué)模型[1],因此國內(nèi)外很多研究人員在聲學(xué)模型的建模和訓(xùn)練方面開展了很多研究。目前主流的聲學(xué)建模是基于HMM的聲學(xué)建模,而傳統(tǒng)的發(fā)音質(zhì)量評估方法是基于后驗概率的GOP算法。
在發(fā)音檢錯系統(tǒng)的聲學(xué)模型參數(shù)[2]訓(xùn)練上基于區(qū)分性原理的參數(shù)優(yōu)化方法從最近的的研究結(jié)果看表現(xiàn)出高效率性。區(qū)分性原理在語音識別研究領(lǐng)域中的應(yīng)用已經(jīng)取得了很大成功,常用的區(qū)分性訓(xùn)練準則主要包括最小分類錯誤(MCE,Minimum Classification Error)[3]、最大互信息(MMI,Maximum Mutual Information)[4]以及近年來流行的最小音子錯誤(MPE,Minimum Phone Error)準則[5]。在這些區(qū)分性準則的指導(dǎo)下通過定義一個與識別率相一致的目標函數(shù),優(yōu)化目標函數(shù)來直接提高識別率,成功的解決了傳統(tǒng)最大似然參數(shù)訓(xùn)練方法的局限性[6]。因此研究人員將語音識別里提出的成功的區(qū)分性訓(xùn)練方法擴展到發(fā)音檢錯系統(tǒng)的性能優(yōu)化方面。與語音識別不同的是在發(fā)音檢錯中,其性能包括正確率和檢出率,導(dǎo)致定義目標函數(shù)比較困難,因此從錯誤檢測度量的評估來處理這個問題[7]。根據(jù)上述思想,文中提出最大化F1值準則的算法。基于最大化F1值(MFC)的區(qū)分性訓(xùn)練方法,將正確度標注的非母語語音數(shù)據(jù)庫上的發(fā)音錯誤檢測的F1值的最大化作為模型參數(shù)的訓(xùn)練準則。通過Sigmoid函數(shù)平滑后的F1值函數(shù)作為目標函數(shù),用弱意義輔助函數(shù)方法優(yōu)化目標函數(shù),通過采用擴展的Baum-Welch算法來進行參數(shù)更新,獲得明顯的改進。
文中在最大化F1值的區(qū)分性訓(xùn)練方法[8]的質(zhì)量評估上提出一種先歸一化再求后驗概率的改進的GOP算,根據(jù)改進GOP算法給出了使用改進GOP算法最大F1準則的參數(shù)更新公式,發(fā)音檢錯實驗結(jié)果表明基于改進的GOP算法的最大F1值準則訓(xùn)練較使用傳統(tǒng)的GOP算法能夠進一步提高檢錯F1值。
傳統(tǒng)的GOP(Goodness of Pronunciation)算法屬于后驗概率的算法,它是針對漢語的聲母、韻母定義的音素,其主要方法是通過給出的某一語音段,計算其正確程度的定量得分的[9]。GOP得分計算公式[10]為:
式中,Or,n=1,…,r,…,R 表示為每條訓(xùn)練語句的特
式中,κ是在區(qū)分性訓(xùn)練中常用的用來減少模型概率動態(tài)范圍的比例因子,其取值范圍是0<κ<1。按照上述假設(shè)定義如下判別函數(shù):
用改進的GOP算法定義語音段(r,n)的檢錯測度可以寫成:
式中,d(r,n)<0 表示該語音段 Or,n被判定為錯誤發(fā)音,d(r,n)<0表示被判定為正確的。τ是門限值,它可以由經(jīng)驗值調(diào)整,也可以由訓(xùn)練集統(tǒng)計訓(xùn)練得到。
根據(jù)最大化F1值區(qū)分性訓(xùn)練方法。F1值是精確度和召回率的調(diào)和平均,其計算公式為:
式中,Precision為精確度,Recall為召回率,由于F1值函數(shù)對模型參數(shù)的不連續(xù)性,因此利用Sigmoid對F1值函數(shù)進行平滑,則得如下平滑后的F1值目標函數(shù):
式中,NW是人工標注為錯誤的因素數(shù)目,Err(r,n)表示語音段(r,n)的人工標注結(jié)果。NSWW(λ)為平滑后的被人工和機器同時判定為錯誤發(fā)音的個數(shù),是平滑后的機器判定為錯誤發(fā)音的個數(shù)。
在MFC參數(shù)優(yōu)化采用構(gòu)造弱意義輔助函數(shù)[11]的方法,根據(jù)弱意義輔助函數(shù)優(yōu)化原理,通過計算零階,一階,二階累積量從而對輔助函數(shù)的HMM高斯參數(shù)的均值與方差利用EBW迭代公式進行優(yōu)化。累積量的計算公式如下[12]:
式中,I(r,n)和 L(r,n)分別是語音段(r,n)的起始幀和結(jié)束幀;γMFCq是t時刻觀察矢量O(t)在狀態(tài)s中混合高斯m的后驗概率,通過強制對齊的起止時刻以及該語音段的觀察序列O(r,n)進行前后向計算得到,γMFCq是MFC參數(shù)訓(xùn)練中的累積量。式(7)~式(9)中的的計算式把的計算公式的換成就可計算。
有上述模型參數(shù)可以看出,模型參數(shù)更新主要取決于MFC參數(shù)的計算。的計算公式為:
將式(6)中目標函數(shù)表達式代入上式,根據(jù)鏈式求導(dǎo)法則,分別計算上式中的的偏導(dǎo)數(shù):
式中,根據(jù)傳統(tǒng)的GOP算法算出來的語音段(r,n)上音素q的后驗概率為γq(r,n):
根據(jù)文中提出來的改進的GOP算法計算γq(r,n)得:
使用改進的GOP算法優(yōu)化系統(tǒng)參數(shù)步驟如下:
1)初始化。
2)在訓(xùn)練語段中的每個語音段(r,n)計算GOP值。
3)求使FMFC最大化的發(fā)音相關(guān)門限值τ的最優(yōu)值。
6)更新模型參數(shù)。
7)若未達到最優(yōu)值,返回步驟2),繼續(xù)進行參數(shù)更新。
在文中通過漢語普通話發(fā)音錯誤檢測實驗來驗證所提方法的有效性。該實驗基于面向新疆大學(xué)在校進行預(yù)科語言學(xué)習(xí)的維吾爾族大學(xué)生的漢語發(fā)音錯誤檢測任務(wù),普通話發(fā)音檢錯任務(wù)應(yīng)當(dāng)包括音素錯誤檢測和聲調(diào)錯誤檢測兩個部分?;€聲學(xué)模型訓(xùn)練來自863漢語普通話語音數(shù)據(jù)庫(L1語音庫)中160個說話人(男女各80個人)的86 271條訓(xùn)練語句。
區(qū)分性訓(xùn)練在非母語說話人語音庫(L2)上進行。L2語音數(shù)據(jù)選自100名維吾爾族大學(xué)生的朗讀數(shù)據(jù)集。每名說話人朗讀2~3套文本材料,每套文本材料包括50個單音節(jié)字、25個雙音節(jié)詞以及20個短句。這些數(shù)據(jù)經(jīng)過人工標注出發(fā)音錯誤。實驗過程中將這些數(shù)據(jù)分為L2訓(xùn)練集(18 643句)、L2測試集(7 030句)。概率平衡因子根據(jù)經(jīng)驗選取為κ=0.1,Sigmoid參數(shù)選取為q=10.0。
表1給出了在傳統(tǒng)的GOP算法和改進的GOP算法上所得的發(fā)音檢錯訓(xùn)練集和測試集的目標函數(shù)FMFC和F1的值。
表1 目標函數(shù)FMFC和F1值Table 1 Objective function value FMFC and F1
表1中,在基線模型上使用傳統(tǒng)GOP算法和改進的GOP算法,在訓(xùn)練集和測試集上的FMFC和F1值分別為0.369,0.395,0.365 和0.392。在 MFC 準則下的模型上使用傳統(tǒng)的GOP算法時,在訓(xùn)練集和測試集上的 FMFC值,分別從0.369 上升到0.673,從0.365上升到0.452,而訓(xùn)練集和測試集上的F1值分別從0.395 升高到0.719,從0.392 上升到0.479,可以看出在MFC上使用GOP算法時,訓(xùn)練集和測試集上的FMFC和F1值大大的增大。我們再在MFC準則下的模型上使用改進的GOP算法時,在訓(xùn)練集上FMFC和 F1值分別為0.665 和0.616,在測試集上FMFC和F1值分別為0.454和0.489。在使用傳統(tǒng)的GOP算法時在訓(xùn)練集上的FMFC值為0.673時,在測試集上的F1值為0.479,而使用改進的GOP算法時,在訓(xùn)練集上FMFC值為0.665時,在測試集上F1值為0.489,較傳統(tǒng)的方法提高了1%。由此可以看出利用改進的GOP算法時,訓(xùn)練集上的目標函數(shù)值不用增很多就能得到較好的測試集上的F1值。
文中首先介紹了傳統(tǒng)的發(fā)音質(zhì)量評估方法GOP,然后在此基礎(chǔ)上得到了一種改進的GOP算法公式。改進的GOP算法把傳統(tǒng)的GOP算法的先求后驗概率再歸一化的模式改成先歸一化再求后驗概率。然后利用改進的GOP算法計算最大化F1值區(qū)分性訓(xùn)練中的語音段(r,n)的新的檢錯測度和后驗概率,實驗結(jié)果表明,用改進的GOP算法得到的檢錯測度和后驗概率在MFC訓(xùn)練上更有效率性,在訓(xùn)練集上較低的目標函數(shù)值時在測試集上也能得到較好的的F1值,具有了較好的過訓(xùn)練抑制性,從而達到了提高發(fā)音檢錯系統(tǒng)性能的提高。
[1] 米日古力·阿布都熱素,艾克白爾·帕塔爾,艾斯卡爾·艾木都拉.基于電話語料的維吾爾連續(xù)音素識[J].通信技術(shù),2012,45(07):54-59.Mirigul Abdurusul,Akbar pattar,Askar Hamdulla.Telephone Speech Corpus-based Uyghur Continuous Phone Recognition.Communications Technology,2012,45(7):54-59.
[2] 古力努爾·艾爾肯,艾斯卡爾·艾木都拉,地里木拉提·吐爾遜.維吾爾語四音節(jié)元音和諧詞的共振峰模式研究[J].通信技術(shù),2013,46(11):47-50.Gulnur Arkin,Askar Hamdulla,Dilmurat Tursun.Formant Features Analysis of Vowel Harmonious in Four-Syllabic UyghurWords. Communication Technology,2013,46(11):54-59.
[3] POVEY D.Discriminative Training for Large Vocabulary Speech Recognition[D].England:Cambridge University,2004.
[4] NORMANDIN Y.Maximum Mutual Information Estimation of Hidden Markov Models[C]//Pro.Of Automatic Speech and Speaker Recognition.Holland:Kluwer Academic Publishers ,1996:57-81.
[5] POVEY D ,WOODLAND P C.Minimum Phone Error and I-smoothing for Improved Discriminative Training[C]//Proc.of ICASSP.Orlando,USA:IEEE press,2002:105-108.
[6] 張峰.基于統(tǒng)計模式識別的發(fā)音錯誤自動檢測的研究[D].合肥:中國科學(xué)技術(shù)大學(xué),2009:13-35.ZHANG Feng.A Study on Automatic Mispronunciation Detection based on Statistical Pattern Recognition[D].He Fei:University of Science and Technology of China,2009,13-35.
[7] 劉金鑫.區(qū)分性訓(xùn)練在計算機輔助發(fā)音訓(xùn)練系統(tǒng)中的應(yīng)用[D].天津:南開大學(xué),2011:38-44.LIU Jin-xin.Application of Discriminative Training in Computer Assisted Pronunciation Training System[D].Tian Jin:Nankai University,2011,38-44.
[8] HUANG Hao,WANG Jian-ming,Abdureyimu Halidan.Maximum F1-Score Discriminative Training for Automatic Mispronunciation Dtection in Computer-Assisted Language Learning[R].USA:ISCA,2012:815-818.
[9] 竺博.區(qū)分性訓(xùn)練和區(qū)分性自適應(yīng)在自動語音識別聲學(xué)模型優(yōu)化中的應(yīng)用[D].合肥:中國科學(xué)技術(shù)大學(xué),2009:16-28.ZHU Bo.Application of DT and DT Adaption Acoustic Model of ASR[D].He Fei:University of Science and Technology of China,2009,16-28.
[10] WITT S M,YOUNG S J.Phone-level Pronunciation Scoring and Assessment for Interactive Language Learning[J].Speech Communication,2000,30(2-3):95-108.
[11] POVEY D.DiscriminativeTraining for Large Vocabulary Speech Recognition[D].England:University 0f Cambridge,2004:25-34.
[12] 黃浩,王建明,哈力旦·阿不都熱依木,吾守爾·斯拉木.自動發(fā)音錯誤檢測中基于F1值最大化的聲學(xué)模型訓(xùn)練方法[J].聲學(xué)學(xué)報,2013,38(06):751-758.HUANG Hao,WANG Jian-ming,Abdureyimu Halidan,Silamu Wushour.Maximum F1-Score Discriminative Training for Automatic Mispronunciation Detection[J].ACTA ACUSTICA,2013,38(6):751-758.