一種改進的GOP算法在區(qū)分性訓(xùn)練的應(yīng)用*

2014-09-17 12:31:58熱米拉艾山江

通信技術(shù) 2014年5期

熱米拉·艾山江，黃浩

(新疆大學(xué)信息科學(xué)與工程學(xué)院，新疆烏魯木齊830046)

0 引言

隨著語音識別技術(shù)的不斷發(fā)展和完善，基于計算機輔助的語言學(xué)習(xí)成為語音信息處理技術(shù)研究領(lǐng)域的一個活躍的研究方向。計算機輔助語言學(xué)習(xí)的核心部分是自動發(fā)音檢錯系統(tǒng)，它的主要作用是通過計算機檢測說話人語音中的錯誤發(fā)音并對此進行改進，從而為學(xué)習(xí)者提供更有效的學(xué)習(xí)。自動發(fā)音錯誤檢測系統(tǒng)作為計算機輔助語言學(xué)習(xí)的核心部分，它的檢錯性能非常重要，而系統(tǒng)的檢錯性能依賴于經(jīng)過正確訓(xùn)練參數(shù)的聲學(xué)模型［1］，因此國內(nèi)外很多研究人員在聲學(xué)模型的建模和訓(xùn)練方面開展了很多研究。目前主流的聲學(xué)建模是基于HMM的聲學(xué)建模，而傳統(tǒng)的發(fā)音質(zhì)量評估方法是基于后驗概率的GOP算法。

在發(fā)音檢錯系統(tǒng)的聲學(xué)模型參數(shù)［2］訓(xùn)練上基于區(qū)分性原理的參數(shù)優(yōu)化方法從最近的的研究結(jié)果看表現(xiàn)出高效率性。區(qū)分性原理在語音識別研究領(lǐng)域中的應(yīng)用已經(jīng)取得了很大成功，常用的區(qū)分性訓(xùn)練準則主要包括最小分類錯誤(MCE，Minimum Classification Error)［3］、最大互信息(MMI，Maximum Mutual Information)［4］以及近年來流行的最小音子錯誤(MPE，Minimum Phone Error)準則［5］。在這些區(qū)分性準則的指導(dǎo)下通過定義一個與識別率相一致的目標函數(shù)，優(yōu)化目標函數(shù)來直接提高識別率，成功的解決了傳統(tǒng)最大似然參數(shù)訓(xùn)練方法的局限性［6］。因此研究人員將語音識別里提出的成功的區(qū)分性訓(xùn)練方法擴展到發(fā)音檢錯系統(tǒng)的性能優(yōu)化方面。與語音識別不同的是在發(fā)音檢錯中，其性能包括正確率和檢出率，導(dǎo)致定義目標函數(shù)比較困難，因此從錯誤檢測度量的評估來處理這個問題［7］。根據(jù)上述思想，文中提出最大化F1值準則的算法。基于最大化F1值(MFC)的區(qū)分性訓(xùn)練方法，將正確度標注的非母語語音數(shù)據(jù)庫上的發(fā)音錯誤檢測的F1值的最大化作為模型參數(shù)的訓(xùn)練準則。通過Sigmoid函數(shù)平滑后的F1值函數(shù)作為目標函數(shù)，用弱意義輔助函數(shù)方法優(yōu)化目標函數(shù)，通過采用擴展的Baum－Welch算法來進行參數(shù)更新，獲得明顯的改進。

文中在最大化F1值的區(qū)分性訓(xùn)練方法［8］的質(zhì)量評估上提出一種先歸一化再求后驗概率的改進的GOP算，根據(jù)改進GOP算法給出了使用改進GOP算法最大F1準則的參數(shù)更新公式，發(fā)音檢錯實驗結(jié)果表明基于改進的GOP算法的最大F1值準則訓(xùn)練較使用傳統(tǒng)的GOP算法能夠進一步提高檢錯F1值。

1 改進的GOP計算公式

傳統(tǒng)的GOP(Goodness of Pronunciation)算法屬于后驗概率的算法，它是針對漢語的聲母、韻母定義的音素，其主要方法是通過給出的某一語音段，計算其正確程度的定量得分的［9］。GOP得分計算公式［10］為:

式中，Or，n=1，…，r，…，R 表示為每條訓(xùn)練語句的特

式中，κ是在區(qū)分性訓(xùn)練中常用的用來減少模型概率動態(tài)范圍的比例因子，其取值范圍是0＜κ＜1。按照上述假設(shè)定義如下判別函數(shù):

用改進的GOP算法定義語音段(r，n)的檢錯測度可以寫成:

式中，d(r，n)＜0 表示該語音段 Or，n被判定為錯誤發(fā)音，d(r，n)＜0表示被判定為正確的。τ是門限值，它可以由經(jīng)驗值調(diào)整，也可以由訓(xùn)練集統(tǒng)計訓(xùn)練得到。

2 最大F1值準則目標函數(shù)

2．1 目標函數(shù)

根據(jù)最大化F1值區(qū)分性訓(xùn)練方法。F1值是精確度和召回率的調(diào)和平均，其計算公式為:

式中，Precision為精確度，Recall為召回率，由于F1值函數(shù)對模型參數(shù)的不連續(xù)性，因此利用Sigmoid對F1值函數(shù)進行平滑，則得如下平滑后的F1值目標函數(shù):

式中，NW是人工標注為錯誤的因素數(shù)目，Err(r，n)表示語音段(r，n)的人工標注結(jié)果。NSWW(λ)為平滑后的被人工和機器同時判定為錯誤發(fā)音的個數(shù)，是平滑后的機器判定為錯誤發(fā)音的個數(shù)。

2．2 目標函數(shù)的優(yōu)化

在MFC參數(shù)優(yōu)化采用構(gòu)造弱意義輔助函數(shù)［11］的方法，根據(jù)弱意義輔助函數(shù)優(yōu)化原理，通過計算零階，一階，二階累積量從而對輔助函數(shù)的HMM高斯參數(shù)的均值與方差利用EBW迭代公式進行優(yōu)化。累積量的計算公式如下［12］:

式中，I(r，n)和 L(r，n)分別是語音段(r，n)的起始幀和結(jié)束幀;γMFCq是t時刻觀察矢量O(t)在狀態(tài)s中混合高斯m的后驗概率，通過強制對齊的起止時刻以及該語音段的觀察序列O(r，n)進行前后向計算得到，γMFCq是MFC參數(shù)訓(xùn)練中的累積量。式(7)～式(9)中的的計算式把的計算公式的換成就可計算。

有上述模型參數(shù)可以看出，模型參數(shù)更新主要取決于MFC參數(shù)的計算。的計算公式為:

將式(6)中目標函數(shù)表達式代入上式，根據(jù)鏈式求導(dǎo)法則，分別計算上式中的的偏導(dǎo)數(shù):

式中，根據(jù)傳統(tǒng)的GOP算法算出來的語音段(r，n)上音素q的后驗概率為γq(r，n):

根據(jù)文中提出來的改進的GOP算法計算γq(r，n)得:

使用改進的GOP算法優(yōu)化系統(tǒng)參數(shù)步驟如下:

1)初始化。

2)在訓(xùn)練語段中的每個語音段(r，n)計算GOP值。

3)求使FMFC最大化的發(fā)音相關(guān)門限值τ的最優(yōu)值。

6)更新模型參數(shù)。

7)若未達到最優(yōu)值，返回步驟2)，繼續(xù)進行參數(shù)更新。

3 實驗與結(jié)果

3．1 數(shù)據(jù)庫和實驗配置

在文中通過漢語普通話發(fā)音錯誤檢測實驗來驗證所提方法的有效性。該實驗基于面向新疆大學(xué)在校進行預(yù)科語言學(xué)習(xí)的維吾爾族大學(xué)生的漢語發(fā)音錯誤檢測任務(wù)，普通話發(fā)音檢錯任務(wù)應(yīng)當(dāng)包括音素錯誤檢測和聲調(diào)錯誤檢測兩個部分?；€聲學(xué)模型訓(xùn)練來自863漢語普通話語音數(shù)據(jù)庫(L1語音庫)中160個說話人(男女各80個人)的86 271條訓(xùn)練語句。

區(qū)分性訓(xùn)練在非母語說話人語音庫(L2)上進行。L2語音數(shù)據(jù)選自100名維吾爾族大學(xué)生的朗讀數(shù)據(jù)集。每名說話人朗讀2～3套文本材料，每套文本材料包括50個單音節(jié)字、25個雙音節(jié)詞以及20個短句。這些數(shù)據(jù)經(jīng)過人工標注出發(fā)音錯誤。實驗過程中將這些數(shù)據(jù)分為L2訓(xùn)練集(18 643句)、L2測試集(7 030句)。概率平衡因子根據(jù)經(jīng)驗選取為κ=0．1，Sigmoid參數(shù)選取為q=10．0。

3．2 實驗結(jié)果

表1給出了在傳統(tǒng)的GOP算法和改進的GOP算法上所得的發(fā)音檢錯訓(xùn)練集和測試集的目標函數(shù)FMFC和F1的值。

表1 目標函數(shù)FMFC和F1值Table 1 Objective function value FMFC and F1

表1中，在基線模型上使用傳統(tǒng)GOP算法和改進的GOP算法，在訓(xùn)練集和測試集上的FMFC和F1值分別為0．369，0．395，0．365 和0．392。在 MFC 準則下的模型上使用傳統(tǒng)的GOP算法時，在訓(xùn)練集和測試集上的 FMFC值，分別從0．369 上升到0．673，從0．365上升到0．452，而訓(xùn)練集和測試集上的F1值分別從0．395 升高到0．719，從0．392 上升到0．479，可以看出在MFC上使用GOP算法時，訓(xùn)練集和測試集上的FMFC和F1值大大的增大。我們再在MFC準則下的模型上使用改進的GOP算法時，在訓(xùn)練集上FMFC和 F1值分別為0．665 和0．616，在測試集上FMFC和F1值分別為0．454和0．489。在使用傳統(tǒng)的GOP算法時在訓(xùn)練集上的FMFC值為0．673時，在測試集上的F1值為0．479，而使用改進的GOP算法時，在訓(xùn)練集上FMFC值為0．665時，在測試集上F1值為0．489，較傳統(tǒng)的方法提高了1%。由此可以看出利用改進的GOP算法時，訓(xùn)練集上的目標函數(shù)值不用增很多就能得到較好的測試集上的F1值。

4 結(jié)語

文中首先介紹了傳統(tǒng)的發(fā)音質(zhì)量評估方法GOP，然后在此基礎(chǔ)上得到了一種改進的GOP算法公式。改進的GOP算法把傳統(tǒng)的GOP算法的先求后驗概率再歸一化的模式改成先歸一化再求后驗概率。然后利用改進的GOP算法計算最大化F1值區(qū)分性訓(xùn)練中的語音段(r，n)的新的檢錯測度和后驗概率，實驗結(jié)果表明，用改進的GOP算法得到的檢錯測度和后驗概率在MFC訓(xùn)練上更有效率性，在訓(xùn)練集上較低的目標函數(shù)值時在測試集上也能得到較好的的F1值，具有了較好的過訓(xùn)練抑制性，從而達到了提高發(fā)音檢錯系統(tǒng)性能的提高。

［1］米日古力·阿布都熱素，艾克白爾·帕塔爾，艾斯卡爾·艾木都拉．基于電話語料的維吾爾連續(xù)音素識［J］．通信技術(shù)，2012，45(07):54－59．Mirigul Abdurusul，Akbar pattar，Askar Hamdulla．Telephone Speech Corpus－based Uyghur Continuous Phone Recognition．Communications Technology，2012，45(7):54－59．

［2］古力努爾·艾爾肯，艾斯卡爾·艾木都拉，地里木拉提·吐爾遜．維吾爾語四音節(jié)元音和諧詞的共振峰模式研究［J］．通信技術(shù)，2013，46(11):47－50．Gulnur Arkin，Askar Hamdulla，Dilmurat Tursun．Formant Features Analysis of Vowel Harmonious in Four－Syllabic UyghurWords． Communication Technology，2013，46(11):54－59．

［3］ POVEY D．Discriminative Training for Large Vocabulary Speech Recognition［D］．England:Cambridge University，2004．

［4］ NORMANDIN Y．Maximum Mutual Information Estimation of Hidden Markov Models［C］//Pro．Of Automatic Speech and Speaker Recognition．Holland:Kluwer Academic Publishers ，1996:57－81．

［5］ POVEY D ，WOODLAND P C．Minimum Phone Error and I－smoothing for Improved Discriminative Training［C］//Proc．of ICASSP．Orlando，USA:IEEE press，2002:105－108．

［6］張峰．基于統(tǒng)計模式識別的發(fā)音錯誤自動檢測的研究［D］．合肥:中國科學(xué)技術(shù)大學(xué)，2009:13－35．ZHANG Feng．A Study on Automatic Mispronunciation Detection based on Statistical Pattern Recognition［D］．He Fei:University of Science and Technology of China，2009，13－35．

［7］劉金鑫．區(qū)分性訓(xùn)練在計算機輔助發(fā)音訓(xùn)練系統(tǒng)中的應(yīng)用［D］．天津:南開大學(xué)，2011:38－44．LIU Jin－xin．Application of Discriminative Training in Computer Assisted Pronunciation Training System［D］．Tian Jin:Nankai University，2011，38－44．

［8］ HUANG Hao，WANG Jian－ming，Abdureyimu Halidan．Maximum F1－Score Discriminative Training for Automatic Mispronunciation Dtection in Computer-Assisted Language Learning［R］．USA:ISCA，2012:815－818．

［9］竺博．區(qū)分性訓(xùn)練和區(qū)分性自適應(yīng)在自動語音識別聲學(xué)模型優(yōu)化中的應(yīng)用［D］．合肥:中國科學(xué)技術(shù)大學(xué)，2009:16－28．ZHU Bo．Application of DT and DT Adaption Acoustic Model of ASR［D］．He Fei:University of Science and Technology of China，2009，16－28．

［10］ WITT S M，YOUNG S J．Phone－level Pronunciation Scoring and Assessment for Interactive Language Learning［J］．Speech Communication，2000，30(2－3):95－108．

［11］ POVEY D．DiscriminativeTraining for Large Vocabulary Speech Recognition［D］．England:University 0f Cambridge，2004:25－34．

［12］黃浩，王建明，哈力旦·阿不都熱依木，吾守爾·斯拉木．自動發(fā)音錯誤檢測中基于F1值最大化的聲學(xué)模型訓(xùn)練方法［J］．聲學(xué)學(xué)報，2013，38(06):751－758．HUANG Hao，WANG Jian－ming，Abdureyimu Halidan，Silamu Wushour．Maximum F1－Score Discriminative Training for Automatic Mispronunciation Detection［J］．ACTA ACUSTICA，2013，38(6):751－758．

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看