基于聲學音素向量和孿生網(wǎng)絡的二語者發(fā)音偏誤確認

2019-05-24 06:41:42王振宇解焱陸張勁松

中文信息學報 2019年4期

王振宇，解焱陸，張勁松

(北京語言大學語言資源高精尖創(chuàng)新中心，北京 100083)

0 引言

漢語二語學習者難以習得標準發(fā)音，即使有很多對話經(jīng)驗的高級漢語學習者也難以掌握正確的漢語發(fā)音和聲調(diào)。計算機輔助發(fā)音教學作為有限傳統(tǒng)教育資源的有力補充，能給予二語學習者及時有效的幫助和反饋。計算機輔助發(fā)音訓練作為計算機輔助發(fā)音教學系統(tǒng)的重要組成部分，在系統(tǒng)構(gòu)建過程則發(fā)揮著重要作用。

在以往研究中，自動語音識別系統(tǒng)被應用于在音段層級的發(fā)音偏誤檢測任務中來評估學習者發(fā)音的正確與否，以音素為單位計算對數(shù)后驗概率分數(shù)來檢測發(fā)音偏誤[1]。Witt和Young[2]引入基于概率的發(fā)音良好度方法，此方法給出的是一個歸一化的對數(shù)似然比分數(shù)并在文獻[3-5]中用于句子確認。后來出現(xiàn)了一些發(fā)音良好度的變體[6-8]，也都是基于每一個音素相對于母語者置信分數(shù)均值來設置閾值從而判斷偏誤。以上系統(tǒng)提供的音段層級的反饋是比較有指導性和直觀的評價結(jié)果。

由于基于發(fā)音良好度方法的一個重要組成部分是依賴于大量人工標注的自動語音識別系統(tǒng)。因此，我們想探究使用弱監(jiān)督的方法去獲得一個有區(qū)分性的特征表示，此方法也較適合于一些資源稀缺的情況[9-10]。之前的部分研究使用了一種叫孿生網(wǎng)絡[11]的結(jié)構(gòu)。此網(wǎng)絡將一對標明相同與否的詞對輸入到兩個權(quán)值共享的深度神經(jīng)網(wǎng)絡，從而得到話者和音段信息[12]。Synnaeve 等根據(jù)所給數(shù)據(jù)標簽類型改進了損失函數(shù)，在音素錯誤率上得到了和全監(jiān)督方法近乎相等的結(jié)果[13]。使用聲學詞向量的詞區(qū)分任務也已經(jīng)在幾個其他的研究中得以應用[14-16]，通過比較詞向量的距離計算平均錯誤率，來衡量系統(tǒng)準確性。Herman等比較了幾種用于詞區(qū)分任務的方法，使用卷積孿生網(wǎng)絡使系統(tǒng)得到了進一步的提升[17]。

我們的方法引入聲學音素向量來確認二語學習者的發(fā)音偏誤，并給出了有指導性且具體的反饋?；谇叭说穆晫W詞向量想法，我們使用帶有配對信息的音素，基于弱監(jiān)督的方法來做音素區(qū)分任務。以定長的語音特征向量作為孿生網(wǎng)絡的輸入，判斷生成的音素向量是否來源于同一音素并依此修正生成向量間的距離。結(jié)果顯示，使用余弦最大間隔距離損失函數(shù)的卷積孿生網(wǎng)絡得到了最好的音素確認結(jié)果。基于此結(jié)論，我們使用實驗得到的最好模型進行二語者的發(fā)音質(zhì)量評價,在不添加標注的二語發(fā)音偏誤數(shù)據(jù)作為訓練數(shù)據(jù)的情況下，得到了優(yōu)于基于發(fā)音良好度的方法的結(jié)果，并且模型的魯棒性也更好。

本文中，第一部分概要描述了經(jīng)典的發(fā)音良好度、DNN-HMM方法，以及基于聲學音素向量和孿生網(wǎng)絡的音素確認的方法；第二部分對實驗配置和實驗過程進行具體說明，第三部分根據(jù)實驗結(jié)果進行分析討論，第四部分為總括性的結(jié)論。

1 音素確認方法概要

本節(jié)介紹了傳統(tǒng)的發(fā)音評價方法—發(fā)音良好度，和經(jīng)典的基于DNN-HMM語音識別框架的發(fā)音偏誤檢測的基本原理?；趯鹘y(tǒng)方法原理的思考，我們提出了用基于音素結(jié)合孿生網(wǎng)絡的方法進行發(fā)音偏誤確認。

1.1 發(fā)音良好度打分

在發(fā)音評分中，發(fā)音良好度GOP(Goodness of Pronunciation)是最廣泛使用的方法之一。此方法為句子中的每個音素都給出一個置信分數(shù)。音素p的發(fā)音良好度分數(shù)，如式(1)所示。

(1)

給定聲學模型和正則文本，p是標準單元，q是對比單元，Op是NF(number of frames)幀音素p的輸入特征。邊界信息來源于強制對其結(jié)果，Q是可能音素的集合。設置一個閾值以確認當前單元是否是一個正確發(fā)音，高于此閾值即為正確反之錯誤，此閾值根據(jù)任務和訓練數(shù)據(jù)不同可做相應調(diào)整。可以利用式(1)計算任何給定的音素的對數(shù)后驗概率，并稱之為亞音段分數(shù)。我們在音素發(fā)音錯誤確認任務中，使用的基線系統(tǒng)是發(fā)音良好度評價系統(tǒng)，該系統(tǒng)由在大規(guī)模母語者語料庫[18]訓練得到的神經(jīng)網(wǎng)絡三因子聲學模型構(gòu)成。

1.2 DNN-HMM框架

深度神經(jīng)網(wǎng)絡結(jié)合隱馬爾科夫模型的聲學模型建模框架式是現(xiàn)今在自動語音識別領(lǐng)域比較通用和流行的框架,其在大規(guī)模的連續(xù)語音識別任務中的性能也遠超傳統(tǒng)混合高斯模型GMM-HMM混合模型。因此，本文將DNN-HMM模型引入發(fā)音偏誤檢測的聲學模型建模階段，以期獲得更好地系統(tǒng)檢測性能。高迎明等在文獻[19]中將使用DNN-HMM混合模型訓練得到的聲學模型應用到發(fā)音偏誤檢測任務中，并得到88.6%的診斷正確率。DNN深度神經(jīng)網(wǎng)絡是前饋人工神經(jīng)網(wǎng)絡，在它的輸入和輸出之間有多個隱藏層。每一層由多個用來保存參數(shù)的節(jié)點構(gòu)成，用輸入數(shù)據(jù)對一個多層的生成性模型—深層置信網(wǎng)絡(deep belief network, DBN)進行擬合得到參數(shù)初值[20]。DNN的輸出層一般為softmax輸出，從該層得到每一幀音頻數(shù)據(jù)所對應的三音子音素的綁定狀態(tài)的后驗概率。已知從訓練集估計得到的各綁定狀態(tài)的先驗概率，利用貝葉斯公式將先驗概率轉(zhuǎn)化為各狀態(tài)的后驗概率并輸出,某狀態(tài)s的輸出概率，如式(2)所示。

(2)

其中，o指每一幀的聲學特征，P(s)就是綁定狀態(tài)的先驗概率，P(s|o)是經(jīng)過DNN得到的狀態(tài)s的后驗概率，const(s)是與綁定狀態(tài)s無關(guān)的常量。得到各綁定狀態(tài)的輸出概率后，經(jīng)過HMM[21]算法得到相應的識別結(jié)果。整體框架如圖1所示。

圖1 DNN-HMM框架

1.3 帶調(diào)音素向量

由于傳統(tǒng)發(fā)音良好度的方法的檢測效果有限，而基于DNN-HMM語音識別框架的發(fā)音偏誤檢測系統(tǒng)需要大量標注了二語者發(fā)音偏誤的數(shù)據(jù)，本文提出了音素向量的方法，期望通過得到音段層級聲學特征的高層表示來區(qū)分各音素種類，從而區(qū)分二語者偏誤發(fā)音和母語者標準發(fā)音。

音素區(qū)分任務將變長的語音段特征輸入神經(jīng)網(wǎng)絡，神經(jīng)網(wǎng)絡最后一層的輸出向量作為輸入特征的高維表示，在這個向量空間中相同語音段的映射距離近，不同的類別互相遠離。關(guān)鍵詞搜索[23]和無監(jiān)督條目搜索[24]已經(jīng)使用過了類似的表示向量。在漢語中共有60個音素類型，21個聲母39個韻母，每個漢字帶一個聲調(diào)(包括輕聲共五類)，并且聲調(diào)由韻母，也就是元音來區(qū)分。在訓練集中理論上，應有216類音素類型(21+39*5)。由于在漢語中部分元音不對應某些聲調(diào)，其中204類在漢語中較為常見。所以，訓練集中共包括204類音素類型。這個分類方法期望在一個音素區(qū)分任務中同時解決確認聲調(diào)和發(fā)音偏誤確認兩個問題。最終，不同的音素特征向量應該被映射為能有效區(qū)分音素類型的高維表示向量。

1.4 音素相似性孿生網(wǎng)絡

這種基于配對信息的監(jiān)督學習已經(jīng)在一些領(lǐng)域中得到應用，包括語義詞向量[25-27]和圖像方面的應用[28]。這些研究同樣引入了孿生網(wǎng)絡，該網(wǎng)絡結(jié)構(gòu)于19世紀90年代被首次提出[11]。我們的發(fā)音偏誤確認任務通過判定標準發(fā)音人和二語者的發(fā)音相似性來達到評價二語者發(fā)音良好度的目的，這和孿生網(wǎng)絡用來區(qū)分語義或者圖像的方式有相似之處。孿生網(wǎng)絡由兩個權(quán)值共享的神經(jīng)網(wǎng)絡構(gòu)成，先輸入兩段語音特征矩陣，再將其映射到由最后一層全連接層產(chǎn)生的高維向量的空間。在訓練過程中，依據(jù)高維特征表示空間中的因素向量是否來自于同一類音素來調(diào)整優(yōu)化他們之間的距離。在訓練集中的數(shù)據(jù)標簽只是配對信息而不是具體的音素標注，即每對輸入特征都帶有一個標簽來說明他們是不是一類數(shù)據(jù)。這種輔助信息在缺乏資源或者數(shù)據(jù)稀疏的場合更容易獲得，之前有研究使用無監(jiān)督的條目發(fā)現(xiàn)系統(tǒng)來找未定義的匹配詞對[29-30]。

在我們的實驗中，語料依據(jù)強監(jiān)督的音素識別系統(tǒng)給出強制對齊結(jié)果切分成音素段，且音素邊界準確率在96.26%誤差在50毫秒。因所有語音數(shù)據(jù)都是文本已知的朗讀語料，故依據(jù)強制對齊結(jié)果得到每個音素的邊界。然后，再結(jié)合文本中音素序列給每一個音段打上對應的標簽。最后，根據(jù)音素類別標簽生成配對信息。由于訓練語料[18]中均為發(fā)音狀況良好的母語者，我們默認將母語者發(fā)音作為標準音來訓練模型。所以在數(shù)據(jù)標簽獲取過程中無需人工標注數(shù)據(jù)。圖2描述了我們的網(wǎng)絡結(jié)構(gòu)。

圖2 孿生網(wǎng)絡結(jié)構(gòu)(雙生/三生)

圖2是以兩個輸入和以三個輸入開始的孿生網(wǎng)絡結(jié)構(gòu)，兩種輸入模式對應不同的損失函數(shù)?；跉W式距離[28](式(3))的損失函數(shù)更易于理解也符合網(wǎng)絡的設計初衷，它更傾向于解決區(qū)分不同配對的問題，對于相同的配對效果不佳。然而，余弦距離相似性[13](式(4))的損失函數(shù)可以計算向量間的夾角而不再是空間距離。余弦距離相似性損失函數(shù)的最好情況是相同的向量夾角趨近于0，不同的向量夾角趨近于正交，如式(3)、式(4)所示。

我們希望將訓練集中每一類和其他類區(qū)分開，且對多個不同類的相似程度也不同，相對距離更適合作為損失函數(shù)中的距離衡量，并假設沒有在訓練集中出現(xiàn)的配對為不同的對。由此我們引入了余弦最大間隔距離損失[26](式(5))這個損失函數(shù)。

Losscoshinge=max{0,m+dcos(x1,x2)-d(x1,x3)}

(5)

2 實驗

本節(jié)介紹了所有實驗用到的實驗數(shù)據(jù)，給出了基于計算音素后驗概率的發(fā)音良好度方法的實驗配置和部分實現(xiàn)細節(jié)，以及基于音素向量的孿生網(wǎng)絡的網(wǎng)絡配置和實驗過程。

2.1 語料

863語音識別語音語料庫[18]用作訓練數(shù)據(jù)，其中10%的數(shù)據(jù)用作開發(fā)集數(shù)據(jù)。測試數(shù)據(jù)分兩部分，不同實驗目的下使用不同測試語料。用母語者數(shù)據(jù)測試模型的性能，用二語者數(shù)據(jù)來做發(fā)音偏誤確認實驗。所有測試語料來自北京語言大學中介語語音語料庫[31]。數(shù)據(jù)描述如表1、表2所示。

表1 測試集數(shù)據(jù)

表2 訓練集數(shù)據(jù)

2.2 發(fā)音良好度評價系統(tǒng)

我們使用kaldi語音識別工具箱[32]實現(xiàn)發(fā)音良好度評價系統(tǒng),訓練出一個上下文相關(guān)的HMM-DNN聲學模型，基于聲學模型輸出的后驗概率為每個音素給定一個音段層級的發(fā)音分數(shù)。使用48維聲學特征，包括13維MFCC和3維音高還有各自的一階和二階差分系數(shù)。深度神經(jīng)網(wǎng)絡包括六個全連接層，每一層有1 024個單元。輸出層使用softmax函數(shù)產(chǎn)生2 943個幀級別音素概率狀態(tài)類型。輸入為11幀向量，由當前幀和前后五幀拼接而成。給定強制對齊結(jié)果，使用發(fā)音良好度評價系統(tǒng)得到的幀級別的對數(shù)后驗概率分數(shù)，通過式(1)計算發(fā)音良好度分數(shù)，設置閾值為0.5來給出一個這個音是否發(fā)對的二擇一判斷。結(jié)果表明，發(fā)音良好度系統(tǒng)在母語者數(shù)據(jù)上的測試結(jié)果能達到86.32%準確率。

2.3 基于音素向量的評價系統(tǒng)

提取特征階段以10ms為幀移20ms為窗長提取MFCC特征和音高以及各自的一階和二階差分系數(shù)，共48維聲學特征。聲學音素向量的方法要求將定長的語音特征向量映射到定長的特征表示空間中。由此我們將幀數(shù)較長的音素段利用動態(tài)時間規(guī)整[33]方法，將幀數(shù)較短的音素段使用補零的方法，統(tǒng)一歸整18幀，即0.018秒。動態(tài)時間規(guī)整的方法的缺點之一就是需要計算大量的對齊距離，且不管是動態(tài)時間規(guī)整還是補零對原始信息都有一定程度的損失和扭曲，結(jié)合兩個方法的目的也是為了最大程度上緩解原始信息的扭曲。同時，對每句話做全局均值方差歸一化[34]以盡量消除話者或者其他方面信息的干擾。

本文使用了大約100小時的母語者數(shù)據(jù)來做音素對，整個訓練數(shù)據(jù)包括開發(fā)集產(chǎn)生235萬個音素段，這些數(shù)據(jù)被分批加入到孿生網(wǎng)絡中訓練。每批數(shù)據(jù)有512個條目，可產(chǎn)生6萬個音素對，我們隨機挑選其中3萬對，并且相同對和不相同對各半，以保證訓練數(shù)據(jù)平衡。測試分兩步，先用母語者數(shù)據(jù)測試以檢測模型的性能，然后使用二語者數(shù)據(jù)在性能最好的模型上做音素區(qū)分實驗，并與發(fā)音良好度評價系統(tǒng)結(jié)果進行比較，所有測試數(shù)據(jù)文本來源一致。

2.4 孿生網(wǎng)絡配置

本文使用利用tensorflow作為后臺的keras工具包實現(xiàn)孿生網(wǎng)絡。使用ADADELTA[35]作為隨機優(yōu)化方法，ADADELTA的優(yōu)點是依照過去梯度的積累來調(diào)整學習率。網(wǎng)絡結(jié)構(gòu)描述如下:

DNN SIA: 2 048個節(jié)點的全連接層，激活函數(shù)RELU；1 024個節(jié)點的全連接層，激活函數(shù)RELU；256個節(jié)點的全連接層，激活函數(shù)為線性激活函數(shù)。

CNN SIA: 96個過濾器的一維卷積層對每9幀進行過濾，激活函數(shù)RELU最大池化層，步長為3；96個過濾器的一維卷積層對每8幀進行過濾，激活函數(shù)RELU最大池化層，步長為3；1 024個節(jié)點的全連接層，激活函數(shù)為RELU；256節(jié)點的全連接層，線性激活函數(shù)，損失函數(shù)是基于歐氏距離的損失函數(shù)或者是基于余弦相似性的損失函數(shù)。

CNN TRI: 和CNN SIA的結(jié)構(gòu)相同，只是網(wǎng)絡被復制成了三份，接受三個輸入，損失函數(shù)余弦最大間隔損失函數(shù)。

我們比較了不同類型的損失函數(shù)和網(wǎng)絡結(jié)構(gòu)，最后使用余弦最大間隔距離損失函數(shù)的三輸入孿生網(wǎng)絡達到了最好的效果，邊界參數(shù)m為0.15。

2.5 評價指標

對于母語者數(shù)據(jù)我們以預測結(jié)果是否和根據(jù)標注文本得到的配對信息相對應來衡量模型的精度。對于二語者數(shù)據(jù)，基于實驗中的四種情況: 接受率，拒絕率，錯誤接受率，錯誤拒絕率。最后該實驗包括三個指標來評價偏誤確認系統(tǒng)的性能，分別是:

False Rejection Rate(FRR): 正確的發(fā)音被診斷為錯誤發(fā)音的數(shù)量占全部正確發(fā)音的比例。

False Acceptance Rate(FAR): 錯誤的發(fā)音被診斷為正確的數(shù)量占全部錯誤發(fā)音的數(shù)量占全部的比例。

Diagnostic Accuracy: 預測結(jié)果和標簽一致的比例，即正確的被診斷為正確的，偏誤發(fā)音被預測為偏誤的比例。

3 結(jié)果

表3描述了在母語測試數(shù)據(jù)上的模型準確率結(jié)果。每個模型的閾值都是0.5，設置成0.5的原因是，針對根據(jù)聲韻母標注而來的配對標簽，每次預測的過程其實都是二分類問題，因為隨機的概率是0.5，所以每個模型給出的預測概率必須大于0.5才算預測正確。

表3 在母語者數(shù)據(jù)集上的測試結(jié)果

分析以上結(jié)果我們發(fā)現(xiàn)，使用余弦最大間隔損失的三輸入的孿生網(wǎng)絡達到最好的效果。高迎明等結(jié)合了一些詞典擴展和特征融合的技巧[19]使用二語者數(shù)據(jù)訓練基于DNN-HMM框架的語音識別系統(tǒng)，來進行發(fā)音偏誤監(jiān)測任務。本文在相同的測試數(shù)據(jù)集上，用表3中所有的方法訓練得到的模型來進行音素發(fā)音偏誤確認的實驗，并與發(fā)音良好度模型和文獻[19]中的DNN-HMM模型進行對比，DNN-HMM的結(jié)果來自于高迎明的實驗結(jié)果[19]。結(jié)果如表4所示。

表4 在二語者數(shù)據(jù)集上的測試結(jié)果

從結(jié)果中我們發(fā)現(xiàn)，發(fā)音良好度方法的效果下降非常明顯。原因是訓練數(shù)據(jù)和測試數(shù)據(jù)的不匹配造成的。訓練數(shù)據(jù)為母語者，而測試數(shù)據(jù)為二語者，則二語者產(chǎn)生的非標準音素發(fā)音被當作未知音素，其識別結(jié)果無法估計，由此造成了較大損失。而DNN-HMM模型效果較好的原因是訓練數(shù)據(jù)和測試數(shù)據(jù)匹配程度較高，且基于強監(jiān)督學習方法依賴音段層級的人工標注。相比之下，孿生網(wǎng)絡的方法就有較好的魯棒性和可實踐性，原因是結(jié)合孿生網(wǎng)絡的區(qū)分原則。如果是在訓練過程中沒有出現(xiàn)的配對就視為是不同的。那么，恰好二語者發(fā)音的非標準音素發(fā)音就被視為了和標準音不同的類型。我們知道相比母語者數(shù)據(jù)，二語者數(shù)據(jù)更難以收集，所以孿生網(wǎng)絡訓練音素向量的方法也有更好地可行性。這里我們還嘗試了調(diào)整孿生網(wǎng)絡最后一層生成的向量的維度，結(jié)果表明最后一層維度是128維的情況下，音素區(qū)分正確率最高(圖3)。

圖4展示了我們的方法應用在音素發(fā)音偏誤確認任務的一個例子，發(fā)音偏誤確認系統(tǒng)給出了該句中每個音素與標準音的相似度分數(shù)，該條數(shù)據(jù)來自于二語者數(shù)據(jù)。該句是一個日本女性發(fā)音人的音頻數(shù)據(jù)，內(nèi)容為“很忙，你呢”。通過人工聽辨發(fā)現(xiàn)，其中“很”和“呢”的發(fā)音有較明顯的聲調(diào)錯誤。

圖3 調(diào)參結(jié)果

圖4 確認樣例

4 結(jié)論

發(fā)音評估是二語教學中比較重要的環(huán)節(jié)。傳統(tǒng)教學方法難以及時和有針對性的給出二語學習者有效的幫助和反饋，故我們希望用計算機輔助發(fā)音教學來彌補傳統(tǒng)教學方法的不足。其中計算機輔助發(fā)音訓練是影響計算機輔助發(fā)音教學系統(tǒng)性能的重要部分。二語者的數(shù)據(jù)和母語標準模板數(shù)據(jù)在聽覺感知上有較明顯差異，結(jié)合音素向量可以作為輸入特征的高層特征表示和孿生網(wǎng)絡能夠區(qū)分輸入特征向量的相似性的特點。本文提出了一種基于聲學音素向量和孿生網(wǎng)絡的方法來訓練音素區(qū)分模型，之后依據(jù)系統(tǒng)給出的二語者和母語者的發(fā)音相似程度來給二語者的發(fā)音提供一個音素層級的評估打分。二語者可以根據(jù)該有指導性意義的打分來提高自己的發(fā)音水平。對比發(fā)音良好度基線系統(tǒng)和基于DNN-HMM框架的偏誤檢測系統(tǒng)，本文方法訓練得到的模型的魯棒性更優(yōu)，而且訓練數(shù)據(jù)及相應標簽也更易獲得，并在音素診斷診斷正確率上達到89.19%的效果。

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看