屈 丹張文林
(信息工程大學(xué)信息系統(tǒng)工程學(xué)院 鄭州 450000)
基于本征音子說話人子空間的說話人自適應(yīng)算法
屈 丹*張文林
(信息工程大學(xué)信息系統(tǒng)工程學(xué)院 鄭州 450000)
本征音子說話人自適應(yīng)算法在自適應(yīng)數(shù)據(jù)量充足時可以取得很好的自適應(yīng)效果,但在自適應(yīng)數(shù)據(jù)量不足時會出現(xiàn)嚴(yán)重的過擬合現(xiàn)象。為此該文提出一種基于本征音子說話人子空間的說話人自適應(yīng)算法來克服這一問題。首先給出基于隱馬爾可夫模型-高斯混合模型(HMM-GMM)的語音識別系統(tǒng)中本征音子說話人自適應(yīng)的基本原理。其次通過引入說話人子空間對不同說話人的本征音子矩陣間的相關(guān)性信息進(jìn)行建模;然后通過估計(jì)說話人相關(guān)坐標(biāo)矢量得到一種新的本征音子說話人子空間自適應(yīng)算法。最后將本征音子說話人子空間自適應(yīng)算法與傳統(tǒng)說話人子空間自適應(yīng)算法進(jìn)行了對比?;谖④浾Z料庫的漢語連續(xù)語音識別實(shí)驗(yàn)表明,與本征音子說話人自適應(yīng)算法相比,該算法在自適應(yīng)數(shù)據(jù)量極少時能大幅提升性能,較好地克服過擬合現(xiàn)象。與本征音自適應(yīng)算法相比,該算法以較小的性能犧牲代價(jià)獲得了更低的空間復(fù)雜度而更具實(shí)用性。
語音信號處理;說話人自適應(yīng);本征音子;本征音子說話人子空間;低秩約束;本征音
連續(xù)語音識別系統(tǒng)中,訓(xùn)練數(shù)據(jù)與測試數(shù)據(jù)不匹配會造成系統(tǒng)性能的急劇下降。聲學(xué)模型自適應(yīng)技術(shù)就是根據(jù)少量的測試數(shù)據(jù)對聲學(xué)模型進(jìn)行調(diào)整,增加其與測試數(shù)據(jù)的匹配程度,從而提高系統(tǒng)的識別性能。造成訓(xùn)練與測試數(shù)據(jù)不匹配的因素包括說話人、傳輸信道或說話噪聲環(huán)境的不同,相應(yīng)的自適應(yīng)技術(shù)分別稱為“說話人自適應(yīng)”[1]、“信道自適應(yīng)”[2]或“環(huán)境自適應(yīng)”[3]。說話人自適應(yīng)技術(shù)的方法也可以應(yīng)用于信道自適應(yīng)或環(huán)境自適應(yīng)。說話人自適應(yīng)通常包括特征層自適應(yīng)[4,5]和聲學(xué)模型自適應(yīng),因此,聲學(xué)模型的說話人自適應(yīng)[1]是當(dāng)前語音識別系統(tǒng)一個必不可少的重要組成部分。
聲學(xué)模型的說話人自適應(yīng)就是利用少量的未知說話人語料(自適應(yīng)語料),在最大似然或最大后驗(yàn)準(zhǔn)則下,將說話人無關(guān)(Speaker-Independent, SI)聲學(xué)模型調(diào)整至說話人相關(guān)(Speaker-Dependent, SD)聲學(xué)模型,使得語音識別系統(tǒng)更具說話人針對性,從而提高系統(tǒng)的識別率。在隱馬爾可夫模型的連續(xù)語音識別系統(tǒng)框架下,主流的說話人自適應(yīng)技術(shù)可分為三大類[1]:基于最大后驗(yàn)概率的方法、基于變換的自適應(yīng)方法和基于說話人子空間的自適應(yīng)方法,分別以最大后驗(yàn)(Maximum A Posteriori, MAP)自適應(yīng)方法、最大似然線性回歸(Maximum Likelihood Linear Regression, MLLR)及本征音(Eigen Voice, EV)方法[6]及其拓展算法為代表。2004年,文獻(xiàn)[7]通過對SD聲學(xué)模型中各高斯混元均值矢量相對于SI聲學(xué)模型的變化量進(jìn)行子空間分析,得到一種新的子空間分析方法。該方法與說話人子空間中的“本征音”相類似,因此稱該子空間的基矢量為“本征音子(Eigen Phone, EP)”,該空間為“音子變化子空間”。但文獻(xiàn)[7]提出的方法是一種“多說話人”聲學(xué)建模技術(shù),只能得到訓(xùn)練集中說話人相關(guān)的聲學(xué)模型,對于測試集中的未知說話人沒有給出其聲學(xué)模型的自適應(yīng)方法。
2011年,文獻(xiàn)[8]提出了一種基于本征音子的說話人自適應(yīng)方法,克服了文獻(xiàn)[7]本征音子模型的不足,能夠?qū)y試集未知說話人進(jìn)行自適應(yīng)。由于該方法對于每個未知說話人需要估計(jì)一個擴(kuò)展的本征音子矩陣,其參數(shù)較多,在自適應(yīng)數(shù)據(jù)量較少時,極易出現(xiàn)過擬合現(xiàn)象;即使對參數(shù)估計(jì)過程引入各種正則化方法,其自適應(yīng)效果仍達(dá)不到基于說話人子空間的方法[9,10]。對于傳統(tǒng)MLLR說話人自適應(yīng)方法,為了提高其在少量自適應(yīng)數(shù)據(jù)條件下的性能,有學(xué)者提出在訓(xùn)練階段尋找MLLR線性變換矩陣的一組基,在自適應(yīng)階段利用這組基估計(jì)新的變換矩陣的線性組合,從而減少待估參數(shù)數(shù)量。這種方法稱為“本征空間MLLR”自適應(yīng)方法[11?14]。該方法本質(zhì)上是將說話人子空間的思想用于說話人相關(guān)變換矩陣的估計(jì),對變換矩陣建立了一個說話人子空間。
為此,本文將上述思想引入本征音子說話人自適應(yīng)方法中,提出了基于本征音子說話人子空間的說話人自適應(yīng)算法。新方法充分利用了擴(kuò)展的本征音子矩陣也是說話人相關(guān)的這一特點(diǎn),對本征音子的說話人子空間進(jìn)行建模。與本征音子自適應(yīng)方法相比,該方法在少量自適應(yīng)數(shù)據(jù)量下具有良好的性能,很大程度克服了過擬合現(xiàn)象。與說話人子空間自適應(yīng)方法相比,新方法的子空間基矢量的維數(shù)大大降低,具有更低的空間復(fù)雜度。本文章節(jié)安排如下:第2節(jié)給出了本征音子說話人自適應(yīng)方法;第3節(jié)討論基于本征音子說話人子空間的自適應(yīng)方法的數(shù)學(xué)優(yōu)化算法及與說話人子空間自適應(yīng)方法的比較;第4節(jié)給出了實(shí)驗(yàn)結(jié)果及分析;最后給出了本文的結(jié)論。
2.1 音子變化子空間及本征音子
本文僅討論基于隱馬爾可夫模型的連續(xù)語音識別系統(tǒng)的說話人自適應(yīng)。假設(shè)在SI聲學(xué)模型中,共有M個高斯混元,特征矢量維數(shù)為D,訓(xùn)練集合中共有S個說話人。令μm和分別為SI模型和第s個說話人SD模型中第m個高斯混元的均值矢量。定義音子變化矢量為=?μm。在本征音子說話人自適應(yīng)中,對于第s個說話人,假設(shè){}位于一個說話人相關(guān)的N(N<<M)維子空間Π(s)中,稱Π(s)為說話人相關(guān)的“音子變化子空間”。設(shè)Π(s)的原點(diǎn)為,基矢量為{},稱}為第s個說話人的本征音子(Eigen Phone, EP)。令第m個高斯混元對應(yīng)的坐標(biāo)矢量為ym=[ym1ym2… ymN]T,則在音子變化子空間中可以分解為其中,V(s)=[…]和s)=[V(s)]分別為第s個說話人的本征音子矩陣和擴(kuò)展本征音子矩陣,其維數(shù)分別為D×N和D×(N+1);ym和=[1]T為高斯混元坐標(biāo)矢量和擴(kuò)展高斯混元坐標(biāo)矢量,其維數(shù)分別為N和N+1。在訓(xùn)練階段,通過對訓(xùn)練說話人相關(guān)聲學(xué)模型的音子變化超矢量進(jìn)行主分量分析可以得到各高斯混元的坐標(biāo)矢量{ym}[8],即根據(jù)式(1),um可以分解為
其中,
在自適應(yīng)階段,假設(shè)未知說話人自適應(yīng)數(shù)據(jù)的特征矢量序列為O={o(t)},根據(jù)最大似然準(zhǔn)則,估計(jì)說話人相關(guān)本征音子矩陣V(s)。采用期望最大化(Expectation Maximization, EM)算法,優(yōu)化的目標(biāo)函數(shù)為
2.2 本征音子的最大似然估計(jì)
其中,γm(t )表示第t幀特征矢量屬于SI模型中第m個高斯混元的后驗(yàn)概率,給定自適應(yīng)數(shù)據(jù)的標(biāo)注,則可以通過Baum-Welch前后向算法[15]計(jì)算得到;Σm表示第m個高斯混元的協(xié)方差矩陣。將式(1)代入式(3),并令其對(s)的導(dǎo)數(shù)為0,可以得到(s)的求解公式[8]。然而文獻(xiàn)[8]給出的求解公式中涉及(N+1)D×(N+1)D維矩陣的逆,對于一個典型的連續(xù)語音識別系統(tǒng),當(dāng)音子變化子空間N較大時(≥100)時,存儲及求逆計(jì)算都非常消耗內(nèi)存和計(jì)算時間。但傳統(tǒng)HMM-GMM的聲學(xué)模型中,Σm通常是一個對角陣,令其第d個對角線元素為σm,d,則目標(biāo)函數(shù)式(3)可以簡化為
其中,od(t )及μm,d分別為特征矢量o(t)及均值矢量μm的第d維元素,ν~(ds)T表示本征音子矩陣V~(s)的第d行。對式(4)進(jìn)行整理可得
3.1 本征音子說話人子空間
其中,unvecD,N+1(·)表示矩陣化函數(shù),它將一個D×(N+1)維列矢量的元素依次按列排列成一個D×(N+1)維的矩陣。
3.2 自適應(yīng)算法具體描述
進(jìn)一步,定義矩陣Pm=[p1,mp2,m… pK,m],則式(9)等價(jià)為
假設(shè)自適應(yīng)數(shù)據(jù)的特征矢量序列為O= [o1,o2,…,oT],根據(jù)最大似然準(zhǔn)則,采用期望最大(Expectation Maximization, EM)算法,由式(10),說話人s'坐標(biāo)矢量x(s')的最大似然估計(jì)目標(biāo)函數(shù)可以寫為
其中,矩陣A和矢量b的定義分別為
其中,γm與sm分別為屬于第m個高斯混元的特征矢量的零階與一階統(tǒng)計(jì)量。
3.3 與說話人子空間自適應(yīng)方法的比較
在基于說話人子空間的自適應(yīng)方法中,其基本假設(shè)是說話人超矢量μ(s)位于一個低維線性子空間ΓK中(K為子空間維數(shù),K<S)。設(shè)ΓK的一組基矢量為{e1,e2,…,eK},其中第k個基矢量ek中第m個高斯混元對應(yīng)的均值矢量為ek,m。設(shè)μ(s)在這組基下的坐標(biāo)矢量為x,稱x為說話人因子;令EK,m=[e1,me2,m… eK,m],則μ可以分解為
其中,SI模型的均值矢量μm可視為第m個高斯混元所在說話人子空間的原點(diǎn)。根據(jù)訓(xùn)練數(shù)據(jù)得到說話人子空間的基矢量,則在自適應(yīng)階段,只需要根據(jù)自適應(yīng)數(shù)據(jù)估計(jì)未知說話人s'的說話人因子,然后根據(jù)式(15)即可得到自適應(yīng)后各高斯混元的均值矢量。
不難發(fā)現(xiàn),本征音子說話人子空間的自適應(yīng)方法與說話人子空間的自適應(yīng)方法非常類似。對比式(10)和式(15)可見,Pm相當(dāng)于第m個高斯混元對應(yīng)的本征音矩陣EK,m。在說話人子空間自適應(yīng)方法中,說話人子空間的基由一組說話人超矢量構(gòu)成,其中每一個超矢量的維數(shù)為M×D;而基于本征音子說話人子空間的自適應(yīng)方法中,說話人子空間的基是由若干個擴(kuò)展本征音子矩陣構(gòu)成,其中每一個矩陣的維數(shù)為(N+1)×D。由于N?M,因此本文方法所需要的存儲空間要小得多。對于一個實(shí)際的大詞匯量連續(xù)語音識別系統(tǒng),M通常高達(dá)十萬級,而N往往只需數(shù)百左右,因此存儲空間的節(jié)省是非??捎^的。
為了驗(yàn)證本文算法的性能,采用微軟中文語料庫[16]針對HMM-GMM框架下的連續(xù)語音識別系統(tǒng)說話人自適應(yīng)實(shí)驗(yàn)。訓(xùn)練集中包括100個男性說話人,每人大約200句話,每句話時長大約5 s,共有19688句話,總時長為33 h。測試集中共有25個說話人,每人20句話,每句話時長也是大約5 s。
聲學(xué)特征矢量采用13維的MFCC參數(shù)及其一階、二階差分,總的特征維數(shù)為39維。幀長和幀移分別為25 ms和10 ms。實(shí)驗(yàn)中,借助語音開源工具箱HTK(Hidden Markov Toolkit)(版本3.4.1)[15]訓(xùn)練得到SI基線系統(tǒng)。首先訓(xùn)練單音子聲學(xué)模型,其中每個單音子對應(yīng)一個漢語有調(diào)音節(jié)。根據(jù)發(fā)音字典,對單音子進(jìn)行上下文擴(kuò)展,得到295180個跨詞的三音子有調(diào)音節(jié),其中95534個三音子在訓(xùn)練語料中得到覆蓋。每一個三音子用一個包含3個發(fā)射狀態(tài)的、自左向右無跨越的隱馬爾可夫模型進(jìn)行建模。采用基于決策樹的三音子狀態(tài)聚類后,系統(tǒng)中共有2392個不同的上下文相關(guān)狀態(tài)。最終訓(xùn)練得到的說話人無關(guān)(SI)聲學(xué)模型中每個狀態(tài)含有8個高斯混元,因此聲學(xué)模型中的總的高斯混元數(shù)為19136個。
在測試階段,使用HTK自帶的HVite工具作為解碼器,使用音節(jié)全連接的解碼網(wǎng)絡(luò),不采用任何語法模型。采用這種解碼網(wǎng)絡(luò)的語音識別系統(tǒng)對聲學(xué)模型的要求最高,可以充分展示聲學(xué)模型的識別性能。在原始測試集上,SI基線系統(tǒng)的平均有調(diào)音節(jié)正確識別率為53.04%(文獻(xiàn)[16]中結(jié)果為51.21%)。
4.1 擴(kuò)展本征音子超矢量的說話人子空間存在性實(shí)驗(yàn)
本節(jié)通過對訓(xùn)練說話人的擴(kuò)展本征音子超矢量進(jìn)行主分量分析來驗(yàn)證其說話人子空間的存在性。根據(jù)訓(xùn)練說話人的初始SD聲學(xué)模型,首先得到各高斯混元對應(yīng)的音子變化超矢量um(式(2)),每個音子變化超矢量的維數(shù)為S×D=100×39=3900,對{um}進(jìn)行主分量分析,保留前100個最大的特征值對應(yīng)的特征矢量作為基矢量矩陣V(式(2))的列;根據(jù)基矢量矩陣V及音子變化超矢量的均值矢量u0(式(2)),得到100個訓(xùn)練說話人的擴(kuò)展本征音子超矢量v~(s)(式(7)),每個擴(kuò)展本征音子超矢量的維數(shù)為D×(N+1)=39×(N+1);最后,對{}再次進(jìn)行主分量分析,將其協(xié)方差矩陣的特征值從大到小排序,并計(jì)算各特征值的累積貢獻(xiàn)率。將音子變化子空間的維數(shù)N從25調(diào)整到250,各種參數(shù)設(shè)置下的特征值累積貢獻(xiàn)率變化曲線如圖1所示。率;而當(dāng)N=250時,前31個特征值才能達(dá)到80%的累積貢獻(xiàn)率。
圖1 擴(kuò)展本征音子超矢量協(xié)方差矩陣的特征值累積貢獻(xiàn)率變化曲線
4.2 基于本征音子說話人子空間的自適應(yīng)實(shí)驗(yàn)
為了比較本文算法的性能,實(shí)驗(yàn)中,本文針對以下3種說話人自適應(yīng)算法進(jìn)行對比實(shí)驗(yàn):
(1)本征音(Eigen Voice, EV):基于主分量分析的本征音說話人自適應(yīng)算法,本征音的個數(shù)K從20調(diào)整到100。
(2)最大似然本征音子(EigenPhone based on Maximum Likelihood, EP-ML):基于最大似然估計(jì)的本征音子說話人自適應(yīng)算法,在訓(xùn)練階段采用2.2節(jié)給出的主分量分析方法得到各高斯混元的坐標(biāo)矢量{ym},然后在測試階段采用3.3節(jié)最大似然估
由圖1可見,在各種音子變化子空間維數(shù)(N)下,對訓(xùn)練說話人擴(kuò)的展本征音子超矢量進(jìn)行主分量分析(Principal Component Analysis, PCA)后,前20至50個特征值即具有80%~90%的累積貢獻(xiàn)率,這表明擴(kuò)展本征音子超矢量空間中的確存在一個低維的說話人子空間。此外從圖1還可看出,音子變化子空間維數(shù)(N)越小,說話人子空間越明顯:當(dāng)N=25時,前22個特征值具有80%的累積貢獻(xiàn)計(jì)準(zhǔn)則計(jì)算每個說話人的擴(kuò)展本征音子矩陣;
(3)本征音子說話人子空間(EigenPhone based on Speaker Subspace, EP-SS):本文提出的基于本征音子說話人子空間自適應(yīng)算法,其中說話人子空間維數(shù)K從20調(diào)整到100。
其中,(1)為經(jīng)典的說話人子空間自適應(yīng)算法,(2)為原始的本征音子自適應(yīng)算法,(3)為本文提出的基于本征音子說話人子空間的自適應(yīng)算法。在所有的本征音子自適應(yīng)算法實(shí)驗(yàn)中,本征音子的個數(shù)N均取為100。
在訓(xùn)練階段,對每一個訓(xùn)練說話人,利用其訓(xùn)練語料,采用MLLR+MAP自適應(yīng)方法得到其對應(yīng)的SD聲學(xué)模型及其對應(yīng)的說話人超矢量。利用這100個訓(xùn)練說話人超矢量,采用經(jīng)典的主分量分析方法得到100個本征音超矢量。其中,在MLLR+ MAP自適應(yīng)方法中,將回歸樹中的回歸類數(shù)分別設(shè)置為16, 32和64, MLLR變換矩陣分別設(shè)置為對角矩陣、分塊對角矩陣和滿陣,將MAP自適應(yīng)的先驗(yàn)權(quán)重從10調(diào)整到40。最終發(fā)現(xiàn)在所有自適應(yīng)數(shù)據(jù)量條件下,當(dāng)回歸類數(shù)為32、線性變換矩陣為分塊對角矩陣(每個子矩陣均為13×13維,分別對應(yīng)原始的美爾頻率倒譜系數(shù)(Mel Frequency Cepstral Coefficients, MFCC)及其一階和二階差分參數(shù))、先驗(yàn)權(quán)重為10時,得到最佳的平均正確識別率。
在測試階段,為了測試各方法在不同數(shù)據(jù)量下的自適應(yīng)性能,對于每一個說話人,從其20句話中隨機(jī)選取1句話、2句話、4句話作為自適應(yīng)語料,從剩下的語料中隨機(jī)選取10句話作為測試語料。為了保證實(shí)驗(yàn)結(jié)果的可靠性,每種自適應(yīng)語料條件下,使用交叉驗(yàn)證的方法對每一個說話人重復(fù)8次實(shí)驗(yàn),統(tǒng)計(jì)所有8詞實(shí)驗(yàn)測試語料上的平均結(jié)果作為系統(tǒng)性能指標(biāo),表1給出了各種說話人自適應(yīng)算法的實(shí)驗(yàn)結(jié)果(為簡潔起見,對于本征音自適應(yīng)算法,表中僅給出了其最佳結(jié)果)。其中黑體字所示為每種自適應(yīng)數(shù)據(jù)量條件下的最好實(shí)驗(yàn)結(jié)果,斜體字所示為相比基線SI系統(tǒng)平均正確識別率(53.04%)下降的實(shí)驗(yàn)結(jié)果。
由表1中結(jié)果可見,隨著自適應(yīng)語料的增加,為了獲得最佳的自適應(yīng)性能,本征音自適應(yīng)算法中說話人子空間的維數(shù)(K)也要相應(yīng)地增大。
本文實(shí)驗(yàn)中,由于自適應(yīng)語料相對較少,本征音子的個數(shù)(N=100)相對較大,因此原始的本征音子自適應(yīng)方法(EP-ML)出現(xiàn)嚴(yán)重的過擬合現(xiàn)象,在1句話自適應(yīng)語料條件下其平均正識率(19.45%)甚至遠(yuǎn)低于自適應(yīng)前SI聲學(xué)模型的實(shí)驗(yàn)結(jié)果(53.04%)。
對本征音子算法引入說話人子空間后,EP-SS算法的自適應(yīng)性能得到明顯提升。在1句話與2句話,與EP-ML算法相比,其最佳平均正識率相對提高了187%與37%。同時,隨著自適應(yīng)數(shù)據(jù)量的增加,為達(dá)到最佳平均正確識別率,說話人子空間的維數(shù)也要相應(yīng)地增大,這一點(diǎn)與本征音自適應(yīng)算法的變化趨勢是一致的。實(shí)際應(yīng)用中應(yīng)根據(jù)實(shí)驗(yàn)確定最佳的說話人子空間維數(shù),或利用數(shù)據(jù)擬合的方法得到說話人子空間維數(shù)隨著自適應(yīng)語料數(shù)據(jù)量變化的經(jīng)驗(yàn)公式。
表1 各種自適應(yīng)算法的正確識別率(%)
將本征音子說話人子空間自適應(yīng)算法(EP-SS)與本征音自適應(yīng)算法(EV)進(jìn)行比較,可以看出,在所有自適應(yīng)數(shù)據(jù)量下前者的平均正確識別率略低于后者,但已十分接近。這是由于前者的說話人子空間是針對本征音子超矢量進(jìn)行構(gòu)建的,它只能得到說話人相關(guān)高斯混元均值矢量的一個近似表達(dá);而后者的說話人子空間是針對說話人超矢量構(gòu)建的,它是說話人相關(guān)高斯混元均值的原始表達(dá);因此,在訓(xùn)練本征音子超矢量時,都會對原始高斯混元均值矢量的表示造成一定誤差。
為了更好地比較兩種算法的性能時,采用NIST公布的開源工具包SCTK1))ftp://jaguar.ncsl.nist.gov/pub/sctk-2.4.0-20091110-0958.tar.bz2進(jìn)行顯著性水平測試(Significance test)以檢驗(yàn)識別結(jié)果之間的差異在統(tǒng)計(jì)上是否顯著。3種顯著性測試(MP測試、SI測試及WI測試)結(jié)果均表明在5%的顯著性水平之下,在1句話與4句話自適應(yīng)語料時,兩種方法的的最佳實(shí)驗(yàn)結(jié)果之間差異是不顯著的;而在2句話自適應(yīng)語料時,本征音自適應(yīng)算法(EV)的MP測試相對更優(yōu)一些,而其它兩種測試顯示其差異也是不顯著的。這就說明兩者的性能從統(tǒng)計(jì)上講幾乎是相同的。
下面討論本文提出的EP-SS算法的時間復(fù)雜度和空間復(fù)雜度。首先分析一下時間復(fù)雜度,根據(jù)式(10)和式(15),在3.3節(jié)討論了本征音子說話人子空間自適應(yīng)方法和本征音子自適應(yīng)算法的相似性。并且由式(12)可以看出,兩種方法的時間復(fù)雜度只與說話人音子x(s')的維數(shù)K有關(guān),即對于相同的說話人音子維數(shù),兩種方法的時間復(fù)雜度完全相同。即使兩種方法最佳的說話人音子x(s')的維數(shù)K不同,從實(shí)驗(yàn)可知,二者相差不大,因此時間復(fù)雜度也相差不大。例如EP-SS方法當(dāng)K=40時與EV算法當(dāng)K =30進(jìn)行比較,從式(12)可知,由于只是一個K維的矩陣求逆和向量相乘,二者的時間復(fù)雜度差別可忽略。
然而就空間復(fù)雜度而言,正如3.3節(jié)中的分析所指出,與原始的說話人子空間自適應(yīng)方法相比,在基于本征音子說話人子空間方法中,說話人子空間的基矢量維數(shù)大大壓縮(從M×D維壓縮為N×D維),使得在實(shí)際應(yīng)用中針對大詞匯量連續(xù)語音識別的實(shí)現(xiàn)變得更為簡單與現(xiàn)實(shí)。例如,在原始說話人子空間自適應(yīng)方法中,當(dāng)訓(xùn)練語料達(dá)到百小時數(shù)量級時,高斯混元數(shù)量(M)會達(dá)到十萬級,存儲200個說話人超矢量將耗費(fèi)約幾G內(nèi)存(高斯混元數(shù)×特征維數(shù)×浮點(diǎn)數(shù)精度字節(jié)數(shù)×說話人個數(shù)),耗費(fèi)了大量的內(nèi)存資源;而在基于本征音子的說話人子空間方法中,由于N可以取為100左右即可,存儲200個說話人超矢量只需幾M內(nèi)存,這種對內(nèi)存資源的節(jié)約是非??捎^的。因此,基于本征音子說話人子空間的自適應(yīng)方法在犧牲少許性能的代價(jià)下,換來了說話人子空間自適應(yīng)方法實(shí)用性的大幅提高。
本文提出了一種基于本征音子說話人子空間的說話人自適應(yīng)方法。本文在分析了本征音子說話人自適應(yīng)算法基本原理的基礎(chǔ)上,利用了本征音子矩陣的說話人相關(guān)特性定義了本征音子的說話人子空間,并且通過對訓(xùn)練說話人的擴(kuò)展本征音子超矢量進(jìn)行主分量分析來驗(yàn)證其說話人子空間的存在性。然后詳細(xì)推導(dǎo)了本征音子說話人子空間自適應(yīng)的具體算法,并且將該方法與已有的相關(guān)自適應(yīng)算法進(jìn)行比較。由于對本征音子的說話人相關(guān)性建模,因此與本征音子自適應(yīng)算法相比,當(dāng)自適應(yīng)數(shù)據(jù)量較少(小于4句)時,本征音子說話人子空間的自適應(yīng)算法能夠大幅提高系統(tǒng)的識別性能,較好解決了本征音子自適應(yīng)算法由于自適應(yīng)數(shù)據(jù)不足帶來的過擬合問題。與本征音方法比較可以發(fā)現(xiàn),二者算法非常相似,但前者的說話人子空間是針對本征音子超矢量構(gòu)建的,而后者說話人子空間是針對說話人超矢量構(gòu)建的,前者在犧牲少許性能的代價(jià)下,節(jié)省了大量的存儲空間,具有較小的空間復(fù)雜度而更具實(shí)用性。
[1] Zhang Wen-lin, Zhang Wei-qiang, Li Bi-cheng, et al.. Bayesian speaker adaptation based on a new hierarchical probabilistic model[J]. IEEE Transactions on Audio, Speech and Language Processing, 2012, 20(7): 2002-2015.
[2] Solomonoff A, Campbell W M, and Boardman I. Advances in channel compensation for SVM speaker recognition[C]. Proceedings of International Conference on Acoustics, Speech, and Signal Processing (ICASSP), Philadelphia, United States, 2005: 629-632.
[3] Kumar D S P, Prasad N V, Joshi V, et al.. Modified spliceand its extension to non-stereo data for noise robust speech recognition[C]. Proceedings of IEEE Automatic Speech Recognition and Understanding Workshop(ASRU), Olomouc, Czech Republic, 2013: 174-179.
[4] Ghalehjegh S H and Rose R C. Two-stage speaker adaptation in subspace Gaussian mixture models[C]. Proceedings of International Conference on Audio, Speech and Signal Processing(ICASSP), Florence, Italy, 2014: 6374-6378.
[5] Wang Y Q and Gale M J F. Tandem system adaptation using multiple linear feature transforms[C]. Proceedings of International Conference on Audio, Speech and Signal Processing(ICASSP), Vancouver, Canada, 2013: 7932-7936. [6] Kenny P, Boulianne G, and Dumouchel P. Eigenvoice modeling with sparse training data[J]. IEEE Transactions on Speech and Audio Processing, 2005, 13(3): 345-354.
[7] Kenny P, Boulianne G, Dumouchel P, et al.. Speaker adaptation using an eigenphone basis[J]. IEEE Transaction on Speech and Audio Processing, 2004, 12(6): 579-589.
[8] Zhang Wen-lin, Zhang Wei-qiang, and Li Bi-cheng. Speaker adaptation based on speaker-dependent eigenphone estimation[C]. Proceedings of IEEE Automatic Speech Recognition and Understanding Workshop(ASRU), Hawaii, United States, 2011: 48-52.
[9] 張文林, 張連海, 陳琦, 等. 語音識別中基于低秩約束的本征音子說話人自適應(yīng)方法[J]. 電子與信息學(xué)報(bào), 2014, 36(4): 981-987.
Zhang Wen-lin, Zhang Lian-hai, Chen Qi, et al.. Low-rank constraint eigenphone speaker adaptation method for speech recognition[J]. Journal of Electronics & Information Technology, 2014, 36(4): 981-987.
[10] Zhang Wen-lin, Qu Dan, and Zhang Wei-qiang. Speaker adaptation based on sparse and low-rank eigenphone matrix estimation[C]. Proceedings of Annual Conference on International Speech Communication Association (INTERSPEECH), Singapore, 2014: 2972-2976.
[11] Wang N, Lee S, Seide F, et al.. Rapid speaker adaptation using a priori knowledge by eigenspace analysis of MLLR parameters[C]. Proceedings of International Conference on Audio, Speech and Signal Processing(ICASSP), Salt Lake City, United States, 2001: 345-348.
[12] Povey D and Yao K. A basis representation of constrained MLLR transforms for Robust adaptation[J]. Computer Speech and Language, 2012, 26(1): 35-51.
[13] Miao Y, Metze F, and Waibel A. Learning discriminative basis coefficients for eigenspace MLLR unsupervised adaptation[C]. Proceedings of International Conference on Audio, Speech and Signal Processing(ICASSP), Vancouver, Canada, 2013: 7927-7931.
[14] Saz O and Hain T. Using contextual information in joint factor eigenspace MLLR for speech recognition in diverse scenarios[C]. Proceedings of International Conference on Audio, Speech and Signal Processing(ICASSP), Florence, Italy, 2014: 6364-6368.
[15] Young S, Evermann G, Gales M, et al.. The HTK book (for HTK version 3.4)[OL]. http://htk.eng.cam.ac.uk/docs/docs. shtml. 2009.
[16] Chang E, Shi Y, Zhou J, et al.. Speech lab in a box: a Mandarin speech toolbox to jumpstart speech related research[C]. Proceedings of 7th European Conference on Speech Communication and Technology(Eurospeech), Aalborg, Denmark, 2001: 2799-2802.
屈 丹: 女,1974年生,博士,副教授,研究方向?yàn)檎Z音處理與識別、機(jī)器學(xué)習(xí)、自然語言處理.
張文林: 男,1982年生,博士,講師,研究方向?yàn)檎Z音處理與識別、機(jī)器學(xué)習(xí)、自然語言處理.
Speaker Adaptation Method Based on Eigenphone Speaker Subspace for Speech Recognition
Qu Dan Zhang Wen-lin
(Institute of Information System Engineering, PLA Information Engineering University, Zhengzhou 450000, China)
The eigenphone speaker adaptation method performs well when the amount of adaptation data is sufficient. However, it suffers from severe over-fitting when insufficient amount of adaptation data is provided. A speaker adaptation method based on eigenphone speaker subspace is proposed to overcome this problem. Firstly, a brief overview of the eigenphone speaker adaptation method is presented in case of Hidden Markov Model-Gaussian Mixture Model (HMM-GMM) based speech recognition system. Secondly, speaker subspace is introduced to model the inter-speaker correlation information among different speakers' eigenphones. Thirdly, a new speaker adaptation method based on eigenphone speaker subspace is derived from estimation of a speaker dependent coordinate vector for each speaker. Finally, a comparison between the new method and traditional speaker subspace based method is discussed in detail. Experimental results on a Mandarin Chinese continuous speech recognition task show that compared with original eigenphone speaker adaptation method, the performance of the eigenphone speaker subspace method can be improved significantly when insufficient amount of adaptation data is provided. Compared with eigenvoice method, eigenphone speaker subspace method can save a great amount of storage space only at the expense of minor performance degradation.
Speech signal processing; Speaker adaptation; Eigenphone; Eigenphones' speaker subspace; Low-rank constraint; Eigenvoice
TN912.34
: A
:1009-5896(2015)06-1350-07
10.11999/JEIT141264
2014-09-30收到,2014-12-29改回
國家自然科學(xué)基金(61175017, 61302107和61403415)資助課題
*通信作者:屈丹 qudanqudan@sina.com