屈丹,張文林
(信息工程大學(xué) 信息系統(tǒng)工程學(xué)院,河南 鄭州 450000)
連續(xù)語(yǔ)音識(shí)別系統(tǒng)中訓(xùn)練數(shù)據(jù)與測(cè)試數(shù)據(jù)的不匹配會(huì)造成系統(tǒng)性能的急劇下降。聲學(xué)模型自適應(yīng)技術(shù)就是根據(jù)少量的測(cè)試數(shù)據(jù)對(duì)聲學(xué)模型進(jìn)行調(diào)整,增加其與測(cè)試數(shù)據(jù)的匹配程度,從而提高系統(tǒng)的識(shí)別性能。造成訓(xùn)練與測(cè)試數(shù)據(jù)不匹配的因素包括說(shuō)話人、傳輸信道或說(shuō)話噪聲環(huán)境等,相應(yīng)的自適應(yīng)技術(shù)分別稱為“說(shuō)話人自適應(yīng)[1]”、“信道自適應(yīng)[2]”或“環(huán)境自適應(yīng)[3]”。說(shuō)話人自適應(yīng)技術(shù)的方法也可以應(yīng)用于信道自適應(yīng)或環(huán)境自適應(yīng)。說(shuō)話人自適應(yīng)通常包括特征層自適應(yīng)[4,5]和聲學(xué)模型自適應(yīng),因此,聲學(xué)模型的說(shuō)話人自適應(yīng)[1]是當(dāng)前語(yǔ)音識(shí)別系統(tǒng)一個(gè)必不可少的重要組成部分。
聲學(xué)模型的說(shuō)話人自適應(yīng)就是利用少量的未知說(shuō)話人語(yǔ)料(自適應(yīng)語(yǔ)料),在最大似然或最大后驗(yàn)準(zhǔn)則下,將說(shuō)話人無(wú)關(guān)(SI, speaker independent)聲學(xué)模型調(diào)整至說(shuō)話人相關(guān)(SD, speaker- dependent)聲學(xué)模型,使語(yǔ)音識(shí)別系統(tǒng)更具說(shuō)話人針對(duì)性,從而提高系統(tǒng)的識(shí)別率。在隱馬爾可夫模型的連續(xù)語(yǔ)音識(shí)別系統(tǒng)框架下,主流的說(shuō)話人自適應(yīng)技術(shù)可分為3大類[1]:基于最大后驗(yàn)概率、基于變換和基于說(shuō)話人子空間的自適應(yīng)方法,分別以最大后驗(yàn)(MAP, maximum a posteriori)自適應(yīng)、最大似然線性回歸(MLLR, maximum likelihood linear regression)及本征音(EV, eigenvoice)方法及其相應(yīng)的拓展算法為代表。2004年,Kenny等[6]通過(guò)對(duì)SD聲學(xué)模型中各高斯混元均值矢量相對(duì)于 SI聲學(xué)模型的變化量進(jìn)行子空間分析,得到一種新的子空間分析方法。該方法與說(shuō)話人子空間中的“本征音”類似,因此稱該子空間的基矢量為“本征音子(EP, eigenphone)”,該空間為“音子變化子空間”,但該方法采用“多說(shuō)話人”聲學(xué)建模技術(shù),只能得到訓(xùn)練集中說(shuō)話人相關(guān)的聲學(xué)模型,對(duì)于測(cè)試集中的未知說(shuō)話人沒(méi)有給出其聲學(xué)模型的自適應(yīng)方法。2011年,文獻(xiàn)[7]提出了一種基于本征音子的說(shuō)話人自適應(yīng)方法,克服了 Kenny等方法的不足,能夠?qū)y(cè)試集未知說(shuō)話人進(jìn)行自適應(yīng)。但該方法在自適應(yīng)階段需要估計(jì)一個(gè)高維的擴(kuò)展本征音子矩陣,故其待估參數(shù)數(shù)量多于傳統(tǒng)說(shuō)話人自適應(yīng)方法,因此在自適應(yīng)數(shù)據(jù)量充足時(shí),可以得到更好的自適應(yīng)性能。然而,當(dāng)自適應(yīng)數(shù)據(jù)量不足時(shí),即使采用說(shuō)話人自適應(yīng)訓(xùn)練(SAT, speaker adaptation training)等技術(shù),仍會(huì)出現(xiàn)嚴(yán)重的過(guò)擬合現(xiàn)象。
正則化方法是目前很多領(lǐng)域的一種非常有效的提高模型參數(shù)穩(wěn)健性的方法,在連續(xù)語(yǔ)音識(shí)別系統(tǒng)說(shuō)話人自適應(yīng)中也逐步應(yīng)用。例如,文獻(xiàn)[8]將l2正則化方法應(yīng)用于 MLLR自適應(yīng)方法的變換矩陣估計(jì),得到一種正則化的 MLLR說(shuō)話人自適應(yīng)方法,并在單句話的無(wú)監(jiān)督說(shuō)話人自適應(yīng)中取得了良好的效果;文獻(xiàn)[9,10]提出稀疏最大后驗(yàn)(SMAP,sparse maximum a posteriori)自適應(yīng)方法,該方法可以在減少模型存儲(chǔ)量的同時(shí)提高M(jìn)AP自適應(yīng)的效果,隨后文獻(xiàn)[11]又采用λ1正則化進(jìn)行改進(jìn)。文獻(xiàn)[12]將λ1正則化、l2正則化和彈性網(wǎng)正則化方法應(yīng)用于本征音說(shuō)話人自適應(yīng),識(shí)別率得到進(jìn)一步提升。
為此,本文提出了基于稀疏組LASSO約束的本征音子說(shuō)話人自適應(yīng)方法。新方法本質(zhì)上是以本征音子作為字典項(xiàng);在模型域?qū)で笳f(shuō)話人相關(guān)模型參數(shù)的穩(wěn)健性稀疏表達(dá);對(duì)自適應(yīng)問(wèn)題的目標(biāo)函數(shù)引入稀疏組 LASSO正則項(xiàng), 在自適應(yīng)階段通過(guò)優(yōu)化過(guò)程自動(dòng)選擇說(shuō)話人相關(guān)音子子空間基矢量及其組合系數(shù)。文中給出了一般正則化本征音自適應(yīng)原理框架,并討論了組稀疏正則化方法和稀疏組 LASSO正則化,分別給出了其數(shù)學(xué)優(yōu)化算法。
本征音子說(shuō)話人自適應(yīng)方法在自適應(yīng)階段需要估計(jì)一個(gè)D×(N+ 1 )維的擴(kuò)展本征音子矩陣,其待估參數(shù)數(shù)量多于傳統(tǒng)說(shuō)話人自適應(yīng)方法,因此在自適應(yīng)數(shù)據(jù)量充足時(shí),可以得到更好的自適應(yīng)性能。然而,當(dāng)自適應(yīng)數(shù)據(jù)量不足時(shí),即使采用說(shuō)話人自適應(yīng)訓(xùn)練等技術(shù),仍會(huì)出現(xiàn)嚴(yán)重的過(guò)擬合現(xiàn)象。文獻(xiàn)[14]分別通過(guò)引入先驗(yàn)分布和對(duì)本征音子矩陣引入低秩約束來(lái)解決這一問(wèn)題,但提升的性能有限,因此可以考慮更好的約束方法來(lái)解決這一問(wèn)題。
擴(kuò)展本征音子矩陣的最大似然估計(jì)問(wèn)題,引入正則化方法后,說(shuō)話人自適應(yīng)目標(biāo)函數(shù)變?yōu)?/p>
組稀疏正則化方法使估計(jì)結(jié)果中的非零組盡量少,然而卻無(wú)法保證組內(nèi)參數(shù)的稀疏性。對(duì)于擴(kuò)展的本征音子矩陣估計(jì)問(wèn)題,組稀疏正則化可以使估計(jì)得到的矩陣V% 的某些列同時(shí)為0,然而不為0的那些列卻往往不是稀疏的。事實(shí)上λ1正則化可以控制矩陣V% 列內(nèi)參數(shù)的稀疏性,因此可以將λ1正則化與組稀疏正則化相結(jié)合,得到更為穩(wěn)健的估計(jì),稱為“稀疏組LASSO(SGL, sparse-group LASSO)”正則化方法[17],其正則化函數(shù)
這意味著首先通過(guò)組稀疏正則化方法選擇不為零的那些參數(shù)組,然后通過(guò)λ1正則化方法選擇組內(nèi)的非零參數(shù)。對(duì)于擴(kuò)展的本征音子矩陣估計(jì)問(wèn)題,相當(dāng)于對(duì)待估矩陣同時(shí)施加列間和列內(nèi)稀疏性約束,從而得到結(jié)構(gòu)化的稀疏解。
式(8)與彈性網(wǎng)正則化函數(shù)很相似,然而這里的l2范數(shù)沒(méi)有平方運(yùn)算,可以證明在每一個(gè)不為0的組(本征音子vn)內(nèi),稀疏組LASSO正則化方法相當(dāng)于一種特殊的彈性網(wǎng)正則化方法[17]。
對(duì)于組稀疏正則化與稀疏組LASSO正則化問(wèn)題,常用的解法有快速迭代收縮域值算法(FISTA,fast iterative shrinkage-thresholding algorithm)[19]、加速的廣義梯度下降算法[17]等,文獻(xiàn)[20]也給出了多種正則化函數(shù)適用的一種通用數(shù)學(xué)優(yōu)化方法——遞增近點(diǎn)梯度(IPG, incremental proximal gradient)算法。由于本文的優(yōu)化問(wèn)題包含一個(gè)可導(dǎo)的正則項(xiàng)(l2正則項(xiàng))和多個(gè)不可導(dǎo)的正則項(xiàng)(λ1正則項(xiàng)和組稀疏正則項(xiàng)),對(duì)于這種問(wèn)題,遞增近點(diǎn)梯度法是一種通用的、行之有效的迭代算法;而FISTA算法中的動(dòng)量法及其選擇的參數(shù)((k)t的更新公式)可以對(duì)迭代過(guò)程進(jìn)行加速。為此本文在遞增近點(diǎn)梯度算法中引入動(dòng)量法(momentum method)[19]加速其收斂過(guò)程,得到一種“加速遞增近點(diǎn)梯度(AIPG, accelerated incremental proximal gradient)算法”。
在算法1中,第②步采用動(dòng)量法[14]來(lái)加快其迭代收斂過(guò)程;第③步為原始遞增近點(diǎn)梯度算法的迭代公式,其中,別為λ1正則函數(shù)、l2正則函數(shù)和組稀疏正則函數(shù)的近點(diǎn)映射算子[21],η(k)是第k步迭代的步長(zhǎng);為進(jìn)一步加快收斂速度,本文對(duì)η(k)進(jìn)行線性搜索,即在第④步當(dāng)檢測(cè)到迭代后的目標(biāo)函數(shù)值變大時(shí),按0.8的加權(quán)系數(shù)減小步長(zhǎng)η(k),重新回到第③步;最后,檢查本次迭代前后Q%的相對(duì)減少量是否小于門限 10-5,若是則停止迭代,否則回到步驟②重新進(jìn)行迭代。
為了驗(yàn)證本文算法的性能,采用微軟中文語(yǔ)料庫(kù)[18]進(jìn)行連續(xù)語(yǔ)音識(shí)別的說(shuō)話人自適應(yīng)實(shí)驗(yàn)。訓(xùn)練集包括100個(gè)男性說(shuō)話人,每人約200句話,共有19 688句話,每句話時(shí)長(zhǎng)大約5 s,總時(shí)長(zhǎng)為33 h。測(cè)試集中共有25個(gè)說(shuō)話人,每人20句話,每句話時(shí)長(zhǎng)也約為5 s。
聲學(xué)特征矢量采用13維的MFCC參數(shù)及其一階、二階差分,總特征維數(shù)為 39維。幀長(zhǎng)和幀移分別為25 ms和10 ms。實(shí)驗(yàn)中,借助語(yǔ)音開源工具箱HTK(hidden Markov toolkit)(版本3.4.1)[13]訓(xùn)練得到SI基線系統(tǒng)。首先訓(xùn)練單音子聲學(xué)模型,其中每個(gè)單音子對(duì)應(yīng)一個(gè)漢語(yǔ)有調(diào)音節(jié)。根據(jù)發(fā)音字典,對(duì)單音子進(jìn)行上下文擴(kuò)展,得到295 180個(gè)跨詞的三音子有調(diào)音節(jié),其中95 534個(gè)三音子在訓(xùn)練語(yǔ)料中得到覆蓋。每個(gè)三音子用一個(gè)包含3個(gè)發(fā)射狀態(tài)的、自左向右無(wú)跨越的隱馬爾可夫模型進(jìn)行建模。采用基于決策樹的三音子狀態(tài)聚類后,系統(tǒng)中共有2 392個(gè)不同的上下文相關(guān)狀態(tài)。最終訓(xùn)練得到的說(shuō)話人無(wú)關(guān)(SI)聲學(xué)模型中每個(gè)狀態(tài)含有8個(gè)高斯混元,因此聲學(xué)模型中的總高斯混元數(shù)為19 136個(gè)。
在測(cè)試階段,采用音節(jié)全連接的解碼網(wǎng)絡(luò),不采用任何語(yǔ)法模型。采用這種解碼網(wǎng)絡(luò)的語(yǔ)音識(shí)別系統(tǒng)對(duì)聲學(xué)模型的要求最高,可以充分展示聲學(xué)模型的識(shí)別性能。在原始測(cè)試集上,SI基線系統(tǒng)的平均有調(diào)音節(jié)正確識(shí)別率為53.04%(文獻(xiàn)[18]中結(jié)果為51.21%)。
為了便于比較本文算法的性能,本文針對(duì)下列說(shuō)話人自適應(yīng)算法進(jìn)行對(duì)比實(shí)驗(yàn)。
1) EPNew:采用最大似然估計(jì)的本征音子自適應(yīng),且進(jìn)行說(shuō)話人自適應(yīng)訓(xùn)練得到的方法,簡(jiǎn)稱EPNew方法。首先采用主分量分析得到本征音子矩陣和高斯混合坐標(biāo)矢量;其次利用訓(xùn)練數(shù)據(jù)重新SAT后的模型;然后采用最大似然準(zhǔn)則估計(jì)本征音子矩陣,采用λ1約束的最大似然準(zhǔn)則估計(jì)高斯混合坐標(biāo)矢量;不斷迭代得到最終的SAT模型和各高斯混合坐標(biāo)矢量。由于該算法具有較好的性能,因此作為后續(xù)算法的基線系統(tǒng)。
2) EPNew-L1:基于λ1約束的EPNew自適應(yīng)算法,λ1范數(shù)權(quán)重λ1從10 調(diào)整到40。
3) EPNew- L2:基于l2約束的EPNew自適應(yīng)算法,l2范數(shù)權(quán)重λ2從10調(diào)整到2 000。
4) EPNew-L1-L2:基于彈性網(wǎng)正則化約束的EPNew自適應(yīng)算法,其中λ1從10到20,λ2從10調(diào)整到100。
5) EPNew-GS:基于組稀疏正則化約束的EPNew自適應(yīng)算法,組稀疏權(quán)重λ3從60調(diào)整到150。
6) EPNew- SGL:基于稀疏組 LASSO 約束的EPNew自適應(yīng)算法,其中λ1從10到20,λ2從10調(diào)整到40。
為了比較各種方法在不同自適應(yīng)數(shù)據(jù)量下的自適應(yīng)效果,對(duì)每個(gè)測(cè)試說(shuō)話人分別隨機(jī)抽取 1句、2 句、4 句、6 句、8 句和 10 句話作為自適應(yīng)數(shù)據(jù),從剩下語(yǔ)句中隨機(jī)抽取 10句話作為測(cè)試數(shù)據(jù),重復(fù)該過(guò)程8次,得到8組實(shí)驗(yàn)數(shù)據(jù),將8組數(shù)據(jù)的平均結(jié)果作為系統(tǒng)性能指標(biāo)。表 1、表 2中黑體字所示為每種自適應(yīng)數(shù)據(jù)量條件下的最好實(shí)驗(yàn)結(jié)果,斜體字所示為引入正則化約束后平均正確識(shí)別率下降的實(shí)驗(yàn)結(jié)果。
適當(dāng)引入約束條件可以提升系統(tǒng)性能,為了便于比較本文算法的性能,以EPNew為基線系統(tǒng),首先將λ1正則化、l2正則化和彈性網(wǎng)正則化3種經(jīng)典正則化方法引入到基線系統(tǒng)中來(lái)。
表1給出了本征音子算法EPNew在3種經(jīng)典正則化方法下的實(shí)驗(yàn)結(jié)果,括號(hào)內(nèi)數(shù)字表示所有測(cè)試說(shuō)話人擴(kuò)展本征音子矩陣稀疏度的平均值
表1結(jié)果表明,引入λ1正則化方法之后,自適應(yīng)性能得到提高,特別是在自適應(yīng)數(shù)據(jù)量不足時(shí)(少于4句話時(shí)),性能的提升尤為明顯,過(guò)擬合現(xiàn)象得到有效緩解。對(duì)于某一個(gè)固定的正則化因子λ1(對(duì)應(yīng)表1中EPnew-L1方法中的某一行),隨著自適應(yīng)數(shù)據(jù)量的增加,平均稀疏度逐漸減小,表明擴(kuò)展本征音子矩陣中的非零元素?cái)?shù)量逐漸增加,更多的自適應(yīng)參數(shù)得到估計(jì),因此λ1正則化方法具有良好的參數(shù)選擇功能,它可以使自適應(yīng)參數(shù)數(shù)量隨著數(shù)據(jù)量的增加而不斷增多。
在各種自適應(yīng)數(shù)據(jù)量下,隨著正則化因子λ1的增大(對(duì)應(yīng) EPnew-L1算法中的某一列),擴(kuò)展本征音子矩陣的平均稀疏度也不斷增大,而平均正確識(shí)別率先增后減。當(dāng)自適應(yīng)數(shù)據(jù)量為 1、2、4、6句話時(shí),自適應(yīng)方法在λ1=20時(shí)取得最好的效果,而當(dāng)自適應(yīng)數(shù)據(jù)量更為充足時(shí)(8句話和10句話時(shí)),λ1= 1 0可以取得更好的結(jié)果。
引入l2正則化后,當(dāng)自適應(yīng)數(shù)據(jù)量很少時(shí)(1或2句話時(shí)),系統(tǒng)的性能有了明顯提高,且λ2越大性能提高越明顯;而當(dāng)自適應(yīng)數(shù)據(jù)量較為充足時(shí)(多于4句話時(shí)),隨著λ2的增大,平均正識(shí)率先增后減,且λ2越大,系統(tǒng)性能的下降越明顯(如表1中斜體字所示部分)。因此隨著自適應(yīng)數(shù)據(jù)量的增加,應(yīng)逐漸減小λ2的值以放松約束,從而獲得更好的自適應(yīng)效果。
從表1中方法的對(duì)比結(jié)果來(lái)看,總體來(lái)講,l2正則化的效果不如λ1正則化。相關(guān)研究表明兩者具有一定的互補(bǔ)性,因此本文也對(duì)彈性網(wǎng)正則化方法進(jìn)行測(cè)試,它是λ1和l22種正則化方法的一種線性組合。實(shí)驗(yàn)中,將λ1正則化因子λ1分別固定為10或20,將l2正則化因子λ2從10調(diào)整至100。在引入l2正則化方法后,與原始的λ1正則化方法相比(λ1> 0 ,λ2= 0 時(shí)),彈性網(wǎng)正則化方法的平均正識(shí)率略有所提升。且隨著自適應(yīng)數(shù)據(jù)量的增加,l2正則化因子λ2應(yīng)逐漸減小;當(dāng)l2正則化因子取得過(guò)大時(shí),平均正識(shí)率反而會(huì)下降。
表1 經(jīng)典正則化自適應(yīng)算法的實(shí)驗(yàn)結(jié)果(正識(shí)率)(%)(括號(hào)內(nèi)數(shù)字表示平均稀疏度)
表1 經(jīng)典正則化自適應(yīng)算法的實(shí)驗(yàn)結(jié)果(正識(shí)率)(%)(括號(hào)內(nèi)數(shù)字表示平均稀疏度)
自適應(yīng)方法 參數(shù)設(shè)置自適應(yīng)數(shù)據(jù)量1句 2句 4句 6句 8句 10句EPnew 42.35 51.52 58.22 59.32 60.12 60.85 λ1 = 10 52.25(0.61)56.04(0.43)58.32(0.23)59.36(0.16)60.32(0.12)61.32(0.04)EPnew-L1 λ1 = 20 λ1 = 30 53.88(0.83)53.63(0.91)56.55(0.63)55.96(0.74)58.54(0.42)57.70(0.54)59.54(0.33)59.31(0.44)60.24(0.26)60.05(0.37)61.12(0.23)60.92(0.34)λ1 = 40 53.82(0.95)55.18(0.82)57.30(0.65)59.19(0.61)59.89(0.49)60.60(0.42)λ2 = 10 43.52 52.64 58.26 59.42 60.22 60.93 EPnew -L2 λ2 = 100 43.95 53.25 58.42 59.21 60.05 60.82 λ2 = 1 000 46.32 53.92 58.35 59.15 59.27 59.65 λ2 = 2 000 48.65 54.26 58.21 58.65 58.83 59.32 λ2 = 0 52.25 56.04 58.32 59.36 60.32 61.32 EPnew-L1-L2 λ1 = 10 λ2 = 10 52.50 56.12 58.45 59.42 60.32 61.26 λ2 = 50 52.56 56.35 58.12 59.08 60.18 61.10 λ2 = 100 52.12 55.94 57.86 58.45 59.50 60.59 λ2 = 0 53.88 56.55 58.54 59.54 60.24 61.12 λ1 = 20 λ2 = 10 53.92 56.60 58.62 59.65 60.21 61.10 λ2 = 50 53.96 56.58 58.56 59.12 59.95 60.86 λ2 = 100 53.40 56.34 57.51 58.42 59.32 60.60
本節(jié)針對(duì)組稀疏正則化和稀疏組LASSO正則化方法進(jìn)行自適應(yīng)實(shí)驗(yàn)。由上面分析可知,利用式(6)給出的組稀疏正則化函數(shù),使估計(jì)得到的擴(kuò)展本征音子矩陣V%出現(xiàn)許多元素全為0的列。為了了解正則化因子λ3對(duì)矩陣V% 的列稀疏性影響,定義“列稀疏度”θ為矩陣V%中全為0的列數(shù)占總列數(shù)的比例。實(shí)驗(yàn)中將組稀疏正則化因子λ3從60調(diào)整到150。更重要一點(diǎn),本節(jié)將通過(guò)實(shí)驗(yàn)驗(yàn)證組稀疏正則化與λ1正則化的互補(bǔ)性,將兩者進(jìn)行線性組合,得到稀疏組 LASSO正則化方法。實(shí)驗(yàn)中,將λ1正則化因子λ1分別固定為10和20,改變組稀疏正則化因子λ3的值進(jìn)行實(shí)驗(yàn)。
表2給出了不同自適應(yīng)數(shù)據(jù)量下的典型實(shí)驗(yàn)結(jié)果,表中括號(hào)內(nèi)單個(gè)數(shù)字為所有測(cè)試說(shuō)話人擴(kuò)展本征音子矩陣的平均列稀疏度,以2個(gè)數(shù)字()的形式分別表示擴(kuò)展本征音子矩陣的“平均稀疏度與“平均列稀疏度。
由表2可見,在自適應(yīng)數(shù)據(jù)量較少時(shí),引入組稀疏正則化后,系統(tǒng)識(shí)別性能得到顯著提高;隨自適應(yīng)數(shù)據(jù)量的增大,應(yīng)逐漸減少正則化因子λ3以獲得更好的自適應(yīng)效果。在相同的自適應(yīng)數(shù)據(jù)量下(列縱向比較),隨著λ3的增大,平均列稀疏度也逐漸增大,而平均正識(shí)率卻先增后減。正則化因子對(duì)平均列稀疏度的影響在自適應(yīng)數(shù)據(jù)量少時(shí)(如1句話時(shí))更為明顯,而當(dāng)自適應(yīng)數(shù)據(jù)量超過(guò)4句話時(shí),平均列稀疏度始終接近于 0,這是由于正則化函數(shù)的近點(diǎn)映射算子[21]本質(zhì)上是一個(gè)乘性收縮算子,因此迭代若干次后,會(huì)使矩陣某些列的元素值變小,卻難以完全等于0。對(duì)比表 2和表 1結(jié)果可見,組稀疏正則化方法優(yōu)于l2正則化方法,由 2種方法的近點(diǎn)映射算子的比較可知,組稀疏正則化方法相當(dāng)于一種自適應(yīng)的l2正則化方法[21],本文實(shí)驗(yàn)結(jié)果也驗(yàn)證了組稀疏正則化方法這一優(yōu)勢(shì)。此外對(duì)比表2和表1的結(jié)果,總體而言,在各種自適應(yīng)數(shù)據(jù)量下,組稀疏正則化方法仍不及λ1正則化方法。
表2 組稀疏和稀疏組正則化自適應(yīng)算法的實(shí)驗(yàn)結(jié)果(正識(shí)率)(%)(括號(hào)內(nèi)單個(gè)數(shù)字表示平均稀疏度,2個(gè)數(shù)字表示())
表2 組稀疏和稀疏組正則化自適應(yīng)算法的實(shí)驗(yàn)結(jié)果(正識(shí)率)(%)(括號(hào)內(nèi)單個(gè)數(shù)字表示平均稀疏度,2個(gè)數(shù)字表示())
自適應(yīng)方法 參數(shù)設(shè)置自適應(yīng)數(shù)據(jù)量1句 2句 4句 6句 8句 10句EPnew 42.35 51.52 58.22 59.32 60.12 60.85 EPnewGS λ3 = 60 51.56(0.09)53.10(0.02)56.52(0.01)59.36(0.01)60.22(0.0)61.08(0.0)60.35(0.0)λ3 = 150 53.56(0.78)60.90(0.0)λ3 = 120 53.05(0.62)λ3 = 90 52.75(0.38)53.45(0.06)58.34(0.02)59.32(0.01)60.16(0.0)54.86(0.15)58.36(0.02)59.18(0.02)59.85(0.0)54.52(0.26)57.96(0.06)58.92(0.02)59.56(0.0)60.01(0.0)λ3 = 0 52.25(0.61, 0.0)56.04(0.43, 0.0)58.32(0.23, 0.0)59.36(0.16, 0.0)60.32(0.12, 0.0)61.32(0.04, 0.0)λ1 = 10 λ3 = 10 53.78(0.61,0.01)61.35(0.04, 0.0)λ3 = 20 54.55(0.62, 0.01)56.65(0.47, 0.0)58.45(0.32, 0.0)59.42(0.22, 0.0)60.40(0.13, 0.0)61.25(0.04, 0.0)λ3 = 30 54.76(0.62, 0.01)56.72(0.47, 0.01)58.62(0.33, 0.01)59.55(0.23, 0.0)60.22(0.13, 0.0)61.25(0.04, 0.0)λ3 = 40 54.49(0.62, 0.02)56.78(0.47, 0.01)58.45(0.33, 0.01)59.34(0.23, 0.01)60.18(0.13, 0.0)EPnew-SPL 56.12(0.49, 0.02)58.34(0.34, 0.01)59.25(0.23, 0.01)60.01(0.13, 0.01)60.89(0.04, 0.01)λ3 = 0 53.88(0.83, 0.0)56.55(0.63, 0.0)58.54(0.42, 0.0)59.54(0.33, 0.0)60.24(0.26, 0.0)61.12(0.23, 0.0)λ3 = 10 54.42(0.85, 0.01)61.13(0.23, 0.0)λ3 = 20 54.75(0.86, 0.01)56.82(0.64, 0.01)58.65(0.45, 0.01)59.58(0.36, 0.0)60.32(0.26, 0.0)λ1 = 20 60.92(0.23, 0.0)λ3 = 30 54.21(0.86, 0.02)56.65(0.64, 0.01)58.42(0.46, 0.01)59.52(0.36, 0.0)60.20(0.26, 0.0)60.89(0.23, 0.0)λ3 = 40 53.95(0.86,0.02)56.42(0.65, 0.01)58.38(0.46, 0.01)59.32(0.36, 0.0)60.22(0.26, 0.0)56.21(0.65, 0.02)58.38(0.46, 0.01)59.25(0.36, 0.0)60.12(0.26, 0.0)60.89(0.23, 0.0)
由于組稀疏正則化與λ1正則化具有互補(bǔ)性,表2給出了稀疏組LASSO約束的結(jié)果。結(jié)果表明,在λ1正則化基礎(chǔ)上引入組稀疏正則化后,自適應(yīng)性能得到進(jìn)一步提高,特別是當(dāng)自適應(yīng)數(shù)據(jù)量較少時(shí)(1或 2句話),性能的提高尤為明顯。例如,當(dāng)λ1= 1 0,λ3= 3 0時(shí),相比于λ1=10時(shí)的λ1正則化方法,在1句話和2句話下,正識(shí)率分別相對(duì)提高了4.8%和1.3%。在正則化因子λ1固定的條件下,隨著自適應(yīng)數(shù)據(jù)量的增加,應(yīng)減少正則化因子λ3以獲得更好的識(shí)別效果。
從“平均稀疏度”與“平均列稀疏度”上看,引入組稀疏正則化后,平均稀疏度相對(duì)于僅采用λ1正則化時(shí)的值幾乎沒(méi)有變化,而平均列稀疏度都基本接近于零,這說(shuō)明最終估計(jì)得到的擴(kuò)展本征音子矩陣并沒(méi)有呈現(xiàn)出明顯的列稀疏性。對(duì)比表 2中的實(shí)驗(yàn)設(shè)置,可以看出由于組稀疏正則化因子λ3相對(duì)較小,而其對(duì)應(yīng)的近點(diǎn)映射算子為一種乘性收縮算子,因此只能使某些列的值相對(duì)縮小,卻難以將其縮小到0。
對(duì)比表 2和表 1中實(shí)驗(yàn)結(jié)果可見,稀疏組LASSO正則化方法明顯優(yōu)于彈性網(wǎng)正則化方法,其原因在于組稀疏正則化方法相當(dāng)于一種自適應(yīng)的l2正則化方法,因此其與λ1正則化的線性組合(即稀疏組LASSO正則化方法)相當(dāng)于一種自適應(yīng)的彈性網(wǎng)正則化方法。
本文提出了一種基于稀疏組LASSO約束的本征音子說(shuō)話人自適應(yīng)方法。新方法對(duì)自適應(yīng)問(wèn)題的目標(biāo)函數(shù)引入稀疏組LASSO正則項(xiàng),相當(dāng)于對(duì)待估本征音子矩陣同時(shí)施加列間稀疏性約束與列內(nèi)稀疏性約束,得到結(jié)構(gòu)化的模型稀疏解。通過(guò)該約束可以對(duì)自適應(yīng)模型的復(fù)雜度進(jìn)行有效控制,在數(shù)據(jù)量少時(shí)得到低維音子變化子空間,在數(shù)據(jù)量充足時(shí)得到高維音子變化子空間。實(shí)驗(yàn)證明,新算法在各種自適應(yīng)數(shù)據(jù)量下均優(yōu)于經(jīng)典的λ1正則化、l2正則化和彈性網(wǎng)正則化方法。
[1] ZHANG W L, ZHANG W Q, LI B C,et al. Bayesian speaker adaptation based on a new hierarchical probabilistic model[J]. IEEE Transactions on Audio, Speech and Language Processing[J]. 2012, 20(7):2002-2015.
[2] SOLOMONOFF A, CAMPBELL W M, BOARDMAN I. Advances in channel compensation[A]. for SVM speaker recognition. Proceedings of International Conference on Acoustics, Speech, and Signal Processing(ICASSP)[C]. Philadelphia, USA, 2005. 629-632.
[3] PAVAN KUMAR D S, PRASAD N V, JOSHI V,et al. Modified splice and its extension to non-stereo data for noise robust speech recognition[A]. Proceedings of IEEE Automatic Speech Recognition and Understanding Workshop(ASRU)[C]. Olomouc, Czech Republic, 2013.174-179.
[4] HAMIDI S G, RICHARD C R. Two-stage speaker adaptation in subspace gaussian mixture models[A]. Proceedings of International Conference on Acoustics, Speech and Signal Processing(ICASSP)[C].Florence, Italy, 2014. 6374-6378.
[5] WANG Y Q, GALE M J F. Tandem system adaptation using multiple linear feature transforms[A]. Proceedings of International Conference on Acoustics, Speech and Signal Processing(ICASSP)[C]. Vancouver,Canada, 2013. 7932-7936.
[6] KENNY P, BOULIANNE G, OUELLETET P,et al. Speaker adaptation using an eigenphone basis[J]. IEEE Transaction on Audio, Speech and Language Processing, 2004, 12(6):579-589.
[7] ZHANG W L, ZHANG W Q, LI B C. Speaker adaptation based on speaker-dependent eigenphone estimation[A]. Proceedings of IEEE Automatic Speech Recognition and Understanding Workshop(ASRU)[C].Hawaii, USA, 2011. 48-52.
[8] LI J, TSAO Y, LEE, C H. Shrinkage model adaptation in automatic speech recognition[A]. Proceedings of Annual Conference on International Speech Communication Association(INTERSPEECH)[C]. Makuhari, Chiba, Japan, 2010. 1656-1659.
[9] OLSEN P A, HUANG J, RENNIE S J,et al.Sparse maximum a posteriori adaptation[A]. Proceedings of IEEE Automatic Speech Recognition and Understanding Workshop(ASRU)[C]. Hawaii, USA, 2011.53-58.
[10] OLSEN P A, HUANG J, RENNIE S J,et al. Affine invariant sparse maximum a posteriori adaptation[A]. Proceedings of International Conference on Audio, Speech and Signal Processing(ICASSP)[C].Kyoto, Japan, 2012. 4317-4320.
[11] KIM Y G, KIM H. Constrained mle-based speaker adaptation withλ1regularization[A]. Proceedings of International Conference on Audio,Speech and Signal Processing(ICASSP)[C]. Florence, Italy, 2014.6419-6422.
[12] 張文林, 張連海, 牛銅, 等. 基于正則化的本征音說(shuō)話人自適應(yīng)方法[J].自動(dòng)化學(xué)報(bào), 2012, 38(12):1950-1957.ZHANG W L, ZHANG L H, NIU T,et al. Regularization based eigenvoice speaker adaptation method[J]. ACTA Automatica Sinica,2012, 38 (12):1950-1957.
[13] YOUNG S, EVERMANN G, GALES M,et al. The HTK book (for HTK version 3.4)[EB/OL]. http://htk.eng.cam.ac.uk/docs/docs.shtml.2009.
[14] 張文林, 張連海, 陳琦, 等. 語(yǔ)音識(shí)別中基于低秩約束的本征音子說(shuō)話人自適應(yīng)方法[J]. 電子與信息學(xué)報(bào), 2014, 36(4):981-987.ZHANG W L, ZHANG L H, CHEN Q,et al. Low-rank constraint eigenphone speaker adaptation method for speech recognition[J]. Journal of Electronics & Information Technology, 2014, 36(4):981-987.
[15] YUAN M, LIN Y. Model selection and estimation in regression with grouped variables[J]. Journal of the Royal Statistical Society(Series B),2007, 68(1): 49-67.
[16] TAN Q F, NARAYANAN S S. Novel variations of group sparse regularization techniques with applications to noise robust automatic speech recognition[J]. IEEE Transaction on Acoustic, Speech and Signal Processing, 2012, 20(4):1337-1346.
[17] SIMON N, FRIEDMAN J, HASTIE T,et al. A sparse-group LASSO[J]. Journal of Computational and Graphical Statistics, 2013, 22(2):231-245.
[18] CHANG E, SHI Y, ZHOU J,et al. Speech lab in a box: a Mandarin speech toolbox to jumpstart speech related research[A]. Proceedings of 7th European Conference on Speech Communication and Technology(EUROSPEECH) [C]. Aalborg, Denmark, 2001. 2799-2802.
[19] BECK A, TEBOULLE M. A fast iterative shrinkage-thresholding algorithm for linear inverse problems[J]. SIAM Journal on Imaging Sciences, 2009, 2(1):183-202.
[20] BERTSEKAS D P. Incremental proximal methods for large scale convex optimization[J]. Mathematical Programming, 2011, 129(2):163-195.
[21] PARIKH N, BOYD S. Proximal Algorithms. Foundations and Trends in Optimization[M]. 2013.