張文林張連海 陳 琦 李弼程
(解放軍信息工程大學(xué)信息系統(tǒng)工程學(xué)院 鄭州 450002)
在現(xiàn)代連續(xù)語音識別系統(tǒng)中,說話人自適應(yīng)是一個(gè)必不可少的關(guān)鍵模塊。對于傳統(tǒng)的基于隱馬爾可夫模型(Hidden Markov Model, HMM)-高斯混合模型(Gaussian Mixture Model, GMM)的語音識別系統(tǒng),說話人自適應(yīng)技術(shù)就是在給定少量說話人相關(guān)語料的條件下,根據(jù)最大似然(Maximum Likelihood, ML)或最大后驗(yàn)(Maximum A Posteriori, MAP)準(zhǔn)則,對說話人無關(guān)(Speaker Independent, SI)系統(tǒng)中每一個(gè)GMM的高斯均值矢量進(jìn)行調(diào)整,得到說話人相關(guān)(Speaker Dependent,SD)系統(tǒng)。
經(jīng)典的說話人自適應(yīng)方法可以分為3大類[1]:基于最大后驗(yàn)概率的方法、基于最大似然線性變換的方法和基于說話人聚類的方法,其典型代表分別是最大后驗(yàn)(Maximum A Posteriori, MAP)[1]自適應(yīng)方法,最大似然線性回歸(Maximum Likelihood Linear Regression, MLLR)[2]及本征音(EigenVoice, EV)[3]說話人自適應(yīng)方法。文獻(xiàn)[1]和文獻(xiàn)[4]提出了一種基于本征音子(EigenPhone, EP)的說話人自適應(yīng)方法。與EV方法不同,該方法認(rèn)為對于每一個(gè)說話人,其SD模型中不同高斯分量均值的變化(相對于SI模型)位于一個(gè)子空間中,稱該子空間為“音子變化子空間(phone variation subspace)”,其基矢量稱為“本征音子”,反映了說話人的個(gè)體特征,是說話人相關(guān)的;而不同高斯分量對應(yīng)的坐標(biāo)反映了不同音子之間的相關(guān)性信息,是說話人無關(guān)的。在訓(xùn)練階段,可以根據(jù)訓(xùn)練數(shù)據(jù)得到各高斯分量的坐標(biāo)矢量,在自適應(yīng)階段估計(jì)未知說話人的本征音子矩陣,即可達(dá)到說話人自適應(yīng)的目的。本征音子自適應(yīng)方法具有直觀的物理意義,在自適應(yīng)數(shù)據(jù)充分的情況下,能夠得到比MLLR方法和EV方法更好的結(jié)果。然而,其缺點(diǎn)是在自適應(yīng)數(shù)據(jù)較少的情況下,極易出現(xiàn)嚴(yán)重的過擬合現(xiàn)象。
在語音信號處理與語音識別領(lǐng)域,正則化方法近年來被越來越多地應(yīng)用于解決數(shù)據(jù)稀疏問題和降低模型的復(fù)雜度。例如,利用L1正則化方法可以得到噪聲語音信號的稀疏表達(dá),從而提高噪聲條件下的語音識別系統(tǒng)識別率[5];在子空間 GMM 聲學(xué)模型中,采用L1和L2正則化方法[6]可以得到具有稀疏性的模型參數(shù),進(jìn)一步提高少量數(shù)據(jù)下的聲學(xué)建模能力;在基于深層神經(jīng)網(wǎng)絡(luò)的語音識別系統(tǒng)[7]中,采用 L1正則化方法減少神經(jīng)網(wǎng)絡(luò)中的非零權(quán)值個(gè)數(shù),從而在不犧牲系統(tǒng)識別率的情況下大大降低模型復(fù)雜度。
實(shí)驗(yàn)證明,在本征音子說話人自適應(yīng)方法中,本征音子個(gè)數(shù)應(yīng)隨著自適應(yīng)數(shù)據(jù)量的增加而不斷增大。由于它決定了音子變化子空間的維數(shù),與本征音子矩陣的秩密切相關(guān),因此可以考慮將本征音子矩陣的秩作為正則項(xiàng),引入低秩矩陣約束來提高本征音子說話人自適應(yīng)方法的性能。直接將矩陣的秩作為正則項(xiàng)是無法求解的,在矩陣優(yōu)化問題中,通常采用核范數(shù)作為矩陣秩的一個(gè)凸近似,從而將原問題轉(zhuǎn)化為一個(gè)凸優(yōu)化問題進(jìn)行求解[8]。目前,基于核范數(shù)的正則化方法已被應(yīng)用于矩陣恢復(fù)[8]、穩(wěn)健性主分量分析[9]、圖像處理[10]等領(lǐng)域,并取得了不錯(cuò)的效果。本文章節(jié)安排如下:第2節(jié)簡要介紹了本征音子說話人自適應(yīng)方法,給出了一種快速實(shí)現(xiàn)算法;第3節(jié)討論基于核范數(shù)正則化的本征音子自適應(yīng)及其數(shù)學(xué)優(yōu)化算法;第4節(jié)給出了實(shí)驗(yàn)結(jié)果及分析;最后給出了本文的結(jié)論。
假設(shè) SI系統(tǒng)中,共M個(gè)高斯混元,特征矢量維數(shù)為D,令mμ為第m個(gè)高斯混元的均值矢量。在第s個(gè)說話人的 SD系統(tǒng)中,第m個(gè)高斯混元的均值矢量用表示,定義音子變化矢量為。在本征音子說話人自適應(yīng)中,假設(shè)位于一個(gè)說話人相關(guān)的維子空間中,稱該子空間為“音子變化子空間”。設(shè)該子空間的原點(diǎn)為,基矢量為,稱為第s個(gè)說話人的本征音子 EP。令第m個(gè)高斯混元對應(yīng)的坐標(biāo)矢量為,則在音子變化子空間中可以分解為
在文獻(xiàn)[4]中,實(shí)驗(yàn)表明,在自適應(yīng)數(shù)據(jù)量充足時(shí),本征音子自適應(yīng)方法能夠取得很好的自適應(yīng)效果,隨著數(shù)據(jù)量的增加,本征音子的個(gè)數(shù)N應(yīng)逐漸增大;而當(dāng)數(shù)據(jù)量不足時(shí),由于無法充分估計(jì)本征音子矩陣,會出現(xiàn)嚴(yán)重的過訓(xùn)練現(xiàn)象。為了緩解這一問題,文獻(xiàn)[4]引入高斯先驗(yàn)分布,在最大后驗(yàn)準(zhǔn)則下得到更為穩(wěn)健的估計(jì);然而,該方法對識別率的提高有限,只能盡量自適應(yīng)之后的系統(tǒng)識別率不會下降。本文通過對本征音子矩陣引入低秩約束來解決這一問題。事實(shí)上,本征音子的個(gè)數(shù)N與本征音子矩陣的秩密切相關(guān),引入低秩約束可以有效地限制模型的復(fù)雜度,防止過訓(xùn)練問題。
數(shù)學(xué)上直接將矩陣的秩作為約束條件是無法求解的,通常采用矩陣的核范數(shù)(nuclear norm)作為矩陣秩的一個(gè)凸近似,從而將原問題轉(zhuǎn)化為一個(gè)凸優(yōu)化問題來求解。對于本征音子矩陣()sV,令為其第i個(gè)奇異值,則其核范數(shù)為。事實(shí)上,用矩陣的核范數(shù)來近似矩陣的秩,與壓縮感知中常用的以矢量的L1范數(shù)來近似其L0范數(shù)是類似的:矩陣的秩等于奇異值矢量的L0范數(shù),其核范數(shù)就等價(jià)于奇異值矢量的L1范數(shù)。對目標(biāo)函數(shù)式(4)引入核范數(shù)正則項(xiàng),新的優(yōu)化問題可以寫為
式(5)是一個(gè)凸優(yōu)化問題,已有多種求解算法,如快速迭代收縮-閾值算法(Fast Iterative Shrinkage-Thresholding Algorithm, FISTA)[12], ADMiRA算法[13],奇異值閾值法(Singular Value Thresholding,SVT)[14]等。本文采用一種加速近點(diǎn)梯度法(Accelerated Proximal Gradient, APG)[15,16]對其進(jìn)行求解。
(5)的一個(gè)加速近點(diǎn)投影算法流程如下(為了簡潔起見,將 ()sV 簡記為V):
(3)計(jì)算
上述算法中,第(2)步采用動量法(momentum method)加快迭代收斂過程。其中,的計(jì)算采用了文獻(xiàn)[12]中給出的一個(gè)經(jīng)驗(yàn)公式(第(5)步);在迭代初始時(shí)刻(時(shí)),;而在時(shí),。實(shí)驗(yàn)證明,這一方法可以明顯加快算法的迭代收斂過程。第(3)步即是近點(diǎn)梯度下降法的迭代公式。其中,λ是核范數(shù)的權(quán)重,是第步的下降步長。這里對采用了一種1維線性搜索的方法:在第(4)步當(dāng)檢測到迭代前后目標(biāo)函數(shù)變大時(shí),按0.8的系數(shù)減小步長,重新回到第(3)步進(jìn)行迭代過程。不難證明,這一步長選擇方法滿足迭代收斂條件。最后一步,檢查迭代前后的相對減少量是否小于,若“是”則停止迭代過程,否則重新回到步驟(2)進(jìn)行迭代。
為了驗(yàn)證本文算法的有效性,本節(jié)針對一個(gè)典型的漢語連續(xù)語音識別系統(tǒng)進(jìn)行了實(shí)驗(yàn)。實(shí)驗(yàn)數(shù)據(jù)采用微軟語料庫[17],訓(xùn)練集共有 100個(gè)說話人,共19688句話,約為 33個(gè)小時(shí)的數(shù)據(jù);測試集共 25個(gè)說話人,每人20句話,每句話的平均時(shí)長約為5 s。采用典型的 13維美爾頻率倒譜系數(shù)(Mel-Frequency Cepstrum Coefficients, MFCC)及其一階和二階差分系數(shù),總的特征矢量維數(shù)為39?;€系統(tǒng)中的說話人無關(guān)模型利用 HTK工具包(3.4.1版本)[11]訓(xùn)練得到,采用三音子有調(diào)聲韻母作為聲學(xué)建模單元,每個(gè)HMM模型含有3個(gè)輸出狀態(tài),每個(gè)狀態(tài)共8個(gè)高斯混元,三音子聚類后總的高斯混元數(shù)為19136。訓(xùn)練階段采用基于回歸樹(32個(gè)回歸類)的MLLR自適應(yīng)方法得到100個(gè)訓(xùn)練說話人相關(guān)模型。識別階段,以HTK中的HVite工具為解碼器進(jìn)行連續(xù)語音識別,采用有調(diào)音節(jié)全連接的解碼網(wǎng)絡(luò),不采用語法模型。這種解碼網(wǎng)絡(luò)的系統(tǒng)對聲學(xué)模型的要求最高,可以更好地測試聲學(xué)模型自適應(yīng)的效果。在說話人自適應(yīng)實(shí)驗(yàn)中,對每個(gè)測試說話人隨機(jī)抽取10句話作為自適應(yīng)數(shù)據(jù),用于對SI聲學(xué)模型進(jìn)行有監(jiān)督說話人自適應(yīng);將剩下的10句話作為測試數(shù)據(jù),在其上統(tǒng)計(jì)有調(diào)音節(jié)的平均正確識別率[18]作為實(shí)驗(yàn)結(jié)果。在測試數(shù)據(jù)上,SI模型的平均正確識別率為 53.04%(文獻(xiàn)[17]中結(jié)果為51.21%)。實(shí)驗(yàn)中,本文針對下列說話人自適應(yīng)算法進(jìn)行對比實(shí)驗(yàn):
(1)MLLR+MAP:最大似然線性回歸(MLLR)后接最大后驗(yàn)估計(jì)(MAP)的自適應(yīng)算法,根據(jù)文獻(xiàn)[5]中的實(shí)驗(yàn)結(jié)果,采其最好的實(shí)驗(yàn)設(shè)置:即對MLLR采用包含 32個(gè)回歸類的回歸樹及分塊對角變換矩陣,對MAP其先驗(yàn)權(quán)重設(shè)置為10;
(2)ML-EP:基于最大似然估計(jì)的本征音子自適應(yīng)算法,本征音子個(gè)數(shù)(N)取50或100;
(4)LR-EP:本文提出的基于低秩約束的本征音子自適應(yīng)算法,核范數(shù)權(quán)重(λ)從10調(diào)整到200。
其中(1)是目前常用的說話人自適應(yīng)算法,(2)和(3)是本文作者近期提出的本征音子說話人自適應(yīng)算法,(4)是本文提出的基于低秩約束的本征音子自適應(yīng)算法。為了比較各方法在不同自適應(yīng)數(shù)據(jù)量下的自適應(yīng)效果,分別對1句話,2句話,4句話,6句話,8句話和10句話的自適應(yīng)數(shù)據(jù)進(jìn)行了有監(jiān)督說話人自適應(yīng)實(shí)驗(yàn)。
表1中給出了前3種自適應(yīng)算法的典型實(shí)驗(yàn)結(jié)果,每種算法的最好結(jié)果在表中以黑體標(biāo)明。由表1可見,在自適應(yīng)數(shù)據(jù)量充足(4≥句話)的情況下,當(dāng)時(shí),算法的性能優(yōu)于MAP算法;而當(dāng)時(shí),其性能下降明顯,在句話時(shí)均達(dá)不到的自適應(yīng)性能。這是由于對于算法,時(shí)要估計(jì)的參數(shù)數(shù)量比時(shí)多出一倍,即使數(shù)據(jù)量為10句話,仍無法得到本征音子矩陣的充分估計(jì),出現(xiàn)過擬合現(xiàn)象。這種現(xiàn)象在數(shù)據(jù)量少時(shí)(2≤句話)尤為明顯:無論是還是, ML-EP算法的識別率甚至低于自適應(yīng)前的SI系統(tǒng)。這一嚴(yán)重的過擬合現(xiàn)象在引入高斯先驗(yàn)分布后得到了一定的緩解。由表1結(jié)果可見,MAP-EP算法在1~2句話時(shí)通過調(diào)整高斯先驗(yàn)分布的方差可以大大提高自適應(yīng)后的系統(tǒng)正識率:在時(shí),平均正識率分別達(dá)到 53.92%和 54.28%;在時(shí),平均正識率也能達(dá)到 53.69%和54.28%。這些結(jié)果已經(jīng)接近甚至超出了 MLLR+MAP算法的最好結(jié)果(分別為53.32%和54.93%)。然而,在該參數(shù)設(shè)置下,當(dāng)自適應(yīng)數(shù)據(jù)量充足時(shí)(4≥句話),卻制約了 MAP-EP算法的性能;此時(shí),減少的值,可以提高系統(tǒng)的正識率:在時(shí),10句話時(shí)平均正識率達(dá)到60.70%,其結(jié)果略高于MLLR+MAP算法的最好結(jié)果。該現(xiàn)象說明,在時(shí),通過引入適當(dāng)?shù)募s束,可以提高系統(tǒng)的自適應(yīng)性能。
由表2可見,在引入低秩約束后,通過調(diào)整核范數(shù)的權(quán)重,可以使得本征音子自適應(yīng)算法的效果得到明顯提升。當(dāng)時(shí),在1,2,4,6,8和10句話自適應(yīng)數(shù)據(jù)量下,平均正確識別率分別為53.92%, 55.62%, 58.29%, 59.21%,59.95%和60.57%,這些結(jié)果均優(yōu)于ML-EP, MAP-EP及MLLR+MAP的最好結(jié)果。當(dāng)時(shí),在2句話和4句話自適應(yīng)數(shù)據(jù)量下,平均正確識別率分別為55.32%和 58.02%,僅略低于時(shí)的結(jié)果;在1,6,8和10句話自適應(yīng)數(shù)據(jù)量下,平均正確識別率分別為54.26%, 59.40%, 60.21%和61.32%,這是相同自適應(yīng)數(shù)據(jù)量下所有測試系統(tǒng)中的最好結(jié)果。與MAP-EP算法不同,LR-EP算法可以在同一參數(shù)設(shè)置下(如時(shí),λ取為時(shí),λ取為 120)應(yīng)對不同的自適應(yīng)數(shù)據(jù)量,既不會在數(shù)據(jù)量少時(shí)出現(xiàn)過擬合現(xiàn)象,也不會在數(shù)據(jù)量充分時(shí)出現(xiàn)欠擬合現(xiàn)象。
表1 3種已有自適應(yīng)算法的正確識別率(%)
表2 基于低秩約束的本征音子說話人自適應(yīng)后平均正確識別率(%)(括號中數(shù)字為所有測試說話人本征音子矩陣秩的平均值)
由表2可以看出,本征音子矩陣的秩隨著核范數(shù)權(quán)重λ的變化而不同。在相同的自適應(yīng)數(shù)據(jù)量下,隨著λ的增大,本征音子矩陣的秩隨之增大;而在相同的權(quán)重(λ)設(shè)置下,隨著自適應(yīng)數(shù)據(jù)量的增加,本征音子矩陣的秩也隨之增大,此結(jié)果與理論分析相吻合;隨著自適應(yīng)數(shù)據(jù)量的增加,更多的參數(shù)可以得到穩(wěn)健的估計(jì),應(yīng)該增大音子變化子空間的維數(shù),而音子變化子空間的維數(shù)與本征音子矩陣的秩是等價(jià)的。對比和時(shí)的結(jié)果可見,兩種參數(shù)設(shè)置下,對于各種自適應(yīng)數(shù)據(jù)量所得到的本征音子矩陣的秩幾乎是相同的,兩種參數(shù)設(shè)置均找到了各種自適應(yīng)數(shù)據(jù)量下的本征音子矩陣秩的最佳值;相比而言,時(shí)的結(jié)果比時(shí)的結(jié)果略好,這可能是由于隨著N的增大,每個(gè)高斯混元的坐標(biāo)矢量my 的維數(shù)增加,對音子變化子空間的描述更為精確,從而使得系統(tǒng)具有更強(qiáng)的自適應(yīng)能力。
在上述實(shí)驗(yàn)中,由于實(shí)驗(yàn)語料的限制,本文在測試集上通過調(diào)整參數(shù)N及λ以得到最佳的識別效果,并將其與其它方法的最佳結(jié)果相比較以體現(xiàn)新方法的優(yōu)越性。在實(shí)際應(yīng)用中,應(yīng)建立一個(gè)獨(dú)立于訓(xùn)練集數(shù)據(jù)之外的開發(fā)集數(shù)據(jù),調(diào)整參數(shù)N及λ,將開發(fā)集上識別率最高時(shí)對應(yīng)的參數(shù)作為其最佳取值。
本文提出了一種基于低秩約束的本征音說話人自適應(yīng)方法。新方法在本征音子矩陣估計(jì)過程中,引入低秩約束,用矩陣的核范數(shù)作為其秩的一個(gè)凸近似,對優(yōu)化的目標(biāo)函數(shù)引入帶有核范數(shù)的正則項(xiàng),并采用加速近點(diǎn)梯度算法得到本征音子矩陣的迭代優(yōu)化算法。引入低秩約束后,可以有效地對自適應(yīng)模型的復(fù)雜度進(jìn)行控制,在數(shù)據(jù)量少時(shí)得到低維音子變化子空間,在數(shù)據(jù)量充足時(shí)得到高維音子變化子空間。實(shí)驗(yàn)證明,新算法在各種自適應(yīng)數(shù)據(jù)量下均優(yōu)于經(jīng)典的 MLLR+MAP自適應(yīng)算法及原始的本征音子自適應(yīng)算法。
[1] Zhang Wen-lin, Zhang Wei-qiang, Li Bi-cheng, et al..Bayesian speaker adaptation based on a new hierarchical probabilistic model[J]. IEEE Transactions on Audio, Speech and Language Processing, 2012, 20(7): 2002-2015.
[2] Zhang Shi-lei and Qin Yong. Model dimensionality selection in bilinear transformation for feature space MLLR rapid speaker adaptation[C]. Proceedings of International Conference on Acoustics, Speech, and Signal Processing,Kyoto, Japan, 2012: 4353-4356.
[3] 張文林, 牛銅, 張連海, 等. 基于最大似然可變子空間的快速說話人自適應(yīng)方法[J]. 電子與信息學(xué)報(bào), 2012, 34(3): 571-575.Zhang Wen-lin, Niu Tong, Zhang Lian-hai, et al.. Rapid speaker adaptation based on maximum-likelihood variable subspace[J]. Journal of Electronics & Information Technology, 2012, 34(3): 571-575.
[4] Zhang Wen-lin, Zhang Wei-qiang, and Li Bi-cheng. Speaker adaptation based on speaker-dependent eigenphone estimation[C]. Proceedings of IEEE Automatic Speech Recognition and Understanding Workshop, Hawaii, USA,2011: 48-52.
[5] Gemmeke J and Van hamme H. Advances in noise robust digit recognition using hybrid exemplar-based techniques [C].Proceedings of Interspeech, Oregon, Portland, 2012.
[6] Lu L, Ghoshal A, and Renals S. Regularized subspace Gaussian mixture models for speech recognition[J]. IEEE Signal Processing Letters, 2011, 18(7): 419-422.
[7] Yu D, Seide F, Li G, et al.. Exploiting sparseness in deep neural networks for large vocabulary speech recognition[C].Proceedings of International Conference on Acoustics, Speech,and Signal Processing, Kyoto, Japan, 2012: 4409-4412.
[8] Deledalle C, Vaiter S, Peyre G, et al.. Risk estimation for matrix recovery with spectral regularization[OL]. http://arxiv.org/abs/1205.1482, 2012.
[9] Candes E J, Li X, Ma Y, et al.. Robust principal component analysis?[J]. Journal of ACM, 2011, 58(3): DOI: 10.1145/1970392. 1970395.
[10] Chen Chih-fan, Wei Chia-po, and Wang Y C F. Low-rank matrix recovery with structural incoherence for robust face recognition[C]. Proceedings of Computer Vision and Pattern Recognition (CVPR), Providence, RI, USA, 2012: 2618-2625.
[11] Young S, Evermann G, Gales M, et al.. The HTK book (for HTK version 3.4)[OL]. http://htk.eng.cam.ac.uk/docs/docs.shtml. 2009.
[12] Beck A and Teboulle M. A fast iterative shrinkagethresholding algorithm for linear inverse problems[J]. SIAM Journal on Imaging Sciences, 2009, 2: 183-202.
[13] Lee K and Bresler Y A. Atomic decomposition for minimum rank approximation[J]. IEEE Transactions on Information Theory, 2010, 56(9): 4402-4416.
[14] Cai J, Candes E, and Shen Z. A singular value thresholding algorithm for matrix completion[J]. SIAM Journal on Optimization, 2010, 20(4): 1956-1982.
[15] Toh K C and Yun S. An accelerated proximal gradient algorithm for nuclear norm regularized linear least squares prolems[J]. Pacific Journal of Optimization, 2010, 6(3):615-640.
[16] Parikh N and Boyd S. Proximal algorithms[J]. Foundations and Trends in Optimization, 2013, 1(3): 123-231.
[17] Chang E, Shi Y, Zhou J, et al.. Speech lab in a box: a Mandarin speech toolbox to jumpstart speech related research[C]. Proceedings of Eurospeech, Scandinavia, 2001:2799-2802.