黃文娜,彭亞雄,賀 松
(貴州大學(xué) 大數(shù)據(jù)與信息工程學(xué)院,貴陽(yáng) 550025) (*通信作者電子郵箱yxpeng68 @163.com)
基于MAP+CMLLR的說(shuō)話人識(shí)別中發(fā)聲力度問(wèn)題
黃文娜,彭亞雄*,賀 松
(貴州大學(xué) 大數(shù)據(jù)與信息工程學(xué)院,貴陽(yáng) 550025) (*通信作者電子郵箱yxpeng68 @163.com)
為了改善發(fā)聲力度對(duì)說(shuō)話人識(shí)別系統(tǒng)性能的影響,在訓(xùn)練語(yǔ)音存在少量耳語(yǔ)、高喊語(yǔ)音數(shù)據(jù)的前提下,提出了使用最大后驗(yàn)概率(MAP)和約束最大似然線性回歸(CMLLR)相結(jié)合的方法來(lái)更新說(shuō)話人模型、投影轉(zhuǎn)換說(shuō)話人特征。其中,MAP自適應(yīng)方法用于對(duì)正常語(yǔ)音訓(xùn)練的說(shuō)話人模型進(jìn)行更新,而CMLLR特征空間投影方法則用來(lái)投影轉(zhuǎn)換耳語(yǔ)、高喊測(cè)試語(yǔ)音的特征,從而改善訓(xùn)練語(yǔ)音與測(cè)試語(yǔ)音的失配問(wèn)題。實(shí)驗(yàn)結(jié)果顯示,采用MAP+CMLLR方法時(shí),說(shuō)話人識(shí)別系統(tǒng)等錯(cuò)誤率(EER)明顯降低,與基線系統(tǒng)、最大后驗(yàn)概率(MAP)自適應(yīng)方法、最大似然線性回歸(MLLR)模型投影方法和約束最大似然線性回歸(CMLLR)特征空間投影方法相比,MAP+CMLLR方法的平均等錯(cuò)率分別降低了75.3%、3.5%、72%和70.9%。實(shí)驗(yàn)結(jié)果表明,所提出方法削弱了發(fā)聲力度對(duì)說(shuō)話人區(qū)分性的影響,使說(shuō)話人識(shí)別系統(tǒng)對(duì)于發(fā)聲力度變化更加魯棒。
說(shuō)話人識(shí)別;發(fā)聲力度;最大后驗(yàn)概率;最大似然線性回歸;約束最大似然線性回歸
發(fā)聲力度是一個(gè)隨著說(shuō)話人與收聽(tīng)者之間交流距離遠(yuǎn)近變化的主觀生理量,在人們的日常交流中,不可能一直使用同一發(fā)聲力度[1]。例如,人們?cè)噲D隱藏說(shuō)話內(nèi)容(耳語(yǔ));交流距離較大,情況緊急(高喊)[2]。不同發(fā)聲力度下的語(yǔ)音,其聲學(xué)特征及發(fā)音方式存在極大的差異。然而,現(xiàn)在的說(shuō)話人識(shí)別研究中,通常使用正常發(fā)聲力度下的語(yǔ)音訓(xùn)練說(shuō)話人模型,所以,當(dāng)測(cè)試語(yǔ)音來(lái)自不同發(fā)聲力度時(shí),訓(xùn)練語(yǔ)音與測(cè)試語(yǔ)音便會(huì)產(chǎn)生失配,從而導(dǎo)致說(shuō)話人識(shí)別系統(tǒng)識(shí)別性能下降[3]。文獻(xiàn)[4-5]中,將發(fā)生力度由低到高分為5個(gè)量級(jí):耳語(yǔ)(whisper)、輕聲(soft)、正常(normal)、大聲(louder)、高喊(shouted)。
自2010年美國(guó)國(guó)家標(biāo)準(zhǔn)與技術(shù)研究院(National Institute of Standards and Technology, NIST)在說(shuō)話人識(shí)別評(píng)測(cè)的語(yǔ)料中加入了發(fā)聲力度的變化后,說(shuō)話人識(shí)別中發(fā)聲問(wèn)題逐漸得到關(guān)注與研究。文獻(xiàn)[5]中提出了基于不同發(fā)聲力度語(yǔ)音特征,通過(guò)語(yǔ)音識(shí)別器將耳語(yǔ)與其他語(yǔ)音進(jìn)行分類(lèi),使得耳語(yǔ)在其專(zhuān)門(mén)的模型上測(cè)試,而其他發(fā)聲力度語(yǔ)音在同一個(gè)模型上測(cè)試,但是由于識(shí)別器的誤差以及其他語(yǔ)音的混雜測(cè)試,得到的識(shí)別結(jié)果不甚理想;文獻(xiàn)[6]在說(shuō)話人識(shí)別模型訓(xùn)練階段,通過(guò)使用卷積變換(Convolutional Transformation, ConvTran)等方法訓(xùn)練了一個(gè)針對(duì)于耳語(yǔ)語(yǔ)音的通用高斯背景模型(Universal Background Model, UBM),使系統(tǒng)性能有了一定提高;文獻(xiàn)[7]中,通過(guò)使用聯(lián)合密度高斯混合模型(Gaussian Mixture Model, GMM)映射法補(bǔ)償梅爾倒譜系數(shù)(Mel Frequency Cepstral Coefficient, MFCC)特征,一定程度上改善了高喊語(yǔ)音對(duì)說(shuō)話人系統(tǒng)性能的影響;文獻(xiàn)[8]中提出的使用不同的頻譜分析計(jì)算MFCC特征,但是實(shí)驗(yàn)結(jié)果表明不同頻譜分析方法之間性能差距較小,對(duì)說(shuō)話人識(shí)別系統(tǒng)性能提升也不夠明顯。
與上述研究?jī)H側(cè)重模型層面或特征層面不同,本文將同時(shí)從模型與特征著手,基于對(duì)不同發(fā)聲力度下語(yǔ)音的聲學(xué)特性以及模型分布與偏倚情況的分析,提出了不同發(fā)聲力度語(yǔ)音可以看作特殊子空間的假設(shè),使用最大后驗(yàn)概率(Maximum A Posteriori, MAP)+約束最大似然線性回歸(Constraint Maximum Likelihood Linear Regression, CMLLR)的方法更新模型、投影轉(zhuǎn)換特征,從而解決訓(xùn)練與測(cè)試語(yǔ)音失配的問(wèn)題,提高說(shuō)話人識(shí)別系統(tǒng)性能。
1.1 正常、耳語(yǔ)、高喊語(yǔ)音聲學(xué)特性分析
2010年,NIST說(shuō)話人評(píng)測(cè)提供給參賽單位的Tarball數(shù)據(jù)庫(kù)中,包括了低發(fā)聲力度、正常發(fā)聲力度、高發(fā)聲力度三種情況下的語(yǔ)音,結(jié)合在文獻(xiàn)[4-5]中對(duì)耳語(yǔ)(whisper)、輕聲(soft)、正常(normal)、大聲(louder)、高喊(shouted)五種量級(jí)語(yǔ)音的聲學(xué)特性的分析以及文獻(xiàn)[5]中的說(shuō)話人識(shí)別的結(jié)果,本文僅討論耳語(yǔ)(whisper)、正常(normal)、高喊(shouted)三個(gè)量級(jí)的語(yǔ)音。
不同發(fā)聲力度下的正常、耳語(yǔ)、高喊語(yǔ)音其發(fā)音方式各有不同。正常語(yǔ)音是通過(guò)聲帶的周期性振動(dòng),使聲門(mén)處的空氣流入咽部、口腔、鼻腔產(chǎn)生;耳語(yǔ)語(yǔ)音產(chǎn)生時(shí),聲帶雖然保持著打開(kāi)狀態(tài)但并不發(fā)生振動(dòng);高喊語(yǔ)音產(chǎn)生時(shí),增加了肺部用力,繼而聲帶產(chǎn)生快速的周期性振動(dòng)并且?guī)в忻黠@的聲音激勵(lì)[7];同時(shí),由于不同發(fā)聲力度下的語(yǔ)音其聲壓、頻率、頻譜各有不同,從而導(dǎo)致不同發(fā)聲力度下的語(yǔ)音音量分貝也各有不同[9]。所以從直觀角度來(lái)看,通過(guò)發(fā)聲方式確定發(fā)聲力度與通過(guò)音量分貝確定發(fā)聲力度存在著一定的聯(lián)系。
本文使用同一個(gè)人在不同發(fā)聲力度下對(duì)同一句話的演繹,分析正常、耳語(yǔ)、高喊語(yǔ)音的部分聲學(xué)特征,其寬帶語(yǔ)譜與共振峰如圖1所示。
首先,由圖1可知,耳語(yǔ)語(yǔ)音因其獨(dú)特的發(fā)音方式,不存在基頻結(jié)構(gòu)[6];而高喊語(yǔ)音較與正常語(yǔ)音相比,其基頻結(jié)構(gòu)向高頻位置發(fā)生了一定的偏移[10]。其次,頻譜能量按照高喊、正常、耳語(yǔ)的順序由強(qiáng)變?nèi)?,且具有耳語(yǔ)、正常、高喊語(yǔ)音頻譜能量分別主要分布在高頻段、低頻段、均勻分布的特點(diǎn)。最后,不同發(fā)聲力度下的語(yǔ)音共振峰也發(fā)生了明顯的變化,高喊語(yǔ)音的基頻(F0)與第一共振峰(F1)相比正常語(yǔ)音向高頻處產(chǎn)生了偏移[6];耳語(yǔ)語(yǔ)音的第一共振峰(F1)和第二共振峰(F2)相比正常語(yǔ)音也向高頻處產(chǎn)生了偏移且?guī)捵儗抂11]。
1.2 模型分布可視化
在說(shuō)話人識(shí)別中,特征通過(guò)一定的算法被訓(xùn)練為模型。由于在基于高斯混合模型-通用背景模型(Gaussian Mixture Model-Universal Background Model, GMM-UBM)的說(shuō)話人識(shí)別系統(tǒng)中,GMM的均值向量最能體現(xiàn)特征在特征空間上的分布特性,所以本文中將采用t-分布鄰域嵌入(t-Stochastic Neighbor Embedding,t-SNE)降維算法,將某一高斯混合的均值向量從高維空間按照最大區(qū)分的方向,投影到低維度的二維空間上,從而可以直觀地觀察到同一說(shuō)話人不同發(fā)聲力度語(yǔ)音模型均值向量的位置分布以及它們之間相對(duì)位置的偏移情況,繼而體現(xiàn)出說(shuō)話人區(qū)分性信息的變化。圖2是三種語(yǔ)音模型均值向量在二維空間的分布示意圖,其中三種語(yǔ)音均取同一個(gè)高斯混合進(jìn)行降維,二維空間的均值向量用(X,Y)表示,nor表示正常語(yǔ)音模型均值向量,wh表示耳語(yǔ)語(yǔ)音模型均值向量,sh表示高喊語(yǔ)音模型均值向量。
圖1 三個(gè)量級(jí)語(yǔ)音的寬帶語(yǔ)譜與共振峰
圖2 語(yǔ)音模型均值向量在二維空間的分布示意圖
圖2中,同一個(gè)人的不同類(lèi)型語(yǔ)音模型的均值向量之間由一根直線進(jìn)行連接,這個(gè)線條的長(zhǎng)短表示了模型之間的位置的偏移。耳語(yǔ)語(yǔ)音與高喊語(yǔ)音模型分別與正常語(yǔ)音模型存在明顯的偏移,且耳語(yǔ)語(yǔ)音與高喊語(yǔ)音模型分別與正常語(yǔ)音模型相互穿插,嚴(yán)重混淆了正常語(yǔ)音的模型分布,使得說(shuō)話人的區(qū)分性降低。
通過(guò)對(duì)正常、耳語(yǔ)、高喊語(yǔ)音聲學(xué)特性以及t-SNE降維后三種語(yǔ)音模型位置與相對(duì)位置偏移的可視化分析,充分說(shuō)明了正常、耳語(yǔ)、高喊語(yǔ)音之間存在明顯差異。所以,本文提出耳語(yǔ)語(yǔ)音與高喊語(yǔ)音的特征可以看作相對(duì)獨(dú)立且穩(wěn)定的特殊特征子空間的假設(shè),通過(guò)使用模型更新或特征投影轉(zhuǎn)換的方法,學(xué)習(xí)或削弱耳語(yǔ)、高喊語(yǔ)音的區(qū)分性信息,減少耳語(yǔ)、高喊語(yǔ)音區(qū)分性信息對(duì)說(shuō)話人區(qū)分性的影響。
MAP是一種貝葉斯方法,它引入了模型參數(shù)分布的先驗(yàn)信息,利用有限的數(shù)據(jù),以模型參數(shù)后驗(yàn)概率最大為準(zhǔn)則對(duì)模型參數(shù)進(jìn)行重新估計(jì)。在GMM-UBM框架中,由于參數(shù)中均值向量對(duì)識(shí)別結(jié)果的影響最大,所以,在此僅對(duì)均值進(jìn)行重新估計(jì)[12]。
(1)
此方案使用前提為訓(xùn)練語(yǔ)音中除了正常語(yǔ)音數(shù)據(jù)外,還存在少量的耳語(yǔ)、高喊語(yǔ)音數(shù)據(jù)。MAP自適應(yīng)方法利用少量的耳語(yǔ)、高喊語(yǔ)音更新了正常語(yǔ)音訓(xùn)練的說(shuō)話人模型,使更新后的模型學(xué)習(xí)到了耳語(yǔ)、高喊語(yǔ)音帶有的區(qū)分性信息,能改善訓(xùn)練與測(cè)試語(yǔ)音數(shù)據(jù)的失配。MAP自適應(yīng)方法的測(cè)試方案如圖3所示。
圖3 基于MAP自適應(yīng)方法的說(shuō)話人識(shí)別
假設(shè)耳語(yǔ)語(yǔ)音與高喊語(yǔ)音的特征都是一個(gè)特殊的獨(dú)立子空間,并且與原始的正常語(yǔ)音特征空間存在著一定的對(duì)應(yīng)關(guān)系,那么就可以用一組與耳語(yǔ)、高喊語(yǔ)音相關(guān)的線性變化來(lái)使耳語(yǔ)語(yǔ)音與高喊語(yǔ)音分別與正常語(yǔ)音的特征空間相互投影,互相學(xué)習(xí)之間的區(qū)分性信息。最大似然線性回歸(MaximumLikelihoodLinearRegression,MLLR)方法最早由劍橋語(yǔ)音小組提出,該方法可以用較少的訓(xùn)練數(shù)據(jù)學(xué)習(xí)出兩組數(shù)據(jù)之間的差異得到轉(zhuǎn)換矩陣,從而改善數(shù)據(jù)之間的偏移。在GMM-UBM框架中,不同混合中的均值向量最能體現(xiàn)說(shuō)話人的區(qū)分性,所以在MLLR的方法中,僅考慮了均值向量的變化,保持協(xié)方差矩陣不變。
根據(jù)文獻(xiàn)[13-14]可知MLLR方法:
μm=Aμ+b=Wξm
(2)
其中:μm代表第m個(gè)高斯分量的均值向量,ξm是擴(kuò)展的均值向量,W是涉及偏移的三角矩陣。用最大似然方法來(lái)優(yōu)化W,得到如下計(jì)算公式:
(3)
(4)
(5)
其中:τ代表時(shí)間,oi(τ)是在τ時(shí)刻特征向量的第i個(gè)元素,γm(τ)是oi(τ)屬于第m個(gè)高斯分量的概率,σm(i)是第m個(gè)分量的標(biāo)準(zhǔn)差向量的第i個(gè)元素。
該方法使用時(shí),訓(xùn)練語(yǔ)音中無(wú)需存在耳語(yǔ)、高喊語(yǔ)音。若MLLR轉(zhuǎn)換矩陣訓(xùn)練有效,那么由正常語(yǔ)音訓(xùn)練說(shuō)話人模型經(jīng)過(guò)投影轉(zhuǎn)換后,將會(huì)學(xué)習(xí)到耳語(yǔ)、高喊語(yǔ)音的區(qū)分性信息,從而改善訓(xùn)練與測(cè)試語(yǔ)音的失配問(wèn)題。MLLR訓(xùn)練測(cè)試如圖4所示。
圖4 基于MLLR模型投影的說(shuō)話人識(shí)別
CMLLR(ConstraintMLLR)方法在MLLR方法的基礎(chǔ)上增加一定的約束條件,以實(shí)現(xiàn)對(duì)說(shuō)話人模型均值與方差同步更新[15]。CMLLR的學(xué)習(xí)過(guò)程類(lèi)似于MLLR,但特別的是,由于CMLLR方法認(rèn)為說(shuō)話人模型均值與方差共享同一轉(zhuǎn)換矩陣,所以,對(duì)模型的轉(zhuǎn)換相當(dāng)于在特征空間對(duì)特征進(jìn)行轉(zhuǎn)換。若CMLLR轉(zhuǎn)換矩陣有效,那么經(jīng)過(guò)投影轉(zhuǎn)換后的測(cè)試語(yǔ)音中的耳語(yǔ)、高喊的區(qū)分性信息將會(huì)被削弱,所以該方法同樣改善了訓(xùn)練與測(cè)試語(yǔ)音之間的失配問(wèn)題。CMLLR方法的測(cè)試方案如圖5所示。
圖5 基于CMLLR特征空間投影的說(shuō)話人識(shí)別
MAP自適應(yīng)方法充分使用訓(xùn)練語(yǔ)音中存在的少量耳語(yǔ)和高喊語(yǔ)音數(shù)據(jù)來(lái)更新正常語(yǔ)音訓(xùn)練的說(shuō)話人模型,使更新后的說(shuō)話人模型帶有耳語(yǔ)、高喊語(yǔ)音的區(qū)分性信息,從而改善訓(xùn)練語(yǔ)音與測(cè)試語(yǔ)音的失配;而CMLLR特征空間投影方法則是利用較少的包含正常語(yǔ)音、耳語(yǔ)、高喊的訓(xùn)練語(yǔ)音數(shù)據(jù)學(xué)習(xí)出兩兩數(shù)據(jù)之間的差異,從而生成一個(gè)通用的投影矩陣,經(jīng)過(guò)該投影矩陣轉(zhuǎn)換后的耳語(yǔ)、高喊測(cè)試語(yǔ)音其帶有的耳語(yǔ)、高喊區(qū)分性信息將會(huì)被削弱,同樣實(shí)現(xiàn)了改善訓(xùn)練語(yǔ)音與測(cè)試語(yǔ)音的失配問(wèn)題。
雖然MAP自適應(yīng)方法與CMLLR特征空間投影方法看似是一個(gè)相互抵消、矛盾的過(guò)程,但實(shí)際上這兩種方法結(jié)合起來(lái)共同作用,相當(dāng)于共同向著削弱與學(xué)習(xí)耳語(yǔ)、高喊語(yǔ)音區(qū)分性信息中間的一個(gè)平衡點(diǎn)靠攏,當(dāng)學(xué)習(xí)到耳語(yǔ)、高喊語(yǔ)音區(qū)分性信息的模型與削弱了耳語(yǔ)、高喊語(yǔ)音區(qū)分性信息的測(cè)試語(yǔ)音特征達(dá)到一個(gè)平衡點(diǎn)時(shí),兩者相互制衡,說(shuō)話人區(qū)分性信息將得以突出,說(shuō)話人識(shí)別系統(tǒng)性能勢(shì)必得以提升。將這一方法稱(chēng)為MAP+CMLLR方法, 其方案如圖6所示。
圖6 基于MAP+CMLLR的說(shuō)話人識(shí)別
5.1 基線系統(tǒng)
本實(shí)驗(yàn)數(shù)據(jù)庫(kù)共由30個(gè)人錄制,其中男女各15人,包含正常、耳語(yǔ)、高喊三種類(lèi)型語(yǔ)音,每種語(yǔ)音各22句話。錄音環(huán)境為安靜的實(shí)驗(yàn)室環(huán)境。說(shuō)話人識(shí)別系統(tǒng)基于經(jīng)典的GMM-UBM設(shè)計(jì),特征為13維的MFCC加上其一階導(dǎo)數(shù)和二階導(dǎo)數(shù)一共39維,并采用倒頻譜平均值和方差歸一化來(lái)減少信道、背景噪聲等對(duì)識(shí)別造成的不良影響。
在整個(gè)實(shí)驗(yàn)中遵循著同一組實(shí)驗(yàn)采用同一組測(cè)試數(shù)據(jù)、同一個(gè)基線系統(tǒng)的原則。本實(shí)驗(yàn)基線系統(tǒng)以耳語(yǔ)和高喊語(yǔ)音作為測(cè)試語(yǔ)音提取其13維的MFCC加上其一階導(dǎo)數(shù)和二階導(dǎo)數(shù)一共39維,分別在正常語(yǔ)音訓(xùn)練的GMM-UBM模型上進(jìn)行測(cè)試。由于不同實(shí)驗(yàn)的測(cè)試數(shù)據(jù)的組織不同,導(dǎo)致基線系統(tǒng)性能不同。關(guān)于不同的數(shù)據(jù)組織,將在每組實(shí)驗(yàn)前說(shuō)明。
5.2MAP自適應(yīng)方法
在MAP自適應(yīng)方法性能測(cè)試實(shí)驗(yàn)中,選取全數(shù)據(jù)庫(kù)30人,以正常語(yǔ)音(12句)訓(xùn)練說(shuō)話人模型,正常、耳語(yǔ)、高喊語(yǔ)音(各8句)作為測(cè)試語(yǔ)音,耳語(yǔ)、高喊(各2句)作為自適應(yīng)數(shù)據(jù)。經(jīng)過(guò)識(shí)別打分后,用等錯(cuò)誤率(EqualErrorRate,EER)來(lái)衡量系統(tǒng)性能,結(jié)果如表1所示,更新后模型可視化如圖7所示,其中所有模型均值向量取自同一高斯混合,使用t-SNE方法降維到二維空間的均值向量以(X,Y)表示,nor1、nor2表示正常語(yǔ)音模型均值向量,wh表示耳語(yǔ)語(yǔ)音模型均值向量,sh表示高喊語(yǔ)音模型均值向量,MAPwh表示經(jīng)耳語(yǔ)語(yǔ)音通過(guò)MAP自適應(yīng)方法更新后的正常語(yǔ)音模型均值向量nor2,MAPsh表示經(jīng)高喊語(yǔ)音通過(guò)MAP自適應(yīng)方法更新后的正常語(yǔ)音模型均值向量nor2。
表1 MAP自適應(yīng)方法測(cè)試性能
圖7 更新后模型可視化
由表1可以明顯觀察到,當(dāng)訓(xùn)練語(yǔ)音中存在少量耳語(yǔ)、高喊語(yǔ)音(1條自適應(yīng)語(yǔ)音)的前提下,MAP自適應(yīng)方法使得說(shuō)話人識(shí)別系統(tǒng)EER明顯降低;并且,隨著自適應(yīng)數(shù)據(jù)(2條自適應(yīng)語(yǔ)音)的增多,系統(tǒng)性能穩(wěn)步提升,體現(xiàn)了MAP自適應(yīng)方法良好的漸進(jìn)性。
同時(shí),圖7顯示了經(jīng)過(guò)更新后模型的均值向量在低維度的二維空間的位置分布,兩種語(yǔ)音模型的均值向量之間連接線條的長(zhǎng)短表示了模型之間的位置的偏移。由圖(b)、(c)分別與圖(a)對(duì)比可見(jiàn),耳語(yǔ)語(yǔ)音或高喊語(yǔ)音通過(guò)MAP自適應(yīng)方法更新后的正常語(yǔ)音模型與原正常語(yǔ)音模型之間位置發(fā)生了明顯的偏移,模型之間相互混雜。由此說(shuō)明了經(jīng)過(guò)耳語(yǔ)語(yǔ)音或高喊語(yǔ)音MAP自適應(yīng)更新后的正常語(yǔ)音模型學(xué)習(xí)到了耳語(yǔ)、高喊語(yǔ)音的區(qū)分性信息,從而與原正常語(yǔ)音模型產(chǎn)生了偏移。由圖(d)與圖(e)、圖(f)與圖(g)對(duì)比可以直觀看到,經(jīng)過(guò)耳語(yǔ)語(yǔ)音或高喊語(yǔ)音通過(guò)MAP自適應(yīng)方法更新后的正常語(yǔ)音模型與原耳語(yǔ)、高喊語(yǔ)音模型不再相互混雜,且更新后的正常語(yǔ)音與耳語(yǔ)、高喊語(yǔ)音模型之間的平均距離偏移減小。說(shuō)明經(jīng)過(guò)耳語(yǔ)語(yǔ)音與高喊語(yǔ)音通過(guò)MAP自適應(yīng)更新后正常語(yǔ)音模型學(xué)習(xí)到了耳語(yǔ)、高喊語(yǔ)音的區(qū)分性信息,從而分別與耳語(yǔ)語(yǔ)音模型、高喊語(yǔ)音模型之間的偏移得到了明顯改善。
5.3MLLR、CMLLR及MAP+CMLLR方法
為了滿(mǎn)足存在少量耳語(yǔ)、高喊語(yǔ)音情況,此處統(tǒng)一選擇耳語(yǔ)、高喊語(yǔ)音各2條作為自適應(yīng)語(yǔ)音數(shù)據(jù),針對(duì)全數(shù)據(jù)庫(kù)30人,分別選用10人、14人、20人作為開(kāi)發(fā)集,10人作為評(píng)估集(12條正常語(yǔ)音訓(xùn)練說(shuō)話人模型;三個(gè)量級(jí)各8條語(yǔ)音作測(cè)試)。經(jīng)過(guò)識(shí)別打分后,用EER來(lái)衡量系統(tǒng)性能,測(cè)試性能如表2所示。
由表2可知,首先,MLLR方法與CMLLR方法的單獨(dú)使用均對(duì)說(shuō)話人識(shí)別系統(tǒng)有著一定的提升。特別的是,在不同開(kāi)發(fā)集下,CMLLR方法改善效果均優(yōu)于MLLR方法,并且隨著開(kāi)發(fā)集人數(shù)增加,MLLR與CMLLR方法改善系統(tǒng)性能效果也逐漸提升。當(dāng)開(kāi)發(fā)集人數(shù)達(dá)到20人時(shí),CMLLR方法使得測(cè)試語(yǔ)音為耳語(yǔ)、高喊情況下說(shuō)話人識(shí)別系統(tǒng)分別提高了16.6%和12.6%。其次,使用MAP+CMLLR方法對(duì)說(shuō)話人識(shí)別性能的提升優(yōu)于單獨(dú)使用MAP與CMLLR方法,但是,耳語(yǔ)與高喊使用MAP+CMLLR方法所需開(kāi)發(fā)集人數(shù)不同,當(dāng)開(kāi)發(fā)集人數(shù)為14人時(shí),高喊語(yǔ)音使用MAP+CMLLR的方法取得了最佳效果,使其EER比基線降低了85.6%;當(dāng)開(kāi)發(fā)集人數(shù)為20人時(shí),耳語(yǔ)語(yǔ)音使用MAP+CMLLR方法取得了最佳效果,使其EER比基線降低了64.9%。究其原因是因?yàn)樵诎l(fā)聲方式、聲學(xué)特性等方面,高喊語(yǔ)音相比耳語(yǔ)語(yǔ)音與正常語(yǔ)音更為接近,當(dāng)對(duì)模型更新的自適應(yīng)語(yǔ)音數(shù)據(jù)固定時(shí),高喊語(yǔ)音能夠通過(guò)使用較少開(kāi)發(fā)集人數(shù)的轉(zhuǎn)移矩陣達(dá)到MAP+CMLLR方法改善性能最優(yōu)的平衡點(diǎn)。最后,MAP+CMLLR雖然比CMLLR方法性能提升明顯,但相比MAP自適應(yīng)方法提升不是很大,究其原因是MAP自適應(yīng)方法通過(guò)使用測(cè)試者語(yǔ)音預(yù)留時(shí)少量的耳語(yǔ)、高喊語(yǔ)音數(shù)據(jù),學(xué)習(xí)到了豐富的耳語(yǔ)、高喊語(yǔ)音的區(qū)分性信息,而且MAP自適應(yīng)方法具有良好的漸進(jìn)性,可以使得更新后的正常語(yǔ)音模型非常近似于耳語(yǔ)或高喊語(yǔ)音模型。然而CMLLR方法采用的是與測(cè)試者無(wú)關(guān)的開(kāi)發(fā)集訓(xùn)練的投影轉(zhuǎn)換矩陣對(duì)測(cè)試語(yǔ)音的耳語(yǔ)或高喊區(qū)分性信息進(jìn)行削弱,其學(xué)習(xí)與削弱能力不及MAP自適應(yīng)方法的學(xué)習(xí)能力。MAP+CMLLR方法是在MAP自適應(yīng)更新模型的同時(shí)利用CMLLR方法對(duì)測(cè)試語(yǔ)音進(jìn)行投影轉(zhuǎn)換,使用MAP+CMLLR方法后的說(shuō)話人識(shí)別系統(tǒng)可以看作是一個(gè)削弱了一定程度的耳語(yǔ)或高喊語(yǔ)音區(qū)分性信息的耳語(yǔ)或高喊測(cè)試語(yǔ)音在學(xué)習(xí)到了豐富耳語(yǔ)或高喊區(qū)分性信息的正常語(yǔ)音模型上測(cè)試,所以才會(huì)出現(xiàn)MAP+CMLLR方法相比MAP自適應(yīng)方法提升不大,相比CMLLR方法提升明顯的現(xiàn)象。
表2 EER性能測(cè)試結(jié)果對(duì)比
本文基于對(duì)不同發(fā)聲力度下正常、耳語(yǔ)、高喊語(yǔ)音的聲學(xué)特征以及其在低維空間中模型分布、模型之間相對(duì)位置偏移的分析,討論了MAP自適應(yīng)方法、MLLR模型投影方法、CMLLR特征空間投影方法在改善說(shuō)話人識(shí)別系統(tǒng)性能上的使用前提與效果,提出了使用MAP+CMLLR方法實(shí)現(xiàn)對(duì)說(shuō)話人模型更新的同時(shí)對(duì)測(cè)試語(yǔ)音進(jìn)行投影轉(zhuǎn)換。實(shí)驗(yàn)結(jié)果表明,可以充分利用訓(xùn)練語(yǔ)音中存在少量耳語(yǔ)、高喊語(yǔ)音數(shù)據(jù),使用MAP+CMLLR方法,該方法對(duì)說(shuō)話人系統(tǒng)性能改善效果優(yōu)于單獨(dú)使用MAP、CMLLR方法,從而使說(shuō)話人識(shí)別系統(tǒng)更具有魯棒性。
)
[1]TRAUNMüLLERH,ERIKSSONA.Acousticeffectsofvariationinvocaleffortbymen,women,andchildren[J].TheJournaloftheAcousticalSocietyofAmerica, 2000, 107(6): 3438-3451.
[2] 黃庭.情感說(shuō)話人識(shí)別中的基頻失配及其補(bǔ)償方法研究[D].杭州:浙江大學(xué),2011:136-139. (HUANGT.Researchonpitchmismatchanditscompensationmethodsinemotionalspeakerrecognition[D].Hangzhou:ZhejiangUniversity, 2011: 136-139.)
[3]BRUNGARTDS,SCOTTKR,SIMPSONBD.Theinfluenceofvocaleffortonhumanspeakeridentification[C]//INTERSPEECH2001:Proceedingsofthe7thEuropeanConferenceonSpeechCommunicationandTechnology, 2ndINTERSPEECHEvent. [S.l.]:ISCA, 2001: 747-750.
[4] 晁浩,宋成,彭維平.基于發(fā)音特征的聲效相關(guān)魯棒語(yǔ)音識(shí)別算法[J].計(jì)算機(jī)應(yīng)用,2015,35(1):257-261. (CHAOH,SONGC,PENGWP.Robustspeechrecognitionalgorithmbasedonarticulatoryfeaturesforvocaleffortvariability[J].JournalofComputerApplications, 2015, 35(1): 257-261.)
[5]ZHANGC,HANSENJHL.Analysisandclassificationofspeechmode:whisperedthroughshouted[C]//INTERSPEECH2007:Proceedingsofthe8thAnnualConferenceoftheInternationalSpeechCommunicationAssociation. [S.l.]:ISCA, 2007: 2289-2292.
[6]FANX,HANSENJHL.Acousticanalysisandfeaturetransformationfromneutraltowhisperforspeakeridentificationwithinwhisperedspeechaudiostreams[J].SpeechCommunication, 2013, 55(1): 119-134.
[7]HANIL?IC,KINNUNENT,SAEIDIR,etal.Speakeridentificationfromshoutedspeech:analysisandcompensation[C]//ICASSP2013:Proceedingsofthe2013IEEEInternationalConferenceonAcoustics,Speech,andSignalProcessing.Piscataway,NJ:IEEE, 2013: 8027-8031.
[8]POHIALAINENJ,HANILCIC,KINNUNENT,etal.Mixturelinearpredictioninspeakerverificationundervocaleffortmismatch[J].IEEESignalProcessingLetters, 2014, 21(12): 1516-1520
[9] 熊子瑜.Praat語(yǔ)音軟件使用手冊(cè)[EB/OL].[2016- 09- 09].http://www.doc88.com/p-943562730984.html. (XIONGZY.Themanualofpraatspeechsoftware[EB/OL]. [2016- 09- 09].http://www.doc88.com/p-943562730984.html.)
[10]THOMASIB.Perceivedpitchofwhisperedvowels[J].TheJournaloftheAcousticalSocietyofAmerica, 1969, 46(2B): 468-470.
[11] 王琰蕾.基于JFA的漢語(yǔ)耳語(yǔ)音說(shuō)話人識(shí)別[D].蘇州:蘇州大學(xué),2010:25-28. (WANGYL.SpeakeridentificationinChinesewhisperedspeechbasedonsimplifiedjointfactoranalysis[D].Suzhou:SoochowUniversity, 2010: 25-28.)
[12]LEEC-H,LINC-H,JUANGB-H.AstudyonspeakeradaptationoftheparametersofcontinuousdensityhiddenMarkovmodels[J].IEEETransactionsonSignalProcessing, 1991, 39(4): 806-814.
[13]LEGGETTERCJ,WOODLANDPC.MaximumlikelihoodlinearregressionforspeakeradaptationofcontinuousdensityhiddenMarkovmodels[J].ComputerSpeech&Language, 1995, 9(2): 171-185.
[14]GALESMJF,WOODLANDPC.MeanandvarianceadaptationwithintheMLLRframework[J].ComputerSpeech&Language, 1996, 10(4): 249-264.
[15]GALESMJF.MaximumlikelihoodlineartransformationsforHMM-basedspeechrecognition[J].ComputerSpeech&Language, 1998, 12(2): 75-98.
ThisworkispartiallysupportedbytheSocialResearchPlanofGuizhouProvince(20133015),theEngineeringTechnologyResearchCenterConstructionProjectofGuizhouProvince(20144002).
HUANG Wenna, born in 1990, M. S. candidate. Her research interest include speaker recognition.
PENG Yaxiong, born in 1963, associate professor. His research interests include signal processing.
HE Song, born in 1970, M. S., associate professor. His research interests include signal processing.
Vocal effort in speaker recognition based on MAP+CMLLR
HUANG Wenna, PENG Yaxiong*, HE Song
(CollegeofBigDataandInformationEngineering,GuizhouUniversity,GuiyangGuizhou550025,China)
To improve the performance of recognition system which is influenced by the change of vocal effort, in the premise of a small amount of whisper and shouted speech data in training speech data, Maximum A Posteriori (MAP) and Constraint Maximum Likelihood Linear Regression (CMLLR) were combined to update the speaker model and transform the speaker characteristics. MAP adaption method was used to update the speaker model of normal speech training, and the CMLLR feature space projection method was used to project and transform the features of whisper and shouted testing speech to improve the mismatch between training speech and testing speech. Experimental results show that the Equal Error Rate (EER) of speaker recognition system was significantly reduced by using the proposed method. Compared with the baseline system, MAP adaptation method, Maximum Likelihood Linear Regression (MLLR) model projection method and CMLLR feature space projection method, the average EER is reduced by 75.3%, 3.5%, 72%, 70.9%, respectively. The experimental results prove that the proposed method weakens the influence on discriminative power for vocal effort and makes the speaker recognition system more robust to vocal effort variability.
speaker recognition; vocal effort; Maximum A Posteriori (MAP); Maximum Likelihood Linear Regression (MLLR); Constraint Maximum Likelihood Linear Regression (CMLLR)
2016- 07- 22;
2016- 09- 17。
貴州省社會(huì)攻關(guān)計(jì)劃項(xiàng)目(黔科合SY字[2013]3105 號(hào));貴州省工程技術(shù)研究中心建設(shè)項(xiàng)目(黔科合G字[2014]4002號(hào))。
黃文娜(1990—),女,貴州赤水人,碩士研究生,主要研究方向:說(shuō)話人識(shí)別; 彭亞雄(1963—),男,貴州遵義人,副教授,主要研究方向:信號(hào)處理; 賀松(1970—),男,貴州貴陽(yáng)人,副教授,碩士,主要研究方向:信號(hào)處理。
1001- 9081(2017)03- 0906- 05
10.11772/j.issn.1001- 9081.2017.03.906
TP391.4
A