朱宇軒
(西華大學(xué),四川 成都 610039)
基于高斯混合模型的說(shuō)話(huà)人識(shí)別研究
朱宇軒
(西華大學(xué),四川 成都 610039)
摘要:說(shuō)話(huà)人識(shí)別本質(zhì)上是一個(gè)模式識(shí)別問(wèn)題,而模式識(shí)別系統(tǒng)的目標(biāo)是要在表示空間和解釋空間之間找到一種映射關(guān)系。高斯分布又稱(chēng)為正態(tài)分布,是一個(gè)在數(shù)學(xué)、物理及工程領(lǐng)域都非常重要的連續(xù)分布函數(shù),它描述了一種圍繞某個(gè)單值聚集分布的隨機(jī)變量。
關(guān)鍵詞:高斯分布;隨機(jī)變量
1引言
在實(shí)際生活中,許多物理現(xiàn)象以及各種心理學(xué)測(cè)試分?jǐn)?shù)都近似地服從高斯分布。在統(tǒng)計(jì)學(xué)以及許多統(tǒng)計(jì)測(cè)試中高斯分布也是應(yīng)用最廣泛的一類(lèi)分布。高斯混合模型(Gaussian Mixture Model,GMM)是單一高斯密度函數(shù)的擴(kuò)展,由于高斯混合模型可以逼近任意形狀的概率密度分布,所以高斯混合模型被廣泛的運(yùn)用到各種領(lǐng)域,如語(yǔ)音識(shí)別,圖像識(shí)別等,并取得了理想的效果。
2GMM模型基本概念
GMM混合模型可以看作一種狀態(tài)數(shù)為1的連續(xù)分布的隱馬爾可夫模型CDHMM。它是用M個(gè)單高斯分布的線(xiàn)性組合來(lái)描述幀特征在特征空間中的分布。一個(gè)M階的混合高斯模型的概率密度函數(shù)可以由M個(gè)單高斯概率密度函數(shù)加權(quán)和得到,其表達(dá)式如下:
(1)
式中:X是一個(gè)D維隨機(jī)向量;M是混合模型的階數(shù);ωi,i=1,…,M是混合權(quán)重,且其滿(mǎn)足以下條件:
(2)
bi(X),i=1,2,…,M是子分布,每個(gè)子分布是D維的聯(lián)合高斯概率分布,可表示為:
(3)
式中,μi是均值向量,Σi是協(xié)方差矩陣。
整個(gè)高斯混合模型可以通過(guò)參數(shù)均值向量、協(xié)方差矩陣和混合權(quán)重來(lái)描述。所以高斯模型λ可以表示為:
λ={ωi,μi,∑i},i=1,…M
(4)
3GMM模型的訓(xùn)練
GMM模型的訓(xùn)練就是給定一組訓(xùn)練數(shù)據(jù),依據(jù)某種準(zhǔn)則確定模型的參數(shù)。最常用的參數(shù)估計(jì)方法是最大似然(Mxaimum Likehhood,簡(jiǎn)稱(chēng)為ML)估計(jì)。最大似然估計(jì)是把待估計(jì)的量看成固定但未知的量,然后求出能夠使學(xué)習(xí)樣本出現(xiàn)概率最大的參數(shù)值,并把它作為參數(shù)的估值。GMM模型參數(shù)的初始化有兩種不同的方法:第一種是使用一個(gè)與說(shuō)話(huà)人無(wú)關(guān)的HMM模型對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行自動(dòng)分段。訓(xùn)練數(shù)據(jù)語(yǔ)音幀根據(jù)其特征分到M個(gè)不同的類(lèi)中(M為混合高斯分量的個(gè)數(shù)),與初始的M個(gè)高斯分量相對(duì)應(yīng)。每個(gè)類(lèi)的均值和方差作為模型的初始化參數(shù)。第二種方法從訓(xùn)練數(shù)據(jù)序列中隨機(jī)選擇M個(gè)矢量作為模型的初始化參數(shù)。盡管有實(shí)驗(yàn)證明EM算法對(duì)于初始化參數(shù)的選擇并不敏感,但是第一種方法訓(xùn)練要優(yōu)于第二種方法。
另外由于條件的限制,通常得不到充分語(yǔ)音數(shù)據(jù)對(duì)模型參數(shù)進(jìn)行訓(xùn)練。GMM模型的協(xié)方差矩陣的一些分量可能會(huì)很小,這些很小的值對(duì)模型參數(shù)的似然對(duì)函數(shù)影響很大,嚴(yán)重影響系統(tǒng)的性能。為了避免小的值對(duì)系統(tǒng)性能的影響,在EM算法的迭代計(jì)算中,可以對(duì)協(xié)方差的值設(shè)置一個(gè)門(mén)限值,在訓(xùn)練過(guò)程中令協(xié)方差的值不小于設(shè)定的門(mén)限值。門(mén)限值設(shè)置可通過(guò)觀(guān)察協(xié)方差矩陣來(lái)定,一般情況下,決大多數(shù)值都大于0.0001。只有極少數(shù)值在這個(gè)范圍之外,為此,可將門(mén)限值設(shè)置為0.001。
4GMM模型的識(shí)別
圖1 GMM模型的說(shuō)話(huà)人性別識(shí)別系統(tǒng)結(jié)構(gòu)框圖
根據(jù)貝葉斯理論,最大后驗(yàn)概率可表示為:
(5)
(6)
其對(duì)數(shù)形式為:
(7)
由于P(λt)的先驗(yàn)概率未知,我們假定該語(yǔ)音信號(hào)被判別為男聲和女聲的可能性相等,即:
(8)
對(duì)于一個(gè)確定的觀(guān)察值矢量X,P(X)是一個(gè)確定的常數(shù)值,對(duì)男聲和女聲模板相等。因此求取后驗(yàn)概率的最大值可以通過(guò)求取P(X/λi)獲得,所以識(shí)別該語(yǔ)音是男聲還是女聲可以表示為:
i*=argmaxP(X/λi),i=1,2
(9)
式中:i*即為識(shí)別出的說(shuō)話(huà)人性別最大概率。
5總結(jié)
考慮到高斯函數(shù)對(duì)真實(shí)數(shù)據(jù)的較好描述,另外由于高斯函數(shù)的線(xiàn)性組合仍然是高斯函數(shù),而且在理論上任意形式的總體分布都可以用若干個(gè)高斯函數(shù)的混合來(lái)逼近。所以采用高斯混合函數(shù)來(lái)估計(jì)語(yǔ)音特征的概率分布,這樣就得到了說(shuō)話(huà)人的高斯混合模型。
參考文獻(xiàn):
[1]吳朝暉,楊瑩春. 說(shuō)話(huà)人識(shí)別模型與方法[M].北京:電子工業(yè)出版社,1995.
[2]鄧英, 歐貴文.基于HMM的性別識(shí)別[J].計(jì)算機(jī)工程與應(yīng)用, 40(15): 74-75.
作者簡(jiǎn)介:朱宇軒,性別:男,民族:漢族,籍貫: 四川南充,職務(wù):工人,學(xué)歷:大學(xué)本科,單位:西華大學(xué),研究方向:電子,計(jì)算機(jī)。
中圖分類(lèi)號(hào):TN915
文獻(xiàn)標(biāo)志碼:A
文章編號(hào):1671-1602(2016)12-0136-01