朱宇軒
(西華大學(xué),四川 成都 610039)
?
淺談?wù)f話人識別方法
朱宇軒
(西華大學(xué),四川 成都 610039)
摘要:信息技術(shù)的發(fā)展使得生物識別技術(shù)越來越成熟,并在人們的生活中具有重要的作用。生物識別技術(shù),就是提取人體固有的生理特征和行為特征,利用計算機等高科技方法進行識別。生物識別技術(shù)主要包括指紋識別、人臉識別、虹膜識別、還有本文要介紹的語音識別中的說話人識別,也叫做聲紋識別。
關(guān)鍵詞:信息技術(shù);生物識別
1引言
1945年,Bell實驗室的L.G.Kesta目視語譜圖匹配,提出了聲紋的概念。與傳統(tǒng)的身份識別方法相比,生物識別技術(shù)更加方便,它不容易丟失、遺忘或者被盜。目前這些技術(shù)廣泛應(yīng)用與許多領(lǐng)域中,如軍事領(lǐng)域、信息服務(wù)領(lǐng)域、安保環(huán)衛(wèi)領(lǐng)域、公安司法領(lǐng)域等。
一個說話人識別系統(tǒng)如圖1所示,它主要分為兩個階段:訓(xùn)練階段和識別階段。訓(xùn)練階段需要使用者的若干訓(xùn)練語音片段。提取這些語音片段的特征參數(shù)以作為標準對系統(tǒng)進行訓(xùn)練學(xué)習(xí),建立模板或模型參數(shù)參考集。在識別階段時,截取待識別者的語音片段,對其進行特征參數(shù)的提取,然后參照建立的模板或模型參數(shù)參考集進行比較,根據(jù)一定的相似準則進行判定。
2說話人識別分類
說話人識別任務(wù)根據(jù)識別方式的不同,可以分為三類:
說話人確認(Speaker Verification,ASV):判斷一段未知語音是否來自于一個特定人的語音片段,只需輸出“是”或“否”,是一個二元問題。
說話人鑒別(Speaker Identification,ASI):判斷一段未知語音是來自于N個模型中的哪一個人所說的語音片段,多選一問題。
說話人探測跟蹤(Speaker Segmentation and Clustering,SSC):指對一段包含多個說話人的語音,正確標注在這段語音中說話人切換的時刻。在說話人鑒別系統(tǒng)中,可進一步分為開集(open-set)的說話人鑒別和閉集(closed-set)說話人鑒別兩種。閉集說話人鑒別指系統(tǒng)具有這樣的先驗知識:測試的說話人肯定是在訓(xùn)練集中出現(xiàn)過的;反之,所測試的說話人沒有在訓(xùn)練集中出現(xiàn)過的則為開集說話人鑒別。開集的說話人鑒別和說話人確認通常都通過一個閾值來判斷被測試的說話人是不是在訓(xùn)練集中。
3說話人識別模型的分類
(1)模式匹配法:模板匹配法的要點是,在訓(xùn)練過程中從說話人發(fā)出的訓(xùn)練語句中提取相應(yīng)的特征矢量,這些特征矢量能夠充分描寫各個說話人的個性特征。這些特征矢量稱為各個說話人的模板。在測試階段,按同樣的方法在說話人的測試語音里面提取測試模板,根據(jù)與相應(yīng)的參考模板相比較得到匹配程度也就是模板之間的距離來做出判斷。
動態(tài)時間規(guī)整模型(Dynamic Time Warping,DTW)
矢量量化(Vector Quantization,VQ)模型矢量量化技術(shù)是最早是用于聚類分析的數(shù)據(jù)壓縮編碼技術(shù)。它不直接在時域上進行預(yù)處理,而是對倒譜參數(shù)進行聚類,把每個人的特定文本訓(xùn)練成碼本,識別的時候根據(jù)類別失真度進行判別,算法復(fù)雜度不高,且識別精度并不低。目前主要使用方法是作為其他方法的一種初值處理方法。
(2)概率統(tǒng)計方法: 說話人的語音信息在較短時間內(nèi)可看作是平穩(wěn)信息,通過對穩(wěn)態(tài)特性的統(tǒng)計分析,根據(jù)特征參數(shù)的概率分布建立模型,然后可利用均值、方差等統(tǒng)計量和概率密度函數(shù)進行分類判決,適合于文本無關(guān)的說話人識別。
①隱馬爾可夫模型(Hidden Markov Models,HMM)方法隱馬爾可夫模型是一種基于轉(zhuǎn)移概率和輸出概率所建立的隨機模型,可以描述語音隨時間變換的情況。最初的應(yīng)用是從Forward、Backward算法的得分中進行判別,目前也有用HMM進行LVCSR后從音素層面上進行建模判別的,比如建立基于每個音素的GMM模型。HMM對噪聲的魯棒性較低,訓(xùn)練時計算量較大。
②高斯混合模型(Gaussian Mixture Model,GMM)方法高斯模型實際上是一種單狀態(tài)的HMM,通過用多個高斯分布的線性組合來近似多維矢量的連續(xù)概率分布,有效地刻畫了說話人的特征,在與文本無關(guān)的說話人識別中效果比較好。
參考文獻:
[1]吳朝暉,楊瑩春.說話人識別模型與方法[M].北京:電子工業(yè)出版社,1995.
[2]鄧英,歐貴文.基于 HMM 的性別識別[J].計算機工程與應(yīng)用,40(15): 74-75.
作者簡介:朱宇軒,男,漢族,四川南充,工人,大學(xué)本科,西華大學(xué),研究方向:電子、計算機。
中圖分類號:TP18
文獻標志碼:A
文章編號:1671-1602(2016)10-0019-01