于梅
摘 要
與指紋相同,聲紋也是人類特有的生物特征,每個(gè)人的聲紋均是不同的。所以,聲紋可以作為區(qū)分人類個(gè)體的主要生物特征,基于這一特征,研發(fā)出了聲紋識別技術(shù),并且得到了廣泛應(yīng)用。而在聲紋識別技術(shù)中,因數(shù)據(jù)稀疏等問題,實(shí)現(xiàn)區(qū)分性訓(xùn)練的難度較大。為了更好的實(shí)現(xiàn)區(qū)分性訓(xùn)練,本文對聲紋識別中的區(qū)分性訓(xùn)練進(jìn)行了研究,希望本文能為相關(guān)人員的研究工作提供參考價(jià)值。
【關(guān)鍵詞】聲紋 聲紋識別 區(qū)分性訓(xùn)練
互聯(lián)網(wǎng)時(shí)代的到來,加之信息技術(shù)的不斷發(fā)展,使得個(gè)人身份的確認(rèn)、個(gè)人隱私保護(hù)等成為了社會關(guān)注的主要話題。相比于傳統(tǒng)的身份認(rèn)證方式,生物特征識別技術(shù)不僅方便,而且結(jié)果的可靠性、準(zhǔn)確性比較高。而聲紋識別作為現(xiàn)階段一種主要的生物特識別技術(shù),在遠(yuǎn)程認(rèn)證等領(lǐng)域具有比較高的應(yīng)用優(yōu)勢。就現(xiàn)階段的實(shí)際情況來看,聲紋識別技術(shù)的應(yīng)用范圍比較廣泛。例如,國防安全、公安技偵、網(wǎng)絡(luò)支付以及聲紋鎖控等。鑒于此,本文對聲紋識別中的區(qū)分性訓(xùn)練的應(yīng)用進(jìn)行研究,對聲紋識別技術(shù)的發(fā)展具有重要意義。
1 聲紋識別基本概念
聲紋是對說話人語音中,具有代表性的能夠標(biāo)識自身的語音特征,以及在這些參數(shù)基礎(chǔ)上建立起的語言模型的一種總稱,屬于一種行為特征。而聲紋識別指的是一個(gè)過程,即分析語音中的聲紋特征,并以此來對這段語言對應(yīng)的說話人進(jìn)行識別的過程。聲紋與指紋相同,均是獨(dú)一無二的,每個(gè)人聲音中的語音特征以及發(fā)音習(xí)慣均是不同的,無論怎樣模仿,均無法改變說話人最基本的聲道特點(diǎn)以及發(fā)音特征。這便意味著,聲紋具有一定的穩(wěn)定性以及獨(dú)特性?;诼暭y的獨(dú)特性,開發(fā)研究了出了聲紋識別技術(shù),對人類身份的生物特征進(jìn)行識別。
2 聲紋識別中的區(qū)分性訓(xùn)練方法
本文在特征矢量的基礎(chǔ)上,設(shè)計(jì)了聲紋密碼的區(qū)分性系統(tǒng)框架,以期更好的對聲紋識別中區(qū)分性訓(xùn)練的方法進(jìn)行研究,下面便對聲紋識別中的區(qū)分性訓(xùn)練方法進(jìn)行詳細(xì)介紹。
2.1 問題定義
盡管聲紋識別中,區(qū)分性訓(xùn)練的應(yīng)用比較廣泛,但受到種種客觀因素的影響,在說話人確認(rèn)的短語音中,區(qū)分性訓(xùn)練的價(jià)值卻無法真正體現(xiàn)出來。而聲紋密碼的最基本任務(wù),便是確認(rèn)短語音的說話人。為了有效的降低數(shù)據(jù)量過多而帶來的難題,可以將聲紋密碼的任務(wù)劃分成二類分類問題。簡單來說,即把全部的數(shù)據(jù)分成正例與反例兩種集合,同時(shí)盡可能的降低這兩種集合在規(guī)模上的差異。區(qū)分性訓(xùn)練算法,提高了模型間的距離,降低了錯誤識別率。
2.2 特征定義
對新特征進(jìn)行定義,是聲紋密碼區(qū)分性系統(tǒng)框架設(shè)計(jì)的難點(diǎn)所在。鑒于距離具有一定的對稱性與非負(fù)性,故本文采用近似策略替代距離。首先,通過DTW獲取測試語音以及注冊語音,其次,將測試語音與注冊語音在音幀上的差值思維該幀的新特征,即差值特征。需要注意的是,由于不同的注冊語音所代表的距離不具備可比性。所以,本文形成了一種新的特征,即將注冊模板的數(shù)據(jù)視作規(guī)整項(xiàng)。
2.3 參數(shù)優(yōu)化
本文采用EBM算法對區(qū)分性訓(xùn)練模型的參數(shù)進(jìn)行優(yōu)化。首先,利用正例語音與反例語音,構(gòu)造出如圖1所示的函數(shù)。由于這一函數(shù)中,每一個(gè)求和項(xiàng)的正定均是無法保證的。簡單來說,就是求和項(xiàng)并不全是凹函數(shù)。所以,對該函數(shù)進(jìn)行最大化時(shí)得不到有窮解,需要合理的引進(jìn)平滑相,確保該式仍然屬于凹函數(shù)。
2.4 測試過程
利用正例區(qū)分性模型以及反例區(qū)分性模型,可以得到注冊語音與測試語音的總幀數(shù),再經(jīng)過某些處理,獲取新的特征矢量,在此基礎(chǔ)上,按照葉貝斯準(zhǔn)則,對測試語音與注冊語音進(jìn)行判斷,明確其是否為同一人。
3 區(qū)分性訓(xùn)練實(shí)驗(yàn)結(jié)果分析
由上文中分析可以獲得規(guī)整特征以及差值特征,以此為基礎(chǔ),對初始的正反例模型進(jìn)行訓(xùn)練;之后,基于MCE準(zhǔn)則,借助EBW優(yōu)化算法進(jìn)行兩類區(qū)分性訓(xùn)練,訓(xùn)練結(jié)果詳見圖2。在圖2中,橫坐標(biāo)表示的是區(qū)分性訓(xùn)練的迭代次數(shù),0次迭代表示的是在使用集新訓(xùn)練后,獲得的最大似然GMM模型。
通過分析圖2,可以得知,利用區(qū)分性訓(xùn)練,得到的正例區(qū)分性模型以及反例區(qū)分性模型,相比于初始模型,可以更好的對聲紋空間中,代表距離度量的特點(diǎn)分布進(jìn)行擬合,進(jìn)而更好的提高系統(tǒng)的安全性。與此同時(shí),區(qū)分性訓(xùn)練實(shí)驗(yàn)結(jié)果也從側(cè)面證明,相應(yīng)的注冊特征的引入,可以使規(guī)整特征更好、更細(xì)致的將多種密碼文本條件的特征矢量的分布情況描述出來。而且,在通過比較多次的迭代之后,差值特征與規(guī)整特征二者之間的差異會愈發(fā)明顯,規(guī)整特征的優(yōu)勢也更加明顯。總而言之,聲紋密碼任務(wù)中,應(yīng)用區(qū)分性訓(xùn)練具有比較高的可行性,且可以顯著提升系統(tǒng)的性能。
4 結(jié)論
盡管聲紋識別技術(shù)的應(yīng)用范圍在不斷擴(kuò)大,但由于種種客觀因素的限制,相應(yīng)的應(yīng)用制度還未能得到完善。所以,其實(shí)際應(yīng)用效果與理想狀態(tài)還存在一定差距。但是,聲紋識別技術(shù)的應(yīng)用前景是十分廣闊的,而區(qū)分性訓(xùn)練的應(yīng)用也在很大程度上提高了聲紋識別技術(shù)的可行性,以及聲紋識別的實(shí)際效果。本文主要對聲紋識別基本概念的進(jìn)行了介紹,基于聲紋識別中的區(qū)分性訓(xùn)練方法,深入研究了區(qū)分性訓(xùn)練實(shí)驗(yàn)結(jié)果,以期進(jìn)一步提高區(qū)分性訓(xùn)練在聲紋識別中的應(yīng)用效果。
參考文獻(xiàn)
[1]聶智良,張興明,楊鎮(zhèn)西等.區(qū)分性錨模型應(yīng)用于語種識別的研究[J].計(jì)算機(jī)工程,2012,38(03):172-175.
[2]熱米拉·艾山江,黃浩.一種改進(jìn)的GOP算法在區(qū)分性訓(xùn)練的應(yīng)用[J].通信技術(shù),2014,47(05):508-511.
[3]熱依萊木·帕爾哈提,孟祥濤,艾斯卡爾·艾木都拉.基于區(qū)分性關(guān)鍵詞模型的維吾爾文本情感分類[J].計(jì)算機(jī)工程,2014,40(10):132-136.
[4]王雨軒,倪訓(xùn)博,姜峰.手語識別中基于HMM的區(qū)分性訓(xùn)練方法[J].智能系統(tǒng)學(xué)報(bào),2007,21(01):80-84.
作者單位
紹興文理學(xué)院 浙江省紹興市 312000endprint