劉傳忠 惠州75240部隊(duì)
聲紋識(shí)別,是一種基于生物特征的身份識(shí)別技術(shù),由計(jì)算機(jī)利用語(yǔ)音波形中所包含的反映特定說(shuō)話人生理和行為特征的語(yǔ)音特征參數(shù)來(lái)自動(dòng)識(shí)別說(shuō)話人身份的技術(shù)。
聲紋,是用電聲學(xué)儀器顯示的攜帶言語(yǔ)信息的聲波頻譜。人類(lèi)語(yǔ)言的產(chǎn)生是人體語(yǔ)言中樞與發(fā)音器官之間一個(gè)復(fù)雜的生理物理過(guò)程,人在講話時(shí)使用的發(fā)聲器官——舌、口腔、喉頭、聲帶等在尺寸和形態(tài)上每個(gè)人的差異很大。因此,在一般情況下,人們能夠區(qū)別不同人的聲音。
聲紋識(shí)別技術(shù)通過(guò)對(duì)采集到的聲音和已知聲音進(jìn)行聽(tīng)覺(jué)和頻譜兩方面特征的比對(duì)鑒別和綜合分析,確定二者是否來(lái)之同一聲源(即同一個(gè)人的聲音),從而識(shí)別說(shuō)話者的身份。聲紋識(shí)別系統(tǒng)一般包括語(yǔ)音信號(hào)的預(yù)處理、特征提取、說(shuō)話人模型的建立和模型參數(shù)訓(xùn)練等幾個(gè)方面。
混合高斯-通用背景模型(GMM-UBM)是目前普遍采用的比較成熟的聲紋識(shí)別模型,通過(guò)對(duì)大量訓(xùn)練語(yǔ)音特征數(shù)據(jù)的統(tǒng)計(jì)分布進(jìn)行描述,可以較好地刻畫(huà)說(shuō)話者不同情況下的特點(diǎn),使系統(tǒng)具有良好的魯棒性。
基于GMM-UBM的聲紋識(shí)別系統(tǒng)分為訓(xùn)練過(guò)程和識(shí)別過(guò)程兩部分。在訓(xùn)練過(guò)程中,主要是為每個(gè)說(shuō)話人建立模型。先采集大量的語(yǔ)音數(shù)據(jù),經(jīng)過(guò)預(yù)處理,然后提取特征參數(shù),用期望最大化算法(EM)訓(xùn)練為每一位說(shuō)話人確定一組UBM模型參數(shù),并存儲(chǔ)在數(shù)據(jù)庫(kù)中。在識(shí)別過(guò)程中,用目標(biāo)說(shuō)話人的測(cè)試語(yǔ)音進(jìn)行特征參數(shù)提取,然后與數(shù)據(jù)庫(kù)中的說(shuō)話人模型進(jìn)行匹配,由UBM自適應(yīng)得到目標(biāo)說(shuō)話人對(duì)應(yīng)的模型,從而識(shí)別目標(biāo)說(shuō)話人的身份。 測(cè)試過(guò)程如圖1所示:
圖1 基于GMM-UBM的聲紋識(shí)別系統(tǒng)原理圖
近年來(lái)人工智能技術(shù)有著不斷的發(fā)展,深度學(xué)習(xí)在機(jī)器學(xué)習(xí)領(lǐng)域取得了巨大的成功。與此同時(shí),深度學(xué)習(xí)在語(yǔ)音識(shí)別的應(yīng)用已經(jīng)成為一個(gè)熱門(mén)的研究方向?;谏疃壬窠?jīng)網(wǎng)絡(luò)(DNN)的聲學(xué)模型逐漸替代了混合高斯模型(GMM)成為語(yǔ)音識(shí)別聲學(xué)建模的主流模型,并顯著地提高了聲紋識(shí)別的準(zhǔn)確率。但是深度學(xué)習(xí)技術(shù)的應(yīng)用需要大量的數(shù)據(jù)支持,對(duì)硬件的運(yùn)算能力也有很高的要求。
計(jì)算機(jī)、互聯(lián)網(wǎng)技術(shù)的不斷革新,為軍隊(duì)信息化建設(shè)提供了有力的技術(shù)支持。聲紋識(shí)別技術(shù)目前已經(jīng)在軍事領(lǐng)域,特別是軍事間諜和反間諜手段上得到了廣泛的應(yīng)用。
運(yùn)籌帷幄之中,決勝千里之外。在現(xiàn)代戰(zhàn)場(chǎng),不同層級(jí)的指揮員可能相隔幾十公里到上千公里,不能以面對(duì)面的方式下達(dá)命令,如何保證發(fā)出指揮命令的說(shuō)話人就是指揮員本人,是身份識(shí)別技術(shù)需要解決的問(wèn)題。以聲紋識(shí)別為代表的基于生物特征的身份識(shí)別技術(shù),是在信息化的軍事指揮行動(dòng)中確認(rèn)指揮員身份的有效方法。如果說(shuō)話人聲稱(chēng)自己是某個(gè)指揮員,那么他的聲音就被用來(lái)驗(yàn)證這個(gè)過(guò)程。這時(shí)身份驗(yàn)證是一對(duì)一的驗(yàn)證過(guò)程,首先從數(shù)據(jù)庫(kù)中調(diào)用該指揮員的模型參數(shù),然后與說(shuō)話人的聲音進(jìn)行匹配計(jì)算,從而識(shí)別說(shuō)活人是否是該指揮員。避免敵方間諜侵入我軍指揮信息系統(tǒng),發(fā)送假命令擾亂我軍行動(dòng)。
在通信指揮網(wǎng)絡(luò)中,聲紋識(shí)別也常常用于防止入侵安全系統(tǒng)。許多核心涉密場(chǎng)所和設(shè)備,可以在普通的加密手段上,增加聲紋識(shí)別功能,提供身份信息多重交叉驗(yàn)證,進(jìn)一步增強(qiáng)系統(tǒng)的安全性。
聲紋識(shí)別系統(tǒng)對(duì)敵方指揮員進(jìn)行身份確認(rèn),主要用于電話偵聽(tīng)工作。1966年車(chē)臣叛軍頭目杜達(dá)耶夫使用衛(wèi)星電話被俄情報(bào)部門(mén)偵聽(tīng)到,并鎖定了他的具體位置。俄軍戰(zhàn)斗機(jī)立即向目標(biāo)發(fā)射兩枚導(dǎo)彈將其擊斃。2013年斯諾登曝光的美國(guó)國(guó)家安全局“棱鏡”項(xiàng)目,指認(rèn)美國(guó)情報(bào)機(jī)構(gòu)多年來(lái)在國(guó)內(nèi)外持續(xù)監(jiān)視互聯(lián)網(wǎng)活動(dòng)以及電話通信。其中,包括20國(guó)峰會(huì)上俄羅斯時(shí)任總統(tǒng)梅德韋杰夫打往莫斯科的衛(wèi)星電話。以計(jì)算機(jī)為核心的電話偵聽(tīng)系統(tǒng)能夠?qū)崟r(shí)監(jiān)聽(tīng)固定電話網(wǎng)絡(luò)、移動(dòng)電話網(wǎng)絡(luò)和IP電話網(wǎng)絡(luò)中特定對(duì)象的語(yǔ)音通信。通過(guò)聲紋識(shí)別技術(shù)可以自動(dòng)對(duì)大量的電話語(yǔ)音進(jìn)行辨認(rèn),提取通話人的聲紋特征,與目標(biāo)人物的模型參數(shù)進(jìn)行匹配,以此查詢(xún)通話人身份。對(duì)重要人物的交談內(nèi)容進(jìn)行記錄和處理,搜集相關(guān)的軍事情報(bào)。一旦判明說(shuō)話人的身份,還可以結(jié)合全球定位技術(shù),鎖定目標(biāo)人物,實(shí)施精確打擊。
確認(rèn)敵方指揮員的身份,難點(diǎn)在于獲取敵方指揮員的聲紋特征,需要事先采集到目標(biāo)人物的真實(shí)語(yǔ)音用于系統(tǒng)的訓(xùn)練過(guò)程。
在信息化時(shí)代,沒(méi)有絕對(duì)安全的網(wǎng)絡(luò),任何技術(shù)上的進(jìn)步都會(huì)給信息安全帶來(lái)新的挑戰(zhàn)。包括聲紋識(shí)別在內(nèi)的生物特征識(shí)別的安全隱患在于,一旦生物特征信息在數(shù)據(jù)庫(kù)或網(wǎng)絡(luò)傳輸中被間諜盜取,敵人可以執(zhí)行某種身份欺騙攻擊,并且攻擊對(duì)象會(huì)涉及所有使用生物特征信息的設(shè)備,給整個(gè)指揮信息系統(tǒng)的安全帶來(lái)極大的威脅。
一方面,我們可以通過(guò)嚴(yán)格的保密制度和專(zhuān)業(yè)化的管理,充分利用新技術(shù)的同時(shí)防止敵方間諜的破壞,將潛在的危險(xiǎn)降到最低。另一方面,隨著人工智能技術(shù)的興起,機(jī)器學(xué)習(xí)理論研究的深入,新的算法應(yīng)用于聲紋識(shí)別,處理后的聲紋特征信息已經(jīng)面貌全非,不易被人類(lèi)解讀,難以獲取原始的說(shuō)話人特征。
在網(wǎng)絡(luò)化、智能化的時(shí)代,部隊(duì)信息化建設(shè)日新月異,傳統(tǒng)的身份識(shí)別技術(shù)由于安全和效率方面的原因已經(jīng)不能滿(mǎn)足未來(lái)戰(zhàn)場(chǎng)環(huán)境,需要更加安全便利的身份識(shí)別手段,以聲紋識(shí)別為代表的生物特征識(shí)別技術(shù),在進(jìn)一步發(fā)展成熟后,可以作為指揮員身份確認(rèn)的主要手段。聲紋識(shí)別技術(shù)的民用產(chǎn)品也不斷推出,普遍用于刑事偵查、安全防范、電子銀行等領(lǐng)域,有著良好的軍民融合發(fā)展前景。
[1] 趙力.語(yǔ)音信號(hào)處理[M].北京:機(jī)械工業(yè)出版社,2003.
[2] Reynolds D A,Thomas F. Speaker Verification Using Adapted Gaussian Mixture Models. Digital Signal Processing,2000, 10(1-3):19-41.
[3] 戴禮榮,張仕良.基于深度學(xué)習(xí)的語(yǔ)音識(shí)別技術(shù)現(xiàn)狀和展望[A].數(shù)據(jù)采集與處理,2017,2(3):221-231.