陳 旭,蔣 曄
(南京財經(jīng)大學(xué)信息工程學(xué)院,南京 210023)
聲紋識別即說話人識別,是根據(jù)人說話的聲音判定人身份的技術(shù),因其獲取成本低、安全系數(shù)高及使用便捷而應(yīng)用于安全、司法、通信等多個領(lǐng)域[1]。但在實際應(yīng)用中,聲紋識別系統(tǒng)容易受到聲音模擬[2]、語音合成[3]、聲音轉(zhuǎn)換[4]、錄音回放(含錄音拼接回放)等仿冒語音的攻擊,此類攻擊極大地影響了聲紋識別系統(tǒng)本身的安全性,進而也給采用聲紋識別技術(shù)進行訪問控制的系統(tǒng)帶來了安全隱患。錄音回放攻擊是指攻擊者使用高保真錄音設(shè)備錄制合法用戶進入認(rèn)證系統(tǒng)時的語音,或通過其他手段獲得用戶的語音樣本,然后在聲紋身份認(rèn)證系統(tǒng)的拾音器端通過高保真功放回放,從而達(dá)到對聲紋身份認(rèn)證系統(tǒng)實施攻擊的目的。由于高保真錄音設(shè)備的普及,合法用戶語音極易被偷錄,錄音回放攻擊已成為聲紋識別技術(shù)中抗仿冒攻擊的首要解決問題。
由英國愛丁堡大學(xué)、法國國家信息與自動化研究所等組織發(fā)起的ASVspoof 是迄今為止對仿冒語音鑒別規(guī)模最大、最全面的挑戰(zhàn)賽[5]。ASVspoof 2015 是用語音合成、聲音轉(zhuǎn)換技術(shù)產(chǎn)生數(shù)字語音,直接輸入系統(tǒng)(不用麥克風(fēng))進行邏輯層面的攻擊(Logical Access),ASVspoof2017 是使用錄音回放的方法,經(jīng)過麥克風(fēng)進入系統(tǒng)進行物理層面的攻擊(Physical Access)。在實際應(yīng)用中,語音合成及聲音轉(zhuǎn)換技術(shù)生成的語音也需要經(jīng)過重放環(huán)節(jié)轉(zhuǎn)化為Physical Access。國內(nèi)外研究學(xué)者如NAGAR SHETH 等人[6]用高通濾波器對高頻信息進行提取,提取出來的HFCC 參數(shù)盡管能提高識別率,但是該參數(shù)特征會丟失語音部分特征信息。文獻(xiàn)[7-8]提出的常量Q 倒譜特征(Constant Q Cepstral Coefficients,CQCC)替代傅里葉變換增加了低頻域的分辨率,而實際上錄音回放攻擊語音與原始語音相比,由于存在錄音和回放這兩個額外過程,錄音設(shè)備和回放設(shè)備的頻響特性是非均勻的,使得其頻譜在低頻段和高頻段都會不同程度地出現(xiàn)衰減或畸變現(xiàn)象,因此僅僅強調(diào)低頻段頻譜信息是不充分的。文獻(xiàn)[9]重點研究了瞬時頻率余弦系數(shù)特征,以及倒譜特征常數(shù)Q 倒譜系數(shù)和MEL 頻率倒譜系數(shù),執(zhí)行所有這些功能的組合以獲得高精度的欺騙檢測。該方法單純地組合了各個特征系數(shù),特征過于冗余。文獻(xiàn)[10]使用Gammatone 濾波器仿真了人耳基底膜的特性,GFCC[11]模擬了人耳的聽覺響應(yīng),具有較強的噪聲魯棒性。但是該特征在低頻段的分辨率要高于高頻段,模糊了高頻的特征,因而該方法在錄音回放攻擊中的效果達(dá)不到預(yù)期結(jié)果。
本文在真實語音和錄音回放語音差異化研究的基礎(chǔ)上,針對如何提高語音頻譜高頻信息,減少頻譜在低頻段和高頻段不同程度的衰減或畸變現(xiàn)象,提出兩種有效的特征參數(shù)G-IEFCC 和G-IFCC。為達(dá)到更好的檢測效果,本文研究基于Fisher 比的特征融合方法。
原始語音和錄音回放語音在時域波形圖中的差異并不明顯,本文采用語譜圖探究兩者在頻域中的差別。選取ASVspoof2017 中的一段語音:“Birthday parties have cupcakes and ice cream”。真實語音和錄音回放語音語譜圖分析如圖1 所示,其中,錄音設(shè)備為Rode smartlav,回放設(shè)備為VIFA M10MD-39-08 Speaker。
由圖1 對比分析可知,兩者的差異主要集中在高頻段上(4 000 Hz~8 000 Hz),中低頻略有差異且包含一些對于攻擊和真實語音之間的干擾信息,且在回放過程中會夾雜著噪聲。目前無論LPCC、MFCC,還是CQCC 都采用了強化低頻段頻譜信息的方法。而高頻段集中了真實語音和錄音回放語音的主要差異信息,這些特征無法有力刻畫兩者的個性信息。因此,傳統(tǒng)特征參數(shù)在錄音回放攻擊檢測實驗中表現(xiàn)一般[12]。針對傳統(tǒng)方法的不足,本文在特征提取階段對頻率尺度和濾波器組進行改進,使得設(shè)計的特征更能有效地區(qū)分真實語音和錄音回放語音。
圖1 真實語音和錄音回放語音語譜圖分析Fig.1 Analysis of real speech and recording playback speech spectrum
傳統(tǒng)聲紋識別領(lǐng)域中使用MEL 頻率尺度提取語音特征。該特征參數(shù)較好地表達(dá)了語音的頻譜包絡(luò)結(jié)構(gòu),也一定程度上反映了人類聽覺系統(tǒng)的特點。但由于真實語音與錄音回放語音在頻譜包絡(luò)結(jié)構(gòu)上的高度相似性,以及錄音回放攻擊檢測需要具有超越人類鑒別能力的水平,因此基于MEL 頻率尺度的參數(shù)在實驗中所表現(xiàn)出的性能一般。而等效矩形帶寬(Equivalent Rectangular Bandwidth,ERB)頻率尺度對公共場合異常聲音鑒別有較強魯棒性[13]。鑒于以上分析,本文嘗試用高斯濾波器組代替?zhèn)鹘y(tǒng)三角濾波器組,為強化高頻段頻譜信息,采用ERB 頻率尺度代替?zhèn)鹘y(tǒng)MEL 頻率尺度,同時將ERB 尺度轉(zhuǎn)換成逆ERB 尺度,通過該過程提取的特征稱之為高斯逆ERB 頻率倒譜系數(shù)(Gaussian-Inverse ERB Frequency Cepstral Coefficients,G-IEFCC)。為均衡細(xì)化高頻與低頻頻譜信息,用線性頻率代替?zhèn)鹘y(tǒng)MEL 頻率,通過該過程提取的特征稱為高斯線性頻率倒譜系數(shù)(Gaussian-Linear Frequency Cepstral Coefficients,G-LFCC)。本文采用的3 種頻率轉(zhuǎn)換關(guān)系如下:
其中,F(xiàn)是實際頻率,F(xiàn)ERB是ERB 頻率,F(xiàn)IERB是逆ERB 頻率,F(xiàn)L是線性頻率,F(xiàn)max是語音信號的最大頻率。
傳統(tǒng)的特征參數(shù)提取主要是基于三角濾波器組,以MFCC 為例,如圖2 所示,其中,圖2(a)代表傳統(tǒng)MFCC 提取采用的濾波器,該濾波器低頻段分布密切,強調(diào)低頻部分,而高頻段分布稀疏,提升了低頻的差異卻忽略了差異明顯的高頻段。圖2(b)代表IMFCC 提取采用的濾波器,相對于圖2(a)的逆操作,在弱化低頻部分的同時強化了高頻部分。圖2(c)代表線性倒譜系統(tǒng)采用的濾波器,該率波器呈等帶寬分布和高低頻段信息平均分布。
圖2 三角濾波器組分析Fig.2 Triangle filter bank analysis
研究發(fā)現(xiàn),三角形狀的濾波器下降趨勢過于陡快,不夠平滑,因此傳統(tǒng)的三角濾波器會使相鄰子帶丟失部分聯(lián)系,高斯濾波器[14-15]的時頻寬積最小,既能減小信號的失真,又可以有效地選頻衰減。本文采用高斯濾波器組加強子帶聯(lián)系,以彌補三角濾波器的不足。高斯濾波器組頻率響應(yīng)如下:
其中,at為標(biāo)準(zhǔn)偏差,mt為第t個濾波器的邊界點,其標(biāo)準(zhǔn)偏差at公式如下:
其中,n為方差,可由具體實驗選取最優(yōu)值。如圖3所示,圖3(a)為G-IEFCC 選用的逆高斯濾波器組,圖3(b)為G-IFCC 選用的等寬高斯濾波器組。
圖3 高斯濾波器組分析Fig.3 Gaussian filter bank analysis
本文參數(shù)提取過程如圖4 所示。
圖4 混合參數(shù)提取過程示意圖Fig.4 Schematic diagram of extraction process of mixed parameters
本文參數(shù)提取具體過程如下:
1)預(yù)處理
在預(yù)處理階段采用預(yù)加重、分幀和加窗3 個步驟。在預(yù)處理階段,將數(shù)字語音信號x(n)通過一個高通濾波器,減少尖銳噪聲影響。
取幀長n為256 個采樣點,幀移為128 個采樣點。并加漢明窗減少Jibbs 效應(yīng)。
其中,w(n)是窗信號,S(n)是加窗后的信號。
2)傅里葉變換
對經(jīng)過預(yù)處理后的信號S(n)進行快速傅里葉變換得到頻譜:
其中,N是傅里葉變換點數(shù),k是頻率序號
傅里葉變換后將時域信號轉(zhuǎn)化為頻域分量得到頻譜,求頻譜的平方(|X(k)|2),即為能量譜。
4)頻率尺度變換及濾波器設(shè)計
G-LFCC 和G-IEFCC 的區(qū)別主要體現(xiàn)在頻率尺度的變換上,頻率尺度的變換使得后續(xù)進行高斯濾波時呈現(xiàn)等寬高斯和逆高斯兩種形態(tài),其具體算法如下:
(1)設(shè)置相關(guān)參數(shù),采樣頻率Fs=16 000,頻域范圍Fl~Fh(Fl=0,F(xiàn)h=Fs/2),傅里葉點數(shù)N=256,濾波器個數(shù)M=27。
(2)由式(3)得出G-LFCC 的線性頻域Fl'~Fh',由式(2)得出G-IEFCC 的逆ERB 頻域
(3)將以上兩個頻域分別等分成M+2 個頻率值,由式(2)和式(3)的逆變換得出G-LFCC 對應(yīng)實際頻率Fa(i) 和G-IEFCC 對應(yīng)實際頻率Fb(i)(i=1,2,…,M+2)。
(4)計算頻率分辨率:
本文的研究對象確定為TF boys這一偶像團體的粉絲群體。TF boys是目前首屈一指國內(nèi)偶像團體,他們在團體的高熱度和廣泛的關(guān)注度以及粉絲的強大力量方面有著其他組合不可比擬的優(yōu)勢,且其粉絲群體內(nèi)部的屬性構(gòu)成完善,因此,TF boys的粉絲社群無疑本研究最合適的研究對象。
(5)根據(jù)高斯濾波器式(4)、式(5)循環(huán)計算每個濾波器數(shù)組并組合成最終G-LFCC 的等寬高斯濾波器組Ha(t):
同理,得到G-IEFCC 的逆高斯濾波器組Hb(t):
其中,m=1,2,…,129,t=1,2,…,M。
5)對數(shù)功率譜
分別用以上兩種濾波器組進行濾波,并對濾波后的能量取對數(shù)得到對數(shù)功率譜Pa(t)、Pb(t):
6)離散余弦變換
將所得的對數(shù)功率譜進行離散余弦變換得到L階倒譜系數(shù),分別求出G-LFCC 和G-IEFCC 倒譜系數(shù):
其中,n=1,2,…,L,本文L取13。
在聲紋識別中常會提取多維特征,可是在增加特征維數(shù)的過程中,各維特征的貢獻(xiàn)率不同,所以一般會對特征參數(shù)進行特征選擇。其中,F(xiàn)isher 準(zhǔn)則就是常用的方法。Puzansky 利用方差分析進行聲紋識別研究,提出了有效的Fisher 比[16],而在重放語音攻擊檢測中尚未發(fā)現(xiàn)有人研究,本文探究該方法是否可行。Fisher 比的計算公式如下:
其中,σbetween是類間離散度,在聲紋識別中表示說話人第k維參數(shù)類間方差之和,σwithin是類內(nèi)離散度,表示某個說話人第k維參數(shù)類內(nèi)方差和,在重放語音攻擊檢測中存在真實語音和重放語音兩類。說話人樣本總數(shù)為M,說話人i擁有的語音段數(shù)量為ni,說話人i的第k維特征參數(shù)均值為所有說話人第k維特征參數(shù)均值為μk,說話人i的第j段語音的第k維特征參數(shù)為。σbetween和σwithin計算公式如下:
Fisher 比越大,表明該維特征更能表征個性信息。而在重放語音攻擊檢測中,通過Fisher 比準(zhǔn)則,對比值進行降序排列,用貢獻(xiàn)率來確定特征維數(shù),基于Fisher 比的特征可去除冗余信息,突出真實語音和回放語音的個性信息。本文計算G-LFCC 和GIEFCC 各維的Fisher 比,然后分別選擇Fisher 比較高的6 維特征,組合成最終12 維的融合特征。該融合特征通過G-IEFCC 的提取強化高頻段頻譜信息,通過G-LFCC 的提取均勻細(xì)化低頻段和高頻段信息,兩者結(jié)合更大限度地突出了真實語音和回放語音的差別,同時減少回放語音中因不同錄音設(shè)備、回放設(shè)備所產(chǎn)生的差異。
在訓(xùn)練階段運用本文方法提取訓(xùn)練集語音的特征參數(shù),分別訓(xùn)練出兩個GMM 模型、一個是錄音回放語音的GMM 模型A;另一個是真實語音GMM 模型B。在測試過程中將測試語音的特征參數(shù)集φ與A和B計算似然比,計算公式如下:
用所得的似然比作為得分判決待測語音跟哪個模型更為接近。而后設(shè)定閾值作為最后的分類判斷,判決成果采用等錯誤概率(Equal Error Rate,EER)給出,定義如下:
其中,Pfa(θ)表示在閾值θ處的虛警率,反映被判定為真實語音的樣本中,有多少個是回放語音,Pmiss(θ)表示在閾值θ處的漏警率,反映有多少個真實語音被判定為回放語音,當(dāng)兩者相等時錯誤率為等錯誤率,Pfa(θ)表示單調(diào)遞減函數(shù),而Pmiss(θ)則表示單調(diào)遞增函數(shù),通過調(diào)節(jié)閾值使得虛警率和漏警率得以調(diào)節(jié)。根據(jù)具體情況選擇合適的閾值達(dá)到理想狀況,比如對于機密安全領(lǐng)域,通過調(diào)節(jié)閾值使得漏警率較低;而對于日常應(yīng)用,則可以適當(dāng)調(diào)節(jié)閾值在漏警率和虛警率兩者間取得一個平衡。
實驗語音數(shù)據(jù)采用ASVspoof2017 數(shù)據(jù)集[17]。在2017 年,國際語音通信協(xié)會(ISCA)組織了ASVspoof 國際挑戰(zhàn)賽,主要針對聲紋識別中錄音回放攻擊檢測技術(shù)進行研究和交流,該數(shù)據(jù)庫包含了訓(xùn)練集和開發(fā)集。語料使用RedDots 庫[18]里最常用的10 個短語,運用不同錄音設(shè)備在多種環(huán)境下錄制,樣本采樣頻率為16 kHz。具體數(shù)據(jù)集參數(shù)如表1所示。
表1 ASVspoof2017 數(shù)據(jù)集Table 1 ASVspoof2017 dataset
錄音回放環(huán)境主要涉及到錄音設(shè)備、回放設(shè)備、偷錄環(huán)境等。在每種回放環(huán)境下,同一個說話人錄制同一短語多次。本文實驗訓(xùn)練集所用大賽數(shù)據(jù)集中的Train 集,而測試集選擇Dev 集。
高斯濾波器的方差是調(diào)節(jié)濾波器性能的參數(shù),它關(guān)系著高斯濾波器的形成,方差越大濾波器越陡,反之亦然,在說話人識別中方差[19]通常取1.1、1.5、2.0。而在錄音回放語音檢測領(lǐng)域,尚未有方差取值的分析,因此本文針對G-IFCC 采用的等寬高斯濾波器組和G-IEFCC 采用的逆高斯濾波器組中方差取值進行研究。
實驗條件:特征參數(shù)維數(shù)為13 維,GMM 混合度為512。拓展方差參數(shù)選取從1.0 到4.0,以0.5 為間隔的7 個方差,評測標(biāo)準(zhǔn)采用EER,所得結(jié)果如表2 所示。
表2 方差取值對檢測結(jié)果的影響分析Table 2 Analysis of the effect of variance on the test results
從表2 可以看出,當(dāng)方差選取2.0 時,G-IEFCC和G-LFCC 檢測結(jié)果EER 較小,當(dāng)方差大于2.0 時,濾波器越陡則過度加強了子帶的聯(lián)系,致使特征參數(shù)里混雜了噪聲,而小于2.0 時濾波器較為平坦,子帶聯(lián)系不明顯,致使個性信息不突出。因而當(dāng)方差選取2.0 時,可以得到較好的結(jié)果。
為選擇G-LFCC 和G-IEFCC 中各維Fisher 比貢獻(xiàn)度較大所對應(yīng)的維度,分別計算每一維所對應(yīng)的Fisher 比,為特征融合奠定基礎(chǔ),圖5 為13 維特征每一維所對應(yīng)的Fisher 比結(jié)果。
圖5 特征參數(shù)各維數(shù)Fisher 比Fig.5 Fisher ratio of each dimension of characteristic parameters
Fisher 比越大表明蘊含的個性信息越豐富,因此,將G-LFCC 和G-IEFCC 的Fisher 比較高的6 維特征進行融合得到最終Fisher 比混合特征。
在檢測重放語音過程中訓(xùn)練兩個GMM 模型,模型的參數(shù)對結(jié)果有一定的影響,因此在實驗中將GMM 混合度作為變量分別對G-IEFCC 和G-LFCC以及混合特征進行檢測,探究GMM 混合度對實驗結(jié)果的影響。具體實驗結(jié)果如表3 所示。
從表3 可以看出,基于Fisher 比的混合特征普遍比單一特征G-LFCC 和G-IEFCC 實驗效果要好。而在128 混合度下GMM 模型糅合了高頻與低頻信息的混合特征的EER 最低。實驗結(jié)果表明,本文提出的混合特征相比單一特征能更有效地檢測真實語音和錄音回放語音。
針對不同特征參數(shù)進行錄音回放檢測實驗比較。CQCC 是ASVspoof2017 官方給出的基線特征,該特征由信號經(jīng)過常量Q 變換(CQT),對其頻譜求對數(shù)功率譜,再對經(jīng)過離散變換的倒譜進行歸一化處理。該變換的頻域采樣點隨頻率呈現(xiàn)指數(shù)分布,低頻段頻率分辨率遠(yuǎn)遠(yuǎn)高于高頻段頻率分辨率,所以CQCC 特征主要包含語音頻譜低頻段信息,弱化了語音頻譜高頻段的信息。對于基于高斯均值超矢量(Gaussian Super Vector,GSV)的特征提取則是將含有語音信息的GMM 均值排列成超矢量作為分類器的輸入,分類器采用的是最常見的SVM,而GSVSVM[20-21]通常使用在說話人確認(rèn)領(lǐng)域,把GSV-SVM應(yīng)用在回放語音攻擊檢測中也是可行的。此外,本文將未采用高斯濾波器組(采用三角濾波器組)的LFCC 和IMFCC[22]特征和采用Gammatone 濾波器的GFCC 也納入實驗分析,將實驗系統(tǒng)耗時作為花費時間代價作為參考。
實驗條件為CQCC(90 維)、GFCC(31 維)、GSV(23 040 維)、LFCC 和IMFCC(13 維)和混合特征(12 維),為得到每一種參數(shù)的較好結(jié)果,前3 項特征采用512GMM 混合度,后3 項采用128GMM 混合度。測試平臺配置:CPU(Intel i5-8400@2.80 GHz,雙核四線程),16 GB 內(nèi)存;64 位Win10 教育版系統(tǒng);matlaR2016b 實驗平臺,結(jié)果如表4 所示。
表4 不同特征參數(shù)實驗對比分析Table 4 Comparative analysis of experiments with different characteristic parameters
從表4 可以看出,GFCC 雖然適合于聲紋識別但是在重放語音攻擊中效果最差,而GSV 效果比基線特征CQCC 等錯誤概率低,但因其特征維數(shù)較高導(dǎo)致實驗中所花費的時間代價要高。采用三角濾波器組的LFCC 和IMFCC 因弱化了語音頻譜高頻段的信息,也未能達(dá)到最好效果。本文所提出的高斯濾波器組下基于Fisher 比的混合特征因強化了語音頻譜高頻段的信息,同時均勻細(xì)化了低頻部分,比其他特征效果都好。與基線特征CQCC 相比,EER 降低了58.3%。通過圖6 的EER 曲線能夠更直觀地展現(xiàn)該方法的良好性能。
圖6 不同特征等錯誤概率曲線Fig.6 Equal error rate curves of different features
本文在頻率尺度和濾波器組上對傳統(tǒng)特征參數(shù)進行改進。采用逆ERB 頻率尺度代替?zhèn)鹘y(tǒng)MEL 尺度,利用高斯濾波代替?zhèn)鹘y(tǒng)三角濾波,形成逆高斯濾波器組,即高斯逆ERB 頻率倒譜特征(G-IEFCC)。為均勻細(xì)化低頻和高頻信息,降低因錄音設(shè)備和回放設(shè)備不同而造成的頻譜信息衰減或畸變現(xiàn)象,運用線性頻率尺度和等寬高斯濾波器形成高斯線性頻率倒譜系數(shù)(G-LFCC)。同時通過Fisher 比準(zhǔn)則將改進的兩個特征參數(shù)融合,最終形成基于Fisher 比的混合特征。實驗結(jié)果表明,本文提出的混合特征相比其他常用特征參數(shù),在錄音回放攻擊檢測中的檢測效果顯著。在實際應(yīng)用中聲紋識別系統(tǒng)的攻與防不只是針對虛假語音,其在攻與防中防處于不利地位。為此,提高仿冒語音攻擊檢測的泛化能力將是下一步的研究方向。