王雷鳴
(寧波大學(xué) 信息科學(xué)與工程學(xué)院,浙江 寧波 315210)
近年來(lái),對(duì)自動(dòng)說(shuō)話人驗(yàn)證(Automatic Speaker Verification,ASV)系統(tǒng)[1]的偽造語(yǔ)音攻擊對(duì)采用ASV 的系統(tǒng)如金融業(yè)客戶身份驗(yàn)證、智能終端解鎖、物聯(lián)網(wǎng)設(shè)備控制等構(gòu)成了嚴(yán)重威脅。偽造語(yǔ)音攻擊可以分為人為模擬[2]、語(yǔ)音重放[3-4]、合成語(yǔ)音[5-6]以及最近出現(xiàn)的對(duì)抗性攻擊[7-8]。其中,重放攻擊對(duì)ASV 系統(tǒng)的威脅日益頻繁,攻擊者只需使用便攜式的音頻播放和錄音功能的設(shè)備就能完成攻擊。
現(xiàn)有的重放語(yǔ)音檢測(cè)研究通常將語(yǔ)音信號(hào)視為一系列短時(shí)平穩(wěn)信號(hào)的疊加,并直接提取疊加信號(hào)的梅爾頻率倒譜系數(shù)(Mel Frequency Cepstrum Coefficient,MFCC)等二維聲學(xué)特征[9],然后將其輸入二維神經(jīng)網(wǎng)絡(luò)如輕量級(jí)卷積神經(jīng)網(wǎng)絡(luò)(LCNN)[10]、殘差神經(jīng)網(wǎng)絡(luò)(ResNet)等進(jìn)行分類,以檢測(cè)是否存在重放語(yǔ)音攻擊。但現(xiàn)實(shí)中,重放語(yǔ)音信號(hào)是由說(shuō)話人語(yǔ)音和環(huán)境聲音等多種分量的非平穩(wěn)聲音信號(hào)混合而成,直接對(duì)重放語(yǔ)音信號(hào)提取MFCC 等特征,難以有效捕捉信號(hào)的局部時(shí)間和頻率特性,還忽略了組成完整信號(hào)的各分量信號(hào)關(guān)系可能包含的重放攻擊痕跡。為了獲取語(yǔ)音信號(hào)分量蘊(yùn)含的重放痕跡,本文首先使用經(jīng)驗(yàn)?zāi)B(tài)分解對(duì)語(yǔ)音進(jìn)行信號(hào)分解,在此基礎(chǔ)上提取信號(hào)分量的MFCC 特征,并首次將多個(gè)語(yǔ)音分量的MFCC 拼接成三維特征,最后設(shè)計(jì)了三維卷積網(wǎng)絡(luò)作為重放語(yǔ)音檢測(cè)分類器并進(jìn)行了實(shí)驗(yàn)。
經(jīng)驗(yàn)?zāi)B(tài)分解(Empirical Mode Decomposition,EMD)是一種分析非線性和非平穩(wěn)信號(hào)的方法,有較高的分解效率和良好的局部時(shí)頻特性。使用經(jīng)驗(yàn)?zāi)B(tài)分解之前不需要做預(yù)先分析與研究,任何復(fù)雜的信號(hào)都可以用該方法按照頻率由高到低拆分為數(shù)量有限的內(nèi)涵模態(tài)函數(shù)(Intrinsic Mode Function,IMF)分量以及一個(gè)殘差項(xiàng)。每個(gè)IMF分量含有原始信號(hào)中不同時(shí)間尺度的局部特征,有利于分類網(wǎng)絡(luò)捕捉原始信號(hào)的細(xì)節(jié)信息。
在重放語(yǔ)音研究中,未知攻擊語(yǔ)音與已知攻擊語(yǔ)音的脈沖響應(yīng)不同。脈沖響應(yīng)產(chǎn)生的較大突變可以從原始語(yǔ)音的特征頻譜圖中直接觀察出部分突變信息,較小突變則隱藏在原始語(yǔ)音的特征頻譜圖中,難以被捕捉。這就需要由對(duì)語(yǔ)音信號(hào)進(jìn)行分解以獲得IMF 分量,為進(jìn)一步從IMF 分量的聲學(xué)特征中提取重放痕跡的細(xì)節(jié)信息提供基礎(chǔ)。
給定語(yǔ)音信號(hào)X(t),首先計(jì)算出X(t)中包含的極大值點(diǎn)和極小值點(diǎn),利用三次樣條函數(shù)求出上下包絡(luò)線均值m1(t):
計(jì)算信號(hào)X(t)與包絡(luò)線均值m1(t)的差值,得到一個(gè)去除低頻的分量h1(t):
對(duì)得到的h1(t)根據(jù)約束條件判斷其是否滿足IMF 定義。若滿足,則視為IMF。否則,將h1(t)視作新的輸入信號(hào),再依據(jù)先前步驟計(jì)算信號(hào)h1(t)的上下包絡(luò)線均值m11(t)。直至h1k(t)完全滿足IMF 定義,得到第一個(gè)IMF 分量c1(t):
用原始信號(hào)X(t)與c1(t)相減,得到去除高頻成分的信號(hào)r1(t):
由于r1(t)仍包含較長(zhǎng)周期分量的信息,因此繼續(xù)將其視為輸入信號(hào)并進(jìn)行與上述過(guò)程相同的篩選。這個(gè)過(guò)程可以在所有后續(xù)的rj上重復(fù):
直到當(dāng)?shù)玫降牡趎個(gè)IMF 分量或其對(duì)應(yīng)的余量rn的幅度值小于停止閾值ζ時(shí)停止迭代過(guò)程;或者當(dāng)殘余分量rn變?yōu)榉蠁握{(diào)函數(shù)定義或常數(shù)時(shí),EMD 算法不能繼續(xù)從中提取更多的IMF,此時(shí)停止篩選。最后可以將原始信號(hào)X(t)分解為多個(gè)IMF 分量與一個(gè)余量之和的形式:
式中:ci,rn分別表示第i個(gè)IMF 分量和余量。
圖1 展示了一幀重放語(yǔ)音信號(hào)以及從中分解出的IMF 分量的時(shí)域波形??梢杂^察到,原始信號(hào)中的各次諧波混疊在一起,難以分析其中某種頻率分量產(chǎn)生的時(shí)間以及對(duì)應(yīng)的變換。而各個(gè)IMF 按照從高頻到低頻的順序依次排列。還可以觀察到各個(gè)分量在局部時(shí)頻域間存在不一樣的局部突變,但暫時(shí)無(wú)法確定哪些突變具有重放痕跡特征,還需要進(jìn)一步的處理。
圖1 重放語(yǔ)音EMD 分解波形圖
首先對(duì)i個(gè)IMFi分量進(jìn)行語(yǔ)音預(yù)處理以增強(qiáng)高頻成分,然后進(jìn)行離散傅里葉變將分量從時(shí)域轉(zhuǎn)換到頻域從而獲得不同的能量分布,將轉(zhuǎn)換后的信號(hào)通過(guò)一組梅爾濾波器并取對(duì)數(shù)功率來(lái)突出局部特征,最后進(jìn)行離散傅里葉變換,就得到了i個(gè)IMF分量的MFCC 特征。第i個(gè)IMF的MFCC 記為IMFi-MFCC。
圖2 為真實(shí)語(yǔ)音和對(duì)應(yīng)的重放語(yǔ)音以及它們分解后所得IMF分量的MFCC 語(yǔ)譜圖??梢杂^察到,原始真實(shí)語(yǔ)音與原始重放語(yǔ)音MFCC 語(yǔ)譜圖的差異主要在于重放語(yǔ)音各頻段的能量都較弱,真實(shí)語(yǔ)音與重放語(yǔ)音的分解后的IMF1-MFCC 到IMF5-MFCC 也存在同樣的差異,且在頻率越低的IMF分量中差異越顯著。這些直觀的差異相較于圖1 更為明顯,能夠在一定程度上將真實(shí)語(yǔ)音與重放語(yǔ)音進(jìn)行區(qū)分。但上述差異可能是由于錄制設(shè)備在錄取聲音時(shí)距離說(shuō)話人較遠(yuǎn)所致,在使用高品質(zhì)的錄音和重放設(shè)備以及在較近距離對(duì)說(shuō)話人進(jìn)行錄音后就可能彌補(bǔ)這樣的差異。
圖2 真實(shí)語(yǔ)音與重放語(yǔ)音IMF-MFCC 語(yǔ)譜圖
若直接將同一個(gè)語(yǔ)音分解并提取得到的多個(gè)IMF-MFCC 與原語(yǔ)音樣本的標(biāo)簽進(jìn)行捆綁,則所得多個(gè)新樣本中可能會(huì)存在錯(cuò)誤的樣本——標(biāo)簽映射信息。這可能導(dǎo)致直接將分解語(yǔ)音的MFCC 輸入網(wǎng)絡(luò)會(huì)使得網(wǎng)絡(luò)性能難以提高。因此,本文將同一條語(yǔ)音分解得到的第i到j(luò)個(gè)IMF-MFCC 在分量維度上拼接成為一個(gè)三維特征,記為。新特征既包含了多個(gè)二維特征的原始信息,又作為一個(gè)整體繼承原語(yǔ)音樣本的標(biāo)簽。
圖3 是將同一語(yǔ)音分解并提取得到的IMF1-MFCC 到IMF5-MFCC 的二維特征圖按照頻率順序逐個(gè)疊加得到的三維特征塊??梢杂^察到,在同一局部時(shí)間與同一局部頻率時(shí),特征塊在分量維度方向上有5 組不同的局部區(qū)域特征。已經(jīng)在圖2 中觀察到在特定的時(shí)間與頻率時(shí)一些IMF 分量存在明顯的特征,而另一些則沒(méi)有出現(xiàn)。這些不同分量的局部區(qū)域特征之間的關(guān)系中很有可能蘊(yùn)含著重放痕跡,但難以通過(guò)人工方式進(jìn)行分辨,需要使用深度神經(jīng)網(wǎng)絡(luò)進(jìn)行學(xué)習(xí)。
圖3 同一語(yǔ)音的IMF-MFCC 特征拼接示意圖
本文提出的3D 殘差網(wǎng)絡(luò)參數(shù)和數(shù)據(jù)流如表1所示。設(shè)計(jì)的3D-ResNet 主要分為5 層。第一層通過(guò)兩組3×3×3 卷積對(duì)特征進(jìn)行預(yù)處理。第二層先使用一個(gè)3×3×3 卷積層進(jìn)行降采樣,避免3D卷積參數(shù)量過(guò)大,再使用3個(gè)3D-block提取特征。第三層與第二層的處理方式相同。特征從第三層輸出后,由于IMF 分量維度的數(shù)值為2,小于卷積核的大小,若繼續(xù)采用3D 卷積則沒(méi)有收益。所以對(duì)特征圖進(jìn)行重塑(reshape)操作,并使通道數(shù)翻倍,重塑后的特征圖剩余長(zhǎng)和寬兩個(gè)維度。于是在Layer_3 層和Layer_4 層中采用二維殘差網(wǎng)絡(luò)塊進(jìn)行特征提取,最后添加全連接層并進(jìn)行分類。由于區(qū)分重放語(yǔ)音和真實(shí)語(yǔ)音是一個(gè)二分類任務(wù),故采用交叉熵函數(shù)作為損失函數(shù)。
表1 三維殘差網(wǎng)絡(luò)結(jié)構(gòu)
本文采用等錯(cuò)誤率(Equal Error Rate,EER)和串聯(lián)檢測(cè)代價(jià)函數(shù)(tandem Detection Cost Function,t-DCF)這兩個(gè)指標(biāo)對(duì)提出的重放語(yǔ)音檢測(cè)系統(tǒng)進(jìn)行評(píng)價(jià)。EER 是檢測(cè)系統(tǒng)的錯(cuò)誤接受和錯(cuò)誤拒絕相等時(shí)的概率,其數(shù)值越低表示系統(tǒng)的性能越強(qiáng)。t-DCF 是檢測(cè)系統(tǒng)懲罰成本和概率加權(quán)后的值,其數(shù)值越低表示系統(tǒng)的性能越強(qiáng)。
將分解得到的前n個(gè)IMF,即特征IMF1到IMFn的二維MFCC 特征以n通道的形式輸入與表1 的3D 網(wǎng)絡(luò)結(jié)構(gòu)相同的2D 卷積網(wǎng)絡(luò)進(jìn)行實(shí)驗(yàn),不同數(shù)量IMF-MFCC 的實(shí)驗(yàn)結(jié)果如表2 所示。
表2 不同數(shù)量IMF-MFCC 的實(shí)驗(yàn)結(jié)果
由表2 可以觀察到,系統(tǒng)性能都隨著輸入網(wǎng)絡(luò)的IMF-MFCC 數(shù)量的增加而不斷提升,尤其是使用原始語(yǔ)音分解出的前6 個(gè)IMF 分量提取的6 個(gè)IMF-MFCC 輸入網(wǎng)絡(luò)時(shí),系統(tǒng)的性能在使用EER評(píng)估時(shí)低至4.73%,使用t-DCF 評(píng)估時(shí)低至0.125,幾乎與從未分解的原始語(yǔ)音MFCC 性能相當(dāng)。這表明不同IMF分量之間所含的重放痕跡應(yīng)該存在差異,使用盡可能多的IMF分量組合可以捕獲其他分量不具有的重放痕跡,并獲得更好的系統(tǒng)性能。另外也能發(fā)現(xiàn),(IMF1~I(xiàn)MF6)-MFCC 以EER 和t-DCF 評(píng)估的結(jié)果仍然略低于原始語(yǔ)音MFCC 的4.65%和0.122,這是由于計(jì)算機(jī)在分解迭代過(guò)程中會(huì)產(chǎn)生不可避免的誤差,以及預(yù)實(shí)驗(yàn)時(shí)舍棄的部分語(yǔ)音IMF 分量可能蘊(yùn)含重放痕跡,導(dǎo)致性能略有損失。
為了研究拼接三維特征所用的二維特征數(shù)量對(duì)系統(tǒng)性能的影響以及所構(gòu)造的三維特征性能,將由不同數(shù)量IMF 分量構(gòu)造的三維特征輸入三維網(wǎng)絡(luò)進(jìn)行實(shí)驗(yàn),結(jié)果如表3 所示。從表3 可以觀察到,使用前i個(gè)IMF-MFCC 二維特征拼合的-MFCC 三維特征作為輸入時(shí),-MFCC 中所含的IMF-MFCC 越多,模型的性能越好。這是由于,進(jìn)行拼合的二維IMF-MFCC 越多,不僅特征本身包含了更多的信息,還可以使3D 卷積獲取多個(gè)IMF-MFCC 之間包含的重放痕跡。
表3 不同數(shù)量IMF-MFCC 的三維拼合特征實(shí)驗(yàn)結(jié)果
本文提出了一種基于EMD 分解特征拼接的重放語(yǔ)音檢測(cè)模型。對(duì)原始語(yǔ)音進(jìn)行EMD 分解得到的多個(gè)IMF 分量提取MFCC 特征,并將其在分量維度上拼接在一起,最后使用設(shè)計(jì)的三維網(wǎng)絡(luò)進(jìn)行分類。實(shí)驗(yàn)結(jié)果表明,使用6 個(gè)IMF-MFCC 拼接得到的三維特征結(jié)合三維網(wǎng)絡(luò)的性能相較于基線的GMM 系統(tǒng)提升了55.01%,證明了所設(shè)計(jì)模型具有的良好檢測(cè)能力和泛化性能。