• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      彎折濾波器在說(shuō)話人識(shí)別的魯棒特征提取中的應(yīng)用①

      2018-01-08 03:12:20蕾,高
      關(guān)鍵詞:頻率響應(yīng)特征參數(shù)耳蝸

      鄧 蕾,高 勇

      (四川大學(xué) 電子信息學(xué)院,成都 610065)

      彎折濾波器在說(shuō)話人識(shí)別的魯棒特征提取中的應(yīng)用①

      鄧 蕾,高 勇

      (四川大學(xué) 電子信息學(xué)院,成都 610065)

      針對(duì)噪聲環(huán)境中說(shuō)話人識(shí)別性能急劇下降的問(wèn)題. 提出了一種用于說(shuō)話人識(shí)別的魯棒特征提取的方法. 采用彎折濾波器組(Warped filter banks,WFBS)來(lái)模擬人耳聽(tīng)覺(jué)特性,將立方根壓縮算法、相對(duì)譜濾波技術(shù)(RASTA)、倒譜均值方差歸一化算法(CMVN)引入到魯棒特征的提取中. 在高斯混合模型(GMM)下進(jìn)行仿真,實(shí)驗(yàn)結(jié)果表明該方法提取的特征參數(shù)在魯棒性和識(shí)別性能上均優(yōu)于MFCC特征參數(shù)和CFCC特征參數(shù).

      說(shuō)話人識(shí)別; 彎折濾波器組; 魯棒性

      1 引言

      說(shuō)話人識(shí)別又稱為聲紋識(shí)別,即提取語(yǔ)音波形中反映說(shuō)話人的生理和行為特征的語(yǔ)音特征參數(shù)來(lái)自動(dòng)確定說(shuō)話人身份的技術(shù). 隨著識(shí)別技術(shù)的研究不斷深入,說(shuō)話人識(shí)別在實(shí)驗(yàn)室環(huán)境中已經(jīng)能獲得較高的識(shí)別率,而在實(shí)際應(yīng)用中,由于噪聲的影響,識(shí)別性能有惡化的趨勢(shì). 其根本原因在于噪聲的影響引起了語(yǔ)音的畸變,導(dǎo)致了訓(xùn)練環(huán)境和測(cè)試環(huán)境的不匹配,因此,訓(xùn)練數(shù)據(jù)所獲得的語(yǔ)音信息無(wú)法正確表達(dá)測(cè)試環(huán)境的數(shù)據(jù). 魯棒性語(yǔ)音識(shí)別的根源是為了消除噪聲引起的訓(xùn)練環(huán)境和測(cè)試環(huán)境之間的不匹配. 解決魯棒性語(yǔ)音識(shí)別問(wèn)題的主要方法有以下四種[1]: 1) 抗噪特征參數(shù)提取: 尋求對(duì)噪聲不敏感的語(yǔ)音特征. 2) 人耳聽(tīng)覺(jué)特性研究: 人耳的聽(tīng)覺(jué)特性有較強(qiáng)的噪聲魯棒性. 3) 語(yǔ)音增強(qiáng): 從帶噪語(yǔ)音中恢復(fù)出干凈語(yǔ)音,消除噪聲的影響,增強(qiáng)語(yǔ)音. 4) 模型補(bǔ)償: 根據(jù)環(huán)境噪聲特性,對(duì)純凈語(yǔ)音模型的參數(shù)進(jìn)行修正,補(bǔ)償訓(xùn)練和測(cè)試環(huán)境間的不匹配. 本文主要研究抗噪特征參數(shù)的提取方法.

      人耳具有較強(qiáng)的噪聲魯棒性,在低信噪比條件下具有較好的識(shí)別能力. 耳蝸是人耳聽(tīng)覺(jué)系統(tǒng)的重要器官,耳蝸內(nèi)有一個(gè)重要的部分叫基底膜,其作用相當(dāng)于一個(gè)頻譜分析儀,它能夠把傳入人耳的聲信號(hào)在頻域上按頻帶進(jìn)行分解,就像一個(gè)帶通濾波器組. 基底膜作為濾波器組,具有在低頻處頻率分辨率較高,高頻處頻率分辨率較低的特性[2],因此,耳蝸基底膜不同位置對(duì)應(yīng)濾波器帶寬是不一樣的; 單個(gè)濾波器的頻率響應(yīng)呈非對(duì)稱分布,特征頻率的左側(cè)斜率比較平緩,而右側(cè)斜率較為陡峭. 目前,考慮人耳聽(tīng)覺(jué)特性來(lái)提取的語(yǔ)音特征參數(shù)主要有利用Mel濾波器組提取的Mel頻率倒譜系數(shù) (Mel frequency cepstrum coefficient,MFCC)[3]和利用耳蝸濾波器組提取的耳蝸倒譜系數(shù)(Cochlear filter cepstral coefficients,CFCC)[4]. 其中 MFCC 已部分考慮到了人耳的聽(tīng)覺(jué)特性[5],MFCC在純凈語(yǔ)音的識(shí)別率可達(dá)到98%,但當(dāng)信噪比為-10dB的噪聲條件下,識(shí)別率下降到了5%. 不同于MFCC,CFCC是基于聽(tīng)覺(jué)變換的說(shuō)話人特征參數(shù),具有良好的識(shí)別效果和魯棒性. 在文獻(xiàn)[4]中,當(dāng)信噪比為 6dB時(shí),MFCC的識(shí)別率為42.1%,而 CFCC 的識(shí)別率為 90.3%. 然而,在 white 噪聲-6dB條件下時(shí),MFCC的識(shí)別率分別為5.8%,而CFCC識(shí)別率下降到了16.6%. Mel濾波器組和耳蝸濾波器組的頻率響應(yīng)關(guān)于中心頻率呈對(duì)稱分布,并不滿足基底膜的非對(duì)稱特性. 為了充分利用人耳的聽(tīng)覺(jué)特性,Zhang X,Huang L 等人[6]利用彎折濾波器組 (Warped filter banks)提取語(yǔ)音特征參數(shù),然后再將特征參數(shù)運(yùn)用到語(yǔ)音識(shí)別中,提高了語(yǔ)音識(shí)別系統(tǒng)的識(shí)別率.

      本文在文獻(xiàn)[6]的基礎(chǔ)上,將彎折濾波器組用于說(shuō)話人識(shí)別中,并融合了以下三種技術(shù): 立方根壓縮技術(shù)[7]、相對(duì)譜濾波技術(shù)(RASTA)[8]和倒譜均值方差歸一化技術(shù)(CMVN)[9],提出了基于彎折濾波器組的C-R-CWFCC特征參數(shù).

      2 說(shuō)話人識(shí)別系統(tǒng)構(gòu)成

      說(shuō)話人識(shí)別系統(tǒng)包括訓(xùn)練階段和識(shí)別階段[10,11]. 其系統(tǒng)框圖如圖1所示.

      圖1 說(shuō)話人識(shí)別系統(tǒng)框圖

      訓(xùn)練階段,選取N個(gè)說(shuō)話人的純凈語(yǔ)音,對(duì)輸入的純凈語(yǔ)音信號(hào)先進(jìn)行預(yù)處理,再提取N個(gè)說(shuō)話人的語(yǔ)音特征參數(shù),并將其作為GMM模型的輸入,最后訓(xùn)練出N個(gè)說(shuō)話人的GMM模型.

      測(cè)試階段將N個(gè)說(shuō)話人的純凈語(yǔ)音分別加入不同信噪比(dB)的噪聲得到帶噪語(yǔ)音,將每個(gè)人的帶噪語(yǔ)音分成M段,形成N×M段帶噪語(yǔ)音,將帶噪語(yǔ)音經(jīng)過(guò)預(yù)處理后,再提取特征參數(shù),并將其作為GMM模型輸入,訓(xùn)練出N×M個(gè)帶噪語(yǔ)音的說(shuō)話人GMM模型,最后將訓(xùn)練階段和測(cè)試階段的GMM模型進(jìn)行匹配,輸出識(shí)別結(jié)果.

      3 MFCC特征參數(shù)和CFCC特征參數(shù)提取

      3.1 MFCC特征參數(shù)提取

      MFCC特征參數(shù)是基于Mel濾波器組的基礎(chǔ)上實(shí)現(xiàn)的,Mel濾波器組的頻率響應(yīng)如圖2所示,由圖2可以看出Mel濾波器組的頻率響應(yīng)關(guān)于中心頻率對(duì)稱,且中心頻率附近幅值較陡峭.

      MFCC特征參數(shù)提取流程[3]如圖3所示.

      3.2 CFCC特征參數(shù)提取

      耳蝸倒譜系數(shù) (Cochlear filter cepstral coefficients,CFCC)[12]是利用耳蝸濾波器組提取的,具有較好的識(shí)別效果和魯棒性. 耳蝸濾波器的頻率響應(yīng)如圖4所示,從圖4中可以看出,耳蝸濾波器組的頻率響應(yīng)關(guān)于中心頻率對(duì)稱.

      圖2 Mel濾波器組的頻率響應(yīng)

      圖3 MFCC 特征參數(shù)提取流程

      圖4 耳蝸濾波器組的頻率響應(yīng)

      CFCC特征參數(shù)的提取方法[4,12]如圖5所示.

      圖5 CFCC 特征參數(shù)提取流程

      4 C-R-C-WFCC 特征參數(shù)提取

      4.1 36通道彎折濾波器組的設(shè)計(jì)

      一組m通道的均勻?yàn)V波器組[13]的傳遞函數(shù)如式(1)所示:

      其中α為彎折因子,公式(4)和(5)分別給出了采用一階全通變換模擬Bark和ERB頻率尺度[14]時(shí)對(duì)應(yīng)的彎折因子.

      在式 (4)和式(5)中,當(dāng)采樣頻率fs=8 kHz時(shí),α=0.58和α=0.40分別模擬ERB頻率尺度和Bark頻率尺度. 當(dāng)α=0時(shí),彎折濾波器組的頻率響應(yīng)則為m通道均勻?yàn)V波器組的頻率響應(yīng). 式(2)中,取h(n)為20樣點(diǎn)的漢明窗序列,M、α=0.58 和α=0.40 時(shí),則得到分布在[0,fs]上的 36通道濾波器. 36通道彎折濾波器組的頻率響應(yīng)如圖6和圖7所示.

      從圖6和圖7中可以看出,彎折濾波器的分布在低頻處比較密集,高頻處較寬松,并且濾波器的帶寬關(guān)于中心頻率是非對(duì)稱分布的,符合基底膜作為濾波器的特性.α=0.58 比α=0.40 特性更加明顯. 由于語(yǔ)音信號(hào)的頻率主要集中在[200,4000] Hz 范圍,因此本文在設(shè)計(jì)濾波器組時(shí),保留了第3通道到第20通道,取18 通道濾波器組分布在[200,5500] Hz 范圍內(nèi).

      圖6 彎折濾波器組的頻率響應(yīng),α=0.58

      圖7 彎折濾波器組的頻率響應(yīng),α=0.40

      4.2 C-R-C-WFCC 特征參數(shù)提取方法

      C-R-C-WFCC特征參數(shù)的提取步驟如圖8所示.

      圖8 C-R-C-WFCC 特征參數(shù)提取過(guò)程

      Step 1. 將語(yǔ)音信號(hào)預(yù)處理之后得到一幀幀的語(yǔ)音信號(hào),用表示xw(n). 將xw(n)進(jìn)行FFT(快速傅里葉變換)后得到信號(hào)頻譜X(k).

      Step 2. 對(duì)X(k)取平方得到短時(shí)能量譜,然后用 WFBS濾波器組濾波處理,濾波器的輸出如式(6)所示:

      Step 4. 對(duì)所有濾波器輸出經(jīng)過(guò)立方根壓縮后,再經(jīng)DCT(離散余弦變換)得到倒譜,其計(jì)算公式如下:

      其中,M為特征參數(shù)的維數(shù);p為濾波器的個(gè)數(shù).

      Step 5. 對(duì)上一步輸出進(jìn)行 RASTA 濾波. 將RASTA濾波技術(shù)用于特征參數(shù)提取過(guò)程中,不僅可以參數(shù)的識(shí)別率,還可以使參數(shù)具有較高的穩(wěn)健性. 它的傳輸函數(shù)為:

      進(jìn)行RASTA濾波. 其計(jì)算公式如下:

      Step 7. 最后將進(jìn)行 CMVN(倒譜均值方差歸一化)得到特征參數(shù)C-R-C-WFCC.

      5 仿真實(shí)驗(yàn)

      5.1 實(shí)驗(yàn)設(shè)計(jì)

      本文采用18通道的彎折濾波器組,進(jìn)行語(yǔ)音特征參數(shù)的提取(以下簡(jiǎn)稱為C-R-C-WFCC特征參數(shù)). 當(dāng)采樣頻率fs=8 kHz 時(shí),α=0.58 和α=0.40. 本文采用的分類器模型為高斯混合模型(GMM)[15].

      語(yǔ)料庫(kù)為不含噪聲的普通話語(yǔ)音數(shù)據(jù)庫(kù)(采樣頻率fs=8 kHz),從中選取 36 人 (男 22 人,女 14 人),每個(gè)說(shuō)話人包含大約 1 min 的語(yǔ)句,作為訓(xùn)練語(yǔ)音,共36 條. 測(cè)試階段每個(gè)人包含 5 條 5 s的語(yǔ)句,作為測(cè)試語(yǔ)音,共 180 條.

      實(shí)驗(yàn)1. 測(cè)試C-R-C-WFCC特征參數(shù)在純凈語(yǔ)音條件下的有效性.

      為了驗(yàn)證本文提取的特征參數(shù)在純凈語(yǔ)音條件下對(duì)說(shuō)話人識(shí)別的有效性,將本文提取的特征參數(shù)在α=0.58和α=0.40的條件下進(jìn)行測(cè)試. GMM混合度分別選取8階、16階、32階和64階.

      實(shí)驗(yàn)2. 測(cè)試C-R-C-WFCC特征參數(shù)的抗噪聲能力.

      為了測(cè)試本文提出的C-R-C-WFCC特征參數(shù)的抗噪聲能力. 實(shí)驗(yàn)2將C-R-C-WFCC特征參數(shù)與MFCC特征參數(shù)和CFCC特征參數(shù)在同等噪聲條件下得出識(shí)別結(jié)果. 采用noise-92標(biāo)準(zhǔn)噪聲庫(kù). 分別在f16 座艙噪聲 (f-16 cockpit noise)、白噪聲 (white noise)和粉紅噪聲 (pink noise)條件下進(jìn)行實(shí)驗(yàn). 含噪語(yǔ)音的信噪比 (SNR)分別為-10 dB、-5 dB、0 dB、5 dB、10 dB. 實(shí)驗(yàn)2的GMM混合度為64階.

      5.2 實(shí)驗(yàn)結(jié)果及分析

      本文將彎折濾波器用于C-R-C-WFCC語(yǔ)音特征參數(shù)提取過(guò)程,在α=0.58和α=0.40兩個(gè)不同的彎折因子上得出了對(duì)應(yīng)的識(shí)別效果.

      實(shí)驗(yàn)1的識(shí)別率見(jiàn)圖9. 從圖9中可得知,在純凈語(yǔ)音條件下,當(dāng)α=0.40時(shí),系統(tǒng)的識(shí)別率總體上要高于α=0.58. 同時(shí),從圖9 中可看出當(dāng)α=0.58 時(shí),識(shí)別率僅在GMM混合度為32階時(shí)識(shí)別率能達(dá)到95.56%,在GMM混合度為8階、16階、32階和64階時(shí)識(shí)別率呈降低趨勢(shì),由此可得知,當(dāng)α=0.58 時(shí),GMM 混合度的階數(shù)對(duì)識(shí)別率有較大的影響. 然而,當(dāng)α=0.40時(shí),識(shí)別率在GMM混合度為8階、16階、32階和64階的條件下具有相同的識(shí)別率,在GMM混合度為64階的條件下,識(shí)別率高達(dá)96.11%.

      圖9 純凈語(yǔ)音條件下,不同 GMM 混合度系統(tǒng)識(shí)率

      實(shí)驗(yàn)2的識(shí)別結(jié)果見(jiàn)圖10~圖12. 從圖10~圖12中可以看出,在三種不同的噪聲環(huán)境下,本文所提取的C-R-C-WFCC特征參數(shù)隨著信噪比的增加而升高. 在不同α的值條件下,系統(tǒng)識(shí)別率差異并不大. 如圖10中,系統(tǒng)識(shí)別率僅在信噪比為-10 dB至-5 dB 有低于2%的差異. 隨著信噪比的升高,C-R-C-WFCC特征參數(shù)的識(shí)別率均高于MFCC特征參數(shù)和CFCC特征參數(shù). 實(shí)驗(yàn)結(jié)果表明,本文提出的特征參數(shù)具有更強(qiáng)的抗噪聲能力.

      圖10 white 噪聲識(shí)別結(jié)果

      圖11 pink 噪聲識(shí)別結(jié)果

      6 結(jié)語(yǔ)

      本文將彎折濾波器組用于說(shuō)話人特征提取過(guò)程,并引入了立方根壓縮、RASTA濾波、倒譜均值方差歸一化(CMVN)3種技術(shù),得出了不同彎折因子α對(duì)應(yīng)的識(shí)別效果. 實(shí)驗(yàn)仿真結(jié)果表明,在純凈語(yǔ)音條件下,彎折因子α=0.40的總體識(shí)別效果比α=0.58更好; 在噪聲條件下,本文提出的C-R-C-WFCC特征參數(shù)具有較好的識(shí)別效果,均高于MFCC特征參數(shù)和CFCC特征參數(shù),且彎折因子α=0.58和α=0.40的識(shí)別效果相差不大. 然而彎折因子并不是影響實(shí)驗(yàn)結(jié)果的唯一因素,濾波器的通道個(gè)數(shù)也是影響實(shí)驗(yàn)結(jié)果的重要因素. 在將來(lái)的實(shí)驗(yàn)中將致力于這方面的研究.

      圖12 f16噪聲識(shí)別結(jié)果

      1Jin Q. Robust speaker recognition[Ph. D. thesis]. Pittsburgh:Carnegie Mellon University,2007: 276–279.

      2曹龍濤,李如瑋,鮑長(zhǎng)春,等. 基于噪聲估計(jì)的二值掩蔽語(yǔ)音增強(qiáng)算法. 計(jì)算機(jī)工程與應(yīng)用,2015,(17): 222–227. [doi:10.3778/j.issn.1002-8331.1312-0396]

      3Muda L,Begam M,Elamvazuthi I. Voice recognition algorithms using mel frequency cepstral coefficient (MFCC)and dynamic time warping (DTW) techniques. Journal of Computing,2010,2(3): 138–143.

      4Li Q,Huang Y. An auditory-based feature extraction algorithm for robust speaker identification under mismatched conditions. IEEE Trans. on Audio,Speech,and Language Processing,2011,19(6): 1791–1801.

      5Li L,An D,Zhao D,et al. TEO-CFCC characteristic parameter extraction method for speaker recognition in noisy environments. Przeglad Elektrotechniczny,2013,89(2):118–121.

      6Zhang XY,Huang LX,Evangelista G. Warped filter banks used in noisy speech recognition. Proc. of the 2009 Fourth International Conference on Innovative Computing,Information and Control. Kaohsiung,China. 2009.1385–1388.

      7Jawarkar NP,Holambe RS,Basu TK. Effect of nonlinear compression function on the performance of the speaker identification system under noisy conditions. Proc. of the 2nd International Conference on Perception and Machine Intelligence. Kolkata,West Bengal,India. 2015. 137–144.

      8Nidhyananthan SS,Kumari RSS. Text independent voice based students attendance system under noisy environment using RASTA-MFCC feature. Proc. of the International Conference on Communication and Network Technologies.Sivakasi,India. 2014. 182–187.

      9Prasad NV,Umesh S. Improved cepstral mean and variance normalization using Bayesian framework. Proc. of 2013 IEEE Workshop on Automatic Speech Recognition and Understanding. Olomouc,Czech Republic. 2013. 156–161.

      10Geng Y,Liang RZ,Li W,et al. Learning convolutional neural network to maximize Pos@Top performance measure. Computer Vision and Pattern Recognition. arXiv:1609.08417. 2017.

      11Li QF,Zhou XF,Gu AH,et al. Nuclear norm regularized convolutional Max Pos@Top machine. Neural Computing &Applications,2016: 1–10. [doi: 10.1007/s00521-016-2680-2]

      12Raikar A,Gandhi A,Patil HA. Combining evidences from mel cepstral and cochlear cepstral features for speaker recognition using whispered speech. Král P,Matou?ek V.Text,Speech,and Dialogue. Cham,Germany. 2015.405–413.

      13黃麗霞. 非特定人魯棒性語(yǔ)音識(shí)別中前端濾波器的研究[博士學(xué)位論文]. 太原: 太原理工大學(xué),2011.

      14Chavan MS,Chougule SV. Speaker identification in mismatch condition using warped filter bank features.International Journal of Circuits,Systems and Signal Processing,2015,9: 88–93.

      15Chakroun R,Zouari LB,Frikha M. An improved approach for text-independent speaker recognition. International Journal of Advanced Computer Science and Applications,2016,7(8): 343–348.

      Warped Filter Banks Applied in Robust Feature Extraction Method for Speaker Recognition

      DENG Lei,GAO Yong

      (College of Electronics and Information Engineering,Sichuan University,Chengdu 610065,China)

      The performance of the speaker recognition system degrades drastically in the noisy environment. A robust feature extraction method for speaker recognition is proposed in this paper. Warped filter banks(WFBS) are used to simulate the human auditory characteristics. The cubic root compression method,relative spectral filtering technique(RASTA) and the cepstral mean and variance normalization algorithm(CMVN) are introduced into the robust feature extraction. Subsequently,simulation experiment is conducted based on Gaussian mixes model(GMM). The experimental results indicate that the proposed feature has better robustness and recognition performance than the mel cepstral coefficients(MFCC) and cochlear filter cepstral coefficients(CFCC).

      speaker recognition; warped filter banks; robustness

      鄧?yán)?高勇.彎折濾波器在說(shuō)話人識(shí)別的魯棒特征提取中的應(yīng)用.計(jì)算機(jī)系統(tǒng)應(yīng)用,2017,26(12):227–232. http://www.c-s-a.org.cn/1003-3254/6106.html

      2017-03-13; 修改時(shí)間: 2017-04-05; 采用時(shí)間: 2017-04-07

      猜你喜歡
      頻率響應(yīng)特征參數(shù)耳蝸
      耳蝸微音器電位臨床操作要點(diǎn)
      故障診斷中信號(hào)特征參數(shù)擇取方法
      基于特征參數(shù)化的木工CAD/CAM系統(tǒng)
      研究1kW中波發(fā)射機(jī)頻率響應(yīng)的改進(jìn)
      基于PSO-VMD的齒輪特征參數(shù)提取方法研究
      一種測(cè)量交流伺服系統(tǒng)擾動(dòng)頻率響應(yīng)方法
      大口徑空間相機(jī)像質(zhì)的微振動(dòng)頻率響應(yīng)計(jì)算
      DR內(nèi)聽(tīng)道像及多層螺旋CT三維重建對(duì)人工耳蝸的效果評(píng)估
      豚鼠耳蝸Hensen細(xì)胞脂滴的性質(zhì)與分布
      基于改進(jìn)靜止頻率響應(yīng)試驗(yàn)的同步電機(jī)參數(shù)辨識(shí)
      泸州市| 呼伦贝尔市| 德惠市| 长宁区| 巴林右旗| 永丰县| 通辽市| 许昌市| 湖南省| 南郑县| 龙门县| 九江县| 专栏| 兴宁市| 岐山县| 诸城市| 龙井市| 绥江县| 玉田县| 土默特左旗| 三亚市| 呼图壁县| 将乐县| 银川市| 西和县| 合江县| 兖州市| 株洲县| 吴川市| 繁峙县| 瑞金市| 永定县| 长治市| 兰考县| 十堰市| 新郑市| 河源市| 肇源县| 沙河市| 沙洋县| 江西省|