• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于GFCC 和能量算子倒譜的語種識(shí)別

      2022-03-24 10:00:20邵玉斌李一民
      關(guān)鍵詞:語種識(shí)別率特征提取

      劉 晶,邵玉斌,龍 華,李一民

      (昆明理工大學(xué) 信息工程與自動(dòng)化學(xué)院,云南 昆明 650500)

      語種識(shí)別(Language Identification,LID)是指計(jì)算機(jī)自動(dòng)對(duì)一段輸入語音進(jìn)行識(shí)別并確認(rèn)屬于哪種語言. 目前,主要用于多語言語音處理系統(tǒng)的前端,對(duì)語音進(jìn)行語種分類,然后送入相應(yīng)語種的子系統(tǒng)處理[1]. 當(dāng)前語種識(shí)別技術(shù)對(duì)無噪語種識(shí)別的準(zhǔn)確率已經(jīng)較好,但低信噪比下語種的識(shí)別率仍需要提升[2].

      LID 技術(shù)的核心問題是提取有效的特征參數(shù).傳統(tǒng)方法提取特征參數(shù)包括梅爾頻率倒譜系數(shù)(Mel-frequency Cepstral Coefficient,MFCC)[3]、滑動(dòng)差分倒譜(Shifted Delta Cepstra,SDC)、感知線性(Shifted Delta Cepstra,SDC)[4]、感知線性預(yù)測系數(shù)(Perceptual Linear Predictive,PLP)[5]、伽瑪通頻率倒譜系數(shù)( Gammatone Frequency Cepstrum Coefficient,GFCC)[6]等. 隨著深度神經(jīng)網(wǎng)絡(luò)的快速發(fā)展,Zhu 等[7]提取64 維的對(duì)數(shù)Mel 尺度濾波器組能量(log Mel-scale Filter Bank Energies,F(xiàn)bank)特征作為語種特征進(jìn)行識(shí)別,由于特征的各個(gè)維度之間相關(guān)性較大,分類效果不佳. 蔣兵等[2]利用深度神經(jīng)網(wǎng)絡(luò)模型[8-10]強(qiáng)大的特征抽取功能提取深度瓶頸特征,該特征在噪聲環(huán)境下冗余信息較多,識(shí)別率低. 隨著圖像識(shí)別被引入到語種識(shí)別領(lǐng)域,Montavon 等[11]提取線性灰度語譜圖特征(Linear Gray Scale Spectrogram,LGSS),將語種識(shí)別轉(zhuǎn)為圖像識(shí)別,該特征在噪聲環(huán)境下會(huì)被掩蔽掉很多語種特征,低信噪比下識(shí)別效果不佳. 以上特征隨著信噪比的降低,識(shí)別率急劇下降,甚至出現(xiàn)無法正常識(shí)別現(xiàn)象[12]. 因此,基于以上方法提取的特征的抗噪性有待提升,而且復(fù)雜的網(wǎng)絡(luò)模型和環(huán)境導(dǎo)致工程應(yīng)用還有一定的局限性.

      本文在伽瑪通頻率倒譜系數(shù)特征基礎(chǔ)上,提出了一種新的融合特征提取方法,很大程度上提升了低信噪比下的語種識(shí)別準(zhǔn)確率. 本文的主要貢獻(xiàn)如下:

      (1)目前語種識(shí)別主要是對(duì)全語音段進(jìn)行特征提取,但是有很多噪音段和靜音段都會(huì)對(duì)識(shí)別造成干擾. 為了解決上述問題,在特征提取前端引入有聲無聲段檢測,再提取有聲段的GFCC(Sound-Gammatone Cepstral Coefficients,S-GFCC)特征參數(shù),以消除噪聲段和靜音段的干擾.

      (2)在低信噪比下提取的特征包含了很多噪聲,識(shí)別率降低. 為了篩選出優(yōu)質(zhì)特征,利用主成分分析(Principal Components Analysis,PCA)對(duì)提取特征降維,得到新的特征參數(shù)(Sound-Gammatone Cepstral Coefficients Principal Components Analysis,S-GFCC+PCA),減少了噪聲的干擾. 最后融合基于有聲段提取的Teager 能量算子倒譜參數(shù)(Sound-Teager Energy Operator Cepstral Coefficients, STEOCC)得到融合特征集S-EGFCC. 實(shí)驗(yàn)結(jié)果表明,在低信噪比下融合特征集優(yōu)于Fbank 特征.

      1 構(gòu)建模型

      1.1 GMM-UBM 模型 本文采用高斯混合通用背景模型(Gaussian Mixture Model-Universal Background Model,GMM-UBM)[13]作為后端識(shí)別. 該模型可以很好地區(qū)分語言和公共背景,在訓(xùn)練集數(shù)據(jù)量較少的情況下也可得到高混合度的模型. 圖1 顯示了基于GMM-UBM 的語種識(shí)別模型框架,如果有S種語種需要識(shí)別,則采用N種語種樣本訓(xùn)練UBM.本文需要識(shí)別的語種為5 種,因此語種背景數(shù)量N=5, GMM 訓(xùn)練數(shù)量S=5,訓(xùn)練出來的UBM 與目標(biāo)語種通過模型自適應(yīng)模塊得到S種語種模型,測試語種與語種模型進(jìn)行判決得到判定語種. 模型采用的混合高斯數(shù)目為32.

      2 特征參數(shù)提取及特征融合

      有聲段的GFCC 特征參數(shù)是基于人耳聽覺感知模型提取的,提取過程包括有聲無聲段檢測、Gammatone 濾波、分幀加窗、計(jì)算短時(shí)對(duì)數(shù)能量、計(jì)算DCT 倒譜等. 將提取的有聲段S-GFCC 進(jìn)行融合得到全語段的特征量S-GFCC. 每個(gè)有聲段的Teager 能量算子倒譜參數(shù)(each-Sound-Teager Energy Operator Cepstral Coefficients,S-TEOCC)特征具有非線性能量的特性,提取過程包括有聲段檢測、分幀加窗、Teager 能量算子、歸一化取對(duì)數(shù)、計(jì)算DCT 取平均值等. 每個(gè)有聲段的融合特征(S-EGFCC)提取過程包括S-GFCC 采用主成分分析后融合STEOCC 構(gòu)成S-EGFCC,融合特征既表現(xiàn)了人耳聽覺特性,又結(jié)合了有聲段間能量變化的特性,也減少噪聲段和靜音段對(duì)識(shí)別率的影響,更適合在噪聲環(huán)境下進(jìn)行語種識(shí)別. 最后,將提取的S-EGFCC 進(jìn)行融合,得到全語段的特征量S-EGFCC. 特征提取和融合具體流程如圖2 所示.

      圖2 特征提取和融合提取流程圖Fig. 2 Flow chart of feature extraction and fusion extraction

      2.1 基于有聲無聲檢測后的GFCC 特征提取 傳統(tǒng)的GFCC 是基于全語音進(jìn)行特征參數(shù)提取,而實(shí)際中的全語音信號(hào)包括很多無聲段和混合有噪聲的有聲段,因此使用全語音段上的特征會(huì)引入大量噪聲部分,特別是在低信噪比情況下[14],位于有聲段處的瞬時(shí)信噪比較全語音段上的平均信噪比則高得多. 文獻(xiàn)[15]證明有聲段包含大部分語音信息,具有訓(xùn)練時(shí)間縮短、抗噪性增強(qiáng)的優(yōu)點(diǎn). 本文在特征提取前端采用文獻(xiàn)[16]的音節(jié)分割方法,首先將語音進(jìn)行有聲段檢測,然后提取S-GFCC 特征. SGFCC 特征參數(shù)提取步驟如下:

      步驟 1 有聲無聲段檢測. 文獻(xiàn)[16]分割算法在無噪的環(huán)境下切割準(zhǔn)確率達(dá)到91.8%,在低信噪比環(huán)境下達(dá)到78.4%,本文僅采用該方法進(jìn)行無音段的判別和切除,不做嚴(yán)格的音節(jié)分割,因此相對(duì)于采用全語音段進(jìn)行特征提取,在低信噪比環(huán)境下依然可以剔除無聲段和混合大量噪聲段,間接提高整段語音的信噪比,從而提高語種識(shí)別率. 如圖3 是10 dB音頻的分割結(jié)果,圖中虛線為有聲段起始點(diǎn),實(shí)線為有聲段終點(diǎn),粗點(diǎn)線為起始點(diǎn)和終點(diǎn)重合部分.從圖3 中可以獲取有聲段的起始點(diǎn)T∈{t1,t2,···,tv}和終點(diǎn)B∈{b1,b1,···,bv}, 其中,tv為第v個(gè)起始點(diǎn),bv為第v個(gè)終點(diǎn),從而得到每個(gè)有聲段的時(shí)間長度形成有聲語音段:

      圖3 有聲無聲段檢測Fig. 3 Detection of silent section and sound section

      步驟 7 S-GFCC 特征融合. 再將每個(gè)S-GFCC進(jìn)行融合得到S-GFCC 為:

      2.2 S-TEOCC 參數(shù)提取 Teager 能量是由Kaiser 提出的一種非線性能量算法,具有跟蹤語種信號(hào)非線性能量變化的特性,可以合理地呈現(xiàn)有聲段之間能量變化[17].

      第j個(gè)有聲段Teager 能量算子倒譜(S-TEOCC)提取具體步驟如下:

      由(14)式可知,Teager 能量算子可以消除零均值噪聲的影響,達(dá)到增強(qiáng)語音的目的[16]. 將Teager能量算子應(yīng)用低信噪比下的語種識(shí)別,可以降低噪聲的干擾和增強(qiáng)語音信號(hào)能量,還可以反映不同語種有聲段之間的能量變化,以便更好地區(qū)分不同語種.

      步驟 3 進(jìn)行歸一化并取對(duì)數(shù),得到每幀的Teager能量算子:

      2.3 特征融合 為了構(gòu)造更適合在低信噪比環(huán)境下的特征集,本文提出將S-GFCC 和S-TEOCC 進(jìn)行融合形成新的特征集S-TGFCC. 本文對(duì)SGFCC 采用主成分分析,從一個(gè)有聲段對(duì)應(yīng)F幀選取貢獻(xiàn)率大的前幾幀,消除貢獻(xiàn)率低的噪聲影響.主成分分析(Principal Components Analysis,PCA)[19]技術(shù)作為非監(jiān)督學(xué)習(xí)的PCA 方法,主要是線性代數(shù)里面的特征提取和分解,實(shí)現(xiàn)對(duì)原始數(shù)據(jù)進(jìn)行降維.

      具體融合步驟如下:

      步驟 1 對(duì)提取的S-GFCC 特征集進(jìn)行均值化處理:

      3 仿真實(shí)驗(yàn)與結(jié)果分析

      3.1 實(shí)驗(yàn)語音語料 語料來源于中國國際廣播電臺(tái),包括漢語、藏語、維吾爾語、英語、哈薩克斯坦語等5 種語言. 音頻采樣率為8 000 Hz、時(shí)長10 s 的單聲道語音文件. 隨機(jī)選取每種語言300 條作為訓(xùn)練集,前50 條不加噪聲,后250 條分別與Nonspeech公開噪聲庫里面的白噪聲和粉紅噪聲構(gòu)建形成SNR=[5,10,15,20,25]dB 的帶噪語音,每種信噪比語音50 條,從而更好地模擬現(xiàn)實(shí)環(huán)境. 從剩下的音頻中隨機(jī)選取每種語種171 條作為測試集,分別構(gòu)建兩種不同噪聲源的信噪比范圍在 -5 ~20 dB 的測試語料庫,UBM 模型自適應(yīng)采用的是非目標(biāo)語種的1 675 條覆蓋各種信噪比下的廣播語料.

      3.2 實(shí)驗(yàn)結(jié)果 為了驗(yàn)證本文提出的融合特征方法優(yōu)于Fbank 特征方法和GFCC 特征方法. 實(shí)驗(yàn)分為5 組,其中兩組為對(duì)比方法,3 組為本文方法.

      實(shí)驗(yàn)1 文獻(xiàn)[7]提取64 維的Fbank 特征作為語種特征進(jìn)行識(shí)別,由于Fbank 特征更適用于深度學(xué)習(xí)模型,因此采用殘差神經(jīng)網(wǎng)絡(luò) (Residual Neural Network,ResNet)作為語種識(shí)別模型.

      實(shí)驗(yàn)2 文獻(xiàn)[6]采用13 維靜態(tài)GFCC 作為語種特征,使用GMM-UBM 作為語種識(shí)別模型,UBM 模型進(jìn)行模型自適應(yīng),GMM 進(jìn)行模型訓(xùn)練.

      實(shí)驗(yàn)3 在實(shí)驗(yàn)2 的基礎(chǔ)上,本文提取2.1 節(jié)的13 維S-GFCC 特征作為語種特征.

      實(shí)驗(yàn)4 基于實(shí)驗(yàn)3,首先對(duì)提取的S-GFCC特征進(jìn)行主成分分析最終得到13 維S-GFCC+PCA 特征作為語種特征.

      實(shí)驗(yàn)5 在實(shí)驗(yàn)4 的基礎(chǔ)上,提取2.3 節(jié)的SEGFCC 特征作為語種特征.

      采用NIST 語種評(píng)測規(guī)則中的識(shí)別率作為性能評(píng)價(jià)指標(biāo),有:

      3.2.1 白噪聲環(huán)境下的語種識(shí)別效果 為了驗(yàn)證提出方法在白噪聲環(huán)境下的識(shí)別效果,進(jìn)行了5組實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表1 所示.

      表1 白噪聲環(huán)境下不同方法識(shí)別率對(duì)比Tab. 1 Comparison of identification rates of different methods under white noise environment %

      對(duì)比實(shí)驗(yàn)1~3 的識(shí)別結(jié)果可知,GFCC 特征相對(duì)于Fbank 特征識(shí)別性能有所欠佳. 但是,本文提出的S-GFCC 在6 種信噪比下,相對(duì)于Fbank 特征都有小幅度提升. 由于S-GFCC 特征在特征信息提取前端加入了有聲無聲段檢測,消除了部分噪聲段的干擾,間接地提升了信噪比,而GFCC 特征和Fbank 特征都存在大量的噪聲段干擾,導(dǎo)致識(shí)別率欠佳.

      對(duì)比實(shí)驗(yàn)3、4 的識(shí)別結(jié)果可得,在6 種先信噪比等級(jí)下,采用S-GFCC+PCA 特征集相對(duì)于SGFCC 的效果更好. 信噪比為0 dB 時(shí),識(shí)別率提高了8.5%,由于S-GFCC+PCA 特征是對(duì)S-GFCC 特征進(jìn)行主成分分析得到的,選取了貢獻(xiàn)率大的特征,舍棄貢獻(xiàn)率小的特征和部分噪聲,從而間接提高了識(shí)別率.

      從實(shí)驗(yàn)4、5 的識(shí)別結(jié)果可知,相對(duì)于S-GFCC+PCA,S-EGFCC 在不同信噪比下的識(shí)別率都有很大的提升,在信噪比 -5 dB 和0 dB 下,識(shí)別率分別達(dá)到了50.0%和66.5%. 由于本文S-EGFCC 特征融入了反應(yīng)有聲段能量變化的s-TEOCC 特征,抗干擾的能力更強(qiáng),從而提高了識(shí)別率.

      3.2.2 粉紅噪聲環(huán)境下的定長語種識(shí)別效果為了驗(yàn)證本文提出方法在粉紅噪聲環(huán)境下的識(shí)別效果依然優(yōu)于GFCC 特征方法,進(jìn)行了2 組實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果見表2.

      表2 粉紅噪聲環(huán)境下不同方法識(shí)別率對(duì)比Tab. 2 Comparison of identification rates of different methods under pink noise environment %

      對(duì)比表1、2 實(shí)驗(yàn)2、5 的識(shí)別結(jié)果可知,在粉紅噪聲環(huán)境下,兩種方法的識(shí)別效果都有所下降.由于粉紅噪聲的頻率分布和語音的頻率分布類似,因此干擾更大,而白噪聲在頻率分布上較為固定,有一部分噪聲分布在人耳不敏感區(qū)域,所以導(dǎo)致粉紅噪聲下識(shí)別效果不佳. 但是本文方法依然很大程度上優(yōu)于GFCC 特征方法,說明本文方法在粉紅噪聲環(huán)境下有效.3.2.3 白噪聲環(huán)境下的不同長度語音識(shí)別效果 為了驗(yàn)證本文提出方法在不同長度廣播語音和白噪聲環(huán)境下識(shí)別效果,本文對(duì)輸入的10 s 語音進(jìn)行裁剪,分為3 、6 、10 s,然后再進(jìn)行語種識(shí)別,實(shí)驗(yàn)結(jié)果見表3.

      從表3 的識(shí)別結(jié)果可知,對(duì)語音進(jìn)行剪切后,由于語種信息相對(duì)減少,導(dǎo)致所提方法隨著語音的長度減少,語種識(shí)別效果稍有下降,但是依然保持60%以上的識(shí)別率.

      表3 白噪聲環(huán)境下S-EGFCC 不同時(shí)長下的語種識(shí)別平均值Tab. 3 Average language identification values of S-EGFCC for different durations in a white noise environment %

      3.2.4 白噪聲環(huán)境下的5 種方法的平均識(shí)別率圖4 比較直觀地描述了5 組實(shí)驗(yàn)不同信噪比下平均識(shí)別率. 從圖4 中可知,S-EGTCC 相對(duì)于GFCC提升了20.2%,相對(duì)于Fbank 提升了16.1%. 由于有聲段長度占全段長度的60%左右,對(duì)有聲段語音進(jìn)行特征提取,意味著實(shí)際信噪比較全語音段提升了3 dB 左右. 進(jìn)行PCA 降維,選取有聲段所有幀中貢獻(xiàn)率最高的2 幀,去掉了大部分貢獻(xiàn)率低的噪聲和一些貢獻(xiàn)率低的語音信息,實(shí)際信噪比較全語音段提高了若干dB,識(shí)別效率也有所提高. 因此,融合特征集方法比Fbank 特征和GFCC 特征在低信噪比下提升10 dB 左右, 進(jìn)一步驗(yàn)證了融合特征集S-EGFCC 識(shí)別率高于Fbank 特征和GFCC 特征.

      圖4 不同方法下的平均識(shí)別率Fig. 4 Average identification rate under different methods

      4 結(jié)論

      本文從語種識(shí)別核心問題之一的特征提取入手,在伽瑪通頻率倒譜系數(shù)特征基礎(chǔ)上,將有聲無聲段檢測應(yīng)用到語種特征提取前端,然后提取有聲段語音GFCC 特征,并驗(yàn)證S-GFCC 特征集在識(shí)別率是否提升. 在此基礎(chǔ)上,對(duì)S-GFCC 特征集進(jìn)行PCA 降維,減小貢獻(xiàn)率小的噪聲干擾. 為了獲得在低信噪比下更好的識(shí)別率,將有聲段提取的STEOCC 特征和S-GFCC+PCA 特征進(jìn)行融合得到特征集S-EGFCC. 相對(duì)于使用深度學(xué)習(xí)的Fbank特征方法,在信噪比為-5~0 dB 情形下,S-EGFCC特征識(shí)別率分別提高了23.7%~34%. 然而本文未涉及對(duì)非廣播語種的研究,相對(duì)來說有一定的局限性,后續(xù)會(huì)考慮將該方法使用深度學(xué)習(xí)語種模型進(jìn)行測試,并將工作重點(diǎn)轉(zhuǎn)移到解決多種復(fù)雜環(huán)境下的語種識(shí)別問題.

      猜你喜歡
      語種識(shí)別率特征提取
      《波斯語課》:兩個(gè)人的小語種
      基于類圖像處理與向量化的大數(shù)據(jù)腳本攻擊智能檢測
      基于真耳分析的助聽器配戴者言語可懂度指數(shù)與言語識(shí)別率的關(guān)系
      基于Daubechies(dbN)的飛行器音頻特征提取
      電子制作(2018年19期)2018-11-14 02:37:08
      提升高速公路MTC二次抓拍車牌識(shí)別率方案研究
      “一帶一路”背景下我國的外語語種規(guī)劃
      Bagging RCSP腦電特征提取算法
      高速公路機(jī)電日常維護(hù)中車牌識(shí)別率分析系統(tǒng)的應(yīng)用
      基于MED和循環(huán)域解調(diào)的多故障特征提取
      Walsh變換在滾動(dòng)軸承早期故障特征提取中的應(yīng)用
      軸承(2010年2期)2010-07-28 02:26:12
      西丰县| 栾川县| 保德县| 盐津县| 扎囊县| 宁晋县| 榆树市| 南丰县| 泗洪县| 永丰县| 平顶山市| 探索| 定日县| 陕西省| 道真| 平远县| 小金县| 荔波县| 泸州市| 岑巩县| 绥阳县| 内江市| 田东县| 九龙县| 鹤壁市| 九台市| 广平县| 泾阳县| 潜江市| 溧水县| 巍山| 绵竹市| 宁德市| 高雄市| 郸城县| 普兰店市| 祁阳县| 康保县| 平远县| 木里| 广宗县|