• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于時(shí)域Gammatone濾波特征的廣播語(yǔ)種識(shí)別

      2022-04-11 11:16:08陳亮邵玉斌杜慶治唐維康
      信號(hào)處理 2022年3期
      關(guān)鍵詞:語(yǔ)種特征參數(shù)語(yǔ)料

      陳亮 邵玉斌 龍 華 杜慶治 彭 藝 唐維康

      (昆明理工大學(xué)信息工程與自動(dòng)化學(xué)院,云南昆明 650500)

      1 引言

      在廣播音頻信號(hào)中,說(shuō)話環(huán)境復(fù)雜且說(shuō)話人不同,因而對(duì)非特定說(shuō)話人在復(fù)雜環(huán)境中的語(yǔ)種辨識(shí)準(zhǔn)確率比較低。如何提取有效的語(yǔ)種特征參數(shù)是廣播音頻語(yǔ)種識(shí)別的關(guān)鍵。傳統(tǒng)特征參數(shù)包括梅爾頻率倒譜系數(shù)(MFCC)[1-2]、線性預(yù)測(cè)編碼系數(shù)(LPC)、線性預(yù)測(cè)倒譜系數(shù)(LPCC)、gammatone 頻率倒譜系數(shù)(GFCC)[3]等、耳蝸倒譜系數(shù)(CFCC)[4]、gammachirp 特征參數(shù)(GCFC)[5]。目前,語(yǔ)種識(shí)別方法的研究主要集中在如何提取有效的底層聲學(xué)特征,放入對(duì)應(yīng)的模型或神經(jīng)網(wǎng)絡(luò)中進(jìn)行訓(xùn)練,得到語(yǔ)種識(shí)別模型。目前比較常用的是gammatone 頻率倒譜系數(shù)參數(shù),使用gammatone 濾波器代替梅爾濾波器,更好地模擬了人體耳蝸頻率特征,再經(jīng)過(guò)離散余弦變換,去除同一幀的不同特征維度之間的相關(guān)性,從而能更好地對(duì)特征參數(shù)進(jìn)行建模,達(dá)到較好的識(shí)別效果。Gammatone 濾波器[6]在語(yǔ)音信號(hào)處理方面,包括說(shuō)話人識(shí)別、語(yǔ)種識(shí)別、語(yǔ)音情感識(shí)別[7]等方面得到廣泛的應(yīng)用。文獻(xiàn)[8]提出使用gammatone 濾波器濾波提取GFCC 參數(shù)和加上一階和二階差分的GFCC-D-A 特征用于語(yǔ)種識(shí)別,同時(shí)也使用GFCC 參數(shù)提取移位差分倒譜(SDC)特征,提高了語(yǔ)種識(shí)別的準(zhǔn)確率。文獻(xiàn)[9]提出使用融合MFCC 和GFCC 的特征參數(shù)用于說(shuō)話人識(shí)別,加上一階差分和二階差分,取得了比MFCC 和GFCC 更好的說(shuō)話人識(shí)別的識(shí)別準(zhǔn)確率。文獻(xiàn)[3]提出基于gammatone 時(shí)域?yàn)V波的說(shuō)話人識(shí)別。文獻(xiàn)[10]研究了經(jīng)過(guò)gammatone 時(shí)域?yàn)V波得到的GFCC 參數(shù)在說(shuō)話人識(shí)別中的抗噪性能。在基于神經(jīng)網(wǎng)絡(luò)相關(guān)語(yǔ)種識(shí)別算法中,文獻(xiàn)[11]提出基于Senone 的深度神經(jīng)網(wǎng)絡(luò)語(yǔ)種識(shí)別算法。文獻(xiàn)[12]提出LID-Senone統(tǒng)計(jì)特征比Senone 特征能達(dá)到更好的語(yǔ)種識(shí)別效果。文獻(xiàn)[13]提出使用MFCC 進(jìn)行DCT 變換之前的參數(shù)(Fbank 參數(shù))畫圖使用LSTM 網(wǎng)絡(luò)進(jìn)行廣播音頻語(yǔ)種識(shí)別。文獻(xiàn)[14]提出用Fbank 特征融合MFCC 特征使用x-vector 進(jìn)行說(shuō)話人識(shí)別,達(dá)到較好的識(shí)別效果。文獻(xiàn)[15]使用深度神經(jīng)網(wǎng)絡(luò)按照音素狀態(tài)進(jìn)行聚類并結(jié)合深度瓶頸特征(Deep Bottleneck Feature,DBF)進(jìn)行全差異空間建模,得到較好的語(yǔ)種識(shí)別效果。在噪聲環(huán)境下,人們首先會(huì)采用一些語(yǔ)音增強(qiáng)算法[16]對(duì)語(yǔ)音進(jìn)行去噪后再進(jìn)行語(yǔ)種識(shí)別。文獻(xiàn)[17]中首先提出了Resnet 神經(jīng)網(wǎng)絡(luò),并在圖像分類方向達(dá)到較好的識(shí)別效果。針對(duì)廣播音頻,傳統(tǒng)的特征提取方法使用傳統(tǒng)分類模型分類效果不理想,而基于神經(jīng)網(wǎng)絡(luò)的圖像分類效果較好,將語(yǔ)種提取的特征參數(shù)畫圖使用神經(jīng)網(wǎng)絡(luò)進(jìn)行分類,可以達(dá)到較好的分類效果。

      本文提出使用GFCC進(jìn)行DCT變換之前的參數(shù)用于語(yǔ)種識(shí)別,用gammatone 時(shí)域?yàn)V波提取特征參數(shù)。使用歸一化后的gammatone 時(shí)域函數(shù)與預(yù)處理后的語(yǔ)音信號(hào)進(jìn)行卷積,得到濾波后的信號(hào),再進(jìn)行分幀加窗,對(duì)幀求平方和并取對(duì)數(shù),得到時(shí)域GF(gammatone filterbank)參數(shù)。與頻域GF 參數(shù)[18]不同的是,時(shí)域GF 參數(shù)的濾波過(guò)程是在時(shí)域進(jìn)行的。使用VGG19和Resnet34分類網(wǎng)絡(luò)進(jìn)行仿真實(shí)驗(yàn),結(jié)果表明本文的時(shí)域GF 特征語(yǔ)種識(shí)別準(zhǔn)確率在廣播音頻語(yǔ)料集和VoxForge 公共語(yǔ)料集下均高于傳統(tǒng)的GFCC 特征、GFCC-D-A 特征、GFCC-SDC 特征及Fbank 特征。對(duì)語(yǔ)音加信噪比為10 dB、5 dB、0 dB的Noisex-92噪聲庫(kù)[19]中的不同噪聲,提取特征參數(shù)畫圖并使用自動(dòng)色階算法[20]去噪,相比不去噪的識(shí)別結(jié)果,語(yǔ)種識(shí)別準(zhǔn)確率在不同噪聲不同信噪比下均有一定的提升。

      2 Gammatone時(shí)域?yàn)V波

      本文提出一種gammatone 時(shí)域?yàn)V波方法。首先構(gòu)建gammatone 時(shí)域函數(shù),每個(gè)濾波器沖激響應(yīng)如式(1)所示[3]。gammatone 濾波器組由M個(gè)不同中心頻率的濾波器組成。

      其中a為增益因子,n為濾波器階數(shù),一般取4就可,fi是第i個(gè)濾波器的中心頻率,φ為初相位,取0,U(t)為階躍函數(shù)。bi是第i個(gè)濾波器的帶寬,其表達(dá)式為:

      濾波器中心頻率fi的計(jì)算方法如下:

      先將濾波器中心頻率范圍frange轉(zhuǎn)換到ERB 刻度上:

      然后,將ERBs 范圍均勻地依據(jù)濾波器個(gè)數(shù)劃分,得出各濾波器在ERB 刻度上的位置,再反算為對(duì)應(yīng)的頻率點(diǎn)上,從而得出各濾波器的中心頻率fi。

      以采樣率fs對(duì)式(1)進(jìn)行離散化,得到離散信號(hào)的表達(dá)式為:

      其中K為gammatone 濾波器函數(shù)的采樣點(diǎn)數(shù),i為濾波器的序號(hào),fs為信號(hào)的采樣頻率,本文取16 kHz。

      畫出中心頻率為300 Hz 和1 kHz 的gammatone濾波器的離散信號(hào)沖激響應(yīng)和幅頻響應(yīng)如圖1所示。

      由圖1(a)可以看出,中心頻率為300 Hz的gammatone濾波器在第500個(gè)采樣點(diǎn)之后幅值基本為0,因此用前面500 個(gè)點(diǎn)基本可以代表中心頻率為300 Hz的濾波器函數(shù),其后的信號(hào)可以省略。對(duì)中心頻率為1 kHz 的gammatone 濾波器在第300 個(gè)采樣點(diǎn)之后幅值基本為0,因此用前面300 個(gè)點(diǎn)基本可以代表中心頻率為1 kHz 的濾波器函數(shù),其后的信號(hào)可以省略。本文信號(hào)采樣頻率取16 kHz,濾波器中心頻率范圍frange取50 Hz~8 kHz,綜合來(lái)看,對(duì)不同中心頻率的gammatone 濾波器,本文均取前面1024個(gè)采樣點(diǎn)代表其離散時(shí)域函數(shù)。圖1(b)表示中心頻率為300 Hz 和1 kHz 的gammatone 濾波器的幅頻響應(yīng),橫軸代表頻率,縱軸代表幅值,兩個(gè)濾波器的頻率范圍均為0~8 kHz。不同中心頻率的濾波器沖激響應(yīng)幅值范圍不同,幅頻響應(yīng)的曲線走勢(shì)不一樣,但幅值等高。

      為了提升低頻信號(hào)降低高頻信號(hào),對(duì)式(1)的gammatone 濾波器時(shí)域函數(shù)進(jìn)行最大值歸一化,其表達(dá)式如下:

      歸一化后的濾波器幅度頻率響應(yīng)如圖2 所示。從圖中可以看出,gammatone 時(shí)域函數(shù)進(jìn)行歸一化后,對(duì)應(yīng)的幅頻響應(yīng)低頻部分被放大,高頻部分幅值被壓縮。

      其中x(n)為輸入的語(yǔ)音序列的第n個(gè)值,y(n)為經(jīng)過(guò)濾波后的語(yǔ)音序列的第n個(gè)值。為第i個(gè)gammatone 濾波器的離散沖激響應(yīng),i為濾波器的序號(hào)。N為輸入的語(yǔ)音序列的長(zhǎng)度。濾波器個(gè)數(shù)為M,將M個(gè)濾波器的輸出組合為一個(gè)M×N維的數(shù)據(jù)矩陣。

      3 時(shí)域GF特征提取

      首先對(duì)語(yǔ)音信號(hào)進(jìn)行能量歸一化,濾除300 Hz~3400 Hz 以外的信號(hào),并進(jìn)行預(yù)加重。接著用第1 節(jié)描述的gammatone 時(shí)域?yàn)V波方法對(duì)語(yǔ)音信號(hào)進(jìn)行濾波,然后進(jìn)行分幀加窗,并對(duì)每幀信號(hào)取平方和,再取對(duì)數(shù),得到時(shí)域GF 特征參數(shù)。提取流程如圖3所示。

      首先對(duì)語(yǔ)音信號(hào)進(jìn)行能量歸一化,去除不同語(yǔ)種語(yǔ)音的音量大小對(duì)語(yǔ)種識(shí)別的影響,表達(dá)式如下:

      其中,x(n)為輸入的一段語(yǔ)音序列,x1(n)為歸一化后的語(yǔ)音序列。

      由于語(yǔ)音的頻率范圍大致為300 Hz~3400 Hz,頻率太低或太高的信號(hào)大部分為其他噪聲或干擾信號(hào),所以本文使用4 階巴特沃斯濾波器進(jìn)行帶通濾波,濾除300 Hz~3400 Hz 以外的信號(hào),排除其他非人聲信號(hào)的干擾,從而更好地提取特征。由于巴特沃斯濾波器在邊緣部分有一個(gè)過(guò)渡帶,在過(guò)渡帶內(nèi)的信號(hào)無(wú)法完全濾除干凈,所以在100 Hz~5500 Hz內(nèi)仍有信號(hào)。經(jīng)過(guò)濾波后的信號(hào)為x2(n)。

      接著對(duì)語(yǔ)音信號(hào)進(jìn)行預(yù)加重、分幀、加窗。為了提升高頻分量,需要對(duì)信號(hào)進(jìn)行預(yù)加重,減小高頻分量的損失。預(yù)加重函數(shù)如式(8)所示。

      其中,c為預(yù)加重系數(shù),通常取0.97。x3(n)為預(yù)加重后的語(yǔ)音序列。

      對(duì)進(jìn)行預(yù)加重后的語(yǔ)音進(jìn)行時(shí)域?yàn)V波。Gammatone 濾波器組的時(shí)域沖激響應(yīng)與輸入的語(yǔ)音信號(hào)x3(n)進(jìn)行卷積,得到時(shí)域?yàn)V波結(jié)果。濾波過(guò)程在分幀前進(jìn)行,避免了邊緣效應(yīng),濾波效果較好。進(jìn)行時(shí)域?yàn)V波后,得到M×N維的數(shù)據(jù)矩陣,M為濾波器的個(gè)數(shù),N為語(yǔ)音信號(hào)的長(zhǎng)度。對(duì)濾波后的信號(hào)進(jìn)行分幀,加窗,得到M×a×b的三維數(shù)據(jù)矩陣。其中M為濾波器個(gè)數(shù),a為分幀的幀長(zhǎng),b為分幀的幀數(shù)。本文分幀的幀長(zhǎng)a取512,幀移s取256。

      再對(duì)每幀信號(hào)求平方和,并取對(duì)數(shù)。設(shè)經(jīng)過(guò)第i個(gè)濾波器濾波的第p幀的語(yǔ)音信號(hào)為yi,p(n),則其表達(dá)式為:

      其中y1(i,p)為對(duì)第i維第p幀的一幀語(yǔ)音信號(hào)求平方和并取對(duì)數(shù)的值,i=1,2,…,M,p=1,2,…,b。最后得到時(shí)域GF特征參數(shù),其矩陣維度為M×b維。

      4 噪聲環(huán)境中的語(yǔ)音信號(hào)

      本文研究純凈語(yǔ)音和信噪比在0 dB~10 dB 范圍內(nèi)不同噪聲情況下使用去噪算法去噪后的語(yǔ)種識(shí)別。設(shè)帶噪語(yǔ)音為:

      其中x2(n)為歸一化并經(jīng)過(guò)巴特沃斯帶通濾波得到的無(wú)噪的語(yǔ)音信號(hào),w(n)為噪聲信號(hào)。則平均信噪比定義為:

      對(duì)語(yǔ)音分別加信噪比為10 dB、5 dB、0 dB 的Noisex-92 噪聲庫(kù)[19]中的white 噪聲、pink 噪聲、factory 噪聲、babble 噪聲,提取特征參數(shù)畫出圖像,并使用圖像去噪算法去除部分噪聲后進(jìn)行訓(xùn)練識(shí)別。

      對(duì)語(yǔ)音信號(hào)加噪聲后,使用歸一化后的gammatone 時(shí)域函數(shù)提取時(shí)域GF 特征參數(shù)。并將圖像的每個(gè)通道中像素較暗的一定比例的值令為0,將每個(gè)通道中像素較亮的一定比例的值令為1,對(duì)圖像剩余像素值進(jìn)行線性映射,并按比例對(duì)剩下的像素值進(jìn)行重新分配,稱為自動(dòng)色階算法[20]。

      對(duì)語(yǔ)音分別加信噪比為10 dB、5 dB、0 dB 的pink 噪聲,提取特征參數(shù)畫出圖,并分別使用自動(dòng)色階算法去噪,加噪和去噪后的時(shí)域GF 特征畫出的圖如圖4所示。

      圖4 中左邊為pink 噪聲下不同信噪比的時(shí)域GF 特征圖,右邊為使用自動(dòng)色階算法去噪后的時(shí)域GF 特征圖。圖中白色較亮的部分包含語(yǔ)音的聲調(diào)和共振峰信息,灰色較暗部分大部分為噪聲信息。對(duì)比圖4 中左邊加不同信噪比pink 噪聲的時(shí)域GF 特征圖,可以看出,加噪的GF 參數(shù)部分語(yǔ)音信息被噪聲淹沒(méi),信噪比越低可觀察到的語(yǔ)音信息越少。圖4 中右邊的圖像為使用自動(dòng)色階算法去噪后的時(shí)域GF 特征圖,對(duì)比圖4 左邊的圖像發(fā)現(xiàn),大部分噪聲被去除,保留了部分較亮的語(yǔ)音信息,圖像的對(duì)比度增強(qiáng)了。但信噪比較低時(shí),隨著噪聲被去除,一部分語(yǔ)音信息也被去除了。左邊加噪的圖像橫軸代表語(yǔ)音分幀的幀數(shù),縱軸代表濾波器序號(hào)也是GF 特征參數(shù)的維數(shù)。由于去噪算法是對(duì)畫出的圖像進(jìn)行去噪,圖像的橫軸和縱軸變?yōu)閳D像的像素點(diǎn)個(gè)數(shù),所以右邊去噪后的圖像橫軸代表圖像寬度,縱軸代表圖像的高度。

      5 實(shí)驗(yàn)仿真及分析

      5.1 實(shí)驗(yàn)語(yǔ)料說(shuō)明

      本文實(shí)驗(yàn)語(yǔ)料1 來(lái)自中國(guó)國(guó)際廣播電臺(tái),主要包括老撾語(yǔ)、柬埔寨語(yǔ)、緬甸語(yǔ)、藏語(yǔ)、維吾爾語(yǔ)、越南語(yǔ)六種語(yǔ)言。每個(gè)語(yǔ)種語(yǔ)料采集自多個(gè)頻道的不同時(shí)間段的不同說(shuō)話人的廣播音頻。六種語(yǔ)種的語(yǔ)音數(shù)據(jù)采集好后通過(guò)人工剪輯的方式,去掉了較長(zhǎng)的靜音段,音樂(lè)段,以及背景音樂(lè)較強(qiáng)的語(yǔ)音段。再通過(guò)音頻轉(zhuǎn)換軟件轉(zhuǎn)為單聲道數(shù)據(jù),采樣頻率為16 kHz,采樣深度16位。每個(gè)語(yǔ)種的廣播音頻中都含有一定的背景音樂(lè),且包括電臺(tái)主持人說(shuō)話語(yǔ)音,本地人說(shuō)話語(yǔ)音及采訪語(yǔ)音等。每個(gè)語(yǔ)種的語(yǔ)音都包含多個(gè)說(shuō)話人,男女都有混合。每個(gè)語(yǔ)種的語(yǔ)料都被剪切成3 秒的固定長(zhǎng)度的語(yǔ)音,每條語(yǔ)音之間重疊1 秒。實(shí)驗(yàn)語(yǔ)料中,每個(gè)語(yǔ)種訓(xùn)練集由6~8 個(gè)頻道的不同時(shí)間段采集的廣播音頻組成,包含3600 條語(yǔ)音。測(cè)試集由不同于訓(xùn)練集的另外4~5 個(gè)頻道的不同時(shí)間段采集的廣播音頻組成,每個(gè)語(yǔ)種包含1000條語(yǔ)音。

      本文實(shí)驗(yàn)語(yǔ)料2來(lái)自VoxForge公共數(shù)據(jù)集上的六個(gè)語(yǔ)種:English,F(xiàn)rench,German,Italian,Russian,Spanish。每個(gè)語(yǔ)種150 個(gè)說(shuō)話人,其中120 人的語(yǔ)種語(yǔ)音用于訓(xùn)練,另外30 人的語(yǔ)種語(yǔ)音用于測(cè)試,每個(gè)說(shuō)話人10 條語(yǔ)音,每條語(yǔ)音長(zhǎng)度3 秒,每個(gè)語(yǔ)種訓(xùn)練集1200 條語(yǔ)音,測(cè)試集300 條語(yǔ)音。語(yǔ)音采樣頻率為16 kHz,采樣深度16位。

      5.2 實(shí)驗(yàn)設(shè)計(jì)

      本實(shí)驗(yàn)使用python 語(yǔ)言測(cè)試本文提出的時(shí)域GF特征參數(shù)的語(yǔ)種識(shí)別準(zhǔn)確率、加噪后的語(yǔ)種識(shí)別準(zhǔn)確率以及對(duì)加噪后的語(yǔ)音提取特征參數(shù)使用自動(dòng)色階圖像去噪算法去噪后的語(yǔ)種識(shí)別準(zhǔn)確率。

      本文所有實(shí)驗(yàn)均基于Win10 系統(tǒng)下的Py-Torch1.5.1 深度學(xué)習(xí)框架,使用VGG19 分類網(wǎng)絡(luò)和Resnet34 分類網(wǎng)絡(luò)和作為本文的語(yǔ)種識(shí)別分類網(wǎng)絡(luò)。VGG19 分類網(wǎng)絡(luò)訓(xùn)練epoch 大小設(shè)置為60,Resnet34 分類網(wǎng)絡(luò)訓(xùn)練epoch 大小設(shè)置為40。VGG19 分類網(wǎng)絡(luò)和Resnet34 分類網(wǎng)絡(luò)的worker 數(shù)為8,batchsize 為16,網(wǎng)絡(luò)初始學(xué)習(xí)率設(shè)置為0.0001,使用交叉熵?fù)p失函數(shù),采用Adam 優(yōu)化器和ReLU 激活函數(shù)。首先對(duì)六個(gè)語(yǔ)種提取特征參數(shù)畫出的圖像打標(biāo)簽,導(dǎo)入神經(jīng)網(wǎng)絡(luò)中進(jìn)行訓(xùn)練,最后一次循環(huán)中神經(jīng)網(wǎng)絡(luò)的輸出節(jié)點(diǎn)保存為語(yǔ)種識(shí)別模型,得到的語(yǔ)種識(shí)別結(jié)果作為每次訓(xùn)練的識(shí)別結(jié)果。重復(fù)10 次訓(xùn)練分類網(wǎng)絡(luò),并取10 次訓(xùn)練結(jié)果的平均值作為最終的語(yǔ)種識(shí)別結(jié)果。

      實(shí)驗(yàn)1:測(cè)試本文的時(shí)域GF 特征參數(shù)的語(yǔ)種識(shí)別有效性。首先對(duì)語(yǔ)音進(jìn)行預(yù)處理,提取特征參數(shù)畫圖并保存到文件夾中。接著讀入訓(xùn)練集圖像,對(duì)不同語(yǔ)種畫出的圖像打標(biāo)簽。使用VGG19 分類網(wǎng)絡(luò)和Resnet34 分類網(wǎng)絡(luò)分別訓(xùn)練不同語(yǔ)種的時(shí)域GF特征圖,得到語(yǔ)種識(shí)別模型。將測(cè)試集的圖像讀入,導(dǎo)入語(yǔ)種識(shí)別模型中進(jìn)行識(shí)別,得到識(shí)別結(jié)果。分別在廣播音頻語(yǔ)料集1 和VoxForge 公共語(yǔ)料集2上進(jìn)行實(shí)驗(yàn)。與傳統(tǒng)的GFCC 特征、加上一階和二階差分的GFCC-D-A 特征、GFCC-SDC 特征、Fbank特征進(jìn)行對(duì)比,對(duì)比本文提出的時(shí)域GF 特征的語(yǔ)種識(shí)別結(jié)果。

      實(shí)驗(yàn)2:測(cè)試gammatone濾波器取不同個(gè)數(shù)對(duì)語(yǔ)種識(shí)別結(jié)果的影響。濾波器分別取32 個(gè)、64 個(gè)、96 個(gè)、120 個(gè)進(jìn)行時(shí)域?yàn)V波,提取不同維數(shù)的時(shí)域GF特征,分別測(cè)試其語(yǔ)種識(shí)別結(jié)果。

      實(shí)驗(yàn)3:測(cè)試語(yǔ)音加不同噪聲不同信噪比時(shí)提取的特征參數(shù)不使用和使用自動(dòng)色階圖像去噪算法去噪后的語(yǔ)種識(shí)別結(jié)果。對(duì)不同語(yǔ)種的語(yǔ)音分別加信噪比為10 dB、5 dB、0 dB 的white 噪聲、pink噪聲、factory 噪聲、babble 噪聲,進(jìn)行預(yù)處理后,與歸一化后的gammatone 時(shí)域函數(shù)進(jìn)行卷積,提取時(shí)域GF特征參數(shù)畫圖,并使用自動(dòng)色階算法去噪。與不去噪的特征參數(shù)的識(shí)別結(jié)果進(jìn)行對(duì)比。

      5.3 實(shí)驗(yàn)結(jié)果

      實(shí)驗(yàn)1:對(duì)語(yǔ)音提取32 維的GFCC 特征[8]、32 維的GFCC-D-A 特征[8]、GFCC-SDC 特征[8]、32 維Fbank特征[13]、和本文的32 維時(shí)域GF 特征。將提取的特征參數(shù)畫成圖像分別使用VGG19 分類網(wǎng)絡(luò)和Resnet34 分類網(wǎng)絡(luò)進(jìn)行訓(xùn)練識(shí)別,在語(yǔ)料集1 和語(yǔ)料集2 下得到的六個(gè)語(yǔ)種的平均識(shí)別結(jié)果如表1 所示,每個(gè)特征參數(shù)的識(shí)別結(jié)果均取訓(xùn)練10次網(wǎng)絡(luò)識(shí)別結(jié)果的平均值。其中語(yǔ)料集1為本文的廣播音頻語(yǔ)料集,語(yǔ)料集2為VoxForge公共語(yǔ)料集。

      從表1中可以看出,本文的時(shí)域GF特征在不同的語(yǔ)料集和不同的分類網(wǎng)絡(luò)下識(shí)別準(zhǔn)確率均最高,較Fbank 特征、GFCC-SDC 特征、GFCC-D-A 特征、GFCC 特征均有一定的提升,GFCC 特征識(shí)別準(zhǔn)確率最低。這是因?yàn)楸疚臅r(shí)域GF 特征進(jìn)行g(shù)ammatone濾波時(shí)是在分幀前進(jìn)行的,避免了分幀的邊緣效應(yīng),濾波效果較好。同時(shí)本文的時(shí)域GF 特征未進(jìn)行DCT 變換,保留了語(yǔ)音的聲調(diào),共振峰等信息,將特征畫成圖像進(jìn)行網(wǎng)絡(luò)訓(xùn)練時(shí)能較好的學(xué)習(xí)到這些特征,達(dá)到較好的識(shí)別效果。使用Resnet34 分類網(wǎng)絡(luò)在廣播音頻語(yǔ)料集1 和VoxForge 公共語(yǔ)料集2下的語(yǔ)種分類效果要好于VGG19分類網(wǎng)絡(luò),主要是因?yàn)镽esnet34 分類網(wǎng)絡(luò)引入了殘差模塊,解決了隨著網(wǎng)絡(luò)深度增加的梯度消失問(wèn)題,能夠很好地起到優(yōu)化訓(xùn)練的效果。

      表1中,對(duì)于不同的特征,加上一階和二階差分的GFCC-D-A 特征相比GFCC 特征識(shí)別準(zhǔn)確率提升了1%~2%,這是因?yàn)榧由喜罘趾笤黾恿烁嗟募?xì)節(jié)信息,具有更好的區(qū)分效果。GFCC-SDC 特征在GFCC-D-A 特征的基礎(chǔ)上提升了1%~2%,這是因?yàn)镾DC 特征增強(qiáng)了幀與幀之間的聯(lián)系,在時(shí)序上包含了更多的特征信息。Fbank 特征相比MFCC 特征未進(jìn)行DCT 變換,保留了特征之間的關(guān)聯(lián)性,同時(shí)也保留了共振峰信息,達(dá)到較好識(shí)別效果。本文的時(shí)域GF特征相比識(shí)別結(jié)果最好的Fbank特征,在不同語(yǔ)料集和不同網(wǎng)絡(luò)下識(shí)別結(jié)果均提升了1%~3%,這是因?yàn)樘崛≡撎卣鲿r(shí)使用gammatone 濾波器進(jìn)行濾波,更好地模擬了人耳的聽覺(jué)特征。同時(shí),本文的時(shí)域GF 特征相比GFCC 特征識(shí)別結(jié)果提升了6%~7%。通過(guò)對(duì)比可以看出,本文提出的gammatone 時(shí)域?yàn)V波方法得到的時(shí)域GF 特征更有效,能更好地區(qū)分語(yǔ)種。由于Resnet34 分類網(wǎng)絡(luò)能達(dá)到更好的分類效果,所以實(shí)驗(yàn)2 和實(shí)驗(yàn)3 均使用Resnet34 分類網(wǎng)絡(luò)進(jìn)行實(shí)驗(yàn)。

      表1 不同特征參數(shù)的語(yǔ)種識(shí)別準(zhǔn)確率(%)Tab.1 Language recognition accuracy rate of different characteristic parameters(%)

      對(duì)五個(gè)特征參數(shù)在語(yǔ)料集1下使用Resnet34分類網(wǎng)絡(luò)進(jìn)行訓(xùn)練,重復(fù)訓(xùn)練Resnet34分類網(wǎng)絡(luò)10次得到六個(gè)語(yǔ)種的識(shí)別準(zhǔn)確率取平均值繪制曲線如圖5所示。

      從圖5中可以看出,本文的時(shí)域GF特征對(duì)六個(gè)語(yǔ)種的識(shí)別結(jié)果都最好,說(shuō)明本文的gammatone 時(shí)域?yàn)V波得到的時(shí)域GF 特征能更好的提取到語(yǔ)種相關(guān)的信息,能達(dá)到較好的區(qū)分度,在進(jìn)行神經(jīng)網(wǎng)絡(luò)訓(xùn)練時(shí)能更好的訓(xùn)練語(yǔ)種識(shí)別模型。GFCC 特征相對(duì)來(lái)說(shuō)對(duì)六個(gè)語(yǔ)種的識(shí)別結(jié)果都較差且波動(dòng)較大,這是因?yàn)镚FCC 特征經(jīng)過(guò)DCT 變換后,能量集中在前幾維,其他維數(shù)的參數(shù)值較小,且相鄰值之間相差不大,所以在畫成圖像之后區(qū)分度不大,在進(jìn)行神經(jīng)網(wǎng)絡(luò)訓(xùn)練時(shí)不利于語(yǔ)種特征的提取。

      實(shí)驗(yàn)2:語(yǔ)音進(jìn)行g(shù)ammatone 時(shí)域?yàn)V波,濾波器分別取32 個(gè)、64 個(gè)、96 個(gè)、120 個(gè),得到不同維數(shù)的GF 特征參數(shù),使用Resnet34 分類網(wǎng)絡(luò)進(jìn)行訓(xùn)練識(shí)別,得到的識(shí)別結(jié)果如表2所示。

      從表2 可以看出,對(duì)于不同維數(shù)的時(shí)域GF 特征,其語(yǔ)種識(shí)別結(jié)果相差不大,均在87%以上。64維時(shí)域GF特征識(shí)別結(jié)果最好,32維時(shí)域GF特征識(shí)別結(jié)果最差,同時(shí)維數(shù)較高時(shí),識(shí)別結(jié)果也相對(duì)較差。這是因?yàn)閰?shù)維數(shù)較小時(shí),其所含的信息量較少,識(shí)別結(jié)果較低,但參數(shù)維數(shù)較大時(shí),所含的細(xì)節(jié)信息偏多,會(huì)造成一定的信息冗余。但120 維時(shí)域GF 特征畫出的圖語(yǔ)音輪廓信息最清晰,所以在后面對(duì)語(yǔ)音進(jìn)行加噪去噪實(shí)驗(yàn)時(shí),為了更好地對(duì)比去噪后的效果,后面提取的時(shí)域GF 特征維數(shù)取120維。

      表2 不同維數(shù)時(shí)域GF特征語(yǔ)種識(shí)別準(zhǔn)確率(%)Tab.2 Accuracy of GF feature language recognition in time domain with different dimensions(%)

      六個(gè)語(yǔ)種的識(shí)別準(zhǔn)確率柱狀圖如圖6所示。從圖6中可以看出,不同維數(shù)的時(shí)域GF特征參數(shù)對(duì)柬埔寨語(yǔ)的識(shí)別準(zhǔn)確率都最好,說(shuō)明柬埔寨語(yǔ)提取本文特征參數(shù)具有較好的區(qū)分性。對(duì)維吾爾語(yǔ)的識(shí)別結(jié)果相對(duì)來(lái)說(shuō)較差,但六個(gè)語(yǔ)種的整體識(shí)別結(jié)果基本在83%以上。不同維數(shù)的GF 特征使用分類網(wǎng)絡(luò)進(jìn)行語(yǔ)種分類時(shí)對(duì)六個(gè)語(yǔ)種的識(shí)別準(zhǔn)確率也會(huì)有一定差別,但120維時(shí)域GF特征對(duì)六個(gè)語(yǔ)種的識(shí)別準(zhǔn)確率相對(duì)較為平均。

      實(shí)驗(yàn)3:對(duì)不同語(yǔ)種的語(yǔ)音分別加信噪比為10 dB、5 dB、0 dB 的white 噪聲、pink 噪聲、factory 噪聲、babble 噪聲,提取時(shí)域GF 特征畫圖,使用Resnet34 分類網(wǎng)絡(luò)進(jìn)行訓(xùn)練識(shí)別,并使用自動(dòng)色階算法對(duì)圖像去噪,對(duì)去噪后的特征進(jìn)行訓(xùn)練識(shí)別。經(jīng)過(guò)實(shí)驗(yàn),本文去除圖像中最小值的20%和最大值的1%識(shí)別效果最好。通過(guò)模型訓(xùn)練和語(yǔ)種識(shí)別,得到六個(gè)語(yǔ)種在四個(gè)不同噪聲的不同信噪比下的加噪與去噪的識(shí)別結(jié)果如表3所示。

      從表3的結(jié)果可以看出,對(duì)于不同的噪聲,在不同信噪比下加噪和去噪后的識(shí)別結(jié)果也不一樣,但去噪后的識(shí)別結(jié)果明顯高于不去噪的識(shí)別結(jié)果。在white 噪聲環(huán)境下,去噪后的識(shí)別結(jié)果最好,在信噪比為0 dB時(shí)可以達(dá)到81%的識(shí)別準(zhǔn)確率,這是因?yàn)榘自肼曉谡麄€(gè)頻率段的分布較為均勻,在使用圖像去噪算法去噪時(shí)較為容易去除。在factory 噪聲和babble 噪聲下加噪和去噪后的識(shí)別結(jié)果相對(duì)較差,這是因?yàn)檫@兩種噪聲都是非平穩(wěn)噪聲,噪聲信號(hào)的值也會(huì)比較大,容易與語(yǔ)音信號(hào)混疊,在進(jìn)行圖像去噪時(shí)不易去除,且信噪比越低,識(shí)別結(jié)果越差。同時(shí),在不同的噪聲環(huán)境中不同信噪比下本文的時(shí)域GF 特征的語(yǔ)種識(shí)別結(jié)果均較好,且在信噪比為0 dB 時(shí)在四個(gè)噪聲中的識(shí)別結(jié)果仍然達(dá)到70%以上,說(shuō)明本文提取的時(shí)域GF 特征有效,具有一定的抗噪能力。在不同噪聲不同信噪比下,去噪后識(shí)別結(jié)果相對(duì)于加噪的識(shí)別結(jié)果均有一定的提升,說(shuō)明使用歸一化后的gammatone 時(shí)域?yàn)V波器提取的時(shí)域GF 特征在使用自動(dòng)色階算法去噪后的語(yǔ)種區(qū)分能力相對(duì)于不去噪的結(jié)果要好,驗(yàn)證了在噪聲環(huán)境中針對(duì)本文的時(shí)域GF 特征使用自動(dòng)色階圖像去噪算法去噪后的語(yǔ)種識(shí)別準(zhǔn)確率較高,說(shuō)明本文的算法有效。

      6 結(jié)論

      本文提出使用gammatone 時(shí)域?yàn)V波提取特征參數(shù)用于語(yǔ)種識(shí)別。將提取的特征參數(shù)畫成圖像使用VGG19 分類網(wǎng)絡(luò)和Resnet34 分類網(wǎng)絡(luò)進(jìn)行訓(xùn)練識(shí)別,對(duì)比了不同特征參數(shù)在廣播音頻語(yǔ)料集1 和VoxForge 公共語(yǔ)料集2 上的識(shí)別結(jié)果。結(jié)果表明,本文的時(shí)域GF 特征相比GFCC 特征、GFCC-D-A 特征、GFCC-SDC 特征和Fbank 特征,可以達(dá)到更好的語(yǔ)種識(shí)別效果。使用Resnet34 分類網(wǎng)絡(luò)進(jìn)行語(yǔ)種分類,在廣播音頻語(yǔ)料集1 下六個(gè)語(yǔ)種可以達(dá)到87%的識(shí)別準(zhǔn)確率,識(shí)別效果最好。同時(shí),本文對(duì)比了不同維數(shù)的時(shí)域GF 特征對(duì)語(yǔ)種識(shí)別的影響,發(fā)現(xiàn)GF 特征的維數(shù)對(duì)語(yǔ)種識(shí)別的準(zhǔn)確率影響不大。為了模擬復(fù)雜噪聲下的語(yǔ)種識(shí)別,選取Noisex-92 中四種不同噪聲并對(duì)語(yǔ)音加噪,提取時(shí)域GF 特征,使用自動(dòng)色階算法去噪,提升了圖像的對(duì)比度,在不同噪聲不同信噪比下語(yǔ)種識(shí)別準(zhǔn)確率均有一定的提升。同時(shí),不去噪的時(shí)域GF特征語(yǔ)種識(shí)別結(jié)果也較好,說(shuō)明本文提取的特征參數(shù)具有一定的抗噪能力。由于廣播音頻本身就含有一定的噪聲,在后續(xù)的工作中還將繼續(xù)研究如何更好地去除噪聲,并改進(jìn)特征提取算法來(lái)提升廣播音頻語(yǔ)種識(shí)別的準(zhǔn)確率。

      猜你喜歡
      語(yǔ)種特征參數(shù)語(yǔ)料
      故障診斷中信號(hào)特征參數(shù)擇取方法
      基于特征參數(shù)化的木工CAD/CAM系統(tǒng)
      《波斯語(yǔ)課》:兩個(gè)人的小語(yǔ)種
      “一帶一路”背景下我國(guó)的外語(yǔ)語(yǔ)種規(guī)劃
      基于PSO-VMD的齒輪特征參數(shù)提取方法研究
      基于語(yǔ)料調(diào)查的“連……都(也)……”出現(xiàn)的語(yǔ)義背景分析
      華語(yǔ)電影作為真實(shí)語(yǔ)料在翻譯教學(xué)中的應(yīng)用
      統(tǒng)計(jì)特征參數(shù)及多分類SVM的局部放電類型識(shí)別
      《苗防備覽》中的湘西語(yǔ)料
      國(guó)內(nèi)外語(yǔ)用學(xué)實(shí)證研究比較:語(yǔ)料類型與收集方法
      岗巴县| 勃利县| 喀什市| 双江| 桂平市| 北碚区| 乌海市| 海丰县| 勐海县| 安丘市| 襄垣县| 昌宁县| 麻阳| 徐汇区| 连平县| 湖南省| 贵州省| 吉木萨尔县| 图木舒克市| 涟源市| 中方县| 新河县| 密云县| 中西区| 星子县| 洪洞县| 普定县| 陈巴尔虎旗| 高阳县| 鸡西市| 武功县| 定陶县| 乡城县| 五家渠市| 沅江市| 萨嘎县| 西和县| 宝应县| 水城县| 新龙县| 和田市|