周大春 邵玉斌 張昊閣 杜慶治
摘要: 在進行語種識別研究時,使用的聲學特征矩陣維度往往很高,為了解決語種識別中聲學特征維度過高的問題,本文提出一種聲學特征提取過程改進方法. 對一些常用的聲學特征進行統(tǒng)計特性分析,再結合其提取流程及部分文獻論證,通過計算特征各維在幀上的均值,再對其進行向量歸一化消除量綱的影響得到改進后的特征,實現了將傳統(tǒng)特征矩陣優(yōu)化為一維特征向量. 最后,根據改進后特征的特性,在2 個不同的數據集下,選取BP 神經網絡和支持向量機作為基線系統(tǒng)進行語種識別實驗. 實驗結果表明,對于目前常用的5 種聲學特征,所提改進方法相比于傳統(tǒng)做法,在降低了99. 8% 的數據量情況下,數據集1 在2 種模型下仍能取得95. 6% 的平均識別率,數據集2 在2 種模型下仍能取得90. 2% 的平均識別率. 此外,由于所提方法降低了大部分的計算量,使得算法能夠更適應硬件設施相對較弱的嵌入式環(huán)境,擴大了算法的使用場景.
關鍵詞: 語種識別; 聲學特征; 統(tǒng)計特性; 特征提取
中圖分類號: TN912. 3 文獻標志碼: A DOI: 10. 19907/j. 0490-6756. 2024. 033004
1 引言
語種識別(Language Identification,LID)是計算機自動判別輸入語音所屬語言種類的一項技術[1]. 作為語音識別技術的前端,語種識別在廣播監(jiān)聽、機器自動翻譯、信息檢索等領域扮演著重要角色. 基于聲學層特征的語種識別方法作為主流的語種識別方法之一,具有特征提取過程簡單、訓練時長較短及易于擴展學習等優(yōu)勢. 目前,常用的聲學特征主要有對數梅爾濾波器尺度(log-FilterBank,FBank)特征[2]、梅爾頻率倒譜系數(Mel-Frequency Cepstral Coefficients,MFCC)特征[3]、伽馬通濾波器倒譜系數(Gammatone Filter CepstralCoefficients,GFCC)特征[4]、感知線性預測(PerceptualLinear Prediction,PLP)系數特征[5]及滑動差分倒譜(Shifted Delta Cepstra,SDC)特征[6]等.
聲學特征雖然容易提取,但提取得到的特征往往是一個矩陣,維度很高. 在進行訓練識別時,將整個特征矩陣作為輸入,無形中加重了計算機的負載,也增加了模型訓練的時長. 為了解決這個問題,部分研究學者提出了特征選擇及特征提取兩類降維技術. 其中,特征提取類的主成分分析[7](Principal Component Analysis,PCA)法及線性判別分析[8](Linear Discriminant Analysis,LDA)法是目前最常用的2 個降維方法. Albadr 等[9]基于標準差計算和PCA 對MFCC 特征進行降維,并以優(yōu)化極限學習機[10]作為分類器對兩個語言數據集進行訓練識別,在保證準確率分別高達91% 的情況下,最終實現了只需幾秒鐘就可以識別語言. 劉晶等[11]對提取的S-GFCC 特征進行PCA,提取出對識別任務貢獻率大的前幾維特征,并融合每個有聲段的Teager 能量算子倒譜參數形成新的組合特征,最終在噪聲環(huán)境取得了不錯的語種識別效果.此外,Rachmad 等[12]還表明Fisher 線性判別分析也是一種廣泛用于模式識別的線性降維方法.
大多數學者提出的語種識別方法都以語音的幀為單位,將語音每一幀所對應的特征或者其他信息提取出來,再將其送入到后端網絡進行訓練與識別,這樣做會使得語音特征數據量過大,并且目前很多語種識別采用的特征均適用于語音識別. 但語種識別不同于語音識別,語種識別不需要將語音的每一句話都識別出來,不用了解某句話具體的含義,僅需要根據部分特征,將待測語音的所屬語種正確識別出來即可,故不需要類似語音識別特征矩陣的大數據量即可達到識別出語種的目的. 目前常見的方法雖然都在一定程度上壓縮了聲學特征數據的量級,但這些方法都是基于特征矩陣的特征向量、協(xié)方差矩陣等理論進行的,并沒有考慮到聲學特征本身的統(tǒng)計特性. 因此,本文提出一種聲學特征提取改進方法,從聲學特征本身的統(tǒng)計特性出發(fā),對常用的聲學特征提取過程進行改進,在特征提取的過程中達到對特征維度的壓縮,并在2 個不同的數據集及二者的混合數據集下,分別采用BP 神經網絡和支持向量機(SupportVector Machine,SVM)對壓縮后特征進行語種識別分類. 實驗結果表明,本文所提方法大大降低了聲學特征的維度,應用到分類系統(tǒng)中也能獲得較高的識別率.
2 聲學特征提取改進
2. 1 常用聲學特征的提取
引言中已指出常見的一些聲學特征,其中姜洪臣等[13]指出SDC 特征是基于MFCC 等特征的改進特征配置,因此本文不加以考慮. PLP 特征是一種基于聽覺模型的特征,其參數是一組來自全極點預測多項式模型的系數. 該特征參數最大的特點是從臨界頻帶分析、等響度曲線預加重、信號強度-聽覺響度變換三個層次來模擬人耳聽覺感知,其詳細提取流程可參考文獻[14],此處不再贅述. 本文參考FBank 特征,令未進行DCT 前的GFCC 特征為對數Gammatone 濾波器尺度(GammatoneFilter Bank,GBank)特征,主要介紹前三個常用聲學特征及GBank 的提取過程,具體歸納如圖1 所示.
圖1 中,FBank、MFCC、GBank 和GFCC 特征的提取過程都包含預加重、分幀加窗、快速傅里葉變換、求譜線能量等步驟. 其中,預加重的是為了提升語音信號中的高頻分量以減少后序處理中高頻分量的損失,而分幀加窗的目的則是為了使分析的信號近似平穩(wěn)信號,并盡量減少頻譜泄露,快速傅里葉變換及求譜線能量則是為了從頻域分析語音的特征,且人耳對頻率也比較敏感. 不同的是,MFCC 及FBank 特征提取過程中使用的是Mel濾波器組,這是一些重疊的三角濾波器組,而GBank 特征及GFCC 提取過程使用的是Gammatone濾波器,這是一組用來模擬人耳耳蝸頻率分解特點的濾波器組,相鄰兩個濾波器之間也有重疊,但其幅度響應波形并不是簡單的三角形. 取對數是為了模擬人耳對聲音的聽覺感知,使特征具有更強的魯棒性. 而離散傅里葉變換則是為了去除特征之間的相關性以適應許多分類統(tǒng)計模型.FBank 特征相較于MFCC 特征只是缺少最后的離散傅里葉變換,保留了特征之間的相關性,因此多適用于深度學習,GBank 特征也同理.