鄧 鑫,王巖松,楊 超,郭 輝
(上海工程技術(shù)大學(xué) 機(jī)械與汽車工程學(xué)院,上海 201620)
語音特征提取方法被廣泛應(yīng)用于各類信號(hào)的特征提取。傳統(tǒng)的語音特征提取方法包括:梅爾頻率倒譜系數(shù)(Mel Frequency Cepstrum Coefficient,MFCC)、線性預(yù)測(cè)倒譜系數(shù)(Linear Prediction Cepstral Coefficients,LPCC)等。文獻(xiàn)[1-3]中采用MFCC 特征提取,在相應(yīng)病理異常分類識(shí)別中取得了良好效果。文獻(xiàn)[4]通過替換離散余弦變換,提高了對(duì)家庭中危險(xiǎn)聲學(xué)事件的檢測(cè)效果。在MFCC的改進(jìn)方面,文獻(xiàn)[5]將SLCF 和SSF 分別與MFCC融合成新特征,降低了孤立字識(shí)別系統(tǒng)中的總錯(cuò)誤率。文獻(xiàn)[6]將譜熵梅爾積與MFCC 結(jié)合,提高了信噪比環(huán)境下,語音端點(diǎn)檢測(cè)的準(zhǔn)確率。文獻(xiàn)[7]采用逆MFCC 變換,在DCASE 給定聲學(xué)場(chǎng)景分類中取得較好的準(zhǔn)確率;文獻(xiàn)[8]將Teager 能量算子引入MFCC,在文本獨(dú)立揚(yáng)聲器驗(yàn)證任務(wù)中,識(shí)別效果明顯優(yōu)于MFCC 方法;文獻(xiàn)[9]將線性預(yù)測(cè)-希爾伯特變換與MFCC 結(jié)合,有效識(shí)別不良語音和正常語音。對(duì)于非語音信號(hào)和非平穩(wěn)信號(hào),MFCC 的特征提取能力不足。LPCC在口譯準(zhǔn)確度[10]、情感分類[11]和文本語音識(shí)別[12]方面都有不同程度的研究及應(yīng)用,但是LPCC 對(duì)含噪信號(hào)特征提取效果不佳。
綜上所述,現(xiàn)實(shí)環(huán)境中背景噪聲大,汽車?guó)Q笛聲信號(hào)瞬時(shí)性強(qiáng),因此基于單一特征的汽車?guó)Q笛聲識(shí)別方法效果有待提升。
本文提出的基于融合特征的汽車?guó)Q笛聲識(shí)別方法,具有識(shí)別率高、魯棒性強(qiáng)、計(jì)算快速等特點(diǎn)。該方法首先對(duì)鳴笛聲信號(hào)進(jìn)行變分模態(tài)分解(Variational Modal Decomposition,VMD),獲得多個(gè)本征模態(tài)分量,基于峭度準(zhǔn)則篩選出主模態(tài)函數(shù)(Intrinsic Mode Function,IMF),并重構(gòu)信號(hào);隨后,提取重構(gòu)信號(hào)的MFCC 和LPCC 特征,并利用ReliefF算法實(shí)現(xiàn)特征降維和特征融合;最后將融合特征輸入BP 神經(jīng)網(wǎng)絡(luò),實(shí)現(xiàn)汽車?guó)Q笛聲的準(zhǔn)確識(shí)別。
MFCC 特征參數(shù)是基于人耳對(duì)不同頻率聲音信號(hào)的感知能力不同所提出[13]。標(biāo)準(zhǔn)由MFCC 參數(shù)及其一階差分和二階共同組成MFCC 特征參數(shù)。一般取前12 維MFCC 特征作為特征參數(shù)。
Mel 頻率與Hz 頻率的非線性關(guān)系近似表示為:
線性預(yù)測(cè)模型是基于最小均方差準(zhǔn)則,對(duì)聲音信號(hào)實(shí)際值進(jìn)行預(yù)測(cè)。當(dāng)實(shí)際值與預(yù)測(cè)值誤差最小時(shí),利用Durbin 算法求解得線性預(yù)測(cè)系數(shù)LPC。一般將線性預(yù)測(cè)系數(shù)通過倒譜域轉(zhuǎn)化為等效參數(shù),即LPCC 系數(shù)。
式中,(n) 表示預(yù)測(cè)值;ak表示線性預(yù)測(cè)系數(shù);s(n- i) 表示n- i時(shí)刻信號(hào)采樣值。
1.2.1 Fisher 融合算法
Fisher 算法通過尋找最佳投影方向,使得不同類樣本間的離散程度最大,同時(shí)使得同類樣本間的離散程度最小[14]。聲音特征參數(shù)有效性Fisher 定義為:
其中,σbetween表示同類樣本內(nèi)的離散程度,σwithin表示不同類樣本間的離散程度。
1.2.2 ReliefF 融合算法
Relief 算法[15]由Kira 等提出。算法根據(jù)樣本類別和各個(gè)特征的相關(guān)性,賦予特征不同權(quán)重,僅應(yīng)用于兩類問題的分類。Konoenko 等[16]在此基礎(chǔ)上,提出了ReliefF 算法,應(yīng)用于多類問題的分類。本文采用ReliefF 算法作為融合特征算法。
某一特征i的權(quán)重更新公式為:
式中,H代表與樣本R在特征i上最近鄰的同類樣本;M代表與樣本R在特征i上最近鄰的不同類樣本;m代表算法迭代次數(shù)。
不同樣本在某一特征i上的距離計(jì)算公式為:
其中,R1(i) 和R2(i) 表示兩個(gè)樣本在特征i上的數(shù)值。
ReliefF 融合特征算法的具體實(shí)現(xiàn)過程如圖1所示。
圖1 基于ReliefF 特征參數(shù)融合流程圖Fig.1 Flow chart of feature parameter fusion based on ReliefF
變分模態(tài)分解是由Konstantin Dragomiretskiy等[17]提出的一種非遞歸自適應(yīng)的模態(tài)變分方法,能將復(fù)雜信號(hào)分解為中心頻率Uk固定、頻率帶寬有限的多個(gè)模態(tài)分量(IMF)。本文利用VMD 分解汽車?guó)Q笛聲信號(hào),取最大分解層數(shù)k=8,同時(shí)計(jì)算各分量峭度值,見表1?;谇投葴?zhǔn)則,當(dāng)峭度最大時(shí),確定VMD最佳分解層數(shù)k=4。
表1 各IMF 分量峭度值Tab.1 Kurtosis value of each IMF component
由圖2、圖3 可知,VMD 分解原始聲音信號(hào)獲得4 個(gè)模態(tài)分量。當(dāng)分解層數(shù)k=4 時(shí),原始信號(hào)重構(gòu)效果較好。
圖2 VMD 處理的汽車?guó)Q笛聲時(shí)域及頻域圖Fig.2 An example of time-frequency domain diagram of car whistle processed by VMD
圖3 各IMF 分量時(shí)域及頻域圖Fig.3 Time-frequency domain diagram of each IMF component
2.2.1 MFCC 及LPCC 特征參數(shù)
圖4 中,3 種聲音在第4、6 維MFCC 特征參數(shù)的取值不同,表明其標(biāo)準(zhǔn)MFCC 靜態(tài)特征和一階MFCC動(dòng)態(tài)特征具有顯著差異性。圖5 中,3 種聲音在第9~12 維LPCC 特征參數(shù)的取值不同,表明3 種聲音的波形及共振峰特征差異明顯。因此,可以利用不同類型聲音在某些特征系數(shù)上的差異性進(jìn)行識(shí)別。
圖4 3 種聲音信號(hào)中提取的某幀12 維MFCC 特征系數(shù)Fig.4 The 12 dimensional MFCC feature coefficient extracted from three kinds of sound signals in some frame
圖5 3 種聲音信號(hào)中提取的某幀12 維LPCC 特征系數(shù)Fig.5 The 12 dimension LPCC feature coefficient extracted from three kinds of sound signals in some frame
2.2.2 融合特征
ReliefF 算法中,權(quán)重值越大,表明該特征參數(shù)對(duì)區(qū)分不同類樣本的能力越強(qiáng);權(quán)重值越小,表明該特征參數(shù)對(duì)區(qū)分不同類樣本的能力越弱。
基于Fisher 準(zhǔn)則和ReliefF 算法,圖6、圖7 反映了不同維數(shù)特征在MFCC 和LPCC 特征中的權(quán)重值不同。
圖6 MFCC、LPCC 特征的Fisher 比Fig.6 Fisher ratio of MFCC and LPCC features
圖7 MFCC、LPCC 特征的ReliefF 權(quán)重Fig.7 ReliefF weight of MFCC and LPCC features
由圖6 可見,基于Fisher 準(zhǔn)則的第3 維MFCC 特征權(quán)重值為0.293 6,表明在Fisher 準(zhǔn)則下,標(biāo)準(zhǔn)MFCC靜態(tài)特征比一階、二階MFCC 動(dòng)態(tài)特征更能反映3 種聲音之間的差異性。基于Fisher 準(zhǔn)則的第2 維LPCC特征權(quán)重值為0.368 2,表明3 種聲音的波形及共振峰特征差異在第2 維LPCC 特征參數(shù)差異顯著。
由圖7 可見,基于ReliefF 算法的第1 維MFCC特征權(quán)重值為0.280 5,并且反映動(dòng)態(tài)特征的一階、二階參數(shù)的權(quán)重值顯著高于Fisher 準(zhǔn)則下對(duì)應(yīng)參數(shù)的Fisher 比值。由此表明ReliefF 算法能更加充分利用聲音信號(hào)的動(dòng)態(tài)特征,從而提高對(duì)聲音信號(hào)幀與幀之間相關(guān)度的利用率?;赗eliefF 算法的第2 維LPCC 特征權(quán)重值為0.240 4,高維LPCC 特征參數(shù)的權(quán)重值顯著高于Fisher 準(zhǔn)則下同類特征,表明ReliefF算法對(duì)反映通道特性的特征利用更充分、更全面地反映3 種聲音波形及共振峰特征的差異性。
文中采用AudioSet 數(shù)據(jù)庫(kù)的聲音樣本,樣本總計(jì)300 例聲音信號(hào)。其中,100 例汽車?guó)Q笛聲、100例鳥叫聲、100 例雷雨聲。聲音樣本預(yù)處理包括:預(yù)加重、分幀、加窗等。采樣頻率為44.1 KHz,數(shù)字量化為16 bit,幀長(zhǎng)為25ms,幀移為10 ms,文件采用Wav 格式保存。BP 神經(jīng)網(wǎng)絡(luò)模型網(wǎng)絡(luò)設(shè)置:中間層10 層,70%為訓(xùn)練樣本、15%為驗(yàn)證樣本、15%為測(cè)試樣本。經(jīng)過VMD 處理的聲音信號(hào)識(shí)別結(jié)果見表2。
表2 經(jīng)過VMD 的聲音信號(hào)識(shí)別結(jié)果Tab.2 Recognition results of sound signals processed by VMD
由表2 可知,經(jīng)過VMD 處理的聲音信號(hào),MFCC和LPCC 特征參數(shù)在BP 中的識(shí)別率分別為94.7%和72.5%。MFCC 特征的識(shí)別率顯著高于LPCC 特征的識(shí)別率,說明MFCC 對(duì)汽車?guó)Q笛聲的表征能力更強(qiáng)。不同特征提取方法在PB 神經(jīng)網(wǎng)絡(luò)中識(shí)別結(jié)果見表3。
表3 不同特征提取方法在BP 神經(jīng)網(wǎng)絡(luò)中的識(shí)別結(jié)果Tab.3 Recognition results of different feature extraction methods in BP
由表3 可知,通過對(duì)單一特征和融合特征在BP神經(jīng)網(wǎng)絡(luò)中識(shí)別準(zhǔn)確率進(jìn)行對(duì)比,本文提出的基于ReliefF 融合特征算法識(shí)別率最高,達(dá)到95.9%,優(yōu)于其余3 種特征的識(shí)別率。
實(shí)驗(yàn)采用真實(shí)車輛鳴笛聲,音響播放鳥叫聲和雷雨聲。實(shí)驗(yàn)在半消聲室(9.8 m×8.6 m×3.5 m,長(zhǎng)×寬×高)內(nèi)進(jìn)行,采用PCB 麥克風(fēng)及LMS SCADAS Mobile 數(shù)據(jù)采集儀測(cè)量聲壓信號(hào)。
縱向分析表4 可知,在BP模型中,LPCC 特征參數(shù)的識(shí)別率最低,僅為80.3%,而其余3 種特征提取方法的識(shí)別率均在95%以上。基于ReliefF 融合特征方法識(shí)別率優(yōu)于單一特征MFCC 和基于Fisher融合特征方法,達(dá)到98.9%,比LPCC 提高23.2%以上,表明本文所提融合特征方法優(yōu)于單一特征方法。
表4 4 種特征提取方法在BP 神經(jīng)網(wǎng)絡(luò)中的識(shí)別率Tab.4 The recognition rate of four feature extraction methods in BP
本文在聲音信號(hào)輸入后利用VMD 算法進(jìn)行信號(hào)分解和重構(gòu),提出基于ReliefF 算法的特征融合,將MFCC 特征參數(shù)和LPCC 特征參數(shù)進(jìn)行融合,相較于其他特征,在汽車?guó)Q笛聲識(shí)別的準(zhǔn)確率上有所提升。在未來的工作中,可以考慮對(duì)VMD 特征分解層數(shù)或者懲罰因子進(jìn)行尋優(yōu)。實(shí)際環(huán)境中,汽車?guó)Q笛聲還受到許多因素的影響,例如警笛聲信號(hào)的干擾等。因此,汽車?guó)Q笛聲的識(shí)別還可以利用支持向量機(jī)或卷積神經(jīng)網(wǎng)絡(luò)等技術(shù),提取更多深層次特征,以提高預(yù)測(cè)的準(zhǔn)確度和實(shí)效性。