陳榮觀,薛建清,陳東敏
(福建星網(wǎng)智慧科技有限公司,福建 福州 350002)
隨著科技信息化的迅猛發(fā)展,視頻會(huì)議作為一種新興的會(huì)議方式[1],極大地提高了企業(yè)、政府以及個(gè)人的辦公效率。視頻會(huì)議中,音頻質(zhì)量直接影響通話體驗(yàn)[2],其中非穩(wěn)態(tài)噪聲的消除在音頻算法中頗具挑戰(zhàn)性[3]。
傳統(tǒng)算法上,Talmon 等[4]采用非局部鄰域?yàn)V波器估算瞬態(tài)噪聲的功率譜密度(PSD),結(jié)合最優(yōu)改進(jìn)對數(shù)譜幅度估計(jì)算法(Optimally-Modified-Log Spectral-Amplitude,OM-LSA)對語音進(jìn)行降噪。zhang 等[5]提出基于雙向搜索的最小統(tǒng)計(jì)量和最優(yōu)平滑算法(Improved Minima Controlled Recursive Averaging,IMCRA)。另外,小波域也用來學(xué)習(xí)瞬時(shí)噪聲的特征,實(shí)現(xiàn)噪聲的抑制。上述方法實(shí)時(shí)性差且存在非穩(wěn)態(tài)噪聲殘留,只能消除特定非穩(wěn)態(tài)噪聲。
近些年,國內(nèi)外許多研究人員開始借助深度學(xué)習(xí)的方法來解決傳統(tǒng)算法中遇到的問題,并且有許多成功的案例[6-10]。其中,Valin 等[8]提出了一種遞歸卷積神經(jīng)網(wǎng)絡(luò)模型rnnoise 消除穩(wěn)態(tài)噪聲。該模型采用具有長時(shí)記憶的門控循環(huán)單元(GRU),提取干凈音頻、帶噪音頻特征作為神經(jīng)網(wǎng)絡(luò)模型的輸入和輸出特征,待模型訓(xùn)練收斂,即可獲取輸入特征和輸出特征的映射關(guān)系,實(shí)現(xiàn)消噪效果。與傳統(tǒng)方法相比,該方法可實(shí)現(xiàn)比傳統(tǒng)最小均方誤差譜估計(jì)器更好的效果,同時(shí)保持將復(fù)雜度降低到足以在48 kHz 上實(shí)時(shí)運(yùn)行低功耗處理器。rnnoise 網(wǎng)絡(luò)模型拓?fù)淙鐖D1 所示。其中,42 個(gè)輸入特征分別為22 個(gè)帶噪信號(hào)的梅爾倒譜系數(shù)、6 個(gè)一階倒譜系數(shù)、6 個(gè)二階倒譜系數(shù)、基音周期、6 個(gè)頻段的基音增益和語音非平穩(wěn)系數(shù);22 個(gè)輸出特征為22個(gè)干凈信號(hào)的梅爾倒譜系數(shù)。該神經(jīng)網(wǎng)絡(luò)模型權(quán)重和偏置(下稱參數(shù))共87 503 個(gè)。
本文基于rnnoise 神經(jīng)網(wǎng)絡(luò)模型,提出了一種基于會(huì)議終端場景優(yōu)化的非穩(wěn)態(tài)噪聲消除算法,將輸入信號(hào)分為3 個(gè)頻帶。低頻帶采用深度學(xué)習(xí)模型進(jìn)行降噪,同時(shí)抑制系數(shù)加權(quán)平均,作為中高頻帶的增益系數(shù),有效提升了算法的運(yùn)算效率,在保證語音清晰度的同時(shí),大幅抑制了非穩(wěn)態(tài)噪聲。
基于rnnoise 神經(jīng)網(wǎng)絡(luò)模型,本文提出了一種針對視頻會(huì)議場景的優(yōu)化非穩(wěn)態(tài)噪聲降噪模型,從數(shù)據(jù)集的采集、模型參數(shù)、訓(xùn)練技巧以及分頻帶處理等方面出發(fā)進(jìn)行研究,達(dá)到了消除非穩(wěn)態(tài)噪聲的目的。
語音數(shù)據(jù)集為開源的音頻庫THCH-30、aidatatang_200h 中抽取男女聲各5 h 以及實(shí)際會(huì)議室場景下錄制的5 h 音頻文件。噪聲數(shù)據(jù)集為實(shí)際抓取的會(huì)議場景的語音、非穩(wěn)態(tài)噪聲(敲擊聲、等等)制作訓(xùn)練集、測試集2 h??偣步M成語音時(shí)長15 h,噪聲數(shù)據(jù)長度2 h。通過對語音噪聲不同幅值的疊加和施加適配不同麥克風(fēng)的濾波器,進(jìn)一步將數(shù)據(jù)集擴(kuò)充到500 h。需要說明的是,非穩(wěn)態(tài)噪聲類型包括筆掉落聲音、翻紙聲、咳嗽、拍手、敲擊鍵盤、手敲擊桌子、鼠標(biāo)、鑰匙、搬動(dòng)椅子以及開關(guān)門等。
圖2 為提出的優(yōu)化的網(wǎng)絡(luò)模型拓?fù)鋱D。由于48 kHz 轉(zhuǎn)16 kHz,所以去掉4 個(gè)梅爾倒譜系數(shù),使梅爾倒譜系數(shù)的個(gè)數(shù)變?yōu)?8 個(gè),網(wǎng)絡(luò)模型的參數(shù)配置也隨之調(diào)整。其中:38 個(gè)輸入特征分別為18個(gè)帶噪信號(hào)的梅爾倒譜系數(shù)、6 個(gè)一階倒譜系數(shù)、6 個(gè)二階倒譜系數(shù)、基音周期、6 個(gè)頻段的基音增益以及語音非平穩(wěn)系數(shù);18 個(gè)輸出特征為18 個(gè)干凈信號(hào)的梅爾倒譜系數(shù)。本文的神經(jīng)網(wǎng)絡(luò)模型參數(shù)為61 957 個(gè),較rnnoise 網(wǎng)絡(luò)模型減小約30%。
由于人耳對不同頻率信號(hào)的非線性感知,可以將48 kHz 信號(hào)分為3 個(gè)頻帶——0~16 kHz、16~32 kHz 以及32~48 kHz。其中,針對0~16 kHz,采用優(yōu)化的rnnoise 模型計(jì)算得到抑制系數(shù),并通過加權(quán)平均的方式得到后兩個(gè)頻帶的抑制系數(shù)。0~16 kHz 為精細(xì)降噪,16~48 kHz 為粗分辨率降噪。
其中,gb(w)是中高頻帶的抑制系數(shù),gb(wk)是低頻帶的增益系數(shù),wk是頻率,N是傅立葉變換點(diǎn)數(shù)。
在會(huì)議終端設(shè)備上進(jìn)行測試(1.8 GHz ARM Cortex-A17 core 上),rnnoise 模型處理10 ms 音頻數(shù)據(jù)需要582 μs,而本文提出的優(yōu)化模型處理時(shí)間是每10 ms 需要330 μs,時(shí)間縮短了43.29%,在保證算法性能的同時(shí),進(jìn)一步提升了算法實(shí)時(shí)性,對于性能較低的設(shè)備也有移植的可能性,具體數(shù)值如表1 所示。
表1 算法性能比較
本文所用測試音頻均為實(shí)際會(huì)議室抓取的音頻,波形圖如圖3 所示。本文算法對非穩(wěn)態(tài)噪聲抑制效果,無語音段抑制效果達(dá)24 dB 及以上,語音片段抑制效果12 dB 及以上。
圖4 為無語音片段的語譜圖,穩(wěn)態(tài)噪聲消除的同時(shí),非穩(wěn)態(tài)噪聲的抑制也很明顯。其中,豎條紋所在的頻譜區(qū)域是非穩(wěn)態(tài)噪聲,可以明顯看出增強(qiáng)后的信號(hào)非穩(wěn)態(tài)噪聲已經(jīng)被抑制到很小,同時(shí)均勻分布在整個(gè)頻譜中的白噪聲也被抑制得很小。
圖5 為語音片段的語譜圖。消除非穩(wěn)態(tài)噪聲的同時(shí),語音失真度很小。其中,豎條紋所覆蓋頻譜為非穩(wěn)態(tài)噪聲,可以看出增強(qiáng)后的語音信號(hào)中噪聲已經(jīng)變得很小,語音部分的頻譜則失真很小。
如表2 所示,本文算法對語音PESQ 平均有4.73%的提升。
本文通過構(gòu)建基于優(yōu)化的rnnoise 遞歸卷積神經(jīng)網(wǎng)絡(luò)模型對會(huì)議場景進(jìn)行非穩(wěn)態(tài)噪聲抑制,其中將輸入語音信號(hào)從0~48 kHz 全頻帶分為0~16 kHz、16~32 kHz、32~48 kHz 共3 個(gè)頻帶 。對0~16 kHz 采用優(yōu)化的rnnoise 遞歸卷積神經(jīng)網(wǎng)絡(luò)模型進(jìn)行處理得到抑制系數(shù),將抑制系數(shù)作用于0~16 kHz 頻帶,并且將系數(shù)加權(quán)平均的結(jié)果作為后兩個(gè)頻帶的抑制系數(shù)參考,進(jìn)行粗分辨降噪。其中,rnnoise 模型從48 kHz 轉(zhuǎn)成16 kHz 模型,同時(shí)對網(wǎng)絡(luò)參數(shù)進(jìn)行調(diào)整,參數(shù)量減小30%,在保證算法性能的同時(shí),進(jìn)一步提升了算法效率。
表2 本文算法對各類非穩(wěn)態(tài)噪聲語音質(zhì)量提升效果
在THCH-30、aidatatang_200h 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,提出的網(wǎng)絡(luò)模型對非穩(wěn)態(tài)噪聲的抑制明顯,語音段抑制12 dB 及以上,非語音片段抑制強(qiáng)度24 dB 以上,在保證算法降噪性能的同時(shí),語音失真度很小,可以有效減小非穩(wěn)態(tài)噪聲的干擾。本文模型對比rnnoise 模型參數(shù)量降低30%,在終端設(shè)備上運(yùn)行時(shí)間減小43.29%,具有較好的實(shí)用價(jià)值。下一步擬研究會(huì)議終端聲紋識(shí)別的研究及應(yīng)用。