基于深度學(xué)習(xí)的非穩(wěn)態(tài)噪聲抑制算法

2020-10-27 11:45:30陳榮觀薛建清陳東敏

電聲技術(shù) 2020年6期

陳榮觀，薛建清，陳東敏

（福建星網(wǎng)智慧科技有限公司，福建福州 350002）

1 深度學(xué)習(xí)的消噪算法

隨著科技信息化的迅猛發(fā)展，視頻會(huì)議作為一種新興的會(huì)議方式［1］，極大地提高了企業(yè)、政府以及個(gè)人的辦公效率。視頻會(huì)議中，音頻質(zhì)量直接影響通話體驗(yàn)［2］，其中非穩(wěn)態(tài)噪聲的消除在音頻算法中頗具挑戰(zhàn)性［3］。

傳統(tǒng)算法上，Talmon 等［4］采用非局部鄰域?yàn)V波器估算瞬態(tài)噪聲的功率譜密度（PSD），結(jié)合最優(yōu)改進(jìn)對數(shù)譜幅度估計(jì)算法（Optimally-Modified-Log Spectral-Amplitude，OM-LSA）對語音進(jìn)行降噪。zhang 等［5］提出基于雙向搜索的最小統(tǒng)計(jì)量和最優(yōu)平滑算法（Improved Minima Controlled Recursive Averaging，IMCRA）。另外，小波域也用來學(xué)習(xí)瞬時(shí)噪聲的特征，實(shí)現(xiàn)噪聲的抑制。上述方法實(shí)時(shí)性差且存在非穩(wěn)態(tài)噪聲殘留，只能消除特定非穩(wěn)態(tài)噪聲。

近些年，國內(nèi)外許多研究人員開始借助深度學(xué)習(xí)的方法來解決傳統(tǒng)算法中遇到的問題，并且有許多成功的案例［6-10］。其中，Valin 等［8］提出了一種遞歸卷積神經(jīng)網(wǎng)絡(luò)模型rnnoise 消除穩(wěn)態(tài)噪聲。該模型采用具有長時(shí)記憶的門控循環(huán)單元（GRU），提取干凈音頻、帶噪音頻特征作為神經(jīng)網(wǎng)絡(luò)模型的輸入和輸出特征，待模型訓(xùn)練收斂，即可獲取輸入特征和輸出特征的映射關(guān)系，實(shí)現(xiàn)消噪效果。與傳統(tǒng)方法相比，該方法可實(shí)現(xiàn)比傳統(tǒng)最小均方誤差譜估計(jì)器更好的效果，同時(shí)保持將復(fù)雜度降低到足以在48 kHz 上實(shí)時(shí)運(yùn)行低功耗處理器。rnnoise 網(wǎng)絡(luò)模型拓?fù)淙鐖D1 所示。其中，42 個(gè)輸入特征分別為22 個(gè)帶噪信號(hào)的梅爾倒譜系數(shù)、6 個(gè)一階倒譜系數(shù)、6 個(gè)二階倒譜系數(shù)、基音周期、6 個(gè)頻段的基音增益和語音非平穩(wěn)系數(shù)；22 個(gè)輸出特征為22個(gè)干凈信號(hào)的梅爾倒譜系數(shù)。該神經(jīng)網(wǎng)絡(luò)模型權(quán)重和偏置（下稱參數(shù)）共87 503 個(gè)。

本文基于rnnoise 神經(jīng)網(wǎng)絡(luò)模型，提出了一種基于會(huì)議終端場景優(yōu)化的非穩(wěn)態(tài)噪聲消除算法，將輸入信號(hào)分為3 個(gè)頻帶。低頻帶采用深度學(xué)習(xí)模型進(jìn)行降噪，同時(shí)抑制系數(shù)加權(quán)平均，作為中高頻帶的增益系數(shù)，有效提升了算法的運(yùn)算效率，在保證語音清晰度的同時(shí)，大幅抑制了非穩(wěn)態(tài)噪聲。

2 基于優(yōu)化的消噪模型

基于rnnoise 神經(jīng)網(wǎng)絡(luò)模型，本文提出了一種針對視頻會(huì)議場景的優(yōu)化非穩(wěn)態(tài)噪聲降噪模型，從數(shù)據(jù)集的采集、模型參數(shù)、訓(xùn)練技巧以及分頻帶處理等方面出發(fā)進(jìn)行研究，達(dá)到了消除非穩(wěn)態(tài)噪聲的目的。

2.1 數(shù)據(jù)集

語音數(shù)據(jù)集為開源的音頻庫THCH-30、aidatatang_200h 中抽取男女聲各5 h 以及實(shí)際會(huì)議室場景下錄制的5 h 音頻文件。噪聲數(shù)據(jù)集為實(shí)際抓取的會(huì)議場景的語音、非穩(wěn)態(tài)噪聲（敲擊聲、等等）制作訓(xùn)練集、測試集2 h?？偣步M成語音時(shí)長15 h，噪聲數(shù)據(jù)長度2 h。通過對語音噪聲不同幅值的疊加和施加適配不同麥克風(fēng)的濾波器，進(jìn)一步將數(shù)據(jù)集擴(kuò)充到500 h。需要說明的是，非穩(wěn)態(tài)噪聲類型包括筆掉落聲音、翻紙聲、咳嗽、拍手、敲擊鍵盤、手敲擊桌子、鼠標(biāo)、鑰匙、搬動(dòng)椅子以及開關(guān)門等。

2.2 模型拓?fù)?/h3>
圖2 為提出的優(yōu)化的網(wǎng)絡(luò)模型拓?fù)鋱D。由于48 kHz 轉(zhuǎn)16 kHz，所以去掉4 個(gè)梅爾倒譜系數(shù)，使梅爾倒譜系數(shù)的個(gè)數(shù)變?yōu)?8 個(gè)，網(wǎng)絡(luò)模型的參數(shù)配置也隨之調(diào)整。其中：38 個(gè)輸入特征分別為18個(gè)帶噪信號(hào)的梅爾倒譜系數(shù)、6 個(gè)一階倒譜系數(shù)、6 個(gè)二階倒譜系數(shù)、基音周期、6 個(gè)頻段的基音增益以及語音非平穩(wěn)系數(shù)；18 個(gè)輸出特征為18 個(gè)干凈信號(hào)的梅爾倒譜系數(shù)。本文的神經(jīng)網(wǎng)絡(luò)模型參數(shù)為61 957 個(gè)，較rnnoise 網(wǎng)絡(luò)模型減小約30%。

2.3 分頻帶處理

由于人耳對不同頻率信號(hào)的非線性感知，可以將48 kHz 信號(hào)分為3 個(gè)頻帶——0～16 kHz、16～32 kHz 以及32～48 kHz。其中，針對0～16 kHz，采用優(yōu)化的rnnoise 模型計(jì)算得到抑制系數(shù)，并通過加權(quán)平均的方式得到后兩個(gè)頻帶的抑制系數(shù)。0～16 kHz 為精細(xì)降噪，16～48 kHz 為粗分辨率降噪。

其中，gb(w)是中高頻帶的抑制系數(shù)，gb(wk)是低頻帶的增益系數(shù)，wk是頻率，N是傅立葉變換點(diǎn)數(shù)。

3 實(shí)驗(yàn)結(jié)果及分析

3.1 平臺(tái)上的運(yùn)行時(shí)間、效率以及實(shí)時(shí)性

在會(huì)議終端設(shè)備上進(jìn)行測試（1.8 GHz ARM Cortex-A17 core 上），rnnoise 模型處理10 ms 音頻數(shù)據(jù)需要582 μs，而本文提出的優(yōu)化模型處理時(shí)間是每10 ms 需要330 μs，時(shí)間縮短了43.29%，在保證算法性能的同時(shí)，進(jìn)一步提升了算法實(shí)時(shí)性，對于性能較低的設(shè)備也有移植的可能性，具體數(shù)值如表1 所示。

表1 算法性能比較

3.2 消噪效果

本文所用測試音頻均為實(shí)際會(huì)議室抓取的音頻，波形圖如圖3 所示。本文算法對非穩(wěn)態(tài)噪聲抑制效果，無語音段抑制效果達(dá)24 dB 及以上，語音片段抑制效果12 dB 及以上。

圖4 為無語音片段的語譜圖，穩(wěn)態(tài)噪聲消除的同時(shí)，非穩(wěn)態(tài)噪聲的抑制也很明顯。其中，豎條紋所在的頻譜區(qū)域是非穩(wěn)態(tài)噪聲，可以明顯看出增強(qiáng)后的信號(hào)非穩(wěn)態(tài)噪聲已經(jīng)被抑制到很小，同時(shí)均勻分布在整個(gè)頻譜中的白噪聲也被抑制得很小。

圖5 為語音片段的語譜圖。消除非穩(wěn)態(tài)噪聲的同時(shí)，語音失真度很小。其中，豎條紋所覆蓋頻譜為非穩(wěn)態(tài)噪聲，可以看出增強(qiáng)后的語音信號(hào)中噪聲已經(jīng)變得很小，語音部分的頻譜則失真很小。

3.3 PESQ

如表2 所示，本文算法對語音PESQ 平均有4.73%的提升。

4 結(jié)論

本文通過構(gòu)建基于優(yōu)化的rnnoise 遞歸卷積神經(jīng)網(wǎng)絡(luò)模型對會(huì)議場景進(jìn)行非穩(wěn)態(tài)噪聲抑制，其中將輸入語音信號(hào)從0～48 kHz 全頻帶分為0～16 kHz、16～32 kHz、32～48 kHz 共3 個(gè)頻帶。對0～16 kHz 采用優(yōu)化的rnnoise 遞歸卷積神經(jīng)網(wǎng)絡(luò)模型進(jìn)行處理得到抑制系數(shù)，將抑制系數(shù)作用于0～16 kHz 頻帶，并且將系數(shù)加權(quán)平均的結(jié)果作為后兩個(gè)頻帶的抑制系數(shù)參考，進(jìn)行粗分辨降噪。其中，rnnoise 模型從48 kHz 轉(zhuǎn)成16 kHz 模型，同時(shí)對網(wǎng)絡(luò)參數(shù)進(jìn)行調(diào)整，參數(shù)量減小30%，在保證算法性能的同時(shí)，進(jìn)一步提升了算法效率。

表2 本文算法對各類非穩(wěn)態(tài)噪聲語音質(zhì)量提升效果

在THCH-30、aidatatang_200h 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明，提出的網(wǎng)絡(luò)模型對非穩(wěn)態(tài)噪聲的抑制明顯，語音段抑制12 dB 及以上，非語音片段抑制強(qiáng)度24 dB 以上，在保證算法降噪性能的同時(shí)，語音失真度很小，可以有效減小非穩(wěn)態(tài)噪聲的干擾。本文模型對比rnnoise 模型參數(shù)量降低30%，在終端設(shè)備上運(yùn)行時(shí)間減小43.29%，具有較好的實(shí)用價(jià)值。下一步擬研究會(huì)議終端聲紋識(shí)別的研究及應(yīng)用。

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看