• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于深度學(xué)習(xí)的非穩(wěn)態(tài)噪聲抑制算法

      2020-10-27 11:45:30陳榮觀薛建清陳東敏
      電聲技術(shù) 2020年6期
      關(guān)鍵詞:梅爾頻帶穩(wěn)態(tài)

      陳榮觀,薛建清,陳東敏

      (福建星網(wǎng)智慧科技有限公司,福建 福州 350002)

      1 深度學(xué)習(xí)的消噪算法

      隨著科技信息化的迅猛發(fā)展,視頻會(huì)議作為一種新興的會(huì)議方式[1],極大地提高了企業(yè)、政府以及個(gè)人的辦公效率。視頻會(huì)議中,音頻質(zhì)量直接影響通話體驗(yàn)[2],其中非穩(wěn)態(tài)噪聲的消除在音頻算法中頗具挑戰(zhàn)性[3]。

      傳統(tǒng)算法上,Talmon 等[4]采用非局部鄰域?yàn)V波器估算瞬態(tài)噪聲的功率譜密度(PSD),結(jié)合最優(yōu)改進(jìn)對數(shù)譜幅度估計(jì)算法(Optimally-Modified-Log Spectral-Amplitude,OM-LSA)對語音進(jìn)行降噪。zhang 等[5]提出基于雙向搜索的最小統(tǒng)計(jì)量和最優(yōu)平滑算法(Improved Minima Controlled Recursive Averaging,IMCRA)。另外,小波域也用來學(xué)習(xí)瞬時(shí)噪聲的特征,實(shí)現(xiàn)噪聲的抑制。上述方法實(shí)時(shí)性差且存在非穩(wěn)態(tài)噪聲殘留,只能消除特定非穩(wěn)態(tài)噪聲。

      近些年,國內(nèi)外許多研究人員開始借助深度學(xué)習(xí)的方法來解決傳統(tǒng)算法中遇到的問題,并且有許多成功的案例[6-10]。其中,Valin 等[8]提出了一種遞歸卷積神經(jīng)網(wǎng)絡(luò)模型rnnoise 消除穩(wěn)態(tài)噪聲。該模型采用具有長時(shí)記憶的門控循環(huán)單元(GRU),提取干凈音頻、帶噪音頻特征作為神經(jīng)網(wǎng)絡(luò)模型的輸入和輸出特征,待模型訓(xùn)練收斂,即可獲取輸入特征和輸出特征的映射關(guān)系,實(shí)現(xiàn)消噪效果。與傳統(tǒng)方法相比,該方法可實(shí)現(xiàn)比傳統(tǒng)最小均方誤差譜估計(jì)器更好的效果,同時(shí)保持將復(fù)雜度降低到足以在48 kHz 上實(shí)時(shí)運(yùn)行低功耗處理器。rnnoise 網(wǎng)絡(luò)模型拓?fù)淙鐖D1 所示。其中,42 個(gè)輸入特征分別為22 個(gè)帶噪信號(hào)的梅爾倒譜系數(shù)、6 個(gè)一階倒譜系數(shù)、6 個(gè)二階倒譜系數(shù)、基音周期、6 個(gè)頻段的基音增益和語音非平穩(wěn)系數(shù);22 個(gè)輸出特征為22個(gè)干凈信號(hào)的梅爾倒譜系數(shù)。該神經(jīng)網(wǎng)絡(luò)模型權(quán)重和偏置(下稱參數(shù))共87 503 個(gè)。

      本文基于rnnoise 神經(jīng)網(wǎng)絡(luò)模型,提出了一種基于會(huì)議終端場景優(yōu)化的非穩(wěn)態(tài)噪聲消除算法,將輸入信號(hào)分為3 個(gè)頻帶。低頻帶采用深度學(xué)習(xí)模型進(jìn)行降噪,同時(shí)抑制系數(shù)加權(quán)平均,作為中高頻帶的增益系數(shù),有效提升了算法的運(yùn)算效率,在保證語音清晰度的同時(shí),大幅抑制了非穩(wěn)態(tài)噪聲。

      2 基于優(yōu)化的消噪模型

      基于rnnoise 神經(jīng)網(wǎng)絡(luò)模型,本文提出了一種針對視頻會(huì)議場景的優(yōu)化非穩(wěn)態(tài)噪聲降噪模型,從數(shù)據(jù)集的采集、模型參數(shù)、訓(xùn)練技巧以及分頻帶處理等方面出發(fā)進(jìn)行研究,達(dá)到了消除非穩(wěn)態(tài)噪聲的目的。

      2.1 數(shù)據(jù)集

      語音數(shù)據(jù)集為開源的音頻庫THCH-30、aidatatang_200h 中抽取男女聲各5 h 以及實(shí)際會(huì)議室場景下錄制的5 h 音頻文件。噪聲數(shù)據(jù)集為實(shí)際抓取的會(huì)議場景的語音、非穩(wěn)態(tài)噪聲(敲擊聲、等等)制作訓(xùn)練集、測試集2 h??偣步M成語音時(shí)長15 h,噪聲數(shù)據(jù)長度2 h。通過對語音噪聲不同幅值的疊加和施加適配不同麥克風(fēng)的濾波器,進(jìn)一步將數(shù)據(jù)集擴(kuò)充到500 h。需要說明的是,非穩(wěn)態(tài)噪聲類型包括筆掉落聲音、翻紙聲、咳嗽、拍手、敲擊鍵盤、手敲擊桌子、鼠標(biāo)、鑰匙、搬動(dòng)椅子以及開關(guān)門等。

      2.2 模型拓?fù)?/h3>

      圖2 為提出的優(yōu)化的網(wǎng)絡(luò)模型拓?fù)鋱D。由于48 kHz 轉(zhuǎn)16 kHz,所以去掉4 個(gè)梅爾倒譜系數(shù),使梅爾倒譜系數(shù)的個(gè)數(shù)變?yōu)?8 個(gè),網(wǎng)絡(luò)模型的參數(shù)配置也隨之調(diào)整。其中:38 個(gè)輸入特征分別為18個(gè)帶噪信號(hào)的梅爾倒譜系數(shù)、6 個(gè)一階倒譜系數(shù)、6 個(gè)二階倒譜系數(shù)、基音周期、6 個(gè)頻段的基音增益以及語音非平穩(wěn)系數(shù);18 個(gè)輸出特征為18 個(gè)干凈信號(hào)的梅爾倒譜系數(shù)。本文的神經(jīng)網(wǎng)絡(luò)模型參數(shù)為61 957 個(gè),較rnnoise 網(wǎng)絡(luò)模型減小約30%。

      2.3 分頻帶處理

      由于人耳對不同頻率信號(hào)的非線性感知,可以將48 kHz 信號(hào)分為3 個(gè)頻帶——0~16 kHz、16~32 kHz 以及32~48 kHz。其中,針對0~16 kHz,采用優(yōu)化的rnnoise 模型計(jì)算得到抑制系數(shù),并通過加權(quán)平均的方式得到后兩個(gè)頻帶的抑制系數(shù)。0~16 kHz 為精細(xì)降噪,16~48 kHz 為粗分辨率降噪。

      其中,gb(w)是中高頻帶的抑制系數(shù),gb(wk)是低頻帶的增益系數(shù),wk是頻率,N是傅立葉變換點(diǎn)數(shù)。

      3 實(shí)驗(yàn)結(jié)果及分析

      3.1 平臺(tái)上的運(yùn)行時(shí)間、效率以及實(shí)時(shí)性

      在會(huì)議終端設(shè)備上進(jìn)行測試(1.8 GHz ARM Cortex-A17 core 上),rnnoise 模型處理10 ms 音頻數(shù)據(jù)需要582 μs,而本文提出的優(yōu)化模型處理時(shí)間是每10 ms 需要330 μs,時(shí)間縮短了43.29%,在保證算法性能的同時(shí),進(jìn)一步提升了算法實(shí)時(shí)性,對于性能較低的設(shè)備也有移植的可能性,具體數(shù)值如表1 所示。

      表1 算法性能比較

      3.2 消噪效果

      本文所用測試音頻均為實(shí)際會(huì)議室抓取的音頻,波形圖如圖3 所示。本文算法對非穩(wěn)態(tài)噪聲抑制效果,無語音段抑制效果達(dá)24 dB 及以上,語音片段抑制效果12 dB 及以上。

      圖4 為無語音片段的語譜圖,穩(wěn)態(tài)噪聲消除的同時(shí),非穩(wěn)態(tài)噪聲的抑制也很明顯。其中,豎條紋所在的頻譜區(qū)域是非穩(wěn)態(tài)噪聲,可以明顯看出增強(qiáng)后的信號(hào)非穩(wěn)態(tài)噪聲已經(jīng)被抑制到很小,同時(shí)均勻分布在整個(gè)頻譜中的白噪聲也被抑制得很小。

      圖5 為語音片段的語譜圖。消除非穩(wěn)態(tài)噪聲的同時(shí),語音失真度很小。其中,豎條紋所覆蓋頻譜為非穩(wěn)態(tài)噪聲,可以看出增強(qiáng)后的語音信號(hào)中噪聲已經(jīng)變得很小,語音部分的頻譜則失真很小。

      3.3 PESQ

      如表2 所示,本文算法對語音PESQ 平均有4.73%的提升。

      4 結(jié)論

      本文通過構(gòu)建基于優(yōu)化的rnnoise 遞歸卷積神經(jīng)網(wǎng)絡(luò)模型對會(huì)議場景進(jìn)行非穩(wěn)態(tài)噪聲抑制,其中將輸入語音信號(hào)從0~48 kHz 全頻帶分為0~16 kHz、16~32 kHz、32~48 kHz 共3 個(gè)頻帶 。對0~16 kHz 采用優(yōu)化的rnnoise 遞歸卷積神經(jīng)網(wǎng)絡(luò)模型進(jìn)行處理得到抑制系數(shù),將抑制系數(shù)作用于0~16 kHz 頻帶,并且將系數(shù)加權(quán)平均的結(jié)果作為后兩個(gè)頻帶的抑制系數(shù)參考,進(jìn)行粗分辨降噪。其中,rnnoise 模型從48 kHz 轉(zhuǎn)成16 kHz 模型,同時(shí)對網(wǎng)絡(luò)參數(shù)進(jìn)行調(diào)整,參數(shù)量減小30%,在保證算法性能的同時(shí),進(jìn)一步提升了算法效率。

      表2 本文算法對各類非穩(wěn)態(tài)噪聲語音質(zhì)量提升效果

      在THCH-30、aidatatang_200h 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,提出的網(wǎng)絡(luò)模型對非穩(wěn)態(tài)噪聲的抑制明顯,語音段抑制12 dB 及以上,非語音片段抑制強(qiáng)度24 dB 以上,在保證算法降噪性能的同時(shí),語音失真度很小,可以有效減小非穩(wěn)態(tài)噪聲的干擾。本文模型對比rnnoise 模型參數(shù)量降低30%,在終端設(shè)備上運(yùn)行時(shí)間減小43.29%,具有較好的實(shí)用價(jià)值。下一步擬研究會(huì)議終端聲紋識(shí)別的研究及應(yīng)用。

      猜你喜歡
      梅爾頻帶穩(wěn)態(tài)
      可變速抽水蓄能機(jī)組穩(wěn)態(tài)運(yùn)行特性研究
      基于梅爾頻譜分離和LSCNet的聲學(xué)場景分類方法
      碳化硅復(fù)合包殼穩(wěn)態(tài)應(yīng)力與失效概率分析
      電廠熱力系統(tǒng)穩(wěn)態(tài)仿真軟件開發(fā)
      煤氣與熱力(2021年4期)2021-06-09 06:16:54
      Wi-Fi網(wǎng)絡(luò)中5G和2.4G是什么?有何區(qū)別?
      元中期歷史劇對社會(huì)穩(wěn)態(tài)的皈依與維護(hù)
      中華戲曲(2020年1期)2020-02-12 02:28:18
      單音及部分頻帶干擾下DSSS系統(tǒng)性能分析
      女詩人梅爾詩集《十二背后》三人談
      雙頻帶隔板極化器
      電子測試(2017年15期)2017-12-18 07:18:51
      調(diào)諧放大器通頻帶的計(jì)算及應(yīng)用
      平山县| 福鼎市| 武陟县| 垦利县| 法库县| 凤山县| 吉林市| 冕宁县| 浙江省| 隆昌县| 河曲县| 兴山县| 阿瓦提县| 房山区| 卢氏县| 楚雄市| 屯门区| 新巴尔虎左旗| 吉木乃县| 顺平县| 康平县| 历史| 榆社县| 莲花县| 三亚市| 大理市| 滕州市| 临漳县| 固阳县| 海原县| 绥江县| 惠水县| 武宣县| 兰考县| 崇仁县| 怀宁县| 湖州市| 图片| 安福县| 上虞市| 和顺县|