• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      人耳聽覺相關代價函數(shù)深度學習單通道語聲增強算法*

      2022-09-16 09:12:30程琳娟彭任華鄭成詩李曉東
      應用聲學 2022年4期
      關鍵詞:單通道代價噪聲

      程琳娟 彭任華 鄭成詩 李曉東

      (1 中國科學院聲學研究所 北京 100190)

      (2 中國科學院大學 北京 100049)

      0 引言

      語聲質量和可懂度在移動電話、助聽器和語聲識別等系統(tǒng)中具有重要意義。然而在實際環(huán)境中,這些系統(tǒng)通常會受到噪聲的干擾,破壞語聲質量。語聲增強算法的目的就是從嘈雜的背景噪聲中提取出干凈語聲信號,提高設備通訊質量以及語聲識別等性能。相比于多通道語聲增強算法,單通道語聲增強算法僅需單個傳聲器,成本低,易部署,一直是研究的熱點。

      傳統(tǒng)單通道語聲增強算法主要包括譜減法、基于統(tǒng)計模型的算法和基于子空間的算法[1-6]。譜減法[2-3]算法結構簡單,其原理是在無語聲段估計和更新噪聲譜,然后將估計的噪聲譜從帶噪語聲譜中減去得到增強語聲譜。譜減算法依賴噪聲譜估計,容易產生較大的語聲失真和音樂噪聲?;诮y(tǒng)計模型的算法[4-5]通過引入語聲統(tǒng)計特性分析,改善了語聲信號失真,同時降低了音樂噪聲?;谧涌臻g的語聲增強算法[6]是利用語聲信號的稀疏性,將帶噪語聲信號的向量空間分解為干凈語聲子空間和噪聲子空間,通過抑制噪聲子空間達到增強干凈語聲的目的。傳統(tǒng)語聲增強算法在平穩(wěn)噪聲下能夠取得良好的降噪效果,但是在非平穩(wěn)噪聲場景下的性能較差。

      近年,基于深度神經網絡(Deep neural network,DNN)的語聲增強算法在非平穩(wěn)噪聲場景下表現(xiàn)出顯著優(yōu)勢,成為了研究熱點[7]。得益于DNN強大的非線性建模能力,通過構造大規(guī)模帶噪語聲以及干凈語聲數(shù)據(jù)集,可以直接從帶噪語聲中映射干凈語聲。在網絡參數(shù)訓練過程中,代價函數(shù)決定了網絡整體優(yōu)化方向,直接影響網絡性能。均方誤差(Mean-square error,MSE)函數(shù)是網絡訓練中最常用的一種代價函數(shù)。但是MSE 函數(shù)誤差值的大小與語聲質量的好壞并非完全相關,而且容易產生過平滑等問題[8]。大量研究學者針對MSE 代價函數(shù)問題提出了改進方法。Xu 等[9]提出在代價函數(shù)中對增強后語聲信號中的語聲分量和殘余噪聲分量分別進行控制,從而獲得更好的語聲質量和聽感更自然的殘余噪聲。Li 等[10]提出了一種廣義損失函數(shù),將MSE 及其他一些典型損失函數(shù)總結納入到同一理論框架中,研究表明,通過控制損失函數(shù)使噪聲聽感更加自然對于增強后語聲的整體聽感極為重要。Xia 等[11]提出對自編碼器語聲增強算法的代價函數(shù)進行加權,權重的大小隨著頻段的增加而降低,以保留更多低頻語聲信息。Kumar等[12]提出利用人耳掩蔽函數(shù)對MSE 代價函數(shù)進行加權,在低信噪比場景下取得了更好的語聲質量。Liu 等[13]提出了一種和心理聲學相關的加權MSE代價函數(shù),利用一種經驗函數(shù)對基于對數(shù)譜的MSE代價函數(shù)進行加權,對能量較大的語聲段懲罰力度較大。也有學者提出在訓練網絡時,直接采用語聲感知質量評價(Perceptual evaluation of speech quality,PESQ)[14]和短時目標可懂度(Short-time objective intelligibility,STOI)[15]客觀指標作為代價函數(shù)[16-18]。但是PESQ 和STOI 的計算非常復雜,且存在不可導的計算過程,因此一般需要對這些代價函數(shù)進行近似擬合得到適合DNN 訓練的代價函數(shù),導致訓練后的模型并不能實現(xiàn)理想效果。而且這些代價函數(shù)往往只能在該客觀指標下取得較好結果。

      本文將兩類與人耳聽覺相關的代價函數(shù)[19]引入到DNN 訓練中,可以在不增加模型計算復雜度的情況下提高深度學習算法增強后的語聲質量,降低噪聲殘留。第一類代價函數(shù)是加權歐式距離(Wighted-Euclidean,WE)代價函數(shù),考慮了人耳聽覺掩蔽效應,利用一個冪指數(shù)控制網絡對噪聲的抑制程度和對語聲的保留程度。第二類代價函數(shù)包括Itakura-Satio(IS)代價函數(shù)、COSH 代價函數(shù)和加權似然比(Weighted likelihood ratio,WLR)代價函數(shù)。這幾種代價函數(shù)都更強調語聲譜峰值的重要性,側重于恢復譜峰值信息,保留更多語聲信息,提高語聲質量。本文通過在代價函數(shù)中引入人耳聽覺信息對網絡訓練進行優(yōu)化,控制網絡模型對干凈語聲的保留和對干擾噪聲的抑制,其目的是提高語聲質量和可懂度,未考慮對語義和情感等語聲感知相關信息的影響。本文利用長短期記憶(Long short-term memory,LSTM)[20]網絡分析了兩類代價函數(shù)在基于深度學習的單通道語聲增強算法中的性能,并與MSE 代價函數(shù)進行對比。為了驗證這些代價函數(shù)對網絡結構的泛化性能,利用全連接網絡(Fully connected network,FCN)和卷積循環(huán)網絡(Convolutional recurrent network,CRN)[21]對這些代價函數(shù)在不同網絡架構上的性能進行了進一步探究。

      1 信號模型

      考慮單通道加性噪聲信號模型。y(n)表示傳聲器拾取帶噪信號,x(n)表示干凈語聲信號,d(n)表示加性噪聲信號,與x(n)不相關,n表示采樣點,則:

      語聲增強的目的就是從帶噪語聲y(n)中恢復出干凈語聲x(n)。對式(1)兩邊同時進行短時傅里葉變換(Short-time Fourier transform,STFT),可得

      其中,k表示頻率分量,l表示幀分量。Y(k,l)、X(k,l)和D(k,l)分別表示y(n)、x(n)和d(n)的STFT變換。

      定義第l幀第k個時頻分量處的幅度譜估計誤差為d(|X(k,l)|,|(k,l)|), 其中|(k,l)|代表估計的干凈語聲?x(n)的STFT 幅度譜。在下文中,為方便表述,使用{Yk,Dk,Xk,}代替{|Y(k,l)|,|D(k,l)|,|X(k,l)|,|(k,l)|}分別表示帶噪語聲y(n)、噪聲d(n)、干凈語聲x(n)和估計干凈語聲?x(n)的STFT幅度譜。則貝葉斯風險RB,即估計誤差期望E[d(Xk,)],可表示為

      對于一個給定的代價函數(shù),比如MSE 代價函數(shù),即d(Xk,)=(Xk-)2,式(3)中的貝葉斯估計可以通過固定Y(k,l),最小化關于的內部積分得到[19]。

      2 算法原理

      2.1 深度學習單通道語聲增強算法框架

      FCN是深度學習算法中最常見的網絡結構,它的輸入特征相互獨立,沒有建立當前輸入與歷史信息之間的聯(lián)系。語聲信號有明顯的時序特征,當前時刻的語聲信息與過去時刻的語聲信息具有密切聯(lián)系。循環(huán)神經網絡(Recurrent neural network,RNN)利用自身的循環(huán)網絡結構能夠建立當前時刻輸入特征與歷史輸入特征之間的聯(lián)系,更適用于映射語聲相關特征。但是RNN 在前向傳播過程中信息冗余過多,網絡計算復雜,容易產生梯度消失和梯度爆炸現(xiàn)象[22]。LSTM 在RNN 結構基礎上引入了一個記憶單元結構和一系列的門函數(shù),能夠有效控制歷史信息在當前時刻的流入和流出,在一定程度上解決了梯度消失和梯度爆炸問題。單個LSTM模塊包括一個記憶單元和3個門函數(shù):輸入門、遺忘門和輸出門,計算過程如下所示:

      其中,l代表幀分量,σ代表sigmoid 函數(shù),tanh 代表雙曲正切函數(shù);xl、cl和hl分別表示第l幀的網絡輸入、記憶單元和隱狀態(tài);W和b分別表示權重和偏置;il、fl和ol分別表示輸入門、遺忘門和輸出門。當前幀輸入特征通過隱狀態(tài)hl-1和記憶單元cl-1建立與過去時刻輸入特征之間的聯(lián)系。

      本文利用LSTM 網絡對不同代價函數(shù)的性能進行分析。圖1 展示了基于LSTM 的單通道語聲增強算法框圖。網絡輸入特征是帶噪語聲y(n)的對數(shù)譜(Log-power spectra,LPS),即logY2k。掩蔽函數(shù)映射和譜映射是基于深度學習的單通道語聲增強算法最常用的兩類映射方法。掩蔽函數(shù)是由計算聽覺場景分析概念所延伸出的一類計算目標,如理想二值掩蔽(Ideal binary mask,IBM)、理想浮值掩蔽(Ideal ratio mask,IRM)等。譜映射網絡的學習目標通常是干凈語聲的譜特征,如幅度譜或對數(shù)譜,無需干凈語聲與噪聲之間相互獨立的假設。但是基于譜映射的算法容易在估計的干凈語聲譜特征上映射出非語聲成分,產生人工噪聲。Weninger等[23]提出了一種信號近似(Signal approximation,SA)映射方法,將網絡輸出值限定在[0,1]之間,然后將網絡輸出與帶噪語聲幅度譜相乘,得到干凈語聲幅度譜的估計,網絡的訓練目標是真實的干凈語聲幅度譜。這種方法結合了掩蔽函數(shù)映射方法和譜特征映射方法的優(yōu)勢。如圖1 所示,本文使用SA方法對LSTM網絡進行訓練。

      圖1 基于LSTM 的單通道語聲增強算法框圖Fig.1 Diagram of LSTM-based single-channel speech enhancement

      網絡隱藏層包括兩層LSTM,每層有512 個節(jié)點,輸出層為FCN,激活函數(shù)為sigmoid 函數(shù),將網絡輸出值限定在[0,1]之間。網絡輸出與帶噪語聲幅度譜相乘得到對干凈語聲幅度譜的估計,根據(jù)估計干凈語聲幅度譜和真實干凈語聲幅度譜計算代價函數(shù)。當模型完成訓練,在增強階段,利用估計干凈語聲幅度譜和帶噪語聲相位根據(jù)重疊相加法恢復出干凈語聲時域信號?x(n)。

      2.2 基于人耳聽覺的代價函數(shù)

      由于MSE代價函數(shù)形式簡單,易于求導,MSE函數(shù)成為語聲增強算法中最常用的代價函數(shù)。然而MSE 代價函數(shù)誤差值的大小與語聲質量好壞并非完全線性相關。考慮到人耳聽覺掩蔽效應和共振峰對語聲質量及可懂度的重要性等因素,在傳統(tǒng)語聲增強算法中提出了一系列基于人耳聽覺的代價函數(shù)[19,24-26]。本文引入這些代價函數(shù)替代MSE 代價函數(shù)對LSTM 網絡進行訓練,以提高基于LSTM的單通道語聲增強算法的性能,提升語聲質量和可懂度。

      2.2.1 WE代價函數(shù)

      WE 代價函數(shù)是一種關于心理聲學的代價函數(shù),由Loizou[19]基于低速率語聲編解碼器中所使用的感知加權法所提出。感知加權法主要利用了人耳聽覺系統(tǒng)的掩蔽特性,在語聲能量較大的時頻段(如語聲共振峰)附近,大部分量化噪聲被語聲掩蓋,很難被檢測到,信噪比較高。而在語聲能量較小的時頻段,噪聲能量占主要成分,信噪比較低。低速率語聲編解碼器采用感知加權法,用加權濾波器對誤差頻譜進行整形。濾波器的形狀類似于原始信號的頻譜倒數(shù),即語聲譜谷值附近的誤差被放大,譜峰值附近的誤差被縮小,可以進一步抑制譜谷值附近的噪聲,更側重于恢復能量較小且易被噪聲干擾的干凈語聲段,提高整段語聲的質量和可懂度。基于此,Loizou 提出用1/Xk對MSE 代價函數(shù)進行加權濾波,可表示為

      由式(9)可以看出,當語聲能量較小時,即Xk較小,則該加權MSE 代價函數(shù)的權重更大,對誤差的懲罰力度更強;當語聲能量較大時,即Xk較大,則該加權MSE代價函數(shù)的權重更小,對誤差的懲罰力度更弱??紤]到更一般的形式,將Xkp作為加權濾波器,稱為WE代價函數(shù),其中p為大于2的常數(shù),即

      當p <0,干凈語聲能量較小的時頻點權重更大,誤差值更大,此時噪聲占主要成分,因此能夠更大程度地降低噪聲殘留;當p >0,則WE 代價函數(shù)在語聲共振峰附近的誤差較大,更側重于恢復語聲共振峰附近的干凈語聲,保留更多語聲信息。當p= 0,式(10)稱為MSE 代價函數(shù)。WE 代價函數(shù)根據(jù)人耳聽覺掩蔽特性,利用參數(shù)p調節(jié)代價函數(shù)優(yōu)化方向,控制對殘留噪聲和干凈語聲的優(yōu)化。本文取p=[-1.9,-1.5,-1,-0.5,0,1,2]。

      2.2.2 IS代價函數(shù)

      IS代價函數(shù)由Itakura 等[24]提出,并已成功應用于語聲識別。IS代價函數(shù)是計算干凈語聲在各頻率分量上的估計功率譜和真實功率譜之間的誤差,其計算公式為

      由式(11)可以看出,IS 代價函數(shù)是不對稱的,它更強調語聲譜峰的重要性,側重于恢復譜峰值附近的干凈語聲。根據(jù)Loizou[19]的推導,IS代價函數(shù)關于功率譜的貝葉斯估計與MSE 代價函數(shù)關于功率譜的貝葉斯估計相同,可表示為

      與式(11)所示的IS代價函數(shù)相比,式(12)代價函數(shù)形式更簡單,易推導,更適用于網絡訓練。實驗結果證明,在基于LSTM的語聲增強算法中,式(11)所示代價函數(shù)的性能比式(12)所示函數(shù)稍差。因此,本文使用公式(12)作為IS代價函數(shù)的形式與其他代價函數(shù)進行性能對比。

      2.2.3 COSH 代價函數(shù)

      如式(11)所示,IS 代價函數(shù)是非對稱的。Gray等[25]通過將IS代價函數(shù)的兩種不同形式結合構成了一種對稱性的代價函數(shù),稱為COSH 代價函數(shù),其計算公式為

      2.2.4 WLR代價函數(shù)

      為了進一步強調語聲譜峰的重要性,Shikano等[26]提出了WLR代價函數(shù),其計算公式為

      WLR 代價函數(shù)與logMSE 代價函數(shù)相似,logMSE代價函數(shù)的計算公式為

      WLR 和logMSE 代價函數(shù)都引入了對數(shù)譜誤差項,是對對數(shù)譜誤差項的加權,但是它們的權重函數(shù)不同。WLR 代價函數(shù)的權重函數(shù)是線性譜誤差(Xk-),logMSE 代價函數(shù)的權重函數(shù)是對數(shù)譜誤差(logXk-log)。因此,與logMSE 代價函數(shù)相比,WLR 代價函數(shù)對對數(shù)譜峰的權重大于對對數(shù)譜谷值的權重。

      表1 總結了本文所研究的5 種基于人耳聽覺的代價函數(shù)。其中,當p= 0 時,WE 代價函數(shù)退化成MSE代價函數(shù)。

      表1 基于人耳聽覺的代價函數(shù)Table 1 Cost functions based on human auditory

      3 實驗結果和分析

      3.1 實驗設置

      構建訓練集的干凈語聲取自TIMIT 數(shù)據(jù)庫[27]。TIMIT 數(shù)據(jù)庫包括TIMIT 訓練數(shù)據(jù)集和TIMIT 測試數(shù)據(jù)集。訓練集使用了115 種噪聲,包括100 種錄制環(huán)境噪聲[28]和15 種自制噪聲類型[29]。在構建訓練集時,從TIMIT 訓練數(shù)據(jù)集中隨機選取3000 句不同說話人語聲,與各種噪聲按照[-5,0,5,10,15,20] dB 的信噪比(Signal-noise ratio,SNR)進行混合,構建約60 h 的訓練集。從TIMIT訓練數(shù)據(jù)集中另選300 句干凈語聲與115 種噪聲按照不同SNR合成帶噪語聲,生成了不同SNR條件下的驗證集,約為6 h。在訓練模型時,利用訓練集產生的誤差根據(jù)反向傳播方法對網絡的權重進行更新,利用模型在驗證集上的誤差判斷模型的收斂情況。

      當模型訓練完成之后,在測試階段,從TIMIT測試數(shù)據(jù)集中選取30 句男性說話人語聲和30 句女性說話人語聲,與噪聲按照不同SNR 進行混疊,構建測試集對算法性能進行評估。為了測試算法在未見噪聲場景下的泛化性能,將這些干凈語聲與NOISEX-92數(shù)據(jù)庫[30]的6 種噪聲類型按照不同SNR合成帶噪語聲對算法進行測試。

      所有語聲和噪聲信號的采樣率均為16 kHz。STFT的幀長為512(32 ms),幀移為256(16 ms),幀重疊度為50%,因此語聲信號幅度譜的頻率維度為257。LSTM 網路的輸入特征是當前幀帶噪語聲的LPS。每個隱藏層有512個節(jié)點,最后一層全連接層有257個節(jié)點,激活函數(shù)為sigmoid 函數(shù)。訓練模型時,設置的批大小為128。采用Adam優(yōu)化器更新權重,學習率設置為0.0003。為了提高模型的泛化性能,防止過擬合,采用隨機丟棄方法,每層隱藏層隨機丟棄部分節(jié)點,丟棄率為0.2。

      本文雖然在網絡訓練中引入了基于人耳聽覺特性的代價函數(shù),但目的仍然是提高增強后的語聲質量和可懂度,提升單通道語聲增強算法性能。因此,在測試階段,采用以下5種常用的客觀評價標準對算法進行評估:

      (1)PESQ:PESQ是用來評價語聲質量的指標,與主觀評價得分高度相關,取值在-0.5~4.5之間。

      (2)信號失真綜合評價標準(Composite measure for signal distortion,CSIG)[31]:評價信號失真度的指標,取值在1~5之間。

      (3)噪聲失真綜合評價標準(Composite measure for noise distortion,CBAK)[31]:評價噪聲失真度的指標,取值在1~5之間。

      (4)整體語聲質量綜合評價標準(Composite measure for overall speech quality,COVL)[31]:評價整體語聲質量的標準,取值在1~5之間。

      (5)STOI:STOI 是用來評價語聲可懂度的指標,取值在0~1 之間,STOI 得分越高代表語聲可懂度越好。

      這些評價標準均以干凈語聲為參考信號,與估計的干凈語聲進行對比計算得分,分數(shù)越高代表算法性能越好。

      本文利用LSTM網絡對表1中代價函數(shù)的性能進行了測試,并與MSE 代價函數(shù)和STOI 代價函數(shù)[18]進行了對比。

      3.2 實驗結果

      首先,針對訓練集噪聲場景,對基于不同代價函數(shù)的LSTM 單通道語聲增強算法的性能進行分析。從訓練集所用的115 種噪聲中隨機選取6 種噪聲,與60 句測試集干凈語聲按照不同SNR 進行混疊構建測試帶噪語聲。不同代價函數(shù)在6 種訓練集噪聲場景下的平均PESQ 和STOI 結果分別如表2和表3所示。

      表2 基于不同代價函數(shù)的LSTM 單通道語聲增強算法在訓練集噪聲場景下的平均PESQ 得分Table 2 Average PESQ results of singlechannel speech enhancement based on LSTM with different cost functions under seen noise types

      表3 基于不同代價函數(shù)的LSTM 單通道語聲增強算法在訓練集噪聲場景下的平均STOI 得分Table 3 Average STOI results of single-channel speech enhancement based on LSTM with different cost functions under seen noise types

      從表2 中可以看出, 基于WE 代價函數(shù)的LSTM 單通道語聲增強算法取p=-0.5 時在各個SNR 條件下都取得了最優(yōu)性能。當p <-0.5 或者p >-0.5 時,PESQ 結果變差,特別是p=-1.9和p= 2 的場景。一方面,根據(jù)式(10),當p的絕對值較大時,WE代價函數(shù)的取值動態(tài)范圍會變大,導致模型訓練的收斂速度較慢,誤差較大。另一方面,此時代價函數(shù)對于噪聲抑制和干凈語聲保留較為極端化,若p >0,則干凈語聲保留較完整,但也會引入更多殘留噪聲;若p <0,則噪聲殘留較少,但同時會引入較大語聲失真,二者均會導致整體語聲質量的降低。整體來看,p=-0.5 時的WE 代價函數(shù)在不同SNR條件下的平均PESQ 得分比MSE 代價函數(shù)高0.08。在較高SNR(>5 dB)條件下,WE 代價函數(shù)在p=-1 時的PESQ得分高于MSE代價函數(shù),與低SNR 條件下的結論相反。這是因為,在低SNR 條件下,噪聲成分較多,隨著p值的減小,對噪聲的抑制程度變大,但同時會引入較多的語聲失真。當p=-0.5 時,噪聲殘留較少,同時語聲失真也較小。與其他代價函數(shù)相比,p=-0.5 的WE 代價函數(shù)在不同SNR 條件下都取得了最高的PESQ 得分,表現(xiàn)出優(yōu)于MSE的性能。WLR 代價函數(shù)的計算公式與logMSE代價函數(shù)的計算公式相似,但是WLR代價函數(shù)相比于logMSE 代價函數(shù)更強調語聲對數(shù)譜譜峰的重要性,引入的語聲失真更小,因此WLR代價函數(shù)的結果優(yōu)于logMSE代價函數(shù)。同時,在訓練集噪聲場景下,WLR 代價函數(shù)的性能優(yōu)于MSE代價函數(shù)。在這幾種基于人耳聽覺的代價函數(shù)中,IS代價函數(shù)的結果性能最差。但是在傳統(tǒng)的語聲增強算法理論分析中,基于IS代價函數(shù)的信號幅度譜貝葉斯估計與基于MSE 代價函數(shù)的幅度譜貝葉斯估計是等價的[19]。產生這個差異的主要原因是,在基于DNN 的語聲增強算法中,代價函數(shù)不僅影響模型對譜峰和譜谷的敏感性,同時影響模型的收斂。當代價函數(shù)的取值動態(tài)范圍較大時,模型的收斂速度會變慢,收斂誤差會變大,因此,基于IS代價函數(shù)的深度學習語聲增強算法性能反而最差。以STOI為代價函數(shù)的LSTM單通道語聲增強算法的PESQ得分較低,與MSE 代價函數(shù)的結果相差較大,難以實現(xiàn)較好的語聲質量。

      表3 中不同代價函數(shù)之間的STOI 結果差距較小,其中WLR與MSE代價函數(shù)在不同SNR條件下的STOI 得分相同,二者處理后的語聲可懂度基本一致。p=-0.5 時的WE 代價函數(shù)與MSE 代價函數(shù)的STOI 得分也基本相同,結合表2 的實驗結果表明,WE 代價函數(shù)能夠在保證語聲可懂度的同時大大提高處理后信號的語聲質量。STOI 代價函數(shù)的STOI 得分與MSE 代價函數(shù)相差不大,尤其是在高信噪比場景下。但是表2 中STOI 代價函數(shù)的PESQ 得分遠遠低于MSE 代價函數(shù)。這是因為以STOI 為代價函數(shù)的網絡優(yōu)化是以提高STOI 得分為目的,但是卻忽略了語聲質量指標,導致其PESQ得分較低。

      為了測試不同代價函數(shù)在未見噪聲場景下的性能,從NOISEX-92 數(shù)據(jù)庫中選取6 種噪聲,與測試集的60 句干凈語聲按照不同SNR 進行混合。這6 種噪聲的頻譜圖如圖2 所示,包括平穩(wěn)噪聲和非平穩(wěn)噪聲。表4 和表5 分別給出了基于不同代價函數(shù)的LSTM 模型在這6 種未見噪聲場景下的平均PESQ 得分和平均STOI 得分。在未見噪聲場景下,p=-0.5 時的WE 代價函數(shù)取得了最高的PESQ 分數(shù),與表2 訓練集噪聲場景下的結論一致。p=-0.5 時的WE 代價函數(shù)的平均PESQ 得分比MSE 代價函數(shù)高0.11,表明基于WE 代價函數(shù)的LSTM 單通道語聲增強算法比MSE 代價函數(shù)的泛化性能更好。表5中WE代價函數(shù)與MSE代價函數(shù)在未見噪聲場景下的平均STOI 得分也基本相同。低信噪比場景下,WLR 代價函數(shù)的PESQ 和STOI得分均比MSE 代價函數(shù)略低,表明在低信噪比場景下,WLR 代價函數(shù)對未見噪聲的泛化性能較差。STOI 代價函數(shù)在未見噪聲場景下同樣只能實現(xiàn)較好的語聲可懂度,而大大降低了處理后信號的語聲質量。

      圖2 測試集6 種未見噪聲頻譜圖Fig.2 Spectrograms of six types of noise used for test

      表4 基于不同代價函數(shù)的LSTM 單通道語聲增強算法在未見噪聲場景下的平均PESQ 得分Table 4 Average PESQ results of singlechannel speech enhancement based on LSTM with different cost functions under unseen noise types

      表5 基于不同代價函數(shù)的LSTM 單通道語聲增強算法在未見噪聲場景下的平均STOI 得分Table 5 Average STOI results of singlechannel speech enhancement based on LSTM with different cost functions under unseen noise types

      為了探究深度學習算法與傳統(tǒng)算法之間的語聲增強性能差異,以WE 代價函數(shù)為例,對傳統(tǒng)基于貝葉斯估計的語聲增強算法[19]與基于LSTM的語聲增強算法進行了分析對比。圖3 展示了貝葉斯估計算法和LSTM 算法以WE 函數(shù)為代價函數(shù)時的結果。由表3 可知,基于LSTM 的語聲增強算法在p= [-1.9,-1.5,2]時的性能較差,為了更加清晰地對結果進行展示,圖3 中只給出了p= [-1,-0.5,0,1]條件下的結果。圖3(a)、圖3(b)和圖3(c)分別是CBAK 得分、CSIG 得分和COVL得分結果。從圖中可以看出,基于貝葉斯估計的語聲增強算法在p=-0.5時的CBAK得分略高于p=0時的CBAK得分,表明p=-0.5時的殘余噪聲略小于p= 0 時的殘余噪聲。在圖3(b)中,貝葉斯估計算法在p= 0 時的CSIG 得分略高于p=-0.5 時的CSIG 得分,表明在p= 0 時引入的語聲失真較小。從圖3(c)中可以看出,貝葉斯估計算法在p=-0.5時的COVL 得分與p= 0 時的得分相近,表明二者在整體語聲質量方面的性能相似。整體來看,對于CBAK,CSIG 和COVL 這3 種評價標準,基于WE代價函數(shù)的LSTM 語聲增強算法在p=-0.5 時均取得了最優(yōu)性能。其中p=-0.5時,WE 與MSE 代價函數(shù)的CBAK 得分相差較大,這是因為p=-0.5的WE 代價函數(shù)降噪性能更好。而p=-0.5 時的CSIG 得分與MSE 比較接近,表明二者處理后的語聲失真程度相似。此外,根據(jù)圖3三個評價指標的結果,基于LSTM 的語聲增強算法在語聲失真和噪聲殘留方面的性能都明顯優(yōu)于傳統(tǒng)的貝葉斯算法,尤其是在較低的SNR 條件下,優(yōu)勢更加明顯。這是因為DNN 可以利用自身網絡結構映射輸入到輸出之間的復雜非線性關系,更好地處理非平穩(wěn)噪聲。

      圖3 傳統(tǒng)貝葉斯估計語聲增強算法與基于LSTM 的語聲增強算法在WE 代價函數(shù)條件下的性能比較Fig.3 Performance comparison between traditional Bayesian estimator and LSTM-based speech enhancement with WE cost function

      下文將對基于WE 代價函數(shù)的LSTM 單通道語聲增強算法的性能進行深入分析。圖4 以一段帶噪語聲為例,展示了不同p值條件下,基于WE代價函數(shù)的LSTM 單通道語聲增強算法處理后的語聲時域信號。從上往下依次為帶噪語聲、干凈語聲和取不同p值時的增強后語聲。從圖中可以明顯看出,隨著p值的減小,處理后語聲中的噪聲殘留在減少,但是引入的語聲失真越來越多。這是因為p值越小,WE 代價函數(shù)對能量較小語聲段的懲罰程度越大,即側重于恢復干凈語聲譜谷值附近的信息。而譜谷值附近由于干凈語聲能量小,大部分噪聲不能被語聲掩蔽掉,更易被人耳聽見。因此,當p值越小時,殘余的噪聲越少,整體語聲質量越好。如圖4 所示,當p=-0.5時,噪聲殘留較少,同時語聲失真較小。

      圖4 基于WE 代價函數(shù)的LSTM 語聲增強算法在不同p 值條件下對帶噪語聲處理后的時域信號,以及與原始帶噪語聲和干凈語聲的對比Fig.4 Enhanced speech signals with LSTM using WE cost function for different values of p,the clean speech,and the noisy speech

      理論上,基于WE 代價函數(shù)的關于語聲幅度譜的貝葉斯估計可以表示為增益GWE關于先驗SNR(ξk)和后驗SNR(γk)的函數(shù)[19],表示為

      其中, Φ(a,b,c)是融合超幾何函數(shù)(Confluent hypergeometric function),Γ(·)代表gamma 函數(shù),ηk=ξkγk/(1+ξk),γk=Y2k/λd,ξk=λx(k)/λd(k),圖5 畫出了WE代價函數(shù)取不同p值時,增益函數(shù)GWE關于瞬時SNR(γk-1)在ξk=-5 dB時的曲線。為了便于比較,圖中還展示了基于logMSE 代價函數(shù)的貝葉斯估計增益函數(shù)曲線。從圖中可以看出,在同樣的瞬時SNR 條件下,p取值越小,GWE值越小,表明對噪聲的衰減越大。而p=-0.5 時的曲線與logMSE代價函數(shù)的曲線幾乎重合?;赪E 代價函數(shù)與logMSE 代價函數(shù)的LSTM 單通道語聲增強算法在未見噪聲場景下關于CSIG、CBAK 和COVL 評價指標的對比如圖6 所示。為了更加直觀地進行展示,只選取了性能較好的p=-1和p=-0.5的WE代價函數(shù)與MSE 以及l(fā)ogMSE 代價函數(shù)進行對比。圖6(a)是在低信噪比情況下的結果,圖6(b)是在高信噪比情況下的結果。雖然p=-0.5的WE代價函數(shù)與logMSE 代價函數(shù)關于幅度譜的貝葉斯估計在理論上的增益函數(shù)曲線是重合的,但是在基于深度學習的語聲增強算法中,p=-0.5 的WE 代價函數(shù)在CSIG、CBAK 以及COVL 評價指標下的性能都優(yōu)于logMSE代價函數(shù)。

      圖5 在不同p 值條件下,基于WE 代價函數(shù)的增益函數(shù)與瞬時SNR 之間的關系Fig.5 Gain function of the WE cost function as a function of the instantaneous SNR for different values of p

      圖6 在不同p 值條件下,基于WE 代價函數(shù)的LSTM 算法在未見噪聲場景下的平均CSIG、CABK 和COVL 評價指標得分Fig.6 Average CSIG,CBAK,COVL results of LSTM model with WE cost function for different values of p as well as logMSE cost function under unseen noise types

      圖7 給出了基于WE 代價函數(shù)和logMSE 代價函數(shù)的LSTM 單通道語聲增強算法網絡輸出層映射的增益函數(shù)值分布。圖中給出了增益函數(shù)理想值(即根據(jù)干凈語聲和噪聲計算得到的增益函數(shù)值分布)做對比。測試帶噪語聲中的背景噪聲是NOISEX-92 中的factory 噪聲,圖中給出了不同SNR 條件下的平均結果。由圖7 可知,隨著p的減小,增益函數(shù)估計值整體偏小,表明模型對噪聲的抑制較強,與理論分析相符。與實際增益函數(shù)值分布相比,p=-0.5 時的WE 代價函數(shù)的估計值分布最接近理想值分布。這些代價函數(shù)在同樣場景下的估計誤差方差如表6所示,由表中可知,p=-0.5時的WE 代價函數(shù)的方差最小,進一步驗證了p=-0.5時,基于WE 代價函數(shù)的LSTM 單通道語聲增強算法性能最優(yōu)。

      圖7 基于WE 和logMSE 代價函數(shù)的LSTM 算法估計的增益函數(shù)值分布圖以及根據(jù)干凈語聲和噪聲計算出的實際增益函數(shù)值分布圖的對比Fig.7 Normalized distribution of the estimated gain value from LSTM model with WE cost function for different values of p and logMSE cost function.The gain values distribution of ideal gain function calculated from clean speech and noise is also plotted for comparison

      表6 不同代價函數(shù)估計增益函數(shù)值誤差的方差Table 6 The variance of estimation error of gain values based on different cost functions

      為了評估WE 代價函數(shù)對其他網絡結構的泛化性能,使用FCN 和CRN 對這些代價函數(shù)的性能進行進一步測試。

      FCN 有3 層隱藏層,每個隱藏層有1024 個節(jié)點。為了利用上下文信息,將連續(xù)5 幀的帶噪語聲LPS 特征串聯(lián)作為輸入,因此輸入特征的維度為257×5 = 1285。網絡的學習目標是對應的中間幀的干凈語聲幅度譜。在網絡訓練中,計算誤差時設置的批大小為1024。采用Adam優(yōu)化方法更新網絡權重,學習率為0.0003。

      CRN 包括編解碼模塊和時序建模模塊。其中編解碼模塊包括6 層卷積層和6 層反卷積層,時序建模模塊包括兩層LSTM網絡。為了將輸入特征信息有效傳遞到后面的網絡,在訓練過程中使用了跳轉連接方法,將每個卷積層網絡的輸出與其對應的反卷積層輸入進行連接重新作為輸入。CRN 的輸入特征是帶噪語聲當前幀的LPS 特征,維度為257。訓練目標是干凈語聲的257維幅度譜特征。CRN的具體參數(shù)如表7 所示,其中T表示一個句子的總幀數(shù)。在訓練網絡時,計算誤差所用的批大小設置為16。網絡通過Adam 優(yōu)化器更新權重,學習率設置為0.0003。

      表7 CRN 的具體參數(shù)Table 7 The architecture of the CRN model

      基于WE 代價函數(shù)的FCN 單通道語聲增強算法在未見噪聲場景下的平均PESQ 得分如表8 所示。與LSTM網絡相似,p=-0.5時,基于WE代價函數(shù)的FCN模型取得了最高的PESQ得分,并且高于MSE代價函數(shù)的PESQ 得分,與上述基于LSTM的單通道語聲增強算法的結論一致。

      表8 基于WE 代價函數(shù)的FCN 單通道語聲增強算法在未見噪聲場景下的平均PESQ 得分Table 8 Average PESQ results of singlechannel speech enhancement based on FCN with WE cost function under unseen noise types

      表9 比較了基于WE 代價函數(shù)的CRN 單通道語聲增強算法在不同SNR 條件下的平均PESQ 得分。從表中可以看出,在不同SNR條件下,p=-0.5和p=-1 時WE 代價函數(shù)的PESQ 得分均高于MSE 代價函數(shù)的PESQ 得分。其中p=-1 時性能最好,甚至優(yōu)于p=-0.5 時WE 代價函數(shù)的增強后語聲質量。對比表9 和表4的PESQ得分結果,基于CRN 的單通道語聲增強算法性能總體上優(yōu)于基于LSTM 的單通道語聲增強算法。這是因為CRN 可以同時利用卷積網絡的特征提取能力和LSTM 網絡的時序建模能力,更有利于從帶噪語聲中提取出干凈語聲。同時也說明,CRN 具有更強大的建模能力,能夠處理取值動態(tài)范圍更大的代價函數(shù)。因此,在基于CRN 的語聲增強算法中,WE代價函數(shù)以更小的p值達到最優(yōu)性能?;贔CN 和CRN 的語聲增強算法結果表明,當p取合適的負值時,WE 代價函數(shù)對不同網絡架構具有良好的泛化性能,優(yōu)于常用的MSE代價函數(shù)。

      表9 基于WE 代價函數(shù)的CRN 單通道語聲增強算法在未見噪聲場景下的平均PESQ 得分Table 9 Average PESQ results of singlechannel speech enhancement based on CRN with WE cost function under unseen noise types

      4 結論

      本文將兩類與人耳聽覺相關的代價函數(shù)引入到了基于深度學習的單通道語聲增強算法中,以改善處理后的語聲質量和可懂度。以LSTM 網絡為例,對這些代價函數(shù)的性能進行了評估和對比。仿真實驗結果表明,p=-0.5 時的WE 代價函數(shù)能夠降低噪聲殘留,同時語聲失真較小,在不同測試場景均取得了最優(yōu)性能。測試不同網絡架構的實驗結果表明,在基于FCN 和CRN 的單通道語聲增強算法中,當WE 代價函數(shù)的參數(shù)p取合適的負值,即適當?shù)丶哟髮δ芰枯^小語聲段估計誤差的懲罰力度有利于整體語聲段噪聲的去除和語聲質量的恢復,表明WE 代價函數(shù)對不同的網絡結構具有較好的泛化性能。上述實驗證明,針對基于深度學習的單通道語聲增強算法,在網絡訓練過程中根據(jù)人耳聽覺特性優(yōu)化代價函數(shù)可以提高增強后語聲質量,降低噪聲殘留。

      猜你喜歡
      單通道代價噪聲
      基于聯(lián)合聚類分析的單通道腹部心電信號的胎心率提取
      噪聲可退化且依賴于狀態(tài)和分布的平均場博弈
      愛的代價
      海峽姐妹(2017年12期)2018-01-31 02:12:22
      控制噪聲有妙法
      代價
      基于擴頻碼周期性的單通道直擴通信半盲分離抗干擾算法
      成熟的代價
      中學生(2015年12期)2015-03-01 03:43:53
      采用6.25mm×6.25mm×1.8mm LGA封裝的雙通道2.5A、單通道5A超薄微型模塊穩(wěn)壓器
      一種基于白噪聲響應的隨機載荷譜識別方法
      車內噪聲傳遞率建模及計算
      含山县| 冀州市| 万年县| 锦屏县| 南川市| 灵丘县| 云霄县| 驻马店市| 舞阳县| 九龙坡区| 商洛市| 永吉县| 长宁县| 班戈县| 台东县| 宜州市| 华容县| 平顶山市| 定陶县| 威海市| 邹平县| 汶上县| 陈巴尔虎旗| 北安市| 连山| 江孜县| 佛冈县| 诸暨市| 新晃| 新昌县| 周至县| 肇庆市| 孝义市| 蓬安县| 遂昌县| 桑日县| 蒙阴县| 平泉县| 天峨县| 浦县| 塘沽区|