全海燕,王 濤,鄭志清
(昆明理工大學(xué) 信息工程與自動化學(xué)院,云南 昆明 650500)
混響是一種常見的自然現(xiàn)象,適度混響能使聲音更加飽滿立體,但過度混響則有損聲音質(zhì)量,降低可懂度?;祉懯怯陕曉凑Z音與房間沖激響應(yīng)(room impulse response, RIR)在時域上卷積產(chǎn)生的,因此,其在時、頻域上都存在較高的相關(guān)性,這種高相關(guān)性在很大程度上制約了現(xiàn)有去混響方法的性能。
深度學(xué)習(xí)為語音去混響指出了新的研究方向。目前,基于深度學(xué)習(xí)的去混響方法主要使用頻譜映射和時頻(time-frequency, T-F)掩蔽兩種原理。Han等通過構(gòu)建多隱藏層的神經(jīng)網(wǎng)絡(luò)將混響語音幅度譜與聲源語音幅度譜相映射,能有效抑制混響干擾,但這種映射方式受淺層網(wǎng)絡(luò)結(jié)構(gòu)和損失函數(shù)的影響很難獲得更精確的聲源語音幅度譜。Williamson、Wang等通過T-F掩蔽的方式,利用深度神經(jīng)網(wǎng)絡(luò)(deep neural networks, DNN)訓(xùn)練混響語音幅度譜實、虛部的復(fù)數(shù)理想比值掩碼,再與混響語音頻譜相乘來獲得聲源語音,能提升去混響語音的可懂度,但對于相關(guān)性較高的部分仍無法有效抑制混響。Wang等利用DNN對多麥克風(fēng)復(fù)合頻譜進行映射,會比使用單個通道有明顯的改進,但這種方式在實際應(yīng)用場景中耗費較多硬件資源。由于DNN特征提取能力有限,Ernst等利用全卷積神經(jīng)網(wǎng)絡(luò)(fully convolutional network, FCN)來對混響語音頻譜進行特征提取,學(xué)習(xí)到更多聲源語音特征,有助于頻譜的重構(gòu),然而卷積網(wǎng)絡(luò)也沒有去相關(guān)的能力。此外,Zhao、Wang等將圖形處理中重要的注意力機制應(yīng)用于去混響處理,在訓(xùn)練過程中能對頻帶信息間的相關(guān)性進行建模,提升模型對聲源語音幅度譜的映射能力,該方法雖考慮到相關(guān)性的問題,但其可解釋性較差。Wu等通過優(yōu)化語音幀中的幀移位大小和DNN輸入的聲學(xué)上下文窗口大小來獲得較好的去混響效果,該方法對于未知混響時間有較好的適用性,但也沒有從數(shù)據(jù)角度上去解決相關(guān)性問題。劉斌等采用的聯(lián)合長短時記憶遞歸神經(jīng)網(wǎng)絡(luò)對混響語音的對數(shù)功率譜進行映射,雖能學(xué)習(xí)上下文的關(guān)聯(lián),但仍然是對網(wǎng)絡(luò)模型進行改變。因此,對于降低數(shù)據(jù)本身層面的相關(guān)性研究還較少,這也是制約后續(xù)神經(jīng)網(wǎng)絡(luò)特征提取性能提升的重要因素。
基于上述問題,本文提出了一種加性頻域分解模型的生成對抗網(wǎng)絡(luò)(GAN) 語音去混響算法。首先,以預(yù)先降低混響語音數(shù)據(jù)本身的相關(guān)性為目的,在數(shù)據(jù)處理階段引入對數(shù)運算,將聲源語音與RIR在頻域中的乘性關(guān)系轉(zhuǎn)換為加性關(guān)系,從而實現(xiàn)加性分解;然后,采用GAN對混響中的高維特征分布進行學(xué)習(xí),使GAN輸出RIR的對數(shù)幅度譜估計,再通過簡單的減法運算,可有效提高去混響語音的整體質(zhì)量。
聲音經(jīng)天花板、墻壁等反射吸收,其幅度和相位產(chǎn)生變化,最后直達聲音與反射聲音疊加形成混響,其生成過程為:
s
(t
)為聲源語音,h
(t
)為RIR,n
(t
)為加性噪聲,y
(t
)為混響語音,t
為總采樣時間,τ為卷積過程中中間時刻,“*”表示線性卷積,T
為RIR的長度。由于主要研究混響問題,因此忽略加性噪聲的影響,式(1)可簡化為:
h
(t
)主要受混響時間(reverberation time, RT)影響,RT表示聲源停止發(fā)聲后,聲壓衰減60 dB所需要的時間,一般在200~1 000 ms內(nèi)。后文出現(xiàn)的混響時間均為RT,RT與房間墻面衰減系數(shù)和房間大小等因素有關(guān),其數(shù)學(xué)公式為:A
為 總吸聲量,其中,S
為各墻面面積,α為各墻面吸聲系數(shù);V
為房間體積;“·”為乘法運算。圖1為采用鏡像源模型(image-source model,ISM)模擬得到的RIR示意圖。
圖1 房間沖激響應(yīng)樣例Fig. 1 Example of RIR
圖1展示了鏡面反射原理模擬聲音在房間內(nèi)的反射軌跡和能量衰減過程。圖1中,幅值為1處為直達路徑響應(yīng),其余各處幅值因能量衰減而逐漸減小。
基于T-F掩蔽的語音去混響方法通過混響語音的幅度譜值乘以掩蔽估計值來得到去混響語音幅度譜。采用短時傅里葉變換(short-time Fourier transform, STFT)將式(2)轉(zhuǎn)換到頻域上為:
H
(t
,f
)≠0。進一步變換式(4)可得:Y
(t
,f
)、S
(t
,f
)、G
(t
,f
)分別為混響語音短時幅度譜、聲源語音短時幅度譜和RIR短時幅度譜倒數(shù)(或稱為RIR增益),t
、f
分別為幀數(shù)和頻點。 在T-F掩蔽中,掩蔽估計值與混響語音幅度譜相乘正好符合式(5)在頻域下的去混響原理。因此,在混響處理過程中計算掩蔽估計值就等同于計算RIR增益,物理意義相當(dāng)于獲得一個RIR逆濾波器,從而實現(xiàn)去相關(guān),但受算法限制,并不能精確獲得RIR增益。受加性噪聲啟發(fā),對式(4)做對數(shù)運算,從而進行加性分解,變換如下:進一步變換式(6)可得:
式中, 對等式兩邊各信號的短時幅度譜做對數(shù)運算,從而分別提取出各信號對應(yīng)的短時對數(shù)幅度譜。式(7)的物理意義是利用同態(tài)處理進行解相關(guān),將復(fù)雜的乘性關(guān)系轉(zhuǎn)換為加性關(guān)系,不僅能降低整個算法復(fù)雜度,更能直接提供弱相關(guān)性的數(shù)據(jù)便于后續(xù)網(wǎng)絡(luò)進行特征提取。
加性頻域分解下的去混響框架如圖2所示。圖2中,主要包含數(shù)據(jù)預(yù)處理、GAN訓(xùn)練、語音重構(gòu)3部分。其中:在取對數(shù)操作后,采用sigmoid函數(shù)將短時對數(shù)幅度譜數(shù)據(jù)歸一化到[0,1],此操作能進一步消除奇異值對整體數(shù)據(jù)的影響。在取指數(shù)前,需先采用sigmoid反函數(shù)對輸出數(shù)據(jù)逆處理,然后結(jié)合混響語音相位譜進行短時傅里葉逆變換(inverse short-time Fourier transform, ISTFT),得到去混響語音。
圖2 加性頻域分解下的去混響原理框圖Fig. 2 Block diagram of dereverberation under additive frequency domain decomposition
本文采用FCN來構(gòu)建GAN中的生成模型(G)和判別模型(D)的網(wǎng)絡(luò)結(jié)構(gòu),整體系統(tǒng)模型如圖3所示。
圖3 深度全卷積生成對抗網(wǎng)絡(luò)語音去混響結(jié)構(gòu)圖Fig. 3 Structure diagram of speech dereverberation based on deep full convolutional GAN
圖3中,G網(wǎng)絡(luò)由卷積和反卷積兩部分構(gòu)成。卷積階段采用多個卷積層逐層提取混響語音對數(shù)幅度譜的高維特征;反卷積階段則利用多個反卷積層對高維特征進行恢復(fù)。但網(wǎng)絡(luò)引入了跳躍連接結(jié)構(gòu),因此,每層輸入不僅來源于上層輸出,還包含卷積階段對應(yīng)的各層輸出,該結(jié)構(gòu)能提供更多的細節(jié)信息。每層輸出前均采用帶泄漏修正線性單元(leakyReLU)作為激活函數(shù),最后一層輸出采用Tanh激活函數(shù),將估計值映射到[-1,1]。其G網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示。
圖4 生成模型(G)結(jié)構(gòu)圖Fig. 4 Architecture of G
D為一個二分類網(wǎng)絡(luò),與G的卷積階段類似,差異在于其最后一層采用全連接層,并使用sigmoid作為輸出層激活函數(shù)。此外,為提升整個系統(tǒng)訓(xùn)練的穩(wěn)定性,在輸入前添加了一些噪聲z
來提高D的訓(xùn)練難度,有利于克服D學(xué)習(xí)能力太強而抑制G學(xué)習(xí)的矛盾。S
(t
,f
),=lgY
(t
,f
),得:P
為數(shù)據(jù)分布,E為在P
下誤差的期望,G
(·)和D
(·) 分 別為G網(wǎng)絡(luò)和D網(wǎng)絡(luò)的函數(shù),z
為服從正態(tài)分布N(0,1)的隨機噪聲矩陣。此外,由于GAN訓(xùn)練難度高,極難訓(xùn)練出穩(wěn)定模型,所以,在損失函數(shù)V
(G
)中引入L1正則項來防止過擬合并加快網(wǎng)絡(luò)收斂,由超參數(shù)λ控制,計算生成數(shù)據(jù)與目標數(shù)據(jù)差的絕對值。Ernst等也驗證了添加L1正則項的有效性。則式(9)修改為:加性頻域分解下的去混響算法中主要包含前期的加性分解和后期的網(wǎng)絡(luò)訓(xùn)練兩部分。具體偽代碼為:
算 法
加性頻域分解下的去混響算法輸入:混響語音y
(t
)、 聲源語音s
(t
)、 最大迭代次數(shù)N
;輸出:去混響語音s
?(t
);1. 計算混響語音短時幅度譜和相位譜:(Y
(t
,f
),φ
(t
,f
))←STFT(y
(t
));2. 計算聲源語音短時幅度譜:S
(t
,f
)←STFT(s
(t
));3. 根據(jù)式(6)進行加性分解:←lg(Y
(t
,f
));←lg(S
(t
,f
));4. for epoch=1 toN
do5.根據(jù)式(7)轉(zhuǎn)換得:←-G
();6.根據(jù)式(8)更新D的網(wǎng)絡(luò)參數(shù):
7.根據(jù)式(10)更新G的網(wǎng)絡(luò)參數(shù):
8. end for
9.(t
,f
)←10;10. 重構(gòu)去混響語音:s
?(t
)←ISTFT(~S
(t
,f
),φ
(t
,f
))。算法中,?和 ?分別為對G和D的網(wǎng)絡(luò)參數(shù)θ和θ進行梯度更新,STFT和ISTFT對應(yīng)短時傅里葉變換函數(shù)及其逆變換函數(shù),、分別為混響語音和聲源語音的對數(shù)幅度譜,φ
為混響語音的相位譜,為去混響語音幅度譜。實際訓(xùn)練時,步驟6、7交叉訓(xùn)練,即更新D參數(shù)時,固定G參數(shù)不變;更新G參數(shù)時,固定D參數(shù)不變。本文采用Aishell中文語音數(shù)據(jù)集進行仿真實驗。該數(shù)據(jù)集總時長178 h,共400個說話人,每人大約講350句話。首先選取500句語音作為訓(xùn)練數(shù)據(jù),由數(shù)據(jù)集中隨機選取10人(男女各半),每人各50句話構(gòu)成。同時為驗證本文方法的泛化能力,構(gòu)建兩類測試語音:一類是從訓(xùn)練語音的10人中每人分別提取10句話(與訓(xùn)練語音不重疊)構(gòu)成100句同源測試語音;另一類是從數(shù)據(jù)集中重新選取10位說話人,每人10句話構(gòu)成100句非同源測試語音。然后分別與200、400、600、800 ms混響時間下的RIR卷積獲得訓(xùn)練和測試數(shù)據(jù)集(包括同源測試集和非同源測試集)。
選取3種語音評價指標:1)語音質(zhì)量感知評估(perceptual evaluation of speech quality, PESQ),指計算語音的感知質(zhì)量,其值越大越好;2)短時客觀可懂度(short-time objective intelligibility, STOI),指計算語音的可懂度,其值在[0,1]之間,越大則表示可懂度越高;3)對數(shù)譜距離(log-spectral distance,LSD),指計算語音的頻譜差距,其值越小譜失真越小,頻譜質(zhì)量就越高。
訓(xùn)練前,對訓(xùn)練集和測試集采用8 kHz下采樣,降低網(wǎng)絡(luò)復(fù)雜度和計算量。分幀時,采用Hamming窗,幀長為32 ms,幀移為8 ms,并對每幀信號進行256點的STFT;再取以10為底的對數(shù)獲得短時對數(shù)幅度譜;最后采用sigmoid函數(shù)將數(shù)據(jù)映射到[0,1]。語譜圖分割時,每32幀為一個輸入,則輸入尺寸為129×32,各輸入之間重疊22幀。
表1為采用ISM模型獲得不同RT下RIR的房間參數(shù)設(shè)置,根據(jù)式(3)計算出對應(yīng)的RT為200、400、600、800 ms。GAN中G的網(wǎng)絡(luò)參數(shù)設(shè)置如表2所示,D同G的卷積階段網(wǎng)絡(luò)設(shè)置類似。
表1 不同RT下的房間參數(shù)設(shè)置
Tab. 1 Setting of room parameters under different RT
RT60/ms 房間尺寸/(m×m×m)墻面吸聲系數(shù)(前后左右下上)200(1.62×2.22×2.00)(0.5,1.2,1.5)(1.0,1.5,1.5)[0.19 0.19 0.19 0.19 0.45 0.35]聲源坐標/(m,m,m)麥克風(fēng)坐標/(m,m,m)400(3.73×5.79×3.40)(1.0,2.2,1.5)(2.0,4.5,2.0)600(6.11×7.24×5.20)(2.8,3.5,1.5)(4.2,6.5,2.5)800(7.72×8.10×7.60)(3.0,4.0,1.5)(5.0,7.0,2.5)
表2 G中各網(wǎng)絡(luò)參數(shù)設(shè)置
Tab. 2 Setting of network parameters in G
(反)卷積層 卷積核數(shù)量 卷積核大小 步長 特征圖大小卷積層_1 32 2×1 (1,1) 128×32卷積層_2 64 3×3 (2,2) 64×16卷積層_3 128 3×3 (2,2) 32×8卷積層_4 256 3×3 (2,2) 16×4反卷積層_5 256 3×3 (2,2) 16×4反卷積層_6 128 3×3 (2,2) 32×8反卷積層_7 64 3×3 (2,2) 64×16反卷積層_8 32 3×3 (2,2) 128×32反卷積層_9 1 2×1 (1,1) 129×32
訓(xùn)練時,采用RMSprop優(yōu)化算法,訓(xùn)練批次設(shè)置為50,批處理大小為32,G的學(xué)習(xí)速率為0.001,D的學(xué)習(xí)速率為0.000 1。此外,為使得L1正則項與G的損失函數(shù)在同一個數(shù)量級上,將式(10)中超參數(shù)λ設(shè)置為500,這是經(jīng)多次實驗后確定的最優(yōu)取值。若λ太小,網(wǎng)絡(luò)仍容易發(fā)生過擬合;若λ太大,損失值集中在L1上,忽略D對G的反饋作用。
在對比實驗中,選取基于DNN的乘性頻域分解去混響方法、基于FCN的乘性頻域分解去混響方法,同時再構(gòu)建基于GAN的乘性頻域分解去混響方法。DNN方法中,將每7幀的頻譜作為一個網(wǎng)絡(luò)輸入,幀間重疊4幀,輸入層和輸出層都為903(即129×7)個節(jié)點,3個隱藏層都具有1 024個節(jié)點,輸出層采用Tanh激活函數(shù),其余各層采用ReLU激活函數(shù),其他參數(shù)同本文方法設(shè)置一致。FCN方法中,網(wǎng)絡(luò)結(jié)構(gòu)和參數(shù)設(shè)置同本文GAN方法中的G網(wǎng)絡(luò)相同。 GAN方法也與本文方法網(wǎng)絡(luò)結(jié)構(gòu)和參數(shù)設(shè)置相同。用于乘性頻域分解下方法訓(xùn)練的數(shù)據(jù)是未取對數(shù)前的短時幅度譜數(shù)據(jù)。此外,為進一步驗證加性頻域分解算法的優(yōu)勢,額外構(gòu)建在加性頻域分解下的DNN和FCN的去混響對比方法,其網(wǎng)絡(luò)結(jié)構(gòu)和參數(shù)與乘性頻域下的方法設(shè)置一致。
表3給出同源測試集在RT為200、400、600、800 ms下6種方法的去混響評價指標得分情況。
表3 同源測試集的 PESQ、STOI、LSD評價得分
Tab. 3 Objective PESQ, STOI, LSD scores of homologous test sets
RT60/ms同源測試集的PESQ評價得分 同源測試集的STOI評價得分 同源測試集的LSD評價得分乘性頻域分解 加性頻域分解 本文方法乘性頻域分解 加性頻域分解 本文方法DNN FCN GAN DNN FCN DNN FCN GAN DNN FCN DNN FCN GAN DNN FCN乘性頻域分解 加性頻域分解 本文方法2002.592.832.85 2.86 3.073.17 0.860.870.87 0.90 0.920.93 0.940.860.85 0.79 0.750.75 4002.322.502.54 2.54 2.792.83 0.810.820.83 0.85 0.890.90 0.990.900.88 0.87 0.820.81 6002.132.332.34 2.33 2.612.63 0.760.790.79 0.80 0.870.88 1.050.940.94 0.93 0.870.87 8002.032.172.18 2.13 2.372.40 0.680.720.71 0.72 0.790.80 1.141.051.05 1.05 1.000.99
由表3可見:隨著RT增大, 6種方法下的評價得分都逐漸降低,但加性頻域下的DNN和FCN方法和本文方法的各評價得分均優(yōu)于乘性頻域下各方法的得分,其中,PESQ和STOI分值提升都在10%左右,LSD分值也下降了約10%。原因在于:乘性頻域分解類似于T-F掩蔽,而混響語音在時頻上相關(guān)性較強,因此網(wǎng)絡(luò)對特征的提取受限;而經(jīng)加性分解后的頻譜數(shù)據(jù)相關(guān)性降低,因此得到的RIR對數(shù)幅度譜估計與混響語音數(shù)據(jù)之間的獨立性更強。進一步觀察DNN、FCN和GAN方法下的去混響評價得分可知:無論在乘性頻域還是加性頻域下,DNN的去混響性能要明顯差于FCN和GAN兩種方法。這是由于DNN的特征提取能力較弱,只能感知全局特征,且參數(shù)龐大;而采用卷積方式的FCN和GAN能更好地學(xué)習(xí)較小的局部特征,訓(xùn)練參數(shù)也更少。此外,F(xiàn)CN和GAN的評價得分差距主要體現(xiàn)在PESQ得分上,STOI和LSD得分無明顯差距,說明GAN能進一步提升語音的整體感知質(zhì)量,這主要是因為GAN的對抗學(xué)習(xí)能學(xué)習(xí)數(shù)據(jù)分布多樣性,而不再直接依賴損失函數(shù)。以損失函數(shù)值為目標的模型,只能以輸出值與目標值的數(shù)學(xué)距離作為誤差來源;而GAN是計算輸出值與目標值的樣本分布差異,因此,不再局限于數(shù)學(xué)距離。上述分析可知,本文方法相較于對比方法有更優(yōu)的去混響能力,能進一步提升去混響語音的整體質(zhì)量。
為進一步驗證本文方法在不同說話人的混響語音上的泛化能力,表4給出了非同源測試集在加性頻域分解下的DNN、FCN方法和本文方法的PESQ、STOI和LSD評價指標得分情況。通過表4可以清晰看出,3種方法的在PESQ、STOI和LSD評價指標得分從高到低依次為本文方法評價指標得分、加性頻域分解下的FCN方法評價指標得分、加性頻域分解下的DNN方法評價指標得分,這與同源測試集中得分具有相同的變化趨勢。通過表4對比表3中加性頻域分解及本文方法的評分結(jié)果可知,雖然非同源測試集3種方法下的整體得分低于同源測試集下的得分,但從分值來看仍表現(xiàn)出較好的去混響效果。
表4 非同源測試集的 PESQ、STOI、LSD評價得分
Tab. 4 Objective PESQ, STOI, LSD scores of non-homologous test sets
RT60/ms非同源測試集的PESQ評價得分 非同源測試集的STOI評價得分 非同源測試集的LSD評價得分加性頻域分解 本文方法 加性頻域分解 本文方法 加性頻域分解 本文方法DNN FCN DNN FCN DNN FCN 200 2.38 2.56 2.63 0.87 0.91 0.92 0.81 0.77 0.77 400 2.10 2.34 2.41 0.82 0.87 0.89 0.92 0.85 0.84 600 1.94 2.22 2.24 0.78 0.85 0.86 0.97 0.91 0.90 800 1.80 2.05 2.07 0.77 0.81 0.81 1.07 1.00 0.99
圖5展示了本文方法在 PESQ、STOI、LSD 3種評價指標下同源測試集與非同源測試集的得分差值曲線。
圖5 同源測試集與非同源測試集的得分差Fig. 5 Score difference between homologous and non-homologous test sets
由圖5可知:PESQ得分差值曲線變化明顯,說明非同源測試集在感知質(zhì)量上的恢復(fù)要弱于同源測試集,這主要因為神經(jīng)網(wǎng)絡(luò)在訓(xùn)練時額外學(xué)習(xí)了說話人的個性特征,導(dǎo)致訓(xùn)練好的網(wǎng)絡(luò)對同源說話人的語音更加敏感,得分較高。而STOI和LSD得分差值曲線變化平緩,說明對于非同源測試集,本文方法對混響語音的可懂度和頻譜質(zhì)量也具有很好的提升。
為從頻譜細節(jié)中更直觀地觀察去混響語音質(zhì)量,圖6展示了RT為600 ms的一句混響語音經(jīng)5種對比方法和本文方法去混響后的語譜圖。由圖6可知:所有方法在低頻部分對混響干擾都有較好的抑制作用(如左下方矩形框部分),而在高頻部分中就存在明顯差距。圖6(d)、(f)、(h)中,這3種方法對小矩形框中高頻部分恢復(fù)更好,尤其是本文方法對高頻部分混響干擾的抑制更顯著,使得細節(jié)信息恢復(fù)更好,框中的聲紋恢復(fù)更加平滑清晰,更接近于聲源頻譜。
圖6 5種對比方法和本文方法下的測試語音語譜圖Fig. 6 Test speech spectrograms of five comparison methods and proposed method
為驗證本文算法的實際去混響性能,從真實環(huán)境下錄制一段混響語音進行測試,聲源語音由一名男性發(fā)聲,在空間大小為2.0 m×1.4 m×3.0 m的房間內(nèi)錄制。圖7分別為實測混響語音與使用4種RT(RT為200、400、600、800 ms)下已訓(xùn)練好的本文方法去混響模型的測試語音的語譜圖。4種RT都進行測試是由于無法知道實測環(huán)境的混響時間。
由圖7可見:本文方法在低頻成份上能較好地抑制混響干擾(圖7(b)~(e)的左下方矩形框);本文方法在RT= 600 ms下對語音高頻成分(小矩形框部分)有一定恢復(fù)作用,在RT= 800 ms下對語音高頻成分(小矩形框部分)恢復(fù)作用較明顯。但受實際環(huán)境和噪聲等因素干擾,本文方法獲得的去混響語音在自然度上存在部分失真。
圖7 4種RT60下的本文方法去混響測試語音語譜圖Fig. 7 Speech spectrograms of proposed method dereverberation test under four RT60
傳統(tǒng)的基于深度學(xué)習(xí)的語音去混響方法一般是在乘性頻域下來實現(xiàn)的,但是這種方式下的神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的特征數(shù)據(jù)仍存在較強相關(guān)性。為從數(shù)據(jù)本身上降低相關(guān)性,本文提出了一種基于加性頻域分解的生成對抗網(wǎng)絡(luò)語音去混響算法,通過非線性對數(shù)運算,將混響語音的頻譜相乘調(diào)制轉(zhuǎn)換為頻譜相加調(diào)制,進而使數(shù)據(jù)中包含的特征獨立性更強,更有利于GAN對混響特征數(shù)據(jù)進行抑制。本文算法是根據(jù)混響語音的產(chǎn)生機制,通過簡單的數(shù)學(xué)變化來實現(xiàn)混響語音的解相關(guān),且各變量都有對應(yīng)物理含義,避免了設(shè)計更加復(fù)雜的神經(jīng)網(wǎng)絡(luò)去從高相關(guān)性數(shù)據(jù)中提取特征。實驗結(jié)果也表明本文方法可以更好地抑制混響干擾,在不同混響時間下得到的去混響語音質(zhì)量都有進一步提高,且在實測語音上也有一定的去混響效果。但因?qū)?shù)的飽和效應(yīng),高頻部分仍存在結(jié)構(gòu)信息損失,說明加性頻域分解對于高頻成分仍有不足,這也是下一步需要重點研究的問題。