• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      DNN與譜減法相結合的語音分離技術

      2018-02-12 12:24:56馮利琪江華閆格閔長偉李玲香
      軟件導刊 2018年12期
      關鍵詞:神經(jīng)網(wǎng)絡

      馮利琪 江華 閆格 閔長偉 李玲香

      摘要:針對傳統(tǒng)DNN語音分離中噪聲干擾的問題,提出了一種在DNN語音分離后期處理中結合DNN和譜減法的語音分離方法。首先提取語音聲級特征,通過DNN學習帶噪特征到分離目標語音的映射,得到分離目標語音;然后對分離目標語音中每一時頻單元進行噪聲能量估計;最后,通過快速傅里葉逆變換得到譜減后的分離語音波形信號。通過對不同類型的噪聲和不同輸入信噪比混合后的語音信號進行試驗,結果表明,加入譜減法后分離的語音信號與只經(jīng)DNN網(wǎng)絡輸出的語音信號相比,前者分離的語音可懂度和信噪比得到了顯著提高,并且分離語音的信號更接近于純凈語音的信號。

      關鍵詞:語音分離;神經(jīng)網(wǎng)絡;譜減法;目標語音;噪聲能量估計

      Speech Separation Combined with DNN and Spectral Subtraction

      FENG Li?qi?JIANG Hua?YAN Ge?MIN Chang?wei?LI Ling?xiang

      (1.Key Laboratory of Granular Computing and Application,Minnan Normal University;

      2.School of Computer Science, Minnan Normal University, Zhangzhou 363000,China;

      3.School of Electronics and Information Engineering,Hunan University of Science and Engineering,Yongzhou 425199,China)

      Abstract:In view of the problem of noise interference in traditional DNN speech separation, a speech separation method based on DNN and spectral subtraction was proposed in the post processing of DNN speech separation. Firstly, the features of speech were extracted and the DNN was used to learn the mapping of the noisy features to the separated target speech. Then the noise energy is estimated for each time frequency unit in the separated target speech. Finally, the speech waveform was obtained by the inverse fast fourier transform. By testing the speech signal mixed by different types of noise and different input SNR, the experimental results show that compared with the speech signal output only by the DNN network, the speech signal separated after adding spectral subtraction is significantly improved in the speech intelligibility and signal to noise ratio of the proposed algorithm. The similarities between the separated speech signal and the original clean speech signal has also been greatly improved.

      Key Words:speech separation; neural networks; spectral subtraction; target speech; noise energy estimation

      0?引言

      近年來,深度學習被廣泛應用于語音信號處理領域。語音分離問題起源于“雞尾酒會效應”[1],即從復雜的混合聲音中分離所需語音。語音分離的目的主要是從被干擾的語音信號中分離出有用信號,該過程實質(zhì)上相當于一個監(jiān)督性學習問題。隨著互聯(lián)網(wǎng)技術飛速發(fā)展,電子設備處理語音的能力不斷提高,使語音分離在眾多領域發(fā)揮重要作用,如自動語音識別、助聽器、移動語音通信等[2]。

      單聲道語音分離在語音信號處理領域已被廣泛研究。隨著深度學習的出現(xiàn),許多深層模型被廣泛應用于語音和圖像處理[3?5]。其中深度神經(jīng)網(wǎng)絡(Deep Neural Networks,DNN)在語音分離領域發(fā)揮著強大作用[6?9]。Wang等[2]用DNN對多種語音分離目標進行了對比分析,并且提出了更具魯棒性的理想比例掩蔽目標。在文獻[10]中,劉文舉等主要對語音分離中用到的特征、模型和分離目標作出詳細介紹、歸納與總結。Wang等[11]提出了深度神經(jīng)網(wǎng)絡-支持向量機(Deep Neural Networks-Suppore Vector Machines,DNN-SVM)系統(tǒng),實現(xiàn)了較好的泛化性能。文獻[12]提出了一種新穎的基于時頻掩蔽的語音分離深層疊加方法,提高了掩模估計的準確性。

      Boll[13]在1979年提出了譜減法(Spectral Subtraction,SS),作為一種發(fā)展較早且應用成熟的語音去噪方法,譜減法常用于語音增強。此外,維納濾波法[14?15]、自適應濾波器法[16?17]、均方誤差估計方法[18]、非負矩陣分解(Non-negative Matrix Factorization,NMF)[19]也被廣泛應用于語音處理領域。語音被維納濾波法分離后得到的目標語音殘留噪聲類似于白噪聲,能在一定程度上降低音樂噪聲對目標語音的干擾,但是當線性濾波器平滑因子較大時,算法時間復雜度較高。自適應濾波算法在維納濾波的基礎上對濾波器進行自適應處理,能根據(jù)外界環(huán)境自動調(diào)整濾波器參數(shù)值,但是語音分離能力有限。非負矩陣分解能夠挖掘出語音或噪聲的線性表示,但很難挖掘語音數(shù)據(jù)中復雜的非線性結構。因此,出現(xiàn)了許多與深度神經(jīng)網(wǎng)絡相結合的語音分離方法[20?22]。其中,文獻[20]提出了一種將DNN和約束維納濾波聯(lián)合訓練優(yōu)化的新型網(wǎng)絡結構,該方法能有效去除噪聲。文獻[21]提出了基于DNN的最小均方誤差回歸擬合語音增強方法,提升了語音質(zhì)量。文獻[22]中提出用NMF利用語音和噪聲的時空結構特點,在DNN輸出層額外增加了NMF層,該模型能顯著提高語音分離性能。

      DNN雖有很好的魯棒性,但是其分離后的語音仍存在噪聲干擾以及噪聲估計不準確的問題,影響語音信號質(zhì)量,而在譜減法中,可以通過檢測每一幀信號是否為有話幀進行去噪處理,且譜減法具有算法簡單、時間復雜度低等優(yōu)點。因此,本文用譜減法對DNN分離的語音作后期處理,提出一種改進的基于DNN和譜減法(Spectral Subtraction,SS)相結合的語音分離算法,簡稱為DNN-SS。首先,提取語音信號聲學特征;然后將其作為神經(jīng)網(wǎng)絡輸入,由訓練的神經(jīng)網(wǎng)絡輸出估計語音目標,再對相應語音目標中每個時頻單元進行噪聲能量估計,取每一幀判斷該幀是否是有話幀,若該幀為無話幀,則平滑更新噪聲譜值、求取噪聲最大殘留值,若為有話幀,則消噪,減少噪聲殘留值;最后再通過頻譜幅值和相位角合成最終語音。

      1?基于DNN的語音分離方法

      通常一個監(jiān)督性語音分離系統(tǒng)包括5個主要模塊:時頻分解、特征提取、分離目標、模型訓練、波形合成。在訓練之前,首先把純凈的語音和非平穩(wěn)的噪聲按照一定輸入信噪比(Signal-to-Noise, SNR)進行預混合,然后從混合語音信號中提取聲學特征和理想目標,將所得數(shù)據(jù)進行均值方差歸一化后,分別作為輸入和輸出饋送到DNN中,輸出估計的語音目標,最后利用估計的分離目標及混合語音信號,通過逆變換得到估計語音的波形信號。

      時頻掩蔽是語音分離最常用的分離目標,理想二值掩蔽(Ideal Binary Mask, IBM)和理想比例掩蔽[23](Ideal Ratio Mask, IRM)是常見的時頻掩蔽。IRM定義如下:

      其中,?S?2(t,f)和N?2(t,f)表示混合語音中T-F單元的語音和噪聲能量,η是一個可以調(diào)整的尺度因子。大量實驗證明,當η=0.5?時取得的效果最好。IBM與IRM的區(qū)別在于IRM是連續(xù)的,范圍在[0,1]內(nèi),因此本文選擇用IRM作為實驗訓練目標。

      2?改進的DNN語音分離方法

      改進的基于DNN和譜減法的語音分離方法系統(tǒng)結構如圖1所示。系統(tǒng)主要由時頻分解、特征提取、分離目標、模型訓練、譜減去噪、波形合成6部分組成。系統(tǒng)輸入為帶噪的混合語音,輸出為分離的目標語音。

      譜減法是語音去噪常用方法,基于人的感覺特性,即人的聽覺系統(tǒng)更容易受到語音信號幅度影響,譜減法一般是對語音短時幅度譜進行估計,因為加性噪聲和語音不相關的特點,通常適用于受加性噪聲干擾的語音,所以譜減法本質(zhì)上是輸入的混合語音信號頻譜幅度值減去估計的聲平均譜幅度值。

      2.1?訓練

      本實驗主要使用3個聲學特征[24?25],分別是幅度調(diào)制頻譜(Amplitude Modulation Spectrogram,AMS)、相對頻譜變換-感知線性預測系數(shù)(Relative Spectral Transform and Perceptual Linear Prediction,RASTA-PLP)、梅爾頻譜倒頻譜系數(shù)(Melfrequency Cepstral Coefficients,MFCC)。以上特征分別從每一幀信號中提取,將這些幀級別的特征組合形成特征集合。

      本文設置的網(wǎng)絡結構包含1個輸入層,4個隱含層,1個輸出層,隱含層每層有1 024個單元,Sigmoid函數(shù)作為激活函數(shù),從圖(2)可見,Sigmoid函數(shù)具有連續(xù)、光滑的性質(zhì),其公式定義如式(2)。

      另外,DNN系統(tǒng)經(jīng)隨機梯度下降和交叉熵準則訓練,初始學習率設為0.01,系統(tǒng)最大訓練次數(shù)設為20。

      2.2?譜減法去噪

      在混合語音經(jīng)過DNN分離之后,再用譜減法對其進一步分離。設DNN分離后的語音信號序列為?x(n),加窗分幀處理后得到第i幀語音信號為x?i(m),幀長為L。將每幀信號x?i(m)進行離散傅里葉變換,其公式如下:

      其幅值是?|X?i(k)|?,相角公式如下:

      在一段聲音中,設前導無話段(噪聲段)時長為?IS,其對應幀數(shù)為NIS,NIS?計算公式為:

      其中,f表示頻率,L表示幀長,inc表示幀移,該噪聲段平均譜值為:

      式中,?γ=1、γ=2分別對應于譜幅值與功率譜做譜減法,本實驗γ?值為1。

      則譜減算法為:

      其中,?α和β是兩個常數(shù),分別表示過減因子和增益補償因子。因為都與噪聲性質(zhì)有關,所以經(jīng)過多次試驗,本實驗中α和β參數(shù)分別為α=1,β=0.09。

      求出每一幀譜值后,在相鄰幀之間計算平均譜值。

      其中,i表示第i幀,M是一個常數(shù),計算相鄰幀之間的平均值,以求得較小的譜估算方差。在實驗中M=1,即在3幀之間計算平均值。

      在經(jīng)譜減法減噪后合成的語音中,由于噪聲殘留,會使語音中帶有“音樂噪聲”。由式(7)可見譜減法核心為:

      其中,?|X?i(k)|?γ表示某條譜線幅值,D(k)表示噪聲譜某條譜線平均值。

      由于噪聲特性不穩(wěn)定,有可能在某個時間段某條譜線譜值大于α×D(k),按式(9)相減后并沒有完全消除噪聲,而把其峰值保留下來。因此,為可能減少噪聲殘留,在減噪過程中保留噪聲最大值,再對每一條譜線作進一步判斷,檢驗C(k)是否小于最大殘留噪聲。如果小于最大殘留噪聲,在第i幀第j條譜線相鄰3幀之間找最小值的一條譜線。

      所得的幅值與相角作IFFT變換,得到譜減后的語音信號。因為人的聽覺系統(tǒng)對于語音信號相位不敏感,所以在對含噪語音信號進行譜減前,保留了原來語音信號的相角,將其直接用于譜減后的語音信號中。譜減法算法流程如圖3所示。

      3?實驗

      所有預混合信號需作以下處理:①預混合語音信號,以16KHz頻率進行重采樣;②按照20ms窗口和10ms幀移進行分幀加窗,即每個幀有320個采樣點。

      3.1?數(shù)據(jù)集介紹

      從IEEE Corpus[26]語音庫中選用720條語音,前600條語音作為訓練集,后120條語音作為測試集,訓練集與測試集沒有重疊部分。另外,從NOISEX-92[27]中選用4種噪聲作為實驗訓練和測試噪聲,這些噪聲都不平穩(wěn),分別是工廠車間噪聲(factory noise)、粉紅噪聲(pink noise)、驅(qū)逐艦機艙噪聲(destroyer engine room noise)。為了使訓練集與測試集沒有重合部分,本文將每個噪聲隨機分成兩部分,然后將第一部分與訓練語音進行混合產(chǎn)生訓練集,輸入信噪比分別為-5dB、-2dB、0dB、2dB、5dB,將第二部分噪聲與測試語音進行混合產(chǎn)生測試集。最后將所得訓練集與測試集數(shù)據(jù)作均值方差歸一化處理。

      3.2?評價方法

      為了評價分離語音的清晰度,選用客觀短時目標可懂度[28](Short-Time Objective?Intelligibility,STOI)。STOI指原始純凈語音與分離后語音的相關性,代表語音的可懂度,得分范圍在0~1,得分越高,表示分離語音效果越好,可懂度越高。信噪比(SNR)是常用的性能衡量標準之一。信噪比越大,表示分離后語音中噪聲越小,語音效果越好。

      除了STOI和SNR外,分離后的語音質(zhì)量可以由相似系數(shù)r評價。系數(shù)r度量分離的語音信號與原始純凈的語音信號之間的相似度,其定義公式為:

      其中,N表示時間幀數(shù),s(n)表示純凈的語音信號,(n)表示分離后的語音信號。當s(n)=(n)時,r=1,即r越接近于1,分離后語音信號與原始純凈語音信號越相近,算法性能越優(yōu)。

      3.3?實驗結果

      用MATLAB對本文算法進行實驗,實驗聲音文件均為wav格式。純凈語音和混合語音信號的語譜以及分離語音的語譜如圖4所示。

      圖4選用混入噪聲為Factory、SNR為5dB的一個語音。從圖中可以看出,經(jīng)DNN算法分離后的語譜圖上還有明顯的雜音,與圖4(a)純凈語音的語譜圖有較大差別,而DNN-SS算法分離后的語譜圖雜音明顯變少,而且與圖4(a)純凈語音的語譜圖較為相似。實驗表明,本文算法在分離性能上有較好的表現(xiàn),目標語音分離地更準確,分離語音失真更小。

      表1給出了3種噪聲干擾下的混合信號經(jīng)DNN分離和DNN-SS分離后的語音信號的STOI值,從表中可以看出,混入SNR為-5dB、-2dB、0dB時,DNN-SS算法的每個STOI值都明顯提高,而在混入SNR為2dB、5dB時,噪聲類型為驅(qū)逐艦機艙噪聲,DNN-SS算法STOI值略低于DNN算法的STOI結果,說明混入的噪聲類型對實驗結果有一定影響。而且在混入信噪比大于等于0dB時,分離語音的STOI值明顯比混入信噪比為負數(shù)時高很多,表明混入不同比例的信噪比對于STOI有一定影響,混入信噪比數(shù)越大,語音分離的可懂度越高,整體而言,本文DNN-SS算法能有效提高語音質(zhì)量可懂度,且混合語音質(zhì)量越差,DNN-SS算法越有優(yōu)勢。

      在不同測試環(huán)境下,信噪比性能趨勢相似。與DNN系統(tǒng)相比,DNN-SS算法表現(xiàn)更好。表2給出了輸入信噪比為-5dB、-2dB、0dB、2dB、5dB時對應的工廠車間噪聲、粉紅噪聲和驅(qū)逐艦機艙噪聲混合信號后SNR結果。由表2可見,混合不同噪聲后分離語音的SNR基本都得到了提高,表明對每一個時頻單元進行噪聲能量估計,可以有效去除噪聲干擾,提高分離語音信噪比。

      表3是加入工廠?車間噪聲、粉紅噪聲和驅(qū)逐艦機艙噪聲后的混合語音在原算法和改進算法下得到的相似系數(shù)r的對比。從表3可以看出在混入信噪較高時,分離語音與原始純凈語音相似系數(shù)值在逐漸變高。而在低信噪比的情況下,本文算法相似系數(shù)r的增益比較高,算法在低?信噪時取得的效果更好。由表3數(shù)據(jù)可知,不管混入何種SNR和噪聲類型,本文算法得到的相?似系數(shù)r?都高于原算法得到的相似系數(shù),證明了DNN-SS算法有效性。通過綜合分析表明,改進的DNN-SS算法優(yōu)于DNN算法。

      4?結語

      本文針對DNN語音分離方法的后期處理,提出了一種DNN與譜減法結合的語音分離方法。在不同測試條件下的試驗結果表明,與未加入譜減法的DNN語音分離方法相比,本文DNN-SS算法噪聲估計更加準確,能夠明顯提高分離語音的目標可懂度、信噪比和相似系數(shù),從而達到提高語音分離準確性的目的。實驗結果表明,譜減法在DNN中有效,尤其在信噪比低時,語音分離效果的提升更明顯。針對現(xiàn)有系統(tǒng)框架,在今后的研究中,將考慮如何在保證語音信號質(zhì)量的同時,提高分離速度及模型自適應能力。

      參考文獻:

      [1]?CHEN X, WANG W, WANG Y, et al. Reverberant speech separation with probabilistic time–frequency masking for B?format recordings[J]. Speech Communication, 2015,68(C):41?54.

      [2]?WANG Y, NARAYANAN A, WANG D L. On training targets for supervised speech separation[J]. IEEE/ACM Transactions on Audio Speech & Language Processing, 2014,22(12):1849?1858.

      [3]?ABDEL?HAMID O, MOHAMED A R, JIANG H, et al. Convolutional neural networks for speech recognition[J]. IEEE/ACM Transactions on Audio Speech & Language Processing, 2014,22(10):1533?1545.

      [4]?ZHANG X L, WANG D L. A deep ensemble learning method for monaural speechseparation[J]. IEEE/ACM Transactions on Audio Speech & Language Processing, 2016,24(5):967?977.

      [5]?ZHANG X, WANG D L. Deep learning based binaural speech separation in reverberant environments[J]. IEEE/ACM Transactions on Audio Speech & Language Processing, 2017,25(5):1075?1084.

      [6]?SIMPSON A J, ROMA G, PLUMBLEY M D. Deep Karaoke:extracting vocals from musical mixtures using a convolutional deep neural network[C]. International Conference on Latent Variable Analysis and Signal Separation. Springer?Verlag New York, Inc. 2015:429?436.

      [7]?WANG Y. Supervised speech separation using deep neural networks[M]. Ohio:Dissertations & Theses?Gradworks, 2015.

      [8]?WILLIAMSON D S, WANG Y, WANG D. Complex ratio masking for monaural speech separation[J]. IEEE/ACM Transactions on Audio Speech & Language Processing, 2016,24(3):483?492.

      [9]?ZHANG X, WANG D L. Deep learning based binaural speech separation in reverberant environments[J]. IEEE/ACM Transactions on Audio Speech & Language Processing, 2017,25(5):1075?1084.

      [10]?劉文舉,聶帥,梁山,等.基于深度學習語音分離技術的研究現(xiàn)狀與進展[J].自動化學報,2016,42(6):819?833.

      [11]?WANG Y, WANG D L. Towards scaling up classification?based speech separation[J]. IEEE Transactions on Audio Speech & Language Processing, 2013,21(7):1381?1390.

      [12]?WANG Z Q, WANG D L. Recurrent deep stacking networks for supervised speech separation[C]. IEEE International Conference on Acoustics, Speech and Signal Processing. IEEE, 2017:71?75.

      [13]?BOLL S. Suppression of acoustic noise in speech using spectral subtraction[J]. IEEE Trans.acoust.speech & Signal Process, 1979,27(2):113?120.

      [14]?CHEN J, BENESTY J, HUANG Y, et al. New insights into the noise reduction Wiener filter[J]. IEEE Transactions on Audio Speech & Language Processing, 2006,14(4):1218?1234.

      [15]?UPADHYAY N, JAISWAL R K. Single channel speech enhancement: using Wiener filtering with recursive noise estimation[J]. Procedia Computer Science,2016,84:22?30.

      [16]?POULARIKAS A D, RAMADAN Z M. Adaptive filtering primer with MATLAB[M]. Florida:CRC Press, 2006.

      [17]?WIDROW B, GLOVER J R, MCCOOL J M, et al. Adaptive noise cancelling:principles and applications[J]. Proceedings of the IEEE, 2005,63(12):1692?1716.

      [18]?HENDRIKS R C, HEUSDENS R, JENSEN J. MMSE based noise PSD tracking with low complexity[C]. IEEE International Conference on Acoustics Speech and Signal Processing, 2010.

      [19]?MOHAMMADIHA N, SMARAGDIS P, LEIJON A. Supervised and unsupervised speech enhancement using nonnegative matrix factorization[J]. IEEE Transactions on Audio Speech & Language Processing, 2013,21(10):2140?2151.

      [20]?韓偉,張雄偉,周星宇,等.聯(lián)合優(yōu)化深度神經(jīng)網(wǎng)絡和約束維納濾波的單通道語音增強方法[J].計算機應用研究,2017,34(3):706?709.

      [21]?XU Y, DU J, DAI L R, et al. An experimental study on speech enhancement based on deep neural networks[J]. IEEE Signal Processing Letters, 2013,21(1):65?68.

      [22]?NIE S, LIANG S, LI H, et al. Exploiting spectro?temporal structures using NMF for DNN?based supervised speech separation[C]. IEEE International Conference on Acoustics, Speech and Signal Processing, 2016:469?473.

      [23]?DARWIN C. Computational auditory scene analysis: principles, algorithms and applications[J]. IEEE Transactions on Neural Networks,?2008,19(1):199.

      [24]?WANG Y, HAN K, WANG D L. Exploring monaural features for classification?based speech segregation[J]. IEEE Transactions on Audio Speech & Language Processing, 2012,21(2):270?279.

      [25]?DELFARAH M, WANG D L. Features for masking?based monaural speech separation in reverberant conditions[J]. IEEE/ACM Transactions on Audio Speech & Language Processing, 2017,25(5):1085?1094.

      [26]?ROTHAUSER E H, CHAPMAN W D, GUTTMAN N, et al. IEEE recommended practice for speech quality measurements[EB/OL]. https://ieeexplore.ieee.org/servlet/opac?punumber=7405208.

      [27]?VARGA A, STEENEKEN H J M. Assessment for automatic speech recognition: II. NOISEX?92:a database and an experiment to study the effect of additive noise on speech recognition systems[J]. Speech Communication, 1993,12(3):247?251.

      [28]?TAAL C H, HENDRIKS R C, HEUSDENS R, et al. An algorithm for intelligibility prediction of time?frequency weighted noisy speech[J]. IEEE Transactions on Audio Speech & Language Processing, 2011,19(7):2125?2136.

      猜你喜歡
      神經(jīng)網(wǎng)絡
      BP神經(jīng)網(wǎng)絡在路標識別上的應用研究
      基于HPSO-BP神經(jīng)網(wǎng)絡的個人信用評估
      神經(jīng)網(wǎng)絡抑制無線通信干擾探究
      電子制作(2019年19期)2019-11-23 08:42:00
      基于神經(jīng)網(wǎng)絡的中小學生情感分析
      電子制作(2019年24期)2019-02-23 13:22:36
      基于Q-Learning算法和神經(jīng)網(wǎng)絡的飛艇控制
      基于神經(jīng)網(wǎng)絡的拉矯機控制模型建立
      重型機械(2016年1期)2016-03-01 03:42:04
      復數(shù)神經(jīng)網(wǎng)絡在基于WiFi的室內(nèi)LBS應用
      基于支持向量機回歸和RBF神經(jīng)網(wǎng)絡的PID整定
      基于神經(jīng)網(wǎng)絡分數(shù)階控制的逆變電源
      基于GA-BP神經(jīng)網(wǎng)絡的光伏陣列MPPT研究
      電測與儀表(2014年2期)2014-04-04 09:04:04
      成安县| 淮南市| 黄石市| 海淀区| 大方县| 逊克县| 凤山县| 天峻县| 东宁县| 原阳县| 梓潼县| 宜宾县| 汶川县| 海兴县| 合肥市| 西峡县| 垫江县| 基隆市| 武定县| 凤山县| 富锦市| 宝兴县| 德令哈市| 闽侯县| 华安县| 南昌县| 阳城县| 岱山县| 嘉黎县| 正蓝旗| 商洛市| 高邑县| 沙雅县| 二连浩特市| 明水县| 方城县| 杭锦后旗| 唐河县| 四川省| 个旧市| 瑞昌市|