代佳鑫 帥英俊
摘?要:為了解決卷積神經(CNN)在語音增強中語音清晰度較差的問題,在卷積神經(CNN)語音增強的基礎上,提出了基于浮值掩蔽的完全卷積神經網絡語音增強系統。該系統首先采從帶噪語聲特征輸入完全卷積神經網絡中,以理想浮值掩蔽作為訓練標簽,估計出帶噪語音理想掩蔽值,其次,將理想掩蔽值與帶噪語音相乘作為幅度譜。最后將帶噪語音相位譜與幅度譜進行反短時傅里葉變換(ISTFT),得到增強語音。實驗結果表明,在PESQ標準下,在SNR分別為-12,-6,0,6,-12dB情況下,該系統性能分別提升了11.5%,12.5%,17.2%,11.8%,11.5%提升效果明顯。
關鍵詞:語音增強;完全卷積神經網絡;浮值掩蔽;單聲道
1 引言
隨著NLP方向人工智能技術的發(fā)展,語音識別技術達到了一個新的階段,各式各樣較成熟的語音助手使得人機交互的變得越來越容易。但實際應用時,由于采集設備和傳輸過程中的干擾,往往無法得到較清晰的語音信息,對語音識別結果造成較大干擾。本研究構建了基于完全神經網絡的理想浮值掩蔽系統。利用去除全連接層的卷積神經網絡來估計掩蔽值。其次,將理想掩蔽值與帶噪語音相乘作為幅度譜。最后將帶噪語音相位譜與幅度譜進行反短時傅里葉變換(ISTFT),得到增強語音。
2 算法介紹
假設,其中、、分別代表帶噪語音、干凈語音、噪聲的時域信號。對上式進行短時傅里葉變換,再將短時傅里葉變換的頻譜分為不同的時-頻單元,假設、、分別為x(n)、s(n)、n(n)在(t,f)時-頻單元的表示。
理想浮值掩模的定義式如下:
其中、分別表示在(t,f)時-頻單元中的信號能量和噪聲能量,β為可調的系數通常設置為0.5。為信號能量與噪聲能量的線性比值。的取值范圍為[0,1]。M(t,f)表示目標語音能量在混合的語音和噪聲的比重,M(t,f)為CNN的訓練目標。
此系統利用浮值掩蔽得到訓練目標,以及特征提取,然后通過CNN網絡進行集成。網絡采用有監(jiān)督的方式進行學習。網絡會對每個帶噪語音信號估計出一個浮值掩模,將估計出來的掩模和帶噪語音信號的幅度譜相乘得到增強語音的幅度譜,將增強語音的幅度譜和帶噪語音的相位譜相乘作為增強語音的頻譜。最后將增強語音的頻譜做逆短時傅里葉變換得到增強語音的時域信號。該系統首先從訓練集中提取特征值,然后計算IRM值,把此值輸入到網絡中進行訓練。而對于測試階段,從測試集中提取特征值,輸入到網絡中,得到增強的語音,然后再進行語音信號重建得到最終的輸出信號。
3 實驗與結果分析
在實驗中,訓練集和測試集來自TMIT語料庫。對于訓練集,隨機選擇1000個話語,對于測試集,我們隨機選擇了另500個話語。為了使實驗條件更加真實,訓練和測試集的噪聲類型和SNR水平都不匹配。我們采用噪聲為:高斯白噪聲(WGN),發(fā)動機噪音和嬰兒啼聲,使用五種SNR等級(-12 dB,-6 dB,0 dB,6 dB和12 dB)。在實驗中,從波形中提取512個采樣點以形成512個采樣點,在該研究中,從波形中提取512個采樣點以形成用于所提出的SE模型的幀。此外,還從基線系統的幀中獲得257維LPS矢量。該實驗中的CNN具有四個帶有填充的積層(每個都有該層由15個濾波器組成,每個濾波器的濾波器大小為11)和兩個完全連接的層(每個都有1024個節(jié)點)。FCN具有與CNN相同的結構,除了完全連接的層各自用另一個卷積層替換。DNN只有四個隱藏層(每層由1024個節(jié)點組成)。
對于特征變換,音頻信號被下采樣到8kHz的,并且靜音幀從信號中移除。使用512點短時傅里葉變換(為32ms海明窗)計算光譜矢量,窗口移位為64點(8毫秒)通過去除對稱的一半,512點STFT幅度矢量減少到257點.此257點用于輸入特征,并且被標準化為具有零均值和單位方差。
PESQ、STOI分別是用來評價語音質量和語音清晰度的客觀指標。PESQ的取值范圍是-0.5至4.5,STOI的取值范圍是0值1。測試結果如表1 所示。對于CNN,相較于DNN,在SNR分別為12,6,0,-6,-12dB情況下,PESQ指標分別提升了5.42%,4.22%,2.79%,6.69%,4.75%。驗證了CNN相較于DNN語音增強效果更好。但是我們注意到在STOI標準下,CNN相較于DNN,提升不明顯。而對于FCN,在SNR分別為12,6,0,-6,-12dB情況下在PESQ標準下,分別提升了11.5%,12.5%,17.2%,11.8%,11.5%,在STOI情況下,也分別提升了10.27%,2.68%,5.03%,5.13%,6.93%,證明該系統是有效的。
結束語
本文基于在卷積神經網絡的基礎上,在卷積神經網絡語音增強的基礎上,提出了基于浮值掩蔽的完全卷積神經網絡語音增強系統。該系統改進了卷積神經網絡,使神經網絡變得更小,適用于嵌入式設備。同時,該系統考慮到無聲段理想浮值掩模不存在的問題,設計了合理損失函數。
參考文獻
[1]周志華.機器學習[M].北京:清華大學出版社,2016.
[2]趙曉群,黃小珊,宮云梅.基于無語音概率改進的對數譜幅度估計增強算法[J].信號處理,2008,24(06):912-916.