王群,曾慶寧,謝先明,鄭展恒
?
低信噪比環(huán)境下的語音識別方法研究
王群,曾慶寧,謝先明,鄭展恒
(桂林電子科技大學信息與通信學院,廣西桂林541004)
單通道語音信號在信噪比較大的環(huán)境下經(jīng)過增強后再識別,能表現(xiàn)出較高的識別率。但是在低信噪比環(huán)境下,增強后語音信號的識別率急劇下降。針對此種情況,提出了一種用在識別系統(tǒng)前端的語音增強算法,該增強算法將采集到的帶噪語音信號先使用對數(shù)最小均方誤差(Logarithmic Minimum Mean Square Error,LogMMSE)提高其信噪比,然后再利用改進的維納濾波去除噪聲殘留并提升語音可懂度,最后用梅爾頻率倒譜系數(shù)(Mel-Frequency Cepstral Coefficients,MFCC)和隱馬爾科夫模型(Hidden Markov Model,HMM)對增強后的語音信號做特征提取并識別。實驗分析結(jié)果表明,該方法能有效地抑制背景噪聲并減少噪聲殘留,顯著提升低信噪比環(huán)境下語音識別的準確性。
語音增強;低信噪比;改進維納濾波;對數(shù)最小均方誤差算法;語音識別
語音識別主要是指能夠讓機器聽懂人所說的話,即在特定或非特定環(huán)境下準確識別出語音的內(nèi)容,并根據(jù)識別出的內(nèi)容去執(zhí)行相應的操作。語音識別在車載導航、視頻監(jiān)控、網(wǎng)絡視訊等人機交互領(lǐng)域有著非常廣泛的應用。例如視頻監(jiān)控往往存在較多盲區(qū),利用語音識別技術(shù)可有效識別出視頻盲區(qū)內(nèi)外的危險語音信號,對某些突發(fā)情況及時做出反應。在識別系統(tǒng)中,一般是將理想環(huán)境下語音訓練出的模型應用于真實的含噪環(huán)境中。而在實際環(huán)境中,由于背景噪聲的影響,含噪語音的識別率急劇下降,甚至還會出現(xiàn)無法工作的現(xiàn)象。近些年來,理想環(huán)境下的語音識別技術(shù)發(fā)展迅速,單通道語音識別技術(shù)在理想環(huán)境中已經(jīng)達到了較高的識別率。而在低信噪比環(huán)境下,如何提高語音識別率成為人們關(guān)注的焦點。近年來在語音識別抗噪方面很多人做了大量研究,例如譜減算法、維納(Wiener)濾波、最小均方誤差(Minimum Mean Square Error,MMSE)估計等[1]。這些算法雖然能有效地去除噪聲,但都會不同程度地產(chǎn)生失真或引入音樂噪聲,反而使增強后的語音識別率更低。這在低信噪比環(huán)境下更為明顯。近年來有人提出最小控制遞歸平均(Improve Minima Controlled Recursive Averaging,IMCRA)改進噪聲估計的對數(shù)最小均方誤差(Logarithmic Minimum Mean Square Error,LogMMSE)算法[2]。該算法具有一定的增強效果,但計算量大,且識別效果并不突出。針對此種現(xiàn)象,本文通過在識別系統(tǒng)前端先采用基于對數(shù)最小均方誤差算法提高含噪語音信噪比,再使用改進的(Wiener)濾波去除噪聲殘留并提升語音可懂度,從而提高語音識別率。
譜減算法[3]的基本原理為假設信號是不相關(guān)的加性噪聲,通過快速傅里葉變換(Fast Fourier Transformation,F(xiàn)FT),從含噪語音中減去噪聲短時幅度譜,將計算所得純凈語音的短時幅度譜結(jié)合含噪語音的相位,再經(jīng)過快速傅里葉逆變換(Inverse Fast Fourier Transformation,IFFT),得到需要的純凈語音信號,噪聲的短時幅度譜可以在語音的靜音段或者間隙進行重估和更新?;究驁D如圖1所示。
圖1 譜減法框圖
第一次平滑由式(8)得到:
第二次平滑如式(9)所示:
最后得到條件概率估計值:
在Wiener濾波中用直接判決法估計先驗信噪比會出現(xiàn)高估和低估的情況[8]。研究表明,在-10 dB以下的區(qū)域存在較多的高估,在放大畸變大于6.02 dB的區(qū)域存在較多的低估。高估和低估會導致語音信號增強效果不明顯或失真。所以,可以從兩方面對Wiener濾波器進行改進。
首先分兩步來估計先驗信噪比,第一步估計為式(13),在(13)基礎上進行第二部估計:
對于在-10 dB以下的區(qū)域,人工引入偏差值修改正增益函數(shù),修正后可表示為
文獻[9]中指出放大畸變大于6.02 dB時,有:
所以有:
對增強后的語音幅度譜放大畸變大于6.02 dB的語音進行限制:
本文采用對數(shù)最小均方誤差(LogMMSE)和改進Wiener濾波串聯(lián)形式對帶噪語音進行增強處理。先經(jīng)過LogMMSE提高帶噪語音信噪比,再用改進Wiener濾波去除噪聲殘留,同時還對容易產(chǎn)生畸變失真的區(qū)域進行增益補償,最大限度地減小因去噪所造成的信號失真,以此提升識別率。
圖2為LogMMSE和改進Wiener在0 dB、白噪聲環(huán)境下級聯(lián)方式的對比分析。其中圖2(a)為純凈語音信號;圖2(b)為LogMMSE去噪效果;圖2(c)為改進Wiener去噪效果;圖2(d)為先經(jīng)過改進Wiener后使用LogMMSE去噪效果;圖2(e)為本文所使用方式的去噪效果。從圖2中可以看出,采用LogMMSE+改進Wiener的級聯(lián)方式去噪效果最佳。從圖2(b)、2(c)圖中可以看出LogMMSE相比于改進Wiener在低信噪比有更好的去噪效果,產(chǎn)生毛刺較少。這樣先經(jīng)過LogMMSE處理后再使用改進Wiener去除噪聲殘留效果更為明顯。若采用前置改進Wiener先對信號做去噪處理,這樣得到的信號噪聲殘留較大,即使最后再使用LogMMSE去噪并不能達到理想去噪效果。所以本文采用LogMMSE后置改進Wiener濾波的級聯(lián)方式。
(a) 純凈語音
(b) LogMMSE去噪
(c) 改進Wiener去噪
(d) 改進Wiener+LogMMSE
(e) LogMMSE+改進Wiener
本文使用的識別系統(tǒng)為基于隱馬爾科夫模型(Hidden Markov Model,HMM)的非特定人語音識別。識別系統(tǒng)提取增強后語音的聲學特征,再通過維特比(Viterbi)算法解碼匹配到最佳狀態(tài)序列得到識別結(jié)果。該識別系統(tǒng)采用梅爾頻率倒譜系數(shù)(Mel-Frequency Cepstral Coefficients,MFCC)做特征提取,采用隱馬爾科夫(HMM)得到訓練模型。
圖3 HMM結(jié)構(gòu)
本次實驗結(jié)合公共安防課題,解決傳統(tǒng)視頻監(jiān)控只能看不能聽的問題,利用語音識別技術(shù)對部分敏感詞匯進行識別。數(shù)據(jù)使用M-AUFIO音頻采集器完成,錄制環(huán)境為相對安靜的樓頂天臺。噪聲和語音分別在同樣的環(huán)境下采集。本實驗由20位同學參與錄制,有13位男生和7位女生。其中隨機抽取10人的語音(400條)作為訓練樣本,另外10人的語音(240條)做測試用。每人分別錄制12個敏感詞匯:火災、爆炸、搶劫、盜竊、中毒、溺水、暈倒、危險、救命、受傷、救護車、消防車。噪聲采集使用三種,分別為白噪聲、F16和volvo噪聲,本文語音和噪聲的實驗設備采樣頻率均為44.1 kHz,采樣精度為32 bit。在實際仿真中經(jīng)過了降采樣處理,采樣率為16 kHz,幀長為512,幀移是256,窗函數(shù)為Hamming窗。特征參數(shù)采用12維的梅爾倒譜系數(shù),選用連續(xù)混合密度HMM,模型結(jié)構(gòu)如圖3所示,它包含4個狀態(tài),每狀態(tài)含有3個高斯概率密度函數(shù)。為了驗證本文方法的可行性,選取以下三種方法做對比。分別為:譜減法、改進Wiener濾波、LogMMSE-IMCRA。圖4為在F16噪聲干擾下各算法增強后時域仿真波形,選用的語音內(nèi)容為“救護車”,信噪比為0 dB。
從圖4可以看出,譜減法增強效果并不理想。LogMMSE-IMCRA較改進Wiener有更明顯的增強效果,但是兩者在時域波形上表現(xiàn)出較多的毛刺和噪聲殘留。本文所使用的增強方法效果明顯,雖然仍會產(chǎn)生部分失真,但在低信噪比的環(huán)境下是可以接受的。
(a) 純凈語音
(b) 加噪語音
(c) 譜減增強
(d) 改進Wiener增強
(e) LogMMSE-ICRMA增強
(f) 本文算法增強
圖4 F16噪聲環(huán)境下增強后的語音時域仿真圖
Fig.4 The simulation diagrams of the speeches enhanced by different algorithms in F16 noise environment
圖5為增強后的語譜圖,圖5中所列的語譜圖分別對應圖4中的各時域仿真圖。從語譜圖來看,本文算法能更好地去除噪聲,減少語音畸變,信號能量在低頻段明顯,增強后與原始語音基本保持一致。
圖6(a)、6(b)、6(c)分別是在白噪聲、F16和volvo噪聲環(huán)境下通過四種算法增強后的識別率。
(a) 純凈語音
(b) 加噪語音
(c) 譜減增強
(d) 改進Wiener增強
(e) LogMMSE-ICRMA增強
(f) 本文算法增強
圖5 F16噪聲環(huán)境下增強后語譜圖
Fig.5 The spectrograms of the speeches enhanced by different algorithms in F16 noise environment
(a) White噪聲識別率
(b) F16噪聲識別率
(c) volvo噪聲識別率
從圖6中對比可以看到,譜減法表現(xiàn)出較低的識別率,這是由于譜減法在增強后引入音樂噪聲,使語音產(chǎn)生畸變從而降低識別率。改進Wiener濾波比譜減法的識別率要高,是因為其有更好的噪聲抑制效果。LogMMSE-IMCRA算法通過準確的噪聲估計來增強語音能有效提高識別率,但由于去噪后仍有較多噪聲殘留,識別率表現(xiàn)一般。使用本文算法增強后的識別率明顯提高,尤其在低信噪比環(huán)境下效果更為明顯。這是因為本算法不僅對信號的增強去噪效果明顯,還針對語音信號消噪后容易產(chǎn)生畸變失真的區(qū)域,對其進行增益補償,最大限度地減少語音失真以提高識別率。
表1列舉了三種噪聲環(huán)境在-5dB環(huán)境下通過四種算法增強后的平均運行時間,單位是秒(s)。四種算法的運行環(huán)境均為在同一設備下運行,實驗仿真平臺為matlab2012(a),所使用的計算機CPU主頻為2.40×106kHz。從表1中可以看出,譜減法和改進Wiener雖然運行時間較短,但去噪效果并不明顯。LogMMSE-IMCRA由于引入了遞歸平均算法做噪聲估計,所以運行時間較長,而本文算法與其他算法相比在減少了運算量的同時也達到了較好的去噪效果。
表1 不同方法在-5 dB環(huán)境下語音增強的時間對比(s)
表2列舉了白噪聲、F16和volvo噪聲在-5 dB環(huán)境下通過四種算法增強后的識別率??梢钥闯霰疚乃惴ㄔ趘olvo噪聲下相比較其他兩種噪聲表現(xiàn)出更高的識別效果,這是由于基于LogMMSE算法在提升語音可懂度方面相對于傳統(tǒng)增強算法在非平穩(wěn)噪聲中有更好的表現(xiàn)。而改進的Wiener濾波又能有效降低語音畸變,進一步提升語音可懂度。
表2 不同方法在信噪比為-5 dB環(huán)境下語音增強后識別正確率對比(%)
本文通過隨機抽取不同噪聲環(huán)境在-5 dB到5 dB的識別情況發(fā)現(xiàn),同一信噪比環(huán)境下的不同組,所識別不正確的單詞是不同的。也就是說低信噪比下識別錯誤的單詞是隨機的。通過提取識別錯誤的單詞發(fā)現(xiàn),其時域波形表現(xiàn)為仍有部分噪聲殘留或失真,所以導致識別錯誤,這種情況隨著信噪比的提高而減小。另一種原因可能是有的參與錄制人員說話夾雜方言,在理想環(huán)境下可以有效識別,但經(jīng)過處理后識別效果下降。
針對低信噪比環(huán)境下識別率不高的問題。本文先用LogMMSE提高各通道信噪比,再利用改進的Wiener濾波去除噪聲殘留并降低由于增強處理所導致的語音畸變,最后對增強后的信號進行識別。實驗表明本文方法相比較LogMMSE-IMCRA算法不僅取得了更好的識別效果,同時還減少了算法的計算量,而且更適用于低信噪比環(huán)境中。
[1] Loizou P C. Speech enhancement: theory and practice[M]. The Chemical Rubber Company Press, 2013: 75-109.
[2] 胡丹, 曾慶寧, 龍超, 等. 連續(xù)語音識別前端魯棒性研究[J]. 電視技術(shù), 2015, 39(24): 43-46. HU Dan, ZENG Qingning, LONG Chao, et al. Front-end robust study for continuous speech recognition[J]. Video Engineering, 2015, 39(24): 43-46.
[3] 曹亮, 張?zhí)祢U, 高洪興, 等. 基于聽覺掩蔽效應的多頻帶譜減語音增強方法[J]. 計算機工程與設計, 2013, 34(1): 235-240. CAO Liang, ZHANG Tianqi, GAO Hongxing, et al. Multi-band spectral subtraction method for speech enhancement based on masking property of human auditory system[J]. Computer Engineering and Design, 2013, 34(1): 235-240.
[4] Jose A Gonzalez, Antonio M Peinado, Ma N, et al. MMSE-Based missing-feature reconstruction with temporal modeling for robust speech recognition[J]. Audio Speech & Language Processing IEEE Transactions on, 2013, 21(3): 624-635.
[5] Cohen I, Berdugo B. Speech enhancement for non-stationary noise environments[J]. Signal Processing, 2009, 81(11): 2403-2418.
[6] 張東方, 蔣建中, 張連海. 一種改進型IMCRA非平穩(wěn)噪聲估計算法[J]. 計算機工程, 2012, 38(13): 270-272. ZHANG Dongfang, JIANG Jianzhong, ZHANG Lianhai. Improved IMCRA non-stationary noise estimation algorithm[J]. Computer Engineering, 2012, 38(13): 270-272.
[7] 張亮, 龔衛(wèi)國. 一種改進的(Wiener)濾波語音增強算法[J]. 計算機工程與應用, 2010, 46(26): 129-131. ZHANG Liang, GONG Weiguo. Improve wiener filtering speech enhancement algorithm[J]. Computer Engineering and Applications, 2010, 46(26): 129-131.
[8] Fei C, Loizou P C. Impact of SNR and gain-function over- and under-estimation on speech intelligibility[J]. Speech Communication, 2012, 54(2): 272-281.
[9] 郭利華, 馬建芬. 具有高可懂度的改進的(Wiener)濾波的語音增強算法[J]. 計算機應用與軟件, 2014(11): 155-157. GUO Lihua, MA Jianfen. Animproved wiener filtering speech enhancement algorithm with high intelligibility[J]. Computer Applications and Software, 2014(11): 155-157.
[10] 宋知用. MATLAB在語音信號分析與合成中的應用[M]. 北京: 北京航空航天大學出版社, 2013. SONG Zhiyong. The application of MATLAB in speech signal analysis and synthesis[M]. Beijing: Beihang University Press, 2013.
Research on speech recognition in low SNR environment
WANG Qun, ZENG Qing-ning, XIE Xian-ming, ZHENG Zhan-heng
(School of Information and Communication, Guilin University of Electronic Technology, Guilin 541004, Guangxi, China)
The accuracy rate of single channel enhanced speech recognition in high SNR environment is acceptable, but not so in low SNR environment. In this case, speech enhancement based on logarithmic minimum mean square error (LogMMSE) algorithm and modified Wiener filter algorithm is presented. Firstly the gathered speech signals' SNR is improved by the LogMMSE algorithm. Then using the improved Wiener filter algorithm removes residual noise and improves the signal quality. Finally the enhanced speech is used for recognition by MFCC and HMM algorithms. Experimental results show that the proposed method can effectively remove the background noise and reduce the residual noise, significantly increase the accuracy of the automatic speech recognition in noisy environment.
speech enhancement; low SNR; modified Wiener filter; LogMMSE algorithm; speech recognition
TN912.34
A
1000-3630(2017)-01-0050-07
10.16300/j.cnki.1000-3630.2017.01.010
2016-07-20;
2016-09-29
國家自然科學基金(61461011)、教育部重點實驗室2016年主任基金(CRKL160107)資助項目。
王群(1990-), 男, 湖北隨州人, 碩士研究生, 研究方向為語音信號增強、語音識別。
鄭展恒, E-mail: glzzh@guet.edu.cn