胡 丹,曾慶寧,龍 超,黃桂敏
(桂林電子科技大學(xué) 信息與通信學(xué)院,廣西 桂林 541004)
連續(xù)語(yǔ)音識(shí)別前端魯棒性研究
胡 丹,曾慶寧,龍 超,黃桂敏
(桂林電子科技大學(xué) 信息與通信學(xué)院,廣西 桂林 541004)
針對(duì)大詞匯量連續(xù)語(yǔ)音識(shí)別中識(shí)別率不高的問(wèn)題,提出了將語(yǔ)音增強(qiáng)級(jí)聯(lián)在識(shí)別系統(tǒng)前端,在語(yǔ)音增強(qiáng)中將譜減法和對(duì)數(shù)最小均方誤差算法(logmmse)與用于噪聲估計(jì)的最小控制遞歸平均算法(imcra)相結(jié)合。識(shí)別系統(tǒng)使用Mel頻率倒譜系數(shù)(MFCC)提取特征,用隱馬爾科夫模型(HMM)訓(xùn)練與識(shí)別。實(shí)驗(yàn)結(jié)果表明,該方法最高能使單詞識(shí)別率提高38.9%,使句子正確率提高21.8%。該方法用于大詞匯量連續(xù)語(yǔ)音識(shí)別是可行有效的。
連續(xù)語(yǔ)音識(shí)別;語(yǔ)音增強(qiáng);HMM;imcra;句子正確率
語(yǔ)音識(shí)別在通信、家庭服務(wù)、汽車(chē)電子等眾多領(lǐng)域都有廣泛應(yīng)用。觀看非母語(yǔ)視頻或進(jìn)行視頻會(huì)議時(shí),利用語(yǔ)音識(shí)別技術(shù)為視頻自動(dòng)加載字幕,可以在幫助人們提高聽(tīng)力來(lái)理解視頻內(nèi)容的基礎(chǔ)上免去繁瑣的手動(dòng)加載字幕工作。識(shí)別技術(shù)還可以運(yùn)用到視頻終端領(lǐng)域,計(jì)算機(jī)將人的語(yǔ)音信號(hào)經(jīng)過(guò)識(shí)別和理解轉(zhuǎn)換成相應(yīng)的命令,對(duì)視頻終端進(jìn)行操作控制,以代替鼠標(biāo)鍵盤(pán)等手動(dòng)控制方式,提高用戶體驗(yàn)。但語(yǔ)音識(shí)別技術(shù)也存在一定的不足。識(shí)別系統(tǒng)一般是將在安靜環(huán)境下訓(xùn)練出來(lái)的模型應(yīng)用于含噪的真實(shí)環(huán)境,真實(shí)環(huán)境中含有的噪聲會(huì)使系統(tǒng)的識(shí)別性能急劇下降,甚至無(wú)法工作,這在大詞匯量連續(xù)語(yǔ)音識(shí)別中更是如此。噪聲背景環(huán)境中的語(yǔ)音識(shí)別技術(shù)長(zhǎng)期以來(lái)一直受到人們的關(guān)注,近年來(lái)在提高語(yǔ)音識(shí)別的抗噪能力方面,很多人做了大量的研究,在識(shí)別系統(tǒng)的前段應(yīng)用語(yǔ)音增強(qiáng)技術(shù)抑制背景噪聲就是其中的一種[1]。本文研究了一種在大詞匯量連續(xù)語(yǔ)音識(shí)別前端級(jí)聯(lián)一個(gè)語(yǔ)音增強(qiáng)系統(tǒng),增強(qiáng)系統(tǒng)中將語(yǔ)音增強(qiáng)算法與噪聲估計(jì)算法相結(jié)合以達(dá)到更好的去噪效果,從而增加識(shí)別系統(tǒng)的準(zhǔn)確率。
1.1 譜減算法
譜減算法[2](Spectral Subtraction,SS)的基本原理為,假設(shè)噪聲為加性噪聲,通過(guò)從帶噪語(yǔ)音譜中減去噪聲譜,就可以得到純凈的信號(hào)譜,在語(yǔ)音信號(hào)的間隙可以對(duì)噪聲譜進(jìn)行重新估計(jì)和更新?;究驁D如圖1所示。
圖1 譜減法框圖
(1)
其中:α,β為參數(shù),一般的譜減算法中α=2,β=1。
1.2 對(duì)數(shù)最小均方誤差
最小均方誤差[4](MMSE)是估計(jì)幅度和實(shí)際幅度均方誤差最小的優(yōu)化估計(jì)器,其計(jì)算式如式(2)所示
(2)
(3)
通過(guò)求解可以得到最優(yōu)的對(duì)數(shù)估計(jì)器為
(4)
(5)
其中:Yk是含噪語(yǔ)音信號(hào)的幅度,先驗(yàn)信噪比為
(6)
后驗(yàn)信噪比λk為
(7)
式中:λX(k)和λd(k)分別為第k個(gè)頻率點(diǎn)的信號(hào)方差和噪聲方差。
1.3 改進(jìn)的最小控制遞歸平均算法
在含噪語(yǔ)音中,噪聲的估計(jì)是否準(zhǔn)確關(guān)系到語(yǔ)音增強(qiáng)算法的性能[6]。如果噪聲估計(jì)不準(zhǔn)確,在譜減算法中會(huì)產(chǎn)生殘留噪聲,在對(duì)數(shù)最小均方誤差算法中會(huì)導(dǎo)致先驗(yàn)信噪比估計(jì)不準(zhǔn),從而影響其增強(qiáng)效果。
傳統(tǒng)的譜減類(lèi)算法中噪聲估計(jì)使用的話音活動(dòng)檢測(cè)(Voice Activity Detection,VAD)算法一般會(huì)從輸入信號(hào)中提取一些特征(如短時(shí)能量,短時(shí)過(guò)零率),然后與無(wú)語(yǔ)音段得到的某個(gè)閾值進(jìn)行比較,判斷是否為噪聲。
對(duì)于大詞匯量連續(xù)語(yǔ)音識(shí)別來(lái)說(shuō),一個(gè)句子中包含多個(gè)單詞,在每個(gè)單詞的中間會(huì)有無(wú)聲段的存在,VAD算法就是檢測(cè)語(yǔ)句中無(wú)聲段對(duì)應(yīng)于閉塞輔音的閉合期來(lái)判斷是否為噪聲。但是用這種方法進(jìn)行噪聲譜的更新所花的時(shí)間遠(yuǎn)遠(yuǎn)大于噪聲改變的時(shí)間,也就是說(shuō),噪聲更新周期太長(zhǎng)而噪聲變化太快。所以需要其他更好的噪聲估計(jì)方法。
噪聲對(duì)語(yǔ)音頻譜的影響在頻率上并不是均勻分布的,通過(guò)帶噪譜的高頻區(qū)域所提取出的信息可以更可靠地估計(jì)和更新噪聲譜。所以只要該頻帶無(wú)語(yǔ)音的概率很高或?qū)嶋H信噪比(Signal Noise Rate,SNR)很低,即可估計(jì)和更新單個(gè)頻帶的噪聲譜,這就是遞歸平均型噪聲估計(jì)方法[7]。
IMCRA算法對(duì)噪聲的估計(jì)是通過(guò)引入一個(gè)條件語(yǔ)音存在概率ρ(k,l),并使用如下的遞歸平均得到[8]
(8)
其中:k為頻帶序號(hào);l為幀序號(hào);αd(0<αd<1)是一個(gè)平滑參數(shù);Y(k,l)為第k個(gè)頻率帶第l點(diǎn)的含噪語(yǔ)音幅度。為了計(jì)算式(8)中的條件語(yǔ)音存在概率ρ(k,l),需要進(jìn)行兩次平滑和最小值搜索。
首先進(jìn)行功率譜的頻域平滑
(9)
其中:m為連續(xù)幀個(gè)數(shù);b(i)為加權(quán)因子。
然后對(duì)Sf(k,l)做一階平滑回歸
S(k,l)=αsS(k-1,l)+(1+αs)Sf(k,l)
(10)
其中,αs為平滑因子。
最小值搜索得
Smin(k,l)=min{S(k′,l)|k-m+1≤k′≤k}
(11)
最后可以得到語(yǔ)音存在概率的估計(jì)為
(12)
在本文中基線系統(tǒng)為英語(yǔ)大詞匯量非特定人隱馬爾科夫(Hidden Markov Model,HMM)連續(xù)語(yǔ)音識(shí)別系統(tǒng)。系統(tǒng)首先由大量的文字生成語(yǔ)音模型,然后提取聲學(xué)特征,經(jīng)過(guò)Viterbi解碼得到識(shí)別結(jié)果,系統(tǒng)流程圖如圖2所示。系統(tǒng)中特征提取用的是Mel頻率倒譜系數(shù)(Mel-Frequency Cepstral Coefficients,MFCC),采用HMM來(lái)訓(xùn)練聲學(xué)模型。
圖2 語(yǔ)音識(shí)別系統(tǒng)流程圖
2.1 MFCC
語(yǔ)音信號(hào)經(jīng)過(guò)16 kHz的采樣之后經(jīng)過(guò)一個(gè)系統(tǒng)函數(shù)為H(z)=1-0.97z-1的高通濾波器,這個(gè)過(guò)程稱為預(yù)加重,預(yù)加重的目的是為了補(bǔ)償高頻分量的損失,提升高頻分量。為了將語(yǔ)音信號(hào)當(dāng)作穩(wěn)態(tài)信號(hào)來(lái)處理,將預(yù)加重后的信號(hào)進(jìn)行分幀,再對(duì)信號(hào)加漢明窗以去除分幀之后的邊界效應(yīng),減少頻域中的泄漏。然后對(duì)信號(hào)進(jìn)行快速傅里葉變換(Fast Fourier Transform,F(xiàn)FT),計(jì)算每一幀的的能量。把能量譜與Mel濾波器的頻率響應(yīng)相乘并相加。再將其取對(duì)數(shù)并經(jīng)過(guò)離散余弦變換(Discrete Cosine Transform,DCT)計(jì)算12維的Mel倒譜系數(shù),和短時(shí)能量譜一起計(jì)算其一階和二階差分向量,最后得到每一幀的1個(gè)39維特征向量。其過(guò)程如圖3所示[9]。
圖3 MFCC提取過(guò)程
2.2 HMM
隱馬爾科夫模型[10]是一種統(tǒng)計(jì)模型,它用來(lái)描述1個(gè)含有隱含未知參數(shù)的馬爾科夫過(guò)程,廣泛運(yùn)用于語(yǔ)音識(shí)別中。1個(gè)HMM可以由λ=(N,M,π,A,B)來(lái)描述,如圖4所示。其中N、M分別為馬爾科夫鏈狀態(tài)數(shù)目與觀察值數(shù)目,π決定產(chǎn)生觀測(cè)的HMM初始狀態(tài)。A為狀態(tài)轉(zhuǎn)移概率矩陣,B為觀測(cè)值概率矩陣。
圖4 HMM組成示意圖
HMM語(yǔ)音識(shí)別的過(guò)程可以分為三部分。首先根據(jù)前向后向算法和遞推算法對(duì)已知模型的輸出和初始模型產(chǎn)生輸出序列的概率進(jìn)行計(jì)算,然后利用BaumWelch算法和最大似然準(zhǔn)則校正模型,最后應(yīng)用Viterbi算法得到最佳識(shí)別結(jié)果。
本文使用從左向右單項(xiàng)帶自環(huán)帶跨越拓?fù)浣Y(jié)構(gòu)的HMM來(lái)建模,一個(gè)音節(jié)就是一個(gè)HMM,多個(gè)音節(jié)的HMM組成一個(gè)詞的HMM,系統(tǒng)整個(gè)模型是由詞和靜音的HMM組成。
圖5a~5d分別為給出了在volvo噪聲和machinegun噪聲環(huán)境下,通過(guò)增強(qiáng)算法后再進(jìn)行語(yǔ)音識(shí)別的實(shí)驗(yàn)結(jié)果。
a volvo噪聲環(huán)境下單詞的正確率
b volvo噪聲環(huán)境下句子的正確率
c machinegun噪聲環(huán)境下單詞的正確率
d machinegun噪聲環(huán)境下句子的正確率圖5 噪聲背景下的識(shí)別結(jié)果
圖中的“帶噪語(yǔ)音”是指疊加噪聲后的語(yǔ)音數(shù)據(jù)未經(jīng)過(guò)增強(qiáng)算法直接識(shí)別的結(jié)果,“specsub”和“l(fā)ogmmse”為語(yǔ)音數(shù)據(jù)在識(shí)別之前分別經(jīng)過(guò)基本譜減算法和對(duì)數(shù)最小均方誤差算法,“SS_imcra”和“l(fā)ogmmse_imcra”分別是譜減法和對(duì)數(shù)最小均方誤差在噪聲估計(jì)階段使用改進(jìn)的最小遞歸控制平均算法。
圖6a為在volvo噪聲環(huán)境下應(yīng)用SS_imcra分別在單詞正確率和句子正確率方面提高的百分比,圖6b為在machinegun噪聲環(huán)境下應(yīng)用logmmse_imcra在單詞正確率和句子正確率方面提高的百分比。
a volvo噪聲
b machinegun噪聲圖 6 不同噪聲環(huán)境下識(shí)別率提高的百分比
表1表明除單獨(dú)使用譜減法外,其他算法對(duì)純凈語(yǔ)音的識(shí)別度并沒(méi)有大的下降,說(shuō)明語(yǔ)音增強(qiáng)模塊并沒(méi)有降低系統(tǒng)在安靜環(huán)境下的工作性能。
表1 純凈語(yǔ)音的識(shí)別率
%
方法句子正確率單詞正確率原始數(shù)據(jù)44.888.5specsub36.084.5SS_imcra41.286.5logmmse41.487.1logmmse_imcra41.887.6
圖5a~5d表明并不是所有的語(yǔ)音增強(qiáng)算法都能提高連續(xù)語(yǔ)音識(shí)別的識(shí)別率,實(shí)驗(yàn)中增強(qiáng)部分只用傳統(tǒng)譜減法時(shí),單詞正確率和句子正確率都有一定程度的下降。
實(shí)驗(yàn)結(jié)果說(shuō)明:在語(yǔ)音識(shí)別中,應(yīng)對(duì)不同種類(lèi)的噪聲環(huán)境應(yīng)在前端應(yīng)用不同的語(yǔ)音增強(qiáng)算法,例如volvo環(huán)境下,在本文的4種增強(qiáng)算法中,SS_imcra能有效地提高識(shí)別率,但在machinegun環(huán)境下,只有l(wèi)ogmmse_imcra有效,其他的反而使識(shí)別率下降。
圖6表明volvo噪聲環(huán)境下應(yīng)用SS_imcra,句子識(shí)別率在0 dB時(shí)能取得最好效果,但單詞識(shí)別率在信噪比低時(shí)效果更好。machinegun環(huán)境下應(yīng)用logmmse_imcra在句子的正確率方面能取得較好的效果。
本文針對(duì)噪聲環(huán)境下大詞匯量連續(xù)語(yǔ)音識(shí)別中識(shí)別正確率不高,在語(yǔ)音被識(shí)別之前先通過(guò)一個(gè)語(yǔ)音增強(qiáng)系統(tǒng)。實(shí)驗(yàn)表明,不是所有的增強(qiáng)算法應(yīng)用都能提高識(shí)別率,SS_imcra應(yīng)用到volvo噪聲環(huán)境下以及l(fā)ogmmse_imcra應(yīng)用到machinegun環(huán)境下在單詞和句子水平都能取得很好的效果。
[1] 徐義芳,張金杰,姚開(kāi)盛,等. 語(yǔ)音增強(qiáng)用于抗噪聲語(yǔ)音識(shí)別[J]. 清華大學(xué)學(xué)報(bào):自然科學(xué)版,2001(1):41-45.
[2] 萬(wàn)義龍, 張?zhí)祢U, 王志朝, 等. 基于多頻帶譜減法的抗噪聲語(yǔ)音識(shí)別研究[J]. 電視技術(shù), 2013, 37(23):183-187.
[3] LOIZOU P C. Speech enhancement: theory and practice[M]. The Chemical Rubber Company Press, 2013:75-109.
[4] GONZALEZ J, PEINADO A M, Ma N, et al. MMSE-based missing-feature reconstruction with temporal modeling for robust speech recognition[J]. IEEE Trans. Audio, Speech, and Language Processing, 2013, 21(3): 624-635.
[5] LUN D P K, SHEN T W, HO K C. A Novel expectation-maximization framework for speech enhancement in non-stationary noise environments[J]. IEEE/ACM Trans. Audio, Speech, and Language Processing,2014, 22(2): 335-346.
[6] 蔡鐵, 唐飛, 龍志軍. 采用子帶長(zhǎng)時(shí)信號(hào)變化特征的穩(wěn)健語(yǔ)音活動(dòng)檢測(cè)[J]. 電視技術(shù), 2014, 38(19):228-232.
[7] 張東方, 蔣建中, 張連海. 一種改進(jìn)型 IMCRA 非平穩(wěn)噪聲估計(jì)算法[J]. 計(jì)算機(jī)工程, 2012, 38(13):270-272.
[8] COHEN I. Noise spectrum estimation in adverse environments: Improved minima controlled recursive averaging[J]. IEEE Trans. Speech and Audio Processing, 2003, 11(5): 466-475.
[9] 宋知用. MATLAB在語(yǔ)音信號(hào)分析與合成中的應(yīng)用[M].北京:北京航空航天大學(xué)出版社,2013:37-42.
[10] 王炳錫,屈丹,彭煊. 實(shí)用語(yǔ)音識(shí)別基礎(chǔ)[M]. 北京:國(guó)防工業(yè)出版社,2005:180-192.
胡 丹(1991— ),碩士生,主研語(yǔ)音信號(hào)處理;
曾慶寧(1963— ),教授,碩士生導(dǎo)師,主要研究方向?yàn)檎Z(yǔ)音信號(hào)處理、圖像信號(hào)處理、陣列信號(hào)處理;
龍 超(1966— ),女,高級(jí)實(shí)驗(yàn)師,主要研究方向?yàn)闄C(jī)器人聽(tīng)覺(jué);
黃桂敏(1965— ),教授,博士生導(dǎo)師,主要研究方向?yàn)橛?jì)算機(jī)網(wǎng)絡(luò)。
責(zé)任編輯:時(shí) 雯
Front-end Robust Study for Continuous Speech Recognition
HU Dan, ZENG Qingning, LONG Chao, HUANG Guimin
(SchoolofInformationandCommunication,GuilinUniversityofElectronicTechnology,GuangxiGuilin541004,China)
For the accuracy rate of large vocabulary continuous speech recognition is low, using a speech enhance system before recognition is proposed. In this system, spectral subtraction and logarithmic minimum mean square error (logmmse) is combined with improved minimum controlled recursive average algorithm (imcra) which for noise estimation. In recognition system, Mel Frequency Cepstral Coefficients (MFCC) is used to extract features and Hidden Markov Model (HMM) is used to training and recognition. Experimental results show that word recognition rate increased by 38.9% and sentence accuracy rate increase by 21.8% due to the use of the method proposed in this paper. The method used for large vocabulary continuous speech recognition is feasible and effective.
continuous speech recognition; speech enhancement; HMM; imcra; sentence correct rate
國(guó)家自然科學(xué)基金項(xiàng)目(61461011;41201479);廣西自然科學(xué)基金項(xiàng)目(AA053232;BA118273);桂林電子科技大學(xué)研究生科研創(chuàng)新項(xiàng)目(GDYCSZ101456)
TN912.34
A
10.16280/j.videoe.2015.24.010
2015-06-18
【本文獻(xiàn)信息】胡丹,曾慶寧,龍超,等.連續(xù)語(yǔ)音識(shí)別前端魯棒性研究[J].電視技術(shù),2015,39(24).