倪曼蒂,李 彪,鄒麗萍,張楚才
(1.湖南商務(wù)職業(yè)技術(shù)學(xué)院,中國(guó)長(zhǎng)沙 410205;2.中南大學(xué)軟件學(xué)院,中國(guó)長(zhǎng)沙 410004;3.湖南師范大學(xué)數(shù)學(xué)與計(jì)算機(jī)科學(xué)學(xué)院,中國(guó)長(zhǎng)沙 410081)
雖然自動(dòng)語(yǔ)音識(shí)別(ASR)系統(tǒng)的研究已投入了大量的人員和資金,但是它還不能夠像電話一樣,作為日常生活的一部分完整地融入到人們的生活當(dāng)中.其中一個(gè)最主要的問(wèn)題就是自動(dòng)語(yǔ)音識(shí)別系統(tǒng)在噪聲和混響環(huán)境下,特別是二者混合環(huán)境下的識(shí)別性能過(guò)于低下[1].在大多數(shù)情況下,為獲得可接受的識(shí)別性能,只能依賴于麥克風(fēng)陣列的使用,即通過(guò)使用大量按照特定位置放置的麥克風(fēng)來(lái)獲取語(yǔ)音輸入和空間信息.大量的ASR研究,使用麥克風(fēng)陣列得到方向增益,以改善噪聲與混響環(huán)境中獲取信號(hào)的質(zhì)量;采用模式識(shí)別技術(shù)中的譜減法來(lái)消除噪聲和處理語(yǔ)音訓(xùn)練集與測(cè)試集不匹配問(wèn)題[2].
在日常應(yīng)用中,普通用戶既不可能隨身攜帶麥克風(fēng)陣列也不可能精確地放置它們.目前,日常使用的麥克風(fēng)是與雙通道耳機(jī)相對(duì)應(yīng)的,它能得到雙通道語(yǔ)音信號(hào),卻不能得到復(fù)雜的空間信息.如果依然采用傳統(tǒng)的信號(hào)增強(qiáng)方法(例如廣義旁瓣抵消技術(shù))來(lái)處理雙通道信號(hào),以作為語(yǔ)音識(shí)別系統(tǒng)的預(yù)處理端,那么噪聲的消除反而會(huì)帶來(lái)無(wú)法接受的語(yǔ)音失真.
譜減法[3]作為另一種消除噪聲的技術(shù),可以不依賴麥克風(fēng)陣列獲取輸入信號(hào),但是卻存在三大缺點(diǎn):(1)噪聲估計(jì)誤差過(guò)大導(dǎo)致噪聲消除時(shí)語(yǔ)音失真;(2)增強(qiáng)后的語(yǔ)音中含有明顯的“音樂(lè)噪聲”;(3)混響未被處理.
為解決上述問(wèn)題,本文基于雙聲道語(yǔ)音信號(hào)簡(jiǎn)單的空間特性,綜合使用改進(jìn)的廣義旁瓣抵消空間增強(qiáng)技術(shù)和改進(jìn)的譜減法技術(shù)作為語(yǔ)音識(shí)別系統(tǒng)的噪聲消除和信號(hào)放大的預(yù)處理端,并基于HTK開(kāi)發(fā)工具設(shè)計(jì)一個(gè)識(shí)別性能優(yōu)異的語(yǔ)音識(shí)別系統(tǒng).
圖1 系統(tǒng)結(jié)構(gòu)Fig.1 System structure
圖1為本系統(tǒng)的整體構(gòu)架.它由空間增強(qiáng)、譜減法模塊和自動(dòng)語(yǔ)音識(shí)別模塊3個(gè)主要部分構(gòu)成.
因?yàn)榭臻g線索是語(yǔ)音識(shí)別的主要部分和遠(yuǎn)場(chǎng)麥克風(fēng)語(yǔ)音識(shí)別的組織焦點(diǎn),在該ASR系統(tǒng)中,采用PASCAL“CHiME”[4]組織提供的雙通道含噪語(yǔ)音信號(hào),利用該信號(hào)簡(jiǎn)單的空間特性可以得到表現(xiàn)優(yōu)異的噪聲估計(jì).
有許多經(jīng)典的使用麥克風(fēng)陣列的方法來(lái)放大目標(biāo)信號(hào),例如通過(guò)延遲求和方式的波束形成,自適應(yīng)噪聲消除(ANC)以及獨(dú)立成分分析(ICA).它們使用麥克風(fēng)陣列得到方向增益,以改善在噪聲與混響環(huán)境中獲取信號(hào)的質(zhì)量.
通常的ASR系統(tǒng)在處理含噪信號(hào)時(shí)性能大幅度下降,因此,噪音消除是該系統(tǒng)中常見(jiàn)且必須的組成部分.當(dāng)前主流的噪聲消除技術(shù)可以分為3大部分.(1)使用時(shí)域?yàn)V波技術(shù),例如維納濾波和自適應(yīng)濾波;(2)嘗試還原原始語(yǔ)音譜的譜還原技術(shù),例如譜減法[5]和參數(shù)減法;(3)為增強(qiáng)語(yǔ)音結(jié)構(gòu),有許多基于語(yǔ)音模型的噪聲消除技術(shù),例如基于諧波模型的噪聲消除.然而,使用這些技術(shù)來(lái)獲得噪聲衰減和信噪比的改善,往往會(huì)造成語(yǔ)音失真.通常,越干凈的噪聲消除會(huì)導(dǎo)致越嚴(yán)重的語(yǔ)音失真,因此,研究設(shè)計(jì)一個(gè)針對(duì)復(fù)雜聲學(xué)環(huán)境的ASR系統(tǒng),在語(yǔ)音失真和噪聲消除之間尋找一個(gè)平衡點(diǎn),是非常重要的工作.
通過(guò)一些經(jīng)典的空間濾波和噪聲消除技術(shù)來(lái)處理麥克風(fēng)陣列在真實(shí)環(huán)境中獲取的聲音信號(hào),較直接采集含噪聲音,具有更好的聽(tīng)感知質(zhì)量.但是無(wú)論系統(tǒng)設(shè)計(jì)多么完備,獲得的加強(qiáng)聲音中依然會(huì)有噪聲殘留和語(yǔ)音失真的問(wèn)題存在,它們能被正常人輕易的接受和識(shí)別,但是目前的ASR系統(tǒng)卻不具備這樣的能力.當(dāng)前幾乎所有的ASR系統(tǒng)都采用模式識(shí)別技術(shù),當(dāng)測(cè)試數(shù)據(jù)集接近訓(xùn)練數(shù)據(jù)集時(shí),能夠得到非常高的識(shí)別精確度.但是噪聲殘留和語(yǔ)音失真會(huì)導(dǎo)致測(cè)試數(shù)據(jù)集完全不同于“干凈”的訓(xùn)練數(shù)據(jù)集,訓(xùn)練和測(cè)試不匹配的問(wèn)題會(huì)直接導(dǎo)致ASR系統(tǒng)識(shí)別率的降低.
為解決這些問(wèn)題,前人提出許多的方法,例如模型再訓(xùn)練和自適應(yīng),特征變換和歸一化[6-7],建立環(huán)境模型和模型特征一體化技術(shù)將之使用在自動(dòng)語(yǔ)音識(shí)別模塊上,能起到良好的效果.
綜合考慮到對(duì)上面所述三部分的分析,所有的模塊都應(yīng)該整合為一體,只有通過(guò)良好的語(yǔ)音信號(hào)預(yù)處理和完善的識(shí)別系統(tǒng)自適應(yīng),才能構(gòu)架一個(gè)更優(yōu)異性能的ASR系統(tǒng).
本文提出一個(gè)簡(jiǎn)潔而具有高魯棒性的針對(duì)CHiME問(wèn)題的ASR系統(tǒng).首先,依據(jù)雙通道信號(hào)的空間信息增強(qiáng)它們,然后采用改進(jìn)的譜減法獲得增強(qiáng)信號(hào),作為ASR系統(tǒng)的輸入,最終得到識(shí)別結(jié)果和關(guān)鍵詞準(zhǔn)確率.
由于存在混響問(wèn)題,使用傳統(tǒng)方法得到雙通道信號(hào)的空間信息的有效內(nèi)容非常困難.另外,如果采用傳統(tǒng)的信號(hào)增強(qiáng)方法,例如基于廣義旁瓣相消(GSC)的波束成型,作為ASR系統(tǒng)的前端,那么噪音消除會(huì)帶來(lái)語(yǔ)音失真[8],會(huì)極大地降低ASR系統(tǒng)的識(shí)別性能.語(yǔ)音失真是由GSC多路輸入抵消器(MC)的窄帶自適應(yīng)濾波器導(dǎo)致的,它既無(wú)法良好地消除噪聲,同時(shí)還消耗昂貴的計(jì)算資源.
圖2 空間增強(qiáng)Fig.2 Spatial enhancement
本ASR系統(tǒng)的前端,利用雙通道語(yǔ)音信號(hào)的優(yōu)勢(shì),移除了典型GSC里的MC模型,使得在空間濾波的同時(shí)盡量避免語(yǔ)音失真和降低計(jì)算負(fù)擔(dān)(圖2).該模塊的主要任務(wù)是提取參考噪聲,而不再進(jìn)行噪聲消除.
該模型的輸出信號(hào)為如下的形式.
其中,xl(t)和xr(t)定義了雙通道信號(hào);s(t)為空間增強(qiáng)信號(hào);n(t)為參考噪聲.
譜減法是從噪音環(huán)境中還原“干凈”語(yǔ)音信號(hào)的經(jīng)典算法.在簡(jiǎn)單的聲學(xué)仿真環(huán)境中往往能取得較好的性能,但在真實(shí)和復(fù)雜的環(huán)境中卻常常失敗.主要原因是譜減法的噪聲估計(jì)方法是猜測(cè)語(yǔ)音輸入的靜音段,即沒(méi)有目標(biāo)語(yǔ)音只有噪聲的段,通過(guò)統(tǒng)計(jì)一個(gè)時(shí)段上的噪聲信號(hào),取其均值作為該段上的通用參考噪聲估計(jì).
通過(guò)該方法來(lái)估計(jì)噪聲信號(hào)或者得到其統(tǒng)計(jì)特性是一項(xiàng)非常困難的工作,特別是當(dāng)噪聲環(huán)境越發(fā)接近真實(shí)環(huán)境時(shí).目標(biāo)語(yǔ)音很小時(shí),會(huì)被誤估計(jì)為噪聲,噪聲過(guò)大時(shí),會(huì)被誤認(rèn)為目標(biāo)語(yǔ)音.另外的一個(gè)問(wèn)題是混響的作用,它使得雙通道信號(hào)保留了一定的目標(biāo)語(yǔ)音.此外,由于采用均值,致使在相位上的噪聲消除時(shí),存在過(guò)大噪聲的語(yǔ)音會(huì)存在噪聲殘留,而存在較少噪聲的部分會(huì)存在目標(biāo)語(yǔ)音過(guò)度削減[9],且缺乏實(shí)時(shí)性.
把這些因素加入考慮之中,本系統(tǒng)將噪聲估計(jì)前置到空間增強(qiáng)模塊,開(kāi)發(fā)了一個(gè)改進(jìn)的譜減法的模塊,如圖3所示.
圖3 改進(jìn)的譜減法Fig.3 Improved spectral subtraction
算法流程為:
輸入的含噪空間增強(qiáng)語(yǔ)音可以簡(jiǎn)單表示為:
FFT轉(zhuǎn)換之后,得到式(2).利用最小值跟蹤算法對(duì)Yk進(jìn)行估計(jì),得到噪聲譜估計(jì)Nk.
對(duì)式(2)結(jié)果的兩邊取平方,因?yàn)閟(t)與n(t)獨(dú)立,式子左右取能量(即振幅)時(shí),得到式(3):
因此干凈語(yǔ)音信號(hào)的估計(jì)值為式(4):
式(4)中的α=1,γ=2就是基本的譜減法,而改進(jìn)譜減法一般是調(diào)整二者的值,本系統(tǒng)不但調(diào)整了取值,而且改進(jìn)了譜減法的構(gòu)架.為了在譜減法信號(hào)中消除噪聲而不導(dǎo)致巨大的目標(biāo)語(yǔ)音失真,本模塊主要做了兩方面的工作:一是噪聲估計(jì)被空間增強(qiáng)模塊的參考噪音輸出取代,二是使用離散余弦變化取代了傅立葉變換,降低了減法因素α的最小值.
本系統(tǒng)的整體算法輸出結(jié)果如下:
對(duì)文獻(xiàn)[10]所介紹的針對(duì)CHiME問(wèn)題的ASR模塊做了兩個(gè)改動(dòng),以實(shí)現(xiàn)測(cè)試與最終數(shù)據(jù)集的匹配和自適應(yīng).本模塊基于 HTK package(version 3.4.1).
采用倒譜均值歸一化(CMN)實(shí)現(xiàn)標(biāo)準(zhǔn)39-梅爾倒頻譜系數(shù)(MFCC),以單詞為建模單元建立從左到右的帶自跳轉(zhuǎn)不帶狀態(tài)間跨跳的7高斯混合隱馬爾科夫模型(HMMs).通過(guò)觀察發(fā)現(xiàn),這些靜音部分如果不單獨(dú)建模,那么在訓(xùn)練數(shù)據(jù)集的腳本和聲音信號(hào)之間將會(huì)產(chǎn)生巨大的不匹配.根據(jù)這一結(jié)果,對(duì)于這些靜音,建模非常必要.全盤考慮這一現(xiàn)象,這些靜音被單獨(dú)建模為4狀態(tài)的隱馬爾科夫模型(HMMs).此外,對(duì)于識(shí)別所采用的語(yǔ)法如下:
訓(xùn)練說(shuō)話人相關(guān)HMM模型,需要面對(duì)數(shù)據(jù)稀疏的問(wèn)題.首先在開(kāi)始階段先訓(xùn)練出說(shuō)話人無(wú)關(guān)的HMM模型[11],再使用說(shuō)話人相關(guān)的語(yǔ)料額外執(zhí)行4次EM訓(xùn)練的迭代.經(jīng)過(guò)這些迭代策略,每個(gè)說(shuō)話人的模型不再近似于說(shuō)話人無(wú)關(guān)模型而是各自獨(dú)立的說(shuō)話人相關(guān)的模型,換言之,在訓(xùn)練模型和識(shí)別模型之間存在不匹配.因此,為了盡量克服這樣的不匹配,當(dāng)每個(gè)說(shuō)話人完成獨(dú)立訓(xùn)練后,使用基于最大后驗(yàn)概率的自適應(yīng)訓(xùn)練來(lái)取代額外的4次EM訓(xùn)練的迭代.
用于訓(xùn)練和評(píng)估本ASR系統(tǒng)的數(shù)據(jù),由CHiME組織提供,在其主頁(yè)上可以輕松獲取.
經(jīng)過(guò)空間增強(qiáng)和自適應(yīng)譜減法的34個(gè)說(shuō)話人在混響環(huán)境中的語(yǔ)句(采樣率16 kHz)被用為訓(xùn)練材料.34個(gè)說(shuō)話人的獨(dú)立含噪語(yǔ)句(采樣率16 kHz),經(jīng)過(guò)上述兩道工序處理,被送到ASR模塊進(jìn)行識(shí)別.
ASR系統(tǒng)的自由參數(shù)是減法因素α的最小值.使用開(kāi)發(fā)集的數(shù)據(jù)進(jìn)行調(diào)節(jié),參數(shù)α的最小值設(shè)為0.8.
最終測(cè)試結(jié)果見(jiàn)圖4.分別使用開(kāi)發(fā)數(shù)據(jù)集和測(cè)試數(shù)據(jù)集進(jìn)行HMM建模后,本系統(tǒng)的關(guān)鍵詞準(zhǔn)確率見(jiàn)表1和表2.
表1 開(kāi)發(fā)數(shù)據(jù)集各信噪比情況下關(guān)鍵詞識(shí)別率實(shí)驗(yàn)結(jié)果Tab.1 Keywords recognition accuracy of develop data on SNRS from different system structures
表2 最終測(cè)試數(shù)據(jù)集各信噪比情況下關(guān)鍵詞識(shí)別率實(shí)驗(yàn)結(jié)果Tab.2 Keywords recognition accuracy of final data on SNRS from different system structures
結(jié)果簡(jiǎn)析:
視圖的數(shù)據(jù)來(lái)源于表格.
圖5中橫軸為不同信噪比的語(yǔ)音信號(hào),縱軸為該語(yǔ)音信號(hào)在本系統(tǒng)中所取得的關(guān)鍵詞識(shí)別率,即正確識(shí)別率.
BASELINE為傳統(tǒng)語(yǔ)音識(shí)別系統(tǒng)(采用基本譜減法和基本空間增強(qiáng)進(jìn)行語(yǔ)音預(yù)處理,使用標(biāo)準(zhǔn)配置進(jìn)行語(yǔ)音識(shí)別)的關(guān)鍵詞識(shí)別率;
SIL為傳統(tǒng)技術(shù)的基礎(chǔ)上,為空白語(yǔ)音單獨(dú)建模后的關(guān)鍵詞識(shí)別率;
SIL+MAP為在SIL基礎(chǔ)上,使用了MAP自反饋技術(shù)后的關(guān)鍵詞識(shí)別率;
SIL+MAP+PLUS為在SIL+MAP的基礎(chǔ)上,使用改進(jìn)的空間增強(qiáng)技術(shù)后的關(guān)鍵詞識(shí)別率;
SIL+MAP+PLUS+SUB為本系統(tǒng)完整構(gòu)架下,即為空白語(yǔ)音單獨(dú)建模、使用MAP自反饋技術(shù)、添加改進(jìn)的空間增強(qiáng)、添加改進(jìn)的譜減法后的關(guān)鍵詞識(shí)別率.
比較結(jié)果可以看出,本文對(duì)系統(tǒng)的三大改進(jìn),都提升了系統(tǒng)在SNR為-6dB到9dB的語(yǔ)言文件關(guān)鍵詞識(shí)別率.特別是在SNR為-6dB到0dB時(shí),提升非常顯著,每個(gè)模塊或技術(shù)加入系統(tǒng)后,對(duì)關(guān)鍵詞識(shí)別率的提升百分比如圖5.
圖4 各信噪比下不同系統(tǒng)構(gòu)建關(guān)鍵詞識(shí)別率Fig.4 Keywords recognition accuracy on SNRs from different system structures
圖5 不同信噪比下不同方法對(duì)關(guān)鍵詞識(shí)別率的提升百分比Fig.5 Percentages of keywords recognition accuracy on SNRs improved from different system structures
SIL對(duì)靜音部分的單獨(dú)建模,糾正了訓(xùn)練腳本未標(biāo)記這些部分的錯(cuò)誤,改變了信號(hào)與訓(xùn)練腳本的不匹配,SIL的加入對(duì)性能提升大有幫助.
MAP的加入使得模型在海量數(shù)據(jù)集的訓(xùn)練下,非常接近于說(shuō)話人相關(guān)模型,因而對(duì)關(guān)鍵詞識(shí)別率的提升顯而易見(jiàn).
PLUS層的作用,單獨(dú)看來(lái),對(duì)系統(tǒng)關(guān)鍵詞識(shí)別率提升影響很小,因?yàn)榫饪紤]語(yǔ)音失真和計(jì)算復(fù)雜度,GSC的多路輸入抵消器被移除了,該部分具有去除噪聲的功能.但該層是本系統(tǒng)SUB的基礎(chǔ),在低SNR的情況下,參考噪聲中完全不存在目標(biāo)語(yǔ)言,提供了良好的去除噪聲的基礎(chǔ).但是在高SNR的情況下,混響的存在會(huì)超越背景噪音成為首要問(wèn)題,它導(dǎo)致從空間增強(qiáng)模塊輸出的參考噪音依然殘留有目標(biāo)語(yǔ)音,譜減法模塊對(duì)整個(gè)ASR系統(tǒng)會(huì)造成傷害.盡管自適應(yīng)譜減法的最小值閾值被調(diào)低,但這依然不是一個(gè)解決該問(wèn)題的最好方法.在圖5可以看出,高信噪比情況下,在PLUS的基礎(chǔ)上加入SUB層,對(duì)關(guān)鍵詞識(shí)別率的提升非常小,甚至反而降低了關(guān)鍵詞識(shí)別率.可以預(yù)見(jiàn)隨著SNR的增加,這個(gè)現(xiàn)象會(huì)越發(fā)明顯.
本文針對(duì)語(yǔ)音識(shí)別這一交叉性強(qiáng)的學(xué)科,打破傳統(tǒng)的語(yǔ)音識(shí)別系統(tǒng)局限于利用有限的技術(shù),不斷挖掘技術(shù)潛力,來(lái)達(dá)到提高性能的研究模式,提出了一種全新的綜合性構(gòu)架,并取得了實(shí)質(zhì)性的成效;考慮到人類聽(tīng)覺(jué)的生理情況,結(jié)合空間增強(qiáng)層得出的無(wú)目標(biāo)語(yǔ)言的參考噪聲,對(duì)譜減法模塊做了積極的改變.將去除噪聲操作從空間增強(qiáng)層移動(dòng)到了效率更高的譜減法層,將噪聲估計(jì)移動(dòng)到空間增強(qiáng)層,使得整個(gè)系統(tǒng)的分工更加明確,以降低耦合,提高魯棒性;使用了倒譜均值歸一化實(shí)現(xiàn)標(biāo)準(zhǔn)39維-梅爾倒頻譜系數(shù),為語(yǔ)音識(shí)別模塊加入基于最大后驗(yàn)概率的自適應(yīng)訓(xùn)練,提高了訓(xùn)練效率和系統(tǒng)整體性能.
[1]宋志章,馬 麗,劉省非,等.混合語(yǔ)音識(shí)別模型的設(shè)計(jì)與仿真研究[J].計(jì)算機(jī)仿真,2012,29(5):152-155.
[2]HIRSCH H G,PEARCE D.The aurora experimental framework for the performance evaluation of speech recognition systems under noisy conditions[C]//ASR2000-Automatic Speech Recognition:Challenges for the new Millenium ISCA Tutorial and Research Workshop(ITRW).Paris,F(xiàn)rance,2000,9:18-20.
[3]張 滿,陶 亮,周 健.基于實(shí)值離散Cabor變換的譜減法語(yǔ)音增強(qiáng)[J].計(jì)算機(jī)工程與應(yīng)用,2012,48(29):109-113.
[4]BARKER J,VINCENT E,MA N,et al.The PASCAL CHiME speech separation and recognition challenge[J].Computer Speech Language,2013,27(3):621-633.
[5]BOLL S.Suppression of acoustic noise in speech using spectral subtraction[J].Speech and Signal Processing,IEEE Transactions,1979,27(2):113-120.
[6]HERMANSKY H,MORGAN N.RASTA processing of speech[J].Speech and Audio Processing,IEEE Transactions,1994,2(4):578-589.
[7]CHEN C P,BILMES J,ELLIS D P W.Speech feature smoothing for robust ASR[C]//2005 IEEE International Conference on Acoustics,Speech,and Signal Processing:Proceedings:March 18-23,2005.
[8]BRANDSTEIN,MICHAEL,DARREN WARD.Microphone arrays:signal processing techniques and applications[M].New York:Springer,1996:20-75.
[9]KAUPPINEN I,ROTH K.Improved noise reduction in audio signals using spectral resolution enhancement with time-domain signal extrapolation[J].Speech and Audio Processing,IEEE Transactions,2005,13(6):1210-1216.
[10]NAOYA W,NOBORU H,YOSHIKAZU M,et al.A noise robust speech detection system using MFCC analysis[R].電子情報(bào)通信學(xué)會(huì)技術(shù)研究報(bào)告.ディジタル信號(hào)処理,2003,103(146):25-30.
[11]肖 勇,覃愛(ài)娜.改進(jìn)的HMM和小波神經(jīng)網(wǎng)絡(luò)的抗噪語(yǔ)音識(shí)別[J].計(jì)算機(jī)工程與應(yīng)用,2010,46(22):162-166.