摘 要
針對噪音環(huán)境下,語音識別率嚴重下降,根據(jù)清濁音發(fā)音原理的不同,提出一種清濁音分離抗噪的語音識別算法。實驗結(jié)果表明,該方法能在噪音環(huán)境下明顯提高語音識別率。
【關(guān)鍵詞】語音識別 清音 濁音 高斯模型 超高斯模型
語音識別技術(shù)就是讓機器接收,識別和理解語音信號,并將其轉(zhuǎn)換成相應數(shù)字信號的技術(shù)。1956年,普林斯頓大學RCA實驗室成功運用模擬電路將識別語音與模板語音進行對比(運算),從而開發(fā)出單音節(jié)識別系統(tǒng)。1959年,英國的Fry和Denes等人共同開發(fā)出一個改進的語音識別器,它能識別出9個輔音和4個元音,同時他們還制定了一些與音素序列有關(guān)的規(guī)則,這標志著人類開始對語音中元音和輔音的分別研究。上個世紀八十年代,一種由馬爾可夫鏈演變而來,并用參數(shù)表示的用于描述隨機過程統(tǒng)計特性的概率模型得到了空前的發(fā)展,目前大部分語音識別系統(tǒng)都是以它作為基本框架來建模,這便是隱馬爾可夫模型(Hidden Markov Model,HMM)。該模型能在安靜環(huán)境中或某種特定噪音環(huán)境中,取得很好的識別效果。但對于復雜的噪音環(huán)境,識別率下降顯著。針對這一弊端,本文提出一種清濁音分離抗噪的語音識別算法,它將清音和濁音進行分離,并針對各自不同的特點分別進行處理。實驗結(jié)果表明,該方法能有效降低噪音,提高噪音環(huán)境下的語音識別率,具有很高的實用性。
1 語音的聲學原理
用數(shù)字技術(shù)來描述產(chǎn)生模擬信號的語音,這一過程稱為語音信號的聲學模型。根據(jù)發(fā)音原理的不同,語音信號分為清音和濁音。清音是發(fā)音時聲帶不振動而與空氣摩擦產(chǎn)生的音。當氣流通過聲門時,如果聲道中某處面積很小,氣流高速沖過此處時產(chǎn)生湍流,當氣流速度與橫截面積之比大于某個臨界速度便產(chǎn)生摩擦音即清音。將發(fā)音時聲帶振動而產(chǎn)生的音稱為濁音,人平時說話以濁音居多。清音由白噪聲序列激勵一個線性系統(tǒng)而產(chǎn)生,這個線性系統(tǒng)僅由激勵源和輻射模型級聯(lián)而成。濁音的產(chǎn)生原理則不一樣,它是由一個周期性的δ脈沖串激勵一個線性系統(tǒng)而產(chǎn)生的輸出,該線性系統(tǒng)由激勵源、聲道模型和輻射模型級聯(lián)而成。清音和濁音的產(chǎn)生過程如圖1所示。
其中,系數(shù)Av和Au分別用來調(diào)節(jié)濁音和清音的幅度和能量。
3 實驗結(jié)果
實驗中,加入一個白噪聲序列,將普通算法,高斯模型抗噪算法與超高斯模型抗噪算法三者進行測試,分別識別不同語音,得到識別率如表1所示。
由表1可知,在白噪音的環(huán)境下,普通算法識別率非常低,不能滿足要求。而高斯模型抗噪算法,識別率明顯上升,能滿足一些要求不高的場合。超高斯模型抗噪算法識別率最高,能基本滿足實際需要。且三種算法,隨著識別語音總量的增加,其識別率都有所下降。
4 結(jié)束語
語音信號按照其發(fā)音原理的不同,可分為清音和濁音,清音靠與空氣摩擦發(fā)音,濁音靠聲帶振動發(fā)音,各自也具有不同的聲學模型。在帶噪音干擾語音識別中,超高斯分布模型考慮到語音信號自身的分布特點,以及人耳對不同頻譜相位的敏感度不同,更加真實地反映出語音頻譜的參數(shù)分布,提高了噪音下的語音識別率。但仍然忽略掉一些高階多項式,而這些多項式在特定場合下是需要考慮的,這正是今后需要進一步研究的。
參考文獻
[1]李云.基于HMM的語音分組識別系統(tǒng)的研究[D].廣州:廣東工業(yè)大學,2013:1-3.
[2]李云.語音分組識別技術(shù)的研究[J].廣東工業(yè)大學學報,2014,31(02):1-4.
[3]李云.快速語音識別算法的研究[J].信息技術(shù),2017,17(02):27-28.
[4]何勇軍.語音識別中寬帶失配的補償研究[J].計算機學報,2011,34(09):1629-1637.
[5]嚴斌峰.語音識別確認中的置信特征和判定算法[J].軟件學報,2006,17(12):2547-2553.
[6]袁勝龍.基于深層神經(jīng)網(wǎng)絡(luò)的藏語識別[J].模式識別與人工智能,2015,28(03):209-213.
[7]楊淑瑩.基于免疫貓群優(yōu)化算法的矢量量化的碼書設(shè)計及語音識別[J].模式識別與人工智能,2014,27(07):577-583.
[8]崔金鐘.基于DHMM的嵌入式語音識別系統(tǒng)的實現(xiàn)與優(yōu)化[J].電子科技大學學報,2013,42(06):930-934.
[9]劉曉峰.Logistic核函數(shù)及其在語音識別中的應用[J].華南理工大學學報(自然科學版),2015,43(05):100-106.
[10]王憲亮.基于SVM一對一分類的語種識別方法[J].清華大學學報(自然科學版),2013,53(06):808-812.
[11]Zhang Rui.Facilitating the applications of support vector machine by using a new kernel[J]. Expert Systems with Applications,2011,38(11):14225-14230.
[12]王國勝.核函數(shù)的性質(zhì)及其構(gòu)造方法[J].計算機科學,2006,33(06):172-174.
[13]Du pei-jun.Wavelet SVM in reproducing kernel Hilbert space for hyperspectral remote sensing image classification[J].Optics Communications,2010,283(24):4978-4984.
[14]李冠宇.藏語拉薩話大詞表連續(xù)語音識別聲學模型研究[J].計算機工程,2012,38(05):189-191.
[15]Hinton G E. A Fast Learning Algorithm forDeep Belief Nets.Neural Computation[J].2006,18(07):1527-1554.
作者簡介
李云(1984-),男,四川省廣漢市人。碩士學位。助教。2013年6月畢業(yè)于廣東工業(yè)大學,現(xiàn)在四川信息職業(yè)技術(shù)學院擔任教師工作。主要研究方向為語音識別,從事語音識別算法研究及語音識別產(chǎn)品開發(fā)。
作者單位
四川信息職業(yè)技術(shù)學院 四川省廣元市 628000endprint