基于雙向循環(huán)神經網絡的語音識別算法

2020-06-08 10:26:50葛言碌張澎孫杰陳宇

電腦知識與技術 2020年10期

葛言碌張澎孫杰陳宇

摘要：由于傳統語音識別算法識別耗時長且準確率低，該文提出了一種基于雙向循環(huán)神經網絡來進行語音識別的方法。循環(huán)神經網絡能夠進行記憶，是一種特殊的神經網絡，它在NLP領域取得了很大的成功。相比于單向神經循環(huán)網絡，雙向循環(huán)神經網絡在識別的正確率上有著更大的優(yōu)勢。實驗證明，相比于單獨的SGMM，DNN等語音識別算法，雙向循環(huán)神經網絡算法對語音識別的錯誤率更低，對語音識別的研究具有重大意義。

關鍵詞：語音識別;雙向循環(huán)神經網絡;深度神經網絡;遞歸神經網絡

中圖分類號：TP399 文獻標識碼：A

文章編號：1009-3044（2020）10-0193-03

語音識別是指通過信息技術將語音這一音頻轉化成文字。如今互聯網急速發(fā)展，語音識別也是人工智能方面炙手可熱的一個重要研究分支，在近些年來也在不斷地進步發(fā)展。在現實應用的過程中，語音識別經常與翻譯，交流，聲控等實際應用相結合，提供一個通過語音實現人與機器之間的自由交互方法。

1933年，西班牙的神經生物學家Rafael Lorente de N6發(fā)現了大腦皮層的解剖結構允許刺激在神經回路中循環(huán)傳遞，他因這一發(fā)現提出了反響回路假設。在此之后，美國學者JohnHopfield基于Little的神經數學模型使用二元節(jié)點提出了有結合存儲能力的神經網絡——Hopfield神經網絡。接著MichaelI.Jordan基于Hopfield網絡結合存儲這一概念，在分布式并行處理的理論下建立了新的循環(huán)神經網絡——Jordan網絡。1991年，Sepp Hochreiter發(fā)現了循環(huán)神經網絡有長期依賴這一問題，為解決這個問題，引入了大量優(yōu)化理論，并且還衍生了很多改進后的算法，其中雙向循環(huán)神經網絡就是其中比較典型的一個。循環(huán)神經網絡剛誕生就被用于語音識別這一功能上，但它的表現不佳。因此在二十世紀90年代的早期，有學者曾經嘗試把SRN與其他的概率模型，如隱馬爾可夫模型結合來提升其功能。雙向循環(huán)神經網絡提出后循環(huán)神經網絡對自然語言的處理能力得到了顯著提高。怛在20世紀90年代，由于當時的時代背景，基于循環(huán)神經網絡的相關技術成果并沒有得到大規(guī)模的推廣被人使用。在進入21世紀以后，伴隨深度學習方法的逐漸成熟與被人接受，對數據計算能力的顯著提升與各中特征學習技術的不斷出現，結構復雜但實用性很強的雙向循環(huán)神經網絡逐漸在自然語言處理的相關問題中嶄露頭角，并逐漸成為語音識別方面的一個重要算法。

本文主要應用的是，以雙向循環(huán)神經網絡為核心，與動態(tài)規(guī)劃，深度神經網絡，快速傅里葉變換等算法相結合對語音進行識別。實驗表明，采用以雙向循環(huán)神經網絡為核心的算法能夠使語音識別的錯誤率更低，實用性更強。

1基本理論

1.1循環(huán)神經網絡（RNN）

循環(huán)神經網絡是神經網絡結構中的一種，它是類比于我們的認知而產生的一種觀點。由于人的認知受過去的經歷影響，循環(huán)神經網絡和深度神經網絡。卷積神經網絡卷積神經網絡不同的是：它不只考慮上一時刻的輸入，而且賦予了網絡對前面的內容的一種“記憶”功能。

RNN的提出是由于研究發(fā)現一個序列在某一時刻的輸出與之前的輸出有不可分割的關系，所以叫作循環(huán)神經網絡。其具體表現在網絡會對之前的有關信息儲存并將其應用于當前輸出的相關計算中，簡而言之就是隱藏層之間的節(jié)點是有連接的。

1.2深度神經網絡（DNN）

神經網絡技術誕生在20世紀50-60年代，在那時它叫感光機。它分為三部分：輸入層，隱藏層，輸出層。在輸入層有已經轉換成特征向量的輸入信號，然后它會在隱藏層中經過處理，處理完后再傳人輸出層，在輸出層得到分類結果。但是因為它對比較復雜的函數處理起來較顯無力，深度神經網絡也就應運而生。在眾多層中第一層是輸入層，負責特征向量的輸入，其他的除了最后一層，中間的若干層都是隱藏層，而最后一層是輸出層。所以DNN也可以理解為是一種有許多隱藏層的神經網絡。

DNN值中，層層間都是連接的，每一層的每一個神經元都與和這一層相鄰的層直接相連。深度神經網絡看似非常復雜，但是以單元的角度來看其實也都是由若干個重復的部分組成的。

DNN與大多數傳統意義上的機器學習算法并不一樣，它不需要人工干預就可以進行自動特征提取，在對沒有標記的數據進行訓練時，深層網絡中的各個節(jié)點層抽取樣本的輸入來自動學習特征。深度神經網絡處理和學習大量沒有標記的數據的能力相比較于之前的其他各個算法還是有很顯著的優(yōu)勢的。但與此同時，也有一定的缺陷，DNN在訓練模型時相比于傳統方法要耗費更長的時間，隨之而來的成本也比傳統方法更高。

1.3梅爾頻率倒譜系數（MFCC）

為了讓電腦識別我們的音頻數據，我們首先要將音頻數據從時域轉到頻域，這讓才能夠提取特征，而MFCC是語音識別中廣泛使用的特征。

對于一段音頻文件我們將其分為很多幀，每幀經過快速傅里葉變換得到一個頻譜，頻譜能夠反映信號頻率與能量間的關系。在具體繪圖時，我們對各譜線的振幅都做了對數計算，是為了使振幅較低的成分相對振幅較高的部分更加明顯，這就是對數振幅譜，這類頻譜圖更便于觀察在低振幅噪聲中的周期信號。語音有比較常用的頻率，也就是重要頻率，我們稱這樣的頻率形成的峰為共振峰，這類峰也可以看作一種辨識符號，通過它我們可以來區(qū)分聲音，這也是我們要將其提取的原因。這樣我們可以得到一段語音的頻譜，但人的聽覺只能聽到少數頻率的聲音，對于很多頻率的聲音我們是聽不到的。梅爾頻率分析就是由于人在這一方面的特點而產生的，實驗證明了人只能聽見在坐標軸上并不連續(xù)的某些頻率。并且不同頻率密度不同。大致滿足低頻密集高頻稀疏這一特點。MFCC通過這一點將我們日常中的音頻轉化成為特征向量，每一個向量就可以代替某一幀，作為其特征。

1.4雙向循環(huán)神經網絡

由于普通的循環(huán)神經網絡在很多方面有缺陷，因此提出了雙向循環(huán)神經網絡這一概念。因為很多具體的事情是需要結合未來的數據才能得到答案的，而單向循環(huán)神經網絡只關心與過去的數據，它并不能實現這一效果。BRNN是又兩個循環(huán)神經網絡相反方向合并而成，并且這兩個相反方向的單向循環(huán)神經網絡都會和輸出層直接相接觸。所以為了結合未來數據增添了反向循環(huán)神經網絡，兩個方向的網絡結合到一起形成BRNN在過去與未來共同基礎下決定輸出的治愈后答案，使我們最后得到的結果更加的準確。

雙向循環(huán)神經網絡的具體結構由向前和向后層共同連接輸出層。對于雙向循環(huán)神經網絡它的隱含層，向前推算跟單向的循環(huán)神經網絡是一樣的。對于任何一個時間t，它的輸入會同時提供給兩個方向相反的單向循環(huán)神經網絡，輸出也將由這兩個單向循環(huán)神經網絡共同來決定。這種共同決定的方式也注定著帶來優(yōu)勢和劣勢。優(yōu)勢是兼顧全局必定能使他做出正確決策的概率將會提高，而劣勢則是每次輸出他的判斷其實會變得很復雜，相應的也會付出更多的時間與成本了。

2實驗過程及結果

2.1實驗過程

本實驗采用的公共數據集是清華大學中文語料庫THCHS-30，這個數據集包含一個時長25小時共包含10000句子近20萬詞的訓練集，一個時長2小時14分893個句子一萬七千多詞的開發(fā)集與一個6小時15分2495個句子近5萬詞的測試集。

選擇完數據集后，采用上文提到的流程進行語音識別，通過基于雙向循環(huán)神經網絡的語音識別方法對其進行訓練和測試并得到實驗結果。其實驗流程具體如下圖：

2.2實驗結果

在具體的實驗中，我們首先用快速傅里葉變換對所選的樣本進行特征提取，接下來用雙向循環(huán)神經網絡對提取出來的MFCC特征數據進行訓練和測試。

由于單獨的一個方法的錯誤率并不能體現我們的算法是否具有優(yōu)勢，所以為了確認這一點，所以我還同時分別做了以DNN和RNN為核心的算法對測試集來測試并進行對比。經過試驗，得到了下表的錯誤率對比。

通過觀察由我們實際實驗得到的結果表2，我們可以發(fā)現單向循環(huán)神經網絡RNN的錯誤率是要低于比較傳統的DNN的，這也體現循環(huán)神經網絡在語音識別中是能起到一定的作用的。而且BRNN的錯誤率明顯低于RNN的錯誤率，說明雙向循環(huán)神經網絡在語音識別中的準確性是要顯著比單向循環(huán)神經網絡要高的。這一點也體現了語音識別方面當前語音對應的文字跟之后的語音是有很大關系的，結合之后的語音可以很明顯地提高語音識別的正確率。

3結論

本文采用基于雙向循環(huán)神經網絡的語音識別方法對模型進行訓練。首先和傳統的語音識別方法一樣我們先用FFT輔助提取出MFCC并加以識別，識別得到一個特征向量將它轉換為文字并輸出。基于雙向循環(huán)神經網絡的語音識別方法在語音識別的精確度角度來看，在一定程度上提高了語音識別的準確率。但與此同時在實驗中也發(fā)現了這個算法的一些缺陷，就是它在訓練時間上顯著要比傳統算法與單向循環(huán)神經網絡要長，這可能會造成在開發(fā)中需要更多的成本。但無論在測試還是在實際應用時都具有很好的表現，具有很大的應用價值。