• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于雙向循環(huán)神經(jīng)網(wǎng)絡(luò)的漢語語音識(shí)別*

      2020-09-25 03:04:10楊元維高賢君杜李慧蔣夢(mèng)月張凈波
      應(yīng)用聲學(xué) 2020年3期
      關(guān)鍵詞:錯(cuò)誤率音頻神經(jīng)元

      李 鵬 楊元維 高賢君 杜李慧 周 意 蔣夢(mèng)月 張凈波

      (長江大學(xué)地球科學(xué)學(xué)院 武漢 430100)

      0 引言

      語音識(shí)別是指計(jì)算機(jī)能夠理解人的語言,將音頻信息轉(zhuǎn)換成文本信息。隨著互聯(lián)網(wǎng)技術(shù)和人工智能技術(shù)的飛速發(fā)展,語音識(shí)別被逐漸應(yīng)用到各個(gè)領(lǐng)域內(nèi),因此與之相關(guān)的研究也越來越受到重視。特別地,Google、Microsoft、科大訊飛、百度等公司,都爭相在語音識(shí)別上投入大規(guī)模的研發(fā),推出相關(guān)的算法、軟件及應(yīng)用。語音識(shí)別的產(chǎn)業(yè)化也進(jìn)一步推動(dòng)著語音識(shí)別技術(shù)的發(fā)展。

      語音識(shí)別的相關(guān)研究最早可以追溯至20 世紀(jì)50 年代AT&T 貝爾研究室。該研究室的Audry 系統(tǒng)基于簡單的孤立詞,能夠?qū)?0 個(gè)單音節(jié)單詞進(jìn)行識(shí)別。在60 年代提出的動(dòng)態(tài)時(shí)間規(guī)整(Dynamic time warping,DTW)方法[1],有效解決了兩個(gè)不同長度音頻片段的對(duì)齊問題。隨后語音識(shí)別研究進(jìn)一步發(fā)展,線性預(yù)測分析技術(shù)(Linear predictive coding,LPC)被擴(kuò)展應(yīng)用[2],DTW也基本成熟。與此同時(shí),隱馬爾科夫模型(Hidden Markov model,HMM)理論被提出。隨著HMM技術(shù)不斷成熟和完善,語音識(shí)別從原來的模板匹配的方法轉(zhuǎn)變?yōu)楦怕誓P偷姆椒╗3],并且以HMM 相關(guān)模型為主要研究方法[4]。而后,人工神經(jīng)網(wǎng)絡(luò)(Artificial neural net,ANN)逐漸被用于語音識(shí)別的研究中[5],以尋求新的突破。楊華民等[6]采用ANN 進(jìn)行語音識(shí)別的原理,給出了求解語音特征參數(shù)和典型神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)過程,通過具體的實(shí)例展示了ANN 技術(shù)的實(shí)用化。但傳統(tǒng)神經(jīng)網(wǎng)絡(luò)本身也存在需要大量標(biāo)記數(shù)據(jù)等問題。2006年,Hinton等[7]提出了深度學(xué)習(xí)的概念。此后,深度學(xué)習(xí)以其良好的普適性被應(yīng)用到語音識(shí)別領(lǐng)域里,打破了HMM的主導(dǎo)局面,極大地提升了基于傳統(tǒng)神經(jīng)網(wǎng)絡(luò)的語音識(shí)別系統(tǒng)的性能,突破了某些應(yīng)用情景中的識(shí)別瓶頸[8]。

      在深度學(xué)習(xí)的大環(huán)境下,最初應(yīng)用在語音識(shí)別里的是深度置信網(wǎng)絡(luò)(Deep belief network,DBN)[9],能夠?qū)ι窠?jīng)網(wǎng)絡(luò)進(jìn)行預(yù)訓(xùn)練以達(dá)到使模型穩(wěn)定的效果。而后深度神經(jīng)網(wǎng)絡(luò)(Deep neural network,DNN)、卷積神經(jīng)網(wǎng)絡(luò)(Convolution neural network,CNN)和循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent neural network,RNN)等相繼問世,這引發(fā)了人們對(duì)各類神經(jīng)網(wǎng)絡(luò)進(jìn)行深入研究。張仕良[10]指出基于DNN 的訓(xùn)練速度相較于CNN 或RNN 的更快,然而利用DNN 進(jìn)行語音識(shí)別卻未能良好解決其中較為重要的時(shí)序問題。DNN 和CNN 對(duì)輸入的音頻信號(hào)的感受視野相對(duì)固定,所以對(duì)于與時(shí)序相關(guān)的問題不具有較好的處理能力。RNN 在隱含層存在反饋連接,它能通過遞歸來挖掘序列中上文的相關(guān)信息,在一定程度上克服DNN 和CNN 的缺點(diǎn)[11],但是卻無法挖掘序列中下文的相關(guān)信息。隨后,Schuster等[12]提出雙向循環(huán)神經(jīng)網(wǎng)絡(luò)(Bidirectional RNN,Bi-RNN),并彌補(bǔ)了RNN 的缺點(diǎn),能夠同時(shí)利用上下文信息,在時(shí)序問題上相對(duì)于RNN識(shí)別正確率取得了進(jìn)一步的提升。因此本文基于Bi-RNN 模型在語音識(shí)別方面進(jìn)行研究,從言語產(chǎn)生與言語感知的角度對(duì)Bi-RNN 進(jìn)行更深層次的解讀,探討了Bi-RNN 模型在不同噪聲環(huán)境中的識(shí)別效果,并進(jìn)行大量的實(shí)驗(yàn),選取出一套適合本模型的參數(shù),進(jìn)一步地降低了語音識(shí)別錯(cuò)誤率。

      在進(jìn)行語音識(shí)別之前,本文首先對(duì)音頻進(jìn)行預(yù)處理。預(yù)處理包括對(duì)音頻進(jìn)行預(yù)加重、分幀和加窗。對(duì)預(yù)處理之后的音頻做語音特征提取,即將音頻轉(zhuǎn)化為梅爾頻率倒譜系數(shù)(Mel frequency cepstral coefficient,MFCC)。再用訓(xùn)練集迭代訓(xùn)練模型,將訓(xùn)練后的模型對(duì)測試集進(jìn)行實(shí)驗(yàn),最后得到識(shí)別結(jié)果。

      1 循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)

      1.1 人工神經(jīng)網(wǎng)絡(luò)

      ANN 是一種由大量簡單處理單元(神經(jīng)元)按照不同的連接方式組成的運(yùn)算模型。一個(gè)神經(jīng)元的模型如圖1所示。在結(jié)構(gòu)上可以將人工神經(jīng)網(wǎng)絡(luò)劃分為3層——輸入層、隱含層、輸出層(圖2)。神經(jīng)網(wǎng)絡(luò)的輸入/輸出關(guān)系表示為下列公式:

      圖1 神經(jīng)元模型Fig.1 Neuron model

      圖2 神經(jīng)元網(wǎng)絡(luò)Fig.2 Neural network

      其中:wij為連接權(quán)重,即神經(jīng)元i與神經(jīng)元j之間的連接強(qiáng)度;χj為神經(jīng)元i的某個(gè)狀態(tài)變量;θi為神經(jīng)元i的閾值;ui為神經(jīng)元i的活躍值;oj為神經(jīng)元i的一個(gè)輸出;f為激活函數(shù)。

      1.2 單向循環(huán)神經(jīng)網(wǎng)絡(luò)

      在DNN 或者CNN 中,它們的基本前提是每層之間的節(jié)點(diǎn)連接是相互獨(dú)立的。這樣的結(jié)構(gòu)存在一個(gè)潛在的弊端,即無法對(duì)具有時(shí)間特性的相關(guān)信息來建立模型。然而語音識(shí)別卻是一個(gè)典型的具有時(shí)間特性的問題[13],輸入順序是一個(gè)非常重要的因素,它不類似于圖像識(shí)別——對(duì)輸入的順序無特殊要求。因此為了解決DNN、CNN 的這種弊端,對(duì)RNN的研究在20世紀(jì)80年代迅速開展起來。

      相較于DNN或者CNN,RNN最大的不同之處就是在隱含層中增加了節(jié)點(diǎn)之間的連接[14-15],這使得隱含層的輸入不僅來源于輸入層,還包含了隱含層前一時(shí)刻的輸出。RNN 是根據(jù)人的記憶原理而產(chǎn)生的。比如一句話“我要去飯吃了”,這句話聽起來很奇怪,這是因?yàn)榇竽X接收到這段話會(huì)受到刺激,進(jìn)而產(chǎn)生預(yù)測功能。如果“我要去”后面跟著“吃”,就感覺很正常。從言語產(chǎn)生和言語感知的角度來理解,這是因?yàn)榇竽X對(duì)每個(gè)字的先后順序是有一定的判斷的。其模型如圖3所示。

      在RNN 中,上一時(shí)間點(diǎn)到當(dāng)前時(shí)間點(diǎn)變換過程中每層的權(quán)重W是共享的,這樣在很大程度上減少了訓(xùn)練參數(shù)數(shù)目。圖3 中,W0表示輸入層與隱含層之間的權(quán)重值,W1表示上一時(shí)刻隱含層到當(dāng)前時(shí)刻隱含層之間的權(quán)重值,W2表示隱含層與輸出層之間的權(quán)重值;S(t)表示隱含層的第t個(gè)RNN 節(jié)點(diǎn)的輸出狀態(tài)。

      圖3 循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)Fig.3 The structure of RNN

      1.3 雙向循環(huán)神經(jīng)網(wǎng)絡(luò)

      由1.2 節(jié)可知,傳統(tǒng)的RNN 只是利用了上一時(shí)刻的信息,而在具有時(shí)間特性的語言序列中,有很多需要同時(shí)聯(lián)系過去與未來時(shí)刻的信息。同樣是這句話“我要去飯吃了”,如果說出“飯”的前面一個(gè)字是什么,大腦可能需要時(shí)間思考一下,甚至要再默念一遍這句話,而不是反著讀這句話“了吃飯去要我”,但最終都會(huì)找到這個(gè)字。這種現(xiàn)象引發(fā)了兩個(gè)很值得思考的問題:第一,大腦可以通過一定的規(guī)則而找到“飯”這個(gè)字前面的字,這種現(xiàn)象可以理解為大腦對(duì)于信息的存儲(chǔ),并不是簡單的單獨(dú)存儲(chǔ),而是一種鏈條式的存儲(chǔ)方式,這種方法有個(gè)極大的好處,大腦只要記住相關(guān)的存儲(chǔ)規(guī)則或者方法就可以,這樣大大節(jié)省了很多空間。第二,大腦很難進(jìn)行反方向的搜尋信息?;谶@種現(xiàn)象,Bi-RNN 應(yīng)運(yùn)而生,相對(duì)于CNN 結(jié)構(gòu)與DNN 結(jié)構(gòu),其最大的特點(diǎn)在于能夠?qū)⑦^去與未來的信息作為輸入再一次地輸入到神經(jīng)元,這種結(jié)構(gòu)非常適合具有時(shí)序性質(zhì)的數(shù)據(jù),但同時(shí)也可能需要更長的訓(xùn)練時(shí)間。Bi-RNN 結(jié)構(gòu)解決了其中較為重要的時(shí)序問題,能夠?qū)σ恍┯袝r(shí)間依賴性的數(shù)據(jù)進(jìn)行更好的學(xué)習(xí),如語音識(shí)別、情感分類、文本分類、機(jī)器翻譯、詞向量的生成等,將Bi-RNN 展開后,可看出在網(wǎng)絡(luò)結(jié)構(gòu)中有一部分參數(shù)是共享的,這在一定程度上大大減少了所訓(xùn)練的神經(jīng)網(wǎng)絡(luò)參數(shù)個(gè)數(shù),同時(shí)也帶來了另一個(gè)優(yōu)勢——Bi-RNN 輸入可以是不固定長度的序列。因此基于傳統(tǒng)的RNN 計(jì)算原理,可對(duì)結(jié)構(gòu)進(jìn)行一定程度的改進(jìn),推導(dǎo)出Bi-RNN結(jié)構(gòu)。Bi-RNN 可以同時(shí)利用過去與未來時(shí)刻的信息,將時(shí)間序列信息分為前后兩個(gè)方向,輸入到模型里,并構(gòu)建向前層與向后層用來保存兩個(gè)方向的信息,同時(shí)輸出層需要等待向前層與向后層完成更新[16],才能進(jìn)行更新。其模型結(jié)構(gòu)如圖4所示。

      Bi-RNN 的整個(gè)計(jì)算過程與單向循環(huán)神經(jīng)網(wǎng)絡(luò)類似,即在單向循環(huán)神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上增加了一層方向相反的隱含層。從輸入層到輸出層的傳播過程中,共有6個(gè)共享權(quán)值。圖4中,W0表示輸入層與向前層之間的權(quán)重值,W1表示上一時(shí)刻隱含層到當(dāng)前時(shí)刻隱含層之間的權(quán)重值,W2表示輸入層與向后層之間的權(quán)重值,W3表示向前層與輸出層之間的權(quán)重值,W4表示下一時(shí)刻隱含層到當(dāng)前時(shí)刻隱含層之間的權(quán)重值,W5表示向后層與輸出層之間的權(quán)重值。Bi-RNN 結(jié)構(gòu)向前傳播的計(jì)算過程如下列公式:

      其中,X(t)表示在t時(shí)刻的輸入,S(t)表示向前層的第t個(gè)RNN 節(jié)點(diǎn)的輸出,H(t)表示向后層的第t個(gè)RNN 節(jié)點(diǎn)的輸出,O(t)表示在t時(shí)刻的輸出,b和b1表示偏置參數(shù),f和g均表示激活函數(shù)。相對(duì)于傳統(tǒng)的RNN 而言,Bi-RNN 實(shí)現(xiàn)了同時(shí)利用過去與未來時(shí)刻的信息,因此記憶效果比之前更佳。

      圖4 雙向循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)Fig.4 The structure of Bi-RNN

      2 漢語識(shí)別實(shí)驗(yàn)

      2.1 實(shí)驗(yàn)設(shè)計(jì)

      本文基于tensorflow 深度學(xué)習(xí)平臺(tái),使用Anaconda 軟件中自帶的spyder 編譯器進(jìn)行編譯,并進(jìn)行仿真實(shí)驗(yàn)。共設(shè)置了3組實(shí)驗(yàn):

      實(shí)驗(yàn)1:為了說明Bi-RNN 在語音識(shí)別上的優(yōu)越性,分別用DNN 模型與Bi-RNN 模型對(duì)不帶噪聲的訓(xùn)練集進(jìn)行實(shí)驗(yàn),并與文獻(xiàn)[17]所提出的改進(jìn)CNN算法進(jìn)行比較;

      實(shí)驗(yàn)2:為了測驗(yàn)基于某一個(gè)環(huán)境訓(xùn)練出的模型在不同背景噪聲的音頻識(shí)別效果,首先根據(jù)訓(xùn)練音頻類型共設(shè)置了3 組實(shí)驗(yàn),每組實(shí)驗(yàn)下再根據(jù)測試音頻類型分別設(shè)置3 個(gè)實(shí)驗(yàn);先用Bi-RNN 模型對(duì)3 個(gè)訓(xùn)練集分別進(jìn)行實(shí)驗(yàn),再基于3 種訓(xùn)練集所訓(xùn)練出的模型對(duì)其他噪聲類型的測試集進(jìn)行實(shí)驗(yàn);

      實(shí)驗(yàn)3:為了研究隱含層中神經(jīng)元數(shù)量對(duì)實(shí)驗(yàn)效果的影響,本實(shí)驗(yàn)基于Bi-RNN模型,通過調(diào)整隱含層神經(jīng)元個(gè)數(shù),設(shè)置8組實(shí)驗(yàn),再使用不帶噪聲的訓(xùn)練集進(jìn)行實(shí)驗(yàn)。實(shí)驗(yàn)流程圖如圖5所示。

      圖5 實(shí)驗(yàn)流程圖Fig.5 Flow chart of experiment

      2.2 數(shù)據(jù)集描述

      本文采用了兩個(gè)版本的THCHS-30 語料庫:第一個(gè)是通過單個(gè)碳粒揚(yáng)聲器,在安靜的辦公室環(huán)境下錄制的無噪聲音頻;第二個(gè)是通過簡單的波形混合,在第一個(gè)版本的數(shù)據(jù)加上了白噪聲和咖啡館噪聲,噪聲和音頻的能量相等。THCHS-30 的文本是從大容量的新聞選取出1000 句,音頻總時(shí)長超過30 h。參與該語料庫錄音的人員,大部分是會(huì)說流利普通話的大學(xué)生。

      由于計(jì)算機(jī)性能的限制,本文沒有對(duì)整個(gè)數(shù)據(jù)集進(jìn)行訓(xùn)練。選用句子的發(fā)音人數(shù)目為22人,包括15 名女生和7 名男生,每句話在30 字左右,其中陳述句居多,約為95%左右。雙音素占35%左右,三音素占53%左右,單音素與四音素共占12%左右,雙音素與三音素覆蓋率較好。本文共建立了3 個(gè)訓(xùn)練集以及3 個(gè)相對(duì)應(yīng)的測試集,每個(gè)訓(xùn)練集包括2241句話,測試集包括249句話,這3 個(gè)訓(xùn)練集的差別只是在于帶噪聲的類型,其他方面設(shè)置保持一致,并且訓(xùn)練集與測試集的文字內(nèi)容是相一致的。

      2.3 模型的構(gòu)建

      基于上述Bi-RNN 的優(yōu)點(diǎn),本文采用Bi-RNN構(gòu)建模型。在文獻(xiàn)[18]中,DNN 的性能并不是隨著層數(shù)增加而增加的,并表明3~5 個(gè)隱層的DNN 結(jié)構(gòu)是合適的。據(jù)此本文所構(gòu)建的模型共包括5層,其中第1 層、第2 層與第4 層都為852 個(gè)單元的全連接層,激活函數(shù)采用ReLU;第3 層為852 維的雙向循環(huán)神經(jīng)網(wǎng)絡(luò),為了減小模型產(chǎn)生過擬合現(xiàn)象,在每層后面加一個(gè)Dropout 層;第5層為全連接層,并采用(X+1)個(gè)單元的Softmax 用于分類,其中X表示字體的個(gè)數(shù),1 表示空白符號(hào),X+1 表示字體與空白符號(hào)的概率分布。語音識(shí)別屬于神經(jīng)網(wǎng)絡(luò)中的時(shí)序類分類,通過聯(lián)結(jié)主義時(shí)間分類(Connectionist temporal classification,CTC)來解決輸入與輸出的序列長度不等的問題。使用ctc_loss 方法來計(jì)算損失值。模型如圖6所示。

      圖6 模型結(jié)構(gòu)示意圖Fig.6 Schematic diagram of model structure

      2.4 實(shí)驗(yàn)結(jié)果與分析

      實(shí)驗(yàn)1

      用上述Bi-RNN模型對(duì)無噪聲的訓(xùn)練集進(jìn)行訓(xùn)練,測試集也使用無噪聲的音頻;同時(shí)對(duì)DNN 與RNN 構(gòu)建模型,并采用相同的方法進(jìn)行實(shí)驗(yàn),其中DNN 的模型結(jié)構(gòu)是將上述Bi-RNN 模型的第3 層Bi-RNN 層換成全連接層。Bi-RNN 與DNN 實(shí)驗(yàn)訓(xùn)練集的損失函數(shù)值和正確率分別如圖7與圖8所示。

      圖7 兩種不同模型的損失函數(shù)Fig.7 Loss function of two different models

      圖8 兩種不同模型的識(shí)別正確率Fig.8 Recognition accuracy of two different models

      由圖7 和圖8 可以看出,Bi-RNN 模型的損失函數(shù)值下降到穩(wěn)定的速度最快,且訓(xùn)練集的正確率也高。兩種模型的訓(xùn)練集的正確率相差不大,正確率都在93%左右。但測試集的效果顯示Bi-RNN 模型遠(yuǎn)強(qiáng)于DNN 模型。在用DNN 模型進(jìn)行訓(xùn)練時(shí),其在訓(xùn)練集上的效果很好,但在測試集上錯(cuò)誤率大大增加。從數(shù)據(jù)上表現(xiàn)出DNN模型產(chǎn)生了“過擬合”。

      Bi-RNN 結(jié)構(gòu)相對(duì)于DNN 結(jié)構(gòu)更加復(fù)雜,Bi-RNN 對(duì)上下文相關(guān)性的擬合較強(qiáng),理論上Bi-RNN相對(duì)于DNN 更應(yīng)該陷入過擬合的問題,而結(jié)果顯示Bi-RNN 的識(shí)別錯(cuò)誤率更低,因此單純用“過擬合”來解釋是自相矛盾的。通過對(duì)DNN的神經(jīng)元進(jìn)行多次調(diào)整,當(dāng)神經(jīng)元數(shù)量到612 時(shí),其錯(cuò)誤率最低為53.26%,相比Bi-RNN還是很高,因此并不能簡單地通過“過擬合”來解釋,說明產(chǎn)生這種現(xiàn)象根本原因在于Bi-RNN 與DNN 結(jié)構(gòu)的差異性。受到協(xié)同發(fā)音的影響,語音中的各幀之間有著很強(qiáng)的相關(guān)性,每一個(gè)字的發(fā)音受到前后幾個(gè)字的影響。在進(jìn)行輸入時(shí),DNN 是把相鄰的幾幀進(jìn)行拼接,并且其輸入窗口是固定的。而Bi-RNN 在時(shí)序問題上能夠更好地體現(xiàn)長時(shí)相關(guān)性,可以將過去與未來的信息同時(shí)輸入得到輸出結(jié)果,以作為預(yù)測當(dāng)前的輸入,能夠更加深刻地了解其內(nèi)在聯(lián)系,因此降低了錯(cuò)誤率。本文又與文獻(xiàn)[17]所提出的改進(jìn)CNN算法相比較,錯(cuò)誤率也比其提出的方法較低,可見本文的Bi-RNN模型要比文獻(xiàn)[17]所提出的改進(jìn)CNN 模型在語音識(shí)別方面性能要好。其實(shí)驗(yàn)結(jié)果如表1所示。

      表1 兩種模型的實(shí)驗(yàn)結(jié)果Table 1 Experimental results of two models

      實(shí)驗(yàn)2

      在現(xiàn)實(shí)生活中,環(huán)境因素是動(dòng)態(tài)易變的。為了測試模型在不同環(huán)境下的識(shí)別效果,首先將Bi-RNN 模型在不同類型且?guī)г胍纛l的、信噪比為0 dB 的條件下進(jìn)行訓(xùn)練再測試,實(shí)驗(yàn)結(jié)果如表2所示。

      表2 基于不同音頻訓(xùn)練實(shí)驗(yàn)結(jié)果Table 2 Based on the experimental results of different audio training

      由表2 可看出,Bi-RNN模型對(duì)3 種不同環(huán)境下的語音庫進(jìn)行訓(xùn)練以及測試。首先通過對(duì)表2 識(shí)別錯(cuò)誤率中第1、4、7 三個(gè)數(shù)據(jù)的比較,表明訓(xùn)練和測試音頻類型相同時(shí)帶有噪聲的音頻的錯(cuò)誤率要比無噪聲的音頻錯(cuò)誤率要高,其中白噪聲的錯(cuò)誤率最高,錯(cuò)誤率為27.16%,這是因?yàn)榘自肼暫涂Х瑞^噪聲同屬于加性噪聲,白噪聲屬于平穩(wěn)噪聲,咖啡館噪聲屬于緩變?cè)肼暋0自肼暿敲鞔_定義的,因?yàn)槠鋵拵c均勻連續(xù)特點(diǎn),噪聲信號(hào)與語音信號(hào)重合度很大,導(dǎo)致了對(duì)語音識(shí)別影響很大,其語譜圖如圖9所示??Х瑞^噪聲的頻譜分析雖和語音類似,而噪聲信號(hào)與語音信號(hào)重合度相對(duì)較小,對(duì)語音識(shí)別影響相對(duì)較小,其語譜圖如圖10所示。通過與純凈語音語譜圖(圖11)進(jìn)行比較,可以看出白噪聲共振峰軌跡的干擾要比咖啡館噪聲大,因此白噪聲的識(shí)別錯(cuò)誤率更高。然后通過對(duì)每組內(nèi)的3 個(gè)實(shí)驗(yàn)進(jìn)行比較時(shí),即當(dāng)訓(xùn)練音頻與測試音頻的類型不同時(shí),其識(shí)別錯(cuò)誤率大大增加,這是因?yàn)橛糜谟?xùn)練音頻的背景噪聲與測試語音的背景噪聲不一致,訓(xùn)練環(huán)境與識(shí)別環(huán)境有著巨大的差異,最終導(dǎo)致了識(shí)別語音特征與模板特征之間的失配,系統(tǒng)的性能大大降低。

      圖9 加白噪聲的音頻語譜圖Fig.9 Audio spectrum with white noise

      圖10 加咖啡館噪聲的音頻語譜圖Fig.10 Audio spectrum with cafe noise

      圖11 純凈音頻語譜圖Fig.11 Pure audio spectrum

      實(shí)驗(yàn)3

      為了研究隱含層中神經(jīng)元數(shù)量對(duì)實(shí)驗(yàn)效果的影響,采用Bi-RNN模型,通過對(duì)隱含層神經(jīng)元個(gè)數(shù)調(diào)整,進(jìn)行識(shí)別。

      實(shí)驗(yàn)結(jié)果如表3所示,當(dāng)神經(jīng)元數(shù)量增加到512時(shí),識(shí)別錯(cuò)誤率大幅減少,這是因?yàn)殡[含層節(jié)點(diǎn)數(shù)量過少,導(dǎo)致網(wǎng)絡(luò)的學(xué)習(xí)與處理能力較差;而當(dāng)神經(jīng)元數(shù)量大于512時(shí),識(shí)別錯(cuò)誤率的減少程度較緩,說明了神經(jīng)元的數(shù)量將趨于飽和狀態(tài);當(dāng)神經(jīng)元數(shù)量大于等于1024 時(shí),錯(cuò)誤率出現(xiàn)增加趨勢,說明再增加神經(jīng)元數(shù)量,就會(huì)出現(xiàn)在訓(xùn)練集上有很好的識(shí)別效果,但是在測試集上的識(shí)別效果變差的現(xiàn)象,即出現(xiàn)過擬合現(xiàn)象。

      表3 不同神經(jīng)元數(shù)量的實(shí)驗(yàn)結(jié)果Table 3 Experimental results for different numbers of neurons

      從這3 個(gè)實(shí)驗(yàn)可看出,Bi-RNN 相對(duì)于DNN 在語音識(shí)別方面效果更加良好,兩個(gè)模型在無噪聲的訓(xùn)練集上效果相差不大。但是在測試集上,DNN 模型錯(cuò)誤率在54.76%,文獻(xiàn)[17]所提出的改進(jìn)CNN 錯(cuò)誤率在22.19%,而Bi-RNN 模型錯(cuò)誤率為19.32%,相對(duì)于DNN模型與改進(jìn)的CNN模型都有了降低。由此可以看出,Bi-RNN 可同時(shí)利用上下文信息,發(fā)揮出其獨(dú)特的優(yōu)勢。當(dāng)使用Bi-RNN模型對(duì)3 種不同類型的音頻進(jìn)行實(shí)驗(yàn)時(shí),在無噪聲的測試集上錯(cuò)誤率為19.32%,在帶咖啡館噪聲的測試集的錯(cuò)誤率為24.25%,在帶白噪聲的測試集的錯(cuò)誤率為27.16%,在無噪聲的音頻條件下實(shí)驗(yàn)效果最好;當(dāng)采用基于某一語音庫所訓(xùn)練的模型對(duì)其他兩個(gè)環(huán)境下的音頻進(jìn)行測驗(yàn)時(shí),效果很差,說明采用單個(gè)訓(xùn)練集訓(xùn)練的模型無法適應(yīng)不同噪聲類型的音頻,在以后的研究中將考慮聯(lián)合訓(xùn)練。在探索隱含層的神經(jīng)元數(shù)量對(duì)識(shí)別效果的實(shí)驗(yàn)中,當(dāng)隱含層每層神經(jīng)元數(shù)量在682~852時(shí),效果最好。同時(shí),識(shí)別錯(cuò)誤率并不是隨著隱含層每層神經(jīng)元的增加而降低,甚至當(dāng)神經(jīng)元個(gè)數(shù)增加到一定程度時(shí),識(shí)別錯(cuò)誤率不下降反而上升。

      3 結(jié)論

      自深度學(xué)習(xí)的概念提出后,深度學(xué)習(xí)在語音識(shí)別方面相較于傳統(tǒng)的方法,如混合高斯模型,在性能有了很大的提升。其中基于Bi-RNN 模型在語音識(shí)別方面更是具其獨(dú)特的優(yōu)勢。本文使用Bi-RNN進(jìn)行語音方面了探索,并與DNN和改進(jìn)的CNN 進(jìn)行比較,初步驗(yàn)證了Bi-RNN 在語音識(shí)別方面的獨(dú)特優(yōu)勢。同時(shí)對(duì)含有噪聲的音頻的識(shí)別效果進(jìn)行測試,以及隱含層神經(jīng)元數(shù)量對(duì)識(shí)別效果的影響方面,做了初步的探索。結(jié)果如下:(1)在漢語語音識(shí)別中采用Bi-RNN 模型得到了在同樣條件下高于DNN和改進(jìn)的CNN 的識(shí)別率,成功地構(gòu)建了一個(gè)漢語識(shí)別模型;(2)初步考察了噪聲對(duì)Bi-RNN漢語識(shí)別模型的影響,分析了白噪聲的影響大于咖啡館噪聲的原因;(3)研究了Bi-RNN漢語識(shí)別模型中隱含層中神經(jīng)元數(shù)量對(duì)識(shí)別率的影響,提出了該模型中核心層神經(jīng)元數(shù)量為682~852的最優(yōu)設(shè)計(jì)。

      本文由于一些軟件與硬件資源上的限制,有許多問題還需要進(jìn)一步的探索。主要有:

      (1)在進(jìn)行探討隱含層神經(jīng)元的數(shù)量對(duì)識(shí)別效果的實(shí)驗(yàn)中,只是提出了神經(jīng)元數(shù)量并不是越多越好,但是對(duì)不同結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)神經(jīng)元數(shù)量的合理設(shè)定的范圍,并未給出結(jié)果,需要進(jìn)一步的探索。

      (2)在本文中使用DNN 與Bi-RNN 相結(jié)合用以構(gòu)建模型。在使用DNN 時(shí),由于參數(shù)太多,易出現(xiàn)過擬合現(xiàn)象,為了更好地解決這一問題,在接下來的學(xué)習(xí)與探索中,將CNN與Bi-RNN 相結(jié)合來構(gòu)建模型,并進(jìn)行實(shí)驗(yàn)。

      猜你喜歡
      錯(cuò)誤率音頻神經(jīng)元
      限制性隨機(jī)試驗(yàn)中選擇偏倚導(dǎo)致的一類錯(cuò)誤率膨脹*
      《從光子到神經(jīng)元》書評(píng)
      自然雜志(2021年6期)2021-12-23 08:24:46
      必須了解的音頻基礎(chǔ)知識(shí) 家庭影院入門攻略:音頻認(rèn)證與推薦標(biāo)準(zhǔn)篇
      基于Daubechies(dbN)的飛行器音頻特征提取
      電子制作(2018年19期)2018-11-14 02:37:08
      躍動(dòng)的神經(jīng)元——波蘭Brain Embassy聯(lián)合辦公
      正視錯(cuò)誤,尋求策略
      教師·中(2017年3期)2017-04-20 21:49:49
      音頻分析儀中低失真音頻信號(hào)的發(fā)生方法
      電子制作(2017年9期)2017-04-17 03:00:46
      解析小學(xué)高段學(xué)生英語單詞抄寫作業(yè)錯(cuò)誤原因
      Pro Tools音頻剪輯及修正
      人間(2015年8期)2016-01-09 13:12:42
      基于二次型單神經(jīng)元PID的MPPT控制
      家居| 手游| 合山市| 宾阳县| 玛纳斯县| 湘乡市| 彰化市| 阿尔山市| 鸡东县| 吴桥县| 虹口区| 崇礼县| 丹东市| 调兵山市| 金乡县| 青海省| 道真| 沙雅县| 施秉县| 冀州市| 罗城| 德昌县| 秭归县| 浦江县| 庆云县| 绍兴县| 弋阳县| 华安县| 龙泉市| 苍南县| 呼玛县| 宝清县| 金湖县| 呼伦贝尔市| 屏东县| 张家界市| 新绛县| 扶绥县| 双柏县| 饶河县| 仙居县|