• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于CNN-BGRU的音素識別研究

      2020-12-18 07:31:22和麗華潘文林楊皓然
      關(guān)鍵詞:語譜音素語音

      和麗華,江 濤,潘文林,楊皓然

      (云南民族大學(xué) 數(shù)學(xué)與計算機科學(xué)學(xué)院,云南 昆明 650500)

      現(xiàn)有的語音識別成果中,絕大部分學(xué)者的關(guān)注點還是集中于詞和句子級別,對于音素的研究還較為少見.文獻[1]在做區(qū)分漢語方言的研究時,語音變化的中的聲韻母和變調(diào)能幫助人們進行漢語方言的區(qū)分,對于聲韻母的標(biāo)注,也就是音素級別的標(biāo)注.文獻[2]做普通話韻律單元分析時,對音節(jié)、詞、短語的聲學(xué)特征分析采用了音延、靜音段、音高上下限差值等聲學(xué)表現(xiàn)來做邊界區(qū)分.對于語音學(xué)領(lǐng)域來說,語音學(xué)者們更加關(guān)注語音識別的微觀正確率,音素作為組成1個讀音的最小的語音單位,具有區(qū)分語言含義及讀音的功能,不僅能解決人們學(xué)習(xí)新語言時的單詞拼讀問題,還能幫助語音學(xué)者探索不同語言的發(fā)聲機理.

      20世紀(jì)90年代語音識別中最主流的方法是采用隱馬爾科夫模型[3],但是使用HMM訓(xùn)練時需要進行特征降維,這樣的做法導(dǎo)致許多有用信息的丟失.為了克服以上缺陷,采用了神經(jīng)網(wǎng)絡(luò)代替HMM進行語音識別.基于神經(jīng)網(wǎng)絡(luò)的語音識別打破了傳統(tǒng)語音識別對于手工設(shè)計特征的依賴,可以通過神經(jīng)網(wǎng)絡(luò)自動提取淺層和深層的特征,節(jié)省了手工設(shè)計特征所帶來的大量前期工作.CNN、LSTM和DNN在建模能力上是互補的[4],CNN擅長減少頻域的變化,LSTM提供長時記憶,DNN適用于將特征映射分類,利用3個網(wǎng)絡(luò)不同的特性將它們組合在一起能有效提高語音識別的效率.文獻[5]采用RNN進行音素識別,選取了具有雙向循環(huán)結(jié)構(gòu)的BLSTM網(wǎng)絡(luò)與CTC相結(jié)合,并在語音分幀階段去除相鄰幀的重合部分,減少神經(jīng)網(wǎng)絡(luò)輸入序列的數(shù)據(jù),大幅度地提升訓(xùn)練效率,在TIMIT英語音素語料庫上,BLSTM-CTC模型的效果優(yōu)于BLSTM-HMM模型.文獻[6]通過對LSTM進行端到端的訓(xùn)練,利用RNN擁有更大空間狀態(tài)和LSTM的長時記憶單元能較好地處理數(shù)據(jù)之間的長期依賴關(guān)系的特點,避免了使用HMM出現(xiàn)不正確標(biāo)簽作為訓(xùn)練目標(biāo)的問題,在TIMIT英語音素語料庫上,音素識別的錯誤率達到了最低17.7%.文獻[7]比多層感知器MLP、RNN、LSTM在音素識別任務(wù)上的訓(xùn)練效率和準(zhǔn)確率,LSTM為性能最優(yōu)的網(wǎng)絡(luò),后將LSTM和BiRNN兩種網(wǎng)絡(luò)結(jié)構(gòu)進行融合,提出了新的網(wǎng)絡(luò)結(jié)構(gòu)BLSTM,并在TIMIT英語語音語料庫上進行音素分類任務(wù),證明雙向LSTM的性能優(yōu)于單向LSTM,上下文信息對于語音識別至關(guān)重要.文獻[8]采用簡化版的LSTM網(wǎng)絡(luò)GRU,通過實驗比較LSTM、GRU、tanh這3個單元在序列數(shù)據(jù)上建模的能力,結(jié)論證明GRU在網(wǎng)絡(luò)結(jié)構(gòu)簡化且參數(shù)較少的情況下,性能與LSTM相當(dāng),但網(wǎng)絡(luò)訓(xùn)練收斂速度更快,在不同數(shù)據(jù)集上的泛化性能也更佳.

      綜上所述,本文選取卷積神經(jīng)網(wǎng)絡(luò)CNN、循環(huán)神經(jīng)網(wǎng)絡(luò)RNN和深層神經(jīng)網(wǎng)絡(luò)DNN組合進行音素識別研究,其中RNN選取網(wǎng)絡(luò)結(jié)構(gòu)較為簡單且能獲取上下文含義的BGRU網(wǎng)絡(luò).基于上述研究提出了1種新的音素識別模型——CNN-BGRU模型.首先卷積神經(jīng)網(wǎng)絡(luò)模型VGGNet在圖像識別任務(wù)中效果出色且參數(shù)量較低,在保持圖像識別效果的同時對VGGNet網(wǎng)絡(luò)結(jié)構(gòu)的改進以降低網(wǎng)絡(luò)參數(shù)的數(shù)量,有效提升VGGNet模型的性能;其次經(jīng)過VGGNet模型輸出的特征向量作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的輸入,采用雙向循環(huán)單元(BGRU)對輸入特征進行序列建模,并聯(lián)合前后文信息進行預(yù)測;最后通過softmax分類器輸出分類預(yù)測的結(jié)果.實驗仿真證明:本文提出的CNN-BGRU模型與CNN(VGG)、CNN-RNN、CNN-BRNN、CNN-BLSTM這4個模型在TIMIT英語語音數(shù)據(jù)集上進行音素語譜圖分類任務(wù),基于CNN-BGRU的混合模型在識別效果的準(zhǔn)確率明顯高于其它4個模型,基于CNN-BGRU的混合模型的正確率可以達98.6%.

      1 相關(guān)工作

      1.1 VGGNet模型

      2014年GoogleNet和VGGNet分別獲得了ILSVRC圖像分類大賽的冠亞軍,兩個模型都注重從加深網(wǎng)絡(luò)深度的角度去提升卷積神經(jīng)網(wǎng)絡(luò)的性能.GoogleNet對傳統(tǒng)卷積層的結(jié)構(gòu)進行了改進,而VGGNet則采用了較小的卷積核,卷積核小能一定程度上減少參數(shù)量且方便模型快速收斂,并且在模型層數(shù)上VGGNet也少于GoogleNet[9].所以本文選用VGGNet模型作為音素語譜圖的特征提取算法.

      VGGNet模型的結(jié)構(gòu)特點如下:

      1) 網(wǎng)絡(luò)結(jié)構(gòu)為13層卷積層、5層最大池化層、3層全連接層、1個SoftMax分類器.

      2) 利用小的卷積核堆疊得到與大卷積核相當(dāng)?shù)母惺芤胺秶?,兩個3×3的卷積層堆疊獲得的感受野的范圍與一個5×5的卷積層相當(dāng),3個3×3的卷積層堆疊獲得的感受野的范圍與1個7×7的卷積層相當(dāng)[10],不同卷積核大小的影響如圖1所示:

      3) 卷積核大小均為3×3,stride=1,pad=1.

      4) 池化層均采用最大池化,池化窗口為2,stride=2.

      5) 每一層隱藏層后都有激活函數(shù)ReLU和BatchNormalization.

      6) 在每層全連接層后都有加Droupout,防止網(wǎng)絡(luò)過擬合.

      VGGNet模型的參數(shù)如表1所示:

      表1 VGGNet網(wǎng)絡(luò)參數(shù)表

      1.2 LSTM和GRU

      長短期記憶網(wǎng)絡(luò)(LSTM)和門控循環(huán)單元網(wǎng)絡(luò)(GRU)都屬于循環(huán)神經(jīng)網(wǎng)絡(luò),它們都是為了改善由于循環(huán)神經(jīng)網(wǎng)絡(luò)迭代造成梯度彌散或是梯度爆炸的問題而提出的[11].LSTM引入了長時記憶單元Cell,并且由門控機制控制Cell的信息保留與否.LSTM模型有3個門控單元,分別是遺忘門、輸入門、輸出門,即圖2左邊圖LSTM中的的f、i、o,其中遺忘門控制上一時刻長時記憶單元的信息是否被遺忘;輸入門控制輸入信息是否輸入長時記憶單元的信息;輸出門控制長時記憶單元的信息是否輸出.

      GRU網(wǎng)絡(luò)是在LSTM網(wǎng)絡(luò)的基礎(chǔ)上進行了改進,由于LSTM網(wǎng)絡(luò)中的輸入門和遺忘門是1個互補的關(guān)系,在GRU網(wǎng)絡(luò)中將這2個門合并為1個門:更新門[12].此外,GRU網(wǎng)絡(luò)將長時記憶單元Cell與當(dāng)前狀態(tài)進行了合并,直接建立當(dāng)前狀態(tài)和歷史狀態(tài)之間的線性依賴關(guān)系.通過改進后的GRU網(wǎng)絡(luò)在保留與LSTM網(wǎng)絡(luò)同樣效率的前提下,較大程度的簡化了網(wǎng)絡(luò)結(jié)構(gòu),減少了網(wǎng)絡(luò)參數(shù),具有更好的收斂性.LSTM網(wǎng)絡(luò)和GRU網(wǎng)絡(luò)的結(jié)構(gòu)對比圖如圖2所示:

      圖2 LSTM和GRU結(jié)構(gòu)對比圖

      與LSTM網(wǎng)絡(luò)不同,GRU網(wǎng)絡(luò)只有2個門控單元,分別為重置門和更新門,即圖3中的rt、zt.重置門rt控制歷史狀態(tài)信息ht-1有多少需要被遺忘,即rt=1時歷史狀態(tài)信息ht-1全部被遺忘,rt=0時歷史狀態(tài)信息ht-1全部被傳遞到當(dāng)前狀態(tài)ht;更新門zt控制歷史狀態(tài)信息ht-1有多少信息傳遞到當(dāng)前狀態(tài)ht,即當(dāng)zt=1時,計算過程如下所示:

      圖3 GRU結(jié)構(gòu)圖

      .

      (1)

      ht=zt⊙ht-1+(1-zt)⊙ht

      .

      (2)

      (3)

      (4)

      其中⊙表示向量對應(yīng)元素相乘.相較于LSTM網(wǎng)絡(luò),GRU網(wǎng)絡(luò)能在保證網(wǎng)絡(luò)性能的前提下達到同樣的實驗效果,并且能大幅度提高網(wǎng)絡(luò)的訓(xùn)練效率,因此本文選用GRU網(wǎng)絡(luò)作為音素語譜圖的識別算法.

      2 CNN-BGRU音素識別模型

      2.1 改進的VGGNet模型

      VGGNet模型對于圖像得特征提取效果出色,但是由于網(wǎng)絡(luò)的層數(shù)較多,導(dǎo)致訓(xùn)練時計算量較大,網(wǎng)絡(luò)收斂速度較慢,因此為了提高網(wǎng)絡(luò)的訓(xùn)練效率,需要減少網(wǎng)絡(luò)參數(shù).本章對于VGGNet模型改進主要包括兩個方面:

      1) 由于全連接層的參數(shù)量較大,所以通過減少全連接層來降低整個網(wǎng)絡(luò)的參數(shù)總量,以此來提升VGGNet模型的性能,本文將VGGNet模型的3個全連接層減少為1個全連接層.

      2) 由于全局均值池化層能通過加強特征圖與標(biāo)簽之間的對應(yīng)關(guān)系提升網(wǎng)絡(luò)的特征提取能力,所以本章使用全局均值池化層代替最后1個最大池化層,求得每個特征圖的平均值,然后將輸出的結(jié)果向量直接輸入softmax層,這樣可以在保證網(wǎng)絡(luò)性能的情況下,有效地減少網(wǎng)絡(luò)的參數(shù)數(shù)量.

      改進前后的網(wǎng)絡(luò)結(jié)構(gòu)對比如表2所示:

      表2 VGGNet改進前后網(wǎng)絡(luò)結(jié)構(gòu)對比

      2.2 雙向GRU單元(BGRU)

      傳統(tǒng)循環(huán)神經(jīng)網(wǎng)絡(luò)只關(guān)注于上一時刻的信息,但是對于音素識別來說,下一時刻的信息也與預(yù)測值息息相關(guān),雙向循環(huán)神經(jīng)網(wǎng)絡(luò)的改進,正好彌補了這個問題[13].由于門控循環(huán)單元網(wǎng)絡(luò)只能獲取單向的數(shù)據(jù)序列信息,因此本文選取雙向的門控循環(huán)單元網(wǎng)絡(luò)(BGRU)實現(xiàn)音素語譜圖的序列信息表示,BGRU模型就是在傳統(tǒng)的GRU模型隱層上增加了正向傳遞的GRU和反向傳遞的GRU,即圖4中的G′和G,以便于從這2個方向提取上下文的信息,所以BGRU模型比GRU模型效果更好,計算過程如下所示:

      BGRU模型結(jié)構(gòu)如圖4所示,其中G表示GRU模塊.

      圖4 BGRU模型結(jié)構(gòu)圖

      2.3 CNN-BGRU音素識別模型

      卷積神經(jīng)網(wǎng)絡(luò)CNN對于圖像識別任務(wù)效果出色,VGGNet在提取圖像特征上具有優(yōu)勢,循環(huán)神經(jīng)網(wǎng)絡(luò)RNN擅長時序數(shù)據(jù)的處理,BGRU對于序列信息識別效果出色.本文提出的CNN-BGRU模型利用VGGNet提取音素語譜圖的圖像特征;然后將圖像特征輸入BGRU模型,通過正向傳遞隱層和反向傳遞隱層實現(xiàn)音素語譜圖的序列信息表示;最后輸入給SoftMax分類器輸出分類結(jié)果,VGG-BGRU模型結(jié)構(gòu)圖如圖5所示:

      圖5 改進CNN-BGRU模型結(jié)構(gòu)

      改進的CNN-BGRU模型:

      1) 將英語音素語音轉(zhuǎn)換為語譜圖后輸入到改進CNN-BGRU模型中進行訓(xùn)練;

      2) 添加多層卷積層,通過卷積運算得到語譜圖的局部特征矩陣;

      5.使用藥劑拌種來防止玉米粗縮病的發(fā)生。用吡蟲啉拌種,對灰飛虱有短期的防治效果,這樣有效的控制了灰飛虱在玉米苗期的發(fā)生數(shù)量,來達到控制玉米粗縮病毒的傳播。

      3) 最后1層池化層為均值池化層,球的每個特征圖的平均值;

      4) 添加雙向GRU單元層(BGRU),增強語音的序列信息表示;

      5) 添加全連接層,將每一層神經(jīng)網(wǎng)絡(luò)提取出來的特征綜合起來進行分類,然后對每個分類結(jié)果都輸出1個概率.

      3 實驗

      3.1 實驗環(huán)境

      實驗所選取的操作系統(tǒng)為Windows10,編程語言為Python,使用keras來構(gòu)建深度神經(jīng)網(wǎng)絡(luò),并使用CUDA技術(shù)對網(wǎng)絡(luò)進行加速.

      3.2 實驗參數(shù)

      輸入數(shù)據(jù)為二維的音素語譜圖,網(wǎng)絡(luò)參數(shù)如表3所示.在網(wǎng)絡(luò)訓(xùn)練方面,批次大小設(shè)置為30,訓(xùn)練次數(shù)為100次.

      表3 CNN-BGRU模型參數(shù)配置表

      3.3 實驗數(shù)據(jù)

      因為實驗所選取的語音基元為音素,所以選用音素種類齊全且多樣的TIMIT語料庫作為實驗數(shù)據(jù)集.它由630名演講者,每人說10個句子組成,總共6 300個句子,其中包括2個“sa”的方言句子、5個音素緊湊的“sx”句子、3個音素多樣的“si”句子.基于某些音素發(fā)音相近,甚至不發(fā)音,可以將這些音素統(tǒng)一化歸為1個音素,將61個音素簡化為38個音素,對應(yīng)簡化規(guī)則如表4所示[14].

      表4 音素簡化規(guī)則表

      3.4 對比實驗

      本節(jié)實驗的目的在于驗證提出的CNN-BGRU音素識別模型的有效性.首先是對于模型參數(shù)的選擇,選擇不同的BGRU層隱藏層節(jié)點數(shù)、學(xué)習(xí)率、優(yōu)化器以識別率最為評價指標(biāo)進行實驗,選出最優(yōu)的組合參數(shù).然后對CNN(VGG)、CNN-RNN、CNN-BRNN、CN-BLSTM、CNN-BGRU5個模型分別進行音素識別,驗證提出的CNN-BGRU模型對于提高音素識別準(zhǔn)確率的有效性.

      表5為基于CNN-BGRU音素識別模型在學(xué)習(xí)率為0.000 1,BGRU層不同隱藏層節(jié)點數(shù)下的識別率.通過表格可以看出,BGRU層隱藏層節(jié)點數(shù)為64時CNN-BGRU模型在TIMIT數(shù)據(jù)集下的音素識別任務(wù)表現(xiàn)最佳,所以最終選定音素識別模型的BGRU層隱藏層節(jié)點數(shù)為64.

      表5 BGRU隱藏層節(jié)點數(shù)對于音素識別的識別率

      通過圖6可以看出基于CNN-BGRU音素識別模型在BGRU層隱藏層節(jié)點數(shù)為64時,訓(xùn)練到最后的準(zhǔn)確率較高.

      圖6 BGRU隱藏層節(jié)點數(shù)的實驗結(jié)果統(tǒng)計圖

      3.4.2 基于CNN-BGRU音素識別模型的學(xué)習(xí)率選擇

      表6為基于CNN-BGRU音素識別模型在隱藏層節(jié)點數(shù)為64,不同學(xué)習(xí)率下的識別率.通過表格可以看出,學(xué)習(xí)率為0.000 1時CNN-BGRU模型在TIMIT數(shù)據(jù)集下的音素識別任務(wù)表現(xiàn)最佳,所以最終選定音素識別模型的學(xué)習(xí)率為0.000 1.

      表6 不同學(xué)習(xí)率對于音素識別的識別率

      通過圖7可以看出基于CNN-BGRU音素識別模型在學(xué)習(xí)率為0.000 1時,訓(xùn)練到最后的準(zhǔn)確率較高.

      3.4.3 基于CNN-BGRU音素識別模型的優(yōu)化器選擇

      表7為基于CNN-BGRU音素識別模型在隱藏層節(jié)點數(shù)為64、學(xué)習(xí)率為0.000 1,不同優(yōu)化器下的識別率.通過表格可以看出,選用Adam優(yōu)化器時CNN-BGRU模型在TIMIT數(shù)據(jù)集下的音素識別任務(wù)表現(xiàn)最佳,所以最終選定音素識別模型的優(yōu)化器為Adam.

      表7 不同優(yōu)化器對于音素識別的識別率

      通過圖8可以看出基于CNN-BGRU音素識別模型在優(yōu)化器為Adam時,訓(xùn)練到最后的準(zhǔn)確率較高.

      圖8 不同優(yōu)化器的實驗結(jié)果統(tǒng)計圖

      3.4.3 不同模型對于音素識別率的影響

      本文選擇CNN-BGRU模型與CNN(VGG)、CNN-RNN、CNN-BRNN、CN -BLSTM這四個模型在TIMIT數(shù)據(jù)集上進行音素語譜圖分類任務(wù).通過準(zhǔn)確率和損失作為評估指標(biāo)進行結(jié)果分析,驗證了CNN-BGRU模型對于音素語譜圖分類任務(wù)的有效性.

      通過表8中的實驗結(jié)果可以知道,CNN-BGRU模型表現(xiàn)顯著優(yōu)于CNN-BRNN、CNN-BLSTM兩個模型的效果.

      表8 不同模型的實驗結(jié)果分析

      1) RNN模型的有效性.從CNN(VGG)模型和CNN-RNN模型的實驗結(jié)果對比可以看出,CNN-RNN模型的準(zhǔn)確率高于CNN(VGG)模型,同時且損失低于CNN(VGG)模型,由此可以得出CNN-RNN模型提升了音素語譜圖分類的結(jié)果.

      2) 雙向GRU的有效性.對比CNN-BGRU模型和CNN-RNN、CNN-BRNN、CNN-BLSTM模型的實驗結(jié)果可以看出,CNN-BGRU模型的準(zhǔn)確率高于CNN-RNN模型,準(zhǔn)確率提升了1.4%,驗證了BGRU模型的效果優(yōu)于RNN模型.同時CNN-BGRU模型的準(zhǔn)確率顯著高于CNN-BRNN、CNN-BLSTM模型,且GRU模型的參數(shù)更少,可以有效提升模型的整體效率.

      4 結(jié)語

      本文提出了基于改進CNN-BGRU模型實現(xiàn)音素語譜圖的分類,首先通過卷積網(wǎng)絡(luò)VGGNet提取音素語譜圖的特征信息;其次使用BGRU模型進行圖像的前后文信息聯(lián)合預(yù)測;最后通過softmax分類器輸出分類預(yù)測的結(jié)果.相較于其他的方法,基于改進CNN-BGRU模型在提升模型分類準(zhǔn)確性的同時,減少了模型中的參數(shù)數(shù)量,提升了模型的訓(xùn)練效率.后續(xù)工作是考慮基于多特征的音素語譜圖識別,結(jié)合多種語音特征以提升音素語譜圖識別的訓(xùn)練效率.

      猜你喜歡
      語譜音素語音
      新目標(biāo)英語七年級(上)Starter Units 1-3 STEP BY STEP 隨堂通
      依托繪本課程,培養(yǎng)學(xué)生英語音素意識
      小學(xué)英語課堂中音素意識與自然拼讀整合訓(xùn)練的探索
      魔力語音
      HR-DCGAN方法的帕金森聲紋樣本擴充及識別研究
      基于MATLAB的語音信號處理
      電子制作(2019年14期)2019-08-20 05:43:38
      基于MQ3與MP3的價廉物美的酒駕語音提醒器
      電子制作(2019年9期)2019-05-30 09:42:10
      對方正在輸入……
      小說界(2018年5期)2018-11-26 12:43:42
      ?不定冠詞a與an
      基于時頻域特征的場景音頻研究
      乌鲁木齐市| 宁城县| 天柱县| 略阳县| 阳泉市| 绍兴县| 文登市| 莲花县| 三亚市| 梁平县| 纳雍县| 南华县| 海晏县| 收藏| 堆龙德庆县| 沙湾县| 丰台区| 柳江县| 江永县| 南江县| 益阳市| 芜湖市| 阜阳市| 郯城县| 蛟河市| 浪卡子县| 岳阳县| 阿尔山市| 锦屏县| 沂南县| 渝中区| 文山县| 饶阳县| 镇平县| 和政县| 临高县| 通州区| 辽源市| 郧西县| 城市| 金秀|