• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于PReLU的DNN-LSTM混合神經(jīng)網(wǎng)絡(luò)在語音識別中的研究

      2018-12-14 12:00:40徐海青吳立剛浦正國
      福建茶葉 2018年12期
      關(guān)鍵詞:語音準(zhǔn)確率神經(jīng)網(wǎng)絡(luò)

      李 明,徐海青,吳立剛,浦正國

      (1.國網(wǎng)安徽省電力有限公司信息通信分公司,安徽合肥 230000;2.安徽繼遠(yuǎn)軟件有限公司,安徽 合肥 230000)

      1 引言

      傳統(tǒng)的語音識別技術(shù)是基于混合高斯模型和隱馬爾科夫模型(GMM-HMM),隨著深度學(xué)習(xí)的興起,一些深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)開始被應(yīng)用到語音識別中,在聲學(xué)模型和語言模型的訓(xùn)練中不斷地引入DNN、CNN、RNN不同網(wǎng)絡(luò)結(jié)構(gòu)以及不同的激活函數(shù),2015年DNN-HMM研究中發(fā)現(xiàn)將DNN神經(jīng)網(wǎng)絡(luò)中的激活函數(shù)換成修正的線性單元(ReLU)函數(shù)可以獲得更好的效果[1-2]。隨后,2015年基于ReLU函數(shù)的DNN神經(jīng)網(wǎng)絡(luò)研究中發(fā)現(xiàn),可以通過合理的參數(shù)設(shè)置,采用大批量的隨機(jī)梯度下降算法,然后利用多GPU同時(shí)訓(xùn)練,大大縮減了訓(xùn)練的時(shí)間[3-4]。

      除了DNN和CNN神經(jīng)網(wǎng)絡(luò)外,人們還引入了循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)來解決長時(shí)時(shí)序相關(guān)性的建模問題,同時(shí)研究報(bào)道基于雙向LSTM語音聲學(xué)模型系統(tǒng)可以獲得比基于DNN系統(tǒng)超過20%的性能提高[5]。

      本文提出一種將基于PReLU激活函數(shù)的DNN神經(jīng)網(wǎng)絡(luò)和LSTM神經(jīng)網(wǎng)絡(luò)結(jié)合的混合神經(jīng)網(wǎng)絡(luò),并通過訓(xùn)練和識別的實(shí)驗(yàn)證明新型的混合神經(jīng)網(wǎng)絡(luò)不僅在訓(xùn)練時(shí)間上表現(xiàn)的很好,在識別準(zhǔn)確率方面也有很大的提升。

      2 基于PReLU的DNN-LSTM混合神經(jīng)網(wǎng)絡(luò)

      針對DNN神經(jīng)網(wǎng)絡(luò)和LSTM神經(jīng)網(wǎng)絡(luò)的特性,設(shè)計(jì)一種基于DNN神經(jīng)網(wǎng)絡(luò)和LSTM神經(jīng)網(wǎng)絡(luò)的混合神經(jīng)網(wǎng)絡(luò),并將該混合神經(jīng)網(wǎng)絡(luò)應(yīng)用在語音識別方向上。通過混合神經(jīng)網(wǎng)絡(luò)和單一DNN神經(jīng)網(wǎng)絡(luò)以及LSTM神經(jīng)網(wǎng)絡(luò)在訓(xùn)練時(shí)間和識別準(zhǔn)確率方面的對比來驗(yàn)證改進(jìn)的混合神經(jīng)網(wǎng)絡(luò)的性能。

      圖1 混合神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)

      如圖1所示,混合神經(jīng)網(wǎng)絡(luò)是由3層的LSTM神經(jīng)網(wǎng)絡(luò)做底層,每層神經(jīng)網(wǎng)絡(luò)包含512個(gè)節(jié)點(diǎn);在高層上用了包含3層的DNN神經(jīng)網(wǎng)絡(luò),每層的神經(jīng)網(wǎng)絡(luò)都包含1024個(gè)節(jié)點(diǎn)。對于DNN神經(jīng)網(wǎng)絡(luò),可以選取多種激活函數(shù),但是對于LSTM神經(jīng)網(wǎng)絡(luò),激活函數(shù)只能選擇tanh函數(shù)和Sigmoid函數(shù),因?yàn)長STM中存在邏輯門,所以ReLU系列函數(shù)不能滿足要求。這里設(shè)計(jì)的LSTM神經(jīng)網(wǎng)絡(luò)用的激活函數(shù)為Sigmoid函數(shù),DNN神經(jīng)網(wǎng)絡(luò)中的激活函數(shù)取PReLU函數(shù),與之對比的是用了Sigmoid函數(shù)的DNN和LSTM混合神經(jīng)網(wǎng)絡(luò)以及單獨(dú)用了3層深度神經(jīng)網(wǎng)絡(luò)的DNNHMM模型和單獨(dú)用了3層的LSTM神經(jīng)網(wǎng)絡(luò)。LSTM神經(jīng)網(wǎng)絡(luò)中有記憶單元,可以記錄很長的歷史信息;而DNN神經(jīng)網(wǎng)絡(luò)可以很有效提取數(shù)據(jù)中的高層次信息的特征,從而提高分類精度。

      3 實(shí)驗(yàn)

      本文基于THCHS30數(shù)據(jù)庫進(jìn)行測試,THCHS30數(shù)據(jù)庫是2015年清華大學(xué)語音語言技術(shù)中心發(fā)布的,數(shù)據(jù)庫中有超過1000條句錄音文本,包括50個(gè)說話人的35小時(shí)的語音數(shù)據(jù),數(shù)據(jù)庫內(nèi)容大部分來自新聞?wù)Z料,涵蓋了各種語音。實(shí)驗(yàn)采用的操作系統(tǒng)是Windows7專業(yè)版,CPU為Intel i7-6700,主頻為 3.4GHz,內(nèi)存為 16GB。

      圖2 五種神經(jīng)網(wǎng)絡(luò)的訓(xùn)練時(shí)間和準(zhǔn)確率

      圖中D1表示基于Sigmoid激活函數(shù)的DNN神經(jīng)網(wǎng)絡(luò),D2表示基于PReLU激活函數(shù)的DNN神經(jīng)網(wǎng)絡(luò),LH表示的是LSTM神經(jīng)網(wǎng)絡(luò)。M1表示基于Sigmoid激活函數(shù)的DNN和LSTM混合神經(jīng)網(wǎng)絡(luò),M2表示基于PReLU激活函數(shù)的DNN和LSTM混合神經(jīng)網(wǎng)絡(luò)。發(fā)現(xiàn)采用的混合型神經(jīng)網(wǎng)絡(luò)結(jié)合并發(fā)揚(yáng)了兩種神經(jīng)網(wǎng)絡(luò)的優(yōu)點(diǎn),擁有更快的訓(xùn)練速度和更高的準(zhǔn)確率,兩種混合神經(jīng)網(wǎng)絡(luò)都比單一的神經(jīng)網(wǎng)絡(luò)有更好的訓(xùn)練效果,其中效果最好的DNN(PReLU)-LSTM神經(jīng)網(wǎng)絡(luò)訓(xùn)練速度比單一的LSTM神經(jīng)網(wǎng)絡(luò)快47.8%,同時(shí)準(zhǔn)確率比單一的LSTM神經(jīng)網(wǎng)絡(luò)高8.6%。

      圖3 五種神經(jīng)網(wǎng)絡(luò)的識別準(zhǔn)確率

      圖3是識別的結(jié)果,可以看出識別準(zhǔn)確率最高的是兩種混合神經(jīng)網(wǎng)絡(luò),混合神經(jīng)網(wǎng)絡(luò)中DNN神經(jīng)網(wǎng)絡(luò)用的PReLU激活函數(shù)的要比DNN神經(jīng)網(wǎng)絡(luò)用Sigmoid激活函數(shù)的準(zhǔn)確率高,和兩種單一的DNN神經(jīng)網(wǎng)絡(luò)對比結(jié)果類似。五種混合神經(jīng)網(wǎng)絡(luò)中基于PReLU激活函數(shù)的DNN和LSTM混合神經(jīng)網(wǎng)絡(luò)DNN(PReLU)-LSTM識別準(zhǔn)確率較單一基于Sig-moid激活函數(shù)的DNN神經(jīng)網(wǎng)絡(luò)提高10.8%。

      具體的實(shí)驗(yàn)數(shù)據(jù)見表1。

      表1 五種神經(jīng)網(wǎng)絡(luò)實(shí)驗(yàn)的結(jié)果

      4 結(jié)論

      本文通過對DNN、LSTM等神經(jīng)網(wǎng)絡(luò)和激活函數(shù)的研究,提出一種基于PReLU激活函數(shù)的DNN-LSTM混合神經(jīng)網(wǎng)絡(luò)。語音識別的訓(xùn)練和識別實(shí)驗(yàn)表明混合神經(jīng)網(wǎng)絡(luò)繼承并發(fā)揚(yáng)了兩種神經(jīng)網(wǎng)絡(luò)的優(yōu)點(diǎn),具有更快的訓(xùn)練速度和更高的識別準(zhǔn)確率,這為以后語音識別的研究提供了一種新思路。

      猜你喜歡
      語音準(zhǔn)確率神經(jīng)網(wǎng)絡(luò)
      乳腺超聲檢查診斷乳腺腫瘤的特異度及準(zhǔn)確率分析
      健康之家(2021年19期)2021-05-23 11:17:39
      不同序列磁共振成像診斷脊柱損傷的臨床準(zhǔn)確率比較探討
      2015—2017 年寧夏各天氣預(yù)報(bào)參考產(chǎn)品質(zhì)量檢驗(yàn)分析
      神經(jīng)網(wǎng)絡(luò)抑制無線通信干擾探究
      電子制作(2019年19期)2019-11-23 08:42:00
      魔力語音
      基于MATLAB的語音信號處理
      電子制作(2019年14期)2019-08-20 05:43:38
      基于MQ3與MP3的價(jià)廉物美的酒駕語音提醒器
      電子制作(2019年9期)2019-05-30 09:42:10
      對方正在輸入……
      小說界(2018年5期)2018-11-26 12:43:42
      高速公路車牌識別標(biāo)識站準(zhǔn)確率驗(yàn)證法
      基于神經(jīng)網(wǎng)絡(luò)的拉矯機(jī)控制模型建立
      武川县| 保德县| 高阳县| 永福县| 大城县| 高陵县| 诏安县| 神木县| 建昌县| 庄浪县| 鄂温| 萝北县| 绿春县| 平谷区| 丽江市| 乾安县| 洪湖市| 曲松县| 丰台区| 敖汉旗| 西乌| 盐亭县| 廊坊市| 杨浦区| 永新县| 婺源县| 岳阳市| 云南省| 阿坝县| 嘉禾县| 宜昌市| 政和县| 平潭县| 通州市| 和林格尔县| 平和县| 临猗县| 比如县| 西华县| 长子县| 盐源县|