• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      一種基于前饋序列記憶神經(jīng)網(wǎng)絡(luò)的改進(jìn)方法

      2021-05-28 02:57:30梁翀劉迪浦正國張彬彬
      關(guān)鍵詞:聲學(xué)時序深層

      梁翀,劉迪,浦正國,張彬彬

      一種基于前饋序列記憶神經(jīng)網(wǎng)絡(luò)的改進(jìn)方法

      梁翀1,劉迪2,浦正國1*,張彬彬1

      1. 安徽繼遠(yuǎn)軟件有限公司, 安徽 合肥 230088 2. 國網(wǎng)信息通信產(chǎn)業(yè)集團(tuán)有限公司, 北京 102211

      針對具有時序性的信號的分析和建模,主流的RNN、LSTM由于反饋連接的影響,在學(xué)習(xí)效率和穩(wěn)定上有所不足。本文基于標(biāo)準(zhǔn)的前饋神經(jīng)網(wǎng)絡(luò),借鑒濾波器中的抽頭延遲線結(jié)構(gòu),提出一種改進(jìn)的前饋序列記憶神經(jīng)網(wǎng)絡(luò)FSMN(cFSMN)和深層cFSMN(Deep-cFSMN),實現(xiàn)時序的音視頻信號快速建模,減少了反饋連接,具有更高的學(xué)習(xí)速率和更好的穩(wěn)定性。

      前饋序列記憶神經(jīng)網(wǎng)絡(luò); 改進(jìn)方法

      深度學(xué)習(xí)的發(fā)展推動人工智能的興起,而深度學(xué)習(xí)的發(fā)展離不開神經(jīng)網(wǎng)絡(luò)[1,2],其中應(yīng)用最廣泛的是前饋型神經(jīng)網(wǎng)絡(luò)[3,4]和卷積神經(jīng)網(wǎng)絡(luò)[5,6]。對非結(jié)構(gòu)化數(shù)據(jù)(文本、語音和視頻)這些時序性信號,如何有效地對這些時序信號的長時相關(guān)性進(jìn)行建模就顯得尤為重要。因此,先后出現(xiàn)循環(huán)神經(jīng)網(wǎng)絡(luò)RNN、前饋全連接神經(jīng)網(wǎng)絡(luò)FNN和LSTM等不同的神經(jīng)網(wǎng)絡(luò)。循環(huán)神經(jīng)網(wǎng)絡(luò)RNN[7]通過循環(huán)反饋機(jī)制,將學(xué)習(xí)到的歷史表達(dá)存儲在網(wǎng)絡(luò)的權(quán)重中,從而實現(xiàn)對時序信號進(jìn)行建模,而RNN由于其記憶存儲機(jī)制理論上可以實現(xiàn)任意長度的序列到另一個序列的映射[8],由于其內(nèi)部的反饋連接,訓(xùn)練需要采用所謂的BPTT(Back-propagation through time)[9],BPTT會導(dǎo)致RNN的計算復(fù)雜度很高,而且會導(dǎo)致梯度消失和梯度膨脹。長短時記憶單元(Long Short Term Memory, LSTM)[10,11]是一種增強型的RNN結(jié)構(gòu),選擇學(xué)習(xí)的門來替代循環(huán)連接,從而可以確保訓(xùn)練過程中梯度的傳遞更加有效,并在序列建模[12]、機(jī)器翻譯[13]、語音識別[14]等任務(wù)上取得一定突破。雖然在時序信號的建模問題上,LSTM、RNN等神經(jīng)網(wǎng)絡(luò)取得一定的效果,但受制于反饋連接的影響,在學(xué)習(xí)效率和穩(wěn)定上有所不足,本文針對上述問題,基于標(biāo)準(zhǔn)的前饋神經(jīng)網(wǎng)絡(luò),并模仿濾波器中的抽頭延遲線結(jié)構(gòu),提出一種比LSTM、RNN學(xué)習(xí)效率高和穩(wěn)定的神經(jīng)網(wǎng)絡(luò),快速對時序的音視頻信號建模,減去了反饋連接,并命名為前饋序列記憶神經(jīng)網(wǎng)絡(luò)(FSMN, Feed-forward Sequential Memory Network)。

      1 改進(jìn)的FSMN網(wǎng)絡(luò)結(jié)構(gòu)

      1.1 簡潔的前饋序列記憶神經(jīng)網(wǎng)絡(luò)

      在低維度的線性投影層上添加記憶模塊,減少額外參數(shù)數(shù)目,改進(jìn)標(biāo)準(zhǔn)的FSMN結(jié)構(gòu),形成第層為cFSMN-layer的cFSMN(如圖1)。

      進(jìn)一步簡化模型的結(jié)構(gòu),減少參數(shù)復(fù)雜度和計算量,如1圖所示,以cFSMN-layer中Memory Block的輸出當(dāng)做下一層的輸入,具體公式如下:

      1.2 深層的前饋序列記憶神經(jīng)網(wǎng)絡(luò)

      傳統(tǒng)的矩陣低秩分解多層的cFSMN,導(dǎo)致層數(shù)過多(4個cFSMN層以及2全連接層,最后的層數(shù)將達(dá)到12層),帶來梯度消失的問題,訓(xùn)練存在很大的不確定因素。引入跳轉(zhuǎn)鏈接(如圖2)的深層cFSMN結(jié)構(gòu),實現(xiàn)低層記憶模塊的輸出向高層記憶模塊疊加,解決深層的cFSMN梯度消失的問題的同時不引入多余參數(shù)。

      圖 1 cFSMN的網(wǎng)絡(luò)結(jié)構(gòu)示意圖

      圖 2 基于快捷連接的深層cFSMN結(jié)構(gòu)框圖

      從時序信號的特性(相連時刻信息相似),基于擴(kuò)張卷積的思路,引入步幅因子到記憶模塊。計算如下:

      2 結(jié)果分析

      本文改進(jìn)的神經(jīng)網(wǎng)絡(luò)是為了解決時序信號的建模效率低與不穩(wěn)定的問題,為了驗證本文改進(jìn)算法在建模的訓(xùn)練效率與穩(wěn)定性方面優(yōu)勢。本文設(shè)計相同實驗條件和相同評價標(biāo)準(zhǔn)要求下,針對語音識別聲學(xué)建模Switchboard (SWB)和Hsher (FSH)任務(wù)以及語言模型建模PTB和Wiki9任務(wù)等常見任務(wù),給出常見算法與本文改進(jìn)算法在詞錯誤率(Word Error Rate,WER)評價指標(biāo)上的對比。

      在相同的SWB數(shù)據(jù)庫上,對比不同聲學(xué)模型的迭代訓(xùn)練時間。以交叉熵(CE)準(zhǔn)則為判斷依據(jù),在相同的硬件配置條件下訓(xùn)練,本文選擇單Nvidia Tesla K20 GPU。實驗結(jié)果見表1,LSTM和FSMN等有效對長時相關(guān)進(jìn)行建模的模型訓(xùn)練效果更優(yōu)化,顯著提升DNN性能。前者耗時9.4 h,而BLSTM耗時長達(dá)23.7 h。這是由于兩種算法的并行代價資源不同,受限計算資源的配置,BLSTM只能16句話,而LSTM則可以達(dá)到64句。改進(jìn)的vFSMN的效果稍微優(yōu)于BLSTM。這是由于其結(jié)構(gòu)簡單,耗時僅需要6.7 h,速度提升3倍較與BLSTM。然而vFSMN的參數(shù)復(fù)雜度比BLSTM小了一個量級,這一方面,cFSMN更優(yōu),參數(shù)減少到74 MB,僅有BLSTM參數(shù)量40%。其耗時低到3.1 h,訓(xùn)練加速達(dá)到BLSTM的7倍多,且12.5%的詞錯誤率,比BLSTM的0.9%有10倍多的提升。

      表 1 不同聲學(xué)模型的訓(xùn)練模型參數(shù)量、訓(xùn)練時間和效果的對比

      對比不同配置下的深層cFSMN的性能,引入表達(dá)式:216-×[2048-(_1,_2)]-×2048--8991表示模型,其中和的不同,表示cFSMN-layer和標(biāo)準(zhǔn)全連接層的數(shù)目的不同,而代表線性投影層節(jié)點數(shù)目。_1,_2分別代表向前和向后的濾波器階數(shù)。對于相同的值的模型可以用(,_1,_2)來區(qū)分模型。在表2中前兩次實驗對比應(yīng)用式(3)的Memory Block編碼計算,設(shè)置較大步幅,實現(xiàn)更長遠(yuǎn)的上下文信息的檢測,得到更優(yōu)的性能。在后續(xù)實現(xiàn)增加cFSMN-layer層的數(shù)目,發(fā)現(xiàn)性能逐漸提高,添加跳轉(zhuǎn)連接,訓(xùn)練深層cFSMN(含有12個cFSMN-layer和2個全連接層),即Deep-cFSMN,基于Hub5e00數(shù)據(jù)集達(dá)到9.0%的詞錯誤率。

      表 2 不同配置跳轉(zhuǎn)連接訓(xùn)練深層cFSMN聲學(xué)模型的性能(基于FSH任務(wù))

      3 結(jié) 語

      本文基于標(biāo)準(zhǔn)的FSMN,改進(jìn)出簡潔結(jié)構(gòu)的FSMN(cFSMN)和深層cFSMN(Deep-cFSMN).對于聲學(xué)模型訓(xùn)練(SWB)任務(wù)的實驗,發(fā)現(xiàn)cFSMN的性能優(yōu)于BLSTM。且在FSH任務(wù)深層的cFSMN隨著隱層數(shù)目的遞増,模型性能提升越好,但復(fù)雜干擾情況(噪音、遠(yuǎn)場)下的識別性能還不穩(wěn)定的問題還有待解決。

      [1] Lecun Y, Bengio Y, Hinton G. Deep learning [J]. Nature, 2015,521(7553):436-444

      [2] Schmidhuber J. Deep learning in neural networks: an overview [J]. Neural Network, 2015,61:85-117

      [3] Dahl GE, Yu D, Deng L,. Context-Dependent Pre-Trained Deep Neural Networks for Large-Vocabulary Speech Recognition [J]. IEEE Transactions on Audio, Speech and Language Processing, 2012,20(1):30-42

      [4] Hinton G, Deng L, Yu D,. Deep Neural Networks for Acoustic Modeling in Speech Recognition: The Shared Views of Four Research Groups [J]. IEEE Signal Processing Magazine, 2012,29(6):82-97

      [5] Krizhevsky A, Sutskever I, Hinton G. ImageNet Classification with Deep Convolutional Neural Networks [C]. NIPS. Curran Associates Inc. 2012

      [6] 張晴晴,劉勇,王智超,等.卷積神經(jīng)網(wǎng)絡(luò)在語音識別中的應(yīng)用[J].網(wǎng)絡(luò)新媒體技術(shù),2014,3(6):39-42

      [7] 王龍,楊俊安,陳雷,等.基于循環(huán)神經(jīng)網(wǎng)絡(luò)的漢語語言模型建模方法[J].聲學(xué)技術(shù),2015,34(5):431-436

      [8] Meng FD, Lu ZD, Tu ZP,. Neural Transformation Machine: A New Architecture for Sequence-to-Sequence Learning [J]. Computer Science, 2015:1-13

      [9] Werbos PJ. Backpropagation through time: what it does and how to do it [J]. Proc IEEE, 1990,78(10):1550-1560

      [10] 金宸,李維華,姬晨,等.基于雙向LSTM神經(jīng)網(wǎng)絡(luò)模型的中文分詞[J].中文信息學(xué)報,2018,32(2):29-37

      [11] 張曉.基于LSTM神經(jīng)網(wǎng)絡(luò)的中文語義解析技術(shù)研究[D].南京:東南大學(xué),2017

      [12] Graves A. Generating Sequences with Recurrent Neural Networks [J/OL]. arXiv:1308.0850 [cs.NE], 2013

      [13] Cho K, Van Merrienboer B, Gulcehre C,Learning Phrase Representations using RNN Encoder-Decoder for Statistical Machine Translation [J/OL]. arXiv:1308.0850 [cs.NE], 2014

      [14]Sak H, Senior A, Beaufays F. Long Short-Term Memory Based Recurrent Neural Network Architectures for Large Vocabulary Speech Recognition [J/OL]. arXiv:1308.0850 [cs.NE], 2014:338-342

      An Improved Method Based on Feedforward Sequence Memory Neural Network

      LIANG Chong1, LIU Di2, PU Zheng-guo1*, ZHANG Bin-bin1

      1.230088,2.102211,

      For the analysis and modeling of sequential signals, the mainstream RNN and LSTM have some shortcomings in learning efficiency and stability due to the influence of feedback connection. Based on the standard feedforward neural network and the takeout delay line structure in the filter, this paper proposes an improved feedforward sequential memory neural network fsmn (cfsmn) and deep cfsmn (deep cfsmn) to achieve sequential sound. Video signal fast modeling reduces feedback connection, has higher learning speed and better stability.

      Feedforward sequential memory network; improved method

      TP183

      A

      1000-2324(2021)02-0313-03

      10.3969/j.issn.1000-2324.2021.02.028

      2019-01-05

      2019-03-06

      國家電網(wǎng)有限公司總部科技項目:基于機(jī)器學(xué)習(xí)的智能文檔自動編制關(guān)鍵技術(shù)研究與應(yīng)用(No.52110418002X)

      梁翀(1992-),男,碩士,工程師,主要從事電力行業(yè)信息化系統(tǒng)體系架構(gòu)設(shè)計、研發(fā)以及智能語音和圖像識別研究等工作. E-mail:liangchong@sgitg.sgcc.com.cn

      Author for correspondence. E-mail:1144187870@qq.com

      網(wǎng)絡(luò)首發(fā):http//www.cnki.net

      猜你喜歡
      聲學(xué)時序深層
      時序坐標(biāo)
      基于Sentinel-2時序NDVI的麥冬識別研究
      愛的就是這股Hi-Fi味 Davis Acoustics(戴維斯聲學(xué))Balthus 70
      考慮各向異性滲流的重力壩深層抗滑穩(wěn)定分析
      Acoustical Treatment Primer:Diffusion談?wù)劼晫W(xué)處理中的“擴(kuò)散”
      Acoustical Treatment Primer:Absorption談?wù)劼晫W(xué)處理中的“吸聲”(二)
      Acoustical Treatment Primer:Absorption 談?wù)劼晫W(xué)處理中的“吸聲”
      SAM系統(tǒng)對TDCS數(shù)據(jù)的優(yōu)化處理與深層應(yīng)用
      一種毫米波放大器時序直流電源的設(shè)計
      電子制作(2016年15期)2017-01-15 13:39:08
      對“醫(yī)患失去信任”的深層憂慮
      乌海市| 五原县| 乌兰浩特市| 庄河市| 田东县| 无锡市| 抚远县| 潞西市| 织金县| 太和县| 盈江县| 阳朔县| 林芝县| 崇明县| 万州区| 额济纳旗| 镇平县| 天镇县| 正镶白旗| 同心县| 如皋市| 吉安县| 平江县| 图片| 务川| 黄平县| 桦川县| 洪泽县| 花莲市| 霞浦县| 东城区| 筠连县| 阿尔山市| 宿迁市| 通海县| 依安县| 永善县| 新竹市| 肇源县| 砚山县| 昆山市|