• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      遞歸神經(jīng)網(wǎng)絡研究綜述*

      2021-05-11 13:45:54王雨嫣廖柏林印煜民
      吉首大學學報(自然科學版) 2021年1期
      關(guān)鍵詞:變體時刻語音

      王雨嫣,廖柏林,彭 晨,李 軍,印煜民

      (1.吉首大學數(shù)學與統(tǒng)計學院,湖南 吉首 416000;2. 吉首大學信息科學與工程學院,湖南 吉首 416000)

      近些年,深度學習技術(shù)發(fā)展迅速,被廣泛應用于數(shù)據(jù)信息提取中.神經(jīng)網(wǎng)絡分類有很多種,如深度神經(jīng)網(wǎng)絡(Deep Neural Networks, DNN)、卷積神經(jīng)網(wǎng)絡(Convolutional Neural Networks, CNN)、遞歸神經(jīng)網(wǎng)絡(Recurrent Neural Network, RNN)等[1].通常CNN和DNN等深度學習無法處理時間序列數(shù)據(jù),因為它們都是單個輸入并與相應輸出對應,即上一時刻的輸入信息無法對當前輸入產(chǎn)生影響.而在包含連續(xù)數(shù)據(jù)的研究領(lǐng)域,如文本、音頻和視頻等都要求模型序列輸入學習,因此在這種需要處理序列數(shù)據(jù)的情況下,遞歸神經(jīng)網(wǎng)絡便應運而生了[2].RNN體系結(jié)構(gòu)的典型特征是循環(huán)連接,它使得RNN能夠根據(jù)歷史輸入和當前輸入的數(shù)據(jù)更新當前狀態(tài),即所有輸入會對未來輸出產(chǎn)生影響.如完全RNN[3,5]和選擇性RNN[6],在一些問題上都取得了令人難以置信的成功.不幸的是,當相關(guān)輸入數(shù)據(jù)之間的差距較大時,完全RNN和選擇性RNN無法連接相關(guān)信息.為了處理“長期依賴性”,Hochreiter等[7]提出了長短期記憶(Long Short-Term Memory, LSTM)來解決這一問題.之后,LSTM被應用于各種場景,包括語音識別、聲學建模和軌跡預測等.筆者首先簡述了RNN以及LSTM及其幾種變體的基本工作原理和特點,然后介紹了RNN和LSTM在自然語言處理、計算機視覺及其他研究領(lǐng)域中的應用,最后對RNN未來的發(fā)展方向進行了分析總結(jié).

      1 遞歸神經(jīng)網(wǎng)絡

      1.1 單向RNN

      RNN用于處理序列數(shù)據(jù),允許歷史輸入信息存儲在網(wǎng)絡的內(nèi)部狀態(tài)中,因此能夠?qū)⑺械臍v史輸入數(shù)據(jù)映射到最終輸出.RNN的結(jié)構(gòu)如圖1所示.

      圖1 RNN結(jié)構(gòu)示意Fig. 1 Illustration of RNN

      由圖1可見,RNN由輸入層、輸出層和隱藏層組成[2].x表示輸入值,h表示隱藏層的值,o表示輸出值,U,W,V分別代表輸入層到隱藏層權(quán)值、隱藏層權(quán)值、隱藏層到輸出層權(quán)值[2].由RNN的展開圖可以看出,在t時刻,網(wǎng)絡輸入值、隱藏值、輸出值分別為xt,ht,ot.值得注意的是,當前的ht由2個量決定,即當前輸入xt和前一時刻隱藏值ht-1[2].由此,可得RNN的計算方法:

      其中g(shù)和f均為激勵函數(shù).(1)式為輸出層計算公式,(2)式為隱藏層計算公式.反復將(2)式代入(1)式,可得

      ot=g(Vht)=f(Uxt+Wht-1)=Vf(Uxt+Wf(Uxt-1+Wht-2))=Vf(Uxt+Wf(Uxt-1+

      Wf(Uxt-2+Wht-3)))=Vf(Uxt+Wf(Uxt-1+Wf(Uxt-2+Wf(Uxt-3+…)))).

      (3)

      從(3)式可知,RNN網(wǎng)絡輸出值ot受當前輸入xt和歷史輸入xt-1,xt-2,xt-3,….的影響,因此RNN可以往前看任意個輸入值.

      1.2 雙向RNN

      在某些情況下,輸出值除了受前面歷次輸入值的影響之外,可能還受未來時刻輸入值的影響.例如:“我的水杯壞了,我打算____一個新水杯.”若只考慮前面輸入,則可能存在“扔”“買”等情況,但若考慮到橫線后面“新水杯”這一信息,則能準確判斷出橫線處填“買”.針對這種情況,由(3)式可以看出,單向RNN只能向前看任意個輸入值,無法對此進行建模,于是Schuster等[8]提出了雙向遞歸神經(jīng)網(wǎng)絡(Bidirectional Recurrent Neural Networks,BRNN)來解決這一問題.BRNN的結(jié)構(gòu)如圖2所示.

      圖2 BRNN結(jié)構(gòu)示意Fig. 2 Illustration of BRNN

      由圖2可見,BRNN有2個隱藏層,比RNN多了1層網(wǎng)絡,一層參與正向計算,另一層參與反向計算,最終輸出值o由A與A′之和來決定[8].考慮輸入x2,BRNN的計算方法可表示為

      A2=f(WA1+Ux2),

      (4)

      從(4)式可知,理論上,RNN有能力處理序列數(shù)據(jù)這樣的長期依賴關(guān)系,但在實踐過程中,RNN存在梯度消失和爆炸問題,無法完成這項任務.為了解決梯度消失和爆炸問題,改進型的RNN,即LSTM出現(xiàn)了.

      2 LSTM及其變體

      2.1 LSTM

      RNN在訓練過程中會出現(xiàn)梯度消失和爆炸問題,無法處理很長的輸入序列,即RNN存在短期記憶問題,為了解決這一問題, Hochreiter等[7]引入了LSTM模型.

      RNN隱藏層只有1個h狀態(tài),對短期輸入更有效.LSTM在RNN的基礎(chǔ)上增添了1個單元狀態(tài)(cell state)c,用以保存長期狀態(tài)[7],如圖3所示.將圖3按時間維度展開得到圖4.由圖4可見,在t時刻,一個LSTM單元有3個輸入、2個輸出,其中xt表示t時刻輸入,ht-1表示t-1時刻LSTM輸出,ct-1表示t-1時刻單元狀態(tài),ht表示t時刻單元輸出,ct表示時刻單元輸出.

      圖3 LSTM示意Fig. 3 Illustration of LSTM

      圖4 LSTM按時間維度展開Fig. 4 LSTM Expanded by Time Dimension

      圖5詳細展示了LSTM的內(nèi)部連接.由圖5,LSTM單元的數(shù)學表達式為

      圖5 LSTM單元結(jié)構(gòu)和連接Fig. 5 LSTM Cell Architecture and Connections

      2.2 GRU

      LSTM單元的學習能力與標準遞歸單元相當,但額外的參數(shù)無疑增加了計算負擔,因此Cho等[8]引入了門控遞歸單元(Gated Recurrent Unit, GRU).GRU單元的結(jié)構(gòu)和連接細節(jié)如圖6所示.由圖6,GRU單元的數(shù)學表達式為

      圖6 GRU單元結(jié)構(gòu)和連接Fig. 6 GRU Cell Architecture and Connections

      2.3 MGU

      為了進一步減少單元參數(shù)的個數(shù),Zhou等[13]提出了最小門控單元(Minimal Gated Unit,MGU),它只有1個門,其結(jié)構(gòu)如圖7所示.由圖7,MGU單元的數(shù)學表達式為

      圖7 MGU單元結(jié)構(gòu)和連接Fig. 7 MGU Cell Architecture and Connections

      另外,還存在其他類型的LSTM變體,它們與通過減少門功能來修改LSTM單元參數(shù)的變體不同.如Rahman等[15]在LSTM單元中加入1個受生物啟發(fā)的變體,提出了生物學變體LSTM,通過僅改變單元狀態(tài)的更新來提高單元容量.又如Pulver等[16]引入了具有工作記憶的LSTM,用功能層代替遺忘門,功能層輸入由之前的存儲單元值決定.盡管引入了變體和類似的神經(jīng)單元,但是它們只能用于1個或某些特定的數(shù)據(jù)集.目前,沒有任何一種單元變體能整體勝過LSTM單元,可以說LSTM仍是深度學習的重點.

      3 應用

      3.1 自然語言處理

      自然語言數(shù)據(jù)是一種典型的序列數(shù)據(jù),RNN因具存儲特性,可以處理前后輸入有關(guān)系的序列數(shù)據(jù),因此RNN是解決各種自然語言處理(Natural Language Processing, NPL)問題的重要算法,包括語音識別、機器翻譯和文本分類等[17].

      3.1.1 語音識別 語音識別技術(shù)也稱自動語音識別,其難點在于輸入的語音序列的位置是未知的.RNN與聯(lián)結(jié)主義時間分類(Connectionist Temporal Classification,CTC)的結(jié)合是語音識別技術(shù)里最具影響力的深度學習技術(shù)之一[18].與CNN和自動編碼器相比,RNN具有接收不定長序列數(shù)據(jù)作為輸入的優(yōu)點,且具有記憶功能.Graves等[19]研究了深度遞歸神經(jīng)網(wǎng)絡,將深度網(wǎng)絡中已被證明非常有效的多層次表示與CTC結(jié)合起來,經(jīng)過端到端的訓練和適當?shù)恼齽t化處理后,發(fā)現(xiàn)深長短時記憶參數(shù)在時間音素識別上有效.之后,Graves等[20]設計了一種基于深度雙向LSTM遞歸神經(jīng)網(wǎng)絡結(jié)構(gòu)和CTC目標函數(shù)相結(jié)合的語音識別系統(tǒng),它不需要中間的語音表示,直接用文本來轉(zhuǎn)錄音頻數(shù)據(jù).Amodei等[21]用神經(jīng)網(wǎng)絡取代整個手工設計組件的管道,提出了一種端到端的深度學習方法,這種端到端學習允許處理各種各樣的語言.

      3.1.2 機器翻譯 區(qū)別于統(tǒng)計翻譯法的神經(jīng)機器翻譯方法,RNN也是目前機器翻譯的主流算法之一.Bahdanau等[22]將卷積n元模型與循環(huán)神經(jīng)網(wǎng)絡相結(jié)合進行機器翻譯,翻譯模型完全基于單詞、短語和句子的連續(xù)表示,而不依賴對齊或短語翻譯單元.Cho等[8]設計了新的神經(jīng)網(wǎng)絡模型RNN編解碼器,它由2個遞歸神經(jīng)網(wǎng)絡組成,一個RNN 將符號序列編碼成固定長度的矢量表示,另一個RNN將該矢量表示解碼成另一個符號序列,該模型的編碼器和解碼器被聯(lián)合訓練,使得給定源目標序列的條件概率最大化.Zhang等[23]取消了訓練中僅使用ground truth單詞的做法,改用概率采樣,以一定的概率從模型預測結(jié)果Oracle Word和ground truth中選擇其一作為當前步的輸入,從而一定程度上消除了機器翻譯中存在的曝光偏差問題和過度矯正問題帶來的影響.

      3.1.3 文本分類 文本分類是許多NPL程序的基礎(chǔ)任務,除了經(jīng)典的CNN、貝葉斯分類器等算法,RNN也成功地應用于文本分類.傳統(tǒng)的文本分類器往往依賴于許多人為設計的特征,如字典、知識庫和特殊的樹內(nèi)核.Lai等[24]引入了一種沒有人為特征的遞歸卷積神經(jīng)網(wǎng)絡(Recurrent Convolutional Neural Network, RCNN)文本分類方法,它可以在時間復雜度為O(n2)的前提下,提升文本分類的準確率.Yang等[25]設計了一個層次注意網(wǎng)絡來進行文檔分類,該模型有2個顯著的特點:(1)采用“詞-句子-文章”的結(jié)構(gòu)反映文檔層次結(jié)構(gòu);(2)在單詞和句子層次上有2個注意機制,使模型能夠在構(gòu)建文檔表示時區(qū)別地注意重要和不重要的內(nèi)容.

      3.2 計算機視覺

      RNN與CNN相結(jié)合的系統(tǒng)在計算機視覺中也有一定的應用.例如,在文本識別(Text Recognition)中,CNN用于從包含字符的圖像中提取特征,并將這些特征輸入LSTM中進行序列標注[26];對基于視頻的計算機視覺問題,如行為認知中,RNN可以利用CNN逐幀提取的圖像特征進行學習[27];Karpathy等[28]構(gòu)建了一個生成圖像及其區(qū)域的自然語言描述的模型,利用圖像數(shù)據(jù)集及句子描述來了解語言與視覺數(shù)據(jù)之間的模態(tài)對應關(guān)系,該對齊模型基于一個新組合方式,即“圖像區(qū)域上利用CNN模型+句子上利用雙向RNN模型+通過多模態(tài)嵌入來對齊2種模式輸入的結(jié)構(gòu)化目的”.

      3.3 其他

      在計算生物學領(lǐng)域,深度RNN用于分析包含生物信息的各種序列數(shù)據(jù),如在DNA序列中劃分外顯子和內(nèi)含子的斷裂基因[29],通過RNA序列識別小分子RNA[30],利用蛋白質(zhì)序列預測蛋白質(zhì)亞細胞定位[31]等.

      在地球科學領(lǐng)域,RNN被用于時間序列的建模.例如,Kordmahalleh等[32]建立了一種具有靈活拓撲的稀疏RNN,用于大西洋颶風的軌跡預測;Fang等[32]首次將LSTM應用于水文學,建立了一種以氣候強迫、模型模擬濕度和靜態(tài)地學屬性為輸入的土壤水分主動/被動(Soil Moisture Active Passive, SMAP)三級土壤水分數(shù)據(jù)預測系統(tǒng),該系統(tǒng)通過模型模擬消除了大部分偏差,同時改善了濕度氣候?qū)W的預測精度.

      在其他領(lǐng)域,有學者對RNN進行優(yōu)化,使得神經(jīng)網(wǎng)絡模型加速收斂、抗噪聲等.如向秋紅等[34]將傳統(tǒng)梯度神經(jīng)網(wǎng)絡(Gradient Neural Network, GNN)模型與張神經(jīng)網(wǎng)絡(Zhang Neural Network, ZNN)模型相結(jié)合,構(gòu)建了新型的新型神經(jīng)網(wǎng)絡(New Neural Network,NNN)模型,并將其用于在不同環(huán)境中求解時變矩陣 M-P 逆;張永勝等[35]在傳統(tǒng)RNN模型的基礎(chǔ)上引入雙符號冪激勵函數(shù),構(gòu)建了有限時間收斂的RNN模型,并將其用于求解二次最小化問題.

      4 結(jié)語

      RNN因具存儲特性,可以處理前后輸入有關(guān)系的序列數(shù)據(jù),在自然語言處理等領(lǐng)域有廣泛的應用.盡管目前關(guān)于RNN的研究已經(jīng)非常深入,但在很多方面仍有較大的進步空間.如機器翻譯方面,目前機器翻譯僅僅滿足日?;g,而專業(yè)文獻、人文歷史等專業(yè)化領(lǐng)域的翻譯效果不佳,尚無法取代人工翻譯;又如改進現(xiàn)有LSTM方面,可以考慮降低計算成本和提高預算精確度等,從而在實際應用中實現(xiàn)更大的價值.針對解決不同的問題,可以通過構(gòu)建新型高效的激勵函數(shù)、減少RNN參數(shù)等方法來優(yōu)化網(wǎng)絡模型,促進RNN的發(fā)展.

      猜你喜歡
      變體時刻語音
      基于DDPG算法的變體飛行器自主變形決策
      冬“傲”時刻
      捕獵時刻
      魔力語音
      基于MATLAB的語音信號處理
      電子制作(2019年14期)2019-08-20 05:43:38
      基于MQ3與MP3的價廉物美的酒駕語音提醒器
      電子制作(2019年9期)2019-05-30 09:42:10
      對方正在輸入……
      小說界(2018年5期)2018-11-26 12:43:42
      非仿射參數(shù)依賴LPV模型的變體飛行器H∞控制
      耀變體噴流高能電子譜的形成機制
      街拍的歡樂時刻到來了
      安徽省| 炎陵县| 博野县| 雷州市| 静乐县| 揭西县| 滦南县| 莲花县| 瑞安市| 通城县| 山阳县| 安陆市| 西和县| 鄢陵县| 肇庆市| 喀喇沁旗| 镇宁| 丘北县| 西乌珠穆沁旗| 临澧县| 大悟县| 大庆市| 新乐市| 三亚市| 怀仁县| 西畴县| 靖安县| 海原县| 宁武县| 玉溪市| 腾冲县| 苏尼特右旗| 云梦县| 赣榆县| 常山县| 日照市| 遵义市| 叶城县| 尼玛县| 洛隆县| 榆社县|