• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      編碼器中自注意力機(jī)制的替代方案

      2019-09-10 07:22:44周祥生林震亞郭斌
      現(xiàn)代信息科技 2019年19期
      關(guān)鍵詞:編碼器

      周祥生 林震亞 郭斌

      摘? 要:本文針對Transformer中編碼器進(jìn)行改進(jìn),嘗試了包括RNN(recurrent neural network)、CNN(convolu-tional neural network)、動態(tài)路由等多種結(jié)構(gòu),對比其特征提取能力及對解碼器的影響。實(shí)驗(yàn)表明,在編碼器中引入RNN、IndRNN結(jié)構(gòu)可以在一定程度上增加編碼器對源語言的特征提取能力,而采用CNN替代編碼器中的自注意力機(jī)制(self-attention)可以在不明顯影響結(jié)果的情況下顯著降低參數(shù)量,提升模型性能。由于考慮參數(shù)量和執(zhí)行時(shí)間,動態(tài)路由在該任務(wù)下效果不好,這也說明了動態(tài)路由結(jié)構(gòu)雖然是很強(qiáng)的特征提取器,但并不適合進(jìn)行堆疊。

      關(guān)鍵詞:自注意力機(jī)制;CNN;RNN;動態(tài)路由;編碼器

      中圖分類號:TN914;TP18? ? ? 文獻(xiàn)標(biāo)識碼:A 文章編號:2096-4706(2019)19-0064-05

      Abstract:In this paper,we try to improve the encoder in Transformer,including RNN(recurrent neural network),CNN(convolutional neural network),dynamic routing and other architectures,and compare their feature extraction capabilities and the impact on decoder. Experiments show that the introduction of RNN and IndRNN architecture in the encoder can increase the feature extraction ability of the source language to a certain extent,while the use of CNN instead of self-attention in the encoder can significantly reduce the number of parameters and improve the performance of the model without obvious impact on the results. Considering the parameters and execution time,dynamic routing does not work well in this task. This also shows that dynamic routing architecture is a strong feature extractor,but it is not suitable for stacking.

      Keywords:self-attention;CNN;RNN;dynamic routing;encoder

      0? 引? 言

      神經(jīng)機(jī)器翻譯(NMT)的目的是利用神經(jīng)網(wǎng)絡(luò)解決機(jī)器翻譯(MT)問題,近年來已顯示出不錯(cuò)的成果。在機(jī)器翻譯中,序列到序列結(jié)構(gòu)已經(jīng)被證明在很大程度上優(yōu)于傳統(tǒng)的基于短語的模型[1]。一個(gè)主要的挑戰(zhàn)是如何將可變長度的文本序列編碼成一個(gè)固定大小的張量,且這個(gè)張量能夠完全捕獲文本的語義。文本編碼方法通常包含三個(gè)關(guān)鍵步驟:(1)將文本序列中的每個(gè)單詞轉(zhuǎn)換為嵌入(Embedding)特征;(2)將單詞嵌入序列作為輸入,并使用神經(jīng)網(wǎng)絡(luò)進(jìn)行特征抽取與轉(zhuǎn)換;(3)通過聚合(Aggregation)將句子含義總結(jié)為固定大小的張量,然后通過監(jiān)督或無監(jiān)督的方式組合下游任務(wù)。如今,針對模型結(jié)構(gòu),已經(jīng)有大量研究,例如RNN[2,3]、CNN[4,5]和Self-attention Network[6-8]。一些研究人員發(fā)現(xiàn),不同的層能夠捕獲不同類型的語法和語義信息[9-11],例如本地和全局的源語言句法都是由NMT編碼器學(xué)習(xí)的,且在不同的層捕獲的語法信息不同。

      近年來,許多研究者將重點(diǎn)放在了聚合步驟上,有幾項(xiàng)工作在重復(fù)或卷積編碼層之上采用了自我關(guān)注機(jī)制[12,13],以取代簡單的池化和全連接。最近的一些研究表明,同時(shí)公開所有層表示優(yōu)于僅利用頂層進(jìn)行自然語言處理任務(wù)的方法[10,14-16]。然而,它們的方法主要集中在靜態(tài)聚合上,因?yàn)榫酆蠙C(jī)制在序列的不同位置上是相同的。隨后,Dou等人[17]受迭代路由文獻(xiàn)[18]、[19]的思想啟發(fā),將其思想應(yīng)用于層聚合,從而提取多層表征所共享的最活躍特征。

      然而,之前的結(jié)構(gòu)過于獨(dú)立,并沒有設(shè)計(jì)成可重復(fù)堆疊的模型單元。本文基于前人思想,將CNN、RNN、動態(tài)路由等結(jié)構(gòu)分別巧妙應(yīng)用于Transformer結(jié)構(gòu)[6]的Encoder單元中,在保證其并行能力、運(yùn)行效率的同時(shí)在機(jī)器翻譯領(lǐng)域的公開數(shù)據(jù)集UNv1.0中英測試集上取得了超越傳統(tǒng)Transformer的效果,并為模型蒸餾[20]學(xué)生模型的設(shè)計(jì)提供了新思路。此外,本文還針對傳統(tǒng)訓(xùn)練語料的不足,提供了新的訓(xùn)練語料,該語料是從各處搜集的五千多萬語料中整理出的六百萬條高質(zhì)量語料,實(shí)測采用該語料訓(xùn)練充分的模型可媲美全量語料充分訓(xùn)練后的結(jié)果。

      1? 編碼器中自注意力機(jī)制替代方案的背景知識

      1.1? NMT結(jié)構(gòu)

      通過兩個(gè)獨(dú)立的網(wǎng)絡(luò)將源序列映射到目標(biāo)序列,編碼器網(wǎng)絡(luò)計(jì)算源序列的表示,解碼器網(wǎng)絡(luò)根據(jù)編碼器輸出自動回歸生成目標(biāo)序列。下文中,表示第i步第l層的隱狀態(tài),Exi表示xi的嵌入,epos,i表示位置i的位置表征。

      1.2? 基于RNN的NMT

      RNN是一種狀態(tài)網(wǎng)絡(luò),當(dāng)新的輸入被輸入時(shí),它會發(fā)生變化,并且每個(gè)狀態(tài)都只與以前的狀態(tài)有直接的連接。因此,RNN中距離為n的任意兩個(gè)單元的路徑長度正好是n。圖1是RNN的示意圖。

      在深度結(jié)構(gòu)中,兩個(gè)相鄰層通常通過殘差操作進(jìn)行連接。在第l層編碼層中,由式(1)生成,其中frnn是RNN(包括GRU、LSTM等)函數(shù)。在第一層中,。此外,編碼器和解碼器之間可通過注意力機(jī)制連接,解碼器初始狀態(tài)通常由編碼器最后一個(gè)隱狀態(tài)或者其均值得到。

      1.3? 基于CNN的NMT

      CNN是層次化網(wǎng)絡(luò)結(jié)構(gòu),卷積層用于捕獲局部相關(guān)性。本地上下文大小取決于內(nèi)核的大小和層數(shù)。為了使輸出與輸入保持相同的長度,CNN模型在輸入序列中添加了Padding符號。對于內(nèi)核大小為k的l層CNN,最大的上下文關(guān)聯(lián)長度是l(k-1)。

      傳統(tǒng)CNN結(jié)構(gòu)如圖2所示,Multi-head attention[6]中的切頭操作說明執(zhí)行全連接后詞向量是可分的,因此文本處理中也可在全連接后采用傳統(tǒng)CNN結(jié)構(gòu)。

      在該結(jié)構(gòu)下,內(nèi)核大小為3的2層CNN可以“看到”5個(gè)詞的有效本地上下文。卷積核寬度越大,可關(guān)聯(lián)的上下文信息越多;卷積核長度越大,單次操作可捕捉的詞向量信息就更全。由于CNN無法推斷元素在序列中的位置,因此需要引入位置嵌入。

      式(2)中所示的隱藏狀態(tài)與同一卷積中的隱藏狀態(tài)以及上一層中的隱藏狀態(tài)有關(guān),k表示CNN的核大小,fcnn是非線性的函數(shù),W l稱為卷積濾波器。在輸入層中, 。

      1.4? 基于Transformer的NMT

      Transformer嚴(yán)重依賴于Self-attention。每個(gè)標(biāo)記都通過Self-attention直接連接到同一句話中的任何其他標(biāo)記。此外,Transformer還采用了多頭注意力機(jī)制。與傳統(tǒng)的單頭注意機(jī)制相比,多頭注意機(jī)制更加精細(xì)。圖3說明了任意兩個(gè)單元是直接連接的:第一個(gè)(x1)和第五個(gè)(x5)單元之間的路徑長度是1。與CNN類似,位置信息也需要保存在位置嵌入中,或者記錄詞與詞之間的相對位置關(guān)系[21]。

      Transformer編碼器中的隱藏狀態(tài)是根據(jù)前一層的所有隱藏狀態(tài)計(jì)算出來的。自注意網(wǎng)絡(luò)中隱藏狀態(tài)的計(jì)算如式(3)所示。

      其中f表示一個(gè)前饋網(wǎng)絡(luò),在輸入層中,,與編碼器不同,解碼器在Self-attention基礎(chǔ)上還有融合編碼器與解碼器內(nèi)容的多頭注意力機(jī)制計(jì)算。

      1.5? 動態(tài)路由

      動態(tài)路由將膠囊分組形成父膠囊,并計(jì)算膠囊的輸出。對于一個(gè)膠囊來說,輸入ui和輸出vj都是向量。首先,將變換矩陣Wij與前一層膠囊的輸出ui相乘,將ui轉(zhuǎn)換為uj|i,然后根據(jù)權(quán)重cij計(jì)算加權(quán)和sj,如圖4所示。

      cij為耦合系數(shù),通過迭代的動態(tài)路由過程計(jì)算得到。從概念上講,cij衡量膠囊i有多大可能激活膠囊j。對于激活函數(shù),這里采用Squashing而不是ReLU,所以膠囊的最終輸出向量vj的長度在0到1之間,該函數(shù)將小向量壓縮為零,大向量壓縮為單位向量。

      動態(tài)路由并不能完全替代反向傳播。轉(zhuǎn)換矩陣W仍然使用成本函數(shù)通過反向傳播訓(xùn)練。我們只是使用動態(tài)路由來計(jì)算膠囊的輸出。通過計(jì)算cij來量化膠囊與其父膠囊之間的連接。這個(gè)值很重要,但生命周期很短暫。對于每一個(gè)數(shù)據(jù)點(diǎn),在進(jìn)行動態(tài)路由計(jì)算之前,我們都將它重新初始化為0。在計(jì)算膠囊輸出時(shí),無論是訓(xùn)練或測試,都需要重新做動態(tài)路由計(jì)算。

      2? 編碼器中自注意力機(jī)制的替代方案模型的改進(jìn)

      2.1? 結(jié)構(gòu)改進(jìn)

      在Transformer結(jié)構(gòu)中,Decoder部分設(shè)計(jì)精妙,通過合理的Mask操作,從而讓一輪反向傳播計(jì)算學(xué)習(xí)了目標(biāo)語句每個(gè)位置上的信息。本文涉及的所有模型不改變Decoder部分流程,目的是觀察如何設(shè)計(jì)Encoder結(jié)構(gòu)可以讓Decoder部分更好地使用源語句信息。

      從根本上來說,Self-attention結(jié)構(gòu)的目的是采用所有原始向量的加權(quán)和對新的向量進(jìn)行表征,其中權(quán)重通過注意力計(jì)算得到,而RNN結(jié)構(gòu)更關(guān)注每個(gè)位置與上一個(gè)位置的依賴關(guān)系?;诖?,我們優(yōu)先想到的是如何將RNN思想用于改進(jìn)Self-attention結(jié)構(gòu),具體見式(9):

      其中l(wèi)表示層數(shù),Wl與Ul都是參數(shù)矩陣,bl是參數(shù)向量, 是? 經(jīng)過Self-attention計(jì)算后的結(jié)果。受IndRNN[22]啟發(fā)迭代式子可變更為式(10),從前一個(gè)單元至后一單元的傳遞過程中,由哈達(dá)瑪積運(yùn)算替代傳統(tǒng)矩陣乘法。

      除了引入RNN結(jié)構(gòu),本文還嘗試采用卷積網(wǎng)絡(luò)更好地捕捉文本局部特征。

      文中采用的CNN結(jié)構(gòu)如圖5所示,可以看到與傳統(tǒng)CNN的唯一區(qū)別在于不采用兩邊等長的卷積核。對于文本來說,長度更大的卷積核可以捕捉更長距離的上下文信息,寬度更大的卷積核可以更充分的捕捉詞語信息。本文分別在計(jì)算和不計(jì)算Self-attention的情況下加入卷積結(jié)構(gòu),并詳細(xì)對比了不同參數(shù)下的結(jié)果。

      除了引入RNN和CNN結(jié)構(gòu),本文還在Self-attention的基礎(chǔ)上加入動態(tài)路由。由于本文程序中采用動態(tài)詞長,所以動態(tài)路由沒有設(shè)計(jì)成用一句話中所有詞的加權(quán)和來表征每一個(gè)詞,即ui為某句話的第i個(gè)詞,vj為動態(tài)路由計(jì)算后這句話的第j個(gè)詞;而是把每個(gè)詞通過不同的參數(shù)矩陣變換為新詞,再由這些新詞的組合來表征原始詞,即ui為某個(gè)詞的第i個(gè)表征,vj為動態(tài)路由計(jì)算后這個(gè)詞的第j個(gè)表征。然后再將v通過拼頭的操作合并(同Self-attention中的多頭還原操作),并通過全連接計(jì)算進(jìn)行維度還原。

      2.2? 流程改進(jìn)

      為了更好地翻譯特殊字符,本文采用特殊字符保留操作。具體操作如下:

      (1)找到源語言與目標(biāo)語言中相同的詞,并且采用&SEPX的形式進(jìn)行標(biāo)記。

      如源語句:中國在2001年加入WTO的時(shí)候承諾加入GPA。

      目標(biāo)語句:China has the commitment to join the GPA when she accessed to the WTO in 2001.

      則將源語句標(biāo)記為:中國在&SEP1年加入&SEP2的時(shí)候承諾加入&SEP3。

      目標(biāo)語句標(biāo)記為:China has the commitment to join the &SEP3 when she accessed to the &SEP2 in &SEP1.

      (2)將處理后的語句加入原始數(shù)據(jù)集,即若源語句與目標(biāo)語句中出現(xiàn)相同的詞,則新增處理后的該句,原始句保留。

      (3)將新語料用于訓(xùn)練,得到最終模型。

      可以預(yù)見這類標(biāo)記大多為實(shí)體和數(shù)字,經(jīng)此訓(xùn)練后的模型可在一定程度上掌握特殊實(shí)體對齊能力。使用時(shí),可以選擇性的將需要保留的數(shù)字或者關(guān)鍵詞用特殊符號代替,再在翻譯結(jié)果中將詞填入對應(yīng)的位置中。對于一些訓(xùn)練集中的低頻詞或者經(jīng)Subword后左右熵較大的詞,也可以選擇性的將其標(biāo)記,再通過查字典的方式得到更為準(zhǔn)確的結(jié)果。

      3? 編碼器中自注意力機(jī)制的替代方案模型的結(jié)果分析

      本文采用的數(shù)據(jù)集根據(jù)公司內(nèi)部語料整理得到,共有六百萬條,句長期望22.25詞,在保證源語句與目標(biāo)語句長度接近的情況下,盡可能的遍歷各種句長,從而保證訓(xùn)練后的模型對長短句均有不錯(cuò)的翻譯效果。實(shí)驗(yàn)證明基于該語料充分訓(xùn)練后的模型,翻譯效果與五千萬條語料訓(xùn)練得到的模型差距不大(Transformer-base模型下BLEU值約差1.5)。驗(yàn)證集和測試集均采用UNv1.0。本文模型采用動態(tài)Batch和動態(tài)句長,使用4塊M40卡訓(xùn)練,激活函數(shù)均采用GELU[23],學(xué)習(xí)率及Adam優(yōu)化器超參數(shù)均按照Transformer[6]中的方法設(shè)置。為了加快實(shí)驗(yàn)速度及突出Encoder部分特征的重要性,Decoder層數(shù)均設(shè)為4層(在實(shí)際解碼過程中,Encoder只需要計(jì)算一次得到隱藏狀態(tài),而Decoder需要計(jì)算多次,直到出現(xiàn)截止符號,故而在實(shí)際使用中,Decoder部分的復(fù)雜度直接影響翻譯系統(tǒng)的性能)。RNNsearch[24]采用文獻(xiàn)中的參數(shù),其它模型隱藏層、全連接層維度均與Transformer-base一致。各個(gè)實(shí)驗(yàn)結(jié)果對比如表1所示。

      表1為各項(xiàng)實(shí)驗(yàn)結(jié)果,共訓(xùn)練100萬個(gè)Batch,結(jié)果均取驗(yàn)證集上表現(xiàn)最好的模型??梢娫谠摐y試集上,采用Transformer解碼器的模型明顯優(yōu)于傳統(tǒng)的RNNsearch結(jié)構(gòu)。Inception-resnet[25]結(jié)構(gòu)是測試模型中效果最好的CNN特征提取器,但參數(shù)量也最大,為了減少參數(shù),在進(jìn)入Inception-resnet前進(jìn)行降維至64維,出模型后恢復(fù)至512維,即使在這種情況下,依舊取得了不錯(cuò)的結(jié)果。對于CNN結(jié)構(gòu),第一個(gè)參數(shù)表示卷積核長度,第二個(gè)參數(shù)表示卷積核寬度,第三個(gè)參數(shù)表示Filter數(shù)量,可見增加卷積核長度起到的效果略好于增加卷積寬度,用太大的卷積核并不能像預(yù)想中那樣提取更多上下文及詞表征信息,反而會降低模型效果,如果不知道怎么設(shè)計(jì)卷積核大小,3*3的卷積核依舊是不錯(cuò)的選擇。增大Filter數(shù)量可以在一定程度上提升特征提取質(zhì)量,同時(shí)能增加模型訓(xùn)練時(shí)的穩(wěn)定性,使其在訓(xùn)練中后期(30萬步后)波動減小。此外,CNN結(jié)構(gòu)比Self-attention結(jié)構(gòu)具備更慢的訓(xùn)練收斂速度,這也可能是沒針對其進(jìn)行超參數(shù)調(diào)優(yōu)導(dǎo)致,如要解決這個(gè)問題,可在Self-attention的計(jì)算結(jié)果上加入CNN結(jié)構(gòu),該操作也會在一定程度上提升模型效果。

      在Self-attention結(jié)構(gòu)上加入RNN和IndRNN結(jié)構(gòu)均可在一定程度上提升模型效果,但也會略微增加參數(shù)量和收斂時(shí)間,說明Self-attention雖然在原理上可以學(xué)習(xí)到任意位置間的交互關(guān)系,但沒有特別捕捉與前一層的交互作用,額外引入每一層和前一層之間的關(guān)聯(lián)性也是有必要的。動態(tài)路由采用8維膠囊,輸出的膠囊也為8維,循環(huán)次數(shù)為6次,最后通過“拼接頭部+全連接”的方式還原維度。雖然參數(shù)量不多,但是按照上述方法加入到每次Self-attention計(jì)算后執(zhí)行過程很復(fù)雜,有大量中間結(jié)果,故而隱層設(shè)為512維時(shí)顯存不夠,這里將隱層設(shè)為256維。在該情況下,參數(shù)量大幅減少,但是無論是效果還是解碼時(shí)間都不盡如人意,在之后的論文中,會重點(diǎn)探討文獻(xiàn)[18]、[19]中路由結(jié)構(gòu)在翻譯模型中的合理使用方法。

      4? 結(jié)? 論

      本文針對Transformer中編碼器進(jìn)行改進(jìn),嘗試了包括RNN、IndRNN、CNN、動態(tài)路由等多種結(jié)構(gòu),對比其特征提取能力及對解碼器的影響。實(shí)驗(yàn)表明,在編碼器中引入RNN、IndRNN結(jié)構(gòu)可以在一定程度上增加編碼器對源語言的特征提取能力,而采用CNN替代編碼器中的Self-attention可以在不明顯影響結(jié)果的情況下顯著降低參數(shù)量,提升模型性能,為模型蒸餾任務(wù)中學(xué)生模型的設(shè)計(jì)提供了新思路。由于考慮參數(shù)量和執(zhí)行時(shí)間,動態(tài)路由在該任務(wù)下效果不好,這也說明了動態(tài)路由結(jié)構(gòu)雖然是很強(qiáng)的特征提取器,但并不適合進(jìn)行堆疊。此外,本文通過特殊字符替換方式解決了特殊字符或是非常用詞翻譯問題,還針對傳統(tǒng)訓(xùn)練語料的不足提供了新的訓(xùn)練語料,為商用翻譯系統(tǒng)設(shè)計(jì)提供了幫助。

      參考文獻(xiàn):

      [1] Sennrich R,Haddow B,Birch A .Edinburgh Neural Machine Translation Systems for WMT 16 [C]//Proceedings of the First Conference on Machine Translation,2016:371-376.

      [2] Jie Z,Ying C,Xuguang W,et al. Deep Recurrent Models with Fast-Forward Connections for Neural Machine Translation [J].Transactions of the Association for Computational Linguistics,2016,4:371-383.

      [3] Wu Y,Schuster M,Chen Z,et al. Google’s neural machine translation system:Bridging the gap between human and machine translation [J].arXiv preprint arXiv:1609.08144,2016.

      [4] Gehring J,Auli M,Grangier D,et al. Convolutional sequence to sequence learning [C]//Proceedings of the 34th International Conference on Machine Learning-Volume 70. JMLR. org,2017:1243-1252.

      [5] Bradbury J,Merity S,Xiong C,et al. Quasi-recurrent neural networks [C]//Published as a conference paper at ICLR 2017.

      [6] Vaswani A,Shazeer N,Parmar N,et al. Attention is all you need [C]//Advances in neural information processing systems(NIPS 2017).

      [7] Chen M X,F(xiàn)irat O,Bapna A,et al. The best of both worlds:Combining recent advances in neural machine translation [J].arXiv:1804.09849v2,2018.

      [8] Dehghani M,Gouws S,Vinyals O,et al. Universal transformers [J].arXiv preprint arXiv:1807.03819,2018.

      [9] Shi X,Padhi I,Knight K. Does string-based neural MT learn source syntax? [C]//Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing,2016:1526-1534.

      [10] Peters M E,Neumann M,Iyyer M,et al. Deep contextualized word representations [J].arXiv preprint arXiv:1802.05365,2018.

      [11] Anastasopoulos A,Chiang D. Tied multitask learning for neural speech translation [J].arXiv:1703.03130,2017.

      [12] Lin Z,F(xiàn)eng M,Santos C N,et al. A structured self-attentive sentence embedding [J].arXiv preprint arXiv:1703.03130,2017.

      [13] Yang Z,Yang D,Dyer C,et al. Hierarchical attention networks for document classification [C]//Proceedings of the 2016 Conference of the North American Chapter of the Association for Computational Linguistics:Human Language Technologies,2016:1480-1489.

      [14] Shen Y,Tan X,He D,et al. Dense information flow for neural machine translation [C]//Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics:Human Language Technologies,2018(3):1294-1303.

      [15] Gong J,Qiu X,Wang S,et al. Information aggregation via dynamic routing for sequence encoding [J].arXiv preprint arXiv:1806.01501,2018.

      [16] Dou Z Y,Tu Z,Wang X,et al. Exploiting deep representations for neural machine translation [J].arXiv preprint arXiv:1810.10181,2018.

      [17] Dou Z Y,Tu Z,Wang X,et al. Dynamic Layer Aggregation for Neural Machine Translation with Routing-by-Agreement [J].arXiv preprint arXiv:1902.05770,2019.

      [18] Sabour S,F(xiàn)rosst N,Hinton G E. Dynamic routing between capsules [C]// 31st Conference on Neural Information Processing Systems (NIPS 2017),2017:3856-3866.

      [19] Sabour S,F(xiàn)rosst N,Hinton G. Matrix capsules with EM routing [C]//Published as a conference paper at ICLR 2018.

      [20] Hinton G,Vinyals O,Dean J. Distilling the knowledge in a neural network [J].arXiv preprint arXiv:1503.02531,2015.

      [21] Shaw P,Uszkoreit J,Vaswani A,. Self-attention with relative position representations [J].arXiv preprint arXiv:1803.02155,2018.

      [22] Li S,Li W,Cook C,et al. Independently recurrent neural network (indrnn):Building a longer and deeper rnn [C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018:5457-5466.

      [23] Hendrycks D,Gimpel K. Bridging nonlinearities and stochastic regularizers with gaussian error linear units [J].arxiv:1606.08415,2016.

      [24] Bahdanau D,Cho K,Bengio Y. Neural machine translation by jointly learning to align and translate [J].arXiv preprint arXiv:1409.0473,2014.

      [25] Szegedy C,Ioffe S,Vanhoucke V,et al. Inception-v4,inception-resnet and the impact of residual connections on learning [J].arxiv:1602.07261,2016.

      作者簡介:周祥生(1980-),男,漢族,江蘇漣水人,資深研發(fā)經(jīng)理,碩士,研究方向:自然語言處理。

      猜你喜歡
      編碼器
      基于FPGA的同步機(jī)軸角編碼器
      基于雙增量碼道的絕對式編碼器設(shè)計(jì)
      基于PRBS檢測的8B/IOB編碼器設(shè)計(jì)
      JESD204B接口協(xié)議中的8B10B編碼器設(shè)計(jì)
      電子器件(2015年5期)2015-12-29 08:42:24
      基于數(shù)字信號處理的脈沖編碼器
      多總線式光電編碼器的設(shè)計(jì)與應(yīng)用
      穆棱市| 荣成市| 襄垣县| 潢川县| 宁海县| 碌曲县| 河津市| 乌拉特后旗| 肥乡县| 安塞县| 文化| 旌德县| 剑川县| 鄂托克旗| 康马县| 广南县| 分宜县| 阳江市| 兴业县| 涟水县| 榆树市| 隆林| 广河县| 苏尼特左旗| 巫山县| 涪陵区| 安多县| 保靖县| 四会市| 江油市| 葵青区| 安阳县| 体育| 庄河市| 同江市| 怀安县| 西宁市| 铅山县| 江源县| 徐州市| 大港区|