• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      一種針對句法樹的混合神經(jīng)網(wǎng)絡(luò)模型

      2017-03-12 08:30:12歡,張薇,劉亮,李
      中文信息學(xué)報(bào) 2017年6期
      關(guān)鍵詞:樹結(jié)構(gòu)池化準(zhǔn)確度

      霍 歡,張 薇,劉 亮,李 洋

      (1. 上海理工大學(xué) 光電信息與計(jì)算機(jī)工程學(xué)院,上海 200093;2. 復(fù)旦大學(xué) 上海市數(shù)據(jù)科學(xué)重點(diǎn)實(shí)驗(yàn)室,上海 201203)

      0 引言

      文本處理模型大致可以歸為三類: BOW(bag-of-words)模型、序列化模型和基于句法樹的模型。相對于BOW模型[1-2]詞與詞間的獨(dú)立性假設(shè),序列化模型[3-4]考慮了詞序信息,并因其突出性能被廣泛使用。但前兩種模型都忽略了文本自身存在的句法結(jié)構(gòu),而句法結(jié)構(gòu)對獲取文本語義特征相當(dāng)重要。因此,TreeLSTMs模型[5]是一種針對句法樹的LSTMs模型,該模型將順序處理的LSTM cells按句法樹遞歸排布,使原本o(n)的操作變成o(log(n)),縮短了反向傳播的路徑,在一定程度上緩解了梯度消失的問題,使模型能夠更準(zhǔn)確地學(xué)習(xí)長序列的空間關(guān)聯(lián)性。其中句法樹是將句子借助于樹形圖來說明句中詞與詞、詞組與詞組之間的句法、語義和邏輯關(guān)系。目前樹形結(jié)構(gòu)分為兩種: 支持樹(Constituency tree)和依存樹(Dependency tree),分別如圖1(a)和圖1(b)所示。其中,圖1(a)中加粗箭頭表示組合,圖1(b)中加粗箭頭表示卷積操作。

      但TreeLSTMs的缺點(diǎn)也顯而易見: 在圖1(a)中,為了計(jì)算父節(jié)點(diǎn)O1的隱藏狀態(tài)h1和細(xì)胞狀態(tài)c1,首先要獲得它兩個(gè)子節(jié)點(diǎn)O2和O3的隱藏狀態(tài)和細(xì)胞狀態(tài),然后再加以組合。這種對空間關(guān)聯(lián)性的計(jì)算完全限制了TreeLSTMs的并行能力,在需要訓(xùn)練大型數(shù)據(jù)集的場景下,計(jì)算效率成為這一模型首要考慮的問題。

      圖1 TreeLSTMs和TBCNNs模型示例

      相對于TreeLSTMs,TBCNNs[6-7]是一種針對句法樹的CNN模型,它的樹卷積方法能實(shí)現(xiàn)在句法樹上的并行化特征提取,訓(xùn)練效率比TreeLSTMs有很大提升。但由于池化操作的空間不變性假設(shè),模型無法在節(jié)點(diǎn)間對特征進(jìn)行組合(故在圖1(b)中,h1、h2和h3間無任何箭頭連接),導(dǎo)致模型未能充分利用輸入序列的結(jié)構(gòu)信息。

      由于TreeLSTMs和TBCNNs兩種模型存在著互補(bǔ)特性, 本文提出一種針對句法樹的混合神經(jīng)網(wǎng)絡(luò)模型。該模型以TreeLSTMs為改進(jìn)對象,借助TBCNNs的樹卷積和池化方法實(shí)現(xiàn)了類似TreeLSTMs的計(jì)算,故將此模型命名為Quasi-TreeLSTMs。模型包含卷積模塊和池化模塊兩個(gè)子模塊,前者完成非線性變換層和門狀態(tài)的計(jì)算,后者完成剩余的空間關(guān)聯(lián)性的計(jì)算。由于池化模塊的計(jì)算不存在任何參數(shù),因此該模塊的計(jì)算耗時(shí)可忽略不計(jì)。兩模塊一個(gè)為模型帶來了并行性,另一個(gè)則保證了它仍然擁有和TreeLSTMs一樣的記憶和組合特征的能力。本文將在情感分類和語義相似性兩種自然語言處理任務(wù)上對模型進(jìn)行測試,實(shí)驗(yàn)結(jié)果表明: Quasi-TreeLSTMs的表現(xiàn)普遍優(yōu)于TreeLSTMs。

      本文其他部分內(nèi)容如下: 第一節(jié)概述TreeLSTMs模型;第二節(jié)介紹本文提出的兩種Quasi-TreeLSTMs模型,Dependency Quasi-TreeLSTMs和Constituency Quasi-TreeLSTMs;第三節(jié)對實(shí)驗(yàn)結(jié)果進(jìn)行討論和分析;第四節(jié)介紹相關(guān)工作;第五節(jié)總結(jié)全文。

      1 背景知識(shí)

      考慮到本文的改進(jìn)對象是TreeLSTMs,本節(jié)將對此模型進(jìn)行概述。圖2展示了將Fruit flies like a banana進(jìn)行解析后的兩種句法樹。

      1.1 針對依存樹建模的Dependency TreeLSTMs

      針對依存樹建模的TreeLSTMs模型,稱為Dependency TreeLSTMs。依存樹是按照詞與詞間的句法關(guān)系將各個(gè)詞節(jié)點(diǎn)相互連接的句法樹,如圖2(a)中flies和Fruit由nsubj(主謂關(guān)系)標(biāo)簽連接,flies和banana則由nmod(復(fù)合名詞修飾關(guān)系)標(biāo)簽連接??紤]到依存樹中每個(gè)節(jié)點(diǎn)包含的子節(jié)點(diǎn)的數(shù)量各不相同(有時(shí)甚至差異巨大);同時(shí),各個(gè)子節(jié)點(diǎn)間也不存在任何順序,因此,Dependency TreeLSTMs在組合各子節(jié)點(diǎn)的隱藏狀態(tài)時(shí)采用的方式是全部求和。對某個(gè)節(jié)點(diǎn)j,該模型通過如下公式計(jì)算它的隱藏狀態(tài)hj。

      其中C(j)是節(jié)點(diǎn)j所有子節(jié)點(diǎn)的集合。

      式(2)~(5)分別代表輸入門(input gate)、遺忘門(forget gate)、輸出門(output gate)和非線性變換層,其中遺忘門需要區(qū)分各個(gè)子節(jié)點(diǎn)k。 它們各自有一組(W,U,b)共享變量,可通過訓(xùn)練進(jìn)行學(xué)習(xí)獲得。如前文所述,節(jié)點(diǎn)j的門狀態(tài)和線性變換層的計(jì)算都依賴式(1)組合其所有子節(jié)點(diǎn)的隱藏狀態(tài),這種空間的關(guān)聯(lián)性計(jì)算正是TreeLSTMs模型難以并行處理數(shù)據(jù)的根本所在。

      圖2 句法樹示例

      1.2 針對N元支持樹建模的Constituency TreeLSTMs

      針對N元支持樹(下面統(tǒng)稱為支持樹)建模的TreeLSTMs模型,稱為Constituency TreeLSTMs。與依存樹不同,支持樹的葉子節(jié)點(diǎn)有序地表示輸入序列中的詞,而非葉子節(jié)點(diǎn)代表的是短語,連接各節(jié)點(diǎn)的邊上也沒有關(guān)系標(biāo)簽。如圖2(b)中第二層的非葉子節(jié)點(diǎn)NP(名詞性短語)指的是a banana,第三層PP(介詞性短語)再加入葉子節(jié)點(diǎn)like,代表like a banana。直覺上,支持樹似乎更加符合人們由下至上組合語義的要求??紤]到支持樹各個(gè)非葉子節(jié)點(diǎn)包含的子節(jié)點(diǎn)數(shù)目都不超過N個(gè),且各子節(jié)點(diǎn)間存在著詞序,例如,圖2(b)表示一個(gè)binary constituency tree,即二叉支持樹,圖中NP代表的是a banana而非banana a。因此Constituency TreeLSTMs在組合子節(jié)點(diǎn)的隱藏狀態(tài)時(shí)采用的方式是線性加權(quán)。對某個(gè)節(jié)點(diǎn)j,該模型通過如下公式計(jì)算它的隱藏狀態(tài)hj。

      2 混合神經(jīng)網(wǎng)絡(luò)模型(Quasi-TreeLSTMs)

      受混合神經(jīng)網(wǎng)絡(luò)[8-9]的啟發(fā),本文提出一種針對句法樹的Quasi-TreeLSTMs模型,借助TBCNNs的思想,將影響TreeLSTMs效率的空間關(guān)聯(lián)性計(jì)算任務(wù)進(jìn)行拆分,并設(shè)計(jì)兩個(gè)子模塊——卷積模塊和池化模塊分別處理。

      2.1 卷積模塊

      本文中卷積模塊的任務(wù)不是直接提取特征,而是對TreeLSTMs的非線性變換層和門狀態(tài)進(jìn)行計(jì)算。首先,本文使用Stanford Neural Network Dependency Parser[10]和Stanford PCFG Parser[11]分別將序列解析成依存樹或支持樹,兩種樹結(jié)構(gòu)對應(yīng)Quasi-TreeLSTMs的兩個(gè)變體Dependency Quasi-TreeLSTMs和Constituency Quasi-TreeLSTMs,分別如圖3(a)和圖3(b)所示。

      圖3 Quasi-TreeLSTMs的兩個(gè)變體

      接著,設(shè)計(jì)一個(gè)深度固定為h(本文h=2)且包含m個(gè)卷積核(kernels)的卷積窗口,讓它在整棵樹上滑動(dòng),算法過程中對窗口內(nèi)的子樹進(jìn)行計(jì)算。假設(shè)現(xiàn)在窗口內(nèi)的子樹上有t個(gè)節(jié)點(diǎn),每個(gè)節(jié)點(diǎn)被賦予一個(gè)向量xk∈n。如果是依存樹,向量指的是節(jié)點(diǎn)詞的詞向量;如果是支持樹,考慮到非葉子節(jié)點(diǎn)上沒有對應(yīng)的詞,在實(shí)驗(yàn)中將為每個(gè)非葉子節(jié)點(diǎn)初始化一個(gè)n維正態(tài)分布的隨機(jī)向量。此時(shí),卷積窗口的輸出如下:

      依存樹每個(gè)節(jié)點(diǎn)包含的子節(jié)點(diǎn)數(shù)目不固定,因此Dependency Quasi-TreeLSTMs可以像TreeLSTMs一樣對全部子節(jié)點(diǎn)的詞向量求和[式(1)],也可以利用TBCNNs的方法,根據(jù)父子節(jié)點(diǎn)間的句法關(guān)系標(biāo)簽[如圖2(a)中的nsubj和nmod等]為子節(jié)點(diǎn)分配權(quán)值矩陣,本文將選擇前者。假設(shè)此時(shí)窗口內(nèi)子樹的根節(jié)點(diǎn)為xj,它的子節(jié)點(diǎn)數(shù)為C(j),具體卷積計(jì)算過程如下:

      上述計(jì)算與式(1)~(5)十分相似,訓(xùn)練參數(shù)的個(gè)數(shù)也相同,但由于獲取xk不需任何前期計(jì)算,打破了原本的空間關(guān)聯(lián)性限制,使這部分計(jì)算得以并行化處理。

      類似地,針對支持樹的Constituency Quasi-TreeLSTMs的卷積計(jì)算過程如下:

      當(dāng)卷積窗口在樹上完成一次遍歷后,會(huì)得到一棵特征樹,上面的每個(gè)節(jié)點(diǎn)保存了卷積獲得的非線性變換層和門狀態(tài)向量。但對于遺忘門,即式(20)和式(24),fjk是保存在它的各個(gè)子節(jié)點(diǎn)k上的。雖然卷積操作在一定程度上增加了空間復(fù)雜度,但只要按批訓(xùn)練時(shí)batch大小設(shè)置合適,一般不會(huì)對訓(xùn)練產(chǎn)生任何影響。

      2.2 池化模塊

      在通過卷積模塊獲得的特征樹上,池化模塊要完成空間關(guān)聯(lián)性計(jì)算任務(wù)??梢钥吹?,式(6)~(7)和式(12)~(13)的計(jì)算雖然依賴前一層的計(jì)算結(jié)果,但過程中不存在任何需要訓(xùn)練的參數(shù),對現(xiàn)在大多數(shù)的CPUs/GPUs來說計(jì)算任務(wù)不大。與TBCNNs中提到的Dynamic Pooling[12]不同,本文將采用一個(gè)和卷積窗口類似的池化窗口(深度為2)。因?yàn)樯疃裙潭杀WC計(jì)算只在特征樹的父子節(jié)點(diǎn)間完成,而不會(huì)在層級間跳躍破壞空間關(guān)聯(lián)性。計(jì)算過程同式(6)~(7)和式(12)~(13),故此處不再贅述。

      2.3 目標(biāo)函數(shù)構(gòu)造

      其中m是訓(xùn)練樣本中節(jié)點(diǎn)數(shù)目,λ是L2正則化項(xiàng)超參。

      語義相似性任務(wù)是兩個(gè)句子的匹配問題,需要構(gòu)建兩棵樹并分別用一個(gè)Quasi-TreeLSTMs進(jìn)行編碼。實(shí)驗(yàn)中將兩樹在根節(jié)點(diǎn)上的特征向量對(hL,hR),hL,R∈m進(jìn)行如下組合,獲得一個(gè)匹配向量hs∈4m, 如式(28)所示。

      3 實(shí)驗(yàn)分析

      實(shí)驗(yàn)選擇以下兩個(gè)自然語言處理任務(wù)來測試本文提出的Quasi Tree-LSTMs模型的性能: ①情感分類,分析上萬條帶標(biāo)簽的電影評論的情感傾向;②語義關(guān)系,根據(jù)語義關(guān)系判斷句子對是否相似。

      3.1 情感分類

      數(shù)據(jù)集介紹本實(shí)驗(yàn)使用Stanford Sentiment Treebank數(shù)據(jù)集[13],該數(shù)據(jù)集包含一萬多條電影評論,所有評論都帶有一個(gè)人工標(biāo)記的情感標(biāo)簽,分別如下: 強(qiáng)積極(++)、積極(+)、中立(neutral)、消極(-)、強(qiáng)消極(--)。本文在五分類和二分類兩種設(shè)置上進(jìn)行實(shí)驗(yàn): 對五分類任務(wù),按8 544/1 101/2 210的比例將數(shù)據(jù)集劃分成訓(xùn)練集/驗(yàn)證集/測試集;對二分類任務(wù),實(shí)驗(yàn)中不考慮標(biāo)記為中立的樣本,將強(qiáng)積極和積極歸為一類(+),消極和強(qiáng)消極為另一類(-),最后訓(xùn)練集/驗(yàn)證集/測試集的比例是6 920/872/1 821。

      訓(xùn)練參數(shù)電腦配置Intel/Xeon E5-2683V3 14核28線程,NVIDIA GTX1080顯卡,32GB內(nèi)存,并使用Tensorflow 深度學(xué)習(xí)框架實(shí)現(xiàn)。

      本文的模型初始化和TBCNNs的設(shè)置相同,并在驗(yàn)證集上對模型進(jìn)行超參調(diào)優(yōu),最后得到如下的訓(xùn)練參數(shù): 模型使用帶有300個(gè)卷積核且深度為2的卷積窗口和在Wikipedia 2014和Gigaword 5上訓(xùn)練獲得的300維(d=300)的Glove詞向量[14]來初始化詞向量,若遇到未包含的詞則賦予300維正態(tài)分布的隨機(jī)向量。采用AdaGrad[15]隨機(jī)梯度下降算法,初始學(xué)習(xí)率0.05,batch size 25,本文對Embedding也進(jìn)行訓(xùn)練,初始學(xué)習(xí)率0.02。L2正則化系數(shù)為0.000 1,同時(shí)將Embedding層和output層使用的dropout(keep probability)分別設(shè)置為0.6和0.8。為了不讓訓(xùn)練樣本波動(dòng)過大,本文預(yù)先按句子長度對數(shù)據(jù)集進(jìn)行排序。

      實(shí)驗(yàn)結(jié)果由于無法得到一些重要訓(xùn)練參數(shù),盡管經(jīng)過細(xì)致的調(diào)優(yōu)過程,本文對TreeLSTMs和TBCNNs兩個(gè)模型的實(shí)現(xiàn)在準(zhǔn)確度上仍低于文獻(xiàn)[5]和文獻(xiàn)[6]中給出的結(jié)果。因此,參照本文對TreeLSTMs模型和TBCNNs模型的實(shí)驗(yàn)獲得的結(jié)果來評估模型性能,與本文提出的Quasi-TreeLSTMs模型進(jìn)行比較。表1展示了模型在五分類和二分類兩個(gè)情感分類任務(wù)上分別訓(xùn)練十個(gè)epochs后的結(jié)果。

      表1 Stanford Sentiment Treebank測試結(jié)果

      續(xù)表

      由表1可知,相較于其他模型,Dependency TreeLSTMs在兩個(gè)分類任務(wù)上的準(zhǔn)確度明顯較低,而Constituency TreeLSTMs卻并不受影響,原因是支持樹更能滿足TreeLSTMs層級間組合信息的需求,在處理數(shù)據(jù)的過程中細(xì)粒度在不斷增大,這對特征信息的提取非常有利,但在依存樹上缺少這一特性。TreeLSTMs模型基于依存樹訓(xùn)練得到的準(zhǔn)確度不高是因?yàn)橐来鏄浣Y(jié)構(gòu)中能訓(xùn)練的帶標(biāo)簽的節(jié)點(diǎn)要比支持樹中少了將近一半(150k:319k),因此能獲得的信息就更少。依存樹結(jié)構(gòu)要比支持樹結(jié)構(gòu)更加緊湊,這對TBCNNs的卷積和池化操作都更加有利,因此它能在已有標(biāo)簽的節(jié)點(diǎn)上提取更多的信息。

      在情感分類的兩個(gè)任務(wù)上,Dependency TBCNNs的準(zhǔn)確度都比Constituency TBCNNs高了近1%, TBCNNs在依存樹上處理葉子節(jié)點(diǎn)融合問題時(shí),根據(jù)引入的15個(gè)高頻句法標(biāo)簽為子節(jié)點(diǎn)分配權(quán)值,由于TreeLSTMs中并未這樣處理,因此本文實(shí)現(xiàn)Dependency TBCNNs模型時(shí)并未加入句法標(biāo)簽權(quán)重。雖然不考慮句法標(biāo)簽信息的Dependency TBCNNs的準(zhǔn)確度在兩個(gè)任務(wù)上分別下降了0.9%和0.8%,但仍高于Constituency TBCNNs的準(zhǔn)確度,這一實(shí)驗(yàn)結(jié)果也表明TBCNNs在處理依存樹結(jié)構(gòu)的數(shù)據(jù)上有一定的優(yōu)勢。

      本文提出的Constituency Quasi-TreeLSTMs在兩個(gè)任務(wù)上的準(zhǔn)確度都高于Dependency Quasi-TreeLSTMs,這和TreeLSTMs的結(jié)果一樣,不同的是本文的兩個(gè)模型差距卻不大,說明Quasi-TreeLSTMs作為一種混合模型,緩解了已有的模型對樹結(jié)構(gòu)存在的敏感性,特別是有效避免了TreeLSTMs在依存樹上無法有效提取信息的問題。

      雖然實(shí)驗(yàn)中的三類模型沒有絕對的最優(yōu),除Dependency TreeLSTMs外,其他模型在五分類任務(wù)上的準(zhǔn)確度最高和最低間相差僅0.8%,在二分類上相差1.0%,表現(xiàn)最好的是Constituency TreeLSTMs,其次是本文提出的Constituency Quasi-TreeLSTMs,這兩個(gè)模型在兩個(gè)任務(wù)上相差了0.3%,主要原因是本文提出的模型所使用的池化模塊不能像TreeLSTMs模型那樣很好地適應(yīng)支持樹;Dependency Quasi-TreeLSTMs的準(zhǔn)確度高于Constituency TBCNNs,說明雖然同樣是在不適合的樹結(jié)構(gòu)上使用模型,但Quasi-TreeLSTMs的混合特性,能弱化這種結(jié)構(gòu)和需求的不對稱性。

      圖4給出了模型在情感分類的兩個(gè)任務(wù)訓(xùn)練上每個(gè)epoch的平均消耗時(shí)間。TreeLSTMs和TBCNNs模型實(shí)現(xiàn)的訓(xùn)練速度差異很大, 且與針對的樹結(jié)構(gòu)相關(guān)。表2列舉了TreeLSTMs針對支持樹結(jié)構(gòu)在三種實(shí)現(xiàn)方法中平均每秒解析樹的個(gè)數(shù)。

      圖4 在兩個(gè)任務(wù)上訓(xùn)練epoch的平均消耗時(shí)間

      表2TreeLSTMs基于支持樹的三種實(shí)現(xiàn)平均每秒解析樹的個(gè)數(shù)

      動(dòng)態(tài)圖靜態(tài)圖mini?batchmini?batch+meta?tree1.5933420

      由于Tensorflow本身不支持動(dòng)態(tài)圖模型的構(gòu)建,導(dǎo)致模型無法進(jìn)行batch訓(xùn)練,因此動(dòng)態(tài)圖和靜態(tài)圖的解析比較慢。在三種實(shí)現(xiàn)中,動(dòng)態(tài)圖使用后序遍歷操作,靜態(tài)圖將樹以列表形式存儲(chǔ),并使用Tensorflow的while loop操作。mini-batch方法[16]基于廣度優(yōu)先遍歷搜索變量,類似于樹的層次遍歷,而mini-batch with meta-tree方法[17]在mini-batch基礎(chǔ)上將batch中各棵樹上的節(jié)點(diǎn)按照結(jié)構(gòu)排序并融合到一棵meta-tree上,然后一層一層地處理。mini-batch meta-tree方法的時(shí)間復(fù)雜度由O(M×N)縮減到O(log(N)),訓(xùn)練速度非???這種方法同Google提出的dynamic batching算法[18]類似)。本文基于支持樹的模型都是按照mini-batch meta-tree的方式實(shí)現(xiàn)。對于依存樹,由于每個(gè)節(jié)點(diǎn)的子節(jié)點(diǎn)數(shù)目各不相同,很難構(gòu)建一棵meta-tree,因此只能以mini-batch的方式實(shí)現(xiàn)該模型,因此在圖4中,針對依存樹建模的模型在訓(xùn)練速度上明顯低于針對支持樹生成的模型。

      如圖4所示,本文提出的Quasi-TreeLSTMs是混合模型,它的訓(xùn)練耗時(shí)在TBCNNs和TreeLSTMs之間。但由于實(shí)現(xiàn)方式的相對高效,使得針對支持樹的模型的速度差異小于針對依存樹的模型的差異。在兩個(gè)任務(wù)上,Constituency Quasi-TreeLSTMs的訓(xùn)練速度僅比Constituency TreeLSTMs快3.2s ,這一現(xiàn)象說明除了優(yōu)化模型本身來提升性能外,使用一個(gè)高效的方法實(shí)現(xiàn)模型也能在一定程度上削弱模型間特性的差異。

      由于實(shí)現(xiàn)方式相對低效,針對依存樹的模型間的特性差異將在訓(xùn)練過程中不斷體現(xiàn)。TBCNNs模型最適應(yīng)依存樹結(jié)構(gòu),且沒有空間關(guān)聯(lián)性關(guān)系的計(jì)算,使得它的訓(xùn)練速度相對較快。而本文提出的Quasi TreeLSTMs模型在TBCNNs基礎(chǔ)上融入了部分空間關(guān)聯(lián)性計(jì)算,但這部分任務(wù)是無訓(xùn)練參數(shù)的,因此訓(xùn)練耗時(shí)在兩個(gè)任務(wù)上平均只多30s左右。但和TreeLSTMs相比,Quasi TreeLSTMs模型在兩個(gè)任務(wù)上分別快了61.9s和48.3s,說明本文的模型在訓(xùn)練時(shí)有較大的速度提升。雖然Quasi-TreeLSTMs模型的準(zhǔn)確度不及TreeLSTMs,但在多數(shù)情境下,快速訓(xùn)練迭代并獲得較好的結(jié)果才是任務(wù)的需求。

      3.2 語義相關(guān)性

      數(shù)據(jù)集介紹本實(shí)驗(yàn)使用包含9 927個(gè)句子對的SICK(sentences involving compositional knowledge)數(shù)據(jù)集[19],每個(gè)句子對被人工標(biāo)記了ENTAILMENT(蘊(yùn)含)、NEUTRAL(無明顯關(guān)系)和CONTRADICTION(矛盾)三類中的一類。本實(shí)驗(yàn)按4 500/500/4 927將數(shù)據(jù)集劃分為訓(xùn)練集/驗(yàn)證集/測試集。

      訓(xùn)練參數(shù)同情感分類實(shí)驗(yàn)。

      實(shí)驗(yàn)結(jié)果表3展示了所有對比模型在SICK數(shù)據(jù)集上訓(xùn)練30個(gè)epochs的準(zhǔn)確度,及訓(xùn)練一個(gè)epoch的平均消耗時(shí)間。

      在3.1節(jié)中已經(jīng)介紹,由于支持樹的特性,TreeLSTMs模型處理支持樹的數(shù)據(jù)更有優(yōu)勢。而依存樹按照詞與詞間的句法關(guān)系將各個(gè)節(jié)點(diǎn)連接組合而成,并帶有詞與詞之間的語法關(guān)系,使得TBCNNs模型的卷積層和池化操作在處理依存樹結(jié)構(gòu)的數(shù)據(jù)上更有利。由表3可知,Constituency TreeLSTMs(87.5%)模型和Dependency TBCNNs(87.0%)模型的準(zhǔn)確度都較高。本文提出的Constituency Quasi-TreeLSTMs(87.2%)模型準(zhǔn)確度高于Dependency Quasi-TreeLSTMs(86.7%),鑒于Quasi-TreeLSTMs的混合模型特征,兩者表現(xiàn)差距不大。同情感分類任務(wù),本文的模型緩解了已有模型對樹結(jié)構(gòu)類型的敏感性,避免了TreeLSTMs模型在依存樹上無法有效提取信息的問題,也解決了TBCNNs模型無法利用支持樹的層級關(guān)系的缺陷。

      另一方面,在訓(xùn)練上每個(gè)epoch的平均消耗時(shí)間TBCNNs的訓(xùn)練速度相對較快,Quasi TreeLSTMs模型在TBCNNs模型的基礎(chǔ)上引入了池化模塊計(jì)算序列中詞序關(guān)系,但在該模型的池化模塊中無訓(xùn)練參數(shù),因此該模型的速度和TBCNNs模型的速度相差不大。Quasi TreeLSTMs模型在速度上相對于TreeLSTMs模型有很大提升。因此,對于綜合模型在兩種樹結(jié)構(gòu)上效果的平衡關(guān)系和訓(xùn)練速度兩個(gè)衡量指標(biāo),本文提出的Quasi TreeLSTMs模型最值得考慮。

      表3 SICK數(shù)據(jù)集測試結(jié)果

      4 相關(guān)工作

      目前,針對樹結(jié)構(gòu)建模的模型大致分為兩類: 基于循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)在樹結(jié)構(gòu)上建模[5,20]和基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)在樹結(jié)構(gòu)上建模[6,21]。

      基于循環(huán)神經(jīng)網(wǎng)絡(luò)在樹上構(gòu)建的模型,除了Tree-LSTM模型外,Dependency RNN[18]模型在依存樹上建模,并通過結(jié)合句子的句法依賴性來提高循環(huán)神經(jīng)網(wǎng)絡(luò)模型的性能。Dependency RNN模型在解析樹的所有路徑(即從當(dāng)前節(jié)點(diǎn)到根節(jié)點(diǎn)的展開)上都相互獨(dú)立地獲取所需要的依賴結(jié)構(gòu),同時(shí)保存每個(gè)節(jié)點(diǎn)出現(xiàn)在路徑中的頻率,并將其倒數(shù)和學(xué)習(xí)率結(jié)合,以防某一節(jié)點(diǎn)出現(xiàn)在多個(gè)路徑中造成過度訓(xùn)練。此外,文獻(xiàn)[18]在模型中加入語法標(biāo)簽,提出Labelled Dependency RNN模型。但該模型除了本文重點(diǎn)強(qiáng)調(diào)的效率問題,RNN模型在處理長序列上記憶狀態(tài)衰減這一特點(diǎn)也是Dependency RNN模型要面臨的一個(gè)難題。

      和TBCNNs模型相同的DBCNNs[19],該模型基于CNN在依存樹上建模,提取每個(gè)詞特征時(shí),將從該詞到根節(jié)點(diǎn)的路徑上的所有節(jié)點(diǎn)加入計(jì)算。該做法可以提取序列中長距離信息。雖然都是通過CNN模型基于樹結(jié)構(gòu)建模,但TBCNNs和DBCNNs卷積窗口的工作方式不同,且兩個(gè)模型都沒考慮輸入序列的原始順序信息。

      目前存在很多將CNN模型結(jié)合RNN模型生成的混合模型。運(yùn)用CNN卷積操作接收長度固定的短語進(jìn)行學(xué)習(xí)的混合神經(jīng)網(wǎng)絡(luò)模型[22]將生成的特征表示用于LSTM模型,進(jìn)一步學(xué)習(xí)輸入文本的依賴關(guān)系。文獻(xiàn)[23]將卷積層與雙向LSTM結(jié)合生成一個(gè)新的模型,通過對輸入信息使用卷積層來處理文本,并通過池化函數(shù),以減小序列的長度,然后將生成的特征提供給雙向LSTM模型用于后續(xù)處理。Quasi-RNN模型[9]是一種將CNN卷積操作和RNN的循環(huán)操作相結(jié)合的新的自然語言處理模型,卷積操作并行計(jì)算輸入門、遺忘門和輸出門信息,在循環(huán)層遞歸地計(jì)算輸入序列中每個(gè)時(shí)間步的細(xì)胞狀態(tài)和隱藏狀態(tài),有效地解決了RNN時(shí)效性問題。但上面的三種模型都是基于順序處理輸入序列,計(jì)算得到的最終表示只包含了序列的順序信息。

      5 結(jié)論

      本文提出一種針對句法樹的混合神經(jīng)網(wǎng)絡(luò)模型Quasi- TreeLSTMs,該模型結(jié)合傳統(tǒng)的TreeLSTMs和TBCNNs模型,將影響TreeLSTMs效率的空間關(guān)聯(lián)性計(jì)算任務(wù)進(jìn)行拆分,用TBCNNs的卷積操作來完成最主要也是最耗時(shí)的三個(gè)控制門狀態(tài)的計(jì)算,剩余的少量空間關(guān)聯(lián)性任務(wù)因?yàn)橥耆珶o參,恰好適合用TBCNNs的池化操作進(jìn)行計(jì)算。本文用TBCNNs實(shí)現(xiàn)了類似TreeLSTMs的操作,在保持后者記憶能力的前提下,又為其增添了并行性。從在情感分類和語義關(guān)系兩種自然語言處理任務(wù)上的測試結(jié)果可以看出,本文提出的Quasi-TreeLSTMs在保持和已有模型相近的分類準(zhǔn)確度的同時(shí),在訓(xùn)練速度這一評價(jià)指標(biāo)上有顯著的性能提升。

      [1] Peter W F, Walter K, Thomas K L. The measurement of textual coherence with latent semantic analysis[J]. Discourse Processes, 1998, 25(2-3):285-307.

      [2] Landauer T K, Dumais S T. A solution to Plato’s problem: The latent semantic analysis theory of acquisition, induction, and representation of knowledge[J]. Psychological Review, 1997, 104(2):211-240.

      [3] Elman J L. Finding structure in time[J]. Cognitive Science, 1990, 14(2):179-211.

      [4] Mikolov T. Statistical language models based on neural networks[J]. Presentation at Google, Mountain View, 2nd April, 2012.

      [5] Tai K S, Socher R, Manning C D. Improved semantic representations from tree-structured long short-term memory networks[J]. Computer Science, 2015, 5(1): 36.

      [6] Mou L, Peng H, Li G, et al. Discriminative Neural Sentence Modeling by Tree-Based Convolution[C]//Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing, 2015:2315-2325.

      [7] Mou L, Yan R, Li G, et al. Backward and forward language modeling for constrained sentence generation[J]. Computer Science, 2016, 4(6):473-482.

      [8] Balduzzi D, Ghifary M. Strongly-Typed Recurrent Neural Networks[C]//Proceedings of the 33rd International Conference on Machine Learning, 2016:1292-1300.

      [9] Bradbury J, Merity S, Xiong C, et al. Quasi-recurrent neural networks[J]. arXiv preprint arXiv:1611.01576, 2016.

      [10] Chen D, Manning C. A fast and accurate dependency parser using neural networks[C]//Proceedings of Conference on Empirical Methods in Natural Language Processing, 2014:740-750.

      [11] Klein D, Manning C D. Accurate unlexicalized parsing[C]//Proceedings of Meeting on Association for Computational Linguistics. Association for Computational Linguistics, 2003:423-430.

      [12] Socher R, Huang E H, Pennington J, et al. Dynamic pooling and unfolding recursive autoencoders for paraphrase detection[J]. Advances in Neural Information Processing Systems, 2011(24):801-809.

      [13] Socher R, Perelygin A, Wu J Y, et al. Recursive deep models for semantic compositionality over a sentiment treebank[C]//Proceedings of the conference on empirical methods in natural language processing (EMNLP), 2013: 1631-1642.

      [14] Pennington J, Socher R, Manning C D. Glove: global vectors for word representation[C]//Proceedings of the EMNLP, 2014(14): 1532-1543.

      [15] Duchi J, Hazan E, Singer Y. Adaptive subgradient methods for online learning and stochastic optimization[J]. Journal of Machine Learning Research, 2011, 12(7):2121-2159.

      [16] Dekel O, Ran G B, Shamir O, et al. Optimal distributed online prediction using mini-batches[J]. Journal of Machine Learning Research, 2012, 13(1):165-202.

      [17] Stulp F, Sigaud O. Many regression algorithms, one unified model: A review[J]. Neural Networks, 2015(69):60-79.

      [18] Looks M, Herreshoff M, Hutchins D L, et al. Deep learning with dynamic computation graphs[J]. arXiv preprint arXiv:1702.02181, 2017.

      [19] Marelli M, Bentivogli L, Baroni M, et al. Sem-Eval-2014 task 1: Evaluation of compositional distributional semantic models on full sentences through semantic relatedness and textual entailment[C]//Proceedings of the 8th International Workshop on Semantic Evaluation (SemEval2014), 2014:1-8.

      [20] Mirowski P, Vlachos A. Dependency recurrent neural language models for sentence completion[J]. Computer Science, 2015, 17(15): 30-35.

      [21] Ma M, Huang L, Xiang B, et al. Dependency-based Convolutional Neural Networks for Sentence Embedding[C]//Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics, 2015:174-179.

      [22] Zhou C, Sun C, Liu Z, et al. A C-LSTM neural network for text classification[J]. Computer Science, 2015, 1(4):39-44.

      [23] Xiao Y, Cho K. Efficient character-level document classification by combining convolution and recurrent layers[J]. arXiv preprint arXiv:1602.00367, 2016.

      猜你喜歡
      樹結(jié)構(gòu)池化準(zhǔn)確度
      基于緊湊型雙線性網(wǎng)絡(luò)的野生茵識(shí)別方法研究
      無線電工程(2024年8期)2024-09-16 00:00:00
      基于Sobel算子的池化算法設(shè)計(jì)
      卷積神經(jīng)網(wǎng)絡(luò)中的自適應(yīng)加權(quán)池化
      基于卷積神經(jīng)網(wǎng)絡(luò)和池化算法的表情識(shí)別研究
      幕墻用掛件安裝準(zhǔn)確度控制技術(shù)
      建筑科技(2018年6期)2018-08-30 03:40:54
      四維余代數(shù)的分類
      動(dòng)態(tài)汽車衡準(zhǔn)確度等級的現(xiàn)實(shí)意義
      大數(shù)據(jù)背景下基于B—樹結(jié)構(gòu)的SQL Server數(shù)據(jù)優(yōu)化策略研究
      基于μσ-DWC特征和樹結(jié)構(gòu)M-SVM的多維時(shí)間序列分類
      高爐重量布料準(zhǔn)確度的提高
      天津冶金(2014年4期)2014-02-28 16:52:58
      松阳县| 齐河县| 新竹市| 武鸣县| 翁牛特旗| 原阳县| 探索| 庐江县| 东乡族自治县| 金坛市| 南溪县| 许昌市| 青河县| 宁国市| 白银市| 沈阳市| 万年县| 宁陵县| 岳池县| 宝清县| 项城市| 博湖县| 汶上县| 保山市| 关岭| 长白| 井陉县| 邢台市| 体育| 永清县| 彩票| 庆城县| 陈巴尔虎旗| 兰溪市| 鄂尔多斯市| 东丰县| 巴里| 新丰县| 兴业县| 石城县| 文安县|