一種針對句法樹的混合神經(jīng)網(wǎng)絡(luò)模型

2017-03-12 08:30:12霍歡，張薇，劉亮，李洋

中文信息學(xué)報(bào) 2017年6期

霍歡，張薇，劉亮，李洋

(1. 上海理工大學(xué) 光電信息與計(jì)算機(jī)工程學(xué)院，上海 200093；2. 復(fù)旦大學(xué) 上海市數(shù)據(jù)科學(xué)重點(diǎn)實(shí)驗(yàn)室，上海 201203)

0 引言

文本處理模型大致可以歸為三類： BOW(bag-of-words)模型、序列化模型和基于句法樹的模型。相對于BOW模型[1-2]詞與詞間的獨(dú)立性假設(shè)，序列化模型[3-4]考慮了詞序信息，并因其突出性能被廣泛使用。但前兩種模型都忽略了文本自身存在的句法結(jié)構(gòu)，而句法結(jié)構(gòu)對獲取文本語義特征相當(dāng)重要。因此，TreeLSTMs模型[5]是一種針對句法樹的LSTMs模型，該模型將順序處理的LSTM cells按句法樹遞歸排布，使原本o(n)的操作變成o(log(n))，縮短了反向傳播的路徑，在一定程度上緩解了梯度消失的問題，使模型能夠更準(zhǔn)確地學(xué)習(xí)長序列的空間關(guān)聯(lián)性。其中句法樹是將句子借助于樹形圖來說明句中詞與詞、詞組與詞組之間的句法、語義和邏輯關(guān)系。目前樹形結(jié)構(gòu)分為兩種：支持樹(Constituency tree)和依存樹(Dependency tree)，分別如圖1(a)和圖1(b)所示。其中，圖1(a)中加粗箭頭表示組合，圖1(b)中加粗箭頭表示卷積操作。

但TreeLSTMs的缺點(diǎn)也顯而易見：在圖1(a)中，為了計(jì)算父節(jié)點(diǎn)O1的隱藏狀態(tài)h1和細(xì)胞狀態(tài)c1，首先要獲得它兩個(gè)子節(jié)點(diǎn)O2和O3的隱藏狀態(tài)和細(xì)胞狀態(tài)，然后再加以組合。這種對空間關(guān)聯(lián)性的計(jì)算完全限制了TreeLSTMs的并行能力，在需要訓(xùn)練大型數(shù)據(jù)集的場景下，計(jì)算效率成為這一模型首要考慮的問題。

圖1 TreeLSTMs和TBCNNs模型示例

相對于TreeLSTMs，TBCNNs[6-7]是一種針對句法樹的CNN模型，它的樹卷積方法能實(shí)現(xiàn)在句法樹上的并行化特征提取，訓(xùn)練效率比TreeLSTMs有很大提升。但由于池化操作的空間不變性假設(shè)，模型無法在節(jié)點(diǎn)間對特征進(jìn)行組合(故在圖1(b)中，h1、h2和h3間無任何箭頭連接)，導(dǎo)致模型未能充分利用輸入序列的結(jié)構(gòu)信息。

由于TreeLSTMs和TBCNNs兩種模型存在著互補(bǔ)特性，本文提出一種針對句法樹的混合神經(jīng)網(wǎng)絡(luò)模型。該模型以TreeLSTMs為改進(jìn)對象，借助TBCNNs的樹卷積和池化方法實(shí)現(xiàn)了類似TreeLSTMs的計(jì)算，故將此模型命名為Quasi-TreeLSTMs。模型包含卷積模塊和池化模塊兩個(gè)子模塊，前者完成非線性變換層和門狀態(tài)的計(jì)算，后者完成剩余的空間關(guān)聯(lián)性的計(jì)算。由于池化模塊的計(jì)算不存在任何參數(shù)，因此該模塊的計(jì)算耗時(shí)可忽略不計(jì)。兩模塊一個(gè)為模型帶來了并行性，另一個(gè)則保證了它仍然擁有和TreeLSTMs一樣的記憶和組合特征的能力。本文將在情感分類和語義相似性兩種自然語言處理任務(wù)上對模型進(jìn)行測試，實(shí)驗(yàn)結(jié)果表明： Quasi-TreeLSTMs的表現(xiàn)普遍優(yōu)于TreeLSTMs。

本文其他部分內(nèi)容如下：第一節(jié)概述TreeLSTMs模型；第二節(jié)介紹本文提出的兩種Quasi-TreeLSTMs模型，Dependency Quasi-TreeLSTMs和Constituency Quasi-TreeLSTMs；第三節(jié)對實(shí)驗(yàn)結(jié)果進(jìn)行討論和分析；第四節(jié)介紹相關(guān)工作；第五節(jié)總結(jié)全文。

1 背景知識(shí)

考慮到本文的改進(jìn)對象是TreeLSTMs，本節(jié)將對此模型進(jìn)行概述。圖2展示了將Fruit flies like a banana進(jìn)行解析后的兩種句法樹。

1.1 針對依存樹建模的Dependency TreeLSTMs

針對依存樹建模的TreeLSTMs模型，稱為Dependency TreeLSTMs。依存樹是按照詞與詞間的句法關(guān)系將各個(gè)詞節(jié)點(diǎn)相互連接的句法樹，如圖2(a)中flies和Fruit由nsubj(主謂關(guān)系)標(biāo)簽連接，flies和banana則由nmod(復(fù)合名詞修飾關(guān)系)標(biāo)簽連接?？紤]到依存樹中每個(gè)節(jié)點(diǎn)包含的子節(jié)點(diǎn)的數(shù)量各不相同(有時(shí)甚至差異巨大)；同時(shí)，各個(gè)子節(jié)點(diǎn)間也不存在任何順序，因此，Dependency TreeLSTMs在組合各子節(jié)點(diǎn)的隱藏狀態(tài)時(shí)采用的方式是全部求和。對某個(gè)節(jié)點(diǎn)j，該模型通過如下公式計(jì)算它的隱藏狀態(tài)hj。

其中C(j)是節(jié)點(diǎn)j所有子節(jié)點(diǎn)的集合。

式(2)～(5)分別代表輸入門(input gate)、遺忘門(forget gate)、輸出門(output gate)和非線性變換層，其中遺忘門需要區(qū)分各個(gè)子節(jié)點(diǎn)k。它們各自有一組(W,U,b)共享變量，可通過訓(xùn)練進(jìn)行學(xué)習(xí)獲得。如前文所述，節(jié)點(diǎn)j的門狀態(tài)和線性變換層的計(jì)算都依賴式(1)組合其所有子節(jié)點(diǎn)的隱藏狀態(tài)，這種空間的關(guān)聯(lián)性計(jì)算正是TreeLSTMs模型難以并行處理數(shù)據(jù)的根本所在。

圖2 句法樹示例

1.2 針對N元支持樹建模的Constituency TreeLSTMs

針對N元支持樹(下面統(tǒng)稱為支持樹)建模的TreeLSTMs模型，稱為Constituency TreeLSTMs。與依存樹不同，支持樹的葉子節(jié)點(diǎn)有序地表示輸入序列中的詞，而非葉子節(jié)點(diǎn)代表的是短語，連接各節(jié)點(diǎn)的邊上也沒有關(guān)系標(biāo)簽。如圖2(b)中第二層的非葉子節(jié)點(diǎn)NP(名詞性短語)指的是a banana，第三層PP(介詞性短語)再加入葉子節(jié)點(diǎn)like，代表like a banana。直覺上，支持樹似乎更加符合人們由下至上組合語義的要求?？紤]到支持樹各個(gè)非葉子節(jié)點(diǎn)包含的子節(jié)點(diǎn)數(shù)目都不超過N個(gè)，且各子節(jié)點(diǎn)間存在著詞序，例如，圖2(b)表示一個(gè)binary constituency tree，即二叉支持樹，圖中NP代表的是a banana而非banana a。因此Constituency TreeLSTMs在組合子節(jié)點(diǎn)的隱藏狀態(tài)時(shí)采用的方式是線性加權(quán)。對某個(gè)節(jié)點(diǎn)j，該模型通過如下公式計(jì)算它的隱藏狀態(tài)hj。

2 混合神經(jīng)網(wǎng)絡(luò)模型(Quasi-TreeLSTMs)

受混合神經(jīng)網(wǎng)絡(luò)[8-9]的啟發(fā)，本文提出一種針對句法樹的Quasi-TreeLSTMs模型，借助TBCNNs的思想，將影響TreeLSTMs效率的空間關(guān)聯(lián)性計(jì)算任務(wù)進(jìn)行拆分，并設(shè)計(jì)兩個(gè)子模塊——卷積模塊和池化模塊分別處理。

2.1 卷積模塊

本文中卷積模塊的任務(wù)不是直接提取特征，而是對TreeLSTMs的非線性變換層和門狀態(tài)進(jìn)行計(jì)算。首先，本文使用Stanford Neural Network Dependency Parser[10]和Stanford PCFG Parser[11]分別將序列解析成依存樹或支持樹，兩種樹結(jié)構(gòu)對應(yīng)Quasi-TreeLSTMs的兩個(gè)變體Dependency Quasi-TreeLSTMs和Constituency Quasi-TreeLSTMs，分別如圖3(a)和圖3(b)所示。

圖3 Quasi-TreeLSTMs的兩個(gè)變體

接著，設(shè)計(jì)一個(gè)深度固定為h(本文h=2)且包含m個(gè)卷積核(kernels)的卷積窗口，讓它在整棵樹上滑動(dòng)，算法過程中對窗口內(nèi)的子樹進(jìn)行計(jì)算。假設(shè)現(xiàn)在窗口內(nèi)的子樹上有t個(gè)節(jié)點(diǎn)，每個(gè)節(jié)點(diǎn)被賦予一個(gè)向量xk∈n。如果是依存樹，向量指的是節(jié)點(diǎn)詞的詞向量；如果是支持樹，考慮到非葉子節(jié)點(diǎn)上沒有對應(yīng)的詞，在實(shí)驗(yàn)中將為每個(gè)非葉子節(jié)點(diǎn)初始化一個(gè)n維正態(tài)分布的隨機(jī)向量。此時(shí)，卷積窗口的輸出如下：

依存樹每個(gè)節(jié)點(diǎn)包含的子節(jié)點(diǎn)數(shù)目不固定，因此Dependency Quasi-TreeLSTMs可以像TreeLSTMs一樣對全部子節(jié)點(diǎn)的詞向量求和[式(1)]，也可以利用TBCNNs的方法，根據(jù)父子節(jié)點(diǎn)間的句法關(guān)系標(biāo)簽[如圖2(a)中的nsubj和nmod等]為子節(jié)點(diǎn)分配權(quán)值矩陣，本文將選擇前者。假設(shè)此時(shí)窗口內(nèi)子樹的根節(jié)點(diǎn)為xj，它的子節(jié)點(diǎn)數(shù)為C(j)，具體卷積計(jì)算過程如下：

上述計(jì)算與式(1)～(5)十分相似，訓(xùn)練參數(shù)的個(gè)數(shù)也相同，但由于獲取xk不需任何前期計(jì)算，打破了原本的空間關(guān)聯(lián)性限制，使這部分計(jì)算得以并行化處理。

類似地，針對支持樹的Constituency Quasi-TreeLSTMs的卷積計(jì)算過程如下：

當(dāng)卷積窗口在樹上完成一次遍歷后，會(huì)得到一棵特征樹，上面的每個(gè)節(jié)點(diǎn)保存了卷積獲得的非線性變換層和門狀態(tài)向量。但對于遺忘門，即式(20)和式(24)，fjk是保存在它的各個(gè)子節(jié)點(diǎn)k上的。雖然卷積操作在一定程度上增加了空間復(fù)雜度，但只要按批訓(xùn)練時(shí)batch大小設(shè)置合適，一般不會(huì)對訓(xùn)練產(chǎn)生任何影響。

2.2 池化模塊

在通過卷積模塊獲得的特征樹上，池化模塊要完成空間關(guān)聯(lián)性計(jì)算任務(wù)?？梢钥吹?，式(6)～(7)和式(12)～(13)的計(jì)算雖然依賴前一層的計(jì)算結(jié)果，但過程中不存在任何需要訓(xùn)練的參數(shù)，對現(xiàn)在大多數(shù)的CPUs/GPUs來說計(jì)算任務(wù)不大。與TBCNNs中提到的Dynamic Pooling[12]不同，本文將采用一個(gè)和卷積窗口類似的池化窗口(深度為2)。因?yàn)樯疃裙潭杀ＷC計(jì)算只在特征樹的父子節(jié)點(diǎn)間完成，而不會(huì)在層級間跳躍破壞空間關(guān)聯(lián)性。計(jì)算過程同式(6)～(7)和式(12)～(13)，故此處不再贅述。

2.3 目標(biāo)函數(shù)構(gòu)造

其中m是訓(xùn)練樣本中節(jié)點(diǎn)數(shù)目，λ是L2正則化項(xiàng)超參。

語義相似性任務(wù)是兩個(gè)句子的匹配問題，需要構(gòu)建兩棵樹并分別用一個(gè)Quasi-TreeLSTMs進(jìn)行編碼。實(shí)驗(yàn)中將兩樹在根節(jié)點(diǎn)上的特征向量對(hL,hR)，hL,R∈m進(jìn)行如下組合，獲得一個(gè)匹配向量hs∈4m，如式(28)所示。

3 實(shí)驗(yàn)分析

實(shí)驗(yàn)選擇以下兩個(gè)自然語言處理任務(wù)來測試本文提出的Quasi Tree-LSTMs模型的性能： ①情感分類，分析上萬條帶標(biāo)簽的電影評論的情感傾向；②語義關(guān)系，根據(jù)語義關(guān)系判斷句子對是否相似。

3.1 情感分類

數(shù)據(jù)集介紹本實(shí)驗(yàn)使用Stanford Sentiment Treebank數(shù)據(jù)集[13]，該數(shù)據(jù)集包含一萬多條電影評論，所有評論都帶有一個(gè)人工標(biāo)記的情感標(biāo)簽，分別如下：強(qiáng)積極(++)、積極(+)、中立(neutral)、消極(-)、強(qiáng)消極(--)。本文在五分類和二分類兩種設(shè)置上進(jìn)行實(shí)驗(yàn)：對五分類任務(wù)，按8 544/1 101/2 210的比例將數(shù)據(jù)集劃分成訓(xùn)練集/驗(yàn)證集/測試集；對二分類任務(wù)，實(shí)驗(yàn)中不考慮標(biāo)記為中立的樣本，將強(qiáng)積極和積極歸為一類(+)，消極和強(qiáng)消極為另一類(-)，最后訓(xùn)練集/驗(yàn)證集/測試集的比例是6 920/872/1 821。

訓(xùn)練參數(shù)電腦配置Intel/Xeon E5-2683V3 14核28線程，NVIDIA GTX1080顯卡，32GB內(nèi)存，并使用Tensorflow 深度學(xué)習(xí)框架實(shí)現(xiàn)。

本文的模型初始化和TBCNNs的設(shè)置相同，并在驗(yàn)證集上對模型進(jìn)行超參調(diào)優(yōu)，最后得到如下的訓(xùn)練參數(shù)：模型使用帶有300個(gè)卷積核且深度為2的卷積窗口和在Wikipedia 2014和Gigaword 5上訓(xùn)練獲得的300維(d=300)的Glove詞向量[14]來初始化詞向量，若遇到未包含的詞則賦予300維正態(tài)分布的隨機(jī)向量。采用AdaGrad[15]隨機(jī)梯度下降算法，初始學(xué)習(xí)率0.05，batch size 25，本文對Embedding也進(jìn)行訓(xùn)練，初始學(xué)習(xí)率0.02。L2正則化系數(shù)為0.000 1，同時(shí)將Embedding層和output層使用的dropout(keep probability)分別設(shè)置為0.6和0.8。為了不讓訓(xùn)練樣本波動(dòng)過大，本文預(yù)先按句子長度對數(shù)據(jù)集進(jìn)行排序。

實(shí)驗(yàn)結(jié)果由于無法得到一些重要訓(xùn)練參數(shù)，盡管經(jīng)過細(xì)致的調(diào)優(yōu)過程，本文對TreeLSTMs和TBCNNs兩個(gè)模型的實(shí)現(xiàn)在準(zhǔn)確度上仍低于文獻(xiàn)[5]和文獻(xiàn)[6]中給出的結(jié)果。因此，參照本文對TreeLSTMs模型和TBCNNs模型的實(shí)驗(yàn)獲得的結(jié)果來評估模型性能，與本文提出的Quasi-TreeLSTMs模型進(jìn)行比較。表1展示了模型在五分類和二分類兩個(gè)情感分類任務(wù)上分別訓(xùn)練十個(gè)epochs后的結(jié)果。

表1 Stanford Sentiment Treebank測試結(jié)果

續(xù)表

由表1可知，相較于其他模型，Dependency TreeLSTMs在兩個(gè)分類任務(wù)上的準(zhǔn)確度明顯較低，而Constituency TreeLSTMs卻并不受影響，原因是支持樹更能滿足TreeLSTMs層級間組合信息的需求，在處理數(shù)據(jù)的過程中細(xì)粒度在不斷增大，這對特征信息的提取非常有利，但在依存樹上缺少這一特性。TreeLSTMs模型基于依存樹訓(xùn)練得到的準(zhǔn)確度不高是因?yàn)橐来鏄浣Y(jié)構(gòu)中能訓(xùn)練的帶標(biāo)簽的節(jié)點(diǎn)要比支持樹中少了將近一半(150k:319k)，因此能獲得的信息就更少。依存樹結(jié)構(gòu)要比支持樹結(jié)構(gòu)更加緊湊，這對TBCNNs的卷積和池化操作都更加有利，因此它能在已有標(biāo)簽的節(jié)點(diǎn)上提取更多的信息。

在情感分類的兩個(gè)任務(wù)上，Dependency TBCNNs的準(zhǔn)確度都比Constituency TBCNNs高了近1%， TBCNNs在依存樹上處理葉子節(jié)點(diǎn)融合問題時(shí)，根據(jù)引入的15個(gè)高頻句法標(biāo)簽為子節(jié)點(diǎn)分配權(quán)值，由于TreeLSTMs中并未這樣處理，因此本文實(shí)現(xiàn)Dependency TBCNNs模型時(shí)并未加入句法標(biāo)簽權(quán)重。雖然不考慮句法標(biāo)簽信息的Dependency TBCNNs的準(zhǔn)確度在兩個(gè)任務(wù)上分別下降了0.9%和0.8%，但仍高于Constituency TBCNNs的準(zhǔn)確度，這一實(shí)驗(yàn)結(jié)果也表明TBCNNs在處理依存樹結(jié)構(gòu)的數(shù)據(jù)上有一定的優(yōu)勢。

本文提出的Constituency Quasi-TreeLSTMs在兩個(gè)任務(wù)上的準(zhǔn)確度都高于Dependency Quasi-TreeLSTMs，這和TreeLSTMs的結(jié)果一樣，不同的是本文的兩個(gè)模型差距卻不大，說明Quasi-TreeLSTMs作為一種混合模型，緩解了已有的模型對樹結(jié)構(gòu)存在的敏感性，特別是有效避免了TreeLSTMs在依存樹上無法有效提取信息的問題。

雖然實(shí)驗(yàn)中的三類模型沒有絕對的最優(yōu)，除Dependency TreeLSTMs外，其他模型在五分類任務(wù)上的準(zhǔn)確度最高和最低間相差僅0.8%，在二分類上相差1.0%，表現(xiàn)最好的是Constituency TreeLSTMs，其次是本文提出的Constituency Quasi-TreeLSTMs，這兩個(gè)模型在兩個(gè)任務(wù)上相差了0.3%，主要原因是本文提出的模型所使用的池化模塊不能像TreeLSTMs模型那樣很好地適應(yīng)支持樹；Dependency Quasi-TreeLSTMs的準(zhǔn)確度高于Constituency TBCNNs，說明雖然同樣是在不適合的樹結(jié)構(gòu)上使用模型，但Quasi-TreeLSTMs的混合特性，能弱化這種結(jié)構(gòu)和需求的不對稱性。

圖4給出了模型在情感分類的兩個(gè)任務(wù)訓(xùn)練上每個(gè)epoch的平均消耗時(shí)間。TreeLSTMs和TBCNNs模型實(shí)現(xiàn)的訓(xùn)練速度差異很大，且與針對的樹結(jié)構(gòu)相關(guān)。表2列舉了TreeLSTMs針對支持樹結(jié)構(gòu)在三種實(shí)現(xiàn)方法中平均每秒解析樹的個(gè)數(shù)。

圖4 在兩個(gè)任務(wù)上訓(xùn)練epoch的平均消耗時(shí)間

表2TreeLSTMs基于支持樹的三種實(shí)現(xiàn)平均每秒解析樹的個(gè)數(shù)

動(dòng)態(tài)圖靜態(tài)圖mini?batchmini?batch+meta?tree1.5933420

由于Tensorflow本身不支持動(dòng)態(tài)圖模型的構(gòu)建，導(dǎo)致模型無法進(jìn)行batch訓(xùn)練，因此動(dòng)態(tài)圖和靜態(tài)圖的解析比較慢。在三種實(shí)現(xiàn)中，動(dòng)態(tài)圖使用后序遍歷操作，靜態(tài)圖將樹以列表形式存儲(chǔ)，并使用Tensorflow的while loop操作。mini-batch方法[16]基于廣度優(yōu)先遍歷搜索變量，類似于樹的層次遍歷，而mini-batch with meta-tree方法[17]在mini-batch基礎(chǔ)上將batch中各棵樹上的節(jié)點(diǎn)按照結(jié)構(gòu)排序并融合到一棵meta-tree上，然后一層一層地處理。mini-batch meta-tree方法的時(shí)間復(fù)雜度由O(M×N)縮減到O(log(N))，訓(xùn)練速度非?？?這種方法同Google提出的dynamic batching算法[18]類似)。本文基于支持樹的模型都是按照mini-batch meta-tree的方式實(shí)現(xiàn)。對于依存樹，由于每個(gè)節(jié)點(diǎn)的子節(jié)點(diǎn)數(shù)目各不相同，很難構(gòu)建一棵meta-tree，因此只能以mini-batch的方式實(shí)現(xiàn)該模型，因此在圖4中，針對依存樹建模的模型在訓(xùn)練速度上明顯低于針對支持樹生成的模型。

如圖4所示，本文提出的Quasi-TreeLSTMs是混合模型，它的訓(xùn)練耗時(shí)在TBCNNs和TreeLSTMs之間。但由于實(shí)現(xiàn)方式的相對高效，使得針對支持樹的模型的速度差異小于針對依存樹的模型的差異。在兩個(gè)任務(wù)上，Constituency Quasi-TreeLSTMs的訓(xùn)練速度僅比Constituency TreeLSTMs快3.2s ，這一現(xiàn)象說明除了優(yōu)化模型本身來提升性能外，使用一個(gè)高效的方法實(shí)現(xiàn)模型也能在一定程度上削弱模型間特性的差異。

由于實(shí)現(xiàn)方式相對低效，針對依存樹的模型間的特性差異將在訓(xùn)練過程中不斷體現(xiàn)。TBCNNs模型最適應(yīng)依存樹結(jié)構(gòu)，且沒有空間關(guān)聯(lián)性關(guān)系的計(jì)算，使得它的訓(xùn)練速度相對較快。而本文提出的Quasi TreeLSTMs模型在TBCNNs基礎(chǔ)上融入了部分空間關(guān)聯(lián)性計(jì)算，但這部分任務(wù)是無訓(xùn)練參數(shù)的，因此訓(xùn)練耗時(shí)在兩個(gè)任務(wù)上平均只多30s左右。但和TreeLSTMs相比，Quasi TreeLSTMs模型在兩個(gè)任務(wù)上分別快了61.9s和48.3s，說明本文的模型在訓(xùn)練時(shí)有較大的速度提升。雖然Quasi-TreeLSTMs模型的準(zhǔn)確度不及TreeLSTMs，但在多數(shù)情境下，快速訓(xùn)練迭代并獲得較好的結(jié)果才是任務(wù)的需求。

3.2 語義相關(guān)性

數(shù)據(jù)集介紹本實(shí)驗(yàn)使用包含9 927個(gè)句子對的SICK(sentences involving compositional knowledge)數(shù)據(jù)集[19]，每個(gè)句子對被人工標(biāo)記了ENTAILMENT(蘊(yùn)含)、NEUTRAL(無明顯關(guān)系)和CONTRADICTION(矛盾)三類中的一類。本實(shí)驗(yàn)按4 500/500/4 927將數(shù)據(jù)集劃分為訓(xùn)練集/驗(yàn)證集/測試集。

訓(xùn)練參數(shù)同情感分類實(shí)驗(yàn)。

實(shí)驗(yàn)結(jié)果表3展示了所有對比模型在SICK數(shù)據(jù)集上訓(xùn)練30個(gè)epochs的準(zhǔn)確度，及訓(xùn)練一個(gè)epoch的平均消耗時(shí)間。

在3.1節(jié)中已經(jīng)介紹，由于支持樹的特性，TreeLSTMs模型處理支持樹的數(shù)據(jù)更有優(yōu)勢。而依存樹按照詞與詞間的句法關(guān)系將各個(gè)節(jié)點(diǎn)連接組合而成，并帶有詞與詞之間的語法關(guān)系，使得TBCNNs模型的卷積層和池化操作在處理依存樹結(jié)構(gòu)的數(shù)據(jù)上更有利。由表3可知，Constituency TreeLSTMs(87.5%)模型和Dependency TBCNNs(87.0%)模型的準(zhǔn)確度都較高。本文提出的Constituency Quasi-TreeLSTMs(87.2%)模型準(zhǔn)確度高于Dependency Quasi-TreeLSTMs(86.7%)，鑒于Quasi-TreeLSTMs的混合模型特征，兩者表現(xiàn)差距不大。同情感分類任務(wù)，本文的模型緩解了已有模型對樹結(jié)構(gòu)類型的敏感性，避免了TreeLSTMs模型在依存樹上無法有效提取信息的問題，也解決了TBCNNs模型無法利用支持樹的層級關(guān)系的缺陷。

另一方面，在訓(xùn)練上每個(gè)epoch的平均消耗時(shí)間TBCNNs的訓(xùn)練速度相對較快，Quasi TreeLSTMs模型在TBCNNs模型的基礎(chǔ)上引入了池化模塊計(jì)算序列中詞序關(guān)系，但在該模型的池化模塊中無訓(xùn)練參數(shù)，因此該模型的速度和TBCNNs模型的速度相差不大。Quasi TreeLSTMs模型在速度上相對于TreeLSTMs模型有很大提升。因此，對于綜合模型在兩種樹結(jié)構(gòu)上效果的平衡關(guān)系和訓(xùn)練速度兩個(gè)衡量指標(biāo)，本文提出的Quasi TreeLSTMs模型最值得考慮。

表3 SICK數(shù)據(jù)集測試結(jié)果

4 相關(guān)工作

目前，針對樹結(jié)構(gòu)建模的模型大致分為兩類：基于循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)在樹結(jié)構(gòu)上建模[5,20]和基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)在樹結(jié)構(gòu)上建模[6,21]。

基于循環(huán)神經(jīng)網(wǎng)絡(luò)在樹上構(gòu)建的模型，除了Tree-LSTM模型外，Dependency RNN[18]模型在依存樹上建模，并通過結(jié)合句子的句法依賴性來提高循環(huán)神經(jīng)網(wǎng)絡(luò)模型的性能。Dependency RNN模型在解析樹的所有路徑(即從當(dāng)前節(jié)點(diǎn)到根節(jié)點(diǎn)的展開)上都相互獨(dú)立地獲取所需要的依賴結(jié)構(gòu)，同時(shí)保存每個(gè)節(jié)點(diǎn)出現(xiàn)在路徑中的頻率，并將其倒數(shù)和學(xué)習(xí)率結(jié)合，以防某一節(jié)點(diǎn)出現(xiàn)在多個(gè)路徑中造成過度訓(xùn)練。此外，文獻(xiàn)[18]在模型中加入語法標(biāo)簽，提出Labelled Dependency RNN模型。但該模型除了本文重點(diǎn)強(qiáng)調(diào)的效率問題，RNN模型在處理長序列上記憶狀態(tài)衰減這一特點(diǎn)也是Dependency RNN模型要面臨的一個(gè)難題。

和TBCNNs模型相同的DBCNNs[19]，該模型基于CNN在依存樹上建模，提取每個(gè)詞特征時(shí)，將從該詞到根節(jié)點(diǎn)的路徑上的所有節(jié)點(diǎn)加入計(jì)算。該做法可以提取序列中長距離信息。雖然都是通過CNN模型基于樹結(jié)構(gòu)建模，但TBCNNs和DBCNNs卷積窗口的工作方式不同，且兩個(gè)模型都沒考慮輸入序列的原始順序信息。

目前存在很多將CNN模型結(jié)合RNN模型生成的混合模型。運(yùn)用CNN卷積操作接收長度固定的短語進(jìn)行學(xué)習(xí)的混合神經(jīng)網(wǎng)絡(luò)模型[22]將生成的特征表示用于LSTM模型，進(jìn)一步學(xué)習(xí)輸入文本的依賴關(guān)系。文獻(xiàn)[23]將卷積層與雙向LSTM結(jié)合生成一個(gè)新的模型，通過對輸入信息使用卷積層來處理文本，并通過池化函數(shù)，以減小序列的長度，然后將生成的特征提供給雙向LSTM模型用于后續(xù)處理。Quasi-RNN模型[9]是一種將CNN卷積操作和RNN的循環(huán)操作相結(jié)合的新的自然語言處理模型，卷積操作并行計(jì)算輸入門、遺忘門和輸出門信息，在循環(huán)層遞歸地計(jì)算輸入序列中每個(gè)時(shí)間步的細(xì)胞狀態(tài)和隱藏狀態(tài)，有效地解決了RNN時(shí)效性問題。但上面的三種模型都是基于順序處理輸入序列，計(jì)算得到的最終表示只包含了序列的順序信息。

5 結(jié)論

本文提出一種針對句法樹的混合神經(jīng)網(wǎng)絡(luò)模型Quasi- TreeLSTMs，該模型結(jié)合傳統(tǒng)的TreeLSTMs和TBCNNs模型，將影響TreeLSTMs效率的空間關(guān)聯(lián)性計(jì)算任務(wù)進(jìn)行拆分，用TBCNNs的卷積操作來完成最主要也是最耗時(shí)的三個(gè)控制門狀態(tài)的計(jì)算，剩余的少量空間關(guān)聯(lián)性任務(wù)因?yàn)橥耆珶o參，恰好適合用TBCNNs的池化操作進(jìn)行計(jì)算。本文用TBCNNs實(shí)現(xiàn)了類似TreeLSTMs的操作，在保持后者記憶能力的前提下，又為其增添了并行性。從在情感分類和語義關(guān)系兩種自然語言處理任務(wù)上的測試結(jié)果可以看出，本文提出的Quasi-TreeLSTMs在保持和已有模型相近的分類準(zhǔn)確度的同時(shí)，在訓(xùn)練速度這一評價(jià)指標(biāo)上有顯著的性能提升。

[1] Peter W F, Walter K, Thomas K L. The measurement of textual coherence with latent semantic analysis[J]. Discourse Processes, 1998, 25(2-3):285-307.

[2] Landauer T K, Dumais S T. A solution to Plato’s problem: The latent semantic analysis theory of acquisition, induction, and representation of knowledge[J]. Psychological Review, 1997, 104(2):211-240.

[3] Elman J L. Finding structure in time[J]. Cognitive Science, 1990, 14(2):179-211.

[4] Mikolov T. Statistical language models based on neural networks[J]. Presentation at Google, Mountain View, 2nd April, 2012.

[5] Tai K S, Socher R, Manning C D. Improved semantic representations from tree-structured long short-term memory networks[J]. Computer Science, 2015, 5(1): 36.

[6] Mou L, Peng H, Li G, et al. Discriminative Neural Sentence Modeling by Tree-Based Convolution[C]//Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing, 2015:2315-2325.

[7] Mou L, Yan R, Li G, et al. Backward and forward language modeling for constrained sentence generation[J]. Computer Science, 2016, 4(6):473-482.

[8] Balduzzi D, Ghifary M. Strongly-Typed Recurrent Neural Networks[C]//Proceedings of the 33rd International Conference on Machine Learning, 2016:1292-1300.

[9] Bradbury J, Merity S, Xiong C, et al. Quasi-recurrent neural networks[J]. arXiv preprint arXiv:1611.01576, 2016.

[10] Chen D, Manning C. A fast and accurate dependency parser using neural networks[C]//Proceedings of Conference on Empirical Methods in Natural Language Processing, 2014:740-750.

[11] Klein D, Manning C D. Accurate unlexicalized parsing[C]//Proceedings of Meeting on Association for Computational Linguistics. Association for Computational Linguistics, 2003:423-430.

[12] Socher R, Huang E H, Pennington J, et al. Dynamic pooling and unfolding recursive autoencoders for paraphrase detection[J]. Advances in Neural Information Processing Systems, 2011(24):801-809.

[13] Socher R, Perelygin A, Wu J Y, et al. Recursive deep models for semantic compositionality over a sentiment treebank[C]//Proceedings of the conference on empirical methods in natural language processing (EMNLP), 2013: 1631-1642.

[14] Pennington J, Socher R, Manning C D. Glove: global vectors for word representation[C]//Proceedings of the EMNLP, 2014(14): 1532-1543.

[15] Duchi J, Hazan E, Singer Y. Adaptive subgradient methods for online learning and stochastic optimization[J]. Journal of Machine Learning Research, 2011, 12(7):2121-2159.

[16] Dekel O, Ran G B, Shamir O, et al. Optimal distributed online prediction using mini-batches[J]. Journal of Machine Learning Research, 2012, 13(1):165-202.

[17] Stulp F, Sigaud O. Many regression algorithms, one unified model: A review[J]. Neural Networks, 2015(69):60-79.

[18] Looks M, Herreshoff M, Hutchins D L, et al. Deep learning with dynamic computation graphs[J]. arXiv preprint arXiv:1702.02181, 2017.

[19] Marelli M, Bentivogli L, Baroni M, et al. Sem-Eval-2014 task 1: Evaluation of compositional distributional semantic models on full sentences through semantic relatedness and textual entailment[C]//Proceedings of the 8th International Workshop on Semantic Evaluation (SemEval2014), 2014:1-8.

[20] Mirowski P, Vlachos A. Dependency recurrent neural language models for sentence completion[J]. Computer Science, 2015, 17(15): 30-35.

[21] Ma M, Huang L, Xiang B, et al. Dependency-based Convolutional Neural Networks for Sentence Embedding[C]//Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics, 2015:174-179.

[22] Zhou C, Sun C, Liu Z, et al. A C-LSTM neural network for text classification[J]. Computer Science, 2015, 1(4):39-44.

[23] Xiao Y, Cho K. Efficient character-level document classification by combining convolution and recurrent layers[J]. arXiv preprint arXiv:1602.00367, 2016.