實體驅(qū)動的雙向LSTM篇章連貫性建模

2017-03-12 09:37:43杜舒靜王明文

中文信息學報 2017年6期

杜舒靜,徐凡,王明文

(江西師范大學計算機信息工程學院，江西南昌 330022)

0 引言

篇章連貫性是衡量篇章中句子間語義是否通順和形式是否銜接的一個重要因素。因此，篇章連貫性建模對于統(tǒng)計機器翻譯、自然語言問答、自然語言生成等研究具有重要的作用。根據(jù)系統(tǒng)功能語言學家Halliday所述，連貫性是一種具有邏輯意義的內(nèi)在語義關(guān)聯(lián)，連貫的篇章由一些邏輯上或語義上存在某種相似元素的段落或句子組成，這是篇章的一個基本特征[1]。此外，銜接性是篇章的另外一個基本特征，它是連句成章的詞匯和語法方面的手段，指的是語篇中表層結(jié)構(gòu)上的黏著性，是語篇的有形網(wǎng)絡(luò)；相比較而言，連貫是采用這些手段所產(chǎn)生的結(jié)果，指的是語篇中底層語義上的關(guān)聯(lián)性，是語篇的無形網(wǎng)絡(luò)[2]。下面例子分別為連貫和不連貫的篇章。

例1連貫的篇章實例：

① 張三吃了很多食物，②由于所吃的食物大部分是高脂肪的，③所以張三體重超標了。

例2不連貫的篇章實例：

① 張三吃了很多食物，②由于他昨天買了很多衣服，③所以張三體重超標了。

其中，例1的分句①和分句②闡述了事件的主人公及發(fā)生的事件，分句③說明了事件的結(jié)果，三個分句都存在相似的成分“張三”；然而例2中的分句② 和其余的分句在內(nèi)容上是不相關(guān)的，其中分句①和分句③是在闡述事件的主人公以及事件的結(jié)果，而分句②卻在闡述一個與當前篇章無關(guān)的事件。從篇章的銜接性(實體重復)角度看，例1是連貫的篇章，而例2則是不連貫的篇章，因此，銜接性(實體重復)有助于篇章連貫性建模。

篇章連貫性建模是自然語言處理中的一個基礎(chǔ)問題，它在多語言即時機器翻譯[3]、文本自動摘要[4-6]、作文自動評分[7-9]等方面均有廣泛的應用前景。傳統(tǒng)的基于實體網(wǎng)格的篇章連貫性模型需要花費大量的時間進行特征提取，且太過依賴實體特征，如果篇章中含有的實體較多，可能會對實體網(wǎng)格模型產(chǎn)生一些噪聲，導致實體網(wǎng)格模型的準確率下降。而現(xiàn)有的基于深度學習的模型僅通過學習文本本身的信息來對文本進行篇章連貫性建模，沒有考慮篇章中句子間的實體鏈接對于篇章連貫性建模的重要作用，只是初步學習了篇章連貫性來對其進行建模，并未能進一步挖掘和利用篇章的連貫性?；诖?，本文模擬人閱讀篇章時利用篇章連貫性的名詞重復閱讀的習慣，進一步探究篇章連貫性。首先抽取篇章中相鄰句子的實體信息，將其進行分布式表示來模擬人利用名詞重復閱讀的習慣，然后將此信息通過向量操作融合至句子級的雙向LSTM深度學習模型之中。在漢語和英語篇章語料上的句子排序和機器翻譯連貫性檢測兩種任務上的實驗表明：本文提出的模型性較現(xiàn)有模型有顯著提升。

本文的后續(xù)內(nèi)容安排如下：第一節(jié)介紹篇章連貫性建模的相關(guān)工作；第二節(jié)著重闡述本文提出的實體驅(qū)動的雙向LSTM篇章連貫性模型；第三節(jié)給出了實驗設(shè)置及詳細的實驗結(jié)果分析；第四節(jié)是結(jié)論及后續(xù)工作部分。

1 相關(guān)工作

本節(jié)主要從基于特征抽取的篇章連貫性模型和基于深度學習的連貫性篇章模型兩個方面概述相關(guān)工作。

1.1 基于特征抽取的模型

傳統(tǒng)的篇章連貫性建模主要通過抽取出反映篇章連貫性方面的特征(如文本的潛在語義、實體的語法成份或篇章修辭關(guān)系等)進行工作。其中，1998年FoltzPW等人[10]提出基于潛在語義(latentsemanticanalysis，LSA)的篇章連貫性模型，該模型通過學習文本的潛在語義對文本的篇章連貫性建模，獲取文本的潛在語義。但是，該模型在降維的時候可能會丟失一些包含篇章連貫的信息，導致無法捕獲較為全面的篇章連貫信息。2004年Barzilay等人[4]提出了基于隱馬爾科夫(hiddenmarkovmodel，HMM)的篇章連貫性模型，該模型通過對文本的主題以及這些主題出現(xiàn)的順序進行分析，對特定領(lǐng)域內(nèi)的文本內(nèi)容結(jié)構(gòu)進行篇章連貫性建模。該模型的局限是受領(lǐng)域的影響很大，不適用于開放的領(lǐng)域。此外，基于實體的網(wǎng)格模型[4，11-12]是目前較為流行的傳統(tǒng)模型，該模型通過將篇章中實體作為網(wǎng)格的格點，將不同句子間實體的語義角色(如主語、謂語和其他)的轉(zhuǎn)換作為格點間的連線，以網(wǎng)格的形式描繪對篇章的連貫性加以建模。此后的很多工作都是基于該模型開展的改進工作[14-16]。綜上所述，傳統(tǒng)的篇章連貫性建模均需要進行特征提取工作，代價總體而言比較高。

1.2 基于神經(jīng)網(wǎng)絡(luò)的模型

當前，深度學習在圖像處理[17]、計算機視覺[18]和語音識別[19]等方面均取得了非常顯著的成績。同樣，其在自然語言處理的統(tǒng)計機器翻譯[20]、問答系統(tǒng)[21]、自然語言生成[22]等方面也取得了不錯的成果。針對篇章連貫性建模方面，2014年李紀為等人提出基于分布式句子向量表示的神經(jīng)網(wǎng)絡(luò)模型[23]，該模型分別利用兩種RNN(recurrentneuralnetWork和recursiveneuralnetWork)表示篇章中的句子分布式向量，然后利用構(gòu)建團的方式對篇章連貫性加以建模。此外，2016年李紀為等人提出了開放領(lǐng)域的生成式模型和判別式模型[24]，該模型通過學習不連貫的文本及訓練大量的開放領(lǐng)域語料來獲取篇章連貫性。

總之，基于神經(jīng)網(wǎng)絡(luò)的模型可以免去傳統(tǒng)方法中繁瑣的特征工程步驟，自動提取出篇章中表示連貫性的各種詞匯和句法特征，具有一定優(yōu)勢。

2 實體驅(qū)動的深度學習模型

遞歸神經(jīng)網(wǎng)絡(luò)(recursiveneuralnetworks,RNNs)能夠有效地對時間關(guān)系進行建模，通過輸入序列到隱藏層的映射能夠?qū)W習到復雜的時間動態(tài)關(guān)系，已被成功應用于語音識別、機器翻譯和行為識別等領(lǐng)域，尤其是時間遞歸神經(jīng)網(wǎng)絡(luò)(long-shorttermmemory,LSTM)，能夠應用于處理和預測時間序列中間隔和延遲非常長的重要事件?；诖?，本文將利用雙向LSTM構(gòu)建篇章中句子的分布式向量表示形式。

由于現(xiàn)有的基于深度學習的篇章連貫性模型沒有充分考慮篇章中句子間的實體鏈接對于篇章連貫性建模的重要作用。本文首先抽取篇章中相鄰句子間的實體(名詞)信息，并將其進行分布式表示，以此模擬句子間實體的鏈接，然后將此信息通過向量操作融合至句子級的雙向LSTM深度學習模型之中。圖1所示是本文提出模型的框架，主要由句子的雙向LSTM表示、句子的實體驅(qū)動向量、基于團的篇章連貫性表示三個模塊構(gòu)成。

圖1 實體驅(qū)動的雙向LSTM模型

從圖1中可以看出，本文的模型首先借助分詞工具對語料進行分詞，之后用詞向量工具訓練語料生成詞向量，將得到的詞向量輸入LSTM中得到句子的表示BiLSTM_vector，同時將分詞后的語料進行詞性標注，并且將語料中名詞對應的向量Entity_vector提取出來，并將BiLSTM_vector和Entity_vector進行圖1中的公式的運算操作，得到本文提出的實體驅(qū)動向量，之后將實體驅(qū)動向量融入相鄰一定大小句子組成的團，就句子排序任務而言，每次隨機替換原文中的句子生成負例，原始文本為正例；如果置換文本的連貫性得分大于原始文本的得分，則將其看成連貫的文本，否則就是不連貫的文本；就機器翻譯連貫性任務評估而言，每次學習人工譯文為正例，機器生成譯文為負例，計算和判別過程類似。本文將在接下來的兩節(jié)中自底向上地描述圖 1的組成。

2.1 句子的雙向LSTM表示

首先，本文采用glove*http://code.google.com/p/word2vec/和word2vector*http://nlp.stanford.edu/projects/glove/訓練篇章語料生成詞向量表示形式，可以為句子中的每個詞w訓練生成一個k維向量表示xw∈De。語料中的每個句子都可以看成一系列詞向量，用xi表示句子S中的第i個詞向量，則含有L個詞的句子可以被表示為SL=[x1,x2,...,xL]，最終通過雙向LSTM訓練得到k維句子向量SL。圖1中LSTM模型的相關(guān)參數(shù)計算公式如下：

2.2 句子的實體驅(qū)動向量

借助雙向LSTM獲得文本中句子的分布式表示后，本文希望模擬人閱讀文章時利用名詞重復閱讀的習慣進行篇章連貫性建模。即通讀文章時，人們往往會先記住文章中相鄰句子中的一些實體(名詞)，然后根據(jù)這些實體間的重復關(guān)系來推測整篇文章的大義。鑒于此，本文設(shè)計了實體驅(qū)動的方法來強化篇章中句子間的名詞的重要作用。

首先將文本中句子間的實體(名詞)抽取出來，然后得到它們的分布式向量表示形式，最后將這些實體向量(見式(7)，其中符號⊕代表向量點加操作)與句子的雙向LSTM分布式表示進行拼接,得到句子級別的最終向量表示(見式(8)和式(9)，其中符號⊕代表向量點加操作，符號?代表向量點乘操作)：

對于原始句子的表示，本模型首先將語料借助詞向量工具訓練得到的詞向量輸入雙向LSTM，得到隱向量ht(其初始值是將訓練好的詞向量輸入雙向LSTM后得到的句子向量)，同時用一個額外的存儲容器存儲文本中的實體向量。最初本文對實體向量僅僅進行了點加操作和點乘操作，來得到實體向量的多種表示方式，之后對數(shù)據(jù)集和實驗結(jié)果進行分析，發(fā)現(xiàn)有一些句子可能不存在實體向量，僅對向量進行點乘的操作可能太粗糙了，因此本文對點乘操作進行了類平滑操作，得到了乘法操作。本文采用的加法和乘法操作如下：

2.3 基于團的篇章連貫性表示

本模型首先將含有L個相鄰句子的滑動窗口視為團C，利用團C中所有的句子向量拼接表示團向量，其大小為(L+1)*k維，如式(10)所示。

然后，為每個團C定義一個相應的標簽yc，如果團C是連貫的，則標簽yc的值為1，否則標簽yc的值是0。同時，將團C向量輸入sigmod函數(shù)，如式(11)所示。

最后，整個篇章的連貫性得分為每個團的連貫性得分的乘積，如式(12)所示。

連貫性得分越大的文本越連貫，即假設(shè)兩篇文本d1和d2的連貫性得分分別為Sd1和Sd2，如果Sd1大于Sd2，則文本d1比文本d2更連貫。

2.4 模型訓練和優(yōu)化

對于句子排序任務。本文首先用訓練集來訓練本文提出的模型，即將人工生成的文本作為正例，隨機置換原始文本的句子生成的文檔作為負例，本文的模型要學到測試集中的正例和負例的連貫性得分之間存在的關(guān)系；之后再對測試集進行打分，得到句子排序的連貫性分數(shù)，對于機器翻譯連貫性評估。本文用人工譯文作為訓練集的正例，機器翻譯得到的譯文作為負例，首先用本文的模型學到測試集中的正例和負例的連貫性得分之間存在的關(guān)系，之后再對測試集進行打分，得到機器翻譯連貫性評估分數(shù)。

本模型采用目前廣泛使用的交叉熵函數(shù)作為目標函數(shù)，如式(13)所示。

( 13)

本文采用了自適應梯度下降法AdaGrad[28]來優(yōu)化此損失函數(shù)，它能夠?qū)γ總€參數(shù)自適應不同的學習速率，對稀疏特征得到大的學習更新，對非稀疏特征，得到較小的學習更新，是目前廣泛使用的優(yōu)化算法。

3 實驗

為了驗證提出的實體驅(qū)動雙向LSTM篇章連貫性模型的性能，本文在標準語料庫上進行了漢語和英語環(huán)境下的句子排序和機器翻譯連貫性評估兩組實驗。其中，句子排序任務是給定原文本和隨機置換句子順序的置換文本，假定原文本比置換文本更連貫；機器翻譯連貫性評估則是自動識別出比機器自動生成譯文更連貫的人工參考譯文。同時，本文進行了五倍交叉實驗對模型加以驗證。

3.1 數(shù)據(jù)集及評價指標

(1)英文句子排序數(shù)據(jù)集：采用了文獻[12]使用的兩種不同文體的國際基準語料：地震(earthquake)語料和飛機失事(airplane)語料。其中，訓練集分別由99篇地震語料和100篇飛機失事語料組成，測試集分別由100篇地震語料和100篇飛機失事語料以及隨機置換原始文本中句子順序生成的置換語料組成，同時規(guī)定每篇原始文本最多生成20個置換文本。

(2)中文句子排序數(shù)據(jù)集：分別采用了兩種漢語篇章數(shù)據(jù)集作為語料。其一是漢語樹庫CTB(Chinese TreeBank)6.0對應的原始文件，其二是本文學校某學院標注的130篇漢語作文。其中，對于CTB語料，選擇從chtb_2946到chtb_3045在的100個文檔作為訓練數(shù)據(jù)，從chtb_3046到chtb_3145的99個文檔及其置換文本作為測試數(shù)據(jù)集。對于漢語作文語料(漢語作文)，本文選取其中的前65篇作為訓練集，其余的文檔以及隨機置換文檔作為測試集，同時規(guī)定每篇原始文本最多生成20個置換文本。

(3)機器翻譯連貫性評估數(shù)據(jù)集：從語言數(shù)據(jù)聯(lián)盟(linguistic data consortium，LDC)中提取NIST Open Machine Translation 2008評估中的漢英翻譯作為語料(Smt_translation)，其索引號為LDC2010T01和ISBN1-58563-533-2,該數(shù)據(jù)集中含有128組成對的文件(128篇人工參考譯文和128篇機器自動翻譯得到的譯文)。

(4)語料預處理：本實驗的詞向量利用詞向量工具word2vector[29]以及glove[30]訓練得到；同時采用斯坦福的詞性標記工具*http://nlp.stanford.edu/software/提取出篇章中句子的實體，同時利用ICTCLAS*http://ictclas.nlpir.org/downloads進行中文分詞。

(5)評價指標：本實驗采用的評價指標是準確率，即數(shù)據(jù)集中有m篇文本，預測數(shù)據(jù)集中連貫的文本數(shù)為n，準確率等于n除以m得到的數(shù)值。

此外，本文參考文獻[18]的參數(shù)設(shè)置，將AdaGrad的初始學習率設(shè)置為0.1，詞向量的維數(shù)設(shè)置為300，防止過擬合的Droprate設(shè)置為0.2，滑動窗口的大小設(shè)置為5。

3.2 實驗結(jié)果

本節(jié)分別給出漢語和英語環(huán)境下的句子排序任務，以及機器翻譯連貫性評估任務下的實驗結(jié)果，并進行詳細的實驗結(jié)果分析。

3.2.1 中英文句子排序?qū)嶒灲Y(jié)果

為了體現(xiàn)英漢實驗環(huán)境的公平性，本文先采用英文語料重現(xiàn)了英文語料下的神經(jīng)網(wǎng)絡(luò)實驗，然后將其移植至中文環(huán)境。同時，本文分別驗證了word2vec和glove兩種詞向量下的性能，word2vec的性能顯著優(yōu)于glove性能，為了找到最適合做篇章連貫性建模的語料設(shè)置，先采用word2vec和glove生成的不同維數(shù)的向量進行實驗；同時為了找出較適合篇章連貫性的語料形態(tài)，在語料預處理時本文將語料生成為一句一行及一詞一行的形式，以期望找到較適合篇章連貫性建模的語料形態(tài)。通過對該實驗的結(jié)果進行分析，發(fā)現(xiàn)形態(tài)為一句一行的語料，借助word2vec生成的300維詞向量最適合篇章連貫性建模，限于篇幅，本文以下均提供采用該種詞嵌入的實驗結(jié)果。下面介紹所采用的基準模型。

基準模型1實體網(wǎng)格模型(entitygraphbasedmodel[14])，一個具有代表性的基于特征工程的傳統(tǒng)篇章連貫性模型，本文利用文獻[14]中提供的開源代碼*http://github.com/karins/CoherenceFramework.重現(xiàn)了該模型，同時將此模型移植至中文環(huán)境。

基準模型2神經(jīng)網(wǎng)絡(luò)模型，該模型僅利用雙向LSTM對篇章連貫性進行建模，本文重現(xiàn)了此模型，同時將其移植至漢語環(huán)境。

表1顯示了中英文句子排序任務的系統(tǒng)性能對比實驗結(jié)果。實驗采用的語料是3.1節(jié)中的中文句子排序數(shù)據(jù)集和英文句子排序數(shù)據(jù)集，實驗結(jié)果表明本文提出的實體驅(qū)動模型明顯優(yōu)于基準模型，原因在于airplane語料中有約 29.32%的名詞，earthquake語料中有約30.67%的名詞，作文語料中有約22.01%的名詞，ctb語料中有約25.76%的名詞。對于名詞含量比較大的數(shù)據(jù)集(類似于earthquake和CTB)而言，由于含有的名詞數(shù)量較多，對實體網(wǎng)格模型可能存在一些噪聲，因而它們在實體網(wǎng)格模型上的結(jié)果較低，同時由于一般的深度學習模型沒有充分挖掘出這種名詞間的依賴關(guān)系，導致模型的性能也存在一定的局限。

表1 中英文句子排序性能

根據(jù)進一步分析，本文的模型(相加操作)更適合學習名詞較多的語料集，本文的模型(相乘操作)則更適合學習名詞較少的語料集。其中，本文的模型(相加操作)主要是對抽取的實體向量與LSTM向量進行按位相加操作，而本文的模型(相乘操作)主要是對抽取的實體向量與LSTM向量進行按位相乘操作。總體上,本文的模型(相乘操作)比較穩(wěn)定，顯著優(yōu)于現(xiàn)有的基于實體和基于神經(jīng)網(wǎng)絡(luò)的模型。結(jié)果表明,本文提出的實體向量對于篇章連貫性建模具有重要作用，而且可以多種有效的方式(相加或相乘)與現(xiàn)有神經(jīng)網(wǎng)絡(luò)模型加以融合。此外，經(jīng)過顯著性測試，本文模型在中文情況較現(xiàn)有模型有顯著的提升(采用成對的t-檢測對應的p<0.01)，即便對于性能比較好的英文情況，本文模型的性能仍有小幅度的提升。

3.2.2 機器翻譯連貫性評估實驗結(jié)果

表2顯示了機器翻譯連貫性評估任務的性能對比實驗結(jié)果。實驗采用的數(shù)據(jù)集是3.1節(jié)中的機器翻譯連貫性評估數(shù)據(jù)集。實驗結(jié)果表明：本文的模型(相加操作)更適用于機器翻譯的連貫性評估，機器翻譯語料中名詞約有24.21%，參考譯文中含有約25.51%的名詞，機器翻譯得到的譯文中含有約22.75%的名詞，雖然Smt_translation 語料中名詞比例與句子排序的中文語料CTB和作文語料比例類似，但由于機器翻譯連貫性檢測任務比句子排序任務更具有挑戰(zhàn)性，其原因在于前者需要區(qū)分比較相近的人工參考譯文與機器生成譯文，而句子排序任務中原文件和置換文件的可比較性不高，從而導致傳統(tǒng)的實體網(wǎng)格方法和傳統(tǒng)神經(jīng)網(wǎng)絡(luò)方法的識別性能均不高，但本文將兩者融合后，性能得以顯著提升，說明本文的模型將實體信息融入機器學習中能較好地評估機器翻譯連貫性，充分說明了實體的分布式表示與現(xiàn)有深度學習模型之間具有一定的互補作用。此外，顯著性測試顯示，本文模型在中文情況下較現(xiàn)有模型的性能有顯著性提升(采用成對的t-檢測對應的P<0.01)。

表2 機器翻譯連貫性評估五倍交叉驗證實驗

4 總結(jié)與展望

本文提出了一個實體驅(qū)動的神經(jīng)網(wǎng)絡(luò)篇章連貫性模型。由實驗結(jié)果可知：本文的模型(相乘操作)更好，在句子排序和機器翻譯連貫性評估任務上均有穩(wěn)定的性能提升。本文的模型既避免了需要耗費大量時間的特征工程，又充分考慮了篇章中句子間的實體鏈接對于篇章連貫性建模的重要作用。因此，本文首先抽取出篇章中相鄰句子的實體信息，將其進行分布式表示，然后將此信息通過多種簡單且有效的向量操作融合至句子級的雙向LSTM深度學習模型之中。在漢語和英語篇章語料上的句子排序和機器翻譯連貫性檢測兩種任務上的實驗結(jié)果表明本文提出的模型在性能上較現(xiàn)有模型具有顯著提升。

[1] Halliday M A K.An introduction to functional grammar[M].New York: Oxford University Press Inc, 2004.

[2] 黃國文.語篇分析概要[M].長沙：湖南教育出版社，1987.

[3] Heidi J F. Phrasal cohesion and statistical machine translation[C]//Proceedings of EMNLP, 2002: 304-311.

[4] Regina B, Lillian L. Catching the drift: probabilistic content models, with applications to generation and summarization[C]//Proceedings of NAACL-HLT, 2004: 113-120.

[5] Lin Zi Heng Lin, Hwee Tou Ng, KAN Minyen. Combining coherence models and machine translation evaluation metrics for summarization evaluation[C]//Proceedings of ACL, 2012： 1006-1014.

[6] Danushka Bollegala, Naoaki Okazaki， Mitsuru Ishizuka. A bottom-up approach to sentence ordering for multi-document summarization[C]//Proceedings of ICCL-ACL, 2012： 385-392.

[7] Helen Yannakoudakis， Ted Briscoe. Modeling coherence in ESOL learner texts[C]//Proceedings of ACL,2013： 33-43.

[8] Jill Burstein, Joel Tetreault， Slava Andreyev. Using entity-based features to model coherence in student essays[C]//Proeedings of NAACL-HLT, 2010： 681-684.

[9] Derrick Higgins, Jill Burstin, Daniel Marcu, et al. Evaluating multiple aspects of coherence in student essays[C]//Proceedings of NAACL-HLT, 2004： 185-192.

[10] Foltz P W, Walter K, Thomas K L.The measurement of textual coherence with latent semantic analysis[J].Discourse Processes, 1998, 25(2&3): 285-307.

[11] Regina Barzilay， Mirella Lapata. Modeling local coherence: an entity-based approach[C]//Proceedings of ACL, 2005： 141-148.

[12] Regina Barzilay， Mirella Lapata. Modeling local coherence: an entity-based approach[J].Computational Linguistics, 2008, 34(1):1-34.

[13] Mirella Lapata， Regina Barzilay. Automatic evaluation of text coherence: Models and representations[C]//Proceedings of IJCAI, 2015: 1085-1090.

[14] Camille Guinaudeau, Michael Strube. Graph-based local coherence modeling[C]//Proceedings of ACL, 2013: 93-103.

[15] Feng V W, Hirst G.Extending the entity-based coherence model with multiple ranks[C]//Proceedings of EACL, 2012: 315-324.

[16] Ak John, Ld Caro, G Boella. Text segmentation with topic modeling and entity coherence[C]//Proceedings of International Conference on Hybrid Intelligent Systems, 2016:175-185.

[17] Wang Z, Lu J, Lin R, et al. Epithelium-stroma classification via convolutional neural networks and unsupervised domain adaptation in histopathological images[J]. IEEE Journal of Biomedical & Health Informatics, 2017(99): 1.

[18] Paul A, Dey A, Mukherjee D P, et al. Regenerative random forest with automatic feature selection to detect mitosis in histopathological breast cancer images[C]//Proceedings of MICCAI 2015，Part Ⅱ, 2015: 94-102.

[19] 楊明翰，許曜麒，洪孝宗，等. 融合多任務學習類神經(jīng)網(wǎng)路聲學模型訓練于會議語音辨識之研究[C]//Proceedings of the 28th Conference on Computational Linguistics and Speech Processing, 2016:016-1001.

[20] Mi Haitao, Wang Zhiguo, Abe Ittycheriah. Supervised attentions for neural machine translation[C]//Proceeding of the EMNLP,2016:2283-2288.

[21] Tan Ming, Cicero dos Santos, Xiang Bing, et al. Improved representation learning for question answer matching[C]//Proceedings of ACL, 2016: 464-473.

[22] Natsuda Laokulrat, Sang Phan, Noriki Nishida, et al. Generating video description using sequence-to-sequence model with temporal attention[C]//Proceedings of COLING, 2016: 44-52.

[23] Li Jiwei, Eduard Hovy. A model of coherence based on distributed sentence representation[C]//Proceedings of EMNLP, 2014: 2039-2048.

[24] Li J, Jurafsky D. Neural net models for open-domain discourse coherence[J]. arXiv preprint arXiv:1606.01545, 2016.

[25] Graves A. Long short term memory[J]. Springer Berlin Heidelberg, 2012, 9 (8):1735-1780.

[26] Sak H, Senior A, Beaufays F. Long short-term memory recurrent neural network architectures for large scale acoustic modeling[J]. Computer Science, 2014:338-342.

[27] Tai K S, Socher R, Manning C D. Improved semantic representations from tree-structured long short-term memory networks[J].Computer Science, 2015, 5(1):26- 36.

[28] John Duchi, Elad Hazan, Yoram Singer, Adaptive subgradient methods for online learning and stochastic optimization[J], Journal of Machine Learning Research, 2011, 12 (7):2121-2159.

[29] Mikolov T, Chen K, Corrado G, et al. Efficient estimation of word representations in vector space[C]//Proceedings of ICLR Workshop, 2013:3-1127.

[30] Jeffrey Pennington, Richard Socher, Christopher D. Glove: Global vectors for word representation[C]//Proceedings of EMNLP, 2014:1523-1543.