• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      深度學(xué)習(xí)建模下的自動(dòng)句子填空技術(shù)

      2019-09-05 12:33:38陳志剛胡國(guó)平
      中文信息學(xué)報(bào) 2019年8期
      關(guān)鍵詞:句法答題語義

      陳志剛,華 磊,劉 權(quán),3,尹 坤,魏 思,2,胡國(guó)平

      (1. 科大訊飛股份有限公司 人工智能研究院,安徽 合肥 230088;2. 認(rèn)知智能國(guó)家重點(diǎn)實(shí)驗(yàn)室,安徽 合肥 230088;3. 中國(guó)科學(xué)技術(shù)大學(xué) 信息科學(xué)技術(shù)學(xué)院,安徽 合肥 230026)

      0 引言

      自動(dòng)句子填空任務(wù)旨在從給定的詞語或短語集合中選擇最佳的候選答案填在目標(biāo)句子的合適位置,使目標(biāo)句子具有正確的語法和完整的語義。本文以高考英文單項(xiàng)選擇題作為切入點(diǎn),對(duì)自動(dòng)句子填空技術(shù)中的一些重點(diǎn)問題進(jìn)行了研究探索。

      自動(dòng)句子填空任務(wù)涉及到對(duì)句子語法、用語習(xí)慣、語境判斷等多個(gè)方面的考察。以高考中的英文單項(xiàng)選擇題為例,為了更好地考察學(xué)生對(duì)于英文的掌握情況,高考中的單項(xiàng)選擇題覆蓋的知識(shí)范圍比較廣泛,題型也比較豐富??傮w而言,可以將題型分為以下四類:

      (1) 區(qū)別不同詞語,包含動(dòng)詞、名詞、副詞、形容詞、介詞、情態(tài)動(dòng)詞、連詞以及疑問詞(what、which、who、when)等;

      (2) 區(qū)別相同動(dòng)詞所對(duì)應(yīng)的不同時(shí)態(tài);

      (3) 區(qū)別不同的短語以及固定搭配;

      (4) 根據(jù)上下文,選擇合適的句子。

      圖1針對(duì)每種分類,列舉了對(duì)應(yīng)的例子。從上面的分類可以看出,一個(gè)好的自動(dòng)句子填空系統(tǒng)需要有精細(xì)的語義建模能力,并準(zhǔn)確地區(qū)分詞語、詞語的時(shí)態(tài)以及所處的語境。本文利用深度學(xué)習(xí)方法,并結(jié)合神經(jīng)網(wǎng)絡(luò)技術(shù),構(gòu)建了一個(gè)融合多源信息的自動(dòng)句子填空系統(tǒng)。

      圖1 高考答題題型舉例(正確答案在括號(hào)內(nèi))

      本文的主要貢獻(xiàn)如下:

      (1) 提出了一種依存句法展開序列建模方案,可以高效地將依存句法信息引入到句子填空任務(wù)中并發(fā)揮顯著效果。

      (2) 提出了一種基于語言模型隱含狀態(tài)信息排序的句子填空模型并取得顯著效果。

      (3) 構(gòu)建了一個(gè)多源信息融合的排序模型,實(shí)現(xiàn)對(duì)(1)中的依存句法信息以及(2)中的隱含狀態(tài)信息深入融合,并在測(cè)試集上獲得76.9%的答題準(zhǔn)確率。

      (4) 構(gòu)建了一個(gè)完備的高考自動(dòng)答題實(shí)驗(yàn)數(shù)據(jù)集,可作為標(biāo)準(zhǔn)數(shù)據(jù)集為自動(dòng)句子填空技術(shù)服務(wù)。

      1 相關(guān)工作

      近年來,隨著深度學(xué)習(xí)技術(shù)在自然語言處理領(lǐng)域的廣泛應(yīng)用,自動(dòng)句子填空任務(wù)被業(yè)界普遍關(guān)注。早期典型的自動(dòng)句子填空任務(wù)為微軟句子填空任務(wù)(Microsoft Sentence Completion)。2012年,微軟研究院Zweig等發(fā)布了MSR Sentence Completion Challenge數(shù)據(jù)集MSR_SCC,該數(shù)據(jù)集總共包括1 040個(gè)句子,句子主要來源于福爾摩斯小說集。其中,每個(gè)句子包括4個(gè)錯(cuò)誤答案,1個(gè)正確答案[1]。該文獻(xiàn)[1]同時(shí)還提出了兩個(gè)基準(zhǔn)模型: N-gram語言模型和隱含語義分析(Latent Sematic Analysis,LSA)模型。語言模型可以用來衡量一個(gè)句子的合理程度,可以根據(jù)語言模型得分判斷填入答案的句子是否合理[2]。在Zweig等的N-gram語言模型方案中,他們利用一個(gè)預(yù)訓(xùn)練的4-gram(以及平滑的4-gram模型)語言模型,對(duì)每個(gè)候選答案進(jìn)行打分,選擇得分最高的句子作為正確答案,該方案在測(cè)試集上可以獲得39%的準(zhǔn)確率;LSA是一種將文檔和詞語映射到潛在語義空間的語義分析方法[3],Zweig等先利用LSA計(jì)算每個(gè)詞語的詞向量,然后利用向量間的余弦距離計(jì)算每個(gè)詞語和候選詞之間的相似度。最后,選擇得分最高的候選詞為正確答案。該方法相對(duì)于語言模型,性能有很大提升,并最終獲得49%的準(zhǔn)確率。

      近年來,隨著深度學(xué)習(xí)的發(fā)展,越來越多的自然語言處理方面的工作開始利用神經(jīng)網(wǎng)絡(luò)作為主流模型。循環(huán)神經(jīng)網(wǎng)絡(luò) RNN(Recurrent Neutral Network)作為句子序列建模最常用的模型,也被成功地應(yīng)用到句子填空任務(wù)中。Mikolov等首先利用RNN結(jié)構(gòu),在大規(guī)模的英文語料庫(kù)上訓(xùn)練了一個(gè)通用的語言模型。然后,利用該語言模型,對(duì)每個(gè)候選答案計(jì)算句子概率,從而選擇正確答案。該模型在微軟公開數(shù)據(jù)集 MSR_SCC上,獲得了58.9%的準(zhǔn)確率[4-6]。Tran 等在RNN 語言模型的基礎(chǔ)上,在網(wǎng)絡(luò)中加入了記憶網(wǎng)絡(luò)(Memory Network)的結(jié)構(gòu)[7-9],改進(jìn)的 RNN 模型在微軟數(shù)據(jù)集上獲得了最好的準(zhǔn)確率69.2%。但無論是RNN還是N-gram語言模型,本質(zhì)上都是對(duì)序列整體進(jìn)行建模。在句子填空任務(wù)中,對(duì)于每個(gè)候選答案而言,它們所對(duì)應(yīng)的上下文都是一致的。因此,進(jìn)行單一序列的建模,可能會(huì)丟失細(xì)節(jié)信息。針對(duì)這個(gè)問題,本文在第3節(jié)提出了RNN語言模型和狀態(tài)排序相結(jié)合的自動(dòng)句子填空方案。該方案一方面充分利用了語言模型信息,另一方面,可以通過定義狀態(tài)細(xì)節(jié)特征來提高對(duì)候選答案的區(qū)分性。

      此外,考慮到答題任務(wù)中存在著大量的語法結(jié)構(gòu)分析題,所以一些學(xué)者也開始將句法分析運(yùn)用到答題任務(wù)中,Joseph Gubbins等利用句法分析解決了N-gram模型只能運(yùn)用序列特征的缺點(diǎn),并以依存句法分析為基礎(chǔ),訓(xùn)練節(jié)點(diǎn)之間弧序列的N-gram模型。其在微軟MSR_SCC 任務(wù)中,相比N-gram 模型提高了8個(gè)點(diǎn)左右的準(zhǔn)確率[10]。Piotr Mirowski 等將句法信息融入到 RNN中,相對(duì)序列建模RNN語言模型,其準(zhǔn)確率在微軟的MSR_SCC任務(wù)中有10個(gè)百分點(diǎn)左右的提升。該方法在引入句法信息的同時(shí),也將句子序列信息丟失,這在一定程度上會(huì)影響模型效果[11]。本文在第2節(jié)提出了一種依存句法分析和RNN序列建模相結(jié)合的方案,該建模方案,在序列和句法信息上都有所側(cè)重,并在答題任務(wù)上取得了較好的效果。

      同微軟句子填空任務(wù)相比,本文研究主要針對(duì)初、高中英語考試單選題。單選題中考察的知識(shí)點(diǎn)非常豐富,覆蓋了詞性、語法、語義和句法等多方面。因?yàn)榭疾禳c(diǎn)的不確定性,可以更加真實(shí)地模擬機(jī)器在面對(duì)不確定性題目時(shí)的解題能力,更能反映機(jī)器的自然語言理解水平。同時(shí),該任務(wù)與微軟數(shù)據(jù)集也有較大的區(qū)別。首先,微軟數(shù)據(jù)集中的題干是一個(gè)句子,而初、高中英語單選題可能出現(xiàn)多個(gè)句子。句子之間可能是對(duì)話或因果等邏輯關(guān)系,機(jī)器答題需要考慮到這些句子間的邏輯關(guān)系、語義關(guān)聯(lián)關(guān)系等,才能得到正確的答案;其次,微軟數(shù)據(jù)集中的題目只含有一個(gè)需要填空的單詞,而本文中每個(gè)題目可能會(huì)有多個(gè)需要選擇的位置,每個(gè)位置的答案詞數(shù)也可能不相等。因此,難度將進(jìn)一步加大;最后,微軟數(shù)據(jù)集的候選詞是經(jīng)過語言模型挑選出來的,而本文的數(shù)據(jù)來源于真實(shí)的教育考題,任務(wù)的真實(shí)性更強(qiáng)。

      本文的組織結(jié)構(gòu)如下: 首先,考慮到語言模型以及句法信息對(duì)句子填空任務(wù)的重要性,并結(jié)合高考答題任務(wù)的特點(diǎn),在第2節(jié)提出了依存句法分析和RNN序列建模相結(jié)合的自動(dòng)句子填空方案;其次,在第3節(jié)提出了RNN語言模型和狀態(tài)排序相結(jié)合的自動(dòng)句子填空方案;最后,本文設(shè)計(jì)了一種融合句法、語言模型以及狀態(tài)信息的自動(dòng)句子填空方案,并在答題任務(wù)上取得最優(yōu)效果。

      2 depRNN自動(dòng)答題方法

      本文設(shè)計(jì)提出結(jié)合依存句法分析和RNN序列建模的方案(簡(jiǎn)稱depRNN)來實(shí)現(xiàn)句子自動(dòng)填空。先對(duì)給定的句子進(jìn)行依存句法分析,再將依存分析結(jié)果展開成序列形式,利用RNN對(duì)該序列進(jìn)行建模,獲得給定句子的語義表達(dá)。最后,利用句子的語義表達(dá),訓(xùn)練一個(gè)語義排序答題模型,支持系統(tǒng)輸出最優(yōu)答案。

      2.1 依存句法分析

      依存句法分析主要通過分析單詞之間的依存關(guān)系來解釋句子的句法結(jié)構(gòu)。詞與詞之間直接發(fā)生依存關(guān)系,構(gòu)成一個(gè)依存關(guān)系對(duì),其中一個(gè)是核心詞,另一個(gè)稱為修飾詞。圖2上半部分是利用Stanford parser對(duì)例句“Iwanttogohome”進(jìn)行依存句法分析的結(jié)果[12]。以依存對(duì)“I”和“want”為例,這里“I”為修飾詞,“want”為核心詞。表明單詞“I”受到單詞“want”支配,它們之間的關(guān)系為“nsubj”(表示主謂關(guān)系)。依存句法結(jié)構(gòu)圖中,關(guān)系用一條邊來表示,邊的箭頭指向核心詞。如果將每個(gè)單詞作為一個(gè)節(jié)點(diǎn),單詞之間的關(guān)系作為邊,可以將句子依存句法分析的結(jié)果展開成句法樹的結(jié)構(gòu),這種樹的結(jié)構(gòu)稱為依存句法樹(圖2的下半部分)。

      圖2 句子“I want to go home”依存句法分析結(jié)果

      對(duì)于高考答題任務(wù)而言,一方面,引入依存句法分析可以幫助理解答題任務(wù)中存在的大量語法結(jié)構(gòu)分析題;另一方面,在依存句法分析中,單詞之間可以跨越多個(gè)單詞進(jìn)行關(guān)系依賴。通過引入長(zhǎng)距離的依賴信息,將有助于解決高考答題中,依賴長(zhǎng)距離進(jìn)行信息理解的題型。

      2.2 展開句法樹結(jié)構(gòu)

      為了充分利用依存句法信息,現(xiàn)有研究大多基于Tree-LSTM模型,利用遞歸遍歷的方式,從底向上地學(xué)習(xí)句子的語義表達(dá)[13-16]。這類方法充分考慮了單詞之間的依賴關(guān)系、句子的結(jié)構(gòu)層次信息,然而卻丟失了句子的序列特征。與此同時(shí),由于這類方法大多基于依存句法樹進(jìn)行操作,導(dǎo)致很難并行計(jì)算,會(huì)帶來較大的模型訓(xùn)練成本。為了實(shí)現(xiàn)對(duì)句子句法結(jié)構(gòu)和序列結(jié)構(gòu)的有效融合,本文設(shè)計(jì)了一種融合句法樹展開結(jié)構(gòu)的句子語義建模方法(depRNN)。實(shí)現(xiàn)在引入句法信息的同時(shí),保留序列特性以及高效的訓(xùn)練能力。

      在依存句法分析中,每個(gè)單詞只受到一個(gè)核心詞支配。因此,句子中的每個(gè)單詞都可以表示成唯一的三元組形式: (當(dāng)前單詞,依存關(guān)系,核心詞)。本文提出一種便捷的句法樹展開的方式。以圖2中的句法分析結(jié)果為例,可以將其展開成如圖3所示的序列結(jié)構(gòu)。在圖3中,以單詞“I”為例,其對(duì)應(yīng)的核心詞為“want”,依存關(guān)系為“nsubj”。因此,可以將單詞“I”表示成(I,nsubj,want)這樣的三元組形式。對(duì)于句子中的每個(gè)單詞,本文都設(shè)計(jì)采用該方式進(jìn)行展開。

      圖3 依存句法樹展開結(jié)果

      為了描述方便,本文將第i個(gè)單詞對(duì)應(yīng)的三元組xi用式(1)表示。

      (1)

      (2)

      這樣,對(duì)于一個(gè)輸入長(zhǎng)度為N的句子,可以用p=[x1,x2…xN]來表示。

      2.3 基于RNN的序列建模

      (3)

      2.4 基于注意力機(jī)制的句子表達(dá)生成

      為了有效利用輸入序列的每一個(gè)隱含狀態(tài)信息,本文利用注意力機(jī)制(Attention Mechanism)去獲取句子層面的語義表達(dá)[18-19]。對(duì)于每個(gè)隱含狀態(tài)hi,可以通過式(4)計(jì)算它的對(duì)應(yīng)權(quán)重ai。其中,v∈Rk,W∈Rk×k,k對(duì)應(yīng)為hi的維度。

      ai=softmax(vTtanh(Whi))

      (4)

      最終輸入句子的語義表達(dá)h*∈Rk,如式(5)所示。

      (5)

      2.5 基于候選排序的自動(dòng)答題目標(biāo)

      本文所探索的高考答題任務(wù)中,每一個(gè)單項(xiàng)選擇題,都存在四個(gè)候選句子。其中,只有一個(gè)為正確句子,其他三個(gè)為錯(cuò)誤句子。雖從單個(gè)句子的角度看,句子本身是語義合理通順的,但在答題任務(wù)中,只有一個(gè)候選句子是最符合語言邏輯習(xí)慣、上下文以及背景知識(shí)的。因此,本文采用了排序?qū)W習(xí)(Learning to Rank)的思想[20],目地在于訓(xùn)練模型,使得模型對(duì)于正確候選句子的得分,要大于其他三個(gè)候選句子。

      (6)

      其中,m是自定義的間隔數(shù)值,f是一個(gè)得分函數(shù),如式(7)所示,其中u∈Rk。

      f(x)=σ(uTx)

      (7)

      本文中,設(shè)置m為0.2。在訓(xùn)練階段,目標(biāo)是盡量使得正確答案的得分與錯(cuò)誤答案的得分差距大于m。在測(cè)試階段,則選擇4個(gè)答案得分最高的句子作為正確答案即可。

      3 多狀態(tài)信息融合模型

      本文第二節(jié)重點(diǎn)說明了如何利用依存句法分析以及RNN進(jìn)行句子的語義建模。它是對(duì)句子整體層面的語義建模,得到的是一個(gè)句子整體層面的句子語義表示向量。然后,用這個(gè)向量去對(duì)句子進(jìn)行排序打分。考慮到在高考答題任務(wù)中,對(duì)于每道試題的多個(gè)候選答案而言,它們所對(duì)應(yīng)的上下文均一致。因此,整體層次的建??赡軙?huì)忽略細(xì)節(jié)信息。在實(shí)際模型中,如果模型能夠顯式指出在填入不同答案時(shí)所對(duì)應(yīng)的狀態(tài)信息,將更加有助于模型選擇最優(yōu)答案;另一方面,現(xiàn)有工作均證實(shí)了無監(jiān)督訓(xùn)練的RNN語言模型在答題任務(wù)中的重要作用。因此,為了充分利用語言模型信息,并突出細(xì)節(jié)信息,本節(jié)首先基于大規(guī)模文本語料訓(xùn)練的RNN語言模型來對(duì)輸入句子序列進(jìn)行編碼。然后,基于句子序列的隱層節(jié)點(diǎn),定義了多狀態(tài)信息。并最終基于這些狀態(tài)信息,訓(xùn)練答題模型,實(shí)現(xiàn)對(duì)最優(yōu)答案的預(yù)測(cè)。

      3.1 RNN語言模型

      語言模型本質(zhì)上是基于當(dāng)前輸入序列,預(yù)測(cè)下一個(gè)單詞出現(xiàn)的概率。而基于RNN的語言模型,則是先通過RNN對(duì)輸入序列進(jìn)行編碼,再基于當(dāng)前序列的隱含狀態(tài)去預(yù)測(cè)下一個(gè)單詞出現(xiàn)的概率。基于RNN的語言模型的定義可以通過式(8)表示。式(8)中,ht對(duì)應(yīng)的是輸入序列w1:t的t時(shí)刻隱含狀態(tài);U是一個(gè)映射矩陣,可以將ht映射到詞表空間;softmax是一個(gè)概率歸一化函數(shù),用于計(jì)算下個(gè)單詞是wt+1的概率。

      P(wt+1|w1:t)=softmax(Uht)

      ht=RNN(wt,ht -1)

      (8)

      語言模型的優(yōu)化目標(biāo)選擇交叉熵函數(shù),如式(9)所示。其中,N是輸入句子長(zhǎng)度,而M則是句子的個(gè)數(shù)。

      (9)

      此外,為了學(xué)習(xí)到反向的語言模型特征,可以將輸入的句子序列反向,然后采用上述方式訓(xùn)練一個(gè)反向語言模型。為了避免梯度彌散問題,本文統(tǒng)一采用LSTM結(jié)構(gòu)作為序列編碼單元。

      3.2 狀態(tài)信息定義

      本小節(jié)重點(diǎn)介紹了定義的狀態(tài)信息。為了與第二節(jié)中的展開句法樹表示區(qū)別,本小節(jié)采用I=[n1,n2…ni…nN]來代表輸入句子。其中,ni∈Rd代表每個(gè)輸入單詞所對(duì)應(yīng)的詞向量。I會(huì)進(jìn)一步送到3.1節(jié)中介紹的前向和后向LSTM語言模型分別進(jìn)行編碼。若在每個(gè)單詞上將正向和反向隱含狀態(tài)進(jìn)行拼接,可最終得到句子在每個(gè)單詞上的編碼h=[h1,h2…h(huán)N]。

      為了更方便解釋清楚狀態(tài)的定義,本小節(jié)依然以句子“I want go home”為例,“to”為填入的選項(xiàng)詞語。假設(shè)答案在句子中的起始位置為j,答案的長(zhǎng)度為l,則可以用hj:j+l-1來代表答案所對(duì)應(yīng)的隱含狀態(tài)編碼。因此,此例中候選答案to的隱含狀態(tài)序列為h3:3。

      基于句子的隱含編碼h,本文定義了5種狀態(tài)信息。對(duì)應(yīng)的狀態(tài)信息,如圖4所示。

      圖4 本文定義的多狀態(tài)信息

      (1) 答案位置信息。由于LSTM是從左到右(反向?yàn)閺挠业阶?序列建模,所以跟答案相鄰的位置既包含答案信息,同時(shí)也包含歷史信息,因此本文定義位置信息為所填答案左邊和右邊的隱含狀態(tài),即s1=hj-1,s2=hj+l。

      (2) 序列的最終隱含狀態(tài)信息。一般來說,LSTM的最終隱含狀態(tài)包含句子整體層面的信息。因此,本文定義s3=hN,s4=h1。s3和s4分別對(duì)應(yīng)前向和后向LSTM的最終隱含狀態(tài)。

      (3) 答案與上下文的交互信息s5,定義如式(10)所示。由于答案可能存在多個(gè)單詞,本文將答案狀態(tài)的平均作為答案的語義表達(dá),式(10)中,avg則為平均函數(shù),f作為關(guān)聯(lián)函數(shù),主要用來衡量當(dāng)前答案表達(dá)跟上下文的相關(guān)性。本文分別選擇softmax和sigmoid兩個(gè)函數(shù)作為關(guān)聯(lián)函數(shù)f。s5的最終表達(dá),則是上下文隱含狀態(tài)所對(duì)應(yīng)的加權(quán)求和。

      (10)

      關(guān)于狀態(tài)信息的選擇,本文所遵循的原則是盡量體現(xiàn)差異性信息。本文重點(diǎn)突出答案所對(duì)應(yīng)的狀態(tài)信息,比如定義的s1、s2和s5都是同對(duì)應(yīng)的答案相關(guān)的細(xì)節(jié)狀態(tài)信息。而s3和s4這種整體層面的信息,是對(duì)細(xì)節(jié)信息的補(bǔ)充。

      3.3 基于狀態(tài)排序的自動(dòng)答題模型

      3.4 多源信息融合答題方法

      4 實(shí)驗(yàn)結(jié)果與分析

      4.1 實(shí)驗(yàn)數(shù)據(jù)

      本文的數(shù)據(jù)主要來源于互聯(lián)網(wǎng)題庫(kù)中的高中英文單項(xiàng)選擇題??紤]到某些重點(diǎn)題型會(huì)被反復(fù)考察,對(duì)于抓取到的答題數(shù)據(jù),本文采用編輯距離過濾內(nèi)容相似的題目對(duì)。當(dāng)兩個(gè)問題對(duì)之間的編輯距離小于8時(shí),這兩個(gè)題目被認(rèn)為是同一個(gè)問題。最終,本文收集到了62 834條答題數(shù)據(jù)。進(jìn)而,本文按照8∶1∶1的比率,將整個(gè)數(shù)據(jù)集分成訓(xùn)練集、驗(yàn)證集和測(cè)試集三個(gè)部分。數(shù)據(jù)集的分配情況如表1所示。

      表1 自動(dòng)答題數(shù)據(jù)集

      在實(shí)驗(yàn)數(shù)據(jù)預(yù)處理方面,本文采用 Stanford parser 對(duì)文本進(jìn)行詞性標(biāo)注以及句法分析。此外,為了進(jìn)一步觀察答題數(shù)據(jù)的特點(diǎn)以及后續(xù)的實(shí)驗(yàn)分析,本文將答題數(shù)據(jù)進(jìn)行了細(xì)粒度的劃分。圖5展示了對(duì)驗(yàn)證集數(shù)據(jù)劃分的情況。圖5中數(shù)據(jù)劃分的方法可以結(jié)合詞性標(biāo)注以及詞根分析。以“區(qū)分名詞題型”為例,如果候選答案為單個(gè)詞語,并且預(yù)測(cè)詞性為名詞,且候選答案的詞根不一致,則可以判斷該題為“區(qū)分名詞題型”。我們可通過類似的規(guī)則去定義其他類型題型。從圖5中可以看出,這種劃分方式可覆蓋約86%的題型。對(duì)于其他類型題目,本文劃分到“其他”部分。

      圖5 驗(yàn)證集上各種題型的分布情況

      此外,本文收集了包括Wikipedia、Gigaword以及英語學(xué)習(xí)網(wǎng)站在內(nèi)的約26G的英文文本,并利用Stanford parser可以對(duì)這些文本進(jìn)行預(yù)處理。基于預(yù)處理好的文本,本文訓(xùn)練了一個(gè)通用的LSTM語言模型。

      4.2 實(shí)驗(yàn)參數(shù)配置

      本文將LSTM的隱含節(jié)點(diǎn)數(shù)目均設(shè)置為512,詞向量(包括單詞向量以及依存關(guān)系向量)對(duì)應(yīng)的維度都為300,batch-size則設(shè)置為50,候選排序模型中的m都設(shè)置為0.2。本文采用梯度下降的方式來學(xué)習(xí)模型的參數(shù)。為了動(dòng)態(tài)的調(diào)整學(xué)習(xí)率,本文選擇Adadelta[21]作為梯度優(yōu)化算法,并將初始學(xué)習(xí)率設(shè)為0.5。

      4.3 depRNN模型實(shí)驗(yàn)

      4.3.1 實(shí)驗(yàn)結(jié)果

      在第二節(jié)中,如果不考慮句法信息,也就是在式(1)中,直接令xi=wi,那么最終獲得的句子語義表達(dá)h*則完全依賴LSTM建模。本文將這個(gè)模型作為基線模型,而需要對(duì)比的模型則包含兩個(gè): depRNN拼接模型和depRNN門模型,分別對(duì)應(yīng)于式(2)中定義的兩種映射函數(shù)。

      表2給出了depRNN模型對(duì)比結(jié)果。

      表2 depRNN模型與基線模型對(duì)比結(jié)果

      從表2中可看出加入句法信息后,相對(duì)LSTM基線模型來說,depRNN拼接模型在答題任務(wù)上準(zhǔn)確率有至少11個(gè)點(diǎn)的絕對(duì)提升。這表明,句法信息在英文自動(dòng)答題任務(wù)上是有用的。本文通過進(jìn)一步對(duì)模型的一些典型錯(cuò)誤進(jìn)行分析,發(fā)現(xiàn)在引入依存句法信息后,相對(duì)于基線模型而言,一些長(zhǎng)距離依賴的問題得到了明顯改善。具體如例1所示。

      例1Lindaisahardstudentandsheusually____Englisheveryevening.

      A.studyB.studies

      C.studiedD.hadstudied

      正確答案: B

      該題考察的是英文語法中的并列從句,兩個(gè)子句之間的時(shí)態(tài)是相關(guān)的。其中,動(dòng)詞“is”和正確答案“studies”之間屬于長(zhǎng)距離依賴,通過依存句法分析,可以產(chǎn)生(is,conj,studies)這個(gè)三元組。該三元組表明這兩個(gè)單詞處于并列的結(jié)構(gòu)。通過展開句法樹結(jié)構(gòu),在編碼到單詞“is”的時(shí)候,已經(jīng)可以看到單詞“studies”的信息,這相當(dāng)于拉近單詞“is”和“studies”之間的距離,從而提升了句子的語義建模能力。

      在表2中,同時(shí)給出了式(2)兩種句法信息融合方案的對(duì)比結(jié)果(表格的后兩行)。在融合句法信息的句法語義模型中,采用門控融合方案要比采用拼接融合方案,絕對(duì)提升2.2個(gè)百分點(diǎn)。 一個(gè)直觀的解釋為: 基于語言模型的方案表明,序列特性在句子填空任務(wù)上是有效的。如果僅從表達(dá)形式上看,拼接結(jié)構(gòu)只是將當(dāng)前單詞、核心詞以及依存關(guān)系三個(gè)向量拼接在一起作為當(dāng)前表達(dá)??梢钥闯?,拼接的方式并沒有重點(diǎn)突出當(dāng)前單詞的特征,這在一定程度上會(huì)模糊序列的特性。而門結(jié)構(gòu)則是采用向量相加的方式,類似于殘差網(wǎng)絡(luò),相當(dāng)于是在當(dāng)前單詞特征的基礎(chǔ)上進(jìn)行了調(diào)整,能較好地保留當(dāng)前單詞的特性。因此,同拼接方式相比,門的結(jié)構(gòu)在引入句法信息的同時(shí),能夠更好地保留序列特性。

      4.3.2 depRNN與Tree-LSTM實(shí)驗(yàn)結(jié)果對(duì)比

      在2.2節(jié)中,本文提到現(xiàn)有的融合依存句法信息的方案大多基于句法樹訓(xùn)練遞歸網(wǎng)絡(luò)。作為對(duì)比,本文選擇Tree-LSTM[13]作為句子編碼方案,并同本文提出的depRNN模型進(jìn)行了對(duì)比。

      表3給出了depRNN模型和Tree-LSTM模型的對(duì)比結(jié)果。從表3中可以看出,Tree-LSTM 的效果相對(duì)于depRNN方案,準(zhǔn)確率降低了絕對(duì)10個(gè)百分點(diǎn),這說明僅依賴依存樹結(jié)構(gòu)的句子語義建模方法,會(huì)丟失重要的句子序列信息。同時(shí),實(shí)驗(yàn)結(jié)果顯示,depRNN模型較Tree-LSTM模型的訓(xùn)練效率更高。

      表3 depRNN與Tree-LSTM模型對(duì)比結(jié)果(訓(xùn)練耗時(shí): 秒/epoch)

      另一方面,為了驗(yàn)證本文提出的depRNN是否做到對(duì)依存句法信息的有效利用,本文以拼接模型作為depRNN基線模型,設(shè)計(jì)將Tree-LSTM得到的句子表示向量與depRNN句子表示向量融合后訓(xùn)練答題排序模型,僅得到0.3個(gè)點(diǎn)的絕對(duì)提升(64.4%至64.7%)。 這說明融合模型從Tree-LSTM得到的增量信息有限,也從側(cè)面說明depRNN方法是有效的。

      除效果上的優(yōu)勢(shì)之外,本文提出的depRNN模型,相對(duì)Tree-LSTM模型,訓(xùn)練效率上也展現(xiàn)出非常大的優(yōu)勢(shì)。在depRNN模型中,可以采用 mini-batch 的方式進(jìn)行訓(xùn)練,因此可以并行化操作,而Tree-LSTM由于是在依存句法樹上進(jìn)行操作,因此無法并行訓(xùn)練。從表3也可以看出,即使同depRNN基線模型相比,Tree-LSTM每次迭代花費(fèi)的時(shí)間是depRNN的 4.4倍。因此,從效果和效率兩個(gè)方面來說,本文提出的depRNN模型,都優(yōu)于當(dāng)前主流的Tree-LSTM模型。

      4.3.3 依存關(guān)系可視化結(jié)果

      通過depRNN模型所得到的依存關(guān)系向量,利用PCA進(jìn)行降維后,可視化結(jié)果如圖6所示。

      圖6 depRNN模型所得依存關(guān)系向量可視化結(jié)果

      圖6中,每個(gè)依存關(guān)系為標(biāo)準(zhǔn)的Stanford parser所定義的關(guān)系。以圖6中右下角的advcl和ccomp兩個(gè)依存關(guān)系為例,這兩個(gè)依存關(guān)系均為描述主從句中兩個(gè)動(dòng)詞之間的關(guān)系。反映到圖6中,可看出這兩個(gè)關(guān)系在空間距離上是接近。對(duì)于aux以及advmod這對(duì)依存關(guān)系,它們均是對(duì)動(dòng)詞的修飾,因此兩者在圖6中的距離也較近。此外,對(duì)于csubj和csubjpass這種相對(duì)的依存關(guān)系(前者表示主動(dòng),后者表示被動(dòng),主被動(dòng)區(qū)分在高考答題任務(wù)中也屬于常見題型)。從圖6中可看出,它們?cè)诳臻g距離上相對(duì)較遠(yuǎn)。這些例子表明,本文的depRNN模型在一定程度上能學(xué)習(xí)到功能相近的依存關(guān)系,并同時(shí)區(qū)分功能不同的依存關(guān)系。

      4.4 多狀態(tài)信息融合模型實(shí)驗(yàn)

      為了驗(yàn)證不同的狀態(tài)信息對(duì)于英文答題任務(wù)的影響。本文設(shè)計(jì)了以下對(duì)比模型。具體的實(shí)驗(yàn)結(jié)果如表格4所示。

      表4 不同模型配置下對(duì)應(yīng)的準(zhǔn)確率

      從表4中可看出,加入預(yù)訓(xùn)練的語言模型能夠顯著的提升效果。模型3相對(duì)于模型1,準(zhǔn)確率有9.3個(gè)點(diǎn)的絕對(duì)提升。此外,從圖7中的錯(cuò)誤率對(duì)比結(jié)果可看出,加入預(yù)訓(xùn)練的語言模型信息后,對(duì)于區(qū)分性的題型以及填寫固定搭配的題型,錯(cuò)誤率有顯著下降,這與本文的預(yù)期是一致的。因?yàn)?,從無監(jiān)督語料學(xué)習(xí)到的語言模型帶有豐富的語義信息。它能夠有效編碼通用的語義表達(dá),這種通用的表達(dá)會(huì)有助于模型區(qū)分各種類型的單詞和固定搭配。

      圖7 模型3和模型1在每種題型下的錯(cuò)誤率對(duì)比

      與此同時(shí),在答題任務(wù)中,對(duì)于同一個(gè)問題,不同候選答案所對(duì)應(yīng)的上下文是一致的。因此引入答案和上下文的交互信息s5,是為了顯式指出當(dāng)前答案所帶來的差異性信息。從模型2和模型3的實(shí)驗(yàn)結(jié)果對(duì)比也可以看出,融合交互信息s5后的模型3,可以提高1.4個(gè)點(diǎn)左右的準(zhǔn)確率。

      此外,在交互信息s5計(jì)算過程中,本文選擇了兩種類型的關(guān)聯(lián)函數(shù): softmax和sigmoid。從數(shù)學(xué)計(jì)算上來說,softmax是在計(jì)算上下文同答案相關(guān)性的歸一化權(quán)值,它在上下文的每一個(gè)詞語上都有一個(gè)權(quán)重,這些權(quán)重之和為1;而sigmoid是將權(quán)值映射到了0到1之間,權(quán)重之和不一定為1。從答題任務(wù)來看,一方面,對(duì)于題目所填入的答案,與其相關(guān)的上下文大多包含幾個(gè)單詞。由于softmax是歸一化的數(shù)值,很難同時(shí)賦予這些相關(guān)單詞很高的權(quán)重。sigmoid則不存在歸一化的約束,它可以同時(shí)賦予多個(gè)重要單詞高的權(quán)重;另一方面,softmax在上下文的每個(gè)單詞上都有權(quán)重。考慮到相關(guān)單詞只有幾個(gè),因此可能會(huì)引入無關(guān)信息,而sigmoid則可以選擇賦予無關(guān)詞語較小的權(quán)重,從而過濾掉無關(guān)信息。因此,在答題這個(gè)任務(wù)上,選擇sigmoid會(huì)更加合理。從模型3和模型4的實(shí)驗(yàn)結(jié)果對(duì)比也可以看出,修改關(guān)聯(lián)函數(shù)為sigmoid,準(zhǔn)確率有1.7個(gè)點(diǎn)左右的提升。

      為了驗(yàn)證不同的狀態(tài)信息對(duì)于實(shí)驗(yàn)結(jié)果的影響,本文以模型4作為基準(zhǔn)模型。在此基礎(chǔ)上,分別去除交互信息s5(得到模型5),邊界信息s1、s2(得到模型6),以及最終隱含狀態(tài)信息s3、s4(得到模型7)。模型5、6、7相對(duì)于基準(zhǔn)模型,準(zhǔn)確率都有所下降,表明細(xì)節(jié)特征是有效的。

      4.5 多源信息融合模型實(shí)驗(yàn)

      本文所提出的多源信息融合模型,通過將depRNN模型、以及多狀態(tài)融合模型的特征進(jìn)行拼接,并訓(xùn)練候選排序答題模型。實(shí)驗(yàn)結(jié)果如表5所示,可以看出,在多狀態(tài)信息的基礎(chǔ)上,加入句法信息,最終的融合模型相對(duì)于狀態(tài)排序模型,準(zhǔn)確率有0.8個(gè)點(diǎn)左右的提升。

      表5 多源信息融合模型實(shí)驗(yàn)結(jié)果

      4.6 錯(cuò)誤分析

      本文所提出的融合模型雖然取得76.9%的答題效果,但在一些難點(diǎn)問題上還面臨挑戰(zhàn)。本節(jié)對(duì)模型的典型錯(cuò)誤進(jìn)行了分析。

      首先第一類錯(cuò)誤,是模型無法區(qū)分部分細(xì)粒度的語義信息。這主要受限于有限的訓(xùn)練語料,通用的語言模型也很難覆蓋所有的情況。一些典型的例子如下,例2中,模型無法區(qū)分4個(gè)名詞,例3中,模型則無法區(qū)分四個(gè)動(dòng)詞。

      例2Whaton____doyoumeanbysayingso?

      A.earthB.world

      C.landD.ground

      正確答案: A

      例3Donotleavethewindowopen;itis____thievestoenter

      A.invitingB.advising

      C.persuadingD.getting

      正確答案: A

      第二類比較典型的錯(cuò)誤是對(duì)于部分時(shí)態(tài)類問題,模型的區(qū)分較差。主要原因在于時(shí)態(tài)類問題要求模型具有較強(qiáng)的推理能力。典型的難點(diǎn)題型如例4所示,“this week”暗示著將來時(shí),當(dāng)前通用的語義模型較難完全覆蓋解決這類問題。

      例4Anotherfivevolunteers____totakecareofthehomelesschildrenthisweek.

      A.willselectB.haveselected

      C.willbeselectedD.havebeenselected

      正確答案: C

      5 總結(jié)

      本文首先提出了一種展開句法樹結(jié)構(gòu)dep-RNN。在LSTM序列建模方案的基礎(chǔ)上,將依存樹中弧的信息編碼成三元組形式并實(shí)現(xiàn)高效的語義建模。該方案在句子建模過程中無損地引入依存句法信息,提升了句子語義建模的能力。實(shí)驗(yàn)結(jié)果表明,一方面,相對(duì)于雙向 LSTM 基線模型,本文提出的展開句法樹結(jié)構(gòu)在高考答題任務(wù)上,準(zhǔn)確率有11個(gè)點(diǎn)的絕對(duì)提升,這充分驗(yàn)證了句法信息在答題任務(wù)上的有效性;另一方面,同 Tree-LSTM模型相比,depRNN模型的效果和效率上都有顯著提升。

      其次,本文從高考答題任務(wù)的特點(diǎn)出發(fā),指出了基于整體句子建模的語義方案在答題任務(wù)上的局限性,設(shè)計(jì)答案位置、序列的最終隱含狀態(tài)以及答案與上下文的交互三種類型信息,并基于這三種信息類型定義了多種狀態(tài)信息。實(shí)驗(yàn)結(jié)果表明,相對(duì)于句子整體層面的建模,基于多狀態(tài)信息融合的答題模型取得顯著效果,在答題任務(wù)上最高達(dá)到76.1%的準(zhǔn)確率。最后,本文提出結(jié)合序列表示、依存句法信息、多狀態(tài)信息的多源信息融合模型,并取得76.9%的答題準(zhǔn)確率。

      后續(xù)工作方面,模型結(jié)構(gòu)上可以嘗試多源信息進(jìn)行交互,并引入注意力機(jī)制,對(duì)于每種問題,自動(dòng)挑選最優(yōu)特征。此外可以進(jìn)一步研究將該答題框架應(yīng)用到高考完形填空這種篇章結(jié)構(gòu)中。

      猜你喜歡
      句法答題語義
      邀你來答題
      邀你來答題
      邀你來答題
      句法與句意(外一篇)
      述謂結(jié)構(gòu)與英語句法配置
      邀你來答題
      語言與語義
      句法二題
      詩(shī)詞聯(lián)句句法梳理
      “上”與“下”語義的不對(duì)稱性及其認(rèn)知闡釋
      北安市| 定州市| 开封市| 六枝特区| 汉沽区| 遂川县| 阳江市| 晋州市| 衡水市| 分宜县| 英山县| 福贡县| 长海县| 葵青区| 明星| 孟村| 清河县| 徐州市| 抚州市| 分宜县| 嫩江县| 厦门市| 黄冈市| 辰溪县| 临高县| 微博| 西贡区| 信宜市| 十堰市| 长泰县| 内丘县| 遂溪县| 西乡县| 阿合奇县| 乐安县| 华亭县| 遵义市| 普安县| 曲阳县| 桐柏县| 重庆市|