• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      機(jī)器閱讀理解中觀點(diǎn)型問(wèn)題的求解策略研究

      2019-10-22 03:39:00段利國(guó)高建穎李愛(ài)萍
      中文信息學(xué)報(bào) 2019年10期
      關(guān)鍵詞:注意力語(yǔ)義文章

      段利國(guó),高建穎,李愛(ài)萍

      (太原理工大學(xué) 信息與計(jì)算機(jī)學(xué)院, 山西 太原 030024)

      0 引言

      機(jī)器閱讀理解的發(fā)展能夠極大促進(jìn)自然語(yǔ)言處理領(lǐng)域的進(jìn)步[1],目前可應(yīng)用于智能搜索、智能問(wèn)答、智能客服、智能音箱、語(yǔ)音控制等場(chǎng)景,具有較大的學(xué)術(shù)意義和實(shí)用價(jià)值。

      閱讀理解任務(wù)從答案角度劃分,大致可分為完形填空型[2]、選擇型[3]和片段抽取型[4]等形式。目前以CNN&Dailymail數(shù)據(jù)集為代表的完形填空型閱讀理解和以SQuAD為代表的片段抽取型閱讀理解任務(wù)研究已相當(dāng)成熟,并取得較好效果,但針對(duì)選擇型閱讀理解任務(wù)還有待進(jìn)一步研究。因此本文以選擇型閱讀理解為任務(wù),選用AIchallager 2018(1)https: //challenger.ai/competition/oqmrc2018中提供的觀點(diǎn)型問(wèn)題數(shù)據(jù)集,目標(biāo)是為了讓機(jī)器能夠正確理解文本語(yǔ)義并給出相關(guān)問(wèn)題的正確答案[5]。但求解該觀點(diǎn)型問(wèn)題面臨以下挑戰(zhàn):

      (1) 該數(shù)據(jù)集是從搜索日志中隨機(jī)選取,并由機(jī)器初判后人工篩選生成,以自然語(yǔ)言形式表示,主要包括一些較為復(fù)雜的、需要綜合考慮文章中每個(gè)句子的語(yǔ)義才能得到正確答案的問(wèn)題,數(shù)據(jù)規(guī)模較大且難度較大。

      (2) 求解該問(wèn)題要求機(jī)器必須具備理解自然語(yǔ)言和推理線索的能力,涉及自然語(yǔ)言處理中信息檢索、文本匹配、文本理解、語(yǔ)義推理等多方面的技術(shù)[6],因此對(duì)于模型構(gòu)建和技術(shù)選擇具有很大的挑戰(zhàn)性。

      由于深度學(xué)習(xí)在大規(guī)模數(shù)據(jù)集上的顯著效果,目前已廣泛應(yīng)用于機(jī)器閱讀理解方面,因此針對(duì)以上問(wèn)題,本文結(jié)合深度學(xué)習(xí)對(duì)觀點(diǎn)型問(wèn)題閱讀理解求解策略進(jìn)行了一些探索性研究,主要貢獻(xiàn)如下:

      (1) 獲取文章和問(wèn)題的綜合語(yǔ)義時(shí),在拼接、雙線性、點(diǎn)乘和差集[7]4種常用注意力的基礎(chǔ)上,融合Query2Context和Context2Query[8]兩個(gè)方向的注意力,強(qiáng)化文章和問(wèn)題的關(guān)鍵信息,弱化無(wú)關(guān)信息。

      (2) 加入多層注意力轉(zhuǎn)移的推理機(jī)制,使注意力不斷聚焦,從而更準(zhǔn)確地抽取文章和問(wèn)題的綜合語(yǔ)義,提高求解答案的準(zhǔn)確率。

      (3) 不同方式的文本表示通常對(duì)語(yǔ)義理解有不同的影響,因此實(shí)驗(yàn)對(duì)比了基于詞語(yǔ)序列和句子序列進(jìn)行輸入表示文章對(duì)求解效果的影響。

      1 相關(guān)研究

      隨著語(yǔ)料庫(kù)的豐富和深度學(xué)習(xí)的發(fā)展,機(jī)器閱讀理解已由傳統(tǒng)人工參與的基于句法、語(yǔ)法分析的方法轉(zhuǎn)向基于神經(jīng)網(wǎng)絡(luò)的端到端深度學(xué)習(xí)。在閱讀理解深度學(xué)習(xí)模型方面,雖然存在結(jié)構(gòu)差異,但大多本質(zhì)都是基于“Attention Reader(AR)”和“Impatient Reader(IR)”兩個(gè)基礎(chǔ)模型的變體[9],并采用注意力獲取文章和問(wèn)題綜合語(yǔ)義[10]。

      上述基于“IR”的二維匹配變體,雖利用不同于“AR”的問(wèn)題表示方式引入更多細(xì)節(jié)信息,但均是用點(diǎn)積函數(shù)得到相似矩陣的基礎(chǔ)上,以不同的方式進(jìn)行注意力計(jì)算,并沒(méi)有像基于“AR”的一維匹配變體采用其他函數(shù)進(jìn)行注意力的計(jì)算,也沒(méi)有像“AR”的變體引入深層推理結(jié)構(gòu)。針對(duì)以上不足,本文模型在二維匹配的過(guò)程中加入基于拼接、雙線性、點(diǎn)乘和差集4種函數(shù)的注意力來(lái)計(jì)算文章和問(wèn)題的注意力權(quán)重分布,并引入多層注意力轉(zhuǎn)移推理機(jī)制實(shí)現(xiàn)注意力的不斷聚焦,從而獲得更加準(zhǔn)確的文章和問(wèn)題的綜合語(yǔ)義。

      2 任務(wù)描述

      本文選擇AIchallager2018中觀點(diǎn)型問(wèn)題語(yǔ)料進(jìn)行解答研究,該語(yǔ)料中問(wèn)題對(duì)應(yīng)的文章段落相對(duì)較短,但卻具有隱藏性,比較注重機(jī)器對(duì)文本的整體理解概括和推理,且問(wèn)題來(lái)自真實(shí)世界,任務(wù)困難,對(duì)于促進(jìn)閱讀理解發(fā)展研究更具有代表性和挑戰(zhàn)性。語(yǔ)料本身對(duì)每個(gè)問(wèn)題都提供了候選答案,所以作為選擇題來(lái)處理,題型涉及Yes-No觀點(diǎn)型(候選答案為A|非A|不確定)和Entity-Fact觀點(diǎn)型(候選答案為A|B|不確定)[16]。而選擇題答案預(yù)測(cè)是機(jī)器根據(jù)所提供的文章及相關(guān)問(wèn)題,通過(guò)理解后在候選答案集中選出正確答案的過(guò)程。語(yǔ)料示例如表1所示。

      表1 觀點(diǎn)型問(wèn)題題目示例

      一般選擇類閱讀理解任務(wù)數(shù)據(jù)集可形式化描述為文章、問(wèn)題和候選答案三元組。文章以兩種形式進(jìn)行輸入表示,基于詞語(yǔ)序列的文章表示: D={wi}(i∈[1,m])表示passage由m個(gè)詞組成;基于句子序列的文章表示: D={Sk}(k∈[1,n])表示passage由n個(gè)句子組成,其中Sk={dj}(j∈[1,r])表示passage中第k個(gè)句子由r個(gè)詞語(yǔ)組成。Q={qt}(t∈[1,v])表示query由v個(gè)單詞組成。A={Ax}(x∈[1,3])表示alternatives由三個(gè)候選答案組成,其中Ax={ay}(y∈[1,u])表示候選答案集中第x個(gè)答案由u個(gè)單詞組成。用深度學(xué)習(xí)方法解答這類題目時(shí),都是基于詞向量的基礎(chǔ)上,利用深度神經(jīng)網(wǎng)絡(luò)抽取與問(wèn)題相關(guān)的文章要點(diǎn),然后計(jì)算候選答案集中的每個(gè)選項(xiàng)Ak與文章要點(diǎn)之間的相關(guān)性,通過(guò)相關(guān)度的大小來(lái)選出最佳選項(xiàng)A*作為answer。

      通常語(yǔ)料中文章、問(wèn)題長(zhǎng)度不一,直接輸入不便于模型統(tǒng)一處理,所以在進(jìn)行深度模型構(gòu)建之前,先對(duì)數(shù)據(jù)進(jìn)行處理。通過(guò)語(yǔ)料分析,文章長(zhǎng)度固定為m,然后按照文章原始順序抽取前m個(gè)詞作為有效信息,其他信息舍棄,如果不足m個(gè)詞則進(jìn)行padding操作,之后作為模型輸入。同理,將問(wèn)題長(zhǎng)度固定為n作為輸入。

      3 模型構(gòu)建

      本節(jié)針對(duì)觀點(diǎn)型問(wèn)題答案求解構(gòu)建了一個(gè)多階段的分層處理模型,接下來(lái)將對(duì)各層進(jìn)行詳細(xì)描述。

      3.1 模型整體架構(gòu)

      模型整體架構(gòu)如圖1所示(見(jiàn)下頁(yè)),Document、Query、Alternatives分別基于詞語(yǔ)序列進(jìn)行輸入表示。本模型共包括以下5層。

      (1) 詞嵌入層: 使用Word2Vec[20]將文章、問(wèn)題及候選答案集中的每個(gè)詞映射到向量空間,形成初始化詞向量。

      (2) 上下文信息編碼層: 將Document和Query的初始化詞嵌入層向量輸入Bi-GRU,利用詞語(yǔ)的上下文重新定義詞嵌入。之后將3個(gè)候選答案初始化詞向量序列A1、A2、A3分別和問(wèn)題最后隱含狀態(tài)編碼拼接同時(shí)輸入到Bi-GRU,得到融合問(wèn)題信息的三個(gè)候選答案的語(yǔ)義表示Q_A1、Q_A2、Q_A3。

      (3) 匹配層: 通過(guò)C2Q+Q2C+(Concat(拼接)+Bilinear(雙線性)+Dot(點(diǎn)乘)+Minus(差集))Attention多種注意力的融合得包含問(wèn)題信息的文章表示VDQ_1。

      (4) 推理融合層: 將VD和VDQ_i(i為疊加推理的層數(shù))輸入到匹配層,輸出為篇章和問(wèn)題的綜合語(yǔ)義VDQ_i+1。

      (5) 輸出層: 將推理融合層的輸出結(jié)果VDQ_n和3個(gè)融合問(wèn)題信息的候選答案Q_A1、Q_A2、Q_A3進(jìn)行相似度匹配,選擇相似度最高的一個(gè)作為答案。

      3.2 詞嵌入層

      圖1 模型整體架構(gòu)圖

      3.3 上下文信息編碼層

      3.3.1 Gated Recurrent Unit

      在上一層所獲得詞嵌入的基礎(chǔ)上,本文使用Gated Recurrent Unit(GRU)[12]來(lái)獲取文章和問(wèn)題中詞語(yǔ)及其所在上下文的語(yǔ)義信息。GRU模型公式如式(1)~(4)所示。

      其中,xt表示t時(shí)刻的輸入,rt和zt是控制門,ht是輸出的隱含狀態(tài)。

      3.3.2 上下文編碼表示

      圖2 基于句子序列的Document表示

      3.4 匹配層

      在上一層獲得文章和問(wèn)題的上下文詞序列之后,本層采用(Q2C和C2Q)雙向注意力與(Concat、Bilinear、Dot、Minus)4種常用注意力分別得到問(wèn)題與文章各部分的相關(guān)性,然后將結(jié)果進(jìn)行融合得到文章和問(wèn)題的綜合語(yǔ)義表示,即VDQ_1=F(VD,VQ),該表達(dá)式表示VD和VQ通過(guò)匹配層的輸出結(jié)果。計(jì)算步驟如下: Step1和Step2為計(jì)算雙向注意力Q2C和C2Q的過(guò)程,模型如圖3所示。

      圖3 注意力Q2C和C2Q的模型結(jié)構(gòu)

      M=(VD)T·VQ

      (12)

      Step3采用基于四種函數(shù)Concat、Bilinear、Dot、Minus的attention分別確定文章中第t個(gè)單詞對(duì)問(wèn)題中每個(gè)詞的注意力,如式(17)~式(20)所示。

      圖4 Concat+Bilinear+Dot+Minus整合模型

      3.5 推理融合層

      (27)

      則VDQ_1={hβt|t∈(1,m)}。

      多層推理融合層在得到VDQ_i之后,將D和VDQ_i輸入到3.4節(jié)匹配層進(jìn)行多層注意力的轉(zhuǎn)移,最終得到文章關(guān)于問(wèn)題的高層語(yǔ)義表示VDQ_n=F(VD,VDQ_i)。

      3.6 輸出層

      答案預(yù)測(cè)時(shí),通過(guò)內(nèi)積方式計(jì)算出推理融合層獲得的文章關(guān)于問(wèn)題的高層語(yǔ)義VDQ_n與包含問(wèn)題信息的候選答案語(yǔ)義Q_Ak的相似度,選擇相似度最高的一個(gè)作為答案,如式(30)所示。

      Answer=Argmax(Q_Ak·VDQ_n)(k=1,2,3)

      (30)

      4 實(shí)驗(yàn)結(jié)果及分析

      4.1 數(shù)據(jù)集

      實(shí)驗(yàn)數(shù)據(jù)集選用AIchallager2018提供的觀點(diǎn)型問(wèn)題數(shù)據(jù)集,其樣本數(shù)共29萬(wàn),包括訓(xùn)練集25萬(wàn)、驗(yàn)證集3萬(wàn)和測(cè)試集1萬(wàn)。語(yǔ)料對(duì)于每個(gè)問(wèn)題都提供了候選答案,因此作為選擇題來(lái)處理,涉及Yes-No觀點(diǎn)型和Entity-Fact觀點(diǎn)型[17]。訓(xùn)練集和驗(yàn)證集中每條數(shù)據(jù)都由文章、問(wèn)題、候選答案集以及答案組成。測(cè)試集中沒(méi)有答案。在整個(gè)實(shí)驗(yàn)中,沒(méi)有使用任何外部數(shù)據(jù)。本文后續(xù)和其他系統(tǒng)進(jìn)行實(shí)驗(yàn)對(duì)比,并將準(zhǔn)確率作為評(píng)價(jià)指標(biāo)。

      4.2 模型參數(shù)設(shè)置

      本文詞向量采用Word2Vec進(jìn)行預(yù)訓(xùn)練,維度d=300。對(duì)于未登錄詞,采用零向量表示。根據(jù)表2統(tǒng)計(jì),文章中幾乎99.8%的數(shù)據(jù)長(zhǎng)度都未超度500,同時(shí)為了考慮數(shù)據(jù)輸入的稀疏度問(wèn)題,最終將文章長(zhǎng)度m設(shè)置成500。通過(guò)統(tǒng)計(jì),問(wèn)題長(zhǎng)度小于30的有249 999,因此問(wèn)題長(zhǎng)度n設(shè)置為30。Bi-GRU隱含層的維度設(shè)置為150。訓(xùn)練過(guò)程中,模型采用Adamax[21]作為優(yōu)化器,學(xué)習(xí)率設(shè)置為0.1。誤差采用批處理,batch-size設(shè)置為30。為避免過(guò)擬合,dropout設(shè)置為0.2。推理層數(shù)設(shè)置為4。共訓(xùn)練10輪(epoch),每一輪之后在驗(yàn)證集上測(cè)試性能,最終選擇在驗(yàn)證集上效果最好的作為模型。

      表2 25萬(wàn)訓(xùn)練集中文章長(zhǎng)度分布統(tǒng)計(jì)

      4.3 實(shí)驗(yàn)結(jié)果及分析

      本文實(shí)驗(yàn)分為兩大類。

      第一類: 與其他模型作對(duì)比實(shí)驗(yàn),其他模型選擇官方提供的基線系統(tǒng)MWAN[7],以及前沿方法BIDAF[8]和AOA[18],如表3所示,在驗(yàn)證集和測(cè)試集上本文的模型明顯優(yōu)于其他模型,并在測(cè)試集上超過(guò)基線系統(tǒng)10.28%,達(dá)到了78.48%的準(zhǔn)確率。

      表3 不同模型準(zhǔn)確率對(duì)比(%)

      第二類: 自對(duì)比實(shí)驗(yàn)。

      (1) 為了確定本文所提出的多層注意力轉(zhuǎn)移機(jī)制的有效性,在測(cè)試集上作了如表4所示的對(duì)比實(shí)驗(yàn),從表4中可知本文模型在加入多層推理層之后,不論文章以何種序列進(jìn)行輸入表示,每增加一層推理層,準(zhǔn)確率都會(huì)明顯上升,在層數(shù)4時(shí)準(zhǔn)確率達(dá)最高,比不添加推理層時(shí)基于句子的文章輸入表示高出7.84%,由此可看出多層推理機(jī)制的加入可以讓注意力不斷進(jìn)行聚焦,從而可以抽取到更加準(zhǔn)確的語(yǔ)義信息。

      表4 文章基于單詞和句子兩種表示下加入不同注意力轉(zhuǎn)移推理層數(shù)實(shí)驗(yàn)對(duì)比結(jié)果(%)

      (2) 通常在閱讀理解中文章都是以詞語(yǔ)序列進(jìn)行表示,而對(duì)于句子序列表示的結(jié)果卻未曾探知。為了探索文章以這兩種方式進(jìn)行輸入表示時(shí)對(duì)獲取文章和問(wèn)題綜合語(yǔ)義信息的影響,本文在添加推理層的同時(shí)作了對(duì)比實(shí)驗(yàn),在圖5對(duì)比圖中可以直觀看出無(wú)論是否添加多層推理層,文章基于句子序列進(jìn)行輸入表示的準(zhǔn)確率始終高于基于單詞序列進(jìn)行輸入表示的結(jié)果。

      圖5 推理機(jī)制層數(shù)對(duì)比圖

      (3) 為了測(cè)試本文模型所使用的每個(gè)注意力的有效性,模型在加入4層注意力轉(zhuǎn)移推理層的基礎(chǔ)上,先在驗(yàn)證集和測(cè)試集上對(duì)比了只使用單個(gè)注意力時(shí)的效果,如圖6所示。可以直觀看出,無(wú)論使用任何單一的注意力,模型性能都急劇下降,同時(shí)可知這五種注意力中只使用Dot attention時(shí)的效果最好,但是測(cè)試集上本文模型比單一使用Dot attention卻要高出3.22%。之后對(duì)比只抽掉其中一個(gè)注意力之后的效果,由圖6可知,去除其中任意一個(gè)注意力時(shí),準(zhǔn)確率都會(huì)有所下降,從而更加證明了本文模型的有效性。

      圖6 模型消融實(shí)驗(yàn)結(jié)果對(duì)比

      5 結(jié)論

      本文針對(duì)閱讀理解觀點(diǎn)型問(wèn)題求解提出一個(gè)多階段的分層處理模型,主要貢獻(xiàn)點(diǎn)如下:

      首先,針對(duì)文章和問(wèn)題綜合語(yǔ)義信息的獲取問(wèn)題,本文提出一種將常用注意力拼接、雙線性、點(diǎn)乘和差集加上雙向注意力Query2Context和Context2Query的多注意力融合算法。實(shí)驗(yàn)表明該算法可以有效強(qiáng)化文章與問(wèn)題相關(guān)的重要信息,弱化無(wú)關(guān)信息。

      其次,為了獲取更加準(zhǔn)確的文章和問(wèn)題的綜合語(yǔ)義信息,本文提出在多種注意力融合的基礎(chǔ)上添加多輪迭代的多層注意力轉(zhuǎn)移推理機(jī)制。實(shí)驗(yàn)表明該機(jī)制可以使注意力不斷聚焦,從而大幅提升閱讀理解性能。

      最后,為了探索基于句子序列和基于詞語(yǔ)序列的文章向量表示效果,本文將兩者進(jìn)行了對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)表明句子序列表示效果能提升求解性能。

      雖然本文模型在閱讀理解觀點(diǎn)型數(shù)據(jù)集上取得較好結(jié)果,但在抽取文章和問(wèn)題綜合語(yǔ)義信息上仍有欠缺。另外,對(duì)于文章以詞語(yǔ)序列和句子序列進(jìn)行輸入表示時(shí)影響準(zhǔn)確率的原因仍有待探索,并且今后將進(jìn)一步優(yōu)化模型并設(shè)計(jì)新的神經(jīng)網(wǎng)絡(luò)來(lái)提高模型抽取文章和問(wèn)題綜合語(yǔ)義信息的能力和推理答案的性能。

      猜你喜歡
      注意力語(yǔ)義文章
      讓注意力“飛”回來(lái)
      語(yǔ)言與語(yǔ)義
      細(xì)致入微的描寫讓文章熠熠生輝
      放屁文章
      小處著眼,寫大文章
      “揚(yáng)眼”APP:讓注意力“變現(xiàn)”
      A Beautiful Way Of Looking At Things
      “上”與“下”語(yǔ)義的不對(duì)稱性及其認(rèn)知闡釋
      做好深化國(guó)企改革大文章
      認(rèn)知范疇模糊與語(yǔ)義模糊
      大城县| 平原县| 阳山县| 京山县| 肇东市| 葵青区| 鸡西市| 庆城县| 沁阳市| 杂多县| 汝州市| 时尚| 汉川市| 句容市| 昌江| 永康市| 平乡县| 钟祥市| 石台县| 青海省| 信丰县| 姚安县| 禹州市| 勃利县| 营口市| 滕州市| 平塘县| 柞水县| 东丰县| 长垣县| 德阳市| 安西县| 古交市| 溧阳市| 广昌县| 枣庄市| 临夏市| 梁河县| 芦溪县| 巴中市| 尼玛县|