• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      融合全局編碼與主題解碼的文本摘要方法

      2023-05-08 03:18:44張志遠
      計算機應(yīng)用與軟件 2023年4期
      關(guān)鍵詞:解碼器全局注意力

      張志遠 肖 芮

      (中國民航大學(xué)計算機科學(xué)與技術(shù)學(xué)院 天津 300300)

      0 引 言

      近年來,深度學(xué)習(xí)在自動文摘上面的應(yīng)用越來越火熱,其中,序列到序列(Seq2Seq)作為一種主流的生成式摘要模型,它在“理解”原文的基礎(chǔ)上生成摘要,取得了顯著成就。但與語言翻譯相比,由于原始文檔和摘要之間無法直接進行短語對齊,系統(tǒng)必須全面準(zhǔn)確地理解文檔所表達的意思后再生成摘要,因此具有很強的挑戰(zhàn)性,利用全局信息顯得尤為重要。另外有研究表明,傳統(tǒng)的注意力機制也存在一些問題,由于原文和目標(biāo)摘要之間沒有明顯的對齊關(guān)系,可能導(dǎo)致編碼器的注意力模塊產(chǎn)生噪聲。例如在表1的例子中,Seq2Seq生成的摘要中“選舉”后面又生成了一個“選舉”,這是因為無論這個詞是否生成過,注意力機制會一直關(guān)注得分高的詞,導(dǎo)致模型產(chǎn)生詞語重復(fù)的問題。

      另外,Seq2Seq模型傾向于包含原文中所有的信息,這可能導(dǎo)致錯誤地將注意力集中在無關(guān)主題上。在表2中,這篇文章的主題是林志穎旗下公司愛碧麗涉嫌虛假銷售,而Seq2Seq生成的摘要中只提到了林志穎而沒有涉及愛碧麗公司,但卻包含了“成本僅每瓶4元”這樣的具體細(xì)節(jié),這對原文主旨的反映是不完整的。因此,在生成摘要時有必要確定一個主題信息來指導(dǎo)摘要的生成。

      表2 例2

      為解決上述問題,本文在Seq2Seq模型的基礎(chǔ)上提出融合全局編碼與主題解碼的文本摘要生成方法,在編碼器中有效加入全局信息,在解碼器中充分利用能高度概括原文的主題信息。在LCSTS數(shù)據(jù)集上的實驗數(shù)據(jù)顯示,綜合二者的模型在ROUGE-1、ROUGE-2和ROUGE-L上都有較大的提升。

      1 相關(guān)工作

      抽取式和生成式是兩種最常見的自動文摘方法。Rush等[1]提出將序列到序列(Seq2Seq)模型應(yīng)用于生成式摘要,該模型使用一個編碼器(encoder)-解碼器(decoder)的結(jié)構(gòu),其工作機制是先用encoder將輸入編碼到語義空間,得到一個固定向量作為輸入的語義表示,然后再用decoder將這個向量解碼獲得輸出。Bahdanau等[2]在Seq2Seq模型中引入了注意力機制,在生成每個詞的時候,對不同的輸入詞給予不同的關(guān)注權(quán)重。輸出序列的每個詞都對應(yīng)一個概率分布,這個概率分布決定了在生成這個詞的時候,對于輸入序列的各個詞的關(guān)注程度,進而可以使生成的詞“更好”。

      編碼方面,Zhou等[3]提出了帶有門控的選擇性編碼模型并對編碼器生成的詞隱層進行權(quán)重計算,使解碼器能夠有選擇性讀取原文;Zeng等[4]提出的“再讀(read-again)”模型用另一個GRU對原文再次編碼而不是直接用權(quán)重更新當(dāng)前詞的隱層;Nallapati等[5]提出層級注意力模型并用序列到序列模型處理長文本摘要;Chen等[6]構(gòu)造了CNN-LSTM句子抽取器和RNN生成器,兩個都是Seq2Seq模型,并用強化學(xué)習(xí)訓(xùn)練如何抽取句子。

      解碼過程中,See等[7]提出混合指針生成網(wǎng)絡(luò),既能從原文中復(fù)制詞,也能從詞表中去生成詞,并使用覆蓋機制避免重復(fù)生成;Kingma等[8]提出解碼器內(nèi)注意力控制重復(fù),將已生成的詞隱層用于計算解碼器語義向量;Li[9]等提出深度循環(huán)生成解碼器(DRGD),把原文和摘要輸入VAE模型進行訓(xùn)練,得到有潛在結(jié)構(gòu)信息的向量;Perez等[10]提出基于目標(biāo)摘要內(nèi)容的結(jié)構(gòu)化卷積解碼器,在生成摘要時可以知道每一句話所涉及的主題以及它們在目標(biāo)摘要中的位置,與Transformer模型效果不相上下。侯麗微等[11]融合主題關(guān)鍵詞信息生成自動摘要,Amplayo等[12]利用維基百科識別文本主題,證明先驗知識可以幫助模型更好地理解文本。

      本文積累前人在編碼器和解碼器上的研究經(jīng)驗,借鑒Zeng等[4]和侯麗微等[11]的思想,提出融合全局編碼與主題解碼的Seq2Seq模型框架,試圖解決傳統(tǒng)Seq2Seq模型生成文本摘要時的重復(fù)和主題模糊等問題。不同的是,Zeng等[4]是先讀一遍原文,將得到的隱藏狀態(tài)作為全局特征向量并計算權(quán)重用于再次閱讀,而本文的門控單元采用卷積和自注意力來篩選信息。侯麗微等[11]采用基于圖模型的TextRank算法抽取主題關(guān)鍵詞,而本文采用提取原文實體再編碼的方法構(gòu)建主題向量。另外,本文還有效融合了二者以達到更好的生成效果。

      2 融合全局信息編碼與主題信息解碼的方法

      2.1 整體流程

      本文對基于Seq2Seq的文本自動摘要模型進行了以下優(yōu)化:第一,添加全局信息編碼GIE(Global Information Encoder)模塊,在信息源端進行全局編碼以實現(xiàn)核心信息的重用;第二,添加實體主題模塊E2T(Entity2Topic),通過將原文中的實體編碼為主題向量,并采用注意力機制,結(jié)合原文主題和實體常識指導(dǎo)解碼器生成摘要。模型示意圖如圖1所示,主要包括基于BiLSTM的全局信息編碼器、配備主題解碼與注意力機制的LSTM解碼器兩部分。其中編碼器按字讀取輸入文檔,采用雙向LSTM構(gòu)建每個字的全局語義表示;全局門控單元首先通過多卷積核提取不同長度的短語結(jié)構(gòu)信息,然后通過自注意力機制進一步篩選重要信息后提供給解碼器。為獲取有效的主題信息,使用BiLSTM+CRF提取原文中的實體,將其編碼后的特征表示拼接在門控單元的特征表示之后,采用注意力機制在解碼過程中關(guān)注重要的實體信息以指導(dǎo)解碼器生成和原文主題相關(guān)的摘要。

      圖1 融合全局信息編碼與主題信息解碼的文本摘要生成模型

      給定一篇文檔D,其單詞序列表示為D=(w1,w2,…,wd),其中,每個單詞wi來自固定的詞匯表V,d為文檔的長度(字個數(shù))。自動文摘就是輸入原文序列D,輸出摘要序列Y=(y1,y2,…,yn),通常情況下,輸入文檔序列長度d大于生成摘要序列長度n。

      (1)

      (2)

      st=LSTM(wt-1,st-1,ct-1)

      (3)

      上下文向量ct是使用加性注意機制[2]計算的,它計算當(dāng)前的解碼器狀態(tài)st和每個編碼器狀態(tài)hi的重要性評分gt,i,a(.)是前饋神經(jīng)網(wǎng)絡(luò),然后送入softmax函數(shù),最后采用加權(quán)求和得到上下文向量ct,計算方法如下面的公式所示(Va,Wa,Ua都是訓(xùn)練參數(shù)):

      (4)

      (5)

      (6)

      最終,當(dāng)前字ot由上一個字yt-1,當(dāng)前的上下文向量ct,以及當(dāng)前解碼器的隱藏狀態(tài)st共同得到,并通過softmax從詞匯表中計算當(dāng)前要生成的字的概率p,公式如下(Ww、Wc、Ws都是可訓(xùn)練矩陣參數(shù)):

      ot=Wwwt-1+Wcct+Wsst

      (7)

      p(yt|y

      (8)

      2.2 全局信息編碼(GIE)

      與即時信息一樣,語言也存在局部相關(guān)性,卷積核的參數(shù)共享使模型能夠提取這些N元特征,也就是短語結(jié)構(gòu);另外,Vaswani等[13]提出,自注意力可以通過挖掘當(dāng)前時間步與每一步的相關(guān)性來加強全局信息。所以本文在Seq2Seq的encoder和decoder之間加一個全局信息過濾單元,包含卷積CNN結(jié)構(gòu)和Self-attention機制,通過參數(shù)共享和綜合全局信息過濾每個編碼器的輸出。具體步驟如下:

      2.2.1 卷積提取N-gram特征

      由于文本輸入以字而非詞為單位,為保證生成摘要的通順性和連貫性,在采用雙向LSTM全局編碼字的隱藏狀態(tài)之后設(shè)計一層CNN,由多個不同大小的卷積核組成,以獲得多個與N-gram語言模型類似的特征。具體地,本文使用一個類似于Inception結(jié)構(gòu)的網(wǎng)絡(luò)如圖2所示。

      圖2 卷積結(jié)構(gòu)圖

      卷積網(wǎng)絡(luò)結(jié)構(gòu)采用1、3和5三種不同大小的卷積核來獲取不同尺度的特征,最后把它們拼接起來能有效融合這些特征。選取k=5是因為希望數(shù)據(jù)的中間表示盡可能多地考慮上下文環(huán)境,但使用k=5的卷積核會帶來巨大的計算量,所以用兩個k=3的卷積核代替。在inception結(jié)構(gòu)中,大量采用了1×1的矩陣,主要起兩點作用:1) 對數(shù)據(jù)進行降維;2) 引入更多的非線性,提高泛化能力。卷積后要經(jīng)過ReLU激活函數(shù)。

      gi=ReLU(W[hi-k/2,…,hi+k/2]+b)

      (9)

      2.2.2 自注意力挖掘全局信息

      經(jīng)過CNN獲取短語結(jié)構(gòu)之后,使用自注意力對這些表示做進一步篩選。輸入一個句子,編碼器最終輸出的每個詞都要和卷積后的所有詞向量進行attention計算,目的是學(xué)習(xí)句子內(nèi)部的詞依賴關(guān)系和句子的內(nèi)部結(jié)構(gòu)。這樣就能在避免重復(fù)生成的同時獲取全局核心信息。采用縮放點積注意力[13]計算編碼器每一個時間步的輸出與卷積得到的全局信息的關(guān)系,把注意力表達成Q(query)、K(key)、V(value)三元組。其中Q是編碼器每個時間步的輸出,K和V是輸入的文本序列經(jīng)過編碼和CNN卷積之后的表示矩陣。Q=WattV,Watt是學(xué)習(xí)矩陣,然后使用softmax函數(shù)對這些權(quán)重進行歸一化;最后,將權(quán)重和相應(yīng)的V進行加權(quán)求和得到融合自注意力之后的向量gglobal。在softmax計算之前,進行尺度縮放,除以維度dk,防止內(nèi)積過大,公式如下:

      (10)

      接下來就是計算基于CNN和自注意模塊的門控單元篩選后的信息表示,其中σ是sigmod函數(shù)。其計算式為:

      (11)

      σ(g)在每個維度輸出一個介于0和1之間的值向量。如果值接近0,則gate刪除原表示的相應(yīng)維度的大部分信息,如果接近1,則保留原表示的大部分信息。經(jīng)過這兩步,CNN模塊可以提取原文的N元特征,自注意力能夠?qū)W習(xí)詞之間的依賴關(guān)系,因此該門控單元可對編碼器輸出進行全局編碼。

      (12)

      (13)

      (14)

      (15)

      (16)

      2.3 主題信息解碼

      摘要應(yīng)反映原文的主要信息,而序列到序列模型則傾向于包含原文中的所有信息而不管其是否重要。這可能導(dǎo)致錯誤地將注意力集中在與摘要主題不相關(guān)的信息上。所以在解碼生成摘要時,需要一個聚焦原文重要信息的主題來指導(dǎo)生成過程,本文試圖尋找一個這樣的主題向量。

      (1) 經(jīng)過大量對比和統(tǒng)計發(fā)現(xiàn),大部分摘要除助詞外,主要由原文中的實體組成。本文從文本摘要常用數(shù)據(jù)集的原文中提取出實體,發(fā)現(xiàn)大多數(shù)摘要中的名詞短語至少包含一個原文中的實體,這證明原文的實體信息對摘要具有有效性。

      (2) 通常在讀一條新聞的時候,經(jīng)常會用“誰在哪里做了什么”這樣的結(jié)構(gòu)來捕捉它所要表達的主要信息,當(dāng)表示“誰”和“哪里”這樣信息的實體都是十分重要的,所以原文中出現(xiàn)的人名、地名、組織機構(gòu)這些實體對反映整個文本信息來說至關(guān)重要。

      (3) 本文采用維基百科中文預(yù)訓(xùn)練向量嵌入實體,詞向量含有百科相關(guān)信息,因此實體所具有的常識性信息也可供生成摘要時利用。比如,在“洛杉磯道奇在周三以四人交換的方式從紐約大都會隊手中收購了韓國的右投手徐承載”這句話中,維基百科知道“洛杉磯道奇隊”和“紐約大都會”都是美國著名的職業(yè)棒球隊,“徐承載”是與棒球隊有關(guān)的棒球運動員,這三個實體就具有相關(guān)性,就可以把這種信息傳遞給解碼器并利用它來生成更加連貫的摘要。

      為此,本文在序列到序列模型上添加Entity2Topic(E2T)模塊。該模塊對從原文本中提取實體進行編碼,提取的實體包括原文中的人名、地名、組織名,將提取的所有實體按照在原文中的位置以及先人名再地名最后組織名的順序輸入到LSTM中進行編碼,再解碼構(gòu)造一個表示要生成的摘要主題的向量。

      本文使用基于字的LSTM+CRF來提取實體,主要參考的是文獻[14-15],采用Bakeoff-3評測中所采用的BIO標(biāo)注集,即B-PER、I-PER代表人名首字、人名非首字,B-LOC、I-LOC代表地名首字、地名非首字,B-ORG、I-ORG代表組織機構(gòu)名首字、組織機構(gòu)名非首字,O代表該字不屬于命名實體的一部分。如:于大寶幫中國隊獲勝B-PER I-PER I-PER O B-ORG I-ORG I-ORG O O。

      本文采用的實體提取方法在人名、地名、組織機構(gòu)這三個類別的識別準(zhǔn)確率都可以達到90%左右,可以證明提取實體的有效性。

      (17)

      (18)

      (19)

      本文按照原文長短確定提取實體的個數(shù),接著用新的實體向量來創(chuàng)建主題向量t,該主題向量就表示摘要的主題。對實體向量使用軟注意來確定每個向量的重要性值,這一步通過將每個實體向量與文本編碼器中的文本向量作為上下文向量進行匹配來實現(xiàn)。然后使用加權(quán)求和的方式合并實體向量得到本文的主題向量(Ve,We,Ue都是訓(xùn)練參數(shù))。其計算式如下:

      (20)

      (21)

      (22)

      然后將主題向量t連接到解碼器的隱狀態(tài)向量:

      (23)

      最后使用連接向量創(chuàng)建輸出向量:

      (24)

      (25)

      (26)

      3 實 驗

      3.1 實驗設(shè)置

      (1) 實驗數(shù)據(jù)。LCSTS大規(guī)模中文短文本摘要公開數(shù)據(jù)集,共包含3個部分:Part1包含240萬文本-摘要對,可用于訓(xùn)練模型生成摘要;Part2包含10 666個人工標(biāo)注的文本-摘要對;Part3包含1 106文本-摘要對,文檔的平均長度在98個字左右。在本文實驗中,本文使用Part1作為訓(xùn)練集,Part2作為驗證集,Part3為測試集。

      (2) 實驗環(huán)境如表3所示。

      表3 實驗環(huán)境

      (3) 評價指標(biāo)。ROUGE(Recall-Oriented Understudy for Gisting Evaluation)是評估自動文摘的一組指標(biāo),它基于摘要中n元詞(n-gram)的共現(xiàn)信息來評價摘要,ROUGE準(zhǔn)則由一系列的評價方法組成,包括ROUGE-N(N取N-gram的N,取值有1、2、3、4)、ROUGE-L,是摘要評價方法的通用標(biāo)準(zhǔn)之一。

      (4) 參數(shù)設(shè)置。部分參數(shù)設(shè)置見表4,本文使用PyTorch的代碼,在NVIDIA 1080Ti GPU上進行實驗。優(yōu)化器選取默認(rèn)的Adam,訓(xùn)練時從第4輪迭代開始學(xué)習(xí)速率減半。本文按字分割文本,這是因為數(shù)據(jù)集較大分詞需要構(gòu)建超大的詞表,訓(xùn)練速度也會降低,生成摘要的時候還會生成大量未登錄詞。

      表4 實驗參數(shù)設(shè)置表

      3.2 實驗結(jié)果對比與分析

      3.2.1 整體實驗

      為評估本文提出的模型在自動摘要任務(wù)中的表現(xiàn),與其他自動摘要方法在同一個數(shù)據(jù)集LCSTS上進行了對比,ROUGE值如表5所示。

      表5 LCSTS數(shù)據(jù)集上的實驗結(jié)果(%)

      表中的數(shù)據(jù)前六行是其他方法在相同數(shù)據(jù)集上的實驗結(jié)果:(1) RNN[16]:沒有注意力機制的Seq2Seq模型。(2) RNN-context[16]:有注意力機制的Seq2Seq模型。(3) copyNet[17]:添加拷貝機制的帶注意力機制的Seq2Seq模型。(4) SRB[18]:改善源文本和摘要之間語義相關(guān)性的模型。(5) DRGD[8]:在Seq2Seq增加深度循環(huán)解碼器學(xué)習(xí)目標(biāo)摘要的潛在結(jié)構(gòu)信息。(6) R-NET[19]:基于過濾機制的閱讀理解模型用于文本摘要。可以看出:本文的模型效果比其他模型都好,比之前最好的R-NET模型在ROUGE-1、ROUGE-2和ROUGE-L也分別有2.7百分點、1.2百分點和2.0百分點的提升,說明本文提出的融合全局信息編碼和主題信息解碼的模型是有效的。

      3.2.2 消融實驗

      為了分析不同組件對模型的影響程度,本文在基礎(chǔ)的Seq2Seq模型上分別加入全局信息編碼GIE模塊和主題信息解碼E2T模塊并進行比較。實驗結(jié)果如表6所示。其中seq2seq是有注意力機制的序列到序列模型復(fù)現(xiàn)的結(jié)果,四個模型使用的網(wǎng)絡(luò)結(jié)構(gòu)都保持一致。

      表6 具有不同組件的模型性能(%)

      從表中數(shù)據(jù)分析可知:相比Seq2Seq模型,Seq2Seq+GIE在ROUGE-1、ROUGE-2和ROUGE-L上分別有3.6百分點、3.1百分點和3.2百分點的提升,Seq2Seq+E2T在ROUGE-1、ROUGE-2和ROUGE-L上分別有1.7百分點、1.7百分點和1.3百分點的提升,這說明本文添加的兩個模塊對文本摘要任務(wù)都是有效的,且Seq2Seq+GIE比Seq2Seq+E2T的提升更明顯,二者融合的效果更佳。

      驗證1:全局信息編碼模塊能有效利用全局信息降低重復(fù)率。由于本文的GIE負(fù)責(zé)從RNN編碼器中選擇重要的輸出信息,以提高注意力分?jǐn)?shù)的質(zhì)量,因此它應(yīng)該能夠減少重復(fù)。本文通過計算句子層次上重復(fù)詞的百分比來評價重復(fù)的程度。通過對1-gram-4-gram重復(fù)的模型的評估,證明該模型與傳統(tǒng)的Seq2Seq模型相比,重復(fù)率顯著降低,如圖3所示,其中w/o GIE表示W(wǎng)ithOut GIE,即不添加GIE模塊的Seq2Seq生成的摘要;GIE表示Seq2Seq添加GIE模塊生成的摘要;Reference表示參考摘要。

      圖3 句子中的N-gram重復(fù)率

      驗證2:E2T模塊能通過提取實體有效聚焦主題。對引言中提到的示例進行實驗并對生成的摘要作簡要分析,如表7所示。

      表7 例2添加E2T的生成結(jié)果

      基線模型Seq2Seq生成了一個不完整的摘要。本文認(rèn)為這是因為輸入文本的長度較長,而解碼器沒有指導(dǎo)它應(yīng)該關(guān)注哪些主題。Seq2Seq生成的是林志穎虛假推銷,實際上文章的主題是林志穎旗下公司愛碧麗而不是林志穎本人;因為E2T會在原文中提取到林志穎和愛碧麗以及方舟子這三個實體,并將該信息作為整個文本的主題傳遞給解碼器指導(dǎo)它生成摘要,所以最后生成的結(jié)果能夠定位到虛假推銷的主體是林志穎旗下公司愛碧麗以及推送這條消息的人方舟子,因此更準(zhǔn)確地概括了原文主旨。這也證明了本文的E2T模塊能通過提取實體聚焦到原文主題。

      3.2.3 生成摘要示例

      如表8所示,由于“中國”在原文中出現(xiàn)了兩次,基線模型Seq2Seq很難把它放在一個不那么重要的位置,但對于本文的Seq2Seq+GIE模型來說,它能夠過濾那些與原文的核心意義無關(guān)的瑣碎細(xì)節(jié),只是在對主要思想貢獻最大的信息上進行關(guān)注,生成摘要中“中國貴75%”就是核心信息,但它沒有指明是比哪里貴;而帶有E2T模塊的模型生成的摘要涵蓋信息比較全面,能找到比對對象是“美國”的“星巴克”和“中國”的“星巴克”,摘要中出現(xiàn)的“星巴克”“美國”“中國”,以及消息來源“財經(jīng)日報”都是它捕捉并利用的實體信息,可以看到參考摘要中也是有消息來源“媒體”的,但Seq2Seq+E2T生成的摘要比較繁瑣;相比之下,二者結(jié)合生成的摘要與參考摘要更為接近。

      表8 生成摘要示例

      4 結(jié) 語

      隨著對模型研究的不斷深入,序列到序列模型生成摘要的效果越來越接近人工生成的結(jié)果。本文提出的融合全局編碼與主題解碼的Seq2Seq模型也取得了較好的效果。雖然Seq2Seq模型還存在處理長文本效果欠佳、時間復(fù)雜度高等很多問題,但它仍是文本摘要研究方向上的引領(lǐng)者,之后可以繼續(xù)在網(wǎng)絡(luò)結(jié)構(gòu)、多重注意力機制、適當(dāng)引入先驗知識等方面繼續(xù)改善模型的學(xué)習(xí)能力,主要還是提高模型對原文的理解能力以及生成句子的質(zhì)量。

      猜你喜歡
      解碼器全局注意力
      Cahn-Hilliard-Brinkman系統(tǒng)的全局吸引子
      量子Navier-Stokes方程弱解的全局存在性
      讓注意力“飛”回來
      科學(xué)解碼器(一)
      科學(xué)解碼器(二)
      科學(xué)解碼器(三)
      線圣AudioQuest 發(fā)布第三代Dragonfly Cobalt藍蜻蜓解碼器
      落子山東,意在全局
      金橋(2018年4期)2018-09-26 02:24:54
      “揚眼”APP:讓注意力“變現(xiàn)”
      傳媒評論(2017年3期)2017-06-13 09:18:10
      A Beautiful Way Of Looking At Things
      达日县| 奈曼旗| 宜丰县| 苗栗县| 文昌市| 湘潭县| 监利县| 呼伦贝尔市| 嘉峪关市| 齐齐哈尔市| 侯马市| 营口市| 鹤壁市| 玉环县| 策勒县| 岳池县| 进贤县| 平利县| 阳西县| 大同市| 中山市| 呼伦贝尔市| 红原县| 屯留县| 荆门市| 吉林市| 文山县| 徐州市| 昭苏县| 随州市| 江陵县| 页游| 宝鸡市| 都匀市| 台前县| 辉南县| 大洼县| 介休市| 崇州市| 东辽县| 南乐县|