• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于聯(lián)合注意力生成對抗網(wǎng)絡(luò)的自動文摘模型

      2021-06-28 12:42:36董張慧雅
      計算機工程與設(shè)計 2021年6期
      關(guān)鍵詞:文摘文檔注意力

      董張慧雅,張 凡,王 莉

      (1.太原理工大學 信息與計算機學院,山西 太原 030600; 2.太原理工大學 軟件學院,山西 太原 030600;3.太原理工大學 大數(shù)據(jù)學院,山西 太原 030600)

      0 引 言

      關(guān)于自動文摘的研究方法主要兩種方法:抽取式方法[1]和生成式方法。抽取式方法主要提取原文中的重要句子或段落組成摘要,需要考慮摘要內(nèi)容的相關(guān)性和冗余性。而生成式方法是基于對文檔的理解,然后歸納總結(jié)生成摘要,所以它更接近摘要的本質(zhì),然而,在抽象概括方面仍有很大的改進空間,這也是我們研究的主要方向。Rush等[2]提出基于注意力的端到端網(wǎng)絡(luò)模型來生成摘要,在此基礎(chǔ)上許多工作都得到了改進;See等[3]提出了一種指針生成器網(wǎng)絡(luò)(pointer-generator network),該模型通過指針從文檔中復制單詞,解決了未登錄單詞(out-of-vocabulary,OOV)的問題,還增加了一種覆蓋機制來解決輸出重復的問題;Paulus等[4]提出一種目標函數(shù),該函數(shù)結(jié)合了交叉熵損失與從策略梯度得到的獎勵,減少了暴露偏差[5];Liu等[6]將生成對抗網(wǎng)絡(luò)[7]與強化學習的策略梯度算法[8]結(jié)合起來并應(yīng)用到自然語言處理領(lǐng)域,它采用對抗策略訓練網(wǎng)絡(luò),并取得較高的ROUGE分數(shù)[9]。Hsu等[10]提出了提取式和抽象式結(jié)合的方法生成摘要,使得文檔的上下文向量表示更準確地反映了文檔主旨。

      以上方法都是基于單詞層注意力對文檔進行表征,忽略了句子信息,這對于非頻繁但重要的單詞并不友好,很容易丟失文檔中的重要信息。事實上,關(guān)鍵的句子往往反映了句子中的單詞也非常重要。為此,本文提出一種基于聯(lián)合注意力的生成對抗網(wǎng)絡(luò)模型,將句子的信息融入對單詞向量的表示中,減少對非重要句子中單詞的關(guān)注度并提高重要句子中單詞的注意力,從而提高了對文檔上下文向量表示的合理性,使得最終生成的摘要質(zhì)量更高。另外,為了更好的訓練效果,提出一種聯(lián)合損失函數(shù)訓練生成器。

      為了驗證本文所提模型的有效性,在公共數(shù)據(jù)集CNN/Daily Mail 數(shù)據(jù)集上進行實驗,并與相關(guān)主流模型進行對比,實驗結(jié)果表明,該方法可有效提高自動文摘的質(zhì)量。

      1 基于分層注意力生成對抗網(wǎng)絡(luò)的文摘生成

      本文使用生成對抗網(wǎng)絡(luò)機制[7]訓練兩個模型:生成器和判別器。生成器采用編碼器-解碼器結(jié)構(gòu),編碼器通過雙向長短期記憶網(wǎng)絡(luò)(bi-directional long short-term memory,Bi-LSTM)和聯(lián)合注意力機制得到文檔的上下文向量表示,解碼器使用長短記憶神經(jīng)網(wǎng)絡(luò)(long short-term memory,LSTM)生成摘要,最后將生成的摘要和參考摘要(人工總結(jié)的摘要)共同輸入到判別器中,迭代訓練生成器和判別器。整體模型如圖1所示。

      圖1 基于聯(lián)合注意力的生成對抗網(wǎng)絡(luò)訓練模型

      1.1 聯(lián)合注意力機制

      (1)

      圖2 聯(lián)合單詞層和句子層注意力

      1.2 生成器生成摘要

      生成器采用編碼器-解碼器結(jié)構(gòu),單詞序列w輸入Bi-LSTM轉(zhuǎn)換成編碼器隱藏狀態(tài)h={h1,h2,…,hm,…},在第t步時,解碼器(LSTM)接受參考摘要中的第t-1個單詞嵌入生成解碼器隱藏狀態(tài)st,根據(jù)編碼器和解碼器的隱藏狀態(tài),得到在t時刻文本單詞的注意力分布為

      (2)

      αt=softmax(et)

      (3)

      (4)

      該上下文向量表示可以看作當前步對文檔的表征,再經(jīng)過與解碼器隱藏狀態(tài)連接和兩個線性層,可以得到在固定詞匯表上的單詞分布,公式如下所示

      (5)

      (6)

      (7)

      1.3 判別器判別摘要

      判別器是一種二元分類器,其目的是區(qū)分輸入的摘要是由人產(chǎn)生的還是由機器產(chǎn)生的。因為卷積神經(jīng)網(wǎng)絡(luò)在文本分類中顯示了極大的有效性[12],本文使用卷積神經(jīng)網(wǎng)絡(luò)對輸入序列進行編碼。先使用不同大小的過濾器得到多種特征,然后對這些特征應(yīng)用最大池化操作。這些合并的特征被傳遞給一個全連接的softmax層,最后輸出為真或為假的概率。

      1.4 生成對抗網(wǎng)絡(luò)模塊

      生成對抗網(wǎng)絡(luò)主要采用零和博弈的思想,生成器G與判別器D是博弈的兩方,判別器盡可能地區(qū)分輸入的摘要是由人生成的還是由機器生成的,而生成器盡可能地產(chǎn)生更真實的高質(zhì)量摘要騙過判別器,這樣在博弈過程中生成器被訓練的越來越好,生成的摘要越來越真實,像人類寫的一樣,而判別器也被訓練的更加“聰明”,有更強的區(qū)分能力。生成器與判別器的最大最小博弈函數(shù)為式(8)

      (8)

      Y表示模型生成的摘要或者人工生成的參考摘要,D(Y)是判別器判別輸入摘要為真的概率,或者說是獎勵。越高的獎勵說明生成的摘要越好,判別器與生成器相互對抗,最后訓練的理想結(jié)果是判別器判別不出輸入的摘要是由人類生成的還是由機器生成的,同時生成器生成的摘要質(zhì)量也很高。

      2 損失函數(shù)

      按照圖1所示的自動文摘生成模型,本文提出了由極大似然估計損失Lml、策略梯度損失Lpg、不一致注意力損失Linc以及句子層注意力損失Lsen構(gòu)成的聯(lián)合損失函數(shù)用于訓練生成器。本節(jié)將依次介紹判別器、句子層注意力和生成器各自的損失函數(shù)。

      2.1 判別器的損失函數(shù)

      在生成器與判別器的對抗訓練過程中,判別器作為生成器的獎勵函數(shù),它判別輸入的文本是由人工生成的還是由機器生成的。通過對判別器的動態(tài)更新,迭代地改進生成器,使其生成質(zhì)量更好的摘要。一旦生成器生成高質(zhì)量和更加真實的摘要,就重新訓練判別器,訓練判別器公式

      Ldis=minΦ-EY~Pdata[logDΦ(Y)]-EY~GΘ[log(1-DΦ(Y))]

      (9)

      DΦ(Y)是判別器給輸入序列的獎勵,它代表輸入序列為真的概率,即判別輸入序列為人工生成的概率。Φ和Θ分別代表了判別器和生成器的參數(shù)集。該公式的含義是判別器給參考摘要盡可能高的分數(shù),給生成器生成的摘要盡量低的分數(shù),這樣損失函數(shù)的值才會小。

      2.2 句子層注意力損失函數(shù)

      為了鼓勵單詞層和句子層這兩個層的注意力在訓練過程中有一致的學習目標和一致性,即在該單詞注意力很高時該單詞所屬的句子注意力也很高,本文采用不一致注意力損失函數(shù)

      (10)

      在計算某個單詞的損失時,只選取其前k個單詞,對它們的單詞層注意力和所在句子的句子層注意力相乘并求和,依次計算T個單詞的損失函數(shù),進行相加取均值得到整篇摘要的不一致?lián)p失,T是摘要的單詞總數(shù)。注意到如果采用兩階段的訓練方式,式(1)是唯一句子層注意力參與到編碼器的部分,不一致?lián)p失只有在端到端訓練時才加入到生成器的損失函數(shù)中。

      為了得到句子層的注意力分布,本文參考了Nallapati等[11]的方法,采用雙層的循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),第一層得到句子的表征,第二層作為分類器得到每個句子的注意力大小。首先第一層輸入句子中每個單詞的單詞嵌入,經(jīng)過雙向的GRU(gated recurrent unit)網(wǎng)絡(luò)得到每個單詞的隱藏狀態(tài),再經(jīng)過向量求和得到每個句子的表征。第二層輸入剛剛得到的每個句子的表征,經(jīng)過雙向GRU網(wǎng)絡(luò)和一個sigmoid函數(shù),最終得到每個句子的注意力β,該網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示。

      圖3 句子層注意力結(jié)構(gòu)

      在訓練句子層注意力網(wǎng)絡(luò)時,由于在頂層采用了sigmoid激活函數(shù),所以本文采用交叉熵損失函數(shù)訓練網(wǎng)絡(luò),損失函數(shù)如下

      (11)

      式中:gn∈{0,1}是第n個句子的真實標簽,N是參考摘要中的句子總數(shù)。當gn=1時,表示第n個句子含有的信息量高,若gn=0,則表示第n個句子含有的信息量少。而句子層注意力就是為了得到具有高信息量的句子,所以準確地為句子打標簽至關(guān)重要。為了獲得真實標簽g={gn}n,首先,通過計算句子sn和參考摘要的ROUGE-L值獲得文檔中每個句子sn含有的信息量,然后我們根據(jù)ROUGE-L值對句子排序并從高到低選擇信息含量豐富的句子。如果新句子可以提高已經(jīng)選擇的句子的信息量,則把該句子的標簽gn置為1,并加入已經(jīng)選擇的句子集合中,最后通過式(11)訓練句子層注意力網(wǎng)絡(luò)。

      2.3 生成器的損失函數(shù)

      當判別器更新后,再訓練生成器G,生成器的損失由極大似然估計損失Lml、策略梯度損失Lpg、不一致注意力損失Linc以及句子層注意力損失Lsen組成,分別賦予λ1,λ2,λ3,λ4權(quán)重,極大似然估計損失為式(12)

      (12)

      通過最小化極大似然估計損失,使得生成器生成的文本越來越接近參考摘要。由于極大似然估計存在兩個重要問題。第一,評價指標為ROUGE評價指標,而損失函數(shù)為極大似然估計損失,評估指標和訓練損失不同。第二,解碼器在訓練過程中每個時間步的輸入往往是參考摘要中的單詞表征,但在測試階段解碼器的輸入是上一步的輸出,一旦上一步出現(xiàn)錯誤,會影響下一步的輸出結(jié)果,這樣造成錯誤累計,形成暴露偏差。為了緩解上述問題,本文使用策略梯度算法對ROUGE-1進行了直接優(yōu)化。生成器經(jīng)過訓練,使判別器給的最終獎勵最大化,策略梯度損失如下

      (13)

      (14)

      b(X,Y1∶t)是基線值以減少獎勵的方差。由于生成器加入了句子層注意力來更新單詞層注意力,需要再加上不一致注意力損失和句子層注意力損失,構(gòu)成生成器的聯(lián)合損失函數(shù)如下

      LG(Θ)=λ1Lml+λ2Lpg+λ3Linc+λ4Lsen

      (15)

      需要注意的是在分階段訓練時生成器的損失不包含不一致注意力損失和句子層注意力損失。

      3 實驗結(jié)果與分析

      3.1 數(shù)據(jù)集

      本文實驗使用CNN/Daily Mail數(shù)據(jù)集[3,11],它收錄了大量美國有限新聞網(wǎng)(CNN)和每日郵報(Daily Mail)的新聞數(shù)據(jù)。每篇文章都有人工總結(jié)的參考摘要與之對應(yīng)。本數(shù)據(jù)集有匿名版本和非匿名版本兩種,前者把所有的命名實體替換成特殊的標記(例如@entity2),后者保留原始的新聞內(nèi)容。我們使用非匿名版本,其中包含287個、226個訓練對、13 368個驗證對以及11 490個測試對。固定詞匯表的大小是50k。

      3.2 評估指標

      實驗采用ROUGE評估指標,將生成摘要與參考摘要相對比,其中ROUGE-1和ROUGE-2指標是分別是1元詞(1-gram)和2元詞(2-gram)的召回率,ROUGE-L指標計算的是最長公共子序列(longest common subsequence)的得分,具體計算方法參見文獻[9]。

      3.3 實驗及結(jié)果分析

      為了獲得更好的實驗結(jié)果,本文實驗對獲取句子注意力模型(圖2)和整體模型進行了預(yù)訓練,詞嵌入均為128維,學習率設(shè)置為0.15,隱藏層大小分別為200和256。在預(yù)訓練獲取句子注意力模型時,限制原始文本的句子數(shù)和每個句子的長度為50。在預(yù)訓練整體模型時,把信息量高的句子(gn=1)作為模型的輸入,限制原始文本的長度為400,摘要的長度為100,批次大小為32。

      為了探究句子層注意力對實驗結(jié)果的影響,本文設(shè)置兩種訓練方式:①分階段訓練;②端到端訓練。

      實驗1:分階段訓練

      實驗設(shè)置句子層注意力β為硬注意力,此時句子層注意力模型為一個二元分類器,把βn>0.5的句子作為整體模型的輸入,而β是通過預(yù)訓練得到的。實驗參數(shù)設(shè)置見表1。

      表1 本文模型參數(shù)

      實驗2:端到端訓練

      要最小化聯(lián)合損失函數(shù)(式(15)),其中λ1=λ3=1,λ2=λ4=5,在計算Linc損失時設(shè)置k=3。學習率降到0.0001,這樣可以保證訓練的穩(wěn)定性,神經(jīng)網(wǎng)絡(luò)模型采用Adagrad優(yōu)化器進行優(yōu)化。端到端訓練時模型的輸入為整篇文檔。實驗將本文提出的方法與主流方法進行對比,包括pointer-generator[3]、abstractive deep reinforce model(DeepRL)[5]、GAN[6]、unified model[10]。不同的方法進行實驗得到的ROUGE-1、ROUGE-2和ROUGE-L值見表2。

      表2 不同算法的ROUGE值

      每一行顯示了一個算法的結(jié)果,可以看出,主流方法表現(xiàn)較好的是unified model,ROUGE-1和ROUGE-L值分別為40.68和37.13,而本文模型采用分階段訓練方式時ROUGE-1值有所提高,為40.98,采用端到端訓練方式時ROUGE-1和ROUGE-L值均有所提高,分別為41.01和37.50,表明端到端的訓練方式可以獲得更好的訓練結(jié)果。綜上所述,本文提出的模型有效提高自動文摘的質(zhì)量,同時由于結(jié)合了句子層注意力,從而可以準確捕捉重要單詞,表達的中心思想更加準確。

      下面對這幾種模型和本文提出的模型生成的摘要進行比較,選取了其中一篇文檔作為實驗結(jié)果的展示,文檔內(nèi)容與其匹配的參考摘要如圖4所示。對圖4所示文本,幾種不同模型生成的文摘如圖5所示。

      圖4 樣例文檔和參考摘要

      圖5給出了幾種不同模型的實驗結(jié)果,本文用下劃波浪線標示原文的重要信息,用粗體標示參考摘要與本文模型重合的部分,從結(jié)果可以看出,本文提出的模型可以生成更加準確的摘要,與參考摘要更加匹配,而其余幾種模型存在重復問題或者缺乏重要信息的問題(如下劃直線所示)??傮w來看,本文提出的模型對自動文摘生成有改進作用。

      圖5 幾種模型生成的文摘

      4 結(jié)束語

      本文根據(jù)越重要的句子包含越多的關(guān)鍵字,在生成對抗網(wǎng)絡(luò)的基礎(chǔ)上,加入句子層注意力,通過句子層注意力對單詞層注意力的調(diào)節(jié),使得獲取的上下文向量表示更準確地表達了當前狀態(tài)的文檔信息,從而使得后續(xù)的文摘生成更加準確。另外本文在原有的生成對抗網(wǎng)絡(luò)損失函數(shù)上加入單詞層與句子層注意力的不一致性損失,反過來協(xié)調(diào)了句子層注意力。生成對抗網(wǎng)絡(luò)生成的句子具有很好的連貫性,再加上句子層注意力幫助生成的主旨更加準確,最終使得生成的摘要具有更好的連貫性和可讀性,實驗結(jié)果表明,聯(lián)合注意力對結(jié)果有了一定改進。本文提出的模型在自動文摘領(lǐng)域效果良好,能提升文摘的質(zhì)量。在大規(guī)模文檔理解、分析和總結(jié)方面有廣泛用途。本文采用LSTM得到文檔的上下文向量表示,未來可考慮更好的方法對文檔進行表征,以使向量容納更多的文本信息。

      猜你喜歡
      文摘文檔注意力
      讓注意力“飛”回來
      有人一聲不吭向你扔了個文檔
      IAPA文摘
      “揚眼”APP:讓注意力“變現(xiàn)”
      傳媒評論(2017年3期)2017-06-13 09:18:10
      文摘
      寶藏(2017年2期)2017-03-20 13:16:46
      基于RI碼計算的Word復制文檔鑒別
      A Beautiful Way Of Looking At Things
      Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
      不讓他人隨意下載Google文檔
      電腦迷(2012年4期)2012-04-29 06:12:13
      健康文摘
      祝您健康(1985年3期)1985-12-30 06:51:16
      吉木萨尔县| 罗平县| 平利县| 文成县| 汝阳县| 神农架林区| 探索| 福泉市| 古交市| 铁力市| 天台县| 沂源县| 随州市| 张家界市| 庄浪县| 中西区| 临澧县| 姜堰市| 阿拉善左旗| 正镶白旗| 杂多县| 屏山县| 松潘县| 兴宁市| 从化市| 六安市| 易门县| 红安县| 闽侯县| 太仓市| 玛曲县| 雷州市| 白河县| 柘城县| 盘山县| 得荣县| 疏附县| 团风县| 岐山县| 肇东市| 密山市|