基于實(shí)體注意力的生成式摘要算法

2022-04-14 06:48:12李蕭洋周安民

現(xiàn)代計算機(jī) 2022年1期

李蕭洋，周安民

（四川大學(xué)網(wǎng)絡(luò)空間安全學(xué)院，成都 610065）

0 引言

大數(shù)據(jù)時代的到來使得信息的獲取和傳播日益便捷，但隨之而來的信息過載問題也不容小覷。文本摘要作為從海量的信息中提取出關(guān)鍵信息的重要手段，旨在從原文本中提煉出簡潔精煉且能夠反映原文中心內(nèi)容的短文，從而幫助讀者從較長文本中快速篩選出有效信息，達(dá)到快速瀏覽、有效篩選、精準(zhǔn)閱讀的效果。然而，人工提取摘要耗時費(fèi)力，因此自動文本摘要技術(shù)應(yīng)運(yùn)而生。

近年來，自動文本摘要任務(wù)已經(jīng)成為了自然語言處理領(lǐng)域的熱門研究方向之一，并且在醫(yī)學(xué)、新聞、金融、學(xué)術(shù)等領(lǐng)域都有實(shí)際的應(yīng)用，如觀點(diǎn)摘要、專利摘要、新聞?wù)取，F(xiàn)有的自動文摘方法主要分為抽取式和生成式兩大類。前者的核心在于從原始文檔中提取關(guān)鍵的短語或句子進(jìn)行重組，該方法提取出來的摘要能夠保留文章中的關(guān)鍵信息且有著良好的語法，但是由于缺乏某些特定的連接詞往往可讀性較低。后者是模仿人類歸納摘要的過程對原文的內(nèi)容進(jìn)行理解和壓縮，該方法可以根據(jù)語義內(nèi)容來生成摘要且可以生成原文中未出現(xiàn)的內(nèi)容，但是往往依賴于大量高質(zhì)量標(biāo)注數(shù)據(jù)來訓(xùn)練模型，且可能出現(xiàn)一些語法與事實(shí)方面的錯誤。

針對生成式摘要中存在的語法錯誤與事實(shí)描述不準(zhǔn)確的問題，本文提出了一種基于seq2seq模型并融合時序信息與實(shí)體信息的生成式摘要算法，并在開源的中文長文本摘要數(shù)據(jù)集CLTS上對其有效性進(jìn)行了驗(yàn)證。

1 相關(guān)研究

隨著深度學(xué)習(xí)的發(fā)展，現(xiàn)有的生成式自動文摘方法主要利用深度學(xué)習(xí)的相關(guān)知識對文本進(jìn)行自動建模與分析，快速準(zhǔn)確地從源文本中提取有效信息，在輿情分析、智能問答、觀點(diǎn)挖掘等方面都有廣泛的應(yīng)用。

Nallapati等將循環(huán)神經(jīng)網(wǎng)絡(luò)與注意力機(jī)制相結(jié)合構(gòu)建了一個端到端的摘要生成系統(tǒng)，使得解碼器在生成的每一步都聚焦于當(dāng)前的輸入，在主流的摘要生成數(shù)據(jù)集上都取得了較好的效果，但是模型的生成能力依然受限于詞匯表。在此基礎(chǔ)上，See等提出了指針網(wǎng)絡(luò)來解決詞匯表限制問題，即在每一個解碼時刻由指針網(wǎng)絡(luò)決定是根據(jù)詞匯表生成詞語還是從原文中直接復(fù)制，進(jìn)一步提高了生成摘要的可讀性。此外，隨著自然語言處理領(lǐng)域的發(fā)展，Liu等提出了一種基于BERT模型的摘要生成方法，通過使用不同的優(yōu)化器對編碼端和解碼端進(jìn)行微調(diào)，使生成式摘要的質(zhì)量達(dá)到了新的高度。

2 基于實(shí)體注意力的生成式摘要模型

2.1 問題分析

現(xiàn)有的生成式摘要算法雖然能夠取得比較好的可讀性，但仍然存在著以下問題：①現(xiàn)有的研究成果大多面向英文新聞文本，針對中文長文本的研究比較少。②當(dāng)處理長文本問題時，由于神經(jīng)網(wǎng)絡(luò)的記憶能力有限，會導(dǎo)致部分關(guān)鍵信息的丟失；另外處理長時記憶問題時往往需要比較大的資源和時間開銷。③由于某些特定的實(shí)體詞語難以被神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)，現(xiàn)有方法生成的摘要盡管有著較高的可讀性，但是在事實(shí)準(zhǔn)確性方面卻有所欠缺。

針對上述問題，本文面向中文長文本摘要，聚焦于實(shí)體信息和時序信息，提出了一種基于實(shí)體注意力的生成式摘要算法。該算法基于seq2seq模型，將實(shí)體信息引入編碼器端以及損失函數(shù)中，在保留模型生成可讀性摘要能力的同時，提高生成摘要的事實(shí)準(zhǔn)確性。

2.2 基于實(shí)體注意力的生成式摘要模型

圖1 基于實(shí)體注意力的生成式摘要模型

最后編碼器端的語義向量由以上兩種注意力混合而成，其計算如公式（5）：

其中、為模型要學(xué)習(xí)的參數(shù)；||代表向量的拼接。

其次使用指針開關(guān)來衡量一個詞應(yīng)該采取生成策略還是復(fù)制策略，充分考慮編碼器端語義向量c、解碼器端隱藏狀態(tài)h和解碼器端的輸入x，其計算公式如（7）：

其中、、、為模型要學(xué)習(xí)的參數(shù)。

最后得到擴(kuò)充后的詞匯表分布如公式（8）所示：

2.3 損失函數(shù)

在傳統(tǒng)的seq2seq模型中，通常以最小化每一個解碼時刻的最大似然損失為目標(biāo)來訓(xùn)練模型，即，對于輸入文章，記參考摘要為={,,…,}，模型訓(xùn)練的目標(biāo)函數(shù)如公式（9）：

其中代表傳統(tǒng)的二進(jìn)制交叉熵函數(shù)；代表當(dāng)前詞語是否為實(shí)體，如果當(dāng)前詞語為實(shí)體則=1；否則，=0。

對以上兩種損失函數(shù)進(jìn)行加權(quán)求和得到最終的損失函數(shù)形式，如公式（11）：

3 實(shí)驗(yàn)結(jié)果與分析

3.1 實(shí)驗(yàn)數(shù)據(jù)集

本文使用Liu等收集并整理的中文新聞長文本摘要數(shù)據(jù)集，該數(shù)據(jù)集收集了澎湃新聞網(wǎng)站自2014年7月22日至2020年4月20日之間發(fā)表的新聞文章以及由專業(yè)編輯編寫的摘要。共包含185397篇文章摘要對，涵蓋政治、軍事、經(jīng)濟(jì)、娛樂等多個領(lǐng)域，并且在多個主流模型上測試都有較好的效果。

3.2 實(shí)驗(yàn)環(huán)境與參數(shù)設(shè)置

本實(shí)驗(yàn)在Ubuntu 18.04.4、GeForce RTX 2080的環(huán)境下進(jìn)行，實(shí)驗(yàn)?zāi)Ｐ驮赑ython 3.6.12、Pytorch 1.7.1的環(huán)境下進(jìn)行訓(xùn)練。輸入的詞向量為經(jīng)人民日報語料庫訓(xùn)練的300維word2vec詞向量，長短時記憶網(wǎng)絡(luò)（LSTM）的隱藏層大小為300維，編碼器端為雙層LSTM，解碼器端為單層LSTM，批訓(xùn)練大小為8，初始學(xué)習(xí)率為0.001，迭代次數(shù)為50000次，詞匯表大小為50000。在進(jìn)行實(shí)體識別時使用standfordnlp工具。實(shí)驗(yàn)在生成摘要時設(shè)置輸入句子的最大長度為800，輸出摘要的最大長度為100，采用束寬大小為4的束搜索來尋找解碼時的最優(yōu)結(jié)果。實(shí)驗(yàn)參數(shù)表如表1所示。

表1 實(shí)驗(yàn)參數(shù)

3.3 評價指標(biāo)

本文使用文本摘要領(lǐng)域常用的ROUGE來對生成文本的可讀性進(jìn)行評價，具體使用ROUGE-N（=1，2）和ROUGE-L。其中ROUGEN通過計算生成摘要和人工摘要元組的召回率來評估可讀性，具體計算公式如（12）：

其中{}為人工摘要，Count(gram)表示人工摘要和生成摘要的共有元組的個數(shù)，(gram)表示參考摘要中元組的個數(shù)。

ROUGE-L使用人工摘要和生成摘要的最長公共子序列（Longest Common Subsequence，LSC）來衡量生成句子的可讀性。其具體計算公式如（13）—（15）所示：

其中 ||表示生成摘要的長度，||表示人工摘要的長度，(,)表示人工摘要與生成摘要二者的最長公共子序列的長度，為精確率P與召回率R的比值。

3.4 實(shí)驗(yàn)結(jié)果與分析

為了確定損失函數(shù)中實(shí)體信息和可讀性信息所占的比例，本文首先對公式（11）中超參數(shù)的取值進(jìn)行了實(shí)驗(yàn)，并最終確定以0.75作為后續(xù)實(shí)驗(yàn)中的取值，具體實(shí)驗(yàn)結(jié)果如圖2所示。

圖2 超參數(shù)η實(shí)驗(yàn)結(jié)果

如圖2所示，當(dāng)=0.75時所生成的摘要在ROUGE-1、ROUGE-2和ROUGE-L評分上都有著較好的效果。此外，從圖中還能觀察到，隨著的增大，即隨著損失函數(shù)中實(shí)體比例的上升，生成摘要的可讀性整體呈現(xiàn)先上升后下降的趨勢。這是由于隨著損失函數(shù)中實(shí)體比例的上升，模型將更加傾向于學(xué)習(xí)實(shí)體信息而削弱了對原文內(nèi)容的學(xué)習(xí)，從而導(dǎo)致了可讀性得分的下降。

另外，為了驗(yàn)證本文所提出方法的有效性，我們將多個模型在CLTS數(shù)據(jù)集上的效果進(jìn)行了對比，不同模型之間的ROUGE分?jǐn)?shù)對比如表2所示。

表2 不同模型對比結(jié)果

通過對表中的數(shù)據(jù)進(jìn)行分析可以得到以下結(jié)論：①總的來說，生成式模型得到的摘要的可讀性高于抽取式模型，這是由于傳統(tǒng)的抽取式模型有著較為簡單的模型結(jié)構(gòu)，并且在對原文內(nèi)容進(jìn)行抽取時由于缺乏了部分關(guān)鍵連接詞而導(dǎo)致可讀性較低。②本文所提出的模型在ROUGE-2和ROUGE-L評分上都取得了比其他模型更優(yōu)的結(jié)果，由此可以說明本文所提出的方法在以恰當(dāng)?shù)谋壤肓藢?shí)體信息后，在摘要生成任務(wù)上有著更為優(yōu)異的表現(xiàn)。③通過對生成句子的分析，可以發(fā)現(xiàn)本文提出的模型能夠識別出更多的關(guān)鍵實(shí)體。

4 結(jié)語

本文針對中文新聞長文本摘要中存在的可讀性以及事實(shí)準(zhǔn)確性方面的缺陷，在傳統(tǒng)的seq2seq模型的基礎(chǔ)上，提出了基于時序注意力和實(shí)體注意力融合的生成式摘要模型，并在損失函數(shù)中引入了實(shí)體信息，使模型在保證原有可讀性的基礎(chǔ)上能夠更進(jìn)一步地學(xué)習(xí)到事實(shí)信息，從而進(jìn)一步提高了自動文摘的質(zhì)量。實(shí)驗(yàn)結(jié)果表明，本文所提出的模型在ROUGE評分上與其他模型相比較得到了顯著提升。下一步的研究工作是考慮如何將該算法從新聞?wù)I(lǐng)域遷移到其他領(lǐng)域，并進(jìn)一步降低模型消耗。

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看