李蕭洋,周安民
(四川大學(xué)網(wǎng)絡(luò)空間安全學(xué)院,成都 610065)
大數(shù)據(jù)時代的到來使得信息的獲取和傳播日益便捷,但隨之而來的信息過載問題也不容小覷。文本摘要作為從海量的信息中提取出關(guān)鍵信息的重要手段,旨在從原文本中提煉出簡潔精煉且能夠反映原文中心內(nèi)容的短文,從而幫助讀者從較長文本中快速篩選出有效信息,達(dá)到快速瀏覽、有效篩選、精準(zhǔn)閱讀的效果。然而,人工提取摘要耗時費(fèi)力,因此自動文本摘要技術(shù)應(yīng)運(yùn)而生。
近年來,自動文本摘要任務(wù)已經(jīng)成為了自然語言處理領(lǐng)域的熱門研究方向之一,并且在醫(yī)學(xué)、新聞、金融、學(xué)術(shù)等領(lǐng)域都有實(shí)際的應(yīng)用,如觀點(diǎn)摘要、專利摘要、新聞?wù)取,F(xiàn)有的自動文摘方法主要分為抽取式和生成式兩大類。前者的核心在于從原始文檔中提取關(guān)鍵的短語或句子進(jìn)行重組,該方法提取出來的摘要能夠保留文章中的關(guān)鍵信息且有著良好的語法,但是由于缺乏某些特定的連接詞往往可讀性較低。后者是模仿人類歸納摘要的過程對原文的內(nèi)容進(jìn)行理解和壓縮,該方法可以根據(jù)語義內(nèi)容來生成摘要且可以生成原文中未出現(xiàn)的內(nèi)容,但是往往依賴于大量高質(zhì)量標(biāo)注數(shù)據(jù)來訓(xùn)練模型,且可能出現(xiàn)一些語法與事實(shí)方面的錯誤。
針對生成式摘要中存在的語法錯誤與事實(shí)描述不準(zhǔn)確的問題,本文提出了一種基于seq2seq模型并融合時序信息與實(shí)體信息的生成式摘要算法,并在開源的中文長文本摘要數(shù)據(jù)集CLTS上對其有效性進(jìn)行了驗(yàn)證。
隨著深度學(xué)習(xí)的發(fā)展,現(xiàn)有的生成式自動文摘方法主要利用深度學(xué)習(xí)的相關(guān)知識對文本進(jìn)行自動建模與分析,快速準(zhǔn)確地從源文本中提取有效信息,在輿情分析、智能問答、觀點(diǎn)挖掘等方面都有廣泛的應(yīng)用。
Nallapati等將循環(huán)神經(jīng)網(wǎng)絡(luò)與注意力機(jī)制相結(jié)合構(gòu)建了一個端到端的摘要生成系統(tǒng),使得解碼器在生成的每一步都聚焦于當(dāng)前的輸入,在主流的摘要生成數(shù)據(jù)集上都取得了較好的效果,但是模型的生成能力依然受限于詞匯表。在此基礎(chǔ)上,See等提出了指針網(wǎng)絡(luò)來解決詞匯表限制問題,即在每一個解碼時刻由指針網(wǎng)絡(luò)決定是根據(jù)詞匯表生成詞語還是從原文中直接復(fù)制,進(jìn)一步提高了生成摘要的可讀性。此外,隨著自然語言處理領(lǐng)域的發(fā)展,Liu等提出了一種基于BERT模型的摘要生成方法,通過使用不同的優(yōu)化器對編碼端和解碼端進(jìn)行微調(diào),使生成式摘要的質(zhì)量達(dá)到了新的高度。
現(xiàn)有的生成式摘要算法雖然能夠取得比較好的可讀性,但仍然存在著以下問題:①現(xiàn)有的研究成果大多面向英文新聞文本,針對中文長文本的研究比較少。②當(dāng)處理長文本問題時,由于神經(jīng)網(wǎng)絡(luò)的記憶能力有限,會導(dǎo)致部分關(guān)鍵信息的丟失;另外處理長時記憶問題時往往需要比較大的資源和時間開銷。③由于某些特定的實(shí)體詞語難以被神經(jīng)網(wǎng)絡(luò)學(xué)習(xí),現(xiàn)有方法生成的摘要盡管有著較高的可讀性,但是在事實(shí)準(zhǔn)確性方面卻有所欠缺。
針對上述問題,本文面向中文長文本摘要,聚焦于實(shí)體信息和時序信息,提出了一種基于實(shí)體注意力的生成式摘要算法。該算法基于seq2seq模型,將實(shí)體信息引入編碼器端以及損失函數(shù)中,在保留模型生成可讀性摘要能力的同時,提高生成摘要的事實(shí)準(zhǔn)確性。
圖1 基于實(shí)體注意力的生成式摘要模型
最后編碼器端的語義向量由以上兩種注意力混合而成,其計算如公式(5):
其中、為模型要學(xué)習(xí)的參數(shù);||代表向量的拼接。
其次使用指針開關(guān)來衡量一個詞應(yīng)該采取生成策略還是復(fù)制策略,充分考慮編碼器端語義向量c、解碼器端隱藏狀態(tài)h和解碼器端的輸入x,其計算公式如(7):
其中 、 、 、為模型要學(xué)習(xí)的參數(shù)。
最后得到擴(kuò)充后的詞匯表分布如公式(8)所示:
在傳統(tǒng)的seq2seq模型中,通常以最小化每一個解碼時刻的最大似然損失為目標(biāo)來訓(xùn)練模型,即,對于輸入文章,記參考摘要為={,,…,},模型訓(xùn)練的目標(biāo)函數(shù)如公式(9):
其中代表傳統(tǒng)的二進(jìn)制交叉熵函數(shù);代表當(dāng)前詞語是否為實(shí)體,如果當(dāng)前詞語為實(shí)體則=1;否則,=0。
對以上兩種損失函數(shù)進(jìn)行加權(quán)求和得到最終的損失函數(shù)形式,如公式(11):
本文使用Liu等收集并整理的中文新聞長文本摘要數(shù)據(jù)集,該數(shù)據(jù)集收集了澎湃新聞網(wǎng)站自2014年7月22日至2020年4月20日之間發(fā)表的新聞文章以及由專業(yè)編輯編寫的摘要。共包含185397篇文章摘要對,涵蓋政治、軍事、經(jīng)濟(jì)、娛樂等多個領(lǐng)域,并且在多個主流模型上測試都有較好的效果。
本實(shí)驗(yàn)在Ubuntu 18.04.4、GeForce RTX 2080的環(huán)境下進(jìn)行,實(shí)驗(yàn)?zāi)P驮赑ython 3.6.12、Pytorch 1.7.1的環(huán)境下進(jìn)行訓(xùn)練。輸入的詞向量為經(jīng)人民日報語料庫訓(xùn)練的300維word2vec詞向量,長短時記憶網(wǎng)絡(luò)(LSTM)的隱藏層大小為300維,編碼器端為雙層LSTM,解碼器端為單層LSTM,批訓(xùn)練大小為8,初始學(xué)習(xí)率為0.001,迭代次數(shù)為50000次,詞匯表大小為50000。在進(jìn)行實(shí)體識別時使用standfordnlp工具。實(shí)驗(yàn)在生成摘要時設(shè)置輸入句子的最大長度為800,輸出摘要的最大長度為100,采用束寬大小為4的束搜索來尋找解碼時的最優(yōu)結(jié)果。實(shí)驗(yàn)參數(shù)表如表1所示。
表1 實(shí)驗(yàn)參數(shù)
本文使用文本摘要領(lǐng)域常用的ROUGE來對生成文本的可讀性進(jìn)行評價,具體使用ROUGE-N(=1,2)和ROUGE-L。其中ROUGEN通過計算生成摘要和人工摘要元組的召回率來評估可讀性,具體計算公式如(12):
其中{}為人工摘要,Count(gram)表示人工摘要和生成摘要的共有元組的個數(shù),(gram)表示參考摘要中元組的個數(shù)。
ROUGE-L使用人工摘要和生成摘要的最長公 共 子 序 列(Longest Common Subsequence,LSC)來衡量生成句子的可讀性。其具體計算公式如(13)—(15)所示:
其中 ||表示生成摘要的長度,||表示人工摘要的長度,(,)表示人工摘要與生成摘要二者的最長公共子序列的長度,為精確率P與召回率R的比值。
為了確定損失函數(shù)中實(shí)體信息和可讀性信息所占的比例,本文首先對公式(11)中超參數(shù)的取值進(jìn)行了實(shí)驗(yàn),并最終確定以0.75作為后續(xù)實(shí)驗(yàn)中的取值,具體實(shí)驗(yàn)結(jié)果如圖2所示。
圖2 超參數(shù)η實(shí)驗(yàn)結(jié)果
如圖2所示,當(dāng)=0.75時所生成的摘要在ROUGE-1、ROUGE-2和ROUGE-L評分上都有著較好的效果。此外,從圖中還能觀察到,隨著的增大,即隨著損失函數(shù)中實(shí)體比例的上升,生成摘要的可讀性整體呈現(xiàn)先上升后下降的趨勢。這是由于隨著損失函數(shù)中實(shí)體比例的上升,模型將更加傾向于學(xué)習(xí)實(shí)體信息而削弱了對原文內(nèi)容的學(xué)習(xí),從而導(dǎo)致了可讀性得分的下降。
另外,為了驗(yàn)證本文所提出方法的有效性,我們將多個模型在CLTS數(shù)據(jù)集上的效果進(jìn)行了對比,不同模型之間的ROUGE分?jǐn)?shù)對比如表2所示。
表2 不同模型對比結(jié)果
通過對表中的數(shù)據(jù)進(jìn)行分析可以得到以下結(jié)論:①總的來說,生成式模型得到的摘要的可讀性高于抽取式模型,這是由于傳統(tǒng)的抽取式模型有著較為簡單的模型結(jié)構(gòu),并且在對原文內(nèi)容進(jìn)行抽取時由于缺乏了部分關(guān)鍵連接詞而導(dǎo)致可讀性較低。②本文所提出的模型在ROUGE-2和ROUGE-L評分上都取得了比其他模型更優(yōu)的結(jié)果,由此可以說明本文所提出的方法在以恰當(dāng)?shù)谋壤肓藢?shí)體信息后,在摘要生成任務(wù)上有著更為優(yōu)異的表現(xiàn)。③通過對生成句子的分析,可以發(fā)現(xiàn)本文提出的模型能夠識別出更多的關(guān)鍵實(shí)體。
本文針對中文新聞長文本摘要中存在的可讀性以及事實(shí)準(zhǔn)確性方面的缺陷,在傳統(tǒng)的seq2seq模型的基礎(chǔ)上,提出了基于時序注意力和實(shí)體注意力融合的生成式摘要模型,并在損失函數(shù)中引入了實(shí)體信息,使模型在保證原有可讀性的基礎(chǔ)上能夠更進(jìn)一步地學(xué)習(xí)到事實(shí)信息,從而進(jìn)一步提高了自動文摘的質(zhì)量。實(shí)驗(yàn)結(jié)果表明,本文所提出的模型在ROUGE評分上與其他模型相比較得到了顯著提升。下一步的研究工作是考慮如何將該算法從新聞?wù)I(lǐng)域遷移到其他領(lǐng)域,并進(jìn)一步降低模型消耗。