張紫蕓,王文發(fā),馬樂榮,丁蒼峰
(延安大學(xué)數(shù)學(xué)與計(jì)算機(jī)科學(xué)學(xué)院,陜西 延安 716000)
文本摘要是利用計(jì)算機(jī)對(duì)文本或者文本集合,在保留其原文主旨大意的基礎(chǔ)上進(jìn)行抽取、壓縮和總結(jié),形成文摘。文摘是全面準(zhǔn)確地反映某一文獻(xiàn)中心內(nèi)容的簡短連貫的文本。常用方法是將文本作為句子的線性序列,將句子視為詞的線性序列。
文本摘要按照輸入類型分為單文檔摘要和多文檔摘要。單文檔摘要是對(duì)單個(gè)文檔進(jìn)行總結(jié),多文檔摘要是對(duì)一組文檔進(jìn)行總結(jié);按照有無監(jiān)督數(shù)據(jù)分為有監(jiān)督摘要和無監(jiān)督摘要;按照生成方式分為抽取式和生成式,抽取式是抽取原單文檔或者多文檔中的重要的句子和詞匯進(jìn)行摘要生成,生成式是通過釋義和重組句子來構(gòu)成摘要[1],允許生成新的詞匯或者句子,隨著算法的成熟,出現(xiàn)了生成式與抽取式結(jié)合的方法。
文本摘要由于其廣泛的應(yīng)用而成為重要的研究課題,現(xiàn)有研究工作主要圍繞神經(jīng)體系結(jié)構(gòu)的探索[2-3]和訓(xùn)練約束的設(shè)計(jì)[4-5]。此外,還有一些工作試圖整合文檔特征以增強(qiáng)模型性能[6-9]。近幾年預(yù)訓(xùn)練在機(jī)器翻譯、摘要生成、對(duì)話系統(tǒng)等領(lǐng)域取得了較好的結(jié)果,為此本文主要綜述基于預(yù)訓(xùn)練和非預(yù)訓(xùn)練模型的文本摘要進(jìn)展。
預(yù)訓(xùn)練模型很大程度上提高了文本摘要任務(wù)的性能,但在此之前都是基于詞或句的頻率及其他一些傳統(tǒng)的方法對(duì)文本進(jìn)行摘要,本章對(duì)傳統(tǒng)自動(dòng)文摘算法進(jìn)行簡要梳理。
啟發(fā)式算法(heuristic algorithm)是相對(duì)于最優(yōu)化算法提出的,即一個(gè)問題的最優(yōu)算法求得該問題每個(gè)實(shí)例的最優(yōu)解?,F(xiàn)階段,啟發(fā)式算法以仿自然體算法為主,主要有蟻群算法、模擬退火法、神經(jīng)網(wǎng)絡(luò)等[10]。在自動(dòng)文摘領(lǐng)域,主要利用遺傳算法、蟻群算法等將文本摘要問題形式化表示為優(yōu)化問題,提取最優(yōu)句子形成摘要。其缺點(diǎn)是運(yùn)算復(fù)雜、參數(shù)設(shè)置和迭代停止條件等依賴經(jīng)驗(yàn)[11]。
主題模型是以非監(jiān)督學(xué)習(xí)的方式對(duì)文本的隱含語義結(jié)構(gòu)進(jìn)行聚類的統(tǒng)計(jì)模型[12]。主要被用于自然語言處理中的語義分析和文本挖掘問題,也被用于生物信息學(xué)研究[13],應(yīng)用該模型可以更加貼近原文語義和文章主題[14]。常見的主題模型有隱含狄利克雷分布[15]、潛在語義分析[16]、概率潛在語義分析。
早期文本摘要的方法主要是抽取式摘要,其特點(diǎn)在于抽取全局的重要句子,據(jù)此研究者開始引入統(tǒng)計(jì)學(xué)的知識(shí)來計(jì)算統(tǒng)計(jì)特征,如詞頻、句子之間的相似性、句子位置、句子與標(biāo)題(如有)的相似性、句子的相對(duì)長度等。統(tǒng)計(jì)模型指以概率論為基礎(chǔ),采用數(shù)學(xué)統(tǒng)計(jì)方法建立的模型?;诮y(tǒng)計(jì)方面的文本摘要模型有text teaser[17]以及早年比較出名的text pronouns[18],text teaser論文中通過對(duì)文章標(biāo)題特征、句子長度、句子位置、關(guān)鍵詞頻率等4個(gè)因素的計(jì)算,得出最佳得分句子構(gòu)成摘要。
Zhou等人[19]首先提出了使用模板生成摘要,使用全局選擇的標(biāo)題短語填充到預(yù)先指定的標(biāo)題模板中生成標(biāo)題,但該方法主要依賴于人工來構(gòu)建規(guī)則、建立模板,存在很多缺陷,如構(gòu)建模板需要耗費(fèi)大量的人力、物力,需要豐富的專業(yè)領(lǐng)域知識(shí),此外構(gòu)建所有領(lǐng)域的模板是不現(xiàn)實(shí)的。隨著深度學(xué)習(xí)的興起,Cao等人[20]受傳統(tǒng)的基于模板的方法啟發(fā),提出了使用存在的摘要作為軟模板來指導(dǎo)seq2seq模型來生成摘要。首先使用信息檢索平臺(tái)(Lucene)從語料中檢索合適的摘要作為候選模板,然后擴(kuò)展標(biāo)準(zhǔn)的seq2seq模型,共同進(jìn)行模板重新排序和模板感知摘要生成。Wang等人[21]提出了一種新的帶有模板的雙向選擇性編碼模型(BiSET),該模型利用從訓(xùn)練數(shù)據(jù)中發(fā)現(xiàn)的模板從每篇源文章中軟選擇關(guān)鍵信息生成摘要。
圖模型是由點(diǎn)和線組成的用以描述系統(tǒng)的圖形。在抽取式摘要中,將句子作為節(jié)點(diǎn),使用句子間相似度,構(gòu)造無向有權(quán)邊。使用邊上的權(quán)值迭代更新節(jié)點(diǎn)值,最后選取N個(gè)得分最高的節(jié)點(diǎn),作為摘要。生成式摘要中,詞作為頂點(diǎn),2個(gè)詞的相似度構(gòu)造有向有權(quán)邊,根據(jù)權(quán)重值、語法特性、整體內(nèi)容排序函數(shù)最佳特性,選擇最優(yōu)路徑作為每個(gè)原始句子集合中生成的摘要句,形成摘要。
2004年,基于谷歌的PageRank[22]算法,Mihalcea等人[23]提出了一種基于圖形的文本處理排名模型TextRank算法可應(yīng)用于文本摘要。文章提出了關(guān)鍵詞和句子提取2種創(chuàng)新的無監(jiān)督方法,此外它是無監(jiān)督的,因此不需要任何訓(xùn)練集,并且不依賴于語言。但是其只考慮了句子間的局部信息,沒有考慮去文章全局信息[24]。Sehgal等人[25]對(duì)其提出了改進(jìn),提出了一種用于在句子提取期間計(jì)算分?jǐn)?shù)的相似性函數(shù)的變體,還強(qiáng)調(diào)了文章標(biāo)題(如果提供的話)在提取每個(gè)句子的最佳歸一化分?jǐn)?shù)中的作用。
信息學(xué)是運(yùn)用概率論與數(shù)理統(tǒng)計(jì)的方法研究信息、信息熵、通信系統(tǒng)、數(shù)據(jù)傳輸、密碼學(xué)、數(shù)據(jù)壓縮等問題的應(yīng)用數(shù)學(xué)學(xué)科。Peyrard等人[26]基于信息論,從4個(gè)不同的角度,在本質(zhì)上對(duì)摘要本身做了分析。分別是冗余度、相關(guān)性、信息性、重要性。其中,重要性這個(gè)概念是論文新突出的理念,它結(jié)合了其余3個(gè)概念的內(nèi)容,并進(jìn)行了公式化,探究怎樣才算是一篇好的摘要。
West等人[27]將摘要抽取過程分為2個(gè)階段:抽取階段和生成階段。第1個(gè)階段生成的摘要可以單獨(dú)作為摘要輸出,也可以作為第2階段摘要抽取過程的輸入數(shù)據(jù)。整個(gè)摘要生成過程不需要額外的真實(shí)摘要作為訓(xùn)練目標(biāo),屬于無監(jiān)督或者自監(jiān)督的方法。抽取階段的摘要抽取基于Information Bottleneck思想。從方法本質(zhì)來說,相當(dāng)于是對(duì)文章原句進(jìn)行壓縮。生成階段的摘要生成主要是使用了當(dāng)前比較熱門的GPT-2的預(yù)訓(xùn)練語言模型,基于抽取階段得到的摘要句,做文本生成任務(wù)。
Lev等人[28]收集了1716對(duì)論文/視頻,并將口頭報(bào)告的視頻視為相關(guān)論文的摘要。它的訓(xùn)練數(shù)據(jù)的生成方法是完全自動(dòng)的。訓(xùn)練數(shù)據(jù)可以隨著文章的發(fā)表源源不斷地增加。Palaskar等人[29]探討了How2數(shù)據(jù)集上幾個(gè)視頻摘要模型的行為,提出了一種多模式方法,使用自動(dòng)轉(zhuǎn)換、音頻和視頻潛在表示,并使用層次Attention進(jìn)行組合。對(duì)于評(píng)估,除了ROUGE之外,還提出了一個(gè)不考慮停用詞的變體。所提出的模型包括僅視頻摘要模型,該模型與純文本模型競爭性地執(zhí)行。
深度學(xué)習(xí)是學(xué)習(xí)樣本數(shù)據(jù)的內(nèi)在規(guī)律和表示層次,這些學(xué)習(xí)過程中獲得的信息對(duì)諸如文字、圖像和聲音等對(duì)數(shù)據(jù)的解釋有很大的幫助。它的最終目標(biāo)是讓機(jī)器能夠像人一樣具有分析學(xué)習(xí)能力,能夠識(shí)別文字、圖像和聲音等數(shù)據(jù)。深度學(xué)習(xí)是一個(gè)復(fù)雜的機(jī)器學(xué)習(xí)算法,在語音和圖像識(shí)別方面取得的效果,遠(yuǎn)遠(yuǎn)超過先前相關(guān)技術(shù)。典型的深度學(xué)習(xí)模型有卷積神經(jīng)網(wǎng)絡(luò)、堆棧自編碼網(wǎng)絡(luò)模型等。在抽取式摘要中,通常利用CNN、RNN、LSTM等神經(jīng)網(wǎng)絡(luò)模型進(jìn)行句子抽取,在生成式摘要中,利用神經(jīng)網(wǎng)絡(luò)模型進(jìn)行文本理解,端到端生成摘要。兩者都對(duì)數(shù)據(jù)要求較高,參數(shù)量較多,易出現(xiàn)梯度消失或爆炸。有多種用于抽象文檔摘要的深度神經(jīng)網(wǎng)絡(luò)模型。最主要的結(jié)構(gòu)之一是具有注意機(jī)制的序列到序列(seq2seq)模型[30-32]。See等人[33]引入了指針生成器網(wǎng)絡(luò),該網(wǎng)絡(luò)使用復(fù)制機(jī)制[34-35]隱式地將抽象與提取相結(jié)合。也有幾項(xiàng)研究試圖通過將抽象概括與提取模型明確結(jié)合來提高抽象概括的性能,包括使用不一致性損失[36]、關(guān)鍵短語提取[37-38]和句子抽取與改寫[39]。
語言模型是建模一個(gè)句子是語句的概率,語言模型的預(yù)訓(xùn)練在許多自然語言處理任務(wù)都取得了優(yōu)異結(jié)果,如文本摘要、情感分析、命名實(shí)體識(shí)別、問答系統(tǒng)等。其中預(yù)訓(xùn)練是通過自監(jiān)督的學(xué)習(xí)從大規(guī)模數(shù)據(jù)中獲得與具體任務(wù)無關(guān)的預(yù)訓(xùn)練模型。
目前流行的預(yù)訓(xùn)練模型包括ELMo[40]、GPT[41]和BERT[42]等,ELMo學(xué)習(xí)2種單向LM:前向LM從左向右編碼文本,后向LM從右向左編碼文本。GPT使用從左到右的Transformer逐字預(yù)測文本序列。BERT基于雙向Transformer編碼器融合左右上下文來預(yù)測屏蔽單詞。在文本摘要任務(wù)中的預(yù)訓(xùn)練語言模型大多都采用BERT,下面對(duì)幾個(gè)模型進(jìn)行一個(gè)簡單介紹。
ELMo。ELMo解決了現(xiàn)有的詞向量表示存在的2大挑戰(zhàn):1)單詞使用的復(fù)雜性,如句法和語法。2)單詞在不同上下文中的一詞多義性。它是雙向基于特征的語言模型,使用獨(dú)立訓(xùn)練的從左到右(前向)和從右到左(后向)的LSTM串聯(lián)為下游任務(wù)生成特征,即一種新的深度語境化單詞表示。
前向LSTM模型。給定N個(gè)token的序列(t1,t2,…,tN),前向語言模型通過對(duì)給定(t1,…,tk-1),預(yù)測下一個(gè)詞語tk的概率,公式如下:
(1)
后向LSTM模型。后向LM類似于前向LM,除非它在反向序列上運(yùn)行,根據(jù)第k個(gè)詞后面的詞去預(yù)測第k個(gè)詞的概率,公式如下:
(2)
BiLM結(jié)合了前向和后向LM。最大化前向和后向的聯(lián)合似然概率:
(3)
圖1 ELMo模型圖
1)GPT。針對(duì)以前的預(yù)訓(xùn)練語言模型的與下游任務(wù)的語言模型不一致,而造成的遷移困難以及用于學(xué)習(xí)的標(biāo)記數(shù)據(jù)較少這2個(gè)問題,Radford等人[41]提出了一種半監(jiān)督的模型GPT,模型分為2個(gè)部分:采用無監(jiān)督學(xué)習(xí)的預(yù)訓(xùn)練充分利用大量未標(biāo)注的文本數(shù)據(jù),然后利用監(jiān)督學(xué)習(xí)的微調(diào)來適配具體的NLP任務(wù)。GPT模型如圖2所示。
圖2 GPT模型圖
2)BERT。Devlin等人[42]認(rèn)為當(dāng)前的技術(shù)限制了預(yù)訓(xùn)練表示的能力,尤其是對(duì)微調(diào)方法而言,因此提出BERT,其采用Transformer的雙向編碼器表示,通過在所有層中聯(lián)合調(diào)節(jié)左右上下文來預(yù)處理來自未標(biāo)記文本的深層雙向表示。因此,只需一個(gè)額外的輸出層,就可以對(duì)預(yù)先訓(xùn)練好的BERT模型進(jìn)行微調(diào),為各種任務(wù)創(chuàng)建最先進(jìn)的模型,模型框架與GPT一樣都是采用預(yù)訓(xùn)練和微調(diào),也都是基于微調(diào)的語言模型。
3)此外不同于傳統(tǒng)的從左到右,或者從右到左的語言模型,使用2個(gè)無監(jiān)督的任務(wù)對(duì)BERT進(jìn)行預(yù)訓(xùn)練:Masked LM和Next Sentence Prediction。其模型如圖3所示。
圖3 BERT模型圖
自然語言處理中的大多數(shù)模型預(yù)處理方法都利用了文本的自然排序。例如,Word2vec[43]使用固定大小窗口內(nèi)的周圍單詞,用對(duì)數(shù)雙線性模型預(yù)測中間的單詞。生成的單詞嵌入表可用于其他下游任務(wù)。還有其他使用類似技術(shù)的單詞嵌入預(yù)訓(xùn)練方法[44-45]。Peters等人[40]和Radford等人[41]發(fā)現(xiàn),即使句子編碼器(不僅僅是單詞嵌入)也可以用語言模型目標(biāo)進(jìn)行預(yù)訓(xùn)練(即預(yù)測下一個(gè)或前一個(gè)單詞)。語言模型的目標(biāo)是單向的,而許多任務(wù)可以雙向利用上下文。因此,Devlin等人[42]提出了自然雙向掩碼語言模型目標(biāo)(即在一個(gè)句子中用特殊標(biāo)記掩蔽幾個(gè)單詞,然后預(yù)測它們)。上述方法都旨在預(yù)訓(xùn)練單詞嵌入或句子編碼器,因此Zhang等人[46]提出了HIBERT(變壓器分層雙向編碼器表示)文檔編碼和一種使用未標(biāo)記數(shù)據(jù)對(duì)其進(jìn)行預(yù)訓(xùn)練的方法,將預(yù)先訓(xùn)練的HIBERT應(yīng)用到摘要模型中。
雖然研究者對(duì)抽象文本摘要進(jìn)行了大量的研究,但抽象摘要仍面臨一系列挑戰(zhàn):1)神經(jīng)序列到序列模型傾向于產(chǎn)生瑣碎和一般的摘要,經(jīng)常涉及高頻短語;2)生成的摘要的語法性和可讀性有限;3)在大多數(shù)以前的工作中,標(biāo)準(zhǔn)的序列到序列模型被訓(xùn)練成使用最大似然估計(jì)目標(biāo)函數(shù)來預(yù)測下一個(gè)單詞;4)現(xiàn)有的提取器作為一個(gè)獨(dú)立的摘要模型(即沒有提取器)的性能并不比選擇前3句這樣的可靠基線好;5)訓(xùn)練目標(biāo)和評(píng)價(jià)尺度不匹配;6)神經(jīng)模型對(duì)于單個(gè)文檔的摘要已經(jīng)取得了較好的結(jié)果,但是它們的輸出通常是不連貫的,并且對(duì)輸入不忠實(shí);7)使用只保留上下文的解碼器,因此在預(yù)測每個(gè)單詞時(shí)沒有完整的上下文;8)沒有利用解碼器側(cè)的預(yù)先訓(xùn)練的語境化語言模型,因此解碼器更難一起學(xué)習(xí)概要表示、語境交互和語言建模。
為了應(yīng)對(duì)上述挑戰(zhàn),Liu等人[47]提出了一個(gè)對(duì)抗框架來聯(lián)合訓(xùn)練生成模型G和區(qū)分模型D。具體來說,生成器G將原始文本作為輸入并生成摘要。使用強(qiáng)化學(xué)習(xí)(即策略梯度)來優(yōu)化G,以獲得高質(zhì)量的總結(jié)。Bae等人[48]改進(jìn)了抽象摘要的句子重寫方法,提出了一種利用BERT的新提取器結(jié)構(gòu)和一種全局優(yōu)化摘要級(jí)ROUGE度量的新訓(xùn)練過程。Sharma等人[49]提出了一個(gè)實(shí)體驅(qū)動(dòng)的摘要框架SENECA來生成信息豐富且連貫的抽象摘要。實(shí)體感知內(nèi)容選擇模塊首先從輸入中識(shí)別顯著的句子,然后,摘要生成模塊進(jìn)行跨句子信息壓縮和抽象以生成最終的摘要,這2個(gè)部分通過強(qiáng)化學(xué)習(xí)進(jìn)一步聯(lián)系起來?;谡Z言的指導(dǎo)進(jìn)一步增強(qiáng)了簡潔性和清晰度,從而提高了摘要質(zhì)量。
Zhang等人[50]提出了一種新的基于預(yù)訓(xùn)練的編解碼框架,該框架可以根據(jù)輸入序列分2個(gè)階段生成輸出序列。編碼器,使用BERT將輸入序列編碼成上下文表示。解碼器,在第1階段,使用基于變壓器的解碼器來生成草稿輸出序列;在第2階段,屏蔽草稿序列的每個(gè)單詞并將其饋送給BERT,然后通過組合輸入序列和BERT生成的草稿表示,使用基于變壓器的解碼器來預(yù)測每個(gè)屏蔽位置的精煉單詞,此外在學(xué)習(xí)過程中還引入了強(qiáng)化學(xué)習(xí)目標(biāo)。Song等人[51]期望通過改進(jìn)通用單文檔摘要的框架來實(shí)現(xiàn)生成不同文本重用比例的摘要,因此提出了一個(gè)基于Transformer的,僅包含解碼器的模型來控制生成摘要的復(fù)制率,在訓(xùn)練和解碼階段采取了多種策略生成從完全抽取到高生成度的不同摘要。
由于目前尚未有針對(duì)抽象文本摘要定制預(yù)訓(xùn)練目標(biāo),此外,目前抽象文本摘要任務(wù)也缺乏跨領(lǐng)域的系統(tǒng)評(píng)價(jià),Zhang等人[52]提出了PEGASUS,這是一個(gè)序列到序列的模型,以間隙句生成為預(yù)處理目標(biāo),為抽象文本摘要定制,研究了幾種間隔句選擇方法,確定原則句選擇為最優(yōu)策略,展示了預(yù)訓(xùn)練語料庫、差距句比率、詞匯大小的效果,并擴(kuò)大了最佳配置,以在所有12個(gè)不同的下游數(shù)據(jù)集上獲得最先進(jìn)的結(jié)果。
受BERT成功的啟發(fā),Song等人[53]提出了基于編碼器-解碼器的語言生成的掩碼序列到序列預(yù)訓(xùn)練模型MASS。采用編碼器-解碼器框架,在給定句子剩余部分的情況下,重構(gòu)一個(gè)句子片段,它的編碼器取一個(gè)帶有隨機(jī)屏蔽片段(幾個(gè)連續(xù)標(biāo)記)的句子作為輸入,它的解碼器試圖預(yù)測這個(gè)屏蔽片段。這樣,MASS可以聯(lián)合訓(xùn)練編碼器和解碼器來開發(fā)表示提取和語言建模的能力。通過進(jìn)一步微調(diào)各種零/低資源語言生成任務(wù),包括神經(jīng)機(jī)器翻譯、文本摘要和會(huì)話響應(yīng)生成(3個(gè)任務(wù)和總共8個(gè)數(shù)據(jù)集),MASS在沒有預(yù)訓(xùn)練或使用其他預(yù)訓(xùn)練方法的情況下,實(shí)現(xiàn)了對(duì)基線的顯著改進(jìn)。
Liu[54]提出了BERT的簡單變體BERTSUM,是第一篇將BERT用于抽取式文本摘要的工作,主要是選擇性抽取文本中的句子作為最后的摘要。工作的難點(diǎn)在于獲得每個(gè)句子向量,然后對(duì)句子向量進(jìn)行一個(gè)二分類,判斷是否成為摘要。由于大規(guī)模、高質(zhì)量的標(biāo)注數(shù)據(jù)集不易獲取,Zheng等人[55]開發(fā)了一個(gè)基于圖的排序算法的無監(jiān)督摘要模型,并改進(jìn)了如何計(jì)算節(jié)點(diǎn)(也就是句子)的中心性。使用BERT來更好地捕捉句子相似性,并建立了具有有向邊的圖,認(rèn)為任何2個(gè)節(jié)點(diǎn)對(duì)其各自中心性的貢獻(xiàn)都受到它們?cè)谖臋n中相對(duì)位置的影響。盡管在許多NLP應(yīng)用程序中已經(jīng)對(duì)域移位進(jìn)行了很好的研究,但是在提取文本摘要領(lǐng)域中,域移位仍然很少受到關(guān)注。Wang等人[56]分析了摘要任務(wù)中當(dāng)前域定義的局限性,并將其擴(kuò)展到文章出版物中。將域的常規(guī)定義從類別擴(kuò)展到文本摘要任務(wù)的數(shù)據(jù)源。然后,重新調(diào)整多域匯總數(shù)據(jù)集的用途,并驗(yàn)證不同域之間的差距如何影響神經(jīng)總結(jié)模型的性能。決定性點(diǎn)過程是抽取摘要的最佳技術(shù)之一,Cho等人[57]采用決定性點(diǎn)過程提取多文檔摘要。DPP+BERT模型利用深度上下文表示和優(yōu)化的力量,在多文檔摘要基準(zhǔn)上實(shí)現(xiàn)了出色的性能。
Liu等人[58]提出了如何將BERT有效地應(yīng)用于文本摘要,強(qiáng)調(diào)了文檔編碼對(duì)于摘要任務(wù)的重要性,為抽取和抽象模型提出了一個(gè)通用框架。抽取式模型是通過堆疊幾個(gè)內(nèi)容轉(zhuǎn)換器層建立在這個(gè)編碼器之上的。針對(duì)生成式模型提出了一種新的微調(diào)調(diào)度,它對(duì)編碼器和解碼器采用不同的優(yōu)化器,作為緩解兩者之間不匹配的手段(前者是預(yù)訓(xùn)練的,而后者不是)。此外作者還證明了2階段微調(diào)方法可以進(jìn)一步提高生成的摘要的質(zhì)量。
語言模型(Language Model, LM)的預(yù)訓(xùn)練已在各種語言理解任務(wù)上產(chǎn)生了令人印象深刻的性能和樣本效率。但是,仍不清楚如何最好地將經(jīng)過預(yù)訓(xùn)練的LM用于生成任務(wù),計(jì)算科學(xué)[59]等機(jī)構(gòu)使用經(jīng)過預(yù)訓(xùn)練的解碼器網(wǎng)絡(luò),網(wǎng)絡(luò)中相同的Transformer LM既對(duì)源進(jìn)行編碼,又生成摘要。這確保了網(wǎng)絡(luò)中的所有參數(shù),包括那些控制對(duì)源狀態(tài)的關(guān)注的參數(shù),都已在微調(diào)步驟之前進(jìn)行了預(yù)訓(xùn)練。Dong等人[60]提出了一個(gè)能夠同時(shí)處理自然語言理解和生成任務(wù)UNILM模型。UNILM模型的預(yù)訓(xùn)練是基于3個(gè)目標(biāo):單向LM(包括從左到右和從右到左)、雙向LM和sequence-to-sequence LM。模型采用一個(gè)共享參數(shù)的Transformer網(wǎng)絡(luò)的同時(shí)還使用了特定的self-attention masks用以控制預(yù)測時(shí)候所用到的上下文信息。在下游任務(wù)微調(diào)時(shí),可以將UNILM模型視為單向的編碼、雙向的編碼或者序列模型,以適應(yīng)不同的下游任務(wù)(自然語言理解和生成任務(wù))。
Lewis等人[61]提出了BART,一種用于預(yù)訓(xùn)練序列到序列模型的去噪自編碼器。通過使用任意噪聲函數(shù)來對(duì)文本進(jìn)行加噪,并學(xué)習(xí)模型以重建原始文本來訓(xùn)練BART。評(píng)估多種加噪方法,發(fā)現(xiàn)通過隨機(jī)改變?cè)季渥拥呐帕许樞虿⑹褂眯碌奶畛浞桨?其中文本段被單個(gè)mask標(biāo)記替換)能獲得最佳性能。Beltagy等人[62]提出了SciBERT,一種基于BERT的預(yù)訓(xùn)練語言模型,以解決缺乏高質(zhì)量、大規(guī)模標(biāo)簽的科學(xué)數(shù)據(jù)的問題。利用對(duì)大型多領(lǐng)域科學(xué)出版物語料庫的無監(jiān)督預(yù)培訓(xùn)來提高下游科學(xué)NLP任務(wù)的績效。論文使用來自不同科學(xué)領(lǐng)域的數(shù)據(jù)集對(duì)一系列任務(wù)進(jìn)行評(píng)估,包括序列標(biāo)注、句子分類和依存關(guān)系分析。
此外廣泛使用的ROUGE的摘要自動(dòng)評(píng)估依賴于參考和系統(tǒng)摘要之間的重疊。Sun等人[63]從評(píng)價(jià)方法角度,在文章在語義相似度的計(jì)算中徹底拋棄了ROUGE和n-gram共現(xiàn),系統(tǒng)地研究了嵌入余弦相似度,以衡量3個(gè)數(shù)據(jù)集上摘要的質(zhì)量。
不同模型在各個(gè)數(shù)據(jù)集上的ROUGE分?jǐn)?shù)如表1所示。
表1 不同模型在英文數(shù)據(jù)集上的ROUGE(R1/R2/RL)分?jǐn)?shù)
文本摘要自1958年被提出,其發(fā)展過程經(jīng)歷了從發(fā)展緩慢到目前隨著深度學(xué)習(xí)、預(yù)訓(xùn)練模型的提出快速發(fā)展的一個(gè)時(shí)期,下面針對(duì)文本摘要方法進(jìn)行對(duì)比分析。
非預(yù)訓(xùn)練與預(yù)訓(xùn)練文本摘要:非預(yù)訓(xùn)練的文本摘要最初主要基于文本句子建立數(shù)學(xué)模型,如基于統(tǒng)計(jì)模型的計(jì)算句子之間相似性、文本中的詞頻等,以分類模型判斷句子是否屬于摘要部分等,都對(duì)文本摘要的發(fā)展起了很大的推動(dòng)作用,但是模型存在運(yùn)算復(fù)雜,需要專業(yè)的領(lǐng)域知識(shí),耗費(fèi)大量人力物力,不能很好地考慮到句子與文章之間的關(guān)系的缺點(diǎn),但也為文本摘要的進(jìn)一步發(fā)展奠定了很好的基石,促進(jìn)了文本摘要的進(jìn)一步發(fā)展?;陬A(yù)訓(xùn)練的文本摘要首先是在大規(guī)模的數(shù)據(jù)集上進(jìn)行訓(xùn)練,然后將學(xué)到的模型進(jìn)行微調(diào)應(yīng)用于文本摘要任務(wù),摘要結(jié)果相比傳統(tǒng)摘要模型在語義和句意上更加符合原文摘要,但是目前預(yù)訓(xùn)練模型正在越來越大(如模型參數(shù)),致使訓(xùn)練環(huán)境要求較高,因此很有必要研究出更加精簡、普適性以及應(yīng)用性較高得模型。
基于預(yù)訓(xùn)練的文本摘要方法目前已經(jīng)取得了很大的成功,現(xiàn)整理常見的模型主要特征如表2所示。
表2 不同模型的主要特征
數(shù)據(jù)集的發(fā)展對(duì)模型的好壞有直接影響,起初摘要數(shù)據(jù)集大都來自新聞?lì)I(lǐng)域類數(shù)據(jù),很大程度上限制了摘要發(fā)展,但現(xiàn)在摘要數(shù)據(jù)集正在多元化發(fā)展。下面對(duì)英文和中文摘要數(shù)據(jù)集進(jìn)行綜述。
3.1.1 DUC/TAC
DUC/TAC適用于單文檔和多文本摘要,是由NIST舉辦的國際評(píng)測比賽的數(shù)據(jù)集,DUC舉辦時(shí)間為2001年—2007年,每年產(chǎn)生一個(gè)用于評(píng)測模型的小型數(shù)據(jù)集。從2008年開始,DUC變?yōu)門AC,TAC側(cè)重于文本摘要系統(tǒng)的評(píng)估。TAC 2008主要任務(wù)是從2組相關(guān)的10個(gè)文檔中生成2個(gè)100字的摘要,包含大約2.5 GB的文本(約907000個(gè)文檔)。DUC-2002數(shù)據(jù)集包含567個(gè)文檔摘要對(duì),用于單文檔摘要。DUC-2003包含624個(gè)文章-摘要對(duì),DUC-2004包含500篇文檔。由于DUC/TAC數(shù)據(jù)集較小,因此很難將其用作訓(xùn)練數(shù)據(jù),通常與更大的訓(xùn)練數(shù)據(jù)集結(jié)合使用。
3.1.2 Gigaword
英文Gigaword[64]最初于2003年由語言數(shù)據(jù)聯(lián)盟(LDC)制作,來自4個(gè)不同的國際英語新聞專線,包含了來自各種國內(nèi)和國際新聞服務(wù)的大約950萬篇新聞文章,包含380萬個(gè)訓(xùn)練樣本,190000個(gè)驗(yàn)證樣本和1951個(gè)測試樣本。之后約翰霍普金斯大學(xué)人類語言技術(shù)卓越中心開發(fā)Annotated English Gigaword(2012年),為英語Gigaword第五版(LDC2011T07)添加了自動(dòng)生成的句法和語篇結(jié)構(gòu)注釋。Rush等人[65]采用神經(jīng)語言模型和基于attention機(jī)制的上下文encoder結(jié)合起來做摘要,使用帶注釋的Gigaword和DUC數(shù)據(jù)集,由標(biāo)準(zhǔn)的Gigaword組成,由于包含許多虛假的標(biāo)題文章對(duì),基于啟發(fā)式過濾器后,訓(xùn)練集大約由400萬個(gè)標(biāo)題-文章對(duì)組成。
3.1.3 CNN/Daily Mail
CNN/Daily Mail數(shù)據(jù)集是Hermann等人[66]從美國有線新聞網(wǎng)(CNN)和每日郵報(bào)網(wǎng)(Daily Mail)中收集的大約100萬條新聞數(shù)據(jù)作為機(jī)器閱讀理解語料庫。語料庫的統(tǒng)計(jì)信息如表3所示。
表3 CNN&Dailymail語料庫的統(tǒng)計(jì)信息
Nallapati等人在赫爾曼等人的基礎(chǔ)上,提出了一個(gè)長文檔和有序的多句摘要的數(shù)據(jù)集。數(shù)據(jù)集有286817個(gè)訓(xùn)練樣本,13368個(gè)驗(yàn)證樣本和11487個(gè)測試樣本。訓(xùn)練集中的源文檔有766個(gè)單詞,平均29.74個(gè)句子,而摘要由53個(gè)單詞和3.72個(gè)句子組成。See等人[67]對(duì)原始數(shù)據(jù)或數(shù)據(jù)的非匿名版本進(jìn)行去標(biāo)簽等預(yù)處理后得到非匿名版數(shù)據(jù),包含287226個(gè)訓(xùn)練對(duì)、13368個(gè)驗(yàn)證對(duì)和114490個(gè)測試對(duì)。此外數(shù)據(jù)集更適用于抽取式摘要。
3.1.4 New York Times
《紐約時(shí)報(bào)》[68]數(shù)據(jù)集由紐約時(shí)報(bào)20年的約180萬篇文章構(gòu)成,數(shù)據(jù)集中有60萬篇文章有人工摘要,其中超過150萬篇被人工標(biāo)注了文章中提到的人、地方和組織。Durrett等人[69]對(duì)數(shù)據(jù)集進(jìn)行分割,得到100834個(gè)訓(xùn)練樣本,9706個(gè)測試樣本。數(shù)據(jù)偏向于抽取策略,因此偏向于抽取式摘要。
3.1.5 XSum
Narayan等人[70]提出了一個(gè)具有高度抽象摘要的新聞?wù)獢?shù)據(jù)集XSum,由2010年—2017年的227000篇英國廣播公司(BBC)的在線文章和文章開頭的引言句(單句摘要)組成,每篇文章在其網(wǎng)址中都有一個(gè)唯一的標(biāo)識(shí)符,使用它將數(shù)據(jù)集隨機(jī)分為訓(xùn)練集(90%,204045),驗(yàn)證(5%,11332)和測試集(5%,11334)。
3.1.6 Newsroom
Grusky等人[71]構(gòu)建了Newsroom摘要數(shù)據(jù)集,由1998年—2017年間130萬篇文章和摘要組成,由38家主要新聞出版物的編輯室的作者和編輯撰寫。使用文章網(wǎng)址的散列函數(shù)將數(shù)據(jù)分為訓(xùn)練(76%)、開發(fā)(8%)、測試(8%)和未發(fā)布的測試(8%)數(shù)據(jù)集。數(shù)據(jù)集適用于抽取式和生成式摘要。
3.2.1 LCSTS
LCSTS數(shù)據(jù)集[72]是由哈爾濱工業(yè)大學(xué)的智能計(jì)算研究中心發(fā)布的一份基于中文微博網(wǎng)站新浪微博構(gòu)建的大規(guī)模中文短文本摘要數(shù)據(jù)集。該數(shù)據(jù)集由200多萬篇真實(shí)的中文短文組成,每篇短文的作者給出簡短的摘要。手動(dòng)標(biāo)記了10666個(gè)簡短摘要與其對(duì)應(yīng)的簡短文本的相關(guān)性。數(shù)據(jù)集由3個(gè)部分組成,如表4所示,第1部分包含大規(guī)模(短文,總結(jié))對(duì),第2部分包含10666個(gè)個(gè)人標(biāo)記(短文本,摘要)對(duì),第3部分包含1106對(duì),由3個(gè)人同時(shí)打分。對(duì)第2部分和第3部分的短文本和相應(yīng)摘要之間的相關(guān)性進(jìn)行打分,分?jǐn)?shù)范圍從1~5,“1”表示“最不相關(guān)”,而“5”表示“最相關(guān)”,使用第3部分的3、4和5評(píng)分的對(duì)作為短文本摘要生成任務(wù)的測試集。第2部分和第3部分也可以用作訓(xùn)練和測試集,以訓(xùn)練一個(gè)模型,該模型可以用于選擇第1部分所需的部分。并且在數(shù)據(jù)集的基礎(chǔ)上用了最簡單seq2seq給出了一個(gè)baseline,該數(shù)據(jù)集是針對(duì)單文本的生成式摘要。數(shù)據(jù)集具體信息如表4所示。
表4 LCSTS數(shù)據(jù)集
3.2.2 NLPCC
自然語言處理與中文計(jì)算會(huì)議(NLP&CC)是由中國計(jì)算機(jī)學(xué)會(huì)(CCF)主辦的CCF中文信息技術(shù)專業(yè)委員會(huì)從2012年開始組織的年度學(xué)術(shù)會(huì)議。每年一屆至今已舉辦9次,NLPCC2015中包含一項(xiàng)面向微博的中文新聞?wù)蝿?wù),該數(shù)據(jù)集包括250篇來自新浪的新聞文本,包括原始文本和已經(jīng)分句的文本,NLPCC2017、NLPCC2018中包含一項(xiàng)單文檔摘要任務(wù)。會(huì)議提供了數(shù)據(jù)集NLPCC.NLPCC2017,NLPCC2018中提供的訓(xùn)練集是相同的,該數(shù)據(jù)集由大量帶有參考摘要的中文新聞文章以及大量沒有參考摘要的新聞文章組成(對(duì)于半監(jiān)督方法)。2個(gè)部分都包含5000篇新聞文檔,提供不同的測試集來評(píng)估和比較不同的文檔摘要技術(shù)。數(shù)據(jù)集適用于單文本的生成式摘要。
Sharma等人[73]介紹了一個(gè)新的數(shù)據(jù)集,包括130萬份美國專利文獻(xiàn)記錄以及人類書面抽象摘要。特點(diǎn):摘要包含更豐富的話語結(jié)構(gòu)和更多的常用實(shí)體;更長的輸入序列(CNN/DM的平均3572.8 VS 789.9個(gè)字);關(guān)鍵內(nèi)容在輸入中均勻分布,而在流行的基于新聞的數(shù)據(jù)集中,它通常集中在前幾句中;摘要中存在更少和更短的提取片段。
Fabbri等人[74]提出了第一個(gè)新聞多文檔摘要數(shù)據(jù)集。它包含來自1500多個(gè)不同網(wǎng)站的輸入文章以及從網(wǎng)站newser.com獲得的這些文章的56216篇專業(yè)摘要。此外,作者提出了一種端到端模型,該模型在各種多文檔數(shù)據(jù)集(包括Multi-News)的自動(dòng)和人工評(píng)估下實(shí)現(xiàn)了較好的結(jié)果。
文本摘要的評(píng)估方法分為2個(gè)部分,自動(dòng)評(píng)價(jià)方法和人工評(píng)價(jià)方法,自動(dòng)評(píng)價(jià)方法是比較模型生成的摘要和參考摘要之間的相似度,人工評(píng)價(jià)是由專家對(duì)候選摘要進(jìn)行評(píng)價(jià)。
4.1.1 ROUGE
ROUGE,由Lin[75]于2003年提出,是目前評(píng)估文本摘要和機(jī)器翻譯的一組指標(biāo)。其基本思想是通過將由一系列算法或技術(shù)自動(dòng)生成的摘要或翻譯與一組通常由人工生成的理想摘要或翻譯進(jìn)行比對(duì),通過對(duì)兩者之間的重疊單元(n元語法,單詞序列和單詞對(duì))進(jìn)行計(jì)數(shù),從而得出分值,以衡量自動(dòng)生成的摘要或翻譯與參考文本之間的相似性,來評(píng)價(jià)算法或者技術(shù)的有效性。下面對(duì)ROUGE-N進(jìn)行介紹。
ROUGE-N是基于n-gram共現(xiàn)性進(jìn)行統(tǒng)計(jì),ROUGE-L是基于最長共有字句的共現(xiàn)性精確度和召回率Fmeasure進(jìn)行統(tǒng)計(jì),ROUGE-S是基于不連續(xù)二元組共現(xiàn)性精確度和召回率Fmeasure進(jìn)行統(tǒng)計(jì),ROUGE-W是基于帶權(quán)重的最長公有子句共現(xiàn)性精確度和召回率Fmeasure進(jìn)行統(tǒng)計(jì)。常用的評(píng)價(jià)指標(biāo)為ROUGE-N。
(4)
式中:n代表n-gram的長度,n-gram是一個(gè)語句中連續(xù)的n個(gè)詞組成的詞組,其中Countmatch(gramn)代表同時(shí)出現(xiàn)在參考摘要和候選摘要中的n-gram數(shù),Count(gramn)代表出現(xiàn)在參考摘要中的n-gram的個(gè)數(shù)。
4.1.2 BLEU
BLEU由Papineni等人[76]于2002年被提出,最開始開發(fā)被應(yīng)用于機(jī)器翻譯評(píng)估中。其計(jì)算方式與ROUGE相似,區(qū)別是BLEU基于精確率,而ROUGE基于召回率。由于機(jī)器翻譯和自動(dòng)文摘都可以被看作是從文本環(huán)境中產(chǎn)生的自然語言,因此作者認(rèn)為BLEU可以用來評(píng)估自動(dòng)文摘或類似的NLG任務(wù),在文本摘要任務(wù)中是評(píng)價(jià)候選摘要和參考摘要的相似程度,和機(jī)器翻譯度量參考翻譯和機(jī)器翻譯的形式一致。其度量公式為:
(5)
式中,wn表示n-gram的權(quán)重,且:
(6)
式中BP表示懲罰因子,c表示譯文的句子長度,r表示有效參考譯文的句子長度,公式表示若候選譯文長度小于參考譯文,會(huì)得到一個(gè)BP值,即短句懲罰因子,pn表示n-gram的精確度。
(7)
Countclip=min(Count.Max_Ref_Count)
(8)
式中Countclip是截?cái)嘤?jì)數(shù),Count是n-gram在候選翻譯中出現(xiàn)的次數(shù),Max_Ref_Count是n-gram在參考翻譯中出現(xiàn)次數(shù)最大的值,兩者比較取最小。其優(yōu)點(diǎn)是計(jì)算簡單且迅速,它通過在測試語料庫上平均出單個(gè)句子的判斷錯(cuò)誤,而不是試圖預(yù)測每個(gè)句子的準(zhǔn)確的人類判斷,從而與人類的判斷高度相關(guān)。缺點(diǎn)是,只考慮了參考譯文與候選譯文的n-gram的重合度,對(duì)源文的本質(zhì)意思欠缺考慮,不能很好地反映語法問題。
4.1.3 METEOR
METEOR度量方法早期是針對(duì)機(jī)器翻譯評(píng)價(jià)任務(wù)的,近幾年被研究人員也用于文本摘要評(píng)價(jià)任務(wù)。其起初是由Lavie等人提出評(píng)價(jià)指標(biāo)中召回率的意義,之后Lavie等人[77]對(duì)BLEU度量方法進(jìn)行改進(jìn),提出了基于單精度的加權(quán)調(diào)和平均數(shù)和單字召回率的METEOR度量方法,自2004年起,METEOR方法一直在被優(yōu)化。
在目前Lavie等人[78]提出的METEOR計(jì)算方法中,首先計(jì)算參考摘要和候選摘要的準(zhǔn)確率P和召回率R,得到參數(shù)化的調(diào)和平均值:
(9)
對(duì)于句子流暢度,考慮單詞順序的差距和差異,使用匹配單詞的總數(shù)m和匹配上的語塊個(gè)數(shù)ch計(jì)算懲罰系數(shù),ch的數(shù)目越少,也就意味著候選摘要和參考摘要的語序越一致:
(10)
參數(shù)α、β、γ被調(diào)整以最大化與人類判斷的相關(guān)性。因此得到METEOR的最終得分為:
Score=(1-Pen)·Fmean
(11)
自動(dòng)評(píng)價(jià)方法的關(guān)注點(diǎn)通常在候選摘要與文本的相似度,而忽略摘要的語義問題。人工評(píng)價(jià)方法一般從摘要內(nèi)容的可讀性、與原文檔的相關(guān)性、信息性、簡潔性與語義連貫性方面綜合考慮參考摘要,人工評(píng)價(jià)摘要相比自動(dòng)評(píng)價(jià)較為精確,但是消耗人力時(shí)間,而且人工的主觀性方面容易受到外在因素的干擾。
文本摘要自1958年提出至今,技術(shù)一步步趨于成熟,但仍存在以下幾方面的問題。
1)評(píng)價(jià)指標(biāo):目前被大家最廣泛應(yīng)用的評(píng)價(jià)指標(biāo)是ROUGE,然而ROUGE偏向于考察摘要的重要性、流暢性等,卻無法反映一段摘要是否包含了事實(shí)性錯(cuò)誤,此外ROUGE方法是通過比較候選摘要和標(biāo)準(zhǔn)摘要的重疊度來衡量摘要的,缺少語義方面的比較[1]。因此對(duì)ROUGE進(jìn)一步提出改進(jìn)或者設(shè)計(jì)出一個(gè)能夠捕捉摘要的事實(shí)一致性的評(píng)價(jià)指標(biāo)并且全局衡量評(píng)價(jià)指標(biāo),是未來研究者們所面臨的一個(gè)挑戰(zhàn)及發(fā)展趨勢。
2)數(shù)據(jù)集:現(xiàn)有基于預(yù)訓(xùn)練的文本摘要模型大多都是基于外文,在中文上的適應(yīng)度不高,此外中文長文本摘要數(shù)據(jù)集較少,大多為短文本數(shù)據(jù)集,摘要長度在10~20字左右,從而普適性高的文本摘要模型的設(shè)計(jì)以及高質(zhì)量中文長文本摘要的產(chǎn)生和其他語言數(shù)據(jù)集的產(chǎn)生對(duì)于摘要的發(fā)展會(huì)有很大的推動(dòng)作用。
3)模型適應(yīng)性:現(xiàn)有文本摘要模型大多集中在新聞?lì)I(lǐng)域,對(duì)其他領(lǐng)域適應(yīng)性較差,因此研究更加普適性的模型也是很有必要的。
4)模型結(jié)構(gòu):預(yù)訓(xùn)練模型被提出后,在各個(gè)領(lǐng)域都取得了很好的效果,但隨之產(chǎn)生的是越來越大的模型,模型參數(shù)越來越多,需要的數(shù)據(jù)集也越來越大。但是大也不一定就是好,目前的預(yù)訓(xùn)練模型大都是從大規(guī)模的數(shù)據(jù)集中進(jìn)行學(xué)習(xí),缺少總結(jié)歸納的能力。此外據(jù)研究,大規(guī)模的模型其運(yùn)行過程也會(huì)對(duì)運(yùn)行的環(huán)境產(chǎn)生影響。因此不一味追求大的模型,設(shè)計(jì)一個(gè)性能優(yōu)、普適性高的模型是很重要的。
此外,雖然目前主流的預(yù)訓(xùn)練方法在文本摘要領(lǐng)域已經(jīng)取得了較好成果,但以往的方法也有其可取之處,將兩者結(jié)合也可以對(duì)模型性能產(chǎn)生影響。