張紫蕓,王文發(fā),馬樂榮*,丁蒼峰
(1.延安大學(xué)數(shù)學(xué)與計算機(jī)科學(xué)學(xué)院;2.延安市紅色文化大數(shù)據(jù)智能信息處理重點(diǎn)實(shí)驗室,陜西延安 716000)
文本摘要是對文本或者文本集合在保留其原文主旨大意的基礎(chǔ)上進(jìn)行抽取、壓縮和總結(jié),形成文摘。文摘是全面準(zhǔn)確地反映某一文獻(xiàn)中心內(nèi)容的簡單連貫的短文,常用方法是摘要將文本作為句子的線性序列,將句子視為詞的線性序列。文本摘要按照輸入類型分為單文檔摘要和多文檔摘要,單文檔摘要就是對單個文檔進(jìn)行總結(jié),多文檔摘要就是對一組文檔進(jìn)行摘要;按照有無監(jiān)督數(shù)據(jù)分為有監(jiān)督摘要和無監(jiān)督摘要;按照摘要的生成方式分為抽取式、生成式以及將兩者結(jié)合的抽取生成式,抽取式就是抽取原單文檔或者多文檔中的重要句子和詞匯進(jìn)行摘要生成,生成式就是通過釋義和重組句子來構(gòu)成摘要,允許生成新的詞匯或者句子。
隨著自然語言處理任務(wù)的發(fā)展,現(xiàn)在文本摘要的研究工作主要圍繞神經(jīng)體系結(jié)構(gòu)的探索和訓(xùn)練約束的設(shè)計,此外,還有一些工作試圖整合文檔特征以增強(qiáng)模型性能[1]。隨著預(yù)訓(xùn)練模型在自然語言處理相關(guān)任務(wù)上取得巨大的進(jìn)步,本文將聚焦摘要生成任務(wù),梳理預(yù)訓(xùn)練模型在文本摘要方面的研究進(jìn)展。
預(yù)訓(xùn)練語言模型是在給定的語料庫上,通過自監(jiān)督的方式從語料庫上訓(xùn)練出符合給定性能指標(biāo)的語言模型,為下游任務(wù)提供語言表示服務(wù)。近年來,圍繞預(yù)訓(xùn)練語言模型,文本摘要涌現(xiàn)出一系列重要的方法,本部分從經(jīng)典的預(yù)訓(xùn)練模型出發(fā),梳理了幾類典型的摘要生成方法。
預(yù)訓(xùn)練模型包括ELMo[2]、GPT[3]和BERT[4]等。ELMo學(xué)習(xí)2種單向LM:前向LM從左向右編碼文本,后向LM從右向左編碼文本;GPT使用從左到右的Transformer逐字預(yù)測文本序列;BERT基于雙向Transformer編碼器融合左右上下文來預(yù)測屏蔽單詞。在文本摘要任務(wù)中的預(yù)訓(xùn)練語言模型大多都采用BERT,下面對幾個模型進(jìn)行一個簡單介紹。
a)ELMo:ELMo解決了現(xiàn)有的詞向量表示存在的兩大挑戰(zhàn):1)單詞使用的復(fù)雜性,如句法和語法;2)單詞在不同上下文中的一詞多義性。ELMo是雙向基于特征的語言模型,使用獨(dú)立訓(xùn)練的從左到右(前向)和從右到左(后向)的LSTM串聯(lián)為下游任務(wù)生成特征,是一種新的深度語境化單詞表示。
前向LSTM模型:給定N個token的序列(t1,t2,…,t N),前向語言模型通過對給定(t1,…,t k-1)預(yù)測下一個詞語t k的概率,公式如下:
后向LSTM模型:后向LM類似于前向LM,除非它在反向序列上運(yùn)行,根據(jù)第k個詞后面的詞去預(yù)測第k個詞的概率,公式如下:
biLM結(jié)合了前向和后向LM,最大化前向和后向的聯(lián)合似然概率為
其中,Θx為輸入的初始詞向量參數(shù),Θs為輸出的softmax層參數(shù),和是雙向語言模型的參數(shù)。
b)GPT:針對以前的預(yù)訓(xùn)練語言模型與下游任務(wù)的語言模型不一致而造成的遷移困難,以及用于學(xué)習(xí)的標(biāo)記數(shù)據(jù)較少這2個問題,RADFORD等[3]提出了一種半監(jiān)督的模型GPT,模型分為兩部分:采用無監(jiān)督學(xué)習(xí)的預(yù)訓(xùn)練充分利用大量未標(biāo)注的文本數(shù)據(jù),然后利用監(jiān)督學(xué)習(xí)的微調(diào)來適配具體的NLP任務(wù)。
c)BERT:DEVLIN等[4]認(rèn)為當(dāng)前的技術(shù)限制了預(yù)訓(xùn)練表示的能力,尤其是對微調(diào)方法而言,因此提出BERT,其采用Transformer的雙向編碼器表示,通過在所有層中聯(lián)合調(diào)節(jié)左右上下文來預(yù)處理來自未標(biāo)記文本的深層雙向表示。因此,只需一個額外的輸出層,就可以對預(yù)先訓(xùn)練好的BERT模型進(jìn)行微調(diào),為各種任務(wù)創(chuàng)建最先進(jìn)的模型,模型框架與GPT一樣都是采用預(yù)訓(xùn)練和微調(diào),也都是基于微調(diào)的語言模型。
此外,不同于傳統(tǒng)的從左到右或者從右到左的語言模型,使用2個無監(jiān)督的任務(wù)對BERT進(jìn)行預(yù)訓(xùn)練:Masked LM和Next Sentence Prediction。
自然語言處理中的大多數(shù)模型預(yù)處理方法都利用了文本的自然排序。例如,Word2vec[5]使用固定大小窗口內(nèi)的周圍單詞,用對數(shù)雙線性模型預(yù)測中間的單詞生成的單詞嵌入表示可用于其他下游任務(wù)。還有其他使用類似技術(shù)的單詞嵌入預(yù)訓(xùn)練方法[6-7]。PETERS等[2]和RADFORD等[3]發(fā)現(xiàn),即使句子編碼器(不僅僅是單詞嵌入)也可以用語言模型目標(biāo)進(jìn)行預(yù)訓(xùn)練(即預(yù)測下一個或前一個單詞)。語言模型的目標(biāo)是單向的,而許多任務(wù)可以雙向利用上下文。因此,DEVLIN等[4]提出了自然雙向掩碼語言模型目標(biāo)(即在一個句子中用特殊標(biāo)記掩蔽幾個單詞,然后預(yù)測它們)。上述方法都旨在預(yù)訓(xùn)練單詞嵌入或句子編碼器,因此ZHANG等[8]提出使用HIBERT進(jìn)行文檔編碼和一種未標(biāo)記數(shù)據(jù)對其進(jìn)行預(yù)訓(xùn)練的方法,將預(yù)先訓(xùn)練的HIBERT應(yīng)用到摘要模型中。
LIU等[9]提出了一個對抗框架來聯(lián)合訓(xùn)練生成模型G和區(qū)分模型D。生成器G將原始文本作為輸入并生成摘要,使用強(qiáng)化學(xué)習(xí)(即策略梯度)來優(yōu)化G,以獲得高質(zhì)量的總結(jié)。BAE等[10]改進(jìn)了抽象摘要的句子重寫方法,提出了一種利用BERT的新提取器結(jié)構(gòu)和一種全局優(yōu)化摘要級ROUGE度量的新訓(xùn)練過程。SHARMA等[11]提出了一個實(shí)體驅(qū)動的摘要框架SENECA,來生成信息豐富且連貫的抽象摘要。實(shí)體感知內(nèi)容選擇模塊首先從輸入中識別顯著的句子,然后摘要生成模塊進(jìn)行跨句子信息壓縮和抽象以生成最終的摘要。ZHANG等[12]提出了一種新的基于預(yù)訓(xùn)練的編解碼框架,該框架可以根據(jù)輸入序列分兩階段生成輸出序列。編碼器,使用BERT將輸入序列編碼成上下文表示;解碼器,在第一階段,使用基于Transformer的解碼器來生成草稿輸出序列,在第二階段,屏蔽草稿序列的每個單詞并將其饋送給BERT,然后通過組合輸入序列和BERT生成的草稿表示,使用基于Transformer的解碼器來預(yù)測每個屏蔽位置的精煉單詞,此外在學(xué)習(xí)過程中還引入了強(qiáng)化學(xué)習(xí)目標(biāo)。SONG等[13]期望通過改進(jìn)通用單文檔摘要的框架來實(shí)現(xiàn)生成不同文本重用比例的摘要,提出了一個基于Transformer,僅包含解碼器的模型來控制生成摘要的復(fù)制率,在訓(xùn)練和解碼階段采取了多種策略生成從完全抽取到高生成度的不同摘要。
目前尚未有針對生成式文本摘要定制預(yù)訓(xùn)練目標(biāo),此外,生成式文本摘要任務(wù)也缺乏跨領(lǐng)域的系統(tǒng)評價。ZHANG等[14]提出了PEGASUS,一個序列到序列的模型,以間隙句生成為預(yù)處理目標(biāo),為生成式文本摘要定制。研究了幾種間隔句選擇方法,確定原則句選擇為最優(yōu)策略,展示了預(yù)訓(xùn)練語料庫、差距句比率、詞匯大小的效果,并擴(kuò)大了最佳配置,以在所有12個不同的下游數(shù)據(jù)集上獲得最先進(jìn)的結(jié)果。
受BERT成功的啟發(fā),SONG等[15]提出了基于編碼器-解碼器的語言生成的掩碼序列到序列預(yù)訓(xùn)練模型MASS。采用編碼器-解碼器框架,在給定句子剩余部分的情況下,重構(gòu)一個句子片段:它的編碼器取一個帶有隨機(jī)屏蔽片段(幾個連續(xù)標(biāo)記)的句子作為輸入,它的解碼器試圖預(yù)測這個屏蔽片段。從而,MASS可以聯(lián)合訓(xùn)練編碼器和解碼器來開發(fā)表示提取和語言建模的能力,通過進(jìn)一步微調(diào)各種低資源語言生成任務(wù)。LIU[16]提出了BERT的簡單變體BERTSUM,選擇性抽取文本中的句子作為最后的摘要,工作的重點(diǎn)在于獲得每個句子向量,然后對句子向量進(jìn)行一個二分類,判斷是否成為摘要。由于大規(guī)模、高質(zhì)量的標(biāo)注數(shù)據(jù)集不易獲取,ZHENG等[17]開發(fā)了一個基于圖的排序算法的無監(jiān)督摘要模型,并改進(jìn)了如何計算節(jié)點(diǎn)(也就是句子)的中心性。WANG等[1]分析了摘要任務(wù)中當(dāng)前域定義的局限性,并將其擴(kuò)展到文章出版物中,將域的常規(guī)定義從類別擴(kuò)展到文本摘要任務(wù)的數(shù)據(jù)源,然后重新調(diào)整多域匯總數(shù)據(jù)集的用途,并驗證不同域之間的差距如何影響神經(jīng)總結(jié)模型的性能。決定性點(diǎn)過程是抽取摘要的最佳技術(shù)之一,CHO等[18]采用決定性點(diǎn)過程提取多文檔摘要。DPP+BERT模型利用深度上下文化表示和優(yōu)化的力量,在多文檔摘要基準(zhǔn)上實(shí)現(xiàn)出色的性能。
LIU等[19]提出了如何將BERT有效地應(yīng)用于文本摘要,強(qiáng)調(diào)了文檔編碼對于摘要任務(wù)的重要性,為抽取和生成模型提出了一個通用框架。抽取式模型是通過堆疊幾個內(nèi)容轉(zhuǎn)換器層建立在這個編碼器之上。針對生成式模型提出了一種新的微調(diào)調(diào)度,它對編碼器和解碼器采用不同的優(yōu)化器,作為緩解兩者之間不匹配的手段(前者是預(yù)訓(xùn)練的,而后者不是)。
語言模型(Language Model,LM)的預(yù)訓(xùn)練已在各種語言理解任務(wù)上產(chǎn)生了令人印象深刻的性能和樣本效率。但是,仍不清楚如何最好地將經(jīng)過預(yù)訓(xùn)練的LM用于生成任務(wù),計算科學(xué)[20]等機(jī)構(gòu)使用經(jīng)過預(yù)訓(xùn)練的解碼器網(wǎng)絡(luò),網(wǎng)絡(luò)中相同的Transformer LM既對源進(jìn)行編碼,又生成摘要,這確保了網(wǎng)絡(luò)中的所有參數(shù),包括那些控制對源狀態(tài)關(guān)注的參數(shù)都已在微調(diào)步驟之前進(jìn)行了預(yù)訓(xùn)練。DONG等[21]提出一個能夠同時處理自然語言理解和生成任務(wù)UNILM模型。UNILM模型的預(yù)訓(xùn)練是基于3個目標(biāo):單向LM(包括從左到右和從右到左)、雙向LM和序列LM。模型采用一個共享參數(shù)的Transformer網(wǎng)絡(luò)的同時還使用了特定的self-attention masks用以控制預(yù)測時候所用到的上下文信息。在下游任務(wù)微調(diào)時候,可以將UNILM模型視為單向的編碼、雙向的編碼或者序列模型,以適應(yīng)不同的下游任務(wù)(自然語言理解和生成任務(wù))。
LEWIS等[22]提出了BART,一種用于預(yù)訓(xùn)練序列到序列模型的去噪自編碼器,通過使用任意噪聲函數(shù)來對文本進(jìn)行加噪,并學(xué)習(xí)模型以重建原始文本來訓(xùn)練BART。BELTAGY等[23]提出了SciBERT,一種基于BERT的預(yù)訓(xùn)練語言模型,以解決缺乏高質(zhì)量、大規(guī)模標(biāo)簽的科學(xué)數(shù)據(jù)的問題。此外廣泛使用的ROUGE的摘要自動評估依賴于參考和系統(tǒng)摘要之間的重疊。SUN等[24]從評價方法角度出發(fā),在文章語義相似度的計算中徹底拋棄了ROUGE和ngram共現(xiàn),系統(tǒng)地研究了嵌入余弦相似度,以衡量3個數(shù)據(jù)集上摘要的質(zhì)量。
基于預(yù)訓(xùn)練的摘要生成任務(wù)模型在高質(zhì)量大規(guī)模的數(shù)據(jù)集上進(jìn)行訓(xùn)練時,性能優(yōu)越,生成的摘要和人工生成的相似度很高,但當(dāng)數(shù)據(jù)質(zhì)量和效果都一般的情況下,模型效果就不是很優(yōu)異。
數(shù)據(jù)集的發(fā)展對模型的好壞有直接影響,起初摘要數(shù)據(jù)集大都來自新聞領(lǐng)域類數(shù)據(jù),很大程度上限制了摘要發(fā)展,但現(xiàn)在摘要數(shù)據(jù)集正在多元化發(fā)展。下面對幾種常用的英文數(shù)據(jù)集和中文摘要數(shù)據(jù)集進(jìn)行梳理。
2.1.1 Gigaword
英文Gigaword[25]最初于2003年由語言數(shù)據(jù)聯(lián)盟(LDC)制作,來自4個不同的國際英語新聞專線,包含了來自國內(nèi)和國際新聞服務(wù)的大約950萬篇各種新聞文章,其中包含3.8 M訓(xùn)練樣本,190 K驗證樣本和1 951個測試樣本。之后約翰霍普金斯大學(xué)人類語言技術(shù)卓越中心開發(fā)Annotated English Gigaword(2012年),為 英 語Gigaword第 五 版(LDC2011T07)添加了自動生成的句法和語篇結(jié)構(gòu)注釋。RUSH等[26]將神經(jīng)語言模型和基于注意機(jī)制的上下文編碼結(jié)合起來做摘要,使用帶注釋的Gigaword和DUC數(shù)據(jù)集,由標(biāo)準(zhǔn)的Gigaword組成,由于包含許多虛假的標(biāo)題文章對,基于啟發(fā)式過濾器后,訓(xùn)練集大約由400萬個標(biāo)題-文章對組成。
2.1.2 CNN/Daily Mail
CNN/Daily Mail數(shù)據(jù)集是HERMANN等[27]從美國有線新聞網(wǎng)(CNN)和每日郵報網(wǎng)(Daily Mail)中收集的大約100萬條新聞數(shù)據(jù)作為機(jī)器閱讀理解語料庫。語料庫的統(tǒng)計信息如表1所示。
表1 CNN&Dailymail語料庫的統(tǒng)計信息
SEE等[28]對原始數(shù)據(jù)或數(shù)據(jù)的非匿名版本進(jìn)行去標(biāo)簽等預(yù)處理后得到非匿名版數(shù)據(jù),包含287 226個訓(xùn)練對、13 368個驗證對和114 490個測試對。數(shù)據(jù)集更適用于抽取式摘要。
2.2.1 LCSTS
LCSTS數(shù)據(jù)集[29]是由哈爾濱工業(yè)大學(xué)的智能計算研究中心發(fā)布的一份基于中文微博網(wǎng)站新浪微博構(gòu)建的大規(guī)模中文短文本摘要數(shù)據(jù)集。該數(shù)據(jù)集由200多萬篇真實(shí)的中文短文組成,每篇短文的作者給出簡短的摘要,手動標(biāo)記了10 666個簡短摘要與其對應(yīng)的簡短文本的相關(guān)性。數(shù)據(jù)集由三部分組成,第一部分包含大規(guī)模(短文,總結(jié))對;第二部分包含10 666個人標(biāo)記(短文本,摘要)對;第三部分包含1 106對,由3個人同時打分。對第二部分和第三部分的短文本和相應(yīng)摘要之間的相關(guān)性進(jìn)行打分,分?jǐn)?shù)范圍從1到5,“1”表示“最不相關(guān)”,而“5”表示“最相關(guān)”,使用第三部分的3、4和5評分的對作為短文本摘要生成任務(wù)的測試集。第二部分和第三部分也可以用作訓(xùn)練集和測試集,該數(shù)據(jù)集是針對單文本的生成式摘要。
2.2.2 NLPCC
自然語言處理與中文計算會議(NLPCC)是由中國計算機(jī)學(xué)會(CCF)主辦的CCF中文信息技術(shù)專業(yè)委員會從2012年開始組織的年度學(xué)術(shù)會議。每年一屆至今已舉辦9次,NLPCC2015中包含一項面向微博的中文新聞?wù)蝿?wù),該數(shù)據(jù)集包括250篇來自新浪的新聞文本,包括原始文本和已經(jīng)分句的文本,NLPCC2017,NLPCC2018中包含一項單文檔摘要任務(wù),會議提供了數(shù)據(jù)集NLPCC。NLPCC2017,NLPCC2018中提供的訓(xùn)練集是相同的,該數(shù)據(jù)集由大量帶有參考摘要的中文新聞文章以及大量沒有參考摘要的新聞文章組成(對于半監(jiān)督方法),兩部分都包含5 000篇新聞文檔,提供不同的測試集來評估和比較不同的文檔摘要技術(shù)。數(shù)據(jù)集適用于單文本的生成式摘要。
SHARMA等[30]介紹了一個新的數(shù)據(jù)集,包括130萬份美國專利文獻(xiàn)記錄以及人類書面抽象摘要。特點(diǎn):摘要包含更豐富的話語結(jié)構(gòu)和更多的常用實(shí)體,更長的輸入序列(CNN/Daily Mail的平均3 572.8 VS 789.9個字),關(guān)鍵內(nèi)容在輸入中均勻分布,而在流行的基于新聞的數(shù)據(jù)集中,它通常集中在前幾句中,摘要中存在更少和更短的提取片段。
FABBRI等[31]提出了第一個新聞多文檔摘要數(shù)據(jù)集,它包含來自1 500多個不同網(wǎng)站的輸入文章以及從網(wǎng)站newser.com獲得的56 216篇文章的專業(yè)摘要。此外,作者提出了一種端到端模型,該模型在各種多文檔數(shù)據(jù)集(包括Multi-News)的自動和人工評估下實(shí)現(xiàn)了較好的結(jié)果。
通常大規(guī)模、高質(zhì)量的數(shù)據(jù)集可以極大的推進(jìn)一個研究方向的發(fā)展,目前很多摘要任務(wù)的模型都取得了優(yōu)異的結(jié)果,這離不開高質(zhì)量的數(shù)據(jù)集,因此采集多元化、高質(zhì)量的數(shù)據(jù)集以推動摘要的發(fā)展是未來的發(fā)展趨勢之一。
文本摘要的評估方法分為兩部分:自動評價方法和人工評價方法。自動評價方法就是比較模型生成的摘要和參考摘要之間的相似度;人工評價就是由專家對候選摘要進(jìn)行評價。
3.1.1 ROUGE
ROUGE(Recall-Oriented Understudy for Gisting Evaluation)由LIN[32]于2003年提出,是目前評估文本摘要和機(jī)器翻譯的一組指標(biāo)。其基本思想是通過將由一系列算法或技術(shù)自動生成的摘要或翻譯與一組通常由人工生成的理想摘要或翻譯進(jìn)行比對,通過對兩者之間的重疊單元(n元語法,單詞序列和單詞對)進(jìn)行計數(shù),從而得出分值,以衡量自動生成的摘要或翻譯與參考文本之間的相似性,來評價算法有效性。下面對ROUGE-N進(jìn)行介紹:
ROUGE-N:基于N-gram共現(xiàn)性進(jìn)行統(tǒng)計;ROUGE-L:基于最長共有字句的共現(xiàn)性精確度和召回率Fmeasure進(jìn)行統(tǒng)計;ROUGE-S:基于不連續(xù)二元組共現(xiàn)性精確度和召回率進(jìn)行統(tǒng)計;ROUGE-W基于帶權(quán)重的最長公有子句共現(xiàn)性精確度和召回率進(jìn)行統(tǒng)計。常用的評價指標(biāo)為ROUGE-N。
式中,n代表n-gram的長度,n-gram就是一個語句中連續(xù)的n個詞組成的詞組,其中Countmatch(gramn)代表同時出現(xiàn)在參考摘要和候選摘要中的n-gram數(shù),Count(gramn)代表出現(xiàn)在參考摘要中的n-gram的個數(shù)。
3.1.2 BLEU
BLEU由PAPINENI[33]于2002年被提出,最開始開發(fā)被應(yīng)用于機(jī)器翻譯評估中,其計算方式與ROUGE相似,區(qū)別是BLEU基于精確率,而ROUGE基于召回率。由于機(jī)器翻譯和自動文摘都可以被看作是從文本環(huán)境中產(chǎn)生的自然語言,因此作者認(rèn)為BLEU可以用來評估自動文摘或類似的NLG任務(wù)。在文本摘要任務(wù)中就是評價候選摘要和參考摘要的相似成度,和機(jī)器翻譯度量參考翻譯和機(jī)器翻譯的形式一致。其度量公式為:
式中,wn表示n-gram的權(quán)重。
式中,BP表示懲罰因子,c表示譯文的句子長度,r表示有效參考譯文的句子長度,公式表示若候選譯文長度小于參考譯文,會得到一個BP值,即短句懲罰因子,pn表示n-gram的精確度。
式中,Countclip是截斷計數(shù),Count是n-gram在候選翻譯中出現(xiàn)的次數(shù),max_ref_Count就是n-gram在參考翻譯中出現(xiàn)次數(shù)最大的值,兩者比較取最小。其優(yōu)點(diǎn)是計算簡單且迅速,它通過在測試語料庫上平均出單個句子的判斷錯誤,而不是試圖預(yù)測每個句子的準(zhǔn)確的人類判斷,從而與人類的判斷高度相關(guān);缺點(diǎn)是只考慮了參考譯文與候選譯文的n-gram的重合度,對源文的本質(zhì)意思欠缺考慮,不能很好地反映語義問題。
自動評價方法的關(guān)注點(diǎn)通常在候選摘要與文本的相似度,而忽略摘要的語義問題。人工評價方法一般從摘要內(nèi)容的可讀性、與原文檔的相關(guān)性、信息性、簡潔性方面、語義連貫性方面綜合考慮參考摘要,人工評價摘要相比自動評價較為精確,但是消耗人力時間,而且人工的主觀性方面容易收到外在因素的干擾。
互聯(lián)網(wǎng)時代,從1958年文本摘要任務(wù)提出至今,其經(jīng)歷了從緩慢到飛速發(fā)展的階段,目前文本摘要任務(wù)的模型性能表現(xiàn)優(yōu)異,但仍存在許多巨大的挑戰(zhàn)。
評價指標(biāo):ROUGE是目前被大家最廣泛使用的評價指標(biāo),但其偏向于考察摘要的重要性、流暢性等,通常無法反映一段摘要是否包含了事實(shí)性錯誤。因此,對ROUGE進(jìn)一步改進(jìn)或者提出一個能夠捕捉摘要的事實(shí)一致性的摘要評價指標(biāo)是未來研究者們所面臨的一個挑戰(zhàn)及發(fā)展趨勢。
數(shù)據(jù)集:目前文本摘要任務(wù)的模型在中文中可以熟練生成類似于文章標(biāo)題的短摘要,但在生成長摘要方面效果欠佳,現(xiàn)有高質(zhì)量的中文長文本數(shù)據(jù)集較少,中文數(shù)據(jù)集摘要的長度基本是一個文檔標(biāo)題的長度,長度較短,所以在互聯(lián)網(wǎng)的助力下,采集高質(zhì)量長文本數(shù)據(jù)集以及文本對應(yīng)的長摘要的數(shù)據(jù)集或其他高質(zhì)量語言數(shù)據(jù)集的產(chǎn)生對于摘要的發(fā)展也是一種推動。
模型適應(yīng)性:由于目前數(shù)據(jù)集的缺乏,領(lǐng)域涉及較少,且大多屬于新聞領(lǐng)域的,從而現(xiàn)有文本摘要模型大多集中在新聞領(lǐng)域,對其他領(lǐng)域適應(yīng)性較差,因此研究更加普適性的模型以適應(yīng)其他數(shù)據(jù)集是很有必要的。
模型結(jié)構(gòu):在目前摘要的預(yù)訓(xùn)練模型中,模型是從龐大的數(shù)據(jù)集中學(xué)習(xí),算法模型以及數(shù)據(jù)集愈發(fā)變大,進(jìn)行一次實(shí)驗所耗費(fèi)的人力、物力、財力都消耗巨大。故很有必要對預(yù)訓(xùn)練模型提出改進(jìn)。例如,改進(jìn)模型,使其具有歸納能力,從而可采用小數(shù)據(jù)集以及模型層數(shù)、數(shù)據(jù)集大小參數(shù)調(diào)整等都可以對模型性能產(chǎn)生影響。