赫俊民,魯夢(mèng)華,孟 魁
1.中國(guó)石化股份有限公司 勝利油田分公司,物探研究院,山東 東營(yíng) 257093
2.上海交通大學(xué) 電子信息與電氣工程學(xué)院,上海 200240
隨著當(dāng)今世界知識(shí)資源日益膨脹,每時(shí)每刻都有大量的信息從各種渠道推送給人們,人們?cè)谌粘I钪心芙佑|到的信息量級(jí)也呈幾何級(jí)上漲。這紛繁復(fù)雜數(shù)量龐大的各類信息知識(shí)和人們有限的獲取能力之間存在著信息過(guò)載的問(wèn)題。如何更加快速地將文字中的信息傳達(dá)給人們,最簡(jiǎn)單的方式就是對(duì)其進(jìn)行一定程度上的精簡(jiǎn)。自動(dòng)文本摘要技術(shù)以此為出發(fā)點(diǎn),致力于生成盡可能覆蓋原文本所要表達(dá)的關(guān)鍵信息,表述簡(jiǎn)練,并且內(nèi)容連貫,易于閱讀的摘要,保證信息的高覆蓋度、低冗余度、高可讀性。
早期的自動(dòng)摘要技術(shù)有基于圖的打分方法[1]、統(tǒng)計(jì)機(jī)器學(xué)習(xí)[2]、構(gòu)建語(yǔ)法分析樹(shù)[3]等等,這些方法應(yīng)用于不同的場(chǎng)景,難以生成質(zhì)量尚佳的摘要。而在文本摘要的類型上,分為抽取式摘要和生成式摘要兩種[4-5]:抽取式摘要直接從原文中抽取字、單詞、短語(yǔ)或者句子,大體上按照文本出現(xiàn)順序?qū)⑵渲匦逻M(jìn)行組合;生成式摘要?jiǎng)t需要對(duì)原文本進(jìn)行更深層次的理解,采用更加靈活的表達(dá)方式對(duì)其進(jìn)行重構(gòu)。
在中文單文檔摘要領(lǐng)域,由于缺少可靠的摘要數(shù)據(jù)集,目前有監(jiān)督的摘要模型研究方面并不多見(jiàn),而無(wú)監(jiān)督摘要模型中最為流行的是TextRank[6],它使用句子之間的相似程度建立帶權(quán)圖,并在此基礎(chǔ)上獲得每句句子的重要性分?jǐn)?shù),最終選取相對(duì)重要的句子作為摘要輸出。由于受到其無(wú)監(jiān)督的形式限制,有時(shí)難以找到文中相對(duì)關(guān)鍵的信息。
本文構(gòu)造了中文抽取式自動(dòng)摘要語(yǔ)料庫(kù),該語(yǔ)料庫(kù)題材廣泛,摘要數(shù)目達(dá)到20萬(wàn)篇以上,并在此基礎(chǔ)上設(shè)計(jì)了一種有監(jiān)督的文檔級(jí)抽取式摘要模型——DSum-SSE(Document Summarization with SPA Sentence Embedding)。該模型使用含Pointer 機(jī)制[7]與注意力機(jī)制[8]的摘要框架SPA(Sequence-to-Sequence frame with Pointer and Attention)形成句子級(jí)別摘要,作為句子向量的編碼,在編碼器端引入了選擇性編碼,并對(duì)句子進(jìn)行層次化的表示,在解碼器端則利用極端化的Pointer機(jī)制對(duì)句子進(jìn)行摘取,最終獲得文檔級(jí)別的句子摘要。
含Pointer 機(jī)制與注意力機(jī)制的自動(dòng)摘要框架SPA是一種句子級(jí)生成式文本摘要模型,其建立主要目的是替句子級(jí)別向量編碼提供一個(gè)指導(dǎo),即在完成句子級(jí)概括式文本摘要任務(wù)的過(guò)程中,其編碼器所得的輸出可以表征句子的特征。本方案將該特征用于文檔級(jí)別的抽取式摘要任務(wù)中。
詞嵌入即將單詞的one-hot 編碼wi映射為低維稠密向量xi,該向量表征了單詞的語(yǔ)法信息和語(yǔ)義信息。在實(shí)現(xiàn)上,由于單詞的數(shù)目非常多,所以單詞對(duì)應(yīng)向量的維度通常較高,人為指定單詞向量每個(gè)維度所對(duì)應(yīng)的含義是極其困難的,本文選用了GloVe(Global Vector)[9]算法進(jìn)行詞嵌入。其核心思想在于,相比單詞同時(shí)出現(xiàn)時(shí)的概率,單詞同時(shí)出現(xiàn)時(shí)的概率的比率能更好地區(qū)分單詞,其更好地利用了全局上的共現(xiàn)信息。
端到端(Sequence-to-Sequence)框架[10]是一種新型的編碼器-解碼器架構(gòu),它將序列轉(zhuǎn)化任務(wù)處理過(guò)程分為兩個(gè)部分:編碼器通過(guò)讀取輸入,對(duì)其進(jìn)行理解和處理,并將其表示為一個(gè)包含系統(tǒng)所需信息的稠密向量;而解碼器讀入編碼器生成的稠密向量,將其轉(zhuǎn)化為任務(wù)所需的合法輸出。
編碼器端的輸入為單詞向量表示序列x=(x1,x2,…,xn),其中xi為一個(gè)單詞的向量表示,由單詞的one-hot編碼wi映射得到。考慮到實(shí)際的應(yīng)用中,當(dāng)前時(shí)刻的輸出不僅與前一時(shí)刻的輸入相關(guān),通常和后一時(shí)刻的輸入也是相關(guān)的,所以這里選用雙向GRU(Bidirectional Gate Recurrent Unit,BiGRU)[11]作為循環(huán)神經(jīng)網(wǎng)絡(luò)單元。BiGRU可以結(jié)合上下文的信息獲得單詞在結(jié)合整體句子含義的向量(hi,h′i),也可以獲得表征了句子整體含義的向量c,其具體表示如公式(1)。
其中,(h1,h2,…,hn)和分別為前向連接所得的所有隱藏狀態(tài)向量和后向連接所得的隱藏狀態(tài)向量,函數(shù)q有多種類型可以選取,本文將前向連接和后向連接的最后一個(gè)隱藏向量hn和相連接的方式來(lái)對(duì)句子含義進(jìn)行表示。
解碼器端引入了注意力機(jī)制,該機(jī)制由Bahdanau等人提出,該機(jī)制模仿了生物觀察行為的內(nèi)部過(guò)程,是一種將內(nèi)部經(jīng)驗(yàn)和外部感覺(jué)對(duì)齊從而增加部分區(qū)域的觀察精細(xì)度的機(jī)制。在引入注意力機(jī)制之后,解碼器端需要的不是稠密向量c,而是對(duì)應(yīng)時(shí)間步的向量ct,即對(duì)于每一個(gè)時(shí)間步,均有一個(gè)特定的上下文向量ct進(jìn)行表示。其表示如公式(4):
其中,αti表示在時(shí)刻t時(shí)輸入的單詞wt對(duì)輸入端單詞wi關(guān)注程度的權(quán)重大小,在計(jì)算中由單詞wt對(duì)應(yīng)向量xt直接參與運(yùn)算,Bahdanau使用公式(5)、(6)對(duì)其進(jìn)行計(jì)算:
其中,eti反映了待編碼單詞和輸入單詞之間的匹配程度,單詞之間的相關(guān)程度越高,該值越高,系統(tǒng)也將越關(guān)注該輸入單詞;We、Ue、ve均為神經(jīng)網(wǎng)絡(luò)需要進(jìn)行訓(xùn)練的參數(shù)。
解碼器使用GRU 作為循環(huán)神經(jīng)網(wǎng)絡(luò)單元,通過(guò)讀取t-1 時(shí)刻生成單詞的詞向量-1,t-1 時(shí)刻生成的隱層狀態(tài)st-1,以及t時(shí)刻的上下文向量ct,獲得當(dāng)前時(shí)刻t的隱層狀態(tài)st。特別的,編碼器的初始隱層狀態(tài)通過(guò)編碼器反向連接的最后一個(gè)隱藏層狀態(tài)計(jì)算獲得,其具體公式如(7)、(8):
對(duì)于t時(shí)刻的輸出單詞的概率分布,由t-1 時(shí)刻生成單詞的詞向量-1,t時(shí)刻的上下文向量ct,以及當(dāng)前時(shí)刻t的隱層狀態(tài)st所決定,這些參數(shù)進(jìn)行一個(gè)線性變換之后再歸一化,其具體公式如(9)、(10):
其中Wo、Uo、Vo、To為權(quán)重矩陣,為神經(jīng)網(wǎng)絡(luò)需要訓(xùn)練的參數(shù)。
未登錄詞問(wèn)題是指在輸出單詞時(shí)一些重要詞匯并未登陸在詞典中,難以在詞典中尋找含義近似的詞語(yǔ)進(jìn)行輸出,在面對(duì)一些名字或者專有名詞時(shí)該問(wèn)題尤為突出。這里引入了Pointer機(jī)制對(duì)其進(jìn)行處理。
在解碼中,選擇機(jī)制輸出概率值pgen,pgen∈[0,1],該值由t-1 時(shí)刻生成單詞的詞向量-1,編碼器的隱藏狀態(tài)st,以及當(dāng)前時(shí)刻t的上下文向量ct計(jì)算得到,具體如公式(11):
其中,Ww,Ws,Wc為權(quán)重矩陣,bp為偏置項(xiàng),這些參數(shù)需要在網(wǎng)絡(luò)中進(jìn)行學(xué)習(xí)。pgen表征了選擇預(yù)設(shè)詞典中單詞的概率,該值越高,越容易從原詞典中選擇單詞輸出,最終生成某個(gè)單詞的概率公式具體如式(12):
其中,Pv為在原先詞典中采樣,得到單詞的概率分布。
摘要重復(fù)生成問(wèn)題即在摘要生成時(shí),多次生成原來(lái)文本中較為重要的部分。針對(duì)摘要重復(fù)生成問(wèn)題,本文在處理時(shí)引入了Coverage機(jī)制[12],該機(jī)制的核心思想在于不再關(guān)注已經(jīng)關(guān)注過(guò)的輸入,這也是一個(gè)與注意力機(jī)制相結(jié)合的機(jī)制。在注意力機(jī)制中,額外引入一個(gè)參量covt,該參量表征了對(duì)原句中單詞提供關(guān)注度的累計(jì)覆蓋程度,其計(jì)算如式(13):
該參量將作為計(jì)算注意力時(shí)的額外輸入,因此式(6)可改寫為:
其中,We、Ue、Ve為權(quán)重矩陣,ve為權(quán)重向量。
目前文檔級(jí)別的抽取式摘要還不夠成熟,特別是對(duì)于中文的摘要,由于中文單詞繁多,語(yǔ)法相對(duì)復(fù)雜,因此本文選擇了相對(duì)更加穩(wěn)定的抽取式摘要以保證摘要的可讀性。本文所使用的模型主要結(jié)合了句子編碼框架SPA,并結(jié)合其他的方法,構(gòu)造了一個(gè)文檔級(jí)別的抽取式摘要模型——采用SPA 句子編碼的文檔級(jí)摘要模型(Document Summarization with SPA Sentence Embedding,DSum-SSE)。其整體結(jié)構(gòu)如圖1。
圖1 DSum-SSE整體結(jié)構(gòu)圖Fig.1 Architecture of DSum-SSE
句子是文檔級(jí)別抽取式摘要的最小單元,在句子級(jí)別的摘要框架中,已經(jīng)實(shí)現(xiàn)了句子整體含義的向量表示,且由于原任務(wù)也為摘要任務(wù),所以該表示對(duì)句子的核心特征加以關(guān)注。在此基礎(chǔ)上,需要結(jié)合文檔的整體含義對(duì)其進(jìn)行表示。本文中引入了以BiGRU為單元的循環(huán)神經(jīng)網(wǎng)絡(luò),在引入該網(wǎng)絡(luò)后,輸入所對(duì)應(yīng)的隱藏向量即可表示該句子在考量了文檔中其他句子含義之后所得的表示向量。
考慮到摘要任務(wù)中句子位置的重要性,本文對(duì)于句子表示向量額外添加了正弦位置編碼[8]。正弦位置編碼方法由Vaswani等提出,在該方法中,引入了一個(gè)正弦波函數(shù)和一個(gè)余弦波函數(shù),由這兩個(gè)函數(shù)生成與原表示向量維度相同的位置向量,與原先的表示向量進(jìn)行疊加。對(duì)于表示向量vpos,具體表示如公式(15)、(16):
其中,pos為表示向量vpos在所有表示向量中的順序位置,dmodel為所有需要添加位置信息的表示向量的總數(shù),在本文中即為待摘要文檔中句子的數(shù)目。
對(duì)于句子的編碼可以將其視為一個(gè)編碼器,輸入為未經(jīng)處理的原文本信息,輸出為句子的表達(dá)向量,在經(jīng)過(guò)編碼器的編碼,得到句子結(jié)合全文信息和位置信息之后的表達(dá)向量as后,將輸入到編碼器中,編碼器結(jié)合表達(dá)向量以及編碼其中的隱藏向量,利用Pointer機(jī)制和注意力機(jī)制,對(duì)句子進(jìn)行摘取。
對(duì)于句子的編碼可以將其視為一個(gè)編碼器,輸入為未經(jīng)處理的原文本信息,輸出為句子的表達(dá)向量,在經(jīng)過(guò)編碼器的編碼,得到句子結(jié)合全文信息和位置信息之后的表達(dá)向量as后,將輸入到編碼器中,編碼器結(jié)合表達(dá)向量以及編碼其中的隱藏向量,利用Pointer機(jī)制和注意力機(jī)制,對(duì)句子進(jìn)行摘取。
Pointer機(jī)制原先應(yīng)用于生成式摘要,它克服了生成式摘要很難解決的未登錄詞問(wèn)題,在輸出詞匯進(jìn)行選擇時(shí)會(huì)有傾向地從原文本中或者詞匯表中選取。而處理抽取式摘要時(shí)也可以利用這種思想,不同的是,抽取式摘要對(duì)的全部?jī)?nèi)容都從原文本中進(jìn)行選取,是一種極端化的Pointer機(jī)制。
句子在選取時(shí),首先通過(guò)句子結(jié)合全文后的表示向量as使用注意力機(jī)制得到上下文向量et,再結(jié)合表示向量as上下文向量et對(duì)句子抽取的概率進(jìn)行計(jì)算,其具體的計(jì)算公式如式(17)、(18):
zt表示解碼器中的隱藏狀態(tài),、Wa1、Wa2為需要學(xué)習(xí)的參數(shù)。
此外,在計(jì)算得到p(st|s1,s2,…,st-1)之后,接下來(lái)面臨的問(wèn)題可以看作一個(gè)搜索問(wèn)題,本文在這里選用了集束寬為4 的集束搜索[13],這可以在權(quán)衡運(yùn)算時(shí)間的情況下盡可能輸出近似最優(yōu)的。
對(duì)于篇幅不長(zhǎng)的文檔來(lái)說(shuō),前文中所做的處理能在較短時(shí)間內(nèi)得出質(zhì)量較好的摘要,但是隨著篇幅的增加,考慮的信息量也大大增加,摘要質(zhì)量會(huì)有所下降??紤]到實(shí)際上即使是較長(zhǎng)的文本,表達(dá)其主旨的句子在總體中的占比也是較低的,所以引入選擇性編碼,以對(duì)一些無(wú)重要信息的句子進(jìn)行剔除。
選擇性編碼[14]原用于句子級(jí)別的生成式摘要任務(wù),實(shí)現(xiàn)于端到端框架之下,由Zhou 等人提出。將該方法遷移到文檔級(jí)別的摘要任務(wù)中同樣適用,這里將原先編碼器的GRU 單元中最后一個(gè)時(shí)刻的前向表示向量hn和后向表示向量相連接,以作為文檔主旨的表示向量vdoc。之后將vdoc和句子表示向量as作為參數(shù)輸入到選擇門sGate中,并得到新的表示向量as,其具體如公式(22)、(23):
其中,Wg和Ug為需要訓(xùn)練的參數(shù)。
本實(shí)驗(yàn)中使用的句子級(jí)別的文本摘要以LCSTS(A Large-Scale Chinese Short Text Summarization Dataset)[15]作為數(shù)據(jù)集,其數(shù)據(jù)來(lái)源于知名社交平臺(tái)微博,其中包含了超過(guò)200 萬(wàn)真實(shí)的中文短文本數(shù)據(jù),以及每個(gè)文本作者給出的摘要,同時(shí)作者團(tuán)隊(duì)手動(dòng)標(biāo)注了10 666份文本摘要。
文檔級(jí)別的文本摘要數(shù)據(jù)集使用了本文自己構(gòu)造的數(shù)據(jù)集CDESD,其中包括超過(guò)20 萬(wàn)對(duì)的文檔以及其對(duì)應(yīng)抽取式摘要,該摘要來(lái)源于清華新聞數(shù)據(jù)集,其中包括時(shí)尚、金融、體育等各種新聞?lì)悇e,對(duì)應(yīng)的摘要通過(guò)手工標(biāo)注得到,并抽取其中數(shù)目超過(guò)5 000的數(shù)據(jù)對(duì),由專業(yè)人士進(jìn)行了評(píng)判,其表現(xiàn)良好。原文的篇幅從300字以上到近2 000字不等,摘要的篇幅則在400字以下,多為300字左右。
3.2.1 句子級(jí)生成式文本摘要模型SPA
在詞向量的編碼方式上,選擇GloVe 方法,生成的詞語(yǔ)與向量對(duì)超過(guò)60 萬(wàn)對(duì),向量維數(shù)為300 維。所設(shè)置的訓(xùn)練批次大小為64,即一次輸入64 個(gè)原文本和對(duì)應(yīng)摘要組成的二元組,所使用的優(yōu)化方法為Adam,學(xué)習(xí)率會(huì)不斷衰減,考慮到時(shí)間成本與準(zhǔn)確率,將其初始值設(shè)為0.003。在編碼器中,取輸入訓(xùn)練集中頻率最高的詞匯作為源端詞匯表,共計(jì)30 000 個(gè),其余單詞使用
本文中所使用的句子級(jí)別摘要算法SPA 將與以下的模型進(jìn)行比較:
(1)RNN:由雙向門循環(huán)單元和單向門循環(huán)單元分別作為編碼器和解碼器,由Hu等人提出[15]。
(2)SRB:在端到端框架下通過(guò)提高最高語(yǔ)義相似度以提高摘要性能,由Ma等人提出[16]。
(3)CopyNet:結(jié)合Copy機(jī)制的端到端框架,以解決未登錄詞問(wèn)題,由Gu等人提出[17]。
(4)DGRD:在編碼其中加入變分自動(dòng)編碼機(jī)制(Variational AutoEncoder,VAE),由Li等人提出[18]。
(5)CGU:在端到端框架中,引入新的全局編碼機(jī)制以處理中間向量,由Lin等人提出[19]。
(6)superAE:在端到端框架中加入針對(duì)摘要的自編碼器對(duì)學(xué)習(xí)過(guò)程加以引導(dǎo),由Ma等人提出[20]。
表1 展示了本文所使用的模型與上述模型性能的差異??梢钥闯?,本文所使用的SPA 模型取得了36.03的ROUGE-1、23.32 的ROUGE-2 及34.31 的ROUGE-L的結(jié)果,相比于效果表現(xiàn)最好的CGU模型和superAE模型還有一定差距。但是其較好的表現(xiàn)可以證明其對(duì)句子編碼有出色的表達(dá)能力。
表1 LCSTS數(shù)據(jù)集上的ROUGE分?jǐn)?shù)Table 1 ROUGE score on LCSTS dataset
3.2.2 文檔級(jí)抽取式文本摘要模型DSum-SSE
在文檔級(jí)別模型的訓(xùn)練中,訓(xùn)練的批次大小為64,所使用的優(yōu)化方法為Adam??紤]時(shí)間成本與準(zhǔn)確率,初始學(xué)習(xí)速率設(shè)置為0.003。
由于在句子級(jí)別生成式摘要模型中編碼器的GRU單元隱藏層大小設(shè)置為150,所以文檔級(jí)別抽取式模型中句子向量的表示長(zhǎng)度為300,編碼器中GRU單元的隱藏層大小設(shè)置為256。
考慮到當(dāng)前沒(méi)有非常成熟的中文文檔級(jí)別的抽取式摘要數(shù)據(jù)集,所以當(dāng)前性能較好的文檔級(jí)別有監(jiān)督抽取式摘要模型很難找到,因此這里選取了無(wú)監(jiān)督模型中性能表現(xiàn)較好,也是現(xiàn)在應(yīng)用最多的TextRank 模型作為比較。在TextRank 模型的設(shè)置中,首先對(duì)文檔中每句句子進(jìn)行打分,并按照分?jǐn)?shù)對(duì)其進(jìn)行降序排列,抽取當(dāng)前分?jǐn)?shù)最高的句子加入輸出的摘要句集合中,直至字?jǐn)?shù)達(dá)到所要求的上限,或是已經(jīng)輸出原文檔中的所有句子,這里設(shè)置的文本字?jǐn)?shù)上限為300,最后再將輸出摘要句集合中的所有句子按照在原文中出現(xiàn)的順序進(jìn)行排序。
使用本文中提出的數(shù)據(jù)集進(jìn)行測(cè)試之后,本文的抽取式模型和TextRank 模型的具體性能表現(xiàn)如表2。其中,DSum-SSE(wb)指的是將DSum-SSE 模型中句子編碼的方式變?yōu)樗性~向量的均值,DSum-SSE(pos)為加入位置編碼的模型,DSum-SSE(Sel)為加入選擇性編碼機(jī)制的模型。
表2 CDESD數(shù)據(jù)集上的ROUGE 分?jǐn)?shù)Table 2 ROUGE score on CDESD dataset
可以看到模型整體性能遠(yuǎn)優(yōu)于TextRank,這是因?yàn)橛斜O(jiān)督模型能夠更好地按照數(shù)據(jù)集的實(shí)際情況,對(duì)輸出摘要的函數(shù)進(jìn)行擬合。
對(duì)比不同DSum-SSE設(shè)置的實(shí)驗(yàn)結(jié)果,可以發(fā)現(xiàn):
(1)DSum-SSE(wb)的ROUGE分?jǐn)?shù)相比DSum-SSE低了很多,說(shuō)明詞袋模型對(duì)句子含義的表達(dá)能力明顯弱于SPA模型。
(2)引入了位置編碼機(jī)制(pos)之后,模型在性能上反而有所下降。因?yàn)槲恢镁幋a原先是應(yīng)用于使用多頭注意力機(jī)制來(lái)代替循環(huán)神經(jīng)網(wǎng)絡(luò)模型的。在該模型中,需要通過(guò)增加額外的位置信息來(lái)避免模型僅僅是一個(gè)高明的詞袋模型。在DSum-SSE模型中,位置信息實(shí)際上是可以通過(guò)循環(huán)神經(jīng)網(wǎng)絡(luò)的訓(xùn)練來(lái)獲得,盡管引入額外的位置信息可以在一定程度上強(qiáng)調(diào)摘要模型中句子順序位置的重要性,但并非必要。
(3)引入了選擇性編碼(Sel)之后,模型在性能上有一定提升,這很大程度上在于模型在實(shí)現(xiàn)文本摘要的過(guò)程中,添加了額外的信息過(guò)濾機(jī)制,使得摘要在表達(dá)上更加精準(zhǔn)。
本文還對(duì)句子抽取的概率分布進(jìn)行了可視化的分析。圖2 表示了兩篇文章在每次選取摘要句子時(shí)的概率分布,其中色塊的行數(shù)表示輸出的摘要中句子總數(shù)(包含文檔結(jié)尾符號(hào)
圖2 句子抽取的概率分布圖Fig.2 Probability distribution of sentence extraction
可以看到,在應(yīng)對(duì)篇幅不同的文檔時(shí),注意力的關(guān)注中心基本上均為從文檔首漸漸到文檔結(jié)尾,在少數(shù)情況下會(huì)發(fā)生輸出順序的顛倒,即傾向于先輸出在文檔中位置靠后的句子,而這種情況更有可能發(fā)生在篇幅較長(zhǎng)的文檔中??紤]到實(shí)際情況中,確實(shí)有可能出現(xiàn)文本局部上出現(xiàn)倒敘的情況,本文模型在決定輸出句子時(shí),考慮了句子的位置信息與語(yǔ)義信息,所以可以對(duì)這種倒敘在摘要中修正為正敘,這在很多非重要信息被省略的情況下可以更加通順地對(duì)文章含義進(jìn)行表達(dá)。
文檔級(jí)文本摘要相比于句子級(jí)別的摘要,在信息的總量上更多。但在中文單文檔摘要領(lǐng)域,由于缺少可靠的數(shù)據(jù)集,有監(jiān)督的摘要模型并不成熟。
本文構(gòu)造了一個(gè)中文抽取式自動(dòng)摘要語(yǔ)料庫(kù)——CDESD,文檔題材類型包含時(shí)尚、金融、體育、財(cái)經(jīng)、政治等各方面,摘要數(shù)目超過(guò)20萬(wàn)篇。在此基礎(chǔ)上,設(shè)計(jì)了一個(gè)有監(jiān)督的文檔級(jí)別文本摘模型DSum-SSE,將句子級(jí)別的生成式摘要作為一個(gè)子任務(wù)進(jìn)行討論。在本文構(gòu)建的中文語(yǔ)料庫(kù)上進(jìn)行實(shí)驗(yàn)的結(jié)果表明,DSum-SSE可以生成更優(yōu)質(zhì)的摘要,有能力代替現(xiàn)在流行的無(wú)監(jiān)督式抽取式摘要算法TextRank。
目前DSum-SSE還存在一定不足,模型在摘要的篇幅上輸出較為固定,即本文模型很難對(duì)于一篇較長(zhǎng)的文檔給出多個(gè)壓縮程度不同的摘要。在之后的研究當(dāng)中,可以考慮構(gòu)造同一原文本對(duì)應(yīng)多個(gè)篇幅不同摘要的數(shù)據(jù)集,訓(xùn)練多個(gè)適應(yīng)于不同狀況的模型。