蔣亞芳,嚴(yán) 馨,徐廣義,周 楓,鄧忠瑩
(1.昆明理工大學(xué)信息工程與自動化學(xué)院,云南 昆明 650500; 2.昆明理工大學(xué)云南省人工智能重點(diǎn)實(shí)驗(yàn)室,云南 昆明 650500; 3.云南南天電子信息產(chǎn)業(yè)股份有限公司,云南 昆明 650041)
多文檔摘要抽取的研究是自然語言處理研究的一個分支,多文檔摘要抽取是將大量的信息用簡短的語言進(jìn)行高度濃縮,提煉成一個簡短連貫的摘要。多文檔摘要的相關(guān)研究可以讓我們迅速地篩選和瀏覽文檔的重要信息,很好地緩解了信息過載所帶來的困擾。多文檔自動摘要技術(shù)經(jīng)過多年的發(fā)展,取得了一定的研究成果。Radev等人[1]提出了利用聚類中心與聚類簇中句子的相似程度并結(jié)合句子位置抽取摘要;Erkan等人[2]通過LexRank算法計算句子重要程度的圖模型抽取摘要;Bian等人[3]利用LDA主題模型,計算出文檔的主題分布在語料中的重要度,并通過計算句子的后驗(yàn)概率來生成最終的摘要;Wu等人[4]利用基于主題模型的新模式,抽取出豐富度高的文本摘要;Li等人[5]通過將貝葉斯模型與句子自身的特征相結(jié)合的方法,實(shí)現(xiàn)了摘要的抽??;Wang等人[6]提出利用句子主題概率模型BSTM(Bayesian Sentence-based Topic Models),把每個主題中概率最高的句子抽出來,構(gòu)成摘要;Yang等人[7]提出了一種將n-gram融入到分層潛在主題的分層貝葉斯主題模型,在層次主題的基礎(chǔ)上抽取出最終的摘要。以上研究都是基于機(jī)器學(xué)習(xí)的方法得到摘要,但是忽略了句子與句子之間的語義關(guān)系對抽取摘要的影響。
隨著深度學(xué)習(xí)算法的發(fā)展,已被廣泛應(yīng)用于多文檔摘要抽取任務(wù)中。Kaageback等人[8]提出通過對詞向量的各種運(yùn)算來構(gòu)建句子和文檔的表示向量空間模型,以抽取文檔的句子;Liu等人[9]提出了一個2層的稀疏表示模型,利用稀疏編碼技術(shù),解決在覆蓋率、稀疏性以及多樣化等方面的問題,進(jìn)而提取多文檔摘要;Yin等人[10]提出一個基于卷積神經(jīng)網(wǎng)絡(luò)的語言模型,通過卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)建模句子表示,使用一個多樣化的選擇過程來抽取多文檔摘要;Nallapati等人[11]提出一種神經(jīng)網(wǎng)絡(luò)模型,通過生成式的損失函數(shù)來訓(xùn)練抽取式摘要;Yasunaga等人[12]提出一種融合句子關(guān)系圖和神經(jīng)網(wǎng)絡(luò)模型的方法,即GCN(Graph Convolutional Network),來增加句子重要性的建模方式以抽取摘要。Narayan等人[13]利用在Seq2Seq 框架中加入外部特征的方式來抽取摘要;Zhou等人[14]提出了一種端到端的抽取式文本摘要模型,即NEDSUM(Neural Extractive Document SUMmarization),通過端到端的神經(jīng)網(wǎng)絡(luò)框架,并聯(lián)合學(xué)習(xí)對句子進(jìn)行評分和選擇,實(shí)現(xiàn)文檔摘要抽取。通過對神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練,將對句子的選擇融入到打分模型中,進(jìn)而抽取摘要。以上研究利用了深度學(xué)習(xí)模型,并融入了許多文本特征,在一定程度上提高了摘要的質(zhì)量。這些研究融入了一些附加條件,使抽取的摘要覆蓋率較高,冗余較少,但是有監(jiān)督的神經(jīng)網(wǎng)絡(luò)模型需要大量有標(biāo)注的數(shù)據(jù)集作為訓(xùn)練數(shù)據(jù),在一定程度上存在著模型較為復(fù)雜的問題。
本文借鑒上述研究,針對現(xiàn)有多文檔摘要抽取方法不能很好地將句子主題信息和語義信息相融合的問題,提出了一種融合多信息句子圖模型的多文檔摘要抽取方法。該方法首先以句子為單位構(gòu)建圖的節(jié)點(diǎn);然后利用基于句子的貝葉斯主題模型和詞向量模型得到句子主題概率相關(guān)性和語義相關(guān)性,對兩者進(jìn)行加權(quán)求和,同時結(jié)合主題信息和語義信息作為句子圖模型的邊權(quán)重;最后,借助句子圖最小支配集的通用摘要抽取方法來得到多文檔的摘要。
本文基于最小支配集的句子圖模型,并融合主題信息以及具有語義信息的句向量計算句子的重要程度,該方法包括4個部分:主題相似性表示,詞向量模型構(gòu)建,基于句向量的語義相似性表示,最小支配集的句子關(guān)系圖生成摘要表示,如圖1所示。
Figure 1 Multi-document summarization extraction framework based on multi-information sentence graph model圖1 融合多信息句子圖模型的多文檔摘要抽取框架
基于最小支配集的句子圖模型[15],使用最小路徑覆蓋算法得出摘要,該模型使用基于TF-IDF(Term Frequency-Inverse Document Frequency)的向量方法,判斷句子與句子之間是否存在邊,在抽取的過程中,抽取摘要僅僅描述某一個主題信息,從而會導(dǎo)致抽取的摘要概括性低。引入主題因素對邊權(quán)重的影響,可以幫助理解上下文,并指導(dǎo)摘要抽取過程中的句子選擇?;诰渥拥呢惾~斯主題模型BSTM[6]是一個生成概率模型,該模型選擇一種有效的參數(shù)估計變分貝葉斯算法,得到句子主題模型的概率分布。
整個文檔集用D表示,對于每個文檔d∈D,該基于句子的貝葉斯主題模型,生成單詞是獨(dú)立于文檔的,本文使用句子語言模型作為基礎(chǔ)模型。這樣做的好處是,每個主題都用有意義的句子來表示,而不是直接用關(guān)鍵字來表示。句子語言模型公式表示如下:
p(Si=s|Ti=t)p(Ti=t|θd)
(1)
其中,θd表示文檔d的模型參數(shù),Ti表示第i個主題集,Si表示第i個unigram模型,s表示句子,Wi表示句子中的詞。
在此,我們使用參數(shù)Ust來表示給定主題t的基礎(chǔ)模型句子s的概率,p(Si=s|Ti=t)=Ust,其中,∑sUst=1。我們使用參數(shù)θd來表示給定文檔d中主題t的概率,其中,∑tθdt=1,給定概率的集合{Bws},即p(Wi=w|Si=s)=Bws,通過句子s的經(jīng)驗(yàn)概率分布詞來獲得Bws。
對于抽取摘要任務(wù),我們關(guān)注的是如何用給定的句子描述每個主題。首先,對句子主題矩陣U、文檔主題矩陣V初始化,通過矩陣相乘并歸一化來更新U和V,如式(2)和式(3)所示:
(2)
(3)
上述步驟需要通過最大期望算法EM來尋找最優(yōu)的變分界。為了避免內(nèi)部EM循環(huán),可以直接優(yōu)化變分界,得到更新規(guī)則,變分界最大化定義為:
(4)
在獲得句子主題矩陣的前提下,句子與句子之間就可以利用其對應(yīng)的主題分布進(jìn)行映射表示,因此,計算2個句子的相似度就可以通過計算與之對應(yīng)的主題概率分布來實(shí)現(xiàn)。大體上,都使用KL距離[16]作為相似度的判斷依據(jù)。KL距離如式(5)所示:
(5)
其中,θp和θq表示句子p和q的主題概率分布,TN為主題個數(shù),θp,i表示第i個主題在句子p中的主題概率分布。隨著KL距離值越小,句子與句子之間的主題相似性就越高,通過式(6)對距離值進(jìn)行轉(zhuǎn)換用以表征句子主題相似度:
(6)
其中,Rt-sim(p,q)表示句子p和句子q之間的主題相似度,該相似度的取值為[0,1]。
詞向量是將單詞映射到向量空間里,并用向量來表示,最早出現(xiàn)在2001年,Bengio等人[17]提出了神經(jīng)網(wǎng)絡(luò)語言模型,利用神經(jīng)網(wǎng)絡(luò)模型對上下文及目標(biāo)詞之間的關(guān)系進(jìn)行建模,與此同時得到詞向量。 在此背景下,訓(xùn)練詞向量模型在2013年就被Mikolov等人[18,19]提出,詞表示模型有CBOW和Skip-gram模型,有效地將每一個詞語表征為K維的實(shí)數(shù)向量形式,可以充分反映詞語的依賴關(guān)系。通過Skip-gram模型訓(xùn)練出來的詞向量不僅具有更好的語義區(qū)分性,同時還可以更全面地評價詞語間的語義關(guān)系,因此選擇Google的開源工具包word2vec[20],使用Skip-gram模型進(jìn)行訓(xùn)練,鑒于本文不是針對詞模型訓(xùn)練的評價,在此并未做該模型不同參數(shù)的特定實(shí)驗(yàn)。
句子的語義信息對摘要抽取時存在著一定程度的影響,最小支配集MDS(Minimum Dominant Set)的句子圖模型沒有考慮語義信息對摘要抽取的影響。詞向量的研究熱潮已經(jīng)成功激發(fā)了用于生成長文本片段(句子和段落)的語義向量的研究。詞嵌入,其含義是使用具有語義相似性的向量來表征語言文本中的詞語。引申為句子嵌入,則是用向量來表征文本中的句子,使得文本語句擁有了表征自己語義信息的向量。由此可以很好地讓語義信息融入到摘要抽取以及文本信息檢索等領(lǐng)域。本文使用一種無監(jiān)督模型求句向量的方法[21],計算詞嵌入在未標(biāo)記的語料中,通過詞向量的加權(quán)平均來表示句子,然后使用PCA/SVD方法移除句向量在第1主成分上的投影,最終得到句向量。
2.3.1 多文檔文本的句向量表示
針對多文檔句向量的表示,利用一種詞向量的加權(quán)平均求句向量的方法。首先對多文檔文本集進(jìn)行預(yù)處理(分詞、去停用詞、去除標(biāo)點(diǎn)符號),利用詞向量模型訓(xùn)練得出多文檔文本集的詞向量;然后根據(jù)每個單詞在句子中的影響程度,使用一種加權(quán)詞袋模型,利用句子中詞向量加權(quán)的均值來表征句向量,對句子加權(quán)求和后,借助主成分分析PCA(Principal Component Analysis)方法移除句向量中無關(guān)緊要的部分,對句向量進(jìn)行修正去冗余,去掉第一個主成分的投影。句向量Ks的計算公式如式(7)所示:
(7)
其中,b是自定義的標(biāo)量參數(shù),實(shí)驗(yàn)表明在b=10-3時性能最佳;p(w)表示單詞w的詞頻;Kw是訓(xùn)練的詞向量;|s|表示該句子的長度,即句子的單詞數(shù);b/(b+p(w))表示詞w的權(quán)重計算,這一權(quán)值的計算可以使高頻詞的權(quán)重值有所下降,對句子詞向量加權(quán)的求和,得出初步的句向量 。
在整個語料庫中,對文本集進(jìn)行1次主成分分析,尋找到第1奇異向量,即所有的文本句向量構(gòu)成的矩陣第1主成分u,讓每個句向量減去它在第1主成分u上的投影,計算如式(8)所示:
Kst=Ks-ProjuKs
(8)
其中,Kst表示為移除第1主成分投影的句向量。1個向量K在另1個向量u上的投影定義如下:
(9)
在此,使用PCA的方法對加權(quán)后的句子進(jìn)行修正,找到第1奇異向量,對每個句向量減去它在主成分上的投影,移除句向量中無關(guān)的部分,得到最終的多文檔文本句向量Kst,該句向量的得出,為下面計算語義相似度做好鋪墊。
2.3.2 句子的語義相似性表示
利用訓(xùn)練好的句向量模型得到的蘊(yùn)含語義信息的句向量表示計算句子之間的相似度。利用句子的向量表示句子之間的相似度,任意2個句子的相似度可以用對應(yīng)的余弦相似度計算,如式(10)所示:
(10)
其中,Rs-sim(sp,sq)表示為句子p和句子q之間的語義相似度。sp和sq表示句子p和句子q的向量表示。最終得到的句子語義相似度,為下面抽取多文檔摘要做好了鋪墊。
本文采用最小支配集MDS的方法來得到多文檔摘要。句子圖的最小支配集可以自然地用于描述摘要:它具有代表性,因?yàn)槊總€句子都在最小支配集中或連接到集合中的1個句子;并且它具有最小冗余,得到概括性高的多文檔摘要。最小支配集的定義為:給定圖G=〈V,E〉,其中V是圖G的頂點(diǎn)集,E是G的邊集,最小支配集就是指從頂點(diǎn)集V中抽取出盡量少的點(diǎn)組成1個集合,使得V中剩余的點(diǎn)都與抽取出的點(diǎn)有邊相連,假如在抽取的頂點(diǎn)集合中除去任何元素,都不再是支配集。因此,我們認(rèn)為在所有支配集中,頂點(diǎn)個數(shù)最少的支配集為最小支配集。
基于最小支配集的句子關(guān)系圖生成摘要表示,以文檔集合中的所有句子為頂點(diǎn)構(gòu)建句子圖,邊表示頂點(diǎn)與頂點(diǎn)之間的權(quán)重。借鑒句子圖模型的思想[22],確定句子與句子之間存在邊,我們需要確定構(gòu)成邊的條件,如果判斷1對句子p和q之間邊的權(quán)重高于給定的閾值λ,則判定這2個句子之間存在邊。邊的權(quán)重表示為:
W(p,q)=αRt-sim(p,q)+(1-α)Rs-sim(p,q)
(11)
其中,α表示可調(diào)參數(shù),權(quán)衡主題因素和語義因素對句子權(quán)值計算的影響程度,其具體取值是由大量的實(shí)驗(yàn)數(shù)據(jù)來確定的。W(p,q)表示句子p和句子q之間邊的權(quán)重,Rt-sim(p,q)表示2個句子之間的主題相似度,Rs-sim(p,q)為2個句子之間的語義相似度。
最小支配集(MDS)與集合覆蓋SC(Set Covering)問題密切相關(guān),這是一個眾所周知的NP難問題,可以采用最小支配集的貪婪近似逼近算法近似求解。該算法從空集開始,如果當(dāng)前的頂點(diǎn)不屬于支配集,將繼續(xù)計算下1個頂點(diǎn),判斷是否屬于最小支配集,不與當(dāng)前集合中的任何頂點(diǎn)相鄰的節(jié)點(diǎn)都將會被添加,直到遍歷所有的頂點(diǎn)。
1973年Johnson[23]證明了貪婪算法的近似因子不小于H(b),如式(12)所示:
(12)
其中,H(b)是時間復(fù)雜度;lnb+1表示貪婪近似算法的逼近因子,其中b是最大集合的大小。
在構(gòu)建句子圖之后,就可以使用最小支配集來表示摘要。通用摘要是提取最具代表性的句子來概括輸入到最小支配集框架中的文檔的重要內(nèi)容,即我們所要抽取出的摘要。通常情況下,存在著抽取摘要的長度限制,使用貪心算法構(gòu)造支配集的子集作為最終的摘要可以達(dá)到很理想的效果?;谧钚≈浼亩辔臋n摘要抽取算法如下所示:
算法1基于最小支配集的多文檔摘要抽取算法
輸入:句子圖G,摘要的最大長度W。
輸出:摘要S。
步驟1S=?;
步驟2T=?;
步驟3whileL(S) 步驟4forv∈V(G)-Sdo 步驟5s(v) = |ADJ(v)-T|; 步驟6v*=arg maxvs(v); 步驟7S=S∪{v*}; 步驟8T=T∪ADJ(v*); 步驟9end 在上述算法中,每個階段,將提取局部標(biāo)準(zhǔn)最優(yōu)的句子,描述了通用概括的近似算法。G是句子圖,L(S)是摘要的長度,W是摘要的最大長度,ADJ(v)={v′|(v′,v)∈E(G)}是與頂點(diǎn)v相鄰的頂點(diǎn)集合。L(S) 本文通過爬取中國新聞網(wǎng)、新華網(wǎng)、人民網(wǎng)、國際在線、中國日報網(wǎng)等網(wǎng)站獲得人工收集的新聞?wù)Z料,共計1.84 GB的新聞?wù)Z料,用于訓(xùn)練詞向量模型。同時,在人工收集的新聞?wù)Z料中隨機(jī)選取500篇熱點(diǎn)新聞事件的新聞報道作為摘要抽取的測試數(shù)據(jù)。其中,該測試集包含有50個主題的新聞文本,每個主題包含有10篇文檔,所選取的語料具有代表性和區(qū)分性,既有時政新聞,又有社會新聞;既有國際新聞,又有國內(nèi)新聞;既有突發(fā)事件,又有熱點(diǎn)問題。對測試語料的摘要進(jìn)行人工抽取,具體的抽取方法為:挑選2名標(biāo)注者進(jìn)行摘要抽取并且每名標(biāo)注者的抽取過程都是相互獨(dú)立的。本文抽取多文檔摘要的標(biāo)準(zhǔn)是選擇同一話題在新聞事件中報道頻率相對較高的新聞以及與事件發(fā)展緊密相連的新聞。 抽取多文檔摘要時,從每個主題中抽取250個字左右的原文本作為參考摘要。表1是2名標(biāo)注者針對臺風(fēng)利奇馬新聞事件的中文語料摘要的標(biāo)注結(jié)果。 人工摘要抽取具有很強(qiáng)的主觀性,由于標(biāo)注者對語義理解的不同以及知識背景的不同,使得2名標(biāo)注者之間的結(jié)果存在著主觀性的差異。若差異性太大,表明測試集的爭議性和主觀性較大,抽取摘要的可信度就會很低;與此相反,如果差異性小,則表明測試集標(biāo)注的爭議性就小,可信度高。表2給出了人工標(biāo)注的ROUGE(Recall-Oriented Understudy for Gisting Evaluation)值。ROUGE是模型生成摘要和已有摘要之間的n元共現(xiàn)次數(shù),在自動文摘評價方面應(yīng)用最為廣泛。其中,ROUGE-1、ROUGE-2、ROUGE-L可以在一定程度上反映摘要的質(zhì)量,ROUGE的值越高,說明抽取出的摘要質(zhì)量越好。 Table 1 Summary annotation results of two markers表1 2名標(biāo)注者的摘要標(biāo)注結(jié)果 Table 2 ROUGE values of manual labeling 表2 人工標(biāo)注ROUGE值 從表2中得出的數(shù)據(jù)可以反映出抽取的結(jié)果一致性較高 。 本文的實(shí)驗(yàn)過程包括詞向量模型的訓(xùn)練、主題相關(guān)性計算、基于句向量的語義相關(guān)性計算、句子關(guān)系圖生成摘要等過程。詞向量模型的訓(xùn)練,使用網(wǎng)絡(luò)爬蟲收集的語料集,選擇Google的開源工具包word2vec,使用 Skip-gram模型進(jìn)行訓(xùn)練,根據(jù)往常的實(shí)驗(yàn)得出,窗口大小設(shè)置為5,維度設(shè)為200,低頻詞閾值設(shè)為5,迭代100次;句向量模型中,實(shí)驗(yàn)表明在b=10-3時性能最佳[21]。針對最小支配集的句子關(guān)系圖生成摘要模塊,實(shí)驗(yàn)數(shù)據(jù)表明,可調(diào)參數(shù)的值為0.4時,實(shí)驗(yàn)效果更好。 本文采用內(nèi)部評價指標(biāo),使用ROUGE來判斷該模型生成的摘要和已有摘要之間的一致性關(guān)系。ROUGE-N的計算公式如下所示: ROUGE-N= (13) 其中,N表示n元組的長度,Countmatch(n-gram)表示該模型抽取出來的摘要與已有參考摘要之間的共現(xiàn)n-gram數(shù)量總和,n-gram表示n元詞,RS表示已有參考摘要集合。 以人工抽取的新聞?wù)鳛閰⒖颊?,將本文模型所抽取的摘要與人工抽取的參考摘要進(jìn)行對比,以驗(yàn)證本文方法的可行性。本文設(shè)置了3個對比實(shí)驗(yàn)。 實(shí)驗(yàn)1驗(yàn)證權(quán)重參數(shù)α對摘要抽取的影響。使用本文模型設(shè)置不同加權(quán)參數(shù)進(jìn)行了對比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表3所示。 Table 3 Evaluation results of different weighting parameters表3 不同加權(quán)參數(shù)的評測結(jié)果 實(shí)驗(yàn)結(jié)果表明,當(dāng)權(quán)重參數(shù)取0.4時,實(shí)驗(yàn)結(jié)果達(dá)到最佳狀態(tài),這有力地證明了句子的語義信息對于多文檔摘要的抽取具有很重要的影響。與此同時,也要結(jié)合主題信息所發(fā)揮的作用,兩者相輔相成,缺一不可,既不能過度依賴于語義信息,同樣也不能忽略主題信息所帶來的影響。表3數(shù)據(jù)顯示,將句子主題信息和語義信息相融合的方法,在多文檔摘要抽取上得到了較好的效果。 實(shí)驗(yàn)2不同信息特征組合的對比實(shí)驗(yàn)。驗(yàn)證在多文檔摘要抽取任務(wù)中,句子主題因素、語義因素、句子圖模型的關(guān)系因素對抽取多文檔摘要的影響程度。本文方法選取不同信息特征組合進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表4所示。 從表4的實(shí)驗(yàn)結(jié)果來看,僅僅使用MDS+ TF-IDF特征組合方法,本文方法的ROUGE-1和ROUGE-2的值明顯低于結(jié)合主題相關(guān)度和語義相關(guān)度的數(shù)值,其主要原因是MDS+TF-IDF僅僅利用詞語的TF-IDF來確定句子間的關(guān)系信息,沒有考慮到句子與句子之間的語義相關(guān)度,也沒有考慮到句子的主題相關(guān)度。本文方法充分考慮到主題信息、語義信息以及關(guān)系信息對抽取摘要的影響,融合多信息的句子圖模型對多文檔摘要抽取在質(zhì)量上有了明顯的提高 。 Table 4 Experimental results of different information feature combinations表4 不同信息特征組合的對比實(shí)驗(yàn)結(jié)果 實(shí)驗(yàn)3為了驗(yàn)證本文方法的可行性,將本文方法與其他幾種抽取多文檔摘要方法BSTM、GCN和NEDSUM進(jìn)行對比。BSTM方法[6]根據(jù)句子主題概率模型得出句子主題矩陣,并抽取出每個主題中概率最高的句子組合成摘要;GCN方法[12]通過融合句子關(guān)系圖和神經(jīng)網(wǎng)絡(luò)模型增加句子重要性建模的方式來抽取摘要;NEDSUM[13]通過一種端到端的神經(jīng)網(wǎng)絡(luò)框架,首先使用層次編碼器讀取文檔語句,以獲得語句的表示,然后逐個提取句子,然后逐個提取句子,以構(gòu)建輸出摘要之間進(jìn)行比較。實(shí)驗(yàn)結(jié)果如表5所示。 Table 5 Experimental results compared with those of other methods 表5 本文方法與其他方法的實(shí)驗(yàn)結(jié)果比較 從表5給出的實(shí)驗(yàn)結(jié)果可以看出,本文方法比傳統(tǒng)的機(jī)器學(xué)習(xí)方法Centroid、LexPageRank和BSTM在ROUGE-1和ROUGE-2上都有很明顯的提升;本文方法與神經(jīng)網(wǎng)絡(luò)模型得出的抽取式摘要方法相比也有優(yōu)勢,將本文方法與GCN和NEDSUM的結(jié)果進(jìn)行比較,GCN與NEDSUM法都使用了有監(jiān)督的神經(jīng)網(wǎng)絡(luò)模型,需要大量有標(biāo)注的數(shù)據(jù)集作為訓(xùn)練數(shù)據(jù),在一定程度上增加了抽取摘要的復(fù)雜程度,本文方法與GCN方法相比提升了4.8%,與NEDSUM方法相比提升了2.4%,表明了本文方法是可行的。 針對現(xiàn)有的抽取多文檔摘要方法沒有能夠充分利用句子間的主題信息、語義信息和關(guān)系信息的問題,本文提出了一種融合多信息句子圖模型的多文檔摘要抽取方法。本文方法利用關(guān)系句子圖模型,基于句子的貝葉斯主題模型、詞向量模型以及句向量框架,充分利用主題信息、語義信息和關(guān)系信息,綜合考慮了句子、主題、語義以及圖的全局信息,從而簡單有效地抽取出最能代表新聞觀點(diǎn)的句子作為多文檔的摘要。實(shí)驗(yàn)結(jié)果表明,與以往的摘要抽取方法相比,本文方法的ROUGE值有很明顯的提高,而且本文方法具有一定的魯棒性。下一步將在已有研究的基礎(chǔ)上,融入更多的特征到摘要抽取中,使抽取的摘要代表性更強(qiáng)、冗余更少。4 實(shí)驗(yàn)
4.1 實(shí)驗(yàn)數(shù)據(jù)集
4.2 實(shí)驗(yàn)設(shè)置和評價指標(biāo)
4.3 實(shí)驗(yàn)結(jié)果及其分析
5 結(jié)束語