陳勁光
(湖州師范學(xué)院 教師教育學(xué)院,浙江 湖州 313000)
一種基于云模型的文摘單元選取方法研究
陳勁光
(湖州師范學(xué)院 教師教育學(xué)院,浙江 湖州 313000)
該文提出了一種基于云模型的文摘單元選取方法,利用云模型,全面考慮文摘單元的隨機(jī)性和模糊性,提高面向查詢的多文檔自動(dòng)文摘系統(tǒng)的性能。首先計(jì)算文摘單元和查詢條件的相關(guān)性,將文摘單元和各個(gè)查詢?cè)~的相關(guān)度看成云滴,通過(guò)對(duì)云的不確定性的計(jì)算,找出與查詢條件真正意義相關(guān)的文摘單元;隨后利用文檔集合重要度對(duì)查詢相關(guān)的結(jié)果進(jìn)行修正,將文摘句和其他各文摘句的相似度看成云滴,利用云的數(shù)字特征計(jì)算句子重要度,找出能夠概括盡可能多的文檔集合內(nèi)容的句子,避免片面地只從某一個(gè)方面回答查詢問(wèn)題。為了證明文摘單元選取方法的有效性,在英文大規(guī)模公開語(yǔ)料上進(jìn)行了實(shí)驗(yàn),并參加了國(guó)際自動(dòng)文摘公開評(píng)測(cè),取得了較好的成績(jī)。
云模型;自動(dòng)文摘;不確定性
互聯(lián)網(wǎng)的飛速發(fā)展極大方便了人們對(duì)信息的獲取和使用,但同時(shí)也帶來(lái)了信息過(guò)載的問(wèn)題。在這些海量信息中快速、準(zhǔn)確地找到所需要的信息變得越來(lái)越困難。面向查詢的多文檔自動(dòng)文摘將查詢返回的文檔集合的內(nèi)容提煉成包含與查詢主題相關(guān)、滿足個(gè)性化需求的摘要,它能夠顯著提高信息獲取和利用的效率。
在生成面向查詢的多文檔自動(dòng)文摘過(guò)程中,需要選擇有代表性的詞和句子組成摘要,通常的方法是利用概率[1]、圖[2]、主題[3]、共現(xiàn)、節(jié)點(diǎn)重要度、語(yǔ)言模型等統(tǒng)計(jì)信息判斷詞和句子的重要度,而這些統(tǒng)計(jì)信息中包含的不確定性卻很少被考慮。云模型利用數(shù)字特征很好地將統(tǒng)計(jì)信息(隨機(jī)性)和模糊性整合在一起。
數(shù)學(xué)上一般采用熵、模糊集、粗糙集來(lái)研究不確定性問(wèn)題。在文摘領(lǐng)域,目前已有關(guān)于將熵和模糊集用于生成自動(dòng)文摘的研究。利用熵[4-5]生成文摘的方法主要是最大熵方法,但該方法一般需要訓(xùn)練語(yǔ)料,并且只考慮了文摘單元在訓(xùn)練語(yǔ)料中分布的不確定性,而沒有考慮當(dāng)前文檔集合分布的不確定性。利用模糊集生成摘要的方法大致可以分為兩類: 利用模糊性規(guī)則的方法[6-7],以及語(yǔ)義模糊共指鏈[8]的方法。但是,應(yīng)用模糊集的方法往往將隨機(jī)分布的模糊性和隨機(jī)性孤立開來(lái),對(duì)隨機(jī)分布的統(tǒng)計(jì)結(jié)果一般被用于決定隸屬度函數(shù)的隸屬度,從而實(shí)現(xiàn)對(duì)模糊問(wèn)題的精確求解,隨機(jī)性和模糊性之間的內(nèi)在聯(lián)系卻很少被注意。
李德毅院士提出了云模型[9-10]理論來(lái)實(shí)現(xiàn)自然語(yǔ)言表達(dá)的定性概念與定量值的相互轉(zhuǎn)換。該理論融合熵、模糊集等不確定性理論的思想,以基本語(yǔ)言值為突破口,重視隨機(jī)性和模糊性的內(nèi)在聯(lián)系,可以用來(lái)體現(xiàn)語(yǔ)言思考中的軟推理能力。云模型已經(jīng)在知識(shí)表示[11]、關(guān)聯(lián)規(guī)則挖掘[12]、時(shí)間序列預(yù)測(cè)[13]、自動(dòng)控制[14]等多個(gè)領(lǐng)域有著廣泛應(yīng)用。文獻(xiàn)[15]提出了一種利用云模型進(jìn)行自動(dòng)文摘評(píng)價(jià)的方法, 但該方法實(shí)驗(yàn)語(yǔ)料規(guī)模偏小。
本文主要研究如何用云模型來(lái)表示面向查詢的多文檔自動(dòng)文摘中的不確定性度量,把這種定量表示的不確定性知識(shí)平滑融入到經(jīng)典的文摘方法中,從而改善面向查詢的多文檔自動(dòng)文摘的效果。
2.1 文摘原型系統(tǒng)
原型系統(tǒng)采用一種多特征融合的方法,同時(shí)考慮句子的查詢相關(guān)性和句子在文檔集合中的重要程度兩方面的因素來(lái)抽取句子并生成摘要。句子和查詢?cè)较嚓P(guān),在文檔集合中的地位越重要,越有可能被選擇為文摘句。這是面向查詢的多文檔自動(dòng)文摘常用的方法。
首先,計(jì)算句子的查詢獨(dú)立特征(Query-independent, QI),即不考慮查詢條件的情況下,句子在文檔集合中的重要度。
本文采用向量空間模型[16](Vector Space Model, VSM)計(jì)算句子之間的相似度。對(duì)于給定文檔集合,將每個(gè)句子表示為m維的向量(wi1,wi2,……,wim),其中m是文檔集合的詞種數(shù),向量空間中的每一維對(duì)應(yīng)著詞表中的一個(gè)詞。向量中每個(gè)元素的權(quán)重用該元素所在的維所對(duì)應(yīng)的詞語(yǔ)的TF-ISF[17]得分來(lái)表示,即式(1)。
wik=TF·ISF
(1)
其中,TF表示詞w在句子S中的詞頻,ISF為倒排句子頻率,由式(2)計(jì)算。
(2)
其中,N表示文檔集合中句子的總數(shù),n表示含有詞w的句子數(shù)。
句子之間相似度可以用向量之間的內(nèi)積計(jì)算,如式(3)所示。
(3)
句子的查詢獨(dú)立特征值可以用該句子與所有句子的相似度之和來(lái)表示,如式(4)所示。
(4)
其次,計(jì)算每個(gè)句子的查詢相關(guān)特征(Query-focused, QF),即句子與查詢條件之間的相關(guān)程度。
Hyperspace Analogue to Language (HAL)理論[18]認(rèn)為自然語(yǔ)言素材中詞與詞之間的關(guān)系提供了足夠的語(yǔ)義信息。文獻(xiàn)[19]首次將這種方法應(yīng)用到自動(dòng)文摘領(lǐng)域。本文沿用該方法獲取句子和查詢之間的相關(guān)特征,不同的是,該文獻(xiàn)在計(jì)算了詞與查詢相關(guān)特征后,采用復(fù)雜的語(yǔ)言模型系統(tǒng)計(jì)算句子與查詢之間的相關(guān)度,而本文則采用相對(duì)簡(jiǎn)單的統(tǒng)計(jì)方法計(jì)算句子與查詢之間的相關(guān)度。
首先利用HAL 模型計(jì)算文檔集合中的詞語(yǔ)與查詢?cè)~之間的關(guān)聯(lián)度,該方法可以被形象地稱為窗口共現(xiàn)的方法,利用詞與查詢?cè)~在一定窗口長(zhǎng)度內(nèi)的共現(xiàn)情況計(jì)算詞語(yǔ)與查詢?cè)~之間的相關(guān)程度,從而獲取詞語(yǔ)與查詢?cè)~之間的語(yǔ)義關(guān)聯(lián)信息。在一個(gè)長(zhǎng)度為K(文獻(xiàn)[19]中K=8, 本文沿用了這個(gè)參數(shù)值)的窗口范圍內(nèi)觀察文檔集合中的詞語(yǔ)(w)與查詢?cè)~(w′)的共現(xiàn)情況,然后將這個(gè)窗口在整個(gè)文檔集合范圍內(nèi)移動(dòng),每次向前移動(dòng)一個(gè)詞語(yǔ)。統(tǒng)計(jì)詞語(yǔ)與查詢?cè)~在一定距離的共現(xiàn)情況,距離越小,共現(xiàn)次數(shù)越多,則說(shuō)明該詞語(yǔ)與查詢?cè)~越相關(guān)。
設(shè)n(w,k,w′)代表w與w’在距離為k的共現(xiàn)次數(shù),W(k)=K-k+1 代表詞語(yǔ)w與w′的共現(xiàn)強(qiáng)度。則詞語(yǔ)與查詢?cè)~的相關(guān)程度可表示為式(5)。
(5)
詞語(yǔ)與查詢條件的相關(guān)程度可表示為詞語(yǔ)與每個(gè)查詢?cè)~相關(guān)程度的累加和,如式(6)所示。
(6)
文檔集合中的句子的查詢相關(guān)得分可表示為句子中每個(gè)詞語(yǔ)與查詢條件相關(guān)程度的累加和,如式(7)所示。
(7)
句子的最終得分由查詢獨(dú)立得分與查詢相關(guān)得分線性組合得到,如式(8)所示。
(8)
其中σ是調(diào)節(jié)兩部分比例的調(diào)節(jié)參數(shù)。
2.2 查詢獨(dú)立云
針對(duì)2.1節(jié)的句子的查詢獨(dú)立特征,我們提出了查詢獨(dú)立云,通過(guò)對(duì)查詢獨(dú)立過(guò)程中的不確定性的把握來(lái)改進(jìn)原型系統(tǒng)中計(jì)算句子的查詢獨(dú)立得分的過(guò)程。
在原型系統(tǒng)中,一個(gè)句子如果與文檔集合中所有句子相似度之和最高,就會(huì)獲得最高的查詢獨(dú)立得分。然而,相似度之和最高并不意味著該句子就能很好地概括文檔集合中所有的句子的內(nèi)容。圖1給出了查詢獨(dú)立云可視化化的例子。
圖1 查詢獨(dú)立云可視化的例子
在文檔集合中,句子的概括能力是不盡相同的,有些句子可以概括文檔集合中大多數(shù)句子的內(nèi)容,而有些則只能概括很少幾句話的內(nèi)容。這種情況可以用金字塔結(jié)構(gòu)來(lái)表達(dá),越有概括能力的句子越居于塔頂,而那些沒有概括能力的句子則居于塔的底部。
在圖1中,句子1能夠概括文檔集合所要表達(dá)的所有句子,居于塔頂,而句子2僅能概括小部分句子的內(nèi)容,居于塔的中部。如果不考慮查詢相關(guān)方面的問(wèn)題,句子1一般來(lái)說(shuō)更適合被選做文摘句;但由于句子2是局部聚焦,不像句子1要概括很多方面的內(nèi)容,有時(shí)更容易取得高得分(例如,和幾個(gè)句子相似度達(dá)到接近1的程度),如果按通常的統(tǒng)計(jì)方法,同樣有可能被選為文摘句。
該問(wèn)題可以通過(guò)引入云模型來(lái)解決,因?yàn)閺脑频慕嵌瓤?,句?和其他所有句子的相似度云比句子2更均勻,即熵和超熵更小。如果選擇那些期望大,熵和超熵小的句子作為文摘句,挑選句子2作為文摘句的可能性就會(huì)大大降低,從而提高摘要的質(zhì)量。
查詢獨(dú)立云的思想是:
將句子和文檔集合中每個(gè)句子的相似度看成云滴,用這些云滴構(gòu)成的云的不確定性來(lái)評(píng)價(jià)句子概括文檔集合內(nèi)容的能力。一個(gè)句子所對(duì)應(yīng)的云的期望越大,熵和超熵越小,就認(rèn)為該句子越能代表文檔集合的內(nèi)容,查詢獨(dú)立得分也越高。
(9)
將期望、熵、超熵按一定的權(quán)值線性組合,就可以用一個(gè)N×1的列向量表示句子的查詢獨(dú)立得分,如式(10)所示。
(10)
上式通過(guò)每一列除以該列的最大值進(jìn)行了歸一化處理。α1,β1,γ1是線性組合的權(quán)值參數(shù),由于期望作用一般大于熵和超熵,而熵的作用一般大于超熵,因此α1>β1>γ1≥0。當(dāng)α1=1,β1=γ1=0時(shí),查詢獨(dú)立得分僅考慮了句子與所有句子之間相似度的期望值,其結(jié)果與原型系統(tǒng)一致。
雖然這里給出了具體的計(jì)算方法,但還是顯得不夠直觀。利用正向云發(fā)生器可以將云模型直觀化,因此在圖2中給出了一組句子的數(shù)字特征和由這組數(shù)字特征生成的正態(tài)云圖,以及這些句子的查詢獨(dú)立云得分。值得注意的一點(diǎn)是,云摘要 本 身 不需要用到正向云發(fā)生器,這里用到正向云發(fā)生器只是為了直觀理解的需要。
在圖中可以看出,雖然句子S7(期望為0.06)、S8(期望為0.065)大于句子S3(期望為0.058)、S4(期望為0.057)、S5(期望為0.058)、S6(期望為0.053),但由于它們的熵和超熵也大,得分反而低于S3、S4、S5、S6。從正向云圖上看,S8最為明顯,其云圖幅度最寬,云滴也最分散,反映了該句和其他句子的相似度分布的極不均勻性,即和一部分句子密切相關(guān),和另一些句子毫無(wú)關(guān)聯(lián)。通過(guò)運(yùn)用查詢獨(dú)立云,可以減少選擇類似S8這樣的句子作為文摘句的可能性。
2.3 查詢相關(guān)云
針對(duì)2.1節(jié)提到的句子的查詢相關(guān)特征,我們提出查詢相關(guān)云,通過(guò)對(duì)查詢相關(guān)過(guò)程中的不確定性的把握來(lái)改進(jìn)原型系統(tǒng)中計(jì)算查詢相關(guān)得分的過(guò)程。
圖2 查詢獨(dú)立云的正向云圖,期望大但熵和超熵也大的句子可能會(huì)獲得低得分,其中,正向云云滴個(gè)數(shù)n=50 000,查詢獨(dú)立云的參數(shù)α1=0.7,β1=0.2,γ1=0.1
查詢相關(guān)云由詞語(yǔ)級(jí)查詢相關(guān)云、句子級(jí)查詢相關(guān)云兩部分組成,這兩塊云分別處理詞語(yǔ)、句子兩個(gè)層面的查詢相關(guān)問(wèn)題。
(1) 詞語(yǔ)級(jí)查詢相關(guān)云
面向查詢的過(guò)程中,往往需要判斷哪些詞語(yǔ)是與查詢條件密切相關(guān)的。在面向查詢的多文檔自動(dòng)文摘中,查詢條件往往是一句話,經(jīng)過(guò)預(yù)處理后一般由多個(gè)詞構(gòu)成。判斷詞語(yǔ)和多個(gè)查詢?cè)~的相關(guān)度,最常用的方法之一就是平均相關(guān)度,就像原型系統(tǒng)中那樣。即首先比較詞語(yǔ)和查詢條件中的每個(gè)詞的相關(guān)度,然后取平均值。
但這種方法顯然是存在很大的局限性的。例如,當(dāng)查詢條件為“毛澤東的故鄉(xiāng)是哪里?”,可能有很多詞語(yǔ)與“毛澤東”有關(guān),或者與“故鄉(xiāng)”有關(guān),但只有同時(shí)與“毛澤東”和“故鄉(xiāng)”兩個(gè)詞語(yǔ)都有關(guān)的詞語(yǔ)如“韶山”才是準(zhǔn)確的回答。利用云模型可以比較好地解決這一問(wèn)題。
詞語(yǔ)級(jí)查詢相關(guān)云的基本思想是:
將文檔集合中的詞語(yǔ)與各個(gè)查詢?cè)~之間的相關(guān)度看作是云滴,用這些云滴構(gòu)成的云來(lái)描述詞語(yǔ)與查詢條件之間的相關(guān)性。期望相同的情況下,一個(gè)詞語(yǔ)和越多的查詢?cè)~相關(guān),它所對(duì)應(yīng)的云的熵和超熵越小,該詞語(yǔ)就被認(rèn)為和查詢條件越相關(guān)。
圖3給出了TAC09中D0901A-A文檔集合中的一個(gè)例子。該集合主題為“印巴沖突”,一共有七個(gè)查詢?cè)~: “描述”、“努力”、“和平”、“印度”、“巴基斯坦”、“沖突”、“克什米爾”。文檔集合中有五個(gè)詞語(yǔ)與以上七個(gè)查詢?cè)~查詢相關(guān)得分的期望相同,它們是: “努力”、“會(huì)談”、“信號(hào)”、“maharajah”、“?;稹?,在原型系統(tǒng)中,以上五個(gè)詞語(yǔ)將得到相同的打分,而實(shí)際上它們和查詢的關(guān)聯(lián)程度是不相同的。
從圖3中我們可以發(fā)現(xiàn),利用云模型,期望相同的詞語(yǔ)得到了不同的打分,與越多的查詢?cè)~語(yǔ)共現(xiàn),熵和超熵越小,詞語(yǔ)級(jí)查詢相關(guān)云得分越高。
(11)
(12)
在獲取了每個(gè)詞語(yǔ)與查詢條件相關(guān)程度以后,需要給文檔集合中的句子打分,原型系統(tǒng)中通過(guò)計(jì)算句子中各個(gè)詞語(yǔ)與查詢條件相關(guān)程度得分的期望計(jì)算句子的得分,這種做法同樣可以通過(guò)引入云模型加以改進(jìn)。
(2) 句子級(jí)查詢相關(guān)云
句子級(jí)查詢相關(guān)云給那些包含多個(gè)查詢相關(guān)詞語(yǔ)的句子更高的得分,減少錯(cuò)誤聚焦的可能。
句子級(jí)查詢相關(guān)云的基本思想為:
將句子中由前一階段獲得的詞語(yǔ)與查詢句之間的相關(guān)度看作是云滴,用這些云滴構(gòu)成的云來(lái)描述句子與查詢條件之間的相關(guān)性。期望相同的情況下,一個(gè)句子中有越多和查詢句相關(guān)的詞,它所對(duì)應(yīng)的云的熵和超熵越小,該句子就被認(rèn)為和查詢條件越相關(guān)。
(13)
有多少個(gè)句子就有多少片云,這些云疊加在一起構(gòu)成了云團(tuán),可以用一個(gè)N×3的矩陣來(lái)表示,如式(14)所示。
(14)
(15)
2.4 云摘要模型——CloudSum
將查詢獨(dú)立云和查詢相關(guān)云的計(jì)算結(jié)果按類似原型系統(tǒng)的方法進(jìn)行線性疊加,就構(gòu)成了完整的云摘要模型(Cloud Summarization,簡(jiǎn)稱CloudSum),如式(16)所示。
(16)
3.1 實(shí)驗(yàn)語(yǔ)料
本文采用了DUC*http://duc.nist.gov/2005、2006、2007(簡(jiǎn)稱DUC05、DUC06、DUC07)的面向查詢多文檔自動(dòng)文摘任務(wù)語(yǔ)料,以及DUC 2007、TAC*http://www.nist.gov/tac/2008、TAC 2009文摘任務(wù)A集合(簡(jiǎn)稱DUC07-U、TAC08-U、TAC09-U)的語(yǔ)料作為實(shí)驗(yàn)語(yǔ)料。表1列出了實(shí)驗(yàn)語(yǔ)料基本情況。
3.2 實(shí)驗(yàn)過(guò)程
為了專注于研究云模型在自動(dòng)文摘中的作用,以及便于研究者重復(fù)我們的實(shí)驗(yàn),在整個(gè)實(shí)驗(yàn)過(guò)程中,除了采用云方法,我們?cè)趯?shí)驗(yàn)的其他環(huán)節(jié)盡可能采取比較簡(jiǎn)單且開源的方法進(jìn)行實(shí)驗(yàn)。實(shí)驗(yàn)的預(yù)處理階段主要包括三個(gè)部分的內(nèi)容: 句子切分、去停用詞、詞干化。DUC 為參賽隊(duì)伍提供了開源的句子切分工具, breaksent-multi.pl*www-nlpir.nist.gov/projects/duc/duc2007/tasks.html,我們采用該工具將文檔集合中的句子以及查詢條件切分成句子。在去停用詞后,我們采用斯坦福大學(xué)開發(fā)的詞干化工具M(jìn)orphology*http://nlp.stanford.edu/software/tagger.shtml對(duì)詞語(yǔ)進(jìn)行詞干化,Morphology是基于由Minnen等人[20]提出的采用有限狀態(tài)自動(dòng)機(jī)的原理獲取英文單詞的原型形態(tài)的方法開發(fā)的一種開源詞干化工具。Morphology的詞干化效果一般來(lái)說(shuō)優(yōu)于傳統(tǒng)的基于規(guī)則的詞干化工具,詞干化后的詞語(yǔ)只是轉(zhuǎn)化為原始形態(tài),但仍然是完整的單詞形式。例如,前面圖3提到的“India”就被詞干化為“Indium”。在詞干化以后,所有單詞被轉(zhuǎn)換為小寫的形式,包含連接符“-”的詞語(yǔ)被轉(zhuǎn)換切分為兩部分,其他的標(biāo)點(diǎn)符號(hào)被去掉。另外,長(zhǎng)度少于三個(gè)字母的詞語(yǔ)一般來(lái)說(shuō)包含的有效信息較少,因而也被從詞表中去掉。
句子經(jīng)過(guò)打分以后,后期處理過(guò)程主要是去冗余。我們采用一種改進(jìn)的MMR(Maximal Marginal Relevance)[21]方法去冗余,如式(17)所示。其基本思想是: 每選擇好一個(gè)文摘句,就將該文摘句對(duì)剩下的候選文摘句的影響去除掉;循環(huán)地進(jìn)行這樣的操作,相當(dāng)于去除了即將選擇的文摘句與所有已經(jīng)選擇好的文摘句的相關(guān)信息。
(17)
其中R是所有句子的集合,而F是所有已經(jīng)選擇好的文摘句的集合,因而Si表示候選文摘句;SL表示最近選取的文摘句。上式所表示的過(guò)程是循環(huán)進(jìn)行的,不斷選擇文摘句,直到達(dá)到指定的文摘長(zhǎng)度。
本文的方法有大量的參數(shù)需要訓(xùn)練,但由于以上參數(shù)都有約束條件,我們發(fā)現(xiàn)只需要使用簡(jiǎn)化的訓(xùn)練過(guò)程就取得了滿意的實(shí)驗(yàn)效果。詳細(xì)的訓(xùn)練過(guò)程,這里由于篇幅的限制不能展開。具體訓(xùn)練過(guò)程中, 我們采用DUC06的語(yǔ)料作為訓(xùn)練語(yǔ)料訓(xùn)練DUC05、DUC07的參數(shù),采用TAC08-U的語(yǔ)料作為訓(xùn)練語(yǔ)料訓(xùn)練DUC07和TAC09-U的參數(shù)。最終,我們采用
作為DUC05、DUC07的參數(shù),
作為DUC07和TAC09-U的參數(shù)。
3.3 實(shí)驗(yàn)結(jié)果
表2顯示了CloudSum方法與當(dāng)年參加評(píng)測(cè)得分最高的機(jī)器系統(tǒng)的ROUGE-2[22]得分。從表2中我們可以看出, CloudSum在DUC05、DUC07-U中位列所有機(jī)器系統(tǒng)第三位,在DUC07、TAC09-U中也取得了接近前五位的得分。
表1 實(shí)驗(yàn)語(yǔ)料基本情況
表2 CloudSum的ROUGE-2得分,其中Human是得分最低的人工系統(tǒng),M1, M2, M3, M4,M5得分最高的前五個(gè)自動(dòng)文摘系統(tǒng),AvgM是機(jī)器系統(tǒng)的平均得分
表3 原型系統(tǒng)與CloudSum的ROUGE-2得分比較
表3顯示了原型系統(tǒng)與CloudSum的ROUGE-2得分情況比較。從表中可以看出,在所有實(shí)驗(yàn)語(yǔ)料中,CloudSum的表現(xiàn)都優(yōu)于原型系統(tǒng)。
2010年我們采用CloudSum參加TAC 2010有導(dǎo)文摘國(guó)際比賽,為了將有導(dǎo)的任務(wù)與面向查詢自動(dòng)文摘任務(wù)相聯(lián)系,我們僅將組委會(huì)給定的類別提示信息作為查詢條件,其他方面都與之前的實(shí)驗(yàn)保持一致。我們提交了兩個(gè)系統(tǒng),ID分別為6、23號(hào),CloudSum編號(hào)為23號(hào)。圖4顯示了各項(xiàng)評(píng)測(cè)結(jié)果。
圖4 TAC 2010評(píng)測(cè)數(shù)據(jù)集A(任務(wù)與面向查詢的多文檔自動(dòng)文摘相似)上,其ROUGE-2、ROUGE-SU4、Basic Elements、人工評(píng)測(cè)Average Overall Responsiveness分別取得了43個(gè)參評(píng)系統(tǒng)中排名第3、2、2、3的成績(jī)說(shuō)明: A到H為人工摘要,1到43為機(jī)器摘要(僅列前十)
本文提出了一種利用云模型直接生成文摘的方法,采用相對(duì)簡(jiǎn)單的不確定性方法,同時(shí)發(fā)揮語(yǔ)言的軟推理特性,將云模型應(yīng)用于文摘生成過(guò)程中。大規(guī)模公開評(píng)測(cè)的語(yǔ)料上進(jìn)行的實(shí)驗(yàn)表明了本文方法的有效性[23]。鑒于不確定性在自然語(yǔ)言處理中存在的普遍性,以及云模型理論在數(shù)據(jù)挖掘等相關(guān)領(lǐng)域的應(yīng)用,本文做出的嘗試將有可能被應(yīng)用于自動(dòng)文摘以外的自然語(yǔ)言處理的其他領(lǐng)域。
[1] K Toutanova, C Brockett, M Gamon, et al.The Pythy Summarization System: Microsoft Research at DUC 2007[C]//Proceedings of Document Understanding Conference, 2007.
[2] X J Wan, J W Yang. Improved affinity graph based multi-document summarization[C]//Proceedings of HLTANNCL,2006: 181-184.
[3] A Haghighi, L Vanderwende. Exploring content models for multi-document summarization[C]//Proceedings of NAACL-HLT, 2009: 362-370.
[4] L Ferrier. A Maximum Entropy Approach to Text Summarization[D]. School of Artificial Intelligence, Division of Informatics, University of Edinburgh,2001.
[5] G Ravindra, N Balakrishnan, K R Ramakrishnan. Multi-Document Automatic Text Summarization Using Entropy Estimates[C]//Proceedings of SOFSEM, 2004: 289-300.
[6] F R Isfahani, F Kyoomarsi, H Khosravi, et al. Application of Fuzzy Logic in the Improvement of Text Summarization[C]//Proceedings of IADIS International Conference Informatics, 2008: 347-352.
[7] M S Binwahlan, N Salim, L Suanmali. Fuzzy Swarm Based Text Summarization Journal of Computer Science[J] 2009,5(5): 338-346.
[8] R Witte,S Bergler. Fuzzy Coreference Resolution for Summarization[C]//Proceedings of International Symposium on Reference Resolution and Its Applications to Question Answering and Summarization (ARQAS), 2003: 43-50.
[9] D Y Li, X Shi, M M Gupta. Soft Inference Mechanism Based on Cloud Models[C]//Proceedings of the 1st International Workshop on Logic Programming and Soft Computing: Theory and Applications (LPSC), 1996: 38-62.
[10] 李德毅, 杜鹢.不確定性人工智能[M], 國(guó)防工業(yè)出版社, 2005年第1版。
[11] 邸凱昌, 李德毅.云理論及其在空間數(shù)據(jù)發(fā)掘和知識(shí)發(fā)展中的應(yīng)用[J].中國(guó)圖象圖形學(xué)報(bào): A輯,1999,4(11): 930-935.
[12] 杜鹢, 宋自林, 李德毅. 基于云模型的關(guān)聯(lián)規(guī)則挖掘方法[J].解放軍理工大學(xué)學(xué)報(bào)(自然科學(xué)版), 2000,1(1): 29-34.
[13] 蔣嶸, 李德毅.基于形態(tài)表示的時(shí)間序列相似性搜索[J].計(jì)算機(jī)研究與發(fā)展,2000,37(5): 601-608.
[14] D Y Li, H Chen, J H Fan, et al. A Novel Qualitative Control Method to Inverted Pendulum Systems[C]//Proceedings of the 14th International Federation of Automatic Control World Congress, 1999.
[15] H Long, Z H He, S Q Li, et al. Automated Summarization Evaluation Based on Clouds Model[C]//Proceedings of China Information Retrieval Conference (CCIR 2009), 2009: 9-16.
[16] G Salton, A Wong, C S Yang. A Vector Space Model for Automatic Indexing[J]. In Communications of the ACM, 1975,18(11): 613-620.
[17] J L Neto, A D Santos, C A A Kaestner, et al. Document clustering and text summarization[C]//Proceedings of 4th Int. Conf. Practical Applications of Knowledge Discovery and Data Mining, 2000: 41-55.
[18] K Lund, C Burgess. Producing high-dimensional semantic spaces from lexical co-occurrence[J]. Behavior Research Methods, Instrumentation, and Computers, 1996,28: 203-208.
[19] J Jagarlamudi, P Pingali, V Varma. A Relevance-Based Language Modeling Approach to DUC 2005[C]//Proceedings of Document Understanding Conference, 2005.
[20] G Minnen, J Carroll, D Pearce.Applied morphological processing of English[J]. Natural Language Engineering, 2001,7(3): 207-223.
[21] J G Carbonell,J Goldstein. The use of MMR, diversity-based re-ranking for reordering documents and producing summaries[C]//Proceedings of SIGIR, 1998: 335-336.
[22] C Y Lin E Hovy. “Automatic evaluation of summaries using n-gram co-occurrence statistics[C]//Proceedings of NLT-NAACL, 2003: 71-78.
[23] 陳勁光.基于云模型的中文面向查詢多文檔自動(dòng)文摘研究[D].華中師范大學(xué),2011.
A Summarization Unit Selecting Method Based on Cloud Model
CHEN Jinguang
(College of Teacher Education, Huzhou University, Huzhou,Zhejiang 313000, China)
This paper proposes a summarization unit selection method based on the cloud model. The cloud model is used to consider randomness as well as fuzziness on distribution of summarization unit. In obtaining relevance between summarization unit and query, the scores of relevance between the word and each query word are seen as cloud drops. According to the uncertainty of cloud, a summarization unit which is more relevant to the query is given higher score. After that, the importance in the document set is also considered to evaluate the sentence’s ability to summarize content of the document set. Similarities between a sentence and all sentences in document set are considered as cloud drops. All these cloud drops become a cloud, which indicates the sentence’s ability to summarize content of the document set. The effectiveness of the proposed method is demonstrated on large-scale open benchmark corpus in English. The method was also examined by TAC (Text Analysis Conference) 2010 with satisfactory results.
cloud model; query-focused multi-document summarization; uncertainty
陳勁光(1980—),博士,副教授,主要研究領(lǐng)域?yàn)樽匀徽Z(yǔ)言處理,多媒體學(xué)習(xí),機(jī)器人。E?mail:136966885@qq.com
1003-0077(2016)05-0187-08
2016-00-00 定稿日期: 2016-00-00
教育部人文社會(huì)科學(xué)一般項(xiàng)目(13YJCZH013)、湖州師范學(xué)院人文社科預(yù)研究項(xiàng)目(KY27015A )