李 翀
(北京吉利學(xué)院理工學(xué)院,中國 北京102202)
國際上對多文檔自動文摘的研究主要是面向英語信息的處理,在該領(lǐng)域比較著名的方法是美國哥倫比亞大學(xué)Goldsdein提出的基于MMR(Maximal Marginal Relevance)的多文檔自動文摘方法;美國密歇根大學(xué)Redev提出基于質(zhì)心的多文檔自動文摘方法;美國羅格斯大學(xué)Boros提出的基于聚類的多文檔自動文摘方法。與此同時,一些多文檔自動文摘系統(tǒng)也被開發(fā)出來。比較有代表性的系統(tǒng)有:(1)美國哥倫比亞大學(xué)的多文檔自動文摘系統(tǒng)Newsblaster。其研究主要針對新聞領(lǐng)域,可以對每天發(fā)生的同主題新聞進(jìn)行摘要,目前該系統(tǒng)達(dá)到了每天上萬人次的訪問記錄(現(xiàn)正在向多語種方向發(fā)展)。(2)美國密歇根大學(xué)研究開發(fā)的WebInEssence。這是一個個性化的基于Web的多文檔自動文摘和內(nèi)容推薦系統(tǒng)。(3)美國南加利福尼亞大學(xué)的信息科學(xué)研究所開發(fā)的原型系統(tǒng)NeATS,也是一個比較有名的多文檔自動文摘系統(tǒng),主要用于新聞領(lǐng)域。
由于多文檔自動文摘中潛在著巨大商機,一些企業(yè)和公司也在從事相關(guān)的研究,如:微軟多次參加了DUC會議并取得了不錯的成績,表明其對自動文摘技術(shù)研究的重視;Vivisimo公司也都在進(jìn)行這方面的研究。
國內(nèi)的研究工作大多集中在單文檔自動文摘方面。國內(nèi)研究者針對漢語特點進(jìn)行了不懈的努力,在漢語自動文摘的研究中取得了一定的成就。比較有代表性的工作有:哈爾濱工業(yè)大學(xué)劉挺教授基于篇章多級依存結(jié)構(gòu)構(gòu)建了HIT2863II型自動文摘系統(tǒng)。北京郵電大學(xué)鐘義信教授在“全信息”(包括了語法、語義、語用三個層面)理論指導(dǎo)下自動建立了面向計算機病毒方面的Glance系統(tǒng)、面向新聞報道的News系統(tǒng)、以及面向神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)算法領(lǐng)域的Ladies自動文摘系統(tǒng)。東北大學(xué)姚天順教授和香港城市理工大學(xué)聯(lián)合開展了“中文全文自動摘要系統(tǒng)”的研究,該系統(tǒng)采用腳本知識表示,通過與用戶交互獲取文摘。
多文檔的自動文摘可以分為兩步,首先在文檔集合中選擇候選的文摘句子,然后去除掉候選文摘句子集合中的冗余的句子。本研究的主要任務(wù)是第一步,下面首先介紹候選文摘句子抽取的研究方法和技術(shù)路線,其次介紹去除冗余句子的方法。
Wan提出使用關(guān)鍵詞和句子的關(guān)系同時進(jìn)行關(guān)鍵詞抽取和文章摘要[16],本研究受Wan的工作啟發(fā),提出使用文檔集合中四種類型實體和實體間關(guān)系進(jìn)行句子抽取及排序的方法。在文檔集合中,最小的單位是詞語(W),詞語的集合組成句子(S),句子集合組成文檔(D),文檔集合組成文檔集(Ds),而主題(T)是由文檔集合中相似度較高的詞語組成,可以通過聚類算法產(chǎn)生文檔集合中的主題。四種類型的實體包括文檔集合中的詞語、句子、主題和文檔。建立的異構(gòu)關(guān)系網(wǎng)絡(luò)圖中不僅包括同種實體之間的關(guān)系,而且包括不同類型實體間的關(guān)系,本研究所提出的自動文摘模型中,句子的重要度不僅取決于與它相連的句子連接數(shù)目和重要度,而且取決于與它相連關(guān)鍵詞、主題、和文檔的連接數(shù)目和重要度,實體間的關(guān)系。由于句子的重要度綜合考慮了多種類型實體之間的關(guān)系,因此本研究所提出的模型可以更加合理的計算句子重要度并最終對它們排序。
本研究所提出的模型基于以下假設(shè):
假設(shè)1:如果一個句子(或詞語、主題、文檔)被重要度高或數(shù)目較多的其他句子(或詞語、主題、文檔)所連接,那么這個句子應(yīng)當(dāng)具有較高的重要度。
假設(shè)2:如果一個句子被較重要的文檔包含、或者與較重要的主題相似程度大、或者包含較重要的詞語,那么這個句子應(yīng)當(dāng)具有較大的重要度。同理文檔、主題和詞語的重要度也分別由與它相連的其他類型的實體所決定。
假設(shè)1類似于PageRank算法的思想,利用同構(gòu)實體之間的關(guān)系進(jìn)行重要度的傳遞,而假設(shè)2類似于Hits算法的思想,將各種類型的實體分別看作權(quán)威和中心。本文所提出的方法試圖在一個模型中融合PageRank和Hits模型的思想。
本系統(tǒng)采用MMR算法進(jìn)行冗余句子消除。該方法的大致思想為:根據(jù)重要度的大小逐句選擇文摘句,在逐步選擇句子的時候,同時考慮句子和已選擇句子的信息重疊度及句子本身的重要程度,選擇那些自身權(quán)值較高,而且與已選擇句子的信息重復(fù)量較少的句子。按照這種方法,就可以既可以保證文摘中的句子重要程度都比較高并且文摘的冗余度較低。它選擇句子的準(zhǔn)則就是選擇那些自身權(quán)值較高,而且和已選擇句子的信息重復(fù)量較少的句子。
多文檔摘要可以作為單獨的系統(tǒng)使用,按照用戶定制的規(guī)則從用戶感興趣的網(wǎng)站上獲取信息、生成簡要的文摘提供給用戶,既可省去用戶直接在網(wǎng)站上瀏覽的大量時間。目前的很多研究就是在這個應(yīng)用上進(jìn)行的。
多文檔摘要也可以應(yīng)用在信息檢索領(lǐng)域,它可以對信息檢索的結(jié)果進(jìn)行處理,將內(nèi)容相似的網(wǎng)頁進(jìn)行歸納和摘要,將摘要結(jié)果返回給用戶。假如目前的信息檢索給的前30個結(jié)果可以劃分為5個主題,但是由于搜索弓|擎的排序規(guī)則,使得其中一個主題包含的10篇文章全部出現(xiàn)在第一頁,而用戶感興趣的主題出現(xiàn)在第二頁甚至更后面,那么使用信息的效率將會大大降低。如果我們對這30個文章的5個主題分別進(jìn)行摘要,把5個摘要返回給用戶,那么用戶可以很快在第一頁上找到與自己感興趣的內(nèi)容。這樣就可以在檢索結(jié)果的第一頁中包含更多更豐富的信息,從而很好地提高了海量信息的使用效率。
話題監(jiān)測和跟蹤TDT(Topic detection and tracking)是多文檔摘要的另一個應(yīng)用,即根據(jù)用戶感興趣的主題內(nèi)容從網(wǎng)絡(luò)信息中不斷發(fā)現(xiàn)與其相關(guān)的文本信息并與原有信息進(jìn)行匯總,生成趨勢發(fā)展分析報告等提供給用戶使用。此外,在特定領(lǐng)域上多文檔摘要技術(shù)也具有廣闊的應(yīng)用空間,如科技文獻(xiàn)摘要、股票論壇的摘要匯總、國家安全部門對非法信息的監(jiān)控等等。簡言之,多文檔摘要技術(shù)有著巨大的需求和應(yīng)用前景,這些正是推動其發(fā)展的強大動力。
[1]Jade Goldstein,Mark Kantrowitz,Vibhu Mittal,Jaime Carbonell.Summarizing Text Documents:Sentence Selection and Evaluation Metrics[C]//Proceedings of SIGⅡ099,Berkeley,CA,1999:121,128.
[2]Dragomir R.Radev,Hongyan Jing,Malgorzata Budzikowska.Centroid-based Summarization of Multiple Documents:Sentence Extraction,Utility-based Evaluation,and User Studies[C]//ANLP/NAACL2000 Workshop,Seattle,Washington,USA,April 2000,21-29.
[3]http://newsblaster.cs.columbia.edu/[OL].
[4]鐘義信.自然語言理解的全信息方法論[J].北京郵電大學(xué)學(xué)報,2004,27(4):1-12.