王曉霞
摘 要 本文主要闡述了文摘的三大評估方法以及機械文摘質(zhì)量自動評估的實現(xiàn),通過對各種方法的具體介紹來選擇合適的文摘評估方法。
關(guān)鍵詞 摘要 評估 評價方法
中圖分類號:TP391 文獻標識碼:A
自動文摘的評價方法大致可分為三大類:(1)直接(direct)評價方法;(2)基于任務的評價(task based)方法;(3)基于目標的評估(target-based)方法。以下為具體介紹:
1直接評價方法
在自動文摘研究的初期,主要是系統(tǒng)的開發(fā)者對文摘系統(tǒng)進行評價測試,根據(jù)評測結(jié)果來指導研究工作。因此,他們大多采用直接分析文摘質(zhì)量的方法來對系統(tǒng)性能進行評價。如下方法:
(1)與“理想摘要”進行比較
這種方法的核心思想是將獲得的摘要與“理想摘要”進行對比,根據(jù)兩者的相似性進行評價。與“理想摘要”越接近,則說明摘要的質(zhì)量越高。
(2)其他方法
提問回答評價方法認為好的摘要必須能夠闡述原文中的關(guān)鍵要點,因此,該方法要求首先對文章進行分析,取出其中的要點,根據(jù)摘要中是否包含這些要點來進行評價研究。他認為用于考試而提出的問題通常反映了文章的主題。
2基于任務的評價方法
為了克服直接評價方法的弱點,近年來一些研究者提出應采用基于任務的評價方法來對自動文摘系統(tǒng)進行評價,即將摘要應用于特定的任務,根據(jù)文摘系統(tǒng)對該任務的促進作用來評價文摘系統(tǒng)的性能。Brandow嘗試在IR(information retrieval)任務中評價文摘系統(tǒng)。對比采用摘要進行檢索與原文進行檢索的準確度,來確定是否可以在IR中利用摘要來代替原文。Mike(1994)嘗試在一個新聞分析任務中,根據(jù)利用摘要進行新報分析的效果來進行評價。此外,由于情報處理領(lǐng)域中有許多具體任務,因而不斷有研究者提出新的任務、用于基于任務的評價方法。
3基于目標的評估方法
這里只介紹Edmundson方法。Edmundson的評估是典型的基于目標的評估方法,他的評估目的是比較各種自動文摘方法的優(yōu)劣:標題關(guān)鍵詞法,位置法,文中關(guān)鍵詞法,指示性詞語以及這四備戰(zhàn)方法的組合。Edmundson采用了3種評估方法,分別為客觀評估、主觀評估、統(tǒng)計錯摘的句子。下面重點介紹方法的基本原理及其實現(xiàn)技術(shù)。
評測的內(nèi)容選擇以原文為依據(jù),評估文摘是否比較準確全面地表達了原文的中心意思,其實質(zhì)就是文章質(zhì)量評測。通常,人們一般對文摘有長度限制,在表達同樣意思的前提下,認為短文較長文摘要好。這樣,好的機械文摘便可定義為“選取了最少的句子數(shù),并全面表達了原文中心意思的機械文摘?!?/p>
語篇語言學的理論認為,語篇在意義上存在一種層次關(guān)系,即:
語篇的中心意思=各組成意義段的中心意思按一定邏輯關(guān)系的組合
意義段的中心意思=各組成子意義段的中心意思按一定邏輯關(guān)系的組合。
子意義段的中心意思=各組成下位子意義段的中心意思按一定邏輯關(guān)系的組合。
直至不能再劃分為更小的子意義段。
需要指出的是,在任何具體語篇中,這種分層是有窮的,而且由于受長度限制,到子意義段的文摘已屬少見,一般文摘到意義段已足夠。
這種意義上的層次關(guān)系必然要在形式上體現(xiàn)出來,即文章的句子之間大致存在一種層次關(guān)系,構(gòu)成一種樹形(金字塔形)結(jié)構(gòu)。層次越高所含的句子數(shù)目越少。
4機械文摘質(zhì)量自動評估的實現(xiàn)
(1)機械文摘質(zhì)量自動評估的模型,在這個模型中,主動要有3個方面的工作要做:
①原文(相當于考試的題目)的選擇。
②評價(這是評估的核心)。
③專家文摘的獲得。
(2)原文的選擇
這一部分工作只能由人來完成,最重要的選擇標準是原文對于參加比較的各文摘系統(tǒng)具有可比性。
(3)評價
評價是文摘自動評測的核心部分。在進行評價時,有以下幾個基本規(guī)定:
①專家文摘和機械文摘都存入文中文件中。
②為使專家文摘與機械文摘具有可比性,只允許專家從原文中抽取句子,而不允許專家根據(jù)自己對原文的理解重新生成句子。
③專家文摘和機構(gòu)文摘的句子都按照在原文中出現(xiàn)的先后順序給出。
④定義
重合率p=匹配句子數(shù)/專家文摘句子數(shù)?00%
每一個機械文摘的重合率為按n個專家給出的文摘得到的重合率的平均值。
平均重合率=pi/n?00%
其中,pi為相對于第i個專家的重合率; N為專家的數(shù)目。
(4)在系統(tǒng)的實現(xiàn)中,有以下兩個因素會給評測帶來一定的困難;
①文摘中的句子長度不定,有的句子過長。
②文摘的句子數(shù)目過多。
據(jù)觀察,這兩個問題可以解決的。
第一個問題在一篇文章里,任意互不相同的每句話的前15個字均不相同,而句子只能從原文中摘取,因此每句話的前15個字可用來代替該句子。即若機械文摘句子的前15個字組成的字串與專家文摘中句子的前15個字組成的字串相同,則認為該機械文摘句與專家文摘句重合。
第二個問題的解決方案在于對文摘長度的限制。在實踐中,如果文摘過長,就會失去其作為摘要的意義??梢砸?guī)定:機械文摘除了規(guī)定摘取率外還規(guī)定一個指標即文摘的總字數(shù)不能多于1000個漢字。設漢語句平均長度大于10個字,所以句子數(shù)目最多只有100。
(5)專家文摘的獲得
進行系統(tǒng)評價所必需的專家文摘應具有以下條件;
①專家文摘應與機械文摘有相同的摘取率
②專家文摘應該是機器可讀的。
③專家文摘的句序應與原文中的句序相一致。