王 琳, 劉伍穎
(1. 上海外國(guó)語大學(xué) 賢達(dá)經(jīng)濟(jì)人文學(xué)院,上海 200083; 2. 廣東外語外貿(mào)大學(xué) 語言工程與計(jì)算實(shí)驗(yàn)室,廣東 廣州 510420;3. 廣東外語外貿(mào)大學(xué) 網(wǎng)絡(luò)空間內(nèi)容安全工程技術(shù)研究中心,廣東 廣州 510420)
在當(dāng)前大數(shù)據(jù)時(shí)代,海量語言信息帶給人們的是信息過載,這使得信息的稀缺性大大降低,而人們時(shí)間的稀缺性大大提高,信息的價(jià)值不只是語言文字的數(shù)量,更重要的是關(guān)鍵信息的濃度。為了應(yīng)對(duì)信息爆炸,人們很早就提出了利用計(jì)算機(jī)程序提取文摘的想法,迄今發(fā)表了很多高效的自動(dòng)文摘算法文獻(xiàn)[1]。自動(dòng)文摘主要采用計(jì)算機(jī)程序把文本文檔壓縮成篇幅較短的文摘,并盡可能在文摘中保留原文檔的關(guān)鍵信息。自動(dòng)文摘技術(shù)能夠幫助人們?cè)谟邢薜臅r(shí)間內(nèi)全面把握語言大數(shù)據(jù)的中心內(nèi)容,因此再次成為自然語言處理的研究熱點(diǎn)。在本輪自動(dòng)文摘研究熱潮中,突出了非通用語言特色。對(duì)非通用語言自動(dòng)文摘技術(shù)的探索能夠豐富自然語言處理理論,提高多語種信息處理的效率,帶動(dòng)低資源語言的形態(tài)、句法、語義分析等基礎(chǔ)研究,推動(dòng)人工智能技術(shù)的進(jìn)一步發(fā)展。
回顧相關(guān)研究歷程可知,人們?cè)缭?958年就已經(jīng)提出了自動(dòng)文摘這個(gè)概念[2]。早期的自動(dòng)文摘算法主要采用文檔的自然結(jié)構(gòu)信息(標(biāo)題、段首句、段尾句等)來估算句子的重要程度,再組合關(guān)鍵句子形成文摘。從1987年到1997年持續(xù)召開的MUC (Message Understanding Conference)學(xué)術(shù)會(huì)議就包含自動(dòng)文摘研究。
1993年底在德國(guó)召開了第一次以自動(dòng)文摘為主題的國(guó)際研討會(huì)(Summarizing Text for Intelligent Communication)。1995年國(guó)際期刊Journal of Information Processing and Management出版了Text Summarization??痆3]。上述兩個(gè)標(biāo)志性事件掀起了自動(dòng)文摘研究的第一次熱潮,從1996年到1998年持續(xù)進(jìn)行了SUMMAC (TIPSTER Text Summarization Evaluation)評(píng)測(cè)。
接著,各種各樣的有監(jiān)督文摘算法[4]被提出,它們根據(jù)文本文檔和相應(yīng)的人工文摘學(xué)習(xí)出句子重要性特征,摘要時(shí)根據(jù)模型判斷候選句子。幾乎同時(shí),還有很多半監(jiān)督[5]和無監(jiān)督[6]文摘算法也被提出,例如,基于質(zhì)心句子發(fā)現(xiàn)的無監(jiān)督文摘算法就是其中一種有效的方法。從2000年到2007年持續(xù)召開了DUC (Document Understanding Conference)學(xué)術(shù)會(huì)議。再后來,人們轉(zhuǎn)而關(guān)注多文檔文摘[7]研究,同時(shí)追求精煉和綜合能力。通常多文檔文摘能夠涵蓋多篇文檔的中心內(nèi)容,而且這些文檔之間往往是主題相關(guān)的[8]。從2008年至今持續(xù)召開了TAC(Text Analysis Conference)學(xué)術(shù)會(huì)議。
經(jīng)過近60年的發(fā)展,自動(dòng)文摘研究從關(guān)鍵技術(shù)探索到實(shí)用系統(tǒng)研制,基本遵循從規(guī)則方法到統(tǒng)計(jì)方法,再到混合方法的研究路徑。實(shí)用文摘系統(tǒng)在許多領(lǐng)域得到廣泛應(yīng)用,充分體現(xiàn)了自動(dòng)文摘的價(jià)值。近年來,自動(dòng)文摘研究再掀熱潮,研究焦點(diǎn)從單語言向多語言轉(zhuǎn)變[9],很多的自動(dòng)文摘算法是針對(duì)非通用語言的[10]。隨著當(dāng)前東北亞安全形勢(shì)以及經(jīng)貿(mào)全球化的迫切需求,韓國(guó)語自動(dòng)文摘研究受到越來越多的關(guān)注。不過迄今為止,韓國(guó)語自動(dòng)文摘算法還比較稀少[11],而英語、漢語等自動(dòng)文摘研究相對(duì)成熟,可供參考和借鑒。因此,本文主要圍繞韓國(guó)語自動(dòng)文摘這個(gè)科學(xué)問題,從韓國(guó)語主要的體詞和謂詞出發(fā),深入探索一種高效的解決方法。
圖1 總體框架
根據(jù)當(dāng)前韓國(guó)語文摘的實(shí)際應(yīng)用需求,我們提出如圖1所示的總體框架。給定一個(gè)韓國(guó)語文本文檔,首先,根據(jù)文檔的自然結(jié)構(gòu)進(jìn)行段落切分,接著,對(duì)每個(gè)段落通過依次掃描句子終結(jié)符進(jìn)行句子切分。完成上述兩步預(yù)處理后,詞性標(biāo)注模塊對(duì)每個(gè)句子進(jìn)行詞匯切分并給每個(gè)詞匯標(biāo)上詞性?;陉P(guān)鍵體詞抽取的韓國(guó)語自動(dòng)文摘方法(圖1?)根據(jù)詞性標(biāo)簽對(duì)全詞進(jìn)行體詞過濾,并將全部體詞輸出至關(guān)鍵體詞抽取模塊。然后,關(guān)鍵體詞抽取模塊統(tǒng)計(jì)詞頻[12]排序體詞,并根據(jù)預(yù)設(shè)的TopN值提取前N個(gè)高頻體詞作為關(guān)鍵體詞。最后,自動(dòng)文摘模塊根據(jù)包含關(guān)鍵體詞的數(shù)量挑選信息豐富的句子組成文摘。在句子挑選過程中還可以附加MMR(Maximal Marginal Relevance)策略生成文摘,也就是獎(jiǎng)勵(lì)關(guān)鍵句子的同時(shí)懲罰與之冗余的句子,使得有限的文摘篇幅能夠容納更多的關(guān)鍵信息。
韓國(guó)語句子當(dāng)中最主要的成分是體詞和謂詞,包括表1所示的16類體詞和5類謂詞[13]。我們認(rèn)為韓國(guó)語體詞主要傳遞語義信息,而韓國(guó)語謂詞更多地?fù)?dān)負(fù)句法框架功能。因此基于關(guān)鍵體詞抽取的韓國(guó)語自動(dòng)文摘方法能夠捕獲更多的關(guān)鍵語義信息。為了驗(yàn)證這一假設(shè),我們?cè)诳傮w框架中平行設(shè)計(jì)了基于關(guān)鍵謂詞抽取的韓國(guó)語自動(dòng)文摘路徑(圖1?),通過對(duì)全詞進(jìn)行謂詞過濾和關(guān)鍵謂詞抽取,挑選句子生成文摘。此外,我們還增加基于關(guān)鍵詞抽取的韓國(guó)語自動(dòng)文摘路徑(圖1?),通過從全詞中抽取關(guān)鍵詞再進(jìn)行自動(dòng)文摘[14]。
表1 體詞和謂詞類別標(biāo)簽
我們認(rèn)為關(guān)鍵詞抽取和自動(dòng)文摘的真正區(qū)別僅僅是目標(biāo)信息的粒度,關(guān)鍵詞抽取的目標(biāo)是詞匯粒度,而自動(dòng)文摘的目標(biāo)是句子粒度[15]。關(guān)鍵詞抽取相當(dāng)于詞匯粒度的文摘,而自動(dòng)文摘?jiǎng)t相當(dāng)于句子粒度的“關(guān)鍵詞”抽取。由于句子粒度較大,重現(xiàn)率相對(duì)詞匯而言較低,所以通過重現(xiàn)率較高的關(guān)鍵詞匯抽取入手,再擴(kuò)展至關(guān)鍵句子的判定是我們算法的核心思想[16]。
根據(jù)上述總體框架,我們?cè)O(shè)計(jì)實(shí)現(xiàn)了一個(gè)橋接關(guān)鍵詞匯抽取和自動(dòng)文摘的算法——基于關(guān)鍵體詞抽取的韓國(guó)語文摘(Key-Noun-Extraction-based Korean Summarization, KKS)算法,如圖2所示。其中有兩個(gè)預(yù)設(shè)參數(shù)Ratio和TopN,Ratio表示希望達(dá)到的文摘長(zhǎng)度占原文檔長(zhǎng)度的比,摘要時(shí)可以通過最終文摘字節(jié)數(shù)除以原文檔字節(jié)數(shù)計(jì)算實(shí)際占比,TopN表示前N個(gè)高頻體詞。整個(gè)算法主要包括7個(gè)功能函數(shù)(ParagraphPartitioning,SentenceSplitting,POSTagging,NounwordFiltering,KeynounwordExtracting,Summarizing,MMRSummarizing)。其中NounwordFiltering函數(shù)能夠過濾出16類體詞。該算法時(shí)間開銷主要包括三個(gè)循環(huán)的時(shí)間,圖2第7行循環(huán)時(shí)間僅僅正比于原文檔文本長(zhǎng)度,而圖2第17行和第23行循環(huán)時(shí)間也只和預(yù)設(shè)Ratio值相關(guān),通常是一個(gè)相對(duì)較小的浮點(diǎn)數(shù)。該算法沒有其他的耗時(shí)操作,這樣的時(shí)間復(fù)雜度對(duì)于實(shí)際的韓國(guó)語文摘應(yīng)用是可以接受的。為了對(duì)比研究,我們還在總體框架下,參照?qǐng)D2算法設(shè)計(jì)實(shí)現(xiàn)了基于關(guān)鍵謂詞抽取的韓國(guó)語文摘算法和基于關(guān)鍵詞抽取的韓國(guó)語文摘算法。
圖2 基于關(guān)鍵體詞抽取的韓國(guó)語文摘算法
實(shí)驗(yàn)采用經(jīng)典的ROUGE (Recall-Oriented Understudy for Gisting Evaluation)評(píng)價(jià)方法,其中ROUGEk表示自動(dòng)文摘和人工文摘間的k元召回率[17]。最終報(bào)告ROUGE1、ROUGE2、ROUGE3和ROUGE4的數(shù)值,并據(jù)此評(píng)價(jià)實(shí)驗(yàn)結(jié)果。
實(shí)驗(yàn)采用我們構(gòu)建的語料。首先,從互聯(lián)網(wǎng)上抓取了11個(gè)韓國(guó)語期刊的PDF格式的文檔。接著,利用程序抽取每篇文檔的文摘和正文組成純文本格式的實(shí)驗(yàn)語料。盡管PDF格式到純文本格式的抽取并非完美無缺,但適當(dāng)增加人工干預(yù)能夠達(dá)到較好的效果。最終,構(gòu)建出包含8 298篇純文本文檔的KorSummBank (V1.1)語料。表2給出了具體的源刊和文檔數(shù)。
表2 源刊文檔數(shù)
實(shí)驗(yàn)運(yùn)行時(shí)從5到95梯度設(shè)置TopN值,并分別運(yùn)行我們實(shí)現(xiàn)的體詞文摘、全詞文摘和謂詞文摘3個(gè)文摘器,再加上MMR策略,最終得到6組運(yùn)行結(jié)果。此外,我們還實(shí)現(xiàn)了一個(gè)單純的結(jié)構(gòu)文摘器用于對(duì)比。
KKS算法的實(shí)驗(yàn)結(jié)果如表3所示。我們發(fā)現(xiàn)體詞文摘方法的性能隨著TopN值從5增加到55而逐漸提高,隨著TopN值從55增加到95而逐漸回落,當(dāng)TopN值等于55時(shí),四項(xiàng)ROUGE指標(biāo)(ROUGE1=0.215 8, ROUGE2=0.086 0, ROUGE3=0.048 3, ROUGE4=0.033 3)達(dá)到最佳性能。我們還發(fā)現(xiàn)增加MMR策略之后,相應(yīng)的ROUGE1指標(biāo)有明顯提升,例如當(dāng)TopN值等于55時(shí),體詞文摘方法的ROUGE1結(jié)果是a0.215 8,而體詞+MMR文摘方法的ROUGE1結(jié)果提高了0.012 5,是0.228 3。不過其他三項(xiàng)指標(biāo)則略有下降,而且它們的最優(yōu)值也漂移到TopN值等于35時(shí),這主要是因?yàn)檎Z言結(jié)構(gòu)的靈活性造成的。表3的實(shí)驗(yàn)結(jié)果表明MMR策略能夠提升KKS算法的ROUGE1性能。
表3 體詞實(shí)驗(yàn)結(jié)果
表4給出了全詞實(shí)驗(yàn)結(jié)果。我們發(fā)現(xiàn)隨著TopN值的遞增,全詞文摘方法的性能都逐漸提高。當(dāng)TopN值等于95時(shí),全詞文摘方法的四項(xiàng)ROUGE指標(biāo)(ROUGE1=0.198 7, ROUGE2=0.082 5, ROUGE3=0.047 0, and ROUGE4 =0.032 3)達(dá)到最佳性能。當(dāng)TopN值等于95時(shí),全詞+MMR文摘方法的ROUGE1指標(biāo)最優(yōu),而其他三項(xiàng)指標(biāo)則漂移到TopN值等于85時(shí)達(dá)到最優(yōu)。對(duì)比表3中相同TopN值的數(shù)據(jù)可知: 采用全詞提取關(guān)鍵詞,文摘性能反而有所下降。我們還可以發(fā)現(xiàn)MMR策略對(duì)全詞文摘方法的ROUGE1和ROUGE2指標(biāo)都有改進(jìn),全詞+MMR文摘方法的整體性能不及體詞+MMR文摘方法的。
表4 全詞實(shí)驗(yàn)結(jié)果
表5給出了謂詞實(shí)驗(yàn)結(jié)果。通過比較發(fā)現(xiàn)謂詞實(shí)驗(yàn)結(jié)果不及全詞和體詞的結(jié)果。這也表明謂詞主要是擔(dān)負(fù)句法框架功能,對(duì)于關(guān)鍵語義的表示不占主體。正因?yàn)槿绱?,“錯(cuò)上加錯(cuò)”導(dǎo)致MMR策略對(duì)于謂詞文摘方法失效。
表5 謂詞實(shí)驗(yàn)結(jié)果
圖3顯示了上述實(shí)驗(yàn)結(jié)果的ROUGE1指標(biāo)趨勢(shì)。從中不難發(fā)現(xiàn)我們KKS算法中體詞+MMR文摘方法的整體性能是最優(yōu)的。
圖3 ROUGE1實(shí)驗(yàn)結(jié)果
上述實(shí)驗(yàn)結(jié)果還表明從關(guān)鍵體詞抽取到文摘生成的泛化過程是一種有效的韓國(guó)語文摘方法。為了進(jìn)一步展示基于關(guān)鍵體詞抽取的韓國(guó)語文摘算法的優(yōu)勢(shì),我們?cè)诒?中給出了一個(gè)具體示例。該例中的體詞+MMR文摘方法得到的文摘幾乎重合了人工文摘(粗體部分完全一致)。
表6 示例
續(xù)表
本文針對(duì)韓國(guó)語這種特定的非通用語言,探索了如何利用計(jì)算語言學(xué)知識(shí)和自然語言處理技術(shù)實(shí)現(xiàn)高效自動(dòng)文摘。在KorSummBank (V1.1)語料上的實(shí)驗(yàn)結(jié)果證明了總體框架和KKS算法的效力,能夠很好地解決韓國(guó)語文摘這個(gè)科學(xué)問題,而且MMR策略能夠大幅提升體詞和全詞文摘效果。
當(dāng)然,我們的算法仍然采用挑選原有句子集合中的一個(gè)子集的辦法,實(shí)現(xiàn)縮短原文本文檔的目標(biāo)。這可能導(dǎo)致文摘句之間有些不連貫。因此,下一步的研究將關(guān)注復(fù)述文摘方法,力求通過韓國(guó)語語義表示和生成技術(shù)實(shí)現(xiàn)類似人工摘要的簡(jiǎn)潔連貫文摘。此外,我們還準(zhǔn)備擴(kuò)展上述框架和算法,遷移用于韓國(guó)語多文檔文摘應(yīng)用。