趙旭劍 涂勇 李波 張暉 楊春明 王耀彬
摘要:傳統(tǒng)的新聞話題融合方法往往將話題表示為一個(gè)統(tǒng)一的一層模型進(jìn)行聚類融合,對(duì)于具有多層結(jié)構(gòu)的網(wǎng)絡(luò)新聞存在模型缺陷,容易忽略子話題的細(xì)節(jié)特征,影響新聞話題的融合結(jié)果。針對(duì)該問(wèn)題,本文提出一種基于分層機(jī)制的網(wǎng)絡(luò)新聞話題融合方法,研究話題的多層表示模型,實(shí)現(xiàn)對(duì)網(wǎng)絡(luò)新聞話題的自動(dòng)聚類。實(shí)驗(yàn)表明,本文方法較傳統(tǒng)方法具有更高的準(zhǔn)確率,能有效識(shí)別網(wǎng)絡(luò)新聞在子話題上的特征差異。
關(guān)鍵詞:多層表示模型;分層機(jī)制;新聞話題;話題融合;話題聚類
中圖分類號(hào):TP391 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2015)15-0212-03
Abstract: Traditional methods for news topic fusion are used to represent the news topic with a uniform one-level model to carry out clustering. With regard to the network news with multi-level topics, the model defects of traditional methods easily result in overlooking the detailed features of the sub-topic and affecting the fusion results. Aiming at this issue, this paper proposes a hierarchical topic fusion method, and discusses the multi-level topic model as well as the implementation of topic clustering for network news. Experiments show that this method has a higher precision than traditional methods and can effectively identifies the differences in the characteristics of the sub topics of network news.
Key words: multi-level representation model; hierarchical method; news topic; topic fusion; topic cluster
1 引言
隨著網(wǎng)絡(luò)技術(shù)的不斷發(fā)展,互聯(lián)網(wǎng)已經(jīng)成為一種新的新聞媒體傳播媒介。相比其它新聞?lì)悇e,網(wǎng)絡(luò)新聞具有更新速度快,信息量大,交互性強(qiáng)等優(yōu)點(diǎn)。因此以新聞網(wǎng)頁(yè)為對(duì)象的數(shù)據(jù)挖掘技術(shù)成為近年來(lái)工業(yè)界和學(xué)術(shù)界共同的研究熱點(diǎn)。網(wǎng)絡(luò)上的新聞大多分布比較雜亂,尋找準(zhǔn)確的新聞內(nèi)容顯得十分困難。因此,一種高效、準(zhǔn)確的新聞話題自動(dòng)聚類融合方法是很必要的。然而,傳統(tǒng)的方法只是將話題表示為一個(gè)統(tǒng)一的單層模型,利用特征融合等方法進(jìn)行聚類。傳統(tǒng)方法比較簡(jiǎn)單便捷,只是對(duì)新聞?wù)w進(jìn)行了簡(jiǎn)單地聚類融合,沒(méi)有考慮話題的層級(jí)結(jié)構(gòu),容易忽略子話題的細(xì)節(jié)特征,影響話題融合的準(zhǔn)確性,造成話題融合結(jié)果的偏斜。因此,需要一種新的新聞話題聚類融合方法,對(duì)新聞?wù)膶?shí)現(xiàn)基于分層機(jī)制的融合,提高新聞聚類的準(zhǔn)確度。
目前對(duì)新聞話題的分層機(jī)制研究主要采用兩種策略:基于關(guān)鍵詞的方法和基于時(shí)間信息的方法。張闊等[1]采用基于關(guān)鍵詞的策略,提出以詞元單位為基礎(chǔ)的話題內(nèi)事件檢測(cè)方法,以事件的形式體現(xiàn)子話題。仲兆滿等[2]則考慮了文本中的時(shí)間信息特征,通過(guò)獲取新聞報(bào)道的發(fā)布時(shí)間對(duì)新聞進(jìn)行排序,進(jìn)而對(duì)相同時(shí)間段內(nèi)的新聞進(jìn)行話題聚類,實(shí)現(xiàn)話題分層。文獻(xiàn)[3]對(duì)搜索引擎返回的話題相關(guān)文檔進(jìn)行子話題劃分,結(jié)合了兩種子話題聚類方法。基于關(guān)鍵詞的劃分方法中,首先計(jì)算關(guān)鍵詞的權(quán)重,然后根據(jù)關(guān)鍵詞進(jìn)行分類,但是并沒(méi)有分析子話題的內(nèi)容特征。在基于時(shí)間信息的劃分方法中,簡(jiǎn)單地將同一時(shí)間點(diǎn)的子話題片段進(jìn)行合并,并沒(méi)有考慮同一時(shí)間點(diǎn)可能出現(xiàn)多個(gè)子話題的情況?;谠掝}層級(jí)的話題聚類對(duì)于話題演化研究具有重要意義,其中,Makkonen[4]提出在話題演化挖掘過(guò)程中通過(guò)分析名詞實(shí)體來(lái)測(cè)量話題之間的相似度,文獻(xiàn)[5][6]則討論了對(duì)于不同話題層級(jí)結(jié)構(gòu)的新聞文檔進(jìn)行話題演化追蹤的相關(guān)工作。而洪宇等[7]將新聞報(bào)道劃分為不同的層級(jí)結(jié)構(gòu),根據(jù)相關(guān)子話題的比例和分布建立新話題的檢測(cè)模型,實(shí)現(xiàn)對(duì)新事件的識(shí)別。與已有工作相比,本文的主要貢獻(xiàn)在于:
(1)提出了面向不同新聞結(jié)構(gòu)類型的網(wǎng)絡(luò)新聞話題層級(jí)關(guān)系構(gòu)建方法,有效識(shí)別話題的層級(jí)關(guān)系,對(duì)普通網(wǎng)絡(luò)新聞具有較強(qiáng)的普適性。
(2)提出了基于分層機(jī)制的網(wǎng)絡(luò)新聞話題聚類算法,根據(jù)話題層級(jí)關(guān)系結(jié)合時(shí)間信息,實(shí)現(xiàn)子話題的同級(jí)聚類,有效提高話題融合算法的準(zhǔn)確性。
2 新聞話題層級(jí)關(guān)系構(gòu)建
總的來(lái)說(shuō),網(wǎng)絡(luò)新聞根據(jù)報(bào)道格式可以分為兩類:含有子標(biāo)題的顯式層級(jí)新聞和不含有子標(biāo)題的隱式層級(jí)新聞。針對(duì)顯式層級(jí)新聞,新聞?wù)闹械臉?biāo)題與子標(biāo)題體現(xiàn)了新聞話題的層級(jí)關(guān)系,如圖1所示,方框中的加粗文字作為新聞的子標(biāo)題表達(dá)了整篇新聞局部篇章的內(nèi)容,因此,我們可以直接利用這些子標(biāo)題作為話題層級(jí)結(jié)構(gòu)的子話題進(jìn)行子話題的融合。
對(duì)于隱式層級(jí)新聞,我們通過(guò)提取段落的關(guān)鍵詞構(gòu)建TextTiling模型[8]來(lái)建立層次結(jié)構(gòu)。TextTiling方法主要應(yīng)用于新聞報(bào)道中文章段落劃分。Hearst[8]的研究表明,在一篇新聞報(bào)道中,通常是相鄰的若干句子表達(dá)同一個(gè)子主題,這些表達(dá)同一子主題的句子中相鄰兩句的相似度都比較高,而子話題有轉(zhuǎn)折的兩個(gè)相鄰句子的相似度相對(duì)會(huì)有大幅度下降,TextTiling方法將表達(dá)同一個(gè)子話題的句子劃分為同一段落。這種方法具有普遍的適用性,其關(guān)鍵在于爬取新聞網(wǎng)頁(yè)的時(shí)候新聞的段落層次能夠區(qū)分出來(lái)進(jìn)行數(shù)據(jù)處理。
此外,針對(duì)每一篇新聞文檔,我們還將其標(biāo)題抽取出來(lái)作為一個(gè)單獨(dú)的話題層次,因?yàn)樾侣劦臉?biāo)題是整篇新聞的核心總結(jié),通常我們可以通過(guò)新聞標(biāo)題了解到新聞將要講述些什么。因此,新聞的標(biāo)題作為一個(gè)單獨(dú)的話題層次是可行的,對(duì)于后期的實(shí)驗(yàn)結(jié)果評(píng)測(cè)也是一個(gè)可參考的參照指標(biāo)。
3 基于層級(jí)關(guān)系的話題融合
根據(jù)新聞文檔的話題層級(jí)關(guān)系,進(jìn)行同級(jí)子話題的話題聚類,保留了子話題中表達(dá)內(nèi)容的差異性,能有效提高新聞話題融合的準(zhǔn)確性。因此,我們將通過(guò)建立話題融合模型,采用自下而上(子話題級(jí)別到話題級(jí)別)的聚類模式實(shí)現(xiàn)網(wǎng)絡(luò)新聞話題的融合。
3.1 話題融合模型
傳統(tǒng)的話題融合方法只是將話題表示為一個(gè)統(tǒng)一的單層模型,利用特征融合等方法進(jìn)行聚類(如圖2所示)。這種方法使得許多細(xì)節(jié)性的問(wèn)題被大而化之,或者丟失了子話題的差異性,對(duì)于話題關(guān)系復(fù)雜的網(wǎng)絡(luò)新聞不具適用性。
而話題的層級(jí)表示模型是把整篇網(wǎng)絡(luò)新聞(包括新聞的標(biāo)題和正文)看成一個(gè)整體,通過(guò)構(gòu)建話題層級(jí)關(guān)系建立一個(gè)自下而上的多層結(jié)構(gòu)。基于層級(jí)模型的話題融合能夠很好地體現(xiàn)網(wǎng)絡(luò)新聞的層級(jí)特征(子話題特征),通過(guò)進(jìn)行子話題的相似度計(jì)算比較,可以判斷新聞文檔的相似度。這樣的網(wǎng)絡(luò)新聞話題融合方式可以極大程度地避免新聞子話題內(nèi)容差異大卻被聚類融合的情況。基于層級(jí)關(guān)系的話題融合模型如圖3所示。
3.2 話題融合方法
新聞文檔進(jìn)行融合過(guò)程中需要首先構(gòu)建特征模型,本文我們采用向量空間模型(Vector Space Model, VSM)來(lái)表示新聞文檔。向量空間模型把對(duì)文本內(nèi)容的處理簡(jiǎn)化為向量空間中的向量運(yùn)算,并且它以空間上的相似度表達(dá)語(yǔ)義的相似度,直觀易懂。當(dāng)文檔被表示為文檔空間的向量,就可以通過(guò)計(jì)算向量之間的相似性來(lái)度量文檔間的相似性。
網(wǎng)絡(luò)新聞話題的層級(jí)融合指的是對(duì)網(wǎng)絡(luò)新聞構(gòu)建層次結(jié)構(gòu)的子話題,通過(guò)子話題之間的融合結(jié)果判斷整個(gè)新聞是否可以進(jìn)行融合。層次結(jié)構(gòu)的子話題融合對(duì)每一層的子話題都要做相似度的計(jì)算,然后對(duì)每一層子話題的相似度數(shù)據(jù)值進(jìn)行處理,根據(jù)處理后的結(jié)果來(lái)判斷新聞是否可以進(jìn)行話題的融合。
基于話題層級(jí)關(guān)系的話題融合方法主要分為四個(gè)階段:
第一階段:根據(jù)新聞話題的結(jié)構(gòu)特征,抽取各個(gè)層級(jí)話題的話題時(shí)間[5],計(jì)算兩篇新聞文檔各個(gè)層級(jí)話題的時(shí)間相似度TR,當(dāng)TR大于設(shè)定的時(shí)間相似判定閾值,則TR為true,否則為false;
第二階段:基于話題內(nèi)容計(jì)算新聞文檔子話題相似度SR,設(shè)定話題相似判定閾值,當(dāng)有過(guò)半的子話題相似度大于閾值則令SR為true,否則為false;
第三階段:計(jì)算子話題融合參數(shù)[α]=TR∩SR,如果[α]為true,則判定兩個(gè)子話題相關(guān),可以歸并為一個(gè)話題;
第四階段:對(duì)總的新聞文本相似度設(shè)定一個(gè)閾值,利用每層子話題的相似度數(shù)據(jù)值進(jìn)行計(jì)算,利用簡(jiǎn)單的算術(shù)平均求得在整個(gè)文檔級(jí)的話題相似度,判斷該數(shù)值與閾值的大小,最終判定兩篇新聞文檔是否可以歸并為一個(gè)話題。
在具體的算法中,獲取每層子話題相似度數(shù)值是通過(guò)遍歷子話題進(jìn)行相似度比較的方式。正是由于層次結(jié)構(gòu)的子話題融合方法在數(shù)據(jù)處理方式上具有多樣性和豐富性的優(yōu)勢(shì),所以層級(jí)模式的話題融合相對(duì)于傳統(tǒng)的話題融合方式更能體現(xiàn)話題層級(jí)關(guān)系以及不同層級(jí)話題中的差異性。
4 實(shí)驗(yàn)結(jié)果與分析
為了評(píng)測(cè)本文算法的有效性,我們利用新浪、網(wǎng)易的同一個(gè)專題的新聞來(lái)進(jìn)行層級(jí)模式話題融合算法的實(shí)驗(yàn)分析。本文主要收集了2013年的H7N9禽流感事件,2013年4.20四川雅安蘆山7.0級(jí)地震,2013年河南義昌大橋坍塌事故以及2010年河南平煤集團(tuán)平禹四礦礦難事故四個(gè)專題新聞進(jìn)行實(shí)驗(yàn)評(píng)測(cè),具體數(shù)據(jù)見(jiàn)表1。
參考文獻(xiàn):
[1] 張闊,李涓子,吳剛,等.基于關(guān)鍵詞元的話題內(nèi)容事件檢測(cè)[J].計(jì)算機(jī)研究與發(fā)展,2009,46(2):245-252.
[2] 仲兆滿,朱平,李存華,等.一種基于局部分析面向事件的查詢擴(kuò)展方法[J].情報(bào)學(xué)報(bào),2012,31(2):151-159.
[3] 王巍.基于關(guān)鍵詞和時(shí)間點(diǎn)的網(wǎng)絡(luò)話題演化分析[D].上海:復(fù)旦大學(xué),2009.
[4] Makkonen J. Investigations on event evolution in TDT[C]//Proceedings of the Student Workshop of Human Language Technology Conference of the North American Chapter of the Association for Computational Linguistics,Edmonton,Canada,2003.Stroudsburg,PA,USA:Association for Computational Linguistics,2003:43-48.
[5] 趙旭劍,金培權(quán),岳麗華.TTP:一個(gè)面向中文新聞網(wǎng)頁(yè)的主題時(shí)間解析器[J].小型微型計(jì)算機(jī)系統(tǒng),2013,34(5):1042-1049.
[6] 趙旭劍,楊春明,李波,張暉,金培權(quán),岳麗華,戴文鍇. 一種基于特征演變的新聞話題演化挖掘方法[J]. 計(jì)算機(jī)學(xué)報(bào),2014,04:819-832.
[7] 洪宇,張宇,范基禮,等.基于子話題分治匹配的新事件檢測(cè)[J].計(jì)算機(jī)學(xué)報(bào),2008,31(4):687-695.
[8] Hearst M A. Multi-paragraph Segmentation of Expository Text[C]//Proceedings of the 32nd Meeting of the Association for Computational Linguistics. 1994.