謝林燕, 張素香, 戚銀城
(1.華北電力大學(xué) 電子與通信工程系 河北 保定 071003; 2.國(guó)網(wǎng)信息通信有限公司 北京 100053)
隨著互聯(lián)網(wǎng)的迅猛發(fā)展,人類已經(jīng)進(jìn)入了信息爆炸和信息過(guò)載的時(shí)代,海量的網(wǎng)絡(luò)媒體信息使得人們?cè)讷@取信息時(shí)產(chǎn)生了一種咨詢焦慮,因此,建立以話題為主線的信息組織模式,快速有效地檢測(cè)出用戶感興趣的信息成為新的研究熱點(diǎn).話題檢測(cè)與跟蹤[1](topic detection and tracking, TDT)技術(shù)就是在這種背景下產(chǎn)生并發(fā)展起來(lái)的.話題檢測(cè)是TDT測(cè)評(píng)任務(wù)中的一項(xiàng)任務(wù),它是將新聞數(shù)據(jù)流中的報(bào)道歸入不同的話題,并在必要的時(shí)候建立新話題的技術(shù).
目前,已有很多學(xué)者針對(duì)話題檢測(cè)展開(kāi)研究,文獻(xiàn)[2]通過(guò)分析大量英文報(bào)道的特征,提出基于內(nèi)容分析的話題檢測(cè)算法,通過(guò)內(nèi)容分析將話題表示成標(biāo)識(shí)中心向量和內(nèi)容中心向量.文獻(xiàn)[3]提出利用計(jì)算時(shí)間相似度和地點(diǎn)相似度進(jìn)行話題檢測(cè),但是沒(méi)有將兩者結(jié)合起來(lái).文獻(xiàn)[4]提出了一種時(shí)間相似度和地點(diǎn)相似度計(jì)算方法,并結(jié)合兩者進(jìn)行話題檢測(cè).目前,多數(shù)話題檢測(cè)算法是以語(yǔ)法信息為基礎(chǔ)計(jì)算話題和報(bào)道的相似度,最終完成話題檢測(cè)任務(wù).然而,影響話題檢測(cè)系統(tǒng)性能的一個(gè)重要因素是相似話題[1]的區(qū)分,如兩次不同的海嘯事故,因?yàn)槊枋鲞@些事件的報(bào)道所使用的詞匯大部分是相同的.針對(duì)這一問(wèn)題作者提出了基于層疊模型的話題檢測(cè)方法,首先識(shí)別話題和報(bào)道中的實(shí)體信息,同時(shí)改進(jìn)時(shí)間相似度和地點(diǎn)相似度的計(jì)算方法,在底層通過(guò)計(jì)算文本內(nèi)容相似度進(jìn)行話題檢測(cè),在高層結(jié)合時(shí)間相似度和地點(diǎn)相似度,融合三類相似度的計(jì)算結(jié)果作為最后的判別標(biāo)準(zhǔn),以此來(lái)克服相似話題難以區(qū)分的問(wèn)題.實(shí)驗(yàn)結(jié)果表明,該方法很好地提高了檢測(cè)精度.
提出的話題檢測(cè)系統(tǒng)如圖1所示,主要包括建立新聞報(bào)道模型與話題模型、基于層疊模型的話題檢測(cè)方法和話題檢測(cè)算法3部分.
1.1.1預(yù)處理與報(bào)道模型 文本預(yù)處理包括分詞和去停用詞兩部分.分詞是自然語(yǔ)言處理研究的出發(fā)點(diǎn),本系統(tǒng)首先對(duì)輸入的文本進(jìn)行分詞,然后為了降低后續(xù)處理流程的復(fù)雜度,提高檢測(cè)精度,要去除停用詞.
(1)
(2)
其中,tfi是termi在報(bào)道S中的詞頻,N是所有已輸入報(bào)道的總數(shù),ni是N篇報(bào)道中含有termi的報(bào)道的數(shù)量.
圖1 話題檢測(cè)系統(tǒng)框圖Fig.1 Topic detection system chart
1.1.2話題模型 話題模型通常以質(zhì)心表示,而質(zhì)心也是通過(guò)向量空間模型描述的,因此,通過(guò)提取特征和計(jì)算特征權(quán)值將特定話題表示為質(zhì)心.從已收集的話題語(yǔ)料中隨機(jī)抽取若干篇作為訓(xùn)練語(yǔ)料形成相應(yīng)話題,采用基于文檔頻率的方法選取文本特征.文檔頻率主要是統(tǒng)計(jì)所有不同詞在話題中的文檔的頻次,并將這些詞按照其頻次的高低順序排列,在該排列中抽取特定數(shù)目的詞作為話題特征項(xiàng).話題特征項(xiàng)的權(quán)重計(jì)算方法如下:
(3)
其中,weight(term,T)表示特征項(xiàng)term在話題T中的權(quán)重;Si是話題T中包含的新聞報(bào)道;N為話題T包含新聞報(bào)道的總數(shù)量;ω(term,Si)是特征項(xiàng)term在Si中的權(quán)重值.
一個(gè)事件涉及到的時(shí)間、地點(diǎn)信息在解決相似話題難以區(qū)分的問(wèn)題中起著不可忽視的作用.作者提出了基于層疊模型的話題檢測(cè)方法,多層次、多角度地分析話題和報(bào)道中的相似性,將基于baseline模型[2]的計(jì)算結(jié)果作為底層檢測(cè),在高層結(jié)合時(shí)間、地點(diǎn)信息的相似度,三類相似度融合的結(jié)果用于完成話題檢測(cè)任務(wù).
1.2.1話題和報(bào)道的內(nèi)容相似度計(jì)算 采用夾角余弦函數(shù)作為內(nèi)容相似度的計(jì)算方法.假設(shè)報(bào)道S與話題T的向量空間模型分別為S=(ws1,ws2,…,wsn)和T=(wt1,wt2,…,wtn),那么報(bào)道S與話題T的相似度計(jì)算公式為
(4)
1.2.2話題和報(bào)道的地點(diǎn)相似度計(jì)算 對(duì)文獻(xiàn)[4]提出的地點(diǎn)相似度的計(jì)算方法進(jìn)行了改進(jìn),首先建立與話題相關(guān)的地點(diǎn)詞典,將話題中涉及的重要地點(diǎn)信息收集到該詞典中,形成話題地點(diǎn)向量,然后提取報(bào)道的地點(diǎn)信息形成報(bào)道地點(diǎn)向量,進(jìn)行地點(diǎn)相似度計(jì)算,計(jì)算公式為
(5)
其中,mi為該話題的地點(diǎn)向量,mj為新聞報(bào)道Si的地點(diǎn)向量.
1.2.3話題和報(bào)道的時(shí)間相似度計(jì)算 時(shí)間信息在自然語(yǔ)言處理相關(guān)領(lǐng)域中起著重要的作用[6].在話題檢測(cè)中,可以利用時(shí)間信息判斷報(bào)道是否與某話題的后續(xù)報(bào)道相關(guān),當(dāng)報(bào)道時(shí)間與話題事件發(fā)生的時(shí)間差距增大時(shí),認(rèn)為兩者之間的相關(guān)性減弱,因此將這一特點(diǎn)融入了話題檢測(cè)中.作者改進(jìn)了文獻(xiàn)[4]中提出的時(shí)間相似度計(jì)算方法,利用新聞報(bào)道的發(fā)布時(shí)間與話題事件的發(fā)生時(shí)間差來(lái)表示話題和后續(xù)報(bào)道之間的相關(guān)性.算法改進(jìn)后,緩解了相似話題難以區(qū)分的問(wèn)題.為完成該任務(wù),必須將報(bào)道和話題中的時(shí)間信息規(guī)范化,精確到天,時(shí)間信息的格式為:2010-11-23,計(jì)算公式為
sim(ti,tj)=-|ti-tj|,
(6)
其中,ti為新聞報(bào)道Si發(fā)布的時(shí)間,tj為話題事件T發(fā)生的時(shí)間.
1.2.4基于層疊模型的話題與報(bào)道相似度計(jì)算 將基于文本內(nèi)容、時(shí)間、地點(diǎn)計(jì)算出的相似度加以融合,通過(guò)線性組合的方式得到最終的相似度,計(jì)算公式為
sim(Si,T)=cos(Si,T)+αsim(mi,mj)-βsim(ti,tj),
(7)
其中,α與β為設(shè)定的參數(shù).本實(shí)驗(yàn)中,α=0.4,β=0.000 1.
以Single-Pass聚類策略為基礎(chǔ)實(shí)現(xiàn)話題檢測(cè)算法,該算法按新聞報(bào)道輸入的先后順序依次處理信息流中的報(bào)道,直到所有的報(bào)道處理完畢,具體過(guò)程如下:
1)對(duì)新聞報(bào)道進(jìn)行預(yù)處理,然后利用1.1.1節(jié)和1.1.2節(jié)中的特征權(quán)重計(jì)算方法計(jì)算報(bào)道和話題中各個(gè)詞的權(quán)重值,分別建立報(bào)道模型和話題模型.
2)計(jì)算新聞報(bào)道與話題的相似度,與預(yù)設(shè)的閾值進(jìn)行比較,報(bào)道與話題的相似度高于閾值,則判定該報(bào)道與話題相關(guān),否則判定該報(bào)道與話題不相關(guān).
3)重復(fù)上述過(guò)程直到信息流中的所有報(bào)道都處理完畢.
實(shí)驗(yàn)采用的性能指標(biāo)為正確率(P)、召回率(R)和F1測(cè)試值,計(jì)算公式如下:
采用從互聯(lián)網(wǎng)收集到的新聞報(bào)道作為評(píng)測(cè)語(yǔ)料,該語(yǔ)料包含725篇中文報(bào)道,定義了包括韓朝開(kāi)戰(zhàn)、韓國(guó)前總統(tǒng)金大中去世、法國(guó)總統(tǒng)薩科齊訪華、云南盈江地震、索馬里海盜、韓國(guó)羅老號(hào)火箭墜毀等10個(gè)話題.隨機(jī)選取4篇與韓朝開(kāi)戰(zhàn)相關(guān)的新聞報(bào)道作為訓(xùn)練語(yǔ)料,構(gòu)建話題模型,剩余721篇新聞報(bào)道作為測(cè)試語(yǔ)料,其中選取韓朝開(kāi)戰(zhàn)事件作為本次實(shí)驗(yàn)的相關(guān)話題,其余話題作為與該話題不相關(guān)的反例話題,共計(jì)220篇報(bào)道.
設(shè)計(jì)了如下3個(gè)實(shí)驗(yàn):
實(shí)驗(yàn)一 采用基于傳統(tǒng)TF-IDF權(quán)重計(jì)算的baseline模型完成話題檢測(cè)任務(wù);
實(shí)驗(yàn)二 采用基于歸一化TF-IDF權(quán)重計(jì)算的baseline模型完成話題檢測(cè)任務(wù);
實(shí)驗(yàn)三 采用基于層疊模型完成話題檢測(cè)任務(wù).
實(shí)驗(yàn)對(duì)比結(jié)果見(jiàn)表1.
表1 實(shí)驗(yàn)結(jié)果Tab.1 Experimental results
由上述實(shí)驗(yàn)結(jié)果可以得出以下結(jié)論:
1)通過(guò)設(shè)定不同的相似度閾值發(fā)現(xiàn),隨著該值的增大,正確率提高,召回率下降.
2)通過(guò)比較實(shí)驗(yàn)一和實(shí)驗(yàn)二的實(shí)驗(yàn)結(jié)果,實(shí)驗(yàn)二中構(gòu)建的系統(tǒng)模型的召回率在同等實(shí)驗(yàn)條件下均高于實(shí)驗(yàn)一,同時(shí)F1測(cè)試值與實(shí)驗(yàn)一相比,也有所改進(jìn),這說(shuō)明基于歸一化TF-IDF權(quán)重計(jì)算的baseline系統(tǒng)模型的檢測(cè)性能優(yōu)于基于傳統(tǒng)TF-IDF權(quán)重計(jì)算的baseline模型.
3)通過(guò)比較實(shí)驗(yàn)二和實(shí)驗(yàn)三的實(shí)驗(yàn)結(jié)果,基于歸一化TF-IDF權(quán)重計(jì)算的baseline模型的話題檢測(cè)方法的性能指標(biāo),在同等條件下低于結(jié)合新聞特征的檢測(cè)結(jié)果,這說(shuō)明將時(shí)間和地點(diǎn)信息應(yīng)用到話題檢測(cè)中是一種行之有效的方法.
對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行分析可知,未能正確檢測(cè)識(shí)別新聞報(bào)道的原因主要有以下3種:
1)實(shí)驗(yàn)設(shè)定的反例中,存在與目標(biāo)話題類似的話題語(yǔ)料,如“韓國(guó)前總統(tǒng)金大中去世”和“韓國(guó)羅老號(hào)火箭墜毀”兩個(gè)事件中,均涉及到韓國(guó)的一些地名(如“首爾”、“青瓦臺(tái)”等),它們?cè)趦蓚€(gè)不同的話題中均出現(xiàn),造成結(jié)果誤判.
2)實(shí)驗(yàn)中存在部分與目標(biāo)話題相關(guān)的新聞報(bào)道,語(yǔ)料篇幅偏短,涉及到的特征不夠明顯,因此在相似度計(jì)算中,計(jì)算結(jié)果偏低,隨著相似度閾值的提高,對(duì)這部分相關(guān)語(yǔ)料就會(huì)誤判.
3)實(shí)驗(yàn)語(yǔ)料中涉及一些關(guān)鍵人名,如“韓朝開(kāi)戰(zhàn)”事件中出現(xiàn)的官員名稱“崔泰?!薄ⅰ敖鹦菬ā钡?,對(duì)于區(qū)分相似話題可以起到作用,作者未對(duì)關(guān)鍵人名進(jìn)行考慮.
提出了基于層疊模型的話題檢測(cè)方法.該方法通過(guò)分析新聞報(bào)道語(yǔ)料的特點(diǎn),充分考慮了報(bào)道中地點(diǎn)、時(shí)間等信息,并結(jié)合基于baseline模型的相似度計(jì)算結(jié)果,將三類相似度的計(jì)算結(jié)果進(jìn)行線性組合,以此結(jié)果為依據(jù),進(jìn)行報(bào)道和話題的相似度檢測(cè),從而完成話題檢測(cè)任務(wù).實(shí)驗(yàn)結(jié)果表明,基于層疊模型的話題檢測(cè)方法能夠提高檢測(cè)性能指標(biāo).
參考文獻(xiàn):
[1] 洪宇,張宇,劉挺,等.話題檢測(cè)與跟蹤的評(píng)測(cè)及研究綜述[J].中文信息學(xué)報(bào),2007,21(6):71-87.
[2] 趙華,趙鐵軍,張姝,等.基于內(nèi)容分析的話題檢測(cè)研究[J].哈爾濱工業(yè)大學(xué)學(xué)報(bào),2006,38(10):1740-1743.
[3] Jin Y,Myaeng S H,Jung Y. Use of place information for improved event tracking[J].Information Processing and Management,2007,43(2):365-378.
[4] 薛曉飛,張永奎,任曉東.基于新聞要素的新事件檢測(cè)方法研究[J].計(jì)算機(jī)應(yīng)用,2008,28(11):2975-2977.
[5] 劉海峰,王元元,劉守生.一種組合型中文文本分類特征選擇方法[J].廣西師范大學(xué)學(xué)報(bào):自然科學(xué)版, 2007, 25(4):208-211.
[6] Li Baoli, Li Wenjie, Lu Qin.Topic tracking with time granularity reasoning[J]. ACM Transactions on Asian Language Information Processing,2006,5(4):388-412.