• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于層疊模型的話題檢測(cè)方法研究

      2012-05-15 09:05:16謝林燕張素香戚銀城
      關(guān)鍵詞:語(yǔ)料新聞報(bào)道向量

      謝林燕, 張素香, 戚銀城

      (1.華北電力大學(xué) 電子與通信工程系 河北 保定 071003; 2.國(guó)網(wǎng)信息通信有限公司 北京 100053)

      0 引言

      隨著互聯(lián)網(wǎng)的迅猛發(fā)展,人類已經(jīng)進(jìn)入了信息爆炸和信息過(guò)載的時(shí)代,海量的網(wǎng)絡(luò)媒體信息使得人們?cè)讷@取信息時(shí)產(chǎn)生了一種咨詢焦慮,因此,建立以話題為主線的信息組織模式,快速有效地檢測(cè)出用戶感興趣的信息成為新的研究熱點(diǎn).話題檢測(cè)與跟蹤[1](topic detection and tracking, TDT)技術(shù)就是在這種背景下產(chǎn)生并發(fā)展起來(lái)的.話題檢測(cè)是TDT測(cè)評(píng)任務(wù)中的一項(xiàng)任務(wù),它是將新聞數(shù)據(jù)流中的報(bào)道歸入不同的話題,并在必要的時(shí)候建立新話題的技術(shù).

      目前,已有很多學(xué)者針對(duì)話題檢測(cè)展開(kāi)研究,文獻(xiàn)[2]通過(guò)分析大量英文報(bào)道的特征,提出基于內(nèi)容分析的話題檢測(cè)算法,通過(guò)內(nèi)容分析將話題表示成標(biāo)識(shí)中心向量和內(nèi)容中心向量.文獻(xiàn)[3]提出利用計(jì)算時(shí)間相似度和地點(diǎn)相似度進(jìn)行話題檢測(cè),但是沒(méi)有將兩者結(jié)合起來(lái).文獻(xiàn)[4]提出了一種時(shí)間相似度和地點(diǎn)相似度計(jì)算方法,并結(jié)合兩者進(jìn)行話題檢測(cè).目前,多數(shù)話題檢測(cè)算法是以語(yǔ)法信息為基礎(chǔ)計(jì)算話題和報(bào)道的相似度,最終完成話題檢測(cè)任務(wù).然而,影響話題檢測(cè)系統(tǒng)性能的一個(gè)重要因素是相似話題[1]的區(qū)分,如兩次不同的海嘯事故,因?yàn)槊枋鲞@些事件的報(bào)道所使用的詞匯大部分是相同的.針對(duì)這一問(wèn)題作者提出了基于層疊模型的話題檢測(cè)方法,首先識(shí)別話題和報(bào)道中的實(shí)體信息,同時(shí)改進(jìn)時(shí)間相似度和地點(diǎn)相似度的計(jì)算方法,在底層通過(guò)計(jì)算文本內(nèi)容相似度進(jìn)行話題檢測(cè),在高層結(jié)合時(shí)間相似度和地點(diǎn)相似度,融合三類相似度的計(jì)算結(jié)果作為最后的判別標(biāo)準(zhǔn),以此來(lái)克服相似話題難以區(qū)分的問(wèn)題.實(shí)驗(yàn)結(jié)果表明,該方法很好地提高了檢測(cè)精度.

      1 構(gòu)建話題檢測(cè)系統(tǒng)

      提出的話題檢測(cè)系統(tǒng)如圖1所示,主要包括建立新聞報(bào)道模型與話題模型、基于層疊模型的話題檢測(cè)方法和話題檢測(cè)算法3部分.

      1.1 建立新聞報(bào)道模型與話題模型

      1.1.1預(yù)處理與報(bào)道模型 文本預(yù)處理包括分詞和去停用詞兩部分.分詞是自然語(yǔ)言處理研究的出發(fā)點(diǎn),本系統(tǒng)首先對(duì)輸入的文本進(jìn)行分詞,然后為了降低后續(xù)處理流程的復(fù)雜度,提高檢測(cè)精度,要去除停用詞.

      (1)

      (2)

      其中,tfi是termi在報(bào)道S中的詞頻,N是所有已輸入報(bào)道的總數(shù),ni是N篇報(bào)道中含有termi的報(bào)道的數(shù)量.

      圖1 話題檢測(cè)系統(tǒng)框圖Fig.1 Topic detection system chart

      1.1.2話題模型 話題模型通常以質(zhì)心表示,而質(zhì)心也是通過(guò)向量空間模型描述的,因此,通過(guò)提取特征和計(jì)算特征權(quán)值將特定話題表示為質(zhì)心.從已收集的話題語(yǔ)料中隨機(jī)抽取若干篇作為訓(xùn)練語(yǔ)料形成相應(yīng)話題,采用基于文檔頻率的方法選取文本特征.文檔頻率主要是統(tǒng)計(jì)所有不同詞在話題中的文檔的頻次,并將這些詞按照其頻次的高低順序排列,在該排列中抽取特定數(shù)目的詞作為話題特征項(xiàng).話題特征項(xiàng)的權(quán)重計(jì)算方法如下:

      (3)

      其中,weight(term,T)表示特征項(xiàng)term在話題T中的權(quán)重;Si是話題T中包含的新聞報(bào)道;N為話題T包含新聞報(bào)道的總數(shù)量;ω(term,Si)是特征項(xiàng)term在Si中的權(quán)重值.

      1.2 基于層疊模型的話題檢測(cè)方法

      一個(gè)事件涉及到的時(shí)間、地點(diǎn)信息在解決相似話題難以區(qū)分的問(wèn)題中起著不可忽視的作用.作者提出了基于層疊模型的話題檢測(cè)方法,多層次、多角度地分析話題和報(bào)道中的相似性,將基于baseline模型[2]的計(jì)算結(jié)果作為底層檢測(cè),在高層結(jié)合時(shí)間、地點(diǎn)信息的相似度,三類相似度融合的結(jié)果用于完成話題檢測(cè)任務(wù).

      1.2.1話題和報(bào)道的內(nèi)容相似度計(jì)算 采用夾角余弦函數(shù)作為內(nèi)容相似度的計(jì)算方法.假設(shè)報(bào)道S與話題T的向量空間模型分別為S=(ws1,ws2,…,wsn)和T=(wt1,wt2,…,wtn),那么報(bào)道S與話題T的相似度計(jì)算公式為

      (4)

      1.2.2話題和報(bào)道的地點(diǎn)相似度計(jì)算 對(duì)文獻(xiàn)[4]提出的地點(diǎn)相似度的計(jì)算方法進(jìn)行了改進(jìn),首先建立與話題相關(guān)的地點(diǎn)詞典,將話題中涉及的重要地點(diǎn)信息收集到該詞典中,形成話題地點(diǎn)向量,然后提取報(bào)道的地點(diǎn)信息形成報(bào)道地點(diǎn)向量,進(jìn)行地點(diǎn)相似度計(jì)算,計(jì)算公式為

      (5)

      其中,mi為該話題的地點(diǎn)向量,mj為新聞報(bào)道Si的地點(diǎn)向量.

      1.2.3話題和報(bào)道的時(shí)間相似度計(jì)算 時(shí)間信息在自然語(yǔ)言處理相關(guān)領(lǐng)域中起著重要的作用[6].在話題檢測(cè)中,可以利用時(shí)間信息判斷報(bào)道是否與某話題的后續(xù)報(bào)道相關(guān),當(dāng)報(bào)道時(shí)間與話題事件發(fā)生的時(shí)間差距增大時(shí),認(rèn)為兩者之間的相關(guān)性減弱,因此將這一特點(diǎn)融入了話題檢測(cè)中.作者改進(jìn)了文獻(xiàn)[4]中提出的時(shí)間相似度計(jì)算方法,利用新聞報(bào)道的發(fā)布時(shí)間與話題事件的發(fā)生時(shí)間差來(lái)表示話題和后續(xù)報(bào)道之間的相關(guān)性.算法改進(jìn)后,緩解了相似話題難以區(qū)分的問(wèn)題.為完成該任務(wù),必須將報(bào)道和話題中的時(shí)間信息規(guī)范化,精確到天,時(shí)間信息的格式為:2010-11-23,計(jì)算公式為

      sim(ti,tj)=-|ti-tj|,

      (6)

      其中,ti為新聞報(bào)道Si發(fā)布的時(shí)間,tj為話題事件T發(fā)生的時(shí)間.

      1.2.4基于層疊模型的話題與報(bào)道相似度計(jì)算 將基于文本內(nèi)容、時(shí)間、地點(diǎn)計(jì)算出的相似度加以融合,通過(guò)線性組合的方式得到最終的相似度,計(jì)算公式為

      sim(Si,T)=cos(Si,T)+αsim(mi,mj)-βsim(ti,tj),

      (7)

      其中,α與β為設(shè)定的參數(shù).本實(shí)驗(yàn)中,α=0.4,β=0.000 1.

      1.3 話題檢測(cè)算法

      以Single-Pass聚類策略為基礎(chǔ)實(shí)現(xiàn)話題檢測(cè)算法,該算法按新聞報(bào)道輸入的先后順序依次處理信息流中的報(bào)道,直到所有的報(bào)道處理完畢,具體過(guò)程如下:

      1)對(duì)新聞報(bào)道進(jìn)行預(yù)處理,然后利用1.1.1節(jié)和1.1.2節(jié)中的特征權(quán)重計(jì)算方法計(jì)算報(bào)道和話題中各個(gè)詞的權(quán)重值,分別建立報(bào)道模型和話題模型.

      2)計(jì)算新聞報(bào)道與話題的相似度,與預(yù)設(shè)的閾值進(jìn)行比較,報(bào)道與話題的相似度高于閾值,則判定該報(bào)道與話題相關(guān),否則判定該報(bào)道與話題不相關(guān).

      3)重復(fù)上述過(guò)程直到信息流中的所有報(bào)道都處理完畢.

      2 實(shí)驗(yàn)結(jié)果與分析

      2.1 評(píng)價(jià)指標(biāo)

      實(shí)驗(yàn)采用的性能指標(biāo)為正確率(P)、召回率(R)和F1測(cè)試值,計(jì)算公式如下:

      2.2 實(shí)驗(yàn)設(shè)計(jì)與結(jié)果分析

      采用從互聯(lián)網(wǎng)收集到的新聞報(bào)道作為評(píng)測(cè)語(yǔ)料,該語(yǔ)料包含725篇中文報(bào)道,定義了包括韓朝開(kāi)戰(zhàn)、韓國(guó)前總統(tǒng)金大中去世、法國(guó)總統(tǒng)薩科齊訪華、云南盈江地震、索馬里海盜、韓國(guó)羅老號(hào)火箭墜毀等10個(gè)話題.隨機(jī)選取4篇與韓朝開(kāi)戰(zhàn)相關(guān)的新聞報(bào)道作為訓(xùn)練語(yǔ)料,構(gòu)建話題模型,剩余721篇新聞報(bào)道作為測(cè)試語(yǔ)料,其中選取韓朝開(kāi)戰(zhàn)事件作為本次實(shí)驗(yàn)的相關(guān)話題,其余話題作為與該話題不相關(guān)的反例話題,共計(jì)220篇報(bào)道.

      設(shè)計(jì)了如下3個(gè)實(shí)驗(yàn):

      實(shí)驗(yàn)一 采用基于傳統(tǒng)TF-IDF權(quán)重計(jì)算的baseline模型完成話題檢測(cè)任務(wù);

      實(shí)驗(yàn)二 采用基于歸一化TF-IDF權(quán)重計(jì)算的baseline模型完成話題檢測(cè)任務(wù);

      實(shí)驗(yàn)三 采用基于層疊模型完成話題檢測(cè)任務(wù).

      實(shí)驗(yàn)對(duì)比結(jié)果見(jiàn)表1.

      表1 實(shí)驗(yàn)結(jié)果Tab.1 Experimental results

      由上述實(shí)驗(yàn)結(jié)果可以得出以下結(jié)論:

      1)通過(guò)設(shè)定不同的相似度閾值發(fā)現(xiàn),隨著該值的增大,正確率提高,召回率下降.

      2)通過(guò)比較實(shí)驗(yàn)一和實(shí)驗(yàn)二的實(shí)驗(yàn)結(jié)果,實(shí)驗(yàn)二中構(gòu)建的系統(tǒng)模型的召回率在同等實(shí)驗(yàn)條件下均高于實(shí)驗(yàn)一,同時(shí)F1測(cè)試值與實(shí)驗(yàn)一相比,也有所改進(jìn),這說(shuō)明基于歸一化TF-IDF權(quán)重計(jì)算的baseline系統(tǒng)模型的檢測(cè)性能優(yōu)于基于傳統(tǒng)TF-IDF權(quán)重計(jì)算的baseline模型.

      3)通過(guò)比較實(shí)驗(yàn)二和實(shí)驗(yàn)三的實(shí)驗(yàn)結(jié)果,基于歸一化TF-IDF權(quán)重計(jì)算的baseline模型的話題檢測(cè)方法的性能指標(biāo),在同等條件下低于結(jié)合新聞特征的檢測(cè)結(jié)果,這說(shuō)明將時(shí)間和地點(diǎn)信息應(yīng)用到話題檢測(cè)中是一種行之有效的方法.

      對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行分析可知,未能正確檢測(cè)識(shí)別新聞報(bào)道的原因主要有以下3種:

      1)實(shí)驗(yàn)設(shè)定的反例中,存在與目標(biāo)話題類似的話題語(yǔ)料,如“韓國(guó)前總統(tǒng)金大中去世”和“韓國(guó)羅老號(hào)火箭墜毀”兩個(gè)事件中,均涉及到韓國(guó)的一些地名(如“首爾”、“青瓦臺(tái)”等),它們?cè)趦蓚€(gè)不同的話題中均出現(xiàn),造成結(jié)果誤判.

      2)實(shí)驗(yàn)中存在部分與目標(biāo)話題相關(guān)的新聞報(bào)道,語(yǔ)料篇幅偏短,涉及到的特征不夠明顯,因此在相似度計(jì)算中,計(jì)算結(jié)果偏低,隨著相似度閾值的提高,對(duì)這部分相關(guān)語(yǔ)料就會(huì)誤判.

      3)實(shí)驗(yàn)語(yǔ)料中涉及一些關(guān)鍵人名,如“韓朝開(kāi)戰(zhàn)”事件中出現(xiàn)的官員名稱“崔泰?!薄ⅰ敖鹦菬ā钡?,對(duì)于區(qū)分相似話題可以起到作用,作者未對(duì)關(guān)鍵人名進(jìn)行考慮.

      3 結(jié)論

      提出了基于層疊模型的話題檢測(cè)方法.該方法通過(guò)分析新聞報(bào)道語(yǔ)料的特點(diǎn),充分考慮了報(bào)道中地點(diǎn)、時(shí)間等信息,并結(jié)合基于baseline模型的相似度計(jì)算結(jié)果,將三類相似度的計(jì)算結(jié)果進(jìn)行線性組合,以此結(jié)果為依據(jù),進(jìn)行報(bào)道和話題的相似度檢測(cè),從而完成話題檢測(cè)任務(wù).實(shí)驗(yàn)結(jié)果表明,基于層疊模型的話題檢測(cè)方法能夠提高檢測(cè)性能指標(biāo).

      參考文獻(xiàn):

      [1] 洪宇,張宇,劉挺,等.話題檢測(cè)與跟蹤的評(píng)測(cè)及研究綜述[J].中文信息學(xué)報(bào),2007,21(6):71-87.

      [2] 趙華,趙鐵軍,張姝,等.基于內(nèi)容分析的話題檢測(cè)研究[J].哈爾濱工業(yè)大學(xué)學(xué)報(bào),2006,38(10):1740-1743.

      [3] Jin Y,Myaeng S H,Jung Y. Use of place information for improved event tracking[J].Information Processing and Management,2007,43(2):365-378.

      [4] 薛曉飛,張永奎,任曉東.基于新聞要素的新事件檢測(cè)方法研究[J].計(jì)算機(jī)應(yīng)用,2008,28(11):2975-2977.

      [5] 劉海峰,王元元,劉守生.一種組合型中文文本分類特征選擇方法[J].廣西師范大學(xué)學(xué)報(bào):自然科學(xué)版, 2007, 25(4):208-211.

      [6] Li Baoli, Li Wenjie, Lu Qin.Topic tracking with time granularity reasoning[J]. ACM Transactions on Asian Language Information Processing,2006,5(4):388-412.

      猜你喜歡
      語(yǔ)料新聞報(bào)道向量
      向量的分解
      聚焦“向量與三角”創(chuàng)新題
      淺析如何在新聞報(bào)道中彰顯以人為本
      活力(2019年15期)2019-09-25 07:22:10
      基于語(yǔ)料調(diào)查的“連……都(也)……”出現(xiàn)的語(yǔ)義背景分析
      向量垂直在解析幾何中的應(yīng)用
      向量五種“變身” 玩轉(zhuǎn)圓錐曲線
      華語(yǔ)電影作為真實(shí)語(yǔ)料在翻譯教學(xué)中的應(yīng)用
      深化“走轉(zhuǎn)改”在新聞報(bào)道中踐行群眾路線
      新聞傳播(2015年21期)2015-07-18 11:14:22
      如何讓新聞報(bào)道鮮活起來(lái)
      新聞傳播(2015年9期)2015-07-18 11:04:11
      新聞報(bào)道要求真實(shí)的細(xì)節(jié)描寫
      新聞傳播(2015年13期)2015-07-18 11:00:41
      石首市| 长沙市| 苏尼特右旗| 正镶白旗| 兴安县| 余姚市| 黑山县| 贡嘎县| 宁乡县| 绥棱县| 班玛县| 大丰市| 广元市| 工布江达县| 喜德县| 琼中| 工布江达县| 随州市| 佛山市| 石棉县| 峨山| 边坝县| 凤山县| 金平| 北碚区| 余江县| 宁明县| 罗城| 疏勒县| 张家川| 玉门市| 儋州市| 湄潭县| 台州市| 唐山市| 金沙县| 婺源县| 阿图什市| 西峡县| 融水| 阳山县|