• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于事件圖的在線事件檢索

      2017-10-11 07:31:53楊文靜邱泳欽李思旭
      中文信息學報 2017年4期
      關鍵詞:文檔檢索方法

      楊文靜,邱泳欽,李思旭,李 銳,王 斌

      (1. 中國科學院 信息工程研究所,北京 100093;2. 中國科學院大學,北京 100093)

      基于事件圖的在線事件檢索

      楊文靜1,2,邱泳欽1,2,李思旭1,2,李 銳1,王 斌1

      (1. 中國科學院 信息工程研究所,北京 100093;2. 中國科學院大學,北京 100093)

      在線事件檢索是針對事件查詢,按時間序迭代返回小批量數(shù)據(jù)集中事件相關文檔的檢索任務。其目標是在時間軸上不斷收集新鮮的事件文檔,是進行一系列事件相關工作的重要基礎。面對此任務,傳統(tǒng)方法采用先進的檢索模型來提升檢索精度,然而卻沒有考慮事件本身的特性。針對這一問題,該文嘗試使用兩類圖(事件關鍵詞共現(xiàn)圖、融合事件類型的二部圖)對事件建模,提出了一種基于事件圖的在線檢索框架。案例分析與在兩個公開的TREC數(shù)據(jù)集上的實驗結果表明,該文方法顯著提升了事件檢索精度(P@10最高增幅達30%,平均增幅5.85%),且能自適應在線檢索環(huán)境,支持事件的演變分析。

      事件圖;在線事件檢索;事件查詢模型;事件演變

      Abstract: Online Event Retrieval is a retrieval task for event queries, which returns important event-related documents from mini-batch data sets iteratively in chronological order. This paper propose san online event retrieval framework based on two kinds of graphs: event key-words co-occurrence graph and bipartite graph incorporated with event type. Case study and experiments on two pubic TREC corpus indicate that our approach improves the event retrieval precision significantly (maximum increase reaches 30%, average reaches 5.85% in metric P@10).

      Key words: event graph; online event-based retrieval; event query model; event development

      1 引言

      事件是指在特定時間、特定地點發(fā)生的事情[1]。如今,現(xiàn)實生活中一旦發(fā)生重大公共事件(如地震、暴亂、恐怖襲擊等),人們立即被源源不斷的來自新聞媒體的相關報道、各大社交平臺的有關評論所湮沒。事件檢索[2]是面向事件查詢(常以事件名稱為查詢,如“汶川大地震”)的檢索任務。事件在時間軸上不 停 演 變,事 件 查 詢 的 信

      息需求是動態(tài)的,使得相同事件在不同時刻的相關文檔集合及集合內(nèi)部排序并非一成不變。在線事件檢索(online event-based retrieval,OER)便是針對特定事件,按時間序迭代地在每個時間單元的小批量數(shù)據(jù)集中進行事件檢索,得到每個時間間隔的重要相關信息。

      OER與信息檢索(information retrieval,IR)、信息過濾(information filtering,IF)及事件追蹤(event tracking,ET)對應的問題都非常相似,但在數(shù)據(jù)的到來方式、輸入與輸出等方面都存在一定的差異,研究重點及應用場景也不盡相同,如表1所示。OER與ET皆以演變的事件為研究對象,因此在事件表示、自適應事件模型等方面存在共通技術。OER側(cè)重研究自適應的事件模型如何作用于檢索的各個階段(索引構建,查詢重構,相關反饋,相似性度量,結果重排等)以提升演變事件的檢索精度。ET側(cè)重自適應過濾。從應用場景來說,OER提供演變事件的最新檢索結果,可用于新聞事件的實時搜索,也可為后續(xù)事件分析(事件摘要、事件演變分析)提供當前最相關的文檔輸入。而ET從數(shù)據(jù)流中過濾得到所有事件相關文檔,進行事件模型的維護與分析。

      表1 OER與相似任務的對比

      針對上述任務,傳統(tǒng)方案是采用state-of-the-art的檢索模型,但在事件檢索、在線自適應方面存在缺陷。本文在分析傳統(tǒng)檢索方法缺陷的基礎上,提出了一種基于事件圖的在線事件檢索框架。其核心思想是使用圖的方式對事件進行建模,通過在圖中累積歷史檢索結果中事件相關知識作為反饋,當新批量數(shù)據(jù)到來時,將事件的先驗信息融入到檢索過程。經(jīng)實驗證實,本方法具有如下優(yōu)點: (1)提升事件檢索精度; (2)自適應在線環(huán)境; (3)事件圖可支持事件的演變分析。

      如圖1所示,框架共包含三個重要步驟: (1)估計事件查詢模型; (2)檢索事件相關文檔; (3)更新事件圖。本文組織形式如下,第二節(jié)介紹相關工作;第三節(jié)介紹事件查詢模型的估計及檢索過程,即步驟(1)、(2);第四節(jié)介紹事件圖的更新并對框架進行總結;第五節(jié)案例分析;第六節(jié)介紹實驗設置、評價,并進行實驗結果分析;第七節(jié)結論。

      圖1 基于事件圖的在線事件檢索框架

      2 相關工作

      在已有的少量事件檢索研究中,有借助于NLP工具對事件進行語義角色標注[2],也有將查詢與文檔用圖表達,使用graph kernel計算二者相似性[3]。但上述方法都較復雜,可行性差。在大多數(shù)事件檢索場景下,最為常用的方式依然是使用通用檢索模型結合偽相關反饋的方式。

      清晰地表達信息需求(information need)是精準檢索的重要前提。查詢模型最早在研究[4]中提出,其目標是在基于語言模型的檢索方法中更好地將用戶查詢上下文、反饋信息等融入到查詢中。已有的查詢模型估計方法,如Relevance Model[5-6]、Divergence Minimization Model[7]、Mixture Model[5]、Marchov Chain[4]等以不同的原理都試圖從偽相關反饋文檔集合中抽取出與查詢相關的重要詞匯,對原始查詢模型進行重新估計。但上述方法在事件檢索中表現(xiàn)不佳,主要原因在于查詢中缺乏事件信息,使得首次檢索過程生成的偽相關反饋文檔集合存在大量非事件相關的噪聲,使得用于重新估計查詢模型的信息不夠可靠。

      針對此問題,我們通過對事件建模,并將事件模型融入到查詢中來進行探索研究。在(EDT)(event detection and tracking)的相關研究中,基于圖的事件建模方法廣泛使用。Sayyadi[8]等使用KeyGraph捕獲關鍵詞的共現(xiàn)信息,Weng[9]等使用小波變化將詞語共現(xiàn)轉(zhuǎn)化為信號并計算信號的cross-correlation關系圖,最后基于圖使用community detection算法得到各個子簇表示不同事件。Fukumoto[10]等基于KeyGraph研究事件追蹤過程中的話題漂移現(xiàn)象。上述建模方法皆基于圖分割算法發(fā)掘子簇對事件進行表達,然而圖分割算法十分費時,難以應用于在線環(huán)境。本文將事件建模成為一元語言模型,并基于兩類事件圖進行簡單的模型估計,可得到較為準確的事件描述。

      3 估計事件查詢模型

      3.1 事件圖

      3.1.1 事件關鍵詞共現(xiàn)關系圖 事件可由具有事件區(qū)分力的單詞聚集在一起來共同刻畫。將出現(xiàn)在原始事件查詢中的詞語視為種子詞匯,基于關聯(lián)假設[11]: “如果一個詞語具有區(qū)分相關與非相關文檔的能力,那么它的近鄰詞匯都可能擅長于此?!彼钥商暨x與種子詞匯相鄰共現(xiàn)的候選詞對關系圖進行更新。事件關鍵詞共現(xiàn)的事件圖(event graph based on co-occurrence,簡稱EG_co或共現(xiàn)圖)是一個有向圖,如圖2(a)所示。EG_co=G,eij∈E,vi∈V。其中vi表示事件關鍵詞,eij=1僅當vi與vj在去停用詞后的句子中相鄰共現(xiàn)。eij具有兩個屬性,cvi,vj代表累積共現(xiàn)次數(shù),wvi,vj=cvi,vj/odvi,其中odvi是vi的出度。

      圖2 “Russia Protests”事件圖

      3.1.2 融入事件類型的二部圖

      事件可由兩部分信息共同刻畫,事件特有信息(時間、地點、起因等)和事件類型信息(一類事件共有的屬性)。如事件“Russia Protests”,在表達這一特定事件時,“demonstrate”“opposite”等關鍵詞描述的是抗議類事件的共有特征。而該事件特有信息來自于“election”“fraud”等關鍵詞,表明抗議與俄羅斯作弊選舉相關。據(jù)此,我們將事件建模成一個二部圖,EG_bi=(U,V,E),融入事件類型的二部圖(event graph based on bipartite,簡稱EG_bi或二部圖),如圖2(b)所示,擁有兩種節(jié)點類別U、V,分別表示事件特有信息和事件類型信息,以及連接兩部分節(jié)點的邊E。u∈U,v∈Veuv=1表明節(jié)點u和v共現(xiàn)于同一句子中。類似3.1.1節(jié)所述,其每一條邊也具有同上的兩個屬性。

      3.2 事件模型

      假設每個特定事件都存在一個精確的一元語言模型θE。準確估計p(w|θE)的困難在于無法獲取足夠多的訓練語料。為了近似估計p(w|θE),我們從另一個角度假設事件模型是一個混合模型,具有事件區(qū)分力的詞語以高概率與背景模型融合而得,并希望融合后的概率分布能顯著地描述特定事件?;旌夏P陀杀尘安糠枝菳G和事件部分組成,θBG可從語料中統(tǒng)計得到,事件部分所需信息可從上文提及的事件圖獲取,如式(1)所示。

      (1)

      顯然,估計p(w|θE)的關鍵步驟在于如何基于事件圖估計p(w|θEG)。

      3.2.1p(w|θEG)——基于事件關鍵詞共現(xiàn)關系圖的概率估計 考慮到需要融入節(jié)點的相互依賴關系,我們使用PageRank的方法來估計p(w|θEG)。在事件關鍵詞共現(xiàn)關系圖中生成的穩(wěn)態(tài)概率能較準確地反映各關鍵詞對于事件的重要程度。形式化如下,

      (2)

      其中節(jié)點間的轉(zhuǎn)移概率puw=α1×cu.w/odu=α1×wu,w,α1是繼續(xù)游走概率(walk continuation probability),p{ξn=w}是n時刻隨機游走止于節(jié)點w的概率。πw是隨機游走的穩(wěn)態(tài)概率,存在∑wπw=1。

      3.2.2p(w|θEG)——基于融入事件類型二部圖的概率估計 事件的準確描述離不開二部圖中的兩個部分,事件特有信息(eventspecificinformation,ES)及事件類型信息(eventtypeinformation,ET)。固有:

      p(w|θEG)=λp(w|θES)+(1-λ)p(w|θET)

      (3)

      θET可通過收集統(tǒng)計同一事件類型的語料得到。估計θES,首先采用“資源-分配”的方式[12]將二部圖投影到ES集合上,根據(jù)協(xié)同思想,ES與ET兩部分的關系能映射為ES集合中任意兩點間的關聯(lián)。如式(4)所示。

      (4)

      其中wu,k=cu,k/odu是邊權重,式(4)的物理意義在于,ES中任意兩點通過ET能夠相互分享到更多資源,兩點關系就越緊密?;谑?4)能得到ES集合內(nèi)任意兩點間的權重矩陣。類似地,根據(jù)式(2),便能得到WS集合中各點的穩(wěn)態(tài)概率值,即p(w|θES)的估計值。

      3.3 事件查詢模型

      (5)

      在概率距離檢索框架[4]下,式(6)計算兩個概率分布θQ和θD的負KL距離(Kullback-Leibler divergence)來衡量文檔與查詢的相似程度。在事件查詢模型中,大量事件信息融入到查詢中使得事件相關的文檔排序靠前,從而提升了事件檢索的精度。

      (6)

      4 在線事件檢索框架

      在第三節(jié)闡述了圖1框架中①、②兩個步驟。本節(jié)提出事件圖在事件軸上的更新算法,并對在線事件檢索框架進行總結。

      4.1 事件圖更新

      在線環(huán)境下,我們假設在歷史檢索單元中得到的檢索結果是事件相關的,如算法1,在時刻t,使用t-1時刻的檢索結果對事件圖擴充并適當裁剪。事件種子詞集合(original kernel set,OKS)由原查詢詞及它們的同義詞構成。經(jīng)去停用詞、Porter算法詞干還原后,至少包含一個種子詞匯的句子被挑選用于事件圖擴充。節(jié)點使用中心性度量進行裁剪。每一條邊具有生命周期,自創(chuàng)建時刻起在圖中的生存長度為定值,即對事件圖的觀察窗口大小(observation window size,OWS),一旦過時,則將被移除,此即PruningEdges函數(shù)的功能。

      算法1 事件圖更新算法

      輸入: 上一時刻檢索結果Rt-1, 事件查詢Q, 上一時刻事件圖Gt-1,節(jié)點中心性閾值NODE_THRESHOD, 觀察窗口大小 OWS,

      輸出: 當前時刻事件圖Gt

      1. IFt=1 THEN

      2.G1,OKS=initialed withQ

      3. ELSE

      4. FORdocbelong toRt-1

      5. FORsentbelong todocIF termInOKS(sent) is ture

      6.Gt=Gt-1.EnrichWith(sent);

      7. END FOR

      8. END FOR

      9.Gt.PruningEdges(OWS);

      10.Gt.PruningNodes(NODE_THRESHOD);

      11.Gt.NormalizingWeight();

      12. RETURN Gt

      4.2 在線事件檢索框架

      2.3.4 穩(wěn)定性 取精密度試驗配制的樣品溶液,放入樣品盤后,按色譜方法,樣品盤設置溫度為15℃,于15 min、30 min、60 min、3 h、5 h、7 h測定峰面積,考察各目標物的穩(wěn)定性。結果表明:各目標物峰面積并未明顯減少,說明各目標物經(jīng)強酸處理后,由于溶液中大部分酶被滅活,低溫環(huán)境下溶液相對穩(wěn)定。結果如圖2所示。

      k是觀察窗口的大小,φ函數(shù)使用歷史檢索結果更新事件圖。Rt(t>0)是t時間間隔的檢索結果,由檢索函數(shù)φ生成。R0是無意義的,為了統(tǒng)一表達,設定R0=Q。在此框架下,當前時刻的檢索過程,借助事件圖這一信息容器,間接地使用到了歷史k個時間間隔的信息反饋。

      5 案例分析

      本節(jié)以事件查詢哥斯達協(xié)和號(Costa Concordia)*http: //en.wikipedia.org/wiki/Costa_Concordia_disaster”為例,從查詢模型、檢索結果兩個方面進行分析,并進一步展示事件圖在時間軸上捕獲事件的演變。

      5.1 查詢模型對比

      圖3展示了事件查詢“Costa Concordia”在時間間隔2012-01-14-11(約時間發(fā)生后的13個小時)中的RM1,EM_co,EM_bi和背景語料(Background,簡稱為BG)的語言模型。取背景語料的前300個詞,皆以logp(w|θBG)降序排列。在圖3上子圖中曲線即為背景語言模型,下子圖中分別對應繪制了RM1,EM_co,EM_bi。在背景模型曲線上散布的點,是EM與RM1的差異點。這些點在EM中,分配了足夠的概率,但在RM1中卻未被足夠看重。

      通過對圖3的分析,我們可以得出以下兩點觀察: (1)EM曲線圖相對于RM1的曲線變化更劇烈,同時與背景模型差異也更大,具有低歧義的特點; (2)差異點皆為具有事件區(qū)分力的關鍵詞語,EM更具事件顯著的特點。研究[13]表明,低歧義與事件顯著的查詢模型更可能取得較好的檢索效果。

      為了進一步地證實本文提出的EQM優(yōu)于RM3,一種更為直接的方式是對比兩種方法的檢索結果。表2~4分別列出了RM3、EM_co、EM_bi三種查詢模型在時刻2012-01-14-11下的Top 10檢索結果列表。兩名標注者根據(jù)文檔中事件相關信息的密度及質(zhì)量共同對結果集合的每一篇文檔的事件相關度進行等級評定。使用NDCG作為綜合量化評價指標。RM3返回較多僅部分內(nèi)容相關的混合文檔。表3和表4排序靠前的文章幾乎都是事件相關的詳細報道。綜上,我們得出如下結論: 本文提出的事件查詢模型,提升了查詢對事件的表達能力,清晰的查詢意圖大幅提升了檢索效果。

      圖3 “Costa Concordia”查詢模型對比圖

      編號相關度摘要評價者備注1mediumCostaConcordiaranagroundofftheislandofGiglioPartialrelevance2highThreedeadinCostaCruiseshipincidentDetailreport3highThreedeadinCostaCruiseshipincidentDetailreport4mediumCruiseShipRunsAground,3BodiesFoundpartialrelevance5mediumSome30UkrainianswereonboardIndirectlydescription6lowCruiseCriticistheworld'slargestcommunityofpeoplewholovetocruise.Noise7lowSomeothernewsNoise8highItalianrescuersworktoremove3rdsurvivorfromcruiseshipthatranagroundDetailreport9mediumSixdeadascruiseshiprunsagroundoffItaliancoastPartialrelevance10mediumSixdeadascruiseshiprunsagroundoffItaliancoastPartialrelevanceNDCG@100.495

      表3 EQM(基于共現(xiàn)圖的事件查詢模型)檢索結果

      表4 EQM(基于二部圖的事件查詢模型)檢索結果

      5.2 事件圖演化

      在本文提出的檢索框架中,事件圖起到了最為核心的作用。其能穩(wěn)定工作的關鍵前提在于: (1)需捕獲事件的關鍵信息; (2)需隨著事件演變而更新。為了證實事件圖捕獲關鍵信息的能力,及在時間軸上的信息變化,以“Costa Concordia”事件為例。事件初期的報道集中于事故基本信 息,哥 斯 達

      協(xié)和號在Giglio島觸礁擱淺傾覆。緊急救援結束后,調(diào)查表明事故原因是船長Schettino的操作失誤。事故后期,游輪所屬公司發(fā)布了針對乘客和船員(大量菲律賓籍)的賠償細節(jié)。在閱讀維基百科該事件頁面之后,了解到上述事件梗概各自對應的重要時刻(皆取上午11點)的事件圖,得到事件模型的Top 10單詞。如表5所示,可以看出,事件圖很好地捕獲到了事件關鍵信息,且及時地隨著事件演變而變化。

      表5 事件圖演變

      6 實驗

      6.1 數(shù)據(jù)集 據(jù)我們所知,目前在線事件檢索任務暫無公開標準測試數(shù)據(jù),傳統(tǒng)TREC檢索數(shù)據(jù)集缺乏事件在時間軸上的持續(xù)相關信息,不滿足需求。本文采用標準公開的TREC時序摘要(temporal summarization,TREC-TS)任務[13]2013、2014兩個數(shù)據(jù)集。數(shù)據(jù)包含了來自新聞媒體、社交網(wǎng)絡、博客評論等數(shù)十種數(shù)據(jù)源。數(shù)據(jù)集相關統(tǒng)計信息如表6所示。針對每一個事件,給出了相應的查詢、事件類型及事件起止時間戳。事件類型包括災難、爆炸、人質(zhì)等八種類型。針對每種事件類型,我們在維基百科中人工收集了20個該類型下的典型事件,用于統(tǒng)計生成二部圖中事件類型模型。

      表6 實驗數(shù)據(jù)集基本信息

      6.2 評價方式

      針對每一個小時內(nèi)的檢索結果,人工判定文檔的事件相關性,計算P@10、P@15。然而,僅TREC-TS 2014數(shù)據(jù)集便含有近3 000個小時的檢索結果,人工評價如此龐大的結果集合幾乎不可能。我們通過采樣計算近似結果。采樣過程如下,針對每個事件,大量噪聲可能存在于事件起止端的檢索結果,截斷事件首尾(3%×該事件總持續(xù)小時數(shù))后,均勻采樣10個小時的數(shù)據(jù)作為待評價數(shù)據(jù)。在TREC-TS 2013、TREC-TS 2014數(shù)據(jù)集上,對8種檢索方法生成的結果進行pooling(共約6 000篇文檔),三名評價者獨立地對數(shù)據(jù)池中所有事件的待評價數(shù)據(jù)進行相關性判定。對于每個事件查詢,計算檢索精度如式(10)所示,S為采樣小時數(shù)(S=10),N為每次檢索返回文檔數(shù)(N=10或N=15)。

      (10)

      6.3 實驗結果

      本文實現(xiàn)了八種檢索方法,其中EQM_co,EQM_bi分別是本文提出的基于共現(xiàn)圖和二部圖的方法,其余六種對比方法皆為帶偽相關反饋的方法,其中基于語言模型的方法是RM3、RM4、Divergence Minimization Model(簡稱DivMin)、Mixture Model(簡稱Mixture),另外兩種為TFIDF+feedback、BM25+feedback。為了對比的公平,本文方法和其他對比方法涉及的共有參數(shù)都采用相同設置。使用Dirichlet作為文檔平滑方法,μ=1 000。原始查詢模型插值參數(shù)α=0.5。偽反饋文檔數(shù)目為10,選取反饋詞數(shù)目為30。本文基于事件圖的方法中,OWS=72,即3天,與背景語料模型插值系數(shù)β=0.7。共現(xiàn)圖中NODE_THRESHOLD=0.03, 二部圖中NODE_THRESHOLD=0.1,ES與ET插值系數(shù)λ=0.6。在Okapi BM25中,k1=1.2,b=0.75,k3=7。

      如表7所示,EQM_co在TREC-TS 2014數(shù)據(jù)的P@10指標上,以0.434的效果超過位于第二名BM25方法約5.85%,EQM_bi以0.424超越BM25約3.4%。在P@15指標上,EQM_co以0.393居首,EQM_bi和TDIDF以0.384次之。在TREC-TS 2013集合上,EQM的方法P@10稍優(yōu)于其他所有對比方法,在P@15上以0.185次優(yōu)于RM4和DivMin。本文嘗試的兩種事件建模方法中,基于共現(xiàn)圖的EQM_co是樸素且有效的,在TREC-TS 2014上EQM_bi的表現(xiàn)不及EQM_co,可能原因在于訓練事件類型模型的語料不夠充足,使事件模型估計有所偏差。

      表7 檢索方法在兩個數(shù)據(jù)集的檢索精度對比(P@10/P@15)

      通過深入觀察表現(xiàn)優(yōu)異的查詢在時間軸上的10次采樣結果,得出另一重要結論: 在線事件檢索框架中形成的前向正反饋提升了事件整體的檢索精度。以TREC-TS 2014中的事件查詢“Southern California Shooting”為例,10次采樣結果如圖4所示。較最優(yōu)基準方法的P@10=0.34,EQM_co和EQM_bi在此查詢的檢索精度分別為0.46、0.41,分別提升了35.3%、20.6%。原因在于,EQM在事件后期其他方法效果急劇下降時,仍能保持較高的準確率。該現(xiàn)象能夠通過前向正反饋加以解釋。在其他方法中,各個時刻的檢索相互獨立,無前向反饋形成。在本文的檢索框架中,倘若前幾個歷史時刻的檢索結果精度較高,通過事件圖的方式將正反饋知識前向傳遞到了當前時刻,使得此時的檢索結果不至嚴重震蕩。

      同時我們也分析了另一類本文方法無優(yōu)勢的查詢。大致有兩種情形,第一種是數(shù)據(jù)集中存在極少的事件相關文檔(在評價池中,相關文檔占比不足1/10)。在此情形下,本文方法難以形成前向正反饋,事件圖裁剪噪聲困難,整體檢索效果下降。另一種情況是數(shù)據(jù)集中存在充足的事件相關文檔(在評價池中,相關文檔占比超過8/10)。簡單說來,檢索方法幾乎都能得到較高P@10。從數(shù)據(jù)集的角度分析,本文方法更適用于存在適量噪聲的數(shù)據(jù)集。在現(xiàn)實應用場景中,這類居中的情形是占大多數(shù)的,即本文方法是普遍適用的。

      圖4 查詢“Southern California Shooting”采樣點的檢索精度

      7 結論

      在線事件檢索是一項面向事件查詢,在時間軸上迭代地檢索出事件相關文檔的任務。該任務能夠為事件監(jiān)測與事件研究提供有力的數(shù)據(jù)支撐。針對該任務,我們提出了一種基于圖的在線事件檢索框架。重點研究了基于事件關鍵詞共現(xiàn)圖和融合事件類型的二部圖兩類事件建模方法,并將事件模型融合到查詢模型中,通過提升查詢的事件區(qū)分力來提升單次事件檢索的精度,并借助事件圖在事件檢索框架中構成前向正反饋,以提升整個時間軸的事件檢索精度。案例分析表明: (1)本文的事件查詢模型具有低歧義、事件顯著的特點,相對于RM3,得到了更加精確的事件檢索結果; (2)事件圖能夠隨事件演變而變化。在兩個公開實驗數(shù)據(jù)集上的實驗結果表明,本文方法針對事件查詢,特別是模糊的事件查詢,能夠顯著提升檢索精度。

      [1] Allan J, Papka R, Lavrenko V. On-line new event detection and tracking[C]//Proceedings of the 21st Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. ACM, 1998: 37-45.

      [2] Lin C H, Yen C W, Hong J S, et al. Event-based textual document retrieval by using semantic role labeling and coreference resolution[C]//Proceedings of IADIS International Conference WWW/Internet 2007, 2007.

      [3] Glava G, Nnajder J. Event-centered information retrieval using kernels on event graphs[J]. Graph-Based Methods for Natural Language Processing, 2013: 1.

      [4] Lafferty J, Zhai C. Document language models, query models, and risk minimization for information retrieval[C]//Proceedings of the 24th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. ACM, 2001: 111-119.

      [5] Lavrenko V, Croft W B. Relevance based language models[C]//Proceedings of the 24th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. ACM, 2001: 120-127.

      [6] Lv Y, Zhai C X. Positional relevance model for pseudo-relevance feedback[C]//Proceedings of the 33rd International ACM SIGIR Conference on Research and Development in Information Retrieval. ACM, 2010: 579-586.

      [7] Zhai C, Lafferty J. Model-based feedback in the language modeling approach to information retrieval[C]//Proceedings of the 10th International Conference on Information and Knowledge Management. ACM, 2001: 403-410.

      [8] Sayyadi H, Hurst M, Maykov A. Event detection and tracking in social streams[C]//Proceedings of ICWSM, 2009.

      [9] Weng J, Lee B S. Event detection in Twitter[J]. ICWSM, 2011(11): 401-408.

      [10] Fukumoto F, Suzuki Y. Using graph-based indexing to identify subject-shift in topic tracking[M]//Human Language Technology. Challenges of the Information Society. Springer Berlin Heidelberg, 2007: 392-404.

      [11] van Rijsbergen C J. A theoretical basis for the use of co-occurrence data in information retrieval[J]. Journal of Documentation, 1977, 33(2): 106-119.

      [12] Zhou T, Ren J, Medo M, et al. Bipartite network projection and personal recommendation[J]. Physical Review E, 2007, 76(4): 046115.

      [13] Aslam J, Diaz F, Ekstrand-Abueg M, et al. TREC 2014 temporal summarization track overview[R]. National Inst of Standards and Technology Gaithersburg MD, 2015.

      楊文靜(1992—),碩士研究生,主要研究領域為信息檢索,自然語言處理。

      E-mail: yangwenjing1992@163.com

      邱泳欽(1983—),博士研究生,助理研究員,主要研究領域為社交網(wǎng)絡分析。

      E-mail: qiuyongqin@iie.ac.cn

      李思旭(1990—),碩士研究生,主要研究領域為機器學習。

      E-mail: lisixu_job@163.com

      Online Event Retrieval Based on Event Graph

      YANG Wenjing1,2, QIU Yongqin1,2, LI Sixu1,2,LI Rui1,WANG Bin1

      (1. Institute of Information Engineering, Chinese Academy of Sciences, Beijing 100093, China;2. University of Chinese Academy of Sciences, Beijing 100093, China)

      1003-0077(2008)04-0154-11

      TP391

      A

      2015-12-01 定稿日期: 2016-04-07

      國家自然科學基金(6157050517);科技部重點專項子課題(2016YFB0801003)

      ① 本文將event-based retrieval翻譯為事件檢索,特指document retrieval w.r.t event queries。而非以關鍵詞檢索返回事件列表的任務。

      猜你喜歡
      文檔檢索方法
      有人一聲不吭向你扔了個文檔
      2019年第4-6期便捷檢索目錄
      基于RI碼計算的Word復制文檔鑒別
      可能是方法不對
      專利檢索中“語義”的表現(xiàn)
      專利代理(2016年1期)2016-05-17 06:14:36
      用對方法才能瘦
      Coco薇(2016年2期)2016-03-22 02:42:52
      Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
      四大方法 教你不再“坐以待病”!
      Coco薇(2015年1期)2015-08-13 02:47:34
      捕魚
      不讓他人隨意下載Google文檔
      電腦迷(2012年4期)2012-04-29 06:12:13
      台山市| 清流县| 综艺| 三河市| 彭泽县| 桃源县| 武汉市| 安龙县| 瓮安县| 保山市| 开远市| 芦山县| 廉江市| 太原市| 玉屏| 乳山市| 鸡西市| 海城市| 北辰区| 彭阳县| 扶绥县| 高安市| 中阳县| 庆阳市| 花垣县| 辽宁省| 昌宁县| 维西| 毕节市| 浦江县| 融水| 永川市| 大冶市| 弥勒县| 海晏县| 武义县| 泉州市| 两当县| 鸡东县| 泾源县| 台中市|