基于隱式時間查詢的文檔排名方法

2017-09-09 01:38王晶晶

軟件導(dǎo)刊 2017年8期

王晶晶

摘要：時態(tài)信息檢索是近年來的研究熱點(diǎn)，很多解決方案是在檢索模型中考慮時間相關(guān)性。提出一種支持隱式時間查詢的文檔排名方法，使用考慮內(nèi)容相關(guān)性排名結(jié)果的前k個文檔分析查詢的時間意圖，然后使用排名模型計算各個文檔時間相關(guān)性得分。實(shí)驗(yàn)結(jié)果表明，在排名模型中引入時間因素有利于提升檢索性能。

關(guān)鍵詞：隱式時間查詢；時態(tài)信息檢索；排名模型

DOIDOI：10.11907/rjdk.171275

中圖分類號：TP301

文獻(xiàn)標(biāo)識碼：A 文章編號文章編號：1672-7800（2017）008-0012-03

0 引言

搜索引擎是目前最受歡迎的獲取信息方式之一，用戶可以通過搜索引擎在海量信息中方便地檢索到自己感興趣的主題，研究人員發(fā)現(xiàn)大約1.5%的查詢包含明確的時間約束[1]，超過7%的查詢包含隱式時間意圖[2]。因此，在檢索模型中考慮時間因素，理解用戶查詢的潛在時間意圖，有利于提升搜索引擎的檢索性能。

1 相關(guān)工作

時態(tài)信息檢索（Temporal Information Retrieval）[3]是信息檢索的一個重要分支。查詢某一個特定時間區(qū)間的文檔稱為時間敏感查詢（time-sensitive query）。顯式時間敏感查詢定義明確的時間約束，Berberich等[4]針對這類查詢提出一個考慮時間因素的檢索模型，把從文檔中提取的時間詞匯添加到語言模型中計算概率。Diaz和Jones[5]提出使用文檔的時間戳衡量檢索結(jié)果文檔在時間域上的分布，并創(chuàng)建一個查詢時間配置文件。隱式時間敏感查詢雖然沒有提供明確的時間標(biāo)準(zhǔn)，但與查詢相關(guān)的文檔大都發(fā)生在特定時間區(qū)間。解決此問題的方法之一是基于元數(shù)據(jù)，利用文檔發(fā)表日期等確定查詢的時間意圖。Kanhabua等[6]提出3種分析隱式時間查詢意圖的方法：①僅通過關(guān)鍵詞分析時間意圖；②使用僅考慮內(nèi)容相關(guān)性排名結(jié)果的前k個文檔分析時間意圖；③通過前k個文檔的時間戳分析查詢的時間意圖。Dakka 等[7]在語言模型中加入時間因素，給每個時間段一個相關(guān)性評估分?jǐn)?shù)，而有的文檔可能沒有可信的創(chuàng)建日期，且當(dāng)文檔時間意圖和文檔創(chuàng)建時間相差很遠(yuǎn)時，這種通過文檔創(chuàng)建日期分析查詢時間意圖的方法就不準(zhǔn)確，可能降低檢索質(zhì)量。Lin等[8]建立了一個時態(tài)信息的檢索模型TASE（Time-Aware Search Engine），此模型可以提取顯式和隱式表示時間的詞匯，計算網(wǎng)頁與每個時間表達(dá)式之間的相關(guān)評分，基于網(wǎng)頁和查詢之間的時間相關(guān)性和文本相關(guān)性對檢索結(jié)果重新排序。還有一種方法是基于用戶的查詢?nèi)罩荆鏜etzler等[2]提出通過挖掘用戶日志以及分析不同時間的查詢頻率來識別與時間關(guān)聯(lián)較強(qiáng)的查詢。張曉娟等[9]的研究也是基于查詢?nèi)罩荆ㄟ^Sogou實(shí)驗(yàn)室提供的查詢?nèi)罩緮?shù)據(jù)和新聞數(shù)據(jù)分析潛在時間意圖及其相關(guān)時間屬性，構(gòu)建潛在時間意圖查詢檢索模型。

2 方法

包含時間意圖的查詢主要有兩種類型：①查詢中明確指定了時間約束，稱為顯式時間查詢；②用戶沒有提供明確的時間標(biāo)準(zhǔn)，但與查詢相關(guān)的結(jié)果都傾向于發(fā)生在某個特定的時間區(qū)間，稱為隱式時間查詢[6]。本文中，定義文檔集C是所有文檔的集合，C={d1，d2，d3，...，dn}。文檔di是一系列單詞的集合，di={w1，w2，w3，...，wm，t1，t2，t3，...，tn}，其中wm 是文檔中沒有時間含義的詞匯，這些詞匯的集合記作dword； tn是文檔中表達(dá)時間的詞匯，這些詞匯的集合記作dtime，di={dword，dtime}。支持隱式時間查詢排名算法過程如下：①提交查詢到已建立索引的文檔集，得到僅考慮內(nèi)容相關(guān)性的初始排名結(jié)果；②使用初始排名結(jié)果的前k個文檔，分析查詢的時間意圖；③在考慮查詢時間意圖的基礎(chǔ)上利用排名模型計算文檔的時間相關(guān)性得分；④結(jié)合內(nèi)容相關(guān)性得分和時間相關(guān)性得分對結(jié)果重排，最后把新的排名結(jié)果返回給用戶。從以上工作流程可見，此算法主要有分析查詢的時間意圖和考慮時間因素的檢索模型這兩個主要模塊，下面對這兩個模塊進(jìn)行詳細(xì)描述。

2.1 查詢時間意圖確定

本文提出一種分析隱式查詢時間意圖的方法。如果查詢的內(nèi)容是關(guān)于著名人物或歷史上某個重大事件，通過前k個文檔內(nèi)容時間確定查詢時間意圖，主要步驟如下：首先僅考慮內(nèi)容相關(guān)性，在文檔集中檢索得到排名前k個文檔，這些文檔和查詢內(nèi)容、時間相關(guān)的概率較大，所以前k個文檔的內(nèi)容中某個時間點(diǎn)出現(xiàn)頻率越高，這個時間點(diǎn)屬于查詢時間意圖的可能性就越大。規(guī)定前k個結(jié)果中出現(xiàn)超過m（m≥0）次的時間點(diǎn)為用戶感興趣的一個時間點(diǎn)，這些時間點(diǎn)組成的集合為查詢q的時間意圖。過程如下：

INPUT：查詢qword，選取結(jié)果中前m個時間區(qū)間，文檔中時間點(diǎn)組成的集合DN OUTPUT：符合查詢時間意圖的時間區(qū)間A A← HashMap map（key，value） //key：排名前k個結(jié)果中出現(xiàn)的時間點(diǎn)，value：時間點(diǎn)出現(xiàn)的頻率 DTopK ←retrieveTopKDoc （qword ，k） //僅考慮內(nèi)容相關(guān)性檢索得到排名前k個文檔 for each {di∈DTopK} do for each {tj∈di} do if{tjkey} map.put（tj，1） else map.put（tj，value+1） end if end for end for A←map.selectTopMIntervals （m） //根據(jù)頻率選取前m個時間點(diǎn) return A

2.2 檢索模型

隱式時間查詢q 由qword和時間意圖qtime組成，根據(jù)線性結(jié)合內(nèi)容得分和時間相關(guān)性得分得到文檔d的最終得分S（q，d），公式如下：S（q，d）=α·S'（qword，dword）+（1-α）·S"（qtime，dtime）（1）endprint

α是調(diào)節(jié)內(nèi)容相關(guān)性得分S'（qword，dword）和時間相關(guān)性得分S"（qtime，dtime）的參數(shù)。

由分析隱式時間意圖方法得到查詢的時間意圖qtime，qtime={t1'，t2'，t3'，...，tn'}，且t1'∩t2'∩t3'...∩tn'=。時間相關(guān)性得分S"（qtime，dtime）定義如下：S"（qtime，dtime）=P（qtime|dtime）=P（t1'，t2'，t3'，...，tn'|dtime）（2）

qtime由一系列不重復(fù)的時間點(diǎn)組成，假設(shè)每個時間點(diǎn)彼此之間是相互獨(dú)立的，沒有依賴關(guān)系，則P（t1'，t2'，t3'，...，tn'|dtime）=∏Q∈qtimeP（Q|dtime）（3）

相似地，文檔內(nèi)容中也存在多個時間詞匯，dtime={t1，t2，...，tn}，且t1∩t2∩...∩tn=。為了防止結(jié)果概率為0，使用Jelinek-Mercer 平滑方法。P（Q|dtime）計算公式如下： P（Q|dtime）=（1-λ）1|Dtime|∑T∈DtimeP（Q|T）+ λ1|dtime|∑T∈dtimeP（Q|T）（4）

3 實(shí)驗(yàn)

3.1 實(shí)驗(yàn)設(shè)置

本文中使用的實(shí)驗(yàn)數(shù)據(jù)是NTCIR-11 會議Temporal Information Access （Temporalia）任務(wù)中使用的文檔集，涵蓋了2011年5月到2013年3月約1 500個不同博客和新聞收集到的3.8M文檔[10]。使用Indri系統(tǒng)對文檔集構(gòu)建索引，得到僅考慮內(nèi)容相關(guān)性的排名結(jié)果。實(shí)驗(yàn)使用方法定義如下：LMU-DIF方法利用公式（5）計算P（Q|T），并在此基礎(chǔ)上計算時間相關(guān)性得分，然后使用公式（6）對Indri系統(tǒng)的文檔原始得分0-1規(guī)范化，規(guī)范后的結(jié)果作為內(nèi)容相關(guān)性得分。

Scorenorm=score-scoreminscoremax-scoremin（6）LMU-DIF-rankAdd和LMU-DIF計算時間相關(guān)性得分的方法相同，區(qū)別在于LMU-DIF-rankAdd方法使用公式（7）把Indri系統(tǒng)初始排名轉(zhuǎn)換為分?jǐn)?shù)，然后把公式（6）規(guī)范后的結(jié)果作為內(nèi)容相關(guān)性得分。

S"（qtime，dtime）=1rank+60（7）

3.2 實(shí)驗(yàn)結(jié)果

本文使用平均查準(zhǔn)率均值（MAP），前m個文檔的準(zhǔn)確率（P@m）、前m個文檔的nDCG（nDCG@m）和前m個文檔的err（err@m）值來評價檢索結(jié)果質(zhì)量。

前面提出的一種分析時間意圖的方法是使用前k個文檔分析查詢時間意圖，k值的不同會影響檢索結(jié)果。表1列出不同k值對實(shí)驗(yàn)結(jié)果的影響，可見1 000個文檔中取前200個文檔分析查詢時間意圖時檢索性能最好，所以本文實(shí)驗(yàn)中值取200。

語言模型中計算值需要考慮時間不確定性，不同的時間間隔可能會影響排名結(jié)果。表2列出不同時間間隔（0天、7天、30天、3個月）下LMU-DIF和LMU-DIF-rankAdd方法的指標(biāo)值。從表2可見，時間間隔取太大或太小都會降低結(jié)果性能，間隔7天時性能最好。

綜合上面的分析，表3列出了每個方法在參數(shù)配置最優(yōu)情況下各指標(biāo)的值，Baseline是僅考慮內(nèi)容相關(guān)性的一個基準(zhǔn)。總體上看，各種方法性能都有所提升，LMU-DIF-rankAdd方法比LMU-DIF更優(yōu)，但都優(yōu)于Baseline，表明本文提出的方法在改善搜索引擎性能方面有一定效果，排名模型需要考慮時間因素的影響。

4 結(jié)語

本文提出一種支持隱式時間查詢的文檔排名方法，該方法首先分析隱式查詢的時間意圖，在此基礎(chǔ)上線性計算時間相關(guān)性得分，結(jié)合時間相關(guān)性得分和內(nèi)容相關(guān)性得分，把重排結(jié)果返回給用戶。實(shí)驗(yàn)結(jié)果表明本方法具有一定的實(shí)用價值。

參考文獻(xiàn)：

[1] NUNES S， RGIO， RIBEIRO C， et al. Use of temporal expressions in web search， proceedings of the Ir research[C].European Conference on Advances in Information Retrieval，2008.

[2] METZLER D， JONES R， PENG F， et al. Improving search relevance for implicitly temporal queries [J]. Proceedings of Sigir， 2009（1）：700-701.

[3] ALONSO O， STROTGEN J， BAEZA YATES R， et al. Temporal information retrieval：challenges and opportunities[J].Temporal Web Analytics Workshop at Www， 2011（1）：8-9.

[4] BERBERICH K， BEDATHUR S， ALONSO O， et al. A language modeling approach for temporal information needs [M]. ECIR， 2010.

[5] JONES R， DIAZ F. Temporal profiles of queries [J]. Acm Transactions on Information Systems， 2007， 25（3）： 14-16.

[6] KANHABUA N， NORVAG K. Determining time of queries for re-ranking search results[M].ECDL 2010.

[7] DAKKA W， GRAVANO L， IPEIROTIS P G. Answering general time-sensitive queries[J].Knowledge & Data Engineering IEEE Transactions on， 2012， 24（2）： 220-350.

[8] LIN S， JIN P， ZHAO X， et al. Exploiting temporal information in Web search [J]. Expert Systems with Applications， 2014， 41（2）： 331-411.

[9] 張曉娟，陸偉，周紅霞. 用戶查詢中潛在時間意圖分析及其檢索建模 [J]. 現(xiàn)代圖書情報技術(shù)， 2011（11）： 38-43.

[10] JOHO H， JATOWT A， BLANCO R. NTCIR temporalia： a test collection for temporal information access research [M]. Proceedings of the 23rd International Conference on World Wide Web， Seoul， Korea，ACM，2014.endprint

軟件導(dǎo)刊2017年8期

軟件導(dǎo)刊的其它文章: 移動圖書館智慧微服務(wù)APPs研究與實(shí)踐; 題網(wǎng)絡(luò)新聞個性化推薦系統(tǒng)策略研究; Matlab在多元函數(shù)積分計算中的應(yīng)用研究; 基于機(jī)器學(xué)習(xí)的手勢識別系統(tǒng)及其在移動終端上的應(yīng)用; 基于SVM的上證指數(shù)預(yù)測研究; 帶有時空特性的角色訪問控制模型

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

基于隱式時間查詢的文檔排名方法