• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于檢索歷史上下文的個(gè)性化查詢重構(gòu)技術(shù)研究

      2010-07-18 03:11:54巍,張宇,劉挺,李
      中文信息學(xué)報(bào) 2010年3期
      關(guān)鍵詞:權(quán)值網(wǎng)頁文檔

      宋 巍,張 宇,劉 挺,李 生

      (哈爾濱工業(yè)大學(xué)信息檢索研究中心,黑龍江哈爾濱150001)

      1 引言

      當(dāng)前,通用搜索引擎主要基于關(guān)鍵詞匹配的方法進(jìn)行檢索。存在的一個(gè)問題是:用戶查詢時(shí)輸入的有限詞語并不能完全準(zhǔn)確表達(dá)其檢索的真正意圖,查詢本身存在的歧義性導(dǎo)致搜索引擎返回大量與用戶需求無關(guān)的文檔。另一方面,具有不同應(yīng)用背景、偏好的用戶,在輸入相同的查詢?cè)~時(shí)可能也有著各自不同的信息需求。因此,系統(tǒng)對(duì)輸入相同查詢關(guān)鍵詞的所有用戶返回同樣的結(jié)果不能使單個(gè)用戶滿意度達(dá)到最大。鑒于以上原因,結(jié)合用戶反饋的個(gè)性化檢索成為近年來學(xué)術(shù)界[1-2]研究的熱點(diǎn)。

      用戶的反饋信息通常用來重構(gòu)當(dāng)前的查詢,以使新的查詢模型與用戶檢索意圖更為接近。按照反饋方式的不同,用戶反饋可分為顯式反饋和隱式反饋兩種。顯式反饋指用戶主動(dòng)向系統(tǒng)提供自己的興趣偏好或?qū)ο到y(tǒng)返回的結(jié)果進(jìn)行相關(guān)性評(píng)價(jià)。隱式反饋指通過分析用戶與系統(tǒng)正常的交互行為來推測(cè)用戶檢索意圖,不需用戶做額外的相關(guān)性評(píng)價(jià)。由于用戶通常不愿花費(fèi)精力進(jìn)行主動(dòng)反饋,隱式反饋成為個(gè)性化信息檢索研究的重點(diǎn)。

      用戶的檢索歷史是隱式反饋信息最主要的來源之一,通常包括查詢輸入、結(jié)果集、用戶點(diǎn)擊等,含有用戶多方面的偏好信息,同時(shí)也存在大量噪聲。以往的方法將用戶檢索歷史當(dāng)成一個(gè)整體考慮,或者將其視為歷史單元的融合,利用其中的所有詞來重構(gòu)查詢模型。但是,檢索歷史中并非所有詞語都與當(dāng)前查詢相關(guān),這種方法自然會(huì)導(dǎo)致新的查詢模型中包含與當(dāng)前查詢無關(guān)的噪聲詞,影響最終的檢索性能。

      本文認(rèn)為與當(dāng)前查詢相關(guān)的詞語和查詢中的詞語在檢索歷史中經(jīng)常共現(xiàn)。詞語的上下文指在它周圍一定大小的文本窗口內(nèi)出現(xiàn)的所有文本。兩個(gè)詞語共現(xiàn)指它們出現(xiàn)在同一上下文內(nèi)。我們以檢索結(jié)果的網(wǎng)頁摘要(snippet)作為上下文,結(jié)合用戶點(diǎn)擊對(duì)詞語的共現(xiàn)關(guān)系進(jìn)行建模,考慮檢索歷史中的候選詞語與當(dāng)前查詢中的所有詞語的共現(xiàn)關(guān)系,進(jìn)而選擇與整個(gè)查詢相似度最高的候選詞作為擴(kuò)展詞語。通過對(duì)檢索結(jié)果重排序的實(shí)驗(yàn)證明,該方法可以有效地從用戶歷史檢索中挖掘出與查詢相關(guān)的詞語,減少噪聲詞,提高排序質(zhì)量。

      本文第2節(jié)介紹基于用戶檢索歷史的個(gè)性化研究相關(guān)工作;第3節(jié)敘述基于檢索歷史上下文的查詢重構(gòu)方法;第4節(jié)和第5節(jié)分別介紹實(shí)驗(yàn)的設(shè)置及實(shí)驗(yàn)結(jié)果分析;第6節(jié)做出結(jié)論,并對(duì)下一步的研究工作進(jìn)行展望。

      2 相關(guān)工作

      挖掘檢索歷史的方法可分為基于短期歷史和長(zhǎng)期歷史兩種。短期歷史針對(duì)單個(gè)的查詢會(huì)話(query session)中用戶的反饋來修正查詢模型[3-5]。這類方法優(yōu)點(diǎn)是反饋直接針對(duì)當(dāng)前查詢,噪聲較少,缺點(diǎn)是可獲得的信息有限。與之相比,基于長(zhǎng)期歷史的方法則以用戶為中心,收集從不同來源獲取的用戶信息,建立長(zhǎng)期用戶模型對(duì)當(dāng)前查詢模型進(jìn)行重構(gòu)。Sugiyam a K等[6]以時(shí)間為主軸劃分用戶的瀏覽信息為長(zhǎng)期反饋、近期反饋和當(dāng)前反饋進(jìn)行線性融合作為查詢模型。類似的還有基于用戶桌面索引[7]和領(lǐng)域本體[8]的方法。這類方法優(yōu)點(diǎn)是無需進(jìn)行查詢會(huì)話劃分,能夠全面刻畫用戶興趣。缺點(diǎn)是長(zhǎng)期歷史包含多個(gè)主題,存在大量噪聲。從中發(fā)現(xiàn)與當(dāng)前查詢相關(guān)的信息,利用這些信息預(yù)測(cè)用戶的檢索意圖是高效利用長(zhǎng)期歷史進(jìn)行個(gè)性化檢索的關(guān)鍵。

      Bin Tan等[9]將用戶檢索歷史以查詢?yōu)閱挝粯?gòu)建若干歷史單元,計(jì)算當(dāng)前查詢與歷史單元的相似度作為權(quán)值對(duì)歷史單元進(jìn)行線性插值形成用戶歷史模型。其目的是賦予與當(dāng)前查詢相似度高的歷史單元中的詞語更高的權(quán)值,降低了不相關(guān)單元對(duì)最終查詢模型的影響。然而計(jì)算查詢之間的相似度本身是很難的任務(wù),因?yàn)椴樵冚^短反映的信息有限,若使用返回的結(jié)果集對(duì)查詢進(jìn)行擴(kuò)充則依賴于初始返回的結(jié)果,若其中包含很多不相關(guān)文檔,計(jì)算出的相似度與實(shí)際情況會(huì)有較大偏差。此外該方法使用檢索歷史中出現(xiàn)的所有詞語建模,用戶檢索歷史中的一些詞語與查詢并不相關(guān),但由于出現(xiàn)次數(shù)較多也會(huì)獲得較高的權(quán)值形成噪聲。Jing Bai等[3]利用查詢的上下文及查詢內(nèi)的詞語間關(guān)系從相關(guān)的興趣領(lǐng)域中挖掘與當(dāng)前查詢相關(guān)的詞語重構(gòu)查詢模型。本文與其思想類似,不同的是本文針對(duì)用戶的檢索歷史進(jìn)行挖掘并對(duì)用戶反饋進(jìn)行建模,在選擇相關(guān)詞語的過程中考慮了用戶的個(gè)性化信息。

      與本文相關(guān)工作還包括基于偽相關(guān)反饋的查詢擴(kuò)展[10-11]。這類方法假設(shè)初次檢索排序靠前的文檔或段落與查詢相關(guān),并從中選擇詞語擴(kuò)展查詢。其問題是過于依賴于系統(tǒng)初次檢索的質(zhì)量。已有學(xué)者嘗試個(gè)性化查詢擴(kuò)展方法。Paul A lexandru Chirita等[12]從用戶個(gè)人桌面文檔中選擇詞語擴(kuò)展到查詢模型中。梅翔等[13]將用戶對(duì)網(wǎng)頁的偏好轉(zhuǎn)化為對(duì)知識(shí)庫中詞語的偏好,建立用戶興趣模型挑選出與用戶偏好關(guān)聯(lián)最緊密的關(guān)鍵詞加入原查詢。

      3 基于檢索歷史上下文的查詢重構(gòu)

      檢索歷史包含不同的主題,其中多數(shù)與當(dāng)前查詢無關(guān)。同時(shí),一篇文章中僅有部分詞語能夠反映其主題,其余詞語起輔助作用。檢索歷史中與當(dāng)前查詢無關(guān)的詞語形成噪聲,其來源可分為兩類:一類為不相關(guān)主題中的詞語,另一類為在各種主題中廣泛存在的起輔助作用的詞語,隨著檢索歷史不斷增加,此類噪聲不斷累積。

      本文以用戶當(dāng)前查詢?yōu)橹行?基于相關(guān)詞語在檢索歷史上下文中的共現(xiàn)及用戶點(diǎn)擊信息,選擇檢索歷史中與當(dāng)前查詢最相關(guān)的詞語重構(gòu)查詢模型。設(shè)當(dāng)前查詢?yōu)镼={qi},其中qi是查詢關(guān)鍵詞。在用戶檢索歷史中,每個(gè)歷史查詢可對(duì)應(yīng)一組信息,這些信息可用一個(gè)元組<查詢輸入,結(jié)果集,點(diǎn)擊頁面>來表示,結(jié)果集包括返回結(jié)果中所有網(wǎng)頁的標(biāo)題、摘要以及正文鏈接。查詢模型重構(gòu)過程如下:

      1)將用戶檢索歷史中的網(wǎng)頁摘要進(jìn)行索引,用當(dāng)前查詢從中檢索,得到相關(guān)的歷史查詢網(wǎng)頁摘要并提取其中的詞語形成候選詞語集。

      2)選取候選詞語的一個(gè)子集來重構(gòu)查詢模型,稱該子集中的詞語為擴(kuò)展詞語。以網(wǎng)頁摘要作為上下文語境,計(jì)算每個(gè)候選詞語與當(dāng)前整個(gè)查詢的相似度并依此對(duì)候選詞語進(jìn)行排序,選取前k個(gè)候選詞語作為擴(kuò)展詞語。

      3)利用得到的擴(kuò)展詞語重構(gòu)查詢模型。

      最后,利用新的查詢模型對(duì)初始的檢索結(jié)果進(jìn)行重排序。具體處理過程如圖1所示。

      圖1 查詢模型重構(gòu)過程

      3.1 候選詞語獲取

      候選詞語應(yīng)與當(dāng)前查詢中的詞語在檢索歷史中經(jīng)常共現(xiàn)。我們將用戶的檢索歷史以網(wǎng)頁摘要為單位(即將一個(gè)網(wǎng)頁摘要作為一個(gè)獨(dú)立文檔)進(jìn)行索引,以當(dāng)前查詢作為關(guān)鍵詞集合(去除其中的停用詞),檢索索引的歷史查詢網(wǎng)頁摘要,然后選用排序靠前的n個(gè)網(wǎng)頁摘要,從中提取所包含的詞語形成候選詞語集。索引時(shí)網(wǎng)頁摘要按照TF-IDF進(jìn)行建模。當(dāng)前查詢按照公式(1)估計(jì)權(quán)值。

      其中,t為查詢中的一個(gè)詞語,t f(t,Q)表示t在查詢Q中出現(xiàn)的次數(shù)。d f(t)為包含t的網(wǎng)頁摘要數(shù),N為網(wǎng)頁摘要總數(shù)。

      3.2 擴(kuò)展詞語選擇

      本文利用詞語在檢索歷史上下文內(nèi)的共現(xiàn)并結(jié)合用戶點(diǎn)擊作為隱式反饋,來選取擴(kuò)展詞語。首先,考察候選詞語與查詢中單個(gè)詞語的共現(xiàn)關(guān)系,在此基礎(chǔ)之上計(jì)算其與整個(gè)查詢的相似度,最終選取與整個(gè)查詢相似度最大的k個(gè)候選詞語作為擴(kuò)展詞語重構(gòu)查詢模型。

      在用戶的檢索歷史中,對(duì)應(yīng)某個(gè)查詢,系統(tǒng)返回的結(jié)果中可能包含多個(gè)主題,其中只有部分主題的網(wǎng)頁文檔真正滿足用戶的信息需求。利用詞語在上下文共現(xiàn)來提取相關(guān)詞語時(shí),選擇的文本窗口過大會(huì)引入很多與當(dāng)前查詢并無關(guān)系的噪聲詞語。因此,我們將檢索歷史中搜索引擎給出的網(wǎng)頁摘要作為度量詞語共現(xiàn)的上下文。一個(gè)網(wǎng)頁摘要是相對(duì)較小的文本窗口而且主題一致。以網(wǎng)頁摘要作為上下文能夠更好地估計(jì)詞語間的共現(xiàn)關(guān)系,同時(shí)易于結(jié)合用戶反饋。

      3.2.1 詞語間共現(xiàn)度

      首先,考察候選詞語與查詢中單個(gè)詞語的共現(xiàn)關(guān)系。采取共現(xiàn)度[11]來度量?jī)蓚€(gè)詞語共現(xiàn)程度,其基本計(jì)算公式如(2)所示。

      sj為排序在前n位的網(wǎng)頁摘要。tf(c,sj)表示詞語c在sj中出現(xiàn)的次數(shù),t f(qi,sj)表示詞語qi在sj中出現(xiàn)的次數(shù)。id f(c)為詞語c在整個(gè)數(shù)據(jù)集上的逆文檔數(shù),以降低高頻詞語的權(quán)值。co(c,qi)用來度量詞語c與qi在前n個(gè)網(wǎng)頁摘要中的共現(xiàn)次數(shù)。顯然,兩個(gè)詞語共同出現(xiàn)的網(wǎng)頁摘要數(shù)越多co(c,qi)的值越大。

      3.2.2 結(jié)合用戶點(diǎn)擊的共現(xiàn)度

      公式(3)僅對(duì)詞語共現(xiàn)進(jìn)行統(tǒng)計(jì)而沒有考慮網(wǎng)頁摘要的質(zhì)量,也沒有結(jié)合用戶的反饋。在個(gè)性化檢索中,用戶的反饋信息對(duì)于預(yù)測(cè)其真正的檢索意圖起著重要的作用。我們將公式(3)進(jìn)行修改以實(shí)現(xiàn)對(duì)用戶隱式反饋與詞語共現(xiàn)的統(tǒng)一建模,如公式(4)所示。

      quality(sj)用來衡量網(wǎng)頁摘要sj的質(zhì)量,本文利用用戶點(diǎn)擊來估計(jì)。如果用戶曾經(jīng)點(diǎn)擊過 sj,quality(sj)設(shè)為1,否則設(shè)為可調(diào)系數(shù)μ。μ約束了詞語權(quán)值估計(jì)時(shí)用戶反饋的重要性。當(dāng) μ=1時(shí)未點(diǎn)擊的網(wǎng)頁摘要與點(diǎn)擊的網(wǎng)頁摘要重要性相同,此時(shí)等同于沒有考慮用戶點(diǎn)擊信息,公式(3)即為μ=1時(shí)的特殊情況。μ=0時(shí)表示僅統(tǒng)計(jì)候選詞語與查詢中詞語在用戶點(diǎn)擊過的網(wǎng)頁摘要中的共現(xiàn)情況。0<μ<1時(shí)表示考慮所有網(wǎng)頁摘要,但未被點(diǎn)擊的網(wǎng)頁摘要的重要性按比例衰減,從而突出用戶點(diǎn)擊過的網(wǎng)頁摘要的重要性。因此,結(jié)合用戶反饋的共現(xiàn)度在衡量詞語間共現(xiàn)關(guān)系的同時(shí)結(jié)合用戶反饋,估計(jì)候選詞語的權(quán)值時(shí)既考慮其與查詢?cè)诮y(tǒng)計(jì)上的相關(guān)性,又考慮了其與用戶偏好的相關(guān)性。

      3.2.3 擴(kuò)展詞語選擇

      擴(kuò)展的詞語應(yīng)與用戶輸入的整個(gè)查詢相關(guān)而不是僅與其中的某個(gè)詞語相關(guān)。我們?cè)谟?jì)算候選詞語與查詢中單個(gè)詞語的共現(xiàn)度的基礎(chǔ)上,度量其與整個(gè)查詢的相似度,進(jìn)而根據(jù)相似度的大小對(duì)候選詞語進(jìn)行排序,從中選擇擴(kuò)展詞語。通過公式(6)計(jì)算候選詞語c與查詢Q的相似性。

      co_degree(c,qi)為c與查詢中詞語qi的共現(xiàn)度。w(c,Q)通過連乘的方式考察了候選詞語c與查詢中所有詞語的共現(xiàn)度進(jìn)而表現(xiàn)其與整個(gè)查詢的相似度。其中δ設(shè)為0.1以避免乘積為零。

      查詢中可能包含多個(gè)詞語,這些詞語不應(yīng)等同對(duì)待,區(qū)分性強(qiáng)的詞語應(yīng)當(dāng)具有更高的重要性。相應(yīng)地,與查詢中重要的詞語共現(xiàn)度大的候選詞語也應(yīng)當(dāng)被賦予較高的權(quán)值,從而進(jìn)一步減少噪聲。這里的imp(qi)代表查詢中詞語qi的相對(duì)重要性。采取類似于逆文檔數(shù)(IDF)的思想,將Google索引的網(wǎng)頁視為大規(guī)模語料庫,利用詞語在Google的返回結(jié)果數(shù)(Google H its)來評(píng)價(jià)查詢中詞語的相對(duì)重要性,這里假設(shè)Google Hits小的詞語具有更大的相對(duì)重要性。設(shè)ghs(qi)為詞語qi的Google H its,im p(qi)的計(jì)算公式如公式(7)所示。

      按照w(c,Q)對(duì)候選詞語進(jìn)行排序,最終選擇前k個(gè)詞語作為擴(kuò)展詞語重構(gòu)查詢模型。

      3.3 查詢模型重構(gòu)與重排序

      查詢模型重構(gòu)包括兩個(gè)步驟:確定用來重構(gòu)查詢的詞語集合和估計(jì)詞語權(quán)值。經(jīng)候選詞語排序,得到k個(gè)擴(kuò)展詞語,將其表示為 Ck={c1,c2,…,ck}。重構(gòu)查詢模型使用的詞語集合為Q∪Ck。對(duì)于qi,按照公式(1)進(jìn)行權(quán)值估計(jì)。使用w(ci,Q)作為ci的權(quán)值。

      我們對(duì)初始檢索結(jié)果集合中每個(gè)文檔的網(wǎng)頁摘要(包括標(biāo)題)按照空間向量模型進(jìn)行建模,計(jì)算每個(gè)網(wǎng)頁摘要模型與重構(gòu)的新查詢模型間的余弦相似度,并依此對(duì)初始檢索結(jié)果實(shí)現(xiàn)重排序。

      4 實(shí)驗(yàn)設(shè)置

      4.1 數(shù)據(jù)集

      針對(duì)個(gè)性化信息檢索,開發(fā)了基于天網(wǎng)100G語料的個(gè)性化評(píng)測(cè)語料標(biāo)注輔助系統(tǒng)[14]。標(biāo)注者利用此系統(tǒng)模擬正常的檢索行為,系統(tǒng)記錄下用戶在檢索過程中的各種隱式信息,包括查詢、檢索結(jié)果、用戶查看的網(wǎng)頁等。針對(duì)每個(gè)查詢,標(biāo)注者對(duì)系統(tǒng)返回的前二十個(gè)網(wǎng)頁判斷是否符合其檢索意圖,符合標(biāo)注為相關(guān),否則標(biāo)記為不相關(guān)。

      收集了5名用戶的標(biāo)注結(jié)果。平均每人進(jìn)行了230余次檢索。從每名用戶的歷史查詢中,按照檢索時(shí)間由后向前的順序,選擇了一系列查詢用于測(cè)試。這些查詢要求同時(shí)滿足以下2個(gè)約束:

      1)至少有2個(gè)或2個(gè)以上相關(guān)文檔。

      2)至少符合用戶之前提交的查詢表達(dá)的興趣,如:科技、電影等,或者屬于某個(gè)查詢片段(用戶為了達(dá)到查詢目的提交的一系列查詢)。

      對(duì)每一用戶,測(cè)試查詢與查詢總數(shù)的比例在10%~20%之間。數(shù)據(jù)集的統(tǒng)計(jì)如表1所示。

      表1 數(shù)據(jù)集統(tǒng)計(jì)

      4.2 評(píng)價(jià)方法

      采取p@5和Norm alized Discounted CumulativeGain(NDCG)作為評(píng)價(jià)方法,對(duì)所有測(cè)試查詢?nèi)∑骄祦碓u(píng)價(jià)系統(tǒng)的表現(xiàn)。其中p@5方法表示結(jié)果集的前5篇文檔中相關(guān)文檔比例。DCG[15]賦予排序高的文檔以更高權(quán)值并且結(jié)合不同的反饋級(jí)別(高度相關(guān)、相關(guān)和不相關(guān)),如公式(8)所示。

      本文對(duì)于相關(guān)文檔令G(i)=1,對(duì)于不相關(guān)文檔令G(i)=0。NDCG是通過將DCG與理想狀況下(所有相關(guān)文檔排在結(jié)果集合的最前面)的DCG值(IDCG)做比值獲得,其值處于 0、1之間,越高說明系統(tǒng)表現(xiàn)越好。

      4.3 實(shí)驗(yàn)結(jié)果及分析

      實(shí)驗(yàn)部分著重比較與分析以下3個(gè)方面:1)選取的擴(kuò)展詞語數(shù)對(duì)系統(tǒng)的影響。2)用戶點(diǎn)擊對(duì)系統(tǒng)的作用。3)本文的查詢重構(gòu)方法與以往基于檢索歷史重構(gòu)查詢的方法的比較。選擇的基準(zhǔn)系統(tǒng)包括:基于Lucene實(shí)現(xiàn)的默認(rèn)檢索系統(tǒng),記為Default;將用戶的檢索歷史中所有點(diǎn)擊過的網(wǎng)頁摘要基于TFIDF建模并取質(zhì)心構(gòu)建用戶模型,記為Whole;采取Bin Tan等[9]的思想實(shí)現(xiàn)的對(duì)比系統(tǒng)BinTan。Bin-Tan將每個(gè)查詢形成歷史單元模型,通過計(jì)算當(dāng)前查詢與所有歷史單元模型的相似度作為插值系數(shù)對(duì)所有歷史單元進(jìn)行線性插值形成歷史模型。最終由當(dāng)前查詢模型和歷史模型融合得到重構(gòu)的查詢模型,并利用該模型對(duì)結(jié)果集合進(jìn)行重排序。本文基于檢索歷史上下文分析的個(gè)性化查詢重構(gòu)方法記為PQR。

      PQR需要設(shè)置的參數(shù)為選取網(wǎng)頁摘要的數(shù)目n、擴(kuò)展詞語數(shù)目k及系數(shù)μ。這里設(shè)定n=30,以保證返回的網(wǎng)頁摘要的相關(guān)性。分別考察 k=10,20,…,100及μ在0、1間不同取值時(shí)系統(tǒng)的表現(xiàn)。參數(shù)k反映了擴(kuò)展詞語的精度,參數(shù)μ體現(xiàn)了用戶點(diǎn)擊對(duì)系統(tǒng)的影響。

      圖2 在不同k值及μ值下PQR的表現(xiàn)

      圖2給出了μ取不同值時(shí),PQR隨擴(kuò)展詞語數(shù)k變化的趨勢(shì)。當(dāng)使用p@5評(píng)價(jià)時(shí),系統(tǒng)的表現(xiàn)對(duì)k的變化較為敏感。在開始階段隨k的增大表現(xiàn)提高,當(dāng)k達(dá)到30左右時(shí)系統(tǒng)表現(xiàn)最優(yōu),而后隨著k值增大而下降直至趨于穩(wěn)定,說明需要小心地設(shè)置參數(shù)k以使相關(guān)文檔盡可能排到結(jié)果集合前列。使用NDCG評(píng)價(jià)時(shí),系統(tǒng)表現(xiàn)隨k變化相對(duì)平穩(wěn),說明重構(gòu)的查詢模型能夠可靠地提高整個(gè)結(jié)果集中相關(guān)文檔的排名。

      我們發(fā)現(xiàn)當(dāng)μ值較小時(shí),系統(tǒng)的表現(xiàn)更優(yōu)。如3.2.2所述,μ反映了用戶反饋的重要性,當(dāng)其較小時(shí)系統(tǒng)賦予用戶點(diǎn)擊過的網(wǎng)頁摘要相對(duì)更高的權(quán)重??梢娪脩酎c(diǎn)擊是可靠且有效的隱式反饋,利用用戶點(diǎn)擊過的網(wǎng)頁摘要可以更好地獲得符合用戶需求的相關(guān)詞語。

      表2給出了針對(duì)2個(gè)查詢樣例,μ分別取0和1時(shí)PQR得到的擴(kuò)展詞語中及BinTan歷史模型中權(quán)值最高的前10個(gè)詞語?!白匀徽Z言發(fā)展”是一個(gè)具有歧義的查詢,既可能指人類語言的演化也可能指計(jì)算機(jī)科學(xué)中的自然語言處理技術(shù)。當(dāng)μ=1(所有網(wǎng)絡(luò)摘要的重要性相同)時(shí),得到的擴(kuò)展詞語涉及多方面的內(nèi)容,不能完全準(zhǔn)確預(yù)測(cè)用戶意圖。當(dāng)μ=0(僅考慮用戶點(diǎn)擊過的網(wǎng)頁摘要中的詞語)時(shí),擴(kuò)展的詞語可以判斷用戶關(guān)注的是自然語言處理、信息檢索相關(guān)的內(nèi)容。但對(duì)于一些情況,擴(kuò)展詞語過于具體會(huì)使用戶局限在已有的偏好內(nèi)。

      表2 排序前十位的擴(kuò)展詞語舉例

      如查詢“推薦科幻電影”,當(dāng)μ=0時(shí),得到的擴(kuò)展詞語會(huì)使系統(tǒng)傾向于將用戶過去檢索過的對(duì)象,如《第五元素》和《侏羅紀(jì)公園》等影片相關(guān)的網(wǎng)頁排在前面。μ=1時(shí),擴(kuò)展詞語中包含了一般化的相關(guān)詞語,如“科幻片”、“主演”等,這有助于用戶找到新的潛在感興趣的對(duì)象。因此設(shè)置合適的系數(shù)μ,既強(qiáng)調(diào)用戶點(diǎn)擊的重要性又增加一般的相關(guān)詞語來重構(gòu)查詢是更好的選擇。由圖2可見,μ=0.2時(shí)系統(tǒng)表現(xiàn)較好。BinTan得到的歷史模型中,權(quán)值最高的詞多為在多個(gè)主題下經(jīng)常出現(xiàn)的詞,如:“網(wǎng)”,“中國”,“下載”等。說明針對(duì)在各種主題中廣泛存在的噪聲詞語,BinTan去噪能力有限。隨著用戶檢索歷史增加,此類噪聲不斷積累,使用戶歷史模型準(zhǔn)確描述用戶興趣的能力逐漸降低。

      表3給出了k=30,μ=0.2時(shí)PQR與基準(zhǔn)系統(tǒng)的比較。從中可以發(fā)現(xiàn),將用戶的檢索歷史視為一個(gè)整體建模(Whole)時(shí)系統(tǒng)的性能反而下降。這說明對(duì)于個(gè)性化檢索任務(wù)來說,將檢索歷史視為整體而不區(qū)分其中信息是否與當(dāng)前查詢相關(guān)不能有效地利用用戶歷史信息,提高檢索系統(tǒng)的性能。BinTan與Default相比則有明顯提升,因?yàn)樗紤]了歷史查詢與當(dāng)前查詢的相似性,增加了檢索歷史中與當(dāng)前查詢相關(guān)的歷史單元中的詞語的權(quán)值,對(duì)不相關(guān)主題中的噪聲具有抑制作用。使用p@5進(jìn)行評(píng)價(jià)時(shí),PQR相對(duì)BinTan提高12.8%,相對(duì)于Default提高26%;使用NDCG進(jìn)行評(píng)價(jià)時(shí),相對(duì)于BinTan提高7.2%,相對(duì)于Default提高11.4%。結(jié)合圖2,在大多數(shù)參數(shù)條件下,PQR的表現(xiàn)都好于3個(gè)基準(zhǔn)系統(tǒng)。可見,PQR能夠較好處理檢索歷史中的兩類噪聲詞語,有效地選擇相關(guān)詞語重構(gòu)查詢。適當(dāng)設(shè)置參數(shù)時(shí),可以大幅提高滿足用戶需求的網(wǎng)頁的排序,改善用戶體驗(yàn)。

      表3 PQR與基準(zhǔn)系統(tǒng)的比較

      5 結(jié)論與未來工作

      本文針對(duì)用戶檢索歷史包含大量與當(dāng)前查詢無關(guān)的噪聲的問題,將用戶的檢索歷史中的網(wǎng)頁摘要視為上下文語境,結(jié)合用戶點(diǎn)擊考察詞語在上下文中的共現(xiàn),選取與整個(gè)查詢最相關(guān)的詞語重構(gòu)查詢模型。檢索結(jié)果重排序的實(shí)驗(yàn)表明,在詞語選擇過程中,用戶點(diǎn)擊是有效的隱式反饋,對(duì)相關(guān)詞語的選擇作用明顯。選擇與當(dāng)前查詢相關(guān)性最高的若干詞語重構(gòu)查詢模型比將檢索歷史視為整體考慮更為合理,可以有效地減少噪聲。

      本文的方法對(duì)用戶檢索歷史規(guī)模有一定依賴,利用當(dāng)前查詢檢索網(wǎng)頁摘要時(shí)可能會(huì)面臨數(shù)據(jù)稀疏問題,對(duì)參數(shù)設(shè)置也有一定要求。在今后工作中,將局部反饋與用戶檢索歷史相結(jié)合以及自適應(yīng)地確定參數(shù)等方面內(nèi)容是我們需要進(jìn)一步研究的課題。

      [1] 曾春,邢春曉,周立柱.個(gè)性化服務(wù)技術(shù)綜述[J].軟件學(xué)報(bào),2002,13(10):1952-1961.

      [2] N icholas J.Belkin.Some(what)challenges and grand challenges for information retrieval[J].ACM SIGIR Forum,2008,42(1):47-54.

      [3] Jing Bai,Jian-Yun Nie,Guihong Cao,H ugues Bouchard.Using query contex ts in in formation retrieval[C]//Proceedings of the 30th annual international ACM SIGIR conference on Research and development in information retrieval.2007:15-22.

      [4] Xuehua Shen,Bin Tan,ChengXiang,Zhai.Im p licit user mode ling for personalized search[C]//Proceedings of the 14th ACM international conference on Information and know ledge management.2005:824-831.

      [5] Yuanhua Lv,Le Sun,Jun lin Zhang,Jian-Yun Nie W an Chen,Wei Zhang.An iterative imp licit feedback approach to personalized search[C]//Proceedings of the 21st International Conference on Computational Linguistics and the44th annualmeeting o f the Association for Computationa l Linguistics.2006:585-592.

      [6] Sugiyama K,Hatano K,K Yoshikawa M.Adaptive w eb search based on user p ro file constructed without any effort from users[C]//Proceedings o f the 13th international conference on W orld W ide Web.2003:675-684

      [7] Susan Gauch,Jason Chaffee,A laxander Pretschner.Ontology-based personalized search and brow sing[J].W eb Intelligence and Agent System s.2003,1(3-4):219-234

      [8] Teevan,J.,Dumais,S.T.,&H orvitz,E.(2005).Personalizing search via automated analysis of interests and activites[C]//Proceedings of the 28th annual international ACM SIGIR con ference on Research and development in information retrieval,2005:449-456.

      [9] Bin Tan,Xuehua Shen,ChengXiang Zhai.M ining long-term search history to imp rove search accuracy[C]//Proceedings o f the 12th ACM SIGKDD international conference on Know ledge discovery and data m ining,2006:718-723

      [10] Lav renko,V.and Cro ft,W.B.Relevance-based languagemodels[C]//Proc.24th ACM SIGIRCon f.On Research and Development in Information Retrieval.2001:120-127.

      [11] Jinxi Xu,W.Bruce Croft.Imp roving the effectiveness o f in formation retrievalwith loca l contex t analysis[J].ACM Transactions on Information System s(TOIS).2000,18(1):79-112.

      [12] Pau l A lexandru Chirita,Claudiu S.Firan,Wo lfgang Nejdl.Personalized query expansion for the w eb[C]//Proceedings of the 30th annual international ACM SIGIR conference on Research and development in information retrieval,2007:7-14.

      [13] 梅翔,陳俊亮,徐萌.一種基于偏好的查詢擴(kuò)展方法[J].高技術(shù)通訊,2007,17:1142-1146.

      [14] 張宇,范基禮,鄭偉,鄒博偉,劉挺.基于人工標(biāo)注的個(gè)性化檢索系統(tǒng)評(píng)測(cè)的研究[J].中文信息學(xué)報(bào),2009,23(2):62-53.

      [15] Kalervo J?rvelin,Jaana Kek?l?inen.IR evaluation methods for retrieving highly relevant documents[C]//Proceedings o f the 23rd annual international ACM SIGIR conference on Research and development in information retrieval,2000:41-48.

      猜你喜歡
      權(quán)值網(wǎng)頁文檔
      一種融合時(shí)間權(quán)值和用戶行為序列的電影推薦模型
      有人一聲不吭向你扔了個(gè)文檔
      CONTENTS
      基于CSS的網(wǎng)頁導(dǎo)航欄的設(shè)計(jì)
      電子制作(2018年10期)2018-08-04 03:24:38
      基于URL和網(wǎng)頁類型的網(wǎng)頁信息采集研究
      電子制作(2017年2期)2017-05-17 03:54:56
      基于權(quán)值動(dòng)量的RBM加速學(xué)習(xí)算法研究
      基于RI碼計(jì)算的Word復(fù)制文檔鑒別
      網(wǎng)頁制作在英語教學(xué)中的應(yīng)用
      Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
      10個(gè)必知的網(wǎng)頁設(shè)計(jì)術(shù)語
      新田县| 平舆县| 海晏县| 突泉县| 平潭县| 雅江县| 岱山县| 元氏县| 清丰县| 哈巴河县| 高平市| 武胜县| 威宁| 花垣县| 景东| 县级市| 军事| 七台河市| 东阳市| 滦平县| 湖口县| 敦化市| 巴南区| 晋州市| 汉沽区| 华宁县| 华亭县| 东乡| 鸡东县| 余庆县| 遵化市| 安顺市| 璧山县| 咸宁市| 新郑市| 开鲁县| 荥经县| 文水县| 安岳县| 淮北市| 景泰县|