王曉春,李生,楊沐昀,趙鐵軍
(哈爾濱工業(yè)大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,黑龍江 哈爾濱 150001)
一種長短期興趣結(jié)合的個(gè)性化檢索模型
王曉春,李生,楊沐昀,趙鐵軍
(哈爾濱工業(yè)大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,黑龍江 哈爾濱 150001)
個(gè)性化信息檢索針對(duì)用戶個(gè)人興趣優(yōu)化文檔排序,被認(rèn)為是改善用戶檢索體驗(yàn)的一種有效途徑。為提高個(gè)性化檢索模型的檢索性能,該文提出了一種將用戶的長短期興趣結(jié)合的通用方法,利用用戶長期興趣和短期興趣對(duì)查詢模型進(jìn)行改進(jìn)。大規(guī)模真實(shí)搜索日志數(shù)據(jù)上的實(shí)驗(yàn)結(jié)果顯示,利用長短期興趣能夠獲得準(zhǔn)確表達(dá)信息需求的查詢模型,相對(duì)于傳統(tǒng)的個(gè)性化檢索模型取得了更好的效果。
個(gè)性化信息檢索;長期興趣;短期興趣
作為輔助人們檢索信息的工具,搜索引擎大大提高了信息檢索的效率。然而,用戶習(xí)慣使用短查詢[1],致使信息需求表達(dá)不準(zhǔn)確,加之傳統(tǒng)搜索引擎沒有考慮用戶個(gè)人興趣的差異,通常難以返回針對(duì)具體用戶的結(jié)果[2-3],未能充分滿足用戶的個(gè)性化信息需求。
相比之下,個(gè)性化信息檢索不僅考慮了查詢和文檔之間相關(guān)性,還考慮了文檔和用戶興趣之間的相關(guān)性,因此被認(rèn)為是改善用戶檢索體驗(yàn)的一個(gè)有效途徑[4]。很多研究表明個(gè)性化信息檢索的返回結(jié)果能夠讓用戶更加滿意[5-7]。
個(gè)性化檢索模型在很大程度上依靠用戶興趣模型優(yōu)化文檔的排序結(jié)果。很多研究工作圍繞建立準(zhǔn)確的興趣模型展開。用戶興趣按照時(shí)間跨度可以分為長期興趣和短期興趣[8]。長期興趣表示具有持續(xù)性的興趣,其優(yōu)勢(shì)是可以用于預(yù)測(cè)即興興趣或者發(fā)現(xiàn)多個(gè)即興興趣的長期性性規(guī)律[9]。短期興趣的優(yōu)勢(shì)是可以用于發(fā)現(xiàn)用戶某一時(shí)刻的短暫興趣[10]。研究發(fā)現(xiàn),長期歷史中可以發(fā)現(xiàn)和用戶相關(guān)的信息,短期歷史中可以發(fā)現(xiàn)與查詢有關(guān)的信息[11]。也有研究認(rèn)為長期興趣模型在查詢會(huì)話的開始非常重要,而短期興趣模型在長的查詢會(huì)話中非常重要[10]。
為了綜合利用用戶的長短期興趣,本文設(shè)計(jì)了一種長短期興趣結(jié)合的通用方法,構(gòu)造能夠準(zhǔn)確表達(dá)個(gè)性化需求的查詢模型。通過對(duì)引入長期興趣、短期興趣前后的查詢模型的檢索結(jié)果進(jìn)行比較,發(fā)現(xiàn)了長期興趣和短期興趣均有利于當(dāng)前查詢意圖的準(zhǔn)確表達(dá),同時(shí)引入長短期興趣的查詢模型的檢索性能最好。
用戶興趣按照時(shí)間跨度可以分為長期興趣和短期興趣[12]。長期興趣來自于長期歷史,即當(dāng)前查詢以前用戶提交的查詢和點(diǎn)擊記錄[12]。短期興趣來自于短期歷史,一般指當(dāng)前的查詢會(huì)話*嚴(yán)格地說,短期歷史包含在長期歷史當(dāng)中,短期興趣是長期興趣的一部分。。查詢會(huì)話指用戶為了滿足一個(gè)搜索意圖而在較短的時(shí)間內(nèi)進(jìn)行的連續(xù)查詢行為。由于用戶的信息需求難以通過查詢完全表達(dá)清楚,研究者經(jīng)常借助歷史信息中體現(xiàn)出來的用戶興趣提高檢索性能。
長期歷史記錄了過去很長一段時(shí)間里用戶感興趣的信息,很多研究基于長期歷史對(duì)用戶興趣建模。文獻(xiàn)[13]搜集了所有用戶的歷史點(diǎn)擊,利用用戶點(diǎn)擊的文檔和跳過的文檔構(gòu)成訓(xùn)練序?qū)?,采用SVM模型優(yōu)化檢索結(jié)果。文獻(xiàn)[11]在向量空間模型框架下為每個(gè)用戶建立長期興趣模型,從用戶歷史點(diǎn)擊中提取關(guān)鍵詞。考慮到不是所有的歷史都對(duì)當(dāng)前查詢有幫助,Bin Tan等[15]提出了一種挑選有效信息的方法。長期歷史中每一次查詢被看作一個(gè)歷史興趣單元,計(jì)算各個(gè)歷史興趣單元與當(dāng)前查詢的相關(guān)度,以該相關(guān)度為權(quán)重對(duì)相關(guān)歷史單元加和作為長期興趣模型,最后與當(dāng)前查詢線性結(jié)合從而構(gòu)成帶有個(gè)性化的查詢模型。該方法有效過濾了長期歷史中的無關(guān)信息,對(duì)新舊查詢都可以提高檢索性能。宋巍等用歷史點(diǎn)擊的摘要代替網(wǎng)頁內(nèi)容,根據(jù)當(dāng)前查詢從中尋找最相關(guān)的摘要,再從相關(guān)摘要當(dāng)中提取候選擴(kuò)展詞,根據(jù)候選詞和查詢?cè)谏舷挛牡墓铂F(xiàn)頻率篩選出擴(kuò)展詞[16]。Matthijs利用單個(gè)用戶瀏覽歷史,利用歷史網(wǎng)頁結(jié)構(gòu)化信息和過濾技術(shù)對(duì)用戶長期興趣建模[17]。
與長期興趣不同,短期興趣來自查詢會(huì)話,它表示用戶當(dāng)下的興趣。一般認(rèn)為,短期歷史與當(dāng)前查詢主題是連貫的[9,18],因此短期歷史用于用戶興趣建模引起了很多研究者的重視。Sriram在2004年提出一種利用歷史查詢和歷史點(diǎn)擊建立用戶興趣模型的方法,但是沒有提供實(shí)驗(yàn)結(jié)果。文獻(xiàn)[19]系統(tǒng)討論了在語言模型框架下建立短期興趣模型的方法,當(dāng)前查詢、歷史查詢和歷史點(diǎn)擊線性組合形成查詢模型,并在TREC數(shù)據(jù)上驗(yàn)證了方法的有效性。文獻(xiàn)[20]給出了基于短期歷史的個(gè)性化檢索模型的統(tǒng)一框架,采用語言模型對(duì)用戶興趣建模,并與當(dāng)前查詢進(jìn)行線性組合,在大規(guī)模搜索引擎日志數(shù)據(jù)上驗(yàn)證了引入短期興趣可以提高搜索引擎的檢索性能。近年來,研究者對(duì)短期歷史中查詢變化進(jìn)行了更加細(xì)致的研究。文獻(xiàn)[5]將短期歷史中相鄰查詢之間的關(guān)系區(qū)分成五種類型,將其作為特征融入排序模型,提高了針對(duì)初始檢索結(jié)果的重排序效果。文獻(xiàn)[21〗采用機(jī)器學(xué)習(xí)算法對(duì)用戶連續(xù)的查詢行為建模,把每一次查詢和點(diǎn)擊看作是隱狀態(tài)的觀測(cè)值,根據(jù)測(cè)試查詢和短期歷史的轉(zhuǎn)移概率預(yù)測(cè)點(diǎn)擊排序。與現(xiàn)有商業(yè)搜索引擎的檢索結(jié)果進(jìn)行比較,發(fā)現(xiàn)該方法能有效提高檢索結(jié)果。
實(shí)際上,短期興趣體現(xiàn)了用戶短暫的興趣信息,長期興趣體現(xiàn)了持續(xù)性信息,二者結(jié)合能夠更加準(zhǔn)確地刻畫用戶完整的興趣信息。已有研究者將長期興趣和短期興趣進(jìn)行結(jié)合。文獻(xiàn)[21]建立了長期興趣模型和短期興趣模型,根據(jù)文檔 和用戶興趣的相似度對(duì)初始檢索結(jié)果重排序。然而長短期興趣結(jié)合前后檢索性能的變化這部分實(shí)驗(yàn)沒有給出。文獻(xiàn)[22]為每個(gè)用戶分別建立了用戶長期和短期興趣模型,考慮了歷史點(diǎn)擊、查詢和用戶的共現(xiàn)頻率。但是該方法僅針對(duì)重復(fù)查詢,沒有在更廣泛的查詢上驗(yàn)證該方法的有效性。文獻(xiàn)[23]在過濾問題上探討了長短期興趣結(jié)合問題,按照文檔與用戶興趣的相似度對(duì)文檔進(jìn)行過濾,實(shí)驗(yàn)結(jié)果顯示用戶興趣結(jié)合可以提高文檔過濾效果。文獻(xiàn)[10]將用戶興趣區(qū)分為長期興趣、短期興趣、除去短期興趣的長期興趣,實(shí)驗(yàn)結(jié)果顯示結(jié)合三種興趣的檢索結(jié)果的準(zhǔn)確率最高。這種做法實(shí)際上是對(duì)用戶的整個(gè)歷史進(jìn)行重采樣,難以看出用戶的長短期興趣各自產(chǎn)生檢索性能的變化。
從現(xiàn)有研究來看,用戶的長期興趣和短期興趣均可提高檢索性能。然而,用戶長期興趣、短期興趣、以及二者結(jié)合對(duì)個(gè)性化檢索性能的不同提升效果沒有明確結(jié)論。為此,本文在語言模型框架下探索用戶的長短期興趣及二者結(jié)合對(duì)個(gè)性化檢索性能的影響,提出一種長短期興趣結(jié)合的方法。為每位用戶建立興趣模型,利用用戶的長短期興趣改進(jìn)用戶的查詢意圖模型,從而返回針對(duì)用戶的檢索結(jié)果。實(shí)驗(yàn)結(jié)果顯示,綜合利用用戶長短期興趣能夠構(gòu)造準(zhǔn)確表達(dá)個(gè)性化需求的查詢模型,相對(duì)于單獨(dú)使用一種用戶興趣的個(gè)性化檢索模型取得了更好的效果。
個(gè)性化信息檢索中,基于語言模型的檢索模型常被用來檢驗(yàn)融入用戶興趣后檢索性能的變化[15,17]。這里也借助這一經(jīng)典的檢索框架,探索用戶的長短期興趣及二者結(jié)合對(duì)個(gè)性化檢索性能的影響。
3.1 模型框架
信息檢索系統(tǒng)根據(jù)已知查詢和文檔集合中的文檔內(nèi)容的相似度來計(jì)算查詢和文檔的相關(guān)性。在語言模型的框架下,Kullback-Leibler (KL)距離常被用于衡量查詢和文檔的相關(guān)度[24],如式(1)所示。
(1)
式(1)中ω表示一個(gè)詞,V代表了整個(gè)詞表,q表示當(dāng)前查詢,θq代表當(dāng)前查詢對(duì)應(yīng)的查詢意圖語言模型,d表示一篇文檔,θd代表了文檔d所對(duì)應(yīng)的文檔語言模型;D(θq||θd)衡量了查詢模型和文檔模型兩種模型的相似度。
根據(jù)KL距離模型,檢索問題實(shí)際上等價(jià)于分別估計(jì)查詢語言模型θq和文檔語言模型θd,并以兩個(gè)模型之間的KL距離衡量查詢和文檔的相關(guān)度。
準(zhǔn)確估計(jì)查詢意圖模型θq是個(gè)性化信息檢索的關(guān)鍵??紤]到用戶提交的查詢難以足夠清晰表達(dá)查詢意圖,而用戶歷史包含用戶個(gè)人的興趣信息,它有利于當(dāng)前查詢意圖的準(zhǔn)確理解。因此,我們對(duì)用戶查詢意圖建模時(shí)考慮了用戶提交的查詢和用戶的歷史興趣,見式(2)。
(2)
式(2)中,ω表示一個(gè)詞,θq表示根據(jù)用戶提交的查詢而估計(jì)的查詢語言模型,θhistory表示根據(jù)用戶歷史而估計(jì)的歷史興趣模型。
用戶歷史興趣由長期興趣和短期興趣兩部分組成,見式(3)。用戶長期興趣代表持續(xù)一段時(shí)間的興趣,用戶短期興趣代表瞬間興趣。
(3)
式(3)中,θshort表示根據(jù)短期點(diǎn)擊歷史的網(wǎng)頁內(nèi)容而估計(jì)的短期興趣模型,p(ω|θshort)表示詞ω在短期興趣模型中的權(quán)重,θlong表示根據(jù)用戶的長期點(diǎn)擊文檔而估計(jì)出來的長期興趣模型,p(ω|θlong)表示詞ω在長期興趣模型中的權(quán)重。
將式(3)代入式(2)。于是,含有用戶長短期興趣的查詢意圖模型p(ω|θq)由用戶提交的查詢模型、用戶短期興趣模型、用戶長期興趣模型組成。也就是說,查詢意圖模型p(ω|θq)可改寫為式(4)。
(4)
式(4)中,a,?,γ分別表示用戶提交的查詢模型、用戶短期興趣模型、用戶長期興趣模型的重要性,它們的和為1。
這里,用戶長短期興趣采用一種直觀的線性組合方式進(jìn)行結(jié)合,方便考量短期興趣模型、長期興趣模型以及二者結(jié)合對(duì)個(gè)性化信息檢索性能的影響。
3.2 長期興趣模型
長期興趣來自于用戶的長期歷史。長期歷史從第一個(gè)歷史查詢開始累積。如果當(dāng)前查詢Qk是第k個(gè)查詢,那么長期歷史Hk指從第一個(gè)到當(dāng)前查詢之前的歷史總和。中間某一次查詢和點(diǎn)擊分別表示為qi和Ci(1≤i≤k-1)。我們?yōu)槊總€(gè)用戶建立興趣模型,選擇了基于長期興趣建模的有代表性的方法做基線模型。按照文獻(xiàn)[15]介紹的方法,對(duì)長期歷史中的每次查詢建立一個(gè)歷史興趣模型單元θi,每個(gè)歷史興趣單元有對(duì)應(yīng)的權(quán)重λi。以當(dāng)前查詢Qk返回結(jié)果中前20篇文檔代替當(dāng)前查詢,計(jì)算與各個(gè)歷史興趣模型θi的Cosine相似度作為該歷史興趣模型的權(quán)值λi。用戶的長期興趣模型由每個(gè)歷史興趣模型單元按照各自權(quán)重加和而成。如式(5)所示。
(5)
3.3 用戶短期興趣模型
用戶提交了一個(gè)查詢,檢索系統(tǒng)返回了檢索結(jié)果,用戶查看了部分網(wǎng)頁之后發(fā)現(xiàn)返回結(jié)果沒有滿足自己的信息需求,于是再次向檢索系統(tǒng)提交了一個(gè)查詢,如此往復(fù),直到用戶的查詢需求得到滿足。該用戶在短時(shí)間內(nèi)提交的查詢和做出的點(diǎn)擊就構(gòu)成了用戶的短期歷史。如果當(dāng)前查詢是用戶短期歷史中的第k個(gè)查詢Qk,那么短期歷史查詢指當(dāng)前查詢之前的查詢Qi(1≤i≤k-1),短期歷史查詢所對(duì)應(yīng)的點(diǎn)擊Ci(1≤i≤k-1)則構(gòu)成短期歷史點(diǎn)擊。用戶短期興趣模型p(ω|θshort)根據(jù)短期歷史點(diǎn)擊用語言模型進(jìn)行估計(jì)。文獻(xiàn)[23]給出了基于短期興趣建模方法,如式(6)所示。
(6)
其中|Ci|表示某次歷史點(diǎn)擊的網(wǎng)頁內(nèi)容的長度,用詞數(shù)表示,tf(ω,Ci)表示詞ω在某次歷史點(diǎn)擊文檔Ci中出現(xiàn)的次數(shù)。
3.4 參數(shù)調(diào)整
個(gè)性化檢索中涉及很多參數(shù),例如,當(dāng)前查詢模型和用戶歷史興趣模型的權(quán)重、偽相關(guān)反饋選取文檔數(shù)目、每個(gè)模型用多少個(gè)詞表示等等,這些參數(shù)對(duì)于最終的個(gè)性化信息檢索結(jié)果都有影響。為了確定查詢意圖模型中原始查詢模型權(quán)重和用戶歷史興趣模型的權(quán)重值,按照文獻(xiàn)[25]介紹的方法: 以0.1為步長在區(qū)間0到1之間進(jìn)行線性搜索: 參數(shù)а,?,γ∈{0.1,0.2,…,0.9},并且滿足а+?+γ= 1。使訓(xùn)練集合的檢索結(jié)果的MAP值達(dá)到最大的權(quán)重組合設(shè)定為模型測(cè)試時(shí)的參數(shù)。同樣,我們也對(duì)偽反饋的文檔數(shù)和詞數(shù)量進(jìn)行了專門的訓(xùn)練。偽反饋中的文檔數(shù)變化范圍為{5,10,15…50},詞的數(shù)量的變化范圍設(shè)定為{10,20…100}。
4.1 實(shí)驗(yàn)數(shù)據(jù)和評(píng)價(jià)指標(biāo)
實(shí)驗(yàn)數(shù)據(jù)來自2007年3月31天的中文搜索日志*http: //www.sogou.com/labs/resources.html不存在的網(wǎng)頁和空網(wǎng)頁被過濾掉了。搜索日志中記錄了用戶的查詢和瀏覽信息,包括日期和時(shí)間、用戶ID、查詢、用戶點(diǎn)擊過的URL,點(diǎn)擊的URL在返回結(jié)果中的排序,用戶點(diǎn)擊次序。我們下載了日志記錄中所有用戶點(diǎn)擊過的網(wǎng)頁*http: //trec.nist.gov/,構(gòu)成了帶檢索文檔集合。
已知用戶的ID號(hào)、日期和時(shí)間可以得到該用戶一個(gè)月內(nèi)的查詢歷史和點(diǎn)擊歷史。根據(jù)點(diǎn)擊歷史將原始網(wǎng)頁下載并搜集整理,得到該用戶的點(diǎn)擊數(shù)據(jù)。這些數(shù)據(jù)組成候選實(shí)驗(yàn)數(shù)據(jù)。
候選實(shí)驗(yàn)數(shù)據(jù)按照如下標(biāo)準(zhǔn)進(jìn)行篩選。
(1) 為保證測(cè)試查詢有長期點(diǎn)擊歷史,測(cè)試查詢必須由頻繁進(jìn)行檢索的用戶所提交。頻繁檢索用戶指在一個(gè)月之中至少進(jìn)行30次檢索的用戶。以每個(gè)用戶的最后一個(gè)查詢作為測(cè)試查詢;
(2) 為保證測(cè)試查詢確實(shí)存在相關(guān)文檔,用戶至少點(diǎn)擊過1篇文檔,并且該文檔確實(shí)存在于待檢索文檔集合中;
(3) 為了保證測(cè)試查詢存在個(gè)性化潛力,測(cè)試查詢必須被多個(gè)用戶提交過,并且不同用戶有不同點(diǎn)擊。
經(jīng)過這樣的篩選,我們的測(cè)試查詢有比較充分的歷史信息,針對(duì)不同的用戶需要檢索模型提供不同的檢索結(jié)果。最終獲得了180個(gè)測(cè)試查詢,平均每條查詢有51.67個(gè)長期點(diǎn)擊歷史。
測(cè)試查詢確定之后,測(cè)試查詢之前提交的所有查詢構(gòu)成長期查詢歷史,對(duì)應(yīng)的點(diǎn)擊構(gòu)成了長期歷史點(diǎn)擊。而對(duì)于短期歷史,我們采用了實(shí)踐中的一種常用方法,即將與目標(biāo)查詢最近的n次查詢歷史近似看作短期歷史,并在實(shí)驗(yàn)中對(duì)n的范圍進(jìn)行了初步探討。實(shí)驗(yàn)數(shù)據(jù)統(tǒng)計(jì)信息見表1。
表1 實(shí)驗(yàn)數(shù)據(jù)描述
我們以搜索日志中的用戶的真實(shí)點(diǎn)擊為查詢的答案,即相關(guān)文檔。實(shí)驗(yàn)條件所限沒有對(duì)文檔的相關(guān)等級(jí)進(jìn)行人工標(biāo)注,因而不適合采用如NDCG等更加復(fù)雜的評(píng)價(jià)指標(biāo)。我們以MAP(Mean Average Precision)為個(gè)性化檢索模型的評(píng)判標(biāo)準(zhǔn),這是一種非插值的平均準(zhǔn)確率計(jì)算方法,可以從整體上衡量檢索結(jié)果的精確程度。它也是文本檢索會(huì)議評(píng)測(cè)中一直使用的評(píng)價(jià)指標(biāo)之一。
4.2 實(shí)驗(yàn)結(jié)果及分析
實(shí)驗(yàn)中我們把只考慮原始查詢的模型記作Query,把結(jié)合了短期興趣的查詢模型記為Query+short;把結(jié)合了長期興趣的查詢模型記為Query+long;把同時(shí)結(jié)合了長短期興趣的查詢模型記為Query+combine。我們比較上述幾個(gè)查詢模型的檢索結(jié)果。
我們采用三重交叉驗(yàn)證方法驗(yàn)證本文中提出的方法。全部數(shù)據(jù)隨機(jī)分成三份。每一次,2/3的數(shù)據(jù)用于訓(xùn)練模型中的參數(shù),1/3的數(shù)據(jù)用于測(cè)試模型的檢索性能,每次訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)不重合。這樣一共進(jìn)行三次。三次測(cè)試結(jié)果合并組成了最終的測(cè)試結(jié)果。
我們以引入了長期興趣的個(gè)性化檢索模型Query+long為基線模型,與結(jié)合了長短期興趣的個(gè)性化檢索模型Query+combine進(jìn)行對(duì)比。在上述實(shí)驗(yàn)數(shù)據(jù)上比較長短期興趣結(jié)合前后檢索性能的變化。實(shí)驗(yàn)結(jié)果如表2所示(t檢驗(yàn)表明新模型與基線模型的差異是顯著的,p值為0.004)。
實(shí)驗(yàn)結(jié)果顯示,只考慮用戶提交的查詢時(shí)檢索結(jié)果的MAP值為0.1402,用戶長期興趣或者短期興趣提高了檢索結(jié)果的質(zhì)量,相對(duì)于原始查詢的檢索結(jié)果,MAP分別提升了7.20%和8.06%;在長期興趣的基礎(chǔ)上比較結(jié)合短期興趣前后的檢索性能的變化,發(fā)現(xiàn)Query+combine模型MAP值相對(duì)升高了9.65%。可見,用戶興趣有利于準(zhǔn)確理解當(dāng)前的查詢意圖,當(dāng)把長短期興趣結(jié)合的時(shí)候檢索質(zhì)量最高。
表2 個(gè)性化檢索結(jié)果對(duì)比
短期歷史在這里近似定義為與測(cè)試查詢時(shí)間距離最近的n(1≤n≤5)次查詢及其對(duì)應(yīng)的點(diǎn)擊。n的取值不同,短期歷史信息的數(shù)量就不同。上述實(shí)驗(yàn)中選取了與測(cè)試查詢最近的兩次查詢作為短期歷史。為了研究短期歷史的長度對(duì)于最終檢索性能的影響,我們對(duì)n取不同的值,重新計(jì)算短期興趣,同樣采用三重交叉檢驗(yàn),實(shí)驗(yàn)結(jié)果如表3所示。
表3 不同短期歷史對(duì)原始查詢檢索模型的影響
實(shí)驗(yàn)結(jié)果顯示,當(dāng)n從1到5之間變化時(shí),查詢結(jié)合短期興趣Query+short檢索性能均超過原始查詢的檢索性能(原始查詢的檢索結(jié)果的MAP為0.1402),而將長短期興趣結(jié)合Query+combine檢索性能進(jìn)一步得到提升。當(dāng)n取值為2時(shí),查詢結(jié)合短期興趣Query+short檢索性能提升最大,查詢結(jié)合長短期興趣Query+combine檢索性能也提升最大。當(dāng)n取值大于2的時(shí)候,查詢結(jié)合短期興趣Query+short、以及查詢結(jié)合長短期興趣Query+combine檢索性能的提升幅度變小??梢?,用戶長短期興趣結(jié)合要比使用一種興趣模型產(chǎn)生更準(zhǔn)確的檢索結(jié)果。在長期興趣和短期興趣結(jié)合的時(shí)候,并不是短期歷史查詢的數(shù)量越多檢索效果越好。
值得一提的是,通過訓(xùn)練我們發(fā)現(xiàn)偽反饋通常取返回結(jié)果的前30至40篇文檔,從偽反饋提取30至50個(gè)詞左右,原始查詢的權(quán)重一般在0.7或者0.8,可見在整個(gè)查詢模型當(dāng)中原始查詢占據(jù)著最重要的作用,用戶興趣對(duì)于當(dāng)前查詢起到輔助和補(bǔ)充作用。
個(gè)性化檢索根據(jù)用戶歷史興趣模型調(diào)整文檔排序而提供更加精準(zhǔn)的檢索結(jié)果。本文探討了如何更加準(zhǔn)確地構(gòu)建用戶歷史興趣模型來提升搜索用戶的個(gè)性化檢索體驗(yàn)。與現(xiàn)有方法不同,我們將用戶長期興趣模型、短期興趣模型和查詢模型線性組合形成新的查詢模型。實(shí)驗(yàn)數(shù)據(jù)表明,將長期興趣和短期興趣結(jié)合可以提升個(gè)性化檢索結(jié)果的質(zhì)量。
[1] Spink,B J Jansen,D Wolfram,T Saracevic.From E-sex to E-commerce: Web Search Changes. IEEE Comput. 2002,35(3): 107-109.
[2] Jaime Teevan,Susan T Dumais,Daniel J Liebling. To personalize or not to personalize: modeling queries with variation in user intent[C]//Proceedings of the 31st annual international ACM SIGIR conference on Research and development in information retrieval.2008: 163-170.
[3] Ryen W White,Steven M Drucker. Investigating behavioral variability in web search[C]//Proceedings of the 16th international conference on World Wide Web. 2007: 21-30.
[4] Pitkow J,Schütze H,Cass T,et al[J].Communications of the ACM. ACM,New York,NY,45(9): 50-55.
[5] Biao Xiang,Daxin Jiang,Jian Pei,et al.Context-aware ranking in web search[C]//Proceedings of the 33rd International ACM SIGIR Conference on Research and Development in Information Retrieval. ACM,New York,NY,2010: 451-458.
[6] 周博,岑榮偉,劉奕群,張敏等. 一種基于文檔相似度的檢索結(jié)果重排序方法在線全文. 中文信息學(xué)報(bào),2010,24(3): 19-26.
[7] 蔣在帆,王斌. 基于用戶行為分析的個(gè)人信息檢索研究. 中文信息學(xué)報(bào),2010,24(3): 9-12.
[8] David Sontag,Kevyn Collins-Thompson,Paul N. Bennett,et al.Probabilistic models for personalizing web search[C]//Proceedings of the fifth ACM international conference on Web search and data mining,2012: 433-442.
[9] Carsten Eickhoff,Kevyn Collins-Thompson,Paul N Bennett,et al. Personalizing atypical web search sessions[C]//Proceedings of the sixth ACM international conference on Web search and data mining. 2013: 285-294.
[10] Paul N Bennett,Ryen W White,Wei Chu,et al. Modeling the impact of short-and long-term behavior on search personalization[C]//Proceedings of the 35th international ACM SIGIR conference on Research and development in information retrieval,2012: 185-194.
[11] Matthew Richardson. Learning about the world through long-term query logs.Transactions on the Web(TWEB),2008,2(4): Article.
[12] Billsus D,Pazzani M. A hybrid user model for news story classification[C]//Proceedings of 7th International Conference on User Modeling. 1999: 99-108.
[13] Gui-rong Xue,Jie Han,Yong Yu. User Language Model for Collaborative Personalized Search. ACM Transactions on Information Systems,Vol. 27,No. 2,Article 11. 2009,27(2): Articlell.
[14] K Sugiyama,K Hatano,M Yoshikawa. Adaptive web search based on user profile constructed without any effort from users[C]//Proceedings of the 13th international conference on World Wide Web,2004: 675-684.
[15] Bin Tan,Xuehua Shen,ChengXiang Zhai. Mining long-term search history to improve search accuracy[J]//Proceedings of the 12th ACM SIGKDD international conference on Knowledge discovery and data mining,2006: 718-723.
[16] 宋巍,張宇,劉挺,等. 基于檢索歷史上下文的個(gè)性化查詢重構(gòu)技術(shù)研究.中文信息學(xué)報(bào),2010,24(3): 55-61.[17] Nicolaas Matthijs,Filip Radlinski. Personalizing web search using long-term browsing history[C]//Proceedings of the fourth ACM international conference on Web search and data mining,2011: 25-34.
[18] Rosie Jones,Benjamin Rey,OmidMadani,et al. Generating query substitutions[C]//Proceedings of the 15th international conference on World Wide Web,2006: 387-396.
[19] Smitha Sriram,Xuehua Shen,Chengxiang Zhai. A Session-based Search Engine[C]//Proceedings of the 27th annual international ACM SIGIR conference on Research and development in information retrieval. 2004.
[20〗 Xuehua Shen,Bin Tan,ChengXiang Zhai. Context-sensitive information retrieval using implicit feedback. In Proceedings of the 28th annual international ACM SIGIR conference on Research and development in information retrieval,2005: 43-50.
[21] Huanhuan Cao,Daxin Jiang,Jian Pei,et al.Towards context-aware search by learning a very large variable length Hidden Markov Model from search logs[C]//Proceedings of the 18th International Conference on World Wide Web. 2009: 191-200.
[22] Zhicheng Dou,Ruihua Song,JiRong Wen. A large-scale evaluation and analysis of personalized search strategies[C]//Proceedings of the 16th international conference on World Wide Web,2007: 581-590.
[23] Thorsten Joachims. Optimizing search engines using clickthrough data[C]//Proceedings of the eighth ACM SIGKDD international conference on Knowledge discovery and data mining,2002: 133-142.
[24] Chengxiang Zhai,John Lafferty.Language modeling for information retrieval[C]//Proceedings of the tenth international conference on Information and knowledge management,2003: 403-410.
[25] Jianfeng Gao,Haoliang Qi,Xinsong Xia,et al. Linear discriminant model for information retrieval[C]//Proceedings of the 28th annual international ACM SIGIR conference on Research and development in information retrieval. 2005: 290-297.
Personalized Search by Combining Long-term and Short-term User Interests
WANG Xiaochun,LI Sheng,YANG Muyun,ZHAO Tiejun
(School of Computer Science and Technology,Harbin Institute of Technology,Harbin,Heilongjiang 150001,China)
Personalized information retrieval tailors the ranking of documents by taking into account individual interests,which has long been recognized as promising in improving the search experience. In order to improve personalized retrieval performance,this paper presents a general method of combining long-term and short-term interest to improve the query model. Tested on a large-scale real search log of a commercial search engine,our method can capture the individual information needs more accurately and significantly outperforms the state-of-the-art method.
personalized information retrieval;long-term interests;short-term interests
王曉春(1982—),博士研究生,主要研究領(lǐng)域?yàn)樾畔z索。E?mail:xcwang@mtlab.hit.edu.cn李生(1943—),教授,博士生導(dǎo)師,主要研究領(lǐng)域?yàn)樾畔z索、機(jī)器翻譯。E?mail:lisheng@hit.edu.cn楊沐昀(1971—),副教授,碩士導(dǎo)師,主要研究領(lǐng)域?yàn)樾畔z索、機(jī)器翻譯。E?mail:ymy@mtlab.hit.edu.cn
2014-09-11 定稿日期: 2015-05-28
國家自然科學(xué)基金(61105072 & 61272384);國家863計(jì)劃項(xiàng)目(2011AA01A207)
1003-0077(2016)03-0172-06
TP391
A