徐 博,林鴻飛,林 原,王 健
(大連理工大學(xué),遼寧 大連 116024)
?
一種基于排序?qū)W習(xí)方法的查詢擴(kuò)展技術(shù)
徐 博,林鴻飛,林 原,王 健
(大連理工大學(xué),遼寧 大連 116024)
查詢擴(kuò)展作為一門重要的信息檢索技術(shù),是以用戶查詢?yōu)榛A(chǔ),通過一定策略在原始查詢中加入一些相關(guān)的擴(kuò)展詞,從而使得查詢能夠更加準(zhǔn)確地描述用戶信息需求。排序?qū)W習(xí)方法利用機(jī)器學(xué)習(xí)的知識(shí)構(gòu)造排序模型對(duì)數(shù)據(jù)進(jìn)行排序,是當(dāng)前機(jī)器學(xué)習(xí)與信息檢索交叉領(lǐng)域的研究熱點(diǎn)。該文嘗試?yán)脗蜗嚓P(guān)反饋技術(shù),在查詢擴(kuò)展中引入排序?qū)W習(xí)算法,從文檔集合中提取與擴(kuò)展詞相關(guān)的特征,訓(xùn)練針對(duì)于擴(kuò)展詞的排序模型,并利用排序模型對(duì)新查詢的擴(kuò)展詞集合進(jìn)行重新排序,將排序后的擴(kuò)展詞根據(jù)排序得分賦予相應(yīng)的權(quán)重,加入到原始查詢中進(jìn)行二次檢索,從而提高信息檢索的準(zhǔn)確率。在TREC數(shù)據(jù)集合上的實(shí)驗(yàn)結(jié)果表明,引入排序?qū)W習(xí)算法有助于提高偽相關(guān)反饋的檢索性能。
信息檢索;查詢擴(kuò)展;偽相關(guān)反饋;排序?qū)W習(xí)
查詢擴(kuò)展是一門重要的信息檢索技術(shù),它能夠利用自然語(yǔ)言處理等多種方法對(duì)用戶提交的查詢進(jìn)行分析和完善,進(jìn)而提升信息檢索的性能。偽相關(guān)反饋技術(shù)是當(dāng)前較為熱門的一種查詢擴(kuò)展方法,它假設(shè)用戶提交查詢進(jìn)行初次檢索后得到的前N篇文檔與原始查詢是相關(guān)的,而在這些文檔中出現(xiàn)頻率較高的詞與原始查詢也更為相關(guān),因此可以從中提取一些高頻詞來(lái)對(duì)原始查詢進(jìn)行補(bǔ)充,從而更加準(zhǔn)確地理解用戶的信息需求。目前許多基于偽相關(guān)反饋的研究都關(guān)注于擴(kuò)展詞的選擇,基于SVM的分類方法被用來(lái)對(duì)擴(kuò)展詞的好與壞進(jìn)行區(qū)分[1],進(jìn)而選擇更加有用的擴(kuò)展詞來(lái)提升查詢擴(kuò)展的性能;在冗長(zhǎng)查詢中引入回歸方法對(duì)查詢?cè)~進(jìn)行加權(quán)[2],從而提高查詢中關(guān)鍵詞的權(quán)重,更為清晰地描述查詢意圖;利用改進(jìn)的馬爾科夫隨機(jī)域模型對(duì)查詢?cè)~賦予權(quán)重[3],結(jié)合詞與詞之間的語(yǔ)言和統(tǒng)計(jì)特征對(duì)查詢?cè)~進(jìn)行排序[4]等。這些研究表明,偽相關(guān)反饋?zhàn)鳛橐环N局部上下文分析的查詢擴(kuò)展技術(shù)相比于傳統(tǒng)的全局分析方法具有更好的檢索性能,但如何對(duì)查詢擴(kuò)展詞賦予權(quán)重關(guān)系到檢索性能能否被進(jìn)一步提升。排序?qū)W習(xí)[5]是機(jī)器學(xué)習(xí)與信息檢索相結(jié)合的研究領(lǐng)域。排序作為信息檢索中的核心問題一直以來(lái)備受研究者的關(guān)注,而排序?qū)W習(xí)是借鑒機(jī)器學(xué)習(xí)的方法,通過訓(xùn)練集訓(xùn)練排序模型,并將訓(xùn)練好的模型應(yīng)用于測(cè)試集的排序任務(wù)中,從而提高排序的準(zhǔn)確率和召回率[6]。從廣義上講,很多問題實(shí)際上都可以歸結(jié)為排序問題,比如文本檢索、問答系統(tǒng)、文檔摘要、推薦系統(tǒng)等。近年來(lái)許多經(jīng)典的排序?qū)W習(xí)算法被相繼提出,并被證明能夠很大程度上提升檢索性能,如RankBoost[7],RankSVM[8-9]等。當(dāng)前,一些研究致力于在查詢擴(kuò)展中引入排序方法,比如在查詢?nèi)罩局型诰虿樵兺扑],并對(duì)推薦的查詢進(jìn)行排序[10];基于查詢會(huì)話發(fā)現(xiàn)替代查詢,并對(duì)替代查詢進(jìn)行排序[11]等,但很少有研究關(guān)注于利用排序方法對(duì)偽相關(guān)反饋技術(shù)進(jìn)行改進(jìn)。
本文提出了一種基于排序?qū)W習(xí)方法的查詢擴(kuò)展技術(shù),該方法利用排序?qū)W習(xí)對(duì)擴(kuò)展詞進(jìn)行排序,從而為擴(kuò)展詞賦予更加合適的權(quán)重,在選取擴(kuò)展詞的過程中,排序?qū)W習(xí)方法綜合考慮了擴(kuò)展詞的多種統(tǒng)計(jì)特征,更好地完成了查詢重構(gòu)。與文獻(xiàn)[12]利用外部資源挖掘擴(kuò)展詞不同,本文利用偽相關(guān)反饋文檔提取擴(kuò)展詞,并關(guān)注于偽相關(guān)反饋方法性能的提升,而在實(shí)際應(yīng)用中利用偽相關(guān)反饋技術(shù)雖然能夠得到理想的擴(kuò)展詞,但是僅利用偽相關(guān)反饋方法的打分為擴(kuò)展詞賦的權(quán)重并不能準(zhǔn)確地描述擴(kuò)展詞與查詢?cè)~的相關(guān)程度,于是我們?cè)跀U(kuò)展詞的選擇中引入排序?qū)W習(xí)方法,相比于只應(yīng)用單一特征賦予擴(kuò)展詞權(quán)重的傳統(tǒng)偽相關(guān)反饋技術(shù),排序?qū)W習(xí)方法可以在查詢擴(kuò)展中考慮到更多擴(kuò)展詞的相關(guān)性信息,因而能夠更加充分的描述擴(kuò)展詞與原始查詢的相關(guān)性,從而改善原始偽相關(guān)反饋擴(kuò)展詞加權(quán)不夠精準(zhǔn)的問題,更好地勝任查詢擴(kuò)展任務(wù),提高信息檢索的性能。
2.1 基于偽相關(guān)反饋的查詢擴(kuò)展詞選擇
在介紹如何將排序?qū)W習(xí)方法引入查詢擴(kuò)展之前,我們先簡(jiǎn)要介紹一下利用偽相關(guān)反饋方法從反饋文檔中提取擴(kuò)展詞的方法。這里的反饋文檔是指對(duì)查詢進(jìn)行初次檢索后得到的前N篇文檔。我們采用語(yǔ)言模型進(jìn)行初次檢索,利用查詢擴(kuò)展中的相關(guān)模型[13],來(lái)提取所需的擴(kuò)展詞。相關(guān)模型(Relevance Model)是一種重要的基于語(yǔ)言模型的查詢擴(kuò)展技術(shù)。在擴(kuò)展詞權(quán)重的賦予中,相關(guān)模型分別建立了查詢語(yǔ)言模型和文檔語(yǔ)言模型,并通過二者的結(jié)合來(lái)對(duì)反饋文檔中的詞的重要性進(jìn)行衡量,進(jìn)而選出相關(guān)性得分最高的擴(kuò)展詞,用于查詢擴(kuò)展。
表1 擴(kuò)展詞特征的定義
2.2 擴(kuò)展詞的相關(guān)性標(biāo)注
在利用相關(guān)模型得到擴(kuò)展詞集合后,我們需要對(duì)擴(kuò)展詞的相關(guān)性進(jìn)行標(biāo)注。標(biāo)注的目的是為了利用排序?qū)W習(xí)方法訓(xùn)練基于擴(kuò)展詞的排序模型,進(jìn)而對(duì)擴(kuò)展詞進(jìn)行重新排序。擴(kuò)展詞的相關(guān)程度可以通過擴(kuò)展詞對(duì)檢索性能的影響來(lái)衡量,本文在詞的相關(guān)性標(biāo)注中,首先將擴(kuò)展詞加入到原始查詢中進(jìn)行檢索,然后將檢索結(jié)果與原始查詢結(jié)果進(jìn)行比較,來(lái)確定擴(kuò)展詞是否有助于提升檢索性能,進(jìn)而標(biāo)注擴(kuò)展詞的相關(guān)性,具體如公式(1)所示。
(1)
本文選擇平均準(zhǔn)確率(MAP)對(duì)檢索結(jié)果進(jìn)行評(píng)價(jià)。從公式(1)可以看出,當(dāng)把擴(kuò)展詞加入到原始查詢中進(jìn)行檢索時(shí),若平均準(zhǔn)確率相比于原始查詢的平均準(zhǔn)確率有所提升,則認(rèn)為該查詢?cè)~為相關(guān)擴(kuò)展詞并標(biāo)注為1,否則將該擴(kuò)展詞標(biāo)注為0。
2.3 擴(kuò)展詞特征選取
為了訓(xùn)練針對(duì)于擴(kuò)展詞的排序模型,我們還需要進(jìn)一步將擴(kuò)展詞表示成詞特征向量的形式,即通過不同的特征來(lái)建模擴(kuò)展詞與原始查詢的相關(guān)性,進(jìn)而表征不同的詞與原始查詢的相關(guān)程度,以及不同的擴(kuò)展詞之間的差異程度。本文定義了若干不同的詞特征,它們不僅包含了信息檢索領(lǐng)域傳統(tǒng)的統(tǒng)計(jì)信息,比如擴(kuò)展詞在數(shù)據(jù)集合中出現(xiàn)的詞頻,文檔頻率等,而且為了能夠更加充分地描述擴(kuò)展詞的相關(guān)程度,我們也在特征選取中采用了擴(kuò)展詞的共現(xiàn)信息作為詞排序的特征,比如考慮了諸如擴(kuò)展詞與單一查詢?cè)~的共現(xiàn)次數(shù),擴(kuò)展詞與多個(gè)查詢?cè)~的共現(xiàn)次數(shù)等特征。在模型的訓(xùn)練過程中,每一個(gè)擴(kuò)展詞都被表示成了特征向量的形式。本文所定義的詞特征如表1所示。
在表1中,特征1和特征2分別利用了文檔中的詞頻和文檔頻率信息;特征3利用了擴(kuò)展詞與單一查詢?cè)~的共現(xiàn)信息;特征4利用了查詢?cè)~對(duì)和擴(kuò)展詞的共現(xiàn)信息,相比于特征3,這個(gè)特征包含了更強(qiáng)的語(yǔ)義信息,研究表明這種特征能夠體現(xiàn)擴(kuò)展詞與整個(gè)查詢?cè)谡Z(yǔ)義層面的關(guān)系;特征5從另一個(gè)角度利用了共現(xiàn)信息,它的含義是若擴(kuò)展詞與查詢?cè)~在一篇文檔中出現(xiàn)的距離越近,則說明它們的相關(guān)程度越大,即把兩個(gè)詞在整個(gè)數(shù)據(jù)集中出現(xiàn)在同一篇文檔一定距離內(nèi)的文檔的總數(shù)作為特征,在本文實(shí)驗(yàn)中,分別取5和12作為distance的大小進(jìn)行特征的提取。
本文所使用的特征都是從實(shí)驗(yàn)數(shù)據(jù)集合中提取的。實(shí)驗(yàn)數(shù)據(jù)集采用了TREC提供的Robust2004數(shù)據(jù)集。在計(jì)算特征1和特征2時(shí),我們分別對(duì)提取的特征值進(jìn)行了取對(duì)數(shù)和除以特征最大值兩種處理,得到了另外四種新的特征。而在數(shù)據(jù)集文檔中,每一篇文檔都包含了Text,Title,Dateline三個(gè)不同數(shù)據(jù)域,每個(gè)數(shù)據(jù)域?qū)τ谠~特性的描述能力是不同的,因此我們不僅基于整篇文檔進(jìn)行了詞特征的抽取,而且還基于每個(gè)不同的域也分別進(jìn)行了詞特征的提取,并把從這四個(gè)部分提取的特征分別作為不同的特征應(yīng)用于詞排序過程中,也就是說針對(duì)于每個(gè)擴(kuò)展詞我們分別提取了與上述描述對(duì)應(yīng)的總計(jì)36個(gè)不同特征。
2.4 排序?qū)W習(xí)方法
本節(jié)主要介紹三種本文使用的排序模型。它們分別是Regression, RankSVM和RankBoost。
Regression是一種傳統(tǒng)的機(jī)器學(xué)習(xí)方法也是最為直接的一種排序?qū)W習(xí)方法,它能夠直接將排序問題轉(zhuǎn)化為回歸問題進(jìn)行處理。在本文的實(shí)驗(yàn)中,回歸方法將每一個(gè)詞對(duì)應(yīng)的特征向量作為輸入,輸出該詞的相關(guān)性得分。RankSVM是一種重要的排序?qū)W習(xí)方法。該算法將支持向量機(jī)(SVM)引入到了排序問題中,不僅集成了支持向量機(jī)的一些優(yōu)良特性,而且很好地將其轉(zhuǎn)化到了排序問題中,取得了較好的排序效果。RankBoost是一種重要的排序?qū)W習(xí)算法,該算法采用機(jī)器學(xué)習(xí)領(lǐng)域的提升方法進(jìn)行預(yù)測(cè)模型的訓(xùn)練,與其他基于提升的方法類似,RankBoost是通過若干次的迭代過程完成模型訓(xùn)練的,在每一次迭代中該算法選出一個(gè)最優(yōu)的弱學(xué)習(xí)器作為本輪迭代的分類器對(duì)于所有對(duì)象進(jìn)行分類,并根據(jù)排序中待排序?qū)ο蟮臋?quán)重分布和本輪迭代的結(jié)果為該弱學(xué)習(xí)器計(jì)算權(quán)重,并更新下一輪迭代中待排序?qū)ο蟮臋?quán)重分布,最終的預(yù)測(cè)模型為迭代過程中找到的所有弱學(xué)習(xí)器的線性加權(quán)和,最后將該模型用于新對(duì)象的排序。
近年來(lái)的研究表明,這三種算法在檢索中具有較好的排序性能和較高的效率,所以本文將它們引入偽相關(guān)反饋中,對(duì)查詢擴(kuò)展過程進(jìn)行改進(jìn),即對(duì)擴(kuò)展詞集合中的擴(kuò)展詞進(jìn)行重新排序和重新加權(quán)。
2.5 基于排序?qū)W習(xí)算法的查詢擴(kuò)展流程
本節(jié)主要介紹本文如何將排序?qū)W習(xí)算法用于查詢擴(kuò)展的擴(kuò)展詞排序。圖1給出了基于排序?qū)W習(xí)方法的查詢擴(kuò)展架構(gòu)的流程。如圖所示,首先我們利用語(yǔ)言模型進(jìn)行初次檢索,選擇初次檢索的前N篇文檔作為擴(kuò)展詞的來(lái)源,接下來(lái)采用相關(guān)模型選擇一組高頻詞作為擴(kuò)展詞,然后對(duì)詞的相關(guān)性進(jìn)行標(biāo)注,并把擴(kuò)展詞表示成特征向量的形式,然后利用排序?qū)W習(xí)方法對(duì)提取的擴(kuò)展詞進(jìn)行重新排序,并根據(jù)排序模型賦予的得分對(duì)每個(gè)擴(kuò)展詞賦予不同的權(quán)重,將重新加權(quán)后的擴(kuò)展詞加入到原始查詢中形成擴(kuò)展后的新查詢,最后對(duì)擴(kuò)展后的新查詢進(jìn)行檢索。
圖1 查詢擴(kuò)展流程
3.1 實(shí)驗(yàn)數(shù)據(jù)集
本文實(shí)驗(yàn)采用了TREC的英文語(yǔ)料集合Robust2004以及相對(duì)應(yīng)的查詢文檔和相關(guān)性標(biāo)準(zhǔn)評(píng)估文檔,它是2003年TREC Robust檢索任務(wù)所使用的數(shù)據(jù)集。實(shí)驗(yàn)中,我們將全部150個(gè)的查詢分成三部分,分別為訓(xùn)練集、驗(yàn)證集和測(cè)試集,用于對(duì)排序模型的訓(xùn)練,對(duì)算法參數(shù)的選擇和對(duì)測(cè)試數(shù)據(jù)的預(yù)測(cè)。檢索時(shí),我們只使用了查詢的Title部分作為初始查詢。在索引的創(chuàng)建過程中,我們使用Porter算法分別對(duì)語(yǔ)料和查詢進(jìn)行詞干化處理,并且根據(jù)停用詞列表為數(shù)據(jù)集和查詢?nèi)ネS迷~,此外,分別為每一篇文檔的Title部分、Text部分、Dateline部分創(chuàng)建了不同域,用于針對(duì)于不同的域的統(tǒng)計(jì)特征的提取。
3.2 實(shí)驗(yàn)設(shè)計(jì)
本文采用Robust2004作為實(shí)驗(yàn)語(yǔ)料。用于比較的基準(zhǔn)方法為基于語(yǔ)言模型[14]的初次檢索和基于相關(guān)模型的偽相關(guān)反饋檢索。實(shí)驗(yàn)針對(duì)于三種排序?qū)W習(xí)方法Regression, RankSVM和 RankBoost進(jìn)行了詞排序模型的訓(xùn)練,并將訓(xùn)練后的詞排序模型用于擴(kuò)展詞的加權(quán)。
本文實(shí)驗(yàn)采用了Indri檢索系統(tǒng)作為基礎(chǔ)的檢索環(huán)境,在實(shí)驗(yàn)中,對(duì)原始語(yǔ)料建立索引,對(duì)于查詢集合中的每一個(gè)查詢,首先進(jìn)行初次檢索,在檢索得到的前N篇文檔中,利用偽相關(guān)反饋技術(shù)提取出現(xiàn)頻率較高的前k個(gè)擴(kuò)展詞作為擴(kuò)展詞集合。針對(duì)于每一個(gè)擴(kuò)展詞用前文中提到的特征提取方法,對(duì)擴(kuò)展詞進(jìn)行相關(guān)性標(biāo)注,然后將所有擴(kuò)展詞表示成特征向量的形式。之后按照8∶1∶1的比例將特征文件劃分為訓(xùn)練集、驗(yàn)證集和測(cè)試集,采用十折交叉驗(yàn)證實(shí)驗(yàn)進(jìn)行模型的訓(xùn)練,最后將訓(xùn)練完的模型用于對(duì)測(cè)試集中與同一查詢相關(guān)的擴(kuò)展詞的排序,并將重新加權(quán)后的擴(kuò)展詞列表加入到原始查詢中進(jìn)行二次檢索。其中,根據(jù)TREC比賽的最佳參數(shù),我們?cè)O(shè)置相關(guān)參數(shù):N=10,k=50。此外在將擴(kuò)展詞加入到原始查詢中時(shí),將擴(kuò)展詞集合與原始查詢的比重分別設(shè)置為0.2和0.8。
3.3 實(shí)驗(yàn)結(jié)果和分析
本文分別采用了信息檢索領(lǐng)域廣泛采用的MAP、P@k和NDCG@k 三種評(píng)價(jià)指標(biāo)對(duì)于實(shí)驗(yàn)結(jié)果進(jìn)行評(píng)價(jià)。在后文的圖和表中,QL表示直接用原始查詢進(jìn)行初次檢索時(shí)的結(jié)果,RM表示用基于相關(guān)模型的偽相關(guān)反饋進(jìn)行檢索時(shí)的結(jié)果,RankBoost,RankSVM,Regression分別表示利用這三種算法對(duì)偽相關(guān)反饋得到的擴(kuò)展詞進(jìn)行重排序后檢索的結(jié)果。表2列出了上述幾種算法進(jìn)行檢索結(jié)果評(píng)價(jià)時(shí),當(dāng)k=3,5,10時(shí)的P@k和NDCG@k評(píng)價(jià)結(jié)果以及MAP的評(píng)價(jià)結(jié)果。為了使結(jié)果對(duì)比更為清晰,我們用圖2和圖3分別對(duì)上述不同算法的實(shí)驗(yàn)結(jié)果在P@k和NDCG@k上當(dāng)k值變化時(shí)的評(píng)價(jià)指標(biāo)進(jìn)行了對(duì)比。圖中縱坐標(biāo)為評(píng)價(jià)函數(shù)的分值,橫坐標(biāo)為處于不同位置的評(píng)價(jià)指標(biāo)函數(shù)。
通過對(duì)比多種方法的實(shí)驗(yàn)結(jié)果可以看出,相比于基于語(yǔ)言模型的初次檢索,原始偽相關(guān)反饋在各種評(píng)價(jià)指標(biāo)上都有所提升;而基于排序?qū)W習(xí)的方法通過對(duì)擴(kuò)展詞的權(quán)重進(jìn)行重新計(jì)算,使得檢索性能進(jìn)一步提升。從表2可以看出,將回歸算法引入到詞排序中后的檢索性能與原始偽相關(guān)反饋的性能相似,只在P@k評(píng)價(jià)指標(biāo)上略好于后者,而在其他指標(biāo)上不如后者,也就是說將回歸算法用于擴(kuò)展詞的重新排序并不能對(duì)檢索性能產(chǎn)生較大提升;而將RankSVM算法引入到詞排序中相比于回歸方法的檢索性能有了較大提升,僅在個(gè)別評(píng)價(jià)指標(biāo)上略差于偽相關(guān)反饋,并且平均準(zhǔn)確率也獲得了一定的提升;基于RankBoost的查詢擴(kuò)展相比于原始偽相關(guān)反饋在多種評(píng)價(jià)指標(biāo)上都有了較大幅度的提升。因此我們認(rèn)為基于排序?qū)W習(xí)的查詢擴(kuò)展技術(shù)對(duì)于擴(kuò)展詞的重新排序更為準(zhǔn)確,相比于原始偽相關(guān)反饋在整體上具有更好的檢索性能,而RankBoost算法對(duì)檢索性能的提升更為顯著。
表2 檢索結(jié)果的評(píng)價(jià)比較
從圖2和圖3中我們可以看到類似的趨勢(shì)?;谠紓蜗嚓P(guān)反饋和基于回歸方法的詞排序算法,二者有較為相似的檢索性能;而將RankSVM和Regression兩種算法引入到詞排序過程的查詢擴(kuò)展在P@k和NDCG@k評(píng)價(jià)時(shí)的趨勢(shì)較為相近,而基于RankBoost的查詢擴(kuò)展在多組評(píng)價(jià)指標(biāo)上體現(xiàn)出了更大的優(yōu)勢(shì)。這一定程度上是由于Regression在排序過程中只考慮了每個(gè)擴(kuò)展詞的絕對(duì)分?jǐn)?shù),而忽略了擴(kuò)展詞之間的相關(guān)性,因此對(duì)于擴(kuò)展詞重排序的結(jié)果不太理想;而RankSVM和RankBoost二者相比,前者是基于分類的SVM算法,后者是基于提升算法,通過實(shí)驗(yàn)結(jié)果的評(píng)價(jià)指標(biāo)可以看出,基于
圖2 NDCG@k評(píng)價(jià)結(jié)果的比較
圖3 P@k評(píng)價(jià)結(jié)果的比較
提升算法的RankBoost算法在查詢擴(kuò)展的詞排序選擇階段具有更大的優(yōu)勢(shì),所以我們認(rèn)為選用了RankBoost算法對(duì)擴(kuò)展詞進(jìn)行重排序?qū)z索性能產(chǎn)生了更大的幫助。
我們之所以將排序算法引入偽相關(guān)反饋進(jìn)行查詢擴(kuò)展,是由于原始偽相關(guān)反饋對(duì)于擴(kuò)展詞權(quán)重的分配只考慮了偽相關(guān)反饋方法賦予擴(kuò)展詞的分?jǐn)?shù),而偽相關(guān)反饋在給擴(kuò)展詞加權(quán)的過程中僅僅考慮了擴(kuò)展詞的詞頻、文檔頻率等較少的特征,因而擴(kuò)展詞的權(quán)重并不是最合適的,而在引入了排序?qū)W習(xí)算法后,在對(duì)于擴(kuò)展詞的權(quán)重計(jì)算時(shí),考慮到了更多關(guān)于擴(kuò)展詞的統(tǒng)計(jì)特征,因而更好地完成了查詢的重構(gòu),取得了更高的檢索性能;而RankBoost排序?qū)W習(xí)算法采用了機(jī)器學(xué)習(xí)中的提升方法,提升方法可以在模型的訓(xùn)練過程中,根據(jù)模型對(duì)于訓(xùn)練數(shù)據(jù)的訓(xùn)練結(jié)果,不斷地構(gòu)造弱學(xué)習(xí)器對(duì)于訓(xùn)練結(jié)果進(jìn)行提升,最終得到的模型是多輪迭代后的弱學(xué)習(xí)器的集合,因此能夠更好地勝任擴(kuò)展詞排序的任務(wù)。
本文提出了一種基于排序?qū)W習(xí)方法的查詢擴(kuò)展技術(shù)。相比于傳統(tǒng)的偽相關(guān)反饋技術(shù),本文提出的方法獲得了更好的檢索性能,它首先對(duì)偽相關(guān)文檔中提取的擴(kuò)展詞進(jìn)行了相關(guān)性標(biāo)注,把擴(kuò)展詞表示成了特征向量的形式,然后利用排序?qū)W習(xí)算法對(duì)所有的擴(kuò)展詞進(jìn)行排序,并在此基礎(chǔ)上根據(jù)擴(kuò)展詞的排序得分賦予不同擴(kuò)展詞不同的權(quán)重,權(quán)重表明了擴(kuò)展詞與原始查詢的相關(guān)程度,在此基礎(chǔ)上完成了查詢的重構(gòu),既提升了偽相關(guān)反饋方法對(duì)于擴(kuò)展詞加權(quán)的精準(zhǔn)度,又進(jìn)一步提升了檢索的性能。在TREC數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明將排序?qū)W習(xí)方法引入到查詢擴(kuò)展中確實(shí)有助于擴(kuò)展詞相關(guān)性的判斷,改善偽相關(guān)反饋過程中擴(kuò)展詞權(quán)重不夠準(zhǔn)確的問題,而RankBoost算法在詞排序中更為有效,對(duì)檢索性能產(chǎn)生了較大的提升。本文提出的利用排序?qū)W習(xí)方法對(duì)于查詢擴(kuò)展進(jìn)行改進(jìn)的思路具有較好的推廣性。未來(lái)的工作可以從以下幾個(gè)方面繼續(xù)進(jìn)行,一方面可以嘗試使用其他的排序?qū)W習(xí)方法對(duì)擴(kuò)展詞排序進(jìn)行改進(jìn),另一方面可以在排序過程中,引入更為適合的統(tǒng)計(jì)特征,來(lái)表征不同查詢?cè)~的重要程度,從而進(jìn)一步提升檢索性能。
[1] G Cao, J Y Nie, S Robertson. Selecting good expansion terms for pseudo-relevance feedback[C]//Proceedings of the 31st Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, Singapore, 2008: 243-250.
[2] L Matthew, A James, C Bruce. Regression Rank: Learning to Meet the Opportunity of Descriptive Queries[C]//Proceedings of the 32th European Conference on IR Research, Toulouse, France, 2009: 90-101.
[3] L Matthew. An Improved Markov Random Field Model for Supporting Verbose Queries[C]//Proceedings of SIGIR2009, American, 2009: 476-483.
[4] C J Lee, R C Chen, S H Kao and P J Cheng. A Term Dependency-Based Approach for Query Terms Ranking[C]//Proceedings of the 18th ACM Conference on Information and Knowledge Management, Hong Kong, China, 2009: 1267-1276.
[5] T Y Liu. Learning to Rank for Information Retrieval [J]. Foundations and Trends in Information Retrieval, 2009, 3(3): 225-331.
[6] T Qin, T Y Liu, J Xu, et al. LETOR: Benchmark Collection for Research on Learning to Rank for Information Retrieval[C]//Proceedings of SIGIR 2007 Workshop on Learning to Rank for Information Retrieval (LR4IR 2007), Amsterdam, The Netherlands, 2007: 3-10.
[7] Y Freund, R D Iyer, R E Schapire, et al. An Efficient Boosting Algorithm for Combining Preferences[J]. Journal of Machine Learning Research, 2003, 4:933-969.
[8] Y Cao, J Xu, T Liu, et al. Adapting ranking SVM to document retrieval[C]//Proceedings of SIGIR2006, Seattle, WA, USA, 2006:186-193.
[9] T Joachims. Optimizing search engines using clickthrough data[C]//Proceedings of the 8th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, Edmonton, Alberta, Canada, 2002: 133-142.
[10] U Ozertem, O Chapelle, P Donmez, et al. Learning to suggest: a machine learning framework for ranking query suggestions[C]//Proceedings of SIGIR2012, Portland, OR, USA, 2012: 25-34.
[11] R Jones, B Rey, O Madani, et al. Generating query substitutions[C]//Proceedings of WWW2006, Edinburgh, Scotland, UK, 2006: 387-396.
[12] Y Lin, H Lin, S Jin, et al. Social Annotation in Query Expansion: a Machine Learning Approach[C]//Proceedings of SIGIR2011, Beijing, China, 2011: 405-414.
[13] V Lavrenko, W B Croft. Relevance based language models[C]//Proceedings of SIGIR2001. New Orleans, Louisiana, 2001: 186-193
[14] J Ponte, W Croft. A language modeling approach to information retrieval[C]//Proceedings of SIGIR1998, Melbourne, Australia, 1998: 275-281.
A Query Expansion Method Based on Learning to Rank
XU Bo, LIN Hongfei, LIN Yuan, WANG Jian
(Dalian University of Technology, Dalian, Liaoning 116024, China)
Query Expansion is an important technique for improving retrieval performance. It uses some strategies to add some relevant terms to the original query submitted by the user, which could express the user’s information need more exactly and completely. Learning to rank is a hot machine learning issue addressed in in information retrieval, seeking to automatically construct ranking models determining the relevance degrees between objects. This paper attempts to improve pseudo-relevance feedback by introducing learning to rank algorithm to re-rank expansion terms. Some term features are obtained from the original query terms and the expansion terms, learning from which we can get a new ranking list of expansion terms. Adding the expansion terms list to the original query, we can acquire more relevant documents and improve the rate of accuracy. Experimental results on the TREC dataset shows that incorporating ranking algorithms in query expansion can lead to better retrieval performance.
information retrieval; query expansion; pseudo-relevance feedback; learning to rank
徐博(1988—),博士研究生,主要研究領(lǐng)域?yàn)樗阉饕妗C(jī)器學(xué)習(xí)、排序?qū)W習(xí)。E?mail:xubo2011@mail.dlut.edu.cn林鴻飛(1962—),博士,教授,博士生導(dǎo)師,主要研究領(lǐng)域?yàn)樗阉饕?、文本挖掘、情感?jì)算和自然語(yǔ)言理解。E?mail:hflin@dlut.edu.cn林原(1983—),博士,講師,主要研究領(lǐng)域?yàn)樗阉饕?、機(jī)器學(xué)習(xí),排序?qū)W習(xí)。E?mail:zhlin@dlut.edu.cn
1003-0077(2015)03-0155-07
2013-04-08 定稿日期: 2013-07-31
國(guó)家自然科學(xué)基金(61277370、61402075);國(guó)家863高科技計(jì)劃(2006AA01Z151);遼寧省自然科學(xué)基金(201202031、2014020003)、教育部留學(xué)回國(guó)人員科研啟動(dòng)基金和高等學(xué)校博士學(xué)科點(diǎn)專項(xiàng)科研基金(20090041110002);中央高?;究蒲袠I(yè)務(wù)費(fèi)專項(xiàng)資金。
TP391
A