利用主題內(nèi)容排序的偽相關(guān)反饋*

2017-06-05 15:05:51高光來

計算機與生活 2017年5期

關(guān)鍵詞：詞項文檔排序

閆蓉，高光來

內(nèi)蒙古大學(xué) 計算機學(xué)院，呼和浩特 010021

利用主題內(nèi)容排序的偽相關(guān)反饋*

閆蓉+，高光來

內(nèi)蒙古大學(xué) 計算機學(xué)院，呼和浩特 010021

傳統(tǒng)的偽相關(guān)反饋（pseudo relevance feedback，PRF）方法，將文檔作為基本抽取單元進(jìn)行查詢擴展，抽取粒度過大造成擴展源中噪音量的增加。研究利用主題分析技術(shù)來減輕擴展源的低質(zhì)量現(xiàn)象。通過獲取隱藏在偽相關(guān)文檔集（pseudo-relevant set）各文檔內(nèi)容中的語義信息，并從中提取與用戶查詢相關(guān)的抽象主題內(nèi)容作為基本抽取單元用于查詢擴展。在NTCIR 8中文語料上，與傳統(tǒng)PRF方法和基于主題模型的PRF方法相比較，實驗結(jié)果表明該方法可以抽取出更符合用戶查詢的擴展詞。此外，結(jié)果顯示從更小的主題內(nèi)容粒度出發(fā)進(jìn)行查詢擴展，可以有效提升檢索性能。

主題模型；主題內(nèi)容；偽相關(guān)反饋

1 引言

查詢擴展（query expansion，QE）技術(shù)[1]可以有效彌補用戶查詢信息不足造成的用戶表達(dá)問題，通過在用戶初始查詢中增加與其語義相近詞項的方式，將用戶初始查詢中未充分表達(dá)的內(nèi)容展示出來。QE按照是否考慮初檢結(jié)果文檔集，分為全局和局部兩種技術(shù)。在局部QE技術(shù)中，按照是否考慮初檢結(jié)果文檔集中與用戶查詢真正相關(guān)的文檔，又可以分為相關(guān)反饋（relevance feedback，RF）和偽相關(guān)反饋（pseudo relevance feedback，PRF）兩種方法。RF方法利用與用戶查詢真相關(guān)文檔對用戶查詢進(jìn)行重構(gòu)。然而，這種方法要求用戶將初檢結(jié)果標(biāo)注為相關(guān)或不相關(guān)，這在用戶的真實檢索過程中是很難實現(xiàn)的。相反，PRF方法[2]是一種與用戶行為無關(guān)、簡單有效的自動QE方法，其簡單假設(shè)初檢（first-pass）結(jié)果集中前k個文檔與用戶初始查詢相關(guān)，構(gòu)成偽相關(guān)文檔集（pseudo-relevant set），并從中按照某種方式自動地抽取擴展詞，然后將擴展詞加入到初始查詢中，優(yōu)化初始查詢后進(jìn)行二次檢索（second-pass）。影響PRF檢索性能的直接和主要因素是偽相關(guān)文檔集中的文檔質(zhì)量。PRF方法研究中有大量的工作，都是圍繞如何提高偽相關(guān)文檔集文檔質(zhì)量的，其本質(zhì)就是如何提升擴展源質(zhì)量。目前，相關(guān)研究[3-7]主要集中在對從詞項空間（term space）[3-4]和主題空間（topic space）[5-7]中獲取的統(tǒng)計信息提出的各種相關(guān)方法。這些研究工作中，大多數(shù)的工作都致力于找到一種有效二值判別方法，其主要策略是將偽相關(guān)文檔集中的文檔，利用判別方法區(qū)分為與用戶查詢相關(guān)和不相關(guān)，然后從判別為相關(guān)的文檔中提取擴展詞來重構(gòu)用戶初始查詢，達(dá)到提高檢索性能的目的。但以上這些方法均是以文檔作為整體來判別其是否與用戶查詢相關(guān)，即將文檔作為擴展詞選取單元。顯然，片面地將文檔作為待區(qū)分單元，直接標(biāo)定為與用戶查詢相關(guān)或不相關(guān)是不合適的，不能保證擴展源質(zhì)量，增加了噪音量，導(dǎo)致“主題漂移”（topic drift）現(xiàn)象出現(xiàn)。本文認(rèn)為，將文檔作為擴展源的抽取基本單元過于簡單和粗糙，不利于擴展詞的選取。本文嘗試從更細(xì)微的粒度——文檔內(nèi)容本身出發(fā)，不再以文檔作為判別基本單元，利用主題分析技術(shù)，構(gòu)建文檔主題內(nèi)容排序框架，將在主題空間抽象表示的文檔內(nèi)容作為待區(qū)分單元，將判別為與用戶查詢相關(guān)的文檔內(nèi)容作為擴展源。

2 相關(guān)工作

PRF算法假設(shè)簡單，實現(xiàn)機制通俗，是一種有效的提高檢索系統(tǒng)整體性能的方法[3-7]。然而，傳統(tǒng)的PRF方法并不是針對所有查詢都有效，某些查詢經(jīng)過反饋處理后，檢索效果反而會很差[8-9]，這也是制約PRF方法不能在實際檢索中應(yīng)用的根本原因。為了提高PRF檢索的魯棒性，研究者們提出了很多解決方法和策略[9-12]。文獻(xiàn)[9]提出了一種帶有約束的優(yōu)化方法，用于降低反饋行為帶來的負(fù)面影響；文獻(xiàn)[10]提出利用EM算法減少PRF模型對于反饋文檔數(shù)量的敏感性；文獻(xiàn)[11]利用多種反饋模型提出一種啟發(fā)式的非監(jiān)督方法；文獻(xiàn)[12]綜合幾種偽反饋方法，研究如何既保證PRF的魯棒性，同時又兼顧整體性能有效性的方法。

但上述諸方法研究和擴展處理的對象，均是以文檔作為基本處理單元和粒度，未從更細(xì)微的文檔內(nèi)容本身考慮與用戶查詢的相關(guān)性，會直接導(dǎo)致主題偏移現(xiàn)象，影響檢索性能。

近年來，潛在主題模型[13]這種主題分析（topic analysis）技術(shù)被用于文本內(nèi)容的分析處理。文獻(xiàn)[7]嘗試通過對整個偽相關(guān)文檔集上建立與用戶查詢相關(guān)的主題模型TopicRF，抽取與用戶查詢相關(guān)的主題信息，來提高PRF的檢索性能。但其本質(zhì)上還是以文檔作為擴展源單元。

本文的研究工作也并沒有直接區(qū)分偽相關(guān)文檔集中各文檔的相關(guān)性。但與文獻(xiàn)[7]工作不同的是，本文所關(guān)注的偽相關(guān)文檔集質(zhì)量是文本本身內(nèi)容的質(zhì)量。本文認(rèn)為在偽相關(guān)文檔集中包含的若干主題中，只有部分是與用戶查詢相關(guān)聯(lián)，對反饋行為有效。在對用戶實際查詢需求不明確的情況下，在偽相關(guān)文檔集中，如何利用多樣化思想，彰顯文檔中與用戶查詢相關(guān)的那部分主題內(nèi)容來進(jìn)行擴展詞的選取，就是本文關(guān)注的核心和重點。具體實現(xiàn)可以描述為：首先對整個文檔數(shù)據(jù)集建立主題空間，然后對偽相關(guān)文檔集中每個文檔進(jìn)行主題分析，從淺層語義角度出發(fā)，充分挖掘這些文檔內(nèi)容中與用戶信息需求相關(guān)的潛在語義信息，突顯刻畫主題特性的描述詞，并從中抽取擴展詞實施偽反饋。

3 基于主題內(nèi)容排序的偽相關(guān)反饋

3.1 主題內(nèi)容排序

概率主題模型（probabilistic topic model，PTM）是一種利用貝葉斯方法，通過構(gòu)造詞項-主題-文檔三層結(jié)構(gòu)，對數(shù)據(jù)進(jìn)行抽象建模的方法。通過引入主題變量（latent topic）概念，將數(shù)據(jù)集中共同隱含的信息描述出來。本質(zhì)上，對數(shù)據(jù)集進(jìn)行主題建模其實就是構(gòu)建合適的文檔語義描述空間。假設(shè)對有M個文檔，存在V個不同詞項（keyword）的數(shù)據(jù)集進(jìn)行主題建模，每個文檔會被表示成K個主題變量的概率分布（topic distribution），記為θ∈RM×K，每一個θj,i表示第j個文檔中主題i所占比重，它是從文檔角度獲得的語義信息。同時，主題變量被表示成各詞項的概率分布（word distribution），記為Φ∈RK×V，每一個?i,m表示在主題i中生成第m個詞項的概率值，它是從數(shù)據(jù)集角度獲得的語義信息。通常，上述兩種語義信息可以認(rèn)為是數(shù)據(jù)集的特征信息，這些特征信息不僅包含豐富的語義，而且還具有很強的區(qū)分性[14]。但面對結(jié)構(gòu)復(fù)雜多樣和信息量巨大的Web信息資源時，這兩個分布獲得的過程抽象，最終結(jié)果也抽象，用戶很難理解數(shù)據(jù)集的主題分析結(jié)果。另外，常常會發(fā)生同一詞項在多個主題中出現(xiàn)的情況，各主題并不是孤立的存在，這會進(jìn)一步增加用戶理解主題結(jié)果的負(fù)擔(dān)。因此在實際應(yīng)用中，為了有效利用數(shù)據(jù)集的主題建模結(jié)果的特征區(qū)分特性，非常有必要對主題建模結(jié)果進(jìn)行排序。通常意義下，對主題建模結(jié)果的排序，即是對主題內(nèi)容的排序。一般的，主題內(nèi)容排序[15]的方式有兩種，包括主題分布中的詞項排序和主題分布排序。

Cao等人[16]研究表明，PRF選取的擴展詞數(shù)目并不是越多越好，過多的擴展詞反而會降低檢索性能；文獻(xiàn)[17]分別對8個不同的檢索系統(tǒng)，針對查詢擴展中詞項數(shù)目的選擇進(jìn)行了詳細(xì)實驗，其結(jié)果表明，針對主題對象來選擇擴展詞項將有助于提升檢索的性能。本文提出的PRF方法，目的是通過淺層語義信息來改善反饋擴展詞質(zhì)量，提高查詢效率。因此，本文對于偽相關(guān)文檔集中文檔的主題內(nèi)容排序，主要完成以下三方面工作：

（1）文檔主題分布中的詞項排序。實現(xiàn)用突顯刻畫主題特征的特征詞項來表示主題。

（2）文檔的主題分布排序。按照與用戶查詢的相關(guān)程度，將各個主題進(jìn)行排序，實現(xiàn)用有限有效主題表達(dá)文檔，使得這些主題中的特征詞項可以分別具有將主題之間相互區(qū)別和文檔之間相互區(qū)別的特性。

（3）從文檔內(nèi)容的主題表達(dá)結(jié)果中，針對判別為用戶查詢相關(guān)的內(nèi)容，抽取擴展詞項進(jìn)行二次反饋。

下面將分別對這三方面工作進(jìn)行詳細(xì)闡述。

3.2 文檔主題分布中的詞項排序

對數(shù)據(jù)集進(jìn)行主題建模得到的詞項-主題分布Φ中的各詞項，已經(jīng)按照其對所描述主題的概率值大小進(jìn)行排列，但概率排列分布與各詞項對于描述其所在特定主題語義的貢獻(xiàn)分布描述是不一致的[18]。文獻(xiàn)[15]為了使文檔的Φ分布表達(dá)更易于理解，提出類似TF-IDF（term frequency-inverse documentation frequency）方法，計算每個詞項描述特定主題的權(quán)重（weight），來重新衡量描述主題中各詞項的重要程度。文獻(xiàn)[14]提出用詞項顯著度（term significance）來定義主題與文檔中包含的各詞項分布間的距離，用于特定領(lǐng)域的主題推薦和自動文摘。盡管這些方法計算權(quán)重的角度不同，但其目的都是將每個主題描述為有限有效詞項，即將描述Φ分布中那些對主題語義描述差或貢獻(xiàn)度低的詞項過濾掉。本文沿用文獻(xiàn)[15]計算各詞項權(quán)重的方法，將描述主題含義的各個詞項，按照計算得到的詞項權(quán)重值進(jìn)行排序，并依此排序結(jié)果，過濾掉那些使得主題間語義區(qū)分度小的詞項，獲得更能描述主題的有限詞項組成的集合。各詞項權(quán)重值的計算如式（1）[15]所示：

其中，wi表示主題 j(j∈[1,K])中第i個詞項，i∈[1,V]。

本文采用標(biāo)準(zhǔn)的主題建模方式LDA（latent Dirichlet allocation）[13]對數(shù)據(jù)集建模。LDA假設(shè)主題變量服從Dirichlet分布，即主題之間是相互獨立的。但事實上，利用LDA對文本建模的結(jié)果，存在同一詞項同時出現(xiàn)在多個不同主題分布中的情況，這使得詞項信息不能很好地完成刻畫主題特征的任務(wù)，即影響主題間的差異性。本文關(guān)注的是如何利用主題信息來區(qū)分文本內(nèi)容與用戶查詢的相關(guān)性，保持詞項信息對主題內(nèi)容刻畫的互異性，也就是保證在主題數(shù)目確定的情形下，不降低LDA表示數(shù)據(jù)的能力。這里對式（1）做了適當(dāng)?shù)淖冃停缡剑?）所示：

通過上述方法，實現(xiàn)了用突顯刻畫主題特征的特征詞項來表示主題的目的，文中將有限詞項集記為keyword_set。

3.3 文檔的主題分布排序

由于主題建模過程中的“詞袋”假設(shè)，即不考慮詞項在文檔中的出現(xiàn)順序，主題間的差異僅限于各詞項對其描述的概率值大小的差異，主題之間并沒有明顯的區(qū)分特性。要從主題分析的角度，將偽相關(guān)文檔集的主題內(nèi)容區(qū)分為與用戶查詢相關(guān)或不相關(guān)，就有必要對其中的文檔主題分布進(jìn)行區(qū)分。在給定用戶查詢的情況下，按照與用戶查詢相關(guān)程度，將無序的文檔-主題分布按照其與用戶查詢的相關(guān)程度進(jìn)行排序標(biāo)定。由于主題信息已經(jīng)被表示為有限詞項集，那么用戶查詢與文檔主題分布中各主題之間的相關(guān)程度，就可以利用用戶查詢與表征主題信息的詞項集的相關(guān)程度來衡量，可以分別通過式（4）和式（5）得到：

其中，Q表示用戶查詢，記為Q={qw1,qw2,…,qwn}，由n個不同詞項qwi組成。Rel(Q,j)表示用戶查詢Q與主題 j的相關(guān)程度。給定包含有M個文檔的文檔集C，有V個不同的詞C={d1,d2,…,dM}，每個文檔di由Ni個不同的詞項構(gòu)成di={w1,w2,…,wNi}，wi表示文檔di中第i個詞。假設(shè)文檔集C存在K個主題，主題j(j∈[1,K])的描述詞集 keyword_setj={wtj1,wtj2,…,wtjl}由l個不同詞項wtji組成，i∈[1,l]，θi,j表示文檔di在主題j上的概率分布。SR(wi,wj)表示兩個詞語wi和wj之間的語義相關(guān)度[19]。Rank(di,j)表示文檔di的文檔-主題分布中主題j與用戶查詢的相關(guān)程度。本文對詞語間語義相關(guān)度計算方法SR(w1,w2)，由于篇幅關(guān)系不再贅述，詳細(xì)信息參閱文獻(xiàn)[19]。

文檔的主題分布排序算法描述如下：

算法1 Topic_distribution_ranking

輸入：（1）用戶查詢Q和文檔集C中所有文檔di的K個無序主題的描述詞集keyword_setj，j∈[1,K]；（2）文檔-主題分布θ。

輸出：所有文檔di的K個有序主題分布。

步驟1對Q進(jìn)行預(yù)處理；

步驟2利用式（4），計算Q中各詞項和每個主題j的描述詞集keyword_setj中各詞項的語義相關(guān)度；

步驟3利用式（5）計算文檔di的主題分布中各主題 j與Q之間的相關(guān)度，并按相關(guān)度大小對各主題進(jìn)行排序。

3.4 基于主題內(nèi)容排序的偽相關(guān)反饋

另外，相對于其他產(chǎn)業(yè)，體育產(chǎn)業(yè)具有較強的靈活性。結(jié)合當(dāng)?shù)厣鐣幕h(huán)境對體育產(chǎn)業(yè)進(jìn)行相應(yīng)的調(diào)整和改進(jìn)，有助于突出當(dāng)?shù)禺a(chǎn)業(yè)發(fā)展的特色。

綜上所述，基于主題內(nèi)容排序的偽相關(guān)反饋方法實現(xiàn)過程如圖1所示。

Fig.1 Procedure of PRF based on topic content ranking圖1 基于主題內(nèi)容排序的PRF過程

本文對于描述文檔di的特征主題集中各主題的抽取，采取設(shè)定閾值η的方式來進(jìn)行。若文檔di中主題 j的Rank(di,j)值超過閾值η，則認(rèn)為該主題是與用戶查詢是相關(guān)的，將該主題設(shè)定為topic_setdi集合中的元素。反之，則認(rèn)為該主題與用戶查詢是不相關(guān)的。文檔di擴展詞集expan_setdi的獲取，是通過將topic_setdi中各主題的特征詞項集keyword_setj進(jìn)行集合的合并操作完成的。特別的，在對文檔主題分布中的詞項排序過程中，本文利用式（2）通過重新計算每個詞項對其描述主題的權(quán)重大小，可以在一定程度上減少同一詞項在不同主題中出現(xiàn)的情況，或是增加同一詞項在不同主題中出現(xiàn)的特異性，即同一詞項在主題描述中的概率值差別顯著。但事實上，LDA建模的本質(zhì)及語言描述文本的特殊性，決定了不同主題的描述詞項信息一定會出現(xiàn)交集，因此在特征詞項合并過程中，當(dāng)出現(xiàn)有詞項重復(fù)的狀況時，實驗中會將該詞項在expan_setdi中僅保留一次，并設(shè)置其權(quán)重值為合并前的最大權(quán)重值。同樣，初檢集合的擴展詞集expan_set的獲取，是將排序靠前的各文檔的擴展詞集expan_setdi中的詞項進(jìn)行集合的合并操作完成的。

4 實驗與分析公式

4.1 實驗設(shè)置

（1）實驗數(shù)據(jù)集及預(yù)處理

實驗的數(shù)據(jù)集包括文本集和查詢集（均為簡體中文）兩部分。其中，文本數(shù)據(jù)集是Xinhua語料，共包含308 845個文檔，涉及多種主題2002年至2005年4年的新聞?wù)Z料，最長的文檔長度為1 824，最短的文檔長度為4。查詢集為ACLIA2-CS-0001～ACLIA2-CS-0100，共100個查詢。在檢索過程中，本文將查詢中的主題描述作為用戶查詢。利用Lemur（http:// www.lemurproject.org）工具對文本數(shù)據(jù)集建立索引和進(jìn)行查詢操作。實驗中，由于采用的是中文語料，首先對建立索引的文本數(shù)據(jù)集和查詢集都進(jìn)行了預(yù)處理，包括分詞和去停用詞。主題建模過程中，對文本數(shù)據(jù)集還進(jìn)行了去除低頻詞操作。

（2）實驗參數(shù)設(shè)置

初檢的相關(guān)度排序方法選用一元語言模型LM（language model）方法。實驗中統(tǒng)一采用Dirichlet平滑方法，設(shè)置固定平滑參數(shù)為1 000，設(shè)定初檢結(jié)果集中選取top-50個結(jié)果作為偽相關(guān)文檔集。主題建模過程中，采用吉布斯采樣（Gibbs sampling）[20]來實現(xiàn)模型估計和求解。設(shè)定每個主題返回NT=30個詞項信息，Gibbs采樣的迭代次數(shù)設(shè)定為100次。文檔di主題集topic_setdi中各特征主題的抽取實現(xiàn)中，設(shè)定閾值η為0.18，實驗效果最好。文獻(xiàn)[17]研究表明，擴展詞個數(shù)設(shè)定為10～20時，效果最佳。實驗中統(tǒng)一設(shè)定固定值 feedbackTermCount=20。

因為用戶在檢索過程中主要關(guān)注排名靠前的檢索結(jié)果，所以實驗中主要從查詢準(zhǔn)確率角度進(jìn)行評價。分別采用前n個結(jié)果的查準(zhǔn)率Precision@n和平均查準(zhǔn)率MAP（mean average precision）來衡量。

4.2 實驗結(jié)果與分析

表1列出了部分主題初始建模的部分詞項集合和重新計算詞項權(quán)重后的部分詞項集合。

從表1中可以看出，通過對詞項-主題分布中的各詞項按照其權(quán)重值進(jìn)行重新排序，不僅做到了主題內(nèi)容的進(jìn)一步壓縮和抽象，同時降低了那些對主題內(nèi)容區(qū)分能力描述弱的詞項的重要程度，使得描述主題的各詞項的重要程度差別更加明顯，從而主題間區(qū)別更加明顯。

為了實現(xiàn)用淺層語義指導(dǎo)檢索過程，本文設(shè)計并實現(xiàn)了如下實驗，并對實驗結(jié)果進(jìn)行了分析。

首先，將本文方法（OurMethod）與基本的基于主題的PRF方法（LDA）進(jìn)行比較，兩種方法Precision-Recal（l精度-召回率）對比分析結(jié)果如圖2所示。

從圖2中可以看出，本文方法好于基于主題的PRF方法檢索性能，說明對文本內(nèi)容進(jìn)行主題分析，將有助于提高檢索性能。

其次，將本文方法與未進(jìn)行主題內(nèi)容排序的基本PRF方法進(jìn)行比較，表2給出了偽相關(guān)文檔集數(shù)量為50和100時的檢索結(jié)果，其中No_Trank和Trank分別表示沒有進(jìn)行主題內(nèi)容排序的PRF方法和進(jìn)行主題內(nèi)容排序的PRF方法。

從表2的結(jié)果中可以看出，選取那些豐富的、能表達(dá)語義的主題中的詞項集信息作為擴展詞，要比直接從偽相關(guān)文檔集中選取單個的詞項信息作為擴展詞，可以進(jìn)一步地提升檢索性能，而且隨著偽相關(guān)文檔集中文檔數(shù)目的增加，MAP值增加明顯，MAP(100)比MAP(50)增加14.9%。分析其原因，在于隨著偽相關(guān)文檔集中文檔數(shù)目的增加，抽取出相關(guān)主題內(nèi)容的可能性也增加了，其中包含了更多能夠體現(xiàn)用戶查詢需求中未能體現(xiàn)的上下文語義信息。

最后，為了進(jìn)一步驗證本文方法的科學(xué)性，考察將PRF抽取基本單元由文檔轉(zhuǎn)變到文檔內(nèi)容粒度是否真實有效，設(shè)計了如下實驗。將本文方法與傳統(tǒng)的偽反饋方法——TF-IDF和BM25進(jìn)行比較，3種方法的Precision-Recal（l精度-召回率）對比分析結(jié)果如圖3所示。

Table1 Example of effective word sets in Topic 1 and Topic 4表1 Topic 1和Topic 4中部分有效詞項集合

Fig.2 Precision-Recall curve of two methods圖2 兩種方法的Precision-Recall曲線圖

Table 2 Comparison of retrieval performance表2 檢索評價指標(biāo)對比

Fig.3 Precision-Recall curve of 3 methods圖3 3種方法的Precision-Recall曲線圖

從圖3中可以看出，與兩種傳統(tǒng)PRF方法比較，本文方法可以更有效地提高檢索性能，說明了本文方法的有效性。

5 結(jié)束語

主題模型是用來抽象地表示無標(biāo)記文本的一種無監(jiān)督建模方法。為了保證PRF的魯棒性，本文提出了一種基于淺層語義的自動查詢擴展方法。實驗結(jié)果表明，這種將文檔內(nèi)容作為擴展詞抽取的方法是切實可行的。但是隨著文本數(shù)據(jù)集規(guī)模的增大，主題建模之后的主題數(shù)目會進(jìn)一步增加，通過主題學(xué)習(xí)到的特征描述知識就更為抽象，如何利用這些越來越抽象的主題特征，使其更適合描述用戶初始查詢意圖，將是進(jìn)一步工作的方向。

[1]Arguello J,Elsas J L,Callan J,et al.Document representation and query expansion models for blog recommendation [C]//Proceedings of the 2nd International Conference on Weblogs and Social Media,Seattle,USA,Mar 30-Apr 2, 2008.Menlo Park,USA:AAAI,2008:11-18.

[2]Xu Jinxi,Croft W B.Query expansion using local and global document analysis[C]//Proceedings of the 19th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval,Zurich,Switzerland,Aug 18-22,1996.New York:ACM,1996:4-11.

[3]He Ben,Ounis I.Finding good feedback documents[C]// Proceedings of the 18th ACM Conference on Information and Knowledge Management,Hong Kong,China,Nov 2-6, 2009.New York:ACM,2009:2011-2014.

[4]Parapar J,Presedo-Quindimil M A,Barreiro á.Score distributions for pseudo relevance feedback[J].Information Sciences,2014,273:171-181.

[5]Yi Xing,Allan J.Evaluating topic models for information retrieval[C]//Proceedings of the 17th ACM Conference on Information and Knowledge Management,Napa Valley, USA,Oct 26-30,2008.New York:ACM,2008:1431-1432.

[6]Huang Shu,Zhao Qiankun,Mitra P,et al.Hierarchical location and topic based query expansion[C]//Proceedings of the 23rd National Conference onArtificial Intelligence,Chicago,USA,Jul 13-17,2008.Menlo Park,USA:AAAI,2008, 2:1150-1155.

[7]Zheng Ye,Huang Xiangji,Lin Hongfei.Finding a good queryrelated topic for boosting pseudo-relevance feedback[J]. Journal of the American Society for Information Science and Technology,2011,62(4):748-760.

[8]Harman D,Buckley C.The NRRC reliable information access(RIA)workshop[C]//Proceedings of the 27th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval,Sheffield,UK,Jul 25-29,2004.New York:ACM,2004:528-529.

[9]Collins-Thompson K.Reducing the risk of query expansion via robust constrained optimization[C]//Proceedings of the 18th ACM Conference on Information and Knowledge Management,Hong Kong,China,Nov 2-6,2009.New York: ACM,2009:837-846.

[10]Tao Tao,Zhai Chenxiang.Regularized estimation of mixture models for robust pseudo-relevance feedback[C]//Proceedings of the 19th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval,Seattle,USA,Aug 6-11,2006.NewYork:ACM,2006: 162-169.

[11]Soskin N,Kurland O,Domshlak C.Navigating in the dark: modeling uncertainty in ad hoc retrieval using multiple relevance models[C]//Proceedings of the 2nd International Conference on Theory of Information Retrieval:Advances in Information Retrieval Theory,Cambridge,UK,Sep 10-12,2009. Berlin,Heidelberg:Springer,2009:79-91.

[12]Lv Yuanhua,Zhai Chengxiang,Chen Wan.A boosting approach to improving pseudo-relevance feedback[C]//Proceedings of the 2011 ACM International Conference on Research and Development in Information Retrieval,Beijing, China,Jul 24-28,2011.New York:ACM,2011:165-174.

[13]Blei D M,Ng A Y,Jordan M I.Latent Dirichlet allocation[J]. Journal of Machine Learning Research,2003,3:993-1022.

[14]Xiao Zhibo.Research on ranking topic models and their applications[D].Dalian:Dalian Maritime University,2014.

[15]Song Yangqiu,Pan Shimei,Liu Shixia,et al.Topic and keyword re-ranking for LDA-based topic modeling[C]//Proceedings of the 18th ACM Conference on Information and Knowledge Management,Hong Kong,China,Nov 2-6,2009. New York:ACM,2009:1757-1760.

[16]Cao Guihong,Nie Jianyun,Gao Jianfeng,et al.Selecting good expansion terms for pseudo-relevance feedback[C]// Proceedings of the 31st Annual International ACM SIGIR Conference on Research and Development in Information Retrieval,Singapore,Jul 20-24,2008.New York:ACM, 2008:243-250.

[17]Ogilvie P,Voorhees E,Callan J.On the number of terms used in automatic query expansion[J].Information Retrieval, 2009,12(6):666-679.

[18]Xia Yunqing,Tang Nan,Hussain A,et al.Discriminative biterm topic model for headline-based social news clustering [C]//Proceedings of the 28th International Flairs Artificial Intelligence Research Society Conference,Hollywood,USA, May 18-20,2015.Menlo Park,USA:AAAI,2015:311-316.

[19]Yan Rong,Gao Guanglai.Word sense disambiguation based on word semantic relevancy computation[J].Computer Engineering andApplications,2012,48(27):109-113.

[20]Griffiths T L,Steyvers M.Finding scientific topics[J].Proceedings of the National Academy of Sciences of the United States ofAmerica,2004,101(S1):5228-5235.

附中文參考文獻(xiàn)：

[14]肖智博.排序主題模型及其應(yīng)用研究[D].大連:大連海事大學(xué),2014.

[19]閆蓉,高光來.面向詞義消歧的詞語相關(guān)度計算[J].計算機工程與應(yīng)用,2012,48(27):109-113.

YAN Rong was born in 1979.She is a Ph.D.candidate and lecturer at College of Computer Science,Inner Mongolia University.Her research interests include natural language processing and information retrieval.

閆蓉（1979—），女，內(nèi)蒙古鄂爾多斯人，內(nèi)蒙古大學(xué)計算機學(xué)院講師、博士研究生，主要研究領(lǐng)域為自然語言處理，信息檢索。

GAO Guanglai was born in 1964.He is a professor and Ph.D.supervisor at Inner Mongolia University.His research interest is intelligent information processing.

高光來（1964—），男，內(nèi)蒙古扎賚特旗人，內(nèi)蒙古大學(xué)教授、博士生導(dǎo)師，主要研究領(lǐng)域為智能信息處理。

Using Topic Content Ranking for Pseudo Relevance Feedback*

YAN Rong+,GAO Guanglai
College of Computer Science,Inner Mongolia University,Hohhot 010021,China

+Corresponding author:E-mail:csyanr@imu.edu.cn

YAN Rong,GAO Guanglai.Using topic content ranking for pseudo relevance feedback.Journal of Frontiers of Computer Science and Technology,2017,11(5)：814-821.

Traditional pseudo relevance feedback(PRF)algorithms use the document as a unit to extract words for query expansion,which will increase the noise of expansion source due to the larger extraction unit.This paper exploits the topic analysis techniques so as to alleviate the low quality of expansion source condition.Obtain semantic information hidden in the content of each document of pseudo-relevant set,and extract the abstract topic content information according to the relevance of the user query,which is described as a basic extraction unit to be used for query expansion.Compared with the traditional PRF algorithms and the PRF based on topic model algorithm,the experimental results on NTCIR 8 dataset show that the scheme in this paper can effectively extract more appropriate expansion terms.In addition,the results also show that the scheme in this paper has a positive impact to improve the retrieval performance on a smaller topic content granularity level.

topic model;topic content;pseudo relevance feedback(PRF)

10.3778/j.issn.1673-9418.1603068

TP391.3

*The National Natural Science Foundation of China under Grant No.61263037(國家自然科學(xué)基金);the Natural Science Foundation of Inner Mongolia under Grant Nos.2014BS0604,2014MS0603(內(nèi)蒙古自然科學(xué)基金).

Received 2016-02,Accepted 2016-04.

CNKI網(wǎng)絡(luò)優(yōu)先出版:2016-04-01,http://www.cnki.net/kcms/detail/11.5602.TP.20160401.1614.014.html

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

利用主題內(nèi)容排序的偽相關(guān)反饋*

1 引言

2 相關(guān)工作

3 基于主題內(nèi)容排序的偽相關(guān)反饋

4 實驗與分析公式

5 結(jié)束語