• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      一種基于作者建模的微博檢索模型

      2014-04-14 07:50:26王斌
      中文信息學報 2014年2期
      關鍵詞:詞項文檔檢索

      李 銳,王斌

      (1.中國科學院計算技術研究所,北京100190;2.中國科學院大學,北京100190)

      1 引言

      微博客(microblogging或microblog,也稱微型博客,簡稱微博)是一種允許用戶及時更新簡短文本(通常少于140字)并可以公開發(fā)布的微型博客形式。它允許任何人閱讀,也可以由發(fā)布者指定閱讀權限閱讀[1]。近期微博網(wǎng)站的發(fā)展如火如荼,不僅國外的微博網(wǎng)站Twitter、Facebook吸引了廣泛使用和關注,國內(nèi)的各大IT門戶網(wǎng)站也紛紛推出各自的微博來搶占市場份額,比較著名的如新浪微博、騰訊微博等。據(jù)新浪和騰訊發(fā)布的最新統(tǒng)計,兩者的用戶數(shù)都已經(jīng)超過2億而逼近3億,新浪微博用戶平均每天發(fā)布的微博內(nèi)容已達7 500萬條。為了區(qū)分微博站點和用戶具體發(fā)布的每條微博消息,在本文中前者稱為微博站點,后者稱為微博記錄。

      微博的發(fā)展,給互聯(lián)網(wǎng)行業(yè)帶來了新的機遇和新的挑戰(zhàn)。它本身的信息更新快,文本較短且內(nèi)容豐富。微博爆炸式的傳播速度,給網(wǎng)民帶來便利的同時,也推給讀者很多不相關的信息。因此,微博用戶往往有從大量微博記錄中獲得相關信息的需求。由于微博中主要包括兩類對象:用戶和微博記錄,因此用戶檢索的對象也包括這兩類。本文主要關注對微博記錄的檢索,即從大量微博記錄中找出感興趣的記錄,如有關“威廉王子大婚”、“美國大選”等主題的記錄。從這個意義上說,微博檢索和傳統(tǒng)檢索非常類似。

      微博檢索與傳統(tǒng)的檢索有很大不同,微博站點的特點為微博搜索帶來了新的挑戰(zhàn):

      (1)文本短,微博記錄平均長度只有十幾個詞[2],一個很偶爾在微博記錄里出現(xiàn)的詞將被認為有很大的概率。這給微博記錄的模型估計帶來很大的問題,且微博中很多的簡稱縮寫、表情、錯字和不正規(guī)的符號也給詞的匹配帶來困難;

      (2)每個微博記錄都是有作者(發(fā)布者)的,作者都有或多或少個人信息,而如何將作者的信息合理融入檢索模型也是一個值得研究的問題;

      (3)用戶之間有關聯(lián)(關注、互粉、回復、轉發(fā)等),并形成巨大的關系網(wǎng)絡;

      (4)微博記錄里包含很多轉發(fā),回復,Hashtag話題(用#括起來的部分,如#物價上漲#,?;丶疫^年#)和網(wǎng)頁鏈接URL,甚至圖片與視頻[3-4]。

      傳統(tǒng)的web檢索模型并未考慮這些問題,未對這些文本和非文本內(nèi)容建模;本文只關注前兩點對檢索帶來的影響,主要思想是針對上述提到的微博較短的問題,使用作者模型對微博記錄進行了擴充;又從語義層面,使用作者的話題模型來對微博檢索模型做了平滑。

      本文后續(xù)內(nèi)容組織如下:第2節(jié)對相關工作進行簡單的介紹;第3節(jié)提出了一個作者模型,將微博中的作者信息應用到微博檢索中;第4節(jié)討論了如何利用這些作者信息來估計作者的模型,并將其用于排序函數(shù)中;第5節(jié)對我們的實驗平臺、步驟以及結果做了闡述和討論。最后對本文的工作做了總結,并說明了下一步工作的方向。

      2 相關工作

      微博檢索涉及到傳統(tǒng)檢索以及微博特定的技術,所以本節(jié)從兩個方面來介紹相關工作。首先,我們先簡單介紹傳統(tǒng)的檢索方法并對其在微博檢索上應用情況進行分析;其次,我們介紹微博檢索相關的一些研究工作。檢索中要使用到自然語言處理的一些預處理工作,其中中文要有切詞,英文要有詞根還原等問題。因此本文遵從文獻[5]中的說法,用詞項(處理后的詞)來代表查詢和文檔的基本單位。

      2.1 傳統(tǒng)的方法

      傳統(tǒng)的檢索方法主要有兩大方法:基于相似度的向量空間模型的方法和基于概率模型的方法。但近年來提出的語言模型,帶來了新穎的表達和建模方式,還具有靈活且易于擴展的特點,也引起了廣泛的關注和使用[6]。

      2.1.1 向量空間模型與概率模型

      向量空間模型是信息檢索中最基本的表達模型之一,認為每個詞項對應向量空間的每一維,從而將查詢和文檔都表示成向量空間中的一點。在向量空間模型的基礎上,大量工作使用查詢和文檔在空間中的相似度作為打分函數(shù)(或稱為排序函數(shù)),得到查詢和每個文檔的分數(shù)后,根據(jù)這個分數(shù)從高到低將文檔作為檢索結果返回[5-6]。

      另一個比較重要的模型是概率模型,主要思想是計算p(R=1|d,q),也就是計算給定查詢和文檔的情況下,它們相關的概率,然后再依據(jù)概率排序原理來得到最后的排序結果,詳見文獻[5-6];概率模型認為影響查詢結果的因素主要有:詞在文檔中和查詢中的頻率,詞的文檔集頻率,文檔長度。

      2.1.2 語言模型

      1)查詢似然模型

      語言模型最早由Ponte和Croft提出[7],最基本的語言模型是查詢似然模型,主要思路是認為每個文檔是一個語言模型,而查詢則是文檔模型的一個抽樣。計算在每個文檔模型Md下,抽樣(生成,產(chǎn)生)出查詢q的概率。而最終就是基于這個概率p(q|Md)來對文檔進行排序,最后得到檢索結果。基本公式如式(1)所示。

      其中w代表詞項,q代表查詢,d代表文檔,c(w,q)代表該詞在查詢中出現(xiàn)的次數(shù)。p(w|d)是文檔產(chǎn)生詞項的概率,最基本的方法采用式(2)來估計:

      其中c(w,d)代表詞w在文檔d中的出現(xiàn)次數(shù)。

      2)平滑方法

      上述的估計文檔產(chǎn)生詞項概率p(w|d)的方法,文檔中每個詞項權重相等,未考慮噪音,而且對于文檔中未出現(xiàn)的詞會得到零概率,影響打分函數(shù)的計算。因此語言模型的工作大都采用文檔集頻率p(w|C)做了平滑,主要的平滑方法有Jelinek-Mercer(JM)平滑和Dirichlet Prior(DIR)平滑。其中JM平滑在最大似然估計的基礎上,做了一個線性插值,具體公式如式(3)。

      其中λ是JM平滑的平滑參數(shù),C代表文檔集。而DIR平滑中的平滑參數(shù)是與文檔長度相關的,具體公式如式(4)。

      其中μ是平滑參數(shù),|d|代表文檔長度,文檔長度越大,前式越大后式越小。也就是說,DIR平滑與JM平滑相比,平滑參數(shù)與文檔長度有關,對短文本做了更大的平滑[6]。

      2.2 相關工作

      近年來對微博的研究較多,除了傳統(tǒng)的微博分類聚類摘要等[2-3,8],微博檢索也是一個熱門的研究方法[4,9-12]。其中Rinkesh Nagmoti等人[4]采用了一些啟發(fā)式的方法,簡單考慮了作者入度出度,是否URL等信息,并未對作者發(fā)布的所有微博記錄建模;Kamran Massoudi[9],Miles Efron[10]對微博檢索中的查詢的擴展做了一些研究,分別考慮了微博中的時間和Hashtag因素;Wouter Weerkamp提出了幾種生成式模型[11],根據(jù)查詢來挑選外部資源,來對查詢進行擴展;Yajuan Duan在文獻[12]中使用了learning to rank的方法來對微博進行檢索。而從微博記錄擴充的角度來改進微博檢索模型的工作還比較少。

      除了使用文檔頻率(df)和文檔集頻率(cf)的平滑方法外,對稀疏性的解決最重要的方法之一就是豐富和擴展稀疏的數(shù)據(jù)。傳統(tǒng)檢索中專門用于文檔擴充的方法并不多見,大多都是在語言模型基礎之上提出來的,這是因為語言模型中有單獨的文檔模型,可以較為方便的融入各種信息。目前可以看作是對文檔內(nèi)容擴充的方法主要有基于聚類的方法[13-14],基于話題模型的方法[8],基于上下文的方法[15-16]和使用翻譯模型[17]。其中前三種方法都是在數(shù)據(jù)集本身的數(shù)據(jù)上,最后一種方法可以使用已有的或離線訓練好的翻譯詞典,因此可以利用外部信息。

      使用聚類來對文檔內(nèi)容做擴充[13]的方法,其主要思想是首先將文檔聚類,得出每個類別Ci在詞上的分布p(w|Ci),然后,將類別的分布作為p(w|d)的插值平滑。但在微博檢索場景下,有一定的問題:首先聚類的結果不容易評價好壞,再者聚類在文檔很短的情況下本身也不能達到很好的效果?;谠掝}模型[14]的方法思想與基于聚類的方法類似,也存在著話題在文檔很短的情況下不能很好的訓練的問題。基于上下文的方法主要思想是將微博中對同一條微博記錄的回復,轉發(fā)等記錄重新組合成一條新的文檔,相當于對微博記錄做了豐富和擴充。但該工作未將其用于檢索模型中,也沒有考慮同作者的微博記錄。

      信息檢索中的翻譯模型是一種生成模型,認為從文檔生成查詢詞的過程分為兩個步驟:首先文檔產(chǎn)生出文檔本身的詞,然后這個詞經(jīng)過一次“翻譯”,翻譯到查詢詞。該方法可以較為靈活的融入各種信息,重點在于翻譯概率的學習上。本文提出的使用作者信息擴展微博的方法重點關注于對作者信息的利用,亦可以與上述各種方法結合使用。

      3 作者模型

      傳統(tǒng)的方法,建立在這樣一個假設上:給定的文檔足夠長,平滑模型適合,可以很好的估計出文檔模型。概率模型認為文檔中每個詞項出現(xiàn)的頻率(tf)以及詞項的文檔頻率(df)可以代表該詞項的權重。但對于微博檢索來說,微博記錄很短,一個很偶爾出現(xiàn)的詞項會占有較大的概率,而真正核心的詞項也可能只出現(xiàn)一次。也就是說,在這種極短的情況下,沒有足夠的信息來估計文檔的模型。在語言模型中,p(w|d)代表了一個文檔在每個詞項上的分布,而基本的估計方法也是通過極大似然來估計,最終也轉到詞頻統(tǒng)計上來。雖然采用了文檔集的頻率作為平滑方法,但文檔集里所有文檔采用的是同一平滑,最終得到的效果也類似于df。因此,在文本極短的情況下,使用查詢似然模型和基于文檔集的平滑方法估計p(w|d)的時候也存在嚴重的稀疏性問題。

      本文實驗中發(fā)現(xiàn),除去非英文、非文本信息、回復轉發(fā)符號(@)、URL,Hashtag(#)以及表情等,微博記錄的平均長度只有9.75。如上節(jié)所說,極偶爾出現(xiàn)的一個詞將會有很大的產(chǎn)生概率,如直接對文檔建模存在著很大的稀疏性問題。

      3.1 模型與檢索

      本節(jié)在語言模型框架下提出一個根據(jù)作者信息來豐富微博記錄模型。作者信息在文本方面,最重要的就是作者發(fā)布的微博記錄。在語言模型的框架下,每個文檔都可以估計出一個語言模型,因而對于作者來說,也一樣可以估其所對應的語言模型。語言模型認為一篇文檔在觀測到的詞項(文檔里出現(xiàn)的詞項)上有分布,在未觀測到的詞項上也有分布。使用文檔集的平滑方法基于的思想是:未觀測的詞項出現(xiàn)的概率p(wunseen|d)等于該詞項在文檔集上的頻率p(w|C)乘以某個權重。而微博記錄則因為長度的限制,會盡量的簡練它的語句,需要更細致的平滑方法。本文提出作者模型的意義在于,可以對未觀測的詞項做更加細致的估計,在微博記錄未觀測到的詞項中:①文檔集出現(xiàn)過的詞項具有一定概率;②作者發(fā)表過的詞項也會有一定的概率,且與整個文檔集中出現(xiàn)過的詞項不同。本節(jié)的思想可以從兩種角度來描述,一是從平滑的角度來看,使用作者的語言模型作為背景平滑模型,若使用JM平滑,更新公式如示(5)所示:

      其中α和β是JM平滑方式下的平滑參數(shù),p(w|A)是詞項在某作者所發(fā)表所有文檔里出現(xiàn)的頻率,它代表了詞項w由文檔d的作者寫出的可能性。若使用DIR平滑,則更新公式如式(6)所示:

      其中μ1和μ2是DIR平滑方式下的平滑參數(shù),μ1可以反映p(w|A)所占的權重,μ2可以反映p(w|C)所占權重。最后將上述兩種p(w|d)分別代入式(1)中即可。

      二是對排序函數(shù)的改進,直接計算出微博作者在查詢q上的分數(shù),然后與已有分數(shù)做一個插值,也就是直接更新式(1)為新的排序函數(shù),如式(7)和式(8)所示。

      其中Sa-JM為使用JM平滑的作者模型得到的排序分數(shù),Sa-DIR(q,d)為使用DIR平滑的作者模型得到的排序分數(shù)。這兩種公式(式(5)對應式(7),式(6)對應式(8))分別是等效的,推導也較為簡單。為方便起見,本文后續(xù)的公式將按照第二種公式繼續(xù)給出。

      3.2 作者模型描述

      本文使用的作者模型是利用作者的信息來豐富文檔的信息,從而估計出更加準確的文檔模型,那么如何計算作者模型S(A,q)呢?根據(jù)上文我們知道,每個微博記錄都有發(fā)布者(作者)。作者信息包含三個部分:作者的個人信息,作者發(fā)布的微博記錄,作者的關系網(wǎng)絡。而作者發(fā)布的所有微博記錄又可以使用話題建模。因此本文提出作者模型可以分為幾部分估計,如式(9)所示。

      其中A代表作者,Stweet代表使用作者發(fā)布的所有微博記錄得到的分數(shù),Stopic代表作者所有微博記錄的話題模型得到的分數(shù),Sprofile代表作者個人信息,如個人標簽、工作等信息的模型,Snet代表作者的關系網(wǎng)絡在查詢上得到的分數(shù),一可以使用作者的“粉絲”信息,二可以使用作者在微博中的靜態(tài)rank來估計。其中因為數(shù)據(jù)集的關系,Sprofile和Snet在本文實驗中并無使用。

      4 作者模型估計

      本節(jié)的實現(xiàn)中作者模型S(A,q)的意義是,將查詢視為從文章里抽出的關鍵詞,給出一個查詢,估計出該查詢是由某作者的文章里抽出來的可能性。認為這個可能性越大,該作者與該查詢的相關度也越高。

      4.1 作者模型

      基于上述思想,我們的作者模型分為兩部分,第一部分是作者發(fā)布的所有文章估計作者的模型:Stweet(A,q)。它的計算與之前的查詢似然模型的計算類似,但要將同作者發(fā)布的所有微博記錄全部收集起來。具體計算方法如式(10)所示。

      其中|A|代表作者發(fā)布的微博記錄的個數(shù)。

      4.2 作者話題模型

      第二部分是作者的話題模型,使用作者發(fā)布的微博記錄估計的作者模型,只有對作者發(fā)布過的詞項會估計其概率,而不能調(diào)整語義相關的其他詞,例如:一個作者發(fā)布了很多關于“World Cup 2022”、“FIFA”的微博,那么“soccer”、“football”等詞項是很相關的,也應具有一定的出現(xiàn)概率。尤其當一個作者發(fā)布的微博較少的情況下,估計出語義相關的詞出現(xiàn)的概率更顯重要。本節(jié)提出的話題模型正是為了一定程度上解決該問題。

      那為什么不直接對微博記錄本身使用話題模型呢?話題模型(topic model)從問世以來就一直備受青睞[18-20],主要思想是對每個文檔的隱語義空間建模,也就是認為每個文檔在話題上有一個分布,而話題本身又是在詞匯表上所有詞的分布。每個話題是潛在語義空間里的一維,將同一語義以話題的形式組織起來。但在話題模型中訓練出話題分布時,使用了詞和詞的共現(xiàn)關系。這些共現(xiàn)指的是每篇文檔內(nèi)的共現(xiàn),對文檔長度有很大依賴性。因此微博場景下,微博記錄很短,會造成詞的共現(xiàn)矩陣稀疏度很高。那么直接使用PLSA或LDA訓練出的話題將不會有很好的效果[21]。

      基于上面兩個原因,本文并不基于每條微博記錄來訓練話題模型,而將同一作者發(fā)布的所有微博記錄視作一個文檔,然后對新文檔集來訓練話題模型,將其用于文檔內(nèi)容的擴展中。融合使用作者的話題模型之后,一個微博記錄在未觀測到詞項的分布將包含以下三種:①文檔集出現(xiàn)過的詞項;②作者發(fā)表過的詞項;③作者感興趣的話題所包含的詞項。

      這種方法還使得每個“文檔”的長度變長,豐富了詞的共現(xiàn)矩陣,降低了該矩陣的稀疏度??梢院艽蟪潭壬细纳莆⒉┯涗浐芏虒е碌脑掝}難以訓練的問題。在訓練出作者的話題模型之后,基于該模型的相似度計算如式(11)所示。

      其中K代表總話題個數(shù),θi代表每個話題,而Sθ(q,θi)又由式(12)得到。

      4.3 噪聲去除

      由于上文中的作者模型,使用的是作者發(fā)布的所有文檔來估計的。而作者在同一時間段內(nèi)可能會發(fā)布一些各不相關的微博,因此上述模型也會引進大量的噪音。所以本文在此引入一個閾值Td,當前文檔與作者發(fā)布的某微博記錄相似度大于Td時,才用該微博記錄來對當前文檔擴展,進而估計文檔模型。Td意在剪除同作者發(fā)布的完全不相關的文檔,對某條微博記錄擴展造成的影響。對文檔d′進行擴展時,計算相似度的公式如式(13)所示。

      同樣,作者話題模型訓練出作者在每個話題上都有一定概率,因此在作者的話題模型上,我們也引入一個閾值Tt,當作者在話題上的分布大于Tt時,才認為該話題是作者感興趣的話題。Tt意在剪除作者話題中的噪音,留下作者最可能關心的一些話題。剪除之后重新歸一化,新公式如式(14)所示。

      5 實驗與分析

      本文實驗的數(shù)據(jù)集采用TREC 2011中的微博檢索子任務提供的數(shù)據(jù)集。這也是目前研究界公開的支持微博檢索的數(shù)據(jù)集。微博是動態(tài)性的,存在用戶更名或者微博記錄被刪掉的情況。因此,除去少許網(wǎng)絡問題和已不存在的微博記錄,再去除一個無任何相關文檔的查詢(不影響評價結果),我們的數(shù)據(jù)集共包含49個有效查詢和14 889 941條微博記錄。其中包含URL的約占18.2%,包含回復(@)的約占42.4%,包含Hashtag(#)的約占13.3%。

      評價方法包含TREC 2011官方指定評價方法P@N(前N個結果的正確率)和MAP(宏平均正確率)。實驗取前15個查詢作為測試集,后34個查詢作為訓練集。實驗結果如表1所示,其中“QLM”表示查詢似然模型,“AM”表示用作者發(fā)布的所有微博記錄估計出來的作者模型(即式(9)僅使用Stweet),“ATM”表示作者模型與作者的話題模型(式(9)里使用Stweet和Stopic(A,q)),“JM”表示JM平滑,“DIR”表示Dirichlet平滑。

      5.1 作者模型

      作者模型的對比實驗中,我們首先收集同一作者發(fā)布的所有微博記錄作為一個新文檔,這樣共收集到5 075 108個作者,經(jīng)過porter切詞和過濾掉非英文等信息后,剩余3 673 968個有效作者,采用Indri對其建立索引,每個作者的平均文檔長度達到了32.97。然后根據(jù)這個新文檔集來訓練話題模型,初始參數(shù)α=1,topic個數(shù)N=2 000。從表1和表2中可以看到,作者模型的效果較好。效果的提升可能由于兩個原因:1)作者模型豐富了微博記錄的模型,一定程度上緩解了極短文本帶來的問題;2)根據(jù)訓練好的話題模型,可以從隱含的語義層面匹配作者與查詢詞。但微博記錄較短,直接使用話題模型訓練的效果很差。本文提出的作者的話題模型則含有較長的文本,可以有效降低詞共現(xiàn)矩陣的稀疏度:平均長度為9.75的文檔,其中詞的共現(xiàn)信息約為45個(以33計算),而文檔長度擴展為32.97時,詞的共現(xiàn)信息約為528個(以33計算),提高了約11.7倍。另外實驗結果中還可以看出,P@10和P@20都有較大的提升。搜索引擎中也越來越重視前N條結果的正確率,因為可以極大地提高用戶體驗度,很大一部分的檢索過程中用戶都只看前兩頁結果。還有值得注意的是,在宏平均正確率MAP提高的基礎上,P@30與未使用作者模型相比有稍許降低,這也一定程度上說明我們的模型可能也引入了部分噪音,但與提升效果相比還是可以接受的。

      其中本次實驗得出的參數(shù)如下:查詢似然模型JM平滑的參數(shù)λ=0.8,DIR平滑參數(shù)μ=4 000;作者模型中作者的JM平滑參數(shù)β=0.02,文檔集JM平滑參數(shù)也為0.8。作者模型中作者的DIR平滑參數(shù)μ1=1,μ2=4 000;作者話題模型中,話題的JM平滑參數(shù)0.02,話題的DIR平滑參數(shù)為1(反映了式(9)中λ2的大小)。也就是說在JM方式平滑下,在估計p(w|d)時,作者發(fā)表過的詞項,約以十分之一的概率擴展給微博記錄較好,而采用DIR方式平滑時,需要的則更小。因此實驗結論是,不論是作者模型還是作者的話題模型,采用兩種平滑方法都在取較小的平滑參數(shù)時達到較好的效果。

      表1 JM平滑下查詢似然,作者模型與作者話題模型的實驗結果

      表2 DIR平滑下查詢似然,作者模型與作者話題模型的實驗結果

      5.2 參數(shù)敏感性

      在作者模型中,與平滑參數(shù)不同的是我們引入了新的參數(shù):閾值Td實驗中閾值取了訓練集上的平均最好值。閾值Td與檢索結果的關系見圖1,從圖中可以看到,當閾值變化的時候,四個指標的變化(尤其是P@30與MAP)都很平緩。也就是說我們提出的作者模型對Td這個參數(shù)并不敏感。

      圖1 JM平滑下的閾值Td(左),DIR平滑下的閾值Td(右)

      在作者的話題模型做平滑的實驗中,我們引入的新參數(shù)是Tt,同樣的閾值也選取的是訓練集上訓練得出的平均最好值。閾值Tt與檢索結果的關系見圖2,在JM平滑下,作者的話題模型表現(xiàn)出對閾值Tt更加不敏感,穩(wěn)定性稍好。

      圖2 JM平滑下的閾值Tt(左),DIR平滑下的閾值Tt(右)

      6 總結與下一步工作

      本文根據(jù)微博檢索的特點,提出了使用作者模型來對微博記錄進行擴充。具體實現(xiàn)方式是首先在語言模型的基礎上用作者模型作為背景模型,對微博記錄的語言模型做了平滑;然后采用了作者訓練話題模型,改善了微博記錄較短的問題。最后將作者模型和作者話題模型用于微博檢索實驗,再對其中的閾值進行了分析與敏感性實驗。實驗證明本文提出的方法可以有效地提高微博檢索效果,具有良好的穩(wěn)定性。

      有以下幾點可以作為與本文相關的下一步工作方向:

      (1)物以類聚,作者關系網(wǎng)絡比較重要,但由于實驗數(shù)據(jù)集沒有作者的個人信息和作者關系網(wǎng)絡,因此第3節(jié)中的作者模型并沒有使用這些信息。下一步工作我們將采用更多的微博數(shù)據(jù)集,并對作者的“粉絲”以及作者的靜態(tài)重要度(類似于page rank的作者rank)做相應的研究;

      (2)本文使用的方法主要是對微博記錄進行擴展,而影響查詢效果的另一個重要方面是查詢擴展。因此下一步工作將深入分析微博查詢,分析較短的反饋文檔對查詢擴展的影響,并將作者網(wǎng)絡等因素引入查詢的重構當中;

      (3)本文的實驗過程中發(fā)現(xiàn),作者發(fā)布的微博記錄數(shù)目差別很大,存在發(fā)布微博記錄特別少的用戶。在這種情況下,本文提出的作者模型尚有很多值得研究和改進的地方。

      [1] 維基百科[OL]http://zh.wikipedia.org/wiki/%E5% BE%AE%E5%8D%9A.

      [2] Sharifi B P.Automatic Microblog Classification and Summarization[D].2010.

      [3] Sriram B,F(xiàn)uhry D,Demir E,et al.Short Text Classification in Twitter to Improve Information Filtering[C]//Proceeding of the 33rd international ACM SIGIR conference on research and development in information retrieval,2010.

      [4] Nagmoti R,Teredesai A,Martine De Cock.Ranking Approaches for Microblog Search[C]//2010IEEE/WIC/ACM International Conference on Web Intelligence and Intelligent Agent Technology,2010,(1):153-157.

      [5] Christopher D M,Raghavan P,Hinrich Schutze,王斌(譯).信息檢索導論[M].北京:人民郵電出版社,2010.

      [6] Cheng X Z.Statistical Language Models for Information Retrieval[M].Foundations and Trends in Information Retrieval,2008.

      [7] Jay M P,Croft W B.A language modeling approach to information retrieval[C]//Proceedings of the 21st annual international ACM SIGIR conference on research and development in information retrieval,New York,USA.1998.

      [8] Ramage D,Dumais S,Liebling D.Characterizing microblogs with topic models[C]//ICWSM,2010.

      [9] Massoudi K,Tsagkias M,Rijke M D,et al.Incorporating Query Expansion and Quality Indicators in Searching Microblog Posts[C]//ECIR,2011,4:19-21.

      [10] Efron M.Hashtag Retrieval in a Microblogging En-vironment[C]//Proceeding of the 33rd international ACM SIGIR conference on researchand development in information retrieval,2010.

      [11] Weerkamp W,Balog K,and Maarten de Rijke.A Generative Blog Post Retrieval Model that Uses Query Expansion based on External Collections[C]//Proceedings of the Joint Conference of the 47thAnnual Meeting of the ACL and the 4th International Joint Conference on Natural Language,2009.

      [12] Duan Y J,Jiang L,Qin T,et al.An Empirical Study on Learning to Rank of Tweets[C]//Proceedings of the 23rd International Conference on Computational Linguistics,2010.

      [13] Liu X,Croft W B.Cluster-based retrieval using language models[C]//Proceedings of the 27th international ACM SIGIR conference on research and development in information retrieval,2004:186-193.

      [14] Wei X,Croft W B.Lda-based document models for ad-h(huán)oc retrieval[C]//Proceedings of the 29th international ACM SIGIR conference on research and development in information retrieval,2006:178-185.

      [15] Pochampally R,Varma V.User context as a source of topicretrieval in twitter[C]//Proceedings of the 34rd international ACM SIGIR conference on research and development in information retrieval,2011.

      [16] Karmarkar A,Peters R,Context-enriched Microblog Posting.U.S.Patent No.US20100211868A1,2010.

      [17] Karimzadehgan M,Cheng X Z.Estimation of statistical translation models based on mutual information for ad hoc information retrieval[C]//Proceedings of the 33rd international ACM SIGIR conference on research and development in information retrieval,2010.

      [18] Blei D M,Ng A Y,Jordan M I.Latent dirichletallocation[J].The Journal of Machine Learning Research,2003,3:993-1022.

      [19] Hofmann T.Probabilistic latent semantic indexing[C]//Proceedings of the 22nd annual international ACM SIGIR conference on research and development in information retrieval,1999:50-57.

      [20] Rosen-Zvi M,Griffiths T,Steyvers M,et al.The author-topic model for authors and documents[C]//Proceedings of the 20th conference on uncertainty in artificial intelligence,2004.

      [21] Ramage D,Dumais S,Liebling D.Characterizing Microblogs with Topic Models[C]//Proceedings of the ICWSM 2010:130-137.

      猜你喜歡
      詞項文檔檢索
      有人一聲不吭向你扔了個文檔
      2019年第4-6期便捷檢索目錄
      自然種類詞項二難、卡茨解決與二維框架
      哲學評論(2018年1期)2018-09-14 02:34:18
      基于RI碼計算的Word復制文檔鑒別
      專利檢索中“語義”的表現(xiàn)
      專利代理(2016年1期)2016-05-17 06:14:36
      Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
      不讓他人隨意下載Google文檔
      電腦迷(2012年4期)2012-04-29 06:12:13
      英語詞項搭配范圍及可預見度
      依據(jù)語篇中多層次信息的句法分析方法
      大家(2011年9期)2011-08-15 00:45:37
      國際標準檢索
      且末县| 烟台市| 景东| 繁昌县| 曲松县| 万荣县| 姜堰市| 清水县| 海伦市| 花垣县| 深泽县| 日照市| 江油市| 彭阳县| 灵丘县| 如皋市| 鄱阳县| 莱阳市| 来凤县| 海南省| 眉山市| 平昌县| 巴南区| 凤山县| 加查县| 遂昌县| 右玉县| 安图县| 敖汉旗| 衡水市| 望都县| 长顺县| 枝江市| 铜鼓县| 金秀| 景洪市| 长葛市| 沈阳市| 龙陵县| 含山县| 同仁县|