• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于多重增強(qiáng)圖和主題分析的社交短文本檢索方法

      2018-05-04 06:46:27劉德喜付淇韋亞雄萬常選劉喜平鐘敏娟邱家洪
      中文信息學(xué)報(bào) 2018年3期
      關(guān)鍵詞:分值短文排序

      劉德喜,付淇,韋亞雄,萬常選,劉喜平,鐘敏娟,邱家洪

      (1. 江西財(cái)經(jīng)大學(xué) 信息管理學(xué)院,江西 南昌 330013;2. 江西財(cái)經(jīng)大學(xué) 數(shù)據(jù)與知識工程江西省高校重點(diǎn)實(shí)驗(yàn)室,江西 南昌 330013;3. 江西科技師范大學(xué),江西 南昌 330013)

      0 引言

      “短文本”(又稱消息或post)存在于以Twitter、微信、微博等為代表的社會網(wǎng)絡(luò)平臺上,內(nèi)容和形式豐富,包括發(fā)表評論、抒發(fā)心情、分享趣事、好友互動等,極大地?cái)U(kuò)展了人們獲取信息的渠道,增強(qiáng)了普通民眾的參與感,受到用戶青睞。同時(shí),社會網(wǎng)絡(luò)中用戶的行為特點(diǎn)和語言特點(diǎn),使得存在于社會網(wǎng)絡(luò)平臺中的短文本不同于普通文本或網(wǎng)頁。短文本之間存在轉(zhuǎn)發(fā)、評論、回復(fù)等關(guān)系,短文本作者之間存在“Friends/Followers”或“朋友圈”等關(guān)系,短文本通過鏈接與Web頁面之間存在鏈接關(guān)系。本文統(tǒng)稱這些關(guān)系為短文本的“社會關(guān)系”[1],稱來自社會網(wǎng)絡(luò)平臺的有“社會關(guān)系”的短文本數(shù)據(jù)為“社交短文本”數(shù)據(jù)。

      社交短文本數(shù)據(jù)中除了存在社會關(guān)系外,文本短、主題分散等特點(diǎn)也給社交短文本的檢索和利用帶來巨大挑戰(zhàn)。Twitter要求每篇tweet在140個(gè)字符以內(nèi)、新浪微博要求每篇博文不超過140個(gè)漢字。與傳統(tǒng)長文本或網(wǎng)頁不同的是,大部分的詞語在短文本中僅出現(xiàn)一次,這就造成無法通過詞頻(TF)來區(qū)分詞語的重要程度;另外,逆文檔頻率(IDF)高的詞項(xiàng)可能來自于錯誤或不規(guī)范的拼寫,這在社會網(wǎng)絡(luò)平臺中非常常見。因此,數(shù)據(jù)的稀疏和不規(guī)范的拼寫導(dǎo)致傳統(tǒng)基于TF-IDF的檢索模型不能直接用在社交短文本檢索中。

      普通民眾參與是社會網(wǎng)絡(luò)的一大特點(diǎn),用戶關(guān)注的焦點(diǎn)不同、視角不同,使得社會網(wǎng)絡(luò)上產(chǎn)生了數(shù)量龐大的主題,這使得社交短文本檢索結(jié)果的組織和呈現(xiàn)面臨巨大挑戰(zhàn)。目前新浪等社會網(wǎng)絡(luò)平臺通常是將短文本檢索結(jié)果簡單地按照短文本發(fā)布的時(shí)間倒排,效果不甚理想。本文的主要工作是對傳統(tǒng)檢索模型在社交短文本數(shù)據(jù)上的檢索結(jié)果進(jìn)行主題識別、利用社會關(guān)系再排序、過濾重復(fù)信息等,使得檢索結(jié)果更合理、可讀性更強(qiáng),并且減少用戶閱讀社交短文本的負(fù)擔(dān),提高用戶從社會網(wǎng)絡(luò)中獲取信息的效率。

      本文的主要貢獻(xiàn)包括: (1)采用多重增強(qiáng)圖算法對檢索結(jié)果再排序,以提升檢索效果。多重增強(qiáng)圖算法主要通過作者、短文本、詞匯三個(gè)層面來建模社交短文本及其內(nèi)容,并充分利用社交短文本中的社會關(guān)系來分析各層面中節(jié)點(diǎn)的重要性。(2)實(shí)驗(yàn)對比了三種常用的文本與查詢之間相似度計(jì)算方法,包括余弦相似度、LDA主題模型及JS距離,實(shí)驗(yàn)證明多重增強(qiáng)圖算法對NDCG指標(biāo)的提高有很明顯的效果。

      論文的結(jié)構(gòu)安排如下: 引言部分,介紹“社交短文本”的概念及特點(diǎn);相關(guān)研究概述了近幾年社交短文本的研究現(xiàn)狀和相關(guān)成果;第2節(jié)介紹基于多重增強(qiáng)圖的社交短文本檢索方法SSTR,包括數(shù)據(jù)預(yù)處理、主題分析、初步檢索、基于多重增強(qiáng)圖的社交短文本優(yōu)化排序、檢索結(jié)果自動摘要五個(gè)步驟;第3節(jié)介紹實(shí)驗(yàn)數(shù)據(jù)、實(shí)驗(yàn)內(nèi)容、實(shí)驗(yàn)結(jié)果及分析,驗(yàn)證SSTR方法的有效性;最后在第4節(jié)進(jìn)行總結(jié)。

      1 相關(guān)研究

      社交短文本檢索的相關(guān)研究近年來得到了專家學(xué)者的廣泛關(guān)注,特別是TREC中引入了Micro-blog任務(wù)并公布數(shù)據(jù)后[2-7]。除了將傳統(tǒng)信息檢索模型推廣到短文本數(shù)據(jù)上以外,還有大量的研究工作集中在抽取或概括原始文檔(集)中的重要或有代表性的內(nèi)容,以提高信息訪問的效率,為用戶節(jié)省時(shí)間和資源。目前這類工作采用的方法可以歸納為基于統(tǒng)計(jì)特征、基于圖、基于特征和圖融合、基于事件抽取等四類方法。

      統(tǒng)計(jì)特征通常作為判斷一篇短文本重要性的依據(jù)。文獻(xiàn)[8]借助語言模型(其實(shí)質(zhì)是統(tǒng)計(jì)特征)分析tweets中的話題,并根據(jù)話題將短文本合并、分組,類似于聚類,然后從各個(gè)類中選擇一條具有代表性的短文本返回給用戶。文獻(xiàn)[9]基于詞頻特征判斷短文本中概念的重要性,并采用線性規(guī)劃策略使得短文本檢索結(jié)果在有限的長度中包含更全面且更重要的概念。文獻(xiàn)[10]認(rèn)為短文本tweets中使用的詞或短語是與某主題相關(guān)的,并且流行的主題會得到更多的轉(zhuǎn)發(fā),以此來判斷短文本中詞或短語的重要性。在構(gòu)建以用戶提交的查詢詞為根、以詞在tweets中的位置關(guān)系為邊的樹后,以樹中詞的重要性為基礎(chǔ),返回權(quán)重較大的路徑(或tweets)。除上述提到的統(tǒng)計(jì)特征外,其他被利用的統(tǒng)計(jì)特征還有混合TF-IDF[11]、消息或短文本的頻率特征[12]、詞頻分布特征[13]、時(shí)間特征[14]、話題特征[15]、短文檔中的超級鏈接、內(nèi)容的規(guī)范性[9]以及短文本作者的行為特征等[16]。

      基于圖的方法是以社交短文本中的句子、詞項(xiàng)、短文本作者等對象為節(jié)點(diǎn),以其社會關(guān)系為邊,構(gòu)建圖并分析圖中節(jié)點(diǎn)的權(quán)重。文獻(xiàn)[17]采用PageRank方法,同時(shí)結(jié)合關(guān)鍵詞和主題分析對短文本進(jìn)行排序。文獻(xiàn)[18]針對Twitter短文本,采用了增強(qiáng)圖算法。考慮了短文本、文本作者、詞語三者之間相互的關(guān)系以及三者內(nèi)部的關(guān)系,利用類似PageRank的迭代方式考察它們的重要性。

      基于特征和圖融合的方法是在基于特征考察短文本內(nèi)容重要性或代表性的基礎(chǔ)上,利用圖中節(jié)點(diǎn)(短文本)之間的關(guān)系,將重要性或代表性在節(jié)點(diǎn)之間傳播、迭代。例如,文獻(xiàn)[19]運(yùn)用基于特征的方法設(shè)置圖中邊的權(quán)重,這些特征包括: 短文本之間的相似性、短文本的可讀性、作者的粉絲數(shù)以及短文本被轉(zhuǎn)發(fā)的次數(shù)等。

      基于事件抽取的方法是以事件為線索,從社交短文本中抽取能還原事件發(fā)展動態(tài)的信息并合理地組織。文獻(xiàn)[20]以來自多個(gè)不同微博平臺中與某個(gè)相同事件相關(guān)的短文本數(shù)據(jù)為對象,利用事件抽取技術(shù),分析事件的結(jié)構(gòu),結(jié)合用戶行為模式分析,對短文本打分。文獻(xiàn)[21]針對體育賽事相關(guān)的Twitter短文本具有較強(qiáng)結(jié)構(gòu)性的特點(diǎn),采用隱馬爾科夫模型對事件建模,抽取短文本作為事件的摘要。文獻(xiàn)[22]分析社會網(wǎng)絡(luò)FlickrGroups中的活動,挖掘包括時(shí)間、地點(diǎn)、人物、行為等在內(nèi)的事件信息。文獻(xiàn)[13]首先檢測Twitter中的子事件,然后再選擇短文本。

      社交短文本里隱藏著豐富的主題,一些熱門主題往往蘊(yùn)含了大量有用的信息,而這些主題兼具分散性、多樣性的特點(diǎn)。因此,社交短文本的主題分析結(jié)果有利于提高檢索模型的性能。關(guān)于短文本主題分析的相關(guān)研究工作比較豐富,但將主題分析方法運(yùn)用于社交短文本檢索或自動摘要的工作相對較少[23]。

      社交短文本主題分析的相關(guān)工作中,除了利用主題標(biāo)簽和模板分析話題外,LDA模型及其多種擴(kuò)展是近年來比較流行的基于概率的主題模型。在針對網(wǎng)絡(luò)論壇的突發(fā)話題研究中,文獻(xiàn)[24]采用一種頻譜劃分的方法對時(shí)間序列進(jìn)行分析來發(fā)現(xiàn)突發(fā)特征,通過衡量時(shí)間序列相似性和文本內(nèi)容重疊性的無監(jiān)督學(xué)習(xí)算法發(fā)現(xiàn)突發(fā)話題。該算法在實(shí)現(xiàn)突發(fā)話題檢測的同時(shí)還可以發(fā)現(xiàn)與話題相關(guān)聯(lián)的用戶社區(qū)。文獻(xiàn)[25]提出了基于LDA的微博主題生成模型MB-LDA,綜合考慮了微博的作者關(guān)聯(lián)關(guān)系和文本關(guān)聯(lián)關(guān)系,來輔助進(jìn)行微博的主題挖掘。文獻(xiàn)[26]設(shè)計(jì)的TwitterMonitor系統(tǒng)通過話題檢測方法,分析tweets流中的話題趨勢。文獻(xiàn)[27]提出的Twitter-LDA模型采用蘊(yùn)含作者社會關(guān)系的作者主題模型和傳統(tǒng)LDA模型相結(jié)合的方法,取得了較好的表現(xiàn)。

      在對社交短文本檢索或自動摘要時(shí),短文本作者的影響力、短文本的質(zhì)量等因素也是影響短文本排序或內(nèi)容選擇的重要因素。有研究表明,可信的用戶有可能發(fā)布信息質(zhì)量高的短文本,而發(fā)布高質(zhì)量短文本的用戶可能有更好的影響力[28]。目前對于短文本內(nèi)容的代表性或重要性的判斷,除了考察短文本的特征外,有研究者還借助于外部資源,如用戶評論、社會標(biāo)簽、用戶上下文[29]、社區(qū)信息[30]、社會網(wǎng)絡(luò)等??紤]到社會網(wǎng)絡(luò)平臺中的短文本通過鏈接與Web頁面關(guān)聯(lián),文獻(xiàn)[31]在對Web頁面自動摘要時(shí),同時(shí)對Web頁面的內(nèi)容和短文本的內(nèi)容統(tǒng)一建模,將二者內(nèi)容置于同一框架中,其基本思想是短文本的內(nèi)容有助于Web頁面中關(guān)鍵句子的選擇。類似地,Pasoi等人設(shè)計(jì)的Summify*http: //summify.com/系統(tǒng)是通過用戶在社會網(wǎng)絡(luò)平臺上發(fā)布的短文本來分析社會網(wǎng)絡(luò)用戶的興趣,并依據(jù)用戶興趣對Web頁面或站點(diǎn)的內(nèi)容做自動摘要,為Facebook和Twitter用戶提供個(gè)性化信息服務(wù)。

      本文所采用的多重增強(qiáng)圖算法框架是受文獻(xiàn)[18]的啟發(fā)。文獻(xiàn)[18]提出一個(gè)基于時(shí)間軸的tweets短文本自動摘要框架,他們將話題按照時(shí)間先后及短文本中的主題標(biāo)簽(hashtag)劃分成子話題,并根據(jù)短文本的重要程度、質(zhì)量和多樣性對各子話題中的短文本排序,并抽取短文本生成摘要。本文與文獻(xiàn)[18]不同之處在于以下四個(gè)方面: (1)任務(wù)不同: 盡管都要考察短文本的重要性,但文獻(xiàn)[18]主要是對具有相同或相似主題的社交短文本數(shù)據(jù)做自動摘要,本文則主要是從社交短文本數(shù)據(jù)中檢索與用戶查詢相關(guān)的信息;(2)選擇的數(shù)據(jù)集不同: 文獻(xiàn)[18]通過Twitter API獲得的2010年9月至2012年4月1.27億條包含地震關(guān)鍵詞的tweets,本文使用的數(shù)據(jù)集和查詢主題是TREC 2011 Micoblog任務(wù)提供的 Tweets數(shù)據(jù),數(shù)據(jù)集的不同導(dǎo)致多重增強(qiáng)圖算法框架中數(shù)據(jù)的預(yù)處理及具體的計(jì)算方法有較大的不同;(3)核心內(nèi)容之一的短文本相似度計(jì)算方法不同: 文獻(xiàn)[18]中短文本的相似度直接用余弦相似度方法,但考慮到社交短文本的特點(diǎn),本文采用基于主題分析結(jié)果的相似度計(jì)算方法;(4)實(shí)驗(yàn)評測不同: 文獻(xiàn)[18]采用自動摘要的評測指標(biāo)ROUGE,主要評測自動摘要質(zhì)量,本文采用評測指標(biāo)NDCG,主要用于評測檢索結(jié)果的質(zhì)量。另外,文獻(xiàn)[18]對比兩個(gè)經(jīng)典的基于圖的模型,短語圖模型(the phrase graph )和LexRank 模型,而本文重點(diǎn)考察了不同的重排序方法,特別是基于主題模型的相似度計(jì)算在重排序中的作用。

      2 基于多重增強(qiáng)圖的社交短文本檢索方法SSTR

      2.1 問題定義

      對于社交短文本數(shù)據(jù)集C=,D={d1,d2, …,dN}表示N篇短文本組成的短文本集合,U={u1,u2, …,uM}表示M個(gè)作者組成的短文本作者集合,R是作者與短文本之間的關(guān)系集合,其中ri,j表示短文本di是由作者uj發(fā)表的。本文對社交短文本檢索的定義是,給定用戶查詢q和社交短文本數(shù)據(jù)集C,在C中檢索與查詢q相關(guān)的短文本集合,并按其相關(guān)度排序,最后生成摘要。

      基于多重增強(qiáng)圖的社交短文本檢索方法SSTR(socialized short text retrieval)包括數(shù)據(jù)預(yù)處理、主題分析、初步檢索、檢索結(jié)果重排序、檢索結(jié)果自動摘要五個(gè)模塊。其中主題分析是利用LDA主題模型表示文本,進(jìn)而實(shí)現(xiàn)短文本相似度計(jì)算;初步檢索采用檢索平臺Indri實(shí)現(xiàn),主要功能包括構(gòu)建索引和實(shí)現(xiàn)查詢;重排序是采用多重增強(qiáng)圖算法對初步檢索結(jié)果重新排序,以便取得更好的排序效果;檢索結(jié)果自動摘要是選取那些與查詢密切相關(guān)且冗余程度較小的文本展現(xiàn)給用戶。最后展現(xiàn)給用戶的是主題全面、與查詢相關(guān)度高且有較好代表性的結(jié)果,以此來提高用戶在社會網(wǎng)絡(luò)平臺上檢索的效率。社交短文本檢索系統(tǒng)SSTR的框架如圖1所示。

      圖1 SSTR框架

      2.2 數(shù)據(jù)預(yù)處理

      預(yù)處理工作包括數(shù)據(jù)過濾、去除停用詞、去重、詞條化等工作。數(shù)據(jù)過濾包括: (1)去除非英文的短文本(SSTR系統(tǒng)目前只針對英文數(shù)據(jù));(2)去除詞語個(gè)數(shù)不超過三個(gè)的過短的短文本;(3)去除只含特殊符號不含有其他詞語的短文本。文本去重主要是去除文檔集合中相似度極高的文本。由于文檔集合中文本數(shù)量眾多,采用常用的文本相似度計(jì)算方法難以完成,本文采用了Simhash*http: //my.oschina.net/leejun2005/blog/ 150086相似度計(jì)算方法。

      2.3 主題分析

      由于社交短文本內(nèi)容短,傳統(tǒng)的向量空間模型中詞頻TF的影響幾乎無效,而微博中各種自創(chuàng)的、錯誤的拼寫使得那些并不是核心內(nèi)容的詞卻有著很高的IDF值。因此,傳統(tǒng)向量空間模型中的TF-IDF不適合短文本的相似度計(jì)算。相對于TF-IDF文本表示模型,主題模型不再單純地利用本文檔中的詞頻信息來表示文本并進(jìn)行文本相似度計(jì)算,而是在整個(gè)文檔集合上分析各個(gè)文檔的主題分布,挖掘文本中潛在的語義信息,直接映射至內(nèi)部隱含主題,過濾噪聲等干擾信息,因此有助于緩解文檔短給相似度計(jì)算帶來的挑戰(zhàn)。

      本文采用Python第三方庫Gensim*http: //radimrehurek.com/gensim/來實(shí)現(xiàn)文本LDA主題模型分析。在得到文檔屬于各個(gè)主題的概率分布后,采用兩個(gè)文檔概率分布p1和p2之間的KL(Kullback-Leibler divergence)距離計(jì)算文檔間的相似程度。由于KL距離不滿足對稱性,本文使用其對稱版本,如式(1)所示。

      σλ(p1,p2)=λσKL(p1,λp1+(1-λ)p2)

      +(1-λ)σKL(p2,λp1+(1-λ)p2)

      (1)

      當(dāng)λ=1/2時(shí),公式(1)轉(zhuǎn)變?yōu)镴S距離,如式(2)所示。

      σjs(p1,p2)=

      (2)

      2.4 基于多重增強(qiáng)圖的社交短文本優(yōu)化排序

      多重增強(qiáng)圖算法受文獻(xiàn)[18]的啟發(fā),主要從三個(gè)不同層面分析影響社交短文本排序的因素,包括: 作者層面(描述短文本作者之間的社會關(guān)系)、短文本層面(描述短文本之間的相似、轉(zhuǎn)發(fā)等關(guān)系)、詞匯層面(描述短文本中詞匯之間的關(guān)系)。各個(gè)層面內(nèi)部相互影響,三個(gè)層面之間相互作用。圖2是三個(gè)層面分析示意圖。

      圖2 三個(gè)層面分析示意圖

      作者層面。作者之間的相互關(guān)注、互動交流體現(xiàn)了作者之間有多種社會關(guān)系,且權(quán)威作者發(fā)表的短文本、使用的詞語往往具有更好的代表性。

      詞匯層面。與長文本分析類似,去除停用詞后仍然頻繁出現(xiàn)在短文本中的詞是重要的,但由于短文本內(nèi)容短小,使用的詞語在140字之內(nèi),詞語重要性的衡量不再僅僅依靠詞頻,同時(shí)還考慮詞語的文檔頻率、詞語之間存在的關(guān)聯(lián)性、詞語所在的短文本特征以及使用該詞語的作者特性等。

      短文本層面。主要是衡量短文本間的關(guān)系和短文本的重要性。短文本的特征包括其作者、詞語構(gòu)成、主題、短文本之間的轉(zhuǎn)發(fā)、回復(fù)、評論關(guān)系等。通常,由重要或權(quán)威的作者發(fā)表的短文本也是重要或權(quán)威的,是值得推薦給用戶閱讀的。其次,重要的短文本應(yīng)該包含豐富的信息,而這些信息最直接的表達(dá)就是詞語,重要的短文本應(yīng)當(dāng)含有能表達(dá)事件或主題的關(guān)鍵性詞語。同時(shí)重要的短文本作為信息傳播的重要載體或者重要節(jié)點(diǎn),應(yīng)當(dāng)在內(nèi)容上有代表性,即它與其他短文本具有一定的相似性。

      通過上述分析可以發(fā)現(xiàn),三個(gè)層面以社交短文本中所蘊(yùn)含的社會信息為紐帶,相互聯(lián)系,相互影響。因此,多重增強(qiáng)圖算法分別對作者、短文本、詞匯建模,并進(jìn)行三者間迭代運(yùn)算,直到最終結(jié)果穩(wěn)定,利用作者、短文本、詞匯的各自得分衡量它們的重要性。

      一篇短文本的分值受到文本間相似度、文本中的詞語、文本質(zhì)量、短文本的作者四個(gè)因素的影響: 短文本與其他短文本的相似度越高,說明該短文本的中心地位越高,給用戶呈現(xiàn)的信息越有代表性;短文本包含的詞越重要,則短文本的分值越高;短文本質(zhì)量越高,其分值越高;短文本的作者越權(quán)威,該短文本的分值越高。如式(3)所示。

      (3)

      其中Q(di)表示短文本di的質(zhì)量,D則表示短文本集。對于社交短文本質(zhì)量的評價(jià),通常采用基于機(jī)器學(xué)習(xí)的方法,從文本的可讀性和內(nèi)容的豐富性等多個(gè)方面考察。由于人工標(biāo)注工作量過大,本文將視文本質(zhì)量為統(tǒng)一的定值。Sim(di,dj)表示兩文本的相似度,其中R[di] 表示與di相連的短文本集合。本文采用公式(2)中的JS距離計(jì)算文本主題相似度。Score(w)表示詞語的得分,Score(ui)表示作者的得分。α1、β1、γ1分別表示短文本層、詞匯層和作者層的權(quán)重,θ1與(1-θ1)表示短文內(nèi)容和質(zhì)量的權(quán)重,c表示迭代的次數(shù)。

      作者的分值受到四個(gè)因素的影響,包括作者使用的詞語、作者發(fā)布的短文本、作者的社會關(guān)系、作者影響力。作者發(fā)布的文本中詞的分值越高,說明作者發(fā)布的內(nèi)容質(zhì)量越高,相應(yīng)地作者的分值也越高;作者發(fā)布了分值越高的短文本,則作者的分值越高;作者的粉絲分值越高,說明該作者越權(quán)威,其分值應(yīng)該越高;作者的影響力越大,其分值會越高。如式(4)所示。

      (4)

      其中Dui表示由作者ui發(fā)布的所有短文本,w則表示作者使用過的詞語,F(xiàn)lu(ui)表示作者影響力(uD表示短文本集D中所有作者),F(xiàn)ans[ui]表示作者ui的粉絲集合。作者影響力可以采用基于機(jī)器學(xué)習(xí)的方法獲得,可用的特征包括作者的粉絲數(shù)量、關(guān)注數(shù)量、被評論數(shù)量、被轉(zhuǎn)發(fā)數(shù)量等,但由于本文采用了TREC Microblog任務(wù)的數(shù)據(jù)集,作者權(quán)威性的特征無法獲取,所以本文將作者的權(quán)威度設(shè)為統(tǒng)一定值。而關(guān)注與被關(guān)注的粉絲關(guān)系,本文是通過提取短文本中的轉(zhuǎn)發(fā)和“@”關(guān)系來構(gòu)建的。式(4)中的α2、β2、γ2分別表示短文本層、詞匯層和作者層的權(quán)重,θ2與(1-θ2)表示作者影響力與粉絲的權(quán)重。

      一個(gè)詞語的分值與詞語的文檔頻率、詞語所在的短文本、使用該詞語的作者、與其他詞語的共現(xiàn)情況四個(gè)因素相關(guān)。類似于TF-IDF,逆文檔頻率越高,詞語的分值越高;短文本分值越高,其中用到的詞的分值則越高;詞語所在短文本的作者分值越高,該詞語的分值也越高;與其他詞共現(xiàn)越頻繁(停用詞已去除),說明該詞在表示檢索結(jié)果內(nèi)容時(shí)代表性越強(qiáng),分值應(yīng)該越高。如式(5)所示。

      (5)

      其中Dwi表示含有詞語wi的短文本集合,Score(d)表示該詞語所在的短文本d的分值,df(wi)表示詞語的文檔頻率,con(wi)表示與詞語wi共同出現(xiàn)的詞語集合,Uwi表示所有使用詞語wi的作者的集合,Score(u)表示使用該詞語的作者的分值。公式(4)中的α3、β3、γ3分別表示短文本層、詞匯層和作者層的權(quán)重,θ3與(1-θ3)表示詞本身的信息含量(用逆文檔頻率表示)和詞對檢索結(jié)果的代表性(與其他詞共現(xiàn)情況,本文基于FP樹來計(jì)算)兩者各自的權(quán)重。

      類似于PageRank,給定初始值后,根據(jù)式(3)~(5),迭代多次,計(jì)算短文本、作者、詞語的得分,直到收斂,并根據(jù)短文本最后的分值進(jìn)行重排序。

      2.5 檢索結(jié)果自動摘要

      社交短文本集合經(jīng)過排序后,采用MMR(maximal marginal relevance)算法去除重復(fù)的信息。該算法的主要思想是選取那些與查詢相關(guān)性大,同時(shí)與其他文本相似度小的文本作為最終的摘要結(jié)果。如式(6)所示。

      (6)

      其中D和S分別表示文本集和已被選取作為摘要內(nèi)容的文本集合,Sim(di,q)表示文本與查詢的相似度,dj∈S表示已被選取作為摘要的文本,Sim(di,dj)表示兩文本間的相似度,λ為權(quán)重系數(shù)。MMR算法在選取作為摘要的文本時(shí),首先計(jì)算文本與查詢的相似度Sim(di,q),并計(jì)算文本與已經(jīng)被選取作為摘要的所有文本的相似度,選取其中最大值Sim(di,dj),然后計(jì)算Sim(di,q)和Sim(di,dj)之間的差值,最終選取差值最大的文本加入摘要集合。

      3 實(shí)驗(yàn)測評

      3.1 實(shí)驗(yàn)數(shù)據(jù)與參數(shù)設(shè)置

      實(shí)驗(yàn)數(shù)據(jù)采用TREC 2011 Microblog任務(wù)提供的tweets數(shù)據(jù),經(jīng)過Simhash去重后tweets數(shù)量約600萬條,并使用這些tweets數(shù)據(jù)集訓(xùn)練LDA模型,主題數(shù)設(shè)置為200。實(shí)驗(yàn)所用查詢同樣來自TREC 2011 Microblog任務(wù)提供的50個(gè)查詢,本文選取其中五個(gè)查詢,相對于其他查詢,這些查詢初始檢索結(jié)果較多。選擇初始檢索結(jié)果較多的原因在于,本文的主要目的是對檢索結(jié)果進(jìn)行重排,并且為減輕用戶閱讀負(fù)擔(dān)而對檢索結(jié)果進(jìn)行自動摘要。因此,本文提出的方法不太適用于初始檢索結(jié)果較少的情況。由于本文選擇的查詢主題數(shù)量有限,限制了參數(shù)的優(yōu)化(可能會出現(xiàn)過擬合)。參數(shù)設(shè)置的主要依據(jù)如下:

      在計(jì)算短文本的分值時(shí),由于是面向信息檢索的,因此認(rèn)為短文本層的影響最大,詞匯層次之,作者層對短文本分值的影響最小,所以表示短文本層、詞匯層和作者層權(quán)重的三個(gè)參數(shù)α1、β1、γ1按4∶2∶1的比例來設(shè)置,分別為4/7、2/7和1/7。由于詞匯層介于作者層和短文本層之間,起到鏈接二者的作用,因此在計(jì)算詞的得分時(shí),認(rèn)為詞匯層的權(quán)重最大,短文本層和作者層次之,但二者權(quán)重相同,α2、β2、γ2按1∶2∶1的比例設(shè)置為0.25、0.5和0.25。計(jì)算作者權(quán)重時(shí),認(rèn)為作者層的權(quán)重最大,詞匯層次之,文本層最小,α3、β3、γ3按1∶2∶4的比例設(shè)置為1/7、2/7和4/7。

      由于式(3)中的文本質(zhì)量和式(4)中作者的影響力本文都未做進(jìn)一步分析,式(5)中詞的信息含量也簡單地采用文檔頻率,所以為了減少該部分的影響,式(3)、式(4)和式(5)中的θ1、θ2、θ3都設(shè)置為0.85。由于面向用戶查詢,在檢索結(jié)果中需要強(qiáng)調(diào)查詢與短文本的相似性,因此式(6)中的λ設(shè)置為0.9。

      3.2 實(shí)驗(yàn)內(nèi)容

      本實(shí)驗(yàn)設(shè)計(jì)了四個(gè)系統(tǒng)進(jìn)行對比。

      (1) Indri: 在Indri檢索系統(tǒng)中,完成查詢的初步檢索,并對初步檢索結(jié)果進(jìn)行人工評價(jià),以對比分析重排序的效果。本系統(tǒng)評價(jià)了前20條結(jié)果的效果。

      (2) reRank-COS: 在Indri檢索系統(tǒng)中得到初步檢索結(jié)果后,將初步檢索結(jié)果和查詢用TF-IDF向量表示,計(jì)算檢索結(jié)果和查詢的余弦相似度,并按相似度大小對檢索結(jié)果重新排序,并評價(jià)排序效果。

      (3) reRank-LDA: 在Indri檢索系統(tǒng)得到初步檢索結(jié)果后,將初步檢索結(jié)果和查詢都用LDA主題模型表示,計(jì)算檢索結(jié)果與查詢的JS距離,并按距離大小對檢索結(jié)果重新排序,并評價(jià)排序效果。

      (4) reRank-SSTR: 在Indri檢索系統(tǒng)得到初步檢索結(jié)果后,使用社交短文本排序算法對檢索結(jié)果重新排序,并評價(jià)排序效果。排序算法中tweets間相似度計(jì)算方法是采用LDA主題模型表示文本,以JS距離衡量文本相似性。

      實(shí)驗(yàn)中采用NDCG指標(biāo)進(jìn)行評測,檢索并計(jì)算Top20的NDCG值,并得出文本評價(jià)等級。將實(shí)驗(yàn)中短文本的分值劃分為五個(gè)等級:

      ① 等級4(最高): 語義清晰,含有較豐富相關(guān)信息;

      ② 等級3: 語義清晰,含有一定相關(guān)信息;

      ③ 等級2: 語義不清晰,但可以獲取一定信息;

      ④ 等級1: 與主題的關(guān)系不能確定;

      ⑤ 等級0: 確定與主題無關(guān)。

      3.3 實(shí)驗(yàn)結(jié)果及分析

      實(shí)驗(yàn)中分別以MB004: Mexico drug war、MB009 Toyota recall、MB022 healthcare law unconstitutional、MB036 Moscow airport bombing、MB039 egyptian curfew為查詢,得到查詢結(jié)果,并比較四種算法在各位置處的NDCG值,如圖3所示。

      比較各組實(shí)驗(yàn)結(jié)果發(fā)現(xiàn):

      (1) 使用多重增強(qiáng)圖算法,能夠較好地提升檢索效果,因?yàn)槎嘀卦鰪?qiáng)圖算法綜合考慮了詞、文本、作者等多方面因素。對于tweets文本而言,多重增強(qiáng)圖傾向選擇較長的tweets文本、同時(shí)傾向于那些使用高頻詞(除停用詞外)的tweets(主要是在tweets作者重要性以及tweet文本質(zhì)量區(qū)別不是很明顯的情況下)。

      (2) 單獨(dú)采用LDA主題模型和TF-IDF模型來表示文本,利用查詢與tweets相似度值的高低作為重排序的依據(jù),反而沒有開源搜索引擎Indri獲得的原始結(jié)果好。這說明SSTR的多重增強(qiáng)圖對短文本的重排序起到了有益的幫助。

      圖3 不同查詢上SSTR方法(multi_enhance_rank)與其他方法的性能對比(橫坐標(biāo)為返回的短文本數(shù)量,縱坐標(biāo)為NDCG值)

      (3) 對比采用LDA主題模型和TF-IDF模型兩種表示文本的方法發(fā)現(xiàn),在文本集主題較為集中時(shí),采用LDA主題模型和TF-IDF模型表示文本得到的效果相近,而在主題較為分散的文本集合中,采用LDA主題模型比采用TF-IDF模型表示文本得到的效果要好,這是由于LDA主題模型可以挖掘tweets文本中的潛在語義信息,可以發(fā)現(xiàn)那些采用不同詞語描述的具有相同或相近語義信息的tweets。

      為了進(jìn)一步考察SSTR如何受初始檢索結(jié)果的影響,實(shí)驗(yàn)中分別將多個(gè)查詢詞之間用“and”和“or”連接關(guān)系作為查詢,進(jìn)行初始檢索。檢索詞之間采用“and”連接進(jìn)行初步檢索時(shí),返回的初始檢索結(jié)果通常數(shù)量較少,召回率較低,對于個(gè)別主題,通常沒有檢索結(jié)果返回,但檢索結(jié)果的精度比較高。這種情況下,多重增強(qiáng)圖算法相對于其他算法在多數(shù)主題上都有較好的表現(xiàn)。檢索詞之間采用“or”連接進(jìn)行初步檢索時(shí)可以返回較多的結(jié)果,通過SSTR對“or”連接的初始檢查結(jié)果進(jìn)行重排和去重,結(jié)果發(fā)現(xiàn)SSTR沒能有效地改善初始檢索結(jié)果的重排序效果。因此,可以認(rèn)為SSTR的表現(xiàn)與初始檢索結(jié)果的精度有關(guān),初始檢索結(jié)果精度越高,SSTR的表現(xiàn)也越好。這一結(jié)論是比較直觀的,如果初始檢索結(jié)果中不相關(guān)短文本太多,通過多重增強(qiáng)圖計(jì)算的高分值的短文本就會偏離查詢主題。

      4 結(jié)論

      本文提出了一個(gè)基于多重增強(qiáng)圖的社交短文本檢索方法SSTR,利用多重增強(qiáng)圖算法對Indri系統(tǒng)的檢索結(jié)果實(shí)現(xiàn)再排序優(yōu)化。SSTR充分考慮社交短文本中蘊(yùn)含的文本、作者、詞語三個(gè)不同層面上不同因素間的關(guān)系,通過多次迭代運(yùn)算,最終尋求多個(gè)層面間相互關(guān)系所處的穩(wěn)定狀態(tài),以便取得更好的檢索效果。SSTR利用LDA主題模型表示文本并實(shí)現(xiàn)相似度計(jì)算,克服文本短帶來的影響。為了減輕閱讀負(fù)擔(dān),本文對檢索結(jié)果進(jìn)行自動摘要,選取那些與查詢密切相關(guān)且冗余程度較小的短文本返回給用戶。實(shí)驗(yàn)結(jié)果表明,基于多重增強(qiáng)圖算法的SSTR與Indri、reRank-COS和reRank-LDA相比排序的效果更好,SSTR最后展現(xiàn)給用戶的是主題較全面、與用戶查詢相關(guān)度更高且更有代表性的結(jié)果。此外,根據(jù)論文的分析,如果考慮短文本的質(zhì)量和短文本作者的權(quán)威度,SSTR得到的重排效果會有所提升,這將是我們下一步的工作。

      另外,采用TREC 2011 Microblog的檢索任務(wù),查詢主題和數(shù)據(jù)都有權(quán)威性和代表性。然而實(shí)驗(yàn)中發(fā)現(xiàn),TREC 2011 Microblog給定的50個(gè)查詢主題中,很多查詢返回的結(jié)果(tweets數(shù)量)比較少,對之進(jìn)行重排意義不大。因此本文從中選擇了返回結(jié)果數(shù)量較多的查詢主題,以考察所提出的模型在這種情況下的效果,這導(dǎo)致整個(gè)工作使用的查詢主題過少。主觀地再增加一些新的查詢主題,則相關(guān)文本(tweets)集合的獲取沒有權(quán)威性。因此,利用其他數(shù)據(jù)集上更多的查詢主題驗(yàn)證本文的模型,也是我們正在著手的工作之一。同時(shí),當(dāng)查詢主題豐富時(shí),本文所提出的模型中的參數(shù)也有了進(jìn)一步優(yōu)化的可能,相信優(yōu)化后的參數(shù)能進(jìn)一步改善模型的效果。

      [1] 劉德喜, 萬常選. 社會化短文本自動摘要研究綜述[J]. 小型微型計(jì)算機(jī)系統(tǒng), 2013, 34(12): 2764-2771.

      [2] Christophe Van Gysel, Evangelos Kanoulas, Maarten de Rijke. Lexical query modeling in session search [C]//Proceedings of the 2016 ACM International Conference on the Theory of Information Retrieval, ACM, 2016: 69-72.

      [3] Ben Carterette, Paul Clough, Mark Hall, et al. Evaluating retrieval over sessions: The TREC session track 2011—2014 [C]//Proceedings of the 39th International ACM SIGIR Conference on Research and Development in Information Retrieval, ACM. 2016: 685-688.

      [4] 韓中元, 楊沐昀, 孔蕾蕾, 等. 基于詞匯時(shí)間分布的微博查詢擴(kuò)展[J]. 計(jì)算機(jī)學(xué)報(bào), 2016, 39(10): 2031-2044.

      [5] 衛(wèi)冰潔, 王斌. 面向微博搜索的時(shí)間感知的混合語言模型[J]. 計(jì)算機(jī)學(xué)報(bào), 2014, 37(1): 229-237.

      [6] 王書鑫, 衛(wèi)冰潔, 魯驍, 等. 面向微博搜索的時(shí)間敏感的排序?qū)W習(xí)方法[J]. 中文信息學(xué)報(bào), 2015, 29(4): 175-182.

      [7] 衛(wèi)冰潔, 史亮, 王斌. 一種融合聚類和時(shí)間信息的微博排序新方法[J]. 中文信息學(xué)報(bào), 2015, 29(3): 177-189.

      [8] Brendan O’Connor, Michel Krieger, DavidAhn. Tweetmotif: Exploratory search and topic summarization for Twitter [C]//Proceedings of the 4th International Conference on Weblogs and Social Media. Washington, DC, USA, 2010: 384-385.

      [9] Fei Liu, Yang Liu, Fuliang Weng. Why is “SXSW” trending?: Exploring multiple text sources for Twitter topic Summarization [C]//Proceedings of the ACL 2011 Workshop on Languages in Social Media. Portland, Oregon, USA, 2011: 66-75.

      [10] Beaux Sharifi, Mark-Anthony Hutton, Jugal Kalita. Summarizing microblogs automatically [C]//Proceedings of the 2010 Conference of the North American Chapter of the Association for Computational Linguistics-Human Language Technologies, 2010: 685-688.

      [11] Kevin Dela Rosa, Rushin Shah, Bo Lin, et al. Topical clustering of Tweets [C]//Proceedings of the ACM SIGIR 3rd Workshop on Social Web Search and Mining, 2011.

      [12] Karen Shiells, Omar Alonso, Ho John Lee. Generating document summaries from user annotations [C]//Proceedings of the 3rd Workshop on Exploiting Semantic Annotations in Information Retrieval, 2010: 25-26.

      [13] Arkaitz Zubiaga, Damiano Spina, Enrique Amig′o, et al. Towards real-time summarization of scheduled events from Twitter streams [C]//Proceedings of the 23rd ACM Conference on Hypertext and Social Media, Milwaukee, WI, USA, 2012: 319-320.

      [14] Hiroya Takamura, Hikaru Yokono, Manabu Okumura. Summarizing a document stream [C]//Proceedings of the 2011 European Conference on Information Retrieval,2011: 177-188.

      [15] Rui Long, Haofen Wang, Yuqiang Chen, et al. Towards effective event detection, tracking and summarization on microblog data [C]//Proceedings of the 12th International Conference on Web-Age Information Management. Wuhan, China, 2011: 652-663.

      [16] Sanda Harabagiu, Andrew Hickl. Relevance modeling for microblog summarization [C]//Proceedings of the 5th International Conference on Weblogs and Social Media. Barcelona, Catalonia, Spain, 2011: 514-517.

      [17] WayneXin Zhao, Jing Jiang, Yang Song, et al. Topical keyphrase extraction from Twitte[C]//Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics, 2011: 379-388.

      [18] Yajuan Duan, Zhumin Chen, Furu Wei, et al. Twitter topic summarization by ranking Tweets using social influence and content quality [C]//Proceedings of the 24th International Conference on Computational Linguistics, 2012: 763-780.

      [19] Xiaohua Liu, Yitong Li, Furu Wei, et al. Graph-based multi-tweet summarization using social signals [C]//Proceedings of the 24th International Conference on Computational Linguistics, 2012: 1699-1714.

      [20] Sanda Harabagiu, Andrew Hickl. Relevance modeling for micmblog summarization [C]//Proceedings of International Conference on Weblogs and Social Media, 2011: 514-517.

      [21] Deepayan Chakrabarti, Kunal Punera. Event summarization using Tweets [C]//Proceedings of International Conference on Weblogs and Social Media, 2011, 66-73.

      [22] Yu-ru Lin, Hari Sundaram, Aisling Kelliher. Summarization of large scale social network activity [C]//Proceedings of the International Conference on Acoustics, Speech, and Signal Processing, 2009: 3481-3484.

      [23] William M Darling,Fei Song. Probabilistic document modeling for syntax removal in text summarization [C]//Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics, 2011: 642-647.

      [24] 陳友, 程學(xué)旗, 楊森. 面向網(wǎng)絡(luò)論壇的突發(fā)話題發(fā)現(xiàn)[J]. 中文信息學(xué)報(bào), 2010, 24(3): 29-36.

      [25] 張晨逸, 孫建伶, 丁軼群. 基于MB-LDA模型的微博主題挖掘[J]. 計(jì)算機(jī)研究與發(fā)展, 2011, 48(10): 1795-1802.

      [26] Michael Mathioudakis, Nick Koudas. TwitterMonitor: Trend detection over the Twitter stream [C]//Proceeding of the Special Interest Group on Management of Data, 2010: 1155-1158.

      [27] Eytan Bakshy, Jake M Hofman, Winter A Mason, et al. Everyone’s an influencer: Quantifying influence on Twitter [C]//Proceeding of the 4th International Conference on Web Search and Web Data Mining, 2011: 65-74.

      [28] Hongzhao Huang, Arkaitz Zubiaga, Heng Ji. Tweet ranking based on heterogeneous networks [C]//Proceeding of the 24th International Conference on Computational Linguistics, 2012: 1239-1256.

      [29] Po Hu, Donghong Ji, Cheng Sun, et al. Improving document summarization by incorporating social contextual information [C]//Proceeding of the Asia Conference on Information Retrieval Technology, 2011: 499-508.

      [31] Zhen Yang,Kefeng Fan, Yingxu Lai, et al. Short texts classification through reference document expansion [J]. Chinese Journal of Electronics, 2014, 23(2): 315-321.

      猜你喜歡
      分值短文排序
      一起來看看交通違法記分分值有什么變化
      工會博覽(2022年8期)2022-06-30 12:19:30
      排序不等式
      恐怖排序
      節(jié)日排序
      KEYS
      Keys
      刻舟求劍
      兒童繪本(2018年5期)2018-04-12 16:45:32
      宿遷城鎮(zhèn)居民醫(yī)保按病種分值結(jié)算初探
      病種分值結(jié)算模式下的醫(yī)療監(jiān)管之實(shí)踐與啟示
      短文改錯
      松溪县| 定南县| 华蓥市| 卢湾区| 孟津县| 兴城市| 临海市| 女性| 邵东县| 福清市| 潼南县| 华阴市| 金山区| 婺源县| 南川市| 万安县| 建始县| 松潘县| 平舆县| 绍兴市| 昌都县| 涞源县| 平邑县| 永州市| 黔西| 金沙县| 湘潭市| 龙川县| 抚宁县| 外汇| 原阳县| 得荣县| 衡南县| 浙江省| 嵩明县| 依安县| 夏河县| 高碑店市| 江永县| 佳木斯市| 合阳县|