• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      融合用戶偏好與流行事件分析的微博推薦算法

      2018-04-18 23:24:48楊觀賜
      計算機工程與設(shè)計 2018年4期
      關(guān)鍵詞:特征詞博文文章

      孫 波,于 琨,楊觀賜

      (1.河南工學(xué)院 計算機科學(xué)與技術(shù)系,河南 新鄉(xiāng) 453002;2.貴州大學(xué) 現(xiàn)代制造技術(shù)教育部重點實驗室,貴州 貴陽 550003)

      0 引 言

      博文[1,2]中包含著具有高度時效性的熱門話題、觀點和評論信息。分析事件的流行趨勢來推斷即將出現(xiàn)的熱門博客是非常必要的。本文結(jié)合了用戶偏好和流行事件分析進行微博推薦研究。實現(xiàn)了如何有效發(fā)現(xiàn)微博用戶正在討論的熱點事件,預(yù)測該事件的流行度,并結(jié)合用戶偏好進行個性化推薦。如果與某事件相關(guān)的博文數(shù)量較大,則該事件即可視為流行事件。此外,一個事件的流行度也可以從Google Insights中獲得,因為一個流行事件常常會吸引大量用戶通過Google搜索引擎來搜索相關(guān)事件信息。因此,本文提出了一種推薦算法進行微博的事件發(fā)現(xiàn)、事件流行度分析,從而實現(xiàn)微博的有效推薦。推薦的過程被分為以下3步:首先,利用互信息熵進行微博事件的發(fā)現(xiàn);其次通過分析基于微博的流行趨勢得分和基于谷歌分析的流行趨勢的得分,得到微博事件的流行度;然后綜合目標用戶所感興趣的歷史記錄和事件流行度的預(yù)測來計算目標用戶對流行事件的喜好程度。

      1 相關(guān)知識

      1.1 微博事件和主題識別

      作為一種新型的信息交流平臺,微博的出現(xiàn)吸引了大量用戶。博客內(nèi)容可以有效地反映個人生活經(jīng)歷或者公眾觀點,同時也可以展示個人的行為和興趣。此外,它也可以用于探索有價值的、實用的信息,比如從博客中發(fā)現(xiàn)事件,識別博客話題事件和趨勢分析。Glance等[3]使用NLP算法來尋找一個時間周期內(nèi)的重要關(guān)鍵詞,并且通過它來發(fā)現(xiàn)微博中的流行趨勢。

      一些話題的識別還可以通過分析特定時期內(nèi)某些文章中的關(guān)鍵詞語得到。比如,Zhang[4]通過長期調(diào)查詞匯的連續(xù)出現(xiàn)頻率來挖掘話題。熱門話題還可以通過發(fā)現(xiàn)某一特殊時期猝發(fā)性術(shù)語而被識別出來。然而,這些研究僅僅通過分析博客中的事件詞匯或趨勢產(chǎn)生推薦,這就可能造成推薦結(jié)果被一些沒有意義的文章而干擾。比如,如果一個人在一定時期內(nèi)發(fā)表了許多廣告文章,這些文章將會形成一個具有流行趨勢的事件。為了防止這些惡意數(shù)據(jù)對推薦系統(tǒng)產(chǎn)生的干擾,本文將Goole Insight提供的搜索數(shù)據(jù)考慮進行,從而幫助發(fā)現(xiàn)真正有意義的微博事件,并對事件的流行度進行計算。

      1.2 微博推薦

      有些研究通過應(yīng)用一些數(shù)據(jù)挖掘技術(shù)來對用戶興趣進行建模從而推薦博客文章。如Elkahky等[5]可以從分析用戶的微博文章介入,用分類法將文章分配到預(yù)設(shè)的類別中來確定作者的偏好,然后對偏好進行分析,將符合要求的微博文章分配給用戶。Subramaniyaswamy等[6]提出了一種微博推薦來對微博主題進行擴展。Kim等[7]設(shè)計了一款手機應(yīng)用——面向個人博文推薦。丁兆云等[8]針對微博的新特性,對微博情感分析等進行了研究。簡而言之,目前的研究沒有考慮到基于博客事件的流行趨勢來做推薦。之前大部分的研究集中在分析用戶的興趣,或者是目標事件和用戶喜好之間的相似度,沒有同時考慮到用戶自身的興趣和事件的流行度。

      為解決信息過載問題,需幫助用戶進行信息過濾,可利用數(shù)據(jù)分析技術(shù)構(gòu)建推薦系統(tǒng)——被廣泛應(yīng)用于電影推薦[9],標簽推薦[10],微博推薦[11]等不同領(lǐng)域。

      2 流行事件分析

      2.1 微博事件提取

      2.1.1發(fā)現(xiàn)候選事件特征集

      我們首先應(yīng)用CKIP(中文信息處理工具:http://ckip.iis.sinica.edu.tw/CKIP)把詞語和博文中用戶標注的標簽劃分到一個有意義的關(guān)鍵詞集中。通過計算出每個詞語的流行度來發(fā)現(xiàn)事件的候選特征詞。同時通過包含特征詞的文章數(shù)量來計算每個特征詞的流行度。為了保證特征詞確實是流行的,特征詞的流行度應(yīng)當高于某個預(yù)設(shè)閾值。然后將獲得的流行度高于該預(yù)設(shè)閾值的特征詞添加到一個事件候選特征詞集中去,我們將該集合稱為候選事件特征集(CEFS)。

      因此,在獲得了包括了所有合格特征詞的CEFS后,便可以從CEFS中選取一系列的特征詞來形成一個候選事件。通常來說,既然某特定事件的特征詞共同表征了該事件,則這些特征詞的相關(guān)度是極高的。因此,我們需要設(shè)定一個閾值來決定挑選出來的特征詞集是否能被用來代表該有效事件。即如果一個候選事件的特征詞之間的關(guān)聯(lián)度高于該閾值,則這些特征詞就可以代表該有效事件。為了計算特征詞之間的關(guān)聯(lián)度,我們使用了一個較為通用的方法—互信息熵,即通過比較兩個特征詞的獨立概率和和聯(lián)合概率來計算出兩個特征詞之間的相關(guān)度。兩個特征詞之間的關(guān)聯(lián)度可用下式計算

      (1)

      式中:P(fti)和P(ftj)表示特征詞fti和ftj出現(xiàn)頻率。其值由包含特征詞的博客文章數(shù)量除以總文章數(shù)得到。不同于單個特征詞的出現(xiàn)概率,P(fti,ftj)表示特征詞fti和ftj同時出現(xiàn)的聯(lián)合概率,該聯(lián)合概率是用同時包含fti和ftj兩個特征詞的文章數(shù)量除以總文章數(shù)得來。

      我們應(yīng)用CKIP將文章中的詞語劃分成一個有意義的關(guān)鍵詞集。然后,通過包含特征詞匯文章數(shù)量,計算出候選特征詞匯的流行度。另外,我們使用互信息熵方法來衡量兩個特征詞之間的關(guān)聯(lián)度。

      2.1.2發(fā)現(xiàn)新事件

      在發(fā)現(xiàn)了候選事件的特征詞后,我們從CEFS中選擇兩個具有最高互信息熵值的候選特征詞作為新事件e的初始特征詞集,用Fe表示。然后我們通過式(1)給出的計算特征詞間互信息熵的方法,繼續(xù)選擇CEFS中的剩余詞匯,找到與新事件e有較強相關(guān)性的詞語。比如,對于CEFS中的一個特征詞fti,事件e與特征詞fti之間的相關(guān)度計算方法如式(2)所示

      (2)

      對于發(fā)現(xiàn)事件過程中的每一個選擇,都會選擇互信息熵值高于預(yù)設(shè)閾值η的特征詞,如果選擇的特征詞fti與事件e的信息熵值MI(e,ftj)滿足要求,則將該特征詞添加到Fe中,并將其從CEFS中移除。該過程將會反復(fù)執(zhí)行直至沒有特征詞MI值高于預(yù)設(shè)閾值時終止。最終,F(xiàn)e就成為事件e的特征詞集。當某一事件被發(fā)現(xiàn)后,同樣的操作會繼續(xù)執(zhí)行,以此來從CEFS的剩余特征詞中繼續(xù)發(fā)現(xiàn)新事件。

      2.2 事件流行度分析

      上一節(jié)介紹了如何從博文中進行事件的提取,本節(jié)將描述如何對事件的流行度進行分析,從而發(fā)現(xiàn)微博中的流行事件。如果越來越多的人關(guān)注、探討某個事件,則該事件將會在將來吸引更多人的關(guān)注。通常,當一個事件成為流行事件后,則一定會出現(xiàn)與該事件相關(guān)的流行趨勢效應(yīng)或者大量與之相關(guān)的博客文章。此外,我們也可以通過Google Insight的搜索記錄來發(fā)現(xiàn)一個受歡迎的事件,因為用戶通常通過谷歌搜索引擎來搜索他們感興趣的事件信息。一些新興的事件在一開始的時候,與之相關(guān)的文章可能很少,并且基于博客提供的信息,我們并不能發(fā)現(xiàn)這些事件是受歡迎。但是大量互聯(lián)網(wǎng)用戶可能會搜索該事件,因此我們可以通過分析他們在Google Insight中的搜索趨勢來發(fā)現(xiàn)流行事件。因此,本文在綜合分析博客信息和Google Insight搜索信息的基礎(chǔ)上進行事件趨勢分析。

      流行事件的共同特征就是會受到微博或網(wǎng)絡(luò)用戶的關(guān)注,在博文中廣泛被討論的事件即可認為是流行事件。為了識別流行事件,本文的方法是計算特征詞ft在ct時刻的流行度與均值的偏差。特征詞ft在ct時刻的預(yù)測流行度的計算公式如下所示

      (3)

      2.3 博文與事件的相關(guān)度分析

      雖然流行事件的發(fā)現(xiàn)已經(jīng)完成,但是另一個問題是如何把文章和已某流行事件相關(guān)聯(lián)起來。首先,如果文章的內(nèi)容包含了某事件的特征詞,則可認為這篇文章與這個事件相關(guān)。其次,為了進一步分析文章和事件之間的相似程度,本文使用了一種在文本分析領(lǐng)域廣泛使用的方法,即計算文檔與事件的余弦相似度,為每篇文章計算與其最相似的事件,計算方法如下式所示

      (4)

      我們提取文章的特征詞來形成該博文的詞集。每篇文章都代表一個用tf-idf方法所得到的個詞向量。wij表示在文特征詞i的權(quán)重,其計算方法如下

      wij=tfij×idfi=tfij×log2(N/n)

      (5)

      式中:tfij——在文章j中單詞i頻率,N表示在數(shù)據(jù)集中所有博文的總數(shù),n表示在文章中單詞i至少出現(xiàn)一次的博文數(shù)量。

      3 個人用戶對流行博文的偏好分析

      本節(jié)將介紹如何評估用戶對流行事件相關(guān)博文的偏好度。用戶對每個事件偏愛程度的不同是由他們的興趣所決定的;因此,對用戶興趣的歷史記錄分析將會獲得用戶的偏好。另外,由事件流行趨勢分析所得出的文章流行度得分以及文章的推送得分都被認為是預(yù)測用戶偏好的重要因素。

      由于用戶的興趣具有多樣性,因此對于一篇文章,用戶會有不同的喜好。所以我們在分析被用戶u所推送的文章和與事件e相關(guān)文章的基礎(chǔ)上,分析用戶u對于流行事件e中目標博文d的偏好。為了預(yù)測用戶對流行事件e相關(guān)博文d的偏好得分,我們考慮了3個因素:用戶u對事件e的興趣,事件e的流行度以及事件e和目標文章d的關(guān)聯(lián)度。一般來說,如果大多數(shù)被u推送的文章均與事件e相關(guān),比如,他們屬于事件e或者與事件e中的文章相似,則可以推斷用戶u是對事件e是感興趣的。我們方法的基本原理具體描述如下。向用戶u推送的文章,我們可以從用戶u對事件e相關(guān)的每篇文章的興趣權(quán)重推斷出用戶u對事件e的興趣度。對于每個與事件e相關(guān)的文章dj,我們計算用戶u對博文dj的興趣權(quán)重,記為interest(u,dj)。如果用戶已經(jīng)推送了文章d,interest(u,dj)被設(shè)置為1;否則,我們將使用文章d和由用戶u推送的所有文章之間的平均相似度作為interest(u,dj)的取值。

      4 實驗方法

      4.1 數(shù)據(jù)集

      funP(http://funp.com.tw)是一家臺灣著名社會書簽網(wǎng)站,它致力于提供社交書簽服務(wù)。funP為人們分析文章提供了一個免費的平臺,并且在用戶興趣的基礎(chǔ)上,為他們推薦博主。funP在線注冊用戶已經(jīng)達到一萬多名。funP提供的信息量巨大,包括10多個不同的類別。在所有這些類別中,“生活”類別具有最高的流行度和最大的活躍用戶數(shù),因此我們可以使用“生活”類別中的數(shù)據(jù)來驗證我們提出的方法。我們收集了關(guān)于“生活”類別的信息,包含發(fā)布者,圖片,文章信息(即標題,描述和內(nèi)容),標簽和推送信息。自2010年1月1日至2010年1月20日,在收集的數(shù)據(jù)中共計有865個注冊用戶,1350篇文章和1737個標簽。

      4.2 評估指標

      本次實驗采用的評估指標是在信息檢索及博文推薦領(lǐng)域中廣泛使用的評估指標,即精確度(precision),召回率(recall)和F1值。其中精確度表示在推薦的博文中用戶真正感興趣的比例,具體計算方法由式(7)給出。召回率表示在用戶真正感興趣的博文中正確推薦的比例,具體計算方法由式(8)給出

      (7)

      (8)

      其中,Pr(L)代表推薦并被閱讀的博文總數(shù),L代表推薦的博文總數(shù),R(L)代表用戶閱讀的博文總數(shù)。

      為了均衡準確率和召回率結(jié)果,使用F1值進行準確率和召回率加權(quán)平均,也被稱為調(diào)和平均數(shù),具體計算方法由式(9)給出

      (9)

      4.3 實驗對比方法

      為了衡量預(yù)測結(jié)果的有效性,實驗采用5種推薦策略進行對比驗證,即基于內(nèi)容的過濾、基于項目的協(xié)同過濾和基于用戶的協(xié)同推薦、矩陣分解方法和潛在狄利克雷分配模型。傳統(tǒng)的推薦方法主要在構(gòu)建用戶模型的方法中有所不同,并沒有考慮到事件的流行度這一因素。本文提出的方法通過分析流行事件并預(yù)測其流行趨勢得分,從而提高了傳統(tǒng)推薦系統(tǒng)的準確度。實驗對比算法簡介如下:

      (1)基于內(nèi)容的過濾(CBF):該推薦方法主要考慮博文與博文之間的內(nèi)容相似程度。

      (2)基于項目的協(xié)同過濾(ICF):該算法的主要思想是利用項目之間的相似程度對用戶可能喜歡某篇博文的程度進行預(yù)測。

      (3)基于用戶的協(xié)同推薦(UCF):該算法的核心思想是通過鄰居用戶的喜好進行評分的預(yù)測。具體的方法由式(10)給出,用戶之間的相似度采用皮爾遜相關(guān)系數(shù)進行計算

      (10)

      式中:Ud——在模型訓(xùn)練階段推送博文d的用戶集合。Du和Dv——由用戶u和v發(fā)表的博文集合。

      (4)矩陣分解(MF):該算法的主要思想是將用戶和博文映在一個聯(lián)合潛在特征空間中進行映射。

      (5)潛在狄利克雷分配模型(LDA):該算法的本質(zhì)是一種文檔主題生成模型。該模型假設(shè)文檔到主題與主題到詞是服從多項式分布的。

      (6)基于流行事件的過濾(PEF):基于流行事件的過濾模型主要是通過事件的流行度和用戶以往推送文章的記錄來預(yù)測用戶對目標文章的偏好得分。本文提出了一種有效的方法來識別流行事件并預(yù)測事件的流行趨勢得分。我們的方法通過綜合三方面的因素來預(yù)測用戶對目標博文的偏好得分,即用戶對事件的興趣權(quán)重,事件的流行度和與事件與目標博文的相關(guān)度。

      4.4 實驗結(jié)果分析

      不同推薦的Top-N數(shù)量下推薦模型在F1作為評估指標下的實驗對比結(jié)果由圖1給出。實驗結(jié)果可知:本文方法由于考慮到了事件偏好和流行度,因此在推薦性能上優(yōu)于傳統(tǒng)的推薦方法。并且由圖可知,ICF和MF方法性能優(yōu)于UCF,CBF和LDA方法。此外,LDA方法在大部情況下都優(yōu)于CBF方法。本文方法由于考慮到了用戶對目標博文的偏好得分,即用戶對事件的興趣權(quán)重,事件的流行度和與事件與目標博文的相關(guān)度,優(yōu)化了博文推薦模型,因此相較于傳統(tǒng)推薦方法,性能較好。實驗結(jié)果表明,當向用戶推薦博文時,事件的流行度是應(yīng)該被考慮進來的一項重要因素。

      圖1 推薦方法F1值對比結(jié)果

      5 結(jié)束語

      用戶在豐富繁雜的微博信息中快速定位自己感興趣的博文問題是國內(nèi)外各個大學(xué)、研究機構(gòu)和大型企業(yè)研究院研究的熱點和重點問題之一。在微博系統(tǒng)上,提高個性化服務(wù)是十分有必要且有難度的任務(wù)。本文提出一種融合用戶偏好與流行事件分析的微博推薦算法,推薦迎合用戶興趣的流行事件博客文章。該方法通過綜合用戶對事件的興趣權(quán)重、事件的流行度以及與事件與目標博文的相關(guān)度這3方面的因素來預(yù)測用戶對目標博文的偏好得分,優(yōu)化了博文推薦模型。本文的工作為相關(guān)個性化博文推薦問題研究提供了一種新的思路和方法。

      參考文獻:

      [1]Ozsoy MG,Onal KD,Altingovde IS.Result diversification for tweet search[C]//Web Information Systems Engineering-Wise -International Conference,2014:78-89.

      [2]Zhao S,Yao H,Zhao S,et al.Multi-modal microblog classification via multi-task learning[J].Multimedia Tools and Applications,2016,75(15):8921-8938.

      [3]Glance N,Hurst M,Tomokiyo T.Blogpulse:Automated trend discovery for weblogs[C]//WWW Workshop on the Weblogging Ecosystem Aggregation Analysis & Dynamics,2014.

      [4]Zhang G.Topic discovery,summary generation,automatic tagging,and search indexing for segments of a document[P].US9015153,2015.

      [5]Elkahky AM,Song Y,He X.A multi-view deep learning approach for cross domain user modeling in recommendation systems[C]//International Conference on World Wide Web,2015:278-288.

      [6]Subramaniyaswamy V,Pandian SC.Effective tag recommendation system based on topic ontology using Wikipedia,and WordNet[J].International Journal of Intelligent Systems,2012,27(12):1034-1048.

      [7]Kim HI.App recommendation based on characteristic similarity[J].Journal of Digital Contents Society,2012,13(4):559-565.

      [8]DING Zhaoyun,JIA Yan,ZHOU Bin.Survey of data mining for microblogs[J].Journal of Computer Research & Development,2014,51(4):691-706(in Chinese).[丁兆云,賈焰,周斌.微博數(shù)據(jù)挖掘研究綜述[J].計算機研究與發(fā)展,2014,51(4):691-706.]

      [9]Deldjoo Y,Elahi M,Quadrana M,et al.Toward effective movie recommendations based on mise-en-scène film styles[C]//Bi Conference on Italian Sigchi Chapter.ACM,2015:162-165.

      [10]Landia N.Utilising document content for tag recommendation in folksonomies[C]//ACM Conference on Recommender Systems,2012:325-328.

      [11]Shin D,Cetintas S,Lee KC,et al.Tumblr blog recommendation with boosted inductive matrix completion[C]//ACM International on Conference on Information & Knowledge Management,2015:203-212.

      猜你喜歡
      特征詞博文文章
      第一次掙錢
      細致入微的描寫讓文章熠熠生輝
      放屁文章
      基于改進TFIDF算法的郵件分類技術(shù)
      小處著眼,寫大文章
      誰和誰好
      產(chǎn)品評論文本中特征詞提取及其關(guān)聯(lián)模型構(gòu)建與應(yīng)用
      Review on Tang Wenzhi’s The Gist of Chinese Writing Gamut
      面向文本分類的特征詞選取方法研究與改進
      做好深化國企改革大文章
      眉山市| 遵义县| 喜德县| 东光县| 高阳县| 长泰县| 报价| 关岭| 蒙自县| 长武县| 渝中区| 曲水县| 基隆市| 黑水县| 枞阳县| 中阳县| 泰宁县| 八宿县| 鄄城县| 昌都县| 黑水县| 桂林市| 石门县| 彰化县| 车险| 乌鲁木齐市| 南城县| 达尔| 老河口市| 遵义县| 大石桥市| 马边| 兰溪市| 和田市| 谢通门县| 沙雅县| 武汉市| 泸溪县| 泉州市| 温泉县| 于都县|