• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于SVMs的微博信息推送系統(tǒng)用戶興趣模型

      2013-09-08 02:13:24陳盛雙何云麗
      關(guān)鍵詞:博文類別個性化

      繆 平,陳盛雙,何云麗

      (武漢理工大學(xué)理學(xué)院,湖北武漢 430070)

      1 研究背景

      在傳統(tǒng)的網(wǎng)絡(luò)時代,信息的創(chuàng)造者更多的是一些權(quán)威的新聞機(jī)構(gòu),而普通的互聯(lián)網(wǎng)用戶只能是信息的使用者。隨著 Web 2.0的興起,這種格局發(fā)生了變化,普通的互聯(lián)網(wǎng)用戶不再僅僅是信息的使用者,一些新興應(yīng)用的出現(xiàn)使得他們也有機(jī)會成為信息的發(fā)布者,而他們所發(fā)布的信息,特別是在一些個人信息平臺上發(fā)布的公開信息,是獲取他們作為信息發(fā)布者時發(fā)布的個性化信息的一個有效途徑[1]。在眾多的互聯(lián)網(wǎng)新興應(yīng)用中,微博就是一個非常典型的個性化信息發(fā)布平臺。因此,對于作為信息發(fā)布者的互聯(lián)網(wǎng)用戶,筆者以微博為研究環(huán)境,探討以微博用戶為個性化信息來源的面向信息發(fā)布者的自適應(yīng)信息推送技術(shù)。

      對于信息瀏覽者,由于其行為難以捕捉,其個性化信息往往很難獲得。與信息發(fā)布者在互聯(lián)網(wǎng)上顯式地發(fā)布與自己興趣相關(guān)的文章等個性化信息不同,信息瀏覽者在互聯(lián)網(wǎng)活動中所留下的信息非常少(對于搜索引擎用戶而言,其查詢歷史等可以作為個性化信息,但是對于普通的網(wǎng)頁瀏覽者,這樣的信息難以獲得),因此,對信息瀏覽者建立個性化模型顯得尤為困難。用戶當(dāng)前瀏覽內(nèi)容可以在一定程度上反映他們的興趣,如一個正在瀏覽體育主題博文的用戶對體育會有一定的興趣,在這種情況下反映出的興趣是一種即時、短暫類的興趣。盡管這類興趣與用戶長期穩(wěn)定的興趣會有所不同,但筆者認(rèn)為,對于信息推送系統(tǒng)而言,滿足用戶即時的需求也可理解為一種個性化的推送方式。因此,對于信息瀏覽者,筆者以他們當(dāng)前正在瀏覽的信息(即上下文信息)為反映他們興趣的有效渠道,探討了基于上下文分析的自適應(yīng)信息推送技術(shù),為當(dāng)前網(wǎng)頁的瀏覽用戶提供與網(wǎng)頁內(nèi)容相關(guān)的信息。

      2 博客用戶個性化建模

      博客用戶個性化建模是獲知博客用戶信息、捕捉其興趣的有效方法。與普通搜索引擎用戶的個性化建模不同,在微博中通??梢苑奖愕孬@取大量用戶發(fā)表的文本以及圖片信息,它們直接反映了用戶的興趣等個性化信息,為博客用戶的個性化建模工作提供了豐富的資源。同時,博文中還包含了大量的時間信息,可通過在個性化模型中加入時間維度,模擬用戶的興趣漂移,捕捉用戶的長期興趣和在一段時間內(nèi)的短期興趣。

      基于以上考慮,通過對博文的分析,獲取用戶在長時間內(nèi)逐步形成的長期興趣和短期內(nèi)的興趣,引入衰減因子的概念,模擬人在實(shí)際生活中的興趣衰減規(guī)律,對通過文章分析得到的用戶個性化模型進(jìn)行演化。目前,針對博客用戶的個性化建模的研究工作還較少,以往針對微博的研究主要集中于博文內(nèi)容分析及用戶社區(qū)分析上。其中的內(nèi)容分析主要包括微博用戶的心情分析[2-3]、微博內(nèi)容分類[4-5]與微博的主題抽?。?]等。

      2.1 個性化建模的核心思想

      用戶的興趣可以分為長期和短期興趣。長期興趣代表用戶的總體偏好,是經(jīng)過長時間積累形成的,并且十分穩(wěn)定。因此,該類興趣存在一定的惰性,改變它所需要的時間和形成它所需要的時間成正比,而短期興趣則相對不穩(wěn)定,會不定期地變化。例如,在世界杯期間,用戶可能會把注意力集中在世界杯上,而世界杯結(jié)束后,他們對足球比賽的興趣便會降低。

      在微博環(huán)境中可以通過分析這些微博內(nèi)容來獲取微博用戶的短期興趣。目前,利用現(xiàn)有技術(shù)了解用戶細(xì)粒度的興趣是比較困難的。筆者通過使用文本分類方法從博文級別分析微博用戶的興趣,并在某段短時間內(nèi)從每條博文中獲取用戶的短期興趣。而用戶興趣可能會由于時間的流逝而降低甚至消失,因此,筆者引入興趣衰減算法來模擬這一現(xiàn)象。

      長期興趣通過分析用戶長時期內(nèi)的注冊信息、反饋信息和博文等獲得,同時短期興趣也有可能轉(zhuǎn)化為長期興趣。由于注冊信息等較難獲得,筆者根據(jù)短期興趣來對長期興趣進(jìn)行建模。

      2.2 從博客文章中獲取用戶興趣

      筆者采用了文本分類的方法利用博客文章獲取用戶興趣。目前已有大量的基于統(tǒng)計學(xué)和機(jī)器學(xué)習(xí)的技術(shù)應(yīng)用于文本分類,筆者用支持向量機(jī)(SVM)作為分類算法[7],對博文進(jìn)行分類。

      在分類原始的博文之前,首先進(jìn)行停用詞消除、降維處理等預(yù)處理操作。利用博文內(nèi)容獲取用戶興趣的基本思想是:由于每條博文與一個具體的時間戳相結(jié)合,為獲得t時刻用戶的興趣,可將該時刻的博文通過分類分配到預(yù)先規(guī)定的類別中,可以是一個也可以是多個,類別的分配情況即描述了用戶該時刻的興趣情況。整個過程可形式化為:給定某人微博條數(shù)m,所有微博內(nèi)容的集合 D=(d1,d2,…,dm) ,與 D 相對應(yīng)的時間戳T=(t1,t2,…,tm) ,即每條博文 di都對應(yīng)于其發(fā)布的時間ti。預(yù)先設(shè)定的類別定義為C=(c1,c2,…,cn),通過SVM,將每條博文di分配到類別cj中,wij≥0是一個與di有關(guān)的數(shù)值,它代表文章di屬于類別cj的概率值。最終,ti時刻用戶的興趣可表示為 Ui=(wi1,wi2,…,win) 。

      2.3 用戶長短期興趣建模

      引入了衰減因子,用戶在ti時刻發(fā)布的博文di在當(dāng)前時間下表現(xiàn)出來的興趣可形式化為:

      在當(dāng)前時間tcurrent,用戶對類別cj所表現(xiàn)出的興趣為:

      對當(dāng)前時間tcurrent前發(fā)表的每條微博所表現(xiàn)出的對類別cj的用戶興趣進(jìn)行累加。用戶總的興趣建模如下:

      從直觀上來講,長期興趣比較穩(wěn)定,而短期興趣容易隨時間、環(huán)境等的變化而改變,因此長期興趣的衰減周期是長于短期興趣的,分別定義hflong和hfshort為長期衰減因子和短期衰減因子,hflong大于 hfshort。

      利用所有的微博內(nèi)容來獲取用戶興趣不僅費(fèi)時,同時也不能精確地模擬出用戶的興趣變化,尤其是用戶的短期興趣。筆者定義兩個閾值Tth和Nth,只有發(fā)布在Tth時刻之后的微博才被納入考慮范圍;假如在一段時間間隔內(nèi),博文數(shù)超過了Nth,那就隨機(jī)抽取其中的Nth篇博文納入考慮范圍。給定t為滿足上述條件的最早時間戳,則當(dāng)前時間下用戶在類別cj上的短期興趣為:

      短期興趣受用戶當(dāng)前偏好影響,不穩(wěn)定且變化快。但是也有一些穩(wěn)定的長期興趣包含在短期興趣中。用戶的長期興趣是基于短期興趣產(chǎn)生的,即當(dāng)短期興趣積累到一定程度就可以轉(zhuǎn)化成為長期興趣。

      用戶的長期興趣建模如下:

      設(shè)置閾值k,以限制某個時間段內(nèi)短期興趣模型的數(shù)量。

      3 實(shí)驗(yàn)與結(jié)果討論

      為驗(yàn)證以上模型的合理性,筆者設(shè)計了相應(yīng)的實(shí)驗(yàn)。利用SogouC數(shù)據(jù)集作為分類訓(xùn)練庫,對分類算法進(jìn)行訓(xùn)練。

      在訓(xùn)練之前,對所有的文本文件進(jìn)行預(yù)處理,使用ICTCLAS中文自然語言處理工具對樣本進(jìn)行中文分詞處理和詞性標(biāo)注。試驗(yàn)中為了簡單,把長度超過20字節(jié)的詞都過濾掉,之后再用信息增益關(guān)鍵詞特征提取方法[8]計算詞的信息增益值,除去低于閾值的詞從而實(shí)現(xiàn)降維。

      利用SVM分類器中的rainbow工具包[9],對SogouC中的訓(xùn)練集進(jìn)行訓(xùn)練。分類器的性能用傳統(tǒng)的分類衡量辦法查準(zhǔn)率,召回率和F1進(jìn)行評估。表1為分類器的分類結(jié)果,數(shù)據(jù)表明,SVM有較高的文本分類性能。

      表1 查準(zhǔn)率,召回率和F1的結(jié)果 %

      衡量整體建模結(jié)果,根據(jù)經(jīng)驗(yàn),取hfshort=10天,hflong=30天,Tth=10天,Nth=20篇,k=3。在初始收集的微博用戶及他們發(fā)布的微博中,只考慮那些每月發(fā)表多于10篇的微博用戶。對于過濾后的用戶,用興趣模型進(jìn)行分析建模,結(jié)果表明,用戶興趣能用長短期興趣模型進(jìn)行較好的建模。

      此外,在對兩類不同類型的用戶,用戶A和用戶B,特別選取A為興趣較為穩(wěn)定的用戶類型而B為興趣不穩(wěn)定、變化較快的用戶類型。該實(shí)驗(yàn)將10次測試的結(jié)果記錄下來,結(jié)果分別如表2和表3所示。

      表2 用戶A測試結(jié)果統(tǒng)計表

      表2和表3中,系統(tǒng)推送的微博數(shù)是系統(tǒng)主動根據(jù)用戶的興趣推送給用戶的微博數(shù),用戶感興趣的微博數(shù)是用戶對系統(tǒng)推送來的消息感興趣的條數(shù),實(shí)際感興趣的所有微博數(shù)是指實(shí)際上用戶在測試中所有感興趣的微博數(shù)。

      表3 用戶B測試結(jié)果統(tǒng)計表

      將兩個類別的用戶統(tǒng)計出來的結(jié)果進(jìn)行查準(zhǔn)率、召回率及F1值的計算,結(jié)果如圖1~圖3所示。

      圖1 系統(tǒng)查準(zhǔn)率的結(jié)果

      圖2 系統(tǒng)召回率的結(jié)果

      圖3 系統(tǒng)F1的結(jié)果

      由圖1可以看出,由于A用戶的興趣相對穩(wěn)定,用戶興趣模型在更新和學(xué)習(xí)的過程中也是趨于穩(wěn)定的,而B用戶由于興趣變化較快,這樣對用戶興趣模型的更新會帶來很多噪音數(shù)據(jù),不能很好地表現(xiàn)用戶的真實(shí)興趣。

      由圖2可以看出,由于A用戶的興趣相對穩(wěn)定,其召回率也是趨于穩(wěn)定的,而B用戶的召回率波動幅度相對較大。

      由圖3可以看出,A和B用戶的F1平均值基本都在70%以上且大小都很接近,這說明系統(tǒng)對興趣變化不管是快還是慢的用戶都顯現(xiàn)了較好的性能,較好地實(shí)現(xiàn)了信息推送服務(wù),也說明了筆者提出的用戶興趣模型在構(gòu)造、更新及學(xué)習(xí)上都有較好的可行性和高效性。

      [1]BELKIN N,CROFT B.Information filtering and information retrieval:two sides of the same coin[J].Communications of ACM,1992,35(12):29-38.

      [2]BHARGAVE H K.Paid placement strategies for internet search engines[C]//Proceedings of the 11th International Conference on World Wide Web.[S.l.]:[s.n.],2002:117-123.

      [3]FENG J,BHARGAVA H K.Comparison of allocation rules for paid placement advertising in search engines[C]//Proceedings of the 5th International Conference[S.l.]: [s.n.],2003:294-299.

      [4]MCCOY S,EVERARD A.The effects of online advertising[J].Communications of the ACM,2007,50(3):84-88.

      [5]BRODER A,F(xiàn)ONTOURA M.A semantic approach to contextual advertising[C]//Proceedings of the 30th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval.[S.l.]:[s.n.],2007:559-566.

      [6]QAMRA A,TSENG B,CHANG E Y.Mining blog stories using community-based and temporal clustering[C]//Proceedings of the 15th ACM International Conference on Information and Knowledge Management.[S.l.]:[s.n.],2006:58-67.

      [7]MISHNE G,RIJKE M D.Language model mixtures for contextual Ad placement in personal blogs[C]//Proceedings of 5th International Conference on NLP(Fin-TAL).[S.l.]:[s.n.],2006:435-446.

      [8]DING X W,LIU B.The utility of linguistic rules in opinion mining[C]//Proceedings of the 30th Annual International ACM SIGIR Confernce on Research and Developmentin Information Retrieval. [S.l.]:[s.n.],2007:811-212.

      [9]ZHOU M,HUANG C N.An efficient syntactic tagging toll for corpora[C]//Proceedings of the 15th Conference on Computational Linguistics.[S.l.]:[s.n.],1994:949-955.

      猜你喜歡
      博文類別個性化
      第一次掙錢
      堅持個性化的寫作
      文苑(2020年4期)2020-05-30 12:35:12
      新聞的個性化寫作
      新聞傳播(2018年12期)2018-09-19 06:27:10
      誰和誰好
      上汽大通:C2B個性化定制未來
      Review on Tang Wenzhi’s The Gist of Chinese Writing Gamut
      服務(wù)類別
      新校長(2016年8期)2016-01-10 06:43:59
      滿足群眾的個性化需求
      打電話2
      論類別股東會
      商事法論集(2014年1期)2014-06-27 01:20:42
      女性| 鄂伦春自治旗| 北海市| 曲阜市| 开化县| 宁乡县| 兴海县| 东山县| 开化县| 曲水县| 菏泽市| 罗山县| 缙云县| 会宁县| 四会市| 晋宁县| 清流县| 台南县| 恩施市| 彭泽县| 富宁县| 阿巴嘎旗| 麟游县| 柳河县| 卓尼县| 凤庆县| 满洲里市| 当雄县| 蒙山县| 濮阳县| 沛县| 东平县| 温州市| 怀集县| 青浦区| 临朐县| 天镇县| 定远县| 句容市| 郓城县| 双柏县|