基于SVMs的微博信息推送系統(tǒng)用戶興趣模型

2013-09-08 02:13:24陳盛雙何云麗

武漢理工大學(xué)學(xué)報(信息與管理工程版) 2013年4期

繆平，陳盛雙，何云麗

(武漢理工大學(xué)理學(xué)院，湖北武漢 430070)

1 研究背景

在傳統(tǒng)的網(wǎng)絡(luò)時代，信息的創(chuàng)造者更多的是一些權(quán)威的新聞機(jī)構(gòu)，而普通的互聯(lián)網(wǎng)用戶只能是信息的使用者。隨著 Web 2.0的興起，這種格局發(fā)生了變化，普通的互聯(lián)網(wǎng)用戶不再僅僅是信息的使用者，一些新興應(yīng)用的出現(xiàn)使得他們也有機(jī)會成為信息的發(fā)布者，而他們所發(fā)布的信息，特別是在一些個人信息平臺上發(fā)布的公開信息，是獲取他們作為信息發(fā)布者時發(fā)布的個性化信息的一個有效途徑［1］。在眾多的互聯(lián)網(wǎng)新興應(yīng)用中，微博就是一個非常典型的個性化信息發(fā)布平臺。因此，對于作為信息發(fā)布者的互聯(lián)網(wǎng)用戶，筆者以微博為研究環(huán)境，探討以微博用戶為個性化信息來源的面向信息發(fā)布者的自適應(yīng)信息推送技術(shù)。

對于信息瀏覽者，由于其行為難以捕捉，其個性化信息往往很難獲得。與信息發(fā)布者在互聯(lián)網(wǎng)上顯式地發(fā)布與自己興趣相關(guān)的文章等個性化信息不同，信息瀏覽者在互聯(lián)網(wǎng)活動中所留下的信息非常少(對于搜索引擎用戶而言，其查詢歷史等可以作為個性化信息，但是對于普通的網(wǎng)頁瀏覽者，這樣的信息難以獲得)，因此，對信息瀏覽者建立個性化模型顯得尤為困難。用戶當(dāng)前瀏覽內(nèi)容可以在一定程度上反映他們的興趣，如一個正在瀏覽體育主題博文的用戶對體育會有一定的興趣，在這種情況下反映出的興趣是一種即時、短暫類的興趣。盡管這類興趣與用戶長期穩(wěn)定的興趣會有所不同，但筆者認(rèn)為，對于信息推送系統(tǒng)而言，滿足用戶即時的需求也可理解為一種個性化的推送方式。因此，對于信息瀏覽者，筆者以他們當(dāng)前正在瀏覽的信息(即上下文信息)為反映他們興趣的有效渠道，探討了基于上下文分析的自適應(yīng)信息推送技術(shù)，為當(dāng)前網(wǎng)頁的瀏覽用戶提供與網(wǎng)頁內(nèi)容相關(guān)的信息。

2 博客用戶個性化建模

博客用戶個性化建模是獲知博客用戶信息、捕捉其興趣的有效方法。與普通搜索引擎用戶的個性化建模不同，在微博中通?？梢苑奖愕孬@取大量用戶發(fā)表的文本以及圖片信息，它們直接反映了用戶的興趣等個性化信息，為博客用戶的個性化建模工作提供了豐富的資源。同時，博文中還包含了大量的時間信息，可通過在個性化模型中加入時間維度，模擬用戶的興趣漂移，捕捉用戶的長期興趣和在一段時間內(nèi)的短期興趣。

基于以上考慮，通過對博文的分析，獲取用戶在長時間內(nèi)逐步形成的長期興趣和短期內(nèi)的興趣，引入衰減因子的概念，模擬人在實(shí)際生活中的興趣衰減規(guī)律，對通過文章分析得到的用戶個性化模型進(jìn)行演化。目前，針對博客用戶的個性化建模的研究工作還較少，以往針對微博的研究主要集中于博文內(nèi)容分析及用戶社區(qū)分析上。其中的內(nèi)容分析主要包括微博用戶的心情分析［2-3］、微博內(nèi)容分類［4-5］與微博的主題抽?。?］等。

2.1 個性化建模的核心思想

用戶的興趣可以分為長期和短期興趣。長期興趣代表用戶的總體偏好，是經(jīng)過長時間積累形成的，并且十分穩(wěn)定。因此，該類興趣存在一定的惰性，改變它所需要的時間和形成它所需要的時間成正比，而短期興趣則相對不穩(wěn)定，會不定期地變化。例如，在世界杯期間，用戶可能會把注意力集中在世界杯上，而世界杯結(jié)束后，他們對足球比賽的興趣便會降低。

在微博環(huán)境中可以通過分析這些微博內(nèi)容來獲取微博用戶的短期興趣。目前，利用現(xiàn)有技術(shù)了解用戶細(xì)粒度的興趣是比較困難的。筆者通過使用文本分類方法從博文級別分析微博用戶的興趣，并在某段短時間內(nèi)從每條博文中獲取用戶的短期興趣。而用戶興趣可能會由于時間的流逝而降低甚至消失，因此，筆者引入興趣衰減算法來模擬這一現(xiàn)象。

長期興趣通過分析用戶長時期內(nèi)的注冊信息、反饋信息和博文等獲得，同時短期興趣也有可能轉(zhuǎn)化為長期興趣。由于注冊信息等較難獲得，筆者根據(jù)短期興趣來對長期興趣進(jìn)行建模。

2.2 從博客文章中獲取用戶興趣

筆者采用了文本分類的方法利用博客文章獲取用戶興趣。目前已有大量的基于統(tǒng)計學(xué)和機(jī)器學(xué)習(xí)的技術(shù)應(yīng)用于文本分類，筆者用支持向量機(jī)(SVM)作為分類算法［7］，對博文進(jìn)行分類。

在分類原始的博文之前，首先進(jìn)行停用詞消除、降維處理等預(yù)處理操作。利用博文內(nèi)容獲取用戶興趣的基本思想是:由于每條博文與一個具體的時間戳相結(jié)合，為獲得t時刻用戶的興趣，可將該時刻的博文通過分類分配到預(yù)先規(guī)定的類別中，可以是一個也可以是多個，類別的分配情況即描述了用戶該時刻的興趣情況。整個過程可形式化為:給定某人微博條數(shù)m，所有微博內(nèi)容的集合 D=(d1，d2，…，dm) ，與 D 相對應(yīng)的時間戳T=(t1，t2，…，tm) ，即每條博文 di都對應(yīng)于其發(fā)布的時間ti。預(yù)先設(shè)定的類別定義為C=(c1，c2，…，cn)，通過SVM，將每條博文di分配到類別cj中，wij≥0是一個與di有關(guān)的數(shù)值，它代表文章di屬于類別cj的概率值。最終，ti時刻用戶的興趣可表示為 Ui=(wi1，wi2，…，win) 。

2.3 用戶長短期興趣建模

引入了衰減因子，用戶在ti時刻發(fā)布的博文di在當(dāng)前時間下表現(xiàn)出來的興趣可形式化為:

在當(dāng)前時間tcurrent，用戶對類別cj所表現(xiàn)出的興趣為:

對當(dāng)前時間tcurrent前發(fā)表的每條微博所表現(xiàn)出的對類別cj的用戶興趣進(jìn)行累加。用戶總的興趣建模如下:

從直觀上來講，長期興趣比較穩(wěn)定，而短期興趣容易隨時間、環(huán)境等的變化而改變，因此長期興趣的衰減周期是長于短期興趣的，分別定義hflong和hfshort為長期衰減因子和短期衰減因子，hflong大于 hfshort。

利用所有的微博內(nèi)容來獲取用戶興趣不僅費(fèi)時，同時也不能精確地模擬出用戶的興趣變化，尤其是用戶的短期興趣。筆者定義兩個閾值Tth和Nth，只有發(fā)布在Tth時刻之后的微博才被納入考慮范圍;假如在一段時間間隔內(nèi)，博文數(shù)超過了Nth，那就隨機(jī)抽取其中的Nth篇博文納入考慮范圍。給定t為滿足上述條件的最早時間戳，則當(dāng)前時間下用戶在類別cj上的短期興趣為:

短期興趣受用戶當(dāng)前偏好影響，不穩(wěn)定且變化快。但是也有一些穩(wěn)定的長期興趣包含在短期興趣中。用戶的長期興趣是基于短期興趣產(chǎn)生的，即當(dāng)短期興趣積累到一定程度就可以轉(zhuǎn)化成為長期興趣。

用戶的長期興趣建模如下:

設(shè)置閾值k，以限制某個時間段內(nèi)短期興趣模型的數(shù)量。

3 實(shí)驗(yàn)與結(jié)果討論

為驗(yàn)證以上模型的合理性，筆者設(shè)計了相應(yīng)的實(shí)驗(yàn)。利用SogouC數(shù)據(jù)集作為分類訓(xùn)練庫，對分類算法進(jìn)行訓(xùn)練。

在訓(xùn)練之前，對所有的文本文件進(jìn)行預(yù)處理，使用ICTCLAS中文自然語言處理工具對樣本進(jìn)行中文分詞處理和詞性標(biāo)注。試驗(yàn)中為了簡單，把長度超過20字節(jié)的詞都過濾掉，之后再用信息增益關(guān)鍵詞特征提取方法［8］計算詞的信息增益值，除去低于閾值的詞從而實(shí)現(xiàn)降維。

利用SVM分類器中的rainbow工具包［9］，對SogouC中的訓(xùn)練集進(jìn)行訓(xùn)練。分類器的性能用傳統(tǒng)的分類衡量辦法查準(zhǔn)率，召回率和F1進(jìn)行評估。表1為分類器的分類結(jié)果，數(shù)據(jù)表明，SVM有較高的文本分類性能。

表1 查準(zhǔn)率，召回率和F1的結(jié)果 %

衡量整體建模結(jié)果，根據(jù)經(jīng)驗(yàn)，取hfshort=10天，hflong=30天，Tth=10天，Nth=20篇，k=3。在初始收集的微博用戶及他們發(fā)布的微博中，只考慮那些每月發(fā)表多于10篇的微博用戶。對于過濾后的用戶，用興趣模型進(jìn)行分析建模，結(jié)果表明，用戶興趣能用長短期興趣模型進(jìn)行較好的建模。

此外，在對兩類不同類型的用戶，用戶A和用戶B，特別選取A為興趣較為穩(wěn)定的用戶類型而B為興趣不穩(wěn)定、變化較快的用戶類型。該實(shí)驗(yàn)將10次測試的結(jié)果記錄下來，結(jié)果分別如表2和表3所示。

表2 用戶A測試結(jié)果統(tǒng)計表

表2和表3中，系統(tǒng)推送的微博數(shù)是系統(tǒng)主動根據(jù)用戶的興趣推送給用戶的微博數(shù)，用戶感興趣的微博數(shù)是用戶對系統(tǒng)推送來的消息感興趣的條數(shù)，實(shí)際感興趣的所有微博數(shù)是指實(shí)際上用戶在測試中所有感興趣的微博數(shù)。

表3 用戶B測試結(jié)果統(tǒng)計表

將兩個類別的用戶統(tǒng)計出來的結(jié)果進(jìn)行查準(zhǔn)率、召回率及F1值的計算，結(jié)果如圖1～圖3所示。

圖1 系統(tǒng)查準(zhǔn)率的結(jié)果

圖2 系統(tǒng)召回率的結(jié)果

圖3 系統(tǒng)F1的結(jié)果

由圖1可以看出，由于A用戶的興趣相對穩(wěn)定，用戶興趣模型在更新和學(xué)習(xí)的過程中也是趨于穩(wěn)定的，而B用戶由于興趣變化較快，這樣對用戶興趣模型的更新會帶來很多噪音數(shù)據(jù)，不能很好地表現(xiàn)用戶的真實(shí)興趣。

由圖2可以看出，由于A用戶的興趣相對穩(wěn)定，其召回率也是趨于穩(wěn)定的，而B用戶的召回率波動幅度相對較大。

由圖3可以看出，A和B用戶的F1平均值基本都在70%以上且大小都很接近，這說明系統(tǒng)對興趣變化不管是快還是慢的用戶都顯現(xiàn)了較好的性能，較好地實(shí)現(xiàn)了信息推送服務(wù)，也說明了筆者提出的用戶興趣模型在構(gòu)造、更新及學(xué)習(xí)上都有較好的可行性和高效性。

［1］BELKIN N，CROFT B.Information filtering and information retrieval:two sides of the same coin［J］.Communications of ACM，1992，35(12):29-38.

［2］BHARGAVE H K.Paid placement strategies for internet search engines［C］//Proceedings of the 11th International Conference on World Wide Web.［S.l.］:［s.n.］，2002:117-123.

［3］FENG J，BHARGAVA H K.Comparison of allocation rules for paid placement advertising in search engines［C］//Proceedings of the 5th International Conference［S.l.］: ［s.n.］，2003:294-299.

［4］MCCOY S，EVERARD A.The effects of online advertising［J］.Communications of the ACM，2007，50(3):84-88.

［5］BRODER A，F(xiàn)ONTOURA M.A semantic approach to contextual advertising［C］//Proceedings of the 30th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval.［S.l.］:［s.n.］，2007:559-566.

［6］QAMRA A，TSENG B，CHANG E Y.Mining blog stories using community-based and temporal clustering［C］//Proceedings of the 15th ACM International Conference on Information and Knowledge Management.［S.l.］:［s.n.］，2006:58-67.

［7］MISHNE G，RIJKE M D.Language model mixtures for contextual Ad placement in personal blogs［C］//Proceedings of 5th International Conference on NLP(Fin-TAL).［S.l.］:［s.n.］，2006:435-446.

［8］DING X W，LIU B.The utility of linguistic rules in opinion mining［C］//Proceedings of the 30th Annual International ACM SIGIR Confernce on Research and Developmentin Information Retrieval. ［S.l.］:［s.n.］，2007:811-212.

［9］ZHOU M，HUANG C N.An efficient syntactic tagging toll for corpora［C］//Proceedings of the 15th Conference on Computational Linguistics.［S.l.］:［s.n.］，1994:949-955.