繆 平,陳盛雙,何云麗
(武漢理工大學(xué)理學(xué)院,湖北武漢 430070)
在傳統(tǒng)的網(wǎng)絡(luò)時代,信息的創(chuàng)造者更多的是一些權(quán)威的新聞機(jī)構(gòu),而普通的互聯(lián)網(wǎng)用戶只能是信息的使用者。隨著 Web 2.0的興起,這種格局發(fā)生了變化,普通的互聯(lián)網(wǎng)用戶不再僅僅是信息的使用者,一些新興應(yīng)用的出現(xiàn)使得他們也有機(jī)會成為信息的發(fā)布者,而他們所發(fā)布的信息,特別是在一些個人信息平臺上發(fā)布的公開信息,是獲取他們作為信息發(fā)布者時發(fā)布的個性化信息的一個有效途徑[1]。在眾多的互聯(lián)網(wǎng)新興應(yīng)用中,微博就是一個非常典型的個性化信息發(fā)布平臺。因此,對于作為信息發(fā)布者的互聯(lián)網(wǎng)用戶,筆者以微博為研究環(huán)境,探討以微博用戶為個性化信息來源的面向信息發(fā)布者的自適應(yīng)信息推送技術(shù)。
對于信息瀏覽者,由于其行為難以捕捉,其個性化信息往往很難獲得。與信息發(fā)布者在互聯(lián)網(wǎng)上顯式地發(fā)布與自己興趣相關(guān)的文章等個性化信息不同,信息瀏覽者在互聯(lián)網(wǎng)活動中所留下的信息非常少(對于搜索引擎用戶而言,其查詢歷史等可以作為個性化信息,但是對于普通的網(wǎng)頁瀏覽者,這樣的信息難以獲得),因此,對信息瀏覽者建立個性化模型顯得尤為困難。用戶當(dāng)前瀏覽內(nèi)容可以在一定程度上反映他們的興趣,如一個正在瀏覽體育主題博文的用戶對體育會有一定的興趣,在這種情況下反映出的興趣是一種即時、短暫類的興趣。盡管這類興趣與用戶長期穩(wěn)定的興趣會有所不同,但筆者認(rèn)為,對于信息推送系統(tǒng)而言,滿足用戶即時的需求也可理解為一種個性化的推送方式。因此,對于信息瀏覽者,筆者以他們當(dāng)前正在瀏覽的信息(即上下文信息)為反映他們興趣的有效渠道,探討了基于上下文分析的自適應(yīng)信息推送技術(shù),為當(dāng)前網(wǎng)頁的瀏覽用戶提供與網(wǎng)頁內(nèi)容相關(guān)的信息。
博客用戶個性化建模是獲知博客用戶信息、捕捉其興趣的有效方法。與普通搜索引擎用戶的個性化建模不同,在微博中通??梢苑奖愕孬@取大量用戶發(fā)表的文本以及圖片信息,它們直接反映了用戶的興趣等個性化信息,為博客用戶的個性化建模工作提供了豐富的資源。同時,博文中還包含了大量的時間信息,可通過在個性化模型中加入時間維度,模擬用戶的興趣漂移,捕捉用戶的長期興趣和在一段時間內(nèi)的短期興趣。
基于以上考慮,通過對博文的分析,獲取用戶在長時間內(nèi)逐步形成的長期興趣和短期內(nèi)的興趣,引入衰減因子的概念,模擬人在實(shí)際生活中的興趣衰減規(guī)律,對通過文章分析得到的用戶個性化模型進(jìn)行演化。目前,針對博客用戶的個性化建模的研究工作還較少,以往針對微博的研究主要集中于博文內(nèi)容分析及用戶社區(qū)分析上。其中的內(nèi)容分析主要包括微博用戶的心情分析[2-3]、微博內(nèi)容分類[4-5]與微博的主題抽?。?]等。
用戶的興趣可以分為長期和短期興趣。長期興趣代表用戶的總體偏好,是經(jīng)過長時間積累形成的,并且十分穩(wěn)定。因此,該類興趣存在一定的惰性,改變它所需要的時間和形成它所需要的時間成正比,而短期興趣則相對不穩(wěn)定,會不定期地變化。例如,在世界杯期間,用戶可能會把注意力集中在世界杯上,而世界杯結(jié)束后,他們對足球比賽的興趣便會降低。
在微博環(huán)境中可以通過分析這些微博內(nèi)容來獲取微博用戶的短期興趣。目前,利用現(xiàn)有技術(shù)了解用戶細(xì)粒度的興趣是比較困難的。筆者通過使用文本分類方法從博文級別分析微博用戶的興趣,并在某段短時間內(nèi)從每條博文中獲取用戶的短期興趣。而用戶興趣可能會由于時間的流逝而降低甚至消失,因此,筆者引入興趣衰減算法來模擬這一現(xiàn)象。
長期興趣通過分析用戶長時期內(nèi)的注冊信息、反饋信息和博文等獲得,同時短期興趣也有可能轉(zhuǎn)化為長期興趣。由于注冊信息等較難獲得,筆者根據(jù)短期興趣來對長期興趣進(jìn)行建模。
筆者采用了文本分類的方法利用博客文章獲取用戶興趣。目前已有大量的基于統(tǒng)計學(xué)和機(jī)器學(xué)習(xí)的技術(shù)應(yīng)用于文本分類,筆者用支持向量機(jī)(SVM)作為分類算法[7],對博文進(jìn)行分類。
在分類原始的博文之前,首先進(jìn)行停用詞消除、降維處理等預(yù)處理操作。利用博文內(nèi)容獲取用戶興趣的基本思想是:由于每條博文與一個具體的時間戳相結(jié)合,為獲得t時刻用戶的興趣,可將該時刻的博文通過分類分配到預(yù)先規(guī)定的類別中,可以是一個也可以是多個,類別的分配情況即描述了用戶該時刻的興趣情況。整個過程可形式化為:給定某人微博條數(shù)m,所有微博內(nèi)容的集合 D=(d1,d2,…,dm) ,與 D 相對應(yīng)的時間戳T=(t1,t2,…,tm) ,即每條博文 di都對應(yīng)于其發(fā)布的時間ti。預(yù)先設(shè)定的類別定義為C=(c1,c2,…,cn),通過SVM,將每條博文di分配到類別cj中,wij≥0是一個與di有關(guān)的數(shù)值,它代表文章di屬于類別cj的概率值。最終,ti時刻用戶的興趣可表示為 Ui=(wi1,wi2,…,win) 。
引入了衰減因子,用戶在ti時刻發(fā)布的博文di在當(dāng)前時間下表現(xiàn)出來的興趣可形式化為:
在當(dāng)前時間tcurrent,用戶對類別cj所表現(xiàn)出的興趣為:
對當(dāng)前時間tcurrent前發(fā)表的每條微博所表現(xiàn)出的對類別cj的用戶興趣進(jìn)行累加。用戶總的興趣建模如下:
從直觀上來講,長期興趣比較穩(wěn)定,而短期興趣容易隨時間、環(huán)境等的變化而改變,因此長期興趣的衰減周期是長于短期興趣的,分別定義hflong和hfshort為長期衰減因子和短期衰減因子,hflong大于 hfshort。
利用所有的微博內(nèi)容來獲取用戶興趣不僅費(fèi)時,同時也不能精確地模擬出用戶的興趣變化,尤其是用戶的短期興趣。筆者定義兩個閾值Tth和Nth,只有發(fā)布在Tth時刻之后的微博才被納入考慮范圍;假如在一段時間間隔內(nèi),博文數(shù)超過了Nth,那就隨機(jī)抽取其中的Nth篇博文納入考慮范圍。給定t為滿足上述條件的最早時間戳,則當(dāng)前時間下用戶在類別cj上的短期興趣為:
短期興趣受用戶當(dāng)前偏好影響,不穩(wěn)定且變化快。但是也有一些穩(wěn)定的長期興趣包含在短期興趣中。用戶的長期興趣是基于短期興趣產(chǎn)生的,即當(dāng)短期興趣積累到一定程度就可以轉(zhuǎn)化成為長期興趣。
用戶的長期興趣建模如下:
設(shè)置閾值k,以限制某個時間段內(nèi)短期興趣模型的數(shù)量。
為驗(yàn)證以上模型的合理性,筆者設(shè)計了相應(yīng)的實(shí)驗(yàn)。利用SogouC數(shù)據(jù)集作為分類訓(xùn)練庫,對分類算法進(jìn)行訓(xùn)練。
在訓(xùn)練之前,對所有的文本文件進(jìn)行預(yù)處理,使用ICTCLAS中文自然語言處理工具對樣本進(jìn)行中文分詞處理和詞性標(biāo)注。試驗(yàn)中為了簡單,把長度超過20字節(jié)的詞都過濾掉,之后再用信息增益關(guān)鍵詞特征提取方法[8]計算詞的信息增益值,除去低于閾值的詞從而實(shí)現(xiàn)降維。
利用SVM分類器中的rainbow工具包[9],對SogouC中的訓(xùn)練集進(jìn)行訓(xùn)練。分類器的性能用傳統(tǒng)的分類衡量辦法查準(zhǔn)率,召回率和F1進(jìn)行評估。表1為分類器的分類結(jié)果,數(shù)據(jù)表明,SVM有較高的文本分類性能。
表1 查準(zhǔn)率,召回率和F1的結(jié)果 %
衡量整體建模結(jié)果,根據(jù)經(jīng)驗(yàn),取hfshort=10天,hflong=30天,Tth=10天,Nth=20篇,k=3。在初始收集的微博用戶及他們發(fā)布的微博中,只考慮那些每月發(fā)表多于10篇的微博用戶。對于過濾后的用戶,用興趣模型進(jìn)行分析建模,結(jié)果表明,用戶興趣能用長短期興趣模型進(jìn)行較好的建模。
此外,在對兩類不同類型的用戶,用戶A和用戶B,特別選取A為興趣較為穩(wěn)定的用戶類型而B為興趣不穩(wěn)定、變化較快的用戶類型。該實(shí)驗(yàn)將10次測試的結(jié)果記錄下來,結(jié)果分別如表2和表3所示。
表2 用戶A測試結(jié)果統(tǒng)計表
表2和表3中,系統(tǒng)推送的微博數(shù)是系統(tǒng)主動根據(jù)用戶的興趣推送給用戶的微博數(shù),用戶感興趣的微博數(shù)是用戶對系統(tǒng)推送來的消息感興趣的條數(shù),實(shí)際感興趣的所有微博數(shù)是指實(shí)際上用戶在測試中所有感興趣的微博數(shù)。
表3 用戶B測試結(jié)果統(tǒng)計表
將兩個類別的用戶統(tǒng)計出來的結(jié)果進(jìn)行查準(zhǔn)率、召回率及F1值的計算,結(jié)果如圖1~圖3所示。
圖1 系統(tǒng)查準(zhǔn)率的結(jié)果
圖2 系統(tǒng)召回率的結(jié)果
圖3 系統(tǒng)F1的結(jié)果
由圖1可以看出,由于A用戶的興趣相對穩(wěn)定,用戶興趣模型在更新和學(xué)習(xí)的過程中也是趨于穩(wěn)定的,而B用戶由于興趣變化較快,這樣對用戶興趣模型的更新會帶來很多噪音數(shù)據(jù),不能很好地表現(xiàn)用戶的真實(shí)興趣。
由圖2可以看出,由于A用戶的興趣相對穩(wěn)定,其召回率也是趨于穩(wěn)定的,而B用戶的召回率波動幅度相對較大。
由圖3可以看出,A和B用戶的F1平均值基本都在70%以上且大小都很接近,這說明系統(tǒng)對興趣變化不管是快還是慢的用戶都顯現(xiàn)了較好的性能,較好地實(shí)現(xiàn)了信息推送服務(wù),也說明了筆者提出的用戶興趣模型在構(gòu)造、更新及學(xué)習(xí)上都有較好的可行性和高效性。
[1]BELKIN N,CROFT B.Information filtering and information retrieval:two sides of the same coin[J].Communications of ACM,1992,35(12):29-38.
[2]BHARGAVE H K.Paid placement strategies for internet search engines[C]//Proceedings of the 11th International Conference on World Wide Web.[S.l.]:[s.n.],2002:117-123.
[3]FENG J,BHARGAVA H K.Comparison of allocation rules for paid placement advertising in search engines[C]//Proceedings of the 5th International Conference[S.l.]: [s.n.],2003:294-299.
[4]MCCOY S,EVERARD A.The effects of online advertising[J].Communications of the ACM,2007,50(3):84-88.
[5]BRODER A,F(xiàn)ONTOURA M.A semantic approach to contextual advertising[C]//Proceedings of the 30th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval.[S.l.]:[s.n.],2007:559-566.
[6]QAMRA A,TSENG B,CHANG E Y.Mining blog stories using community-based and temporal clustering[C]//Proceedings of the 15th ACM International Conference on Information and Knowledge Management.[S.l.]:[s.n.],2006:58-67.
[7]MISHNE G,RIJKE M D.Language model mixtures for contextual Ad placement in personal blogs[C]//Proceedings of 5th International Conference on NLP(Fin-TAL).[S.l.]:[s.n.],2006:435-446.
[8]DING X W,LIU B.The utility of linguistic rules in opinion mining[C]//Proceedings of the 30th Annual International ACM SIGIR Confernce on Research and Developmentin Information Retrieval. [S.l.]:[s.n.],2007:811-212.
[9]ZHOU M,HUANG C N.An efficient syntactic tagging toll for corpora[C]//Proceedings of the 15th Conference on Computational Linguistics.[S.l.]:[s.n.],1994:949-955.