胡朝舉+孫克逆
摘 要:推薦系統(tǒng)是根據(jù)用戶的歷史瀏覽記錄或?qū)椖康脑u分記錄,自動為用戶推送需要的信息,完成個性化推薦功能,是信息獲取領(lǐng)域非常重要的技術(shù)。首先對用戶進行模糊C均值聚類操作,將用戶分為用戶簇。將加權(quán)的歐氏距離替換傳統(tǒng)的歐氏距離計算方法,在目標用戶所在的用戶簇內(nèi)進行協(xié)同過濾推薦,得到Top-n推薦集,為用戶完成項目推薦。實驗結(jié)果表明,該方法可以提高推薦精度,減少評分誤差,提高推薦質(zhì)量,優(yōu)化推薦效果。
關(guān)鍵詞:模糊聚類;推薦系統(tǒng);協(xié)同過濾;加權(quán)歐氏距離
DOIDOI:10.11907/rjdk.172225
中圖分類號:TP301
文獻標識碼:A 文章編號:1672-7800(2018)002-0031-04
0 引言
隨著Web2.0的飛速發(fā)展,互聯(lián)網(wǎng)技術(shù)日益成熟,人類進入信息超載(Information Overload)時代。如何在爆炸的信息中獲取想要的信息,是信息時代面臨的最大挑戰(zhàn)。人們通過搜索引擎找到自己感興趣的信息[1],但搜索引擎并不能完全滿足需求,因為有時需求并不是很明確,無法通過搜索引擎搜索,于是推薦系統(tǒng)應(yīng)運而生。通過分析用戶的一些行為習慣自動給用戶推薦各種信息,且推薦內(nèi)容根據(jù)用戶的行為變化實時更新,能夠最大程度地提高用戶體驗,為用戶帶來最精準的互聯(lián)網(wǎng)信息。
當今的推薦技術(shù)中,協(xié)同過濾是最為成熟、應(yīng)用最成功的技術(shù)。該技術(shù)主要針對用戶-項目評分矩陣進行推薦[2],但該技術(shù)有很多不足,如最典型的稀疏性問題和實時性問題。由于用戶不可能對每個項目進行評分,所以當項目評分矩陣比較稀疏時,進行用戶相似度計算會產(chǎn)生較大的誤差,且在整個用戶中尋找相似用戶花費時間較長,從而影響推薦效率。
本文在進行協(xié)同過濾推薦前,首先對用戶進行聚類操作,通過模糊聚類算法把興趣愛好類似的用戶分到一類,即同一個簇中;針對待推薦用戶所在的簇,通過協(xié)同過濾算法進行用戶相似度計算,最后得到待評價項目的預測值,產(chǎn)生Top-N推薦[3]。聚類技術(shù)的引入可以縮小相似鄰居的計算范圍,從而減少推薦算法的時間。同時,本文針對聚類中距離的計算進行了改進。實驗表明本文方法可以優(yōu)化聚類效果,提高推薦質(zhì)量。
1 基于用戶模糊聚類的協(xié)同過濾推薦
1.1 模糊C-均值聚類(FCM)
模糊聚類的本質(zhì)就是針對對象的某些屬性來構(gòu)建模糊矩陣,然后通過一定的方法進行分類操作,模糊聚類算法分類比較簡單且分類效果較好。
模糊C-均值聚類(FCM)是J.C.Dunn按照E.Ruspini[4]定義的模糊劃分集合的概念,從硬C-均值聚類算法推廣得到的,最大的不同是在隸屬度uij上乘一個權(quán)重值m[5]。FCM的數(shù)學模型如下:
1.2 FCM在用戶-項目評分矩陣中的應(yīng)用
1.2.1 用戶-項目評分問題的數(shù)學模型
將模糊聚類引入評分矩陣X中,該矩陣表示n個用戶對m個項目進行評價,(xik)n表示用戶i對項目k的評分,需要根據(jù)用戶對各個項目的評分對用戶進行聚類,將用戶分為c個簇,使得同一個簇中的用戶相似性最高,并且把聚類的結(jié)果通過矩陣U表示出來,其中uki表示用戶i對用戶簇k的隸屬度。
針對用戶模糊聚類的函數(shù)為:
式(10)中:uki表示用戶i在用戶簇k中的隸屬程度,dki表示用戶i與用戶簇k的聚類中心距離(通常為歐幾里德距離),ck表示用戶簇k的中心點,即該簇的聚類點,m表示決定聚類結(jié)果模糊度的權(quán)重指數(shù),一般1.25≤m≤2.5。參考國內(nèi)外文獻和實驗,將m設(shè)為2。
本模糊聚類的基本原理為:計算用戶與各個聚類中心間的距離,通過得到的距離值計算用戶和各個聚類中心的隸屬度,通過比較隸屬度高低,將用戶分到最高的隸屬度用戶簇中,使同一個用戶簇中的用戶之間相似度最高,減少不同簇用戶之間的相似度。
所以,要求得用戶-評分模糊聚類的最優(yōu)值,只需找到最佳的聚類中心點ck,k∈1,c和各個用戶對聚類中心的隸屬度uki,i∈1,n即可。
1.2.2 FCM聚類算法
為了解得模糊聚類目標函數(shù)的最優(yōu)值,利用模糊聚類法則,在極值的約束條件[7] ∑ck=1uki=1下,求min{Jm(U,c)},構(gòu)建拉格朗日函數(shù),如式(11)所示:
1.3 基于用戶的協(xié)同過濾算法
基于用戶的協(xié)同過濾算法是分析其他用戶觀點,為目標用戶產(chǎn)生推薦[9],其基本思想是:如果某幾個用戶對項目的評分類似,則稱他們?yōu)椤班従佑脩簟?,他們之間就可能會有相同的興趣愛好,就可以把其他用戶喜歡的推薦給目標用戶。
1.3.1 用戶相似度
協(xié)同過濾算法中最主要的是用戶最近鄰查詢,本文只需在目標用戶所在簇中計算出與目標用戶最相近的鄰居,然后進行預測評分。度量兩個用戶之間的相似度需要首先獲得兩個用戶對項目的所有評分,然后通過相似度度量公式計算兩個用戶之間的相似度,記為sim(i,j),其中i,j分別代表兩個用戶。用戶相似度計算方法有很多,本文采用相關(guān)相似性來度量,計算公式如下:
1.3.2 預測評分
在利用協(xié)同過濾算法完成用戶相似性度量之后,下一步就是預測評分,利用公式(16)對目標用戶未評分的項目進行預測,將評分按降序排列,把排名前n個項目推薦給用戶。
2 相關(guān)算法改進
2.1 模糊聚類距離計算方法改進
模糊C均值算法最重要的步驟是距離計算,計算各個用戶與聚類簇中心點的距離。距離的計算方法有很多,如歐氏距離、馬氏距離、相關(guān)系數(shù)法、最小算術(shù)平均法等,其中最常用的就是歐氏距離,計算公式如下[11]:
歐氏距離使用方便,計算簡單,但是也有非常嚴重的缺陷。它將用戶對不同項目的興趣愛好視為“一般重要”,這樣不能體現(xiàn)出不同項目對不同用戶的重要程度,所以在一些情況下使用歐氏距離公式計算距離,聚類結(jié)果效果不理想。endprint
本文用加權(quán)的歐氏距離來替換傳統(tǒng)的歐氏距離,通過對不同的分量進行不同的權(quán)重分配,改進了聚類效果,計算公式如下:
式(17)中,si是對應(yīng)的方差,可將方差的倒數(shù)看作一個權(quán)重,彌補歐氏距離的缺陷,提高聚類效果。
2.2 推薦過程
首先通過模糊C均值聚類算法將用戶進行分類,然后在各個用戶簇中使用協(xié)同過濾算法進行用戶推薦,算法流程如圖1所示。
3 實驗結(jié)果及分析
3.1 數(shù)據(jù)集
本文實驗采用的數(shù)據(jù)集為MovieLens網(wǎng)站提供的電影評分數(shù)據(jù)集,該數(shù)據(jù)集包括各種用戶對各個類別電影的評分,分值為1-5,本文使用932個用戶對1538部電影超過9000次的評分數(shù)據(jù)進行實驗。將所有的數(shù)據(jù)平均分為5組,每次選擇其中4組作為訓練集,另外一組作為測試集,進行5次實驗。
本實驗采用的衡量標準為平均絕對偏差(MAE),其基本原理是通過計算整個算法對目標項目的預測值,和用戶實際評分值之間的誤差來衡量整個算法的優(yōu)劣。MAE值越低,說明推薦的準確度越高。計算公式如下:
3.2 實驗結(jié)果
對用戶進行模糊C均值聚類,采用相關(guān)相似性計算方式進行相似度計算。由于分成不同數(shù)量的簇可能會對推薦結(jié)果產(chǎn)生較大的影響,所以本實驗將分別對不同數(shù)量的聚類中心進行測試,通過與傳統(tǒng)的協(xié)同過濾以及以普通歐氏距離為聚類距離計算的算法對比,驗證本方法的優(yōu)劣。本實驗測試的聚類中心個數(shù)為5-50,間隔為5,實驗結(jié)果如圖2所示。
從圖2可以看出,隨著聚類中心的增加,MAE值呈變大的趨勢,說明推薦的精度越來越低,推薦質(zhì)量越來越差。由折線圖可以看出,本文使用加權(quán)歐氏距離推薦算法,在推薦精度上要高于傳統(tǒng)的模糊聚類推薦算法,所以本算法可以提高推薦系統(tǒng)的推薦質(zhì)量。
3.3 實驗結(jié)果分析
本實驗通過不斷的對比測試驗證本算法的優(yōu)勢,通過實驗結(jié)果可以得出,本文的推薦算法跟傳統(tǒng)的協(xié)同過濾算法以及傳統(tǒng)歐氏距離的模糊聚類推薦算法相比,在推薦精度上具有一定的提高。
因為傳統(tǒng)歐氏距離計算的是各個點之間的絕對距離,未考慮到樣本之間不同屬性的差別,所以未滿足實際需求。本文將加權(quán)的歐氏距離代替?zhèn)鹘y(tǒng)的歐氏距離計算,彌補了傳統(tǒng)歐氏距離的缺陷,提高了推薦質(zhì)量。
參考文獻:
[1] 馮剛.基于J2EE的多語種元搜索引擎的研究與實現(xiàn)[D].成都:電子科技大學,2006.
[2] 劉明.基于聚類和會話情景的混合推薦算法研究[D].武漢:華中科技大學,2013.
[3] 李華,張宇,孫俊華.基于用戶模糊聚類的協(xié)同過濾推薦研究[J].計算機科學,2012,39(12):83-86.
[4] ABBATTISTA F,DEGEMMIS M,LICCHELLI O.Improving the usability of an E-commerce web site through personalization[C].Proceedings of Workshop on Recommendation and Personalization in E-commerce,2002:231-278.
[5] 范九倫,吳成茂.FCM算法中隸屬度的新解釋及其應(yīng)用[J].電子學報,2004,32(2):350-352.
[6] 熊擁軍,劉衛(wèi)國,歐鵬杰.模糊C-均值聚類算法的優(yōu)化[J].計算機工程與應(yīng)用,2015,51(11):124-128.
[7] 張乾君.模糊聚類分析在企業(yè)競爭情報系統(tǒng)中的應(yīng)用研究[D].西安:西安電子科技大學,2011.
[8] 孫靜.基于模糊聚類的電子商務(wù)協(xié)同過濾推薦研究[D].天津:河北工業(yè)大學,2011.
[9] 薛扣平.具有可信機制的推薦系統(tǒng)及其應(yīng)用研究[D].南京:東南大學,2008.
[10] 胡斌.基于用戶和資源權(quán)重的協(xié)同過濾推薦系統(tǒng)的研究與設(shè)計[D].武漢:武漢理工大學,2009.
[11] 光俊葉,劉明霞,張道強.基于有效距離的譜聚類算法[J].計算機科學與探索,2014,8(11):1365-1372.endprint