融合社區(qū)結(jié)構(gòu)和個(gè)人興趣的協(xié)同過(guò)濾推薦算法

2018-11-17 01:47:04楊長(zhǎng)春

計(jì)算機(jī)工程與設(shè)計(jì) 2018年11期

顧寰，楊長(zhǎng)春，吳云，徐筱

(常州大學(xué) 信息科學(xué)與工程學(xué)院，江蘇常州 213164)

0 引言

推薦系統(tǒng)[1-3]中的推薦算法部分是推薦過(guò)程中重要的一步，其中協(xié)同過(guò)濾(collaborative filtering，CF)算法是當(dāng)前效果較好的推薦技術(shù)[4]。其主要思想是利用已有用戶(hù)群的歷史數(shù)據(jù)推測(cè)當(dāng)前用戶(hù)的喜好。但是協(xié)同過(guò)濾算法的缺點(diǎn)在于對(duì)數(shù)據(jù)稀疏性問(wèn)題很敏感[5]。目前，網(wǎng)上的用戶(hù)越來(lái)越多，商品種類(lèi)也越來(lái)越豐富，用戶(hù)與用戶(hù)之間購(gòu)買(mǎi)相同物品的機(jī)會(huì)越來(lái)越少，從而推薦結(jié)果出現(xiàn)了嚴(yán)重的過(guò)擬合現(xiàn)象。因此，最近的研究關(guān)注于將用戶(hù)的社交信息融入推薦算法中，減少過(guò)擬合現(xiàn)象。Li H等[6]提出的模型采用了重疊社區(qū)發(fā)現(xiàn)算法，通過(guò)調(diào)節(jié)目標(biāo)函數(shù)中的正則項(xiàng)，降低所在社區(qū)中用戶(hù)間的偏好差異。Yang X等[7]提出了一種改進(jìn)SocialMF模型，增加了用戶(hù)對(duì)不同好友之間信任度的差異，但是算法將用戶(hù)的好友劃成不同的類(lèi)別，因此反而加劇了數(shù)據(jù)稀疏性問(wèn)題。郭磊等[8]也提出了一種改進(jìn)SocialMF模型，其考慮了信任具有不唯一性，基于用戶(hù)興趣和信任關(guān)系，挖掘出和目標(biāo)用戶(hù)具有相似興趣以及可信賴(lài)的新用戶(hù)，并建立模型，算法中可能出現(xiàn)的缺陷還是源于沒(méi)有密集的社交關(guān)系網(wǎng)絡(luò)。郭弘毅等[9]考慮了用戶(hù)社區(qū)結(jié)構(gòu)和用戶(hù)的興趣聚類(lèi)，也提出了一種改進(jìn)的SocialMF，稱(chēng)為CCMF，該算法雖然加入了用戶(hù)社區(qū)信息和用戶(hù)興趣，緩解了由于數(shù)據(jù)稀疏性帶來(lái)的推薦不準(zhǔn)確的問(wèn)題，但算法將多個(gè)用戶(hù)的興趣融合成一個(gè)總的興趣，沒(méi)有充分考慮個(gè)人的興趣，導(dǎo)致推薦精度不高。因此，本文提出了一種基于社區(qū)結(jié)構(gòu)和用戶(hù)個(gè)人興趣的協(xié)同過(guò)濾推薦算法，以達(dá)到更高的準(zhǔn)確性。

1 個(gè)性化推薦系統(tǒng)模型

本文采用的基于社區(qū)發(fā)現(xiàn)和用戶(hù)個(gè)人興趣的協(xié)同過(guò)濾算法的過(guò)程如下：①通過(guò)BIGCLAM算法找到用戶(hù)中存在的隱含社區(qū)結(jié)構(gòu)；②根據(jù)評(píng)分?jǐn)?shù)量挑選出有經(jīng)驗(yàn)的用戶(hù)，并建立這些用戶(hù)的個(gè)人興趣；③通過(guò)在目標(biāo)函數(shù)中引入新的正則項(xiàng)將社區(qū)結(jié)構(gòu)和個(gè)人興趣融合到矩陣分解模型的優(yōu)化分解過(guò)程中，獲得更好的推薦結(jié)果。

1.1 準(zhǔn)備工作

本文采用的符號(hào)有：U={u1,u2,…,um}為推薦系統(tǒng)中所有用戶(hù)的集合，V={v1,v2,…vn}為推薦系統(tǒng)中所有項(xiàng)目的集合，其中m為用戶(hù)總數(shù)，n為項(xiàng)目總數(shù)。R=(Rij)m×n為用戶(hù)項(xiàng)目評(píng)分矩陣，其中Rij∈{1,2,3,4,5}為用戶(hù)ui對(duì)項(xiàng)目vi的評(píng)分。T=(Tij)m×m,Tij∈(0,1)為用戶(hù)的好友關(guān)系矩陣，Tij=0為用戶(hù)ui與用戶(hù)uj之間不存在好友關(guān)系。

1.2 基于社區(qū)結(jié)構(gòu)的聚類(lèi)

推薦系統(tǒng)中的用戶(hù)通常和好友具有相似的偏好?；谠摷僭O(shè)，一些研究通過(guò)加入用戶(hù)的社交關(guān)系提升了傳統(tǒng)的協(xié)同過(guò)濾算法的準(zhǔn)確度。然而在大型的社交網(wǎng)絡(luò)中，往往會(huì)出現(xiàn)一個(gè)現(xiàn)象[10]，即大多數(shù)用戶(hù)的社交關(guān)系比較稀疏，所以依賴(lài)社交關(guān)系來(lái)發(fā)現(xiàn)社交網(wǎng)絡(luò)比較困難。因此必須通過(guò)其它方式來(lái)發(fā)現(xiàn)社交網(wǎng)絡(luò)。近年來(lái)，社區(qū)網(wǎng)絡(luò)發(fā)現(xiàn)領(lǐng)域的重點(diǎn)是重疊社區(qū)發(fā)現(xiàn)，而其中的BIGCLAM算法是目前效果突出的重疊社區(qū)發(fā)現(xiàn)算法[11]，文獻(xiàn)[6]的實(shí)驗(yàn)對(duì)比表明BIGCLAM算法相對(duì)于其它社區(qū)發(fā)現(xiàn)算法在推薦系統(tǒng)方面具有更好的效果，所以將BIGCLAM算法作為本文發(fā)現(xiàn)用戶(hù)社交網(wǎng)絡(luò)的算法。

BIGCLAM算法將社區(qū)內(nèi)的所有用戶(hù)的評(píng)分平均值作為社區(qū)的評(píng)分值，然后將單個(gè)用戶(hù)的評(píng)分與該社區(qū)評(píng)分值相比較，作為判斷該用戶(hù)是否對(duì)該社區(qū)感興趣的標(biāo)準(zhǔn)。然而本文發(fā)現(xiàn)社區(qū)中的每個(gè)用戶(hù)對(duì)社區(qū)的貢獻(xiàn)是不同的，在社區(qū)中，擁有更多好友的用戶(hù)往往更能代表一個(gè)社區(qū)，基于該假設(shè)，有以下公式。

(1)帶有權(quán)重的社區(qū)評(píng)分向量

(1)

(2)用戶(hù)與社區(qū)的相似度

(2)

式(1)和式(2)定義請(qǐng)參見(jiàn)文獻(xiàn)[9]。

從式(1)中可以看出社區(qū)中好友越多的用戶(hù)對(duì)社區(qū)的貢獻(xiàn)度越大。

由此，我們獲得了基于社交網(wǎng)絡(luò)結(jié)構(gòu)的用戶(hù)社區(qū)信息和每個(gè)用戶(hù)對(duì)每個(gè)社區(qū)感興趣的程度。

1.3 用戶(hù)興趣的定義

重疊社區(qū)發(fā)現(xiàn)算法能夠發(fā)現(xiàn)用戶(hù)中的網(wǎng)絡(luò)結(jié)構(gòu)，屬于同一網(wǎng)絡(luò)結(jié)構(gòu)內(nèi)的用戶(hù)存在相同的特性。然而研究發(fā)現(xiàn)，有一些用戶(hù)，例如有很多打分記錄的用戶(hù)(稱(chēng)為有經(jīng)驗(yàn)的用戶(hù))，他們?cè)谶x擇的時(shí)候，很少在意別人的意見(jiàn)，傳統(tǒng)的推薦算法雖然通過(guò)社區(qū)聚類(lèi)緩解了數(shù)據(jù)稀疏的現(xiàn)象，但是它們將這些用戶(hù)與其它用戶(hù)一視同仁，忽略了這些用戶(hù)的個(gè)性，造成了對(duì)這些用戶(hù)推薦的不準(zhǔn)確，因此，本文提出了融入用戶(hù)興趣的算法，該算法在傳統(tǒng)的推薦算法的基礎(chǔ)上，加入了用戶(hù)個(gè)人興趣，提高了推薦的準(zhǔn)確率。

定義用戶(hù)興趣

因?yàn)橛脩?hù)興趣基于用戶(hù)已打過(guò)分的項(xiàng)目，因此本文定義用戶(hù)的興趣即為用戶(hù)特征向量Du與物品特征向量Di的相似度，記為Qu,i

Qu,i=sim(Du,Di)

(3)

因此用戶(hù)個(gè)人興趣可用一個(gè)條件概率分布來(lái)表示，公式如下

(4)

1.4 社區(qū)結(jié)構(gòu)和個(gè)人興趣的融合

目前協(xié)同過(guò)濾算法中應(yīng)用的最為廣泛的是矩陣分解模型，其核心思想認(rèn)為用戶(hù)的興趣只受少數(shù)幾個(gè)因素的影響，因此將稀疏且高維的用戶(hù)項(xiàng)目評(píng)分矩陣R分解為兩個(gè)低維矩陣

R≈UTV

(5)

其中，U∈Rk×m,V∈Rk×n,k?min(m,n)。為了得到更好的結(jié)果，需要對(duì)預(yù)測(cè)評(píng)分矩陣和原評(píng)分矩陣的誤差進(jìn)行優(yōu)化，一般采用以下式(6)

(6)

其中，Iij為指示函數(shù)，表示用戶(hù)ui對(duì)項(xiàng)目vj是否產(chǎn)生過(guò)評(píng)分，取值為0或1。由于User-Item評(píng)分矩陣維度較高，應(yīng)當(dāng)小心謹(jǐn)慎預(yù)防過(guò)擬合現(xiàn)象，因此需要通過(guò)加入正則化項(xiàng)來(lái)避免過(guò)擬合，添加正則項(xiàng)后的公式如下

(7)

因此，本文提出了一個(gè)融合了雙重正則項(xiàng)的矩陣分解模型，記為PRM(personalized recommendation model)。其目標(biāo)函數(shù)如式所示

(8)

為了學(xué)習(xí)模型中的參數(shù)，我們使用隨機(jī)梯度下降的方法來(lái)得到最優(yōu)解，相應(yīng)的公式如下

(9)

(10)

通過(guò)不斷地迭代，沿梯度下降方向更新U和V中的元素直到收斂。

2 實(shí)驗(yàn)結(jié)果與分析

2.1 實(shí)驗(yàn)準(zhǔn)備

本節(jié)通過(guò)實(shí)驗(yàn)來(lái)檢驗(yàn)本文提出方法的有效性。本文在真實(shí)的數(shù)據(jù)集上開(kāi)展實(shí)驗(yàn)，所有的實(shí)驗(yàn)基于臺(tái)式機(jī)環(huán)境，機(jī)器配置如下：操作系統(tǒng)為Win7 64位，CPU為intel i7-4790@3.6 G，內(nèi)存為16 G。

本文的實(shí)驗(yàn)數(shù)據(jù)來(lái)自全球最大的餐廳點(diǎn)評(píng)網(wǎng)站YELP提供的公開(kāi)數(shù)據(jù)集。該數(shù)據(jù)集內(nèi)容豐富，全部為該網(wǎng)站收集的真實(shí)用戶(hù)數(shù)據(jù)，因此在推薦系統(tǒng)相關(guān)的論文中被多次使用[9]。數(shù)據(jù)集中包括的內(nèi)容有：用戶(hù)在YELP網(wǎng)站上對(duì)餐廳的評(píng)分和發(fā)表的評(píng)論，用戶(hù)之間的互動(dòng)關(guān)系以及好友關(guān)系，餐廳的風(fēng)味特色等。數(shù)據(jù)集含有8350位用戶(hù)，84 652個(gè)餐廳，524 117條用戶(hù)互相關(guān)注關(guān)系，263 773條評(píng)分信息。所有數(shù)據(jù)總共分成8個(gè)種類(lèi)，每個(gè)數(shù)據(jù)種類(lèi)分別按1-5的標(biāo)度進(jìn)行衡量。YELP數(shù)據(jù)集中的類(lèi)別信息統(tǒng)計(jì)數(shù)據(jù)見(jiàn)表1。

表1 YELP數(shù)據(jù)集統(tǒng)計(jì)量

2.2 對(duì)比算法

為了驗(yàn)證本文提出的模型與其它模型在準(zhǔn)確率上的差異，本文選擇3種模型作為對(duì)比模型進(jìn)行詳細(xì)驗(yàn)證：

BaseMF：該矩陣分解模型是基本的協(xié)同過(guò)濾模型，僅考慮了用戶(hù)對(duì)物品的評(píng)分信息，忽略了用戶(hù)的社交關(guān)系信息和項(xiàng)目類(lèi)別信息。

CircleCon：在BaseMF的基礎(chǔ)上，加入了用戶(hù)與其好友的信任關(guān)系和用戶(hù)信任網(wǎng)絡(luò)信息，提高了結(jié)果的準(zhǔn)確性。

ContextMF：該方法在傳統(tǒng)的矩陣分解的模型中，考慮了個(gè)人影響力和個(gè)人興趣，相對(duì)于傳統(tǒng)的協(xié)同過(guò)濾模型相比提升了準(zhǔn)確度。

2.3 評(píng)價(jià)指標(biāo)

本文使用五折交叉驗(yàn)證法。將原始數(shù)據(jù)集平均分為5組，每次先選擇數(shù)據(jù)集的4組當(dāng)作訓(xùn)練集，數(shù)據(jù)集余下的一組當(dāng)作測(cè)試集，最后取5次實(shí)驗(yàn)結(jié)果的平均值作為最終的結(jié)果。

準(zhǔn)確性是衡量推薦算法效果好壞的關(guān)鍵指標(biāo)，因此本文采用平均絕對(duì)誤差(MAE)和均方根絕對(duì)誤差(RMSE)作為評(píng)價(jià)指標(biāo)

(11)

(12)

MAE和RMSE的定義請(qǐng)參見(jiàn)文獻(xiàn)[9]。MAE值和RMSE值越小表示推薦結(jié)果的準(zhǔn)確性越高。

2.4 確定正則項(xiàng)系數(shù)λZ的值

式(8)中正則項(xiàng)系數(shù)λZ表示用戶(hù)的社交網(wǎng)絡(luò)信息在矩陣分解模型中所占的比重，當(dāng)λZ=0時(shí)相當(dāng)于基本的矩陣分解模型。將λZ分別取值{0.0001，0.001，0.01，0.1，1}進(jìn)行實(shí)驗(yàn)。記錄當(dāng)λZ取不同值時(shí)，MAE和RMSE的值的變化。

從圖1中可以發(fā)現(xiàn)，當(dāng)λZ取較小的值時(shí)，MAE值和RMSE值相對(duì)較高，隨著λZ不斷增大，MAE值和RMSE值會(huì)不斷降低，當(dāng)λZ=0.01時(shí)MAE和RSME同時(shí)達(dá)到最低。λZ的值繼續(xù)增加后，MAE值和RMSE值再次升高。分析其可能原因，當(dāng)λZ取較小的值時(shí)，式(8)中的推薦結(jié)果并不受社交網(wǎng)絡(luò)信息的影響，因而不能反映出社交網(wǎng)絡(luò)信息在推薦過(guò)程中起到的重要作用；而λZ取值過(guò)大時(shí)，則過(guò)度放大了社交網(wǎng)絡(luò)信息在推薦過(guò)程中所起的作用，結(jié)果適得其反。

圖1 系數(shù)λZ對(duì)準(zhǔn)確度MAE，RMSE的影響

2.5 結(jié)果對(duì)比與分析

(1)不同推薦算法的推薦效果對(duì)比

根據(jù)實(shí)驗(yàn)可以得到，當(dāng)正則項(xiàng)系數(shù)λZ=0.01時(shí)，本文提出的PRM算法能夠獲得最高的準(zhǔn)確率。為了進(jìn)一步評(píng)估PRM算法的有效性，本文先采用五折交叉法對(duì)本文實(shí)驗(yàn)所需算法的參數(shù)進(jìn)行驗(yàn)證確定。結(jié)果顯示，λU=λZ=0.01時(shí)效果最好，λU,λZ為常規(guī)正則項(xiàng)系數(shù)。用戶(hù)隱式特征向量維數(shù)取值等于項(xiàng)目隱式特征向量維數(shù)取值，均為15。在CircleCon算法和ContextMF算法中，社交正則項(xiàng)系數(shù)λZ分別設(shè)為0.01，0.01。在PRM中，個(gè)人興趣系數(shù)取30。最后將PRM算法與上文中提到的其它推薦算法進(jìn)行對(duì)比。

根據(jù)圖2和圖3可知，本文提出的PRM推薦算法相對(duì)于其它推薦算法，MAE和RMSE的值更低，推薦結(jié)果更準(zhǔn)確。

圖2 PRM算法與其它算法的MAE值對(duì)比

圖3 PRM算法與其它算法的RMSE值對(duì)比

分析其可能的原因，BaseMF算法由于沒(méi)有考慮用戶(hù)之間的社交關(guān)系所以推薦效果最差。CircleCon算法以用戶(hù)打過(guò)分的項(xiàng)目為依據(jù)，將用戶(hù)分成不同的組別，但是在每個(gè)組別中，用戶(hù)與用戶(hù)之間的互動(dòng)不多，造成了推薦不夠準(zhǔn)確。ContextMF算法沒(méi)有同時(shí)利用用戶(hù)社交信息和項(xiàng)目的類(lèi)別信息，造成推薦結(jié)果準(zhǔn)確性不夠高。本文提出的PRM算法首先利用用戶(hù)的社區(qū)結(jié)構(gòu)信息，改善了因用戶(hù)的直接社交關(guān)系數(shù)據(jù)稀疏而造成的過(guò)擬合的問(wèn)題；然后通過(guò)加入有經(jīng)驗(yàn)用戶(hù)的個(gè)人興趣，優(yōu)化了用戶(hù)的特征向量，獲得更加準(zhǔn)確地推薦結(jié)果。

3 結(jié)束語(yǔ)

現(xiàn)有的基于社交關(guān)系的推薦算法雖然在緩解數(shù)據(jù)稀疏方面有很好的效果，但是它們將屬于一個(gè)組的用戶(hù)視為一個(gè)用戶(hù)，學(xué)習(xí)他們共有的特征，沒(méi)有考慮一些有經(jīng)驗(yàn)用戶(hù)的個(gè)人特性，而這些用戶(hù)往往是電商網(wǎng)站重要的客戶(hù)，忽視這些用戶(hù)將導(dǎo)致推薦效果不理想。為了解決這一問(wèn)題，本文提出了一種新的推薦算法，該算法先利用重疊社區(qū)發(fā)現(xiàn)算法挖掘用戶(hù)的社交關(guān)系群體，解決了數(shù)據(jù)稀疏性的問(wèn)題，然后加入經(jīng)驗(yàn)用戶(hù)的個(gè)人興趣，從而獲得更好的推薦效果。實(shí)驗(yàn)結(jié)果表明該算法比現(xiàn)有算法能夠得到更準(zhǔn)確的推薦結(jié)果。