• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      融合社區(qū)結(jié)構(gòu)和個(gè)人興趣的協(xié)同過(guò)濾推薦算法

      2018-11-17 01:47:04楊長(zhǎng)春
      關(guān)鍵詞:個(gè)人興趣正則社交

      顧 寰,楊長(zhǎng)春,吳 云,徐 筱

      (常州大學(xué) 信息科學(xué)與工程學(xué)院,江蘇 常州 213164)

      0 引 言

      推薦系統(tǒng)[1-3]中的推薦算法部分是推薦過(guò)程中重要的一步,其中協(xié)同過(guò)濾(collaborative filtering,CF)算法是當(dāng)前效果較好的推薦技術(shù)[4]。其主要思想是利用已有用戶(hù)群的歷史數(shù)據(jù)推測(cè)當(dāng)前用戶(hù)的喜好。但是協(xié)同過(guò)濾算法的缺點(diǎn)在于對(duì)數(shù)據(jù)稀疏性問(wèn)題很敏感[5]。目前,網(wǎng)上的用戶(hù)越來(lái)越多,商品種類(lèi)也越來(lái)越豐富,用戶(hù)與用戶(hù)之間購(gòu)買(mǎi)相同物品的機(jī)會(huì)越來(lái)越少,從而推薦結(jié)果出現(xiàn)了嚴(yán)重的過(guò)擬合現(xiàn)象。因此,最近的研究關(guān)注于將用戶(hù)的社交信息融入推薦算法中,減少過(guò)擬合現(xiàn)象。Li H等[6]提出的模型采用了重疊社區(qū)發(fā)現(xiàn)算法,通過(guò)調(diào)節(jié)目標(biāo)函數(shù)中的正則項(xiàng),降低所在社區(qū)中用戶(hù)間的偏好差異。Yang X等[7]提出了一種改進(jìn)SocialMF模型,增加了用戶(hù)對(duì)不同好友之間信任度的差異,但是算法將用戶(hù)的好友劃成不同的類(lèi)別,因此反而加劇了數(shù)據(jù)稀疏性問(wèn)題。郭磊等[8]也提出了一種改進(jìn)SocialMF模型,其考慮了信任具有不唯一性,基于用戶(hù)興趣和信任關(guān)系,挖掘出和目標(biāo)用戶(hù)具有相似興趣以及可信賴(lài)的新用戶(hù),并建立模型,算法中可能出現(xiàn)的缺陷還是源于沒(méi)有密集的社交關(guān)系網(wǎng)絡(luò)。郭弘毅等[9]考慮了用戶(hù)社區(qū)結(jié)構(gòu)和用戶(hù)的興趣聚類(lèi),也提出了一種改進(jìn)的SocialMF,稱(chēng)為CCMF,該算法雖然加入了用戶(hù)社區(qū)信息和用戶(hù)興趣,緩解了由于數(shù)據(jù)稀疏性帶來(lái)的推薦不準(zhǔn)確的問(wèn)題,但算法將多個(gè)用戶(hù)的興趣融合成一個(gè)總的興趣,沒(méi)有充分考慮個(gè)人的興趣,導(dǎo)致推薦精度不高。因此,本文提出了一種基于社區(qū)結(jié)構(gòu)和用戶(hù)個(gè)人興趣的協(xié)同過(guò)濾推薦算法,以達(dá)到更高的準(zhǔn)確性。

      1 個(gè)性化推薦系統(tǒng)模型

      本文采用的基于社區(qū)發(fā)現(xiàn)和用戶(hù)個(gè)人興趣的協(xié)同過(guò)濾算法的過(guò)程如下:①通過(guò)BIGCLAM算法找到用戶(hù)中存在的隱含社區(qū)結(jié)構(gòu);②根據(jù)評(píng)分?jǐn)?shù)量挑選出有經(jīng)驗(yàn)的用戶(hù),并建立這些用戶(hù)的個(gè)人興趣;③通過(guò)在目標(biāo)函數(shù)中引入新的正則項(xiàng)將社區(qū)結(jié)構(gòu)和個(gè)人興趣融合到矩陣分解模型的優(yōu)化分解過(guò)程中,獲得更好的推薦結(jié)果。

      1.1 準(zhǔn)備工作

      本文采用的符號(hào)有:U={u1,u2,…,um}為推薦系統(tǒng)中所有用戶(hù)的集合,V={v1,v2,…vn}為推薦系統(tǒng)中所有項(xiàng)目的集合,其中m為用戶(hù)總數(shù),n為項(xiàng)目總數(shù)。R=(Rij)m×n為用戶(hù)項(xiàng)目評(píng)分矩陣,其中Rij∈{1,2,3,4,5}為用戶(hù)ui對(duì)項(xiàng)目vi的評(píng)分。T=(Tij)m×m,Tij∈(0,1)為用戶(hù)的好友關(guān)系矩陣,Tij=0為用戶(hù)ui與用戶(hù)uj之間不存在好友關(guān)系。

      1.2 基于社區(qū)結(jié)構(gòu)的聚類(lèi)

      推薦系統(tǒng)中的用戶(hù)通常和好友具有相似的偏好?;谠摷僭O(shè),一些研究通過(guò)加入用戶(hù)的社交關(guān)系提升了傳統(tǒng)的協(xié)同過(guò)濾算法的準(zhǔn)確度。然而在大型的社交網(wǎng)絡(luò)中,往往會(huì)出現(xiàn)一個(gè)現(xiàn)象[10],即大多數(shù)用戶(hù)的社交關(guān)系比較稀疏,所以依賴(lài)社交關(guān)系來(lái)發(fā)現(xiàn)社交網(wǎng)絡(luò)比較困難。因此必須通過(guò)其它方式來(lái)發(fā)現(xiàn)社交網(wǎng)絡(luò)。近年來(lái),社區(qū)網(wǎng)絡(luò)發(fā)現(xiàn)領(lǐng)域的重點(diǎn)是重疊社區(qū)發(fā)現(xiàn),而其中的BIGCLAM算法是目前效果突出的重疊社區(qū)發(fā)現(xiàn)算法[11],文獻(xiàn)[6]的實(shí)驗(yàn)對(duì)比表明BIGCLAM算法相對(duì)于其它社區(qū)發(fā)現(xiàn)算法在推薦系統(tǒng)方面具有更好的效果,所以將BIGCLAM算法作為本文發(fā)現(xiàn)用戶(hù)社交網(wǎng)絡(luò)的算法。

      BIGCLAM算法將社區(qū)內(nèi)的所有用戶(hù)的評(píng)分平均值作為社區(qū)的評(píng)分值,然后將單個(gè)用戶(hù)的評(píng)分與該社區(qū)評(píng)分值相比較,作為判斷該用戶(hù)是否對(duì)該社區(qū)感興趣的標(biāo)準(zhǔn)。然而本文發(fā)現(xiàn)社區(qū)中的每個(gè)用戶(hù)對(duì)社區(qū)的貢獻(xiàn)是不同的,在社區(qū)中,擁有更多好友的用戶(hù)往往更能代表一個(gè)社區(qū),基于該假設(shè),有以下公式。

      (1)帶有權(quán)重的社區(qū)評(píng)分向量

      (1)

      (2)用戶(hù)與社區(qū)的相似度

      (2)

      式(1)和式(2)定義請(qǐng)參見(jiàn)文獻(xiàn)[9]。

      從式(1)中可以看出社區(qū)中好友越多的用戶(hù)對(duì)社區(qū)的貢獻(xiàn)度越大。

      由此,我們獲得了基于社交網(wǎng)絡(luò)結(jié)構(gòu)的用戶(hù)社區(qū)信息和每個(gè)用戶(hù)對(duì)每個(gè)社區(qū)感興趣的程度。

      1.3 用戶(hù)興趣的定義

      重疊社區(qū)發(fā)現(xiàn)算法能夠發(fā)現(xiàn)用戶(hù)中的網(wǎng)絡(luò)結(jié)構(gòu),屬于同一網(wǎng)絡(luò)結(jié)構(gòu)內(nèi)的用戶(hù)存在相同的特性。然而研究發(fā)現(xiàn),有一些用戶(hù),例如有很多打分記錄的用戶(hù)(稱(chēng)為有經(jīng)驗(yàn)的用戶(hù)),他們?cè)谶x擇的時(shí)候,很少在意別人的意見(jiàn),傳統(tǒng)的推薦算法雖然通過(guò)社區(qū)聚類(lèi)緩解了數(shù)據(jù)稀疏的現(xiàn)象,但是它們將這些用戶(hù)與其它用戶(hù)一視同仁,忽略了這些用戶(hù)的個(gè)性,造成了對(duì)這些用戶(hù)推薦的不準(zhǔn)確,因此,本文提出了融入用戶(hù)興趣的算法,該算法在傳統(tǒng)的推薦算法的基礎(chǔ)上,加入了用戶(hù)個(gè)人興趣,提高了推薦的準(zhǔn)確率。

      定義用戶(hù)興趣

      因?yàn)橛脩?hù)興趣基于用戶(hù)已打過(guò)分的項(xiàng)目,因此本文定義用戶(hù)的興趣即為用戶(hù)特征向量Du與物品特征向量Di的相似度,記為Qu,i

      Qu,i=sim(Du,Di)

      (3)

      因此用戶(hù)個(gè)人興趣可用一個(gè)條件概率分布來(lái)表示,公式如下

      (4)

      1.4 社區(qū)結(jié)構(gòu)和個(gè)人興趣的融合

      目前協(xié)同過(guò)濾算法中應(yīng)用的最為廣泛的是矩陣分解模型,其核心思想認(rèn)為用戶(hù)的興趣只受少數(shù)幾個(gè)因素的影響,因此將稀疏且高維的用戶(hù)項(xiàng)目評(píng)分矩陣R分解為兩個(gè)低維矩陣

      R≈UTV

      (5)

      其中,U∈Rk×m,V∈Rk×n,k?min(m,n)。為了得到更好的結(jié)果,需要對(duì)預(yù)測(cè)評(píng)分矩陣和原評(píng)分矩陣的誤差進(jìn)行優(yōu)化,一般采用以下式(6)

      (6)

      其中,Iij為指示函數(shù),表示用戶(hù)ui對(duì)項(xiàng)目vj是否產(chǎn)生過(guò)評(píng)分,取值為0或1。由于User-Item評(píng)分矩陣維度較高,應(yīng)當(dāng)小心謹(jǐn)慎預(yù)防過(guò)擬合現(xiàn)象,因此需要通過(guò)加入正則化項(xiàng)來(lái)避免過(guò)擬合,添加正則項(xiàng)后的公式如下

      (7)

      因此,本文提出了一個(gè)融合了雙重正則項(xiàng)的矩陣分解模型,記為PRM(personalized recommendation model)。其目標(biāo)函數(shù)如式所示

      (8)

      為了學(xué)習(xí)模型中的參數(shù),我們使用隨機(jī)梯度下降的方法來(lái)得到最優(yōu)解,相應(yīng)的公式如下

      (9)

      (10)

      通過(guò)不斷地迭代,沿梯度下降方向更新U和V中的元素直到收斂。

      2 實(shí)驗(yàn)結(jié)果與分析

      2.1 實(shí)驗(yàn)準(zhǔn)備

      本節(jié)通過(guò)實(shí)驗(yàn)來(lái)檢驗(yàn)本文提出方法的有效性。本文在真實(shí)的數(shù)據(jù)集上開(kāi)展實(shí)驗(yàn),所有的實(shí)驗(yàn)基于臺(tái)式機(jī)環(huán)境,機(jī)器配置如下:操作系統(tǒng)為Win7 64位,CPU為intel i7-4790@3.6 G,內(nèi)存為16 G。

      本文的實(shí)驗(yàn)數(shù)據(jù)來(lái)自全球最大的餐廳點(diǎn)評(píng)網(wǎng)站YELP提供的公開(kāi)數(shù)據(jù)集。該數(shù)據(jù)集內(nèi)容豐富,全部為該網(wǎng)站收集的真實(shí)用戶(hù)數(shù)據(jù),因此在推薦系統(tǒng)相關(guān)的論文中被多次使用[9]。數(shù)據(jù)集中包括的內(nèi)容有:用戶(hù)在YELP網(wǎng)站上對(duì)餐廳的評(píng)分和發(fā)表的評(píng)論,用戶(hù)之間的互動(dòng)關(guān)系以及好友關(guān)系,餐廳的風(fēng)味特色等。數(shù)據(jù)集含有8350位用戶(hù),84 652個(gè)餐廳,524 117條用戶(hù)互相關(guān)注關(guān)系,263 773條評(píng)分信息。所有數(shù)據(jù)總共分成8個(gè)種類(lèi),每個(gè)數(shù)據(jù)種類(lèi)分別按1-5的標(biāo)度進(jìn)行衡量。YELP數(shù)據(jù)集中的類(lèi)別信息統(tǒng)計(jì)數(shù)據(jù)見(jiàn)表1。

      表1 YELP數(shù)據(jù)集統(tǒng)計(jì)量

      2.2 對(duì)比算法

      為了驗(yàn)證本文提出的模型與其它模型在準(zhǔn)確率上的差異,本文選擇3種模型作為對(duì)比模型進(jìn)行詳細(xì)驗(yàn)證:

      BaseMF:該矩陣分解模型是基本的協(xié)同過(guò)濾模型,僅考慮了用戶(hù)對(duì)物品的評(píng)分信息,忽略了用戶(hù)的社交關(guān)系信息和項(xiàng)目類(lèi)別信息。

      CircleCon:在BaseMF的基礎(chǔ)上,加入了用戶(hù)與其好友的信任關(guān)系和用戶(hù)信任網(wǎng)絡(luò)信息,提高了結(jié)果的準(zhǔn)確性。

      ContextMF:該方法在傳統(tǒng)的矩陣分解的模型中,考慮了個(gè)人影響力和個(gè)人興趣,相對(duì)于傳統(tǒng)的協(xié)同過(guò)濾模型相比提升了準(zhǔn)確度。

      2.3 評(píng)價(jià)指標(biāo)

      本文使用五折交叉驗(yàn)證法。將原始數(shù)據(jù)集平均分為5組,每次先選擇數(shù)據(jù)集的4組當(dāng)作訓(xùn)練集,數(shù)據(jù)集余下的一組當(dāng)作測(cè)試集,最后取5次實(shí)驗(yàn)結(jié)果的平均值作為最終的結(jié)果。

      準(zhǔn)確性是衡量推薦算法效果好壞的關(guān)鍵指標(biāo),因此本文采用平均絕對(duì)誤差(MAE)和均方根絕對(duì)誤差(RMSE)作為評(píng)價(jià)指標(biāo)

      (11)

      (12)

      MAE和RMSE的定義請(qǐng)參見(jiàn)文獻(xiàn)[9]。MAE值和RMSE值越小表示推薦結(jié)果的準(zhǔn)確性越高。

      2.4 確定正則項(xiàng)系數(shù)λZ的值

      式(8)中正則項(xiàng)系數(shù)λZ表示用戶(hù)的社交網(wǎng)絡(luò)信息在矩陣分解模型中所占的比重,當(dāng)λZ=0時(shí)相當(dāng)于基本的矩陣分解模型。將λZ分別取值{0.0001,0.001,0.01,0.1,1}進(jìn)行實(shí)驗(yàn)。記錄當(dāng)λZ取不同值時(shí),MAE和RMSE的值的變化。

      從圖1中可以發(fā)現(xiàn),當(dāng)λZ取較小的值時(shí),MAE值和RMSE值相對(duì)較高,隨著λZ不斷增大,MAE值和RMSE值會(huì)不斷降低,當(dāng)λZ=0.01時(shí)MAE和RSME同時(shí)達(dá)到最低。λZ的值繼續(xù)增加后,MAE值和RMSE值再次升高。分析其可能原因,當(dāng)λZ取較小的值時(shí),式(8)中的推薦結(jié)果并不受社交網(wǎng)絡(luò)信息的影響,因而不能反映出社交網(wǎng)絡(luò)信息在推薦過(guò)程中起到的重要作用;而λZ取值過(guò)大時(shí),則過(guò)度放大了社交網(wǎng)絡(luò)信息在推薦過(guò)程中所起的作用,結(jié)果適得其反。

      圖1 系數(shù)λZ對(duì)準(zhǔn)確度MAE,RMSE的影響

      2.5 結(jié)果對(duì)比與分析

      (1)不同推薦算法的推薦效果對(duì)比

      根據(jù)實(shí)驗(yàn)可以得到,當(dāng)正則項(xiàng)系數(shù)λZ=0.01時(shí),本文提出的PRM算法能夠獲得最高的準(zhǔn)確率。為了進(jìn)一步評(píng)估PRM算法的有效性,本文先采用五折交叉法對(duì)本文實(shí)驗(yàn)所需算法的參數(shù)進(jìn)行驗(yàn)證確定。結(jié)果顯示,λU=λZ=0.01時(shí)效果最好,λU,λZ為常規(guī)正則項(xiàng)系數(shù)。用戶(hù)隱式特征向量維數(shù)取值等于項(xiàng)目隱式特征向量維數(shù)取值,均為15。在CircleCon算法和ContextMF算法中,社交正則項(xiàng)系數(shù)λZ分別設(shè)為0.01,0.01。在PRM中,個(gè)人興趣系數(shù)取30。最后將PRM算法與上文中提到的其它推薦算法進(jìn)行對(duì)比。

      根據(jù)圖2和圖3可知,本文提出的PRM推薦算法相對(duì)于其它推薦算法,MAE和RMSE的值更低,推薦結(jié)果更準(zhǔn)確。

      圖2 PRM算法與其它算法的MAE值對(duì)比

      圖3 PRM算法與其它算法的RMSE值對(duì)比

      分析其可能的原因,BaseMF算法由于沒(méi)有考慮用戶(hù)之間的社交關(guān)系所以推薦效果最差。CircleCon算法以用戶(hù)打過(guò)分的項(xiàng)目為依據(jù),將用戶(hù)分成不同的組別,但是在每個(gè)組別中,用戶(hù)與用戶(hù)之間的互動(dòng)不多,造成了推薦不夠準(zhǔn)確。ContextMF算法沒(méi)有同時(shí)利用用戶(hù)社交信息和項(xiàng)目的類(lèi)別信息,造成推薦結(jié)果準(zhǔn)確性不夠高。本文提出的PRM算法首先利用用戶(hù)的社區(qū)結(jié)構(gòu)信息,改善了因用戶(hù)的直接社交關(guān)系數(shù)據(jù)稀疏而造成的過(guò)擬合的問(wèn)題;然后通過(guò)加入有經(jīng)驗(yàn)用戶(hù)的個(gè)人興趣,優(yōu)化了用戶(hù)的特征向量,獲得更加準(zhǔn)確地推薦結(jié)果。

      3 結(jié)束語(yǔ)

      現(xiàn)有的基于社交關(guān)系的推薦算法雖然在緩解數(shù)據(jù)稀疏方面有很好的效果,但是它們將屬于一個(gè)組的用戶(hù)視為一個(gè)用戶(hù),學(xué)習(xí)他們共有的特征,沒(méi)有考慮一些有經(jīng)驗(yàn)用戶(hù)的個(gè)人特性,而這些用戶(hù)往往是電商網(wǎng)站重要的客戶(hù),忽視這些用戶(hù)將導(dǎo)致推薦效果不理想。為了解決這一問(wèn)題,本文提出了一種新的推薦算法,該算法先利用重疊社區(qū)發(fā)現(xiàn)算法挖掘用戶(hù)的社交關(guān)系群體,解決了數(shù)據(jù)稀疏性的問(wèn)題,然后加入經(jīng)驗(yàn)用戶(hù)的個(gè)人興趣,從而獲得更好的推薦效果。實(shí)驗(yàn)結(jié)果表明該算法比現(xiàn)有算法能夠得到更準(zhǔn)確的推薦結(jié)果。

      猜你喜歡
      個(gè)人興趣正則社交
      社交之城
      社交牛人癥該怎么治
      意林彩版(2022年2期)2022-05-03 10:25:08
      社交距離
      2018年12月大學(xué)英語(yǔ)六級(jí)作文試題評(píng)析(四)
      剩余有限Minimax可解群的4階正則自同構(gòu)
      你回避社交,真不是因?yàn)閮?nèi)向
      文苑(2018年17期)2018-11-09 01:29:28
      類(lèi)似于VNL環(huán)的環(huán)
      淺論英語(yǔ)學(xué)習(xí)動(dòng)機(jī)與自我認(rèn)同
      體育學(xué)習(xí)興趣研究新進(jìn)展
      有限秩的可解群的正則自同構(gòu)
      平阴县| 新兴县| 诏安县| 剑川县| 盈江县| 沽源县| 灌云县| 宜州市| 德惠市| 舟山市| 郧西县| 澄城县| 米脂县| 甘谷县| 石渠县| 乾安县| 中阳县| 兴安盟| 永和县| 无极县| 镇坪县| 砚山县| 贵阳市| 丹巴县| 石台县| 伊宁县| 万载县| 五河县| 英吉沙县| 资阳市| 松原市| 新疆| 江津市| 和田市| 阳新县| 会泽县| 金山区| 会东县| 威信县| 杭锦后旗| 兰州市|