田保軍 楊滸昀 房建東
摘 要:針對(duì)推薦精度不準(zhǔn)確、數(shù)據(jù)稀疏、惡意推薦的問題,提出融合信任基于概率矩陣分解(PMF)的新推薦模型。首先,通過建立基于信任的協(xié)同過濾模型(CFMTS)將改進(jìn)的信任機(jī)制融入到協(xié)同過濾推薦算法中。信任值通過全局信任及局部信任計(jì)算獲得,其中局部信任利用了信任傳播機(jī)制計(jì)算用戶的直接信任值和間接信任值得到,全局信任采用信任有向圖的方式計(jì)算得到。然后,將信任值與評(píng)分相似度融合以解決數(shù)據(jù)稀疏、惡意推薦的問題。同時(shí),將CFMTS融入到PMF模型中以建立新的推薦模型——融合信任基于概率矩陣分解模型(MPMFFT),通過梯度下降算法對(duì)用戶特征向量和項(xiàng)目特征向量進(jìn)行計(jì)算以產(chǎn)生預(yù)測評(píng)分值,進(jìn)一步提高推薦系統(tǒng)的精準(zhǔn)度。通過實(shí)驗(yàn)將提出的MPMFFT與經(jīng)典的PMF、社交信息的矩陣分解(SocialMF)、社交信息的推薦(SoRec)、加權(quán)社交信息的推薦(RSTE)等模型進(jìn)行了結(jié)果的對(duì)比和分析,在公開的真實(shí)數(shù)據(jù)集Epinions上MPMFFT的平均絕對(duì)誤差(MAE)和均方根誤差(RMSE)比最優(yōu)的RSTE模型分別降低2.9%和1.5%,同時(shí)在公開的真實(shí)數(shù)據(jù)集Ciao上MPMFFT的MAE和RMSE比最優(yōu)的SocialMF模型分別降低1.1%和1.8%,結(jié)果證實(shí)了模型能在一定程度上解決數(shù)據(jù)稀疏、惡意推薦問題,有效提高推薦質(zhì)量。
關(guān)鍵詞: 推薦系統(tǒng);信任關(guān)系;概率矩陣分解;特征向量
中圖分類號(hào):TP183
文獻(xiàn)標(biāo)志碼:A
Abstract:? For the problems of low recommendation accuracy, data sparsity and malicious recommendation, a new recommendation model based on Probability Matrix Factorization (PMF) and fusing trust was proposed. Firstly, by establishing a Collaborative Filtering Model based on Trust Similarity (CFMTS), the improved trust mechanism was integrated into the collaborative filtering recommendation algorithm. The trust value was obtained through global trust and local trust calculation. The local trust was obtained by calculating the direct trust value and the indirect trust value of the user by the trust propagation mechanism, the global trust was calculated by the trust directed graph. Then, the trust value was combined with the score similarity to solve the problems of data sparsity and malicious recommendation. At the same time, CFMTS was integrated into the PMF model to establish a new recommendation model — Model based on Probability Matrix Factorization and Fusing Trust (MPMFFT).
The user feature vectors and the project feature vectors were calculated by the gradient descent algorithm to generate the predicted scores, further improving the accuracy of the recommender system. Through experiments, the proposed MPMFFT was compared with the classical models such as PMF, Social Matrix Factorization (SocialMF), Social Recommendation (SoRec) and Recommendations with Social Trust Ensemble (RSTE). The proposed model has the Mean Absolute Error (MAE) and Root Mean Squared Error (RMSE) decreased by 2.9% and 1.5% respectively compared with the optimal model RSTE on the open real dataset Epinions, and has the MAE and RMSE decreased by 1.1% and 1.8% respectively compared with the optimal SocialMF model on open real dataset Ciao, verifying that the proposed model is significantly improved on the above indicators. The results confirme that the propose model can resolve the problem of data sparseness and malicious recommendation to some extent, and effectively improved the recommendation quality.
Key words:? recommender system; trust relationship; Probability Matrix Factorization (PMF); feature vector
0 引言
隨著云計(jì)算、物聯(lián)網(wǎng)和移動(dòng)社交網(wǎng)絡(luò)等的快速發(fā)展,信息量迅速增長,中國互聯(lián)網(wǎng)絡(luò)信息中心(China Internet Network Information Center, CNNIC)在2018年7月發(fā)布信息,在《第43次中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》中統(tǒng)計(jì)的情況:截止到2018年12月,國家現(xiàn)有的網(wǎng)民的規(guī)模大約為8.29億人,比上一年增加了約5653萬網(wǎng)民,和2017年末相比較網(wǎng)民數(shù)量增加了7.3%,互聯(lián)網(wǎng)基本的普及率達(dá)到了59.6%[1]。大家在分享和利用這些數(shù)據(jù)的同時(shí),由于海量數(shù)據(jù)的出現(xiàn),用戶從互聯(lián)網(wǎng)上獲取有價(jià)值的信息越來越困難,無法將有用的信息轉(zhuǎn)為自己的需求,使得用戶對(duì)信息的利用率逐漸下降,出現(xiàn)了 “信息超載”(Information Overload)現(xiàn)象[2]。
為了讓用戶更準(zhǔn)確獲取到所需要的信息,推薦系統(tǒng)應(yīng)運(yùn)而生,推薦系統(tǒng)主要對(duì)用戶的歷史行為進(jìn)行分析,從而獲取到用戶的偏好,然后為用戶進(jìn)行推薦,推薦的內(nèi)容是個(gè)性化的。通過這樣的方法,提供給用戶的信息既有用又高效。
目前,推薦方法大致有三種:基于內(nèi)容的方法[3-4]、基于協(xié)同過濾的方法[5-8]和混合推薦方法[9-11]。本文對(duì)這三種方法的特點(diǎn)進(jìn)行了對(duì)比,見表1所示。
方法分類基本要點(diǎn)優(yōu)缺點(diǎn)基于內(nèi)容的推薦基于內(nèi)容推薦的核心是,得到推薦者的興趣偏好,按照推薦內(nèi)容與之相匹配的程度來推薦優(yōu)點(diǎn):較成熟的技術(shù),沒有冷啟動(dòng)問題;缺點(diǎn):推薦結(jié)果會(huì)受目標(biāo)用戶特征提取能力限制基于協(xié)同過濾的推薦基于協(xié)同過濾算法的核心是,通過用戶行為以及偏好,找到用戶鄰居,結(jié)合鄰居對(duì)項(xiàng)目的評(píng)分,較高的來進(jìn)行推薦優(yōu)點(diǎn):算法穩(wěn)定,對(duì)新來源的信息能較好的推薦;缺點(diǎn):普遍存在數(shù)據(jù)稀疏、可擴(kuò)展問題混合推薦混合推薦方法的核心是,獨(dú)立計(jì)算兩類推薦算法結(jié)果進(jìn)行混合。選擇不同的混合方式對(duì)其結(jié)果混合,如將預(yù)測分?jǐn)?shù)線性混合,或者設(shè)立評(píng)價(jià)標(biāo)準(zhǔn),對(duì)推薦結(jié)果進(jìn)行比較取較高優(yōu)點(diǎn):可以較好地對(duì)結(jié)合算法的缺陷補(bǔ)全,推薦結(jié)果較優(yōu);缺點(diǎn):由于結(jié)合多個(gè)算法,計(jì)算難度上升雖然推薦系統(tǒng)能夠緩解大數(shù)據(jù)下的“信息超載”問題,但是正面臨著一些嚴(yán)峻的挑戰(zhàn):第一,稀疏性問題。如何有效解決數(shù)據(jù)稀疏性問題,是協(xié)同過濾算法面臨的最主要問題。協(xié)同過濾方法僅依賴于評(píng)分?jǐn)?shù)據(jù),預(yù)測相似性或訓(xùn)練模型,而評(píng)分?jǐn)?shù)據(jù)集的極度稀疏性使得推薦結(jié)果的質(zhì)量很差。第二,惡意推薦問題。傳統(tǒng)推薦算法主要是依據(jù)評(píng)分?jǐn)?shù)據(jù)來計(jì)算用戶間相似度,這種有效相似度的前提是評(píng)分?jǐn)?shù)據(jù)是真實(shí)的、可靠的。但在實(shí)際應(yīng)用場景中,這種前提往往很難得到保證。例如:在電子商務(wù)平臺(tái),一些商家會(huì)通過各種手段給他的競爭對(duì)手肆意地進(jìn)行差評(píng),或通過其他方式(使用優(yōu)惠政策)讓用戶對(duì)其產(chǎn)品或服務(wù)予以好評(píng),如果將這些不可靠的數(shù)據(jù)直接用來給目標(biāo)用戶預(yù)測評(píng)分,將導(dǎo)致推薦系統(tǒng)的推薦質(zhì)量嚴(yán)重下降。第三,推薦精度低問題。
基于概率矩陣分解(Probability Matrix Factorization, PMF)的隱因子模型(Latent Factor Model, LFM)因具有可擴(kuò)展性好及靈活性高等諸多特點(diǎn)是目前推薦系統(tǒng)的主流模型,得到了廣泛的應(yīng)用,它可以無縫地將用戶、項(xiàng)目等特征融入到模型中,使得該模型得到較好的推薦預(yù)測準(zhǔn)確性。
1 融合信任和基于概率矩陣分解的推薦算法
1.1 信任基本模型
在用戶項(xiàng)目評(píng)分矩陣較為稀疏的情況下,結(jié)合社交網(wǎng)絡(luò)的推薦算法比傳統(tǒng)的推薦算法具有更多的優(yōu)點(diǎn),可以提高推薦的質(zhì)量。
Massa等[12]使用來自流行的互聯(lián)網(wǎng)網(wǎng)站Epionios數(shù)據(jù)集的數(shù)據(jù),采用了信任網(wǎng)絡(luò)的傳播特性,推斷其他用戶的額外權(quán)重,利用信任關(guān)系解決數(shù)據(jù)稀疏性、冷啟動(dòng)和安全性。Golbeck等[13]提出了一種在使用信任網(wǎng)絡(luò)中的連續(xù)值計(jì)算這些信任關(guān)系的算法TidalTtrust,先計(jì)算用戶的直接信任度,通過原用戶與目標(biāo)用戶之間的最短路徑,采用寬度優(yōu)先搜索的方式結(jié)合評(píng)分權(quán)值,計(jì)算出他們之間綜合的信任度。
Massa等[14]提出的MoleTrust模型的整體思路與TidalTrust模型相似,它們都是用寬度優(yōu)先搜索來迭代計(jì)算用戶間的信任度,只是MoleTrust模型在計(jì)算用戶對(duì)目標(biāo)用戶信任時(shí),搜索目標(biāo)用戶之間的路徑設(shè)置不同,參照了目標(biāo)用戶的最路徑長度。Jamali等[15]結(jié)合了信任網(wǎng)絡(luò)與協(xié)同過濾的隨機(jī)游走模型TrustWaller,為了避免隨機(jī)游走的深度增加,距離目標(biāo)用戶越來越遠(yuǎn),影響推薦精準(zhǔn)度,該隨機(jī)游走模型的深度,盡量選擇距離用戶較近的鄰居,且考慮目標(biāo)信任用戶對(duì)項(xiàng)目的評(píng)分,以及這些項(xiàng)目的相似項(xiàng)目的評(píng)分。Guo等[16]提出了三個(gè)因子相似性模型,其中基于隱式用戶反饋結(jié)合了項(xiàng)目推薦的社會(huì)信任信息。該模型引入矩陣分解技術(shù),根據(jù)用戶用戶和項(xiàng)目項(xiàng)目的相似性,計(jì)算用戶項(xiàng)目評(píng)分和未評(píng)分項(xiàng)目之間的用戶偏好,通過三個(gè)真實(shí)數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果表明,該模型可以獲得優(yōu)于其他同行的排名表現(xiàn)。Zhang等[17]提出一種基于社交網(wǎng)絡(luò)中隨機(jī)梯度矩陣分解的社會(huì)推薦模型,以提高預(yù)測精度。將社會(huì)網(wǎng)絡(luò)作為輔助信息,根據(jù)基于社會(huì)推薦模型的矩陣分解,系統(tǒng)地說明了如何利用社會(huì)正規(guī)化設(shè)計(jì)矩陣分解目標(biāo)函數(shù)。它將社交網(wǎng)絡(luò)矩陣與用戶評(píng)分矩陣結(jié)合,并提出了一種用于矩陣分解的隨機(jī)梯度下降算法,對(duì)兩個(gè)大型數(shù)據(jù)集的實(shí)證分析表明,其模型具有較低的預(yù)測誤差,并且明顯優(yōu)于其他最先進(jìn)的模型。Nazemian等[18]利用社交網(wǎng)絡(luò)中的信任信息和用戶個(gè)人數(shù)據(jù)來提供個(gè)性化推薦,提出了一個(gè)提高信任感知推薦系統(tǒng)精準(zhǔn)度的模型。在Extended Epinions數(shù)據(jù)集上進(jìn)行評(píng)估模型,這種模型可以顯著提高推薦系統(tǒng)的精準(zhǔn)度,同時(shí)不會(huì)降低推薦系統(tǒng)的覆蓋范圍。
本文將信任關(guān)系引入到推薦系統(tǒng)當(dāng)中,綜合考慮了全局和局部信任,通過信任的傳播建立了新的信任模型,充分挖掘用戶之間的信任關(guān)系,設(shè)置推薦權(quán)重,結(jié)合信任度和評(píng)分相似度來度量用戶之間的相似度,以提高推薦的可信度和準(zhǔn)確度,解決只依靠評(píng)分進(jìn)行推薦的局限性。
概率矩陣分解模型是目前推薦系統(tǒng)的研究熱點(diǎn)之一,本文將社交信任關(guān)系、評(píng)分信息融入到概率矩陣分解模型中,使用自適應(yīng)權(quán)重,動(dòng)態(tài)調(diào)整各部分的影響因子,形成高效統(tǒng)一的模型,進(jìn)一步提高了推薦系統(tǒng)的質(zhì)量。
1.2 改進(jìn)信任值的度量
通常,采用信任網(wǎng)絡(luò)有向圖的方式計(jì)算信任值。
其中用戶的局部信任網(wǎng)絡(luò)如圖1所示。
1.2.1 全局信任值全局信任值是整個(gè)信任網(wǎng)絡(luò)中的聲望或地位,也就是每個(gè)用戶在處于當(dāng)前的信任網(wǎng)絡(luò)中只擁有一個(gè)全局信任值。全局信任值的計(jì)算如式(1)所示:
其中:td(u)代表了信任網(wǎng)絡(luò)中用戶u的入度,其值代表了信任用戶u的用戶數(shù)量,該數(shù)量直接體現(xiàn)了用戶u的全局信任度;min(td (w))代表了信任網(wǎng)絡(luò)圖中,所有用戶節(jié)點(diǎn)中最小的入度,可以理解為信任關(guān)系圖中信任關(guān)系最少的用戶;max(td (w))代表了信任網(wǎng)絡(luò)中,所有用戶節(jié)點(diǎn)中最大的入度,可以理解為信任關(guān)系圖中最受用戶信賴的目標(biāo)用戶,全局信任度Gu的值是在[0,1]內(nèi)。
1.2.2 局部信任值
對(duì)于局部信任值,采用信任傳播的計(jì)算方法。MoleTrust是一種經(jīng)典的信任傳遞模型,該模型計(jì)算用戶u和用戶v間的信任值,如式(2)所示:
其中:Tuk表示用戶u對(duì)用戶k的信任度;Tkv表示用戶k對(duì)用戶v的信任度;N(u)是用戶u的鄰居集;tuv是通過信任傳遞計(jì)算得到的用戶u與用戶v的間接信任值。
MoleTrust模型雖然考慮了信任傳播特性,但忽略了信任值與信任傳播路徑的關(guān)系。因此本文在其基礎(chǔ)上進(jìn)行了改進(jìn),得到改進(jìn)后的局部信任的計(jì)算方法,如式(3)所示:
其中:d代表了在信任網(wǎng)絡(luò)中用戶u與用戶v連接最短路徑的長度,也就是通過信任傳播到達(dá)用戶v的最短距離。本文采用深度優(yōu)先算法搜索進(jìn)行計(jì)算,為了避免路徑過長,數(shù)據(jù)冗余和失真等“垃圾”數(shù)據(jù)的產(chǎn)生,根據(jù)的“六度區(qū)隔”理論[19],對(duì)d的范圍限定在區(qū)間[0,6]。
在計(jì)算全局信任值與局部信任值之后,采用加權(quán)求和的方法得到用戶u與用戶v的最終信任值,如式(4)所示:
其中:Gu表示通過式(3)得到的用戶u與用戶v的局部信任值;Luv表示通過式(1)得到的用戶u的全局信任值。
1.3 建立融合信任度與評(píng)分相似度的協(xié)同過濾模型
本文采取融合評(píng)分相似度和信任值的方法,建立了基于信任相似度的協(xié)同過濾模型(Collaborative Filtering Model based on Trust Similarity, CFMTS)。
利用皮爾遜相關(guān)系數(shù)公式計(jì)算用戶間的評(píng)分相似性,公式如下:
其中:rui表示用戶u對(duì)項(xiàng)目i的評(píng)分值;rvi表示用戶v對(duì)項(xiàng)目i的評(píng)分值項(xiàng)目i的評(píng)分值;Iuv表示用戶u與用戶v的共同評(píng)分項(xiàng)目集;Iu表示用戶u的評(píng)分項(xiàng)目集,Iv表示用戶v的評(píng)分項(xiàng)目集;ru表示用戶u所有評(píng)分項(xiàng)目的平均值;rv表示用戶v所有評(píng)分項(xiàng)目的平均值。
權(quán)衡信任度和評(píng)分相似性度對(duì)推薦結(jié)果的影響。得到用戶u和用戶v的新的相似度ωuv,可以通過式(6)計(jì)算得到:
考慮到信任值的傳遞會(huì)隨路徑的增長而減小,因此,在式(6)中的引入影響因子a,其計(jì)算方法如式(7)所示:
其中:tuvr′表示第r條路徑上用戶u與用戶v的信任值;road(u,v)表示信任網(wǎng)絡(luò)中,用戶u連接到用戶v所有路徑的集合;road(u,v)表示用戶u到用戶v之間最短路徑長度。
影響因子b的計(jì)算如式(8)所示:
1,其他(8)
其中:n為用戶u與用戶v共同打分項(xiàng)目的數(shù)量;n1是系統(tǒng)中對(duì)項(xiàng)目的最少打分?jǐn)?shù)量;n2是系統(tǒng)中對(duì)項(xiàng)目的最多打分?jǐn)?shù)量。當(dāng)用戶u和用戶v的共同打分?jǐn)?shù)量n接近n2時(shí),
說明兩個(gè)用戶的偏好程度較高。
1.4 建立基于PMF的推薦模型
基于PMF的推薦模型,由于其推薦精度高而成為學(xué)術(shù)界最流行的推薦方法之一,主要思想是通過矩陣分解技術(shù)將用戶項(xiàng)目映射到一個(gè)低維公共的隱特征空間,將用戶對(duì)某一個(gè)項(xiàng)目的評(píng)分,對(duì)應(yīng)到它們的隱向量的內(nèi)積。
本文將CFMTS融入到PMF模型中,建立了新的融合信任基于概率矩陣分解模型(Model based on Probability Matrix Factorization and Fusing Trust, MPMFFT),進(jìn)一步提高了推薦系統(tǒng)的精準(zhǔn)度。
將PMF模型分解后得到的用戶i與項(xiàng)目j的隱因子向量分別為U和V,
利用式(9)得到用戶i對(duì)項(xiàng)目j的評(píng)分:
其中: Ni表示用戶i的最近鄰居集。
那么,新推薦模型MPMFFT,用戶i對(duì)項(xiàng)目j的評(píng)分Rij 關(guān)于特征向量U、V 的條件概率分布為:
其中:U∈Rd×M和V∈Rd×N是用戶與項(xiàng)目的特征矩陣,都滿足均值為0、方差為σ2U、σ2V的高斯先驗(yàn)分布;
N(xμ,σ2R)是均值為μ、方差為σ2R的高斯分布;
IRij為指示函數(shù),如已為用戶u對(duì)項(xiàng)目i進(jìn)行了評(píng)分則為1,否則為0;g(x)=1/(1+exp(-x))是邏輯回歸函數(shù),限定用戶對(duì)項(xiàng)目的評(píng)分值,從而使得評(píng)分值轉(zhuǎn)換為[0,1]內(nèi)。
對(duì)式(10)取對(duì)數(shù)后得到式(11):
其中:C是常量,不依賴于任何參數(shù);D是對(duì)應(yīng)的潛在特征矩陣的維數(shù)。最大化式(11)的后驗(yàn)概率,等同于最小化式(12)的目標(biāo)函數(shù):
本文的實(shí)驗(yàn)設(shè)λU=λV,以降低算法的復(fù)雜度。
利用梯度下降方法對(duì)式(12)求得極小值,得到了用戶的特征向量U和項(xiàng)目的特征向量V。
其中:Ut+1i和Vt+1j表示迭代后的計(jì)算結(jié)果,Uti和Vtj為迭代之前的數(shù)值,τ為迭代步長。從而計(jì)算出用戶i對(duì)項(xiàng)目j的預(yù)測評(píng)分R^ij。
1.5 算法流程
MPMFFT的具體流程如下:
輸入 對(duì)信任的矩陣Z初始化,用戶項(xiàng)目評(píng)分矩陣R初始化(其中:用戶的數(shù)量為N,項(xiàng)目數(shù)量為M)。
輸出 對(duì)評(píng)分矩陣的預(yù)測評(píng)分R′。
1)遍歷信任整個(gè)網(wǎng)絡(luò),根據(jù)式(1)計(jì)算每個(gè)用戶全局信任度Gu;
2)遍歷信任整個(gè)網(wǎng)絡(luò),根據(jù)式(3)計(jì)算每個(gè)用戶的局部信任度Luv;
3)根據(jù)式(4)計(jì)算綜合信任度Tuv;
4)遍歷用戶集中(包含N個(gè)用戶)任意兩個(gè)用戶u與v,根據(jù)式(5)計(jì)算用戶間的相似度sim[u][v];
5)權(quán)衡信任關(guān)系和評(píng)分相似性關(guān)系對(duì)推薦結(jié)果的影響,遍歷用戶集中任意兩個(gè)用戶i與k,根據(jù)式(6)計(jì)算推薦權(quán)重ωik;
6)計(jì)算p(U,VR,σ2R,σ2U,σ2V);
7)計(jì)算ln p(U,VR,σ2R,σ2U,σ2V);
8)計(jì)算L(U,V,R,T′);
9)利用梯度下降法,根據(jù)式(13)和(14)分別計(jì)算Ui和Vj;
10)根據(jù)式(15)計(jì)算R^ij。
2 實(shí)驗(yàn)分析
2.1 實(shí)驗(yàn)環(huán)境
采用CPU 3.5 GHz Intel Core i7,1TB硬盤、內(nèi)存8GB、千兆交換機(jī);操作系統(tǒng)為Windows 7(64位);編程環(huán)境使用Anaconda 3,開發(fā)語言為Python 3.7。
2.2 實(shí)驗(yàn)評(píng)價(jià)標(biāo)準(zhǔn)
為了評(píng)價(jià)本文提出的推薦模型的質(zhì)量,采用了經(jīng)典的平均絕對(duì)偏差(Mean Absolute Error, MAE)和均方根誤差(Root Mean Squared Error, RMSE)作為評(píng)價(jià)標(biāo)準(zhǔn)。通過計(jì)算預(yù)測值和真實(shí)值之間的平均絕對(duì)偏差來反映預(yù)測結(jié)果與實(shí)際情況的偏差,所計(jì)算的MAE與RMSE值越小,則表示模型對(duì)應(yīng)的預(yù)測值和真實(shí)的評(píng)分值之間的誤差就越小,代表著推薦結(jié)果的精度就越高。
其中:T表示測試集評(píng)分記錄數(shù);Rij表示用戶i對(duì)項(xiàng)目j的真實(shí)評(píng)分;R^ij表示用戶i對(duì)項(xiàng)目j的預(yù)測評(píng)分值。
2.3 實(shí)驗(yàn)結(jié)果分析
Epinions是由Epinios.com網(wǎng)站提供的真實(shí)數(shù)據(jù)集,它是一個(gè)對(duì)文章的評(píng)論網(wǎng)站,該網(wǎng)站成立于1999年,用戶可以在文章原有評(píng)論的基礎(chǔ)上增加自己的評(píng)論,并且能夠在[1,5]內(nèi)對(duì)項(xiàng)目評(píng)分,這些評(píng)分信息和評(píng)論等行為都會(huì)被系統(tǒng)記錄,同時(shí)在其他顧客來訪時(shí)產(chǎn)生影響,而且該網(wǎng)站對(duì)每個(gè)用戶都保留了信任列表,這個(gè)列表代表著用戶與用戶之間的行為關(guān)系,其信任關(guān)系是離散且簡單的0、1有向信任關(guān)系。
Ciao(ciao.co.uk)數(shù)據(jù)集通常被用于推薦系統(tǒng)實(shí)驗(yàn),該數(shù)據(jù)集也包含了用戶對(duì)電影的評(píng)分信息,評(píng)分值均在[1,5]內(nèi),其信任關(guān)系也是0、1的有向信任關(guān)系。兩個(gè)數(shù)據(jù)集的具體信息見表2所示。
首先,評(píng)測式(9)中的參數(shù)α對(duì)本文中MPMFFT的影響。若α=1,則MPMFFT就變成概率矩陣分解模型PMF,是用戶正常喜好推薦;若α=0,則MPMFFT只通過信關(guān)系預(yù)測用戶的喜好;當(dāng)α∈(0,1)內(nèi)時(shí),MPMFFT將用戶項(xiàng)目評(píng)分矩陣R與用戶間信任關(guān)系融入到概率矩陣分解模型中,預(yù)測用戶對(duì)項(xiàng)目的評(píng)分。
1)本文將Epinions數(shù)據(jù)集進(jìn)行隨機(jī)分割,采取5折交叉驗(yàn)證和10折交叉驗(yàn)證,將其 80%和 90%作為訓(xùn)練集來計(jì)算MAE的值和RMSE的值。先假定特征矩陣的潛在維度D=20,目標(biāo)函數(shù)的迭代次數(shù)τ=40,確定了參數(shù)α的值后,再進(jìn)行實(shí)驗(yàn)對(duì)特征矩陣維度D的最優(yōu)取值。
參數(shù)α對(duì)實(shí)驗(yàn)評(píng)價(jià)標(biāo)準(zhǔn)MAE和RMSE值的影響,實(shí)驗(yàn)結(jié)果如圖2~3所示。
從圖2中,可以得出以下結(jié)論:在特征矩陣維數(shù)D=20,迭代次數(shù)τ=40的條件下,不論是將數(shù)據(jù)集的80%還是 90%作為訓(xùn)練集進(jìn)行交叉實(shí)驗(yàn),MAE的值將隨著α的值的增加而變化,總體上先下降,后上升的趨勢,MAE都在α=0.4時(shí)取得最小值。
從圖3中,可以得出以下結(jié)論:在特征矩陣維數(shù)D=20,迭代次數(shù)τ=40的條件下,不論是將數(shù)據(jù)集的80%還是 90%作為訓(xùn)練集進(jìn)行交叉實(shí)驗(yàn),RMSE的值隨著α的值得增加而變化,總體上先下降,后上升的趨勢,RMSE都在α=0.4時(shí)取得最小值。
2)通過上述實(shí)驗(yàn)的結(jié)果可知,在參數(shù)α=0.4的情況下,采取采用5折交叉驗(yàn)證以及采用10折交叉驗(yàn)證,MAE值和RMSE值均為最小值。因此,采用α=0.4,驗(yàn)證參數(shù)β對(duì)MAE值和RMSE值的影響,如圖4~5所示。
從圖4~5中能夠看出,在Ciao和Epinions數(shù)據(jù)集上,當(dāng)β為0.1 和0.3 時(shí),RMSE與MAE的評(píng)價(jià)指標(biāo)均達(dá)到最小值。
3)特征矩陣維數(shù)D對(duì)MPMFFT的影響。圖6~7為在參數(shù)α=0.4, β=0.1及迭代次數(shù)τ=40的條件下,特征矩陣維數(shù)D對(duì)MPMFFT的MAE值和RMSE值的影響。從圖6~7可看出:無論使用 80%或 90%的訓(xùn)練數(shù)據(jù),MAE值和RMSE值都是隨著特征矩陣維數(shù)D的增加而減小。還可以從圖6~7中進(jìn)一步觀察到,當(dāng)維度D大于某一閾值80時(shí),MAE和RMSE預(yù)測精準(zhǔn)度下降趨勢變得平坦。根據(jù)以上實(shí)驗(yàn)的結(jié)果,本文采用D=80。
在參數(shù)α=0.4, β=0.1,潛在特征矩陣維度D=80及迭代次數(shù)τ=40的條件下,將本文所提出的MPMFFT與4種經(jīng)典模型:PMF模型、加權(quán)社交信息的推薦(Recommendations with Social Trust Ensemble, RSTE)模型、社交信息的推薦(Social Recommendation, SoRec)模型和社交信息的矩陣分解(Social Matrix Factorization, SocialMF)模型,分別在Epinions與Ciao兩種數(shù)據(jù)集上進(jìn)行了RMSE與MAE值的比對(duì),其中,數(shù)據(jù)集中的80%作為訓(xùn)練集,20%作為測試集進(jìn)行訓(xùn)練。模型的其他參數(shù)設(shè)置見表3所示。實(shí)驗(yàn)結(jié)果如圖8~9所示。