針對修正余弦相似度改進(jìn)的協(xié)同過濾推薦算法

2021-07-16 11:40:52褚宏林劉其成牟春曉

煙臺大學(xué)學(xué)報(bào)(自然科學(xué)與工程版) 2021年3期

褚宏林,劉其成,牟春曉

(煙臺大學(xué)計(jì)算機(jī)與控制工程學(xué)院,山東煙臺 264005)

互聯(lián)網(wǎng)市場規(guī)模的不斷擴(kuò)張,使得信息過載現(xiàn)象愈發(fā)凸顯?；谟脩舻膮f(xié)同過濾推薦算法能夠?qū)Ａ繑?shù)據(jù)進(jìn)行分析,是解決信息過載問題的有效算法[1]。

當(dāng)前,各類網(wǎng)站以及APP應(yīng)用等使用基于用戶的協(xié)同過濾推薦技術(shù)為用戶提供推薦服務(wù),如何利用協(xié)同過濾推薦算法提供高效準(zhǔn)確的推薦服務(wù)也成為主要研究熱點(diǎn)[2]。目前,推薦算法仍然存在著評分預(yù)測誤差大,導(dǎo)致推薦準(zhǔn)確度低的問題[3]。大量的研究者為了解決推薦算法當(dāng)前面臨的問題,繼續(xù)優(yōu)化算法,主要從2個(gè)方向?qū)谟脩舻膮f(xié)同過濾推薦算法進(jìn)行研究。第一個(gè)方向是對協(xié)同過濾推薦算法的稀疏評分矩陣處理來進(jìn)行研究,例如通過對樣本數(shù)據(jù)生成的稀疏評分矩陣,用矩陣分解或矩陣填充等方法,對稀疏評分矩陣進(jìn)行評分預(yù)測[4]。第二個(gè)方向是不改變評分矩陣的稀疏程度,尋求在推薦算法中的計(jì)算用戶相似度部分進(jìn)行創(chuàng)新或改進(jìn)。在第一個(gè)研究方向上,對推薦算法中的稀疏矩陣處理,有學(xué)者提出將SVD奇異值分解的方法用于協(xié)同過濾推薦算法[5]。通過奇異值分解,在一定程度上解決了矩陣稀疏帶來的推薦不準(zhǔn)確問題。向小東等[6]采用slope-one算法對用戶的未評分值進(jìn)行預(yù)測并回填,避免了使用傳統(tǒng)填補(bǔ)法造成填補(bǔ)數(shù)據(jù)單一的問題,同時(shí)降低了矩陣的稀疏性。袁衛(wèi)華等[7]為了解決原始矩陣的稀疏性,首先用填充模型LR-NMF對原始矩陣的未評分項(xiàng)給予填充值,在填充后的原始評分矩陣基礎(chǔ)上,進(jìn)一步實(shí)現(xiàn)協(xié)同過濾算法。上述學(xué)者們提出的算法雖然在一定程度上提高了算法的推薦效果,但是,通過矩陣分解和矩陣填充方式會(huì)導(dǎo)致原始矩陣數(shù)據(jù)損失和難以保證對稀疏矩陣的填充具有一定的合理性等問題,同時(shí)仍然采用原有的相似度度量方法,對相似度計(jì)算這一關(guān)鍵部分并未改進(jìn)。在第二個(gè)研究方向上,大量的學(xué)者主要針對推薦算法中的相似度計(jì)算部分進(jìn)行研究,對目標(biāo)用戶進(jìn)行合理的推薦,核心問題是如何準(zhǔn)確計(jì)算用戶之間的相似度。通常用Cosine相似度[8]、Pearson相似度[9]以及Tanimoto相似度[10]等傳統(tǒng)相似度公式來實(shí)現(xiàn)用戶之間相似度的計(jì)算。文俊浩等[10]在相似度計(jì)算中考慮了共同評分項(xiàng)目和所有評分項(xiàng)目之間的關(guān)系,對Tanimoto系數(shù)進(jìn)行改進(jìn),取得了較好的效果。陳曦等[11]將用戶對共同評分項(xiàng)目時(shí)間順序的影響和用戶共同評分項(xiàng)目之間的差異信息熵進(jìn)行融合,來計(jì)算用戶的相似度。沈鍵等[12]提出了二階段相似度學(xué)習(xí)的方法,它以既約梯度法迭代尋優(yōu)的方式,來提高相似度計(jì)算精度。李容等[13]考慮共同評分項(xiàng)目數(shù)的比例和平均評分2個(gè)因素,對協(xié)同過濾推薦算法中的Pearson相似度計(jì)算方法進(jìn)行改進(jìn)。這些研究對協(xié)同過濾推薦算法中的用戶相似度計(jì)算的改進(jìn),雖然一定程度上提高了評分預(yù)測準(zhǔn)確度,但是并沒有很好地解決推薦算法相似度計(jì)算上對共同評分?jǐn)?shù)量高度依賴的問題,共同評分?jǐn)?shù)量較少時(shí)容易產(chǎn)生評分預(yù)測誤差,導(dǎo)致不能正確推薦。

本文主要在第二個(gè)研究方向上做進(jìn)一步工作,針對基于用戶的協(xié)同過濾推薦算法中的用戶相似度部分進(jìn)行改進(jìn),提出JSD-AC(Jensen-Shannon divergence Adjusted Cosine)相似度計(jì)算方法。在傳統(tǒng)的修正余弦相似度中引入熱門項(xiàng)目懲罰因子,得到改進(jìn)的修正余弦相似度公式,并將改進(jìn)的JS散度融合到改進(jìn)的修正余弦相似度中,形成新的相似度計(jì)算方法JSD-AC。在推薦算法的相似度計(jì)算部分使用本文提出的方法,得到最終的基于JSD-AC相似度的協(xié)同過濾推薦算法。

1 相關(guān)工作

1.1 協(xié)同過濾推薦算法

當(dāng)前各類推薦方法在生產(chǎn)生活中得到應(yīng)用。其中,基于用戶的協(xié)同過濾算法能夠提供較為準(zhǔn)確合理的推薦,同時(shí)算法穩(wěn)定,便于實(shí)現(xiàn),得到了大規(guī)模的使用。算法主要思想是目標(biāo)用戶利用與其最相近群體對項(xiàng)目的評分?jǐn)?shù)據(jù)進(jìn)行計(jì)算,實(shí)現(xiàn)目標(biāo)用戶對未評分項(xiàng)目的預(yù)測,并根據(jù)預(yù)測結(jié)果產(chǎn)生具體推薦。推薦算法的完整執(zhí)行流程:

(1)將數(shù)據(jù)集中用戶對項(xiàng)目的所有評分?jǐn)?shù)據(jù)構(gòu)建成一個(gè)評分矩陣。其中,m位用戶數(shù)即為矩陣行數(shù),項(xiàng)目數(shù)n表示為矩陣列數(shù),Rua,j為用戶ua對項(xiàng)目j的具體評分值。

(2)利用Rmn中每一行的評分信息計(jì)算用戶間的相似度,任意用戶ua和ub之間的相似度Sim(ua,ub)值越大,表示用戶關(guān)系越相近,得到最終相似度矩陣Sim。

(4)將每個(gè)用戶的預(yù)測值降序后并做推薦。

1.2 修正余弦相似度

修正余弦相似度是一種傳統(tǒng)的相似度度量方式,因其本身在計(jì)算用戶相似度時(shí)考慮到評分尺度這一因素,能夠避免評分習(xí)慣造成的評分偏差,使得度量相似度更加合理,更能準(zhǔn)確地挖掘出目標(biāo)用戶的相似用戶,被廣泛應(yīng)用。修正余弦相似的計(jì)算方法如下:

(2)

1.3 JS散度

JS散度在信息論中,是用來衡量不同概率分布間差異度的指標(biāo)[14]。在用戶項(xiàng)目評分矩陣中,每個(gè)用戶不同評分等級對應(yīng)的評分?jǐn)?shù)量構(gòu)成一個(gè)集合,計(jì)算出不同評分等級對應(yīng)的評分?jǐn)?shù)量集合的概率分布,利用JS散度度量不同用戶之間的概率分布差異度。

P和Q分別表示任意2個(gè)用戶評分等級的概率分布,用戶的評分等級為I=[1,2,3,…,n],i∈I,S和E分別為任意2個(gè)用戶在每個(gè)評分等級對應(yīng)的評分?jǐn)?shù)量所組成的集合,Pi表示對評分等級i的評分?jǐn)?shù)量密度:

(3)

給出KL距離公式[15],來度量任意2個(gè)概率分布P和Q的差異:

(4)

使用公式(4)中給定的計(jì)算方法,計(jì)算通過JS散度公式得到的概率分布P和Q之間的差異值,JS散度的計(jì)算方法:

(5)

2 基于改進(jìn)相似度的協(xié)同過濾算法

相似度計(jì)算是推薦算法的核心部分,能決定推薦的質(zhì)量。本文對基于用戶的協(xié)同過濾推薦算法的用戶相似度計(jì)算部分進(jìn)行了改進(jìn),提出一種計(jì)算相似度的新方法JSD-AC。相似度計(jì)算部分的改進(jìn)主要分為3步:

(1)修正余弦相似度公式的改進(jìn)。考慮到項(xiàng)目熱度對相似度計(jì)算貢獻(xiàn)度的不同,給修正余弦相似度公式添加熱門項(xiàng)目懲罰因子。

(2)改進(jìn)JS散度公式,由于JS散度計(jì)算公式本身存在未考慮用戶評分總量的不足,改進(jìn)后得到用戶評分等級概率分布的修正因子。

(3)將改進(jìn)JS散度之后得到的概率分布修正因子和第一步改進(jìn)之后的修正余弦公式進(jìn)行融合,形成新的相似度公式JSD-AC。

最終將JSD-AC方法應(yīng)用到基于用戶的協(xié)同過濾推薦算法的相似度計(jì)算部分中。

2.1 修正余弦相似度的改進(jìn)

計(jì)算用戶相似度時(shí),熱門項(xiàng)目對用戶相似度計(jì)算貢獻(xiàn)較小,冷門項(xiàng)目對用戶相似度計(jì)算貢獻(xiàn)較大,因此,在修正余弦相似度公式中考慮項(xiàng)目熱度對計(jì)算用戶之間相似度的影響這一因素,能夠更加準(zhǔn)確地度量用戶之間的相似關(guān)系。

對于熱門項(xiàng)目,多數(shù)人都會(huì)了解并評分,很難反映是否符合用戶興趣,冷門小眾項(xiàng)目更能反映用戶興趣度。因此,在修正余弦相似度中引入熱門項(xiàng)目懲罰因子,弱化熱門項(xiàng)目在相似度計(jì)算中的貢獻(xiàn),強(qiáng)化冷門評分較少項(xiàng)目在相似度計(jì)算中的貢獻(xiàn)。針對每個(gè)不同項(xiàng)目熱度,最直觀的評價(jià)指標(biāo)是評分?jǐn)?shù)量,評分?jǐn)?shù)量多反映項(xiàng)目熱度高,反之則低。

修正余弦相似度公式分子計(jì)算的是用戶a和b共同的評分項(xiàng)目,給每一個(gè)共同評分項(xiàng)目根據(jù)項(xiàng)目熱度增加一個(gè)懲罰因子,項(xiàng)目t評分?jǐn)?shù)量計(jì)數(shù)表示為countt,給項(xiàng)目評分過的用戶總數(shù)記為total,懲罰因子punt公式:

(6)

在式(2)的基礎(chǔ)上改進(jìn)后,用戶a和b之間的相似度表示為Simco(a,b):

(7)

改進(jìn)后的修正余弦相似度偽代碼如下:

輸入:用戶a和b的評分向量

輸出:Simco(a,b)

(1) for eacht∈[1,2,…,k] do

(2) countt=length(t);

(4) end for

(5) Simco(a,b);

2.2 JS散度的改進(jìn)

JS散度可以不受共同評分?jǐn)?shù)量的影響,從概率分布的角度衡量用戶之間的差異度。為了能將JS散度得到的差異度結(jié)果表示為用戶之間概率分布的相似度,需要將JS散度公式求得的差異度結(jié)果歸一化成衡量用戶之間概率分布的相似度結(jié)果,對公式(5)進(jìn)行歸一化,歸一化后用戶概率分布相似度Simjs(a,b)表示為

Simjs(a,b)=1-JS(P,Q)。

(8)

其中:JS (P,Q)取值范圍是[0,1],P和Q為用戶a和b對應(yīng)的評分等級概率分布。

公式(8)衡量出的概率分布相似度沒有考慮用戶a和用戶b各自總的評分?jǐn)?shù)量之間的差異,當(dāng)用戶a和用戶b之間各評分總量差異越大時(shí),會(huì)導(dǎo)致公式(8)衡量出的用戶a和b之間的概率分布不準(zhǔn)確,因此需要考慮用戶a和b之間評分總量的差異這一因素。例如,評分等級為1,2,3,4,5任意數(shù)值,0表示用戶未評分的部分,對于用戶a、用戶b和用戶c,評分集合分別為{1,1,4,4,4,1,1,1,4,4},{4,0,1,0,0,0,0,0,0,0},{1,1,4,4,4,4,1,1,1,4},3位用戶評分等級為1和4時(shí)的概率密度值都為1/2,概率分布集合都為{0,1/2,0,1/2,0},概率分布相同,因此,通過JS散度公式度量出的用戶a和用戶b之間的概率分布相似度都為1；但實(shí)際上,在概率統(tǒng)計(jì)中,大樣本數(shù)據(jù)比小樣本數(shù)據(jù)有更高的參考價(jià)值以及可信度,用戶b的評分?jǐn)?shù)量的總量少,參考價(jià)值低,用戶a比用戶b更相似于用戶c。因此,考慮評分?jǐn)?shù)量的影響,通過評分?jǐn)?shù)量之間的差異度,進(jìn)一步弱化評分?jǐn)?shù)量差異對概率分布計(jì)算的影響。

統(tǒng)計(jì)任意用戶a和b各自的評分總量為m1和m2,用戶a和b之間總的評分?jǐn)?shù)量差異用Dif表示,公式如下:

(9)

將公式(9)得到的用戶之間評分總數(shù)的差異值作為約束條件,對公式(8)改進(jìn),用戶a和用戶b之間的概率分布修正因子為

公式(10)得到G(a,b)作為概率分布修正因子,可以融合到公式(7)中,來解決公式(7)共同評分?jǐn)?shù)量過少導(dǎo)致相似度計(jì)算不準(zhǔn)確的問題。

改進(jìn)JS散度偽代碼如下:

輸入:任意2個(gè)評分等級分布集合P和Q

輸出:G(a,b)

(1) for eachi∈[1,2,3,…,n] do

(2)Pi,Qi;//normalizing thePandQ

(3)Fi=0.5(Pi+Qi);

(4) end for

(5) for eachj∈[1,2,3,…,n] do

(8) end for

(9) JS(P,Q)=(0.5DKL(P,F)+0.5DKL(Q,F));

(10)G(a,b)=Dif·(1-JS(P,Q));

2.3 基于JSD-AC相似度的協(xié)同過濾算法

將改進(jìn)之后的修正余弦相似度公式,和改進(jìn)JS散度后得到的概率分布修正因子進(jìn)行融合,得到新的相似度公式JSD-AC應(yīng)用到推薦算法的用戶相似度計(jì)算中。改進(jìn)的修正余弦相似度公式降低了項(xiàng)目熱度對計(jì)算用戶間相似度的影響,同時(shí)融合的JS散度還克服了改進(jìn)后的修正余弦相似度公式高度依賴共同評分?jǐn)?shù)量的限制,解決了傳統(tǒng)計(jì)算方法帶來的計(jì)算誤差。

a和b表示任意用戶,Simco(a,b)是公式(7)得到的改進(jìn)修正余弦相似度公式,G(a,b)是公式(10)得到的用戶之間概率分布修正因子,將G(a,b)作為Simco(a,b)的權(quán)重與之相乘,進(jìn)一步修正Simco(a,b)的計(jì)算結(jié)果。最終得到的相似度Simnew(a,b)計(jì)算公式:

Simnew(a,b)=Simco(a,b)G(a,b)。

(11)

基于JSD-AC相似度的協(xié)同過濾算法實(shí)現(xiàn)流程:

(1)對原始的訓(xùn)練集數(shù)據(jù)集進(jìn)行處理,將生成的t1行t2列的評分矩陣B作為相似度計(jì)算部分的輸入數(shù)據(jù)。

(2)改進(jìn)傳統(tǒng)的修正余弦相似度,考慮熱門項(xiàng)目對相似度計(jì)算的貢獻(xiàn)程度,增加熱門項(xiàng)目懲罰因子,將改進(jìn)后的公式對t1個(gè)用戶之間的相似度進(jìn)行計(jì)算生成相似度矩陣Simco。

(3)改進(jìn)JS散度公式,得到的概率分布修正因子G作為權(quán)重和Simco進(jìn)行融合,生成最終的相似度矩陣Simnew。

(4)通過矩陣Simnew,找出與目標(biāo)用戶關(guān)系最近的用戶,再根據(jù)這些近鄰的原始評分值,得到目標(biāo)用戶對項(xiàng)目做出預(yù)測值。

(5)將用戶評分預(yù)測值降序排列,取前n個(gè)項(xiàng)目作為最終的推薦結(jié)果。

算法相關(guān)偽代碼如下:

輸入: 用戶項(xiàng)目評分矩陣B

輸出:評分預(yù)測矩陣E, 推薦列表T

(1) for eacha∈[1,2,3,…,t1] do

(2) for eachb∈[1,2,3,…,t1] do

(3)G(a,b)=Dif·(1-JS(P,Q));

(4) Simco(a,b);

(5) end for

(6) end for

(7) Simnew=Simco·G;

(8) for eachi∈[1,2,3,…,t1] do

(9) us=sort(usneibor,k);

(10) for eachj∈[1,2,3,…,t1] do

(11) ifB(i,j)==0

(12)E(i,j)=pre(i,j,us);

(13) end

(14) end for

(15)T=tui(E(i),n);/*Recommend the topnof the score prediction value to the useri*/

(16) end for

3 基于改進(jìn)相似度的協(xié)同過濾算法

3.1 實(shí)驗(yàn)數(shù)據(jù)

本文將從官網(wǎng)(https://grouplens.org)下載的MovieLens數(shù)據(jù)集作為實(shí)驗(yàn)數(shù)據(jù),進(jìn)行相關(guān)實(shí)驗(yàn)。MovieLens數(shù)據(jù)集是明尼蘇達(dá)大學(xué)GroupLens研究組收集的大量真實(shí)的用戶對不同電影進(jìn)行的在線評分,并進(jìn)行整理公布在官網(wǎng)上提供使用。用戶對電影的評分為1至5范圍內(nèi)任意一個(gè)整數(shù)值,用戶對電影的喜愛程度越高,評分值越高,反之則低。MovieLens數(shù)據(jù)集在真實(shí)性以及實(shí)驗(yàn)數(shù)據(jù)規(guī)模上,都滿足實(shí)驗(yàn)要求。MovieLens數(shù)據(jù)集中包含了u1.base到u5.base總共5對訓(xùn)練集,以及u1.test到u5.test共 5對測試集,每對訓(xùn)練集和測試集之間一一對應(yīng)。5組數(shù)據(jù)集都分別涵蓋了943個(gè)用戶對1682部電影的評分,每組數(shù)據(jù)集包含的數(shù)據(jù)總量都同為100 000條。

3.2 評價(jià)指標(biāo)

(12)

式中,n表示預(yù)測評分集合的樣本數(shù)量,MAE衡量的是測試集中所有用戶已有評分與算法得到的預(yù)測值之間的誤差大小,通過MAE能夠反映評分預(yù)測是否準(zhǔn)確。

3.3 實(shí)驗(yàn)結(jié)果分析

(1)推薦算法中使用不同相似度計(jì)算方法的MAE比較為了測試在基于用戶的協(xié)同過濾推薦算法中的用戶相似度計(jì)算部分使用JSD-AC相似計(jì)算方法的效果,在用戶相似度計(jì)算部分還分別使用傳統(tǒng)的Pearson相似度、Cosine相似度、Tanimoto相似度以及文獻(xiàn)[13]中提出的相似度計(jì)算方法進(jìn)行對比實(shí)驗(yàn),比較協(xié)同過濾推薦算法在使用不同相似度計(jì)算方法下的MAE值。

使用u1.base和u1.test分別進(jìn)行訓(xùn)練和測試,得到實(shí)驗(yàn)結(jié)果。推薦算法的最近鄰居的取值分別為5,10,20,30,40,50,60,70,80,以MAE值作為評價(jià)指標(biāo)。根據(jù)實(shí)驗(yàn)結(jié)果,對比結(jié)果如圖1。

根據(jù)圖1的實(shí)驗(yàn)結(jié)果,在協(xié)同過濾算法的用戶相似度計(jì)算中,使用本文提出的JSD-AC計(jì)算方法與使用圖1中的其他的計(jì)算方法相比,推薦算法的評分預(yù)測誤差MAE整體上較小,當(dāng)鄰居數(shù)取值大于20時(shí),MAE取值整體趨于穩(wěn)定,改進(jìn)后的算法降低了評分預(yù)測誤差,推薦效果得到提升。

圖1 同一數(shù)據(jù)集下的MAE

(2)改進(jìn)算法有效性驗(yàn)證為了驗(yàn)證在修正余弦相似度中考慮項(xiàng)目熱度和融合改進(jìn)的JS散度概率分布因子這2個(gè)改進(jìn)方法的有效性,對2個(gè)改進(jìn)點(diǎn)分別進(jìn)行驗(yàn)證。在推薦算法的修正余弦相似度計(jì)算部分只考慮項(xiàng)目熱度的驗(yàn)證用AC1表示。在推薦算法的修正余弦相似度計(jì)算部分只融合JS散度概率分布修正因子的驗(yàn)證用AC2表示。將2種情況與未改進(jìn)修正余弦相似度的推薦算法進(jìn)行對比,未進(jìn)行任何改進(jìn)的算法用AC表示。通過AC1和AC2的驗(yàn)證,來證明公式(7)和(10)改進(jìn)方法的有效性。數(shù)據(jù)來源為u1到u5共5對數(shù)據(jù)集,推薦算法近鄰取值為5,10,20,30,40,50,60,70,80,對不同近鄰得到的MAE值取平均后,得到平均MAE值作為衡量指標(biāo)?？v坐標(biāo)軸平均MAE結(jié)果越低,表明算法平均絕對誤差越小,評分預(yù)測效果越好。

推薦算法相似度部分使用改進(jìn)方法AC1和AC2進(jìn)行實(shí)驗(yàn),并與原始方法比較,評價(jià)指標(biāo)為平均MAE。根據(jù)實(shí)驗(yàn)結(jié)果繪制柱狀圖如圖2。

圖2 改進(jìn)方法的有效性驗(yàn)證

根據(jù)圖2所示的實(shí)驗(yàn)結(jié)果,協(xié)同過濾推薦算法在修正余弦相似度計(jì)算中分別只考慮項(xiàng)目熱度和只考慮JS散度概率分布因子2種狀況時(shí),在5組實(shí)驗(yàn)數(shù)據(jù)集上,算法的平均MAE值均低于未改進(jìn)相似度狀態(tài)下的平均MAE結(jié)果。表明考慮項(xiàng)目熱度和融合JS散度概率分布因子有效,說明2個(gè)改進(jìn)點(diǎn)都對原始算法產(chǎn)生作用。

(3)多組數(shù)據(jù)集驗(yàn)證為了驗(yàn)證本文提出方法的穩(wěn)定性與有效性,推薦算法的相似度部分分別使用本文提出的方法與對比的幾組方法進(jìn)行實(shí)驗(yàn),評價(jià)指標(biāo)為平均MAE。根據(jù)實(shí)驗(yàn)結(jié)果,繪制圖3。在基于用戶的協(xié)同過濾推薦算法的用戶相似度計(jì)算部分分別使用JSD-AC計(jì)算方法和傳統(tǒng)相似度計(jì)算方法以及文獻(xiàn)[13]中提出的方法,比較協(xié)同過濾推薦算法在使用不同相似度計(jì)算方法下的平均MAE值。

圖3 不同數(shù)據(jù)集下的平均MAE

根據(jù)圖3中5組數(shù)據(jù)集的實(shí)驗(yàn)對比,使用JSD-AC相似度計(jì)算方法的協(xié)同過濾推薦算法求得的平均MAE值都低于使用其他相似度計(jì)算方法的推薦算法求得的MAE值,多組對比實(shí)驗(yàn)結(jié)果表明,改進(jìn)算法效果穩(wěn)定,能降低評分預(yù)測誤差,本文提出的方法可行有效。

4 結(jié)束語

本文針對基于用戶的協(xié)同過濾算法核心部分相似度計(jì)算提出了一個(gè)新的計(jì)算方法JSD-AC。首先,在修正余弦相似度計(jì)算中考慮到項(xiàng)目熱度對相似度計(jì)算的影響,增加熱門項(xiàng)目懲罰因子,對公式進(jìn)行改進(jìn),得到改進(jìn)的修正余弦相似度公式。其次,為了進(jìn)一步解決改進(jìn)的修正余弦相似度在共同評分?jǐn)?shù)量過少時(shí)計(jì)算相似度不準(zhǔn)確的問題,將改進(jìn)的JS散度計(jì)算出的用戶之間的概率分布修正因子作為權(quán)重,融合到改進(jìn)的修正余弦相似度中,得到新的相似度計(jì)算方法JSD-AC。最后,在基于用戶的協(xié)同過濾推薦算法的用戶相似度計(jì)算部分使用本文提出的JSD-AC相似度計(jì)算方法,通過多組實(shí)驗(yàn)驗(yàn)證,本文方法較對比方法,能更好地降低評分預(yù)測誤差,提升推薦效果,具有可行性和有效性。

接下來的工作,將考慮在Hadoop平臺上,對本文改進(jìn)的算法實(shí)現(xiàn)并行化。在現(xiàn)有改進(jìn)算法的基礎(chǔ)上繼續(xù)提高算法的拓展性和運(yùn)行效率。

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看