一種改進(jìn)的基于興趣相似度推薦算法

2020-08-19 07:27:36柯翔敏羅光華

計(jì)算機(jī)工程 2020年8期

柯翔敏,陳江,羅光華

(華僑大學(xué) 網(wǎng)絡(luò)與教育技術(shù)中心,福建廈門 361021)

0 概述

目前,隨著物質(zhì)生活的不斷豐富和科學(xué)技術(shù)的快速發(fā)展,人們的生活方式越來越多樣化。推薦算法的發(fā)展與運(yùn)用使得用戶能夠快速發(fā)現(xiàn)自己感興趣的商品,從而在客觀上促進(jìn)社會(huì)經(jīng)濟(jì)的發(fā)展。

推薦算法可以分為基于內(nèi)容的推薦[1]、基于協(xié)同過濾的推薦[2]以及混合推薦[3]三大類。其中,基于協(xié)同過濾的推薦算法應(yīng)用最為廣泛,其又可分為基于用戶的系統(tǒng)過濾推薦、基于商品的協(xié)同過濾推薦[4]和基于模型的協(xié)同過濾推薦[5]。協(xié)同過濾推薦算法的思想是基于用戶-物品矩陣,如果為目標(biāo)用戶進(jìn)行推薦,選擇與目標(biāo)用戶打分行為相似的Top-K個(gè)用戶打分過的物品,以及與目標(biāo)用戶打分過的物品相似的Top-K個(gè)物品作為推薦候選。協(xié)同過濾推薦算法性能最重要的影響因素是相似度的計(jì)算方式。

在傳統(tǒng)的協(xié)同過濾推薦算法中,有余弦相似度、修正余弦相似度等常用的相似度計(jì)算方法。但是,由于用戶-物品矩陣存在數(shù)據(jù)稀疏性等問題[6-8],導(dǎo)致上述相似度計(jì)算方法存在相似度失真、相似度虛高、相似度難以區(qū)分等問題[9],進(jìn)而造成推薦結(jié)果不準(zhǔn)確的現(xiàn)象,影響了用戶體驗(yàn)。

對(duì)于傳統(tǒng)協(xié)同過濾推薦算法相關(guān)度計(jì)算問題,一些學(xué)者提出了改進(jìn)方式。文獻(xiàn)[10]考慮到傳統(tǒng)的相似度計(jì)算方法存在的數(shù)據(jù)稀疏問題,結(jié)合一些基礎(chǔ)相似度計(jì)算方法的優(yōu)勢(shì),將余弦相似度、杰卡德系數(shù)等相似度計(jì)算結(jié)果相結(jié)合并進(jìn)行線性組合從而提高預(yù)測(cè)精度。文獻(xiàn)[11]引入元路徑、異構(gòu)網(wǎng)絡(luò)的思想計(jì)算相似度。文獻(xiàn)[12]從3個(gè)方面對(duì)用戶相似度度量計(jì)算進(jìn)行改進(jìn),其將用戶評(píng)分的平均差值引入到用戶相似度計(jì)算中。文獻(xiàn)[13]提出一種信任感知聚類的協(xié)同過濾方法。文獻(xiàn)[14]針對(duì)推薦系統(tǒng)中的數(shù)據(jù)稀疏性問題,提出一種比率相似度計(jì)算方法,該方法在計(jì)算用戶相似度時(shí)考慮2個(gè)用戶的所有偏好數(shù)據(jù)而非共同評(píng)分項(xiàng)。文獻(xiàn)[15]提出一種對(duì)協(xié)同過濾推薦算法進(jìn)行改進(jìn)的“用戶項(xiàng)目立方體”模型,該模型將相應(yīng)的權(quán)重加入到時(shí)間因子中,然后用相應(yīng)的權(quán)重計(jì)算相似度。文獻(xiàn)[16]為了降低稀疏性問題對(duì)相似度帶來的影響,利用LDA模型將高維空間轉(zhuǎn)化為低維空間,同時(shí)將相似度計(jì)算轉(zhuǎn)向低緯空間,從而降低了計(jì)算開銷。文獻(xiàn)[17]考慮到只有當(dāng)不同用戶對(duì)相同項(xiàng)目都有很高的評(píng)分值時(shí)才能證明兩者之間具有很高的相似度,引入相似度改進(jìn)因子和平衡因子的概念,重新計(jì)算相似度并對(duì)2個(gè)計(jì)算后的相似度進(jìn)行加權(quán)處理。文獻(xiàn)[18]在局部敏感哈希算法的基礎(chǔ)上,提出基于精確歐氏局部敏感哈希的改進(jìn)協(xié)同過濾推薦算法,其通過精確歐氏局部敏感哈希計(jì)算用戶的相似度,然后對(duì)用戶進(jìn)行推薦。

上述改進(jìn)的相似度計(jì)算算法均在一定程度上提高了推薦效果,但是多數(shù)算法都忽視了一個(gè)問題,即在用戶-物品矩陣中,不同物品對(duì)相似度的影響是不同的。在生活中存在一種現(xiàn)象,2個(gè)對(duì)冷門事物感興趣的人比2個(gè)對(duì)流行事物感興趣的人更有可能成為朋友,他們的相似度也更高。就事物本身而言,事物流行程度越低,對(duì)其感興趣的用戶的興趣權(quán)重分配值會(huì)越高。此外,以往的相似度計(jì)算算法同時(shí)也忽視了用戶之間共同感興趣的事物數(shù)量對(duì)用戶之間相似度的影響。為此,本文提出一種基于興趣分配與共同興趣項(xiàng)的相似度計(jì)算方法,并基于此構(gòu)建一種混合協(xié)同過濾推薦模型,以提高推薦質(zhì)量。

1 問題定義

1.1 逆流行度

定義1(逆流行度) 對(duì)于一個(gè)用戶-物品評(píng)分矩陣,物品存在逆流行度的特性,即物品的冷門程度的值位于0～1之間,該值越大表明物品的冷門程度越大。

通過上述定義可知,逆流行度是一個(gè)物品冷門程度的標(biāo)準(zhǔn)化值,其與流行度存在一種負(fù)相關(guān)的關(guān)系。現(xiàn)有用戶-物品評(píng)分矩陣如表1所示,其中,5件物品被打分的次數(shù)分別為3、4、7、4、2,該數(shù)值即為流行度。

表1 用戶-物品評(píng)分矩陣Table 1 User-item rating matrix

流行度計(jì)算公式如下:

Pop(Itemi)=count(rating(j,i)>0),j∈U

(1)

其中,count為統(tǒng)計(jì)計(jì)算,U為用戶集合。

逆流行度是對(duì)物品冷門程度的一種度量方式,通過式(1)得到物品流行度之后,統(tǒng)計(jì)全局物品的流行度。對(duì)每一件物品進(jìn)行逆流行度計(jì)算,逆流行度的度量方式如下:

(2)

其中,max與min計(jì)算可以分別得到物品中最大流行度與最小流行度的值。物品的逆流行度介于0～1之間,值越大,物品的冷門程度越大,其對(duì)興趣的潛在影響也越大。

1.2 共同興趣項(xiàng)

在一些傳統(tǒng)的相似度計(jì)算方法中,余弦相似度、修正余弦相似度都是對(duì)用戶的評(píng)分向量進(jìn)行全量計(jì)算,如果2個(gè)用戶對(duì)某項(xiàng)物品均沒有評(píng)價(jià),則該物品項(xiàng)在兩者的評(píng)分向量中為0。用戶-物品矩陣具有數(shù)據(jù)稀疏性,如果2個(gè)用戶評(píng)分項(xiàng)較少則可能會(huì)有很高的相似度。如果2個(gè)用戶即使對(duì)多數(shù)物品進(jìn)行了評(píng)分,并且有許多為共同評(píng)分,但是余弦相似度的計(jì)算特性也可能會(huì)導(dǎo)致兩者的評(píng)分較低。本文認(rèn)為如果用戶之間的共同評(píng)分項(xiàng)越多,他們擁有共同興趣的概率也就越大,用戶之間的相似度理應(yīng)更高。但是,2個(gè)用戶對(duì)某一事物共同打分不一定代表兩者對(duì)該事物都有興趣,在5分為滿分的推薦系統(tǒng)中,如果一個(gè)用戶打5分,另一個(gè)用戶打1分,則這2個(gè)用戶對(duì)該事物的興趣差異很大。為此,本文提出共同興趣項(xiàng)的概念。

定義2(共同興趣項(xiàng)) 對(duì)于一個(gè)用戶-物品矩陣,如果用戶A與用戶B均對(duì)某一件物品I有評(píng)分操作,且A與B對(duì)I的評(píng)分都超過系統(tǒng)設(shè)定的興趣閾值α,則稱物品I為用戶A與用戶B的共同興趣項(xiàng)。

2個(gè)用戶之間的共同興趣項(xiàng)集合可用式(3)表示:

SA,B={i|rat(A,i)>α}∩{i|rat(B,i)>α}

(3)

其中,rat為評(píng)分值。

本文認(rèn)為用戶之間的共同興趣項(xiàng)越多,且在共同興趣項(xiàng)中評(píng)分方差均值越小,則用戶之間的相似度越高。用戶的相似度應(yīng)該通過用戶之間有多少共同的相似項(xiàng)來度量,因此,本文基于用戶的共同興趣項(xiàng)提出新的用戶相似度計(jì)算方法,如下:

(4)

其中,m為用戶A、B的共同興趣項(xiàng)數(shù)目,n為用戶-物品矩陣中物品的總數(shù),T為一個(gè)常數(shù),在式(4)中其為推薦系統(tǒng)中的評(píng)分最大值。

2 基于興趣分配與共同興趣項(xiàng)的協(xié)同過濾推薦

2.1 結(jié)合興趣分配的相關(guān)度計(jì)算

本文提出逆流行度與共同興趣項(xiàng)的概念以及相關(guān)度計(jì)算公式,在共同興趣項(xiàng)的基礎(chǔ)上提出一種新的相關(guān)度計(jì)算方法,但該方法并未結(jié)合逆流行度。本文提出逆流行度是考慮到生活中的“對(duì)冷門事物感興趣的人更可能成為好友,并且相似度更高”這樣一種場(chǎng)景。具體而言,對(duì)熱門事物產(chǎn)生過行為的用戶可能并非真正的偏好,也許是受一些社會(huì)因素的影響,比如媒體宣傳、營(yíng)銷等。但是,如果用戶對(duì)冷門事物感興趣,一般是基于用戶本人的興趣偏好而受其他因素干擾較小?；谝陨戏治?本文在式(4)的基礎(chǔ)上結(jié)合共同興趣項(xiàng)的逆流行度進(jìn)行相關(guān)度計(jì)算。存在2個(gè)用戶A、B,計(jì)算兩者共同興趣項(xiàng)的逆流行度的平均值,如式(5)所示:

(5)

其中,S為用戶A、B的共同興趣項(xiàng)集。R值越高,表示用戶的共同興趣項(xiàng)流行程度越低,共同興趣項(xiàng)對(duì)興趣分配的權(quán)重越高,受社會(huì)化的影響越小,即相似度越高。結(jié)合R值,本文提出新的相似度計(jì)算公式如下:

(6)

式(6)考慮到了用戶共同興趣的數(shù)量以及共同興趣項(xiàng)對(duì)相似度影響的權(quán)重,客觀合理,本文采用式(6)進(jìn)行用戶之間的相似度度量。

2.2 混合協(xié)同過濾模型

通過式(6)可以完成用戶相似度計(jì)算,利用標(biāo)準(zhǔn)化方法可以將用戶相似度限定在0～1范圍內(nèi),對(duì)于目標(biāo)用戶而言,可以生成相似用戶的Top-K推薦列表。但是,用戶-物品評(píng)分矩陣具有稀疏性問題,存在大量打分操作較少的用戶,且在評(píng)分矩陣中可能會(huì)有一些噪聲數(shù)據(jù)。本文為相似用戶的共同興趣項(xiàng)設(shè)定一個(gè)閾值,即當(dāng)用戶之間的共同興趣項(xiàng)數(shù)量大于某閾值β時(shí),用戶之間的相似度計(jì)算才有意義。如果只有少數(shù)共同興趣項(xiàng)則會(huì)存在一些不確定性,從而導(dǎo)致推薦結(jié)果不正確。因此,對(duì)于目標(biāo)用戶A而言,其相似用戶列表為:

simUserList(A)={B|count(SA,B)>β}

(7)

如果2個(gè)用戶的共同興趣項(xiàng)數(shù)目小于β值,則其用戶相似度為0。

通過式(7)可以得到每一個(gè)用戶的相似用戶列表。此時(shí)會(huì)出現(xiàn)如下情況:一部分用戶會(huì)有較多的相似用戶,另外一部分用戶有較少的相似用戶,還有用戶的相似用戶列表甚至為空。對(duì)于此現(xiàn)象,本文提出一種混合協(xié)同過濾模型,具體如下:

1)對(duì)于第1種用戶,他們存在較多的相似用戶,因此,采用基于用戶的協(xié)同過濾模型,本文設(shè)置閾值為K。當(dāng)相似用戶的數(shù)量大于K時(shí),直接選取相似度排名靠前的前K個(gè)用戶作為候選推薦用戶,將相似用戶有過評(píng)分操作且目標(biāo)用戶沒有評(píng)分操作的事物按照均分與相似度的綜合進(jìn)行排序,選取前N個(gè)事物形成推薦列表返回給目標(biāo)用戶。

2)對(duì)于第2種用戶,其相似用戶數(shù)量小于K且大于0,本文仍然采用基于用戶的協(xié)同過濾模型,但是要進(jìn)行二次發(fā)掘來獲取更多的相似用戶,即與目標(biāo)用戶相似的用戶的相似用戶也可能與目標(biāo)用戶相似,如圖1所示。

圖1 相似用戶二次發(fā)掘示意圖Fig.1 Schematic diagram of similar users’ secondary excavation

在目標(biāo)用戶的相似用戶列表中引入相似用戶的相似用戶,如式(8)所示:

simUserList(A)=simUserList(A)∩simUserList(B)

(8)

其中,B是A的相似用戶。

對(duì)于通過二次發(fā)掘進(jìn)入目標(biāo)用戶相似用戶列表的用戶,其與目標(biāo)用戶也有相似度的度量,如式(9)所示:

(9)

其中,n為Sim(B,C)>0的數(shù)量。

在完成二次用戶的二次發(fā)掘之后,即可采用第1種方式對(duì)用戶進(jìn)行推薦。

3)針對(duì)第3種用戶,其沒有相似用戶。本文從2個(gè)方面對(duì)該類用戶進(jìn)行分析,如果他們之間存在較多的興趣項(xiàng),則采用基于物品的協(xié)同過濾模型進(jìn)行推薦;如果他們之間有很少的興趣項(xiàng)或者沒有興趣項(xiàng),則按照冷啟動(dòng)的方式進(jìn)行處理,可以選擇一些流行度高且評(píng)價(jià)較好的物品進(jìn)行推薦。

對(duì)于每一個(gè)用戶,混合協(xié)同過濾推薦模型流程如圖2所示。

圖2 混合協(xié)同過濾推薦模型流程Fig.2 Procedure of hybrid collaborative filtering recommendation model

本文混合協(xié)同過濾推薦算法偽代碼如下:

算法1混合協(xié)同過濾推薦算法

輸入用戶集合U,物品集合I,相似用戶列表閾值K,共同興趣項(xiàng)過濾閾值β,興趣閾值α

1.begin

2.for each u in U:

3.simUserList(u)={}

4.recommendList(u)={}

5.for each u′ in U:

6.if u≠u′:

7.S(u,u′)={}

8.For i in I:

9.if rat(u,i)>α and rat(u′,i)>α:

10.S(u.u′).add(i)

11.if len(S(u,u′))>β:

12.simUserList(u).add([u′,Sim(u,u′)])

13.simUserList.sortBySim() //按相似度進(jìn)行排序

14.if count(simuserList(u))≥K:

15.recommentList(u)=recommendByUser(simUserList(u))

16.elif count(simUserList(u))0:

17.for [u1,Sim(u,u1)] insimUserList(u):

18.simUserList(u)=simUserList(u)∩simUserList(u1)

19.recommentList(u)=recommendByUser(simUserList(u))

20.else:

21.recommentList(u) =recommendByItem(simUserList(u))

22.end

3 實(shí)驗(yàn)結(jié)果與分析

3.1 數(shù)據(jù)集與實(shí)驗(yàn)環(huán)境

本文選取推薦算法領(lǐng)域中的經(jīng)典數(shù)據(jù)集MovieLens,原始數(shù)據(jù)集中包含用戶信息數(shù)據(jù)(User)、電影信息數(shù)據(jù)(Movie)與電影評(píng)價(jià)數(shù)據(jù)(Rating),本文實(shí)驗(yàn)只選取電影評(píng)價(jià)數(shù)據(jù)集,大小約為21M,數(shù)據(jù)集基本信息如表2所示。

表2 MovieLens數(shù)據(jù)集信息Table 2 MovieLens dataset information

從表2可以看出,該數(shù)據(jù)集的稀疏程度為95.53%,稀疏程度較高。用戶的打分情況與電影被打分情況分別如圖3、圖4所示。

圖3 用戶打分統(tǒng)計(jì)Fig.3 User scoring statistics

圖4 電影得分統(tǒng)計(jì)Fig.4 Movie score statistics

從圖3、圖4可以看出,該數(shù)據(jù)集中用戶的評(píng)分情況與電影的得分情況均符合長(zhǎng)尾分布,數(shù)據(jù)集中存在大量的“冷數(shù)據(jù)”。其中,評(píng)分操作高于電影總量10%的用戶約占用戶總數(shù)的10%,如果僅以改進(jìn)的基于用戶的協(xié)同過濾推薦模型進(jìn)行推薦,可預(yù)見存在一些用戶列表為空的用戶。因此,本文提出的混合協(xié)同過濾推薦模型具有現(xiàn)實(shí)意義。

本文實(shí)驗(yàn)環(huán)境設(shè)置如下:操作系統(tǒng)為Windows7 64位系統(tǒng)旗艦版,CPU為Intel?CoreTMi5-7500 3.40 GHz,內(nèi)存為8 GB。

3.2 實(shí)驗(yàn)評(píng)價(jià)指標(biāo)

推薦算法的目的是向用戶推薦其可能感興趣的事物,而非預(yù)測(cè)用戶會(huì)對(duì)事物如何評(píng)分[19-20],基于此思想,本文采用Top-N推薦方法,而不采用RMSE、MAE等基于回歸模型的評(píng)價(jià)指標(biāo),從而為用戶生成推薦列表。本文將精確率(precision)、召回率(recall)與F1值作為實(shí)驗(yàn)評(píng)價(jià)指標(biāo),3個(gè)評(píng)價(jià)指標(biāo)的計(jì)算公式分別如下:

(10)

(11)

(12)

其中,U為用戶集合,Ru表示對(duì)用戶u的推薦列表,Iu表示目標(biāo)用戶喜愛的物品集合,用戶感興趣的評(píng)價(jià)標(biāo)準(zhǔn)可由前文中共同興趣項(xiàng)的分?jǐn)?shù)閾值表示。

以MovieLens數(shù)據(jù)集為例,精確率表示推薦成功的電影占推薦電影總數(shù)的比例,召回率表示推薦成功的電影占用戶感興趣的電影的比例。

3.3 結(jié)果分析

本文將數(shù)據(jù)集分為訓(xùn)練集與測(cè)試集,因?yàn)樵u(píng)分?jǐn)?shù)據(jù)集中存在時(shí)間戳特征,鑒于推薦算法的時(shí)間特性,即用戶對(duì)物品的興趣值受時(shí)間影響,本文將訓(xùn)練集與測(cè)試集按時(shí)間劃分,時(shí)間靠前的前80%數(shù)據(jù)為訓(xùn)練數(shù)據(jù),余下為測(cè)試數(shù)據(jù)。實(shí)驗(yàn)中采用的對(duì)比算法為3種協(xié)同過濾算法,分別記為Cosin、Corrcosin和Pearson,三者分別采用余弦相似度、修正余弦相似度和皮爾遜系數(shù)進(jìn)行相似度計(jì)算,將本文相似度計(jì)算方法記為New。

1)相同參數(shù)下不同推薦算法的比較

本次實(shí)驗(yàn)比較推薦列表數(shù)目為20、每個(gè)用戶的相似用戶列表K值為20時(shí)各算法的性能,實(shí)驗(yàn)計(jì)算每批次500個(gè)用戶的精確率與召回率,共取10個(gè)批次的平均值作為評(píng)價(jià)指標(biāo)結(jié)果。從圖5可以看出,本文混合協(xié)同過濾推薦算法的精確率、召回率與F1值3個(gè)評(píng)估指標(biāo)均優(yōu)于其他3種基線算法,基于修正余弦相似度的推薦算法效果最差。

圖5 不同推薦算法的評(píng)估指標(biāo)結(jié)果Fig.5 Evaluation index results of different recommendation algorithms

2)不同參數(shù)對(duì)推薦算法的影響

(1)推薦列表長(zhǎng)度N。本次實(shí)驗(yàn)比較最相似用戶的K值一定時(shí)(本實(shí)驗(yàn)中K=20)推薦列表長(zhǎng)度對(duì)推薦效果的影響。實(shí)驗(yàn)進(jìn)行10個(gè)批次,每個(gè)批次隨機(jī)選擇500個(gè)目標(biāo)用戶,每個(gè)批次對(duì)用戶的推薦列表長(zhǎng)度以增量為5進(jìn)行劃分。

從圖6可以看出,隨著推薦列表長(zhǎng)度的增加,精確率總體比較平穩(wěn),在N<35時(shí),精確率有一定的提升,但N超過35之后,精確率開始下降,其他2個(gè)指標(biāo)在N取5～50值時(shí)都有相對(duì)較高的提升,特別是F1值,其在N值為5～40時(shí)與推薦列表長(zhǎng)度呈正相關(guān)關(guān)系。在圖7中,本文比較不同的推薦列表長(zhǎng)度下4種協(xié)同過濾推薦算法的F1值大小。從圖7可以看出,在推薦列表長(zhǎng)度為5～15時(shí),不同相似度計(jì)算算法的推薦效果幾乎相同,當(dāng)推薦列表長(zhǎng)度增加后,本文相似度計(jì)算算法的F1值優(yōu)于對(duì)比推薦算法,并且隨著推薦列表長(zhǎng)度的進(jìn)一步增加,本文相似度計(jì)算算法與修正余弦相似度計(jì)算算法明顯優(yōu)于其他2種相似度計(jì)算算法。

圖6 推薦列表長(zhǎng)度對(duì)推薦效果的影響Fig.6 Effect of recommendation list length on recommendation effect

圖7 4種相似度計(jì)算算法在不同列表長(zhǎng)度下的F1值Fig.7 F1 values of four similarity calculation algorithms under different list lengths

(2)最相似用戶列表長(zhǎng)度K。在推薦列表長(zhǎng)度一定時(shí),分析最相似用戶列表長(zhǎng)度對(duì)推薦效果的影響。實(shí)驗(yàn)過程同樣進(jìn)行10個(gè)批次,每個(gè)批次隨機(jī)選擇500個(gè)目標(biāo)用戶,每個(gè)批次對(duì)用戶的推薦列表長(zhǎng)度以增量為5進(jìn)行劃分。在推薦列表長(zhǎng)度為定值的情況下,不同的相似用戶列表長(zhǎng)度對(duì)推薦結(jié)果的影響較小。由圖8可以看出,精確率、召回率與F1值3條曲線變化比較平穩(wěn)。在K=25時(shí),3個(gè)評(píng)估指標(biāo)均達(dá)到最大。然后,隨著K值的增大,3個(gè)指標(biāo)均有所下降,不過整體變化不大。綜上,推薦列表長(zhǎng)度對(duì)推薦結(jié)果的影響大于最相似用戶列表長(zhǎng)度。

圖8 最相似用戶列表長(zhǎng)度對(duì)推薦效果的影響Fig.8 Influence of the length of the most similar user list on the recommendation effect

3.4 算法性能分析

比較本文相似度計(jì)算算法與其他相似度計(jì)算算法在同樣硬件條件與實(shí)驗(yàn)參數(shù)下,計(jì)算不同量級(jí)用戶之間相似度所消耗的時(shí)間,10次實(shí)驗(yàn)的平均結(jié)果如表3所示。從表3可以看出,本文相似度計(jì)算算法計(jì)算效率最高,其次是Cosin和Pearson算法,兩者時(shí)間開銷基本一致,時(shí)間開銷最大的是Corrcosin算法,大約為本文算法的20倍。本文相似度計(jì)算算法在時(shí)間性能上有較大優(yōu)勢(shì),原因是本文算法設(shè)置一個(gè)共同興趣項(xiàng)的閾值,用戶達(dá)到閾值后會(huì)被認(rèn)為是好友,一個(gè)用戶的好友列表平均值肯定小于其他相似度計(jì)算算法。在基線相似度計(jì)算算法中,用戶列表會(huì)考慮全部用戶并進(jìn)行排序,用戶相似度的排序會(huì)消耗大量時(shí)間。

表3 相似度計(jì)算算法時(shí)間性能比較Table 3 Time performance comparison of similarity calculation algorithms s

4 結(jié)束語(yǔ)

本文針對(duì)基于協(xié)同過濾的推薦模型中原有相似度計(jì)算方法存在一定失真性的問題,結(jié)合事物流行度對(duì)用戶興趣權(quán)重分配與用戶共同偏好事物數(shù)目的影響,設(shè)計(jì)一種新的用戶相似度計(jì)算方法,并在該方法的基礎(chǔ)上構(gòu)建一種混合協(xié)同過濾推薦模型。實(shí)驗(yàn)結(jié)果表明,該模型的推薦效果優(yōu)于基于基線相似度計(jì)算方法的推薦模型。下一步將針對(duì)用戶推薦時(shí)的數(shù)據(jù)稀疏性與冷啟動(dòng)問題,結(jié)合更多影響相似度的潛在因素來提高推薦效果,并優(yōu)化推薦算法的多樣性與覆蓋率等其他指標(biāo)。此外,協(xié)同過濾推薦算法普遍存在復(fù)雜度較高的問題,且本文混合推薦模型涉及較多的參數(shù),因此,進(jìn)行高效調(diào)參調(diào)優(yōu)以降低算法復(fù)雜度也是今后的研究重點(diǎn)。