高天迎,張志鋼,李國燕,陳亞東
(天津城建大學(xué) a.計(jì)算機(jī)與信息工程學(xué)院;b.信息化建設(shè)管理中心,天津 300384)
Web2.0與移動(dòng)互聯(lián)網(wǎng)的高速發(fā)展使得Web站點(diǎn)的數(shù)量迅速增加,搜索引擎成為快速找到目標(biāo)網(wǎng)站與信息的有效途徑.然而在某些情況下,用戶需求很難用簡(jiǎn)單的關(guān)鍵詞表述.相對(duì)于搜索引擎的局限性,推薦系統(tǒng)通過分析用戶的興趣愛好,進(jìn)行個(gè)性化推薦,在一定程度上彌補(bǔ)了搜索引擎的不足.目前,高校校園網(wǎng)已經(jīng)實(shí)行了實(shí)名認(rèn)證,校園網(wǎng)的網(wǎng)絡(luò)服務(wù)器中存在大量的實(shí)名Web Log數(shù)據(jù).應(yīng)用相關(guān)的聚類和推薦算法,對(duì)校園網(wǎng)Web Log數(shù)據(jù)進(jìn)行分析計(jì)算,可以為校園網(wǎng)用戶提供更加個(gè)性化的網(wǎng)站推薦服務(wù),減少數(shù)據(jù)資源的浪費(fèi).
目前,經(jīng)典的推薦策略主要包括基于內(nèi)容的推薦、協(xié)同過濾推薦、基于模型的推薦、基于網(wǎng)絡(luò)結(jié)構(gòu)的推薦和組合推薦等[1-7].其中,協(xié)同過濾推薦在很多大型電子商務(wù)網(wǎng)站得到廣泛應(yīng)用.協(xié)同過濾推薦算法善于發(fā)現(xiàn)用戶新的興趣點(diǎn),不需要專業(yè)知識(shí)即可進(jìn)行推薦,推薦質(zhì)量取決于歷史數(shù)據(jù)集[8-12].然而,協(xié)同過濾算法以其他用戶對(duì)項(xiàng)目的評(píng)價(jià)來預(yù)測(cè)目標(biāo)用戶對(duì)項(xiàng)目的喜好,忽略了用戶和項(xiàng)目的屬性信息,準(zhǔn)確率不高;通過遍歷所有用戶去尋找最近鄰,實(shí)時(shí)性不高;對(duì)用戶評(píng)分矩陣的稀疏性敏感,當(dāng)矩陣稀疏性較高時(shí),算法準(zhǔn)確率急劇下降[10,13].Sebastiani等[14]提出了基于貝葉斯網(wǎng)絡(luò)模型的推薦方法,該方法的性能和精度都不錯(cuò),但模型訓(xùn)練的代價(jià)太大,不適用于數(shù)據(jù)更新頻繁的系統(tǒng);Sarwar等[10]提出了基于近鄰資源項(xiàng)的協(xié)同過濾算法,認(rèn)為系統(tǒng)中的用戶數(shù)目一般遠(yuǎn)大于資源數(shù)目,且資源的變化較小,從而預(yù)先建立資源項(xiàng)的近鄰模型,以提高預(yù)測(cè)時(shí)的性能.
Rashid等[15]利用聚類技術(shù),通過將相似的對(duì)象聚合成組,計(jì)算組內(nèi)對(duì)象的相似度,可以提高算法實(shí)時(shí)性,降低數(shù)據(jù)稀疏性的影響;Adomavicius等[16]提出了一種個(gè)性化服務(wù)中基于用戶聚類的協(xié)同過濾推薦算法,通過用戶評(píng)分的相似性對(duì)用戶聚類,根據(jù)聚類中的項(xiàng)目評(píng)價(jià)生成對(duì)應(yīng)的聚類中心.該算法在一定程度上提高了推薦質(zhì)量,但在用戶評(píng)價(jià)數(shù)據(jù)高維稀疏性的情況下,該方法的可靠性不高;曾春等[17]提出了對(duì)所有資源進(jìn)行分類,將用戶對(duì)每項(xiàng)資源的打分轉(zhuǎn)換為用戶對(duì)某個(gè)資源類別的平均打分.這種方法降低了數(shù)據(jù)稀疏性,但相似度計(jì)算不準(zhǔn)確.
筆者選取30天服務(wù)器WebLog文件作為研究的基礎(chǔ)數(shù)據(jù),提出了一種基于用戶屬性和網(wǎng)站類型聚類的協(xié)同過濾推薦算法(user website collaborative filtering,簡(jiǎn)稱UWCF).通過將聚類分析與協(xié)同過濾推薦算法相結(jié)合,利用用戶-網(wǎng)站類型評(píng)分矩陣聚類有共同興趣特征的用戶,將用戶-網(wǎng)站評(píng)分矩陣轉(zhuǎn)化為用戶-網(wǎng)站類型評(píng)分矩陣,檢索到當(dāng)前用戶的最近鄰居用戶集,降低冷啟動(dòng)和矩陣稀疏性的影響,同時(shí)降低網(wǎng)站推薦的時(shí)間和空間復(fù)雜度,為校園網(wǎng)用戶進(jìn)行網(wǎng)站推薦服務(wù).最后,通過具體的實(shí)驗(yàn)數(shù)據(jù)與基于網(wǎng)站評(píng)分聚類的協(xié)同過濾算法(website rating collaborative filtering,簡(jiǎn)稱WRCF)對(duì)比,驗(yàn)證本文算法的有效性.
服務(wù)器日志文件主要分兩種:Web Log日志和session日志.這些文件中包含了大量的用戶訪問信息,如用戶的IP、用戶的訪問時(shí)間、瀏覽過頁面的URL、請(qǐng)求方法(GET或POST)等.本文使用的Web Log文件來源于筆者所在學(xué)校的校園網(wǎng)服務(wù)器,選取服務(wù)器上30天的Web Log文件作為數(shù)據(jù)源.表1列出了本文使用的Web Log日志記錄中的主要信息.
表1 Web Log文件主要信息
在將Web Log信息進(jìn)行預(yù)處理基礎(chǔ)上,對(duì)其進(jìn)行分析挖掘,可以發(fā)現(xiàn)用戶感興趣的Web站點(diǎn)與用戶上網(wǎng)行為偏好,結(jié)合相應(yīng)的個(gè)性化推薦算法,可以對(duì)不同的用戶進(jìn)行個(gè)性化的網(wǎng)站推薦.因此,首先要對(duì)Web Log信息進(jìn)行數(shù)據(jù)清洗與聚類分析.
由于本地緩存、代理服務(wù)器和防火墻的存在,使得直接在Web Log數(shù)據(jù)上進(jìn)行分析變得十分困難和不準(zhǔn)確.在實(shí)施數(shù)據(jù)分析之前,需要對(duì)Web Log文件進(jìn)行數(shù)據(jù)預(yù)處理,將原始的Web Log數(shù)據(jù)轉(zhuǎn)換成適合進(jìn)行分析處理的可靠數(shù)據(jù).本文的研究目的是為不同用戶提供個(gè)性化的網(wǎng)站推薦信息,所以對(duì)原始的日志數(shù)據(jù)進(jìn)行的預(yù)處理主要包括:
(1)刪除與Web Log日志分析無關(guān)的記錄.在數(shù)據(jù)清理時(shí),通過檢查域名和URL的后綴名,刪除認(rèn)為不相關(guān)的文件.
(2)刪除錯(cuò)誤的訪問記錄.當(dāng)服務(wù)器對(duì)用戶發(fā)出的請(qǐng)求響應(yīng)失敗時(shí),Web Log同樣會(huì)記錄,但這對(duì)Web日志分析沒有意義.所以在進(jìn)行數(shù)據(jù)清理的時(shí)候,通過日志中的狀態(tài)碼刪除服務(wù)器對(duì)請(qǐng)求響應(yīng)失敗的記錄.
(3)合并同一用戶同一域名不同URL的記錄,對(duì)記錄條數(shù)進(jìn)行累加,記為用戶訪問同一站點(diǎn)的次數(shù).
協(xié)同過濾算法一般基于用戶-項(xiàng)目評(píng)分矩陣進(jìn)行項(xiàng)目推薦.本文的研究目標(biāo)為網(wǎng)站推薦,需要基于經(jīng)過預(yù)處理的Web Log數(shù)據(jù)構(gòu)建用戶-網(wǎng)站評(píng)分矩陣,矩陣的值可以設(shè)置為網(wǎng)站的訪問次數(shù).然而,由于網(wǎng)站數(shù)量巨大,而每個(gè)用戶能夠訪問的網(wǎng)站數(shù)量有限,因此構(gòu)建出的用戶-網(wǎng)站評(píng)分矩陣必然是稀疏的.
相對(duì)于海量的網(wǎng)站數(shù)量,網(wǎng)站類型相對(duì)固定,本文參考hao.qq.com、www.hao123.com和https://hao.#等網(wǎng)站的分類方法,建立網(wǎng)站類型表,并據(jù)此對(duì)Web Log文件中的網(wǎng)站進(jìn)行類型標(biāo)記,所構(gòu)造的主要網(wǎng)站類型信息如表2所示.
基于網(wǎng)站類型信息,可以構(gòu)建網(wǎng)站-類型矩陣,進(jìn)而生成用戶-網(wǎng)站類型評(píng)分矩陣,替代用戶-網(wǎng)站評(píng)分矩陣.在進(jìn)行聚類的過程中,一定程度上解決了網(wǎng)站訪問數(shù)量巨大和評(píng)分矩陣數(shù)據(jù)稀疏的問題.同時(shí),實(shí)名認(rèn)證用戶進(jìn)入校園網(wǎng)時(shí),需要提供相應(yīng)的用戶信息,如身份證號(hào)、學(xué)號(hào)等.因此,可以構(gòu)建用戶-屬性矩陣,將用戶性別、用戶專業(yè)和年級(jí)信息融入用戶相似度計(jì)算.本文選用的用戶屬性性別、專業(yè)、年級(jí)分別對(duì)應(yīng)編號(hào) 1、2、3.
表2 網(wǎng)站類型
基于用戶-網(wǎng)站評(píng)分矩陣的聚類推薦算法,計(jì)算量大,時(shí)間成本高,精度低.本算法基于用戶-網(wǎng)站類型評(píng)分矩陣對(duì)用戶聚類,算法基本流程如圖1所示.算法主要步驟:①生成用戶-網(wǎng)站類型評(píng)分矩陣,用戶-網(wǎng)站類型評(píng)分矩陣聚類;②結(jié)合用戶屬性尋找目標(biāo)用戶近鄰;③根據(jù)目標(biāo)用戶近鄰計(jì)算產(chǎn)生推薦結(jié)果.
圖1 算法主要流程
根據(jù)表2中的網(wǎng)站分類信息生成網(wǎng)站-類型矩陣,如表3所示.其中:T1表示新聞;T2表示購物;T3表示健康;W1、W2、W3分別表示3個(gè)不同的網(wǎng)站.一個(gè)網(wǎng)站屬于某種類型,則矩陣取值為1,否則為0,一個(gè)網(wǎng)站可以同時(shí)具有多種類型.
表3 網(wǎng)站-網(wǎng)站類型矩陣
根據(jù)Web Log文件中的用戶訪問信息,可以構(gòu)建用戶-網(wǎng)站評(píng)分矩陣,如表4所示.其中:W1、W2、W3分別表示3個(gè)不同的網(wǎng)站;U1、U2、U3分別表示3個(gè)不同的用戶;矩陣取值為網(wǎng)站訪問次數(shù).
表4 用戶-網(wǎng)站評(píng)分矩陣
基于網(wǎng)站-類型矩陣和用戶-網(wǎng)站評(píng)分矩陣,可以計(jì)算用戶對(duì)不同網(wǎng)站類型的興趣度,并進(jìn)一步構(gòu)造出用戶-網(wǎng)站類型評(píng)分矩陣,如表5所示.其中:U1、U2、U3分別表示3個(gè)不同的用戶;T1、T2、T3分別表示3個(gè)不同的網(wǎng)站類型;矩陣取值為網(wǎng)站類型的評(píng)分.
表5 用戶-網(wǎng)站類型評(píng)分矩陣
借鑒詞頻-逆文檔頻率(TF-IDF)概念,用戶u對(duì)網(wǎng)站類型 t的評(píng)分 S(u,t)定義為
其中
式中:N為網(wǎng)站類型的個(gè)數(shù);n為網(wǎng)站的個(gè)數(shù);Nut為用戶u訪問的所有網(wǎng)站包含的類型t的總數(shù)目為用戶u訪問的所有網(wǎng)站包含的類型的總數(shù)目;nt為系統(tǒng)中包含類型t的網(wǎng)站數(shù)目;TF(u,t)為用戶u訪問的網(wǎng)站中含有類型t的數(shù)目占用戶u訪問的網(wǎng)站集合中含有的類型總和的比值,比值越高,則用戶u對(duì)網(wǎng)站t越感興趣;IDF(t)是根據(jù)網(wǎng)站類型在所有網(wǎng)站的分布情況,對(duì)用戶u對(duì)網(wǎng)站類型t的興趣進(jìn)行調(diào)權(quán).
基于用戶-網(wǎng)站類型評(píng)分矩陣的用戶相似度計(jì)算,只考慮用戶對(duì)網(wǎng)站類型的興趣度,不考慮用戶的屬性特征;而基于用戶-屬性矩陣的用戶相似度計(jì)算,則只考慮用戶屬性的相似性,而不考慮用戶對(duì)網(wǎng)站類型的興趣.因此,采用單一方法在計(jì)算用戶間相似度時(shí),存在相應(yīng)的缺陷,從而影響推薦精度.本文通過對(duì)兩種相似度計(jì)算方法進(jìn)行加權(quán)融合來提高推薦精度.
根據(jù)前述的用戶屬性和校園網(wǎng)用戶注冊(cè)信息,可以構(gòu)造用戶-屬性矩陣,如表6所示.性別男取值0,性別女取值1.按照校園網(wǎng)注冊(cè)用戶的不同專業(yè)取值1-77;年級(jí)取值1-8,分別為本科生1-5,碩士研究生6-8.
表6 用戶-屬性矩陣
設(shè)用戶i和j通過用戶-網(wǎng)站類型評(píng)分矩陣計(jì)算得到的相似度為 Sim(i,j)wt,通過用戶-屬性矩陣計(jì)算得到的相似度為 Sim(i,j)ua,融合后的相似度計(jì)算公式為
、
其中,λ為調(diào)權(quán)參數(shù),針對(duì)不同的數(shù)據(jù)集,通過實(shí)驗(yàn)的方法可以得到其最優(yōu)值.Sim(i,j)wt采用修正的余弦相似度計(jì)算,公式為
Sim(i,j)ua計(jì)算公式為
式中:Iij為用戶i和用戶j共同評(píng)分的網(wǎng)站類型集合;Ii、Ij分別為用戶i和用戶j評(píng)分的網(wǎng)站類型集合;Ri,c為用戶 i對(duì)網(wǎng)站類型 c 的評(píng)分;i為用戶 i評(píng)分的平均值;Gender(i,j)為用戶i和用戶j的性別相似度,若 i.gender=j.gender,則 Gender(i,j)=1,否則Gender(i,j)=0;Major(i,j)為用戶 i和用戶 j的專業(yè)相似度,若 i.major=j.major,則 Major(i,j)=1,否則Major(i,j)=0;Grade(i,j)為用戶i和用戶j的年級(jí)相似度,若|i.grade-j.grade|≤1,則Grade(i,j)=1,否則Grade(i,j)=0;α、β 分別為性別特征、年齡特征所占權(quán)重,可根據(jù)具體情況,結(jié)合傳統(tǒng)協(xié)同過濾算法,經(jīng)反復(fù)實(shí)驗(yàn)可獲得適當(dāng)?shù)臋?quán)重.
同一聚類內(nèi)的成員之間具有較高的相似性,可以利用融合后的用戶相似性計(jì)算公式計(jì)算用戶的相似性,從而確定目標(biāo)用戶近鄰集合.選取前K個(gè)預(yù)測(cè)評(píng)分最高的用戶,進(jìn)而對(duì)網(wǎng)站進(jìn)行預(yù)測(cè)評(píng)分,前N個(gè)預(yù)測(cè)評(píng)分最高的網(wǎng)站即為推薦結(jié)果.
設(shè)用戶u所屬用戶聚類為Cu,可以通過計(jì)算用戶u與Cu中所有其他用戶間的相似值來預(yù)測(cè)評(píng)分.為了進(jìn)一步提升網(wǎng)站推薦的準(zhǔn)確度,本文只計(jì)算Cu中對(duì)網(wǎng)站w進(jìn)行評(píng)分的用戶間的相似性.對(duì)于用戶u,設(shè)其需要進(jìn)行預(yù)測(cè)的網(wǎng)站集合用Wu表示,用戶u對(duì)Wu中未評(píng)分網(wǎng)站i的預(yù)測(cè)評(píng)分Pu,i可以通過所有鄰居用戶對(duì)網(wǎng)站i評(píng)分的加權(quán)平均值獲得.Pu,i的計(jì)算方法為
式中:Sim(u,j)為目標(biāo)用戶與最近鄰居的相似度;Rˉu、分別為用戶u和用戶j對(duì)網(wǎng)站評(píng)分的平均值.根據(jù)用戶對(duì)所有網(wǎng)站的預(yù)測(cè)評(píng)分,按照評(píng)分由大到小排列,選取其中評(píng)分最高的N個(gè)網(wǎng)站即可.
步驟1:生成用戶-網(wǎng)站類型評(píng)分矩陣.
輸入:網(wǎng)站-類型矩陣WTmh,用戶-網(wǎng)站評(píng)分矩陣UWnm
輸出:用戶-網(wǎng)站類型評(píng)分矩陣UTnh
初始化:用n維向量表示用戶u,用k維向量表示網(wǎng)站w
end foreach
return用戶-網(wǎng)站類型評(píng)分矩陣
步驟2:基于用戶-網(wǎng)站類型評(píng)分矩陣的用戶聚類.每個(gè)用戶用一個(gè)N(網(wǎng)站類型個(gè)數(shù))維向量u表示,在用戶-網(wǎng)站類型評(píng)分矩陣上的聚類過程如下:
輸入:用戶-網(wǎng)站類型評(píng)分矩陣UTnh,聚類個(gè)數(shù)k輸出:k個(gè)簇C和k個(gè)聚類中心CC
初始化:從用戶集合U中隨機(jī)選擇k個(gè)用戶向量作為初始聚類中心,記為集合
計(jì)算u與聚類中心CCi的相似度Sim(u,CCi)
計(jì)算簇cc所有用戶向量空間上的均值,更新聚類中心cc
end foreach
until每個(gè)聚類中心不再變化
步驟3:尋找近鄰,產(chǎn)生推薦.
輸入:目標(biāo)用戶u,近鄰個(gè)數(shù)K,k個(gè)聚類中心CC,k個(gè)簇C
輸出:目標(biāo)用戶Top K近鄰集合
foreach Cluster Center cc∈CC
結(jié)合用戶-屬性矩陣,計(jì)算目標(biāo)用戶與各個(gè)簇中心相似度 Sim(u,cc)
/*按照用戶與各簇中心相似度降序排列*/
圖2 兩種推薦算法的性能對(duì)比
結(jié)合用戶-屬性矩陣,計(jì)算目標(biāo)用戶與其他用戶間相似度Sim(u,ut)
return目標(biāo)用戶的Top K個(gè)近鄰
筆者選用所在學(xué)校網(wǎng)絡(luò)服務(wù)器的Web Log日志文件作為實(shí)驗(yàn)基礎(chǔ)數(shù)據(jù),選取30天的日志記錄,經(jīng)過預(yù)處理后得到實(shí)驗(yàn)數(shù)據(jù)集.本實(shí)驗(yàn)的數(shù)據(jù)集包含校園網(wǎng)用戶16 255個(gè),Web Log記錄約1.6億條,其中網(wǎng)站的數(shù)量接近11萬個(gè),網(wǎng)站類型如表2所示.進(jìn)行反復(fù)試驗(yàn),確定計(jì)算公式中權(quán)重估計(jì)值:λ=0.6,α=0.5,β=0.3.
采用平均絕對(duì)誤差(mean absolute error,簡(jiǎn)稱MAE)指標(biāo)度量預(yù)測(cè)準(zhǔn)確度,將UWCF算法與WRCF算法進(jìn)行對(duì)比.實(shí)驗(yàn)中最近鄰居數(shù)從10增加到80,間隔為10,聚類k取值為150,實(shí)驗(yàn)獲取的數(shù)據(jù)見表7.
圖2為UWCF算法與WRCF算法的平均絕對(duì)誤差的推薦性能比較.WRCF算法同樣采用K-Means算法對(duì)用戶進(jìn)行聚類.與UWCF算法不同,WRCF算法基于用戶-網(wǎng)站評(píng)分矩陣(見表4)對(duì)用戶進(jìn)行聚類分析,計(jì)算用戶相似度,并預(yù)測(cè)用戶對(duì)目標(biāo)網(wǎng)站的偏好,不考慮用戶屬性和網(wǎng)站類型信息.由圖2可以看出,當(dāng)近鄰數(shù)量在10~30之間時(shí),兩種算法預(yù)測(cè)準(zhǔn)確度非常相近;隨著近鄰數(shù)量的增加,UWCF算法的平均絕對(duì)誤差較傳統(tǒng)的WRCF算法有一定的降低,相應(yīng)的推薦精度有了一定的提高.
表7 實(shí)驗(yàn)數(shù)據(jù)對(duì)比
隨著網(wǎng)絡(luò)日志數(shù)據(jù)量、用戶數(shù)量和數(shù)據(jù)需求等的不斷增加,網(wǎng)絡(luò)日志分析變得越來越有價(jià)值.本文針對(duì)傳統(tǒng)的協(xié)同過濾推薦算法面臨的數(shù)據(jù)集稀疏性和冷啟動(dòng)問題,提出了基于用戶屬性和網(wǎng)站類型聚類的協(xié)同過濾推薦算法,利用不同用戶對(duì)于不同類型網(wǎng)站的喜愛程度,構(gòu)造用戶-網(wǎng)站類型評(píng)分矩陣,降低數(shù)據(jù)集的稀疏性,然后結(jié)合用戶-屬性矩陣,尋找近鄰用戶,為目標(biāo)用戶推薦個(gè)性化的網(wǎng)站.實(shí)驗(yàn)結(jié)果表明,該算法可以有效地降低數(shù)據(jù)集的稀疏性和系統(tǒng)的開銷,一定程度緩解了數(shù)據(jù)冷啟動(dòng)問題,提高了網(wǎng)站推薦的準(zhǔn)確性.
參考文獻(xiàn):
[1]王國霞,劉賀平.個(gè)性化推薦系統(tǒng)綜述[J].計(jì)算機(jī)工程與應(yīng)用,2012,48(7):66-76.
[2]WU Yan,SHEN Jie,GU Tianzhu,et al.Algorithm for sparse problem in collaborative filtering[J].Application Research of Computers,2007,24(6):94-97.
[3]許海玲,吳 瀟,李曉東,等.互聯(lián)網(wǎng)推薦系統(tǒng)比較研究[J].軟件學(xué)報(bào),2009,20(2):350-362.
[4]PAVLOV D Y,PENNOCK D M.A maximum entropy approach to collaborative filtering in dynamic,sparse,high-dimensional domains[C]//BECKERS,THRUNS,OBERMAYERK.Proceedings of the 15th Annual Conference on Neural Information Processing Systems(NIPS’02).Vancouver:MIT Press Cambridge,2002:1 465-1 472.
[5]ZHOU T,REN J,MEDO M,et al.Bipartite network projection and personal recommendation[J].Phys Rev E,2007,76(2):70-80.
[6]ZHOU T,JING L L,SU R Q,et al.Effect of initial configuration on network-based recommendation[J].Europhysics Letters,2007,81(5):15-18.
[7]WANG Zhimei,YANG Fan.P2P recommendation algorithm based on hebbian consistency learning[J].Computer Engineering and Applications,2006,42(36):110-113.
[8]WANG Weiping,LIU Ying.Recommendation algorithm based on customer behavior locus[J].Computer Systems&Applications,2006,15(9):35-38.
[9]KIM B M,LI Q,PARK C S,et al.A new approach for combining content-based and collaborative filters[J].Journal of Intelligent Information System,2006,27(1):79-91.
[10]SARWAR B,KARYPIS G,KONSTAN J,et al.Item-based collaborative filtering recommendation algorithms[C]//New York Association for Computing Machinery.Proc of the 10th International Conference on World Wide Web.Hong Kong:New York Association for Computing Machinery,2001:285-295.
[11]YOU Wen,YE Shuisheng.A survey of collaborative filtering algorithm applied in E-commerce recommender system[J].Computer Technology and Development,2006,16(9):70-72.
[12]鄧愛林,朱揚(yáng)勇,施伯樂.基于項(xiàng)目評(píng)分預(yù)測(cè)的協(xié)同過濾推薦算法[J].軟件學(xué)報(bào),2003,14(9):1 621-1 628.
[13]DESHPANDE M,KARYPIS G.Item-based top-n recommendation algorithms[J].ACM Transaction on Information System,2004,22(1):143-177.
[14]SEBASTIANI P,RAMONI M,CREA A.Profiling your customers using bayesian networks[J].ACM Sigkdd Explorations Newsletter,2000,1(2):91-96.
[15]RASHID A M,LAM S K,LAPITZ A,et al.Towards a scalable kNN CF algorithm:exploring effective applications of clustering[C]//NASRAOUI O,SPILIOUPOULOU M,SRIVASTAVA J.Knowledge Discovery on the Web International Conference on Advances in Web Mining&Web Usage Analysis.Philadelphia:Springe,2006:147-166.
[16]ADOMAVICIUS G,TUZHILIN A.Toward the next generation of recommender systems:a survey of the state-of-the-art and possible extensions[J].IEEE Trans on Knowledge and Data Engineering,2005,17(6):734-749.
[17]曾 春,邢春曉,周立柱.基于內(nèi)容過濾的個(gè)性化搜索算法[J].軟件學(xué)報(bào),2003,14(5):999-1 004.