李德新++鐘俊
摘要:在協(xié)同過(guò)濾推薦系統(tǒng)的相關(guān)研究中,計(jì)算用戶的相似性時(shí)通常使用傳統(tǒng)的余弦法、Jaccard相似法,而基于這些算法所得到的評(píng)分預(yù)測(cè)往往不夠精確,且進(jìn)行Top-N推薦時(shí)難以達(dá)到預(yù)期的效果。本文將用戶相似度細(xì)分為分值差距度、評(píng)分傾向相似度、共同評(píng)分物品數(shù)權(quán)值三部分,提出一種改進(jìn)型相似度計(jì)算方法。在MovieLens數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),以預(yù)測(cè)誤差MAE為評(píng)價(jià)指標(biāo),結(jié)果表明,該算法可以顯著改善上述指標(biāo),提高推薦質(zhì)量。
關(guān)鍵詞:協(xié)同過(guò)濾;用戶相似度;用戶評(píng)分;評(píng)分預(yù)測(cè);推薦算法
中圖分類號(hào):TM393 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1007-9416(2017)02-0158-02
1 引言
為了解決從大量信息中獲取感興趣的信息這一難題,推薦系統(tǒng)技術(shù)應(yīng)運(yùn)而生。現(xiàn)今的推薦算法紛繁復(fù)雜,但是大體上可以分為:基于內(nèi)容的推薦、協(xié)同過(guò)濾推薦等。其中運(yùn)用得最成功且廣泛的非協(xié)同過(guò)濾推薦算法莫屬。協(xié)同過(guò)濾推薦技術(shù)又可以分作2類,其一是基于用戶的協(xié)同過(guò)濾(User- based Collaborative Filtering, UserCF)推薦算法,而另一類則是基于項(xiàng)目的協(xié)同過(guò)濾( Item- based Colla-borative Filtering,ItemCF)推薦算法[3]。
文獻(xiàn)[4]提出一種采用結(jié)合修正公式改進(jìn)的 Jaccard 相似性系數(shù)計(jì)算用戶之間的相似度,在計(jì)算過(guò)程中考慮用戶之間共同評(píng)分項(xiàng)和所有評(píng)分項(xiàng)的關(guān)系, 以及用戶在共有的評(píng)價(jià)項(xiàng)目集合上的評(píng)分差別對(duì)用戶的相似度的影響, 從而獲取更加精確的用戶相似度矩陣。文獻(xiàn)[5]在將用戶相似性細(xì)分為用戶評(píng)分相似度、興趣傾向相似度和置信度3方面,提高評(píng)分預(yù)測(cè)和推薦質(zhì)量。該文在借鑒文獻(xiàn)[4]和文獻(xiàn)[5]工作的基礎(chǔ)上,提出一種改進(jìn)的相似度計(jì)算及評(píng)分預(yù)測(cè)的算法。該算法可以充分運(yùn)用已經(jīng)存在的用戶評(píng)分?jǐn)?shù)據(jù),解決不同用戶評(píng)分偏好的差異,更準(zhǔn)確地計(jì)算目標(biāo)用戶與其他用戶的相似度,與傳統(tǒng)的相似度度量方法相比,該方法推薦精度和質(zhì)量更高。
2 協(xié)同過(guò)濾推薦算法
2.1 算法運(yùn)行主要步驟
協(xié)同過(guò)濾技術(shù)主要有以下幾步:首先計(jì)算出用戶或者項(xiàng)目之間的相似度,其次選擇和目標(biāo)用戶或目標(biāo)項(xiàng)目相似度最大的K個(gè)用戶或者K個(gè)項(xiàng)目作為其最近鄰居集合,在此鄰居集合的基礎(chǔ)上,產(chǎn)生推薦結(jié)果。協(xié)同過(guò)濾推薦技術(shù)主要包括四個(gè)步驟:建立用戶-項(xiàng)目評(píng)分的矩陣、確立最近鄰居集合、產(chǎn)生預(yù)測(cè)評(píng)分、產(chǎn)生推薦結(jié)果[4]:
2.1.1 建立用戶-項(xiàng)目評(píng)分的矩陣
協(xié)同過(guò)濾推薦技術(shù)在用戶對(duì)項(xiàng)目的歷史評(píng)分信息數(shù)據(jù)的基礎(chǔ)上,建立起用戶和相應(yīng)項(xiàng)目的評(píng)分矩陣。
2.1.2 確立最近鄰居集合
最近鄰居集合指的是和目標(biāo)用戶的興趣相似的若干用戶,推薦系統(tǒng)將目標(biāo)用戶和其他用戶之間的相似度按大小降序進(jìn)行排序,選擇排序靠前的K個(gè)用戶,以此為目標(biāo)用戶的最近鄰居集合,顯然,計(jì)算用戶之間的相似性的關(guān)鍵在于確立最近鄰居集合。
2.1.3 產(chǎn)生預(yù)測(cè)評(píng)分
5 結(jié)語(yǔ)
本文提出了一種新型的度量用戶間相似度的算法,將用戶相似度細(xì)粒度化,劃分為分值差距度、評(píng)分傾向相似度、共同評(píng)分物品數(shù)權(quán)值3部分,在深度發(fā)掘用戶評(píng)分?jǐn)?shù)據(jù)信息的基礎(chǔ)上,使用戶相似度的計(jì)算更加高效,預(yù)測(cè)精度更高。實(shí)驗(yàn)結(jié)果表明,較之傳統(tǒng)用戶相似性度量方法,本文方法在評(píng)分預(yù)測(cè)方面誤差更小,效果令人滿意,有一定的工程應(yīng)用價(jià)值。
參考文獻(xiàn)
[1]冷亞軍,陸青,梁昌勇.協(xié)同過(guò)濾推薦技術(shù)綜述[J].模式識(shí)別與人工智能,2014,27(8):720-734. doi:10.3969/j.issn.1003-6059.2014.08.007.
[2]Ahn H J. A new similarity measure for collaborative filtering to alleviate the new user cold-starting problem[J].Information Sciences, 2008, 178(1):37-51. doi:10.1016/j.ins.2007.07.024.
[3]項(xiàng)亮.推薦系統(tǒng)實(shí)踐[M].北京:人民郵電出版社,2012:110-120.
[4]任看看,錢(qián)雪忠.協(xié)同過(guò)濾算法中的用戶相似性度量方法研究[J].計(jì)算機(jī)工程,2015,41(8):18-22,31. doi:10.3969/j.issn.1000-3428.2015.08.004.
[5]丁少衡,姬東鴻,王路路.基于用戶屬性和評(píng)分的協(xié)同過(guò)濾推薦算法[J].計(jì)算機(jī)工程與設(shè)計(jì),2015,36(2): 487-491,497.doi:10.16208/j.issn1000-7024.2015.02.039.