蔡雄峰 艾麗華 丁丁
摘要:協(xié)同過濾算法是推薦系統(tǒng)中最古老的算法之一,同時也是當今推薦系統(tǒng)中使用最廣泛的一種算法。但是在簡單,效率高的同時,協(xié)同過濾算法還存在數(shù)據(jù)稀疏性,冷啟動等一些問題.本文針對其數(shù)據(jù)稀疏性的問題,提出了一種根據(jù)興趣度預測用戶未評分項目的方法。最后通過基于Netflix數(shù)據(jù)集的實驗結(jié)果表明,該方法能夠更好的處理稀疏矩陣,能緩解數(shù)據(jù)稀疏問題,從而提高了協(xié)同過濾算法的準確性。
關(guān)鍵詞:協(xié)同過濾;推薦系統(tǒng);數(shù)據(jù)稀疏;興趣度;填充矩陣
中圖分類號:TP391.1 文獻標識碼:A DOI:10.3969/j.issn.1003-6970.2015.03.009
本文著錄格式:蔡雄峰,艾麗華,丁丁.一種緩解協(xié)同過濾算法數(shù)據(jù)稀疏性的方法[J].軟件,2015,36(3):41-47
0.引言
當今互聯(lián)網(wǎng)世界中最常見的智能產(chǎn)品可以說是推薦系統(tǒng)了。推薦系統(tǒng)在如今互聯(lián)網(wǎng)的應用和產(chǎn)品中已被廣泛采用,比如大家每天都可能會使用到的相關(guān)搜索、微博上的熱門推薦、電子商務(wù)網(wǎng)站的各種產(chǎn)品推薦、Facebook等社交網(wǎng)站上的好友推薦等等。伴隨著互聯(lián)網(wǎng)信息爆炸式的增長,“信息過載”問題變得越來越嚴重。人們面對海量的數(shù)據(jù),非常困難迅速有效的找到自己感興趣,自己所真正需要的信息。目前解決這個問題大致有兩種方法,第一種是以搜索引擎為代表的信息檢索技術(shù),第二種是以推薦系統(tǒng)為代表的信息過濾技術(shù)。這些技術(shù)都可以從海量數(shù)據(jù)中幫助用戶找到自己想要的信息。
協(xié)同過濾是已被提出的推薦算法中應用最多,且最為有效的算法。其已被應用到諸多商業(yè)場景中。然而,協(xié)同過濾算法存在例如冷啟動,數(shù)據(jù)稀疏性等問題仍需要解決。協(xié)同過濾算法是基于用戶與項目之間的評分信息的。因此,評分信息的豐富性和完整性則顯得尤為重要。相關(guān)研究表明,一個網(wǎng)站上用戶對項目的評分不會超過用戶一項目評分矩陣大小的1%,這就產(chǎn)生了數(shù)據(jù)稀疏性的問題,從而導致推薦系統(tǒng)精度下降。所以,緩解矩陣的稀疏性對于一個推薦算法來說是至關(guān)重要的。