陳文靜 尹健
【摘要】隨著互聯(lián)網技術的興起和信息技術的快速發(fā)展,互聯(lián)網從原來信息匱乏的時代走向了信息過載,這也使得用戶想要從海量信息庫中快速并且準確地找到其感興趣的信息變得愈發(fā)困難,推薦系統(tǒng)應用而生。本文對推薦系統(tǒng)的相關內容和存在的問題進行了全面分析,并給出了相應的解決策略。
【關鍵詞】互聯(lián)網? 信息過載? 推薦系統(tǒng)
推薦系統(tǒng)通過將機器學習、用戶行為學和人機交互等多個領域的技術進行結合,并運用大規(guī)模并行數(shù)據處理框架,進而快速并準確地為每位用戶提供個性化信息服務。作為一種提供服務的技術,推薦系統(tǒng)的宗旨在于利用各種決策過程來支持用戶的興趣變化。同時,推薦系統(tǒng)已漸漸地在娛樂、政務、電子商務等領域受到廣泛關注。
一、推薦系統(tǒng)研究現(xiàn)狀及相關分析
推薦系統(tǒng)是由Group Lens研究小組對MovieLens電影數(shù)據集展開的研究,通過提取物品的特征信息來進行推薦,然而這種推薦方法存在一定的局限性,后來研究學者提出基于協(xié)同過濾、基于關聯(lián)規(guī)則、基于效用、基于知識的推薦系統(tǒng)。近幾年,國際學術界對推薦系統(tǒng)的研究也陸續(xù)產生,ACM曾多次將研討的主題設為推薦系統(tǒng),并且設立了推薦系統(tǒng)年會。許多國內外期刊也將推薦系統(tǒng)作為其研究專題,如SIGCHI、KDD、SIGIR、WWW等,這些期刊對推薦系統(tǒng)研究文章的收錄也在逐步增加。
二、推薦系統(tǒng)存在的問題分析
推薦系統(tǒng)發(fā)展相對較快,并取得了較多的成果,但在其發(fā)展過程中,還存在著較多的問題。我們對相關問題進行了以下分析:
(一)準確性
預測準確性是目前在推薦系統(tǒng)研究中討論的最多的問題,準確性是用來衡量真實評分和預測評分的誤差值的重要方式。
(二)數(shù)據稀疏性
數(shù)據稀疏性是指在大量的用戶和項目信息中,用戶對項目的評分對于海量數(shù)據來說,只是冰山一角。例如,用戶A和B具有較高的相似度,但是二者對相同項目的評分較少,通過相似度計算可以得到二者的相似度極低,這種情況導致了用戶A和B之間的相似信息的缺失。因此數(shù)據稀疏性對推薦系統(tǒng)的推薦性能提出了重大挑戰(zhàn)。
(三)冷啟動問題
推薦系統(tǒng)中由于缺少初始評分而導致系統(tǒng)無法做出個性化推薦的問題稱為冷啟動問題,其主要包括用戶冷啟動和項目冷啟動。由于協(xié)同過濾推薦算法采用基于目標用戶的近鄰或者基于項目的近鄰對目標用戶進行推薦。因此,如果系統(tǒng)中新加入用戶和項目,系統(tǒng)很難采用近鄰用戶集合和近鄰項目集合對目標用戶進行推薦。所以,冷啟動問題降低了協(xié)同過濾推薦算法的性能。
(四)可擴展性
隨著時間的增長,用戶和項目的數(shù)量也隨之增長,采用傳統(tǒng)的協(xié)同過濾推薦算法將會使得推薦系統(tǒng)遭受很嚴重的可擴展性問題,算法的計算過程和運算量可能呈指數(shù)增長。同時,系統(tǒng)需要實時并且準確性地為系統(tǒng)中的所有用戶進行推薦,而這需要推薦系統(tǒng)具有較高的可擴展性。
三、推薦系統(tǒng)解決策略
針對推薦系統(tǒng)存在的問題,我們對推薦系統(tǒng)的解決策略進行了以下的分析:
對于準確性問題,通常我們選用平均絕對誤差值來驗證推薦系統(tǒng)的準確度。用戶對推薦的項目越滿意,則會越來越相信推薦系統(tǒng),推薦系統(tǒng)被使用的概率也會逐漸提高。相反,如果推薦系統(tǒng)沒有找到用戶感興趣的項目,則會導致該系統(tǒng)的用戶逐漸流失,系統(tǒng)被使用的概率也逐漸降低。
對于數(shù)據稀疏性問題,使用降維技術來有效地解決數(shù)據稀疏性問題,例如選用奇異值矩陣分解將不具有代表性的特征或者不重要的用戶和項目信息進行刪除,從而有效地降低了用戶對項目評分矩陣的維度。也就是說通過采用低維空間中的用戶相似性來代替用戶間的相似性,然后運用推薦系統(tǒng)為目標用戶進行推薦。
對于冷啟動問題,我們分別從用戶冷啟動和項目冷啟動進行分析。當一個新用戶通過注冊而使用系統(tǒng)時,由于該用戶未對系統(tǒng)中的項目進行評分,系統(tǒng)從而無法對該用戶進行推薦,這種問題我們稱為新用戶冷啟動問題。針對此問題我們提出了幾種解決策略:利用系統(tǒng)中所有用戶對項目評分的平均值作為新用戶對該項目的評分;在用戶注冊時,使用附加信息如性別、年齡、職業(yè)等統(tǒng)計信息作為新用戶對相關項目的評分來進行推薦;通過詢問用戶相關項目信息來獲取新用戶的興趣愛好,比如登陸視頻網站詢問“喜歡什么樣的電影”從而為用戶推薦相關項目。當一個新項目被添加到系統(tǒng)中時,它沒有任何被評分信息,因此也不會被推薦給用戶,這種問題我們稱為新項目冷啟動問題。實際應用中,用戶往往不會對不推薦給他們的項目評分,因此新項目可能會逐漸被遺忘。針對此問題,我們提出以下方法進行解決:系統(tǒng)隨機抽取新項目或者評分信息很少的項目讓用戶進行評分;通過其他的推薦方法進行推薦,如基于內容或者關聯(lián)規(guī)則等。
對于可擴展性問題,一方面可以采用皮爾森相關系數(shù)計算用戶和用戶以及項目和項目之間的相似度,此計算方式選用的是與目標用戶評價過相同項目的近鄰集以及與被用戶評價過項目的相似項目集進行相似度計算;另一方面,選擇基于模型的推薦算法如采用基于聚類的協(xié)同過濾推薦算法通過選定與目標用戶興趣度相似度較高的簇類中的用戶進行推薦。這種方式不僅可以降低計算復雜度,同時可以解決可擴展性問題。
四、總結
推薦系統(tǒng)更新較快,必須通過不斷的對推薦系統(tǒng)進行優(yōu)化,提高推薦系統(tǒng)的推薦精確度,從而保障推薦系統(tǒng)時效性。
參考文獻:
[1]Francesco R, Lior R, Bracha S. Recommender Systems Handbook[M]. Springer, Boston, MA.
[2]弗朗西斯科·里奇. 推薦系統(tǒng)[M].機械工業(yè)出版社, 2015.
[3]于洪,李俊華.一種解決新項目冷啟動問題的推薦算法[J].軟件學報. 2015, (06).
[4]李歡.新型協(xié)同過濾推薦算法研究[D].安徽大學, 2017.
[5]黃山山.協(xié)同過濾推薦算法的關鍵性問題研究[D].山東大學,2016.