孫光浩 劉丹青 李夢云
摘要:在現(xiàn)有文獻(xiàn)統(tǒng)計(jì)下個(gè)性化推薦算法可以分為如下三類:基于內(nèi)容的推薦(Content-based Recommendation)、基于協(xié)同過濾的推薦(CollaborativeFilteringbasedRecommendation),以及混合型推薦系統(tǒng)(Hybrid Recommendation)。其中,基于協(xié)同過濾的推薦因其對專家知識(shí)依賴度低以及可以利用群體智慧等特點(diǎn),得到了最為深入也最為廣泛的研究,它又可以被分為多個(gè)子類別,主要包括基于用戶的協(xié)同過濾(User-based CF),基于物品的協(xié)同過濾(Item-based CF),以及基于模型的協(xié)同過濾(Model-based CF),等。其中基于模型的推薦是一類方法的統(tǒng)稱,它指利用系統(tǒng)已有的數(shù)據(jù)和用戶歷史行為,學(xué)習(xí)和構(gòu)建一個(gè)模型,進(jìn)而利用該模型進(jìn)行用戶偏好建模、預(yù)測與個(gè)性化推薦,根據(jù)具體應(yīng)用場景和可用數(shù)據(jù)的不同,這里的模型可以是常用的奇異值分解等矩陣分解模型,也可以是主題模型、人工神經(jīng)網(wǎng)絡(luò)、概率圖模型、組合優(yōu)化甚至深度學(xué)習(xí)等機(jī)器學(xué)習(xí)模型。在下面的部分,我們將在如上幾個(gè)方面對個(gè)性化推薦系統(tǒng)的研究現(xiàn)狀進(jìn)行具體的介紹。
關(guān)鍵詞:推薦算法;協(xié)同過濾;個(gè)性化
1研究背景
隨著互聯(lián)網(wǎng)的迅速發(fā)展,個(gè)性化推薦系統(tǒng)已經(jīng)逐漸成為各種網(wǎng)絡(luò)應(yīng)用中不可缺少的核心功能,并以各種各樣的方式影響著人們?nèi)粘I畹姆椒矫婷妫弘娮由虅?wù)網(wǎng)站中的購物推薦引擎為用戶提供可能感興趣的商品推薦;社交網(wǎng)絡(luò)中的好友推薦為用戶尋找潛在的好友關(guān)注;視頻網(wǎng)站中的視頻推薦為用戶提供最可能點(diǎn)擊的視頻推薦;新聞門戶網(wǎng)站中的內(nèi)容推薦為用戶提供最有信息量的新聞——個(gè)性化推薦技術(shù)已經(jīng)是支撐互聯(lián)網(wǎng)智能的基礎(chǔ)技術(shù)之一。
2國內(nèi)外現(xiàn)狀
互聯(lián)網(wǎng)的快速發(fā)展開啟了人類活動(dòng)線上化的進(jìn)程,越來越多傳統(tǒng)上只能在線下完成的任務(wù)變得可以方便快捷地在互聯(lián)網(wǎng)上完成。已經(jīng)深入人們?nèi)粘I钪械碾娮由虅?wù)就是這一進(jìn)程的典型代表,例如阿里巴巴、京東商城、亞馬遜網(wǎng)絡(luò)商城等電子商務(wù)網(wǎng)站的普及,使得人們不必走出家門即可購買自己所需要的商品,并且可以在更多的備選商品中進(jìn)行挑選。不僅限于電子商務(wù)應(yīng)用,社交網(wǎng)絡(luò)平臺(tái)如新浪微博和Facebook的興起使得人們可以在互聯(lián)網(wǎng)上交友、溝通、獲取實(shí)時(shí)資訊;在線叫車服務(wù)如滴滴和Uber的發(fā)展使得用戶不再需要線下街頭打車;在線P2P借貸服務(wù)如宜信和Prosper使得用戶線上借貸和理財(cái)成為可能;在線房地產(chǎn)業(yè)務(wù)如Zillow和Airbnb的發(fā)展則使傳統(tǒng)的房地產(chǎn)業(yè)務(wù)逐步線上化;在線自由職業(yè)平臺(tái)如豬八戒網(wǎng)和亞馬遜MTurk的迅速發(fā)展甚至使得自由職業(yè)者在線工作和任務(wù)分配成為可能。
2.1基于內(nèi)容的推薦
首先收集和標(biāo)注特征信息并對用戶和物品構(gòu)建內(nèi)容畫像(Profile),例如電影的類型、導(dǎo)演、主演,用戶的年齡、性別、內(nèi)容偏好,等等。在此基礎(chǔ)上,基于內(nèi)容的推薦通過用戶畫像和物品畫像的特征匹配算法進(jìn)行個(gè)性化的推薦。在理論與方法方面,Debnath等研究了特征權(quán)重的選取方法及其對推薦效果的影響;Martinez等將語言學(xué)模型運(yùn)用到基于內(nèi)容的推薦當(dāng)中,從而允許用戶以自然語言描述自身的興趣愛好并獲得個(gè)性化的推薦;Blanco和Gemmis等將語義網(wǎng)與基于內(nèi)容的推薦相結(jié)合,利用語義網(wǎng)所蘊(yùn)含的精確的特征關(guān)系為用戶提供推薦;Noia等進(jìn)一步將最新的開放連接數(shù)據(jù)(LinkedOpellData)項(xiàng)目語義網(wǎng)應(yīng)用于個(gè)性化推薦;Zenebe等將模糊集理論應(yīng)用于用戶和物品特征集合的匹配過程從而為用戶提供基于內(nèi)容的推薦;Cramer等則在基于內(nèi)容的推薦背景下研究了系統(tǒng)透明度對用戶信任和接受度的影響。在實(shí)際應(yīng)用方面,Mooney等研究并推出了基于內(nèi)容的圖書推薦系統(tǒng);Cano推出了基于內(nèi)容的音樂推薦系統(tǒng);Basu等研究了社交關(guān)系信息在推薦系統(tǒng)中的應(yīng)用,Cantador等則進(jìn)一步將基于內(nèi)容的推薦應(yīng)用于社會(huì)化標(biāo)簽系統(tǒng)(Social Tagging System),從而為用戶推薦最可能感興趣的對象進(jìn)行標(biāo)簽標(biāo)注;Chen等研究了基于內(nèi)容的電子商務(wù)系統(tǒng);Phelan和Kompan等則研究了基于內(nèi)容的新聞推薦系統(tǒng)。
2.2基于協(xié)同過濾的推薦
基于協(xié)同過濾的推薦是推薦系統(tǒng)中廣泛使用的推薦技術(shù),與基于內(nèi)容的方法不同,協(xié)同過濾的核心思想在于借助其他用戶的歷史行為(群體智慧)來為當(dāng)前用戶給出推薦,而不僅僅是考慮當(dāng)前用戶自身的特征偏好?;趨f(xié)同過濾進(jìn)行推薦的思想一般認(rèn)為最早出現(xiàn)在GroupLens的新聞推薦系統(tǒng)中,該工作也就是后來人們所說的基于用戶的協(xié)同過濾方法,除此之外,該工作也第一次提出了用戶物品評分矩陣的補(bǔ)全預(yù)測問題,并且這一問題在Herlocker中得到了進(jìn)一步的形式化,并在Breese中得到了實(shí)驗(yàn)驗(yàn)證,影響了推薦系統(tǒng)今后十幾年的發(fā)展方向;Sugiyama等將基于用戶的協(xié)同過濾用于個(gè)性化搜索任務(wù)中并取得了不錯(cuò)的效果。
Sarwar等研究了協(xié)同過濾技術(shù)在電子商務(wù)網(wǎng)站中的應(yīng)用,并發(fā)現(xiàn)由于在基于用戶的協(xié)同過濾中需要計(jì)算用戶之間的兩兩相似度,使得在電子商務(wù)等用戶數(shù)龐大的網(wǎng)站中計(jì)算量成為了一大瓶頸。為了解決該問題,Sarwar等進(jìn)一步提出了基于物品的協(xié)同過濾,利用物品的相似度來進(jìn)行協(xié)同過濾式推薦,該方法在亞馬遜的個(gè)性化推薦系統(tǒng)中得到了重要的應(yīng)用,并且至今仍然是許多電子商務(wù)網(wǎng)站推薦系統(tǒng)的基礎(chǔ)之一;由于基于用戶和基于物品的協(xié)同過濾都涉及到用戶和物品相似度的計(jì)算,兩者一般可以統(tǒng)稱為基于近鄰的推薦方法(Neighbourbased Recommendation);Herlocker等對通過選擇不同的相似度計(jì)算函數(shù),對基于用戶的協(xié)同過濾方法的實(shí)際效果進(jìn)行了分析和驗(yàn)證;Karypis則在Top-N推薦列表任務(wù)中對基于物品的協(xié)同過濾進(jìn)行了實(shí)驗(yàn)驗(yàn)證和效果評價(jià);Huang等對比了不同的協(xié)同過濾算法在電子商務(wù)網(wǎng)站應(yīng)用場景下的效果和效率;Basu和Kautz等最早討論了社交網(wǎng)絡(luò)與協(xié)同過濾的結(jié)合,從而使得社交推薦成為可能;Massa和O'Donovan等研究了用戶之間的信任關(guān)系在協(xié)同過濾相似用戶選擇過程中的應(yīng)用,提出了信任敏感的(Trust-aware)協(xié)同過濾算法和研究方向,并開發(fā)了信任敏感的推薦系統(tǒng)實(shí)際應(yīng)用模型Moleskiing。endprint
為了進(jìn)一步解決相似度計(jì)算量大的問題,Lemire等提出了著名的SlopeOne系列算法將協(xié)同過濾的回歸函數(shù)簡化,在大大降低計(jì)算時(shí)間和存儲(chǔ)需求的同時(shí),取得與原始基于近鄰算法相當(dāng)甚至更好的效果;O'Connor等提出利用物品聚類來降低相似度計(jì)算的復(fù)雜度;Gong等嘗試和比較了分別對用戶和物品進(jìn)行聚類的效果;而George等則采用互聚類(Co-Clustering)的方法對用戶和物品同時(shí)進(jìn)行聚類,并在此基礎(chǔ)上尋找近鄰;Ma等基于相似度閾值過濾提出了一種尋找近鄰并計(jì)算預(yù)測打分的加速算法;Zhou和Zhao等則研究和實(shí)現(xiàn)了基于Hadoop的并行化相似度計(jì)算和協(xié)同過濾方法。
隨著2007年Netflix矩陣預(yù)測大獎(jiǎng)賽的興起,推薦系統(tǒng)的研究進(jìn)入了一個(gè)新的高潮。由于在矩陣分解在預(yù)測效果上的明顯優(yōu)勢,大量的矩陣分解算法得到深入的研究和擴(kuò)展,這既包括對主成分分析(Principle Component Analysis)算法、奇異值矩陣分解(Singular Value Decomposition)算法和非負(fù)矩陣分解(Non-negative Matrix Factorization)算法等已有矩陣分解算法的應(yīng)用和擴(kuò)展,也包括一些新算法的提出和研究,例如最大間隔矩陣分解(Maximum Margin Matrix Factorization)算法和概率矩陣分解(Probabilistic Matrix Factorization)算法,等等。
2.3冷啟動(dòng)問題
冷啟動(dòng)問題(Cold-start)是協(xié)同過濾式推薦系統(tǒng)所面臨的重要問題之一。當(dāng)新用戶剛剛加入系統(tǒng)時(shí),由于其只有很少甚至沒有歷史行為記錄,使得協(xié)同過濾算法難以對其進(jìn)行偏好建模,例如在基于用戶的協(xié)同過濾當(dāng)中,冷啟動(dòng)用戶由于沒有歷史打分記錄,造成無法為其計(jì)算相似近鄰用戶。同樣的問題也存在于基于物品的協(xié)同過濾算法中,新加入的物品由于幾乎沒有用戶打分,使得難以被算法推薦出來。Gantner等通過學(xué)習(xí)屬性特征映射來解決冷啟動(dòng)問題;Zhang等利用社會(huì)化標(biāo)簽來緩解冷啟動(dòng)問題;Bobadilla等則研究了神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)算法在冷啟動(dòng)問題中的應(yīng)用;Leroy等對冷啟動(dòng)的關(guān)聯(lián)預(yù)測(Link Prediction)問題進(jìn)行了研究;Ahn等提出了一種啟發(fā)式的相似度計(jì)算方法來解決新用戶冷啟動(dòng)的問題;Zhou等提出了功能矩陣分解模型(Functional Matrix Factorization),利用決策樹和矩陣分解的結(jié)合在冷啟動(dòng)過程中為用戶選擇合適的物品進(jìn)行打分,從而盡可能準(zhǔn)確地理解用戶的偏好。與冷啟動(dòng)問題緊密相關(guān)的是協(xié)同過濾的數(shù)據(jù)稀疏性問題,相對于系統(tǒng)中規(guī)模龐大的物品總數(shù),評價(jià)每個(gè)用戶有過交互行為的物品只是很少的一部分,數(shù)據(jù)的稀疏性為用戶偏好建模帶來了挑戰(zhàn)。Wilson等通過實(shí)例研究了數(shù)據(jù)稀疏性問題在推薦系統(tǒng)中的影響;Huang等嘗試?yán)藐P(guān)聯(lián)規(guī)則挖掘來解決數(shù)據(jù)稀疏性問題;Papagelis等利用用戶信任關(guān)系來緩解稀疏性;Feng等研究了神經(jīng)網(wǎng)絡(luò)在稀疏數(shù)據(jù)背景下推薦問題中的應(yīng)用;Zhang等提出了矩陣的塊對角結(jié)構(gòu),通過矩陣的塊對角變換增加局部密度從而直接緩解稀疏性問題;Zhang等進(jìn)一步分析了矩陣分解的解空間性質(zhì),并提出了增廣矩陣分解算法用以解決數(shù)據(jù)稀疏性的問題。由于推薦系統(tǒng)是許多互聯(lián)網(wǎng)應(yīng)用中的重要部分,協(xié)同過濾也因此在各種應(yīng)用場景下得到了豐富的應(yīng)用。除了典型的電子商務(wù)推薦系統(tǒng)之外,Das等利用協(xié)同過濾技術(shù)實(shí)現(xiàn)谷歌新聞推薦系統(tǒng);Ma等利用協(xié)同過濾方法研究了社交網(wǎng)絡(luò)推薦中的一系列重要問題,包括基于社交網(wǎng)絡(luò)信任關(guān)系的推薦、基于社會(huì)化正則項(xiàng)的推薦、基于概率化矩陣分解的社交網(wǎng)絡(luò)推薦、基于上下文信息的社會(huì)化推薦、以及顯式和隱式信息在社會(huì)網(wǎng)絡(luò)推薦中的應(yīng)用,等等;Lekakos、Liu和Jeong等研究了協(xié)同過濾技術(shù)在電影推薦中的應(yīng)用;Celma、Eck、Wang等研究了音樂推薦技術(shù)及系統(tǒng);Tewari、Cui等研究了在線圖書推薦;Zheng等研究了在線服務(wù)推薦系統(tǒng);論文引用推薦是協(xié)同過濾推薦應(yīng)用的另一個(gè)重要領(lǐng)域,He、Caragea、Zarrinkalam等對此進(jìn)行了深入的研究。
2.4混合型推薦系統(tǒng)
基于內(nèi)容的推薦其優(yōu)點(diǎn)是沒有冷啟動(dòng)的問題,但是用戶和物品畫像的構(gòu)建需要大量的時(shí)間和人力;而基于協(xié)同過濾的推薦通過利用群體的智慧對用戶和物品進(jìn)行畫像和建模,但是也存在冷啟動(dòng)、數(shù)據(jù)稀疏性等不足之處。為了結(jié)合兩者的優(yōu)點(diǎn)而同時(shí)規(guī)避兩者的缺點(diǎn),研究界提出了混合型推薦系統(tǒng),對基于內(nèi)容和基于協(xié)同過濾兩種方法的結(jié)合成為混合型推薦系統(tǒng)的主流,在實(shí)際系統(tǒng)中得到了廣泛的應(yīng)用,現(xiàn)在大多數(shù)實(shí)際中的推薦系統(tǒng)都是綜合多種推薦算法而構(gòu)建的混合型推薦系統(tǒng)。根據(jù)算法融合方式不同,混合型推薦策略可以分為加權(quán)融合、場景切換、結(jié)果混合與重排序,、特征組合、算法級聯(lián)、算法元層次融合等。
Burke等將基于知識(shí)的專家系統(tǒng)與協(xié)同過濾結(jié)合,較早提出了混合型推薦系統(tǒng)的概念;ClayPool等進(jìn)而將基于內(nèi)容和協(xié)同過濾的推薦相結(jié)合用于新聞推薦的任務(wù);Wang等基于相似度融合的方法對傳統(tǒng)的用戶協(xié)同過濾和物品協(xié)同過濾進(jìn)行了結(jié)合;Good等提出結(jié)合個(gè)人助理(Personal Agents)的協(xié)同過濾框架;Pennock等將基于近鄰的協(xié)同過濾與基于模型的方法相結(jié)合;Melville等提出了基于內(nèi)容增強(qiáng)(Content-boosted)的協(xié)同過濾方法;Kim和Cho等研究了基于決策樹的混合推薦模型;Popescul和Yoshii等研究了混合型推薦的概率化方法;近年來,Campos等又將貝葉斯概率框架應(yīng)用于混合型推薦系統(tǒng)中;Burke等研究了異構(gòu)網(wǎng)絡(luò)和數(shù)據(jù)環(huán)境下的混合型推薦算法;Choi等研究了用戶隱式反饋與行為模式的結(jié)合;Renckes等考慮了用戶隱私保護(hù)在混合型推薦中的體現(xiàn);Sun等研究了基于排序?qū)W習(xí)的混合型推薦;Huang等基于用戶物品關(guān)系圖提出了一種融合內(nèi)容和協(xié)同過濾的混合型推薦方法。
在應(yīng)用方面,斯坦福大學(xué)的研究人員首先推出了混合型推薦系統(tǒng)Fab,首次采用了內(nèi)容和協(xié)同過濾結(jié)合的方法;Prasad和Li等研究了電子商務(wù)網(wǎng)站背景下混合型推薦的應(yīng)用;Yu等利用混合型推薦實(shí)現(xiàn)了基于手機(jī)的上下文相關(guān)多媒體內(nèi)容推薦系統(tǒng);Yoshii和Donaldson等則對混合型推薦策略在音樂推薦中的應(yīng)用;Lekakos和Salter等基于內(nèi)容和協(xié)同過濾研究了電影推薦;Vaz等基于協(xié)同過濾和作者排序?qū)崿F(xiàn)了一個(gè)在線圖書推薦系統(tǒng);Lucas等對在線旅游產(chǎn)品的推薦進(jìn)行了研究;Sobecki等利用協(xié)同過濾和菜譜內(nèi)容實(shí)現(xiàn)了在線菜譜教程推薦系統(tǒng);隨著MOOC等在線學(xué)習(xí)平臺(tái)的興起,Chen、Tang、Khrib和Bobadilla等研究了基于混合型推薦策略的在線課程推薦系統(tǒng)。
3存在問題
個(gè)性化推薦技術(shù)的主要研究對象豐富多變,概括而言包括兩大部分:其一是廣泛存在于各種互聯(lián)網(wǎng)應(yīng)用中的被推薦物品,包括商品、視頻、音樂、電影、新聞、金融產(chǎn)品、工作任務(wù)等方方面面;其二便是購買、消費(fèi)和操作這些物品的網(wǎng)絡(luò)用戶。用戶與物品之間交互方式的多樣性、行為記錄的豐富性、興趣偏好的動(dòng)態(tài)性,為個(gè)性化推薦技術(shù)的研究及其解釋帶來了諸多挑戰(zhàn)。如圖所示。
4結(jié)語
為了解決相關(guān)問題,學(xué)術(shù)界和產(chǎn)業(yè)界都進(jìn)行了一定的探索,例如在亞馬遜等電子商務(wù)推薦系統(tǒng)中往往簡單地給出“購買了該產(chǎn)品的用戶也購買了”等簡單的模板式推薦理由;在社交網(wǎng)站下相關(guān)的推薦系統(tǒng)中,則可以看到諸如“你的好友也查看了該內(nèi)容”等基于社交關(guān)系的推薦理由。然而,過度簡化的一成不變的推薦理由難以為用戶提供個(gè)性化的解釋,降低了用戶對推薦理由的信任度。然而在實(shí)際系統(tǒng)中,用戶提及某一主題時(shí)并非一定是在表達(dá)正面情感,而在很多情況下恰恰相反是在表達(dá)負(fù)面情感,因此純粹基于主題的方法往往在描述用戶興趣偏好時(shí)有所偏差。本文對個(gè)性化推薦算法的關(guān)鍵技術(shù)做了系統(tǒng)介紹,對核心算法進(jìn)行了綜述,為實(shí)現(xiàn)具體領(lǐng)域內(nèi)個(gè)性化推薦做鋪墊。endprint