崔北亮,周小康,李樹青
1.南京工業(yè)大學(xué)圖書館,江蘇 南京 210009
2.南京財經(jīng)大學(xué)信息工程學(xué)院,江蘇 南京 210023
推薦系統(tǒng)在日常生活中的應(yīng)用變得非常普遍,有學(xué)者據(jù)此斷言“我們正在離開信息時代,進入推薦時代”[1]。目前,推薦系統(tǒng)已被廣泛應(yīng)用于人工智能[2]、電子商務(wù)[3]、數(shù)字圖書館[4]等應(yīng)用系統(tǒng)中,越來越多的網(wǎng)站和社交媒體的競爭開始逐漸轉(zhuǎn)變?yōu)閭€性化推薦服務(wù)的競爭。推薦系統(tǒng)的目的正在于基于已有的用戶興趣歷史記錄來判斷用戶未來的可能興趣點,以便推薦給用戶尚未關(guān)注到的潛在感興趣內(nèi)容。因此,如何根據(jù)用戶的瀏覽信息或者購買情況推薦更符合用戶興趣的項目是推薦系統(tǒng)面臨的一個重大挑戰(zhàn)。
改進推薦系統(tǒng)的算法不能完全建立在算法自身的完善上,而作為目前所有推薦系統(tǒng)算法的關(guān)鍵內(nèi)容——數(shù)據(jù)本身,卻并沒有受到人們過多的重視。這給現(xiàn)有推薦系統(tǒng)算法改進提供了一個有益的研究思路,即如何有效選擇數(shù)據(jù),通過數(shù)據(jù)增強等方式來獲得更為準確的用戶興趣模式的表達能力[5]。
協(xié)同過濾是一種非常有效而且應(yīng)用廣泛的個性化推薦技術(shù)[6],它基于一個簡單的假設(shè),那就是用戶過去的興趣代表著未來的興趣。因此,通過分析已有的用戶興趣信息(這主要由用戶對項目的評分來體現(xiàn)),就可以對未來未知項目的評分做出預(yù)測。這個假設(shè)在一定程度上具有合理性,如有學(xué)者利用招聘信息網(wǎng)站上的用戶數(shù)據(jù)分析發(fā)現(xiàn),對于每個用戶,在過去14周內(nèi)平均有2/7的項目會被用戶在第15周再次點擊[7]。具體而言,協(xié)同過濾推薦方法是通過獲取和當前用戶相似的其他用戶,來給當前的用戶提供合適的意見或者項目。其優(yōu)點在于不需要了解項目的具體內(nèi)容信息,也可以為用戶推薦新的可能感興趣內(nèi)容。然而傳統(tǒng)的協(xié)同過濾算法也存在著很多的不足,比如傳統(tǒng)協(xié)同過濾算法中使用的評分是否可以有效表達用戶真實興趣并沒有得到準確的驗證,再如傳統(tǒng)協(xié)同過濾算法無法處理過于稀疏的數(shù)據(jù),此時易于產(chǎn)生相似度計算不準確的問題。
因此,這些構(gòu)成了本文研究的兩個主要關(guān)注點:
(1)本文探究和驗證了如何在數(shù)據(jù)層面上獲取更為準確表達用戶真實興趣的新方式。當前大部分學(xué)者都認為評分行為是一種非常有效的判斷用戶興趣的方式,現(xiàn)有的研究方法也大都基于這個假設(shè)。但是,用戶評價與否是否可以表征用戶的興趣,或者說相對于評分的具體數(shù)值,評分與否這種二值性(Binary)是否更有價值,這種問題也被稱為“二值視圖(Binary view)”[8]。 從用戶的動機角度來思考,用戶之所以在推薦的項目中有選擇地選擇部分項目而忽略其他項目,這本身就體現(xiàn)了一種用戶興趣的差異性。因此,用戶不去對項目進行評價的過程本非隨機現(xiàn)象[9]?,F(xiàn)有的評分因為都是用戶對自己想關(guān)注的項目進行評價,通常評分更易于取得較高的數(shù)值,而且還會對很多基于評分的推薦算法本身產(chǎn)生不利的影響。有效地利用這些遺漏項目和進一步理解現(xiàn)有打分數(shù)據(jù),對于改善基于評分的各種推薦方法十分必要[10]。
(2)本文探究了如何解決數(shù)據(jù)稀疏給協(xié)同過濾方法帶來的計算有效性問題。本文重點研究了基于有效稠密子序列的協(xié)同過濾推薦算法有效性的計算問題,即通過在已有的用戶評分記錄中合理選擇有效稠密子序列,增加有效數(shù)據(jù)的稠密度,減少了噪聲數(shù)據(jù)的不利干擾??紤]到這種改進會帶來數(shù)據(jù)稀疏度問題,本文通過分析項目的屬性特征并結(jié)合用戶的有效時間區(qū)間識別用戶的高概率參與項目,對數(shù)據(jù)進行填充。同時,本文還使用用戶興趣變化一致性來深入研究分析用戶評分信息與用戶是否評價來驗證用戶需求方面的效果,據(jù)此結(jié)合第一種方法的思路,提出了一種根據(jù)用戶是否評價的二值數(shù)據(jù)來替換傳統(tǒng)具體評分數(shù)值的數(shù)據(jù)表達方法,實驗證明采用用戶是否評價的二值數(shù)據(jù)會取得更為優(yōu)異的實驗結(jié)果。
傳統(tǒng)的協(xié)同過濾算法主要包括3個重要步驟,分別為獲取數(shù)據(jù)、尋找最近鄰元素、預(yù)測推薦。在整個算法過程中,對結(jié)果準確率影響最大的就是數(shù)據(jù)稀疏問題。丁少衡等[11]為解決協(xié)同過濾推薦系統(tǒng)數(shù)據(jù)稀疏帶來的問題,使用Sigmoid函數(shù)來實現(xiàn)數(shù)據(jù)稀疏狀態(tài)下用戶相似度計算中的用戶屬性和用戶評分信息平滑過渡,毛宜鈺等[12]也提出使用Sigmoid函數(shù)來處理用戶評分存在的數(shù)據(jù)稀疏性問題。錢刃等[13]提出用融合稀疏度進行加權(quán)的協(xié)同過濾算法來解決稀疏性問題,該算法中重新定義了矩陣稀疏度計算方法,然后融合矩陣稀疏度對用戶相似度進行加權(quán),并以此來改進協(xié)同過濾算法。為了有效挖掘用戶興趣的變化趨勢,很多學(xué)者提出基于用戶興趣變化的協(xié)同過濾推薦算法,如于洪等[14]通過遺忘曲線來觀察用戶興趣以達到適應(yīng)用戶興趣變化的目的,賈偉洋等[15]利用用戶興趣貼近度對相似度結(jié)果進行進一步加權(quán)處理,得到的相似度結(jié)果中融合了用戶的興趣偏好信息。
關(guān)于二值視圖問題,可以將用戶是否評價作為最為簡單的一種隱式信息,把用戶是否對項目產(chǎn)生過評分設(shè)定為一個二進制值,據(jù)此來表示偽隱式評分(Pseudo?implicit rating)。由于用戶對于項目評價并非是一種隨機行為,評價行為本身就反映了一種用戶對項目的偏好信息[16]。即使這種信息并非很充分,但是和單純使用顯式用戶信息的方法相比,集成該隱式信息到現(xiàn)有顯式信息中可以增加推薦系統(tǒng)的預(yù)測準確度[17]。
對于不評價的項目既有可能是用戶不喜歡,更有可能是用戶根本沒看到,可以稱之為用戶曝光(User exposure)問題[9]。 比如不評分不能完全看成是項目的問題,也有可能來自于用戶的意愿,比如用戶只對特別喜歡和特別不喜歡的項目才去評價。在一定程度上,可以把這種用戶是否評價看成是一種隱式信息,它和評分信息具有一定的關(guān)聯(lián)性,加以有效利用可以提高傳統(tǒng)基于評分方法的推薦系統(tǒng)效果[18]。 此時,評分矩陣(Ratings matrix)簡化為二值矩陣(Binary matrix)。
對于評分矩陣中缺失項目的理解和考慮已經(jīng)成為一種非常有效的方法[19],比如作為隱式的負反饋來訓(xùn)練推薦系統(tǒng)[20]。還有文獻對遺漏數(shù)據(jù)模型的低階特征(Low rank nature)進行研究,并推導(dǎo)出系統(tǒng)性能的底線[21]。在無法從評分直接判斷用戶的喜好時,這些被經(jīng)常顯示的項目也被其他學(xué)者認為應(yīng)該排在推薦列表的后面[22]。
和這些已有的方法不同,本文所提出的方法主要在不改變現(xiàn)有原始數(shù)據(jù)的基礎(chǔ)上,通過有效的數(shù)據(jù)選擇,提取有效稠密數(shù)據(jù)子集,這也給現(xiàn)有推薦系統(tǒng)中數(shù)據(jù)稀疏問題解決提供了一種新的思路和可行性。本文從實驗驗證的角度,探索結(jié)合二值視圖數(shù)據(jù)在表達用戶真實興趣中的價值,并據(jù)此完成了現(xiàn)有推薦算法的改進。同時,對于推薦系統(tǒng)應(yīng)用中的相似度問題,已有學(xué)者通過利用人口統(tǒng)計學(xué)信息實現(xiàn)用戶相似度的測度[23],還有學(xué)者利用模糊聚類方法實現(xiàn)項目聚類,得到潛在相似關(guān)系集合并分區(qū),最終以分區(qū)為單元實現(xiàn)相似度的并行計算[24]。本文根據(jù)二值評分數(shù)據(jù)的特點,探索基于二值評分數(shù)據(jù)的相似度計算及項目評分預(yù)測方法。
通過觀察傳統(tǒng)的協(xié)同過濾算法,可以發(fā)現(xiàn)在用戶評分矩陣中,每個用戶都存在大部分未參與項目,這會導(dǎo)致數(shù)據(jù)變得異常稀疏,為了緩解這些難以避免的問題,本文提出利用有效稠密序列的方法進行改進。
步驟分為兩步:第一步是對用戶的評分序列進行篩選,過濾序列中用戶參與的不感興趣項,并以用戶存在潛在興趣且未參與的項目對數(shù)據(jù)序列進行填充,形成新的用戶評分子序列,據(jù)此緩解數(shù)據(jù)稀疏問題;第二步是根據(jù)評分發(fā)生的有效時間區(qū)間,再次對用戶評分序列進行子序列提取,用二值數(shù)據(jù)進行轉(zhuǎn)換表示,并提出改進后的用戶相似度方法。
具體說明如下:
(1)用戶評分子序列的提取和填充
根據(jù)每個用戶評分項目獲取相關(guān)的項目屬性特征,并統(tǒng)計這些特征的分布情況,可以定義出現(xiàn)次數(shù)最少的特征為低興趣類,出現(xiàn)次數(shù)最多的則為高興趣類。本文認為擁有低興趣類特征且沒有高興趣類特征的項目為不感興趣項,例如某用戶對觀看的大量動作類電影和少量恐怖類電影都給出了低評分,雖然評分低,但是觀看數(shù)量則可以說明該用戶對動作類電影更感興趣,評分過低的原因有可能是影片自身質(zhì)量問題,而對于恐怖電影則是不感興趣。因此可以將這些不感興趣項目進行過濾刪除,形成了新的用戶評分子序列。
為了解決過濾刪除引起的數(shù)據(jù)稀疏問題,本文進一步將用戶未參與且擁有高興趣類特征的項目數(shù)據(jù)作為用戶高概率感興趣的內(nèi)容進行數(shù)據(jù)填充。在實際計算中,又可能因為用戶行為不活躍,參與的項目相對較少,導(dǎo)致項目的特征屬性類型統(tǒng)計也會很少,因此需要定義一個約束閾值,當累計出現(xiàn)最高的項目屬性特征數(shù)量超過用戶所參與的項目數(shù)量的一半時,則可以看成是用戶高概率參與的項目。
篩選出用戶參與評價的起止時間內(nèi)所有符合這些屬性特征的項目,使用該用戶的平均評分為這類項目生成評分數(shù)據(jù)。在數(shù)據(jù)生成中遇到生成的數(shù)據(jù)與源數(shù)據(jù)中的數(shù)據(jù)重合時,保留源數(shù)據(jù)中的真實數(shù)據(jù)。
算法偽代碼為
(2)用戶評分子序列的二值評分轉(zhuǎn)換
在第一步得出的每個用戶新評分序列基礎(chǔ)上,根據(jù)用戶參與每個項目的評價時間,可以得到其參與評價的總起止時間區(qū)間。將需要比較計算的兩名用戶的時間區(qū)間進行綜合,可以得出一個新的時間區(qū)間。進一步,可以篩選出總數(shù)據(jù)集中處于此時間范圍的所有項目,假設(shè)用戶u評價過的最早與最晚的項目分別在2012年和2019年,用戶v評價過的最早與最晚的項目時間為2010年和2015年,選取用戶u和用戶v整體的最早評價時間與最晚評價時間,分別為 2010年和 2019年,那么選取時間在[2010,2019]之間的所有評分項目構(gòu)成新的評分子序列,需要提及一點,不同的兩個用戶所得到的時間區(qū)間可能會不同。
兩個用戶形成的大時間區(qū)間,包括了所有參與和未參與的項目內(nèi)容。已有的新用戶評分子序列,可以進行評分數(shù)據(jù)的二值轉(zhuǎn)換,即根據(jù)用戶是否參與評分作為標準,可以認為此時的用戶參與評分代表其對該項目存在潛在興趣,將二值評分設(shè)置為“1”,未參與評價項目設(shè)置為“0”,從而得到兩名用戶各自的二值評分序列。
算法偽代碼為
前文已經(jīng)說明,用戶是否已經(jīng)評價的二值評分數(shù)據(jù)可以被理解為一種潛在用戶興趣,即用戶在沒有給項目評分之前,完全憑借自己的興趣愛好選擇的項目就能代表用戶的潛在興趣。比如在現(xiàn)實生活中,人們看一部電影,往往不是因為聽別人說這部電影非常好看才去看,也不會因為這部電影的評分很高就去看,更多情況下是這部電影是自己喜歡的類型才會有選擇性地去看。正因如此,當兩個人都是因為各自的潛在興趣去選擇同一部電影時,通過相互之間的分析,可以更準確預(yù)測其他事物的結(jié)果。
拿電影數(shù)據(jù)集來舉例,傳統(tǒng)協(xié)同過濾算法評分矩陣中的數(shù)據(jù)是用戶對電影的評分值,那么這個評分值是在用戶看完這部電影之后,給出的對這部電影的評價,如果評分為4分或者5分,可以認為用戶喜歡這部電影,也可以認為用戶是出于對這類電影的喜愛,又或者是用戶只是喜歡這部電影的主演而已,原因因人而異,想把眾多原因整合到一起,工作量非常巨大并且難以實現(xiàn)。因此,基于用戶是否評價的二值數(shù)據(jù)表達,可以提供一種只研究用戶興趣的簡單方法,不需要關(guān)注用戶給一部電影打了多少分,也不需要關(guān)注用戶到底是基于什么原因給電影打分,只需要關(guān)注用戶有沒有看過這部電影,如果看過,則標記用戶與電影之間的關(guān)系為“1”,否則為“0”。
這種新型數(shù)據(jù)表達的思路需要實驗的驗證,為此設(shè)計如下驗證實驗。
實驗方法:通過用戶過去與未來的評分項目類型相似度來比較二值數(shù)據(jù)與評分數(shù)據(jù)對用戶興趣的表達有效性。
實驗步驟:
(1)每個用戶按評分時間先后順序?qū)⑵湓u價項目分成訓(xùn)練集和測試集,其中訓(xùn)練集中的數(shù)據(jù)為用戶過去評價的項目,測試集中的數(shù)據(jù)為用戶將來評價的項目;
(2)訓(xùn)練集中每一個用戶的評價項目類型數(shù)目形成向量,同樣方式找到測試集中的序列形成向量,形成待比較的兩個向量;
(3)將每個用戶得到的二值評分向量進行相似度計算,相似度計算方法采用的是2.3節(jié)中的式(1),最終將所有用戶的相似度取平均值。
傳統(tǒng)協(xié)同過濾中常見的相似度計算方法無法進行二值評分數(shù)據(jù)向量的相似度比較,如使用余弦相似度去計算,就會造成分母為0的無意義情況,而使用調(diào)整余弦相似度和皮爾遜[25]相似度計算則不可避免地需要計算評分的平均值,對于二值數(shù)據(jù)而言,平均值沒有任何意義。因此借鑒文獻[26]使用式(1)計算谷本系數(shù)相似度。
而余弦相似度的向量表示形式為
式(1)和式(2)中,I,J分別為兩個不同用戶的評分向量,式(1)計算結(jié)果約束在區(qū)間[0,1]之間,較皮爾遜相關(guān)相似度[-1,1]的結(jié)果區(qū)間更方便算法后期的計算。
經(jīng)過相似度計算之后,可以取相似度最高的若干結(jié)果作為最近鄰居集合,再次利用原始評分數(shù)據(jù)來進行評分預(yù)測,預(yù)測值計算方法為
式中,L表示源數(shù)據(jù)經(jīng)過2.1節(jié)之后最終得到的數(shù)據(jù)集合,表示用戶a對所有項目評分的平均值,表示用戶b對所有項目評分的平均值,rb,i表示用戶b對項目i的評分,sim(a,b)為用戶a與用戶b的相似度,N為最近鄰居集合。
具體算法的步驟過程說明如下。
輸入:數(shù)據(jù)集中劃分好訓(xùn)練集與測試集,最近鄰居個數(shù)num。
輸出:用戶a對測試集中項目i評分的預(yù)測值。
算法步驟:
步驟1使用2.1節(jié)的方法對訓(xùn)練集中的每個用戶進行有效評分稠密序列的提取和填充,然后進行用戶評分序列的二值數(shù)據(jù)轉(zhuǎn)換;
步驟2利用式(1)計算任意比較用戶之間的用戶相似度,利用式(2)計算用戶a與用戶b之間的用戶相似度;
步驟3根據(jù)計算的用戶相似度來尋找最近鄰居,并使用式(3)計算用戶a對測試集中項目評分的預(yù)測值。
算法偽代碼為
本文選用的是 ml?latest?small數(shù)據(jù)集,數(shù)據(jù)結(jié)構(gòu)如表1所示。
表1 數(shù)據(jù)集結(jié)構(gòu)表
評分預(yù)測效果的評價標準選擇了RMSE(均方根誤差)和F值(正確率和召回率的調(diào)和平均值)兩種指標。兩個指標的計算公式分別為
式中,X可以理解為用戶的集合,函數(shù)h(x)為評分預(yù)測模型預(yù)測的評分,yi為每個用戶對項目的真實評分。其中正確率和召回率的計算方法如下:
正確率=提取出的正確信息條數(shù)/提取出的信息條數(shù);
召回率=提取出的正確信息條數(shù)/樣本中的信息條數(shù)。針對不同數(shù)據(jù)集正確率和召回率的計算公式也隨著數(shù)據(jù)集結(jié)構(gòu)的不同而重新定義,本文根據(jù)實驗數(shù)據(jù)的特點,規(guī)則定義如下:
正確信息條數(shù)。預(yù)測數(shù)據(jù)滿足與真實數(shù)據(jù)差值絕對值低于0.5的總數(shù)據(jù)個數(shù);
提取出的信息條數(shù)。預(yù)測數(shù)據(jù)值高于3的總數(shù)據(jù)個數(shù);
樣本中的信息條數(shù)。真實數(shù)據(jù)值高于3的總數(shù)據(jù)個數(shù)。
在進行實驗之前,驗證數(shù)據(jù)集劃分的有效性尤為重要,本文劃分數(shù)據(jù)集的方式是按照用戶參與項目的時間先后順序來進行。表2~4給出按照不同比例劃分 ml?latest?small的情況(其中相似度指標使用式(2))。
表2 60%訓(xùn)練,40%測試評分分布情況(整體分布的相似度為0.998 40)
表3 50%訓(xùn)練,50%測試評分分布情況(整體分布的相似度為0.998 56)
表4 40%訓(xùn)練,60%測試評分分布情況(整體分布的相似度為0.998 61)
通過表2~4對數(shù)據(jù)集劃分后的評分數(shù)據(jù)分析,不同比例劃分數(shù)據(jù)集之后,每組訓(xùn)練集和測試集的評分區(qū)間數(shù)量構(gòu)成的向量相似度高達99%,更符合用戶的興趣情況,因此本文以用戶參與項目的時間來劃分數(shù)據(jù)集合理有效。
3.3.1 二值評分數(shù)據(jù)的有效性驗證實驗
按照不同的比例劃分訓(xùn)練集和測試集,可以得到二值評分數(shù)據(jù)的有效性驗證實驗結(jié)果,如表5所示。
表5 不同訓(xùn)練集和測試集比例下評分數(shù)據(jù)和二值數(shù)據(jù)的一致性比較
由表5發(fā)現(xiàn)使用二值方法計算出來的過去和未來電影類型的相似度明顯比不同區(qū)間評分值計算出來的高很多,其中5∶5的比例劃分訓(xùn)練集和測試集的一致性最高。同時,對于原始評分而言,在不同分值區(qū)間的一致性差異比較大,總體來看,高分一致性要優(yōu)于低分一致性。
通過上述比較,二值評分方法的一致性不論是效果還是穩(wěn)定性都優(yōu)于原始評分方法。因此,使用二值數(shù)據(jù)的評分表達方法要比使用原始評分的方法更能體現(xiàn)用戶興趣的一致性。
3.3.2 二值評分數(shù)據(jù)和原始評分數(shù)據(jù)的評分預(yù)測效果比較
實驗結(jié)果通過RMSE和F值進行比較,具體如圖1和表6所示。
圖1 二值數(shù)據(jù)和原始評分數(shù)據(jù)評分預(yù)測效果的RMSE值比較
表6 二值評分數(shù)據(jù)和原始評分數(shù)據(jù)評分預(yù)測效果的準確率、召回率、F值比較
由圖1可以看出,隨著最近鄰居的增多,在算法中使用二值評分數(shù)據(jù)的RMSE值越來越小,最終低于算法中使用評分數(shù)據(jù)得到的結(jié)果。表6數(shù)據(jù)中展示了評分預(yù)測算法比較重要的幾個指標數(shù)據(jù),從中可以看出,算法中使用二值評分數(shù)據(jù)在準確率、召回率以及準確率和召回率的調(diào)和平均值(F)都要比使用評分值數(shù)據(jù)高,結(jié)合3.3.1節(jié)的實驗結(jié)果,可以認為使用二值評分數(shù)據(jù)不僅能更準確地定位用戶的興趣,還可以為評分預(yù)測算法的效果帶來一定的優(yōu)化。
3.3.3 與經(jīng)典評分預(yù)測算法的效果比較
該實驗主要驗證結(jié)合本文所提出的用戶評分數(shù)據(jù)的有效稠密序列提取和填充方法的有效性,同時,在以下對比實驗中,改進算法將直接使用二值數(shù)據(jù)代替評分數(shù)據(jù)。
RMSE指標的比較結(jié)果如圖2所示。
圖2 不同評分預(yù)測方法的RMSE值比較
圖2 中,NMF(Non?negative matrix factorization)為非負矩陣分解方法??梢钥闯觯疚奶岢龅母倪M算法相比其他經(jīng)典算法,在不同最近鄰居數(shù)量的情況下,評分預(yù)測效果的準確率都比較高,尤其和除標準協(xié)同過濾方法外的其他方法相比,準確度的穩(wěn)定性較強。而且,隨著最近鄰居數(shù)量的不斷增加,效果不斷提高,最優(yōu)值達到0.898 8。
準確率、召回率、F值指標的比較結(jié)果如表7和表8所示。
表7 不同評分預(yù)測方法的準確率、召回率、F值比較
表8 本文方法比其他評分預(yù)測方法的準確率、召回率、F值的提高率 %
由表7、8可以看出,本文提出的改進算法相比其他經(jīng)典算法,3個指標普遍提高,其中準確率和F值提高最為明顯,和其他方法相比,都取得更好的指標值,其中準確度最高提高8.66%,F(xiàn)值最高提高33.96%。召回率和部分方法相比有所下降??梢姡疚乃岱椒ǜm合側(cè)重于準確率指標的海量數(shù)據(jù)推薦場景下推薦系統(tǒng)的服務(wù)應(yīng)用。
本文通過提取用戶評分信息中的有效稠密序列和生成有效數(shù)據(jù)的方法來改進傳統(tǒng)協(xié)同過濾算法,在此基礎(chǔ)上對比研究了用戶原始評分值和是否評分的二值評分數(shù)據(jù)對用戶興趣表達的有效性。該方法綜合利用了用戶評分數(shù)據(jù)的有效稠密序列提取方法和二值評分轉(zhuǎn)換方法,在此基礎(chǔ)上實現(xiàn)了相似度計算方法的改進,實驗證明方法有效。
本文所提出的改進協(xié)同過濾算法不僅利用稠密序列和數(shù)值填充等數(shù)據(jù)增強方式克服了數(shù)據(jù)稀疏性問題帶來的不利影響,同時還可以更準確地識別用戶興趣特征。但是在本文改進的算法中,使用用戶是否評分的二值數(shù)據(jù)相較于原始評分值的優(yōu)化改進仍然還有很大的空間,同時在提高召回率方面也需要進一步優(yōu)化,這些都構(gòu)成了本文后續(xù)研究的主要側(cè)重點。