• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      一種新穎的混合相似度計算模型

      2018-02-27 03:11:44廖志芳符本才孔令遠(yuǎn)王佳寧
      計算機(jī)應(yīng)用與軟件 2018年1期
      關(guān)鍵詞:相似性物品特征

      廖志芳 符本才 孔令遠(yuǎn) 王佳寧

      (中南大學(xué)軟件學(xué)院 湖南 長沙 410073)

      0 引 言

      傳統(tǒng)的協(xié)同過濾算法中,一般會根據(jù)用戶和物品評分矩陣計算用戶或者物品之間的相似度,然后根據(jù)計算的相似度選擇最近鄰居并構(gòu)建預(yù)測分?jǐn)?shù),之后產(chǎn)生推薦列表。所以相似度的計算決定了啟發(fā)式協(xié)同過濾推薦算法的推薦精度和推薦質(zhì)量,但當(dāng)前傳統(tǒng)的啟發(fā)式協(xié)同過濾推薦中,相似度的計算仍存在一些片面性問題。如不能發(fā)現(xiàn)用戶的興趣變化,即基于統(tǒng)計直接進(jìn)行相似度計算;只考慮用戶評分和中心評分,而沒有考慮評分中的其他因素,如用戶屬性、時間權(quán)重、用戶評分習(xí)慣等。

      為了改進(jìn)和解決傳統(tǒng)啟發(fā)式協(xié)同過濾推薦中相似度計算存在的問題,Luo等[1]、Anand等[2]和Lopes等[3]提出了全局相似性算法,全局相似性基于傳統(tǒng)的相似度算法的基礎(chǔ)上,通過互為朋友的傳遞關(guān)系來計算出用戶間的全局相似性并構(gòu)建用戶的最近鄰居集。Lopes等的實驗結(jié)果顯示,在數(shù)據(jù)集極端稀疏的環(huán)境下,傳統(tǒng)相似性算法和全局相似性算法的結(jié)合可以提高推薦的精度。Li等[4]提出波動因子概念,在計算用戶間的相似度時考慮了用戶間的波動因子影響,并利用了標(biāo)準(zhǔn)分?jǐn)?shù)(z-score)來消除由于不同的波動因子在計算用戶相似性時所帶來的不同影響。Shen[5]提出了兩階段相似度學(xué)習(xí)的算法,其中第一階段利用了PCC計算相似度獲得了最近鄰居,第二階段利用既約梯度法進(jìn)行相似度的梯度學(xué)習(xí)來提高推薦精度。Gao等[6]提出了基于項目重心屬性模型的思想,其相似度計算包含了兩部分,其中一部分是傳統(tǒng)計算得來的相似度,另一部分首先定義了項目屬性的權(quán)重值,然后通過項目重心屬性模型計算得到初始的相似度,兩個相似度加權(quán)之后考慮了評分時間的作用影響并計算得到最終的相似度值。

      以上研究從各個角度出發(fā),旨在加強(qiáng)用戶和物品之間的關(guān)聯(lián)從而提高用戶或者物品之間的相似度而獲得最佳最近鄰居集,并在此基礎(chǔ)上提高推薦精度和推薦質(zhì)量。然而在加強(qiáng)用戶和物品之間的關(guān)聯(lián)時,可以考慮加入用戶的人口統(tǒng)計學(xué)特征以及評分時效產(chǎn)生的時間衰減等對用戶和物品之間的關(guān)聯(lián)產(chǎn)生一定作用的影響因子,尤其在解決用戶的冷啟動問題上,考慮用戶的屬性特征是一個非常有效的解決方式。

      因此,本文在此基礎(chǔ)上提出了一種新的相似度計算方法——RIT-UA算法。RIT-UA算法包含了兩部分:一部分為用戶評分-興趣相似性,這部分考慮了用戶的評分相似性和興趣相似性,并考慮了兩者在評分時間以及用戶間置信度的約束作用下用戶相似性的變化和影響;另一部分為用戶屬性相似性,該部分考慮了用戶的屬性特征對推薦的影響,并通過獲得每個屬性特征的特征權(quán)重計算用戶間屬性特征的相似性,RIT-UA相似度算法最后線性擬合了這兩部分。實驗結(jié)果顯示,本文提出的算法與傳統(tǒng)方法相比可以獲得更好的預(yù)測精度。

      1 相關(guān)工作

      在推薦系統(tǒng)的研究中,雖然這些年推薦系統(tǒng)得到了充足的研究和發(fā)展,但仍存在一些共性問題,比如數(shù)據(jù)稀疏問題、冷啟動問題以及用戶興趣漂移等。從解決這些問題的角度出發(fā),同時為了提高推薦的精度和準(zhǔn)確度,許多研究者會從各方面研究考慮,包括基礎(chǔ)的用戶屬性特征、用戶發(fā)生行為的時間和地點(diǎn)等,并因此產(chǎn)生了相關(guān)方面的研究。

      基于人口統(tǒng)計學(xué)特征的推薦DRS(Demographic Recommender Systems)是推薦系統(tǒng)中的重要組成部分,人口統(tǒng)計學(xué)特征可以用來識別用戶的類型和偏好,系統(tǒng)可以根據(jù)用戶的屬性特征進(jìn)行分類,并會根據(jù)分類結(jié)果產(chǎn)生推薦。尤其在解決用戶冷啟動問題以及評分?jǐn)?shù)據(jù)稀疏方面,基于人口統(tǒng)計學(xué)特征的推薦起到了很大的輔助作用。在當(dāng)前文獻(xiàn)中,有許多證明了用戶屬性特征在推薦中可以提高推薦精度的研究。Beel等[7]闡述了用戶屬性特征數(shù)據(jù)對于推薦過程的作用,實驗分析并證明了用戶的屬性特征對系統(tǒng)的點(diǎn)擊率具有顯著的影響。Wang等[8]從旅游推薦角度,實驗證明了機(jī)器學(xué)習(xí)方法(樸素貝葉斯、貝葉斯網(wǎng)絡(luò)、SVM)與人口統(tǒng)計學(xué)特征的結(jié)合可以提高旅游推薦的預(yù)測評分精度。Al-Shamri[9]在基于用戶偏好建模方法上,分別結(jié)合用戶屬性特征構(gòu)建了五種相似度計算的方法,實驗結(jié)果顯示結(jié)合用戶屬性特征可以提高系統(tǒng)的推薦精度。Santos等[10]在一個真實的推薦場景中使用了用戶屬性特征來挖掘和分析場景中的上下文約束。Chen等[11]通過用戶信息構(gòu)造了用戶屬性特征向量,并在此基礎(chǔ)上考慮共同評分項以及項目頻率計算得到的新的相似度,實驗結(jié)果證明該方法可以有效解決用戶冷啟動問題并提高了推薦精度。

      隨著推薦系統(tǒng)研究的深入發(fā)展,為提高推薦結(jié)果與推薦質(zhì)量,許多研究員開始將上下文信息融入到推薦系統(tǒng)的研究中來。上下文信息中,相對而言,時間上下文較容易采集,并且為提高推薦系統(tǒng)的時序多樣性的研究提供了重要的價值,成為了當(dāng)前研究的一個熱點(diǎn)[23]。Koren[12]利用矩陣分解(SVD)的方法,把時間當(dāng)作一個重要特征加入到用戶-物品特征集中,有效解決了用戶興趣漂移問題。Karatzoglou等[13]、Xiong等[14]和Liang等[15]將時間信息當(dāng)作第三個特征向量,利用張量分解的方法對時間的動態(tài)變化進(jìn)行了表示。榮等[16]根據(jù)用戶的評分歷史將其分成幾個時期,并分析用戶在每個時期的的偏好分布并對其偏好進(jìn)行了量化。Li[17]根據(jù)時間對用戶偏好進(jìn)行了階段性劃分,并提出了Cross-domain的協(xié)同過濾方法,實驗證明該算法不僅提高了推薦預(yù)測精度,還解決了用戶興趣漂移問題。

      2 RIT-UA算法描述

      在數(shù)據(jù)相對稀疏的情況下,從解決用戶興趣漂移問題考慮,本文基于傳統(tǒng)的相似度計算過程,引入了用戶屬性特征以及評分時效衰減等影響用戶評分行為的作用因素,提出了RIT-UA算法。RIT-UA算法主要由兩部分組成,一部分為評分-興趣相似性,另一部分為用戶屬性相似性。

      2.1 評分-興趣相似性

      評分-興趣相似性由評分相似性和興趣相似性組成,主要考慮了用戶對物品的喜好程度以及用戶自身的評分習(xí)慣兩個方面。同時,在這兩個方面基礎(chǔ)上引入評分時間產(chǎn)生的衰減作用,并結(jié)合文獻(xiàn)[4]提出的波動因子概念,引入了用戶間的置信度,最后得出用戶間的評分和興趣相似性,描述如下。

      2.1.1 評分相似性

      在電子商務(wù)系統(tǒng)領(lǐng)域,一般會采用評分(Rating)或者投票(Voting)的方式獲取用戶對物品的直接偏好。假設(shè)用戶對物品偏好的等級為5級,分別為{非常喜歡,喜歡,一般,不太滿意,不喜歡},相應(yīng)等級對應(yīng)的分?jǐn)?shù)為{5,4,3,2,1},因此用戶評分的結(jié)果就會產(chǎn)生一個評分矩陣。用戶-物品的評分偏好矩陣可如表1所示。

      表1 用戶-物品評分矩陣

      表1是一個用戶-物品的評分矩陣。在評分矩陣中,當(dāng)兩個用戶間的評分越近時,表明他們的偏好相近。當(dāng)評分相同時,表明用戶具有相同的偏好。若評分差異較大,則表明用戶之間的偏好相反。所以為了刻畫用戶間評分相似度的非線性相關(guān)性,基于文獻(xiàn)[18]提出了sigmoid函數(shù)對相似性的表示,本文同樣構(gòu)造了sigmoid函數(shù)用于用戶間評分相似性的表示,公式如下:

      (1)

      式(1)表示用戶u和用戶v對物品i的評分相似性。

      2.1.2 興趣相似性

      每個用戶都有自身不同的評分習(xí)慣,如有的人不拘小節(jié)總是喜歡評較高的分?jǐn)?shù),而有的人要求嚴(yán)格,注重細(xì)節(jié),比較傾向評較低的分?jǐn)?shù)。所以對用戶自身評分習(xí)慣的刻畫將有助于提高預(yù)測的準(zhǔn)確率。Koren[12]針對用戶的評分習(xí)慣和物品固有的屬性特征給出了其形式化定義,如式(2)所示。即把用戶自身的評分習(xí)慣當(dāng)作了影響用戶評分的一項作用因子,其中bu表示用戶自身的評分習(xí)慣。

      bui=μ+bu+bi

      (2)

      所以在物品的評分范圍內(nèi),當(dāng)用戶傾向于給高分且喜歡一個物品時,通常會對物品評較高的分?jǐn)?shù),然而即使用戶不喜歡該物品,也不會對物品評較低的分?jǐn)?shù),反之亦然。因此可以根據(jù)用戶對物品的平均評分,表示用戶評分習(xí)慣的興趣偏好。同樣,基于文獻(xiàn)[18]對相似性的sigmoid函數(shù)表示,本文也構(gòu)造一個sigmoid函數(shù)用于表示用戶間的興趣相似性,如式(3)所示。

      (3)

      式(3)表示用戶u和用戶v對物品i的興趣相似性。因此綜合用戶間的評分相似性和興趣相似性,得到一個用戶評分-興趣相似性的計算公式,如式(4)所示:

      (4)

      2.1.3 時間作用因子

      一般而言,把不同時刻下的用戶行為等同對待,缺乏了對其進(jìn)行有效的量化分析。時間作用因子表示了用戶興趣漂移的趨勢變化程度,距離當(dāng)前時刻越近的的評分信息應(yīng)當(dāng)具有更高的推薦效果,反之亦然?;诖?,一些研究分別采用了線性和非線性函數(shù)來量化評分行為隨時間變化的情況。

      文獻(xiàn)[19]為解決難以跟蹤用戶興趣變化的問題,提出了艾賓浩斯遺忘曲線進(jìn)行用戶興趣擬合的研究,艾賓浩斯遺忘曲線變化如圖1所示。

      圖1 艾賓浩斯遺忘曲線變化圖

      本文基于文獻(xiàn)[19]的研究,結(jié)合艾賓浩斯遺忘曲線的變化趨勢,用以下函數(shù)來刻畫用戶興趣漂移的變化趨勢,即刻畫時間作用因子的影響趨勢,如公式所示:

      (5)

      式中:Δt表示用戶關(guān)于物品i的評分時間差,α為作用參數(shù),本文取α值為0.005。

      所以考慮時間作用影響后,新的用戶評分-興趣相似性的計算公式為:

      (6)

      式中:|Iuv|表示用戶u和用戶v的共同評分項的數(shù)量。

      2.1.4 用戶間置信度

      在用戶數(shù)據(jù)極端稀疏時,用戶間的共同評分項數(shù)量很少,相似度計算會存在較大偶然因素,Li等[4]通過波動因子方式來消除這種影響。所以本文基于此加入了用戶間的共同評分項數(shù)目調(diào)節(jié)相似度權(quán)重,這里用自然指數(shù)進(jìn)行調(diào)節(jié),調(diào)節(jié)如式(7)所示:

      (7)

      式(7)表示用戶u和用戶v的置信度,Iu表示用戶u的評分項,Iv表示用戶v的評分項,|Iu∩Iv|表示用戶u和用戶v的共同評分項,max(|Iu∩Iw|)表示用戶u和最近鄰居中最大的共同評分項,Iw表示最近鄰居集。

      所以用戶評分-興趣相似性計算考慮置信度之后,調(diào)整后的公式為:

      (8)

      2.2 用戶屬性相似性

      考慮用戶屬性相似性,一方面是可以提高預(yù)測精度,另一方面是為了解決新用戶的冷啟動問題,即沒有其他可利用的評分?jǐn)?shù)據(jù)時,可以利用用戶屬性特征數(shù)據(jù)進(jìn)行建模和推薦。對于用戶屬性相似性的刻畫,文獻(xiàn)[16]對用戶屬性分成了數(shù)值型屬性和名稱型屬性,并分別對其進(jìn)行了定義和表示。本文基于易于理解和易于實現(xiàn)的角度,對用戶屬性相似性進(jìn)行了如下定義。

      對于單個用戶屬性而言,表示為:

      sim(u,v,i)attr=1/0

      表示當(dāng)用戶u和用戶v關(guān)于屬性i相同時值為1,不同時值為0。

      所以,總的用戶屬性相似性為:

      simattr(u,v)=∑w·sim(u,v,i)attr

      (9)

      式中:w為用戶屬性i的特征權(quán)重值。為了求得每一個特征屬性的權(quán)重值w,本文選擇了隨機(jī)森林的特征選擇算法,計算每一個用戶屬性特征的特征重要性程度,給出一個用戶特征屬性重要性的排行,并根據(jù)排行進(jìn)行實驗,進(jìn)一步獲取每一個屬性的相對重要性權(quán)值。

      2.3 基于RIT-UA的相似度計算

      2.1節(jié)和2.2節(jié)分別考慮了評分-興趣相似性以及用戶的屬性相似性,因此對評分-興趣相似性以及用戶的屬性相似性進(jìn)行加權(quán)結(jié)合,得到新的用戶相似度計算公式為:

      sim(u,v)=α·simscore(u,v)+β·simattr(u,v)

      (10)

      式中:β=1-α。得到相似度的計算公式之后,進(jìn)一步可得用戶對物品的預(yù)測公式,如公式所示:

      (11)

      下面是RIT-UA相似度算法的描述。

      算法1RIT-UA相似度計算

      Input:

      Testset

      算法:

      1. For user in Testset do:

      2. For item in Testset[user] do:

      3. //get co-rated items

      4. Users: getCorateditemsUserset(item)

      5. //get the similarity between user and Users

      6. calculateRituaSimilarity(Users, user)

      7. //According similarity select neighbors

      8. getTonKNeighbors(K)

      9. //calculate predicted rating

      10. rating: getRating(Neighbors)

      11. end for

      12. end for

      所以從RIT-UA的算法描述中,我們知道RIT-UA算法執(zhí)行的時間復(fù)雜度為O(m×n),其中m和n分別為用戶數(shù)和項目數(shù)。

      3 RIT-UA算法描述

      3.1 實驗數(shù)據(jù)集

      本文主要選取了Movielens-100k和Netflix兩個數(shù)據(jù)集進(jìn)行實驗分析比較,過程如下。

      3.1.1 Movielens-100k數(shù)據(jù)集

      該數(shù)據(jù)集是由GroupLens研究小組所提供的一個電影評分?jǐn)?shù)據(jù)集。數(shù)據(jù)集有943個用戶和1 682部電影,共100 000條記錄,其中每個用戶至少評價了20部電影,評分區(qū)間為[1,5],詳細(xì)信息如表2所示。同時,該數(shù)據(jù)集的稀疏度為1-100 000/(943×1 682)=93.7%,圖2(a)顯示了ML-100k數(shù)據(jù)集中用戶所評物品數(shù)從高到低的一個降序排序圖,從圖中我們可以看到,很多用戶所評的物品數(shù)是少于100以下的。本文為了測試算法的性能,數(shù)據(jù)集分成80%作訓(xùn)練集,20%作測試集。

      表2 數(shù)據(jù)集介紹

      圖2 用戶所評物品數(shù)的趨勢變化圖(降序)

      ML-100k數(shù)據(jù)集中關(guān)于用戶的屬性特征只有四個屬性,分別為gender、age、occupation和zipcode。

      3.1.2 Netflix數(shù)據(jù)集

      這是部分原始Netflix比賽的數(shù)據(jù),經(jīng)過適當(dāng)?shù)臄?shù)據(jù)清洗之后,數(shù)據(jù)集共有387 939條記錄,存儲4 861個用戶對5 080個物品的評分。每個用戶同樣至少評價20個物品,評分范圍也是{1~5},詳細(xì)如表2所示。

      該數(shù)據(jù)集的稀疏度為1-387 939/(4 861×5 080)=98.4%,圖2(b)顯示了Netflix數(shù)據(jù)集中用戶所評物品數(shù)從高到低的一個降序排序圖,從圖中我們可以看到,Netflix數(shù)據(jù)集中很大一部分用戶所評物品項的數(shù)目是少于100的。同樣的,為了測試算法的性能,數(shù)據(jù)集分成80%作訓(xùn)練集,20%作測試集。

      在對Netflix數(shù)據(jù)集進(jìn)行清洗的過程中,因為Netflix數(shù)據(jù)集是沒有用戶屬性特征數(shù)據(jù)的,所以根據(jù)ML-100k關(guān)于用戶屬性特征數(shù)據(jù)的特點(diǎn),本文模擬實驗隨機(jī)生成了Netflix數(shù)據(jù)集中用戶的屬性特征數(shù)據(jù),生成用戶關(guān)于gender、age以及occupation三個屬性特征數(shù)據(jù)。其中age的范圍為{10~65},occupation共有20個職業(yè),取值為{0~19},gender取值為{0~2}。

      3.2 實驗評價指標(biāo)

      推薦系統(tǒng)關(guān)于預(yù)測精度的實驗評價中,一般有平均絕對誤差MAE(Mean absolute error)和均方根誤差RMSE(Root mean squared error)等評價指標(biāo)。相比較而言,本文采用均方根誤差RMSE(Root mean squared error)作為本文實驗的評價指標(biāo),其計算公式為:

      (12)

      3.3 實驗過程與分析

      3.3.1 用戶屬性特征的權(quán)重值實驗分析

      由式(9)可知,為了獲取每個用戶屬性特征權(quán)重值w的值,本文選擇了隨機(jī)森林算法。

      隨機(jī)森林是一個Ensemble Learning機(jī)器學(xué)習(xí)算法,可以對復(fù)雜的相互作用的特征數(shù)據(jù)進(jìn)行解析,即使在一定的數(shù)據(jù)噪聲影響下亦具有很好的魯棒性,且進(jìn)行特征學(xué)習(xí)和分析時其學(xué)習(xí)速率較快。其變量重要性度量可以作為高維數(shù)據(jù)的特征選擇工具,近年來已經(jīng)被廣泛應(yīng)用于各種預(yù)測、特征選擇以及異常點(diǎn)檢測問題中[20]。

      因此,對ML-100k數(shù)據(jù)集和Netflix數(shù)據(jù)集使用隨機(jī)森林算法獲取的每個用戶屬性的特征權(quán)重值,實驗結(jié)果分別如圖3和圖4所示。

      圖3 用戶屬性特征權(quán)重值排序圖(ML-100k)

      圖4 用戶屬性特征權(quán)重值排序圖(Netflix)

      對于ML-100k數(shù)據(jù)集,由圖3所知,用戶的四個屬性特征(age,gender,occupation,zipcode)中,gender相對其他三個特征相對來說更重要些,表明gender特征在推薦過程中所起的作用是相對明顯的,有關(guān)于這一特征的用戶在評分上會更相似。相比較于gender特征,zipcode特征在推薦過程中所起的作用是相對較低的,所以其特征權(quán)重值相對就會較低。而其他的兩個特征age和occupation的特征權(quán)重影響就相對居中了,實驗顯示其權(quán)重值大約分別為0.284和0.186。

      圖3和圖4的圖示部分顯示了每一個特征可能的權(quán)重值的浮動范圍。而對于Netfilx數(shù)據(jù)集來說,gender和age特征在推薦過程中作用是非常明顯的,總體的特征權(quán)重值順序和ML-100k類似。

      為了測試(age,gender,occupation,zipcode)以及(age,gender,occupation)各個屬性特征分別在ML-100k和Netflix數(shù)據(jù)集上的相對最佳權(quán)重值,本文做了幾組比較實驗,實驗結(jié)果分別如圖5、圖6所示。由圖5、圖6所知,在數(shù)據(jù)集ML-100k中當(dāng)(gender,age,occupation,zipcode)的特征權(quán)重值分別取(0.3,0.3,0.25,0.15),實驗結(jié)果相對較好。而對于Netflix數(shù)據(jù)集,(age,gender,occupation)分別取(0.5,0.4,0.1)時實驗結(jié)果相對較好,下文實驗將分別取此值。

      圖5 不同用戶屬性特征權(quán)重值實驗比較(ML-100k)

      圖6 不同用戶屬性特征權(quán)重值實驗比較(Netflix)

      3.3.2 alpha、beta的權(quán)重值實驗分析

      根據(jù)式(10),為了獲取實驗效果相對較好的α和β值,基于ML-100k和Netflix數(shù)據(jù)集,分別做了幾組實驗,實驗結(jié)果如圖7、圖8所示。

      圖7 不同alpha與beta值實驗結(jié)果(ML-100k)

      圖8 不同alpha與beta值實驗結(jié)果(Netflix)

      根據(jù)圖7、圖8結(jié)果可知,在數(shù)據(jù)集ML-100k中,當(dāng)α和β分別取0.75、0.25時,實驗效果相對較佳。而對于Netflix數(shù)據(jù)集,當(dāng)α和β分別取0.7、0.3時,其實驗結(jié)果相對較佳。所以本文下面實驗將分別取此值。

      3.3.3 與其他相似度計算方法對比實驗分析

      為驗證本文算法的有效性,本文將與Pearson相似度、修正余弦相似度(Acosine)、PIP[21]相似度和NHSM[22]相似度在ML-100k數(shù)據(jù)集和Netflix數(shù)據(jù)集上進(jìn)行實驗比較,實驗結(jié)果分別如圖9、圖10所示。

      圖9 不同相似度算法實驗比較(ML-100k)

      圖10 不同相似度算法實驗比較(Netflix)

      由圖9可知,在數(shù)據(jù)集ML-100k中,總體實驗結(jié)果上,隨著鄰居數(shù)的增加,本文算法實驗效果漸漸優(yōu)于其他算法。在鄰居數(shù)目為[10,30]開始階段,本文算法和PIP結(jié)果相近,而后期略優(yōu)于PIP算法。NHSM算法在鄰居數(shù)[10,30]階段,其實驗結(jié)果相對較優(yōu),而后面其結(jié)果漸漸略差。PCC和Acosine相似度算法在實驗結(jié)果上略差于其他算法。在數(shù)據(jù)集Netflix上,由圖10可知,本文所提相似度算法隨著鄰居數(shù)的增加漸漸優(yōu)于其他算法,在鄰居數(shù)目為[10,40]開始階段,NHSM算法的實驗結(jié)果相對最優(yōu),而后漸漸略差于本文所提算法。

      3.3.4 不同數(shù)據(jù)規(guī)模下,算法精度的比較

      本文基于ML-100k數(shù)據(jù)集,分別選取數(shù)據(jù)集的20%、40%、60%和80%,在鄰居數(shù)k=20的前提下,驗證不同方法在不同數(shù)據(jù)集規(guī)模下的實驗精度比較,并進(jìn)行了5-fold Cross Validation獲取實驗結(jié)果的平均值,實驗結(jié)果如圖11所示。

      圖11 不同方法在不同數(shù)據(jù)集大小下的結(jié)果比較(ML-100k)

      由圖11可知,本文所提算法在不同ML-100k數(shù)據(jù)集大小下,均為相對較優(yōu)的實驗結(jié)果,且實驗結(jié)果均相對穩(wěn)定,也表明了在數(shù)據(jù)相對稀疏的情景下,本文所提算法亦具有較高的識別度。其他三種算法中,PIP算法表現(xiàn)亦較為穩(wěn)定,RMSE值也相對較低。而NHSM算法在數(shù)據(jù)集較為稀疏時,RMSE值較高,而隨著數(shù)據(jù)集大小的不斷提高,其表現(xiàn)越來越優(yōu)越,并漸漸趨于穩(wěn)定。

      4 結(jié) 語

      本文基于傳統(tǒng)相似度計算中存在的一些問題,提出了一種新的相似度計算模型。該模型分別對用戶評分偏好、用戶評分習(xí)慣、評分時間的作用因子等方面進(jìn)行了刻畫和表示。并在此基礎(chǔ)上,考慮了用戶屬性特征對用戶評分的影響,研究了各個屬性特征在推薦過程中的作用,并通過隨機(jī)森林方法計算了用戶各個屬性特征的權(quán)重值。最后的實驗結(jié)果表明,與其他方法相比,本文所提方法顯著提高了推薦的精度,同時在數(shù)據(jù)相對稀疏的情況下亦具有很好的實驗效果。實驗的不足在于計算用戶屬性的特征權(quán)重值時,由于數(shù)據(jù)集中用戶屬性特征的數(shù)據(jù)相對較少,從而在計算用戶屬性特征權(quán)重上沒有更加明顯的區(qū)分度,而恰好用戶屬性特征的這部分?jǐn)?shù)據(jù)在現(xiàn)實數(shù)據(jù)中相對隱私并且不易獲得,所以對于實驗上有一定的影響。

      [1] Luo H,Niu C,Shen R,et al.A collaborative filtering framework based on both local user similarity and global user similarity[J].Machine Learning,2008,72(3):231-245.

      [2] Anand D,Bharadwaj K K.Utilizing various sparsity measures for enhancing accuracy of collaborative recommender systems based on local and global similarities[J].Expert Systems with Applications,2011,38(5):5101-5109.

      [3] Lopes A R S,Prudencio R B C,Bezerra B L D.A collaborative filtering framework based on local and global similarities with similarity tie-breaking criteria[C]//International Joint Conference on Neural Networks.IEEE,2014:2887-2893.

      [4] Li H,Wang G,Gao M.A novel similarity calculation for collaborative filtering[C]//Wavelet Analysis and Pattern Recognition (ICWAPR),2013 International Conference on.IEEE,2013:38-43.

      [5] Shen J.Collaborative Filtering Recommendation Algorithm Based on Two Stages of Similarity Learning and Its Optimization[C]//Large Scale Complex Systems Theory and Applications,2013:335-340.

      [6] Gao L,Huang M.A Collaborative Filtering Recommendation Algorithm with Time Adjusting Based on Attribute Center of Gravity Model[C]//Web Information System and Application Conference.IEEE Computer Society,2015:197-200.

      [7] Beel J,Langer S,Nürnberger A,et al.The Impact of Demographics (Age and Gender) and Other User-Characteristics on Evaluating Recommender Systems[M]//Research and Advanced Technology for Digital Libraries.Springer Berlin Heidelberg,2013:396-400.

      [8] Wang Y,Chan S C,Ngai G.Applicability of demographic recommender system to tourist attractions:a case study on trip advisor[C]//Proceedings of the The 2012 IEEE/WIC/ACM International Joint Conferences on Web Intelligence and Intelligent Agent Technology-Volume 03.IEEE Computer Society,2012:97-101.

      [9] Al-Shamri M Y H.User profiling approaches for demographic recommender systems[J].Knowledge-Based Systems,2016,100:175-187.

      [10] Santos E B,Garcia Manzato M,Goularte R.Evaluating the impact of demographic data on a hybrid recommender model[J].Iadis International Journal on www/internet,2014,12(2):149.

      [11] Chen T,He L.Collaborative Filtering Based on Demographic Attribute Vector[C]//Etp International Conference on Future Computer and Communication.IEEE Computer Society,2009:225-229.

      [12] Koren Y.Collaborative filtering with temporal dynamics[C]//ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.ACM,2009:89-97.

      [13] Karatzoglou A,Amatriain X,Baltrunas L,et al.Multiverse recommendation:n-dimensional tensor factorization for context-aware collaborative filtering[C]//ACM Conference on Recommender Systems,Recsys 2010,Barcelona,Spain,September,2010:79-86.

      [14] Xiong L,Chen X,Huang T K,et al.Temp-oral Collaborative Filtering with Bayesian Probabilistic Tensor Factorization[C]//Siam International Conference on Data Mining,SDM 2010,April 29-May 1,2010,Columbus,Ohio,Usa,2010:211-222.

      [15] Liang Xiong,Xi Chen,Tzu-Kuo Huang,et al.Temporal Collaborative Filtering with Bayesian Probabilistic Tensor Factorization[C]//Siam International Conference on Data Mining,SDM 2010,April 29-May 1,2010,Columbus,Ohio,Usa,2010:211-222.

      [16] 榮輝桂,火生旭,胡春華,等.基于用戶相似度的協(xié)同過濾推薦算法[J].通信學(xué)報,2014(2):16-24.

      [17] Li B,Zhu X,Li R,et al.Cross-domain collaborative filtering over time[C]//IJCAI 2011,Proceedings of the,International Joint Conference on Artificial Intelligence,Barcelona,Catalonia,Spain,July,2011:2293-2298.

      [18] Jamali M,Ester M.TrustWalker:a random walk model for combining trust-based and item-based recommendation[C]//ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.ACM,2009:397-406.

      [19] 于洪,李轉(zhuǎn)運(yùn).基于遺忘曲線的協(xié)同過濾推薦算法[J].南京大學(xué)學(xué)報:自然科學(xué)版,2010,46(5):520-527.

      [20] 姚登舉,楊靜,詹曉娟.基于隨機(jī)森林的特征選擇算法[J].吉林大學(xué)學(xué)報:工學(xué)版,2014,44(1):137-141.

      [21] Ahn H J.A new similarity measure for collaborative filtering to alleviate the new user cold-starting problem[J].Information Sciences,2008,178(1):37-51.

      [22] Liu H,Hu Z,Mian A,et al.A new user similarity model to improve the accuracy of collaborative filtering[J].Knowledge-Based Systems,2014,56(3):156-166.

      [23] 竇羚源,王新華.一種基于時間和標(biāo)簽上下文的協(xié)同過濾推薦算法[J].太原理工大學(xué)學(xué)報,2015(6):735-740.

      猜你喜歡
      相似性物品特征
      一類上三角算子矩陣的相似性與酉相似性
      稱物品
      “雙十一”,你搶到了想要的物品嗎?
      淺析當(dāng)代中西方繪畫的相似性
      河北畫報(2020年8期)2020-10-27 02:54:20
      如何表達(dá)“特征”
      誰動了凡·高的物品
      不忠誠的四個特征
      抓住特征巧觀察
      低滲透黏土中氯離子彌散作用離心模擬相似性
      找物品
      定安县| 射阳县| 虎林市| 青海省| 光山县| 报价| 吴堡县| 唐山市| 徐州市| 清新县| 米脂县| 正宁县| 富蕴县| 淳化县| 红桥区| 前郭尔| 西和县| 衢州市| 寿光市| 文成县| 靖远县| 桐庐县| 香港 | 承德市| 濉溪县| 雅安市| 佳木斯市| 青龙| 项城市| 遵化市| 唐山市| 教育| 诏安县| 屯昌县| 唐河县| 贡觉县| 贵南县| 社会| 泰来县| 建德市| 奎屯市|