• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于隨機(jī)森林修正的加權(quán)二部圖推薦算法

      2018-02-05 09:16:49李晉宏
      軟件 2018年1期
      關(guān)鍵詞:列表分類(lèi)算法

      李 玲,李晉宏

      (北方工業(yè)大學(xué)計(jì)算機(jī)學(xué)院 知識(shí)工程研究所,北京 100144)

      0 引言

      在當(dāng)今的互聯(lián)網(wǎng)時(shí)代,海量的信息膨脹導(dǎo)致了嚴(yán)重的信息過(guò)載,如何幫助用戶(hù)在海量的信息中更準(zhǔn)確的篩選所需,是當(dāng)前研究的熱點(diǎn)方向。而個(gè)性化推薦系統(tǒng)[1-3]是解決這個(gè)問(wèn)題的有效方法,通過(guò)分析用戶(hù)的行為特性進(jìn)行興趣預(yù)測(cè),為用戶(hù)推薦可能會(huì)感興趣的信息,從而提高了用戶(hù)篩選的效率,節(jié)約了信息篩選的時(shí)間。目前的推薦算法主要有協(xié)同過(guò)濾推薦算法(Collaborative Filtering,CF)[4],基于內(nèi)容的推薦算法[5],混合推薦算法和基于網(wǎng)絡(luò)結(jié)構(gòu)的推薦算法等等,已經(jīng)被大量的應(yīng)用在商業(yè)化環(huán)境當(dāng)中。協(xié)同過(guò)濾推薦算法是通過(guò)用戶(hù)對(duì)商品的評(píng)價(jià),計(jì)算用戶(hù)之間的相似性,尋找鄰居,然后根據(jù)鄰居的信息進(jìn)行推薦,但是往往存在數(shù)據(jù)稀疏性等問(wèn)題。基于內(nèi)容的推薦算法是以用戶(hù)選擇過(guò)的商品信息為依據(jù),選擇相似度高的商品推薦給用戶(hù)。該方法是對(duì)商品的信息(種類(lèi)、用途等)和用戶(hù)的愛(ài)好進(jìn)行分析并推薦,也屬于對(duì)信息的過(guò)濾,但是由于信息數(shù)據(jù)格式的限制,往往無(wú)法對(duì)非文本的商品信息(視頻等)進(jìn)行處理。

      現(xiàn)今基于二部圖網(wǎng)絡(luò)結(jié)構(gòu)的推薦技術(shù)(Network-Based Inference,NBI)[6-8]是個(gè)性化推薦領(lǐng)域一個(gè)越來(lái)越被人關(guān)注的研究熱點(diǎn),由于其推薦復(fù)雜度低,準(zhǔn)確性高和推薦的內(nèi)容多樣化而被大量關(guān)注。它的基本思想是把用戶(hù)和項(xiàng)目分別看作抽象的節(jié)點(diǎn)集合,將用戶(hù)對(duì)項(xiàng)目的選擇看成對(duì)節(jié)點(diǎn)的連邊。在物質(zhì)擴(kuò)散的啟發(fā)下,zhou等人[6]提出了利用資源分配的推薦算法;在此基礎(chǔ)上,zhang等[9]引入了資源分配權(quán)重的概念,將評(píng)分看作權(quán)重,提出了加權(quán)的二部圖推薦算法,在不增加時(shí)間和空間計(jì)算復(fù)雜度的情況下提高了準(zhǔn)確性;Wang等人[10]根據(jù)評(píng)分能量分配權(quán)重進(jìn)行了算法的改進(jìn),并且添加了項(xiàng)目度與權(quán)值的比值,降低了推薦項(xiàng)目的流行性的影響,推薦的多樣性也得以提高;在此基礎(chǔ)上Li等人[11]在用戶(hù)推薦時(shí)增加了對(duì)項(xiàng)目相似性的考慮。

      雖然學(xué)者們?yōu)樘岣咄扑]的準(zhǔn)確度提出了多種方法,但是目前基于二部圖的推薦方法仍然有以下兩個(gè)不足:第一,設(shè)置權(quán)重時(shí)沒(méi)有更精細(xì)的劃分;第二,絕大多數(shù)的算法改進(jìn)都是選擇評(píng)分或者人為選擇用戶(hù)行為或者項(xiàng)目因素進(jìn)行加權(quán)計(jì)算或者推理的,這種人為選擇的因素在一定程度上忽視了其他特征因素對(duì)推薦結(jié)果準(zhǔn)確性的影響,使得推薦結(jié)果說(shuō)服力有限,應(yīng)用局限性比較大。針對(duì)以上問(wèn)題,本文提出了一種基于隨機(jī)森林修正的二部圖推薦算法(RF-WNBI),基本思想是先構(gòu)建用戶(hù)-項(xiàng)目特征二部圖,對(duì)項(xiàng)目進(jìn)行初步的評(píng)分預(yù)測(cè),再用隨機(jī)森林分類(lèi)預(yù)測(cè)評(píng)分結(jié)果進(jìn)行修正。在構(gòu)建二部圖時(shí)細(xì)化評(píng)分權(quán)重,考慮項(xiàng)目度和用戶(hù)之間共同評(píng)分項(xiàng)目影響,最終參考項(xiàng)目特征對(duì)評(píng)分修正。對(duì)比試驗(yàn)結(jié)果,證明改進(jìn)后的算法能夠有效提高推薦準(zhǔn)確性和多樣性[12]。

      1 相關(guān)工作

      1.1 基于二部圖網(wǎng)絡(luò)結(jié)構(gòu)的推薦算法

      假設(shè)在輸入中有m個(gè)用戶(hù)和n個(gè)項(xiàng)目,用戶(hù) ui對(duì)項(xiàng)目 oj進(jìn)行過(guò)選擇,那么在 ui與 oj之間就有一條邊相連,這樣就構(gòu)成了二部圖網(wǎng)絡(luò)結(jié)構(gòu)G。用U來(lái)代表用戶(hù),用O來(lái)代表項(xiàng)目,定義一個(gè)|U|×|O|的鄰接矩陣A = ( aij)。如果用戶(hù) ui對(duì)項(xiàng)目 oj進(jìn)行過(guò)選擇,則 aαi= 1,否則 aαi= 0 。

      受物理學(xué)中復(fù)雜物質(zhì)擴(kuò)散理論的影響,Zhou等人[6]提出了利用資源分配思想的相似度計(jì)算方法。首先,假設(shè)給每個(gè)用戶(hù)分配一個(gè)單位的能量。接著,進(jìn)行資源分配,按照平均分配的方式,各個(gè)用戶(hù)將能量分發(fā)給該用戶(hù)選擇過(guò)的各個(gè)項(xiàng)目,分配完成后每個(gè)項(xiàng)目將得到一定的能量。

      下一步,將每個(gè)項(xiàng)目得到的能量值按照相同的方式再次傳遞給選擇過(guò)它的各個(gè)用戶(hù),得到各個(gè)用戶(hù)此時(shí)擁有的能量值。simαβ表示的是用戶(hù)uα在分配過(guò)程中從用戶(hù)uβ獲得的資源比例,即用戶(hù)之間的相似性。能量分配的過(guò)程如圖1所示。

      圖1 基于二部圖網(wǎng)絡(luò)結(jié)構(gòu)的能量分配過(guò)程Fig.1 Energy distribution process based on the two parts graph network structure

      能量分配的過(guò)程可以由下列公式表示:

      其中 d (uβ)表示的是用戶(hù)uβ的度(即該用戶(hù)選擇過(guò)多少個(gè)項(xiàng)目); d(oi)表示的是項(xiàng)目 oi的度(即該項(xiàng)目被多少個(gè)用戶(hù)選擇過(guò))。

      目標(biāo)用戶(hù)uα對(duì)未評(píng)分項(xiàng)目 oi的評(píng)分計(jì)算公式為:

      傳統(tǒng)的基于二部圖網(wǎng)絡(luò)結(jié)構(gòu)的推薦算法是針對(duì)用戶(hù)與項(xiàng)目之間的關(guān)系進(jìn)行能量分發(fā)來(lái)對(duì)用戶(hù)進(jìn)行推薦的,忽略了用戶(hù)興趣的影響,不能充分發(fā)掘冷門(mén)項(xiàng)目,且不能對(duì)用戶(hù)的選擇進(jìn)行充分的解釋。因此,文中融合了隨機(jī)森林算法對(duì)特征的分類(lèi)模型,并以此修正對(duì)用戶(hù)推薦的評(píng)分。

      1.2 隨機(jī)森林算法

      隨機(jī)森林(Random Forest)是由Leo breiman[14]提出的,作為一種常用的分類(lèi)方法,是建立多棵決策樹(shù)[15-16]將結(jié)果進(jìn)行投票集成分類(lèi)的。決策樹(shù)的根節(jié)點(diǎn)作為訓(xùn)練集合,節(jié)點(diǎn)是作為測(cè)試屬性,節(jié)點(diǎn)分支代表基于單個(gè)特征作為分類(lèi),葉子節(jié)點(diǎn)代表分類(lèi)結(jié)果。

      構(gòu)建隨機(jī)森林有如下幾個(gè)步驟:

      (1)用 bootstrap方法[17]有放回地隨機(jī)選擇訓(xùn)練的樣本集,第k個(gè)樣本集生成隨機(jī)向量θk,使用h(x,θk)作為第k棵分類(lèi)樹(shù)模型。

      (2)對(duì)得到的樣本分別建立分類(lèi)樹(shù),使用在屬性集合中選擇最大信息增益的方式選擇分裂屬性。

      首先計(jì)算樣本的熵,其中 pj表示第j個(gè)類(lèi)別在節(jié)點(diǎn)D的概率:

      然后計(jì)算按特征A劃分對(duì)樣本集合D劃分所需要的期望信息,樣本集合D被劃分的范圍為jD。

      最后通過(guò)由式(4)與(5)得出信息增益,選出具有最大增益率的屬性作為分裂屬性。

      (3)經(jīng)過(guò)分裂得到多個(gè)決策樹(shù)分類(lèi)模型{h(x, θk) ,k = 1 ,2… n },參數(shù)集 {θk}是獨(dú)立同分布的隨機(jī)向量。其最終結(jié)果為決策樹(shù)的投票集成:

      其中 H (x)代表分類(lèi)組合模型, Y是目標(biāo)變量,I(°)表示指示函數(shù)。

      2 基于隨機(jī)森林修正的加權(quán)二部圖推薦算法

      2.1 改進(jìn)相似度的加權(quán)二部圖推薦方法

      傳統(tǒng)的二部圖網(wǎng)絡(luò)只關(guān)注用戶(hù)與項(xiàng)目之間是否有邊相連,即是否進(jìn)行過(guò)選擇,并不對(duì)用戶(hù)對(duì)不同項(xiàng)目的喜愛(ài)程度進(jìn)行區(qū)分,選擇過(guò)的項(xiàng)目即為 1,未選擇的項(xiàng)目即設(shè)為 0。而用戶(hù)對(duì)項(xiàng)目的評(píng)分在很大程度上是用戶(hù)對(duì)項(xiàng)目喜愛(ài)程度的反映,不加以區(qū)分會(huì)對(duì)推薦結(jié)果的準(zhǔn)確性造成影響。而在文獻(xiàn)[9]算法直接將他認(rèn)為的高分項(xiàng)目直接設(shè)定權(quán)重值為 1,這造成用戶(hù)信息的損失。在文獻(xiàn)[10]提出的算法中,直接忽略了低分項(xiàng)目,只認(rèn)為得到高分的項(xiàng)目才被用戶(hù)選擇過(guò),也是一定程度上的信息疏漏。

      為了細(xì)化評(píng)分對(duì)推薦的影響,考慮用戶(hù)對(duì)項(xiàng)目評(píng)分由于每個(gè)人的個(gè)人傾向不同而有所變化,因此,根據(jù)用戶(hù)對(duì)項(xiàng)目的喜愛(ài)程度(即顯式評(píng)分)進(jìn)行標(biāo)準(zhǔn)化,來(lái)對(duì)用戶(hù)和項(xiàng)目的邊的權(quán)重iαω進(jìn)行分配。

      在式中,irα是用戶(hù)uα對(duì)項(xiàng)目oi的評(píng)分,maxr 是用戶(hù)α全部評(píng)分項(xiàng)目的評(píng)分最大值,minr 是用戶(hù)ua全部評(píng)分項(xiàng)目的評(píng)分最小值,為了預(yù)防出現(xiàn)分母為0的情況,設(shè)定一個(gè)極小值ε為0.01,同時(shí)為了區(qū)分低分項(xiàng)目與未評(píng)分項(xiàng)目,設(shè)定一個(gè)極小值λ為0.1。在資源分配過(guò)程中,引入 IUF系數(shù)(Inverse User Frequence)[11]來(lái)定義 θ:

      其中,D(i)表示項(xiàng)目io的評(píng)分集合, ()Dα表示用戶(hù)uα評(píng)分的項(xiàng)目集合, ()Dβ表示用戶(hù)uβ評(píng)分項(xiàng)目的集合。θ的取值為0~1,一方面,衡量了用戶(hù)的共同評(píng)分項(xiàng)目,懲罰了其中的熱門(mén)項(xiàng)目,便于用戶(hù)選擇出更加符合個(gè)人喜好的項(xiàng)目;另一方面,降低了活躍用戶(hù)對(duì)相似性的貢獻(xiàn),往往選擇項(xiàng)目少的用戶(hù)興趣點(diǎn)更明確,因此活躍度高的用戶(hù)對(duì)相似性的影響應(yīng)當(dāng)?shù)陀诨钴S度低的用戶(hù)。因此在算法中,經(jīng)過(guò)多次試驗(yàn),引入函數(shù)()fθδθ=+的sigmoid函數(shù)即可調(diào)節(jié),θ的取值為0~1,其中δ為可調(diào)參數(shù)。進(jìn)行兩步資源分配之后,最終得到的用戶(hù)相似性計(jì)算公式為:

      式中υ是兩個(gè)用戶(hù)之間共同評(píng)分項(xiàng)目個(gè)數(shù)與目標(biāo)用戶(hù)度的比值,即。 ()Dα表示用戶(hù)uα評(píng)分的項(xiàng)目集合, D (β) 表示用戶(hù)uβ評(píng)分項(xiàng)目的集合。在推薦算法中,兩個(gè)用戶(hù)選擇了同樣的項(xiàng)目,那么這個(gè)項(xiàng)目可以看作兩個(gè)用戶(hù)共同的興趣點(diǎn)所在,則二者的相似度就越高。但如果目標(biāo)用戶(hù)選擇的項(xiàng)目很多,那么該用戶(hù)的興趣比較廣泛,目標(biāo)用戶(hù)與其他用戶(hù)的共同評(píng)分項(xiàng)目就只能代表目標(biāo)用戶(hù)的部分興趣;相反的,如果目標(biāo)用戶(hù)選擇的項(xiàng)目較少,與其他用戶(hù)共同選擇的項(xiàng)目就更能代表目標(biāo)用戶(hù)的興趣所在。

      文獻(xiàn)[11]中提出,在評(píng)分預(yù)測(cè)中加入用戶(hù)的評(píng)分期望能夠提高預(yù)測(cè)精度,如式(9)所示,并經(jīng)過(guò)驗(yàn)證,證明式(9)進(jìn)行評(píng)分預(yù)測(cè)準(zhǔn)確率明顯優(yōu)于式(2)。因此文中采用式(9)進(jìn)行評(píng)分計(jì)算。目標(biāo)用戶(hù)uβ對(duì)項(xiàng)目jo的評(píng)分預(yù)測(cè)公式:

      這里 oj表示有過(guò)對(duì) oi項(xiàng)目評(píng)分行為的用戶(hù);sim(α ,β)表示用戶(hù)uα、uβ的相似性。rα,rβ表示用戶(hù)uα、uβ的平均評(píng)分。

      2.2 生成推薦

      給定用戶(hù)uα及其特征向量集合Ti= { (xi, yi)},i∈N。其中x={,…}為特征向量,

      +i∈ { 0,1}是類(lèi)標(biāo)簽。取特征向量集合構(gòu)建隨機(jī)森林,得到分類(lèi)模型。

      對(duì)用戶(hù)uα進(jìn)行2.3節(jié)中基于加權(quán)二部圖的改進(jìn)方法進(jìn)行矩陣計(jì)算,得到了用uα戶(hù)的初步推薦結(jié)果N ′ = { (tj, rj)}, tj為項(xiàng)目, rj是評(píng)分。對(duì)已得到的用戶(hù)uα的推薦項(xiàng)目進(jìn)行評(píng)分分類(lèi),得到分類(lèi)結(jié)果N = { (tj, yj)}, tj為項(xiàng)目, yj是評(píng)分修正標(biāo)簽。設(shè)定rj≥rα對(duì)應(yīng)的評(píng)分標(biāo)簽為1,rj<rα對(duì)應(yīng)的評(píng)分標(biāo)簽為0。對(duì)比 rj與 yj,二者相同,保留該項(xiàng)目及評(píng)分,不同則降低該項(xiàng)目在評(píng)分列表中的排名。最終將推薦列表的前N個(gè)推薦給用戶(hù)。

      在推薦方法 RF-WNBI中,改進(jìn)相似度的加權(quán)二部圖推薦方法(IWNBI)不但可以生成初始推薦評(píng)分,也可以作為推薦方法之一。

      2.3 算法流程

      算法設(shè)計(jì)流程如圖如圖2所示。

      圖2 總體流程圖Fig.2 The overall flow diagram

      RF-WNBI的算法描述如下

      輸入:用戶(hù)-項(xiàng)目評(píng)分矩陣,特征矩陣,目標(biāo)用戶(hù)uα,近鄰數(shù)k,可調(diào)參數(shù)δ。

      輸出:用戶(hù)uα的Top N推薦項(xiàng)目

      參數(shù):可調(diào)參數(shù)δ,近鄰數(shù)k

      (1)對(duì)于 uα?U 且 β≠α,根據(jù)公式計(jì)算 sim(α,β),找到分值最高的k個(gè)作為最近鄰居;

      (2)利用步驟(1)的結(jié)果,根據(jù)公式計(jì)算評(píng)分iVα;

      (3)找出評(píng)分值最高的m個(gè)項(xiàng)目,依照評(píng)分進(jìn)行降序排序,構(gòu)成對(duì)uα的推薦列表l;

      (4)隨機(jī)森林分類(lèi)器對(duì)l中的項(xiàng)目進(jìn)行分類(lèi);

      (5)根據(jù)分類(lèi)結(jié)果對(duì) l進(jìn)行重排序,形成新的推薦列表l';

      (6)取l′中的前N個(gè),形成Top N推薦。

      3 實(shí)驗(yàn)分析

      3.1 數(shù)據(jù)集

      本文使用GroupLens實(shí)驗(yàn)室在MovieLens數(shù)據(jù)集提供的擴(kuò)展數(shù)據(jù)庫(kù)中的公開(kāi)數(shù)據(jù)集(http://ir.ii.uam.es/hetrec2011/datasets.html)進(jìn)行實(shí)驗(yàn),檢測(cè)算法性能。數(shù)據(jù)集中包含了800000條數(shù)據(jù)記錄,其中包括 2113名用戶(hù)和 10197部電影。將數(shù)據(jù)集分為80%的訓(xùn)練集和 20%的測(cè)試集,數(shù)據(jù)集中每條記錄包含以下字段:用戶(hù)ID、項(xiàng)目ID、用戶(hù)評(píng)分(1~5)、特征向量集合Ti。本數(shù)據(jù)的矩陣密度為:

      3.2 評(píng)價(jià)標(biāo)準(zhǔn)

      本文采用平均排序值、平均絕對(duì)誤差(MAE)、均方根誤差(RMAE)[18]和漢明距離來(lái)度量推薦的質(zhì)量。

      (1)平均排序值(Ranking score)用評(píng)測(cè)用戶(hù)推薦列表準(zhǔn)確度的高低,在測(cè)試集中,用戶(hù)選擇過(guò)項(xiàng)目io,io排在推薦列表的位置為iL,N代表推薦列表的長(zhǎng)度。用戶(hù)實(shí)際選擇項(xiàng)目在推薦列表中排名越高,證明推薦結(jié)果越準(zhǔn)確。當(dāng)目標(biāo)用戶(hù)不同時(shí),對(duì)每個(gè) r求均值,即得到算法的平均排序值。則平均排序值(Ranking score)計(jì)算公式為:

      (2)根據(jù)預(yù)測(cè)值與實(shí)際誤差值得偏差來(lái)表示評(píng)分準(zhǔn)確率的高低,平均絕對(duì)誤差值越小,推薦精度越高,如:預(yù)測(cè)用戶(hù)的評(píng)分集合是{ p1, p2, p3,p4, … pN-1, pN},用戶(hù)實(shí)際評(píng)分集合是{q1, q2, q3,q4, …qN-1,qN},則平均絕對(duì)誤差與均方根誤差為:

      (3)漢明距離(HD)根據(jù)不同用戶(hù)推薦列表中相同項(xiàng)目的數(shù)量來(lái)評(píng)價(jià)預(yù)測(cè)結(jié)果的多樣性。用戶(hù)ui與 uj推薦列表之間的漢明距離為:

      其中:ijQ代表用戶(hù)iu與ju推薦列表之間公共項(xiàng)目的集合,|ijQ|代表集合ijQ 中元素的個(gè)數(shù),L代表推薦列表長(zhǎng)度。如果兩個(gè)推薦列表是完全一致的,則ijQ=0;如果兩個(gè)推薦列表沒(méi)有任何相同的項(xiàng)目,則ijQ=1。所有用戶(hù)的漢明距離的平均值即是整個(gè)系統(tǒng)的漢明距離HD:

      其中:m表示用戶(hù)數(shù)量。漢明距離越大,表示推薦結(jié)果的多樣性越高。

      3.3 動(dòng)態(tài)可調(diào)參數(shù)δ校準(zhǔn)

      圖3展示了動(dòng)態(tài)δ對(duì)算法準(zhǔn)確率的影響。從圖中可知,當(dāng)δ變化時(shí),產(chǎn)生的推薦結(jié)果的MAE和RMSE也隨之變化,當(dāng)δ取到0.4左右的值時(shí),效果最好。

      圖3 動(dòng)態(tài)因子δ對(duì)算法準(zhǔn)確性的影響Fig. 3 The effect of dynamic factor δ on the accuracy of algorithm

      3.4 不同的近鄰數(shù)K對(duì)推薦準(zhǔn)確度的影響

      選擇適合的最近鄰居個(gè)數(shù),能夠提高計(jì)算精度,降低計(jì)算時(shí)間。由圖4可以看出,當(dāng)隨著近鄰數(shù)K的增加,平均絕對(duì)誤差(MAE)和均方根誤差(RMAE)也隨之下降,這是因?yàn)楫?dāng)選取相似度高的用戶(hù)增多時(shí),進(jìn)而帶來(lái)的推薦結(jié)果更加準(zhǔn)確。但當(dāng)K達(dá)到45左右時(shí),MAE和RMAE曲線(xiàn)變得平穩(wěn),因此設(shè)定K值為50。

      圖4 近鄰數(shù)K對(duì)算法準(zhǔn)確性的影響Fig.4 The influence of nearest neighbor K on the accuracy of algorithm

      3.5 算法結(jié)果分析

      下面進(jìn)行對(duì)比實(shí)驗(yàn),在實(shí)驗(yàn)中選擇動(dòng)態(tài)因子 的值為0.4,近鄰數(shù)閾值設(shè)為50。對(duì)比試驗(yàn)結(jié)果如下。

      (1)對(duì)比平均排序值(Ranking score)

      將文獻(xiàn)[6]提出的基于二部圖的推薦算法(NBI)、文獻(xiàn)[11]提出的基于增加相似度系數(shù)的加權(quán)二部圖推薦算法(ISWNBI)、改進(jìn)相似度的加權(quán)二部圖推薦方法(IWNBI)、本文基于隨機(jī)森林修正的加權(quán)二部圖算法(RF-WNBI)進(jìn)行Ranking score的對(duì)比,實(shí)驗(yàn)結(jié)果如圖5所示。

      圖5 各算法關(guān)于Ranking score的實(shí)驗(yàn)對(duì)比圖Fig.5 The experimental comparison of ranking score of each algorithm

      由上圖所示,隨著推薦列表長(zhǎng)度增大,四種算法的平均排序比都逐漸增大且IWNBI和RF-WNBI在推薦列表長(zhǎng)度增加時(shí)均低于另外兩種算法NBI和ISWNBI的平均排序值。并且RF-WNBI的Ranking score明顯相對(duì)更低。說(shuō)明本文提出的RF-WNBI會(huì)命中更多實(shí)際推薦列表中的項(xiàng)目。因此在推薦精度和多樣性方面只對(duì)NBI、ISWNBI和RF-WNBI進(jìn)行比較。(2)對(duì)比精度(MAE、RMSE)和多樣性(HD)圖 6是 NBI、ISWNBI和 RF-WNBI關(guān)于 MAE、RMSE和HD的對(duì)比。

      圖6 各算法關(guān)于推薦精度與推薦多樣性的比較Fig.6 The comparison between the proposed algorithm and the recommended diversity

      由上圖對(duì)各MAE和RMSE的對(duì)比可以知道,RF-WNBI在推薦精度上明顯優(yōu)于NBI和ISWNBI,可以證明 RF-WNBI具有較高的精度,更容易為用戶(hù)推薦其喜愛(ài)的項(xiàng)目。對(duì)三個(gè)算法的HD進(jìn)行對(duì)比,RF-WNBI比 NBI的多樣性更好,雖然比 ISWNBI的多樣性低,但也具有較好的多樣性。

      綜合以上實(shí)驗(yàn)結(jié)果,可以看出本文提出RF-WNBI具有較好的合理性和較強(qiáng)的推薦效果。

      4 結(jié)語(yǔ)

      文中構(gòu)建了基于隨機(jī)森林修正的加權(quán)二部圖推薦算法,通過(guò)對(duì)評(píng)分權(quán)重作出更細(xì)致的劃分,平衡了項(xiàng)目的權(quán)重,充分考慮到對(duì)冷門(mén)項(xiàng)目的挖掘。完善了相似度計(jì)算,提高了推薦的精度。將特征數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化后建立隨機(jī)森林模型,對(duì)二部圖算法階段產(chǎn)生的預(yù)測(cè)列表進(jìn)行評(píng)分區(qū)間的修正校驗(yàn)。通過(guò)和基于加權(quán)二部圖的推薦算法(NBI)和基于增加相似性系數(shù)的加權(quán)二部圖推薦算法(ISWNBI)進(jìn)行比較,證明本文算法在保證了較好多樣性的同時(shí),提高了推薦的準(zhǔn)確性和推薦精度。

      [1] Ricci F, Rokach L, Shapira B. Introduction to recommender systems handbook. Recommender Systems Handbook. Springer US, 2011: 1-35.

      [2] Xu HL, Wu X, Liu XD, Yan BP. Comparison study of Internet recommendation system[J]. Journal of software, 2009,20(2): 1-10(in China). [許海玲, 吳瀟, 李曉東, 等. 互聯(lián)網(wǎng)推薦系統(tǒng)比較研究[J]. 軟件學(xué)報(bào), 2009, 20(2): 1-10.]

      [3] Li S-T, Xiao B. Recommender system based on social network [J]. Software, 2013, 34(12): 41-45. [李善濤, 肖波. 基于社交網(wǎng)絡(luò)的信息推薦系統(tǒng)[J]. 軟件, 2013, 34(12): 41-45.]

      [4] Schafer J-B, Frankowski D, Herlocker J, et al. Collaborative filtering recommender systems[A]. In: The Adaptive Web,Springer-Verlag, 2007: 291-324.

      [5] Jiang Z-F, Jiang J, E J-H. A content-based recommendation algorithm with social tagging. Software, 2015, 36(1): 1-5. [江周峰, 楊俊, 鄂海紅. 結(jié)合社會(huì)化標(biāo)簽的基于內(nèi)容的推薦算法[J]. 軟件, 2015, 36(1): 1-5.]

      [6] ZHOU T, REN J, MEDO M, et al. Bipartite network projection and personal recommendation[J]. Physical Review E,2007, 76(4): 6116-6123.

      [7] LIU Jian-guo, ZHOU Tao, CHE Hong-an, et al. Effects of high-ordercorrelations on personalized recommendations for bipartite networks[J]. Physica A, 2010, 389: 881-886.

      [8] SHANG Ming-sheng, LV Lin-yuan, ZHANG Yi-cheng, et al.Empirical analysis of Web-based user-object bipartite networks[J]. Europhysics Letters, 2010, 90(4): 48006.

      [9] ZHANG X M, JIANG S Y. Personalized recommendation algorithm based on weighted bipartite network[J]. Journal of Computer Applications, 2012, 32(3): 654-657. (in Chinese).[張新猛, 蔣盛益. 基于加權(quán)二部圖的個(gè)性化推薦算法[J].計(jì)算機(jī)應(yīng)用, 2012, 32(3): 654-657.]

      [10] WANG Q, DUAN S-Y. Improved recommendation algorithm based on bipartite networks[J]. Application Research of Computers, 2013, 30(3): 771-774 (in Chinese). [王茜, 段雙艷. 一種改進(jìn)的基于二部圖網(wǎng)絡(luò)結(jié)構(gòu)的推薦算法[J]. 計(jì)算機(jī)應(yīng)用研究, 2013, 30(03): 771-774.]

      [11] LI Z-D, LUO Q, SHI L L. Weighted bipartite network recommendation based on increasing similarity coefficient[J].Computer Science, 2016, 43(7): 259-264 (in Chinese). [李鎮(zhèn)東, 羅琦, 施力力. 基于增加相似度系數(shù)的加權(quán)二部圖推薦算法[J]. 計(jì)算機(jī)科學(xué), 2016, 43(07): 259-264.]

      [12] HE Lei. Research of information recommendation algorithm based on bipartite network[D]. Nanchang;Nanchang Hangkong University, 2013(in China). [何磊. 基于網(wǎng)絡(luò)結(jié)構(gòu)的信息推薦算法的研究[D]. 南昌航空大學(xué), 2013.]

      [13] BREESE J S, HECKERMAN D, KADIE C. Empirical analysis of predictive algorithms for collaborative filtering.[C]//Proceedings of the 14th Conference on Uncertainty in Artifi-cial Intelligence. San Francisco, CA: Morgan KaufmannPublishers, 2013: 43-52.

      [14] Breiman L, 2001a. Random forests. Mach. Learn. 45: 5-32.

      [15] Breiman L. Bagging Preditors[J]. Machine Learning, 1996,24(2).

      [16] Ho T K. The Random Subspace Method for Constructing Decision Forests[J]. Trans.on Pattern Analysis and Machine Intelligence, 1998, 20(8).

      [17] Ma H, Wang Q, Han Z-D, Zhang X-X, Hao G. Application of decision tree algorithm to personal book recommendation.Software, 2012, 33(8): 100-101. [馬華, 王清, 韓忠東, 張西學(xué), 郝剛. 決策樹(shù)分類(lèi)算法在個(gè)性化圖書(shū)推薦中的應(yīng)用[J]. 軟件, 2012, 33(8): 100-101.]

      [18] Sexton J, Laake P. Standard Errors for Bagged and Random Forest Estimators[J]. Computational Statistics& Data Analysis, 2009, 53(1).

      [19] Jonathan L. Herlocker, Joseph A. Konstan, Loren G. Terveen,John T. Riedl. Evaluating collaborative filtering recommender systems[J]. ACM Transactions on Information Systems (TOIS). 2004(1): 5-53.

      猜你喜歡
      列表分類(lèi)算法
      巧用列表來(lái)推理
      分類(lèi)算一算
      學(xué)習(xí)運(yùn)用列表法
      擴(kuò)列吧
      基于MapReduce的改進(jìn)Eclat算法
      Travellng thg World Full—time for Rree
      分類(lèi)討論求坐標(biāo)
      進(jìn)位加法的兩種算法
      數(shù)據(jù)分析中的分類(lèi)討論
      教你一招:數(shù)的分類(lèi)
      营山县| 高陵县| 蓬莱市| 南靖县| 右玉县| 龙口市| 通化市| 威宁| 元氏县| 隆子县| 太和县| 固原市| 香河县| 普兰县| 海原县| 南乐县| 休宁县| 七台河市| 乌兰察布市| 汶上县| 忻城县| 西昌市| 清远市| 砚山县| 广丰县| 山阴县| 四川省| 四平市| 邛崃市| 时尚| 连州市| 新干县| 青海省| 资源县| 大冶市| 栖霞市| 清远市| 泸西县| 鄂托克前旗| 南部县| 小金县|