• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      一種改進(jìn)的協(xié)同過濾推薦算法

      2016-06-05 14:17:39黃粲
      經(jīng)濟(jì)研究導(dǎo)刊 2016年23期
      關(guān)鍵詞:熱門協(xié)同算法

      黃粲

      (對(duì)外經(jīng)濟(jì)貿(mào)易大學(xué)信息學(xué)院,北京100029)

      一種改進(jìn)的協(xié)同過濾推薦算法

      黃粲

      (對(duì)外經(jīng)濟(jì)貿(mào)易大學(xué)信息學(xué)院,北京100029)

      針對(duì)傳統(tǒng)推薦算法中忽略用戶興趣隨時(shí)間推移而轉(zhuǎn)移和熱門項(xiàng)目對(duì)刻畫用戶相似度的影響兩個(gè)問題,介紹了一種改進(jìn)的基于用戶的協(xié)同過濾算法。通過以MovieLens數(shù)據(jù)集為分析與示例對(duì)象,給出了用戶相似度、懲罰系數(shù)、時(shí)間衰減因子與評(píng)分預(yù)測(cè)函數(shù)的具體計(jì)算方法,對(duì)引入時(shí)間因子與懲罰系數(shù)的協(xié)同過濾算法進(jìn)行了說明,并進(jìn)行了算法步驟設(shè)計(jì)。

      協(xié)同過濾算法;時(shí)間因子;懲罰系數(shù)

      引言

      推薦算法可以有效地對(duì)用戶提出個(gè)性化推薦,以更好服務(wù)客戶。主要的推薦技術(shù)有基于內(nèi)容推薦、協(xié)同過濾推薦、基于關(guān)聯(lián)規(guī)則推薦、基于效用推薦、組合推薦等。

      1994年GroupLens提出了基于用戶的協(xié)同過濾算法,而后Amazon于2000年提出了基于物品的協(xié)同過濾算法,二者構(gòu)成了當(dāng)代協(xié)同過濾算法的基礎(chǔ)。傳統(tǒng)的協(xié)同過濾算法主要集中于分析項(xiàng)目及用戶的特征,從中歸納用戶興趣,借此向其推薦可能感興趣的項(xiàng)目。然而,用戶消費(fèi)的環(huán)境(如時(shí)間、地點(diǎn)、心情等)也會(huì)對(duì)用戶的消費(fèi)行為造成影響,這些影響很難單純從用戶和項(xiàng)目的特征中尋得,而往往集中于消費(fèi)行為信息中。此外,用戶的興趣與愛好很可能隨時(shí)間推移而發(fā)生變化,也經(jīng)常存在從眾心理。若將這些因素考慮在推薦算法當(dāng)中,就可以很好地提升推薦準(zhǔn)確度。

      一、算法描述

      基于用戶的協(xié)同過濾算法的核心是找到與目標(biāo)用戶興趣相近的用戶群體,基于此用戶集的消費(fèi)行為和項(xiàng)目評(píng)分,計(jì)算目標(biāo)用戶對(duì)某一相似群體感興趣但目標(biāo)用戶沒有購買過的項(xiàng)目的預(yù)估評(píng)分,再按評(píng)分高低排序得到推薦項(xiàng)目集。本算法在此基礎(chǔ)上,引入了時(shí)間因子與懲罰機(jī)制,旨在更加精確刻畫用戶最近興趣并降低熱門項(xiàng)目對(duì)用戶相似度的影響。

      本文在對(duì)算法進(jìn)行闡釋時(shí)使用了由GroupLens Research Project提供的MovieLens數(shù)據(jù)集。數(shù)據(jù)集記錄了7個(gè)月間943個(gè)用戶對(duì)1682個(gè)電影的10萬余個(gè)評(píng)分。評(píng)分?jǐn)?shù)據(jù)中包含了用戶編號(hào),電影編號(hào),評(píng)分(1—5分,整數(shù))和評(píng)分時(shí)間戳。數(shù)據(jù)集中還提供了對(duì)應(yīng)的電影數(shù)據(jù),包含了電影編號(hào),電影名稱,上映時(shí)間及電影的分類信息(共19種分類)。其中,同一部電影可能擁有多個(gè)分類,即某部影片可能既是音樂劇,又是動(dòng)畫片,同時(shí)還是部喜劇。

      1.用戶相似度

      認(rèn)為同目標(biāo)用戶消費(fèi)過相同項(xiàng)目的用戶便是與目標(biāo)用戶興趣相似的用戶,而所消費(fèi)的共同項(xiàng)目數(shù)量越多、對(duì)項(xiàng)目的評(píng)分越類似,相似度越大。然而,值得注意的是,有一些用戶傾向于給出更高的評(píng)分,而另一些用戶給分則偏低。在數(shù)據(jù)集中,用戶編號(hào)為181的用戶在所觀看的435所電影中,給了297部電影1分的評(píng)價(jià),平均評(píng)分1.4977分;而編號(hào)373的用戶給341部電影的平均評(píng)分為3.5322分,其中僅有39部電影被評(píng)為1分。

      表1 用戶評(píng)分比較

      因此,評(píng)分的相對(duì)高低比絕對(duì)高低更能表示用戶對(duì)某一項(xiàng)目的偏好程度。常用的衡量用戶間的相似度的是Pearson相關(guān)相似性,通過用戶對(duì)某一項(xiàng)目的評(píng)分和用戶的平均給分之差來代表用戶對(duì)該項(xiàng)目的評(píng)價(jià)。Sab代表用戶a與用戶b所消費(fèi)過的項(xiàng)目的交集,rai代表用戶a對(duì)項(xiàng)目i的評(píng)分,ra表示用戶a的平均評(píng)分。則有

      2.懲罰系數(shù)

      現(xiàn)實(shí)中存在一些可能并非符合用戶以往消費(fèi)習(xí)慣,但是出于從眾心理等各類因素,用戶也消費(fèi)了的項(xiàng)目。很顯然,這些熱門項(xiàng)目的消費(fèi)行為會(huì)對(duì)刻畫用戶興趣和相似度有一定消極影響,而共同消費(fèi)了非熱門項(xiàng)目更能說明用戶之間具有相似性。

      使用編號(hào)為823的用戶進(jìn)行實(shí)例說明。通過對(duì)該用戶的觀影記錄進(jìn)行分析,可知該用戶尤其偏愛劇情片與喜劇片,這兩類電影在他所觀看的185部影片中占據(jù)了絕大部分(分別為68部和65部)。然而,該用戶只觀看過一部西部片,并給出了5分的滿分評(píng)價(jià)。數(shù)據(jù)集中這部編號(hào)為97的影片共有175條評(píng)分記錄,即大約每五名用戶中就有一人對(duì)該電影進(jìn)行評(píng)分。實(shí)際上,這部影片上映后引起了極大的轟動(dòng),并最終摘得七項(xiàng)奧斯卡獎(jiǎng)項(xiàng),是一部具有較高流行度的熱門影片。同時(shí),用戶還觀看了一部編號(hào)為1267的喜劇片并給出了4分評(píng)價(jià),而在所有評(píng)分記錄中,只有22個(gè)人觀看過這部非熱門影片。西部片并不符合823用戶的一致觀影偏好,但若使用經(jīng)典協(xié)同過濾算法,則與編號(hào)為1267的喜劇片在描繪用戶相似性時(shí)具有平等地位,甚至該部西部片由于評(píng)分更高,最終的刻畫影響甚至?xí)哂谟脩粢恢逼珢鄣南矂∑?,這就會(huì)在對(duì)用戶進(jìn)行畫像及推薦時(shí)造成一定偏差影響。

      因此,引入懲罰系數(shù)p,用于消除流行度大的熱門項(xiàng)目對(duì)相似性的偏差作用。消費(fèi)某項(xiàng)目的用戶數(shù)量越多,代表該項(xiàng)目流行度更大,因此在描繪相似度時(shí)權(quán)重應(yīng)越小。用N(i)代表所有購買過項(xiàng)目i的用戶集合,ni為該用戶集合的用戶數(shù)量,nc為總用戶數(shù)量,則懲罰系數(shù)計(jì)算公式為:

      3.時(shí)間衰減因子

      用戶對(duì)項(xiàng)目的喜好并非一成不變。隨時(shí)間的推移,用戶的價(jià)值觀與審美觀都可能有所調(diào)整。編號(hào)為506的用戶在1997年9月至次年1月間共給出了228個(gè)評(píng)分記錄。通過分析某月所觀看的特定類型電影占該月觀影總數(shù),繪制對(duì)比圖如圖1所示。從中可以看出,用戶的觀影習(xí)慣會(huì)發(fā)生改變,如9月份所觀看的影片中只有24%的電影是動(dòng)作片,但1月份動(dòng)作片已經(jīng)占據(jù)了該用戶觀影數(shù)量的75%。而9月份時(shí)用戶觀看了8%的恐怖片,但是后4個(gè)月間只看過一部恐怖片。從而,相比于恐怖片,2月份時(shí)用戶接受所推薦的動(dòng)作片的可能性要更高。因此,對(duì)用戶興趣的追蹤十分重要,用戶最近的消費(fèi)行為更能充分并準(zhǔn)確地反映用戶當(dāng)前的興趣與需求。

      圖1 用戶觀影習(xí)慣隨時(shí)間推移變化圖

      4.評(píng)分預(yù)測(cè)函數(shù)

      二、算法步驟

      Step1輸入目標(biāo)用戶集合C,用戶-項(xiàng)目評(píng)分矩陣D,鄰居個(gè)數(shù)j,推薦項(xiàng)目數(shù)量n;

      Step5選取改進(jìn)后的Pearson客戶相似度最高的前j個(gè)鄰居用戶,生成鄰居集合J和對(duì)應(yīng)鄰居評(píng)分項(xiàng)目集合SJ;

      Step7根據(jù)計(jì)算得到的所有未評(píng)分項(xiàng)目的預(yù)測(cè)評(píng)分,選擇評(píng)分最高的n個(gè)項(xiàng)目推薦給用戶。

      三、總結(jié)

      推薦算法作為向用戶提供個(gè)性化服務(wù)的重要工具,其精確性的提升一直備受關(guān)注。本文針對(duì)應(yīng)用廣泛的基于用戶的協(xié)同過濾算法,通過引入時(shí)間因子來賦予最近購買商品更大權(quán)重,以更好估計(jì)用戶需求,且引入了懲罰系數(shù),來降低熱門物品的購買行為對(duì)用戶興趣刻畫的偏差影響。但本算法仍存在一定不足之處,如主要依靠經(jīng)驗(yàn)確定時(shí)間衰減函數(shù)中常數(shù)項(xiàng)的取值會(huì)引入人為偏差。在日后研究中可引入機(jī)器學(xué)習(xí),提升準(zhǔn)確度。

      [1]楊強(qiáng),楊有,余春君.協(xié)同過濾推薦系統(tǒng)研究綜述[J].現(xiàn)代計(jì)算機(jī):專業(yè)版,2015,(9):3-6.

      [2]姚忠,魏佳,吳躍.基于高維稀疏數(shù)據(jù)聚類的協(xié)同過濾推薦算法[J].信息系統(tǒng)學(xué)報(bào),2008,(2):78-96.

      [3]劉恒友.基于時(shí)間效應(yīng)的推薦算法研究[D].哈爾濱:哈爾濱工業(yè)大學(xué),2013.

      [4]許斐.基于時(shí)間因子的動(dòng)態(tài)推薦算法研究[D].武漢:中南民族大學(xué),2013.

      【責(zé)任編輯 杜 娟】

      F06

      A

      1673-291X(2016)23-0006-02

      2016-07-15

      黃粲(1995-),女,河北保定人,本科生,從事信息管理與信息系統(tǒng)研究。

      猜你喜歡
      熱門協(xié)同算法
      蜀道難:車與路的協(xié)同進(jìn)化
      基于MapReduce的改進(jìn)Eclat算法
      Travellng thg World Full—time for Rree
      “四化”協(xié)同才有出路
      汽車觀察(2019年2期)2019-03-15 06:00:50
      進(jìn)位加法的兩種算法
      熱門智能手機(jī)應(yīng)用
      海外星云(2016年7期)2016-12-01 04:18:00
      三醫(yī)聯(lián)動(dòng) 協(xié)同創(chuàng)新
      一種改進(jìn)的整周模糊度去相關(guān)算法
      瘋狂猜圖
      家庭百事通(2016年5期)2016-05-06 20:48:31
      協(xié)同進(jìn)化
      海晏县| 安多县| 卓资县| 建湖县| 望城县| 疏勒县| 太仓市| 陆河县| 壤塘县| 阿合奇县| 宝山区| 寿光市| 那坡县| 思茅市| 两当县| 中方县| 连平县| 邻水| 安义县| 芦山县| 武鸣县| 宣武区| 宣化县| 上思县| 方正县| 南靖县| 汪清县| 高平市| 临夏市| 吉林市| 哈巴河县| 高淳县| 封开县| 保靖县| 彰化市| 涟源市| 阳信县| 沈丘县| 玛沁县| 蕉岭县| 京山县|