• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于Baseline SVD主動(dòng)學(xué)習(xí)算法的推薦系統(tǒng)

      2015-06-15 22:12季蕓等
      現(xiàn)代電子技術(shù) 2015年12期
      關(guān)鍵詞:推薦系統(tǒng)主動(dòng)學(xué)習(xí)

      季蕓等

      摘 要: 推薦系統(tǒng)是一種解決信息過載的新型技術(shù),為了解決推薦系統(tǒng)中新用戶帶來的冷啟動(dòng)問題,提出一種基于主動(dòng)學(xué)習(xí)的推薦系統(tǒng)。主動(dòng)學(xué)習(xí)方法能有效減少需要標(biāo)記的樣本數(shù)量,快速建立模型,在此選擇將主動(dòng)學(xué)習(xí)方法和Baseline SVD推薦算法結(jié)合起來,通過記錄模型訓(xùn)練得到的預(yù)估評(píng)價(jià)的改變程度,認(rèn)為改變最大的樣例即是最具有信息量的樣例,供新用戶標(biāo)記,并重新訓(xùn)練模型。通過與其他選擇策略進(jìn)行實(shí)驗(yàn)比較,證實(shí)了該方法確實(shí)有效解決了新用戶帶來的冷啟動(dòng)問題。

      關(guān)鍵詞: 推薦系統(tǒng); 主動(dòng)學(xué)習(xí); Baseline SVD; 樣例選擇

      中圖分類號(hào): TN915.03?34 文獻(xiàn)標(biāo)識(shí)碼: A 文章編號(hào): 1004?373X(2015)12?0008?04

      Recommender system based on Baseline SVD active learning algorithm

      JI Yun1, HU Xue?lei1, 2

      0 引 言

      隨著信息技術(shù)和互聯(lián)網(wǎng)的高速發(fā)展,各種互聯(lián)網(wǎng)應(yīng)用充斥著每個(gè)人的生活,得益于互聯(lián)網(wǎng)的開放性,便利性和分布性,互聯(lián)網(wǎng)上的信息量急劇增加。為了解決信息過載問題,推薦系統(tǒng)成為了繼分類目錄和搜索引擎之后,大數(shù)據(jù)時(shí)代的新寵。協(xié)同過濾作為一種主流的推薦系統(tǒng)技術(shù)[1],在學(xué)術(shù)界和應(yīng)用上都廣受好評(píng),它的主要思想是通過用戶之間的聯(lián)系來分享物品。協(xié)同過濾算法分成兩種[2]:一種是基于記憶的協(xié)同過濾算法(Memory?based),包括ItemCF算法和UserCF算法,通過計(jì)算用戶或物品之間的相似度來做推薦;另一種是基于模型的協(xié)同過濾(Model?based),基于模型的推薦算法往往結(jié)合了數(shù)據(jù)挖掘、人工智能、機(jī)器學(xué)習(xí)等諸多技術(shù),常見的有基于聚類的推薦、基于矩陣分解的算法、Slope One[3]等,其中基于矩陣分解的算法有:SVD,Baseline SVD[4],SVD++[5]等。在Netflix Prize推薦大賽之后,基于矩陣的推薦算法迅速崛起。推薦系統(tǒng)的發(fā)展受到了諸多因素的影響,其中一種便是新用戶問題。推薦系統(tǒng)算法非常依賴歷史數(shù)據(jù),在用戶新注冊(cè)互聯(lián)網(wǎng)應(yīng)用之后,系統(tǒng)由于沒有該用戶的相關(guān)數(shù)據(jù),而無法為新用戶做出準(zhǔn)確的推薦,這會(huì)大大影響互聯(lián)用應(yīng)用對(duì)用戶的黏著性。為了解決新用戶問題,常見的方案有:

      (1) 非個(gè)性化推薦,隨機(jī)推薦或者推薦熱門,這種方法不夠個(gè)性化,系統(tǒng)必須累積一定數(shù)量的數(shù)據(jù)才能啟動(dòng)推薦系統(tǒng);

      (2) 根據(jù)用戶注冊(cè)信息做出推薦,用戶的注冊(cè)信息往往是有限的,這樣的推薦偏向粗粒度;

      (3) 主動(dòng)詢問,該方法通過與用戶交流,主動(dòng)獲取建立模型需要的相關(guān)知識(shí),快速建立準(zhǔn)確模型。

      推薦系統(tǒng)中,在將推薦產(chǎn)品呈現(xiàn)給用戶時(shí),一方面期望得到用戶的滿意度,另一方面期望能從用戶的操作中學(xué)習(xí)到用戶的偏好,這正是主動(dòng)學(xué)習(xí)所致力的,因此將主動(dòng)學(xué)習(xí)結(jié)合推薦系統(tǒng)是不謀而合的[6]。國外研究人員目前常用的算法是將貝葉斯理論作為樣本選擇策略,AM(Aspect Model)算法為基準(zhǔn)學(xué)習(xí)器[7]。Jin等針對(duì)模型本身不確定性的問題,提出了改進(jìn),使得用戶參數(shù)向著準(zhǔn)確的方向增長[8]。Rasoul Karimi提出一種基于矩陣分解的主動(dòng)學(xué)習(xí)算法,選出預(yù)估評(píng)分最低的樣本供用戶選擇[9]。

      2 基于主動(dòng)學(xué)習(xí)的Baseline SVD算法

      為解決新用戶問題,本文選擇將主動(dòng)學(xué)習(xí)策略和推薦算法結(jié)合起來的方法,以加快冷啟動(dòng)速度。主動(dòng)學(xué)習(xí)根據(jù)樣本選擇策略,從提問池中選擇一個(gè)樣本供新用戶標(biāo)記,并不斷修正模型,直到模型穩(wěn)定為止,訓(xùn)練模型的過程如圖1所示,這是一個(gè)不斷迭代的過程。主動(dòng)學(xué)習(xí)的核心是樣本選擇策略,目前常用的樣本選擇策略有:基于不確定性縮減的算法,基于誤差縮減的算法和基于版本空間縮減的算法。將主動(dòng)學(xué)習(xí)策略與其他應(yīng)用做結(jié)合的研究很多,例如基于主動(dòng)學(xué)習(xí)的字符識(shí)別[10]、文本分類等。

      由于不同的學(xué)習(xí)算法需要不同的主動(dòng)學(xué)習(xí)策略,基于AM算法的主動(dòng)選擇策略并不適用于Baseline SVD算法,并且他們的模型太過復(fù)雜,本文選擇Baseline SVD作為基準(zhǔn)學(xué)習(xí)器,提出了一種基于評(píng)分改變程度作為樣例選擇的策略。在每次提問后,都會(huì)重新訓(xùn)練,同時(shí)給出新的預(yù)估評(píng)分,預(yù)估評(píng)分波動(dòng)較大的物品認(rèn)為是最不能確定,也是最具信息量的。圖2中,(a)的預(yù)估評(píng)分在不同輪數(shù)之間的評(píng)分差變化很大,而(b)的預(yù)估評(píng)分相對(duì)于要穩(wěn)定很多,相對(duì)于后者,不能確定(a)的評(píng)分的可能性更大,得到該樣本的標(biāo)記可以讓模型更快趨于穩(wěn)定,使用式(6)來衡量這種改變程度的大?。?/p>

      [j=1cnt-1rj+1u,i'-rju,i'cnt-1] (6)

      [i′*=argmaxi'∈I'j=1cnt-1rj+1u,i′-rju,i′cnt-1] (7)

      式中:cnt表示模型訓(xùn)練的總次數(shù);I′表示為標(biāo)注樣本的集合;[rju,i']表示第j次模型;用戶u對(duì)i′的預(yù)估評(píng)分,在所有未評(píng)分的物品,最終選出該值最大的物品供用戶標(biāo)記,該式的意義是連續(xù)兩次模型計(jì)算出來的預(yù)估評(píng)分差的平均值。具體算法流程如圖3所示。

      3 實(shí)驗(yàn)分析

      實(shí)驗(yàn)使用經(jīng)典的Movielens作為數(shù)據(jù)集,采用離線模擬的方式。為了更好地模擬在線用戶的實(shí)際情況,將Movielens中的用戶分成兩部分,選擇一部分用戶和其所評(píng)價(jià)過的電影數(shù)據(jù)作為初始的訓(xùn)練集,認(rèn)為這些用戶已經(jīng)不是新用戶。剩下來的用戶作為新用戶,并將這一部分用戶評(píng)價(jià)電影的數(shù)據(jù)再拆分成兩個(gè)部分,每個(gè)用戶隨機(jī)預(yù)留20個(gè)電影評(píng)分作為最終的測(cè)試集,其他部分的電影評(píng)分作為提問池。本文假設(shè)用戶對(duì)每個(gè)電影都具有打分的能力,系統(tǒng)每次從提問池中選擇電影樣本,供用戶回答,再將這些被標(biāo)注好的樣本放入訓(xùn)練集后,重新訓(xùn)練模型。初始化時(shí),從提問池中隨機(jī)抽取該新用戶的3個(gè)樣本放入訓(xùn)練集中,具體的訓(xùn)練集和測(cè)試集的分布如表2所示。

      表2 Movielens訓(xùn)練集和測(cè)試集的分布

      經(jīng)過研究測(cè)試,Baseline SVD算法在Movielens數(shù)據(jù)集中,選擇隱分類數(shù)為200時(shí)效果較好,其中,學(xué)習(xí)速率α選擇0.02,正則系數(shù)λ選擇0.05。為了反映本文提出的算法性能,選擇以下兩種策略作為比較算法:

      (1) 隨機(jī)選擇。每次從提問池中隨機(jī)選擇一部用戶需要標(biāo)記的電影。

      (2) 選擇熱門。每次從提問池中選擇熱門的電影,熱門產(chǎn)品的定義為,訓(xùn)練集中被看的次數(shù)最多的電影。

      為評(píng)價(jià)本文提出的算法,使用RMSE[11]作為算法的評(píng)價(jià)指標(biāo),本文將最大的迭代次數(shù)選為8,8次迭代過后,模型對(duì)新用戶的推薦基本趨向平穩(wěn)。為了更好地反映結(jié)果,對(duì)每個(gè)實(shí)驗(yàn)都進(jìn)行重復(fù)實(shí)驗(yàn),最后結(jié)果取平均值,有:

      [RMSE=1cu∈Ui∈I(rui-rui)2] (8)

      由圖4可以得出以下結(jié)論,選擇熱門產(chǎn)品的方案最差,雖然流行度高的電影普及度最廣,但是其對(duì)于個(gè)性化的推薦模型建立并不能做出很大的貢獻(xiàn),其RMSE下降速度最慢。

      隨機(jī)選擇策略接近于被動(dòng)學(xué)習(xí)中,被動(dòng)累積數(shù)據(jù)的情況,本文提出的方法在實(shí)驗(yàn)初期,RMSE的數(shù)值下降速度最快,明顯加快了冷啟動(dòng)速度,隨著提問次數(shù)增加,RMSE和隨機(jī)選擇方法效果接近。本文提出的算法在每次提問時(shí),僅需維護(hù)一個(gè)記錄累計(jì)評(píng)分改變的矩陣,為每一個(gè)新用戶選擇評(píng)分改變最大的物品,算法復(fù)雜度較小,也易于理解。

      4 結(jié) 語

      本文提出了一種基于主動(dòng)學(xué)習(xí)的推薦算法,以解決推薦系統(tǒng)中新用戶問題。該方法將預(yù)估評(píng)分的改變程度作為樣本選擇策略,認(rèn)為預(yù)估評(píng)分改變較大的樣例是模型最不能確定的,所含信息量較大。實(shí)驗(yàn)證明,該方法確實(shí)能有效減緩用戶的冷啟動(dòng)。但是本文中的實(shí)驗(yàn)是基于用戶總能回答任何問題的假設(shè)前提,這在現(xiàn)實(shí)中是不成立的,因此,將用戶標(biāo)記樣本的能力結(jié)合樣例選擇策略將是今后的研究重點(diǎn)。

      參考文獻(xiàn)

      [1] 項(xiàng)亮.推薦系統(tǒng)實(shí)踐[M].北京:人民郵電出版社,2012.

      [2] 王國霞,劉賀平.個(gè)性化推薦系統(tǒng)綜述[J].計(jì)算機(jī)工程與應(yīng)用, 2012,48(7):66?76.

      [3] Lemire D, Maclachlan A. Slope one predictors for online rating?based collaborative filtering [C]// Proceedings of SIAM Data Mining. Newport Beach, California: SDM, 2005, 5: 1?5.

      [4] YEHUDA Koren. Factor in the neighbors: scalable and accurate collaborative filtering [J]. ACM Transactions on Knowledge Discovery from Data, 2010, 4(1): 1?10.

      [5] 劉劍波,楊健.基于SVD++與行為分析的社交推薦[J].計(jì)算機(jī)應(yīng)用,2013,33(1):82?86.

      [6] RUBENS Neil, KAPLAN Dain, SUGIYAMA Masashi. Active learning in recommender systems [M]// Anon. Recommender Systems Handbook. US: Springer, 2011: 736?767.

      [7] KARIMI Rasoul, FREUDENTHALER Christoph, NANOPOULOS Alexandros, et al. Active learning for aspect model in recommender systems [C]// Proceedings of 2011 IEEE Symposium on Computational Intelligence and Data Mining (CIDM). [S.l.]: IEEE, 2011:162?167.

      [8] JIN R, SI L. A bayesian approach toward active learning for collaborative filtering [C]// Proceedings of the 20th Conference on Uncertainty in Artificial Intelligence. [S.l.]: AUAI Press, 2004: 278?285.

      [9] KARIMI Rasoul, FREUDENTHALER Christoph, NANOPOULOS Alexandros, et al. Non?myopic active learning for recommender systems based on matrix factorization [C]// Proceedings of 2011 IEEE International Conference on Information Reuse and Integration. [S.l.]: IEEE, 2011: 299?303.

      [10] 孟凡棟.基于主動(dòng)學(xué)習(xí)SVM的字符識(shí)別方法研究[D].南京:南京理工大學(xué),2008.

      [11] 劉建國,周濤,郭強(qiáng),等.個(gè)性化推薦系統(tǒng)評(píng)價(jià)方法綜述[J].復(fù)雜系統(tǒng)與復(fù)雜性科學(xué),2009(3):1?10.

      猜你喜歡
      推薦系統(tǒng)主動(dòng)學(xué)習(xí)
      數(shù)據(jù)挖掘在選課推薦中的研究
      基于用戶偏好的信任網(wǎng)絡(luò)隨機(jī)游走推薦模型
      基于個(gè)性化的協(xié)同過濾圖書推薦算法研究
      個(gè)性化推薦系統(tǒng)關(guān)鍵算法探討
      淺談Mahout在個(gè)性化推薦系統(tǒng)中的應(yīng)用
      化學(xué)教與學(xué)(2016年10期)2016-11-16
      高中生物教學(xué)中學(xué)生主動(dòng)學(xué)習(xí)策略研究
      數(shù)字電路課程的翻轉(zhuǎn)課堂教學(xué)及調(diào)研
      關(guān)于協(xié)同過濾推薦算法的研究文獻(xiàn)綜述
      試論高中生物教學(xué)中學(xué)生主動(dòng)學(xué)習(xí)的措施
      大兴区| 临洮县| 陇川县| 红安县| 枝江市| 宁乡县| 微博| 夏邑县| 绥滨县| 盈江县| 诸暨市| 瓦房店市| 鹤峰县| 仪陇县| 金门县| 临沭县| 凌云县| 蓬安县| 涟水县| 临桂县| 余庆县| 朝阳区| 定西市| 桑植县| 错那县| 临湘市| 温泉县| 讷河市| 崇仁县| 航空| 额敏县| 德江县| 通河县| 湄潭县| 宝兴县| 济南市| 田林县| 建湖县| 龙游县| 景洪市| 合阳县|