• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      大數(shù)據(jù)背景的變頻興趣變化推薦算法研究

      2020-06-29 23:57冀曉亮翁玉玲
      科技創(chuàng)新與應(yīng)用 2020年20期
      關(guān)鍵詞:個性化推薦協(xié)同過濾

      冀曉亮 翁玉玲

      摘 ?要:現(xiàn)有的適應(yīng)興趣變化的協(xié)同過濾算法不能反應(yīng)用戶興趣變化的頻率,對即時熱點也不足夠敏感。同時,因為計算量大,不適應(yīng)大數(shù)據(jù)場景。為此我們采用對時間分層的推薦模型結(jié)合熱點權(quán)重函數(shù),解決了傳統(tǒng)算法存在問題,在生產(chǎn)環(huán)境中具備較高的應(yīng)用價值。

      關(guān)鍵詞:個性化推薦;協(xié)同過濾;推薦算法;興趣變化;大數(shù)據(jù)推薦系統(tǒng);相似度計算

      中圖分類號:TP391 ? ? ? ?文獻標志碼:A ? ? ? ? 文章編號:2095-2945(2020)20-0014-03

      Abstract: The existing collaborative filtering algorithms that adapt to the change of interest can not reflect the frequency of the change of user interest, and are not sensitive to real-time hot spots. At the same time, because of the large amount of calculation, it does not adapt to the big data scene. For this reason, we use the time hierarchical recommendation model combined with the hot spot weight function to solve the problems of the traditional algorithm and have high application value in the production environment.

      Keywords: personalized recommendation; collaborative filtering; recommendation algorithm; interest change; big data recommendation system; similarity calculation

      1 概述

      隨著時代的發(fā)展和互聯(lián)網(wǎng)的進步,電子商務(wù)平臺的數(shù)據(jù)規(guī)模變得越來越大,用戶行為也越來越復(fù)雜。這種情況下,傳統(tǒng)的協(xié)同過濾算法因為效率問題,難以滿足電子商務(wù)應(yīng)用的需求。基于大數(shù)據(jù)的快速、精準的推薦系統(tǒng)逐漸成為科研領(lǐng)域內(nèi)的一項重要研究內(nèi)容。

      協(xié)同過濾的個性化推薦技術(shù)通過研究不同用戶的興趣,主動為用戶推薦最需要的個性化資源,是使用最廣泛并被認為最成功的個性化推薦技術(shù)。這種推薦算法的基本思想是根據(jù)用戶興趣的相似度計算來推薦資源,把和當前用戶相似的其他用戶的相關(guān)資源推薦給當前用戶。

      這種推薦算法的優(yōu)點是無需考慮資源的表示形式,并能為用戶發(fā)現(xiàn)新的感興趣的資源?,F(xiàn)有的協(xié)同過濾算法存在一個弊端:不能及時反映用戶的興趣變化。

      為了更好的解決這個問題,常見的方式是在推薦算法中引入基于用戶訪問時間的權(quán)重函數(shù)和基于資源相似度的權(quán)重函數(shù)。經(jīng)過類似處理,算法能更好地反應(yīng)用戶興趣變化,提高推薦的準確性。但首先這種算法在計算興趣變化時,采用了線性函數(shù)模擬用戶興趣隨同時間的變化,很難真正模擬出實際中用戶興趣的隨機變化。這導(dǎo)致了推薦結(jié)果的不準確。同時,引入更復(fù)雜的函數(shù)使得計算性能進一步降低,不適用于大數(shù)據(jù)場景的生產(chǎn)環(huán)境。為此,我們引入新的基于時間分層的協(xié)同過濾推薦模型來解決以上問題。

      2 經(jīng)典的協(xié)同過濾推薦模型介紹

      2.1 基本的協(xié)同過濾算法模型

      經(jīng)典的協(xié)同過濾算法針對用戶訪問過的資源進行篩選。假設(shè)M個用戶訪問了N個資源,則此用戶和資源對應(yīng)的訪問記錄描述為R=M×N。我們用矩陣R[i,j]表示第i個用戶對第j個資源的訪問情況。如果為1,表示已經(jīng)訪問。如果為0,表示未訪問。

      這種協(xié)同過濾算法基于用戶行為的相似性,對當前用戶的訪問記錄計算其訪問行為最近鄰的K個用戶作為該用戶的最近鄰集合,統(tǒng)計通過最近鄰用戶訪問的資源集合生成Top-N推薦資源集。

      推薦算法A:基于用戶-資源訪問集的協(xié)同過濾推薦

      輸入項:用戶x;用戶已訪問資源集Ix;資源的鄰近集合M;

      輸出項:用戶x的Top-N資源集P。

      Step4.將Cx中的資源按加權(quán)推薦度大小排列,取資源的Top-N得到用戶x的推薦資源集P。

      在這種算法中,計算推薦度時所采用的相似度算法是影響整個算法性能的關(guān)鍵。常用的相似度算法有余弦相似度、條件概率、歐式距離、皮爾遜相關(guān)系數(shù)等,這里不做一一列舉。

      2.2 基于用戶興趣變化的算法模型

      以上所描述的經(jīng)典協(xié)同過濾推薦算法存在的不足之處在于,關(guān)注資源和用戶之間的相似性,忽略了用戶興趣的動態(tài)變化。為此,為了突出用戶近期訪問資源的重要性,出現(xiàn)了基于時間加權(quán)的動態(tài)協(xié)同過濾推薦算法。

      首先考慮用戶的興趣隨時間不斷變化。多數(shù)情況下,時間越久則訪問的資源權(quán)重越低。因此,一個用戶感興趣的資源和用戶近期的訪問記錄關(guān)系更大。為此可以考慮需要引入基于時間的數(shù)據(jù)權(quán)重函數(shù)來進行描述。

      假設(shè)資源i對用戶x的權(quán)重函數(shù)為:

      其中,Dxi為用戶x對資源i的訪問時間與用戶x最早訪問某資源的時間間隔。Lx為用戶x訪問推薦系統(tǒng)的時間跨度或系統(tǒng)設(shè)置的可信時間間隔。α∈(0,1)成為權(quán)重增長指數(shù)。改變α的值,可以調(diào)整權(quán)重隨訪問時間的變化速度。觀察可知,該函數(shù)隨時間跨度增加而遞減。

      當然,根據(jù)生產(chǎn)環(huán)境中的工程需要,我們也可以設(shè)計別的算法對權(quán)重函數(shù)進行調(diào)整。

      基于以上的權(quán)重函數(shù),我們提出改進后的基于用戶興趣變化的協(xié)同過濾推薦模型。

      推薦算法B:改進后適應(yīng)用戶興趣變化的協(xié)同過濾推薦模型

      輸入項:用戶x;用戶已訪問資源集Ix;資源的鄰近集合M;

      輸出項:用戶x的Top-N資源集P。

      算法步驟:

      Step1. 讀取M,得到M的K近鄰數(shù)據(jù)集Ni={i1,i2,…,in},合并后獲得數(shù)據(jù)集C;

      Step2. 從C中刪除Ix中已有的資源,得到候選的推薦數(shù)據(jù)集合Cx;

      Step3. 利用公式1,計算權(quán)重函數(shù)W(x,i);

      Step4. 對于資源j∈Cx,推薦度:

      Step5.將Cx中的資源按照加權(quán)推薦度大小排列,取資源的Top-N得到用戶x的推薦資源集P。

      這種算法能比較有效解決動態(tài)興趣變化情況下的推薦準確性,但同時也帶來了新的問題。

      首先,用戶的興趣變化和時間的對應(yīng)時間函數(shù)很難模擬。不論是用戶訪問資源的頻率,還是用戶興趣的變化頻率,在某個較長時間周期內(nèi),都具有很大的不確定性。

      其次,資源本身隨時間的熱度變化對用戶的訪問習慣造成的影響,干擾了推薦準確性。

      第三,算法模型進一步復(fù)雜,計算過程耗費系統(tǒng)資源,大數(shù)據(jù)背景下很多場景不適用或性能表現(xiàn)不佳。

      第四,用戶的興趣變化并沒有規(guī)律性,訪問資源的習慣也和個人習慣有很大關(guān)聯(lián)。較冷門的、或用戶習慣無關(guān)但又可能是用戶需要的資源得不到有效推薦。

      以上這幾種缺點,都導(dǎo)致類似算法在生產(chǎn)環(huán)境中的使用受到限制。

      2.3 改進的基于時間的變頻協(xié)同過濾模型

      基于對算法B的分析,我們考慮對以往的算法進行改進。

      首先,我們考慮系統(tǒng)內(nèi)資源的自關(guān)聯(lián)關(guān)系,即資源本身與其它資源的關(guān)聯(lián)度或推薦度??紤]到各種相似度算法計算的復(fù)雜性,我們在計算這些關(guān)聯(lián)度的時候,不使用任何的資源相似性推薦算法。僅根據(jù)資源的“綁定程度”來進行統(tǒng)計。

      例如,某個用戶訪問資源i的同時訪問了一次資源j,或者某個用戶購買了一次商品i的同時,購買了商品j,則我們認為i和j的關(guān)聯(lián)度為1。這種關(guān)聯(lián)關(guān)系在生產(chǎn)環(huán)境中極其容易獲取,往往格式化存儲于用戶訪問記錄或者購物表單中。統(tǒng)計在某個特定的時間段T內(nèi),這些資源的關(guān)聯(lián)關(guān)系,可以得到所有用戶在訪問系統(tǒng)資源i的時候,i對應(yīng)的資源集合Ct。

      考慮到在電子商務(wù)推薦的環(huán)境下,每個用戶的訪問資源往往多個。假設(shè)平臺用戶集合為Ix,考察因此我們可以統(tǒng)計在有限時長T內(nèi),資源被不同用戶i訪問的集合Ci。則平臺在有限時長T內(nèi),其用戶集合I(x,t)訪問的資源集合Ct=∑i∈I(x,t)Ci。匯總該集合,則產(chǎn)生以下的推薦算法。

      推薦算法C:自適應(yīng)時間-興趣變化的協(xié)同過濾模型

      輸入項:用戶x ;有限時間T內(nèi)用戶已訪問資源集Ix;有限時間T內(nèi)用戶集合I(x,t)訪問資源的集合Ct;

      輸出項:用戶x的Top-N資源集P。

      算法步驟:

      Step1. 讀取Ct,遍歷Ix,得到Ct基于用戶x的K近鄰數(shù)據(jù)集Ni={i1,i2,…,in},合并后獲得數(shù)據(jù)集C;

      Step2. 遍歷Ix,去除C中重復(fù)元素;

      Step3. 統(tǒng)計C中資源訪問頻次,選取Top-N1,形成候選資源集Cx;

      Step4. 對于資源 j∈Cx,按照公式1計算推薦度:

      Step5.將Cx中的資源按加權(quán)推薦度大小排列,取資源的Top-N得到用戶x的推薦資源集P。其中N1遠大于N。

      與以往的算法相比,這種算法具備如下優(yōu)點:

      考慮了時間對資源訪問的影響的不確定性,同時兼顧了計算性能,特別適用于大數(shù)據(jù)場景下的電子商務(wù)推薦系統(tǒng),同時也能應(yīng)用于個性化推薦。

      需要說明的是,這里的用戶x也可以替換為特定的群體,例如群組成員、商品的特定分類等。所以算法具有更廣的適配性。以上算法而前兩種算法因為整體計算的數(shù)據(jù)量,在這點上會受限制。

      在生產(chǎn)實踐中,某些場景的泛推薦還可以直接刪除步驟4,采用步驟3獲得的結(jié)果進行推薦。

      2.4 采用雙時間過濾的時間-興趣變化協(xié)同過濾推薦模型

      算法C對算法A和B有了大幅度的改進,能滿足多數(shù)情況下的要求。但同時依然存在一些問題沒有解決。

      考慮到為了獲取盡可能多的數(shù)據(jù)集Ct,實踐中選取的時長T往往比較寬泛,通常為一個季度或者一個月、一周等;對于某些對及時性要求特別高的場景,比如某個新聞爆點的相關(guān)新聞,推薦效果并不好。為此,我們對推薦算法C進一步進行優(yōu)化。

      我們在一個寬松時間間隔T的基礎(chǔ)上,再定義一個嚴格時間間隔t,這個時間間隔通常比較小,可以取值為1天、1個小時等?;谒惴˙中的公式2,可知加權(quán)函數(shù):

      這個函數(shù)在較長的時間間隔內(nèi),會誤差較大,也讓使用者比較迷茫。但對于響應(yīng)短時間內(nèi)的即時熱點,則非常有效。基于這個公式,我們可以對算法C進行改進。改進的方式是,利用算法B中的加權(quán)函數(shù)或類似思路的加權(quán)公式,在計算推薦度時調(diào)整阿爾法的值,讓最近的熱點時間段t內(nèi)的資源權(quán)重增大,從而達到基于用戶興趣的即時熱點資源推薦。詳細的計算步驟如下所示。

      推薦算法D:采用雙時間過濾的時間-興趣變化協(xié)同過濾推薦模型

      輸入項:用戶x;有限時間T內(nèi)用戶已訪問資源集Ix;有限時間T內(nèi)用戶訪問資源的集合Ct;

      輸出項:用戶x的Top-N推薦資源集P。

      算法步驟:

      Step1. 讀取Ct,遍歷Ix,得到Ct基于用戶x的K近鄰數(shù)據(jù)集Ni={i1,i2,…,in},合并后獲得數(shù)據(jù)集C;

      Step2. 遍歷Ix,去除C中重復(fù)元素;

      Step3. 統(tǒng)計C中資源訪問頻次,選取Top-N1,形成候選資源集Cx;

      Step4. 利用公式1,計算權(quán)重函數(shù)W(x,i);

      Step5. 對于資源 j∈Cx , 按照公式3計算推薦度:

      Step6. 將Cx中的資源按加權(quán)推薦度大小排列,取資源的Top-N得到用戶x的推薦資源集P。其中,N1遠大于N。

      對比算法B,算法D雖然計算步驟進一步復(fù)雜,但生產(chǎn)環(huán)境下性能卻會提高很多。這種性能的提升主要來源于各層的候選數(shù)據(jù)集的減少。所以算法尤其適用于各種大數(shù)據(jù)場景。

      2.5 性能更高的簡化雙時間推薦模型

      當推薦系統(tǒng)對推薦的精度要求稍低,但對系統(tǒng)性能要求更高時,我們可以對推薦算法D進行進一步的改進,實現(xiàn)思路如下。

      推薦算法E:簡化的雙時間推薦模型

      輸入項:用戶x;有限時間T內(nèi)用戶已訪問資源集Ix;有限時間T內(nèi)資源點擊Top-N1的集合Ct;

      輸出項:用戶x的Top-N資源集P。

      算法步驟:

      Step1. 讀取Ct,遍歷Ix,去除Ct中的重復(fù)元素后獲得備選數(shù)據(jù)集C;

      Step2. 利用公式1,計算權(quán)重函數(shù)W(x,i)

      Step3. 對于資源j∈Cx,按照公式3計算推薦度:

      Step4. 將Cx中的資源按加權(quán)推薦度大小排列,取資源的Top-N得到用戶x的推薦資源集P。其中,N1遠大于N。

      在生產(chǎn)環(huán)境中,經(jīng)過精簡后的算法E,在推薦結(jié)果上和算法D區(qū)別不大,但更節(jié)省系統(tǒng)資源且運算速度更快。

      3 結(jié)束語

      在大數(shù)據(jù)場景中,推薦算法首要考慮的便是數(shù)據(jù)量的龐大以及隨之帶來的性能問題。為此,我們必須對原有的推薦算法進行改進。個性化推薦因為要考慮不同的時間和不同的用戶具有的不同特征,算法尤為復(fù)雜。

      傳統(tǒng)推薦算法在時間上的模擬函數(shù)呈線性特征,因此推薦結(jié)果不能適應(yīng)用戶興趣的不規(guī)則改變。本文采用在特定的寬泛時間內(nèi)用戶訪問資源的頻率對資源集進行過濾,并在此基礎(chǔ)上,進行進一步的推薦度計算。而對于時間敏感的熱點資源,再采取線性時間權(quán)重函數(shù)進行二次推薦。

      實踐證明,這種方法不但使推薦結(jié)果更準確,也大幅度提高了算法的性能,不失為一種有效的大數(shù)據(jù)推薦算法模型。

      參考文獻:

      [1]趙亮,胡乃靜,張守志.個性化推薦算法設(shè)計[J].計算機研究與發(fā)展,2002(08):986-991.

      [2]余力,劉魯,羅掌華.我國電子商務(wù)推薦策略的比較分析[J].系統(tǒng)工程理論與實踐,2004(08):96-101.

      [3]張鋒,常會友.基于分布式數(shù)據(jù)的隱私保持協(xié)同過濾推薦研究[J].計算機學(xué)報,2006(08):1487-1495.

      [4]徐義峰,陳春明,徐云青.一種基于分類的協(xié)同過濾算法[J].計算機系統(tǒng)應(yīng)用,2007(01):47-50.

      [5]印桂生,崔曉暉,馬志強.遺忘曲線的協(xié)同過濾推薦模型[J].哈爾濱工程大學(xué)學(xué)報,2012(01):85-90.

      [6]邢春曉,高鳳榮,戰(zhàn)思南,等.適應(yīng)用戶興趣變化的協(xié)同過濾推薦算法[J].計算機研究與發(fā)展,2007(02):296-301.

      猜你喜歡
      個性化推薦協(xié)同過濾
      基于遠程教育的個性化知識服務(wù)研究
      圖書推薦算法綜述
      改進的協(xié)同過濾推薦算法
      基于鏈式存儲結(jié)構(gòu)的協(xié)同過濾推薦算法設(shè)計與實現(xiàn)
      基于相似傳播和情景聚類的網(wǎng)絡(luò)協(xié)同過濾推薦算法研究
      個性化推薦系統(tǒng)關(guān)鍵算法探討
      基于協(xié)同過濾算法的個性化圖書推薦系統(tǒng)研究
      混合推薦算法在電影推薦中的研究與評述
      文本數(shù)據(jù)挖掘在電子商務(wù)網(wǎng)站個性化推薦中的應(yīng)用
      阿拉善右旗| 恩平市| 沈阳市| 马龙县| 林甸县| 定西市| 前郭尔| 文成县| 贡山| 广灵县| 麻城市| 定边县| 瑞安市| 宁南县| 娱乐| 全椒县| 双牌县| 文昌市| 盐源县| 揭东县| 定日县| 青海省| 高邑县| 天台县| 新闻| 屏边| 疏附县| 红河县| 玉溪市| 界首市| 巴里| 甘德县| 略阳县| 方山县| 论坛| 蓝田县| 巴南区| 井冈山市| 吐鲁番市| 来宾市| 东光县|