• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      電子商務(wù)網(wǎng)站的個性化“混合”推薦服務(wù)

      2017-08-01 00:14:00蔡銀英
      關(guān)鍵詞:關(guān)聯(lián)個性化協(xié)同

      蔡銀英

      (重慶第二師范學(xué)院 數(shù)學(xué)與信息工程學(xué)院,重慶 400067)

      ?

      電子商務(wù)網(wǎng)站的個性化“混合”推薦服務(wù)

      蔡銀英

      (重慶第二師范學(xué)院 數(shù)學(xué)與信息工程學(xué)院,重慶 400067)

      隨著電子商務(wù)網(wǎng)站的快速發(fā)展,網(wǎng)絡(luò)商品銷售數(shù)量急劇增加,要提升用戶網(wǎng)購的體驗度,就必須為用戶提供個性化的推薦服務(wù)。目前常用的個性化推薦算法有:基于內(nèi)容的推薦算法、基于關(guān)聯(lián)規(guī)則的推薦算法和基于協(xié)同過濾的推薦算法。在實際應(yīng)用中,各算法都存在一定的局限,為了發(fā)揮各算法的優(yōu)勢,可以采用個性化的“混合”推薦服務(wù)。

      電子商務(wù)網(wǎng)站;個性化推薦算法;混合推薦服務(wù)

      中國互聯(lián)網(wǎng)絡(luò)信息中心發(fā)布的《第38次中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計報告》顯示,截至2016年6月,中國網(wǎng)民總規(guī)模達(dá)7.1億,人均周上網(wǎng)時長26.5小時;網(wǎng)絡(luò)購物用戶規(guī)模達(dá)到4.48億,較2015年底增加3448萬,增長率為8.3%。2015年發(fā)布的同期數(shù)據(jù)顯示,當(dāng)年的網(wǎng)絡(luò)購物用戶較2014年增長3.5%。從這些數(shù)據(jù)可以看出,越來越多的網(wǎng)民喜歡通過網(wǎng)絡(luò)購物平臺采購所需商品,究其原因無非就是因為網(wǎng)絡(luò)的便捷性與選擇的多樣性。而有需求就有發(fā)展,隨著電子商務(wù)網(wǎng)站的急速發(fā)展,網(wǎng)絡(luò)購物平臺的商品數(shù)量呈現(xiàn)爆炸式增長,商品數(shù)量的急劇增加在為用戶提供更多選擇的同時,也增加了用戶選到心儀商品的難度。如何幫助用戶快速找到自己喜歡的物品,提升用戶的使用感受就成了電子商務(wù)網(wǎng)站關(guān)注的熱點。目前普遍采用的方法為搜索引擎,搜索引擎可以根據(jù)用戶的搜索過濾大量的信息,但是返回結(jié)果是大眾化的,仍然需要用戶花費大量時間對返回結(jié)果進(jìn)行瀏覽辨別。為了提高用戶的搜索效率,就需要對用戶進(jìn)行個性化的推薦。

      一、個性化推薦服務(wù)的流程

      個性化推薦服務(wù)主要是基于用戶的歷史行為記錄以及用戶的原始信息,預(yù)測用戶感興趣的產(chǎn)品,并為用戶的購買行為或網(wǎng)頁瀏覽提供建議的服務(wù)。個性化推薦服務(wù)一般包含三個模塊:歷史信息采集模塊、推薦算法模塊、用戶尋求推薦模塊。其通用流程如圖1所示。從流程圖可以看出,推薦算法模塊是個性化推薦服務(wù)的核心。推薦算法其實就是從用戶的歷史行為記錄以及用戶的原始信息中深層次挖掘出用戶的偏好信息、個性化信息,并從中提取用戶的潛在興趣因素。

      圖1 個性化推薦服務(wù)的流程

      二、常用的三種推薦算法

      常用的推薦算法主要包含基于內(nèi)容的推薦算法、基于關(guān)聯(lián)規(guī)則的推薦算法與基于協(xié)同過濾的推薦算法。

      (一)基于內(nèi)容的推薦算法

      基于內(nèi)容的推薦算法,是利用用戶的興趣偏好屬性與待推薦項目的特征屬性的相似度進(jìn)行推薦。該推薦算法首先建立用戶與項目的特征屬性集,采用向量空間模型得到用戶與項目特征屬性的稀疏矩陣集,再依據(jù)余弦相似度為用戶提供推薦結(jié)果。假設(shè)第k個用戶的特征屬性集為Ck={wk1,wk2,…,wkr},第t個項目的特征屬性集為Dt={dt1,wt2,…,wtr},這里的r是指項目與用戶特征屬性集中的關(guān)鍵詞個數(shù)。余弦相似度就為

      cos(Ck,Dt)值越高說明第k個用戶與第t個項目的相似度就越高,共同屬性就越多。也就是說,第k個用戶也就越喜歡第t個項目,據(jù)此可以得到用戶與所有待推薦項目的余弦相似度,采用TOP—N的方法進(jìn)行推薦即可。

      基于內(nèi)容的推薦算法,其優(yōu)點為可解釋性強;不需要用戶的評分?jǐn)?shù)據(jù),只需建立特征屬性集;對于項目而言不存在冷啟動的問題(不存在新項目無法獲得推薦的問題)。其缺點為特征屬性集需要從用戶的描述與項目的表述中提取關(guān)鍵詞,并不是所有項目都可以提取關(guān)鍵詞,比如音樂、影視等項目是無法通過分詞的辦法提取關(guān)鍵詞的;對于沒有任何記錄的新用戶,因為沒有數(shù)據(jù)可用,也就無法推薦;不可挖掘用戶新的興趣點(因為所有推薦項目都與用戶的已有資料相匹配)。

      (二)基于關(guān)聯(lián)規(guī)則的推薦算法

      基于關(guān)聯(lián)規(guī)則的推薦算法,是從大量的數(shù)據(jù)中挖掘出項目間有意義的聯(lián)系,再通過這種聯(lián)系對用戶進(jìn)行推薦。項目間的這種聯(lián)系可以用關(guān)聯(lián)規(guī)則或頻繁項集的形式來表示。該推薦算法的關(guān)鍵就是要發(fā)現(xiàn)頻繁項集,建立關(guān)聯(lián)規(guī)則?!捌【婆c尿布”就是關(guān)聯(lián)規(guī)則的推薦算法中非常經(jīng)典的實例。

      設(shè)待推薦項目總數(shù)為N,待推薦項目表示為ti,i為1到N中的正整數(shù),表示各個項目的編號。用戶的一次瀏覽或購買構(gòu)成一個條目記為Sj,j表示該網(wǎng)站的瀏覽或者購買累計次數(shù),取值為正整數(shù),則Sj={ti|i為所購項目的編號}。由此構(gòu)建所有歷史條目的二元數(shù)據(jù)矩陣M,即以待推薦項目為列,以每個購買條目為行,交叉處的元素cij為0或者1,0表示第i個條目沒有購買第j個貨物,1表示第i個條目購買了第j個貨物。

      顯然,基于關(guān)聯(lián)規(guī)則的推薦算法不需要分析用戶的興趣偏好、物品的特征屬性,僅通過用戶的瀏覽與購買行為即可進(jìn)行推薦,但是其推薦為共性推薦,忽略了用戶的個性特點;隨著數(shù)據(jù)量的累積,運算開銷太大;對于新的物品,因為沒有用戶的購買數(shù)據(jù),所以無法進(jìn)行推薦,即存在冷啟動的問題。

      (三)基于協(xié)同過濾的推薦算法

      基于協(xié)同過濾的推薦算法,是目前應(yīng)用最多的推薦算法,其基本思想是利用群智對信息進(jìn)行過濾篩選,分為基于近鄰的協(xié)同過濾推薦算法與基于模型的協(xié)同過濾推薦算法?;诮彽膮f(xié)同過濾推薦算法建立在用戶以前有相同的愛好,以后也有相同的愛好這一假設(shè)之上,主要是利用用戶的歷史信息(注冊信息、瀏覽信息、評分?jǐn)?shù)據(jù)等)分析用戶的興趣愛好,并尋找與用戶興趣愛好相似的用戶群,再根據(jù)相似用戶群的選擇對用戶進(jìn)行推薦,目前有基于用戶的協(xié)同過濾推薦算法與基于項目的協(xié)同過濾推薦算法。

      基于用戶的協(xié)同過濾推薦算法是根據(jù)用戶對項目的評價信息,計算用戶間的相似性,并依據(jù)相似性尋找用戶相似群即用戶鄰居群,再根據(jù)用戶鄰居群對項目的評價信息預(yù)測用戶的偏好,并為用戶進(jìn)行推薦。該推薦算法有三個關(guān)鍵步驟:用戶評價信息描述、用戶鄰居群構(gòu)建、生成推薦。

      用戶對項目的評價信息可以通過用戶—項目矩陣進(jìn)行描述,設(shè)用戶集合為U={u1,u2,…,um},

      項目集合為

      I={i1,i2,…,in},

      rij,(i=1,2,…,m;j=1,2,…n),

      表示用戶ui對項目ij的評價,由rij所生成的m×n的矩陣就是對用戶評價信息的描述。用戶鄰居群的構(gòu)建主要依賴于用戶間的相似性,用戶的相似性可以采用余弦相似度與皮爾森相似度來衡量,皮爾森相似度為

      利用預(yù)測的評分進(jìn)行TOP—N推薦。

      基于項目的協(xié)同過濾推薦算法根據(jù)用戶對項目的評價信息,計算項目間的相似性,并依據(jù)用戶的偏好(已購買的物品或點擊過的頁面)預(yù)測用戶對各項目感興趣的程度,再根據(jù)用戶的興趣度為用戶進(jìn)行推薦。該推薦算法主要依賴于項目的相似度與用戶的興趣度計算。

      項目相似度的計算有多種方法,項目i,j的相似度較為直觀的一種算法為

      Ruj表示用戶對項目j的興趣度,可以將其簡化為1。最后依據(jù)Pui對用戶進(jìn)行TOP-N的推薦。

      基于協(xié)同過濾的推薦算法與基于關(guān)聯(lián)規(guī)則的推薦算法一樣,都不依賴于項目屬性與用戶自身的數(shù)據(jù)信息,不會對用戶的推薦體驗帶來負(fù)面影響。但是基于協(xié)同過濾的推薦算法需要利用用戶的歷史數(shù)據(jù)或評價信息來推薦,若用戶的歷史數(shù)據(jù)較少或與其他用戶的重疊數(shù)據(jù)較少時會影響評價的準(zhǔn)確性,同時基于協(xié)同過濾的推薦算法對新用戶與新項目是沒有辦法進(jìn)行推薦的。

      三、個性化的混合推薦算法

      (一)個性化的混合推薦算法及應(yīng)用

      為了提高推薦的準(zhǔn)確性,改進(jìn)各個算法中的缺陷,建議依據(jù)歷史數(shù)據(jù)的多少將用戶分為老用戶(有較多的歷史數(shù)據(jù))、次新用戶(有少量的歷史數(shù)據(jù))、新用戶(沒有歷史數(shù)據(jù))三類,分別適用不同的推薦算法。對老用戶采用基于協(xié)同過濾的推薦算法進(jìn)行個性化推薦,次新用戶采用基于關(guān)聯(lián)規(guī)則的推薦算法進(jìn)行推薦,只要數(shù)據(jù)積累到一定數(shù)量即可轉(zhuǎn)為老用戶進(jìn)行個性化推薦;新用戶采用基于內(nèi)容的推薦算法,主要是熱點推薦,只要新用戶有所選擇便是次新用戶,采用關(guān)聯(lián)規(guī)則推薦算法對其進(jìn)行推薦。對用戶的推薦流程如圖2所示。新項目的推薦采用簡化的基于內(nèi)容的推薦算法,根據(jù)用戶的歷史數(shù)據(jù)都可以為用戶設(shè)定標(biāo)簽,計算新項目與用戶的相似性,選擇相似性較高的項目,作為TOP-N中的待選項目推薦給用戶。

      圖2 混合推薦流程圖

      利用此混合推薦算法對某網(wǎng)站的客戶進(jìn)行推薦,主要分析步驟為:獲取用戶訪問網(wǎng)站的原始記錄;對數(shù)據(jù)進(jìn)行預(yù)處理,包括數(shù)據(jù)去重、數(shù)據(jù)變換、屬性規(guī)約、屬性變換等;對比多種推薦算法,采用混合推薦算法對用戶進(jìn)行個性化推薦,即第一次登陸網(wǎng)站的用戶采用內(nèi)容相關(guān)的熱點推薦,一旦用戶有點擊則采用基于關(guān)聯(lián)規(guī)則的推薦對用戶進(jìn)行推薦;老用戶采用基于協(xié)同過濾的推薦算法對其進(jìn)行推薦。分析流程如圖3所示。

      在對數(shù)據(jù)的探索過程中,發(fā)現(xiàn)約有1/4的網(wǎng)站用戶只登陸了網(wǎng)站的首頁,而沒有瀏覽其他頁面,這部分用戶應(yīng)該是通過搜索引擎進(jìn)入網(wǎng)站,在網(wǎng)站的導(dǎo)航頁面沒有找到所需要的內(nèi)容而退出網(wǎng)站的;同時也說明網(wǎng)站原有的基于內(nèi)容的新品推薦不能滿足用戶的需求。采用混合推薦算法中的對待新用戶的推薦策略,利用基于內(nèi)容的熱點推薦與現(xiàn)有的社會熱點或時事熱點結(jié)合,可以留存部分用戶。一旦用戶瀏覽推薦頁面,即為次新用戶,可以采用關(guān)聯(lián)規(guī)則的推薦算法對其進(jìn)行較為個性化的推薦。因為關(guān)聯(lián)規(guī)則模型中的最小支持度與最小置信度取值越大,事物之間的聯(lián)系也就越密切;滿足條件的頻繁項集也就越少。當(dāng)然頻繁項集的多少也與數(shù)據(jù)量的大小有關(guān),對于次新用戶的推薦經(jīng)過多次調(diào)整,最后選取模型最小支持度為0.6%,最小置信度為65%的頻繁項集給出推薦結(jié)果。

      圖3 混合推薦算法流程圖

      對于老用戶采用協(xié)同過濾推薦算法進(jìn)行個性化的推薦,因為該網(wǎng)站的網(wǎng)頁數(shù)明顯少于用戶數(shù),所以采用基于項目的協(xié)同過濾推薦算法。豐富的歷史數(shù)據(jù)可以提高推薦準(zhǔn)確度,利用協(xié)同過濾推薦算法對老用戶進(jìn)行推薦時,發(fā)現(xiàn)部分用戶沒有推薦結(jié)果,主要是因為用戶的瀏覽量較少所致,對這部分用戶仍然采用次新用戶的推薦結(jié)果進(jìn)行推薦。

      (二)推薦算法評價

      為了對比個性化推薦算法與非個性化推薦算法的結(jié)果,通過兩種非個性化的算法:隨機推薦算法、熱點推薦算法和個性化的算法:基于項目的協(xié)同過濾算法來對數(shù)據(jù)進(jìn)行建模并對模型進(jìn)行評價與分析。

      數(shù)據(jù)中用戶行為是二元選擇(有瀏覽、無瀏覽),對用戶的推薦也就是一個二分問題。二分問題中,常將實例分為正類(positive)與負(fù)類(negative),預(yù)測中會出現(xiàn)四種情況,即正類被預(yù)測為正類(真正類Truepositive)、負(fù)類被預(yù)測為正類(假正類Falsepositive)、負(fù)類被預(yù)測為負(fù)類(真負(fù)類Truenegative)、正類被預(yù)測為負(fù)類(假負(fù)類Falsenegative)??捎帽?來表示。

      表1 二分問題的分類

      二分問題的預(yù)測常用準(zhǔn)確率(P)、召回率(R)、真正率(TPR)、假正率(FPR)作為評測指標(biāo),其中

      由公式可以看出準(zhǔn)確率就是預(yù)測正確的實例占總實例的比例;召回率是正類中預(yù)測正確的實例占預(yù)測為正類實例的比例;真正率又稱為靈敏度,是正類中預(yù)測正確的實例占正類實例的比例;假正率是負(fù)類中預(yù)測為正類的實例占負(fù)類實例的比例;除了假正率外,其余的準(zhǔn)確率、召回率、真正率都是值越大越好,假正率是越小越好。

      對于推薦算法的評價采用離線測試的方法來獲取,選擇準(zhǔn)確率(P)、召回率(R)、真正率(TPR)、假正率(FPR)作為評測指標(biāo)。

      對三種推薦算法,選擇不同K值(推薦個數(shù),K取3、5、10、15、20)的情況下進(jìn)行模型構(gòu)造,得到評測指標(biāo)準(zhǔn)確率、召回率、真正率(TPR)、假正率(FPR),并繪制出ROC(真正率-假正率)曲線如圖4所示。從ROC曲線可以看出,不管K取何值時基于項目的協(xié)同過濾推薦其真正率比其他兩種非個性化推薦取值都要高,假正率比非個性化推薦的取值都低,這說明個性化的推薦基于項目的協(xié)同過濾推薦優(yōu)于隨機推薦與熱點推薦。同時又注意到隨機推薦與熱點推薦的假正率取值接近,但是隨機推薦的真正率要比熱點推薦的真正率低得多,所以熱點推薦優(yōu)于隨機推薦。

      圖4 ROC曲線

      四、結(jié)語

      綜上所述,個性化的“混合”推薦算法具有一定的優(yōu)勢,它能夠改進(jìn)協(xié)同過濾推薦算法中的數(shù)據(jù)稀疏性問題,同時可以利用協(xié)同過濾推薦的個性化及精準(zhǔn)性為用戶進(jìn)行推薦;可以有效改進(jìn)冷啟動問題,使每一位用戶都有推薦項目;有效利用特征屬性的提取對新項目進(jìn)行推薦,使特征屬性的提取最小化。

      但是,該算法不能改善協(xié)同過濾算法的可擴展性的問題。

      [1]中國互聯(lián)網(wǎng)信息中心.第38次中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計報告[DB/OL].http:∥www.cnnic.net.cn/hlwfzyj/hlwxzbg/hlwtjbg/201608/t20160803_54392.htm,2016-10-6.

      [2]何佳知.基于內(nèi)容和協(xié)同過濾的混合算法在推薦系統(tǒng)中的應(yīng)用研究[D].上海:東華大學(xué),2016.

      [3]張同啟.基于關(guān)聯(lián)規(guī)則及用戶喜好程度的綜合電子商務(wù)推薦系統(tǒng)的研究[D].北京:北京郵電大學(xué),2014.

      [4]Pang-NingTan,MichaelSteinbach,VipinKumar.數(shù)據(jù)挖掘?qū)д揫M].范明,范宏建,譯.北京:人民郵電出版社,2011.

      [5]博客頻道.基于物品的協(xié)同過濾算法[DB/OL].http:∥blog.csdn.net/yeruby/article/details/44154009,2017-2-17.

      [責(zé)任編輯 文 川]

      2017-03-24

      重慶第二師范學(xué)院“青年教師成長支持計劃”(201605);重慶市教委科研項目(KJ1501414)

      蔡銀英(1976— ),女,山西運城人,副教授,研究方向:概率論與數(shù)理統(tǒng)計。

      O244

      A

      1008-6390(2017)04-0122-05

      猜你喜歡
      關(guān)聯(lián)個性化協(xié)同
      蜀道難:車與路的協(xié)同進(jìn)化
      堅持個性化的寫作
      文苑(2020年4期)2020-05-30 12:35:12
      “一帶一路”遞進(jìn),關(guān)聯(lián)民生更緊
      “四化”協(xié)同才有出路
      汽車觀察(2019年2期)2019-03-15 06:00:50
      新聞的個性化寫作
      新聞傳播(2018年12期)2018-09-19 06:27:10
      奇趣搭配
      智趣
      讀者(2017年5期)2017-02-15 18:04:18
      上汽大通:C2B個性化定制未來
      三醫(yī)聯(lián)動 協(xié)同創(chuàng)新
      滿足群眾的個性化需求
      沙湾县| 虞城县| 辽中县| 五大连池市| 阳谷县| 都匀市| 林州市| 乐至县| 山东| 离岛区| 旺苍县| 怀集县| 中山市| 大余县| 大丰市| 聊城市| 灵武市| 碌曲县| 苗栗县| 漳平市| 南陵县| 通化县| 蓝山县| 南康市| 庆城县| 南江县| 喀喇沁旗| 连山| 铜山县| 安阳市| 温泉县| 兴文县| 石城县| 都江堰市| 寻乌县| 丰都县| 舒兰市| 巫溪县| 托里县| 涿州市| 洛阳市|