• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于改進協(xié)同過濾算法的推薦系統(tǒng)設計與實現(xiàn)

      2021-07-14 02:15:54白林鋒古險峰
      關鍵詞:協(xié)同模塊算法

      白林鋒, 古險峰

      (河南科技學院 信息工程學院, 河南 新鄉(xiāng) 453003)

      用戶的個性化需求以及商品的多樣性,導致信息過載,進而出現(xiàn)“信息迷失”,使得用戶在選擇商品時不能很好地進行比較[1]。推薦系統(tǒng)通過分析用戶對不同商品的歷史關注程度以及對項目的評價,找出其中的關聯(lián)特征,從而在海量數(shù)據中將用戶感興趣的信息推薦出來,使用戶能夠花費較少的時間和精力,更加精準地找到符合自己預期的產品,提升用戶滿意度,因此推薦系統(tǒng)對電商平臺以及用戶購物體驗都起著關鍵作用[2]。推薦算法作為推薦系統(tǒng)的核心,具有重要意義,可以基于內容、情境感知、關聯(lián)規(guī)則、知識推薦和協(xié)同過濾等。傳統(tǒng)算法往往僅考慮相似用戶的興趣偏好進行相似性計算,用戶模型單一,且沒有充分考慮時間因素以及項目屬性對用戶的影響,自身存在缺陷性,可擴展性不足[3]。針對這一現(xiàn)象,提出了改進協(xié)同濾波算法,在充分考慮項目屬性特征以及用戶興趣愛好的基礎上,引入自適應平衡因子綜合考慮用戶的需求,從而實現(xiàn)對用戶興趣愛好更深入地挖掘,解決傳統(tǒng)算法規(guī)則提取困難、個性化程度低、數(shù)據稀疏的問題[4]。

      1 推薦系統(tǒng)相關理論

      隨著信息化時代的到來,大量數(shù)據方便人們生活的同時,使得信息過載、海量數(shù)據不對等問題也日益凸顯[5]。利用已知用戶的瀏覽歷史進行情境分析,挖掘潛在的關聯(lián)規(guī)則,過濾掉大量無用信息,促成用戶購買意愿,提高交叉銷售的同時,提升用戶的粘連性和滿意度。因此,行為記錄模塊、規(guī)則分析模塊、推薦算法模塊構成了一套完整的個性化推薦系統(tǒng)[6]。其中,協(xié)同過濾技術以類聚群分原理,不需要對用戶進行額外的跟蹤,僅僅利用用戶已有的瀏覽歷史、評價行為,進行興趣偏好的相似性計算,繼而進行個性化推薦[7]。隨著在線用戶的增加以及大型Web的興起,推薦系統(tǒng)也面臨著模型服務、可擴展性、系統(tǒng)架構、冷啟動和強壯性等問題的挑戰(zhàn)[8]。推薦系統(tǒng)框架如圖1所示。

      圖1 推薦系統(tǒng)框架圖

      1.1 推薦技術及評價指標

      協(xié)同過濾推薦:有基于項目和基于用戶兩種形式,具有適應性強、推薦資源范圍廣的特點?;谟脩舻乃惴鞒虨椋豪靡阎脩襞d趣數(shù)據挖掘與之匹配的相似度高的目標用戶,進而通過對比分析,根據物以類聚人以群分現(xiàn)象,將商品推薦給疑似用戶[9]。數(shù)學表達式為:

      p(u,i)=∑v∈S(u,k)∩N(i)wuvrvi

      (1)

      式中:p(u,i)表示目標用戶u對商品i的興趣度,k表示與已知用戶相似的用戶個數(shù),w表示用戶間的相似程度,v為相似用戶,r為隱反饋信息。得到用戶對商品的興趣度后,進行降維選擇,從而挑選出興趣度最大的N個商品推薦給目標用戶[10]?;陧椖康倪^濾推薦原理和基于用戶的過濾推薦相似,都存在擴展性差、冷啟動以及數(shù)據稀疏性問題[11]。

      關聯(lián)規(guī)則推薦:從大量數(shù)據中尋找未知項目間存在的關聯(lián)特征,進而進行推薦,從而得到意料之外情理之中的效果。數(shù)學表示為:假設存在商品數(shù)據庫D,每一次交易用T表示,A為數(shù)據庫D中的一個商品集合,商品集合A和商品集合B之間的關聯(lián)規(guī)則A?B的置信度和支持度為:

      (2)

      (3)

      通過式(2)和式(3)得出商品集合A和商品集合B之間的置信度和支持度函數(shù),如果大于設置的閾值,則得出關聯(lián)規(guī)則[12]。該算法需要重復掃描數(shù)據庫,帶來數(shù)據的高維性和稀疏性,個性化程度低,關聯(lián)規(guī)則提取困難[13]。

      一個好的推薦系統(tǒng)在獲取用戶資源的同時,能夠提升用戶的粘連性和滿意度。合適的評價指標是評判推薦系統(tǒng)優(yōu)劣的關鍵[14],常用的評價指標有:推薦準確率、評分預測。

      推薦準確率

      (4)

      式中:T(u)為測試商品,P(u)為推薦商品。

      評分預測

      (5)

      式中:rui為用戶u對商品i的真實評價,lui為用戶u對商品i的預測評價。

      1.2 協(xié)同過濾算法的關鍵問題

      傳統(tǒng)的協(xié)同過濾推薦利用相似性度量關聯(lián)近鄰用戶,然后通過最近鄰(KNN)加權預測目標用戶興趣,最后進行個性化推薦[15],具體流程如圖2所示。

      圖2 協(xié)同過濾推薦流程

      評分矩陣:假設數(shù)據庫中存在m個用戶,n個商品,評分矩陣用m×n表示,Rij表示第i個用戶u對第j個商品的評分,評分值通過1~5來表示用戶的喜好程度。評分矩陣如表1所示。

      表1 評分矩陣

      近鄰選擇:對目標用戶預推薦進行項目間相似度查找,或者查找與目標用戶相似的近鄰用戶,然后根據相似性進行排序,選取大于閾值的若干個組成最近鄰集合。常用的相似度度量有余弦相似度量,其數(shù)學表示為:

      (6)

      式中:用戶u、v對項目c的評分用R表示。皮爾遜相似度表示方式為:

      (7)

      (8)

      2 融合項目屬性與興趣信息的協(xié)同過濾推薦系統(tǒng)

      2.1 系統(tǒng)模塊設計

      在進行模塊設計前需要進行系統(tǒng)需求分析,由于推薦系統(tǒng)面向的用戶特征和實現(xiàn)的功能屬性并不一致,因此系統(tǒng)需求分析的優(yōu)劣決定了設計的質量。本系統(tǒng)設計面向電商產品銷售,需求分析主要有兩部分組成,分別為功能性屬性和非功能性屬性。功能性屬性包括用戶管理、任務管理、數(shù)據分析、數(shù)據可視化,非功能性屬性包括可靠性、可擴展性、便捷性。在系統(tǒng)需求的基礎上,進行模塊設計,融合項目屬性與興趣信息的協(xié)同過濾推薦系統(tǒng)主要有4個模塊:數(shù)據管理模塊、數(shù)據分析預測模塊、個性化推薦模塊以及結果顯示模塊。

      數(shù)據管理模塊主要進行數(shù)據存儲以及商品數(shù)據和用戶數(shù)據的管理;數(shù)據分析預測模塊通過對數(shù)據進行預處理,過濾掉無用信息以及異常數(shù)據,對用戶的訪問數(shù)據進行清洗,為后續(xù)的個性化推薦模塊做準備;個性化推薦模塊根據數(shù)據分析預測模塊得出的數(shù)據進行評分矩陣,通過自適應混合協(xié)同過濾,選擇合適的推薦算法,根據用戶的興趣愛好更新商品屬性特征,實現(xiàn)推薦結果的實時性和動態(tài)性,提高推薦準確率,最終在顯示模塊將商品推薦給用戶。

      2.2 融合項目屬性與用戶興趣相似度計算

      傳統(tǒng)的協(xié)同過濾算法,通過研究相似用戶的興趣偏好進行相似性計算,忽略了時間因素以及項目屬性對用戶的影響,進而造成數(shù)據的稀疏性;而且,當引入新項目時無法及時的進行推薦,導致冷啟動問題的產生,可擴展性不足。本設計提出一個將用戶興趣和項目屬性混合進而計算相似度的方法,通過利用權重系數(shù)綜合分析項目評分的相似性,其數(shù)學表示為:

      sim(p,q)=αsimrate(p,q)+(1-α)simattr(p,q)

      (8)

      式中:simattr(p,q)為項目屬性;simrate(p,q)為興趣偏好;α為平衡因子,取值在0和1之間,決定了相似度擬合的權重系數(shù)。通過調節(jié)平衡因子α可以實現(xiàn)推薦精度的改變,最終實現(xiàn)精準的個性化推薦,α具體取值,通過實驗仿真得出。但是現(xiàn)實中,這種相似度計算并不適用于所有情況,為了防止用戶共同評分項目過少而出現(xiàn)的相關系數(shù)過大,需要根據情況加入權值因子即懲罰因子,改進后的相似度表示為:

      (9)

      式中:Npenalty為權值因子定值,大部分情況下取值50,Noverlap為目標用戶與已知用戶一起評分項目數(shù)量。

      算法的具體步驟為:

      (1)輸入近鄰數(shù)k,商品集合以及用戶集合,并寫出評分矩陣R;

      (2)選取合適的數(shù)據庫,抽取其中85%作為訓練樣本,15%作為測試樣本,并讀入訓練樣本中生成用戶評分矩陣的數(shù)據;

      (3)利用改進后的相似度表示式(9),得到融合項目屬性與用戶興趣相似性,比較相似度結果,選取大于閾值的若干個組成最近鄰集合;

      (4)最后通過15%測試樣本,得出推薦準確率P、均方根誤差R、絕對誤差,驗證算法的有效性。

      3 實驗與仿真

      首先搭建所需硬件平臺,電腦采用8核CPU、Intel i7@3.4 GHz、32 G內存、512 GB固態(tài)硬盤,軟件配置為Microsoft Windows7操作系統(tǒng),編程語言為Java,開發(fā)平臺為Myeclipse10。數(shù)據集采用美國Minnesota大學GroupLens項目組開發(fā)并維護的數(shù)據庫。該數(shù)據庫包含3個數(shù)據集,為了便于比較驗證,選取其中的一個MovieLens 100k數(shù)據集,該數(shù)據集里面含有1 682部影片、943位用戶評價的100 000條評價。評分范圍值為1~5之間,抽取其中85%作為訓練樣本,15%作為測試樣本。評價推薦系統(tǒng)性能優(yōu)劣的指標有召回率(recall)、覆蓋率(coverage)、絕對誤差(MAE)以及均方根偏差(RMSE)。本設計通過比較傳統(tǒng)算法與改進協(xié)同過濾算法在絕對誤差和均方根偏差的數(shù)值來驗證算法的有效性。

      本設計中相似度融合了項目屬性與用戶興趣,平衡因子α決定了這兩部分的比值。通過仿真觀察得出平衡因子α與絕對誤差(MAE)間的關系,如圖3所示。

      圖3 絕對誤差與平衡因子變化曲線

      通過圖3可知,當平衡因子α為0.4時,絕對誤差最小,推薦精度達到最大值,所以后續(xù)仿真α采用0.4。在相同測試集以及數(shù)據稀疏度的環(huán)境下,通過與傳統(tǒng)的以評分差異度和以項目類別偏好計算相似度的協(xié)同過濾算法進行對比來驗證本文算法的精確度;同時為了驗證本文算法的普遍適用性,針對不同的情況最近鄰個數(shù)分別取10~60,實驗結果如圖4所示。

      圖4 不同算法絕對誤差比較

      由圖4可知,基于改進的協(xié)同過濾算法相對于傳統(tǒng)的協(xié)同過濾算法具有較高的精確度,且隨著最近鄰個數(shù)的增加,系統(tǒng)的精確度仍然優(yōu)于其他算法,說明具有一定的魯棒性和普遍適用性。

      4 結 語

      在信息爆炸時代,用戶如何在大量冗余的信息中找到自己感興趣的數(shù)據,電商網站如何推銷商品并提高客戶粘連度是近年來研究的重點。本文通過對推薦系統(tǒng)關鍵技術及評價指標進行分析,得出推薦系統(tǒng)的基礎架構。在此基礎上對協(xié)同過濾算法進行改進,通過引入權重因子以及懲罰函數(shù),將用戶興趣和項目屬性混合進而計算相似度,最終實現(xiàn)精準的個性化推薦,并通過實驗仿真驗證本設計具有一定的魯棒性和普遍適用性。

      猜你喜歡
      協(xié)同模塊算法
      28通道收發(fā)處理模塊設計
      “選修3—3”模塊的復習備考
      蜀道難:車與路的協(xié)同進化
      科學大眾(2020年23期)2021-01-18 03:09:08
      基于MapReduce的改進Eclat算法
      Travellng thg World Full—time for Rree
      “四化”協(xié)同才有出路
      汽車觀察(2019年2期)2019-03-15 06:00:50
      進位加法的兩種算法
      三醫(yī)聯(lián)動 協(xié)同創(chuàng)新
      一種改進的整周模糊度去相關算法
      選修6 第三模塊 International Relationships
      长子县| 南华县| 新乡县| 广东省| 东辽县| 康乐县| 腾冲县| 云霄县| 南城县| 中西区| 丰县| 利川市| 博湖县| 辉南县| 中方县| 赤城县| 宁德市| 平昌县| 黎平县| 平利县| 乌苏市| 南宫市| 赣州市| 宜丰县| 平原县| 光泽县| 克什克腾旗| 昆山市| 碌曲县| 天峻县| 广河县| 岳阳市| 巴东县| 北川| 弥渡县| 岳西县| 望奎县| 乌海市| 略阳县| 汕头市| 万载县|