• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于DB-CF算法的音樂平臺個性化推薦研究

      2020-05-28 09:36:21竇維萌鄭秋爽孫宗錕
      軟件導刊 2020年3期
      關(guān)鍵詞:個性化推薦協(xié)同過濾聚類

      竇維萌 鄭秋爽 孫宗錕

      摘 要:娛樂方式日益豐富,產(chǎn)生巨量數(shù)據(jù),利用這些數(shù)據(jù)通過推薦系統(tǒng)可以讓用戶獲得更好的體驗,為此提出了DB-CF(DBSCAN-Collaborative Filtering)算法。首先,使用DBSCAN聚類算法對音樂平臺的線下用戶進行聚類;然后,通過協(xié)同過濾算法計算對象用戶與各聚類中心的相似度,再通過對比相似度度量矩陣,遍歷離對象用戶最近的鄰居,通過鄰居作出評分預(yù)測。實驗表明,采用DB-CF算法比傳統(tǒng)算法準確率提高8%左右,可以產(chǎn)生更準確的推薦結(jié)果,為用戶帶來更好的體驗。

      關(guān)鍵詞:音樂電臺;信息超載;個性化推薦;協(xié)同過濾;聚類

      DOI:10. 11907/rjdk. 192582????????????????????????????????????????????????????????????????? 開放科學(資源服務(wù))標識碼(OSID):

      中圖分類號:TP301 ? 文獻標識碼:A??????????????? 文章編號:1672-7800(2020)003-0057-03

      Research on Personalized Recommendation of Music Platform

      Based on DB-CF Algorithm

      DOU Wei-meng1,ZHENG Qiu-shuang2,SUN Zong-kun1

      (1. College of Computer Science and Engineering, Shandong University of Science and Technology;

      2. College of Mining Safety and Engineering, Shandong University of Science and Technology, Qingdao 266590, China)

      Abstract: With the increasing enrichment of entertainment methods and the influx of huge amounts of data, peoples lives are more convenient through the effective use of data. In terms of music platforms, excellent recommendation systems are used to provide better experience to platform users. In order to obtain more accurate recommendation results than the traditional recommendation techniques in a large number of tracks, a? DBSCAN-collaborative filtering(DB-CF) algorithm is proposed. Firstly, when processing the offline data, we use the DBSCAN clustering algorithm to cluster the users of the music platform. Secondly, when processing the online data, we calculate the similarity between the user and each cluster center by a collaborative filtering algorithm. And then through the comparison of the similarity measurement matrix, we traverse the nearest neighbor of the object user,and make prediction of the object users score. Experiments show that under different recommendation algorithms, the DB-CF algorithm improves the accuracy by about 8% compared with the traditional algorithm, which proves the algorithm can produce more accurate recommendation results and bring better experience to users.

      Key Words: music platform; information overload; personalized recommendation; collaborative filtering; clustering

      0 引言

      網(wǎng)絡(luò)發(fā)展和娛樂方式多樣化產(chǎn)生更多的信息,而巨量不相關(guān)的信息讓用戶選擇過程變得繁瑣。傳統(tǒng)的社會化推薦系統(tǒng)在不明確需求的情況下不能提高用戶的滿意度[1]。

      網(wǎng)絡(luò)正全面深入到人們的日常生活中[22],推薦平臺充滿機遇更充滿挑戰(zhàn),但因冷啟動問題[2]以及行為數(shù)據(jù)快速更新等矛盾,平臺尚無法滿足客戶的精確需求。個性化推薦技術(shù)能夠解決信息超載 [3],通過上傳用戶一系列操作,為每一個用戶創(chuàng)建獨立模型,并推薦用戶偏愛的內(nèi)容,如各音樂平臺的“推薦歌單”,就是利用此技術(shù)挖掘出客戶喜歡的歌曲予以推薦,這種方式大大節(jié)約了用戶的時間[4]。

      趙亮等[24]針對協(xié)同過濾算法效能低的缺點進行了改進,提出一種高效的個性化推薦算法,以解決推薦系統(tǒng)稀疏問題,但是它存在測試集作為分析樣本的方法優(yōu)化問題;周軍鋒等[25]提出優(yōu)化的協(xié)同過濾算法,采用修正的條件概率方法計算項目相似性,提高了計算結(jié)果的準確性,提高了推薦質(zhì)量,但此方法增加了時間損耗;劉佳璐等[26]結(jié)合協(xié)同過濾和用戶特征標簽增加用戶的黏度,在Hadoop平臺上實現(xiàn)分布式的離線計算,克服推薦單一性,提高了推薦質(zhì)量,但對噪聲點沒有進行對應(yīng)的處理。本文提出DB-CF算法,在保證推薦效率的同時注重對噪聲點的處理,提高了推薦質(zhì)量。

      1 相關(guān)理論

      1.1 個性化推薦系統(tǒng)

      個性化推薦系統(tǒng)能讓平臺用戶在大規(guī)模數(shù)據(jù)中找到自己所需的信息。出色的音樂平臺推薦系統(tǒng)能夠提高用戶的滿意度,音樂平臺能因此獲得巨大的收益[13]。

      個性化推薦系統(tǒng)依據(jù)用戶收藏,通過相關(guān)操作推送給用戶喜好的歌曲[14]。由于音樂平臺規(guī)模日益擴大,音樂數(shù)量與類別快速增長,用戶欲找到自己喜好的音樂要花費很長時間,這種現(xiàn)象大大降低了體驗感[12]。

      個性化推薦算法主要有:①基于用戶的協(xié)同過濾[5]。計算對象用戶和已有用戶的相似度,挖掘相似用戶感興趣的物品,估測出對象用戶對物品的評分,將高評分的音樂介紹給對象用戶;②矩陣分解:矩陣分解推薦算法能夠解決近鄰模型不能解決的難題,例如矩陣稀疏問題,對運算的結(jié)果有很大影響,增加了不穩(wěn)定性,導致結(jié)果差異很大[6];③混合推薦算法:混合以上推薦算法,融入深度學習或數(shù)據(jù)挖掘算法[7],混合算法推薦的音樂與對象用戶相關(guān)性最高。

      1.2 DB-CF算法

      DBSCAN聚類算法是一類具有噪聲的以密度為基準的空間聚類方法。DBSCAN將算法密度較高的區(qū)域劃分為簇[8]?,F(xiàn)今數(shù)據(jù)量越來越龐大,從大規(guī)模的數(shù)據(jù)之中挖掘出用戶所需求的信息、清除掉無關(guān)的數(shù)據(jù)是聚類的一個重大應(yīng)用[15]。當今推薦系統(tǒng)中,聚類算法處理大規(guī)模數(shù)據(jù)非常有價值[16-17]。DBSCAN算法優(yōu)點如下:①能夠有效處理噪聲點,挖掘出任意形狀的聚類,聚類速度很快[18];②和K-MEANS算法相比,DBSCAN對劃分的聚類個數(shù)不需要預(yù)先輸入[9];③能夠在實驗必要時輸入過濾噪聲參數(shù)。

      協(xié)同過濾(Collaborative Filtering)算法計算對象用戶和已有用戶的相似性,挖掘出相似用戶感興趣的物品,預(yù)測出對象用戶對物品的評分,將高評分的音樂推薦給對象用戶,主要通過余弦相似度計算用戶行為的相似度[10]。

      1.2.1 用戶相似度中的距離度量

      余弦計算相似度,用來衡量平臺用戶之間的差異程度,用戶之間的相似度和相似度度量值相關(guān)。余弦相似度數(shù)值越小,用戶之間的差異越大,余弦相似度的數(shù)值越大則表明用戶之間越相似[23]。

      余弦相似數(shù)學公式如下:

      式(1)中,通過用S(u,v)表示對象用戶u與用戶v的相似度,用Aui表示對象用戶u對音樂i的評分值,通過Avi表示用戶v對音樂i的評分,用Iuv表示對象用戶u和v共同評過分的音樂集合[21]。

      1.2.2 DB-CF算法設(shè)計

      首先對線下數(shù)據(jù)進行處理,使用DBSCAN聚類算法對音樂平臺的用戶進行聚類,生成線下用戶的聚類中心點;將每一位平臺用戶與各個聚類的中心點進行相似度計算,得出各個用戶與各個聚類中心點的相似度度量矩陣。在處理線上數(shù)據(jù)時,通過協(xié)同過濾算法計算對象用戶與各個聚類中心的相似度,再通過對比相似度度量矩陣,遍歷離對象用戶最近的鄰居,通過離對象用戶最近的鄰居得到對象用戶評分的預(yù)測,由此產(chǎn)生更準確的推薦效果。

      算法描述:

      算法: DB-CF

      輸入: db(數(shù)據(jù)集),eps(給定半徑),MinPts(指定點在半徑鄰域內(nèi)可以成為核心對象的最小鄰域點數(shù))。

      輸出: 目標類簇集合

      方法步驟:①Repeat;②判斷輸入點是否為核心對象;③ 若該點是核心點,找到全部從該點出發(fā)的直接密度可達點,形成簇;④若該點不是核心點,跳出循環(huán),查看下一個點;⑤Until 所有輸入點都判斷完畢。

      在對線下數(shù)據(jù)進行處理的基礎(chǔ)之上,先運算出對象用戶與各個聚類中心點的相似度,得到對象用戶所屬各個聚類程度的向量,再通過搜索類所屬的程度矩陣,得到離對象用戶最近的鄰居。

      輸入:類所屬程度矩陣U (p,q),對象用戶評分向量。

      輸出:離對象用戶最近的K個鄰居。

      方法:

      a= 0.0

      b = 0.0

      c = 0.0

      for p in user.items():

      for q in user.items():

      a += float(q[0]) * float(q[0])

      b += float(q[1]) * float(q[1])

      c += float(q[0]) * float(q[1])

      if(c == 0.0):

      return 0

      return c / sqrt(a * b)

      //運算出對象用戶與m個聚類的中心相似度,獲得1*k的向量(q1,q2,…,qm)。

      計算向量(q1,q2,…,qm)與類別所屬程度矩陣U (p,q)各行之間的余弦值;

      離對象用戶最近的K個鄰居就是以上余弦值最小的前K個基本用戶。

      利用DB-CF算法獲得離對象用戶最近的鄰居,根據(jù)公式(1)得到推薦數(shù)據(jù)。

      2 實驗結(jié)果與分析

      2.1 實驗環(huán)境

      本實驗操作系統(tǒng)為Windows10,系統(tǒng)類型為64位操作系統(tǒng),處理器為I7 7700HQ 2.80GHz,安裝內(nèi)存(RAM)為8GB,集成開發(fā)環(huán)境為PyCharm、Python 3.6 (64-bit)。

      2.2 數(shù)據(jù)集介紹

      采用的數(shù)據(jù)集來自http://millionsongdataset.com/上的SecondHandSongs dataset?,經(jīng)過處理后包含6000名用戶對4000首曲目的100萬條評分數(shù)據(jù),如表1所示。

      2.3 實驗方法

      統(tǒng)計精度度量方法和決策支持精度度量方法是客觀衡量音樂平臺推薦系統(tǒng)質(zhì)量的主要方法。本文將統(tǒng)計精度度量方法中的平均絕對誤差(MAE)作為評價指標衡量推薦精確度,使用MAE能直接地顯現(xiàn)推薦質(zhì)量的優(yōu)劣,是最為常用的一種推薦質(zhì)量的度量方法[11]。

      式(2)中,MAE越小說明推薦算法的精確度越好,推薦質(zhì)量越高。[x(i)]表示預(yù)測值,[y(i)]表示真實值。

      2.4 結(jié)果分析

      對以上數(shù)據(jù)集分別用DB-CF算法、CF(Collaborative Filtering)算法、CB(Content Based)算法進行實驗,求取F-measure。為了避免實驗結(jié)果的偶然性,分別進行20次實驗,求出結(jié)果的平均值作為實驗的最終結(jié)果[20]。

      如圖1所示,選數(shù)據(jù)稀疏度為0.958時進行DB-CF、CF和CB算法推薦效果比較[19],根據(jù)平均絕對誤差(MAE)值越小結(jié)果越精準的標準,DB-CF的推薦效果比CF以及CB推薦算法的精確度高。

      圖2為DB-CF、CF和CB算法的推薦效率比較,可以看出DB-CF算法的效率要比傳統(tǒng)的CF算法和CB算法效率高。DB-CF推薦算法先對線下數(shù)據(jù)進行聚類,在線上推薦時可以通過聚類完成的結(jié)果更快捷地進行推薦。

      3 結(jié)語

      音樂曲目浩如煙海,音樂曲目推薦對用戶來說具有重大意義。本文介紹了基于DB-CF算法的音樂平臺個性化推薦系統(tǒng)。與傳統(tǒng)推薦算法相比較,本方案能夠更快更準確地推薦給用戶感興趣的曲目。未來研究內(nèi)容是如何強化學習解決高維數(shù)據(jù)問題,更進一步優(yōu)化推薦結(jié)果。

      參考文獻:

      [1]劉進,胡大權(quán), 陳家佳. 面向海量數(shù)據(jù)的推薦系統(tǒng)研究[J]. 現(xiàn)代電子技術(shù), 2016, 39(12):59-61.

      [2]劉暢,王玉龍. 推薦系統(tǒng)冷啟動問題分析[J]. 電信網(wǎng)技術(shù),2017(1):65-68.

      [3]王國霞, 劉賀平. 個性化推薦系統(tǒng)綜述[J]. 計算機工程與應(yīng)用, 2012, 48(7):66-76.

      [4]侯燁煒. 個性化新聞推薦算法比較研究[J]. 科技視界,2014(32):362-366.

      [5]TSAI C F,HUNG C. Cluster ensembles in collaborative filtering recommendation[J]. Applied Soft Computing,2012,12(4):1417-1425.

      [6]GAI L I, LEI L I, POLYTECHNIC S, et al. Collaborative filtering algorithm based on matrix decomposition[J]. Computer Engineering & Applications, 2011(9):2001-2012.

      [7]黃立威,江碧濤,呂守業(yè),等. 基于深度學習的推薦系統(tǒng)研究綜述[J]. 計算機學報,2018,427(7):1619-1647.

      [8]王紅. 面向數(shù)據(jù)發(fā)布的差分隱私保護研究[D].北京:中國人民大學,2012.

      [9]馮超. K-means聚類算法的研究[D]. 大連:大連理工大學, 2007.

      [10]尹曉麗,李濟洪,LI Y X,等. 一種訪問者行為的相似度度量方法[J]. 太原科技大學學報,2007,28(5):371-373.

      [11]TERMSTRC. Average absolute mean error[EB/OL]. https://en.so.com/s?q=average+absolute+mean+erro

      [12]JONES S L,KELLY R. Dealing with information overload in multifaceted personal informatics systems[J]. Human-Computer Interaction, 2017(1): 73-130.

      [13]粱偉萍. 淺談電子商務(wù)中的個性化推薦系統(tǒng)[J]. 網(wǎng)絡(luò)與信息, 2011, 25(8):38-39.

      [14]劉輝,郭夢夢,潘偉強. 個性化推薦系統(tǒng)綜述[J]. 常州大學學報(自然科學版),2017, 29(3):51-59.

      [15]宋杰, 孫宗哲, 毛克明,等. MapReduce大數(shù)據(jù)處理平臺與算法研究進展[J]. 軟件學報, 2017, 28(3):514-543.

      [16]孫吉貴,劉杰,趙連宇. 聚類算法研究[J]. 軟件學報,2008,19(1):48-61.

      [17]楊啟仁. 數(shù)據(jù)挖掘中聚類算法的研究[J]. 牡丹江大學學報, 2010(6):107-109.

      [18]張毅, 劉旭敏, 關(guān)永. 基于密度的離群噪聲點檢測[J]. 計算機應(yīng)用, 2010, 30(3):802-805.

      [19]吳顏, 沈潔, 顧天竺,等. 協(xié)同過濾推薦系統(tǒng)中數(shù)據(jù)稀疏問題的解決[J]. 計算機應(yīng)用研究, 2007, 24(6):94-97.

      [20]劉明昌. 基于內(nèi)容的推薦技術(shù)研究[J]. 現(xiàn)代營銷(下旬刊), 2016(6):243-245.

      [21]焦東俊. 基于用戶人口統(tǒng)計與專家信任的協(xié)同過濾算法[J]. 計算機工程與科學, 2015, 37(1):158-164.

      [22]阿布力孜·布力布力, 鄧楠, 薛冠華. 電子商務(wù)在小微企業(yè)發(fā)展中的作用研究——以新疆少數(shù)民族小微企業(yè)為例[J]. 民族論壇, 2018, 395(1):47-50,67.

      [23]李慧敏. 基于社交網(wǎng)絡(luò)的垃圾用戶檢測方法分析與實現(xiàn)[D].北京:北京交通大學, 2017.

      [24]趙亮, 胡乃靜, 張守志. 個性化推薦算法設(shè)計[J]. 計算機研究與發(fā)展, 2002(8):91-97.

      [25]周軍鋒, 湯顯, 郭景峰. 一種優(yōu)化的協(xié)同過濾推薦算法[J]. 計算機研究與發(fā)展, 2004, 41(10):1842-1847.

      [26]劉佳璐, 周傳生. 基于Hadoop分布式個性化推薦算法的設(shè)計與實現(xiàn)[J]. 科學技術(shù)創(chuàng)新, 2017(1):170-171.

      (責任編輯:杜能鋼)

      收稿日期:2019-11-11

      作者簡介:竇維萌(1993-),男,山東科技大學計算機科學與工程學院碩士研究生,研究方向為云計算與大數(shù)據(jù)處理;鄭秋爽(1995-),女,山東科技大學礦業(yè)安全與工程學院碩士研究生,研究方向為礦井突水防治安全;孫宗錕(1995-),男,山東科技大學計算機科學與工程學院碩士研究生,研究方向為數(shù)據(jù)安全。本文通訊作者:鄭秋爽。

      猜你喜歡
      個性化推薦協(xié)同過濾聚類
      基于DBSACN聚類算法的XML文檔聚類
      電子測試(2017年15期)2017-12-18 07:19:27
      基于鏈式存儲結(jié)構(gòu)的協(xié)同過濾推薦算法設(shè)計與實現(xiàn)
      軟件導刊(2016年11期)2016-12-22 21:40:40
      基于相似傳播和情景聚類的網(wǎng)絡(luò)協(xié)同過濾推薦算法研究
      個性化推薦系統(tǒng)關(guān)鍵算法探討
      基于協(xié)同過濾算法的個性化圖書推薦系統(tǒng)研究
      混合推薦算法在電影推薦中的研究與評述
      無線定位個性化導覽關(guān)鍵技術(shù)在博物館中的運用
      基于改進的遺傳算法的模糊聚類算法
      一種層次初始的聚類個數(shù)自適應(yīng)的聚類方法研究
      自適應(yīng)確定K-means算法的聚類數(shù):以遙感圖像聚類為例
      石河子市| 克拉玛依市| 涿鹿县| 和田市| 阿拉善左旗| 碌曲县| 托克托县| 康保县| 凤山县| 昌黎县| 台北县| 英德市| 金寨县| 晴隆县| 怀柔区| 隆德县| 信丰县| 兰州市| 丹阳市| 论坛| 炉霍县| 株洲市| 司法| 稻城县| 合阳县| 水富县| 绥中县| 固镇县| 五常市| 沅陵县| 萨嘎县| 隆化县| 滁州市| 兰州市| 海晏县| 安国市| 聂拉木县| 浪卡子县| 靖江市| 湖南省| 涡阳县|