• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      一種基于標(biāo)簽譜聚類的協(xié)同過濾推薦算法研究

      2018-10-15 08:03:54張震雷崔蘋楊新凱
      現(xiàn)代計算機 2018年24期
      關(guān)鍵詞:用戶組標(biāo)簽聚類

      張震雷,崔蘋,楊新凱

      (上海師范大學(xué)信息與機電工程學(xué)院,上海200234)

      0 引言

      日新月異的互聯(lián)網(wǎng)技術(shù)使信息爆炸式地增長。與此同時,信息過載(Information Overload)的問題日益突出,用戶如何在互聯(lián)網(wǎng)浩如煙海的資源中快速有效地獲取高質(zhì)量的信息就成為了亟待解決的問題。搜索引擎的出現(xiàn),在一定程度上滿足了用戶查找信息的需求。然而,很多時候用戶找不到精確的關(guān)鍵詞來描述目標(biāo)信息,無論是信息的生產(chǎn)者還是消費者,都需要讓“信息智能地去找人”。于是,推薦系統(tǒng)(Recommenda?tion System)應(yīng)運而生,近幾年來該技術(shù)在電子商務(wù)、音樂視頻、新聞旅游等領(lǐng)域均有廣泛應(yīng)用。但是在如今動輒數(shù)以TB的互聯(lián)網(wǎng)環(huán)境中,數(shù)據(jù)的稀疏性和復(fù)雜性對推薦系統(tǒng)的精度提出了新的挑戰(zhàn)。

      1 相關(guān)研究現(xiàn)狀

      協(xié)同過濾(Collaborative Filtering)是推薦領(lǐng)域較為成熟的技術(shù)之一。當(dāng)前,這種方法存在兩個主要問題:第一,數(shù)據(jù)稀疏性致使構(gòu)建近鄰集合的開銷增大,影響推薦的效率;第二,僅僅通過用戶評分計算出的相似度精度不夠,致使推薦準(zhǔn)確度遇到瓶頸。

      為了克服數(shù)據(jù)稀疏性,降低近鄰搜索空間,聚類是一個不錯的選擇。Li等人提出了一種基于用戶模糊聚類的推薦策略[1],Ren等人提出了一種基于項目聚類的協(xié)同過濾方案[2]。為了進一步縮小近鄰搜索空間,Gong SJ提出了一種基于用戶和物品的聯(lián)合聚類協(xié)同過濾算法。這些方法在一定程度上改善了數(shù)據(jù)稀疏性,但是傳統(tǒng)的聚類方法在數(shù)據(jù)劇增時因計算而產(chǎn)生的開銷巨大。

      針對用戶相似性計算精度的問題,現(xiàn)有的方法往往使用人口統(tǒng)計學(xué)信息。但是隨著用戶對隱私意識的加強,系統(tǒng)通常無法獲取足夠的人口統(tǒng)計學(xué)信息。標(biāo)簽(Tag)作為組織管理信息的一種方式,已經(jīng)成為大型網(wǎng)站的標(biāo)配。Hotho等人把用戶、資源、標(biāo)簽之間的關(guān)系作為無向三部圖來研究[3];Rendle等人提出了一種基于用戶-資源-標(biāo)簽的張量分解方法,并使用梯度下降法對該方法做出了優(yōu)化[4];Reyn等人利用標(biāo)簽相似度,構(gòu)建一種基于情景的協(xié)同過濾推薦。這些方法都考慮了標(biāo)簽在挖掘用戶興趣時的作用,但是忽略了最終的推薦效率。

      2 基于標(biāo)簽譜聚類的協(xié)同過濾推薦策略

      鑒于以上問題,本文從實際出發(fā)提出一種基于標(biāo)簽譜聚類的協(xié)同過濾推薦算法(Tag Spectral-cluster based Collaborative Filtering,TSCF)。該方法首先使用譜聚類技術(shù)把UGC標(biāo)簽聚合成若干簇,然后根據(jù)用戶基于標(biāo)簽簇的信任度,把用戶分成若干用戶組,同時在用戶組內(nèi)利用基于標(biāo)簽的用戶信任度修正用戶相似度,進而改善推薦系統(tǒng)的整體性能。這種方法大體可以分為三大步。

      2.1 標(biāo)簽譜聚類

      UGC標(biāo)簽是用戶產(chǎn)生的內(nèi)容(User Generated Con?tent),它描述了資源的特征,又代表了用戶對資源的主觀感受。由于UGC標(biāo)簽的開放性,其一詞多義會影響最終的推薦精度[5]。本文采用譜聚類(SpectralCluster)算法對UGC標(biāo)簽降維去噪。相較于別的聚類算法,譜聚類算法具有適應(yīng)性強,計算量小,易于實現(xiàn),聚類效果好等優(yōu)點。本文通過對標(biāo)簽的個體相似度(Individu?al Similarity)和群體相似度(Group Similarity)線性加權(quán)后得到標(biāo)簽的共現(xiàn)相似度(Common Similarity):

      最終得到一個共現(xiàn)相似度矩陣[6]。

      2.2 基于標(biāo)簽簇的用戶分組

      標(biāo)簽譜聚類之后,就得到了k個標(biāo)簽簇,不同的標(biāo)簽簇代表不同的用戶興趣?;趉個標(biāo)簽簇,可以把所有用戶劃分成k個用戶組,d(ua)表示用戶ua使用標(biāo)簽的次數(shù),d(ua,Cj)表示用戶ua使用Cj標(biāo)簽簇中標(biāo)簽的次數(shù),故此可以定義用戶ua的對標(biāo)簽簇Cj的興趣度In?tcj(ua):

      然后把Ua歸入Intcj最大的用戶組。當(dāng)然同一用戶可能對不同標(biāo)簽簇的偏好相同,則把該用戶同時歸入不同的用戶組。這樣,按照“人以群分”的原則就把用戶劃歸到k個用戶組中。

      2.3 組內(nèi)用戶相似度

      使用用戶u,v之間基于標(biāo)簽的信任度來修正二者之間的相似度,修正之后如下:

      其中,cos(u,v)是協(xié)同過濾中基于用戶(二值化)評分的余弦相似度,可以用式(4)來計算:

      其中N(u)表示用戶u評價過的物品。接著,我們可以構(gòu)建目標(biāo)用戶ua的近鄰集合,并完成top N推薦。針對同時屬于多個用戶組的用戶,可以綜合該用戶在各用戶組中的top N列表,票選出得分最高的物品作為推薦,這種做法在一定程度上可以提升推薦的多樣性。

      由于標(biāo)簽簇數(shù)k太大太小都會對最終的推薦結(jié)果造成影響。結(jié)合社區(qū)劃分理論本文設(shè)計一個模塊度函數(shù)[7],通過一次實驗就可以自動確定合適的標(biāo)簽簇數(shù),模塊度函數(shù)定義如式(5):

      其中S(Cj,Cj)表示第j個簇內(nèi)的所有標(biāo)簽綜合共現(xiàn)相似度之和,S(C,C)則表示相似性矩陣所有元素之和,S(Cj,C)則表示Cj簇中的所有標(biāo)簽到其他簇中標(biāo)簽的權(quán)重之和。

      2.4 TSCF算法描述

      改進后的算法過程如圖1:

      圖1 改進算法流程圖

      3 實驗及分析

      本文選用ACM第五屆推薦大會(RecSys2011)公布的Last.fm數(shù)據(jù)集(網(wǎng)址:http://recsys.acm.org/2011),這個數(shù)據(jù)集包含了1892名注冊用戶,17632名歌手,11946個標(biāo)簽以及186479個標(biāo)簽標(biāo)注行為,此外還有12717對雙向好友關(guān)系,數(shù)據(jù)較為完整,具有較高的學(xué)術(shù)科研價值。

      首先剔除活躍度較低的用戶以及流行度較低的歌手,過濾掉明顯虛假的信息,得到一個高質(zhì)量的核心數(shù)據(jù)子集,然后使用一次模塊度函數(shù),對標(biāo)簽譜聚類。

      當(dāng)k=1時,Q(k)最小,說明聚類效果最差,因為相當(dāng)于沒有進行聚類,這和實際相符。在Last.fm的核心數(shù)據(jù)集上,當(dāng)k=2時,模塊度最大,所以本文把標(biāo)簽聚成兩簇。

      為了驗證TSCF算法的有效性,將與基于用戶的協(xié)同過濾(UserCF)和基于用戶聚類(KmeansCF)的推薦算法,從準(zhǔn)確率、召回率、覆蓋率、多樣性、流行度以及計算時間等六個方面對比說明。依次取近鄰集合大小為k=5,10,15,20,25,30,35,標(biāo)簽簇數(shù)為K=2,推薦列表長度為20。

      圖2 不同標(biāo)簽簇時的模塊度值

      (1)準(zhǔn)確率和召回率

      表1 準(zhǔn)確率、召回率

      由于使用了基于標(biāo)簽簇的用戶信任度對原有用戶相似度進行修正。如表1所示,本文提出的TSCF算法的準(zhǔn)確率和召回率,相較于UserCF算法和KmeansCF算法都有了明顯提升。

      (2)多樣性、覆蓋率和平均流行度

      基于標(biāo)簽簇對用戶分組之后,有些用戶有可能會被同時分到若干個組中。這與實際情況相符,標(biāo)簽簇描述的是用戶的興趣,而有些用戶的興趣是多樣的。觀察圖2,可以發(fā)現(xiàn),TSCF方法可以提高系統(tǒng)的多樣性和覆蓋率,相較于KmeansCF聚類,多樣性提升不是非常明顯。

      (3)運行效率

      譜聚類算法對大型稀疏矩陣劃分時只需要求出前k個特征值即可,所以計算效率較為高效。由下面的time折線圖可以看出,TSCF算法的效率比UserKmeans方法的效率提高了將近一倍。往往為了取得較好的聚類效果,K-means的迭代次數(shù)遠(yuǎn)遠(yuǎn)要大于上述設(shè)定的10次,由此可見,KmeansCF算法是相對耗時間的。

      圖3 多樣性、覆蓋率、流行度、運行時間

      4 結(jié)語

      本文提出了一種基于標(biāo)簽譜聚類的協(xié)同過濾推薦策略(TSCF)。首先,該方法結(jié)合用戶UGC標(biāo)簽來挖掘用戶興趣,提高了推薦精度;其次,把關(guān)聯(lián)度較高的用戶分到同一組,在組內(nèi)完成推薦,可以縮減近鄰搜索空間,提升推薦效率和多樣性,緩解數(shù)據(jù)稀疏性帶來的弊端。最后,在仿真環(huán)境中,通過對比試驗驗證了TSCF推薦策略的有效性。本文下一步計劃,準(zhǔn)備在不影響推薦性能的同時,結(jié)合評價指標(biāo)設(shè)計一個更為合理的評價函數(shù),確定用戶組數(shù)k。

      猜你喜歡
      用戶組標(biāo)簽聚類
      文件共享安全管理方案探討
      無懼標(biāo)簽 Alfa Romeo Giulia 200HP
      車迷(2018年11期)2018-08-30 03:20:32
      不害怕撕掉標(biāo)簽的人,都活出了真正的漂亮
      海峽姐妹(2018年3期)2018-05-09 08:21:02
      基于DBSACN聚類算法的XML文檔聚類
      電子測試(2017年15期)2017-12-18 07:19:27
      青云QingCloud發(fā)布資源協(xié)作功能實現(xiàn)資源共享與權(quán)限控制
      電腦與電信(2016年3期)2017-01-18 07:35:44
      標(biāo)簽化傷害了誰
      基于改進的遺傳算法的模糊聚類算法
      ASP.NET中細(xì)分新聞類網(wǎng)站的用戶對頁面的操作權(quán)限
      基于多進制查詢樹的多標(biāo)簽識別方法
      計算機工程(2015年8期)2015-07-03 12:20:27
      一種層次初始的聚類個數(shù)自適應(yīng)的聚類方法研究
      朝阳区| 新宁县| 十堰市| 武强县| 蓬安县| 菏泽市| 彝良县| 金沙县| 尖扎县| 龙川县| 上饶县| 新乡县| 卫辉市| 积石山| 万源市| 泽普县| 茶陵县| 厦门市| 西丰县| 房产| 崇左市| 商河县| 柳林县| 大方县| 英超| 于都县| 乌审旗| 民乐县| 东山县| 仙桃市| 当涂县| 孙吴县| 五峰| 高台县| 溆浦县| 南康市| 原平市| 贵德县| 五台县| 东方市| 池州市|