• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      一種融合多因素社交活動個性化推薦模型

      2020-01-14 06:32:42
      關(guān)鍵詞:社交活動社交文獻(xiàn)

      陳 藝

      (四川文理學(xué)院信息查詢與利用教研室 四川 達(dá)州 635000)

      Probabilistic matrix decomposition

      0 引 言

      隨著互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展,社交媒體和電子商務(wù)等迅速發(fā)展,互聯(lián)網(wǎng)數(shù)據(jù)呈指數(shù)級增長。人們不僅是數(shù)據(jù)的制造者也是數(shù)據(jù)的消費(fèi)者,如何從龐大的數(shù)據(jù)中篩選用戶感興趣的信息成為學(xué)者們亟需解決的問題。對于用戶而言,感興趣信息的獲取可通過搜索獲得,也可借助推薦算法推薦得到。與搜索引擎相比,推薦算法不需要用戶主動提供所需信息,而是根據(jù)少量信息構(gòu)建用戶興趣模型,進(jìn)而利用數(shù)據(jù)挖掘獲得數(shù)據(jù)背后的信息。2006年DVD在線租賃商N(yùn)etflix通過懸賞獎金的形式鼓勵學(xué)者們完善個性化推薦算法,期間大量針對傳統(tǒng)協(xié)同過濾推薦的改進(jìn)算法被提出來。而協(xié)同過濾推薦過度依賴于“用戶-項(xiàng)目”評分?jǐn)?shù)據(jù),將其引入到社交興趣推薦中后難以獲得滿意的推薦效果。

      針對社交大數(shù)據(jù)的特殊性,研究學(xué)者們提出了不同的解決方案。文獻(xiàn)[1]基于位置的社交網(wǎng)絡(luò)中用戶歷史興趣點(diǎn),利用變階馬爾科夫算法來預(yù)測用戶未來到達(dá)的興趣點(diǎn),算法提高了興趣點(diǎn)的推薦效果;文獻(xiàn)[2]將用戶物品圖引入信任機(jī)制建立用戶信任圖,在信任社交網(wǎng)絡(luò)中提出了一種基于圖熵的個性化推薦算法,不僅有效緩解了推薦的冷啟動問題還保持較高的推薦準(zhǔn)確率;文獻(xiàn)[3]挖掘項(xiàng)目間的全局項(xiàng)目相似信息,并將社交網(wǎng)絡(luò)用戶間的可靠度融入個性化推薦模型中,提出了一種改進(jìn)的社交網(wǎng)絡(luò)個性化推薦算法,降低了冷啟動問題;文獻(xiàn)[4]引入時間函數(shù)推斷用戶的興趣向量,并利用聚類算法對用戶發(fā)布的微博內(nèi)容進(jìn)行聚類分組,以用戶興趣向量篩選最佳匹配,并進(jìn)行排序,取得了較好的推薦結(jié)果;文獻(xiàn)[5]對社會網(wǎng)絡(luò)推薦研究進(jìn)行了系統(tǒng)述評,提出了一種融合項(xiàng)目特征和移動用戶信任關(guān)系;文獻(xiàn)[6]將用戶間的信任關(guān)系引入個性推薦模型中,以解決數(shù)據(jù)稀疏問題;文獻(xiàn)[7]通過優(yōu)化基于內(nèi)容的CF推薦模型,有效解決了個性推薦中的冷啟動問題;文獻(xiàn)[8]提出了一種結(jié)合社交關(guān)系和位置信息的地點(diǎn)推薦算法,緩解了數(shù)據(jù)稀疏和冷啟動問題;文獻(xiàn)[9]提出了基于多元社交信任的協(xié)同過濾推薦算法,利用用戶間的綜合信任關(guān)系選取推薦鄰居,算法有較高的推薦精度和較強(qiáng)的抗攻擊能力;文獻(xiàn)[10]提出了一種具有社交影響力的推薦算法,通過用戶的影響力不斷調(diào)解推薦的權(quán)重;文獻(xiàn)[11]提出了基于項(xiàng)目評分與用戶信任關(guān)系的CF推薦算法,通過評分用戶間的信任關(guān)系來挖掘用戶的社會關(guān)系與興趣偏好;文獻(xiàn)[12-14]利用位置信息來對用戶進(jìn)行分類,借助其他屬性對類內(nèi)用戶進(jìn)行信任預(yù)測或計(jì)算,從而完成個性化推薦。以上文獻(xiàn)研究中,文獻(xiàn)[2-3,6-7,9,11]都是在協(xié)同過濾的基礎(chǔ)上融合其他屬性來提高分類的精度;文獻(xiàn)[1,4-5,8,10]主要是在融合用戶興趣度、活動地理位置等影響因素的基礎(chǔ)上獲得較高的推薦效率。

      針對社交平臺日益龐大的數(shù)據(jù)以及用戶個性的多樣化,學(xué)者們提出或改進(jìn)的社交網(wǎng)絡(luò)個性化推薦算法,一定程度上提高了因數(shù)據(jù)稀疏性導(dǎo)致的推薦精度問題,但單一社交活動屬性的個性化推薦算法難以有效獲得高精度推薦結(jié)果。為此本文綜合用戶對活動興趣度、活動召集者影響力以及活動舉辦地點(diǎn)偏好等三方面因素形成一種新的個性化推薦模型。

      1 模型描述

      (1)

      1.1 構(gòu)建用戶對活動興趣度的概率模型

      用戶對社交活動內(nèi)容的興趣度是影響用戶是否參加活動的重要因素。本文利用LDA(Latent Dirichlet Allocation)文件主題模型求取用戶ui與其參加過的所有社交活動的主題分布,并用用戶ui的主題分布表征其興趣度。在LDA中,設(shè)ψs表示隱含主題s在單詞集合上的多項(xiàng)式分布,docui表示用戶ui∈U所有參加過的社交活動內(nèi)容形成的文件,對于docui可經(jīng)過LDA文件主題模型求取其中所有隱含主題的多項(xiàng)式分布,而用戶對社交活動的興趣度可以表示成文件docui的主題概率分布。若對某社交活動內(nèi)容的文件docui中含有Nk個隱含主題,則LDA對隱含主題的多項(xiàng)式分布求取過程:

      Step1利用LDA分布函數(shù)Dirichlet(δ)對文件docui中的每個隱含主題s∈{1,2,…,Nk}生成隱含主題與單詞的概率分布ρs;

      Step2利用LDA分布函數(shù)Dirichlet(γ)對文件docui中的每個文件生成文件與單詞的概率分布τdocui;

      Step3利用LDA多項(xiàng)式分布函數(shù)Mult(τdocui)對文件docui中的第m單詞生成主題分配sdocui,m;

      Step4利用LDA多項(xiàng)式分布函數(shù)Mult(ρsdocui,m)對文件docui中的第m單詞生成wdocui,m。

      用戶文件docui的似然函數(shù)為:

      f(sdocui,m|ηdocui)·f(ηdocui|γ)·f(Γ|δ)

      (2)

      式中:δ、γ為LDA分布函數(shù)的參數(shù),wdocui、Mdocui、ηdocui、Γ分別表示文件docui中所有單詞、單詞的數(shù)量、單詞的主題分配、單詞對應(yīng)的主題-單詞概率分布。

      設(shè)在LDA文件主題模型中文檔間是相互獨(dú)立的,則M個文件的完全似然函數(shù)如下:

      (3)

      式中:W、S、Φ分別表示文件中所有單詞、主題的分布以及所有文件-主題詞概率分布。我們幾乎不可能從似然函數(shù)中推斷出參數(shù)Φ和Γ,并且難以直接從某一多變量概率分布中近似抽取樣本序列,因此,本文采用吉布斯采樣將隱含主題詞s從聯(lián)合的概率分布中采樣出來:

      f(si=k|s-i,wi=z,w-i)∝

      (4)

      (5)

      (6)

      (7)

      設(shè)用戶ui的文件為docui,社交活動aj的文件為docaj,兩者所對應(yīng)的主題分布為τdocui和τdocaj,為了求取用戶與社交社交活動的主題的相似度,本文引入庫爾貝克-萊布勒散度(Kullback-Leibler,KL)[15]和延森-香農(nóng)散度(Jensen-Shannon)[16]來計(jì)算兩者之間的相似度。延森-香農(nóng)散度定義為:

      (8)

      式中:KL(·)表示庫爾貝克-萊布勒散度。其定義為:

      (9)

      JS(ui‖aj)會隨著τdocui和τdocaj兩者主題分布的差別而增大,這里定義用戶ui對社交活動aj的興趣度Ii,j為:

      Ii,j=1-JS(ui‖aj)

      (10)

      (11)

      1.2 構(gòu)建用戶對召集者影響力概率模型

      在基于活動的社交網(wǎng)絡(luò)中,用戶是否參加某項(xiàng)活動也跟活動召集者的影響力有關(guān),或者說一大部分用戶是慕名參加社交活動。本文認(rèn)為用戶參與某項(xiàng)社交活動受兩方面的影響:一是用戶對活動召集者的偏愛或慕名;二是用戶對社交活動本身的興趣或偏愛。這兩方面的影響很難直接獲得,本文將用戶參加某個召集者或某類社交活動的次數(shù)來量化影響力。設(shè)用戶ui參加某活動召集者ci組織的社交活動次數(shù)為cui,j,cui,j值越大說明召集者ci組織的活動對用戶ui的影響力越大。這里我們將構(gòu)建一個用戶與召集者間的影響力矩陣C,通過基于影響力的概率矩陣分解來對矩陣進(jìn)行精確的分析,力求得到用戶基于召集者影響力參與社交活動的概率。

      (12)

      式中:λ(0≤λ≤1)為權(quán)重因子,EA表示所有結(jié)束的社交活動集合。將召集者ci所有曾經(jīng)組織的社交活動平均影響力來表示召集者ci的影響力:

      (13)

      式中:ENci表示召集者ci曾經(jīng)組織的社交活動集合。

      影響力矩陣C條件分布如下:

      Efcj),σ2)]Vi,j

      (14)

      式中:Ν(x|μ,σ2)表示均值μ方差σ2的高斯分布,當(dāng)用戶ui參加召集者ci組織的任何一場活動時Vi,j=1,否則為0。D、Q、Numu、Numc分別表示所有用戶和所有召集者的隱式特征矩陣以及用戶數(shù)量和召集者數(shù)量。針對用戶和召集者的隱式特征矩陣,這里利用均值μ=0的高斯先驗(yàn)分布去求解:

      (15)

      (16)

      對上進(jìn)行取對數(shù),后驗(yàn)分布可得:

      (17)

      式中:B表示隱式特征矩陣維度,Z為常量。將上式最大化可得一個等價目標(biāo)函數(shù),該函數(shù)由二次正則化項(xiàng)平方誤差和范數(shù)平方組成:

      (18)

      (19)

      經(jīng)過模型的學(xué)習(xí)可以得到所有用戶和所有召集者的隱式特征矩陣D、Q,那么對于用戶與召集者間的影響力矩陣C中的缺失值可由下式進(jìn)行估值:

      (20)

      (21)

      1.3 構(gòu)建用戶因地理位置偏好的概率模型

      基于活動的社交網(wǎng)絡(luò)具有線上交流線下活動的特點(diǎn),所以活動舉辦地也是影響用戶是否參加活動的重要因素之一。針對地理位置偏好對用戶參加社交活動的影響度,學(xué)者們進(jìn)行了大量的研究,得出的結(jié)論也大體一致:用戶參加的大多數(shù)活動與之常住位置距離不遠(yuǎn),并且該距離分布函數(shù)近似冪律分布[17-18]。本文基于活動舉辦地與用戶常住距離,以用戶參加活動的頻數(shù)來對用戶地理位置偏好建模。在學(xué)者研究成果的基礎(chǔ)上,將活動舉辦地與用戶常住距離的概率定義為:

      p(Dis)=ν·Disζ

      (22)

      式中:Dis表示活動舉辦地與用戶常住地之間的距離,ν、ζ為冪律分布函數(shù)的參數(shù)。對式(22)取對數(shù)來估算參數(shù)ν、ζ的值:

      logp(Dis)=logν+ζlog(Dis)

      (23)

      (24)

      式中:Dis(gi,gaj)表示地理位置gi、gaj間的距離,那么用戶ui基于地理位置參加社交活動aj的概率為:

      (25)

      2 實(shí)驗(yàn)數(shù)據(jù)與參數(shù)設(shè)置

      2.1 實(shí)驗(yàn)數(shù)據(jù)及評價標(biāo)準(zhǔn)

      為了獲得較大的數(shù)據(jù)量,本文選取一線城市北京和上海作為社交活動舉辦地,社交數(shù)據(jù)采集豆瓣同城在2017年1月1日-2018年12月31日期間舉辦的所有社交活動,主要采集的信息為:用戶信息(用戶名、用戶ID、用戶的興趣、用戶參加過的所有社交活動、用戶所在的位置等),社交活動信息(社交活動類別、社交活動的內(nèi)容,社交活動召集者、社交活動舉辦地、社交活動ID等)。數(shù)據(jù)統(tǒng)計(jì)如表1所示。

      表1 數(shù)據(jù)統(tǒng)計(jì)明細(xì)

      仿真實(shí)驗(yàn)將Top-N推薦算法推薦結(jié)果,采用Precision@N和Recall@N兩個評價指標(biāo)評估各算法推薦的性能:

      (26)

      (27)

      式中:U表示用戶集合,Reui,N、Tui分別表示利用各算法按照Top-N推薦給用戶ui的社交活動以及用戶ui在測試集中所參與的活動集合,|*|為計(jì)算集合大小,這里設(shè)置N=1,3,5,7,10,本文默認(rèn)N=5。

      2.2 參數(shù)設(shè)置

      在LDA文件主題模型、召集者影響力概率矩陣分解模型中需要對參數(shù)進(jìn)行優(yōu)化設(shè)置。各模塊參數(shù)設(shè)置如下:

      (1) LDA文件主題模型參數(shù)設(shè)置。實(shí)驗(yàn)采用自然語言處理框架Gensim實(shí)現(xiàn)LDA文件主題模型,在模型中設(shè)LDA分布函數(shù)參數(shù)γ=50/Nk,δ=0.01,為了獲得隱含主題s的最佳個數(shù)Nk,利用豆瓣同城北京和上海數(shù)據(jù)集測試LDA在不同的Nk下Precision@5和Recall@5,結(jié)果如圖1所示。

      圖1 不同隱含主題個數(shù)下Top-5結(jié)果

      可以看出:在豆瓣同城北京數(shù)據(jù)集上,Precision@5和Recall@5隨著隱含主題個數(shù)的增大而增大,在Nk≤70階段,推薦準(zhǔn)確度增加幅度較大,在70

      圖2 不同隱式特征矩陣維度下Top-5結(jié)果

      可以看出,在基于影響力的概率矩陣分解模型中,隨著隱式特征矩陣維度B值的增大,Top-5推薦評價指標(biāo)Precision@5和Recall@5波動變化。在豆瓣同城北京數(shù)據(jù)集上,隨著維度B值的增大,推薦評價指標(biāo)Precision@5和Recall@5值在振蕩減?。辉诙拱晖巧虾?shù)據(jù)集上,在10≤B≤80階段,隨著維度B值的增大,推薦評價指標(biāo)Precision@5和Recall@5值在振蕩增大,在80

      3 仿真實(shí)驗(yàn)與對比分析

      為驗(yàn)證本文所提算法的性能,將本文算法與文獻(xiàn)[8,19]進(jìn)行社交活動推薦效果對比分析。文獻(xiàn)[8]利用興趣度計(jì)算相似用戶,借助用戶歷史地點(diǎn)簽到記錄獲取位置偏好信息,融合兩者提出了一種推薦算法;文獻(xiàn)[19]利用相似關(guān)系、興趣偏好建立一個社交活動參與模型,利用依靠移動社交媒體,如射頻識別(RFID)、藍(lán)牙設(shè)備等建立社交活動臨近模型,然后將兩者融合以推導(dǎo)用戶的潛在偏好和潛在的社交關(guān)系。硬件環(huán)境為Intel(R) Core(TM) i7-7700U@3.6 GHz,RAM:8 GB。軟件環(huán)境為:Windows 7操作系統(tǒng),使用Python編程實(shí)現(xiàn)。利用網(wǎng)格搜索在豆瓣同城北京和豆瓣同城上海數(shù)據(jù)集上多次實(shí)驗(yàn)得到參數(shù)α、β的最優(yōu)設(shè)置。在豆瓣同城北京數(shù)據(jù)集上β=0.3,α=0.6,在豆瓣同城上海數(shù)據(jù)集上β=0.35,α=0.45,其他參數(shù)按照2.2節(jié)進(jìn)行設(shè)置。為了驗(yàn)證本文個性推薦算法的優(yōu)越性,從兩個層面進(jìn)行對比:一是將本文融合多因素推薦算法與單因素推薦算法進(jìn)行推薦效果對比;二是將本文算法與同類推薦算法進(jìn)行推薦效果對比。

      3.1 推薦效果對比

      本文算法綜合用戶對活動興趣度、召集者影響力及地理位置偏好等三方面的因素進(jìn)行個性化推薦。為了對比綜合后的推薦效果,這里將三種單因素推薦算法與本文算法在兩個數(shù)據(jù)集上進(jìn)行Top-N(N=1,3,5,7,10)推薦評價指標(biāo)對比。設(shè)基于用戶對活動興趣度的推薦算法為UIA,基于召集者影響力的推薦算法為CI,基于地理位置偏好的推薦算法為GLP,推薦效果如圖3所示。

      圖3 各算法Top-N推薦評價指標(biāo)對比

      如圖3所示,通過本文算法與其他三種算法在Top-N(N=1,3,5,7,10)下的推薦評價指標(biāo)對比可以看出,在豆瓣同城北京和上海數(shù)據(jù)集上,三個單因素個性推薦算法的推薦效果是有差異的。在北京數(shù)據(jù)集上UIA算法效果優(yōu)于其他兩個單因素推薦算法;而在上海數(shù)據(jù)集上CI效果優(yōu)于UIA和GLP兩個單因素推薦算法。但總體上看本文算法在綜合用戶對活動興趣度、召集者影響力及地理位置偏好等三方面的因素后,推薦效果遠(yuǎn)遠(yuǎn)好于三種單因素推薦算法。在準(zhǔn)確率上,本文推薦算法相較于三個單因素個性推薦算法至少提高了36.7%;在召回率上,本文推薦算法相較于三個單因素個性推薦算法至少提高了35.9%。

      3.2 同類推薦效果對比

      將三種算法對已有用戶社交活動的推薦結(jié)果進(jìn)行對比分析,結(jié)果如圖4所示。

      圖4 各算法Top-N推薦評價指標(biāo)對比

      可以看出,本文提出的個性化推薦算法在不同N值下的推薦指標(biāo)明顯好于其他兩種推薦算法,說明本算法在綜合用戶興趣度、召集者影響力和地理位置信息后能夠取得較好的推薦結(jié)果。圖4(a)和圖4(b)為各算法在豆瓣同城北京數(shù)據(jù)集上的推薦結(jié)果,在Top-N(N=1,3,5,7,10)的推薦中,本文算法相較于文獻(xiàn)[8]和文獻(xiàn)[19]的準(zhǔn)確率至少提升了11.42%和18.18%,召回率至少提升了約14.71%和23.64%;圖4(c)和圖4(d)為各算法在豆瓣同城上海數(shù)據(jù)集上的推薦結(jié)果,本文算法相較于文獻(xiàn)[8]和文獻(xiàn)[19]的準(zhǔn)確率至少提升了8.77%和19.23%,召回率至少提升了約8.57%和12.52%。

      4 結(jié) 語

      本文綜合用戶對活動興趣度、活動召集者影響力以及活動舉辦地點(diǎn)偏好等三方面因素,采用不同權(quán)值配比綜合形成最終的社交活動個性推薦模型。對比實(shí)驗(yàn)表明,本模型不論與三個單模塊個性推薦模型還是與其他兩個同類網(wǎng)絡(luò)社交活動推薦模型相比準(zhǔn)確率和 召回率都有一定的提高。推薦精度的提高可能要增加 時間和空間消耗,將本文模型并行化處理以降低時間 復(fù)雜度是后續(xù)研究的重點(diǎn)方向。

      猜你喜歡
      社交活動社交文獻(xiàn)
      社交之城
      英語世界(2023年6期)2023-06-30 06:28:28
      社交新氣象
      睿士(2023年3期)2023-03-22 08:35:38
      社交牛人癥該怎么治
      意林彩版(2022年2期)2022-05-03 10:25:08
      Hostile takeovers in China and Japan
      速讀·下旬(2021年11期)2021-10-12 01:10:43
      社交距離
      Cultural and Religious Context of the Two Ancient Egyptian Stelae An Opening Paragraph
      大東方(2019年12期)2019-10-20 13:12:49
      試探網(wǎng)絡(luò)流行語在大學(xué)生社交活動中的語用價值
      你回避社交,真不是因?yàn)閮?nèi)向
      文苑(2018年17期)2018-11-09 01:29:28
      Themes of Langston Hughes’“Salvation”
      西江文藝(2017年12期)2017-12-31 00:00:00
      The Role and Significant of Professional Ethics in Accounting and Auditing
      商情(2017年1期)2017-03-22 16:56:36
      九寨沟县| 龙口市| 昌平区| 伊吾县| 衢州市| 庄河市| 都匀市| 萨迦县| 察雅县| 高安市| 连州市| 桂平市| 江门市| 东阿县| 普宁市| 德江县| 张家界市| 商河县| 佛教| 榆中县| 大新县| 马山县| 加查县| 涪陵区| 平陆县| 泰安市| 上饶市| 阳西县| 米易县| 隆林| 桐城市| 丘北县| 新营市| 通渭县| 辽阳县| 南陵县| 澄迈县| 台南县| 屏南县| 田阳县| 涞水县|