• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      融合用戶-項(xiàng)目的鄰居實(shí)體表示推薦方法

      2022-11-07 10:12:16季德強(qiáng)王海榮李明亮鐘維幸
      中文信息學(xué)報(bào) 2022年9期
      關(guān)鍵詞:鄰域圖譜實(shí)體

      季德強(qiáng),王海榮,李明亮,鐘維幸

      (北方民族大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)院,寧夏 銀川 750021)

      0 引言

      大數(shù)據(jù)背景下,為幫助用戶從海量數(shù)據(jù)中快速、準(zhǔn)確地獲取感興趣的信息,推薦算法發(fā)揮著重要的作用。Rendle 等人[1-2]最早使用矩陣分解方法(Bayesian Personalized Ranking from Implicit Feedback,BPR)和因子分解機(jī)方法(Factorization Machines with libFM,LibFM)進(jìn)行推薦實(shí)驗(yàn),BPR利用用戶和項(xiàng)目的交互學(xué)習(xí)向量表示;LibFM 使用基于推薦預(yù)測(cè)分量的貝葉斯排序模型,實(shí)現(xiàn)了三種數(shù)學(xué)算法與推薦的結(jié)合,證明了模型的性能和可行性。He等人[3]提出了一種新型神經(jīng)因子分解機(jī)模型(Neural Factorization Machines for Sparse Predictive Analytics,NFM),將用戶歷史與項(xiàng)目分解為用戶-項(xiàng)目交互對(duì),并利用神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)點(diǎn)擊率。Cheng等人[4]將傳統(tǒng)的寬度線性通道與深度非線性通道結(jié)合成一種深度和寬度網(wǎng)絡(luò)推薦模型(Wide&Deep Learning for Recommender Systems,Wide&Deep),使模型同時(shí)擁有記憶和泛化能力,并在實(shí)際應(yīng)用場(chǎng)景Google Play上進(jìn)行了驗(yàn)證。

      上述基于矩陣分解或深度學(xué)習(xí)網(wǎng)絡(luò)的推薦方法存在數(shù)據(jù)稀疏和冷啟動(dòng)問(wèn)題,而將知識(shí)圖譜作為輔助信息的推薦方法可以很好地避免此類(lèi)問(wèn)題。因此,基于知識(shí)圖譜的路徑、嵌入、混合推薦算法研究受到廣泛關(guān)注。Yu等人[5]提出了基于異構(gòu)網(wǎng)絡(luò)的個(gè)性化元路徑推薦方法(Personalized Entity Recommendation:A Heterogeneous Information Network Approach,PER),在異構(gòu)信息網(wǎng)絡(luò)中提取元路徑特征來(lái)表示用戶和項(xiàng)目之間的連通性,推薦結(jié)果可由原始項(xiàng)目沿元路徑查找,推薦具有語(yǔ)義可解釋性。Ma等人[6]構(gòu)建了聯(lián)合優(yōu)化的可解釋性推薦模型(Jointly Learning Explainable Rules for Recommen-Dation with Knowledge Graph,RuleRec),根據(jù)路徑傳播方法來(lái)挖掘項(xiàng)目之間的關(guān)聯(lián)規(guī)則。Zhang 等人[7]提出的協(xié)同知識(shí)庫(kù)嵌入模型(Collaborative Knowledge Base Embedding for Recommender Systems,CKE),在知識(shí)圖譜中融合協(xié)同過(guò)濾方法提取結(jié)構(gòu)性知識(shí)、文本知識(shí)和視覺(jué)知識(shí)豐富用戶表示。Wang等人[8-9]設(shè)計(jì)了嵌入情感的簽名異構(gòu)信息網(wǎng)絡(luò)模型(Signed Heterogeneous Information Network Embedding for Sentiment Link Prediction,SHINE)和深度感知網(wǎng)絡(luò)模型(Deep Knowledgeaware Network for News Recommendation,DKN),SHINE可在異構(gòu)網(wǎng)絡(luò)中提取用戶的潛在表示以挖掘隱藏的用戶興趣;DKN 使用多通道單詞與實(shí)體對(duì)齊的卷積神經(jīng)網(wǎng)絡(luò)(KCNN),結(jié)合實(shí)體嵌入和單詞嵌入擴(kuò)展用戶表示?;旌贤扑]模型中實(shí)體傳播模型[10](Propagating User Preferences on the Knowledge Graph for Recommender systems,RippleNet)通過(guò)匯集用戶歷史實(shí)體在圖譜傳播的鄰域?qū)嶓w擴(kuò)展實(shí)體集,疊加形成用戶相對(duì)于候選項(xiàng)的偏好分布。基于標(biāo)簽傳播算法的圖神經(jīng)網(wǎng)絡(luò)推薦模型[11](Knowledge-aware Graph Neural Networks with Label Smoothness Regularization for Recommender Systems,KGNN-LS)結(jié)合圖神經(jīng)網(wǎng)絡(luò)和知識(shí)圖譜提出標(biāo)簽傳播算法,探索用戶和項(xiàng)目的關(guān)系,挖掘用戶的細(xì)粒度興趣。圖注意力網(wǎng)絡(luò)推薦模型[12](Knowledge Graph Attention Network for Recommendation,KGAT)將用戶二部圖與知識(shí)圖譜連接,通過(guò)圖卷積網(wǎng)絡(luò)(Graph Convolutional Network,GCN)分別聚合用戶、項(xiàng)目嵌入,并挖掘用戶和項(xiàng)目的關(guān)系。基于負(fù)采樣的知識(shí)圖譜推薦模型[13](Reinforced Negative Sampling Over Knowledge Graph for Recommendation,KGPolicy)首次將負(fù)采樣模型與知識(shí)圖譜融合,利用知識(shí)圖譜挖掘負(fù)樣本。推薦模塊僅用矩陣分解方法就實(shí)現(xiàn)了推薦性能的大幅提升。

      綜上可知,傳統(tǒng)的協(xié)同過(guò)濾和基于深度學(xué)習(xí)的推薦方法存在數(shù)據(jù)稀疏和冷啟動(dòng)問(wèn)題,基于知識(shí)圖譜的推薦方法雖然在一定程度上可以解決此類(lèi)問(wèn)題,但多數(shù)采用挖掘路徑和單一的用戶或項(xiàng)目表示方法,特征嵌入表示不能準(zhǔn)確擬合用戶興趣,導(dǎo)致模型的次優(yōu)表示。只有同時(shí)針對(duì)用戶和候選項(xiàng)表示,并探索實(shí)體間的關(guān)系,才能挖掘出更深層次的用戶興趣。因此,本文使用GCN 方法聚合項(xiàng)目嵌入表示,使用實(shí)體傳播方法擴(kuò)展用戶嵌入表示,通過(guò)注意力機(jī)制關(guān)注用戶和項(xiàng)目的相對(duì)關(guān)系,達(dá)到將用戶興趣放大、項(xiàng)目噪聲減少的目的,進(jìn)而實(shí)現(xiàn)細(xì)粒度推薦。

      1 匯集鄰居實(shí)體的表示推薦方法

      本文方法通過(guò)用戶歷史實(shí)體傳播與候選項(xiàng)實(shí)體聚合圖譜實(shí)體以擴(kuò)充用戶特征空間,在實(shí)現(xiàn)用戶興趣挖掘的同時(shí),防止數(shù)據(jù)稀疏和冷啟動(dòng)問(wèn)題。實(shí)體傳播是將用戶歷史項(xiàng)目映射為知識(shí)圖譜的實(shí)體,利用距離翻譯模型TransR 在知識(shí)圖譜中傳播,擴(kuò)展用戶的嵌入表示;實(shí)體聚合利用GCN 網(wǎng)絡(luò)聚合知識(shí)圖譜中候選項(xiàng)目實(shí)體周?chē)泥従訉?shí)體擴(kuò)展項(xiàng)目嵌入表示。方法模型如圖1所示。

      圖1中,實(shí)體傳播是以用戶u的交互歷史項(xiàng)目作為輸入,將其通過(guò)實(shí)體映射文件映射到知識(shí)圖譜,并作為最初的擴(kuò)展源實(shí)體,源實(shí)體被視為三元組的頭實(shí)體,傳播方式是使用TransR 模型表示頭實(shí)體、關(guān)系和尾實(shí)體。同時(shí),注意力權(quán)重的獲取等價(jià)于尾實(shí)體相對(duì)當(dāng)前用戶的重要性分值,將權(quán)重加權(quán)在尾實(shí)體上,獲得一次用戶傳播實(shí)體集的表示,迭代傳播k次,將每層實(shí)體表示累加得到u的嵌入表示。實(shí)體聚合是將項(xiàng)目v映射為知識(shí)圖譜的實(shí)體并將v視為被聚合對(duì)象,采樣距該項(xiàng)目實(shí)體為k及以內(nèi)的實(shí)體集,每層實(shí)體使用GCN 從最外層向內(nèi)聚合k次,獲得項(xiàng)目嵌入表示。聚合過(guò)程中同樣需要計(jì)算項(xiàng)目與用戶的重要性權(quán)重,并加權(quán)到每個(gè)聚合對(duì)象中。最終,將用戶嵌入表示與項(xiàng)目嵌入表示通過(guò)內(nèi)積運(yùn)算計(jì)算候選項(xiàng)分值。

      圖1 匯集鄰居實(shí)體的表示推薦模型

      匯集鄰居實(shí)體的表示推薦方法包含用戶嵌入表示、候選項(xiàng)嵌入表示與推薦預(yù)測(cè)三個(gè)核心部分。

      1.1 用戶嵌入表示

      給定知識(shí)圖譜G與用戶交互矩陣Y,將Y中正樣本作為G中的源實(shí)體并進(jìn)行實(shí)體傳播。Y與用戶的第k次實(shí)體傳播集表示分別如式(1)、式(2)所示。

      其中,k表示傳播次數(shù),當(dāng)k=0,ε0u={U}時(shí),可以將其看作初始化的用戶點(diǎn)擊歷史項(xiàng)。實(shí)際上,擴(kuò)展實(shí)體集會(huì)隨著k增加呈指數(shù)級(jí)遞增,所以本模型設(shè)計(jì)采用限制采樣鄰居的方式,采樣大小不再是實(shí)體e周?chē)朽従蛹螻(e),而是遵循項(xiàng)目對(duì)用戶重要性由高到低取樣鄰域?qū)嶓w,以得到偏向用戶興趣的傳播實(shí)體集,將每層的采樣鄰域定義為S(e),則S(e)的實(shí)體集和三元組表示如式(3)、式(4)所示。

      其中,h、r、t分別表示三元組的頭實(shí)體、關(guān)系、和尾實(shí)體,最大跳數(shù)H的初始值設(shè)為2。其中注意力機(jī)制針對(duì)的是每個(gè)實(shí)體對(duì)用戶的重要性。每個(gè)三元組分配注意力權(quán)重可表示如式(5)所示。

      其中,Ri和Hi分別表示關(guān)系ri和頭實(shí)體hi的嵌入向量,關(guān)聯(lián)概率Wi表示關(guān)系空間R中測(cè)量的項(xiàng)目v和用戶歷史實(shí)體的相似值。由于項(xiàng)目實(shí)體用不同的關(guān)系測(cè)量可能有不同的相似性,所以計(jì)算權(quán)重需要考慮關(guān)系嵌入矩陣。獲得Wi后,針對(duì)第一次擴(kuò)展集的向量S1u加權(quán),得到用戶的第一層傳播表示,如式(6)所示。

      其中,Ti表示尾實(shí)體ti經(jīng)TransR 映射后的嵌入,具有與R相同的維度。向量U1為u對(duì)項(xiàng)目v的一階特征表示,使用U1繼續(xù)傳播一層,可獲得用戶u的二階特征表示U2,重復(fù)此過(guò)程,獲取S0u擴(kuò)展H次的特征表示U1,U2,…,UH,累計(jì)每一層特征表示得到用戶嵌入表示,如式(7)所示。

      每層特征表示都包含上一層的特征,所以UH包含了之前傳播的所有特征,但是為了防止傳播過(guò)程中信息丟失,最終采用累加每一層Ui計(jì)算u的嵌入表示uv。

      1.2 候選項(xiàng)目嵌入表示

      本文方法將候選項(xiàng)v映射到知識(shí)圖譜中視作被聚合對(duì)象E(v),通過(guò)聚合其一定距離內(nèi)的鄰居實(shí)體信息,以挖掘潛在的高階、高質(zhì)量的用戶偏好。獲取E(v)周?chē)鷎跳實(shí)體集如式(8)所示。

      其中,N(h)表示需要聚合的鄰域?qū)嶓w,與用戶歷史實(shí)體傳播同理,為防止鄰域?qū)嶓w數(shù)目增長(zhǎng)過(guò)快,限制采樣鄰域(見(jiàn)式(3)),將E(v)的采樣鄰域表示為。聚合過(guò)程中的注意力權(quán)重計(jì)算如式(9)所示。

      其中,u和r分別表示用戶和關(guān)系的向量表示。將注意力加權(quán)后,每層鄰域表示如式(10)所示。

      其中,rv,e表示E(v)和周?chē)鷮?shí)體e的關(guān)系,是歸一化后的用戶關(guān)系權(quán)重。具體計(jì)算如式(11)所示。

      項(xiàng)目v周?chē)拿繉余徲驅(qū)嶓w被表示,整體形成一種拓?fù)溧徲蚪Y(jié)構(gòu)。因此,將實(shí)體及鄰域通過(guò)GCN 聚合方法由外向內(nèi)聚合成單個(gè)向量,用來(lái)表示E(v)匯集的k跳鄰域信息。本文主要使用基于Sum 的聚合方法,計(jì)算方法如式(12)所示。

      其中,W、b分別表示權(quán)重和偏差,σ()是ReLU 激活函數(shù),S(v)為候選項(xiàng)的聚合實(shí)體集。

      1.3 推薦預(yù)測(cè)

      實(shí)體傳播后得到用戶嵌入表示uv,實(shí)體聚合后得到候選項(xiàng)嵌入表示vu,推薦分值基于內(nèi)積函數(shù)計(jì)算方法。得分函數(shù)如式(13)所示。

      1.4 模型訓(xùn)練

      該模型的訓(xùn)練過(guò)程如算法1所示。

      算法1

      Algorithm 1 Learning Model Input:interaction matrix Y,knowledge graph G,sampling neighborhood S,number of transmissions H and K,dimension d//輸入數(shù)據(jù)和相關(guān)參數(shù)。Output:F(u,v|Θ,Y,G);//預(yù)測(cè)函數(shù)1:Begin:2:for(u,v)in Y,G do//在Y、G 中采樣正負(fù)樣本和正負(fù)三元組3: {Sku}Hk=1;//用戶u 的第H 層的擴(kuò)展集4: {Uk}Hk=1;//用戶H 層擴(kuò)展集的嵌入表示5: uv ←∑H Uk;//用戶嵌入表示6:while limH→k vu(H)! →vu(H)do//收斂性判斷7: for(u,v)in Y do 8: {ε[i]}Hi=0←Entity_set(v);//聚合域獲取9: eu[0]←e,?e∈ε[0];//項(xiàng)目聚合表示10: for k∈(1,2,...,H)do 11: for e∈ε[k]do 12: euS(e)[k-1]←∑d∈S(e)w~ure,d du[k-1];//鄰域注k=1意力獲取13: eu[k]←agg(euS(e)[k-1],eu[k-1]);//GCN 聚合鄰域?qū)嶓w14: vu←eu[H];//項(xiàng)目嵌入表示15:y^uv=f(uv,vu);//計(jì)算預(yù)測(cè)概率16:Function Entity_Set(v)//鄰域?qū)嶓w獲取函數(shù)17: ε[k]←ε[k+1];18: for k∈(1,2,...,H )do 19: ε[k]←ε[k+1];20: forε∈ε[k+1]do 21: ε[k]∈ε[k]∪S(e);//待聚合實(shí)體集22:return{ε[i]}Hi=0;23:End

      用戶歷史項(xiàng)目在圖譜中傳播,形成用戶嵌入uv(見(jiàn)式(3)~式(7)),候選項(xiàng)在圖譜中聚合形成項(xiàng)目嵌入vu(見(jiàn)式(8)~式(12))。為了提高計(jì)算效率,訓(xùn)練過(guò)程中使用了圖譜負(fù)采樣策略獲取數(shù)據(jù)的負(fù)采樣分布。因此,模型損失函數(shù)如式(14)所示。

      其中,?是交叉熵?fù)p失,N是負(fù)采樣分布,Nu是用戶u的負(fù)樣本數(shù),N和Nu服從均勻分布,λ||F||22是為防止過(guò)擬合的正則化項(xiàng)。

      2 實(shí)驗(yàn)對(duì)比與分析

      為了驗(yàn)證本文提出的方法,在MovieLens-20M、Book-Crossing 和Last-FM 三個(gè)數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)。

      2.1 數(shù)據(jù)集與實(shí)驗(yàn)環(huán)境

      實(shí)驗(yàn)中三種數(shù)據(jù)集的基本統(tǒng)計(jì)如表2所示。

      表2 三種數(shù)據(jù)集的統(tǒng)計(jì)數(shù)據(jù)表 (單位:個(gè))

      數(shù)據(jù)集MovieLens-20M 包含大約100萬(wàn)個(gè)分?jǐn)?shù)在1至5之間的評(píng)分。Book-Crossing包含了其社區(qū)內(nèi)的172 576個(gè)交互。Last-FM 包含1 872個(gè)用戶與3 846個(gè)項(xiàng)目的42 346次交互。由于實(shí)驗(yàn)中需要將交互評(píng)級(jí)轉(zhuǎn)換為隱式表示,所以MovieLens-20M 的評(píng)級(jí)閾值設(shè)置為4;Book-Crossing和Last-FM由于數(shù)據(jù)稀疏,不設(shè)置閾值。閾值處理后的數(shù)據(jù)集構(gòu)成用戶交互矩陣,其中,標(biāo)記為1的條目表示用戶的正評(píng)級(jí),0表示負(fù)評(píng)級(jí)。

      實(shí)驗(yàn)環(huán)境本次實(shí)驗(yàn)基于Linux系統(tǒng),使用Python語(yǔ)言、TensorFlow 框架。所有數(shù)據(jù)集劃分訓(xùn)練集、評(píng)估集和測(cè)試集的比率為6:2:2,平均每個(gè)實(shí)驗(yàn)重復(fù)3次,每次訓(xùn)練20 輪數(shù),統(tǒng)計(jì)平均性能。另外,一些主要的實(shí)驗(yàn)參數(shù)設(shè)置如表3所示。

      表3 模型參數(shù)

      實(shí)體傳播部分設(shè)置圖譜的實(shí)體更新方式(Item_Update_Mode)為累加變換,實(shí)體嵌入權(quán)重(KGE_Weight)設(shè)置為默認(rèn)值0.01;TransR 的嵌入維度(Dim_Rip)必須與GCN 聚合的嵌入維度(Dim)保持一致,以防止用戶嵌入和項(xiàng)目嵌入的維度不匹配問(wèn)題;每個(gè)波紋集大小(N_Memory)的初始設(shè)置為32;實(shí)體傳播的最遠(yuǎn)距離(N_Hop)設(shè)置為2。GCN聚合器設(shè)置的默認(rèn)值是Neighbor聚合方法。另外,項(xiàng)目聚合的最遠(yuǎn)距離(N_Iter)、正則化損失權(quán)重(L2_Weight)、學(xué)習(xí)率(LR)設(shè)置的默認(rèn)值均為不同數(shù)據(jù)集測(cè)試的最佳值。

      2.2 方法驗(yàn)證與結(jié)果分析

      為了驗(yàn)證本文方法的性能,使用指標(biāo)曲線下面積(AUC)和精確率(ACC)來(lái)評(píng)價(jià)模型性能。AUC計(jì)算如式(15)所示。

      其中,rankinsi表示第i個(gè)項(xiàng)目的序號(hào),M和N分別為正、負(fù)樣本的個(gè)數(shù)。ACC 計(jì)算如式(16)所示。

      其中,TP 為真正例,FP 為假正例,TN 為真反例,FN 為假反例,TP+FP+TN+FN 表示所有樣本的數(shù)量。

      為驗(yàn)證本文方法的有效性,與Lib FM、Wide&Deep、PER 等10種模型進(jìn)行了對(duì)比實(shí)驗(yàn),結(jié)果如表4所示。

      表4 實(shí)驗(yàn)結(jié)果對(duì)比分析

      本文模型同表中其他各類(lèi)推薦模型相比,推薦性能顯著提升。經(jīng)分析可得,各類(lèi)模型的平均性能在電影數(shù)據(jù)集中比在書(shū)籍和音樂(lè)數(shù)據(jù)集上更優(yōu),是因?yàn)镸ovie Lens-20M 的數(shù)據(jù)更稠密,用戶特征空間表示更充分。Lib FM 與Wide&Deep分別基于神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)方法,在三個(gè)數(shù)據(jù)集上均表現(xiàn)良好,但是在實(shí)際場(chǎng)景中,此類(lèi)模型的性能會(huì)因?yàn)閿?shù)據(jù)稀疏和冷啟動(dòng)問(wèn)題而迅速降低。CKE 為協(xié)同知識(shí)庫(kù)推薦方法,利用知識(shí)圖譜擴(kuò)充用戶特征,相比傳統(tǒng)協(xié)同方法Lib FM、Wide&Deep 等,性能大幅提升。SHINE與CKE原理類(lèi)似,都是通過(guò)擴(kuò)充特征空間實(shí)現(xiàn)推薦概率預(yù)測(cè)。與本文模型相比,SHINE 與CKE僅擴(kuò)充用戶嵌入表示,沒(méi)有重視用戶和項(xiàng)目關(guān)系的重要性,ACC降低約7%~13%。DKN 在三個(gè)數(shù)據(jù)集中表現(xiàn)最差,因?yàn)镈KN 的主要任務(wù)是提取高質(zhì)量的原始特征,所以在新聞數(shù)據(jù)集中,性能才存在優(yōu)勢(shì)。RippleNet模型的綜合指標(biāo)相比基于嵌入的模型SHINE、CKE、DKN 和基于路徑的模型PER 性能更優(yōu),因?yàn)镽ippleNet屬于混合模型,融合了嵌入和路徑兩類(lèi)推薦方法的優(yōu)點(diǎn)。KGAT 使用GCN 同時(shí)探索了用戶和項(xiàng)目的表示,但是模型訓(xùn)練質(zhì)量較差,AUC 和ACC 分別降低約2%。KGNN-LS將GNN 應(yīng)用于推薦,獨(dú)特的圖嵌入方法可探索每個(gè)項(xiàng)目的交互,在各類(lèi)數(shù)據(jù)集上的性能均較高。KGPolicy首次在知識(shí)圖譜中執(zhí)行負(fù)采樣策略,在Movie Lens-20M 中的ACC超過(guò)此模型,證明了負(fù)信號(hào)對(duì)推薦性能提升的重要性。本文模型的AUC和ACC相比其他所有模型在Movie Lens-20M中提升區(qū)間為0.4%~17.1%、-0.7%~20.9%;在Book-Crossing 中 提 升 區(qū) 間 為0.8% ~13.9%、0.6%~9.6%;在Last-FM 中提升區(qū)間為1.4%~ 15.5%、1.1%~13.4%。相比之下,本文模型在獲取用戶嵌入和項(xiàng)目嵌入時(shí)皆利用注意力機(jī)制,使用戶和項(xiàng)目的特征空間得以擴(kuò)充,用戶興趣得以充分挖掘。實(shí)驗(yàn)數(shù)據(jù)顯示的推薦性能的大幅提升,證明了模型的可行性。

      聚合方法對(duì)模型的影響為了證明本文模型使用的Sum 聚合方式和GCN 聚合各類(lèi)方法對(duì)模型的影響,分別對(duì)Sum 與Neighbor、Concat、Avg 方法進(jìn)行實(shí)驗(yàn)對(duì)比,實(shí)驗(yàn)結(jié)果如表5所示。

      表5 GCN 聚合方法比較

      其中,Method-Sum、Method-Neighbor、Method-Concat和Method-Avg是設(shè)置GCN 聚合器中聚合節(jié)點(diǎn)實(shí)體的四種方法。分析實(shí)驗(yàn)結(jié)果可得,模型使用Sum 聚合在各個(gè)數(shù)據(jù)集中表現(xiàn)最優(yōu),因?yàn)橄啾萅eighbor聚合,Sum 不僅包含鄰域特征,還含有本身實(shí)體的特征,不會(huì)造成信息丟失。相比Avg和Concat方式聚合,Sum 所具有的側(cè)重性計(jì)算特點(diǎn)能間接捕捉用戶的個(gè)性化偏好和知識(shí)圖譜的語(yǔ)義特征,更有利于推薦。

      數(shù)據(jù)稀疏和冷啟動(dòng)對(duì)模型的影響為了驗(yàn)證對(duì)數(shù)據(jù)稀疏和冷啟動(dòng)問(wèn)題的應(yīng)對(duì)能力,選用稠密程度不同的數(shù)據(jù)集MovieLens-1M 和MovieLens-20M做對(duì)比實(shí)驗(yàn),并統(tǒng)計(jì)性能變化。選用Wide&Deep和LibFM 方法對(duì)比,實(shí)驗(yàn)結(jié)果如表6所示。

      表6 MovieLens-1M 與MovieLens-20M 的實(shí)驗(yàn)結(jié)果

      Movie Lens-1M 與Moview Lens-20M 同屬電影數(shù)據(jù)集,Movie Lens-1M 含有6 036個(gè)項(xiàng)目和2 045項(xiàng)目的753 772 次交互;Moview Lens-20M 包含138 159個(gè)用戶與16 954個(gè)項(xiàng)目的13 501 622次交互,明顯MovieLens-20M 的數(shù)據(jù)更為稠密。比較兩個(gè)數(shù)據(jù)集上模型的指標(biāo)不難看出,本文模型在數(shù)據(jù)量降低時(shí),AUC分別下降0.040和0.038,下降幅度相對(duì)其余兩個(gè)模型更小,證明了基于知識(shí)圖譜的推薦模型可以更好地解決數(shù)據(jù)稀疏問(wèn)題。相比協(xié)同過(guò)濾、因式分解機(jī)、深度網(wǎng)絡(luò)等推薦模型,本文模型在數(shù)據(jù)冷啟動(dòng)時(shí),可以利用知識(shí)圖譜提供的額外實(shí)體推薦候選項(xiàng),不會(huì)因?yàn)槔鋯?dòng)而導(dǎo)致新用戶推薦內(nèi)容為空的問(wèn)題。

      另外,實(shí)驗(yàn)還探索了聚合和傳播模塊的應(yīng)用位置對(duì)模型的影響。將傳播模塊用于項(xiàng)目嵌入表示和將聚合模塊用于用戶嵌入表示,實(shí)驗(yàn)結(jié)果說(shuō)明兩者偏差不大,且本文模型的性能更優(yōu)。

      3 總結(jié)

      本文提出的融合用戶-項(xiàng)目的鄰居實(shí)體表示推薦方法,結(jié)合實(shí)體傳播與聚合獲取用戶和候選項(xiàng)嵌入表示,其注意力機(jī)制可以針對(duì)用戶和項(xiàng)目關(guān)系,選擇性地匯集圖譜中目標(biāo)實(shí)體的領(lǐng)域信息,挖掘更深層的用戶興趣。且本文模型采用負(fù)采樣策略,過(guò)濾了噪聲數(shù)據(jù),為模型訓(xùn)練提供優(yōu)質(zhì)的負(fù)信號(hào)。經(jīng)驗(yàn)證,本文模型相比傳統(tǒng)模型性能提升顯著。

      在今后的工作中,首先,將聚焦于捕獲每一個(gè)用戶和項(xiàng)目之間的細(xì)粒度關(guān)系,獲取用戶的高階偏好信息。其次,采用基于知識(shí)圖譜的負(fù)采樣策略,選用GNN 網(wǎng)絡(luò)提取特征,提升推薦性能。

      猜你喜歡
      鄰域圖譜實(shí)體
      繪一張成長(zhǎng)圖譜
      稀疏圖平方圖的染色數(shù)上界
      前海自貿(mào)區(qū):金融服務(wù)實(shí)體
      基于鄰域競(jìng)賽的多目標(biāo)優(yōu)化算法
      實(shí)體的可感部分與實(shí)體——兼論亞里士多德分析實(shí)體的兩種模式
      補(bǔ)腎強(qiáng)身片UPLC指紋圖譜
      中成藥(2017年3期)2017-05-17 06:09:01
      振興實(shí)體經(jīng)濟(jì)地方如何“釘釘子”
      兩會(huì)進(jìn)行時(shí):緊扣實(shí)體經(jīng)濟(jì)“釘釘子”
      關(guān)于-型鄰域空間
      主動(dòng)對(duì)接你思維的知識(shí)圖譜
      壶关县| 中卫市| 西安市| 彩票| 台北市| 郴州市| 鄢陵县| 革吉县| 沁水县| 临沭县| 富宁县| 揭阳市| 公主岭市| 富宁县| 三原县| 拜城县| 惠水县| 郓城县| 普陀区| 成安县| 三都| 安国市| 天台县| 长岭县| 桃园市| 阜康市| 巴中市| 东乡县| 沧州市| 林周县| 武胜县| 东辽县| 黄石市| 双柏县| 嫩江县| 遂宁市| 平阴县| 大宁县| 和平县| 陆河县| 安宁市|