• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于知識(shí)圖譜的雙端鄰居信息融合推薦算法

      2022-06-18 02:09:16王寶亮潘文采
      計(jì)算機(jī)與生活 2022年6期
      關(guān)鍵詞:圖譜物品向量

      王寶亮,潘文采

      1.天津大學(xué) 信息與網(wǎng)絡(luò)中心,天津 300072

      2.天津大學(xué) 電氣自動(dòng)化與信息工程學(xué)院,天津 300072

      當(dāng)今社會(huì),隨著網(wǎng)絡(luò)的興起,用戶的選擇信息越來越多,為了解決用戶的個(gè)性化推薦問題,推薦系統(tǒng)應(yīng)運(yùn)而生。其中,協(xié)同過濾算法通過分析相似用戶的行為進(jìn)行推薦,取得了較大的成功。然而,傳統(tǒng)的協(xié)同過濾算法存在冷啟動(dòng)和用戶交互信息稀疏的問題,因此研究者通過加入輔助信息例如社交網(wǎng)絡(luò)、物品的屬性信息等來緩解該問題。由于知識(shí)圖譜包含豐富的物品信息,也被應(yīng)用于推薦算法中。

      將知識(shí)圖譜應(yīng)用于推薦算法已成為一個(gè)熱點(diǎn),例如文獻(xiàn)[7]將知識(shí)圖譜應(yīng)用于新聞推薦系統(tǒng),將上下文嵌入、知識(shí)圖譜實(shí)體嵌入和語句嵌入送入CNN網(wǎng)絡(luò),從而在語義層次和知識(shí)圖譜層次學(xué)習(xí)嵌入表示。文獻(xiàn)[8-9]將知識(shí)圖譜網(wǎng)絡(luò)中與用戶交互的物品的鄰居信息聚合到用戶上,生成信息豐富的嵌入表示。文獻(xiàn)[10-11]將物品的鄰居信息聚合到物品上生成物品嵌入表示。

      受上述算法啟發(fā),本文提出基于知識(shí)圖譜的用戶物品鄰居信息融合推薦算法,即將用戶鄰居和物品鄰居信息分別融合,從而產(chǎn)生用戶和物品信息均豐富的嵌入表示。在聚合用戶信息時(shí),首先根據(jù)用戶的點(diǎn)擊記錄得到與用戶交互的物品,如圖1 所示的左邊菱形節(jié)點(diǎn)。然后根據(jù)物品在知識(shí)圖譜網(wǎng)絡(luò)的位置得到一階鄰居。同理,向外傳播,得到高階鄰居。然后利用節(jié)點(diǎn)和節(jié)點(diǎn)之間的關(guān)系豐富用戶的向量表示。在聚合物品信息時(shí),由于物品通常是知識(shí)圖譜的某個(gè)實(shí)體節(jié)點(diǎn),如圖1 所示右邊的菱形節(jié)點(diǎn),直接得到物品的一階和高階鄰居,根據(jù)KGCN(knowledge graph convolutional networks)模型(一種利用圖卷機(jī)神經(jīng)網(wǎng)絡(luò)和知識(shí)圖譜的推薦模型)聚合信息生成豐富的物品嵌入表示。最后將得到的用戶和物品的向量嵌入表示送入預(yù)測(cè)環(huán)節(jié),得到用戶和物品的交互概率。在公開的兩個(gè)數(shù)據(jù)集上進(jìn)行對(duì)比實(shí)驗(yàn),驗(yàn)證了本文算法的有效性。

      圖1 總體框架Fig.1 Overall framework

      1 本文算法

      1.1 總體框架

      本文的總體思路如圖1 所示,其中,正方形節(jié)點(diǎn)表示用戶節(jié)點(diǎn),圓形和菱形節(jié)點(diǎn)表示知識(shí)圖譜中的實(shí)體節(jié)點(diǎn),左邊的菱形節(jié)點(diǎn)表示與用戶有交互關(guān)系的物品節(jié)點(diǎn)。

      1.2 用戶節(jié)點(diǎn)鄰居信息融合

      給定用戶物品交互矩陣和知識(shí)圖譜用戶的跳實(shí)體集合定義如下:

      用戶的跳的鄰居集合如下:

      隨著跳數(shù)的增加,鄰居集合的數(shù)量會(huì)變得十分龐大,因而不會(huì)選得很大,當(dāng)很大時(shí),帶來的噪音會(huì)比有效信息更多。同時(shí),為了降低集合的數(shù)量,每一跳采樣固定數(shù)量大小的鄰居。

      其中,R∈R,h∈R,分別表示關(guān)系R和實(shí)體head h的嵌入表示,考慮到用戶的點(diǎn)擊歷史是用戶的直接興趣表達(dá),因而將加入權(quán)重表達(dá)式。

      p可以表示在R空間下用戶對(duì)于h和關(guān)系R的喜好程度,也可以表征每個(gè)鄰居節(jié)點(diǎn)和用戶的點(diǎn)擊歷史物品的相似度。

      其中,t∈R,是tail t的嵌入向量的表示。

      最終的用戶的向量表示為:

      然而,對(duì)于[],隨著的增長,離用戶的交互歷史越來越遠(yuǎn),包含的噪音信息會(huì)更多,因此不同的路徑對(duì)模型的影響是不同的,式(5)無法解決該問題,選擇文獻(xiàn)[12]提出的累加操作,如式(6)所示。

      圖2 用戶節(jié)點(diǎn)信息融合Fig.2 User node information aggregation

      其中,是參數(shù),用來控制每一跳輸出的權(quán)重。該操作能夠區(qū)分不同跳輸出的重要性,其偏導(dǎo)如式(7)所示。

      通過控制的大小可以調(diào)整每一跳輸出的比重。

      1.3 物品節(jié)點(diǎn)鄰居信息聚合

      物品鄰居節(jié)點(diǎn)的聚合采用KGCN模型,其基本框架如圖3 所示。

      圖3 KGCN 模型Fig.3 KGCN model

      KGCN 模型在知識(shí)圖譜中聚合實(shí)體特征,從而發(fā)掘物品的潛在關(guān)聯(lián)。涉及的概念如下:

      ()的規(guī)模很大,選擇隨機(jī)采樣固定數(shù)量鄰居的方式降低計(jì)算復(fù)雜度。

      其中,表示采樣的數(shù)目。

      根據(jù)文獻(xiàn)[10]實(shí)驗(yàn)結(jié)果,式(12)的聚合效果在三種聚合方式最好,本文根據(jù)文獻(xiàn)[13]提出的聚合方式,如式(15)所示。

      其中,⊙表示element-wise 操作。

      根據(jù)式(9)~(11)、(15)~(17),如圖3 所示,不斷從外向內(nèi)聚合,將節(jié)點(diǎn)的信息聚合到物品節(jié)點(diǎn)。最終形成物品節(jié)點(diǎn)的向量表示v

      1.4 預(yù)測(cè)部分

      通過1.2 和1.3 節(jié),得到了用戶和物品的最終向量表示和v,其中用戶向量包含了用戶的歷史記錄信息和其在知識(shí)圖譜中的鄰居信息。物品向量v包含了物品本身和其在知識(shí)圖譜的鄰居信息以及用戶對(duì)鄰居信息的喜好程度。預(yù)測(cè)函數(shù)如式(18)所示。

      為了比較對(duì)向量的不同操作對(duì)最終結(jié)果的影響,預(yù)測(cè)函數(shù)公式可替換為式(19)。

      其中,∈R。

      損失函數(shù)如式(20)所示。

      1.5 算法流程

      雙端鄰居信息融合

      2 實(shí)驗(yàn)部分

      2.1 數(shù)據(jù)集

      本文采用的數(shù)據(jù)集是Book-Crossing(http://www2.informatik.uni-freiburg.de/~cziegler/BX/)和Last.FM(https://grouplens.org/datasets/hetrec-2011/)。其中Book-Crossing數(shù)據(jù)集來自Book-Crossing 市場(chǎng),包含100 萬個(gè)書籍評(píng)分信息。Last.FM 數(shù)據(jù)集來自Last.FM 在線音樂系統(tǒng),包含2 000 個(gè)用戶的評(píng)分信息。對(duì)應(yīng)于數(shù)據(jù)集的知識(shí)圖譜數(shù)據(jù)從KGCN公開的預(yù)處理知識(shí)圖譜獲得(https://github.com/hwwang55/KGCN),該知識(shí)圖譜信息來自Microsoft Satori。兩個(gè)數(shù)據(jù)集經(jīng)過預(yù)處理后的統(tǒng)計(jì)數(shù)據(jù)如表1 所示。

      表1 兩個(gè)數(shù)據(jù)集的統(tǒng)計(jì)數(shù)據(jù)Table 1 Statistics for two datasets

      2.2 實(shí)驗(yàn)設(shè)置和參數(shù)

      本文算法將與經(jīng)典的推薦算法LibFM、Wide&Deep和基于知識(shí)圖譜的推薦算法RippleNet、KGCN、KGNN-LS進(jìn)行比較。通過評(píng)價(jià)指標(biāo)ACC(accuracy)和AUC(area under curve)來比較各個(gè)算法的性能,它們反映了算法在CTR(click-through rate)預(yù)測(cè)時(shí)的性能。

      本實(shí)驗(yàn)在Windows10 環(huán)境下使用python-3.6.5 進(jìn)行開發(fā),使用的第三方庫及版本:tensorFlow-1.12.0、numpy-1.15.4、sklearn-0.20.0。對(duì)于每個(gè)數(shù)據(jù)集,按照6∶2∶2 的比例隨機(jī)構(gòu)成訓(xùn)練集、驗(yàn)證集和測(cè)試集。其他相關(guān)的參數(shù)如表2 所示。

      表2 參數(shù)的設(shè)置Table 2 Parameter setting

      表2 中,-表示用戶端,-表示物品端。表示鄰居采樣數(shù)量,表示跳數(shù),表示嵌入向量的維度,表示正則化參數(shù),表示訓(xùn)練速率,表示式(6)中的參數(shù),調(diào)整每一跳的比重。

      KGCN(https://github.com/hwwang55/KGCN)、KGNN-LS(https://github.com/hwwang55/KGNN-LS)的參數(shù)設(shè)置按照文獻(xiàn)[10-11]的設(shè)定進(jìn)行設(shè)置。對(duì)于RippleNet(https://github.com/hwwang55/RippleNet),其在Last.FM數(shù)據(jù)集上的設(shè)置為=16,=3,=10,=0.02,=0.005;在Book-Crossing 數(shù)據(jù)集的設(shè)置為=4,=3,=10,=0.01,=0.001。

      2.3 對(duì)比實(shí)驗(yàn)結(jié)果

      各個(gè)模型的CTR 預(yù)測(cè)結(jié)果如表3 所示。

      表3 CTR 預(yù)測(cè)中AUC 和ACC 的結(jié)果Table 3 Results of AUC and ACC in CTR prediction

      從表3 的結(jié)果可以看出,相較于經(jīng)典的推薦算法LibFM、Wide&Deep 以及在知識(shí)圖譜中僅聚合用戶鄰居信息的RippleNet算法和僅聚合物品鄰居的KGCN、KGNN-LS 算法,本文算法在兩個(gè)數(shù)據(jù)集的性能都有所提升。在Book-Crossing 數(shù)據(jù)集上,相較于最優(yōu)基線,AUC和ACC提升1.72%和4.24%;在Last.FM 數(shù)據(jù)集上,AUC和ACC提升1.07%和1.14%。其中模型-表示本文算法僅聚合用戶鄰居信息的結(jié)果,模型-表示本文算法僅聚合物品鄰居信息的結(jié)果。通過對(duì)比可以看出聚合兩者的鄰居信息能夠提升算法的有效性。同時(shí)可以發(fā)現(xiàn),模型-的算法性能下降較為明顯,主要原因是本文的物品鄰居采樣數(shù)太少且向外聚合的深度也僅為1 跳,因此得到的信息非常少,從而導(dǎo)致性能效果下降更多,這也從側(cè)面說明鄰居信息對(duì)算法的性能有較大的影響。

      表3 最后一行表示用式(19)作為預(yù)測(cè)函數(shù)的結(jié)果??梢钥闯?,式(19)引入額外的無關(guān)參數(shù)會(huì)導(dǎo)致大部分結(jié)果變差,因此需要恰當(dāng)選擇合適的預(yù)測(cè)函數(shù),才能提升模型性能。

      2.4 參數(shù)敏感性分析

      在聚合用戶鄰居信息時(shí),得到每一跳的結(jié)果后,通過值來調(diào)整每一跳累和時(shí)的比重,當(dāng)值趨于0時(shí),會(huì)選擇最重要的一跳信息作為最終用戶向量表示,當(dāng)值趨于無窮時(shí),累和方式類似于對(duì)多跳輸出取平均值作為最終用戶向量表示。由表4 結(jié)果可以看出,對(duì)于Book-Crossing 數(shù)據(jù)集和Last.FM 數(shù)據(jù)集,值取小值時(shí),效果要好于大值。這是由于取小值時(shí),會(huì)更傾向于取重要一跳的信息作為最終用戶向量表示。表4 中最后一行表示直接累加所有跳的輸出的結(jié)果,可以看出,利用值調(diào)整能夠提升算法的有效性。

      表4 參數(shù)γ 對(duì)AUC 值的影響Table 4 Influence of parameter γ on AUC value

      表5 和表6 表示采樣鄰居數(shù)目對(duì)算法的影響??梢钥闯?,當(dāng)值取過低和過高時(shí),模型的性能都會(huì)受到影響。過高時(shí),會(huì)帶來更多的噪音,過低時(shí)無法聚合更多有效的信息。

      表5 用戶端每跳采樣值K-u 對(duì)AUC 值的影響Table 5 Impact of K-u sampled value per hop on AUC value at user end

      表6 物品端每跳采樣值K-i 對(duì)ACC 值的影響Table 6 Impact of K-i sampled value per hop on ACC value at item end

      表7和表8 表示聚合深度對(duì)算法的影響??梢钥闯霰疚乃惴▽?duì)聚合深度的敏感性更強(qiáng),特別是對(duì)于的性能急劇惡化,說明當(dāng)跳數(shù)增加時(shí),會(huì)引入更多的不必要信息,這也符合現(xiàn)實(shí)情況。知識(shí)圖譜中的1 跳鄰居信息是對(duì)實(shí)體的更為直接的描述,有很強(qiáng)的相關(guān)性,當(dāng)跳數(shù)增加時(shí),其有效的描述信息會(huì)少很多。

      表7 用戶端聚合跳數(shù)H-u 對(duì)AUC 值的影響Table 7 Impact of user end aggregation hops H-u on AUC value

      表8 物品端聚合跳數(shù)H-i 對(duì)ACC 值的影響Table 8 Impact of item end aggregation hops H-i on ACC value

      表9 表示向量維度對(duì)算法性能的影響。合適的向量維度能夠編碼有效的信息而不會(huì)引入更多的噪音,也能緩解算法的過擬合現(xiàn)象,同時(shí)也會(huì)減小算法的訓(xùn)練時(shí)間。

      表9 向量維度值d 對(duì)AUC 值的影響Table 9 Influence of vector dimension value d on AUC value

      3 結(jié)束語

      針對(duì)推薦系統(tǒng)存在的冷啟動(dòng)問題,本文提出了一種基于知識(shí)圖譜的融合用戶鄰居信息和物品鄰居信息的推薦算法。該算法將知識(shí)圖譜作為輔助信息,算法首先聚合用戶的鄰居信息,生成有個(gè)性化信息的用戶向量,然后將用戶向量送入KGCN 模型聚合物品的鄰居信息,生成有個(gè)性化的物品向量。最后將向量送入預(yù)測(cè)階段。在數(shù)據(jù)集Book-Crossing 和Last.FM 上的實(shí)驗(yàn)結(jié)果證明了本文算法的有效性,提高了推薦結(jié)果的準(zhǔn)確性,同時(shí)增加了推薦算法的可解釋性。下一步將針對(duì)知識(shí)圖譜中存在的不相關(guān)實(shí)體問題做進(jìn)一步探究。

      猜你喜歡
      圖譜物品向量
      稱物品
      向量的分解
      聚焦“向量與三角”創(chuàng)新題
      “雙十一”,你搶到了想要的物品嗎?
      繪一張成長圖譜
      誰動(dòng)了凡·高的物品
      補(bǔ)腎強(qiáng)身片UPLC指紋圖譜
      中成藥(2017年3期)2017-05-17 06:09:01
      主動(dòng)對(duì)接你思維的知識(shí)圖譜
      向量垂直在解析幾何中的應(yīng)用
      向量五種“變身” 玩轉(zhuǎn)圓錐曲線
      梁平县| 明光市| 岗巴县| 黑山县| 娄底市| 晋江市| 潢川县| 黎川县| 克东县| 无极县| 神木县| 宜昌市| 商都县| 呈贡县| 建宁县| 黔南| 宁武县| 甘肃省| 富锦市| 宾川县| 瑞金市| 高雄县| 平邑县| 武威市| 东台市| 保山市| 梨树县| 新乡县| 贵南县| 武安市| 武宁县| 兴安县| 吴堡县| 平湖市| 文登市| 武冈市| 桂平市| 德江县| 延川县| 怀柔区| 涿鹿县|