• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      異質(zhì)網(wǎng)絡(luò)中融合多類信息的鏈路情感傾向預測

      2023-02-04 03:18:00蔣希然周麗華王麗珍陳紅梅
      關(guān)鍵詞:基值鏈路節(jié)點

      蔣希然,周麗華,王麗珍,陳紅梅,肖 清

      (云南大學 信息學院,云南 昆明 650500)

      互聯(lián)網(wǎng)應用如豆瓣、淘寶等逐漸滲入人們的日常生活,成為人們獲取信息、表達觀點、交流交易的網(wǎng)絡(luò)活動平臺,由此產(chǎn)生的大量網(wǎng)絡(luò)平臺數(shù)據(jù)被廣泛應用于鏈路預測、推薦系統(tǒng)等研究領(lǐng)域.由于網(wǎng)絡(luò)平臺數(shù)據(jù)的內(nèi)容復雜多樣且通常蘊含著豐富的語義,如平臺用戶對平臺相關(guān)物品的評分、評價等數(shù)據(jù)不僅能夠表示用戶與物品間存在關(guān)聯(lián),還能反映出用戶對于物品的喜歡或不滿的情感傾向.在利用數(shù)據(jù)進行分析研究時,相比于將數(shù)據(jù)建模為同質(zhì)網(wǎng)絡(luò)[1],基于多類型對象和多種關(guān)系鏈路共存的異質(zhì)網(wǎng)絡(luò)進行研究,能夠保留更全面的語義及結(jié)構(gòu)信息,提高研究工作的可解釋性和準確率[2].

      鏈路情感傾向預測即是對網(wǎng)絡(luò)平臺上存在關(guān)聯(lián)的兩個對象之間情感傾向的預測,如豆瓣用戶對于觀看過的電影或書籍是否喜歡,淘寶用戶對于購買的商品滿意與否等.對基于平臺數(shù)據(jù)所構(gòu)建的異質(zhì)網(wǎng)絡(luò),利用網(wǎng)絡(luò)鏈路中的情感傾向信息能夠幫助社區(qū)網(wǎng)站的用戶找到適合的興趣小組,指導網(wǎng)絡(luò)零售平臺合理調(diào)整宣傳策略,還有助于社會學、心理學等領(lǐng)域的研究應用.因此,針對異質(zhì)網(wǎng)絡(luò)中鏈路情感傾向的研究具有很強的現(xiàn)實意義.

      現(xiàn)有的鏈路情感傾向預測方法主要分為基于協(xié)同過濾的方法、基于矩陣分解的方法及基于網(wǎng)絡(luò)嵌入的方法.協(xié)同過濾的方法[3-5]利用節(jié)點間的相似度來進行預測,這類方法通常以余弦相似度、歐式距離等方式來判斷節(jié)點相似性,未對用戶行為進行深度挖掘.此外,該方法對稀疏的評分矩陣及冷啟動的問題處理效果欠佳.矩陣分解的方法[6-9]將高維的評分矩陣映射為節(jié)點的低維特征矩陣,能處理冷啟動問題.但這些方法都忽略了節(jié)點本身的屬性特征,且模型不具有很好的可解釋性.網(wǎng)絡(luò)嵌入的方法首先學習網(wǎng)絡(luò)節(jié)點的低維潛在特征,再用學到的節(jié)點特征來完成預測任務(wù)[10-11].很多研究者提出了不同的網(wǎng)絡(luò)嵌入方法[12-15],這些方法能夠捕獲網(wǎng)絡(luò)拓撲、節(jié)點屬性等信息.由于不同的網(wǎng)絡(luò)嵌入方式對信息提取的側(cè)重點不同,且僅利用網(wǎng)絡(luò)嵌入難以精準捕獲到預測所需的全部信息,因此網(wǎng)絡(luò)嵌入的方法常與其他方法結(jié)合完成預測任務(wù).

      基于以上原因,本文提出一種異質(zhì)網(wǎng)絡(luò)中融合多類型信息的鏈路情感傾向預測模型,簡稱為HNPS模型.模型首先對節(jié)點間鏈路的情感傾向進行粗略評估,用于設(shè)置鏈路的預測基值,然后分別從節(jié)點的相似關(guān)系及節(jié)點的屬性數(shù)據(jù)中提取信息,最后將所得信息與鏈路的預測基值結(jié)合完成預測任務(wù).模型中預測基值的設(shè)置通過分析節(jié)點的交互數(shù)據(jù)完成,是節(jié)點間情感傾向差異性的初步體現(xiàn).對于新加入的節(jié)點,模型利用網(wǎng)絡(luò)鏈路中情感傾向的總體情況設(shè)置預測基值,有效緩解了因節(jié)點信息缺失導致的冷啟動問題.模型融合的信息包括相似節(jié)點的情感傾向信息以及節(jié)點的屬性信息,多種信息的融合能夠全面揭示影響鏈路預測的因素,從而有效提升預測結(jié)果的準確性.其中,在捕獲網(wǎng)絡(luò)中的相似節(jié)點時,本文提出了一種基于限制路徑類型元路徑的遍歷游走方法,該方法能通過約束鏈路類型提取有特定情感聯(lián)系的節(jié)點.

      本文主要貢獻如下:

      (1)提出了一種異質(zhì)網(wǎng)絡(luò)中融合多種類型信息預測鏈路情感傾向的模型,模型利用節(jié)點的交互信息設(shè)置預測基值,并融合相似節(jié)點的情感傾向信息及節(jié)點的屬性信息完成預測任務(wù);

      (2)提出了一種基于限制路徑類型的元路徑從異質(zhì)網(wǎng)絡(luò)中捕獲相似節(jié)點的方法,該方法對節(jié)點關(guān)系的利用更加充分,能提取到更精確的信息;

      (3)在5個公共數(shù)據(jù)集上進行了充分的實驗,實驗結(jié)果證實了HNPS模型的有效性及對于稀疏矩陣及冷啟動問題的處理能力.

      1 相關(guān)工作

      1.1 基 于 協(xié) 同 過 濾 的 預 測傳統(tǒng)的協(xié)同過濾(Collaborative Filtering, CF)算法根據(jù)基于用戶或基于項目分為兩類[16].基于用戶的協(xié)同過濾算法[17]通過發(fā)現(xiàn)用戶群中與目標用戶行為相似的鄰居用戶,并綜合這些鄰居用戶對某一項目的情感傾向,推斷目標用戶對特定項目的情感傾向.基于項目的協(xié)同過濾算法[5]認為,用戶對不同項目的情感傾向存在相似性,當需要預測用戶對某個項目的情感傾向時,可以通過用戶對該項目的若干相似項目的情感傾向進行推測.此外,部分研究工作將基于用戶及基于項目的協(xié)同過濾結(jié)合起來,形成混合的協(xié)同過濾模型[18],能有效提升預測效果.基于神經(jīng)網(wǎng)絡(luò)的協(xié)同過濾通用框架(Neural Collaborative Filtering, NCF)[19],將深度學習引入?yún)f(xié)同過濾算法中,補充了用于協(xié)同過濾的主流淺層模型,為基于深度學習的情感傾向預測方法開辟了新的研究途徑.

      1.2 基于矩陣分解的預測基本矩陣分解(Basic Matrix Factorization,Basic MF)[6]也稱為隱語義模型(Latent Factor Model,LFM),是最基礎(chǔ)的矩陣分解方式.正則化矩陣分解(Regularized MF)[6]通過加入正則化參數(shù)解決基本矩陣分解的過擬合問題.基于概率的矩陣分解(Probabilistic Matrix Factorization,PMF)[8]方法則引入概率模型對矩陣分解進一步優(yōu)化.Bias SVD模型[6]在基本矩陣分解模型的基礎(chǔ)上加入了用戶及物品的偏置項,SVD++算法[7]在Bias SVD算法的基礎(chǔ)上加入了用戶的隱式反饋.BMFDE模型[20]通過引入用戶嵌入隨時間的偏移規(guī)律對PMF模型進行了擴展.除此之外,還有很多不同形式的矩陣分解方法的模型變形,這些方法為解決鏈路情感傾向預測問題提供了不同的思路.

      1.3 基 于 網(wǎng) 絡(luò) 嵌 入 的 預 測在 網(wǎng) 絡(luò) 嵌 入 方 法 中,Deepwalk模型[12]是開拓性的研究,它通過深度優(yōu)先搜索的隨機游走方法生成節(jié)點序列.Metapath2vec模型[13]將基于元路徑的隨機游走形式化,構(gòu)造出節(jié)點的異質(zhì)鄰居節(jié)點序列,利用異質(zhì)的跳字模型(Skip-Gram)[21]生成節(jié)點的嵌入.HERec模型[10]將Metapath2vec模型的嵌入方法進行改進后,結(jié)合矩陣分解的方法完成評分預測及推薦.HopRec模型[22]利用外積對用戶與項目節(jié)點間的成對關(guān)系進行建模,從而對HERec模型進行改進.SHINE模型[11]是針對用戶對于公眾人物的情感傾向進行的預測,模型利用六層的自編碼器分別對情感鏈路網(wǎng)絡(luò)、社會關(guān)系網(wǎng)絡(luò)及人物特征網(wǎng)絡(luò)進行嵌入,再將結(jié)果聚合后用于完成預測.這些方法通過不同形式的網(wǎng)絡(luò)嵌入對數(shù)據(jù)信息進行挖掘,為準確預測鏈路情感傾向提供條件.

      2 HNPS模型

      2.1 相關(guān)概念在異質(zhì)網(wǎng)絡(luò)[23]G={V,E}中 ,V為節(jié)點集合,E為鏈路集合, φ:V→A以 及 φ:E→R為節(jié)點類型及鏈路類型的映射函數(shù),A和R分別代表節(jié)點和鏈路的類型集合.

      元路徑[24]P是在網(wǎng)絡(luò)模式[23]Q=(A,R)上定義的路徑,若兩節(jié)點類型間沒有多種節(jié)點關(guān)系,則利用節(jié)點類型表示元路徑,記為P=A1A2···Al.節(jié)點和鏈路具體化的元路徑p稱為元路徑實例.基于元路徑的隨機游走是指節(jié)點根據(jù)給定的元路徑在網(wǎng)絡(luò)中不斷轉(zhuǎn)移的過程[13].

      限制路徑類型的元路徑是指對節(jié)點之間關(guān)系的類型進行了限制的一種擴展的元路徑,記為:P(R)=A1(R1)A2(R2)···(Rl-1)Al.當 節(jié) 點 類 型Ai與Ai+1間存在多種節(jié)點關(guān)系時,限制路徑類型的元路徑P(R)僅 選取節(jié)點關(guān)系為Ri的路徑作為路徑實例.

      遍歷游走是指對于根節(jié)點vi,依次訪問其鄰居節(jié)點集Ni中的每個節(jié)點.給定一條限制路徑類型的元路徑P(R)=A1(R1)···At(Rt)At+1···(Rl)Al+1,基于P(R)在 異質(zhì)信息網(wǎng)絡(luò)G={V,E}上遍歷游走時,要求初始節(jié)點vi(1)=vi滿足 φ(vi)=A1,此時T1=vi.對于第t步的節(jié)點集Tt,遍歷其中的節(jié)點得到第t+1步的節(jié)點集合:At+1,vy∈Nx,rx,y=Rt} ,其中Nx表 示節(jié)點vi(t)=vx的鄰居節(jié)點集,rx,y表 示節(jié)點vx與節(jié)點vy的節(jié)點關(guān)系.整個遍歷游走的過程根據(jù)給定的限制路徑類型的元路徑P(R)進 行,直至完成節(jié)點集Tl的 遍歷得到Tl+1,游走過程結(jié)束.

      2.2 模型框架HNPS模型的整體框架如圖1所示.模型引入了預測基值,并融合反饋信息來進行預測.其中,預測基值根據(jù)節(jié)點的歷史評分數(shù)據(jù)設(shè)置,能初步反映不同節(jié)點間情感傾向的差異性.反饋信息包括顯式及隱式反饋信息.顯式反饋指能明確反映用戶情感傾向的信息,如評分數(shù)據(jù).模型利用基于限制路徑類型元路徑的遍歷游走方法從中找到興趣相似的用戶及內(nèi)容相似的項目.隱式反饋指不直接表現(xiàn)節(jié)點的情感傾向的信息,如節(jié)點屬性.模型基于元路徑的隨機游走方法從中學習節(jié)點表征.模型將從評分數(shù)據(jù)及節(jié)點屬性中提取到的信息與預測基值結(jié)合起來,經(jīng)過不斷迭代訓練后得到最終的預測結(jié)果.

      2.3 預測基值的設(shè)置現(xiàn)實生活中,用戶對即將接觸的事物存在一個預期的情感傾向值,通常用戶與事物最終所建立鏈路的情感傾向會基于這個預期值上下波動,即當事物的表現(xiàn)高于用戶預期時,用戶與事物間鏈路的情感傾向會高于預期值,反之則低于預期值.模型引入預測基值bu,m作 為節(jié)點vu與vm之間鏈路的預期情感傾向值,計算方式為:

      式 中:Nu,Nm分別表示節(jié)點vu及vm的鄰居節(jié)點,分別表示對節(jié)點vu及 節(jié)點vm的所有評分數(shù)值求和,Y分數(shù)據(jù)集,表示對評分數(shù)據(jù)集中的所有評分數(shù)值求和.

      圖1 HNPS模型整體框架圖Fig.1 The overall framework of HNPS model

      2.4 顯式反饋的信息提取模型基于評分數(shù)據(jù)集Y構(gòu)建出一個異質(zhì)網(wǎng)絡(luò)Gr={V,Er},其中V為包含用戶及項目的節(jié)點集,Er為不同評分轉(zhuǎn)化的節(jié)點間不同類型鏈路的集合.利用限制路徑類型元路徑的遍歷游走方法可以從Gr中找出節(jié)點的相似節(jié)點,并計算出節(jié)點間的相似度.設(shè)置用于提取信息的限制路徑類型元路徑集合:Wr={P(R)|P(R)=Ai(Rk)Aj(Rk)Ai,k=1,···,|RY|},其中Rk表示第k種 評分,|RY|為評分的類型數(shù).節(jié)點va的 相似節(jié)點集Sa以及節(jié)點間相似度值的集合Z由算法1得出.

      算法1節(jié)點的相似節(jié)點集與節(jié)點間相似度的算法

      輸入Gr={V,Er};Wr;va;Z

      輸出Sa,Z

      1 初始化Sa=[];

      2 forP(R) inWrdo

      3 if φ (va)=Aithen

      4 根據(jù)P(R)遍 歷游走Gr得到節(jié)點集Sa;

      5 對于Sa中 節(jié)點va′,計算va與va′間路徑實例的條數(shù)sa,a′,將其添加進Z中;

      6 end if

      7 end for

      8 returnSa,Z.

      在算法1中,Sa中 包含了與va相 似的節(jié)點,Z中保存了節(jié)點間相似度值的信息,sa,a′∈Z表示節(jié)點va與va′間的相似度.

      2.5 隱式反饋的信息提取節(jié)點的屬性信息能輔助情感傾向的預測.例如,某用戶十分欣賞諾蘭導演的藝術(shù)風格,因此會對諾蘭執(zhí)導的《星際穿越》、《盜夢空間》等電影表示喜歡.從節(jié)點屬性信息中能夠?qū)W到節(jié)點表征,在預測時用于描述節(jié)點屬性對鏈路情感傾向的影響.

      模型利用節(jié)點屬性信息構(gòu)建異質(zhì)網(wǎng)絡(luò)G={V,E},并設(shè)置用于提取節(jié)點屬性信息的元路徑P=A1A2···Al.根據(jù)metapath2vec++模型[13],節(jié)點基于單條元路徑的嵌入由算法2得出.

      算法2節(jié)點基于單條元路徑的嵌入算法

      輸入G={V,E}; 元路徑P;路徑長度wl;節(jié)點嵌入維度d;游走次數(shù)wt; 近鄰數(shù)ns

      輸出節(jié)點基于單條元路徑的嵌入

      1 初始化

      2 forvainVand φ (va)=A1do

      3 fori=1→wtdo

      4 找到第i條 路徑實例pi;

      5 基于pi利用跳字模型(SkipGram)[12]迭代更新

      6 end for

      7 end for

      8 return

      模型設(shè)置了多條元路徑來提取節(jié)點不同屬性的信息,最終的節(jié)點表征是對各條元路徑所提取到的節(jié)點嵌入進行融合后的結(jié)果.根據(jù)HERec模型[10],采用個性化非線性融合函數(shù)對各元路徑提取的節(jié)點嵌入進行融合,得到節(jié)點va的表征:

      式中:W為用于提取信息的元路徑集合,P為其中的元路徑,M(P)∈RD×d及b(P)∈RD分別為對于元路徑P的變換矩陣和偏置向量,為節(jié)點va對于元路徑P的偏好權(quán)重,即sigmoid函數(shù),為個性化非線性融合函數(shù).

      2.6 鏈路情感傾向預測HNPS模型結(jié)合預測基值及提取到的信息進行預測.節(jié)點vu與vm之間鏈路情感傾向的預測值r?u,m為:

      式中:bu,m為 節(jié)點vu與vm間的預測基值,由式(1)計算得出;Xu(vm) 及Xm(vu)為節(jié)點的預測偏離值,由式(4)計算.αu及 αm為對節(jié)點預測偏離值的調(diào)整系數(shù);為節(jié)點vu與vm的表征,按式(2)的方式融合節(jié)點嵌入后得出; βu及 βm為對節(jié)點表征的調(diào)整向量.

      節(jié)點的預測偏離值通過節(jié)點的相似節(jié)點來計算,節(jié)點vx關(guān)于節(jié)點vy的預測偏離值為:

      式中:vx′為 節(jié)點vx的相似節(jié)點,即vx′∈Sx,rx′,y表示節(jié) 點vx′與vy間 實 際 的 評 分 值,bx′,y為 節(jié) 點vx′與vy間的預測基值,sx′,y為 節(jié)點vx′與vy的相似度.

      模型中的參數(shù)通過設(shè)置損失函數(shù)對模型進行不斷訓練后得出.損失函數(shù)為:

      式中: 〈vu,vm,ru,m〉為評分數(shù)據(jù)集Y中的一條數(shù)據(jù);ru,m為 用戶vu對 項目vm的 實際評分值;r?u,m為 用戶vu對項目vm的 預測評分值,由式(3)計算得到;λ為正則化參數(shù); Θu及 Θm分 別為節(jié)點vu與vm嵌入融合時的參數(shù).

      使用隨機梯度下降(Stochastic Gradient Descent,SGD)的方法來訓練模型參數(shù),參數(shù)更新方式為:

      式中:L為損失函數(shù),即式(5),ωi表示損失函數(shù)中的參數(shù)包括 α,β,Θ經(jīng) 過i次 迭代后得到的值,γ為隨機梯度下降迭代時的學習率.

      整個HNPS模型的算法框架如算法3所示.

      算法3HNPS模型

      輸入評分數(shù)據(jù)集Y;學習率γ ;正則化參數(shù)λ;元路徑集W

      輸出對節(jié)點預測偏離值的調(diào)整系數(shù)集 αV,對節(jié)點表征的調(diào)整向量集 βV,個性化非線性融合函數(shù)中的參數(shù)集ΘV

      1 初始化參數(shù)集中的參數(shù) α ,β,Θ,隨機排序評分數(shù)據(jù)集Y;

      2while 結(jié)果不收斂 do

      3 選取一條評分數(shù)據(jù)〈vu,vm,ru,m〉;

      6 由式(6)迭代更新參數(shù)集中的參數(shù)α ,β,Θ;

      7 end while

      8 return αV,βV,ΘV.

      3 實驗及分析

      3.1 數(shù) 據(jù) 集實驗使用的5個數(shù)據(jù)集分別為:MovieLens(源于https://grouplens.org/datasets/movie lens/);Amazon(源于 http://jmcauley.ucsd.edu/data/ama zon/);Douban Movie(源于http://movie.douban.com);Douban Book(源于http://book.douban.com);Yelp(源于 http://www.yelp.com/dataset-challenge).其 中,MovieLens和Douban Movie屬于電影領(lǐng)域,Amazon屬于商品領(lǐng)域,Douban Book屬于書籍領(lǐng)域,Yelp屬于商業(yè)領(lǐng)域.數(shù)據(jù)集中包含了用戶對項目的評分以及與用戶、項目的屬性信息等.各數(shù)據(jù)集情況見表1.其中,數(shù)據(jù)集密度指評分矩陣中非零元素比例,即: 數(shù) 據(jù)集密度=

      5個數(shù)據(jù)集中用戶對于項目的評分范圍皆為1~5分,統(tǒng)計各數(shù)據(jù)集評分的分布情況,結(jié)果如圖2所示.由圖2可知,對于所有數(shù)據(jù)集,評分主要集中在3~5分,1分及2分所占的比例不超過20%.

      表1 數(shù)據(jù)集情況統(tǒng)計Tab.1 Statistics of data sets

      圖2 各類型評分的分布情況Fig.2 The distribution of various types of scores

      3.2 評 價 指 標本文使用平均絕對誤差(Mean Absolute Error, MAE)及 均 方 根 誤 差(Root Mean Square Error, RMSE)作為模型質(zhì)量的評價指標,計算方式分別為:式中,n為 樣本的數(shù)量,yj為真實評分值,為預測評分值.MAE及RMSE的值越小,表示預測結(jié)果的偏離越小,即模型性能越好.

      3.3 對比方法本文分別從基于協(xié)同過濾、矩陣分解、奇異值分解以及異質(zhì)網(wǎng)絡(luò)嵌入的評分預測模型中選取了4個具有代表性的方法來作為對比方法.選取 的方法包括Item-based CF[25]、PMF[8]、SVD++[7]、 HERec[10]及HNPS.在上述5種方法中,PMF、SVD++及HERec方法包含了對評分數(shù)據(jù)不同形式的矩陣分解,而Item-based CF及HNPS方法則聚焦于從評分數(shù)據(jù)中獲取存在相似行為的節(jié)點.在實驗過程中,Item-based CF、PMF及SVD++方法僅使用了數(shù)據(jù)集中的評分信息,HERec及HNPS模型還引入了節(jié)點的屬性信息.

      對于HERec及HNPS模型,在提取節(jié)點屬性信息時需設(shè)置元路徑,不同元路徑表示的語義不同,提取到的節(jié)點屬性信息也不相同.例如對于MovieLens數(shù)據(jù)集,元路徑“UMU”包含的語言信息為“看過同一部電影的用戶”,“MUM”則表示“同一個用戶看過的電影”.HERec[10]的研究表明,較長的元路徑所代表的語義相對復雜,且可能在提取信息時引入噪聲,因此元路徑的設(shè)置并非越長越好.本文實驗選取的元路徑詳見表2.

      表2 5個數(shù)據(jù)集中選用的元路徑Tab.2 The selected meta-paths for five datasets.

      3.4 實驗結(jié)果設(shè)置不同的訓練比率將評分記錄分為訓練集和測試集.對于每個訓練比率,隨機生成5組包含訓練集和測試集的評估集,將選用的模型分別運用于這5組評估集,取5組評估集上實驗結(jié)果的平均值作為最終的實驗結(jié)果加以呈現(xiàn).對于MovieLens、Amazon、豆瓣電影及豆瓣書籍數(shù)據(jù)集,設(shè)置訓練比率為80%、60%、40%、20%;對于數(shù)據(jù)集YELP,由于評分數(shù)據(jù)十分稀疏,設(shè)置訓練比率為90%、80%、70%、60%[10].

      SVD++、HERec及HNPS模型中都包含了隨機梯度下降的方法,實驗統(tǒng)一設(shè)置學習率為0.93.對于異質(zhì)網(wǎng)絡(luò)中節(jié)點嵌入的融合,根據(jù)HERec模型[10]的表現(xiàn),對所有數(shù)據(jù)集的實驗都設(shè)置融合后的節(jié)點表征維數(shù)為10,而HNPS模型的實驗對5個數(shù)據(jù)集分別設(shè)置融合后的節(jié)點表征維度為50、25、15、10、5.實驗結(jié)果如表3所示.

      基于表3,可以得到:

      (1)Item-based CF算法無法處理新加入的節(jié)點,即,模型無法對訓練集中未包含的節(jié)點進行預測.隨著訓練集密度降低,測試集中出現(xiàn)未訓練節(jié)點的概率增大,而只要測試集中出現(xiàn)未訓練的節(jié)點,算法將無法正常運行,從而無法得出預測結(jié)果,這個問題通常被稱為冷啟動問題,表3中的 “Null”表示存在冷啟動問題.在參與對比的方法中,除了Itembased CF算法以外,其余模型均能正常處理冷啟動問題.

      表3 5個數(shù)據(jù)集的有效性實驗結(jié)果Tab.3 Results of effectiveness experiments on five datasets

      (2)HNPS模型及SVD++模型在兩個評價指標上的效果普遍好于其余3個模型,說明相比利用物品間的相似度或?qū)υu分數(shù)據(jù)進行矩陣分解,設(shè)置預測基值的方式能有效提升預測準確度及穩(wěn)定性.

      (3)對于MAE指標,HNPS模型在多數(shù)情況下表現(xiàn)最好,其次是SVD++模型,而對于RMSE指標則是SVD++模型表現(xiàn)較好,HNPS模型次之,說明將預測基值細化到具體節(jié)點并結(jié)合多類信息能預測得更加準確,而奇異值分解的方法則能使預測結(jié)果更加穩(wěn)定.

      (4)當訓練集密度較低時,PMF模型及HERec模型的預測準確度及模型穩(wěn)定性都不如HNPS模型,說明矩陣分解的方法在訓練數(shù)據(jù)較稀疏時效果并不理想,而SVD++模型在相同情況下卻有好的表現(xiàn),說明預測基值的引入使模型在訓練數(shù)據(jù)較少即矩陣稀疏的情況下仍然適用.

      (5)HERec模型的預測準確度及模型穩(wěn)定性,指標都優(yōu)于同樣使用了矩陣分解方法的PMF模型.隨著訓練比率增加,HERec模型的預測準確度及穩(wěn)定性指標提升效果最明顯,同樣采用了異質(zhì)網(wǎng)絡(luò)嵌入方法的HNPS模型相比SVD++模型在后4個數(shù)據(jù)集上的指標提升速度也更快,說明從異質(zhì)網(wǎng)絡(luò)中提取的節(jié)點屬性信息對于提升模型的預測效果是有用的,且在訓練數(shù)據(jù)豐富時能發(fā)揮更大的作用.

      3.5 模型及參數(shù)分析

      3.5.1 冷啟動問題 冷啟動問題通常發(fā)生在數(shù)據(jù)集較稀疏或數(shù)據(jù)的訓練比率較低時.將冷啟動問題按新加入節(jié)點的類型細分為僅引入新用戶(U)、僅引入新項目(I)及同時引入新用戶及新項目(U&I)3種.設(shè)置前4個數(shù)據(jù)集的訓練比率為20%,設(shè)置Yelp數(shù)據(jù)集的訓練比率為60%,從測試集中篩選出存在冷啟動問題的數(shù)據(jù)用于探究不同模型處理各種冷啟動問題的效果,實驗結(jié)果如表4所示.表中“Null”表示算法未正常運行,“Empty”表示測試集中未找到對應數(shù)據(jù).由表4可知,Item-based CF算法不能預測新用戶的情感傾向,其余方法對各種類型的冷啟動問題都能處理.對比各方法的實驗結(jié)果,HNPS模型及SVD++模型在遭遇冷啟動問題時仍能進行相對準確的預測,而PMF模型及HERec模型的表現(xiàn)則普遍欠佳,這進一步說明了預測基值的設(shè)置對于解決冷啟動問題是十分有效的.

      3.5.2 預測基值的設(shè)置 預測基值是對預測結(jié)果的粗略估計.通常選取平均值、中位數(shù)、眾數(shù)等描述數(shù)據(jù)趨勢的統(tǒng)計量來設(shè)置.由圖1可知,評分大多集中在3~5分,即情感傾向的預期值普遍高于評分區(qū)間的中位數(shù),但并未特別集中于某個評分值,因此,相比中位數(shù)或眾數(shù),使用所有評分數(shù)據(jù)的均值作為預測基值能更加貼近實際的預測結(jié)果.在此基礎(chǔ)上,HNPS模型將預測基值的設(shè)置細化到具體的節(jié)點,通過5個數(shù)據(jù)集來對比采用所有評分數(shù)據(jù)的均值作為預測基值(Avg)和按HNPS模型的方法設(shè)置預測基值(Base)對指標MAE及RMSE的影響,結(jié)果如圖3所示.由圖3可知,HNPS模型的預測基值設(shè)置方法能有效提升預測效果.

      3.5.3 顯式反饋信息及隱式反饋信息對預測基值的調(diào)整效果 為了探究兩種反饋信息對于模型預測效果的影響程度,本文在5個數(shù)據(jù)集上進行了4種實驗:①直接使用預測基值進行預測(記為Base);②僅使用顯式反饋信息對預測基值進行調(diào)整(記為BE);③僅使用隱式反饋信息對預測基值進行調(diào)整(記為BI);④同時使用顯式及隱式反饋信息對預測基值進行調(diào)整(記為BEI).4種實驗的結(jié)果如圖4所示.從圖4可看出,對于前4個數(shù)據(jù)集,兩種反饋信息都能提升模型的預測效果,但提升程度有限.Yelp數(shù)據(jù)集的情況較為特殊,反饋信息的引入反而干擾了模型的預測,說明當數(shù)據(jù)信息匱乏時,預測基值的合理設(shè)置變得十分重要.

      表4 5個數(shù)據(jù)集的冷啟動問題實驗結(jié)果Tab.4 Results of cold-start experiments on five datasets

      圖3 預測基值對于預測效果的影響Fig.3 The influence of basic estimates on the prediction

      圖4 反饋信息對預測效果的影響Fig.4 The influence of feedback information on the prediction

      4 結(jié)語

      本文提出一種異質(zhì)網(wǎng)絡(luò)中融合多種類型的反饋信息預測鏈路情感傾向的方法,即HNPS模型.模型引入預測基值,并結(jié)合顯式反饋及隱式反饋中提取的信息進行預測,能有效提升預測結(jié)果的準確度.在信息提取過程中,本文設(shè)計了一種基于限制路徑類型元路徑的遍歷游走策略用于捕獲網(wǎng)絡(luò)中具有相似情感傾向的節(jié)點.將本文模型運用于5個公共數(shù)據(jù)集,實驗結(jié)果證明了HNPS模型的有效性及對于稀疏矩陣、冷啟動問題的處理能力.在以后的工作中將進一步探索不同種類信息的提取方法,以解決數(shù)據(jù)量大,數(shù)據(jù)內(nèi)容復雜等帶來的挑戰(zhàn),同時也將考慮改進信息融合的方式,使得模型的預測效果能更加穩(wěn)定.

      猜你喜歡
      基值鏈路節(jié)點
      家紡“全鏈路”升級
      CM節(jié)點控制在船舶上的應用
      不銹鋼超薄板脈沖微束等離子弧焊熔池尺寸和焊縫成形質(zhì)量
      天空地一體化網(wǎng)絡(luò)多中繼鏈路自適應調(diào)度技術(shù)
      移動通信(2021年5期)2021-10-25 11:41:48
      Analysis of the characteristics of electronic equipment usage distance for common users
      Tandem雙絲氣保焊相位控制方法研究
      電焊機(2021年6期)2021-09-10 07:22:44
      基于AutoCAD的門窗節(jié)點圖快速構(gòu)建
      抓住人才培養(yǎng)的關(guān)鍵節(jié)點
      控制性詳細規(guī)劃中居住用地商業(yè)性開發(fā)項目容積率賦值方式探析
      電機標幺值系統(tǒng)研究
      安化县| 万源市| 海原县| 潼关县| 巧家县| 正安县| 呼和浩特市| 逊克县| 个旧市| 嘉荫县| 定安县| 丽江市| 武清区| 衡阳市| 江川县| 盘锦市| 浮梁县| 饶阳县| 南丰县| 眉山市| 亚东县| 搜索| 固安县| 桃江县| 蒙山县| 舒城县| 吉隆县| 九寨沟县| 吴堡县| 远安县| 宜章县| 恭城| 兰考县| 河池市| 永宁县| 夏河县| 肇源县| 塔河县| 闵行区| 榆社县| 土默特左旗|