• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      融合注意力LSTM的協(xié)同過濾推薦算法

      2019-12-30 02:36:22夏鴻斌
      中文信息學(xué)報 2019年12期
      關(guān)鍵詞:注意力向量輔助

      羅 洋,夏鴻斌,2,劉 淵,2

      (1. 江南大學(xué) 數(shù)字媒體學(xué)院,江蘇 無錫 214122;2. 江蘇省媒體設(shè)計與軟件技術(shù)重點實驗室,江蘇 無錫 214122)

      0 引言

      隨著互聯(lián)網(wǎng)技術(shù)的不斷發(fā)展,用戶能獲取到的信息成倍增長。當面臨海量的信息時,用戶很難找到想要的信息,這就造成了信息過載的問題。為解決這個問題,一個強而有效的個性化推薦就顯得十分重要。傳統(tǒng)的推薦方法可分為: 基于內(nèi)容的推薦方法[1],根據(jù)用戶過去喜歡的內(nèi)容,為用戶推薦與其過去喜歡的相似的內(nèi)容;基于協(xié)同過濾的推薦方法[2-3],根據(jù)用戶過去的歷史行為和評級評分對用戶進行推薦;混合推薦方法[4-5]則是將前面兩者結(jié)合的方法。而基于矩陣的隱因子模型[6-7]在傳統(tǒng)的協(xié)同過濾推薦方法中使用最為廣泛。矩陣分解[8]是使用潛在特征向量表示用戶和項目,將潛在特征向量投影到共享的潛在空間中,并利用潛在特征向量來補全評分矩陣。雖基于矩陣分解的推薦方法表現(xiàn)出較好的效果, 但仍存在數(shù)據(jù) 稀疏和冷啟動問題。為了解決這些問題,Mnih[9]等提出概率矩陣分解,有效解決了評分數(shù)據(jù)的稀疏性問題。

      近年來,將傳統(tǒng)的推薦算法和深度學(xué)習相結(jié)合的方式逐漸受到研究者們的關(guān)注。Zhang[10]等介紹了深度學(xué)習與推薦系統(tǒng)相結(jié)合的研究現(xiàn)狀和發(fā)展狀況。由于深度學(xué)習具有很強的特征提取能力,因此越來越多的研究已經(jīng)應(yīng)用深度學(xué)習和輔助信息來產(chǎn)生有效的特征表示,從而提高推薦性能。附加的堆疊降噪自編碼器(additional stacked denoising autoencoder,aSDAE)[11]擅長在沒有文檔的情況下提取用戶和項目的潛在向量,該模型擴展了堆疊降噪自編碼器,將輔助信息集成到輸入中。Seo[12]等致力于利用卷積神經(jīng)網(wǎng)絡(luò)來提取用戶和項目輔助信息的特征。近年來,基于注意力機制的神經(jīng)網(wǎng)絡(luò)在自然語言處理中受到廣泛關(guān)注。Cheng[13]等提出了三種結(jié)合卷積神經(jīng)網(wǎng)絡(luò)和注意力機制的建模方式。Yin[14]在推薦系統(tǒng)中使用注意機制從用戶短期的交互記錄中學(xué)習用戶近期的興趣。Pal[15]等使用長短期記憶網(wǎng)絡(luò)進行文本特征提取,但只關(guān)注了整個文本信息,卻忽略了關(guān)鍵信息。Liu[16]等結(jié)合了附加堆疊降噪自編碼器(aSDAE)[11]和基于卷積神經(jīng)網(wǎng)絡(luò)的矩陣分解(Convolutional Matrix Factorization,ConvMF)[17]用于特征提取,雖表現(xiàn)出了好的結(jié)果,但由于卷積層的輸入文檔包含了許多沒有關(guān)鍵詞的噪聲信息,使得卷積層無法自動區(qū)分關(guān)鍵詞,同時忽略了詞的上下文關(guān)系和詞的順序,且存在無法捕捉序列信息的問題。

      針對這些問題,在Liu[16]模型的基礎(chǔ)上,結(jié)合輔助信息的aSDAE與基于注意力機制的長短期記憶網(wǎng)絡(luò)(LSTM-Attention)來構(gòu)建推薦模型(Auxiliary LSTM-Attention Matrix Factorization ,ALAMF)。首先,將評分數(shù)據(jù)與用戶的輔助信息作為aSDAE的輸入,用于提取用戶的潛在向量。其次,Word2Vec詞向量工具對項目的輔助信息進行預(yù)處理后輸入到LSTM網(wǎng)絡(luò)層,LSTM網(wǎng)絡(luò)層對輸入的信息進行特征提取,LSTM層之后再引入attention層提取更深層次特征并突出項目的關(guān)鍵信息,輸出項目的潛在向量。最后,將用戶和項目的潛在向量集成到概率矩陣中來預(yù)測用戶評分。通過利用深度學(xué)習的深層特征表示,優(yōu)化特征向量來提高推薦性能。

      本文工作的主要貢獻包括以下兩點:

      (1) 使用基于注意力機制的LSTM來增強特征提取能力,獲取文檔的上下文語義與關(guān)鍵詞信息。

      (2) 使用輔助信息和評級信息來緩解數(shù)據(jù)稀疏性問題,將LSTM-Attention與aSDAE集成到PMF框架中,并應(yīng)用用戶和項目的正則化參數(shù)來平衡評級信息和項目文檔信息。

      1 融合注意力LSTM的協(xié)同過濾推薦模型

      1.1 ALAMF模型

      融合輔助信息和注意力LSTM的概率矩陣分解模型結(jié)構(gòu)如圖1所示。輔助信息包括用戶的輔助信息,例如,用戶的年齡、職業(yè)、性別等;項目的輔助信息,例如,項目的類型、評論信息等。該模型分為三個部分: LSTM-Attention部分為注意力長短期記憶網(wǎng)絡(luò)學(xué)習項目輔助信息的潛在特征向量矩陣V;aSDAE部分基于用戶輔助信息的aSDAE學(xué)習用戶的潛在特征向量矩陣U;PMF部分將用戶和項目的潛在特征向量矩陣作為概率矩陣分解(Probabilistic Matrix Factorization, PMF)的輸入,學(xué)習用戶和項目的交互,最終進行預(yù)測評分。X和Y分別表示用戶和項目的輔助信息,R為用戶—項目評分矩陣,S為用戶的評分信息,W+和W分別表示aSDAE與LSTM-Attention的權(quán)重參數(shù)。σ2為高斯正態(tài)分布的方差,K為潛在向量維度。

      圖1 ALAMF模型

      1.1.1 概率矩陣分解

      評分R、用戶潛在向量U和項目潛在向量V的條件分布如式(1)所示。

      其中,N(x|μ,σ2)是高斯正態(tài)分布概率密度函數(shù),ui是用戶i的潛在向量,vj是項目j的潛在向量,μ是高斯正態(tài)分布的均值。

      1.1.2 長短期記憶網(wǎng)絡(luò)

      LSTM作為一種特殊的RNN神經(jīng)網(wǎng)絡(luò),為了避免序列數(shù)據(jù)中的梯度消失和梯度爆炸問題,建立文本的長距離依賴關(guān)系。LSTM由輸入門、遺忘門、輸出門和一個cell單元組成。LSTM原理如下:

      t時刻的輸入為xt,上一時刻LSTM的輸出為ht-1。

      輸入門計算決定是否將當前信息更新到cell單元中,如式(2)所示。

      遺忘門決定保留信息或舍棄信息,實現(xiàn)存儲,如式(3)所示。

      候選cell單元,如式(4)所示。

      記憶單元cell狀態(tài)由ct-1和ccdt對it及ft調(diào)節(jié)所得,如式(5)所示。

      其中,*表示兩個矩陣元素點乘操作。

      輸出門決定記憶單元狀態(tài)值的輸出,如式(6)所示。

      LSTM最后的隱層狀態(tài)的輸出如式(7)所示。

      1.1.3 用戶特征提取

      圖2 附加堆疊降噪自編碼器結(jié)構(gòu)

      對于aSDAE模型的每層隱藏層l∈{1,...,L-1},第l層的隱藏表示hl如式(8)所示。

      第L層輸出表示如式(9)、式(10)所示。

      L/2層的輸出即為用戶的潛在向量U,每個用戶i輸出的潛在向量如式(11)所示。

      那么用戶的潛在向量U的條件分布如式(13)所示。

      1.1.4 項目特征提取

      注意力長短期記憶網(wǎng)絡(luò)(LSTM-Attention)從項目的文檔輔助信息中獲取潛在向量V。其中,在LSTM提取文本特征后引入attention層,為每個詞向量分配相應(yīng)的概率權(quán)重,進一步提取文本特征。LSTM-Attention的框架如圖3所示。

      圖3 LSTM-Attention結(jié)構(gòu)圖

      LSTM層LSTM網(wǎng)絡(luò)接受上一層的輸出,作為該層的輸入。在t時刻輸入到網(wǎng)絡(luò)的句子序列xi1,xi2,...,xit根據(jù)t-1時刻的LSTM的cell狀態(tài)ct-1和隱藏層的狀態(tài)ht-1進行更新得到隱藏層輸出hi。 在不同時刻LSTM對xi1,xi2,...,xit每個詞輸出對應(yīng)的隱藏層的狀態(tài)為hi1,hi2,...,hit∈Rn_hid,n_hid為LSTM隱藏層神經(jīng)元個數(shù),hit作為句子特征向量輸入到下一層網(wǎng)絡(luò)。因此采用這樣的方式可以學(xué)習到單詞與句子序列的上下文信息。文本信息的特征提取表示如式(14)所示。

      Attention層將LSTM的輸出作為輸入,實現(xiàn)提取重要單詞的特征信息,對每個單詞創(chuàng)建上下文向量,再將上下文向量與單詞特征向量加權(quán)求和,可以表示如式(15)所示。

      (15)

      其中,Ww是權(quán)重系數(shù),bw為偏置系數(shù),uw為隨機初始化的attention矩陣,si表示特征向量。

      整個注意力LSTM網(wǎng)絡(luò)結(jié)構(gòu)接受項目的原始文檔作為輸入,并輸出每個項目的潛在向量,定義如式(16)所示。

      (16)

      其中,asdae表示提取用戶的特征信息,W表示權(quán)重和偏置向量,Yj和vj分別表示項目j的原始文檔和潛在向量,εj表示高斯噪音。

      對于W中的每個權(quán)重參數(shù)wk,W和項目潛在向量V條件分布分別如式(17)所示。

      1.2 ALAMF模型參數(shù)學(xué)習

      本文采用Liu[16]模型的參數(shù)優(yōu)化方法,使用最大后驗估計來優(yōu)化參數(shù): 用戶潛在向量參數(shù)U、LSTM-Attention提取的項目潛在向量參數(shù)V、權(quán)重W+和W等參數(shù)。

      根據(jù)貝葉斯定理,對給定的輸入x,輸出為ck,可以得到最大后驗估計如式(19)所示。

      其中,分母對所有ck都是相同的,所以,

      (20)

      式(21)中給定的輸入為: 用戶對項目的評分R、用戶的輔助信息X、項目的輔助信息Y。

      U、V、W+、W、R相互獨立,根據(jù)式(20)可以得到:

      對式(21)取負對數(shù),轉(zhuǎn)化為:

      其中,Ii,Ij是Iij的一個對角矩陣,i=1,2,...,N,j=1,2,...,M,假如用戶i對項目j有評分,則Iij=1,否則為0。Ik∈Rk×k是單位矩陣,Rj是所有用戶對于項目j的評分。注意到W+和W不能像U和V那樣優(yōu)化,因為W+、W和aSDAE與LSTM-Attention部分有關(guān),當把U,V和W+(或W)看作一個常量c時,優(yōu)化函數(shù)L可以被視為具有L2正則項的平方誤差函數(shù),如式(25)~式(28)所示。

      (25)

      (26)

      (27)

      +λWwk

      (28)

      使用隨機梯度下降算法來優(yōu)化W+和W直到收斂。最終的預(yù)測評分如式(29)所示。

      (29)

      ALAMF的參數(shù)優(yōu)化過程如算法ALAMF所示,通過交替更新來優(yōu)化用戶和項目的潛在向量、aSDAE和LSTM-Attention的權(quán)重參數(shù),直到達到收斂或者達到設(shè)定的最大交互值。

      算法: ALAMF輸入 用戶—項目評分矩陣R,用戶輔助信息X,項目輔助信息Y輸出 最優(yōu)U,V,W+,WStep1: 隨機初始化U,W+,WStep2: 當j≤M時,循環(huán)執(zhí)行: vj←alstmW,Yj 初始化VStep3: 當i≤N時,循環(huán)執(zhí)行: ui←VIiVT+λUIk -1VRi+λUasdaeW+,Xi,Si 更新UStep4: 當 ΦW+ 沒有收斂且未超過最大交互值時,循環(huán)執(zhí)行: 當i≤N時,循環(huán)執(zhí)行: ㈱w+kΦW+ =-λU∑Niui-㈱w+kasdaeW+,Xi,Si +λW+w+k通過反向傳播更新W+Step5: 當j≤M時,循環(huán)執(zhí)行: vj←UIjUT+λVIk -1URj+λValstmW,Yj 更新VStep6: 當 ΦW 沒有收斂且未超過最大交互值時,循環(huán)執(zhí)行: 當j≤M時,循環(huán)執(zhí)行: ㈱wkΦW =-λV∑Mjvj-㈱wkalstmW,Yj +λWwk通過反向傳播更新W

      2 實驗及分析

      為了驗證提出的ALAMF模型的推薦性能,采用Tensorflow作為深度學(xué)習的框架,在Windows 10 64位操作系統(tǒng),PyCharm 2017 ,Inter(R) Core(TM) i7-8700k CPU @ 3.70GHz,16 GB內(nèi)存,Python 3.5的環(huán)境下進行對比實驗分析。

      2.1 數(shù)據(jù)集

      MovieLens 公開數(shù)據(jù)集被廣泛的應(yīng)用在電影推薦系統(tǒng)中。選取帶有輔助信息的ML-100k和 ML-1M作為實驗數(shù)據(jù)集,評分范圍1—5分。ML-100k包含943個用戶對1 682的項目的10萬多條評分數(shù)據(jù)。ML-1M包含6 040個用戶對3 706個項目的100萬多條評分數(shù)據(jù),其中每個用戶評分過的電影數(shù)據(jù)均大于20。用戶輔助信息包括年齡、職業(yè)和性別等屬性,將其轉(zhuǎn)化成二進制信息,項目輔助信息包括電影描述和電影類型等信息,使用word2vec將其文本信息轉(zhuǎn)化成詞向量。本實驗將數(shù)據(jù)集按8∶1∶1的比例劃分為訓(xùn)練集、驗證集和測試集。

      2.2 實驗評價指標

      在推薦系統(tǒng)中常用的評價指標有三類[18]。采用召回率來衡量Top-N推薦,均方根誤差RMSE(Root Mean Square Error)作為算法準確度的評價指標[19],定義如式(30)所示。

      其中,u是用戶集合,N是向用戶推薦的前N個項目數(shù),R(u)是向用戶u推薦的項目列表,T(u) 是用戶觀看的項目列表。

      2.3 對比模型和實驗設(shè)置

      為了驗證提出的ALAMF 模型的性能,對比模型如下:

      (1) PMF: Mnih[9]等提出的概率矩陣分解模型。

      (2) ConvMF: Kim[17]等使用卷積神經(jīng)網(wǎng)絡(luò)提取用戶和項目的潛在向量。

      (3) aSDAE: Dong[11]等使用堆疊降噪自編碼器提取用戶和項目的潛在向量。

      (4) PHD: Liu[16]等融合堆疊降噪自編碼器與卷積神經(jīng)網(wǎng)絡(luò)來分別提取用戶和項目的潛在向量。

      (5) ALAMF: 本文提出的融合LSTM和基于注意力機制的方法。

      (6) ALAMF-N: 不加注意力的ALAMF模型。

      在實驗中,最大交互值設(shè)置為200。在附加堆疊降噪自編碼器部分,設(shè)置噪聲率為0.4,隱藏層數(shù)為三層,激活函數(shù)為Sigmoid函數(shù)。使用最小化批次的RMSprop進行優(yōu)化,batch_size為128;在注意力長短期記憶網(wǎng)絡(luò)部分設(shè)置每個單詞的嵌入維度為200,每個項目文檔的最大長度為300。dropout為0.2,LSTM網(wǎng)絡(luò)層設(shè)置隱藏層的神經(jīng)元個數(shù)為32,batch_size為128,激活函數(shù)采用Relu,使用最小化批次的Adam進行優(yōu)化。因其偏置矯正后,在每一次迭代后學(xué)習率都會有一個穩(wěn)定范圍,使得訓(xùn)練的參數(shù)會更加平緩。

      2.4 實驗結(jié)果及分析

      2.4.1 參數(shù)設(shè)置

      幾種對比方法參數(shù)設(shè)置如表1所示,ALAMF-N是不加注意力機制的模型,ALAMF是加上注意力機制的模型。

      表1 不同方法的參數(shù)設(shè)置

      續(xù)表

      考慮參數(shù)λU和λV對ALAMF模型的RMSE的影響,結(jié)果如表2所示。

      表2 λU和λV對ALAMF模型的影響

      ML-1Mλu1112.53λv200500700500900RMSE0.85210.84880.84910.85070.8557

      從表2的兩個數(shù)據(jù)集可以看出對參數(shù)λU和λV恰當?shù)脑O(shè)置,會讓模型達到好的效果,這說明適當?shù)摩薝和λV值能將用戶的輔助信息和項目輔助信息映射到適當?shù)臐撛诳臻g。這樣可以很好地平衡用戶輔助信息和項目輔助信息,從而提高了ALAMF模型的評級預(yù)測精度。

      2.4.2 模型分析

      (1) 討論在相同的環(huán)境下不同算法對于評估標準recall的表現(xiàn)。在兩個不同稀疏度的數(shù)據(jù)集上進行實驗,如圖4所示。

      圖4 Top-N值對recall的影響

      從圖4中可以看出在兩個數(shù)據(jù)集上隨著N值的增加幾個算法都是呈上升的變化趨勢,但發(fā)現(xiàn)傳統(tǒng)方法PMF效果最低。這是因為PMF忽略了輔助信息的作用,使得推薦結(jié)果不佳。結(jié)合了aSDAE和CNN的PHD模型效果明顯好于aSDAE模型和CNN模型,這說明模型的結(jié)合可以更好提取輔助信息,學(xué)習更有效的潛在因子。而ALAMF模型和不使用注意力機制的ALAMF-N模型都明顯優(yōu)于PHD模型,這說明能建立單詞之間的長期依賴的LSTM能彌補CNN提取文本信息的不足,從而提高推薦性能。從兩個數(shù)據(jù)集可以看出,基于注意力機制的ALAMF模型優(yōu)于ALAMF-N模型。這是因為注意力機制通過給予不同權(quán)重對重要詞語進行提取,實現(xiàn)對文本信息不同的關(guān)注度。這說明注意力機制在模型訓(xùn)練時可以突出關(guān)鍵信息,從而提高模型性能。

      (2) 討論在兩個數(shù)據(jù)集上進行10次迭代的實驗結(jié)果,并將最低的RMSE作為該模型的RMSE,如表3所示。

      表3 不同模型的RMSE值

      續(xù)表

      從表3可以看出ALAMF模型在兩個數(shù)據(jù)集上的RMSE表現(xiàn)均優(yōu)于其他模型。在ML-100k數(shù)據(jù)集中ALAMF模型比較aSDAE模型、ConvMF模型、PHD模型分別提高了4.7%、4.35%、2.68%,這說明了ALAMF模型上使用LSTM和引入注意力機制可有效提高模型性能。從ML-1M數(shù)據(jù)集中看出,ALAMF-N比較aSDAE和ConvMF模型分別提高了2.44%、1.53%,ALAMF比較aSDAE和ConvMF模型分別提高了2.49%、1.58%,既說明了結(jié)合用戶和項目輔助信息的有效性,也說明了ALAMF模型具有更有效地選擇和提取輔助信息的能力。ALAMF和ALAMF-N的RMSE性能都優(yōu)于PHD模型,前面兩者模型都利用了LSTM神經(jīng)網(wǎng)絡(luò)來提取文本的潛在信息,強調(diào)單詞間的長期依賴信息關(guān)系。

      ALAMF-N 模型相比較于PHD模型提高了1.05%。這是因為CNN對于項目的特征提取往往會忽略單詞之間的長期依賴,從而缺乏辨別關(guān)鍵字的能力,而LSTM克服了這個問題,因此表現(xiàn)出了更好的效果。ALAMF模型相比較于PHD模型提高了1.1%,這說明注意力機制在強調(diào)關(guān)鍵信息的方面要優(yōu)于卷積的最大池化層。從兩個數(shù)據(jù)集來看,加了注意力層的ALAMF模型與未加注意力的ALAMF-N模型相比分別提高了0.19%、0.05%,說明注意力機制不僅能表述重要詞語的特征信息,而且通過給予不同權(quán)重來突出文本的重點信息。這也驗證了注意力機制的有效性。

      (3) 討論訓(xùn)練模型的參數(shù),我們通常會關(guān)注迭代次數(shù)是怎么影響我們方法的性能。因此,比較了幾種方法在不同迭代次數(shù)下的性能。在數(shù)據(jù)集ML-1M上進行實驗,如圖5所示。

      圖5 迭代次數(shù)對模型RMSE的影響

      圖5是在不同的迭代次數(shù)下幾種模型在 ML-1M 數(shù)據(jù)集下RMSE影響的表現(xiàn)。首先從圖5中可以看出幾種模型的整體趨勢都是RMSE隨著迭代次數(shù)的增加逐漸下降,最終有平穩(wěn)的趨勢,但也可以看到迭代次數(shù)過多會使得RMSE的值增加,這是因為迭代次數(shù)過多會導(dǎo)致模型過擬合,使推薦性能下降。其次還可以發(fā)現(xiàn),ALAMF模型的RMSE低于PHD模型,說明LSTM和注意力層提取文本特征比卷積神經(jīng)網(wǎng)絡(luò)的最大池化層更能快速突出關(guān)鍵信息、提取文本深層次特征并能快速收斂,能使推薦結(jié)果更好。最后ALAMF模型和ALAMF-N模型能在迭代次數(shù)較少的情況下達到很好的實驗效果,模型收斂較快,并且在最初訓(xùn)練時的RMSE就低于其他4種模型,能有較好的推薦性能。

      3 結(jié)束語

      由于傳統(tǒng)推薦系統(tǒng)存在數(shù)據(jù)稀疏問題,并且卷積神經(jīng)網(wǎng)絡(luò)缺乏提取文本上下文信息和關(guān)鍵信息的能力。對此,本文采用添加輔助信息的方式和基于注意力機制的長短期記憶網(wǎng)絡(luò)來提高推薦性能。此外,對比了幾種深度學(xué)習模型,實驗結(jié)果顯示,ALAMF模型在MovieLens數(shù)據(jù)集上表現(xiàn)出較好的結(jié)果,這說明充分提取文本信息的上下文語義關(guān)系和關(guān)鍵信息能提高推薦性能。

      盡管ALAMF模型的精確度有一定提高,但由于輔助信息和評分信息過于稀疏,實驗結(jié)果提高的幅度不是很大。因此這也為接下來的工作提出挑戰(zhàn),如何更加有效的處理稀疏數(shù)據(jù)。另外,可以考慮序列推薦(sequential recommendation)[20]來構(gòu)建合理的推薦框架。

      猜你喜歡
      注意力向量輔助
      向量的分解
      讓注意力“飛”回來
      小議靈活構(gòu)造輔助函數(shù)
      倒開水輔助裝置
      聚焦“向量與三角”創(chuàng)新題
      “揚眼”APP:讓注意力“變現(xiàn)”
      傳媒評論(2017年3期)2017-06-13 09:18:10
      減壓輔助法制備PPDO
      A Beautiful Way Of Looking At Things
      向量垂直在解析幾何中的應(yīng)用
      向量五種“變身” 玩轉(zhuǎn)圓錐曲線
      观塘区| 兴业县| 松阳县| 洛隆县| 太康县| 庆元县| 安龙县| 盐山县| 卓尼县| 虎林市| 越西县| 安国市| 理塘县| 科尔| 手机| 乾安县| 永修县| 荔浦县| 水城县| 玉树县| 衡水市| 巴彦淖尔市| 苍梧县| 芜湖市| 敦煌市| 巨鹿县| 灵寿县| 丰台区| 壶关县| 达拉特旗| 建昌县| 页游| 尉犁县| 建水县| 阳山县| 武功县| 大足县| 卢氏县| 台安县| 昌都县| 仁布县|