• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于策略記憶的深度強(qiáng)化學(xué)習(xí)序列推薦算法研究

      2022-09-02 04:23:02陳卓姜偉豪杜軍威
      關(guān)鍵詞:向量深度記憶

      陳卓,姜偉豪,杜軍威

      (青島科技大學(xué)信息科學(xué)技術(shù)學(xué)院,山東青島 266061)

      隨著科學(xué)技術(shù)的發(fā)展,信息過載的問題也越來越嚴(yán)重,推薦系統(tǒng)的成功應(yīng)用可以有效地緩解這一難題.然而,用戶興趣總是隨著時間的推移而產(chǎn)生變化,因此,序列推薦系統(tǒng)(Sequential Recommender Systems,SRS)[1]應(yīng)運(yùn)而生.序列推薦系統(tǒng)將用戶-項目交互視為一個動態(tài)序列,捕捉用戶當(dāng)前和最近的偏好,以獲得更準(zhǔn)確的推薦,該系統(tǒng)在購物以及影音網(wǎng)站等都有著很好的應(yīng)用.

      不同于基于內(nèi)容的協(xié)同過濾[2]以及基于矩陣分解[3]的傳統(tǒng)推薦系統(tǒng),序列推薦系統(tǒng)根據(jù)模型的復(fù)雜程度可以分為兩類,包括傳統(tǒng)的序列模型和神經(jīng)網(wǎng)絡(luò)模型.傳統(tǒng)的序列模型例如基于馬爾科夫鏈的模型對序列中的用戶-項目交互進(jìn)行建模,并計算相互之間的轉(zhuǎn)移概率,該方法只能捕獲短期依賴并且忽略用戶的總體興趣.神經(jīng)網(wǎng)絡(luò)模型例如基于循環(huán)神經(jīng)網(wǎng)絡(luò)的模型通過給定的用戶-項目交互序列來預(yù)測下一交互,但該方法假設(shè)任何相鄰交互都是有關(guān)系的并忽略多個項目的共同作用.

      大多數(shù)的序列推薦系統(tǒng)只專注于當(dāng)前收益,對于即時回報較小但有較大未來收益項目的識別度不高.比如用戶在觀看了有關(guān)游戲和天氣的短視頻后,可能不會再關(guān)注今天的天氣;但是看了喜歡的游戲之后,更傾向于觀看更多與游戲相關(guān)的視頻.深度強(qiáng)化學(xué)習(xí)可以統(tǒng)一優(yōu)化即時收益和長期收益[4],將用戶的狀態(tài)進(jìn)行動態(tài)建模,并學(xué)習(xí)到最優(yōu)推薦策略,以提高推薦準(zhǔn)確率.現(xiàn)有的深度強(qiáng)化學(xué)習(xí)狀態(tài)的表示是將用戶之前交互的項目按照一定的順序進(jìn)行建模,無法區(qū)分用戶交互序列中的不同行為模式,因而無法較為準(zhǔn)確地預(yù)測用戶的當(dāng)前興趣偏好.深度強(qiáng)化學(xué)習(xí)做預(yù)測時,可選擇的動作空間較大且數(shù)據(jù)較為稀疏,導(dǎo)致算法收斂困難.本文使用深度強(qiáng)化學(xué)習(xí)中的深度確定性策略梯度(Deep Deterministic Policy Gradient,DDPG)算法,該算法不再計算每個項目的概率而是基于確定的策略,這更有利于處理連續(xù)動作,并且提高了算法的收斂速度.

      本文提出了一種將用戶策略記憶與DDPG 算法結(jié)合的方式來解決以上問題.本文的貢獻(xiàn)可以總結(jié)為以下幾點:

      1)使用記憶網(wǎng)絡(luò)存儲用戶歷史交互序列,并訓(xùn)練一個策略網(wǎng)絡(luò),通過用戶和其歷史交互對用戶當(dāng)前行為模式進(jìn)行劃分.引入注意力機(jī)制,根據(jù)策略網(wǎng)絡(luò)的輸出對記憶網(wǎng)絡(luò)使用不同的注意力表示方法并生成用戶當(dāng)前的記憶向量表示.

      2)提出結(jié)合策略記憶的深度強(qiáng)化學(xué)習(xí)推薦算法(Deep Reinforcement Recommendation with Policy Memory,DRRM).將用戶表示、用戶當(dāng)前偏好以及用戶記憶作為狀態(tài)輸入,利用DDPG 算法預(yù)測用戶喜好,在交互中不斷更新推薦策略,該算法同時考慮了推薦項目對用戶的當(dāng)前收益及其對用戶的長期影響.使用探索策略提高推薦多樣性.

      3)通過在兩個公共數(shù)據(jù)集上進(jìn)行的實驗,驗證了所提出算法的有效性,其效果明顯強(qiáng)于基線算法.

      1 相關(guān)工作

      1.1 序列推薦系統(tǒng)

      序列推薦系統(tǒng)是近年來的研究熱點,通過對用戶的行為序列進(jìn)行建模,考慮用戶興趣的依賴性,為其推薦下一時刻所感興趣的項目.傳統(tǒng)的序列推薦算法有:Feng 等人[5]提出了基于距離嵌入的個性化排序算法(Personalized Ranking Metric Embedding,PRME),將用戶序列建模為馬爾可夫鏈,并嵌入歐氏空間,基于距離計算項目相互之間的轉(zhuǎn)移概率.Liu等人[6]提出了基于上下文感知的序列推薦算法(Context-Aware Recurrent Neural Networks,CARNN),該算法使用特定輸入矩陣和轉(zhuǎn)移矩陣進(jìn)行推薦,但該算法不利于捕獲交互序列中高度相關(guān)的項目信息.Wang 等人[7]提出的基于注意力機(jī)制的事務(wù)嵌入推薦算法(Attention-Based Transaction Embedding Model,ATEM)通過注意力機(jī)制來觀察和識別與下一個項目相關(guān)的上下文信息.Kang 等人[8]提出的基于自注意力的序列推薦算法(Self-Attentive Sequential Recommendation,SASRec)將自注意力機(jī)制應(yīng)用于序列推薦系統(tǒng),用于捕獲序列的長期語義,并在訓(xùn)練速度上有一定的提升.

      上述算法進(jìn)行序列推薦時,總是假定相鄰兩交互是相關(guān)的,而對于具有靈活順序的長序列的識別能力不強(qiáng).

      1.2 基于記憶網(wǎng)絡(luò)的推薦算法

      由于需要長期記憶來存儲問答知識或聊天的語境信息,記憶網(wǎng)絡(luò)(Memory Networks,MN)[9]由Weston 首次提出,以這種有效的方式來簡單地讀寫此類信息,該模型最初被應(yīng)用于智能問答領(lǐng)域.Chen等人[10]提出了一種基于用戶記憶網(wǎng)絡(luò)的推薦算法(Recommender system with User Memory networks,RUM),該算法首次將記憶網(wǎng)絡(luò)應(yīng)用于推薦系統(tǒng),通過對用戶交互項目的讀取、寫入等操作更好地利用用戶的歷史記錄;但該算法并沒有對用戶興趣進(jìn)行區(qū)分.Ebesu 等人[11]提出了一種將用戶協(xié)同過濾與記憶網(wǎng)絡(luò)相結(jié)合的推薦系統(tǒng)(Collaborative Memory Networks,CMN),分別利用潛在因素的全局結(jié)構(gòu)以及鄰域的局部結(jié)構(gòu)進(jìn)行推薦.Ouyang 等人[12]提出了一種基于記憶增強(qiáng)的深度神經(jīng)網(wǎng)絡(luò)推薦算法(Memory Augmented Deep Neural Networks,MADNN),該算法為每一個用戶都創(chuàng)建喜歡和不喜歡兩個外部記憶向量,以此來對用戶點擊率進(jìn)行預(yù)測.

      上述基于記憶網(wǎng)絡(luò)的推薦算法僅能夠識別記憶向量對當(dāng)前交互的作用,無法識別未來收益較大的交互項目,并且沒有利用更深層的神經(jīng)網(wǎng)絡(luò)模型對用戶偏好進(jìn)行預(yù)測.

      1.3 基于深度強(qiáng)化學(xué)習(xí)的推薦算法

      近幾年來,隨著強(qiáng)化學(xué)習(xí)的發(fā)展,與推薦系統(tǒng)的結(jié)合也越來越多.深度強(qiáng)化學(xué)習(xí)的目標(biāo)是智能體在與環(huán)境的不斷交互中學(xué)習(xí)到最佳策略,因此,有利于序列推薦的動態(tài)建模.Wang等人[13]提出了基于遞歸神經(jīng)網(wǎng)絡(luò)的監(jiān)督強(qiáng)化學(xué)習(xí)算法(Supervised Reinforcement Learning with Recurrent Neural Network,SRL-RNN),該算法使用演員-評論家框架處理多種藥物、疾病以及個體之間的關(guān)系,以進(jìn)行個性化藥品推薦.Zhao 等人[14]提出了一種基于多智能體強(qiáng)化學(xué)習(xí)的DeepChain算法,該算法使用多個智能體協(xié)同優(yōu)化,捕捉多場景中用戶行為順序相關(guān)性,以獲得整體的最大回報.Zheng 等人[15]將深度強(qiáng)化學(xué)習(xí)中的深度Q 網(wǎng)絡(luò)(Deep Q Learning,DQN)與推薦系統(tǒng)相結(jié)合,提出了基于深度強(qiáng)化學(xué)習(xí)的新聞推薦框架(Deep Reinforcement Learning Framework for News Recommendation,DRN),該框架同時使用Dueling Bandit 梯度下降方法來進(jìn)行有效的探索.Liu 等人[16]利用DDPG 算法提出了用于解決電影等推薦的深度強(qiáng)化學(xué)習(xí)推薦算法(Deep Reinforcement Learning based Recommendation,DRR).

      上述基于深度強(qiáng)化學(xué)習(xí)的推薦算法僅使用單一的方式對用戶當(dāng)前狀態(tài)進(jìn)行建模,對用戶興趣的劃分存在一定偏差,且無法對用戶歷史喜好的不同權(quán)重進(jìn)行建模.

      2 DRRM模型

      2.1 符號定義

      本文將深度強(qiáng)化學(xué)習(xí)應(yīng)用于序列推薦,推薦代理(Agent)根據(jù)時間順序?qū)τ脩艉晚椖窟M(jìn)行交互,以獲得最大化的累計回報.將此過程建模為一個馬爾可夫決策過程,其中包括狀態(tài)、動作、獎勵、衰減因子等四元組,具體定義如下:

      狀態(tài)S:由用戶及其之前交互項目的集合組合而成,交互過的項目按照時間順序依次排列,并將其輸入演員-評論家網(wǎng)絡(luò)中進(jìn)行預(yù)測.

      動作A:采用基于策略的DDPG 算法,每次交互時根據(jù)策略網(wǎng)絡(luò)生成一個確定的動作A,該動作表示用戶當(dāng)前的喜好,再與項目集進(jìn)行內(nèi)積得到為用戶推薦的項目.

      即時獎勵R:推薦代理將一個項目推薦給用戶,根據(jù)用戶是否在當(dāng)前時刻與該項目進(jìn)行過交互,并給予一定的獎賞或懲罰.

      衰減因子γ:γ∈[0,1],是衡量短期收益與累計收益的標(biāo)準(zhǔn),當(dāng)γ越接近于零,代表算法越重視推薦的短期回報,反之則更加重視累計回報.

      2.2 模型框架

      DRRM 模型框架如圖1 所示,該模型分為3部分.

      圖1 DRRM模型框架圖Fig.1 DRRM model framework diagram

      第1 部分為圖中下半部,即用戶記憶網(wǎng)絡(luò)部分,該部分引入注意力機(jī)制用來區(qū)分用戶歷史交互項目的不同權(quán)重關(guān)系,從而學(xué)習(xí)用戶的興趣變化;根據(jù)不同的行為模式生成不同的用戶記憶向量,并將用戶的歷史記錄存入外部的記憶網(wǎng)絡(luò)中,為狀態(tài)的更新提供依據(jù).第2 部分為策略網(wǎng)絡(luò)部分,該部分對用戶當(dāng)前行為模式進(jìn)行劃分.本文使用基于策略梯度算法的策略網(wǎng)絡(luò)對其進(jìn)行劃分(詳見2.2.2 節(jié)),從而使記憶網(wǎng)絡(luò)選擇不同的注意力計算方式,得到用戶記憶向量,并結(jié)合用戶向量生成當(dāng)前狀態(tài)S.第3 部分為DDPG 網(wǎng)絡(luò)部分,該部分用戶預(yù)測動作A.該網(wǎng)絡(luò)由演員和評論家兩個網(wǎng)絡(luò)組成,演員網(wǎng)絡(luò)通過輸入的狀態(tài)S,來輸出用戶當(dāng)前的喜好;評論家網(wǎng)絡(luò)通過該部分輸出來更新演員網(wǎng)絡(luò).該算法在與用戶的交互中不斷更新,以達(dá)到最優(yōu)策略的輸出.

      2.2.1 記憶網(wǎng)絡(luò)模塊

      本文將用戶的歷史交互信息存儲在一個外部的組件——記憶網(wǎng)絡(luò)中,記憶網(wǎng)絡(luò)的具體構(gòu)建如下:

      令U={u1,u2,…,un-1,un},T={t1,t2,…,tm-1,tm}.分別表示用戶和項目的集合,而n和m分別表示數(shù)據(jù)集中用戶以及項目的個數(shù).令S={s11,s12,…,sij}且S∈Rn×m,表示用戶和項目的交互矩陣,其中sij表示用戶ui對項目tj的評分,矩陣中不同得分表示用戶對該項目的喜好程度,若用戶沒有對該項目進(jìn)行過評分,則該評分為0.對于每個用戶u 都有該用戶自己評過分的項目集合Tu=其中k為該用戶所有評分項目的個數(shù),該集合按用戶對項目評分的時間序列依次排列.

      在每個時間節(jié)點t時刻都將每個用戶u 在此時刻之前的歷史交互存入其對應(yīng)的記憶網(wǎng)絡(luò)中,即為根據(jù)本文3.5節(jié)實驗研究表明,記憶網(wǎng)絡(luò)中每個項目對于用戶下一次行為的影響并不相同.因此,本文將用戶行為分為短期偏好、長期偏好和全局偏好.

      1)當(dāng)用戶行為受上一次影響即為短期偏好時,對用戶交互集合中的所有項目與最近一次交互計算注意力權(quán)重,權(quán)重的計算如式(1)所示.

      式中:n、j∈[1,t-2];wn為最近一次交互的項目向量與記憶網(wǎng)絡(luò)中每個向量的乘積,輸出為一個一維的數(shù)值;exp()表示以e 為底的指數(shù)函數(shù);zn為第n個項目向量在此記憶網(wǎng)絡(luò)中的權(quán)重值.在得到權(quán)重值之后,計算當(dāng)前狀態(tài)下的權(quán)重向量.經(jīng)過注意力機(jī)制的權(quán)重向量的計算如式(2)所示.

      式中:At為所求的前t-2 個項目的注意力向量,以此來表示該用戶的記憶向量.

      2)當(dāng)用戶行為受之前某一行為影響即為長期偏好時,首先使用式(1)得出與最近一次行為注意力權(quán)重最高的項目;再使用和用戶的歷史交互向量計算注意力權(quán)重,再通過式(2)計算用戶記憶向量.

      3)當(dāng)用戶行為與歷史交互無直接關(guān)系即為全局偏好時,對使用用戶向量與該用戶的歷史交互向量進(jìn)行注意力權(quán)重的計算,并計算用戶的記憶向量.

      對于用戶記憶網(wǎng)絡(luò)的寫入操作,本文采用先入先出的策略進(jìn)行更新.將每個用戶的記憶網(wǎng)絡(luò)設(shè)置為固定的長度,先將每個用戶的前兩次交互放入網(wǎng)絡(luò)中,從第3 次交互開始訓(xùn)練.若用戶的記憶數(shù)小于記憶網(wǎng)絡(luò)可存放的記憶個數(shù),則直接將最近一次交互寫入記憶網(wǎng)絡(luò),否則將最開始的用戶交互記憶刪除并寫入最近交互.

      2.2.2 基于策略梯度的策略網(wǎng)絡(luò)

      本文將訓(xùn)練一個策略網(wǎng)絡(luò)來對用戶當(dāng)前行為的3種模式進(jìn)行劃分,記憶網(wǎng)絡(luò)將根據(jù)該網(wǎng)絡(luò)的輸出結(jié)果選擇如2.2.1 節(jié)所示的不同的注意力計算方式,生成用戶記憶向量.

      該策略網(wǎng)絡(luò)基于策略梯度(Policy Gradient)算法,通過用戶向量和用戶歷史交互向量的平均值作為輸入,計算得到用戶3 種行為模式的概率πθ(at|st),并輸出該交互的行為模式.在經(jīng)過記憶網(wǎng)絡(luò)以及DDPG 網(wǎng)絡(luò)預(yù)測出的結(jié)果得到獎勵值R(at),通過該獎勵值計算策略網(wǎng)絡(luò)的損失,該損失函數(shù)如式(3)所示.

      在得到損失函數(shù)后,使用梯度下降來優(yōu)化損失,更新網(wǎng)絡(luò)參數(shù).

      2.2.3 基于DDPG算法的訓(xùn)練框架

      用戶當(dāng)前狀態(tài)的表示模型由用戶表示、用戶記憶網(wǎng)絡(luò)以及用戶當(dāng)前偏好3 部分組成,以此來表示用戶與項目交互的序列關(guān)系.用戶u 在t時刻的偏好即當(dāng)前狀態(tài)的表示如式(4)所示.

      式中:Concat()為拼接函數(shù);u代表用戶的向量表示;At代表用戶的記憶向量表示代表用戶的當(dāng)前偏好表示,若為短期偏好則使用用戶最近一次交互,若為長期偏好則使用權(quán)重最高的交互向量,若為全局偏好則使用歷史交互的平均值.

      使用DDPG 算法對數(shù)據(jù)進(jìn)行訓(xùn)練,DDPG 算法是演員-評論家網(wǎng)絡(luò)的一種,它輸出的是一個確定的動作,結(jié)合DQN 以及策略梯度算法的優(yōu)勢,加速網(wǎng)絡(luò)的收斂,可以更好地解決連續(xù)動作空間上的求解問題.該算法由兩個網(wǎng)絡(luò)組成,即演員網(wǎng)絡(luò)和評論家網(wǎng)絡(luò).同時,為了提高網(wǎng)絡(luò)的穩(wěn)定性和收斂性,設(shè)置兩個更新較慢的目標(biāo)網(wǎng)絡(luò)來提高兩個預(yù)測網(wǎng)絡(luò)的更新效率.兩個預(yù)測網(wǎng)絡(luò)的功能及其更新過程如下所述:

      演員網(wǎng)絡(luò)將輸入的用戶當(dāng)前狀態(tài)St經(jīng)過幾層神經(jīng)網(wǎng)絡(luò)后輸出一個確定的用戶喜好向量at.為了增加推薦的多樣性,防止算法得到局部最優(yōu)解,在訓(xùn)練過程中,使用高斯噪聲進(jìn)行探索,探索過程計算如式(5)所示.

      式中:μ為數(shù)學(xué)期望;σ2為方差;β為探索時的衰減系數(shù).使用經(jīng)過探索得到的喜好向量跟項目集合T相乘,將得到的值經(jīng)過sigmoid 函數(shù)變換為每個項目的得分Gi,并將此得分進(jìn)行排序為用戶推薦前n個項目.具體計算如式(6)所示.

      每輪預(yù)測都將向經(jīng)驗回放池傳入B={St,A,R,St+1}四元組,其中St+1為下一時刻的狀態(tài).演員網(wǎng)絡(luò)更新的損失函數(shù)梯度如式(7)所示.

      式中:θa為演員網(wǎng)絡(luò)中的參數(shù);N為經(jīng)驗回放池中的batch大??;Q(s,a,θa)為評論家網(wǎng)絡(luò)的輸出.

      評論家網(wǎng)絡(luò)用來評估演員網(wǎng)絡(luò).通過從經(jīng)驗回放池中獲得一個batch 的數(shù)據(jù),利用現(xiàn)實Q值和估計Q值的均方差來更新其網(wǎng)絡(luò)參數(shù).更新的損失函數(shù)如式(8)所示.

      式中:Q(si,ai,θc)為估計的Q值網(wǎng)絡(luò)得到的值.yi的計算如式(9)所示.

      式中:γ為衰減因子,用于權(quán)衡即時收益與未來總收益之間的關(guān)系;Q′(si+1,ai+1,θc′)為使用現(xiàn)實Q網(wǎng)絡(luò)對下一步交互所計算的值;ri為當(dāng)前狀態(tài)的獎勵值.獎勵值R的計算如式(10)所示.

      若推薦的項目集合中存在用戶當(dāng)前的喜好項目則獎勵值為1;若推薦的項目集合中沒有當(dāng)前喜好,但出現(xiàn)在用戶的交互序列中則獎勵值為1∕2;其他情況獎勵值為-1.以此來區(qū)分不同動作所獲得的回報.

      3 實驗與結(jié)果分析

      3.1 數(shù)據(jù)集與評價指標(biāo)

      本文使用Amazon Instant Video 以及Amazon Automotive(http:∕∕jmcauley.ucsd.edu∕data∕amazon∕)兩 個公開的數(shù)據(jù)集來進(jìn)行實驗分析.為保證序列的長度,將交互個數(shù)小于10 個項目的用戶刪除,經(jīng)過預(yù)處理后的可用數(shù)據(jù)量如表1 所示.兩個數(shù)據(jù)集都具有時間戳信息,因此,可對用戶序列按時間進(jìn)行排序并進(jìn)行序列推薦.使用每個用戶前80%的數(shù)據(jù)進(jìn)行訓(xùn)練,后20%進(jìn)行測試,以證明本文所提出觀點的有效性.

      表1 數(shù)據(jù)集統(tǒng)計表Tab.1 Statistics of data sets

      本文所使用的評價指標(biāo)[10]由精準(zhǔn)度(Precision)、召回率(Recall)、F1值(F1-score)以及HR 值(Hit-ratio)組成,從多個方面評估模型的好壞.

      3.2 實驗環(huán)境

      本實驗采用的軟硬件環(huán)境如表2 所示,本算法所使用的Python版本為3.7.3,并基于Tensorflow 深度學(xué)習(xí)框架實現(xiàn)本算法的深度強(qiáng)化學(xué)習(xí).

      表2 實驗環(huán)境表Tab.2 Experimental environment table

      3.3 實驗參數(shù)設(shè)定

      DRRM 模型所使用的超參數(shù)有學(xué)習(xí)率、batch_size以及衰減因子.

      為了研究超參數(shù)對模型性能的影響,首先對DDPG 網(wǎng)絡(luò)使用不同學(xué)習(xí)率、batch_size進(jìn)行實驗.學(xué)習(xí)率和batch_size 是兩個最重要的模型超參數(shù),合適的學(xué)習(xí)率和batch_size,不僅可以加速模型收斂,防止陷入局部最優(yōu),還可以提高模型的性能.在Amazon Instant Video 數(shù)據(jù)集上進(jìn)行參數(shù)設(shè)置,不同學(xué)習(xí)率、batch_size的對比實驗如表3所示.

      表3 學(xué)習(xí)率、batch_size對比實驗表Tab.3 Learning rate,batch_size of comparative experiments

      從表3可以看出,當(dāng)學(xué)習(xí)率為0.001且batch_size為8 時,所得到的Precision 以及F1-score 指標(biāo)最高,模型達(dá)到最佳性能.

      衰減因子是深度強(qiáng)化學(xué)習(xí)中最重要的參數(shù)之一,是衡量當(dāng)前收益與未來總收益的標(biāo)準(zhǔn),通過設(shè)置不同的大小來表明當(dāng)前動作對未來的影響.當(dāng)學(xué)習(xí)率和batch_size分別為0.001和8時,進(jìn)行衰減因子的設(shè)定對比實驗,實驗結(jié)果如圖2所示.

      圖2 不同衰減因子的指標(biāo)對比Fig.2 Comparison of indicators of different attenuation factors

      3.4 對比實驗

      為了證明所提出的DRRM 算法的有效性,本文從傳統(tǒng)的序列推薦模型、基于神經(jīng)網(wǎng)絡(luò)的模型、基于強(qiáng)化學(xué)習(xí)的模型以及記憶網(wǎng)絡(luò)模型4 個方面,使用以下5種具有代表性的基線算法進(jìn)行對比實驗.

      貝葉斯個性化排序算法[17](Bayesian Personalized Ranking,BPR):該算法基于貝葉斯的個性化Top-N 推薦方法,提出了一個通用的準(zhǔn)則BPR-Opt來優(yōu)化推薦排序.

      個性化馬爾科夫鏈算法[18](Factorizing Personalized Markov Chains,F(xiàn)PMC):該算法將矩陣分解和馬爾科夫鏈模型相結(jié)合來學(xué)習(xí)用戶對應(yīng)的轉(zhuǎn)移矩陣,并引入BPR算法來處理數(shù)據(jù)進(jìn)行序列推薦.

      動態(tài)遞歸推薦算法[19](Dynamic Recurrent Basket Model,DREAM):該算法的主要思想為基于遞歸神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)用戶的動態(tài)興趣表示,并捕捉用戶的全局序列特征.

      深度強(qiáng)化學(xué)習(xí)推薦算法[16](Recommendation Based on Deep Reinforcement Learning,DRR):該算法基于顯式用戶-項目交互的深度強(qiáng)化學(xué)習(xí)推薦系統(tǒng),僅使用用戶和項目的交互向量作為輸入項,并使用DDPG算法進(jìn)行預(yù)測.

      用戶記憶網(wǎng)絡(luò)推薦算法[10](Recommender with User Memory Networks,RUM):該模型的主要思想是在序列推薦算法中引入用戶記憶網(wǎng)絡(luò),存放用戶的歷史交互并進(jìn)行Top-N推薦.

      Amazon Instant Video 和Amazon Automotive 數(shù)據(jù)集模型性能比較如表4 所示.相較于最優(yōu)基線算法,DRRM 算法的精準(zhǔn)度在Amazon Instant Video 數(shù)據(jù)集上有8.89%的提升,在Amazon Automotive 數(shù)據(jù)集上略有下降;召回率在2 個數(shù)據(jù)集上分別有8.87%和11.20%的提升;F1值在2 個數(shù)據(jù)集上分別有18.10%和7.23%的提升;HR 在2 個數(shù)據(jù)集上分別有8.89%和1.07%的提升.由此證明了本文所提算法的有效性.

      表4 Amazon Instant Video和Amazon Automotive數(shù)據(jù)集模型性能比較Tab.4 Performance comparison of Amazon Instant Video and Amazon Automotive dataset models %

      3.5 消融實驗

      為了研究本文所提出的策略網(wǎng)絡(luò)以及基于優(yōu)先記憶模型在用戶記憶網(wǎng)絡(luò)和DRRM 模型中的作用,在Amazon Instant Video 數(shù)據(jù)集上進(jìn)行多組消融實驗,并使用精準(zhǔn)度以及召回率指標(biāo)進(jìn)行對比.

      具體實驗設(shè)置如下:①將用于生成用戶行為模式的策略網(wǎng)絡(luò)去除,僅使用用戶最近交互對用戶的記憶向量表示進(jìn)行計算的DRRM_s 模型;②將策略網(wǎng)絡(luò)去除,僅使用與用戶最近交互項目權(quán)重最高的記憶項目對用戶的記憶向量進(jìn)行計算的DRRM_l 模型;③將策略網(wǎng)絡(luò)去除,僅使用用戶向量計算注意力權(quán)重并生成用戶記憶向量表示的DRRM_h 模型.實驗對比圖如圖3所示.

      圖3 消融實驗對比圖Fig.3 Comparison diagram of ablation experiment

      由圖3可知,沒有加入策略網(wǎng)絡(luò)的3種單一記憶向量表示方法的精準(zhǔn)度與召回率均低于DRRM 算法,從而說明用戶策略網(wǎng)絡(luò)對用戶當(dāng)前行為模式的預(yù)測起著重要的作用.

      3.6 用戶行為模式

      為了證明所提出的3 種用戶行為模式,即短期偏好、長期偏好以及全局偏好的可解釋性,使用Amazon Instant Video 數(shù)據(jù)集的實例進(jìn)行實驗驗證.如圖4~圖6 所示,實驗使用的記憶網(wǎng)絡(luò)內(nèi)存長度為5,x軸和y軸均表示用戶的交互序列,每一個小格代表對應(yīng)兩個向量之間的相關(guān)度,顏色越深則說明兩向量越相關(guān),對角線元素均為1.

      由圖4 可知,在用戶的第6~9 次交互時,策略網(wǎng)絡(luò)預(yù)測為短期偏好,最近一次交互對當(dāng)前交互的影響最大,對應(yīng)的顏色也越深.對應(yīng)于Amazon Instant Video 數(shù)據(jù)集中的實例是該用戶在看了一集某電視劇后又接連觀看了后面的3集.

      由圖5可知,在用戶的第8~11次交互時,策略網(wǎng)絡(luò)預(yù)測為長期偏好.用戶的第6 次交互對其影響最大,對應(yīng)顏色也越深,即為用戶的長期偏好.對應(yīng)于Amazon Instant Video 數(shù)據(jù)集中的實例是該用戶當(dāng)看了一部之前沒看過的喜劇類型電影(第6 次交互)后,又連續(xù)看了幾部該類型(第8~11 次交互)但互相關(guān)聯(lián)不大的電影.

      圖5 長期偏好圖Fig.5 Long-term preference diagram

      由圖6 可知,在用戶的第6~9 次交互時,策略網(wǎng)絡(luò)預(yù)測為全局偏好.其之前的幾次交互權(quán)重值相差不大且顏色近似,說明此次交互為用戶的全局偏好.對應(yīng)于Amazon Instant Video 數(shù)據(jù)集中的實例是該用戶當(dāng)看了一部驚悚類型(第6 次交互)的電影之后,又看了喜劇、愛情、傳記類型的電影.

      圖6 全局偏好圖Fig.6 Global preference diagram

      4 結(jié)論

      本文研究了結(jié)合用戶策略記憶和深度強(qiáng)化學(xué)習(xí)的序列推薦算法,提出一個新的DRRM 模型框架.該算法通過策略網(wǎng)絡(luò)對用戶與項目交互的行為模式進(jìn)行更加細(xì)致的劃分,以解決用戶-項目交互序列并不總是順序相關(guān)甚至存在噪聲的問題.通過對衰減因子的設(shè)定,證明深度強(qiáng)化學(xué)習(xí)對DRRM 的影響;在消融實驗中,驗證了用戶策略網(wǎng)絡(luò)以及注意力機(jī)制在記憶網(wǎng)絡(luò)中的重要性.通過在兩個數(shù)據(jù)集上對比先進(jìn)序列推薦模型的大量實驗,證明了本文所提算法的有效性.

      本文只是對數(shù)據(jù)集中的用戶和項目進(jìn)行矩陣分解得到相應(yīng)的向量,此外還有許多可以利用的信息比如用戶的身份信息、社交信息等,來更新用戶、項目表示,以提高模型的可解釋性.

      猜你喜歡
      向量深度記憶
      向量的分解
      聚焦“向量與三角”創(chuàng)新題
      深度理解一元一次方程
      深度觀察
      深度觀察
      深度觀察
      記憶中的他們
      向量垂直在解析幾何中的應(yīng)用
      兒時的記憶(四)
      兒時的記憶(四)
      龙胜| 尤溪县| 加查县| 年辖:市辖区| 苍梧县| 高碑店市| 广东省| 南充市| 中西区| 漠河县| 临海市| 泉州市| 崇阳县| 巴中市| 隆子县| 镇坪县| 巩留县| 布尔津县| 陵水| 双柏县| 兴山县| 霍邱县| 陈巴尔虎旗| 灌云县| 满城县| 金阳县| 彭泽县| 西乌珠穆沁旗| 门头沟区| 格尔木市| 阳西县| 林口县| 抚顺县| 东乌| 门源| 彝良县| 岑溪市| 连江县| 泸西县| 莆田市| 宜丰县|