• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于強(qiáng)化學(xué)習(xí)DQN的智能體信任增強(qiáng)

      2020-06-24 06:30:22亓法欣童向榮
      關(guān)鍵詞:推薦者信任算法

      亓法欣 童向榮 于 雷,2

      1(煙臺(tái)大學(xué)計(jì)算機(jī)與控制工程學(xué)院 山東煙臺(tái) 264005)2(紐約州立大學(xué)賓漢姆頓分校計(jì)算機(jī)科學(xué)系 紐約州賓漢姆頓市 13902)

      多智能體(agent)系統(tǒng)是一種分布式計(jì)算技術(shù),是多個(gè)自主個(gè)體組成的群體系統(tǒng),目標(biāo)是通過(guò)個(gè)體間相互信息的通信,進(jìn)行交互作用.利用多智能體系統(tǒng)對(duì)現(xiàn)實(shí)問(wèn)題進(jìn)行研究已經(jīng)相當(dāng)普遍,在社交網(wǎng)絡(luò)背景下的信任研究是其中的典型研究?jī)?nèi)容.隨著網(wǎng)絡(luò)的發(fā)展,利用社交網(wǎng)絡(luò)進(jìn)行推薦已經(jīng)非常普遍.許多研究都將社交關(guān)系網(wǎng)絡(luò)中的用戶信任值作為基礎(chǔ),通過(guò)用戶的過(guò)往交互記錄以及用戶間的互動(dòng)來(lái)推測(cè)用戶的偏好和評(píng)級(jí),并向用戶進(jìn)行相關(guān)項(xiàng)目的推薦.近年來(lái),許多學(xué)者都給出了社交網(wǎng)絡(luò)中信任計(jì)算及推薦的方法,這些方法建立在不同研究基礎(chǔ)上,也有不同的研究目的.總體來(lái)說(shuō),大多數(shù)方法都聚焦于信任的傳遞及信任推薦系統(tǒng),將信任視為靜態(tài)不變的參數(shù).而實(shí)際上,信任作為一種主觀狀態(tài),可隨用戶交互經(jīng)驗(yàn)、時(shí)間等因素的動(dòng)態(tài)變化而發(fā)生變化.利用靜態(tài)信任進(jìn)行計(jì)算會(huì)使推薦結(jié)果漸漸偏離現(xiàn)實(shí)狀態(tài).

      現(xiàn)有的動(dòng)態(tài)信任研究大多針對(duì)信任相關(guān)因素的變化以及信任變化后的狀態(tài),未充分考慮影響信任動(dòng)態(tài)變化的因素及動(dòng)態(tài)變化過(guò)程.實(shí)際上,信任動(dòng)態(tài)性將在較大程度上影響推薦結(jié)果,動(dòng)態(tài)變化過(guò)程會(huì)實(shí)時(shí)地反映到推薦系統(tǒng)中,影響推薦系統(tǒng)的系數(shù),進(jìn)而實(shí)時(shí)影響推薦結(jié)果,使之得到完全不同的推薦結(jié)果.因此,將信任來(lái)源的動(dòng)態(tài)性和動(dòng)態(tài)變化一起考慮來(lái)改進(jìn)推薦系統(tǒng)的性能可以得到更加準(zhǔn)確、及時(shí)的推薦結(jié)果,使得推薦系統(tǒng)的實(shí)時(shí)性得到更大的提高,從而改善推薦系統(tǒng)的性能.

      現(xiàn)實(shí)生活中,當(dāng)A出于某種目的希望提升B對(duì)自己的信任時(shí)會(huì)主動(dòng)增加與B的交流次數(shù),這種交流往往是從B的興趣愛(ài)好開(kāi)始的.如果B喜愛(ài)看電影,A會(huì)經(jīng)常向B推薦他可能喜歡的電影.當(dāng)B對(duì)A的推薦電影做出正向評(píng)價(jià)時(shí),說(shuō)明A的推薦符合B在電影方面的偏好,同時(shí)B將更加相信A在電影方面的欣賞水平,此時(shí)B對(duì)A的信任將增加;反之,則說(shuō)明B懷疑A的欣賞水平,B對(duì)A的信任值將降低.隨著A向B推薦電影的次數(shù)增加,A將越來(lái)越了解B在電影方面的偏好,并可以更精準(zhǔn)地推薦B喜愛(ài)的電影,同時(shí),B將十分信任A.該過(guò)程實(shí)質(zhì)上是一種學(xué)習(xí)其偏好并“投其所好”的過(guò)程.

      本文的方法模擬了上述過(guò)程:推薦者為增強(qiáng)用戶信任,向用戶進(jìn)行項(xiàng)目推薦,用戶接受推薦后,將對(duì)項(xiàng)目做出實(shí)際評(píng)價(jià).實(shí)際評(píng)價(jià)與用戶接受項(xiàng)目時(shí)的心理預(yù)期存在一定差異,該差異決定了用戶對(duì)項(xiàng)目的滿意程度:若實(shí)際評(píng)價(jià)高于心理預(yù)期,則用戶向推薦者返回正向反饋;反之,用戶返回負(fù)向反饋.正向反饋表明用戶對(duì)推薦者的認(rèn)可,用戶對(duì)推薦者的信任將增加;負(fù)向反饋表明用戶懷疑推薦者的推薦水平,導(dǎo)致用戶對(duì)推薦者信任下降.本文利用強(qiáng)化學(xué)習(xí)方法實(shí)現(xiàn)用戶的信任增強(qiáng),并將其應(yīng)用到推薦系統(tǒng)中,提高推薦結(jié)果的實(shí)時(shí)性和準(zhǔn)確性.實(shí)驗(yàn)結(jié)果驗(yàn)證了所提出的基于強(qiáng)化學(xué)習(xí)的深度q-學(xué)習(xí)(deepq-learning, DQN)的信任增強(qiáng)算法可以更為準(zhǔn)確、及時(shí)地展現(xiàn)信任的動(dòng)態(tài)變化,并得到更為可信的推薦結(jié)果.由于DQN方法有穩(wěn)定性強(qiáng)、可處理大量數(shù)據(jù)的特點(diǎn),所提出的方法可以很好地?cái)U(kuò)展到推薦系統(tǒng)使用.

      本文主要貢獻(xiàn)有2個(gè)方面:

      1) 提出的方法結(jié)合了強(qiáng)化學(xué)習(xí)方法深度q-學(xué)習(xí)(DQN),對(duì)信任變化過(guò)程進(jìn)行學(xué)習(xí)以增強(qiáng)用戶信任.以體驗(yàn)評(píng)價(jià)和預(yù)期評(píng)價(jià)之間的差值為依據(jù),對(duì)用戶偏好進(jìn)行學(xué)習(xí),可以得到更為完全的信息,進(jìn)而提高推薦的個(gè)性化水平和準(zhǔn)確性.

      2) 提出的方法綜合考慮了用戶的興趣度、直接信任、間接信任,并對(duì)這些因素進(jìn)行了選擇性的篩選,使計(jì)算結(jié)果更加符合實(shí)際.

      1 相關(guān)工作

      在信任的相關(guān)研究中,一些學(xué)者已經(jīng)取得了一些成果.如Jiang等人[1]提出的鄰域感知的信任網(wǎng)絡(luò)提取方法,目的為解決信任網(wǎng)絡(luò)中的信任傳播失敗問(wèn)題.該方法考慮到用戶在在線社交網(wǎng)絡(luò)中的領(lǐng)域感知影響力,采用有向多重圖對(duì)異構(gòu)信任網(wǎng)絡(luò)中用戶間的多重信任關(guān)系進(jìn)行建模,隨后設(shè)計(jì)了一個(gè)領(lǐng)域感知信任度量來(lái)度量用戶之間的信任程度.Yan等人[2]提出了一種改進(jìn)后的基于鄰域和矩陣分解的社會(huì)推薦算法,旨在解決關(guān)系網(wǎng)絡(luò)中的大規(guī)模、噪聲和稀疏性問(wèn)題.該方法開(kāi)發(fā)了一種新的關(guān)系網(wǎng)絡(luò)擬合算法來(lái)控制關(guān)系的傳播和收縮,為每個(gè)用戶和項(xiàng)目生成一個(gè)單獨(dú)的關(guān)系網(wǎng)絡(luò).然后將矩陣因子分解與社會(huì)正則化和鄰域模型相結(jié)合,利用關(guān)系網(wǎng)絡(luò)生成建議.一些學(xué)者在研究過(guò)程中對(duì)信任的動(dòng)態(tài)性有所考慮,提出了一些關(guān)于動(dòng)態(tài)信任的方法,如Ghavipour等人[3]考慮了信任傳遞過(guò)程中用戶信任值的改變,提出了基于學(xué)習(xí)自動(dòng)機(jī)的啟發(fā)式算法DLATrust,并使用改進(jìn)后的協(xié)同過(guò)濾聚合策略來(lái)推斷信任的價(jià)值.在此基礎(chǔ)上,Ghavipour等人[4]又提出了利用分布式學(xué)習(xí)自動(dòng)機(jī)的隨機(jī)信任傳播的動(dòng)態(tài)算法DyTrust,兩者目的均為學(xué)習(xí)發(fā)現(xiàn)社交網(wǎng)絡(luò)中用戶之間的可靠路徑.游靜等人[5]提出了一種考慮信任可靠度的分布式動(dòng)態(tài)管理模型,使用可靠度對(duì)信任進(jìn)行評(píng)估來(lái)降低不可靠數(shù)據(jù)的影響,并在交互結(jié)束后修正可靠度.此外,許多學(xué)者針對(duì)自適應(yīng)聲譽(yù)和信任相關(guān)性質(zhì)等方面進(jìn)行了相應(yīng)的研究[5-11].本節(jié)將對(duì)前人所做的工作和DQN方法進(jìn)行簡(jiǎn)要介紹.

      1.1 DyTrust

      DyTrust算法是利用學(xué)習(xí)算法進(jìn)行動(dòng)態(tài)信任計(jì)算的方法之一.DyTrust考慮了信任傳播過(guò)程中節(jié)點(diǎn)信任值的動(dòng)態(tài)變化,利用分布式學(xué)習(xí)自動(dòng)機(jī)獲取信任傳播過(guò)程中信任的動(dòng)態(tài)變化,對(duì)信任變化做出反應(yīng)并根據(jù)信任的變化來(lái)動(dòng)態(tài)更新可靠的信任路徑.

      該方法作為一種動(dòng)態(tài)信任傳播算法,可以更準(zhǔn)確地推斷出信任路徑.但是該方法僅利用了信任的動(dòng)態(tài)性特征,并未對(duì)其動(dòng)態(tài)變化過(guò)程進(jìn)行研究.本文的方法對(duì)信任動(dòng)態(tài)變化過(guò)程進(jìn)行研究,并詳細(xì)闡述了該過(guò)程.

      1.2 q學(xué)習(xí)與DQN

      DQN[12]是q學(xué)習(xí)算法[13]的發(fā)展,也是將深度學(xué)習(xí)與強(qiáng)化學(xué)習(xí)結(jié)合起來(lái)而實(shí)現(xiàn)學(xué)習(xí)的一種新興算法.

      q學(xué)習(xí)算法通過(guò)單一神經(jīng)網(wǎng)絡(luò)進(jìn)行值函數(shù)估計(jì)與現(xiàn)實(shí)累積經(jīng)驗(yàn)計(jì)算,與q學(xué)習(xí)相比,DQN使用2個(gè)相同結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)分別計(jì)算值函數(shù)估計(jì)(Q網(wǎng)絡(luò))與現(xiàn)實(shí)(target-Q網(wǎng)絡(luò)).Q網(wǎng)絡(luò)估計(jì)每個(gè)動(dòng)作的值(Q_eval),并根據(jù)策略選擇最終動(dòng)作,環(huán)境根據(jù)動(dòng)作返回獎(jiǎng)勵(lì)值;target-Q網(wǎng)絡(luò)利用獎(jiǎng)勵(lì)值進(jìn)行現(xiàn)實(shí)估計(jì)(Q_target).

      相較于Q網(wǎng)絡(luò),target-Q網(wǎng)絡(luò)的權(quán)重更新較慢,即往往每經(jīng)過(guò)多輪更新一次target-Q網(wǎng)絡(luò).該方法保證DQN可避免時(shí)間連續(xù)性的影響,從而得到更優(yōu)結(jié)果.

      同時(shí),DQN方法利用經(jīng)驗(yàn)回放對(duì)Q網(wǎng)絡(luò)進(jìn)行訓(xùn)練.DQN進(jìn)行神經(jīng)網(wǎng)絡(luò)參數(shù)訓(xùn)練時(shí),利用貝爾曼方程思想計(jì)算LossFunction并更新Q網(wǎng)絡(luò)權(quán)重參數(shù):

      LossFunction=Q_target-Q_eval,

      target-Q網(wǎng)絡(luò)的計(jì)算方式由Markov決策得到.

      本文中的信任增強(qiáng)算法結(jié)合DQN算法進(jìn)行計(jì)算,實(shí)際上針對(duì)單個(gè)用戶的信任增強(qiáng)過(guò)程使用q學(xué)習(xí)算法也可以取得相近的結(jié)果.現(xiàn)實(shí)中使用q學(xué)習(xí)方法時(shí),狀態(tài)量過(guò)多且需人工設(shè)計(jì)特征,且結(jié)果質(zhì)量與特征設(shè)計(jì)質(zhì)量關(guān)系緊密,導(dǎo)致q學(xué)習(xí)方法無(wú)法應(yīng)用于推薦系統(tǒng)對(duì)大量用戶進(jìn)行項(xiàng)目推薦;同時(shí),q學(xué)習(xí)方法需使用矩陣存儲(chǔ)Q值,當(dāng)針對(duì)用戶過(guò)多時(shí),會(huì)造成數(shù)據(jù)量過(guò)大,導(dǎo)致存儲(chǔ)空間需求急劇增加.推薦系統(tǒng)中用戶群體數(shù)目龐大,推薦項(xiàng)目類別復(fù)雜,對(duì)q學(xué)習(xí)方法的數(shù)據(jù)存儲(chǔ)來(lái)說(shuō)是一場(chǎng)災(zāi)難.

      因此,考慮到本文提出的方法應(yīng)用于推薦系統(tǒng)時(shí)的相關(guān)問(wèn)題以及DQN相較于q學(xué)習(xí)算法的先進(jìn)性,本文使用DQN算法進(jìn)行信任增強(qiáng),并推廣至推薦系統(tǒng).

      2 問(wèn)題描述與基本定義

      本節(jié)詳細(xì)介紹了問(wèn)題的基本描述、用戶信息集、推薦者信息集和DQN信息集等.

      2.1 問(wèn)題描述

      如圖1所示,用戶A為提升用戶B對(duì)自己的信任,向B推薦與他感興趣的內(nèi)容相關(guān)的項(xiàng)目.當(dāng)B接受A的推薦后,如果B對(duì)A推薦的項(xiàng)目的評(píng)價(jià)高于其心理預(yù)期值,B對(duì)A的信任值將增加;反之,B對(duì)A的信任值將降低.

      2.2 基本定義

      定義1.用戶信息集{T,S,sp}.

      本文對(duì)社交網(wǎng)絡(luò)中每個(gè)用戶建立用戶信息集.其中,T為用戶信任矩陣,S表示用戶評(píng)價(jià)矩陣,包括用戶過(guò)往評(píng)價(jià)及用戶對(duì)推薦項(xiàng)的預(yù)期評(píng)價(jià),sp表示用戶對(duì)推薦項(xiàng)的實(shí)際評(píng)價(jià).

      Fig.1 Relationship between recommendation and trust圖1 建議-信任影響關(guān)系示意圖

      推薦過(guò)程中,推薦者從項(xiàng)目集中選擇項(xiàng)目進(jìn)行推薦,用戶對(duì)符合偏好的項(xiàng)目有高滿意度,滿意度將動(dòng)態(tài)影響用戶間信任.

      定義3.DQN信息集{n,a,π,r}.

      1) 推薦者狀態(tài)n.用戶于時(shí)刻τ發(fā)出廣播,推薦者根據(jù)選擇策略做出動(dòng)作,與該動(dòng)作對(duì)應(yīng)的推薦者狀態(tài)為nτ.推薦者動(dòng)作選擇結(jié)束后,狀態(tài)更新為nτ+1并等待用戶下一次廣播.

      2) 推薦者動(dòng)作a.推薦者從項(xiàng)目集選擇最終向用戶推薦的項(xiàng)目,推薦該項(xiàng)目即為推薦者動(dòng)作a.

      3) 動(dòng)作選擇策略π.選擇策略決定推薦者最終選擇的推薦項(xiàng)目.本文選擇策略與DQN中策略相同,為ε-greedy policy.

      4) 動(dòng)作獎(jiǎng)勵(lì)r.用戶對(duì)推薦者提供的推薦項(xiàng)將有相應(yīng)的滿意度.滿意度對(duì)信任的影響幅度記為獎(jiǎng)勵(lì)r,該值影響推薦者在下一時(shí)刻的動(dòng)作選擇.

      本文通過(guò)用戶預(yù)期評(píng)價(jià)與實(shí)際評(píng)價(jià)差值來(lái)表征用戶滿意度,利用最小均方誤差方法(least mean square, LMS)方法計(jì)算評(píng)價(jià)差值與信任變化的動(dòng)態(tài)映射關(guān)系.本過(guò)程將信任的動(dòng)態(tài)變化視為DQN過(guò)程中給予推薦者的獎(jiǎng)勵(lì),信任的變化將影響推薦者對(duì)推薦項(xiàng)目的選擇行為.

      3 興趣度、信任計(jì)算與建議處理

      本節(jié)介紹了用戶間信任的基本定義及用戶建議定義,信任計(jì)算結(jié)合了用戶興趣度及推薦用戶信任,使得計(jì)算結(jié)果更加符合實(shí)際.本節(jié)給出了用戶建議處理過(guò)程,并說(shuō)明了預(yù)期評(píng)價(jià)的計(jì)算方法.

      3.1 用戶興趣度

      1) 網(wǎng)頁(yè)保存、收藏.sf(pk)表示保存、收藏參數(shù).用戶進(jìn)行保存、收藏行為時(shí),sf(pk)=1,否則sf(pk)=0.

      2) 網(wǎng)頁(yè)瀏覽.用戶對(duì)網(wǎng)頁(yè)內(nèi)容感興趣時(shí),相應(yīng)的網(wǎng)頁(yè)瀏覽時(shí)間與訪問(wèn)次數(shù)均會(huì)增加.設(shè)置用戶瀏覽時(shí)間比率表示單位頁(yè)面大小的用戶瀏覽時(shí)間,即瀏覽時(shí)間time(pk)與頁(yè)面大小e(pk)之比,時(shí)間比率越大,表示用戶對(duì)該網(wǎng)頁(yè)內(nèi)容越感興趣.頁(yè)面pk被訪問(wèn)次數(shù)f(pk)與頁(yè)面瀏覽時(shí)間time(pk)構(gòu)成頁(yè)面瀏覽參數(shù)b(pk),即:

      (1)

      其中,P是所有用戶瀏覽頁(yè)面的集合.

      3) 點(diǎn)擊網(wǎng)頁(yè)提供的超鏈接.超鏈接點(diǎn)擊參數(shù)c(pk)通過(guò)點(diǎn)擊的超鏈接數(shù)nc(pk)和頁(yè)面pk提供的超鏈接總數(shù)ls(pk)計(jì)算為

      (2)

      4) 分享、轉(zhuǎn)發(fā)網(wǎng)頁(yè)內(nèi)容.分享參數(shù)trans(pk)衡量用戶的分享行為,若用戶對(duì)網(wǎng)頁(yè)pk進(jìn)行分享、轉(zhuǎn)發(fā)操作,trans(pk)=1,否則trans(pk)=0.

      用戶對(duì)項(xiàng)目?jī)?nèi)容相關(guān)網(wǎng)頁(yè)pk的興趣度Im(pk)可計(jì)算為

      (3)

      (4)

      3.2 信任計(jì)算及數(shù)據(jù)結(jié)構(gòu)

      用戶間的信任可通過(guò)直接信任和推薦信任得到.有交互經(jīng)驗(yàn)的用戶為直接用戶,無(wú)交互經(jīng)驗(yàn)但存在信任路徑的用戶為間接用戶.

      有交互經(jīng)驗(yàn)的直接用戶之間產(chǎn)生直接信任,無(wú)交互經(jīng)驗(yàn)但存在信任路徑的間接用戶之間產(chǎn)生推薦信任.

      tj,b表示用戶j對(duì)用戶b的直接信任:

      tj,b存儲(chǔ)在矩陣T中,tj,b∈[0,1].

      其中,信任值的范圍為[0,1],信任值為0表示完全不信任,信任值為1表示完全信任.

      (5)

      3.3 用戶評(píng)價(jià)建議處理

      (6)

      (7)

      其中,rsi與si均存儲(chǔ)在矩陣Si中,Si為初始用戶j通過(guò)不同用戶得到的對(duì)項(xiàng)目i的預(yù)期評(píng)價(jià)存儲(chǔ)矩陣,用戶評(píng)價(jià)分值范圍為[0,10].

      (8)

      用戶j接收到多項(xiàng)推薦時(shí),將計(jì)算得到每個(gè)項(xiàng)目的預(yù)期評(píng)價(jià),接受預(yù)期評(píng)價(jià)最高的項(xiàng).

      4 DQN信任增強(qiáng)過(guò)程

      本節(jié)詳細(xì)介紹了DQN信任增強(qiáng)過(guò)程(trust boost via deepq-learning, DQN-TB),說(shuō)明了該過(guò)程的方法和流程,并給出了相應(yīng)的偽代碼.圖2給出了DQN-TB過(guò)程的流程圖框架.

      Fig.2 Flow chart of DQN-TB圖2 DQN-TB過(guò)程流程圖

      需要說(shuō)明,DQN-TB過(guò)程中可以存在1對(duì)1關(guān)系,即只有用戶u1期望提高u2對(duì)自己的信任值tu1,u2;也可以存在多對(duì)1的關(guān)系,即用戶u1,u2,…均期望提高用戶u3對(duì)自己的信任值.

      4.1 模型框架

      如圖3所示,項(xiàng)目集中每個(gè)項(xiàng)目分別對(duì)應(yīng)不同動(dòng)作,DQN-TB方法將用戶視為環(huán)境主體,在每個(gè)狀態(tài)通過(guò)記憶池中的數(shù)據(jù)進(jìn)行訓(xùn)練,并從項(xiàng)目集中選擇項(xiàng)目作為最終動(dòng)作向用戶推薦項(xiàng)目,同時(shí)獲得用戶返回的獎(jiǎng)勵(lì)并將其與狀態(tài)、動(dòng)作存入記憶池中進(jìn)行下一次網(wǎng)絡(luò)訓(xùn)練更新.

      本過(guò)程使用Q網(wǎng)絡(luò)預(yù)期回報(bào),并根據(jù)圖2的過(guò)程流程及圖3的框架圖,更新網(wǎng)絡(luò):

      Step1.推薦項(xiàng)目

      Fig.4 Data transmission process of DQN-TB圖4 DQN-TB過(guò)程數(shù)據(jù)傳輸流程圖

      用戶在時(shí)間τ發(fā)出廣播,推薦者根據(jù)用戶廣播中的項(xiàng)目要求,從對(duì)應(yīng)項(xiàng)目集中選擇項(xiàng)目進(jìn)行推薦,所選項(xiàng)對(duì)應(yīng)動(dòng)作aτ,推薦者狀態(tài)記為nτ.

      Step2.信任更新

      用戶收到并接受推薦項(xiàng)目后,預(yù)期評(píng)價(jià)與實(shí)際評(píng)價(jià)的差值將影響用戶對(duì)推薦者的信任.將用戶視為DQN-TB過(guò)程的環(huán)境,信任值t隨著用戶對(duì)推薦項(xiàng)目的滿意度進(jìn)行更新,用戶的信任變化幅度Δt將作為DQN-TB過(guò)程的獎(jiǎng)勵(lì)值.

      Δt與動(dòng)作aτ、推薦者狀態(tài)nτ和未來(lái)狀態(tài)nτ+1存儲(chǔ)在記憶池中,并作為網(wǎng)絡(luò)輸入.

      Step3.網(wǎng)絡(luò)訓(xùn)練學(xué)習(xí)

      DQN-TB過(guò)程使用記憶池中的數(shù)據(jù)與Q網(wǎng)絡(luò)進(jìn)行動(dòng)作預(yù)期選擇,通過(guò)target-Q網(wǎng)絡(luò)模擬用戶現(xiàn)實(shí),并根據(jù)Q網(wǎng)絡(luò)與target-Q網(wǎng)絡(luò)的差值更新Q網(wǎng)絡(luò).

      Step4.重復(fù)Step1~Step3.

      Fig.3 Framework steps of DQN-TB圖3 DQN-TB過(guò)程步驟框架

      考慮到現(xiàn)實(shí)情況,用戶間的推薦過(guò)程一旦建立,將不會(huì)無(wú)條件停止.用戶對(duì)推薦者信任值過(guò)低時(shí),推薦者提供的意見(jiàn)不會(huì)被用戶采納.因此,若推薦者始終得到負(fù)向獎(jiǎng)勵(lì)或推薦失敗次數(shù)過(guò)多,將會(huì)終止循環(huán).為使推薦者可擁有更多機(jī)會(huì)進(jìn)行推薦學(xué)習(xí),同時(shí)考慮到實(shí)際情況,信任值過(guò)低時(shí)進(jìn)行推薦不合現(xiàn)實(shí),通過(guò)實(shí)驗(yàn)驗(yàn)證,發(fā)現(xiàn)當(dāng)設(shè)定t<0.2時(shí)終止推薦,會(huì)得到較好的結(jié)果.并且,為防止信任值溢出,規(guī)定當(dāng)t更新結(jié)束后,t>1時(shí),取t=1.

      4.2 DQN-TB設(shè)計(jì)

      考慮信任的動(dòng)態(tài)性以及推薦項(xiàng)目的具體過(guò)程,本方法使用Q網(wǎng)絡(luò)來(lái)估計(jì)推薦者選擇某項(xiàng)目進(jìn)行推薦(即動(dòng)作aτ)的回報(bào).將信任變化程度作為獎(jiǎng)勵(lì)值后,項(xiàng)目選擇回報(bào)可模型化為

      Q(nτ,aτ;ω)≈Qπ(nτ,aτ),

      (9)

      其中,ω為Q網(wǎng)絡(luò)權(quán)重參數(shù),π為所選策略.考慮到推薦者與用戶可能無(wú)交互經(jīng)驗(yàn),規(guī)定推薦策略:

      1) 初次推薦.所有備選項(xiàng)目選擇概率相等,隨機(jī)選擇推薦項(xiàng).

      2) 后續(xù)推薦.使用ε-greedy policy,選擇概率根據(jù)推薦結(jié)果動(dòng)態(tài)變化,最終收斂.

      根據(jù)馬爾可夫性,隨機(jī)狀態(tài)中下一時(shí)刻的狀態(tài)只與當(dāng)前狀態(tài)有關(guān).因此DQN-TB過(guò)程通過(guò)Q網(wǎng)絡(luò)計(jì)算動(dòng)作概率并作出動(dòng)作選擇后,會(huì)得到獎(jiǎng)勵(lì)值Δt及下一步的狀態(tài)nτ+1.同時(shí),實(shí)際回報(bào)由target-Q網(wǎng)絡(luò)模擬計(jì)算:

      (10)

      (11)

      同時(shí),對(duì)目標(biāo)函數(shù)L(ω)使用隨機(jī)梯度下降,即可更新Q網(wǎng)絡(luò)參數(shù)ω.DQN-TB過(guò)程中,Q網(wǎng)絡(luò)與target-Q網(wǎng)絡(luò)結(jié)構(gòu)相同,target-Q網(wǎng)絡(luò)的權(quán)重參數(shù)與Q網(wǎng)絡(luò)權(quán)重參數(shù)相同,每2次迭代同步1次.

      圖4給出了DQN-TB過(guò)程的數(shù)據(jù)傳輸流程過(guò)程.Q網(wǎng)絡(luò)與target-Q網(wǎng)絡(luò)提取記憶池中數(shù)據(jù)進(jìn)行計(jì)算,根據(jù)計(jì)算出的Q_eval值從項(xiàng)目集中選取項(xiàng)目作為動(dòng)作進(jìn)行推薦.用戶接受項(xiàng)目后,實(shí)際體驗(yàn)會(huì)使用戶信任發(fā)生改變.用戶信任更新后,信任變化值返回DQN-TB,Q網(wǎng)絡(luò)的權(quán)重根據(jù)LossFunction進(jìn)行更新,并進(jìn)行下一輪迭代.DQN-TB過(guò)程中,Q網(wǎng)絡(luò)每2步將網(wǎng)絡(luò)權(quán)重傳輸至target-Q網(wǎng)絡(luò).

      4.3 獎(jiǎng)勵(lì)參數(shù)Δt設(shè)置及信任更新

      靜態(tài)信任由于數(shù)值固定,無(wú)法準(zhǔn)確表示用戶在未來(lái)的信任關(guān)系,這一問(wèn)題導(dǎo)致許多推薦算法不能響應(yīng)用戶關(guān)系及用戶偏好的改變,使推薦結(jié)果的準(zhǔn)確性降低.而隨著經(jīng)驗(yàn)累積,動(dòng)態(tài)信任中的推薦者可及時(shí)響應(yīng)用戶的偏好改變,從而使推薦結(jié)果愈加精準(zhǔn).

      已有部分學(xué)者將DQN方法應(yīng)用于推薦系統(tǒng),這使推薦過(guò)程保持長(zhǎng)久的動(dòng)態(tài)性.Zheng等人[14]提出了一種應(yīng)用于新聞推薦的深度強(qiáng)化學(xué)習(xí)框架.該方法根據(jù)用戶特征及行為反饋計(jì)算動(dòng)態(tài)獎(jiǎng)勵(lì)值,使推薦系統(tǒng)能夠捕捉用戶偏好的改變,從而獲得長(zhǎng)久的獎(jiǎng)勵(lì),并保持用戶對(duì)推薦系統(tǒng)的興趣.

      本文提出的方法受到文獻(xiàn)[14]的啟發(fā),考慮到信任的動(dòng)態(tài)變化特性及長(zhǎng)期推薦過(guò)程的經(jīng)驗(yàn)學(xué)習(xí),將信任動(dòng)態(tài)變化幅度Δt作為獎(jiǎng)勵(lì)值,采用DQN進(jìn)行過(guò)程建模.

      以u(píng)1,u2分別為用戶和推薦者為例,使用LMS算法對(duì)信任變化及更新過(guò)程進(jìn)行模擬:

      由于實(shí)際信任更新過(guò)程中評(píng)價(jià)誤差及信任均基于單個(gè)用戶(即u1和u2),誤差成本函數(shù)定義為

      (12)

      更新梯度g定義為

      (13)

      為保證數(shù)值計(jì)算合理性,防止信任更新值溢出,更新梯度g被約束為

      (14)

      通過(guò)計(jì)算用戶u1的實(shí)際評(píng)分與預(yù)期評(píng)分的差值,可對(duì)用戶u1與推薦者u2的信任進(jìn)行更新.若u1與u2的信任關(guān)系為直接信任,兩者信任更新表示為

      (15)

      同樣地,若u1與u2的信任關(guān)系為間接信任,更新表示為

      (16)

      (17)

      推薦者u2獲得的獎(jiǎng)勵(lì)值為0.01g(u2)=Δt.

      DQN-TB過(guò)程中,用戶u1接受用戶u2的推薦并做出實(shí)際評(píng)價(jià)后,該獎(jiǎng)勵(lì)值將作為參數(shù)輸入網(wǎng)絡(luò)中進(jìn)行下一步計(jì)算.

      4.4 Markov決策過(guò)程參數(shù)

      表1給出了DQN-TB過(guò)程的Markov決策過(guò)程相關(guān)定義.

      Table 1 Parameters of Markov Decision Process表1 Markov決策過(guò)程參數(shù)

      用戶推薦過(guò)程不會(huì)無(wú)條件停止,因此,用戶狀態(tài)數(shù)將隨著推薦過(guò)程不斷增加.推薦過(guò)程中的動(dòng)作為推薦項(xiàng)目,因此可選動(dòng)作與項(xiàng)目集中的項(xiàng)目數(shù)量相關(guān).通過(guò)查閱相關(guān)文獻(xiàn)和參考資料,本文設(shè)定γ=0.9.

      4.5 算法偽代碼

      算法1.DQN-TB算法.

      ① 初始化記憶池D的容量N;

      ② 初始化Q網(wǎng)絡(luò)的權(quán)重ω;

      ④ for (episode=1) do

      ⑤ 初始化序列n1={x1},序列預(yù)處理φ1=

      φ(n1);

      ⑥ for (τ=1) do

      ⑦ 初次推薦使用隨機(jī)概率ε選擇動(dòng)作aτ;

      ⑨ if (accept) do

      ⑩ 得到動(dòng)作aτ的獎(jiǎng)勵(lì)值Δt,載入xτ+1;

      4.6 計(jì)算復(fù)雜度分析

      DQN-TB使用了隨機(jī)梯度下降方法進(jìn)行參數(shù)更新,因此,可知DQN-TB算法的計(jì)算復(fù)雜度為T(mén)(n)=(C+n)×n×n×n≈T(n4)=O(n4).可知算法復(fù)雜度為多項(xiàng)式級(jí)別.

      5 實(shí) 驗(yàn)

      本節(jié)將對(duì)DQN-TB過(guò)程中推薦信任與直接信任的轉(zhuǎn)化比例、獎(jiǎng)勵(lì)參數(shù)計(jì)算中的信任更新學(xué)習(xí)率進(jìn)行說(shuō)明,同時(shí)說(shuō)明DQN-TB過(guò)程的信任增強(qiáng)效果,并對(duì)DQN-TB應(yīng)用于推薦系統(tǒng)后的性能給出了相應(yīng)的對(duì)比驗(yàn)證,包括推薦成功率與感知用戶偏好的動(dòng)態(tài)變化.

      5.1 基本介紹

      本文使用仿真實(shí)驗(yàn)驗(yàn)證模型性能,來(lái)模擬推薦方向單個(gè)用戶進(jìn)行推薦,用戶對(duì)推薦方的信任隨推薦而變化的過(guò)程.實(shí)驗(yàn)環(huán)境基于OpenAI Gym,其中,獎(jiǎng)勵(lì)參數(shù)值reward隨著DQN-TB的每一輪推薦,根據(jù)LMS方法動(dòng)態(tài)更新,并傳輸至DQN-TB.實(shí)驗(yàn)數(shù)據(jù)使用從豆瓣采集的用戶影評(píng)數(shù)據(jù)及電影項(xiàng)目類別,包括10個(gè)用戶對(duì)11個(gè)電影項(xiàng)目類別中不同電影的評(píng)價(jià)數(shù)據(jù),所有用戶的觀影總數(shù)為300部,影評(píng)數(shù)據(jù)規(guī)模為510條.實(shí)驗(yàn)從所有用戶中隨機(jī)選擇用戶作為目標(biāo)用戶,并進(jìn)行推薦.

      DQN-TB過(guò)程目的為提高單個(gè)用戶信任值,本實(shí)驗(yàn)中Q網(wǎng)絡(luò)結(jié)構(gòu)示意如圖5所示,Q網(wǎng)絡(luò)從記憶池中提取數(shù)據(jù)輸入到網(wǎng)絡(luò)中,通過(guò)隱藏層計(jì)算Q值,并根據(jù)相應(yīng)動(dòng)作選擇策略來(lái)選擇最終動(dòng)作.DQN-TB過(guò)程中的狀態(tài)為用戶當(dāng)前信任值,動(dòng)作為DQN-TB可向用戶推薦的項(xiàng)目.

      Fig.5 Q network structure圖5 Q網(wǎng)絡(luò)結(jié)構(gòu)圖

      5.2 推薦信任與直接信任轉(zhuǎn)化

      用戶項(xiàng)目推薦過(guò)程中,當(dāng)通過(guò)推薦信任進(jìn)行推薦后,用戶間交互更新為直接信任,此時(shí),為更符合現(xiàn)實(shí)情境,通過(guò)推薦信任計(jì)算出的信任值需進(jìn)行一定折扣才可轉(zhuǎn)化為直接信任值,并進(jìn)行后續(xù)計(jì)算.推薦信任折扣因子由μ表示.

      為確定μ的具體數(shù)值,本節(jié)使用4組小數(shù)據(jù)對(duì)選擇不同折扣因子導(dǎo)致的結(jié)果變化進(jìn)行分析.4組數(shù)據(jù)分別對(duì)應(yīng)高推薦信任與高推薦評(píng)價(jià)、高推薦信任與低推薦評(píng)價(jià)、低推薦信任與高推薦評(píng)價(jià)、低推薦信任與低推薦評(píng)價(jià),同時(shí),4組數(shù)據(jù)中其他項(xiàng)均相同.分析使用的數(shù)據(jù)集由表2給出.推薦信任折扣因子μ采用不同數(shù)值時(shí)對(duì)結(jié)果影響如圖6中整體評(píng)分項(xiàng)表示,對(duì)比評(píng)分項(xiàng)為僅使用Direct Trust1至Direct Trust4計(jì)算得出的預(yù)期評(píng)價(jià).

      由圖6可知,當(dāng)μ較低時(shí),整體預(yù)期評(píng)價(jià)值低于對(duì)比評(píng)分;當(dāng)μ較高時(shí),推薦信任用戶的評(píng)價(jià)結(jié)果對(duì)總結(jié)果起正向激勵(lì)作用.該對(duì)比實(shí)驗(yàn)使用數(shù)據(jù)雖不能代表全部現(xiàn)實(shí)情況,但依舊可以反映推薦信任折扣因子μ對(duì)結(jié)果的影響.考慮到現(xiàn)實(shí)因素,當(dāng)用戶第一次進(jìn)行直接信任推薦時(shí),依舊會(huì)對(duì)評(píng)價(jià)主體用戶有相應(yīng)評(píng)分影響.為使用戶評(píng)分由信任值影響,并盡量少的受到μ的干擾,本文設(shè)定μ=0.8.

      Table 2 Trust Value and Score Value表2 信任及評(píng)分值表

      Fig.6 Performance comparison on different μ圖6 不同μ下預(yù)期評(píng)價(jià)比較

      5.3 信任更新學(xué)習(xí)率

      由4.3節(jié)可知,獎(jiǎng)勵(lì)參數(shù)reward需要通過(guò)信任更新得到.信任更新的學(xué)習(xí)率η對(duì)更新結(jié)果有直接的影響.η過(guò)小會(huì)使更新步長(zhǎng)過(guò)小,收斂速度過(guò)慢;η過(guò)大時(shí)收斂速度會(huì)提高,但可能因?yàn)椴介L(zhǎng)過(guò)大而導(dǎo)致無(wú)法收斂.因此,本節(jié)將針對(duì)不同學(xué)習(xí)率對(duì)信任更新幅度的影響進(jìn)行討論.

      信任更新時(shí),根據(jù)建議用戶與用戶主體社會(huì)關(guān)系的遠(yuǎn)近,用戶主體信任的更新幅度也會(huì)有所區(qū)別.本文將推薦用戶分為直接用戶和推薦用戶.

      Fig.7 Performance comparison on different η圖7 不同η下信任更新幅度比較

      推薦用戶由于社會(huì)關(guān)系較遠(yuǎn),不會(huì)被用戶主體給予高度包容性,同時(shí)由于心理預(yù)期較低,推薦成功后用戶主體的信任值將變化較大,因此推薦信任的更新步長(zhǎng)相對(duì)較大.并且,由于信任值范圍為[0,1],η數(shù)值過(guò)高會(huì)導(dǎo)致信任變化過(guò)大,因此設(shè)定推薦用戶信任更新學(xué)習(xí)率η=0.2.

      對(duì)于直接用戶,由于社會(huì)關(guān)系近,用戶主體會(huì)抱有更多包容性,直接用戶比推薦用戶單次信任更新步長(zhǎng)相對(duì)小,因此本文設(shè)定直接信任用戶的信任更新學(xué)習(xí)率η=0.1.但直接信任用戶信任更新存在累計(jì)作用,因此直接用戶學(xué)習(xí)率設(shè)定為

      其中,p為直接用戶推薦得到正面反饋的次數(shù),q為得到負(fù)面反饋次數(shù).

      5.4 信任動(dòng)態(tài)變化

      根據(jù)DQN-TB過(guò)程,用戶通過(guò)推薦結(jié)果學(xué)習(xí)到相關(guān)經(jīng)驗(yàn)后,推薦選擇將會(huì)進(jìn)一步調(diào)整,以符合被推薦用戶的相關(guān)興趣偏好.圖8給出了DQN-TB過(guò)程中隨輪次增加的信任變化折線圖,用戶初始推薦信任值為0.67.

      Fig.8 The line chart of dynamic change of trust value圖8 信任動(dòng)態(tài)變化折線圖

      當(dāng)用戶間第1輪推薦結(jié)束后、第2輪推薦開(kāi)始前,用戶間信任將根據(jù)5.2節(jié)中轉(zhuǎn)化率進(jìn)行推薦信任-直接信任轉(zhuǎn)換,使得信任值有一定程度的下降.由圖8可知,當(dāng)輪次較少時(shí),DQN-TB過(guò)程處在探索階段,此時(shí)記憶池中的經(jīng)驗(yàn)不夠豐富,因此信任變化折線較為波折,由于最初用戶間為推薦信任,因此當(dāng)推薦者經(jīng)驗(yàn)增加時(shí),對(duì)被推薦用戶的偏好的了解加深,此時(shí)用戶間的信任值持續(xù)上升.并且由于成功經(jīng)驗(yàn)的增多,后續(xù)推薦輪次中用戶間信任值始終處于較高水平,且波動(dòng)幅度很小.

      DQN-TB過(guò)程可較準(zhǔn)確地刻畫(huà)用戶的信任變化狀態(tài),并取得較好的效果.用戶信任的動(dòng)態(tài)變化可以實(shí)時(shí)地反映用戶偏好的變化以及社交關(guān)系的改變,因此DQN-TB的動(dòng)態(tài)性研究是很有意義的,這一特性也為DQN-TB應(yīng)用于推薦系統(tǒng)帶來(lái)更多靈活性.

      5.5 DQN-TB應(yīng)用于推薦系統(tǒng)

      5.4節(jié)中的實(shí)驗(yàn)驗(yàn)證了DQN-TB對(duì)于信任的動(dòng)態(tài)變化及增強(qiáng)都有準(zhǔn)確的刻畫(huà),因此該方法亦可應(yīng)用于推薦系統(tǒng)中,為系統(tǒng)中的用戶提供精準(zhǔn)的推薦.本節(jié)將DQN-TB與Li等人[15]的CSIT方法和Gohari等人[16]提出的CBR方法進(jìn)行了對(duì)比,并比較了三者向用戶進(jìn)行推薦的成功率及三者對(duì)用戶偏好改變的響應(yīng)靈敏度.

      CSIT方法是一種性能優(yōu)越的矩陣因子分解和上下文感知推薦者法,作者同時(shí)提供了GMM方法進(jìn)行增強(qiáng)并同時(shí)處理分類上下文和連續(xù)上下文.CBR方法使用對(duì)用戶意見(jiàn)的信任和意見(jiàn)的確定性來(lái)描述用戶信心,并將用戶信心引入信任建模,通過(guò)隱式信任模型向用戶提供一系列的推薦.由于目前的推薦系統(tǒng)僅利用用戶的社交關(guān)系以及關(guān)系網(wǎng)絡(luò)中其他用戶的偏好來(lái)進(jìn)行相關(guān)推薦,無(wú)法反映用戶的信任變化,且用戶的偏好變化捕捉只能來(lái)源于關(guān)系網(wǎng)絡(luò)中的其他用戶,造成系統(tǒng)對(duì)用戶偏好的變化反饋不及時(shí)、不準(zhǔn)確.

      Fig.9 Change of success rate in recommend system圖9 推薦系統(tǒng)成功率變化

      圖9給出了用戶信任與偏好動(dòng)態(tài)變化下,20輪內(nèi)不同輪次對(duì)應(yīng)的DQN-TB方法、CSIT方法和CBR方法的平均成功率對(duì)比.隨著推薦輪次的增加,DQN-TB擁有越來(lái)越高的準(zhǔn)確率,這是由于DQN-TB對(duì)于動(dòng)態(tài)變化響應(yīng)的靈活性.同時(shí),由于CSIT方法和CBR方法的對(duì)用戶偏好感知的計(jì)算方法影響,兩者的準(zhǔn)確性隨條件的動(dòng)態(tài)變化而逐漸下降.實(shí)際情況中,普通推薦者法準(zhǔn)確率下降的速度隨用戶偏好的變化幅度而有所偏差,但亦足以說(shuō)明DQN-TB的優(yōu)越性.

      5.6 響應(yīng)靈敏度

      定義MANR表示用戶偏好變化后推薦系統(tǒng)響應(yīng)變化所需要的輪次(answer rounds, ANR),MSUMR表示推薦總輪次(sum rounds, SUMR),MSEN表示推薦系統(tǒng)相應(yīng)用戶偏好變化的靈敏度(sensitivity, SEN),則MSEN可計(jì)算為

      表3給出了450輪推薦中用戶偏好變化60次后各推薦系統(tǒng)的響應(yīng)靈敏度.隱式信任模型與上下文矩陣分解過(guò)多的依賴用戶的鄰居及相似用戶,當(dāng)偏好改變多次時(shí),相關(guān)信息的分析將失去其準(zhǔn)確性,將無(wú)法及時(shí)反饋用戶的偏好.CBR方法同時(shí)為用戶推薦多個(gè)項(xiàng),因此具有一定的覆蓋性,響應(yīng)靈敏度優(yōu)于CSIT模型.表3的數(shù)據(jù)驗(yàn)證了DQN-TB過(guò)程對(duì)用戶偏好具有較好的靈敏度,這一特性與DQN-TB過(guò)程中的動(dòng)態(tài)獎(jiǎng)勵(lì)及經(jīng)驗(yàn)學(xué)習(xí)有關(guān).因此,將DQN-TB過(guò)程應(yīng)用到推薦系統(tǒng)可及時(shí)感知用戶偏好的改變,并相應(yīng)地調(diào)整推薦項(xiàng)目的選擇.

      Table 3 Response Sensitivity of Each Recommendation System表3 各推薦系統(tǒng)響應(yīng)靈敏度

      6 總結(jié)及未來(lái)展望

      本文結(jié)合強(qiáng)化學(xué)習(xí)方法提出了一種基于動(dòng)態(tài)信任的信任增強(qiáng)方法,該方法通過(guò)用戶信任的動(dòng)態(tài)變化感知用戶偏好的變化,并根據(jù)推薦經(jīng)驗(yàn)進(jìn)行學(xué)習(xí),以提供更加準(zhǔn)確的推薦,從而使用戶信任增加并保持在較高水平.實(shí)驗(yàn)表明:所提出的方法是高效、準(zhǔn)確的.同時(shí),本方法也可應(yīng)用于推薦系統(tǒng),并達(dá)到感知用戶偏好變化、進(jìn)行精準(zhǔn)推薦的目的.

      本文的方法重點(diǎn)考慮用戶信任的動(dòng)態(tài)變化,未來(lái),將針對(duì)信任及建議計(jì)算方法進(jìn)行改進(jìn)以使推薦的結(jié)果更加精準(zhǔn)、有效.

      猜你喜歡
      推薦者信任算法
      基于MapReduce的改進(jìn)Eclat算法
      Travellng thg World Full—time for Rree
      表示信任
      進(jìn)位加法的兩種算法
      實(shí)話實(shí)說(shuō)
      戲說(shuō)老公
      嚶嚶嚶,人與人的信任在哪里……
      桃之夭夭B(2017年2期)2017-02-24 17:32:43
      從生到死有多遠(yuǎn)
      一種改進(jìn)的整周模糊度去相關(guān)算法
      簡(jiǎn)單生活小技巧
      故事會(huì)(2016年2期)2016-01-19 11:17:17
      阳江市| 微山县| 阳高县| 彰化市| 五大连池市| 岳阳县| 噶尔县| 临邑县| 鄂伦春自治旗| 黎川县| 松桃| 双峰县| 吴旗县| 资源县| 石泉县| 屏边| 衡南县| 洪江市| 东海县| 瑞金市| 中西区| 桂平市| 高邑县| 桐梓县| 屏边| 洛隆县| 大化| 抚顺市| 平湖市| 宁海县| 碌曲县| 孟连| 阿克苏市| 梓潼县| 安国市| 积石山| 青龙| 安吉县| 垦利县| 叶城县| 于田县|