• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于用戶興趣變化融合的個(gè)性化推薦模型

      2013-09-11 03:21:32梁光磊譚國平
      關(guān)鍵詞:物品個(gè)性化融合

      劉 春,梁光磊,譚國平

      (1.中國電信股份有限公司廣東研究院IT運(yùn)營支撐部,廣東 廣州510630;2.華南理工大學(xué)計(jì)算機(jī)學(xué)院,廣東 廣州510006;3.河海大學(xué) 計(jì)算機(jī)與信息學(xué)院,江蘇 南京210098)

      0 引 言

      互聯(lián)網(wǎng)的快速發(fā)展,把人們帶入了信息時(shí)代,給人們帶來便利的同時(shí)也滋生了 “信息過載”,“資源迷向”等問題[1],為解決上述問題,提供個(gè)性化服務(wù)的推薦系統(tǒng)應(yīng)運(yùn)而生[2]。推薦系統(tǒng)從不同的角度有不同的劃分方法,從算法來分,通常主要分為以下幾類:基于內(nèi)容、基于用戶-產(chǎn)品二部圖[3]、基于協(xié)同過濾、基于本體知識(shí)、基于機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘技術(shù)及基于多種模型融合的推薦等。其中融合的推薦是指在前述幾種推薦方法基礎(chǔ)上,對(duì)兩種或多種推薦方法融合進(jìn)行取利去弊的結(jié)合,從而達(dá)到提高系統(tǒng)性能的目的。個(gè)性化推薦的研究成果首先在電商領(lǐng)域獲得了成功應(yīng)用,有統(tǒng)計(jì)分析顯示,亞馬遜的35%的銷售額是由其推薦系統(tǒng)拉動(dòng)的[4],甚至有市場調(diào)研公司的數(shù)據(jù)顯示,亞馬遜網(wǎng)站推薦的銷售轉(zhuǎn)化率可以高達(dá)60%。

      個(gè)性化服務(wù)在電商領(lǐng)域的成功應(yīng)用,加速了它在其它行業(yè)的推廣。目前推薦系統(tǒng)已被廣泛應(yīng)用于音樂,電影,書籍,個(gè)性化廣告匹配,社交網(wǎng)絡(luò)等領(lǐng)域。近年來移動(dòng)互聯(lián)網(wǎng)的發(fā)展,吸引了數(shù)以萬計(jì)的獨(dú)立開發(fā)者,他們開發(fā)的各類應(yīng)用堆滿了應(yīng)用商店,人們出現(xiàn)了新的”應(yīng)用迷航“問題,因此急需引入個(gè)性化推薦服務(wù),來為用戶推薦符合其興趣愛好的應(yīng)用軟件,幫助用戶更好的選擇,同時(shí)也可增加開發(fā)者的收益,增加開發(fā)者的平臺(tái)粘性。某電信運(yùn)營商的 “愛游戲”平臺(tái)是專門提供各類游戲下載的游戲應(yīng)用商店,隨著游戲提供商及開發(fā)者的不斷加入,游戲軟件數(shù)量激增,并在一定程度上導(dǎo)致大多數(shù)的游戲軟件成為了長尾物品[5](指那些埋沒在軟件庫里,沒有機(jī)會(huì)與用戶見面的物品)。然而,當(dāng)前應(yīng)用平臺(tái)上的推薦方法很難將這些長尾物品發(fā)掘出推薦給對(duì)它可能感興趣的用戶。為了解決上述問題,本文提出了一種融合的個(gè)性化推薦模型,首先采用本體論中的概念的思想對(duì)游戲軟件建模,然后通過對(duì)用戶的行為日志進(jìn)行分析建立用戶偏好模型,最后依賴于時(shí)間因子將兩種推薦模型進(jìn)行有效的融合。該模型不僅能夠有效準(zhǔn)確的進(jìn)行個(gè)性化推薦,提供個(gè)性化服務(wù),同時(shí)還具有良好的擴(kuò)展性和移植性,稍加改變便可將其應(yīng)用到其他領(lǐng)域如視頻的個(gè)性化推薦,圖書的推薦等等。

      1 游戲模型構(gòu)建與用戶行為分析

      1.1 基于本體概念的思想構(gòu)建游戲類概念-屬性模型

      計(jì)算機(jī)領(lǐng)域的本體論模型主要從概念關(guān)系角度來揭示事物的特征和本質(zhì)。它通常由概念、概念所具有的特征、概念的實(shí)例及概念間的關(guān)系組成。本體學(xué)習(xí)研究通常是研究如何從結(jié)構(gòu)化或者非結(jié)構(gòu)化的數(shù)據(jù)源中抽取概念及發(fā)現(xiàn)概念間的關(guān)系[6],比較流行的詞典知識(shí)庫如英文的 Word-Net,中文的HowNet均是以詞典知識(shí)為基礎(chǔ)構(gòu)成的概念關(guān)系網(wǎng)。本文的游戲軟件模型構(gòu)建主要參考文獻(xiàn) [6]所述的本體學(xué)習(xí)及概念抽取思想,按照面向?qū)ο笤O(shè)計(jì)思路,將游戲軟件抽象成由各個(gè)類及其屬性所組成的整體。我們提取游戲軟件的各個(gè)類概念及其屬性并根據(jù)他們之間的上下層級(jí)關(guān)系建立了如表1所示的游戲模型。

      1.1.1 游戲軟件的流行度估算

      流行度即熱門程度,一款軟件在一段時(shí)期內(nèi)下載的人數(shù)越多,說明該軟件越受大眾喜愛,可以認(rèn)為其流行度高;如果一款游戲軟件在相當(dāng)長的一段時(shí)期內(nèi)只有少數(shù)人下載則可認(rèn)為其流行度很低。據(jù)此以一段時(shí)間的下載次數(shù)多少衡量一款軟件的當(dāng)前流行度,定義如下

      式中:pop(i)——軟件i的流行度,該公式是對(duì)不同下載量的軟件進(jìn)行權(quán)重衡量;Ci——游戲i的下載量 (用次數(shù)表示);α——權(quán)重基數(shù),可根據(jù)系統(tǒng)平臺(tái)的流量和下載量設(shè)定為某個(gè)默認(rèn)值。

      1.1.2 游戲軟件的綜合評(píng)分score

      一款游戲的口碑如何,是否好玩,是否精致,主要由用戶的評(píng)價(jià)和評(píng)分來衡量,并可從系統(tǒng)平臺(tái)中獲得用戶對(duì)軟件的評(píng)分,而后進(jìn)行加權(quán)平均。定義游戲軟件的綜合評(píng)分公式如下

      式中:scoreji——用戶j對(duì)游戲i的評(píng)分;n——對(duì)軟件i進(jìn)行評(píng)分的用戶總和。

      1.2 用戶在游戲應(yīng)用平臺(tái)上的行為分析

      通過分析用戶的操作日志可得出用戶在系統(tǒng)平臺(tái)的一般性行為見表2。

      1.3 用戶的長期興趣度和隨時(shí)間變化的短期興趣度

      通常用戶的興趣可分為長期興趣和短期興趣。在相當(dāng)長一段時(shí)間內(nèi)變化比較慢的興趣可稱之為長期興趣,例如用戶經(jīng)常喜歡下載格斗類的游戲,說明用戶喜歡格斗游戲,這個(gè)興趣一般不會(huì)突然改變。在短時(shí)間內(nèi)變化較快的興趣稱之為短期興趣,比如用戶之前一直玩格斗類游戲,近一個(gè)星期突然下了一部分音樂類的游戲,這反映了用戶最近的興趣是音樂類的。通過分析用戶的顯性行為和隱性行為,可得出用戶的短期興趣和長期興趣,進(jìn)而能夠進(jìn)行隨用戶興趣變化的個(gè)性化推薦。

      表2 用戶的一般行為

      1.3.1 用戶的長期興趣度

      假設(shè)已獲取用戶u的所有日志信息,對(duì)該用戶的整個(gè)日志信息進(jìn)行統(tǒng)計(jì)分析。比如用戶的日志記錄中出現(xiàn)的動(dòng)作類游戲比例較高,在用戶的整個(gè)日志記錄中持久地出現(xiàn)該類別的游戲,不管最近用戶有沒有下載動(dòng)作類的游戲,都可認(rèn)為用戶的長期興趣是動(dòng)作類游戲。定義用戶對(duì)游戲?qū)傩詉的長期興趣偏好公式如下

      式中:prefer_a(u,i)——用戶u對(duì)屬性i的長期偏好值。N——某類概念中屬性的個(gè)數(shù)。Fi——該類中第i個(gè)屬性出現(xiàn)的頻次。此公式表明了各個(gè)屬性頻次在用戶日志記錄中所占的比重,衡量了一個(gè)屬性的對(duì)用戶的相對(duì)重要程度。

      1.3.2 基于時(shí)間變化的近期興趣度

      (1)非線性遺忘函數(shù)的引入

      德國心理學(xué)家艾賓浩斯對(duì)遺忘現(xiàn)象所做的系統(tǒng)研究表明:人對(duì)事物的遺忘過程是非線性的,并且是先快后慢的,我們引入了雙曲線函數(shù)來擬合艾賓浩斯的非線性遺忘曲線,參考文獻(xiàn) [17]給出調(diào)整后的遺忘函數(shù)如下

      其中ti即用戶對(duì)軟件i的最晚一次行為的時(shí)間 (時(shí)間的單位均以天數(shù)來計(jì)),tmin表示用戶行為日志的最早時(shí)間,tmax即為用戶行為日志的最晚時(shí)間。θ為遺忘系數(shù),θ的值越大遺忘的越快,表明用戶的近期行為所占的比重較大,對(duì)不同的推薦系統(tǒng)可動(dòng)態(tài)調(diào)整其值。

      (2)根據(jù)用戶顯性和隱性行為分析用戶的初始興趣度。

      用戶的顯性操作行為往往是用戶興趣的直接反映,而隱性行為則是用戶興趣的間接反映。本模型中所考慮了下載,收藏,評(píng)分和使用頻次這些線性和隱性用戶行為。它們綜合反映了用戶對(duì)一款軟件是否感興趣,有些行為是隨時(shí)間而累積的,因此將這些分析用來衡量用戶的近期興趣變化。給出計(jì)算用戶u對(duì)游戲i的初始興趣值公式

      其中down即為是否需要下載,取為1或0,對(duì)于wap類網(wǎng)頁的游戲,直接點(diǎn)開即可玩,用戶容易丟失,相對(duì)來說需要下載客戶端的游戲更能粘住用戶;collect為是否收藏,值為1或者0;score即為用戶u對(duì)游戲i的評(píng)分,有的有評(píng)分,有的沒評(píng)分,沒評(píng)分的則以該用戶的普遍評(píng)分來平滑;freq(i)為用戶使用游戲i的頻次,計(jì)算公式如下

      式中:x——使用次數(shù),freq(i)的值與該游戲的使用頻次成正比。

      用戶的各個(gè)行為所占的權(quán)重α+β+γ+θ=1,權(quán)重的確定一般根據(jù)用戶操作需要付出的代價(jià)來定。比如 “下載”行為的權(quán)重就要低于 “收藏行為”;而要用戶的 “評(píng)分行為”與 “收藏行為”需要付出的代價(jià)相似。用戶 “再次使用行為”和 “下載行為”操作難度應(yīng)該相似。

      (3)基于時(shí)間因素的用戶對(duì)軟件i的興趣度:

      為了反映用戶近期的興趣偏好情況,結(jié)合遺忘函數(shù)和用戶的初始興趣值定義,給出反映用戶近期興趣偏好的興趣計(jì)算公式

      式中:pre_final(u,i)——用戶u對(duì)游戲i最終興趣偏好值。prefer_Init(u,i)——上面計(jì)算的用戶對(duì)游戲i的初始興趣值,h(ti)——該用戶在時(shí)間ti的遺忘值。

      2 基于用戶興趣偏好的推薦模型構(gòu)建

      2.1 用戶對(duì)各個(gè)屬性的興趣度值

      假設(shè)用戶u的歷史記錄中有N款游戲,根據(jù)上節(jié)中計(jì)算出的用戶對(duì)屬性j長期興趣偏好值和用戶對(duì)游戲i基于時(shí)間變化的最終興趣值,給出用戶對(duì)各個(gè)屬性的綜合興趣值。這里采用平均差分的思想將用戶對(duì)整個(gè)游戲的興趣值分化到各個(gè)屬性維度上。

      (1)定義用戶u對(duì)屬性j的近期興趣偏好公式如下

      式中:Prefer_a_r(u,j)——用戶u對(duì)屬性j的近期興趣偏好;bij——布爾值,游戲i包含屬性j則值為1,否則為0;Mj為N個(gè)游戲中含有屬性j的游戲的個(gè)數(shù),N為用戶歷史記錄中的游戲個(gè)數(shù)。由于采用平均差分法可能會(huì)導(dǎo)致用戶的長期興趣偏好值與用戶的近期興趣偏好值不在一個(gè)范圍內(nèi),因此要進(jìn)行歸一化操作,歸一化到0-1之間。(2)定義用戶對(duì)各個(gè)屬性的初始興趣度的計(jì)算公式

      分析上式計(jì)算結(jié)果可發(fā)現(xiàn)用戶u的興趣度大多集中在某些類的某些屬性上。通常準(zhǔn)確確定屬性的權(quán)重還要考慮重要度和類內(nèi)集中度這兩個(gè)因素。重要度體現(xiàn)了用戶對(duì)某些屬性的偏好度,集中度則體現(xiàn)了類別內(nèi)各個(gè)屬性值的波動(dòng)程度,反映該類概念對(duì)用戶選擇的影響力大小。如果一個(gè)類內(nèi)的各個(gè)屬性的興趣度值波動(dòng)較小,說明此類不是引起用戶選擇的因素,如果一個(gè)類中的各個(gè)屬性的興趣值波動(dòng)較大,說明該類概念更能影響用戶的選擇。設(shè)游戲本體模型中第k個(gè)類概念下有nk個(gè)屬性,下面給出重要度[8]和改進(jìn)的文獻(xiàn) [9]中的類內(nèi)集中度的計(jì)算公式。

      (3)屬性重要度參見文獻(xiàn) [8]中重要度的計(jì)算公式。

      (4)改進(jìn)的類內(nèi)集中度公式如下

      式中:CENk——類概念k的類內(nèi)集中度,Nk——類概念k中的屬性個(gè)數(shù),——用戶對(duì)屬性i的初始興趣度,如果某個(gè)類中只有一個(gè)屬性的話,集中度就為1,如果各個(gè)屬性的興趣值都相等的話就會(huì)出現(xiàn)CENk值為0,則需要加參數(shù)進(jìn)行平滑。

      類內(nèi)集中度概念在文本分類中是表示某些特征對(duì)該類劃分的影響度,在本模型中中用來評(píng)價(jià)該類對(duì)用戶選擇游戲的影響力的大小。

      (5)生成用戶屬性興趣偏好向量

      用戶對(duì)第k類的第j個(gè)屬性的最終興趣偏好值計(jì)算公式參考文獻(xiàn) [8]修改如下:

      根據(jù)上述公式生成用戶的屬性的偏好序列,用向量模型的形式表示如下

      例如a11表示第1類的第1個(gè)屬性,Pt11表示用戶U對(duì)第1類的第1個(gè)屬性的最終屬性興趣值。上述用戶偏好向量反映了用戶U對(duì)各個(gè)屬性的興趣值大小,對(duì)于所有用戶則可以以矩陣表的形式將各個(gè)偏好向量存儲(chǔ)起來。我們可將計(jì)算出的屬性興趣值按從大到小排序,在進(jìn)行推薦的時(shí)候,可以設(shè)一個(gè)閥值a,只考慮屬性興趣度大于a的n個(gè)屬性的值,這樣將大大降低系統(tǒng)的計(jì)算復(fù)雜度,提高系統(tǒng)的效率。

      2.2 推薦算法描述

      根據(jù)用戶U的興趣偏好向量,對(duì)U的興趣偏好屬性進(jìn)行閥值篩選,然后從海量游戲軟件中找出與用戶U的興趣特征相匹配的候選游戲,按照下面的公式計(jì)算各個(gè)候選游戲的得分。候選游戲g得分的計(jì)算公式如下

      式中:Score_c(g)——章一中給出的游戲g的綜合得分;N——該游戲g的屬性個(gè)數(shù);bgi——游戲g的屬性i是否在篩選過的用戶興趣偏好序列里,用布爾值表示如果是則為1否則為0。Pti即為用戶對(duì)屬性i的最終興趣權(quán)重。分母部分是為了要挖掘長尾物品,消除過于熱門和過于冷門的游戲?qū)Y(jié)果的影響,pop(g)為游戲g的流行度;α為可調(diào)參數(shù)。據(jù)此計(jì)算所有候選軟件的得分,然后降序排序,取top-N推薦給用戶。

      3 基于用戶興趣變化的協(xié)同過濾推薦模型

      協(xié)同過濾技術(shù)是目前推薦系統(tǒng)中的主流技術(shù),它基于統(tǒng)計(jì)學(xué)的思想,采用群體性過濾方法,通過分析與用戶興趣類似的其它用戶的喜好情況來為用戶進(jìn)行個(gè)性化推薦,正是由于參考了其它群體的興趣,可以發(fā)現(xiàn)用戶的潛在興趣愛好。協(xié)同過濾技術(shù)首先由亞馬遜成功應(yīng)用于電商領(lǐng)域,國內(nèi)的豆瓣,淘寶,當(dāng)當(dāng)?shù)膫€(gè)性化推薦系統(tǒng)也采用了協(xié)同過濾的思想。目前協(xié)同過濾主要分為基于用戶的協(xié)同過濾(UserCF),基于物品的協(xié)同過濾 (ItemCF)及基于模型的協(xié)同過濾。ItemCF是依據(jù)群體用戶的喜好來衡量物品之間的相似性,不考慮物品的具體內(nèi)容特征,而UserCF是依據(jù)群體用戶的喜好來衡量用戶之間的相似性,不考慮用戶的具體特征。UserCF主要是適用于物品種類變化較快,而用戶的規(guī)模相對(duì)穩(wěn)定的領(lǐng)域,如新聞推薦,笑話推薦,個(gè)性化閱讀等領(lǐng)域。ItemCF主要用于物品數(shù)量相對(duì)穩(wěn)定,用戶量很大的情況,比如電商,電影推薦等。某電信運(yùn)營商的“游戲”應(yīng)用平臺(tái)比較符合ItemCF的情況,其游戲數(shù)量的增長要遠(yuǎn)遠(yuǎn)小于用戶數(shù)的增長。使用協(xié)同過濾技術(shù)首先要解決的是評(píng)分矩陣的稀疏性問題,下面首先討論稀疏矩陣的填充問題。

      3.1 稀疏評(píng)分矩陣的填充

      由于用戶—物品評(píng)分矩陣大多數(shù)情況下是稀疏的,這里給出幾種常用的填充稀疏矩陣的方法:①對(duì)于用戶沒有評(píng)分的物品統(tǒng)一的按 ‘0’來填充,這是最簡單但也是準(zhǔn)確性最差的方法;②對(duì)于用戶沒有評(píng)分的物品按該用戶對(duì)其它物品評(píng)分的 ‘平均值’來填充;③KNN的方式,取該用戶的幾個(gè)最近鄰鄰居對(duì)該物品評(píng)分的均值或差值來填充,SlopeOne算法的評(píng)分預(yù)測思想即采用的這種方式來預(yù)測;④LFM方法[10],Simon Funkt參見Netflix推薦比賽時(shí)提出了的隱語模型方法,主要過程如下:首先整理出一份用戶評(píng)分矩陣作為訓(xùn)練集,通過隱語義分析模型迭代計(jì)算發(fā)掘用戶-物品之間的隱因子;然后進(jìn)行評(píng)分預(yù)測,用預(yù)測出的值來填充。經(jīng)過驗(yàn)證,該方法可準(zhǔn)確的預(yù)測缺失值,但是該方法基于機(jī)器學(xué)習(xí),必須先進(jìn)行訓(xùn)練,才能發(fā)掘出隱因子,在實(shí)時(shí)性要求比較高的推薦系統(tǒng)中,難以滿足需求。

      3.2 計(jì)算物品之間的相似度矩陣

      根據(jù)游戲應(yīng)用平臺(tái)的特點(diǎn):用戶的評(píng)分極其稀疏,但又要求能夠?qū)崟r(shí)的把一些游戲軟件推薦給適合的用戶。參考項(xiàng)亮的著作[11]我們采用的基于條件概率的方法來計(jì)算物品共現(xiàn)矩陣,以此來衡量物品之間的相似度,條件概率的計(jì)算公式如下

      式中:N (i)——喜歡游戲i的用戶數(shù),N (j)——喜歡游戲j的用戶數(shù)。

      上述公式基于這樣的一種假設(shè),如果i,j同時(shí)被多個(gè)用戶喜歡,那么可以認(rèn)為i和j在某種程度上是相似的。通常一些熱門游戲的玩的人數(shù)比較多,但是如果用上述方法會(huì)出現(xiàn)大多數(shù)游戲都與熱門游戲相似的假象,為了防止任何游戲都與熱門游戲的相似度很大,修正后的計(jì)算公式參見文獻(xiàn) [11]的53頁。

      John S.Breese在文獻(xiàn) [12]中提出了一個(gè)稱為IUF(inverse user frequence),即用戶活躍度對(duì)數(shù)的倒數(shù),他認(rèn)為不活躍用戶對(duì)相似度矩陣的貢獻(xiàn)度比不活躍用戶的貢獻(xiàn)度要大。比如系統(tǒng)中有些用戶十分活躍,可能每天都會(huì)下載軟件,該用戶雖然下載次數(shù)很多,但可能并不是出于自身的興趣,因此有必要降低這些過于活躍的用戶對(duì)物品相似度的貢獻(xiàn)度。

      消除過于活躍用戶影響的物品相似度計(jì)算公式修正如下

      式中:Puj——用戶u對(duì)候選游戲軟件j的評(píng)分;i——用喜歡的游戲中與游戲j最相似K個(gè),K值一般取10,Wij衡量i和j的相似度;N (u)——用戶喜歡的游戲集合;prefer_final是以上計(jì)算出的用戶對(duì)游戲i的興趣度;分母部分主要用來消除過于熱門和冷門的游戲的影響以挖掘長尾物品,其中α為調(diào)節(jié)參數(shù)。

      式中:N (u)——用戶U所玩的游戲的數(shù)目。

      John S.Breese的實(shí)驗(yàn)表明在準(zhǔn)確率和召回率保持不變的情況下,通過消除過于活躍用戶的影響,提高了推薦結(jié)果的覆蓋率,改進(jìn)了ItemCF的綜合性能。

      Karypis的研究[13]證明,如果將ItemCF的相似度矩陣按最大值歸一化,可以提高推薦的準(zhǔn)確率。根據(jù)上述相似度計(jì)算公式計(jì)算出物品的初始相似度矩陣M,然后使用最大值歸一化公式對(duì)M進(jìn)行最大值歸一化,公式描述參見文獻(xiàn) [11]的58頁。

      3.3 改進(jìn)的ItemCF推薦算法描述

      根據(jù)以上計(jì)算得到物品相似度矩陣后,給出引入時(shí)間因素及消除熱門物品影響的ItemCF推薦算法如下

      4 兩種推薦模型的融合

      融合的推薦方法是通過把兩種或多種推薦方法按照一定的規(guī)則整合,以此來彌補(bǔ)各自推薦方法的不足。通常情況下融合的推薦模型能夠達(dá)到比較好的推薦效果,Netflix百萬美元推薦系統(tǒng)改進(jìn)大賽的冠軍團(tuán)隊(duì)就是融合幾十種推薦模型才達(dá)到了提升10%的目標(biāo)[14],可見融合的推薦模型確實(shí)能提升推薦系統(tǒng)的性能。根據(jù)文獻(xiàn) [1]中提供的融合思路,推薦模型的融合主要有前融合、中融合,后融合,本模型中采用的是后融合的方式。

      基于用戶興趣偏好的推薦能夠發(fā)現(xiàn)與用戶歷史興趣相符合的物品,而基于協(xié)同過濾的推薦,能夠發(fā)掘用戶的潛在興趣。本模型將基于用戶興趣偏好的推薦方法和改進(jìn)后的ItemCF推薦方法進(jìn)行后融合,還引入了時(shí)間因子對(duì)融合模型參數(shù)進(jìn)行自適應(yīng)調(diào)節(jié),融合后的推薦方法描述如下

      式中:Vicb——基于用戶興趣偏好的推薦算法中計(jì)算出的得分值,Vicf——游戲軟件i使用改進(jìn)后的ItemCF算法中計(jì)算出的得分值。Β——基于時(shí)間因素的自動(dòng)調(diào)節(jié)參數(shù),β的計(jì)算方法描述如下

      式中:Tcur——當(dāng)前時(shí)間 (時(shí)間單位均以天來計(jì)),Tonline——游戲的發(fā)布時(shí)間,α為調(diào)參數(shù),這樣就解決了新上線不久的軟件,其用戶數(shù)不是很多,使用ItemCF算法不能有效的推薦給可能對(duì)它感興趣的用戶的問題。該公式中表示如果一部游戲是新游戲,則剛上線不久時(shí)β很大,Vcb權(quán)重較大可以將其推薦給對(duì)它的感興趣的用戶,隨著用戶數(shù)的增多,該軟件則為部分用戶熟知,β逐漸降低,Vcf權(quán)重逐漸增大,可以挖掘?qū)λ信d趣的潛在用戶。

      注:Vcb是基于用戶興趣偏好的推薦模型算出的游戲得分,Vcf是基于改進(jìn)的ItemCF算出的游戲得分。在進(jìn)行融合時(shí),如果一部游戲在兩個(gè)推薦模型中同時(shí)被推薦則可用上面的公式進(jìn)行加權(quán),如果只在一種模型里被推薦則在另外一個(gè)模型里的值就可以看作是0或者基于另外一個(gè)模型的推薦公式進(jìn)行計(jì)算得出在該模型中的得分后再進(jìn)行加權(quán)。在使用這個(gè)融合公式時(shí),Vcb和Vcf值應(yīng)該先歸一化到同一范圍內(nèi)。

      5 實(shí)驗(yàn)驗(yàn)證與結(jié)果分析

      由于本推薦模型是用于top-N推薦,根據(jù)文獻(xiàn) [11]所述,我們不采用常規(guī)的評(píng)分預(yù)測評(píng)價(jià)方法MAE和RMSE方法,而采用信息檢索領(lǐng)域的準(zhǔn)確率來進(jìn)行評(píng)測,為了評(píng)測模型發(fā)掘長尾物品的能力,把覆蓋率也作為一個(gè)評(píng)測指標(biāo)。實(shí)驗(yàn)依據(jù)某電信運(yùn)營商的 “游戲”平臺(tái)的實(shí)際用戶數(shù)據(jù),隨機(jī)選取游戲行為相對(duì)較多的用戶,實(shí)驗(yàn)的用戶總數(shù)為7286個(gè),用戶的行為日志的時(shí)間段是8個(gè)月,游戲數(shù)為5000款。表3為用戶游戲行為信息表樣例。

      表3 用戶游戲行為信息表樣例

      將每個(gè)用戶玩過的游戲隨機(jī)按7∶3比例分為兩份,記作A份和B份,將A份作為訓(xùn)練集,B份作為測試集。用訓(xùn)練集的數(shù)據(jù)訓(xùn)練得到相應(yīng)的推薦模型,然后運(yùn)用上述的推薦算法得出每個(gè)用戶的top-N推薦列表 (此次實(shí)驗(yàn)N=10)。這里的推薦列表包括以下3份:

      (1)采 用 基 于 用 戶 興 趣 偏 好 (user interest preference,UIP)的推薦方法得到的個(gè)性化推薦列表 (參考第一、二章)。

      (2)采用改進(jìn)后的ItemCF算法得到的個(gè)性化推薦列表(參考第三章)。

      (3)采用后融合推薦方法得到的個(gè)性化推薦列表 (參考第四章)。

      將這3個(gè)推薦列表與測試集的結(jié)果進(jìn)行對(duì)比,得出如圖1所示。

      從實(shí)驗(yàn)結(jié)果可以看出:采用基于UIP的推薦方法在精確度和覆蓋率方面稍低于改進(jìn)后的ItemCF算法,但是基于UIP方法計(jì)算復(fù)雜度低,模型構(gòu)建相對(duì)簡單,并且能夠進(jìn)行實(shí)時(shí)推薦,能夠?yàn)橛脩敉扑]符合其興趣偏好的物品;改進(jìn)后的ItemCF算法在由于能夠根據(jù)群體興趣發(fā)現(xiàn)用戶的潛在興趣,因而在精確度方面要稍高于UIP,但是在計(jì)算物品相似度矩陣方面開銷較大;3種算法在覆蓋率上都接近50%,融合方法的挖掘長尾物品的能力稍強(qiáng),并且采用融合的推薦方法,比單獨(dú)采用UIP方法和改進(jìn)的ItemCF推薦方法在精確度上提升超過70%,由此可見我們采用的考慮時(shí)間因子的融合的推薦模型是較優(yōu)的;④由圖示可以看出,在精確度方面3種模型最高只達(dá)到10%左右,這除了與模型中參數(shù)調(diào)優(yōu)有關(guān)外,還受平臺(tái)測試數(shù)據(jù)特性的影響,部分用戶行為數(shù)據(jù)和物品信息缺失,導(dǎo)致精確度的整體拉低。以上只是離線實(shí)驗(yàn)的結(jié)果,該結(jié)果已經(jīng)驗(yàn)證了該融合的個(gè)性化推薦模型的優(yōu)良性。對(duì)推薦系統(tǒng)最準(zhǔn)確的評(píng)測則是用戶滿意度,我們將在系統(tǒng)上線后進(jìn)行在線驗(yàn)證本個(gè)性化推薦模型的各項(xiàng)指標(biāo)。

      圖1 3種推薦方式效果比對(duì)

      6 結(jié)束語

      本文討論了將基于用戶興趣偏好 (UIP)推薦和改進(jìn)的ItemCF算法進(jìn)行后融合的個(gè)性化推薦模型,并將其應(yīng)用于應(yīng)用商店領(lǐng)域的軟件推薦。實(shí)驗(yàn)表明該融合模型反映了用戶興趣漂移性,提高了個(gè)性化推薦的精度,提升了該應(yīng)用平臺(tái)的綜合推薦性能。在取得一定成果的同時(shí)我們還遇到了個(gè)性化推薦算法都會(huì)遇到的冷啟動(dòng)問題[15],我們的初步解決方案是采用非個(gè)性化推薦方式,表述如下:

      (1)新用戶:由于無法獲取其日志記錄,則可進(jìn)行非個(gè)性化推薦,將各個(gè)游戲的綜合評(píng)分score_c(i)和流行度pop(i)進(jìn)行加權(quán),生成一個(gè)熱門游戲列表,推薦給新用戶。計(jì)算公式如下

      式中:ɑ——可變參數(shù)。

      (2)新游戲軟件:可在系統(tǒng)設(shè)置一個(gè)最新上線列表,可以把新上線的軟件放到最新上線列表中,這樣新軟件就可以面向所有用戶。

      以上只是解決 “冷啟動(dòng)”問題的初步方案,推薦系統(tǒng)的 “冷啟動(dòng)”問題是為大多數(shù)研究人員所關(guān)注的問題,除此之外推薦系統(tǒng)中的數(shù)據(jù)稀疏性、推薦模型的擴(kuò)展性問題[16]、基于潛在因子分析法的實(shí)時(shí)應(yīng)用[17]和基于網(wǎng)絡(luò)圖構(gòu)建高效推薦模型等問題都是推薦系統(tǒng)領(lǐng)域的熱門研究問題,這些問題的解決對(duì)提高推薦系統(tǒng)的性能非常重要,這些將是我們今后研究的方向。

      [1]XU Hailing,WU Xiao,LI Xiaodong,et al.Comparison study of Internet recommendation system [J].Journal of software,2009,20 (2):350-362 (in Chinese). [許海玲,吳瀟,李曉東,等.互聯(lián)網(wǎng)推薦系統(tǒng)比較研究 [J].軟件學(xué)報(bào),2009,20 (2):350-362.]

      [2]Adomavicius G,Tuzhilin A.Toward the next generation of recommender systems:A survey of the state-of-the-art and possible extensions [J].IEEE Trans on Knowledge and Data Engineering,2005,17 (6):734-749.

      [3]Zhou T,Ren J,Medo M,et al.Bipartite network projection and personal recommendation [J].Physical Review E,2007,76 (4):7.

      [4]LIU Jianguo,ZHOU Tao,WANG Binghong.The research progress of personalized recommendation system [J].Progress in Natural Science,2009,19 (1):1-12 (in Chinese).[劉建國,周濤,汪秉宏.個(gè)性化推薦系統(tǒng)的研究進(jìn)展 [J].自然科學(xué)進(jìn)展,2009,19 (1):1-12.]

      [5]Chris Anderson.Long tail theory [M].QIAO Jiangtao,transl.Beijing:China CITIC Press,2006:35-39 (in Chinese).[克里斯·安德森.長尾理論 [M].喬江濤,譯.北京:中信出版社,2006:35-39.]

      [6]DU Xiaoyong,LI Man,WANG Shan.A survey on ontology learning research [J].Journal of Software,2006,17 (9):1837-1847 (in Chinese).[杜小勇,李曼,王珊.本體學(xué)習(xí)研究綜述 [J].軟件學(xué)報(bào),2006,17 (9):1837-1847.]

      [7]ZHENG Xianrong,TANG Zeying,CAO Xianbin.Non-lineal gradual forgetting collaborative filtering algorithm capable of adapting to user’s drifting interest [J].Computer Aided Engineering,2007,16 (2):69-73 (in Chinese).[鄭先榮,湯澤瀅,曹先彬.適應(yīng)用戶興趣變化的非線性逐步遺忘協(xié)同過濾算法 [J].計(jì)算機(jī)輔助工程,2007,16 (2):69-73.]

      [8]LI Ning,WANG Zilei,WU Gang,et al.Research on user pattern in personalized film recommendation system [J].Computer Applications and Software,2010,27 (12):51-54 (in Chinese).[李寧,王子磊,吳剛,等.個(gè)性化影片推薦系統(tǒng)中用戶模型研究 [J].計(jì)算機(jī)應(yīng)用與軟件,2010,27 (12):51-54.]

      [9]LI Ning.The study of personalized movie recommendation technology in home network [D].Hefei:University of Science & Technology China,2009 (in Chinese).[李寧.家庭網(wǎng)絡(luò)中個(gè)性化影片推薦技術(shù)研究 [D].合肥:中國科學(xué)技術(shù)大學(xué),2009.]

      [10]Simon Funk.Netflix update:Try this at home [EB/OL].[2006-12-11].http://sifter.org/~simon/journal/20061211.html.

      [11]XIANG Liang.Recommendation system in action [M].Beijing:The People Post and Telecommunications Press,2012:51-59 (in Chinese).[項(xiàng)亮.推薦系統(tǒng)實(shí)踐 [M].北京:人民郵電出版社,2012:51-59.]

      [12]Breese J S,Heckerman D,Kadie C.Empirical analysis of predictive algorithms for collaborative filtering [C]//Proceedings of the 14th Conference on Uncertainty in Artificial Intelligence,1998:43-52.

      [13]Mukund Deshpande, George Karypis.Item-based top-N recommendation algorithms [J].ACM Transactions on Information Systems,2004,22 (1):143-177.

      [14]Netflix HQ.Grand prize awarded to team BellKor’s pragmatic chaos [EB/OL].[2006-08-29].http://www.netflixprize.com//community/viewtopic.php?id=1537.

      [15]Ahn H J.A new similarity measure for colaborative filtering to alleviate the new user cold-starting problem [J].Information Sciences,2008,178 (1):37-51.

      [16]Bell R,Koren Y.Scalable collaborative filtering with jointly derived neighborhood interpolation weights [C]//IEEE International Conference on Data Mining,2007.

      [17]Takeshi Suzuki,Gendo Kumoi,Kenta Mikawa,et al.A study of recommender systems on a latent probabilistic space model [C]//Proceedings of 12th Asia Pacific Industrial Engineering & Management Systems Conference,2011.

      猜你喜歡
      物品個(gè)性化融合
      稱物品
      村企黨建聯(lián)建融合共贏
      融合菜
      從創(chuàng)新出發(fā),與高考數(shù)列相遇、融合
      “雙十一”,你搶到了想要的物品嗎?
      《融合》
      堅(jiān)持個(gè)性化的寫作
      文苑(2020年4期)2020-05-30 12:35:12
      誰動(dòng)了凡·高的物品
      新聞的個(gè)性化寫作
      新聞傳播(2018年12期)2018-09-19 06:27:10
      上汽大通:C2B個(gè)性化定制未來
      台东市| 泸水县| 聂荣县| 广元市| 上思县| 阜城县| 台前县| 祁门县| 康马县| 靖江市| 娱乐| 崇阳县| 安徽省| 卢湾区| 米脂县| 乐安县| 福泉市| 图们市| 蕲春县| 南康市| 山西省| 南皮县| 新昌县| 边坝县| 临颍县| 海丰县| 都江堰市| 开封市| 荃湾区| 新化县| 盱眙县| 苗栗市| 凤台县| 新余市| 阜新| 博白县| 东阳市| 赣榆县| 常熟市| 淳化县| 左云县|