王慶福
基于多維尺度向量的用戶(hù)興趣模型構(gòu)建研究
王慶福
用戶(hù)的興趣模型構(gòu)建在個(gè)性化平臺(tái)上有著廣泛的應(yīng)用,針對(duì)用戶(hù)的興趣進(jìn)行服務(wù)定制具有非常重要的意義。提出以多維尺度向量的方式來(lái)表征用戶(hù)的興趣,多維尺度向量可以較好的反映用戶(hù)興趣特征。同時(shí),用戶(hù)的興趣隨著時(shí)間的變化呈現(xiàn)非規(guī)則性變化,多維尺度向量可以通過(guò)各維度上坐標(biāo)反映這種非規(guī)則變化。實(shí)驗(yàn)選取10名志愿者,以新浪網(wǎng)作為興趣采集資源,實(shí)驗(yàn)結(jié)果表明,新的算法能夠較為準(zhǔn)確地反映用戶(hù)的興趣變化。
多維尺度向量;用戶(hù)興趣;動(dòng)態(tài)非規(guī)則;興趣模型
用戶(hù)興趣的采集一直是諸多電商平臺(tái)和社交平臺(tái)研究熱點(diǎn),針對(duì)用戶(hù)的興趣進(jìn)行定向資源推薦,提高用戶(hù)體驗(yàn)具有非常重要的意義和價(jià)值[1]。
用戶(hù)興趣的表示一直是用戶(hù)興趣采集中的核心問(wèn)題,如何對(duì)用戶(hù)的興趣進(jìn)行定量表示從而根據(jù)興趣特征進(jìn)行資源定向推薦。傳統(tǒng)的興趣表示方式將用戶(hù)的興趣歸為一主要興趣,以此興趣點(diǎn)來(lái)對(duì)用戶(hù)進(jìn)行定向推薦,顯然這種方式不能很好的反映的興趣特征和興趣變化[2];此后,嘗試將用戶(hù)的興趣按照向量進(jìn)行表示并定期更新,然而卻忽略了用戶(hù)的動(dòng)態(tài)非規(guī)則變化特性[3],因此,此種方式的興趣表示方法無(wú)法適時(shí)的調(diào)整用戶(hù)的興趣特征。
本文通過(guò)分析用戶(hù)興趣的動(dòng)態(tài)變化特性,提出采用多維尺度向量來(lái)表示用戶(hù)的興趣,多維尺度向量中每個(gè)維度對(duì)應(yīng)用戶(hù)的一個(gè)興趣維度,定義興趣衰減函數(shù)來(lái)對(duì)用戶(hù)興趣的動(dòng)態(tài)非規(guī)則變化進(jìn)行量化表示,當(dāng)用戶(hù)的某個(gè)興趣維度衰減到臨界閾值時(shí),可對(duì)用戶(hù)的多維尺度興趣向量進(jìn)行全局調(diào)整去掉該興趣維度。實(shí)驗(yàn)以新浪網(wǎng)作為用戶(hù)興趣的資源采集,挑選10名志愿者進(jìn)行興趣變化測(cè)試,實(shí)驗(yàn)結(jié)果表明本文算法能夠較為準(zhǔn)確地反映用戶(hù)興趣的動(dòng)態(tài)變化。
用戶(hù)在進(jìn)行網(wǎng)頁(yè)瀏覽時(shí)會(huì)留下用戶(hù)的諸多信息,如果登錄用戶(hù)則會(huì)保留用戶(hù)的個(gè)人信息以及對(duì)應(yīng)的網(wǎng)頁(yè)瀏覽記錄,如果非登錄用戶(hù)則可以通過(guò)IP地址來(lái)標(biāo)識(shí)該用戶(hù)的瀏覽記錄。在用戶(hù)興趣的提取時(shí),我們可獲得4類(lèi)常用的信息(通稱(chēng)為瀏覽歷史):歷史、書(shū)簽、頁(yè)面內(nèi)容和訪(fǎng)問(wèn)日志。 瀏覽器通常會(huì)保持用戶(hù)當(dāng)前和以往會(huì)話(huà)中的請(qǐng)求記錄。全局歷史存儲(chǔ)了訪(fǎng)問(wèn)頁(yè)面的標(biāo)題,URL,最初訪(fǎng)問(wèn)時(shí)間戳,最近訪(fǎng)問(wèn)時(shí)間戳,截止時(shí)間戳,URL訪(fǎng)問(wèn)的次數(shù)。通過(guò)瀏覽歷史記錄可以初步認(rèn)定訪(fǎng)問(wèn)頻率高的網(wǎng)頁(yè)(即 URL)代表用戶(hù)的較高興趣。書(shū)簽服務(wù)提供了用戶(hù)對(duì)感興趣的站點(diǎn)的快速訪(fǎng)問(wèn),用戶(hù)通常將自身經(jīng)常需要訪(fǎng)問(wèn)或者感興趣的網(wǎng)頁(yè)內(nèi)容以書(shū)簽的形式加以存儲(chǔ),其中的 URL可認(rèn)為是用戶(hù)很感興趣的內(nèi)容站點(diǎn)。每個(gè)頁(yè)面通常包含多個(gè)指向其他站點(diǎn)的鏈接,如果這個(gè)頁(yè)面內(nèi)容是用戶(hù)感興趣的,則他將很有可能會(huì)訪(fǎng)問(wèn)此頁(yè)面所包含的鏈接,這一規(guī)則在搜索引擎領(lǐng)域也同樣適用,經(jīng)典頁(yè)面排序算法則是參照此規(guī)則。因此,可認(rèn)為訪(fǎng)問(wèn)頁(yè)面包含的鏈接的可能性越大則用戶(hù)對(duì)頁(yè)面越感興趣。對(duì)于索引頁(yè)面,這點(diǎn)是非常重要的,因?yàn)椋撕芏嘞嚓P(guān)內(nèi)容的鏈接,所以,相對(duì)于包含內(nèi)容的頁(yè)面,用戶(hù)的瀏覽時(shí)間就很短。
本文通過(guò)搭建一個(gè)簡(jiǎn)易的頁(yè)面瀏覽網(wǎng)站來(lái)提取用戶(hù)的興趣點(diǎn),通過(guò)用戶(hù)對(duì)網(wǎng)頁(yè)的瀏覽歷史,將瀏覽日志進(jìn)行抽取分析,通過(guò)以上的4種指標(biāo)對(duì)用戶(hù)的頁(yè)面停留時(shí)間來(lái)反映用戶(hù)的每個(gè)網(wǎng)頁(yè)具體的感興趣程度。
用戶(hù)的興趣呈現(xiàn)出多元化,用戶(hù)可能同時(shí)對(duì)多個(gè)領(lǐng)域存在興趣[4],在細(xì)分到具體領(lǐng)域時(shí),本文對(duì)用戶(hù)的興趣定義一個(gè)權(quán)值,稱(chēng)之為興趣值,用興趣值的高低來(lái)表示用戶(hù)對(duì)各個(gè)領(lǐng)域的喜好程度。假設(shè)用戶(hù)的興趣維度以C表示,C={互聯(lián)網(wǎng)、電影、音樂(lè)、美食、旅游}。各個(gè)領(lǐng)域?qū)?yīng)的興趣值如表1所示:
表1 興趣值表示表
在表1中,用戶(hù)的互聯(lián)網(wǎng)興趣值為0.32,電影興趣值是0.14,可見(jiàn)用戶(hù)對(duì)于互聯(lián)網(wǎng)更具有興趣。將用戶(hù)的興趣維度對(duì)應(yīng)于向量中各個(gè)坐標(biāo)系,各個(gè)興趣維度的興趣值對(duì)應(yīng)于坐標(biāo)系上坐標(biāo)。則用戶(hù)興趣的表示如圖1所示:
圖1 用戶(hù)興趣表示
在圖1中,將用戶(hù)興趣通過(guò)興趣值加以量化,圖中閉合紅色部分表示用戶(hù)的興趣圖譜。用戶(hù)的興趣非常抽象,用戶(hù)興趣值的量化也相對(duì)困難。本文以用戶(hù)的瀏覽行為來(lái)表征用戶(hù)興趣值,通過(guò)用戶(hù)在頁(yè)面的停留時(shí)間在整個(gè)瀏覽時(shí)間的比重來(lái)表示興趣值[5]。興趣收集系統(tǒng)后臺(tái)通過(guò)網(wǎng)頁(yè)分類(lèi)技術(shù)對(duì)網(wǎng)頁(yè)進(jìn)行分類(lèi),分類(lèi)后的結(jié)果可以定義為各個(gè)興趣領(lǐng)域,用戶(hù)在固定時(shí)間段內(nèi)的頁(yè)面瀏覽會(huì)對(duì)應(yīng)相應(yīng)的興趣領(lǐng)域。用戶(hù)興趣值的量化表示如公式(1):
在公式(1)中,N表示網(wǎng)頁(yè)分類(lèi)后類(lèi)別數(shù)目即興趣領(lǐng)域的數(shù)目,表示用戶(hù)在某個(gè)興趣領(lǐng)域的頁(yè)面停留時(shí)間之和,表示用戶(hù)整個(gè)頁(yè)面瀏覽時(shí)間總和。
用戶(hù)興趣呈現(xiàn)一種動(dòng)態(tài)的非規(guī)則變化,隨著時(shí)間的推移用戶(hù)的興趣也會(huì)隨之漂移,興趣漂移呈現(xiàn)一定程度的不規(guī)則性,相對(duì)而言,用戶(hù)新產(chǎn)生的興趣領(lǐng)域應(yīng)當(dāng)相應(yīng)地分配較高的興趣值,因?yàn)橛脩?hù)可能受到當(dāng)前環(huán)境和其他用戶(hù)的影響。用戶(hù)興趣動(dòng)態(tài)更新算法如表2所示:
表2 用戶(hù)興趣動(dòng)態(tài)更新算法流程表
在表2中,用戶(hù)的興趣會(huì)隨著時(shí)間的變化呈現(xiàn)非規(guī)則變化,對(duì)于每次捕獲的用戶(hù)興趣列表,首先,需要判斷用戶(hù)的興趣是否在當(dāng)前的用戶(hù)興趣圖譜中出現(xiàn),如果出現(xiàn)則更新當(dāng)前興趣圖譜中該興趣的興趣值,否則將新的興趣加入興趣圖譜中。當(dāng)完成用戶(hù)興趣列表的掃描后,則需要對(duì)用戶(hù)的興趣圖譜進(jìn)行全局更新,剔除用戶(hù)歷史興趣中興趣值低于閾值的興趣[6]。
同時(shí)用戶(hù)的興趣也會(huì)隨著時(shí)間的延展呈現(xiàn)一定程度的衰減,興趣的衰減呈現(xiàn)逐漸遞減的趨勢(shì),通過(guò)對(duì)大量用戶(hù)行為日志的分析,用戶(hù)的興趣衰減近似呈現(xiàn)指數(shù)分布趨勢(shì),如圖2所示:
圖2 興趣衰減曲線(xiàn)圖
將用戶(hù)興趣的衰減變化以公式加以量化,如公式(2):
在公式(2)中,Δt為時(shí)間差,表示當(dāng)前時(shí)間和歷史時(shí)間之間的差值,v'表示經(jīng)過(guò)衰減之后的興趣值。
實(shí)驗(yàn)選取10名志愿者對(duì)本文的算法進(jìn)行驗(yàn)證。以新浪網(wǎng)作為興趣采集資源點(diǎn),采用Heritrix網(wǎng)絡(luò)爬蟲(chóng)工具,以3天為周期,定期去爬取新浪門(mén)戶(hù)網(wǎng)中網(wǎng)頁(yè),將爬取到的網(wǎng)頁(yè)構(gòu)建一個(gè)小型的本地瀏覽網(wǎng)站。挑選的10名志愿者根據(jù)自身興趣選擇從新浪門(mén)戶(hù)網(wǎng)中爬取的內(nèi)容網(wǎng)頁(yè)進(jìn)行瀏覽。分別采用基于單一興趣的用戶(hù)興趣模型算法(算法 1)、基于多個(gè)興趣的固定用戶(hù)興趣模型算法(算法2)和本文算法(算法 3),分別每種算法對(duì)用戶(hù)興趣變化之后的敏感度,通過(guò)比較3種算法在用戶(hù)興趣捕獲上的準(zhǔn)確率。
在表2中,α=0.01,將興趣采集的資源采集周期定為10次,每次資源完成后,10名志愿者進(jìn)行資源選擇瀏覽。前 3周期的用戶(hù)瀏覽行為定義為對(duì)用戶(hù)興趣圖譜的補(bǔ)充和完整,隨機(jī)挑選10名志愿者中一名,分別比較在3種算法下興趣點(diǎn)的變化如表3所示:
表3 前三個(gè)周期下三種算法用戶(hù)興趣變化表
將后 7個(gè)周期采集的數(shù)據(jù)作為用戶(hù)瀏覽行為的落地資源,用以對(duì)本文算法進(jìn)行驗(yàn)證,分別比較3種算法對(duì)用戶(hù)興趣定為的準(zhǔn)確率,如表4所示:
表4 三種算法在后七周期下用戶(hù)興趣捕獲準(zhǔn)確率表
3種算法在后7周期用戶(hù)興趣捕獲準(zhǔn)確率如圖3所示:
圖3 三種算法在后7個(gè)周期用戶(hù)興趣捕獲準(zhǔn)確率圖
在圖3中可以看出,算法1(基于單一興趣的用戶(hù)興趣模型)效果要低于算法2和算法3,并且算法2和算法3保持了相對(duì)較高的用戶(hù)興趣捕獲準(zhǔn)確率,算法2和算法3相比,算法3對(duì)用戶(hù)興趣變化的捕獲更為敏感,由于是采用動(dòng)態(tài)的對(duì)用戶(hù)興趣值進(jìn)行調(diào)整并且實(shí)時(shí)的對(duì)用戶(hù)興趣圖譜進(jìn)行全局更新,因此能夠保持較高的用戶(hù)興趣捕獲準(zhǔn)確率。同樣在圖3也可以看出,隨著周期的延長(zhǎng),算法3的準(zhǔn)確率性能也逐漸與算法2拉大,可見(jiàn)基于本文的算法能夠較為準(zhǔn)確并且敏感的判斷用戶(hù)興趣的變化并能夠?qū)崟r(shí)反饋。
本文以用戶(hù)興趣的表示為出發(fā)點(diǎn),將用戶(hù)的興趣以多維尺度向量的方式加以表示,每個(gè)興趣對(duì)應(yīng)多維向量中一個(gè)坐標(biāo)系,該興趣的興趣值對(duì)應(yīng)坐標(biāo)系中坐標(biāo)值,通過(guò)這種方式來(lái)表示用戶(hù)的興趣圖譜。用戶(hù)的興趣隨著時(shí)間呈現(xiàn)出非規(guī)則變化,通過(guò)用戶(hù)興趣的變化動(dòng)態(tài)的更新興趣圖譜,最后,挑選10名志愿者分別就本文算法和其它兩種算法在興趣表示準(zhǔn)確度的對(duì)比,實(shí)驗(yàn)結(jié)果表明,本文算法能夠比較準(zhǔn)確地反映用戶(hù)興趣的變化。
[1]王永貴,張旭,任俊陽(yáng),等.結(jié)合微博關(guān)注特性UF_AT模型用戶(hù)興趣挖掘研究[J]. 計(jì)算機(jī)應(yīng)用研究,2015,7.
[2]詹天晟,陳德華,樂(lè)嘉錦,等. 基于海量搜索歷史數(shù)據(jù)的用戶(hù)興趣模型[J].計(jì)算機(jī)應(yīng)用,2014,S2:126-129,139.
[3]史寶明,賀元香,張永. 個(gè)性化信息檢索中用戶(hù)興趣建模與更新研究[J].計(jì)算機(jī)應(yīng)用與軟件,2014,03:7-10.
[4]于洪濤,崔瑞飛,董芹芹.基于遺忘曲線(xiàn)的微博用戶(hù)興趣模型[J].計(jì)算機(jī)工程與設(shè)計(jì),2014,10:3367-3372,3379.
[5]任保寧,梁永全,趙建立,廉文娟,李玉軍. 基于多維度權(quán)重動(dòng)態(tài)更新的用戶(hù)興趣模型[J]. 計(jì)算機(jī)工程,2014,09:42-45.
[6]陶永才,何宗真,石磊,衛(wèi)琳,曹仰杰. 基于加權(quán)動(dòng)態(tài)興趣度的微博個(gè)性化推薦[J]. 計(jì)算機(jī)應(yīng)用,2014,12:3491-3496.
Research on User Interest Model Building Based on Multi-dimensional Vector
Wang Qingfu
(Liaoning School of Administration, Shenyang 110161, China)
The construction of user's interest model has been widely applied in personalized platform. Service customization according to users' interest has vital significance. A novel way of multi-dimensional vectoris proposed to reflect user’s interest, which could reflect the user’s interest feature better. At the same time, the user's interest will change irregularly with time; what’s more, the multi-dimensional vectorcould reflect this kind of irregular change through coordinate of each dimension. The experimental result on sina resource with ten volunteersshows that the proposed algorithm could reflect the change of user’s interest accurately.
Multi-dimensional Vector; User Interest; Dynamic-irregular; Interest Model
TP391
A
2015.03.09)
1007-757X(2015)05-0039-03
王慶福(1979-),男(漢族),遼寧盤(pán)錦人,遼寧行政學(xué)院,講師,本科,研究方向:網(wǎng)絡(luò)信息平臺(tái)的設(shè)計(jì),沈陽(yáng),110161