李 鵬 于曉洋 孫渤禹
?
基于用戶群組行為分析的視頻推薦方法研究
李 鵬*①②于曉洋①孫渤禹②
①(哈爾濱理工大學(xué)測控技術(shù)與儀器黑龍江省高校重點(diǎn)實(shí)驗(yàn)室 哈爾濱 150080)②(哈爾濱理工大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院 哈爾濱 150080)
該文采用權(quán)重增量及相似聚集的用戶行為分析算法,為用戶推薦個性化視頻提供了一個有效的解決方案。方法包含3個主要部分,首先利用RFM(Recentness, Frequency, Monetary amount)模型分析用戶的行為,將相同行為的用戶歸為一組;然后結(jié)合用戶的最近習(xí)慣,使用基于權(quán)重增量的Apriori算法挖掘用戶之間的關(guān)聯(lián)規(guī)則,并用向量空間模型進(jìn)行相似度計(jì)算從而實(shí)現(xiàn)用戶相似聚集;最后進(jìn)行協(xié)同過濾式推薦,完成整體個性化視頻推薦過程。該方法的特點(diǎn)是行為數(shù)據(jù)自動收集獲取,避免了直接對視頻大數(shù)據(jù)的處理;另外,視頻推薦隨著用戶行為的改變而動態(tài)變化,更加符合實(shí)際情況。實(shí)驗(yàn)結(jié)果表明,該方法有效并且穩(wěn)定,相比于單一推薦方法,在準(zhǔn)確率、召回率等綜合指標(biāo)上均有明顯提升。
視頻推薦;行為分析;權(quán)重增量;Apriori算法
隨著互聯(lián)網(wǎng)的迅速普及,網(wǎng)絡(luò)傳輸、數(shù)據(jù)存儲和視頻壓縮等相關(guān)技術(shù)的快速發(fā)展,來自于不同領(lǐng)域的各種視頻數(shù)據(jù)正在以驚人的速度增長,其規(guī)模已十分龐大。例如,世界最大視頻分享網(wǎng)站YouTube已經(jīng)擁有超過1.5×108個視頻,并且每天還有近6.5×104個新視頻被上傳[1]。面對如此數(shù)量級的大數(shù)據(jù),用戶想要找到自己感興趣的視頻將變成一件非常困難的事情。因此,自動的視頻推薦系統(tǒng)成為人們迫切需求的產(chǎn)品,而有關(guān)推薦方法的研究也成為近年來計(jì)算機(jī)領(lǐng)域的一個熱點(diǎn)研究問題,得到了國內(nèi)外眾多研究人員的廣泛關(guān)注[2]。
用戶行為分析方法最早來源于管理學(xué)領(lǐng)域,通過分析客戶的行為指導(dǎo)企業(yè)運(yùn)營管理[11]。近年來,有學(xué)者將此方法的思想引入到計(jì)算機(jī)領(lǐng)域的研究,劉奕群等人[12]采用用戶行為分析的方法對搜索引擎性能進(jìn)行自動評價;陳亞睿等人[13]通過對用戶行為分析模型的研究,有效遏制不可信云終端用戶的侵入行為。我們認(rèn)為用戶對視頻的點(diǎn)播觀看行為可以反映用戶對視頻的興趣態(tài)度,由此提出對一系列視頻具有相似行為操作的用戶應(yīng)該具有相似的喜好和興趣點(diǎn)的假設(shè);本文采用的所有技術(shù)都旨在驗(yàn)證這個假設(shè)是否成立。
本文視頻推薦系統(tǒng)的基本流程,如圖1所示,主要是為了用戶提供個性化的視頻推薦服務(wù)。用戶通過界面瀏覽,得知視頻的長短、風(fēng)格、視頻名稱、國家地區(qū)、年代等內(nèi)容標(biāo)簽,用戶可查看視頻列表并觀看自己喜歡的視頻,而用戶事務(wù)數(shù)據(jù)庫便是記錄視頻編號、類別風(fēng)格等信息。本文通過3種模塊階段來呈現(xiàn)視頻推薦的過程:
(1)用戶分組模塊通過RFM模型對用戶行為進(jìn)行分析,將視頻數(shù)據(jù)和觀看視頻客戶數(shù)據(jù)轉(zhuǎn)化為用戶觀看視頻的行為操作數(shù)據(jù),并通過日志數(shù)據(jù)對用戶進(jìn)行第1次分組;
(2)數(shù)據(jù)挖掘模塊將用戶日志數(shù)據(jù)進(jìn)行基于改進(jìn)的權(quán)重增量的Apriori算法分析并取得用戶頻繁項(xiàng)的關(guān)聯(lián)規(guī)則,這樣可挖掘出用戶在最近行為中的規(guī)則習(xí)慣;
(3)協(xié)同推薦模塊基于相似向量比對用戶的相似度后,聚集相似規(guī)則用戶,最后進(jìn)行協(xié)同推薦,將相似比對結(jié)果做 top-N推薦的階段。
視頻用戶的行為分析指標(biāo)是通過對用戶在觀看過程中的行為進(jìn)行統(tǒng)計(jì)和分析后從中得到的一般規(guī)律所構(gòu)成。通過對用戶行為進(jìn)行分析并且掌握用戶行為的規(guī)律性,就有可能預(yù)測用戶將要發(fā)生的行為來實(shí)現(xiàn)期望目標(biāo)。分析使用視頻點(diǎn)播服務(wù)的用戶行為,是希望了解用戶的特征與規(guī)律,以實(shí)現(xiàn)個性化推薦。用戶行為分析指標(biāo)主要從以下幾個方面進(jìn)行分析。
圖1 基于用戶行為分析的視頻推薦流程圖
根據(jù)相關(guān)研究,RFM用戶數(shù)據(jù)分析的指標(biāo)是由用戶數(shù)據(jù)庫中3個特殊的要素構(gòu)成:最近一次消費(fèi)時間(Recentness) ,消費(fèi)頻率(Frequency) 和消費(fèi)金額(Monetary Amount), 3個要素統(tǒng)一到1個RFM(Recentness, Frequency, Monetary amount)模型[14]。
(1)最近一次消費(fèi)時間(Recentness)是指用戶最后一次消費(fèi)距離分析時的時間長度。當(dāng)Recentness值較小時,用戶再消費(fèi)的幾率比較大,因而其在最近一次消費(fèi)時間特征值較高。
(2)消費(fèi)頻率(Frequency)是指用戶在一定時間內(nèi)消費(fèi)該產(chǎn)品的次數(shù)。一般而言,當(dāng)用戶的消費(fèi)次數(shù)越多時,該用戶價值和忠誠度較高。反之,該用戶價值和忠誠度較低。
(3)消費(fèi)金額(Monetary Amount)是指在一段時間內(nèi),用戶在此產(chǎn)品上花費(fèi)的總金額。一般而言,當(dāng)用戶的消費(fèi)金額越高時,其用戶價值越高。
本文將對于視頻的用戶行為分析指標(biāo)以及RFM的三要素做一個相對應(yīng)的指標(biāo)映射。如圖2所示,我們把用戶最后觀看時間當(dāng)作最近一次消費(fèi)時間;把在一段時間內(nèi)的觀看頻率當(dāng)作消費(fèi)頻率;把總觀看個數(shù)當(dāng)作消費(fèi)金額。不過,本文要將消費(fèi)金額的計(jì)算方式改為計(jì)算類別文件(Itemsets)的次數(shù),而類別文件選得越多也代表著用戶會在這個類別文件上花費(fèi)的時間越多,每一個類別文件就是單位金額。
本文通過行為分析可將用戶分為8個群組,根據(jù)每一個用戶的RFM值,我們以全部用戶的RFM的總平均值為標(biāo)準(zhǔn),并且以↑表示其值大于總平均值,而↓小于總平均值。利用這種表示可以分成8個群組(↑↑↑, ↑↑↓,↑↓↑, ↑↓↓, ↓↑↑, ↓↑↓, ↓↓↑,↓↓↓)。每一位用戶將其RFM值與平均值做一個比較,由此可以找出每一位用戶的群組類型,并將每一位用戶分組到符合的群組內(nèi),而系統(tǒng)對于每一個群組會指定不同的推薦策略。
圖2 用戶行為分析與RFM映射圖
傳統(tǒng)數(shù)據(jù)庫由于要計(jì)算全部的觀看數(shù)據(jù),所以要獲得用戶的高頻繁文件,勢必要造成系統(tǒng)執(zhí)行時間以及成本的增加,影響了視頻推薦的即時性。并且,用戶最近觀看的選擇也不一定會一直圍繞相同的類別風(fēng)格。因此,本文采用基于權(quán)重的增量式數(shù)據(jù)挖掘(Incremental Mining based on Weight, IMW)思想,從而找出用戶在最近時間內(nèi)的觀看興趣類別,增量式挖掘不但可以縮短數(shù)據(jù)挖掘的時間還能夠動態(tài)地挖掘出用戶最近習(xí)慣。
Apriori算法作為挖掘布爾關(guān)聯(lián)規(guī)則頻繁項(xiàng)集的重要算法是迄今為止最有影響力的關(guān)聯(lián)規(guī)則算法之一,其核心是基于兩階段頻繁項(xiàng)集思想的遞推算法[15]。在權(quán)重增量思想中,我們設(shè)定一個支持度閾值,只有權(quán)重支持度超過設(shè)定的支持度閾值,才能停止增量計(jì)算。隨著增量計(jì)算次數(shù)的不同,所得到的結(jié)果排列也會不一樣。本文通過對權(quán)重增量思想中一個參數(shù)的迭代次數(shù)閾值的設(shè)定,省去設(shè)定權(quán)重增量思想的支持度閾值以及Apriori算法中的最小支持度閾值,從而達(dá)到簡化計(jì)算提高效率的目的。
本文方法是將權(quán)重增量的思想加入到Apriori算法里并進(jìn)行改進(jìn),從而求得研究中理想的規(guī)則,以下是描述挖掘規(guī)則的步驟:
步驟1 假設(shè)先取觀看數(shù)據(jù)庫內(nèi)的最后筆交易,并計(jì)算每一項(xiàng)集類別的次數(shù)值。
步驟6 最后剩下的二項(xiàng)集類別將視為用戶的最近習(xí)慣規(guī)則(Recent behavior rules, Rbr)。
本文通過向量空間模型(Vector Space Model, VSM)對用戶進(jìn)行相似度計(jì)算,并且依據(jù)用戶最近習(xí)慣和興趣得出的規(guī)則來做用戶聚類,對相似用戶進(jìn)行再一次聚集。其目的是為了聚集相似類別項(xiàng)目的用戶,找出用戶間更加相似的群組,達(dá)到真正協(xié)同過濾方法下分享信息的作用。定義如下:
接下來進(jìn)行相似向量的計(jì)算,相似向量的定義如下:
求得相似向量后,就可進(jìn)行每一用戶之間的相似度對比。
本文采用空間向量模型進(jìn)行用戶之間的相似度對比。在向量空間模型中,兩位用戶1和2之間的行為相似度Sim(1,2)常用向量之間夾角的余弦值表示,如式(5):
通過VSM模型,就可以對群組中用戶的最近習(xí)慣規(guī)則向量表示做相似度計(jì)算,向量中的每一個元素都作為向量的特征項(xiàng),對同一分組中的兩兩用戶做相似度計(jì)算,并以相似度作為系數(shù),對所要推薦給其他用戶的視頻做推薦度分析。若兩個用戶的類別相似向量的相似度高,那么就將一個用戶的視頻以高比例的數(shù)量推薦給其他用戶,若兩個用戶的類別相似向量的相似度低,就將一個用戶的視頻以低比例的數(shù)量推薦給其他用戶。
針對同一群組內(nèi)的用戶,我們進(jìn)行了組內(nèi)相似用戶聚類,聚集了同一群組內(nèi)與其他用戶最相近風(fēng)格的用戶。本方法是利用RFM模型分類后,在相同群的其他用戶所點(diǎn)選的視頻來進(jìn)行相互推薦。這種方式的目的是經(jīng)由第2次的分類聚集,可以得出更接近用戶習(xí)慣和興趣分類,其做法就是將其他用戶所選擇的視頻,依據(jù)之前用戶的喜好類別不重復(fù)地推薦給用戶,達(dá)到協(xié)同過濾式信息共享的結(jié)果。
假設(shè)1的同組其他相似同喜好用戶2和3,可以知道3位用戶所選擇的視頻編號(其中代表第個視頻)。先把1與2在相同類別中的,不重復(fù)地推薦給1,例如:2將{:1,2,:6,:9}推薦給1。而3相同的類別也推薦給1,例如:3將{:2,4,:6,8}推薦給1。這樣,就會綜合2與3兩者的結(jié)果不重復(fù)地推薦給1,即{:1,2,4,:6,8,:9}。
針對視頻推薦方法的評價是一個比較困難的問題。由于視頻推薦的對象是人,因而對視頻喜好的選擇因人而異,甚至在不同時間、不同環(huán)境下同一個人的選擇也存在差異。因此,人們無法構(gòu)建統(tǒng)一的公共數(shù)據(jù)集來衡量各種方法之間的優(yōu)劣,絕大多數(shù)的研究只能通過組織一定數(shù)量的用戶對自己的方法與基本方法進(jìn)行評價,以驗(yàn)證自己提出的策略或所采用的技術(shù)是否有效且穩(wěn)定。我們也采用這種實(shí)驗(yàn)策略,通過組織本中心的部分人員作為實(shí)驗(yàn)者,對本文所采用的技術(shù)進(jìn)行評價。
為驗(yàn)證本文方法的有效性和穩(wěn)定性,本文搭建了一個實(shí)驗(yàn)平臺。實(shí)驗(yàn)數(shù)據(jù)分為5種類型共有400個視頻,其中250個為訓(xùn)練語料,剩余150個為測試語料,每種分類的前50個作為訓(xùn)練語料,后30個作為測試語料。本實(shí)驗(yàn)共有15位實(shí)驗(yàn)者在30天內(nèi)生成了1733條日志數(shù)據(jù)。為了證明本文方法的有效性與穩(wěn)定性、本文構(gòu)造了4種方法,分別用以驗(yàn)證RFM模型,權(quán)重增量以及相似聚集3種技術(shù)在推薦過程中分別所起的作用,4種方法分別表示如下:
方法1:使用權(quán)重增量與RFM模型。
方法2:使用權(quán)重增量與RFM模型及相似聚集。
方法3:不使用權(quán)重增量但使用RFM模型及相似聚集。
方法4:使用權(quán)重增量但是不加入任何分組方法。
本實(shí)驗(yàn)采用準(zhǔn)確率、召回率和值這3個指標(biāo)來衡量實(shí)驗(yàn)方法的有效性,為了計(jì)算實(shí)驗(yàn)數(shù)據(jù)的準(zhǔn)確率和召回率,評價指標(biāo)的計(jì)算公式如式(6),式(7),式(8)所示。本文將實(shí)驗(yàn)和分類問題的混淆矩陣相結(jié)合,從而更好地描述系統(tǒng)的性能,如表1所示。其中TP表示的是方法推薦的并且用戶真實(shí)喜歡的視頻數(shù),F(xiàn)P表示方法推薦的但不是用戶喜歡的視頻數(shù),F(xiàn)N表示方法沒有推薦但是用戶實(shí)際喜歡的視頻數(shù),而TN則是方法既沒有推薦而且用戶也不喜歡的視頻數(shù)。
表1 分類混淆矩陣
通過對15名實(shí)驗(yàn)者觀看視頻的行為數(shù)據(jù)進(jìn)行采集并分析,采用構(gòu)建的4種方法分別進(jìn)行視頻推薦,得到了如表2所示的實(shí)驗(yàn)結(jié)果。
表2用戶的權(quán)重增量+RFM+相似聚集與其它方法的評價指標(biāo)對比
方法1方法2方法3方法4 平均準(zhǔn)確率0.640.760.520.56 平均召回率0.670.790.650.64 平均F值0.650.780.580.60 時間復(fù)雜度O(n)O(n2)O(n2)O(lgn)
方法2與其它方法的比較可以說明,單純只考慮RFM模型分組在推薦的過程中可能會出現(xiàn)較多其他用戶的推薦,因此可能推薦一些非用戶喜好或興趣的視頻,所以,本實(shí)驗(yàn)設(shè)計(jì)證明兩次分組效果優(yōu)于單獨(dú)的一次分組。而方法3不使用增量挖掘技術(shù),推薦時會不管用戶的喜好,任意推薦其他用戶所點(diǎn)選的視頻,造成推薦比較雜亂,所以用戶對這種混亂的推薦可能不喜歡,因此推薦后的準(zhǔn)確率明顯低于使用增量挖掘的方法,證明權(quán)重增量挖掘的重要性。另外,方法4不使用分組技術(shù),其平均準(zhǔn)確率為56%,明顯低于方法2使用分組技術(shù)的準(zhǔn)確率,因此分組技術(shù)更能讓用戶可以得到想要的,而不是一堆視頻,讓用戶不知道怎么選。以上實(shí)驗(yàn)數(shù)據(jù)證明了方法2的有效性,但還需要驗(yàn)證方法的穩(wěn)定性。
圖3顯示了15位用戶的準(zhǔn)確率的分布??梢钥闯觯脩?在推薦方法2的準(zhǔn)確率最高為82%,而最低是用戶2使用推薦方法2的準(zhǔn)確率也有68%。其中用戶在使用方法2時所得到的大多數(shù)的準(zhǔn)確率數(shù)值明顯高于其它3種方法所得到的準(zhǔn)確率,其中方法1和方法4在準(zhǔn)確率的穩(wěn)定性相對較差。
圖4顯示了15位用戶的召回率的分布。用戶4使用方法2所得到的召回率最高為84%,而最低的是用戶12的召回率也有72%。其中用戶在使用方法2時所得到的大部分的召回率數(shù)值明顯高于其它3種方法所得到的召回率,其中方法1和方法3在召回率的穩(wěn)定性相對較差。
本文對文中視頻協(xié)同推薦框架下所涉及的3種算法分別進(jìn)行了時間復(fù)雜度分析:基于RFM模型的用戶行為分析算法(RFM)本質(zhì)是一種匹配算法,算法對用戶3種行為元素進(jìn)行采樣,并與可能形成的8種情況進(jìn)行匹配,將用戶進(jìn)行群組集聚。這種匹配算法沒有循環(huán)存在,因此其時間復(fù)雜度為常數(shù);基于改進(jìn)權(quán)重增量的Apriori算法(IMW)本質(zhì)是一種遞歸算法,算法主要對于用戶的近期觀看行為規(guī)則進(jìn)行增量式的更新,匹配算法的時間復(fù)雜度最小為(),采用折半查找時間復(fù)雜度最大為(lg);向量空間模型(VSM)是一種普遍使用的高效相似度計(jì)算模型,VSM內(nèi)積計(jì)算的時間復(fù)雜度是(),待推薦的用戶要與已知用戶集分別進(jìn)行相似度計(jì)算,其時間復(fù)雜度也為()。因此,基于VSM模型的用戶相似聚集算法(similarity)的時間復(fù)雜度為(2)。通過以上分別對3種算法的時間復(fù)雜度分析,可以對實(shí)驗(yàn)中所驗(yàn)證4種方法的時間復(fù)雜度進(jìn)行對比,具體如表2所示??梢钥吹?,方法1的時間復(fù)雜度最小為(),方法2和方法3的時間復(fù)雜度最大為(2),影響時間復(fù)雜度的主要因素是采用VSM模型進(jìn)行用戶相似聚集。但是從其它指標(biāo)上綜合考慮,此算法對于提升視頻推薦效果確實(shí)起到了重要的作用。從代價上考慮,在實(shí)際應(yīng)用系統(tǒng)中算法的時間復(fù)雜度為(2)是可以被接受的,如支持向量機(jī)(SVM)算法被廣泛地應(yīng)用于各種實(shí)際系統(tǒng)開發(fā)之中,其時間復(fù)雜度即為(2)。
圖3 4種方法的準(zhǔn)確率分布圖
圖4 4種方法的召回率分布圖
通過對以上數(shù)據(jù)的分析可以看到,方法2利用權(quán)重增量及相似聚集的RFM模型推薦方法,能夠更好地發(fā)現(xiàn)用戶的喜好,從而相比其它基本方法具有更好的推薦能力,具有較高的準(zhǔn)確率,并在一定程度上也表現(xiàn)出了方法的穩(wěn)定性。因此,可以證明本文研究方法中所涉及的3種技術(shù),即權(quán)重增量挖掘、組內(nèi)用戶相似聚集以及基于RFM模型的用戶行為分析均對視頻推薦具有正向推動,是一種有效的手段。另外,也進(jìn)一步證明了本文先前的假設(shè)是成立的,即對一系列視頻具有相似行為操作的用戶應(yīng)該具有相似的喜好和興趣點(diǎn)。
本文首先通過RFM模型將價值或者行為相同用戶歸為同一群組,結(jié)合用戶最近習(xí)慣和行為,采用Apriori算法來挖掘關(guān)聯(lián)式規(guī)則;然后用相似向量矩陣計(jì)算所有用戶之間的相似度關(guān)系,進(jìn)行相似聚集;最后利用協(xié)同過濾式推薦方法給用戶進(jìn)行視頻推薦,從而完成個性化推薦的整個過程。本文通過實(shí)驗(yàn)結(jié)果驗(yàn)證了此推薦方法的有效性和穩(wěn)定性。結(jié)合RFM模型及相似聚集推薦比單純只使用RFM模型分組方式效果好,利用權(quán)重增量挖掘與分組方式實(shí)驗(yàn)結(jié)果表明,能夠推薦給用戶更準(zhǔn)確的喜好視頻。而整體上,本實(shí)驗(yàn)的準(zhǔn)確率高達(dá)76%,比其它推薦方法高出16.2%~32.5%,召回率高達(dá)79%,比其它推薦方法高出15.1%~18.9%。綜合上述實(shí)驗(yàn)結(jié)果,可以證明本文所采用的3種技術(shù)相結(jié)合的方法是一種行之有效的視頻推薦策略,基本達(dá)到了預(yù)期的效果。
本文的主要貢獻(xiàn)在于提出了采用用戶行為分析的方法對視頻進(jìn)行推薦,目前還沒有查閱到同樣采用行為分析進(jìn)行視頻推薦的相關(guān)文獻(xiàn)。通過自動采集用戶觀看視頻的行為數(shù)據(jù),并通過技術(shù)手段分析這些數(shù)據(jù)找到具有相同喜好的用戶,進(jìn)而進(jìn)行協(xié)同推薦。行為數(shù)據(jù)可以實(shí)現(xiàn)動態(tài)實(shí)時采集,行為數(shù)據(jù)屬于形式化數(shù)據(jù),其處理難度小、速度快,從而可以實(shí)現(xiàn)及時更新,同時也避免了以巨大代價對視頻大數(shù)據(jù)進(jìn)行的直接處理。在視頻推薦的實(shí)際應(yīng)用中,推薦的及時性往往比推薦方法的準(zhǔn)確性更重要,因此對其應(yīng)用研究不能僅著眼于算法的復(fù)雜化,而相反應(yīng)該尋找簡單、穩(wěn)定的策略。在今后的研究中,我們將繼續(xù)深入探索基于行為分析的視頻推薦方法,積極研究用戶深層次行為屬性特點(diǎn),豐富行為模式內(nèi)涵。
[1] SKrishnapp, D K, Zink M, and Griwodz C. Cache-centric video recommendation: an approach to improve the efficiency if YouTube caches[C]. Preceedings of the 4th ACM Multimedia System Conference, Oslo, 2013: 261-270.
[2] Zhao Xiao-jian, Yuan Jin, and Wang Meng. Video recommendation over multiple information sources[J]., 2011, 19(1): 3-15.
[3] De V J, Degrande N, and Verhoeyen M. Video content recommendation: an overview and discussion on technologies and business models[J]., 2011, 16(2): 235-250.
[4] Park J, Lee S, and Kim K. Online video recommendation through tag-cloud aggregation[J].2011, 18(1): 78-87.
[5] Su Chun-rong, Li Yu-wei and Zhang Rui-zhe. An adaptive video program recommender based on group user profiles[J]., 2013, 21(2): 499-509.
[6] Ozturk G and Kesim C N. A hybrid video recommendation system using a graph-based algorithm[J]., 2011, 6704: 406-415.
[7] Silveira D, Alessandro, and Wives L K. POI enhanced video recommender system using collaboration and social networks[C]. Preceedings of the 8th International Conference on Web Information Systems and Technologies, Valencia, 2012: 717-722.
[8] Ma Xiao-qiang, Wang Hai-yang, and Li Hai-tao. Exploring sharing patterns for video recommendation on YouTube-like social media[J]., 2013, DOI: 1007/s00530-013-0309-1.
[9] Niu Jian-wei, Zhao Xiao-ke, Zhu Li-ke,.. Affivir: an affect-based internet video recommendation system[J]., 2013, 120: 422-433.
[10] Zhao Si-cheng, Yao Hong-xun, and Sun Xiao-shuai. Video classification and recommendation based on affective analysis of viewers[J].,2013,119: 101-110.
[11] Rapach D E and Wohar M E. Forecasting the recent behaviorof US business fixed investment spending: an analysis of competing models[J]., 2007, 26(1): 33-51.
[12] 劉奕群, 岑榮偉, 張敏. 基于用戶行為分析的搜索引擎自動性能評價[J]. 軟件學(xué)報, 2008, 19(11): 3023-3032.
Liu Yi-qun, Cen Rong-wei, and Zhang Min. Automatic search engine performance evaluation based on user behavior analysis[J]., 2008, 19(11): 3023-3032.
[13] 陳亞睿, 田立勤, 楊揚(yáng). 云計(jì)算環(huán)境下基于動態(tài)博弈論的用戶行為模型與分析[J]. 電子學(xué)報, 2011, 39(8): 1818-1823.
Chen Ya-rui, Tian Li-qin, and Yang Yang. Model and analysis of user behavior based on dynamic game theory in cloud computing[J]., 2011, 39(8): 1818-1823.
[14] Chen Toly. The RFM-FCM approach for customer clustering[J]., 2012, 8(4): 358-373.
[15] Awadalla M H and Elfar S G. Aggregate function based enhanced apriori algorithm for mining association rules[J]., 2012, 9(3): 277-287.
李 鵬: 男,1978年生,教授,碩士生導(dǎo)師,研究方向?yàn)榫W(wǎng)絡(luò)信息處理、機(jī)器學(xué)習(xí)、人工智能.
于曉洋: 男,1962年生,教授,博士生導(dǎo)師,研究方向?yàn)閳D像加密與隱藏、視覺三維檢測.
Video Recommendation Method Based on Group User Behavior Analysis
Li Peng①②Yu Xiao-yang①Sun Bo-yu②
①(,,,150080,)②(,,150080,)
This paper presents an effective solution for personalized video recommendation based on the weight increment and similar aggregation user behavior analysis algorithm. The method is implemented in three steps: first, the user behavior is analyzed using the RFM (Recentness, Frequency, Monetary amount) model, users with the same behavior are classified as a group; second, the Apriori algorithm based on weight increment is applied to mining association rules between users in line with the recent habits of users, and by using the VSM model for similarity calculation, the user similarity aggregation is realized; finally, the whole process of personalized video recommendation is completed by means of collaborative filtering. The proposed method can automatically collects user behavioral data and avoids direct video big data processing. In addition, the video recommend dynamically changes with the change of user behavior. The experiment results show that, the presented effective and stable, and the method achieves significantly increasement in precision and recall comparing with the single recommendation method.
Video recommendation; Behavior analysis; Incremental weight; Apriori algorithm
TP393
A
1009-5896(2014)06-1485-07
10.3724/SP.J.1146.2013.01225
李鵬 pli@hrbust.edu.cn
2013-08-13收到,2013-11-08改回
國家自然科學(xué)基金(61103149),中國博士后科學(xué)基金(2011M500682),黑龍江省高校青年學(xué)術(shù)骨干項(xiàng)目(1253G023)和哈爾濱市青年科技創(chuàng)新人才專項(xiàng)基金(2012RFQXG093)資助課題