基于Hadoop的IPTV隱式評分模型

2018-01-08 08:50:59顧軍華張素琪

計算機應(yīng)用 2017年11期

關(guān)鍵詞：偏置比值函數(shù)

顧軍華，官磊，張建，高星，張素琪

(1.河北工業(yè)大學(xué) 計算機科學(xué)與軟件學(xué)院，天津 300401； 2.天津商業(yè)大學(xué) 信息工程學(xué)院，天津 300134)

基于Hadoop的IPTV隱式評分模型

顧軍華1*，官磊1，張建1，高星1，張素琪2

(1.河北工業(yè)大學(xué) 計算機科學(xué)與軟件學(xué)院，天津 300401； 2.天津商業(yè)大學(xué) 信息工程學(xué)院，天津 300134)

根據(jù)網(wǎng)路協(xié)定電視(IPTV)用戶收視行為數(shù)據(jù)中的隱式特性，提出一種新型的隱式評分模型。首先，介紹了IPTV用戶收視行為數(shù)據(jù)的主要特點，提出一種新的用戶收視比值、用戶興趣偏置因子以及視頻類型影響因子相結(jié)合的多特征混合隱式評分模型; 然后，提出基于收視時長和收視比值的收視行為篩選策略; 最后，設(shè)計并實現(xiàn)了基于Hadoop的分布式模型架構(gòu)。實驗結(jié)果表明，所提模型有效提高了IPTV系統(tǒng)中推薦結(jié)果的質(zhì)量，同時提升了時間效率，對于大規(guī)模數(shù)據(jù)有良好的可擴展性。

隱式反饋；分布式模型；興趣模型；網(wǎng)路協(xié)定電視

0 引言

隨著互聯(lián)網(wǎng)和廣播電視網(wǎng)絡(luò)的不斷發(fā)展，具有互動點播功能的網(wǎng)絡(luò)協(xié)定電視(Internet Protocol Television, IPTV)逐漸走進(jìn)了人們的生活。IPTV將數(shù)字技術(shù)、計算機技術(shù)、互聯(lián)網(wǎng)技術(shù)與廣播電視技術(shù)有機地結(jié)合在一個平臺中[1]，向用戶提供了數(shù)字廣播電視、交互式娛樂平臺、資訊平臺以及電子商務(wù)等多種網(wǎng)絡(luò)服務(wù)，并通過電視機、電腦等顯示終端呈現(xiàn)給用戶。隨著海量節(jié)目的引入，用戶面臨的選擇越來越多，為IPTV用戶進(jìn)行個性化推薦服務(wù)就顯得尤為重要。

個性化推薦是依據(jù)用戶的興趣特征或歷史行為，主動評估用戶對于系統(tǒng)中物品的感興趣程度，并給出用戶最為合理的推薦[2]，所以推薦結(jié)果的質(zhì)量取決于建立的評分模型是否能夠準(zhǔn)確地反映用戶的興趣特征。

建立評分模型的主要方式有兩種：顯式與隱式。顯式評分模型需要用戶主動提供關(guān)于自己興趣的信息如網(wǎng)絡(luò)評分、調(diào)查問卷等，其優(yōu)點是可以確保反饋的準(zhǔn)確性，缺點是需要用戶主動配合收集反饋信息，可能導(dǎo)致數(shù)據(jù)量不足、稀疏度高等問題。而隱式評分模型與之相反，通過數(shù)據(jù)挖掘等手段，分析用戶的行為數(shù)據(jù)，間接得到用戶的偏好信息，其優(yōu)點是可以降低成本、大量獲取用戶偏好信息，缺點是信息的準(zhǔn)確度降低、存在噪聲等問題[3]。

在IPTV實際應(yīng)用中，受到電視平臺的操作性和傳統(tǒng)用戶收視習(xí)慣等條件的影響，用戶往往不愿意給出直接反饋的評分和喜好等信息，因此隱式評分更適用于基于IPTV的視頻推薦系統(tǒng)。而隱式評分模型的優(yōu)劣會直接影響推薦算法的推薦結(jié)果質(zhì)量。

Claypool等[4]首先提出將隱式反饋應(yīng)用于推薦系統(tǒng)中，并將之應(yīng)用于挖掘用戶對網(wǎng)頁的興趣偏好。文獻(xiàn)[5-6]將隱式反饋信息應(yīng)用于電影推薦系統(tǒng)中以解決冷啟動問題。Uluyagmur等[7]驗證了使用收視時長作為電影隱式評分的可行性。Gadanho等[8]提出了基于收視時長的多種隱式評分策略。Oard等[9]和Kelly等[10]先后提出了隱式評分的數(shù)據(jù)來源：1)用戶行為類型，包括瀏覽、保存、評論等;2)用戶的行為范圍，包括只瀏覽部分內(nèi)容或者整個對象等。文獻(xiàn)[11-12]中提出了基于視頻收視比值的隱式反饋評分模型，并利用矩陣分解法構(gòu)建推薦系統(tǒng)。這成為了眾多隱式反饋推薦系統(tǒng)算法研究的重要基礎(chǔ)。在此基礎(chǔ)上，文獻(xiàn)[13]使用神經(jīng)網(wǎng)絡(luò)自動回歸模型建立了基于收視比值的隱式反饋協(xié)同過濾推薦算法；文獻(xiàn)[14]使用用戶選擇信息構(gòu)建了偏好排序，印鑒等[15]在偏好排序基礎(chǔ)上，結(jié)合了MapReduce工具實現(xiàn)了大規(guī)模并行化的隱式反饋推薦系統(tǒng)；紀(jì)淑娟等[16]利用播放、快進(jìn)、快退等動作作為輸入，將神經(jīng)網(wǎng)絡(luò)方法應(yīng)用于自動生成隱式評分。

以往基于IPTV的隱式反饋推薦系統(tǒng)的應(yīng)用研究中，多數(shù)只是簡單地將收視行為作為正向輸入，忽視了隱式評分的眾多特征信息；而基于隱式反饋特征的挖掘研究中，也缺少針對IPTV視頻收視行為的深入研究。因此本文從實際數(shù)據(jù)出發(fā)，分析和討論IPTV收視行為隱式反饋的主要特征信息，并建立一種新的隱式評分模型。同時，海量IPTV用戶收視行為數(shù)據(jù)決定了隱式評分模型的建立和應(yīng)用必須借助大數(shù)據(jù)技術(shù)，因此本文提出了基于Hadoop的分布式多特征隱式評分模型。

1 IPTV用戶收視行為數(shù)據(jù)

本次研究的數(shù)據(jù)集來源于某市IPTV用戶數(shù)字機頂盒，數(shù)據(jù)是1 300名用戶從2016年12月— 2017年3月所產(chǎn)生的10 737 220條用戶收視日志數(shù)據(jù)。本文從用戶收視日志數(shù)據(jù)中提取能夠顯著反映用戶偏好的信息，包括用戶的行為類型、節(jié)目時長、節(jié)目類型、用戶行為時長等構(gòu)成用戶行為數(shù)據(jù)集，具體內(nèi)容如表1所示。其中，行為類型包括瀏覽、點播、直播、收藏、回看、收藏；節(jié)目所屬一級類別包括電視劇、電影、新聞、體育等；節(jié)目所屬二級類別包括愛情、動作、喜劇等。

2 IPTV隱式評分模型

本文通過構(gòu)建隱式評分模型，將用戶收視行為數(shù)據(jù)轉(zhuǎn)化為用戶隱式評分?jǐn)?shù)據(jù)，用于提高IPTV推薦系統(tǒng)的推薦質(zhì)量。

表1 IPTV用戶收視行為數(shù)據(jù)Tab. 1 IPTV user viewing behavior data

2.1 隱式評分模型設(shè)計

基于IPTV的隱式評分通常會考慮用戶觀看某節(jié)目的時長和節(jié)目本身時長的比值[17]。在此基礎(chǔ)上，本文制定了基于用戶收視比值、用戶興趣偏置因子、視頻類型影響因子的多特征隱式評分模型，計算公式如式(1)所示：

γ×h(i)(category)]

(1)

其中:score為用戶對視頻的隱式評分，scale是用戶對該視頻的收視比值，interest是用戶興趣偏置因子，category是視頻類型影響因子，α、β和γ是權(quán)重，f、g和h分別是收視比值、用戶興趣偏置因子和視頻類型影響因子的作用函數(shù)，f(i)表示第i次觀看同一節(jié)目，如劇集類子集的作用函數(shù),n為用戶對同一節(jié)目觀看的次數(shù)。2.2節(jié)中給出了三種特征的作用函數(shù)。

2.2 特征作用函數(shù)

2.2.1 收視比值作用函數(shù)

收視比值即收視時長與節(jié)目本身時長的比值，一般來說，收視比值越大，說明用戶對視頻的偏好程度也越大，隱式評分越高。為進(jìn)一步研究收視比值對隱式評分的影響，本文統(tǒng)計了所有用戶的收視比值及收視行為數(shù)量并繪制了收視比值的分布圖，如圖1所示。

圖1 收視比值分布Fig. 1 Ratings ratio distribution

由圖1可知，收視比值分布呈現(xiàn)兩邊高中間低的特點，這說明在收視比值較高或較低的部分用戶偏好比較明顯，此時收視比值對隱式評分的作用比較大，比值居中部分的用戶偏好較為模糊，因此使用余弦函數(shù)表示，結(jié)合以往的研究[11]，最終制定收視比值作用函數(shù)公式如式(2)所示:

(2)

其中，scale是收視比值，作用函數(shù)如圖2所示。由圖2可知:在收視比值為0～20%時，f(scale)不斷增加，此時，隨著用戶收視比值的增加反映出的用戶興趣程度也隨之增加; 當(dāng)收視比值在30%～50%左右時f(scale)存在明顯的回落，此時，用戶收視比值與用戶興趣程度成反比例關(guān)系，越接近50%說明用戶的偏好越模糊，對隱式評分的影響越低; 在大于50%后f(scale)逐漸升高，此時，隨著用戶收視比值的增加反映出的用戶興趣程度也隨之增加。

圖2 收視比值函數(shù)圖像Fig. 2 Viewing ratio function image

2.2.2 用戶興趣偏置因子作用函數(shù)

用戶興趣偏置因子是按照用戶收視比值均值將用戶對視頻的喜好程度劃分為兩部分，用戶觀看某一視頻的收視比值高于平均收視比值的視為用戶喜歡該視頻；用戶觀看某一視頻的收視比值低于平均收視比值的視為用戶不喜歡該視頻。

根據(jù)以上定義，計算用戶興趣偏置因子如式(3)所示:

(3)

以上所計算出的用戶興趣偏置因子需要進(jìn)行歸一化處理才能作為最終結(jié)果，假定maxri表示用戶i最大用戶興趣偏置因子，minri表示用戶最小用戶興趣偏置因子。即:

歸一化后的用戶興趣偏置因子作用函數(shù)如式(4)所示:

(4)

2.2.3 視頻類型影響因子作用函數(shù)

視頻類型影響因子主要用于衡量不同視頻類型對用戶偏好的影響。一般而言，每個用戶都有自己喜歡的視頻類型，如果視頻屬于用戶喜歡的類型，則增加其隱式評分的值，有助于更加清晰地表現(xiàn)用戶對視頻的喜好程度。因此，加入視頻類型影響因子作用函數(shù)，有助于提高推薦準(zhǔn)確率。計算公式如式(5)所示:

h(category)=lij/Li

(5)

其中:lij為用戶i觀看的和視頻j同一類型視頻的總時長，Li為用戶i觀看的所有類型視頻的總時長。

2.3 特征值權(quán)重計算

對于多特征值問題，本文使用熵權(quán)法來確定每一個偏好特征的權(quán)值，通過統(tǒng)計的方法獲得權(quán)重。將用戶i的偏好特征表示成n×3階矩陣B=(bij)n×3，其中bij表示用戶i第j個特征值。熵權(quán)法計算過程如下:

1)標(biāo)準(zhǔn)化數(shù)據(jù)處理，如式(6)所示：

(6)

其中:sij表示用戶i第j個特征值的大小， max (bij)與min (bij)分別是第j項特征權(quán)值的最大值和最小值。

2)計算各種偏好特征的熵值，如式(7)所示:

(7)

當(dāng)fij=0時，有fijlnfij=0。

3)計算權(quán)重，如式(8)所示：

(8)

通過以上方法便可計算出用戶偏好模型中的每一種偏好特征的權(quán)值。

3 用戶收視行為數(shù)據(jù)預(yù)處理模塊

考慮到用戶收視行為數(shù)據(jù)中包含噪聲數(shù)據(jù)，需要對數(shù)據(jù)進(jìn)行篩選以提高評分模型的準(zhǔn)確性，從而保證推薦的質(zhì)量。現(xiàn)有基于IPTV的隱式反饋推薦系統(tǒng)的研究中，通常選取較小的收視比值作為閾值，用來篩選用戶收視行為數(shù)據(jù)。但是，對于較長視頻，雖然收視比值較小，但觀看時長較大，也能體現(xiàn)用戶對該視頻的偏好，所以單純通過收視比值進(jìn)行篩選過于理想化；而且從圖1中可以看出，有大量的數(shù)據(jù)分布在收視比值比較小的區(qū)間，單一使用用戶收視比值來篩選用戶行為是不合適的。本文提出基于收視時長和收視比值的篩選策略，通過線性回歸模型分析用戶收視時長的規(guī)律，設(shè)定合適的閾值，再結(jié)合收視比值制定數(shù)據(jù)篩選的依據(jù)。

3.1 節(jié)目收視時長的線性回歸分析

首先分析收視時長的整體分布情況，統(tǒng)計結(jié)果如圖3。

圖3 用戶收視時間圖Fig. 3 User viewing time vs. number of behaviors

由圖可以看出，收視時長與行為的個數(shù)總體呈現(xiàn)反比例函數(shù)關(guān)系，收視時長較大用戶行為較少，依據(jù)線性回歸模型，本文假設(shè):

y=a1/t+a2

(9)

其中：y代表了收視行為個數(shù)，t代表收視行為時長，a1、a2是所求的參數(shù)。由式(1)的假設(shè)可得到損失函數(shù)方程:

(10)

其中：m是收視行為的總個數(shù)，損失函數(shù)J(a)代表了假設(shè)的回歸線與實際值之間的離散程度，通過計算最小化損失函數(shù)min(J(a))，就能求出回歸方程的形式。本文采用了梯度下降算法求解回歸方程。

經(jīng)過計算，得到了收視時長與收視行為次數(shù)的函數(shù)關(guān)系如下:

y=234 145.9/t-67.8

回歸函數(shù)圖像如圖4中曲線所示。

圖4 用戶收視行為分布與回歸函數(shù)Fig. 4 Distribution and regression function of viewing behavior

3.2 基于收視時長和收視比值的篩選策略

通過分析收視時長的分布，在收視時長較短的區(qū)間內(nèi)存在較明顯的奇異點，為了確定奇異點的范圍，本文需要分析回歸函數(shù)的殘差平方和，如式(11)所示:

(11)

Q越小，代表了回歸函數(shù)擬合度越好，本文依次排除從0～x秒(x=1,2,…)開始的行為次數(shù)數(shù)據(jù)，觀察Q值變化，進(jìn)而制定篩選的閾值。Q值變化如圖5，可以看到從15 s之后的Q值趨于穩(wěn)定，因此本文選擇15 s作為收視時長篩選的閾值。

圖5 回歸函數(shù)殘差平方和變化圖Fig. 5 Residual sum of squares of regression function

結(jié)合收視百分比的篩選方法，本文制定出的篩選策略為將收視百分比小于10%同時收視時長小于15 s的收視行為數(shù)據(jù)篩選掉。這樣的篩選策略充分考慮了用戶收視時長較短的行為數(shù)據(jù)。

4 基于Hadoop的隱式評分模型設(shè)計

Hadoop是一個由Apache基金會所開發(fā)的分布式系統(tǒng)基礎(chǔ)架構(gòu)。用戶可以在不了解分布式底層細(xì)節(jié)的情況下，開發(fā)分布式程序,充分利用集群的威力進(jìn)行高速運算和存儲。本文采用基于Hadoop平臺的編程設(shè)計，將大規(guī)模用戶收視行為的數(shù)據(jù)轉(zhuǎn)化為用戶隱式評分。

4.1 IPTV隱式評分模型框架

基于Hadoop的IPTV隱式評分模型框架如圖6所示。由圖可以看出，隱式評分模型的生成分為三個部分:第一部分，分別計算f(scale)、g(interest)、h(category)特征作用函數(shù)；第二部分，通過熵權(quán)法計算出特征作用函數(shù)的權(quán)重值α、β和γ，得到隱式評分模型；第三部分，計算出用戶的隱式評分。

圖6 IPTV隱式評分模型框架Fig. 6 Framework of IPTV implicit scoring model

4.2 Category方法

此部分計算了用戶觀看各個分類視頻的百分比的值，Map階段將數(shù)據(jù)切割，提取用戶ID、視頻時長、觀看時長等關(guān)鍵信息。Reduce階段根據(jù)式(5)計算用戶對視頻類型的用戶興趣偏置因子，同時還計算了用戶平均收視比值，為下一部分的計算作準(zhǔn)備。本模塊的輸出數(shù)據(jù)全部存儲在Hadoop的HDFS上，其他模塊訪問HDFS可獲得本次輸出數(shù)據(jù)。

實現(xiàn)方法如下所示。

Mapper方法：

輸入：

輸出：

Mapper(){

使用轉(zhuǎn)義字符" "切割數(shù)據(jù)

計算該視頻觀看時間比

percent=behave_len/item_len

輸出

}

Reducer方法：

輸入：

輸出：

Reducer(){

PercentAll=0,n=0

for(allvalues){

統(tǒng)計用戶觀看視頻總時長time

統(tǒng)計十四個視頻分類每一個的用戶觀看總時長TypeTime

統(tǒng)計用戶觀看比值的和，PercentAll=PercentAll+percent

n++

}

計算用戶觀看各個大分類的收視比值

TypePercent=TypeTime/Time

計算平均收視比值

AvePercent=PercentAll/n

輸出

}

4.3 Interesting方法

Mapper方法：

輸入：

輸出：

Mapper(){

使用轉(zhuǎn)義字符" "切割數(shù)據(jù)

計算該視頻觀看時間比

percent=behave_len/item_len

輸出

}

Reducer方法：

輸入：

輸出：

Reducer(){

讀取上一段代碼的輸出，獲得mininterst,maxinterest,Aveintrerst,Avepercent，n=0

for(allvalues){

}

Aveintrerst=suminterest/n

輸出

}

4.4 Scale方法

此部分計算出用戶隱式評分3個特征作用函數(shù)的值，通過式(2)計算得到scale的值。得到的最終結(jié)果儲存在HDFS中。計算方法如下所示。

Mapper方法：

輸入：

輸出：

Mapper(){

使用轉(zhuǎn)義字符" "切割數(shù)據(jù)

計算收視比值percent=用戶觀看時長/視頻時長

計算用戶收視比值

讀文件，獲取用戶對本類視頻的觀看比值category

輸出

}

Reducer方法：

輸入：

輸出：

Reducer(){

讀取上一段代碼的輸出，獲得AvePercent,n=0

for(allvalues){

同時求得mininterst,maxinterest,suminterest;

n++;

}

Aveintrerst=suminterest/n

輸出

}

5 實驗結(jié)果

本文基于Hadoop分布式實驗環(huán)境，將提出的隱式評分模型應(yīng)用于基于用戶的協(xié)同過濾算法進(jìn)行IPTV平臺視頻推薦，通過均方誤差(Mean Squared Error, MSE)和準(zhǔn)確率(precision)對視頻推薦結(jié)果進(jìn)行評估，與其他隱式評分模型進(jìn)行對比，證明該模型有效提高了IPTV系統(tǒng)中推薦結(jié)果的質(zhì)量。

通過調(diào)整Hadoop平臺的分布式節(jié)點設(shè)置，證明該模型對于大規(guī)模數(shù)據(jù)具有良好的可擴展性。

5.1 實驗環(huán)境

本次實驗的硬件環(huán)境如下：節(jié)點數(shù)量5個，節(jié)點CPU為2核心，核心頻率1.9 GHz，節(jié)點內(nèi)存為4 GB，Hadoop版本為2.4.1。

本次實驗將隱式反饋評分結(jié)果按1∶9的比值分為驗證集合和測試集合，測試集合作為基于用戶的協(xié)同過濾算法的輸入數(shù)據(jù)，推薦結(jié)果與驗證集合進(jìn)行對比。

本文選取均方誤差(MSE)和準(zhǔn)確率(precision)為衡量推薦結(jié)果的指標(biāo)。均方誤差是衡量“平均誤差”的一種較方便的方法，可以評價數(shù)據(jù)的變化程度，準(zhǔn)確率代表推薦的正確結(jié)果占推薦結(jié)果的比重，形式如式(12):

precision=nfp/(ntp+nfp)

(12)

其中:nfp表示推薦系統(tǒng)推薦但用戶沒有收看的視頻數(shù)量，ntp表示推薦系統(tǒng)推薦且用戶收看的視頻數(shù)量。

5.2 隱式評分模型推薦結(jié)果

本文使用熵權(quán)法計算權(quán)重大小，按照第4章中設(shè)計的分布式隱式評分模型進(jìn)行計算，最終得到的結(jié)果為α=0.010 6，β=0.627 2，γ=0.362 2，形成的隱式評分模型，如式(13):

0.627 2·g(i)(interest)+0.362 2·h(i)(category)]

(13)

將該隱式評分模型應(yīng)用于基于Hadoop平臺的并行協(xié)同過濾算法，計算推薦結(jié)果的準(zhǔn)確率、均方誤差。為驗證模型的有效性，將推薦結(jié)果與直接使用收視比值的隱式評分模型、基于收視時長和收視比值的隱式評分模型[18]進(jìn)行對比，實驗結(jié)果如表2所示。

表2 推薦結(jié)果對比表Tab. 2 Comparison of recommended results

通過表2可以看出，本文提出的多特征混合隱式評分模型在推薦系統(tǒng)應(yīng)用中的準(zhǔn)確率明顯高于傳統(tǒng)的基于收視比值的評分模型以及基于收視時長與收視比值的模型，且推薦結(jié)果的均方誤差更小。實驗表明本文提出的多特征混合隱式評分模型有效提高了IPTV系統(tǒng)中推薦結(jié)果的質(zhì)量。

5.3 隱式評分模型

為了驗證模型的并行化可擴展性，本文采用加速比作為模型可擴展性的評價指標(biāo)。加速比能夠評估在相同的數(shù)據(jù)規(guī)模下調(diào)整分布式計算節(jié)點數(shù)對模型運行性能的變化情況，如式(14)所示:

Sp=Ti/Tp

(14)

其中:Sp代表加速比，Ti代表使用1個節(jié)點時的算法執(zhí)行時間，Tp代表使用p個計算節(jié)點時的算法并行執(zhí)行時間。加速比的值越大，模型可擴展性越強。

本文依據(jù)5.1節(jié)所給出的實驗環(huán)境，將計算節(jié)點從1增加到5，并分別比較了在500用戶規(guī)模、1 000用戶規(guī)模下的加速比。實驗結(jié)果如圖7所示。從圖中可以看出，在不同數(shù)據(jù)量下，加速比隨著節(jié)點個數(shù)的增加而不斷增長，類似線性增長，同時，隨著用戶量的增加，加速比也隨之增加。由此得知，基于Hadoop的分布式模型在處理大數(shù)據(jù)集時具有很好的加速比，分布式計算節(jié)點越多，效果越好, 所以基于Hadoop的分布式隱式評分模型具有很好的可擴展性。

圖7 隱式評分模型加速比Fig. 7 Speedup of implicit scoring model

6 結(jié)語

本文從實際應(yīng)用中的用戶行為數(shù)據(jù)出發(fā)，分析IPTV用戶歷史行為數(shù)據(jù)，提出了一種衡量用戶偏好的隱式反饋方法。通過這種方法，本文可以結(jié)合更多的隱式反饋以構(gòu)建用戶隱式評分模型; 同時，這種方法將來可以應(yīng)用于更多隱式反饋分析的場景中。

References)

[1] 郝蕓霞,金耀星.國內(nèi)外三網(wǎng)融合發(fā)展現(xiàn)狀研究及分析[J].信息通信技術(shù), 2011, 5(3): 51-55.(HAO Y X, JIN Y X. Research and analysis of triple play at home and abroad[J]. Information and Communications Technologies, 2011, 5(3): 51-55.)

[2] 崔永利.基于隱語義模型的IPTV上下文感知推薦算法[D].上海:華東師范大學(xué),2013.(CUI Y L. Latent factor model based iptv context-aware recommendation algorithms[D]. Shanghai: East China Normal University, 2013.)

[3] JOACHIMS T, GRANKA L, PAN B, et al. Accurately interpreting click through data as implicit feedback[C]// Proceedings of the 28th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. New York: ACM, 2005:154-161.

[4] CLAYPOOL M, LE P, WASEDA M, et al. Implicit interest indicators[C]// Proceedings of the 6th International Conference on Intelligent User Interfaces. New York: ACM, 2001: 33-40.

[5] LEUNG W K, CHAN C F, CHUNG F L. An empirical study of a cross-level association rule mining approach to cold-start recommendations[J]. Knowledge-Based Systems, 2008, 21(7): 515-529.

[6] POPESCUL A, PENNOCK D M, LAWRENCE S. Probabilistic models for unified collaborative and content-based recommendation in sparse-data environments[C]// Proceedings of the 17th Conference on Uncertainty in Artificial Intelligence. San Francisco, CA: Morgan Kaufmann Publishers Inc, 2001: 437-444.

[7] ULUYAGMUR M, CATALTEPE Z, TAYFUR E. Content-based movie recommendation using different feature sets[EB/OL].[2016- 11- 20]. http://www.iaeng.org/publication/WCECS2012/WCECS2012_pp517-521.pdf.

[8] GADANHO S C, LHUILLIER N. Addressing uncertainty in implicit preferences[C]// Proceedings of the 2007 ACM Conference on Recommender Systems. New York: ACM, 2007: 97-104.

[9] OARD D W, KIM J. Modeling information content using observable behavior[EB/OL].[2016- 11- 20]. http://terpconnect.umd.edu/～oard/pdf/asis01.pdf.

[10] KELLY D, TEEVAN J. Implicit feedback for inferring user preference: a bibliography[J]. ACM SIGIR Forum, 2003, 37(2): 18-28.

[11] HU Y, KOREN Y, VOLINSKY C. Collaborative filtering for implicit feedback datasets[C]// Proceedings of the 8th IEEE International Conference on Data Mining. Piscataway, NJ: IEEE, 2008: 263-272.

[12] KOREN Y, BELL R, VOLINSKY C. Matrix factorization techniques for recommender systems[J]. Computer, 2009, 42(8): 30-37.

[13] ZHENG Y, LIU C, TANG B, et al. Neural autoregressive collaborative filtering for implicit feedback[C]// Proceedings of the 1st Workshop on Deep Learning for Recommender Systems. New York: ACM, 2016: 1-6.

[14] GUO W, WU S, WANG L, et al. Personalized ranking with pairwise factorization machines[J]. Neurocomputing, 2016, 214:191-200.

[15] 印鑒,王智圣,李琪, 等.基于大規(guī)模隱式反饋的個性化推薦[J].軟件學(xué)報,2014,25(9):1953-1966. (YIN J, WANG Z S, LI Q, et al. Personalized recommendation based on large-scale implicit feedback [J]. Journal of Software, 2014, 25(9): 1953-1966.)

[16] 紀(jì)淑娟,王理,梁永全,等.基于神經(jīng)網(wǎng)絡(luò)的用戶視頻評分自動獲取方法[J].計算機科學(xué),2015,42(11):96-100.(JI S J, WANG L, LIANG Y Q, et al. Neural-network-based method for automatic acquisiton of user’s video rating[J]. Computer Science, 2015,42(11): 96-100.)

[17] KIM E, PYO S, PARK E, et al. An automatic recommendation scheme of TV program contents for IPTV personalization[J]. IEEE Transactions on Broadcasting, 2011, 57(3): 674-684.

[18] YUE J, GU J, ZHANG S. Spark-based distributed multi-features hybrid IPTV viewing implicit feedback scoring model[C]// Proceedings of the 2016 International Conference on Behavior Engineering. Macau: ISI, 2016: 97-104.

This work is partially supported by the Natural Science Foundation of Tianjin (15JCQNJC00600, 14JCYBJC15900).

GUJunhua, born in 1966, Ph. D., professor. His research interests include data mining, intelligent information processing, information acquisition and integration, intelligent computing and optimization, software engineering.

GUANLei, born in 1992, M. S. candidate. His research interests include intelligent information processing.

ZAHNGJian, born in 1993, M. S. candidate. His research interests include data mining.

GAOXing, born in 1992, M. S. candidate. Her research interests include business intelligence, soft computing.

ZHANGSuqi, born in 1980, Ph. D., lecturer. Her research interests include data mining.

IPTVimplicitscoringmodelbasedonHadoop

GU Junhua1*, GUAN Lei1, ZHANG Jian1, GAO Xing1, ZHANG Suqi2

(1.SchoolofComputerScienceandSoftware,HebeiUniversityofTechnology,Tianjin300401,China;2.SchoolofInformationEngineering,TianjinUniversityofCommerce,Tianjin300134,China)

According to the implicit characteristics of IPTV (Internet Protocol Television) user viewing behavior data, a novel implicit rating model was proposed. Firstly, the main features of IPTV user viewing behavior data were introduced, and a new mixed feature implicit scoring model was proposed, which combined with viewing ratio, user interest bias factor and video type influence factor. Secondly, the strategy of viewing behavior based on viewing time and viewing ratio was proposed. Finally, a distributed model architecture based on Hadoop was designed and implemented. The experimental results show that the proposed novel model effectively improves the quality of the recommended results in the IPTV system, improves the time efficiency, and has good scalability for large amounts of data.

implicit feedback; distributed model; interest model; Internet Protocol Television (IPTV)

2017- 05- 16;

2017- 07- 05。

天津市自然科學(xué)基金資助項目(15JCQNJC00600, 14JCYBJC15900)。

顧軍華(1966—)，男，河北趙縣人，教授，博士，CCF會員，主要研究方向：數(shù)據(jù)挖掘、智能信息處理、信息采集與集成、智能計算與優(yōu)化、軟件工程；官磊(1992—)，男，河南信陽人，碩士研究生，主要研究方向：智能信息處理；張建(1993—)，男，河北涿州人，碩士研究生，主要研究方向：數(shù)據(jù)挖掘；高星(1992—)，女，河北趙縣人，碩士研究生，主要研究方向：商務(wù)智能、軟計算；張素琪(1980—)，女，河北隆堯人，講師, 博士，CCF會員，主要研究方向：數(shù)據(jù)挖掘。

1001- 9081(2017)11- 3188- 06

10.11772/j.issn.1001- 9081.2017.11.3188

(*通信作者電子郵箱jhgu@hebut.edu.cn)

TP393.08