潘 棟 楊 靜
(華東師范大學(xué)計(jì)算機(jī)科學(xué)技術(shù)系 上海 200241)
基于改進(jìn)K-近鄰算法的電視劇點(diǎn)播量預(yù)測(cè)方法
潘 棟 楊 靜
(華東師范大學(xué)計(jì)算機(jī)科學(xué)技術(shù)系 上海 200241)
及時(shí)、準(zhǔn)確地預(yù)測(cè)電視劇點(diǎn)播量為商業(yè)決策提供很大幫助。傳統(tǒng)時(shí)間序列預(yù)測(cè)需要大量歷史數(shù)據(jù),很難滿足及時(shí)、準(zhǔn)確的預(yù)測(cè)需求。提出一種基于改進(jìn)K-近鄰算法的電視劇點(diǎn)播量預(yù)測(cè)方法,改進(jìn)了K-近鄰模型,并融入縮放技術(shù)和相關(guān)系數(shù),結(jié)合百度搜索數(shù)據(jù)和點(diǎn)播量序列的相關(guān)性,以前一周每天的點(diǎn)播量為特征,預(yù)測(cè)電視劇后一天的點(diǎn)播量。在PPTV和優(yōu)酷數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),比用K-近鄰的方法在MAE和MAPE上分別提高了75.5%、95.3%和71.8%、99.3%。
點(diǎn)播系統(tǒng) 電視劇點(diǎn)播量預(yù)測(cè) K-近鄰模型 搜索數(shù)據(jù) 縮放技術(shù) 相關(guān)系數(shù)
近年來(lái), VOD(video on demand)服務(wù)成為了目前各大視頻服務(wù)提供商最為主要的業(yè)務(wù),優(yōu)酷、PPTV、樂(lè)視等各大在線點(diǎn)播系統(tǒng)之間的競(jìng)爭(zhēng)越來(lái)越激烈。如果能根據(jù)早期的電視劇的播放情況準(zhǔn)確地預(yù)估電視劇的點(diǎn)播量,提前準(zhǔn)備首頁(yè)推薦,能夠獲得更好的用戶(hù)體驗(yàn)。同時(shí),根據(jù)艾瑞咨詢(xún)2013年第三季度到2015年第一季度的數(shù)據(jù)統(tǒng)計(jì),在中國(guó)在線視頻市場(chǎng)中,廣告所占的市場(chǎng)份額最大,2015年第一季度占了總收入的58.2%[1]。而提早預(yù)知視頻點(diǎn)播量可以為廣告播放次數(shù)、廣告播放時(shí)間做出預(yù)先安排計(jì)劃。這將為各大視頻服務(wù)提供商的商業(yè)決策給予極大的支持。因此,能在電視劇上線后越早預(yù)測(cè)電視劇的點(diǎn)播量,并準(zhǔn)確地預(yù)測(cè)用戶(hù)點(diǎn)播電視劇的次數(shù)成為了新的研究熱點(diǎn)。
在點(diǎn)播系統(tǒng)中,電視劇第一次出現(xiàn)在系統(tǒng)中一般稱(chēng)為上線,用戶(hù)點(diǎn)播電視劇的次數(shù)稱(chēng)為電視劇的點(diǎn)播量。目前已有的研究主要注重對(duì)點(diǎn)播量的相關(guān)因素進(jìn)行統(tǒng)計(jì)和分析,從而總結(jié)出對(duì)預(yù)測(cè)點(diǎn)播量有幫助的性質(zhì),還有一些研究針對(duì)視頻點(diǎn)播量趨勢(shì)的預(yù)測(cè)。而關(guān)于時(shí)間序列預(yù)測(cè)方面的研究,最大的困難是訓(xùn)練模型時(shí)需要大量歷史數(shù)據(jù),這為早期預(yù)測(cè)造成很大的困難。但文獻(xiàn)[2-3]的研究表明,序列前期的不同趨勢(shì)會(huì)對(duì)未來(lái)的點(diǎn)播量造成影響,所以當(dāng)沒(méi)有足夠的序列歷史數(shù)據(jù)時(shí),可以根據(jù)早期點(diǎn)播量匹配趨勢(shì)變化相似的鄰居序列來(lái)幫助預(yù)測(cè)點(diǎn)播量。KNN算法是一種鄰近算法,可以找出樣本中與自身特征相似的鄰近點(diǎn)。然而傳統(tǒng)的KNN算法,一般使用歐氏距離作為相似度,并不能體現(xiàn)序列的趨勢(shì)變化的相似,如果通過(guò)改進(jìn)KNN算法,找出序列趨勢(shì)一致的鄰居序列,這樣可以更準(zhǔn)確地預(yù)測(cè)點(diǎn)播量。
雖然通過(guò)預(yù)測(cè)模型可以找出趨勢(shì)相似的鄰居序列,但是點(diǎn)播量序列存在不確定性,如果可以通過(guò)外部數(shù)據(jù)預(yù)測(cè)趨勢(shì)變化的類(lèi)別,那將對(duì)預(yù)測(cè)結(jié)果有很大幫助。對(duì)于外部數(shù)據(jù)用于預(yù)測(cè)方面,很多研究通過(guò)搜索引擎數(shù)據(jù)對(duì)電影票房和電視劇排名進(jìn)行預(yù)測(cè),取得了較好的成果。這些研究都是利用搜索數(shù)據(jù)可以體現(xiàn)用戶(hù)對(duì)該電視劇或電影的關(guān)注度,從而對(duì)票房和熱度排名進(jìn)行預(yù)測(cè)。然而,由于搜索數(shù)據(jù)和點(diǎn)播量在數(shù)值上存在很大的偏差,直接利用搜索數(shù)據(jù)進(jìn)行電視劇點(diǎn)播量的預(yù)測(cè)變得十分困難。但是,如果能分析出搜索數(shù)據(jù)與點(diǎn)播量之間的相關(guān)性,將對(duì)準(zhǔn)確地預(yù)測(cè)電視劇的點(diǎn)播量起到良好的輔助作用。
本文提出的算法從電視劇上線一周后開(kāi)始每天預(yù)測(cè)其后一天的點(diǎn)播量,預(yù)測(cè)出具體的點(diǎn)播量數(shù)值,算法借助了百度搜索數(shù)據(jù)并改進(jìn)了KNN模型。本文的主要工作有以下三個(gè)方面:
(1) 改進(jìn)KNN模型,融入了縮放技術(shù),并以曲線的相關(guān)系數(shù)代替?zhèn)鹘y(tǒng)的歐氏距離,效果好于傳統(tǒng)的KNN預(yù)測(cè)方法。
(2) 發(fā)現(xiàn)百度搜索數(shù)據(jù)的趨勢(shì)變化與電視劇點(diǎn)播量的趨勢(shì)變化有明顯的一致性,并有一定的提前量。利用百度搜索數(shù)據(jù)的變化趨勢(shì),融入到改進(jìn)的KNN模型中,進(jìn)行預(yù)測(cè)點(diǎn)播量,效果明顯好于只用改進(jìn)KNN模型的方法。
(3) 有效解決傳統(tǒng)方法需要大量歷史數(shù)據(jù),在后期才能開(kāi)始預(yù)測(cè)的問(wèn)題,本方法能在電視劇上線一周后開(kāi)始預(yù)測(cè)點(diǎn)播量的具體數(shù)值。
對(duì)于視頻點(diǎn)播模式下的研究工作大致可以分為兩類(lèi):分析類(lèi)和預(yù)測(cè)類(lèi)。前者的研究主要注重于對(duì)點(diǎn)播量的相關(guān)因素進(jìn)行分析和統(tǒng)計(jì),從而總結(jié)出一些對(duì)預(yù)測(cè)點(diǎn)播量有幫助的性質(zhì);而后者給出具體的預(yù)測(cè)模型,主要對(duì)點(diǎn)播的趨勢(shì)進(jìn)行分析預(yù)測(cè)。
(1) 分析類(lèi):文獻(xiàn)[4]通過(guò)研究PPTV的點(diǎn)播日志數(shù)據(jù),分別分析了用戶(hù)行為、視頻熱度、視頻點(diǎn)播平臺(tái)等因素。再通過(guò)計(jì)算皮爾森相關(guān)系數(shù),提出了視頻在上線后的前面幾個(gè)小時(shí)的點(diǎn)播量與最終的點(diǎn)播量有很強(qiáng)的相關(guān)性。而文獻(xiàn)[5]分析了視頻的生命周期,指出節(jié)目的點(diǎn)播量集中在視頻的早期。文獻(xiàn)[6]分析并對(duì)比各種視頻類(lèi)型的趨勢(shì)變化,認(rèn)為電視劇和電影每日的點(diǎn)播量存在一定規(guī)律。
(2) 預(yù)測(cè)類(lèi):文獻(xiàn)[2]利用基于HMM的峰值預(yù)測(cè)方法對(duì)視頻信息數(shù)據(jù)和點(diǎn)播量序列數(shù)據(jù)進(jìn)行預(yù)測(cè),說(shuō)明了視頻前期的點(diǎn)播趨勢(shì)和后期的點(diǎn)播趨勢(shì)具有一定的相關(guān)性。文獻(xiàn)[7]對(duì)序列數(shù)據(jù)的趨勢(shì)類(lèi)型進(jìn)行聚類(lèi),得到趨勢(shì)類(lèi)型的種類(lèi)。再訓(xùn)練分類(lèi)器,預(yù)測(cè)新序列的趨勢(shì)類(lèi)型。文獻(xiàn)[8]認(rèn)為序列在不同的時(shí)間所表現(xiàn)的趨勢(shì)類(lèi)別應(yīng)該是不一樣的。所以,作者用窗口對(duì)序列進(jìn)行切分,最后對(duì)切分序列進(jìn)行聚類(lèi)操作。文獻(xiàn)[3]對(duì)前K天的點(diǎn)播量總和采用線性回歸和對(duì)數(shù)線性回歸的方法,預(yù)測(cè)前N天的點(diǎn)播量總和。文獻(xiàn)[9]以早期序列作為特征,用KNN預(yù)測(cè)視頻的播放量峰值來(lái)對(duì)視頻進(jìn)行熱度排名。文獻(xiàn)[10]利用早期的點(diǎn)播序列與后期點(diǎn)播變化的相關(guān)性利用KNN在早期預(yù)測(cè)了點(diǎn)播序列。
對(duì)于借助外部數(shù)據(jù)對(duì)點(diǎn)播量預(yù)測(cè)的研究,文獻(xiàn)[11]中,作者通過(guò)研究電影上映的周票房,分析了電影的票房數(shù)和電影的搜索次數(shù),發(fā)現(xiàn)兩者的相關(guān)性。再用前4周發(fā)布的電影名相關(guān)搜索次數(shù)等相關(guān)因素預(yù)測(cè)了票房。文獻(xiàn)[12]作者利用微博社交數(shù)據(jù)和百度搜索數(shù)據(jù)作為特征,利用線性回歸的方法,對(duì)電視劇進(jìn)行熱度排名,取得了很好的效果。文獻(xiàn)[13]利用社交網(wǎng)絡(luò)數(shù)據(jù)對(duì)視頻的熱度實(shí)時(shí)的進(jìn)行排名預(yù)測(cè)。
針對(duì)上述的情況,本文試圖結(jié)合搜索數(shù)據(jù)來(lái)進(jìn)行點(diǎn)播系統(tǒng)中的電視劇點(diǎn)播量的預(yù)測(cè),通過(guò)分析搜索數(shù)據(jù)與點(diǎn)播序列的相關(guān)性,利用改進(jìn)的預(yù)測(cè)模型對(duì)新上線的電視劇點(diǎn)播量進(jìn)行預(yù)測(cè)。
本文提出的方法由兩步組成,如圖1所示。第一步,訓(xùn)練集處理。將作為訓(xùn)練集的電視劇點(diǎn)播序列進(jìn)行窗口劃分,并對(duì)曲線趨勢(shì)進(jìn)行分類(lèi);第二步,點(diǎn)播量預(yù)測(cè)。根據(jù)百度搜索數(shù)據(jù)的變化趨勢(shì),利用改進(jìn)KNN模型預(yù)測(cè)電視劇點(diǎn)播量。本文中所使用到的符號(hào),如表1所示。
圖1 方法總體框架
符號(hào)含義n窗口大小TS電視劇點(diǎn)播量序列集合Tsi集合TS中的第i個(gè)序列Tsi(t)序列Tsi中的第t個(gè)元素S劃分好的序列集合sti序列Tsi從的第t個(gè)元素開(kāi)始劃分的子序列sti(k)sti的第k個(gè)元素trendtisti的趨勢(shì)類(lèi)別s[i:j]序列s從i到j(luò)的子序列snew新的電視劇序列sbaidu百度搜索數(shù)據(jù)序列sneighbour鄰居序列Daypre百度搜索數(shù)據(jù)變化趨勢(shì)較點(diǎn)播量變化趨勢(shì)的提前天數(shù)
2.1 訓(xùn)練集處理
2.2 百度指數(shù)分析
為了分析百度搜索數(shù)據(jù)與電視劇點(diǎn)播量之間的相關(guān)性,作者從PPTV中獲取了2014年10月到2015年7月新上線的100部電視劇的點(diǎn)播數(shù)據(jù),并從百度指數(shù)中抓取了這些電視劇的歷史搜索數(shù)據(jù)。對(duì)于百度指數(shù)的分析,本文主要關(guān)注兩個(gè)問(wèn)題:
(1) 百度搜索數(shù)據(jù)的趨勢(shì)變化是否提前于電視劇點(diǎn)播量的趨勢(shì)變化;
(2) 電視劇點(diǎn)播量的趨勢(shì)變化與百度搜索數(shù)據(jù)的趨勢(shì)變化是否具有一致性。
2.2.1 百度搜索次數(shù)的趨勢(shì)變化提前量分析
根據(jù)電視劇播出的情況,首播前制片商會(huì)在各個(gè)渠道對(duì)電視劇進(jìn)行大量的宣傳活動(dòng),然后播出預(yù)告片,最后才會(huì)進(jìn)行正式首播。用戶(hù)往往在點(diǎn)播電視劇前,在搜索引擎上搜索電視劇名,了解電視劇的相關(guān)內(nèi)容簡(jiǎn)介。同時(shí),對(duì)于新的電視劇,網(wǎng)上更新往往比在電視上播放要晚一天,會(huì)在第二天凌晨放出片源。這些原因都有可能造成搜索數(shù)據(jù)的趨勢(shì)變化提前于點(diǎn)播量的趨勢(shì)變化。所以,根據(jù)相關(guān)系數(shù)公式(式(1))分別計(jì)算了電視劇從首播開(kāi)始30天的點(diǎn)播量s[0:29](設(shè)首播日在各個(gè)序列中的下標(biāo)為0)與百度搜索數(shù)據(jù)首播前四天sbaidu[-4,25]、首播前三天sbaidu[-3,26]、首播前兩天sbaidu[-2,27]、首播前一天sbaidu[-1,28]、首播當(dāng)天sbaidu[0,29]、首播后一天sbaidu[1,30]、首播后兩天sbaidu[2,31]的相關(guān)系數(shù),取其中相關(guān)系數(shù)最大的為電視劇的提前量,并統(tǒng)計(jì)電視劇數(shù),如圖2所示。
(1)
圖2 百度搜索數(shù)據(jù)提前量分析
從圖2中可以看出在100部電視劇中,26部電視劇的提前量為首播前兩天,57部電視劇的提前量為首播前一天。占了84%的電視劇搜索數(shù)據(jù)的趨勢(shì)變化提前于電視劇點(diǎn)量的趨勢(shì)變化。這也說(shuō)明了絕大多數(shù)電視劇的百度搜索數(shù)據(jù)的趨勢(shì)變化先于電視劇的點(diǎn)播量的趨勢(shì)變化。
2.2.2 百度搜索次數(shù)與點(diǎn)播量趨勢(shì)變化的一致性分析
往往搜索量越多的電視劇,說(shuō)明受到的關(guān)注越多,從而點(diǎn)播數(shù)量相對(duì)較多。對(duì)于變化趨勢(shì)一致性的分析,我們根據(jù)式(1)計(jì)算在圖2分析中趨勢(shì)變化提前于點(diǎn)播量序列的84部電視劇的點(diǎn)播量與其首播前三天、首播前兩天、首播前一天百度搜索數(shù)據(jù)的相關(guān)系數(shù),取其中最大的相關(guān)系數(shù),作為該電視劇百度搜索數(shù)據(jù)與點(diǎn)播量的相關(guān)系數(shù),分別統(tǒng)計(jì)相關(guān)系數(shù)0.9-1、0.8-0.9、0.7-0.8、0.6-0.7、0.5-0.6和0-0.5的電視劇個(gè)數(shù),如圖3所示。
圖3 百度搜索次數(shù)變化趨勢(shì)和點(diǎn)播量變化趨勢(shì)各個(gè)相關(guān)系數(shù)段的電視劇個(gè)數(shù)
在84部電視劇中,相關(guān)系數(shù)大于0.7有78部 ,而大于0.8的也有67部,這說(shuō)明了百度搜索次數(shù)的變化趨勢(shì)與點(diǎn)播量的播放的變化趨勢(shì)有顯著的線性相關(guān)性,也可以說(shuō)明它們的變化趨勢(shì)有顯著的一致性。
2.3 電視劇點(diǎn)播量數(shù)值預(yù)測(cè)
本文主要改進(jìn)了KNN算法的相似度計(jì)算,不再使用傳統(tǒng)的歐氏距離,使用融入了縮放技術(shù)的相關(guān)系數(shù)作為相似度,利用前期的點(diǎn)播量找出訓(xùn)練集中與其變化趨勢(shì)相似的鄰居序列,并通過(guò)相似的鄰居序列進(jìn)行預(yù)測(cè)具體的點(diǎn)播量數(shù)值。
2.3.1 融入縮放技術(shù)與相關(guān)系數(shù)的相似度計(jì)算
由于不同的序列的數(shù)量級(jí)各不相同,要預(yù)測(cè)出精確的數(shù)值,數(shù)量級(jí)的不同會(huì)影響到預(yù)測(cè)數(shù)值的精度,為了消除相似度計(jì)算由于序列自身數(shù)量級(jí)而造成的影響,本文使用了文獻(xiàn)[14]中所提出的縮放技術(shù)。同時(shí),考慮到傳統(tǒng)的KNN使用歐氏距離作為相似度,而歐氏距離主要體現(xiàn)的是空間距離,對(duì)于時(shí)間序列歐氏距離只能表現(xiàn)出兩條序列之間值的差距大小,并不能體現(xiàn)出序列之間趨勢(shì)變化的相似程度。而相關(guān)系數(shù)主要體現(xiàn)兩條序列的線性相關(guān)程度,可以有效地衡量?jī)蓷l曲線的趨勢(shì)變化是否相似。因此本文利用序列的相關(guān)系數(shù)作為相似度,可以更好地找出趨勢(shì)變化一致的鄰近點(diǎn)。融入了縮放技術(shù)的相關(guān)系數(shù)相似度計(jì)算式表示為:
sim(sa,sb)=r(sa,αsb)
(2)
2.3.2 點(diǎn)播量數(shù)值預(yù)測(cè)方法
由于根據(jù)圖2分析,電視劇的提前量主要集中在首播前兩天和首播前一天,所以根據(jù)式(2)計(jì)算預(yù)測(cè)序列snew[0:n](假設(shè)首播日在各個(gè)序列中的下標(biāo)為0)與該電視劇百度指數(shù)中首播前一天序列sbaidu[-1:n-1]、首播前兩天sbaidu[-2:n-2]的相似度,相似度高的作為該電視劇搜索指數(shù)提前于點(diǎn)播序列的天數(shù)Daypre。
(3)
3.1 實(shí)驗(yàn)數(shù)據(jù)集
本文在兩個(gè)數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),數(shù)據(jù)集來(lái)自?xún)蓚€(gè)國(guó)內(nèi)主流在線點(diǎn)播服務(wù)提供商——PPTV和優(yōu)酷。PPTV數(shù)據(jù)集取樣自PPTV的日志文件,從PPTV中收集了2014年10月1日到2015年6月30日新上線,并且首播日期和真實(shí)首播日期一致的138部電視劇的點(diǎn)播序列作為測(cè)試集,選取524部電視劇的點(diǎn)播序列作為訓(xùn)練集;優(yōu)酷數(shù)據(jù)集抓取了中國(guó)網(wǎng)絡(luò)視頻指數(shù)中優(yōu)酷的點(diǎn)播量,選取了2014年10月1日到2015年6月30日新上線,并且首播日期和真實(shí)首播日期一致的101部電視劇的點(diǎn)播量作為測(cè)試集,選取556部電視劇的點(diǎn)播序列作為訓(xùn)練集。本文還用到了外部數(shù)據(jù)——百度搜索數(shù)據(jù),從百度指數(shù)中抓取了電視劇在百度中每天的搜索次數(shù)。
3.2 實(shí)驗(yàn)設(shè)置
在實(shí)現(xiàn)本文的方法時(shí),對(duì)于處理訓(xùn)練集,在設(shè)置窗口大小n時(shí),考慮到訓(xùn)練集序列不能過(guò)短或過(guò)長(zhǎng),過(guò)短不能體現(xiàn)序列的變化趨勢(shì),過(guò)長(zhǎng)會(huì)推遲預(yù)測(cè)時(shí)間,根據(jù)文獻(xiàn)[9]設(shè)置窗口大小為一周左右最為合適。對(duì)于訓(xùn)練集序列分類(lèi)規(guī)則中設(shè)置的5個(gè)閾值分別為0.5、0.1、0、-0.1、-0.5,0用來(lái)區(qū)分趨勢(shì)的升降;區(qū)分趨勢(shì)類(lèi)別中的“快速上升”和“快速下降”,取中間值0.5和-0.5作為閾值;區(qū)分趨勢(shì)類(lèi)別中的“緩慢上升”和“緩慢下降”,取小一點(diǎn)的數(shù)0.1與-0.1作為閾值。
本文設(shè)置3個(gè)方法用來(lái)與提出的方法進(jìn)行比較:(1)KNN:利用KNN模型,以傳統(tǒng)的歐氏距離作為相似度,根據(jù)式(3)計(jì)算出點(diǎn)播量變化的歸一化值sreslut_temp,反歸一化后加上snew(t)預(yù)測(cè)電視劇的點(diǎn)播量;(2)KNN+:用融入了縮放技術(shù)的相關(guān)系數(shù)作為相似度的KNN模型,根據(jù)式(3)計(jì)算出點(diǎn)播量變化的歸一化值sreslut_temp,反歸一化后加上snew(t)預(yù)測(cè)電視劇點(diǎn)播量;(3) 百度指數(shù):在得到提前天數(shù)Daypre后,直接使用百度搜索數(shù)據(jù)變化比例作為點(diǎn)播量的變化比例β,以snew(t)=(1+β)×snew(t-1)預(yù)測(cè)電視劇的點(diǎn)播量。
對(duì)于實(shí)驗(yàn)結(jié)果評(píng)測(cè),本文使用平均絕對(duì)誤差[15](MAE)和平均絕對(duì)百分誤差[15](MAPE)作為實(shí)驗(yàn)的評(píng)價(jià)指標(biāo)。MAE:所有單個(gè)預(yù)測(cè)值與真值之間偏差的絕對(duì)值的平均值,不會(huì)出現(xiàn)正負(fù)抵消的情況,更好地反映預(yù)測(cè)值誤差的實(shí)際情況;MAPE:所有單個(gè)觀測(cè)值與真值偏差百分比的平均值,可以避免由于真值數(shù)量級(jí)不同造成的影響,體現(xiàn)預(yù)測(cè)的絕對(duì)誤差。
3.3 實(shí)驗(yàn)結(jié)果與分析
本文根據(jù)設(shè)置的4個(gè)方法,預(yù)測(cè)了測(cè)試集中電視劇每天的具體點(diǎn)播量,評(píng)測(cè)結(jié)果如表2所示。在四個(gè)方法中本文提出的方法在兩個(gè)數(shù)據(jù)集上的效果都好于其他三個(gè)方法。在兩個(gè)數(shù)據(jù)集上,KNN+的方法預(yù)測(cè)準(zhǔn)確率高于KNN預(yù)測(cè)的結(jié)果,分別在PPTV和優(yōu)酷兩個(gè)數(shù)據(jù)集上提升了40%、56%以及45%、60%。KNN+的方法在效果上顯著高于KNN,一方面說(shuō)明KNN+模型的有效性,傳統(tǒng)的歐氏距離只能計(jì)算序列之間的空間距離,并沒(méi)有體現(xiàn)出序列的變化趨勢(shì)。而KNN+算法,通過(guò)修改相似度的計(jì)算,很好地體現(xiàn)了序列之間趨勢(shì)變化的相似程度,能夠根據(jù)需要預(yù)測(cè)的點(diǎn)播序列從訓(xùn)練集中找到與其趨勢(shì)變化相似的點(diǎn)播序列。另一方面也從側(cè)面說(shuō)明了電視劇的點(diǎn)播量與其前期點(diǎn)播量的趨勢(shì)變化有密切的相關(guān)性。
表2 實(shí)驗(yàn)結(jié)果
而本文提出的方法是四個(gè)方法中效果最好的,在各個(gè)評(píng)測(cè)指標(biāo)上都顯著好于KNN+的結(jié)果。在PPTV和優(yōu)酷兩個(gè)數(shù)據(jù)集上,MAE和MAPE分別提高了59.0%、39.1%和49.1%、38.9%,在準(zhǔn)確性上有很大的提升。說(shuō)明了百度搜索數(shù)據(jù)的趨勢(shì)變化確實(shí)和電視劇點(diǎn)播量的趨勢(shì)變化趨于一致,并有一定的提前量,具有顯著的相關(guān)性。所以,百度搜索數(shù)據(jù)能夠?qū)?zhǔn)確地預(yù)測(cè)電視劇點(diǎn)播量起到很好的輔助作用,幫助預(yù)測(cè)點(diǎn)播量的趨勢(shì)變化;同時(shí),本文提出的方法比較百度指數(shù)的方法在兩個(gè)指標(biāo)上超出:(1)PPTV:23%、8.4%;(2) 優(yōu)酷:15%、1.6%。說(shuō)明了KNN+在這個(gè)方法中的有效性,可以通過(guò)KNN+的方法找出趨勢(shì)變化相似的鄰居序列,用相似的鄰居序列對(duì)電視劇點(diǎn)播量進(jìn)行預(yù)測(cè)。
對(duì)于兩個(gè)數(shù)據(jù)集的比較,由于MAE會(huì)受到數(shù)據(jù)集本身數(shù)據(jù)的影響,所以主要從MAPE這個(gè)指標(biāo)進(jìn)行分析。從MAPE上可以看出,四種方法在PPTV上的效果好于優(yōu)酷數(shù)據(jù)。這個(gè)原因可能由兩個(gè)數(shù)據(jù)集的數(shù)據(jù)來(lái)源不同而導(dǎo)致,PPTV的數(shù)據(jù)來(lái)源于日志文件,處理數(shù)據(jù)時(shí),點(diǎn)播量主要統(tǒng)計(jì)了正片每天的點(diǎn)播量;而優(yōu)酷數(shù)據(jù),是從中國(guó)網(wǎng)絡(luò)視頻指數(shù)中抓取獲得,點(diǎn)播量由預(yù)告片和正片的點(diǎn)播量組成,這個(gè)原因可能導(dǎo)致方法在優(yōu)酷數(shù)據(jù)集上的結(jié)果要略差于PPTV。
從以上的實(shí)驗(yàn)結(jié)果分析來(lái)看,本文提出的基于改進(jìn)K-近鄰并結(jié)合了百度搜索數(shù)據(jù)與點(diǎn)播量的相關(guān)性預(yù)測(cè)新上線電視劇點(diǎn)播量的方法在評(píng)測(cè)結(jié)果上要優(yōu)于其他方法。
本文通過(guò)百度搜索引擎利用改進(jìn)的KNN模型對(duì)新上線的電視劇進(jìn)行了點(diǎn)播量預(yù)測(cè)。我們通過(guò)對(duì)PPTV中新上線的100部電視劇進(jìn)行了相關(guān)系數(shù)分析,發(fā)現(xiàn)了百度搜索數(shù)據(jù)和電視劇點(diǎn)播序列的趨勢(shì)一致性,以及百度搜索數(shù)據(jù)的趨勢(shì)變化提前于電視劇點(diǎn)播量的趨勢(shì)變化。最后利用本文提出的方法在PPTV和優(yōu)酷兩個(gè)數(shù)據(jù)集上進(jìn)行了測(cè)試,都表現(xiàn)出了更好的預(yù)測(cè)效果,對(duì)比KNN的方法,在MAE和MAPE上分別高出75.5%、95.3%和71.8%、99.3%。
對(duì)于未來(lái)工作,我們?cè)谔幚碛?xùn)練集時(shí),在劃分序列的同時(shí)可以考慮序列所處的位置,將序列的位置信息加入到預(yù)測(cè)工作中。
[1] 艾瑞咨詢(xún).艾瑞:2015Q1中國(guó)在線視頻移動(dòng)廣告占比迅速攀升[DB/OL].(2015-5-11).http://www.iresearch.com.cn/view/249731.html.
[2]CraneR,SornetteD.Viral,Quality,andJunkVideosonYouTube:SeparatingContentfromNoiseinanInformation-RichEnvironment[C]//AAAISpringSymposium.California.USA:SocialInformationProcessing.2008:18-20.
[3]SzaboG,HubermanBA.Predictingthepopularityofonlinecontent[J].CommunicationsoftheACM,2010,53(8):80-88.
[4]LiZ,LinJ,AkodjenouMI,etal.Watchingvideosfromeverywhere:astudyofthePPTVmobileVoDsystem[C]//Proceedingsofthe2012ACMconferenceonInternetmeasurementconference.Boston.USA:ACM,2012:185-198.
[5]FigueiredoF,BenevenutoF,AlmeidaJM.Thetubeovertime:characterizingpopularitygrowthofyoutubevideos[C]//ProceedingsofthefourthACMinternationalconferenceonWebsearchanddatamining.HongKong.China:ACM,2011:745-754.
[6]AbrahamssonH,NordmarkM.ProgramPopularityandViewerBehaviorinaLargeTV-on-DemandSystem[C]//Proceedingsofthe2012ACMconferenceonInternetmeasurementconference.NewYork.USA:ACM,2012:199-210.
[7]FigueiredoF.Onthepredictionofpopularityoftrendsandhitsforusergeneratedvideos[C]//ProceedingsofthesixthACMinternationalconferenceonWebsearchanddatamining.Rome.Italy:ACM,2013:741-746.
[8]AhmedM,SpagnaS,HuiciF,etal.Apeekintothefuture:Predictingtheevolutionofpopularityinusergeneratedcontent[C]//ProceedingsofthesixthACMinternationalconferenceonWebsearchanddatamining.Rome.Italy:ACM,2013:607-616.
[9] 李侖,王洪波.基于K近鄰的網(wǎng)絡(luò)視頻播放量峰值預(yù)測(cè)模型[EB/OL].(2015-12-02).http://www.paper.edu.cn/releasepaper/content/201512-122.
[10]ChenH,HuQ,HeL.Clairvoyant:AnEarlyPredictionSystemForVideoHits[C]//Proceedingsofthe23rdACMInternationalConferenceonConferenceonInformationandKnowledgeManagement.Shanghai.China:ACM,2014:2054-2056.
[11]PanaliganR.QuantifyingMovieMagicwithGoogleSearch[EB/OL].(2013-05-18).http://www.tuicool.com/articals/mei2Qf.
[12] 徐曉楓,賀樑,楊靜.融合社交與搜索數(shù)據(jù)的電視劇點(diǎn)播排名預(yù)測(cè)研究[J].計(jì)算機(jī)工程,2015,41(8):6-12,17.
[13]XuJ,VandSM,LiuJ,etal.Timelyvideopopularityforecastingbasedonsocialnetworks[C]//Chengdu.China:ComputerCommunications.IEEE,2015.
[14]ChuKKW,WongMH.Fasttime-seriessearchingwithscalingandshifting[C]//ProceedingsoftheeighteenthACMSIGMOD-SIGACT-SIGARTsymposiumonPrinciplesofdatabasesystems.Philadelphia.USA:ACM,1999:237-248.
[15]HyndmanRJ,KoehlerAB.Anotherlookatmeasuresofforecastaccuracy[J].InternationalJournalofForecasting,2005,22(4):679-688.
A PREDICTION METHOD OF TV ON DEMAND BASED ON IMPROVED KNN ALGORITHM
Pan Dong Yang Jing
(DepartmentofComputerScienceandTechnology,EastChinaNormalUniversity,Shanghai200241,China)
Timely and accurate prediction of TV on demand provides a great help for commercial decision. Traditional time series prediction requires a lot of historical data, and it is difficult to meet the timely and accurate prediction needs. In this paper, an improved KNN algorithm is proposed to improve the prediction of TV on demand. The KNN model is improved, and the scaling technology and correlation index are integrated. Combining the correlation between Baidu search data and the demand quantity sequence, it is characterized by daily demand of the previous week to predict the day after the TV drama demand. Experiments on the PPTV and Youku data sets show an increase of 75.5%, 95.3%, 71.8% and 99.3% on the MAE and MAPE, respectively, compared with the KNN algorithm.
On-demand system TV on demand prediction KNN model Search data Scaling technology Correlation index
2016-05-20。國(guó)家科技支撐項(xiàng)目(2015BAH01F02);上海市科學(xué)技術(shù)委員會(huì)科研計(jì)劃項(xiàng)目(16511102702)。潘棟,碩士生,主研領(lǐng)域:數(shù)據(jù)挖掘,復(fù)雜信息處理與數(shù)據(jù)庫(kù)。楊靜,副教授。
TP3
A
10.3969/j.issn.1000-386x.2017.05.042