• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于大數(shù)據(jù)的數(shù)字電視用戶關(guān)機(jī)行為預(yù)測

      2016-12-29 06:04:18王炳飛
      電視技術(shù) 2016年12期
      關(guān)鍵詞:機(jī)頂盒電視機(jī)決策樹

      萬 倩,謝 峰,趙 明,王炳飛

      (1.國家新聞出版廣電總局廣播科學(xué)研究院,北京 100866;2.北京數(shù)碼視訊科技股份有限公司,北京 100085)

      ?

      基于大數(shù)據(jù)的數(shù)字電視用戶關(guān)機(jī)行為預(yù)測

      萬 倩1,謝 峰2,趙 明1,王炳飛2

      (1.國家新聞出版廣電總局廣播科學(xué)研究院,北京 100866;2.北京數(shù)碼視訊科技股份有限公司,北京 100085)

      廣電有線運營商利用雙向數(shù)字電視機(jī)頂盒回傳的用戶收視行為數(shù)據(jù),結(jié)合廣電BOSS系統(tǒng)提供的媒資數(shù)據(jù),通過采用大數(shù)據(jù)分析技術(shù),為數(shù)字電視用戶提供個性化的收視服務(wù),極大提升了用戶體驗并增加了營業(yè)收入。然而,回傳數(shù)據(jù)難以捕捉到電視機(jī)的狀態(tài),在機(jī)頂盒未關(guān)閉而電視機(jī)關(guān)閉的情況下,通過回傳數(shù)據(jù)得到的用戶收視行為是無效的,會影響大數(shù)據(jù)分析系統(tǒng)對用戶收視行為的預(yù)估。通過分析已知的數(shù)字電視用戶關(guān)閉電視機(jī)的行為特征,生成用戶關(guān)機(jī)模型,從而預(yù)測無法采集到電視機(jī)關(guān)機(jī)數(shù)據(jù)的數(shù)字電視用戶的關(guān)機(jī)行為,保證用戶收視行為統(tǒng)計的有效性。

      大數(shù)據(jù);關(guān)機(jī)模型;回歸決策樹;GBDT

      隨著有線電視網(wǎng)絡(luò)雙向改造的加速,及雙向數(shù)字電視機(jī)頂盒的普及,海量家庭用戶操作機(jī)頂盒的行為數(shù)據(jù)能夠被收集,并通過采集系統(tǒng)回傳至后臺數(shù)據(jù)存儲服務(wù)器,實現(xiàn)海量用戶收視行為數(shù)據(jù)的采集[1]。同時,得益于大數(shù)據(jù)技術(shù)的發(fā)展,一方面將收視率調(diào)查和分析的樣本空間擴(kuò)大為全體用戶,能得到全面精準(zhǔn)的分析結(jié)果;另一方面還可以針對特定人群進(jìn)行收視特征分析,幫助運營商實時調(diào)整運營決策,為用戶提供個性化的收視服務(wù),從而提高用戶體驗并增加營業(yè)收入。如北京歌華有線建立的北京大樣本收視數(shù)據(jù)研究中心,通過收集百萬級高清交互數(shù)字電視雙向用戶對機(jī)頂盒的操作行為來進(jìn)行更全面、更精準(zhǔn)的收視率數(shù)據(jù)調(diào)查和分析。

      然而,雙向數(shù)字電視機(jī)頂盒只要在開機(jī)的狀態(tài)下,就會實時監(jiān)測并回傳用戶頻道跳轉(zhuǎn)、交互業(yè)務(wù)的使用以及頁面停留等行為[2-4]。而在實際生活中,大部分用戶習(xí)慣性地只關(guān)閉電視機(jī),而機(jī)頂盒仍處于開機(jī)狀態(tài),此時,機(jī)頂盒會繼續(xù)回傳用戶收視行為數(shù)據(jù),顯然這部分?jǐn)?shù)據(jù)是無效的[1]。這部分無效數(shù)據(jù)在很大程度上會影響廣電有線運營商進(jìn)行收視率調(diào)查和用戶收視行為分析的準(zhǔn)確性。

      為了得到更準(zhǔn)確的結(jié)果,本文通過分析部分已知的機(jī)頂盒用戶關(guān)閉電視機(jī)的行為特征,建立電視機(jī)關(guān)機(jī)模型,當(dāng)用戶操作機(jī)頂盒的行為數(shù)據(jù)時間間隔過大,會利用生成的模型估算該用戶在這段時間間隔內(nèi)關(guān)閉電視機(jī)的時刻,提高數(shù)據(jù)的有效性。最后,在真實的數(shù)據(jù)集上進(jìn)行實驗,測試了電視機(jī)關(guān)機(jī)模型的效果,實現(xiàn)基于大數(shù)據(jù)的數(shù)字電視用戶關(guān)機(jī)行為預(yù)測。

      1 數(shù)字電視用戶關(guān)機(jī)行為建模方法

      1.1 用戶關(guān)機(jī)模型建立的基礎(chǔ)

      如上所述,基于大數(shù)據(jù)的收視率調(diào)查以及用戶個性化收視特征分析都依賴于所收集到數(shù)據(jù)的有效性,這為用戶關(guān)機(jī)模型的建立創(chuàng)造了必要性條件。此外,機(jī)頂盒能夠捕捉到部分電視機(jī)開關(guān)機(jī)時HDMI管腳的電平變化,回傳電視機(jī)開關(guān)機(jī)數(shù)據(jù),為用戶關(guān)機(jī)模型的建立提供了數(shù)據(jù)基礎(chǔ)。

      1.2 用戶關(guān)機(jī)行為的定義

      數(shù)字電視用戶關(guān)機(jī)行為預(yù)測的作用在于,在用戶離開或者關(guān)閉電視機(jī),而機(jī)頂盒仍處于開機(jī)狀態(tài)的情況下,從回傳的用戶行為數(shù)據(jù)中區(qū)分出這部分無效數(shù)據(jù),并估算出用戶最有可能的關(guān)機(jī)時刻。

      用戶關(guān)機(jī)行為具體定義為:當(dāng)用戶操作機(jī)頂盒的行為數(shù)據(jù)時間間隔過大,估算在此期間用戶離開或關(guān)閉電視機(jī)的可能性,以及最有可能的關(guān)機(jī)時刻,從而保證用戶收視行為統(tǒng)計的有效性。

      1.3 用戶關(guān)機(jī)規(guī)律分析

      某省網(wǎng)通過雙向數(shù)字電視機(jī)頂盒采集到百萬用戶在2016年3月期間的所有行為數(shù)據(jù),業(yè)務(wù)類型涉及直播、點播、時移、回看以及資訊等。其中包含了20多萬用戶的300多萬條電視機(jī)關(guān)機(jī)數(shù)據(jù)。如果定義關(guān)機(jī)行為與用戶關(guān)機(jī)前的最后一條行為數(shù)據(jù)之間的時間間隔作為關(guān)機(jī)時長,那么可以得到300多萬個關(guān)機(jī)時長數(shù)據(jù)。圖1給出了關(guān)機(jī)時長分布圖,橫坐標(biāo)代表關(guān)機(jī)時長,縱坐標(biāo)代表關(guān)機(jī)時長位于對應(yīng)時間區(qū)間內(nèi)的關(guān)機(jī)次數(shù),可以看出大部分關(guān)機(jī)時長小于100 min。如果對圖1中的橫縱坐標(biāo)取對數(shù),得到的關(guān)機(jī)時長對數(shù)分布圖如圖2所示,近似一條直線,表明用戶關(guān)機(jī)時長符合Zipf分布。

      圖1 關(guān)機(jī)時長分布圖

      圖2 關(guān)機(jī)時長對數(shù)分布圖

      1.3.1 直播頻道分布

      實驗過程中,還發(fā)現(xiàn)用戶關(guān)機(jī)前的行為超過90%是直播,其他行為如點播、時移、回看以及頁面瀏覽等不足10%,為了更好地了解用戶關(guān)機(jī)時長的規(guī)律,本文統(tǒng)計了用戶關(guān)機(jī)時長在各直播頻道上的分布情況。圖3~5分別給出了CCTV1、湖南衛(wèi)視、北京衛(wèi)視的關(guān)機(jī)時長分布圖,可以看出關(guān)機(jī)時長在各直播頻道上同樣表現(xiàn)為Zipf分布的特性。

      圖3 CCTV1頻道關(guān)機(jī)時長分布

      圖4 湖南衛(wèi)視關(guān)機(jī)時長分布

      圖5 北京衛(wèi)視關(guān)機(jī)時長分布

      1.3.2 直播節(jié)目分布

      用戶關(guān)機(jī)時長不僅在直播頻道上呈現(xiàn)出Zipf分布的特性,而且直播節(jié)目也具有類似的性質(zhì)。本文挑選了《饑餓游戲-嘲笑鳥(上)》、《羋月傳》、《開心樂翻天》分別代表電影、電視劇和綜藝節(jié)目,用戶在觀看這些節(jié)目后關(guān)機(jī)的時長分布分別如圖6~8所示。對比頻道關(guān)機(jī)時長與節(jié)目關(guān)機(jī)時長,可以明顯看出,節(jié)目關(guān)機(jī)時長要遠(yuǎn)小于頻道關(guān)機(jī)時長,原因在于節(jié)目時長是有限的,用戶進(jìn)入某頻道的停留時間顯然會比用戶停留在某一節(jié)目上的時間要長。

      圖6 《饑餓游戲-嘲笑鳥(上)》關(guān)機(jī)時長分布

      圖7 《羋月傳》關(guān)機(jī)時長分布

      圖8 《開心樂翻天》關(guān)機(jī)時長分布

      1.4 用戶關(guān)機(jī)模型

      用戶關(guān)機(jī)行為很大程度上取決于用戶收視狀態(tài)的上下文信息,比如業(yè)務(wù)類型,用戶在瀏覽頁面或者觀看點播節(jié)目后關(guān)機(jī)可能性要比觀看直播頻道小,特別是長時間停留在某一頻道時;此外,還有收視時段,收視高峰時段關(guān)機(jī)的概率顯然要比冷門收視時段小。因此,本文將用戶收視的上下文信息歸為3類,即基本類型、節(jié)目屬性、收視時段。其中基本類型包括地域和業(yè)務(wù)類型(頁面瀏覽、點播、直播、時移以及回看);節(jié)目屬性包括直播頻道、節(jié)目類型(電影、電視劇、綜藝、動漫等)、節(jié)目熱度、節(jié)目時長等;收視時段包括星期幾、直播收視六時段等。具體分類如表1所示。

      表1 用戶收視上下文信息

      為了便于表述,地域用R表示,取值為離散整數(shù)(R≥1),每一個數(shù)值唯一對應(yīng)某個地市;業(yè)務(wù)類型用T表示,取值為離散整數(shù)(T∈[1,5]),1表示頁面瀏覽,2表示點播,3表示直播,4表示時移,5表示回看;直播頻道用C表示,取值為離散整數(shù)(C≥1),每一個數(shù)值唯一對應(yīng)某個頻道,如1表示CCTV1,2表示CCTV2等;節(jié)目類型用P表示,取值為離散整數(shù)(P∈[1,4]),1表示電影,2表示電視劇,3表示綜藝,4表示動漫,這里僅對節(jié)目進(jìn)行了一級分類,實際應(yīng)用中可以進(jìn)一步細(xì)分,如電影可以進(jìn)一步細(xì)分為喜劇、動作、愛情等;節(jié)目熱度用H表示,取值為離散整數(shù)(H≥1),取值越大,即觀看人數(shù)越多,說明該節(jié)目越熱門,一般情況下,用戶對熱門節(jié)目更感興趣,因此在該節(jié)目播放時長內(nèi)關(guān)機(jī)的可能性較小;節(jié)目時長用L表示,取值為連續(xù)整數(shù)(L>0);星期幾用W表示,取值為離散整數(shù)(W∈[1,7]),1表示星期一,2表示星期二,……,7表示星期日;直播收視六時段用I表示,取值為離散整數(shù)(I∈[1,6]),1表示0點至6點,2表示6點至9點,3表示9點至12點,4表示12點至15點,5表示15點至19點,6表示19點至24點。因此,給出的用戶關(guān)機(jī)模型如

      t=f(R,T,C,P,H,L,W,I)

      (1)

      式中:f為關(guān)機(jī)模型函數(shù),本文使用迭代決策樹算法(Gradient Boosting Decision Tree,GBDT)[5-6]訓(xùn)練該模型,并用該模型預(yù)測無法采集到電視機(jī)關(guān)機(jī)數(shù)據(jù)的用戶關(guān)機(jī)行為。

      2 數(shù)字電視用戶關(guān)機(jī)行為預(yù)測

      2.1 決策樹

      決策樹包括分類決策樹和回歸決策樹,其中分類決策樹的代表算法是C4.5[7],主要用于多分類標(biāo)簽值的預(yù)測,如用戶的性別、垃圾郵件分類、股市的漲跌等;而回歸決策樹可以用于預(yù)測實數(shù)值,如用戶的年齡、身高等,代表性算法是GBDT,它在被提出之初就和SVM被認(rèn)為是泛化能力最強的算法。

      作為對比,先說分類決策樹,C4.5在每次分枝時,是窮舉每一個特征的所有分類閾值,找到使得按照特征值小于等于閾值,和特征值大于閾值分成的兩個分枝的熵最大的特征和閾值,按照該標(biāo)準(zhǔn)分枝得到兩個新節(jié)點,用同樣方法繼續(xù)分枝直到所有樣本都被分入唯一的葉子節(jié)點,或達(dá)到預(yù)設(shè)的終止條件,若最終葉子節(jié)點中的類別不唯一,則以多數(shù)樣本的類別作為該葉子節(jié)點的類別。

      2.2 GBDT

      GBDT作為回歸決策樹的代表性算法,與傳統(tǒng)的回歸決策樹的不同之處在于:GBDT通過梯度迭代多棵樹來共同決策,每一棵樹的輸入是之前所有樹的結(jié)論和的殘差,這個殘差就是之前所有樹的預(yù)測結(jié)果之和與實際結(jié)果之差。以年齡預(yù)測為例,假如訓(xùn)練集只有4個人,甲、乙、丙、丁,他們的年齡分別是8,22,26,40。其中甲、乙是在讀學(xué)生;丙、丁是公司員工。如果用一棵傳統(tǒng)的回歸決策樹來訓(xùn)練,得到的結(jié)果如圖9所示。

      圖9 傳統(tǒng)回歸決策樹工作流程示例

      GBDT在相同的樣本空間上訓(xùn)練出的回歸決策樹模型如圖10所示。

      圖10 GBDT回歸決策樹工作流程示例

      從圖10可以看出,GBDT的第一棵樹和圖9的第一層分枝一樣,由于甲乙年齡相近、丙丁年齡相近,他們分別被分到樹的左右節(jié)點,每節(jié)點的平均年齡作為第一棵樹的預(yù)測值。此時得到的殘差分別為甲=-7,乙=7,丙=-7,丁=7,然后,用殘差替代第一棵樹的輸入樣本,可以得到第二棵樹,用新的特征進(jìn)行訓(xùn)練得到新的殘差分別為甲=0,乙=0,丙=0,丁=0。顯然,經(jīng)過第二棵樹的迭代學(xué)習(xí)后,殘差已減為0(真實情況下難以實現(xiàn)),這時可以利用訓(xùn)練好的模型進(jìn)行預(yù)測:

      甲:8歲的學(xué)生,喜歡玩電腦游戲,預(yù)測年齡是15歲+(-7)歲=8歲。

      乙:22歲的學(xué)生,喜歡玩手機(jī)游戲,預(yù)測年齡是15歲+7歲=22歲。

      丙:26歲的員工,喜歡玩電腦游戲,預(yù)測年齡是33歲+(-7)歲=26歲。

      丁:40歲的員工,喜歡玩手機(jī)游戲,預(yù)測年齡是33歲+7歲=40歲。

      2.3 實驗結(jié)果

      本研究從某省網(wǎng)獲得2016年3月的所有雙向數(shù)字電視機(jī)頂盒用戶的行為數(shù)據(jù),其中包括用戶瀏覽頁面、直播、點播、時移以及回看等業(yè)務(wù)。數(shù)據(jù)總量超過300 Gbyte,月活躍用戶數(shù)達(dá)百萬以上,近30萬機(jī)頂盒能夠上傳電視機(jī)關(guān)機(jī)行為,共計300多萬條關(guān)機(jī)記錄。首先,利用Spark分布式處理技術(shù)對海量的行為數(shù)據(jù)進(jìn)行預(yù)處理,并從中抽取出每條關(guān)機(jī)數(shù)據(jù)對應(yīng)的表1所示特征,本文只提取了地域、業(yè)務(wù)類型、進(jìn)入業(yè)務(wù)的收視時段、關(guān)機(jī)時刻的收視時段、星期幾這幾個特征,并將這些行為特征完全相同的關(guān)機(jī)時長求平均得到具有此類特征的關(guān)機(jī)數(shù)據(jù)的關(guān)機(jī)時長,同時把特征完全相同的關(guān)機(jī)數(shù)據(jù)條數(shù)作為新增特征。以此得到近5 000個樣本。最后,將樣本空間劃分為訓(xùn)練集和測試集,其中訓(xùn)練集包含80%的樣本,采用上文介紹的迭代決策樹方法(GBDT)進(jìn)行關(guān)機(jī)模型訓(xùn)練,然后用訓(xùn)練好的模型預(yù)測測試集中樣本的關(guān)機(jī)時長,實驗結(jié)果如圖11所示。

      圖11 測試樣本的關(guān)機(jī)時長預(yù)測值與實際值的對比

      為便于觀察,圖11的繪圖過程按關(guān)機(jī)時長從小到大進(jìn)行排序,可以看出預(yù)測值圍繞實際值波動,但整體誤差較小,絕對誤差在20 min之內(nèi),說明預(yù)測較為準(zhǔn)確。

      3 總結(jié)

      基于有線數(shù)字電視用戶在結(jié)束觀看時,習(xí)慣于只關(guān)閉電視機(jī)而忽略了關(guān)閉機(jī)頂盒的普遍現(xiàn)象,本文指出了在此期間機(jī)頂盒回傳的用戶行為數(shù)據(jù)在很大程度上會影響廣電運營商對用戶收視行為以及節(jié)目和頻道等收視率指標(biāo)的統(tǒng)計分析結(jié)果的準(zhǔn)確性。因此,本文提出了電視機(jī)關(guān)機(jī)模型,并采用迭代決策樹算法進(jìn)行訓(xùn)練,實現(xiàn)了基于大數(shù)據(jù)的數(shù)字電視用戶關(guān)機(jī)行為預(yù)測,彌補了當(dāng)前難以采集用戶關(guān)機(jī)數(shù)據(jù)的空缺,該模型在某省網(wǎng)提供的真實數(shù)據(jù)上得到了較好的實驗結(jié)果。

      本文作者在后續(xù)研究工作中,將選取更多的特征參數(shù)訓(xùn)練電視機(jī)關(guān)機(jī)模型,力求得到更加準(zhǔn)確的用戶關(guān)機(jī)行為預(yù)測結(jié)果,從而保證收視率調(diào)查和用戶收視行為分析的準(zhǔn)確性。

      [1] 尹培培,周文粲.大數(shù)據(jù)時代的電視收視調(diào)查與跨屏收視研究[J].廣播電視信息,2014(3):45-49.

      [2] 許春玲,范志剛,鄭小盈,等.有線電視用戶行為分析實踐[J].網(wǎng)絡(luò)新媒體技術(shù),2014 (1):45-49.

      [3] 孫亮.基于大數(shù)據(jù)應(yīng)用的互動電視增強業(yè)務(wù)研究[J].電視技術(shù),2013,37(22):7-10.

      [4] 彭毅弘.雙向機(jī)頂盒的用戶收視行為監(jiān)測的實現(xiàn)[J].中國新通信,2014,16(13):57-58.

      [5] LOMBARDO L,CAMA M,CONOSCENTI C,et al. Binary logistic regression versus stochastic gradient boosted decision trees in assessing landslide susceptibility for multiple-occurring landslide events:application to the 2009 storm event in messina (sicily,southern Italy)[J].Natural hazards,2015,79(3):1-28.

      [6] FRIEDMAN J H. Greedy function approximation: a gradient boosting machine[J]. Annals of statistics,2001,29(5):1189-1232.

      [7] POLAT K,GUNE S. A novel hybrid intelligent method based on C4.5 decision tree classifier and one-against-all approach for multi-class classification problems[J]. Expert systems with applications,2009,36(2):1587-1592.

      責(zé)任編輯:許 盈

      Prediction of shutdown behavior of digital TV users based on big data

      WAN Qian1, XIE Feng2, ZHAO Ming1, WANG Bingfei2

      (1.AcademyofBroadcastingScience,SARFT,Beijing100866,China;2.SumavisionTechnologiesCo.,Ltd.,Beijing100085,China)

      Radio and television cable operators greatly enhance the user experience and increase operating revenue by providing personalized viewing service for digital TV users, which benifits from the big data techniques and the abundant data collected by two-way digital TV set-top boxes and TV boss system. However, it is difficult to collect TV state for the set-top boxes except rare TV. Therefore, when the set-top box is not closed and the TV is turned off, the user viewing behavior uploades during this period is invalid, which will affect the big data analysis system’s predictions of the user viewing behavior. With the deep analysis of TV shutdown behavior on partial users, this paper buildes an user shutdown model, to predict the shutdown behavior of other digital TV users whose shutdown data cannot be collected. Consequtently, the validity of user viewing behavior statistics is ensured with this model.

      big data; shutdown model; regression decision tree; GBDT

      萬倩,謝峰,趙明,等. 基于大數(shù)據(jù)的數(shù)字電視用戶關(guān)機(jī)行為預(yù)測[J].電視技術(shù),2016,40(12):68-72. WAN Q, XIE F, ZHAO M, et al. Prediction of shutdown behavior of digital TV users based on big data[J].Video engineering,2016,40(12):68-72.

      TN949

      A

      10.16280/j.videoe.2016.12.013

      國家新聞出版廣電總局科研項目“有線電視大數(shù)據(jù)融合分析平臺設(shè)計及關(guān)鍵技術(shù)研究”

      2016-05-15

      猜你喜歡
      機(jī)頂盒電視機(jī)決策樹
      一種針對不均衡數(shù)據(jù)集的SVM決策樹算法
      安全使用機(jī)頂盒注意五點
      鉆進(jìn)電視機(jī)里的人
      決策樹和隨機(jī)森林方法在管理決策中的應(yīng)用
      電子制作(2018年16期)2018-09-26 03:27:06
      數(shù)字電視機(jī)頂盒軟件自動測試系統(tǒng)的開發(fā)及應(yīng)用
      電子測試(2017年15期)2017-12-18 07:19:23
      電視機(jī)
      神奇的電視機(jī)
      基于決策樹的出租車乘客出行目的識別
      有線電視高清數(shù)字電視機(jī)頂盒測試系統(tǒng)的構(gòu)建
      What is Apple Watch All About?
      南昌市| 屯门区| 万全县| 新建县| 尉氏县| 古丈县| 永川市| 蒲江县| 英吉沙县| 鸡西市| 长垣县| 益阳市| 尖扎县| 哈巴河县| 昔阳县| 轮台县| 东乡| 嘉义县| 尼玛县| 驻马店市| 政和县| 富阳市| 静乐县| 新竹县| 湘乡市| 杭锦后旗| 黎平县| 安远县| 霍邱县| 于都县| 分宜县| 彭州市| 库尔勒市| 甘泉县| 平山县| 桐庐县| 方正县| 綦江县| 美姑县| 武威市| 什邡市|