張 庸 張艷瑩
1.2.內(nèi)蒙古廣播電視臺 內(nèi)蒙古 呼和浩特市 010050
精細化運營分析系統(tǒng)基于目前業(yè)界領先的大數(shù)據(jù)平臺技術框架搭建,提供運營數(shù)據(jù)采集匯聚、業(yè)務運營模型分析、數(shù)據(jù)接口服務等功能,實現(xiàn)對IPTV 業(yè)務數(shù)據(jù)的統(tǒng)一接入、采集存儲、統(tǒng)計分析、深度挖掘,提供全網(wǎng)、全用戶、全業(yè)務的綜合分析數(shù)據(jù)、對外數(shù)據(jù)接口服務。
精細化運營分析系統(tǒng)的目標就是建立整套的數(shù)據(jù)采集、數(shù)據(jù)建模、模型分析、業(yè)務應用的數(shù)據(jù)系統(tǒng),使得運營人員可以完成數(shù)據(jù)分析,并在業(yè)務系統(tǒng)中進行應用。其核心是通過統(tǒng)計用戶行為事件的指標,并篩選相關事件屬性與用戶屬性,來為運營人員提供數(shù)據(jù)支撐。
通過建設精細化運營分析系統(tǒng),采集用戶行為數(shù)據(jù)、媒資數(shù)據(jù)以及第三方數(shù)據(jù),對數(shù)據(jù)進行清洗處理,建立事件表和用戶表的數(shù)據(jù)模型。在數(shù)據(jù)模型的基礎上,構建分析模型,將運營人員從枯燥的數(shù)據(jù)分析中解放出來,直接使用模型獲得想要的數(shù)據(jù)。模型包括事件分析模型、留存分析模型、漏斗分析模型、路徑分析模型、屬性分析模型、分布分析模型等,數(shù)據(jù)分析的模型化降低了業(yè)務分析的門檻,使得運營人員可以隨時進行針對性的數(shù)據(jù)分析,自行篩選需要的指標,從而達到“數(shù)”以致用的目的。
精細化運營分析系統(tǒng)采用分層設計、分級處理的系統(tǒng)架構,系統(tǒng)架構如圖1 所示。
圖1
IPTV 業(yè)務系統(tǒng)主要包括探針數(shù)據(jù)及清洗后的話單數(shù)據(jù)、C3 數(shù)據(jù)、C2 媒資數(shù)據(jù)、媒資補充數(shù)據(jù)以及第三方數(shù)據(jù)(如訂購信息、用戶信息等);
數(shù)據(jù)采集層設計滿足同時支持多個業(yè)務系統(tǒng)、多終端、多種格式的數(shù)據(jù)源的接入和數(shù)據(jù)采集的功能要求。
可滿足對不同數(shù)據(jù)源多節(jié)點數(shù)據(jù)的收集,并完成原始數(shù)據(jù)的標準化處理、檢查校驗(有效性檢查、合理性檢查、完整性檢查)、剔重過濾等預處理,最終形成系統(tǒng)統(tǒng)計分析和數(shù)據(jù)共享所需的基礎數(shù)據(jù);
根據(jù)采集數(shù)據(jù)類型(結構化或非結構化數(shù)據(jù))、統(tǒng)計分析需求、數(shù)據(jù)共享需求完成對采集數(shù)據(jù)的匯集、存儲、分發(fā)處理。
精細化運營分析系統(tǒng)采用關系型數(shù)據(jù)庫(ORACLE/MYSQL)用于存儲結構化數(shù)據(jù);采用分布式存儲數(shù)據(jù)庫,例如Hadoop Hbase,HDFS 等。其支持高效讀寫、海量存儲,支持分布式水平擴展和集群內(nèi)冗余備份,不僅查詢功能強大,還可以實現(xiàn)復雜的類似SQL 關系查詢。
通過事件分析、留存分析、漏斗分析、路徑分析、用戶分析等模型,對用戶行為事件進行統(tǒng)計分析;
業(yè)務統(tǒng)計數(shù)據(jù)分析模型的事務處理采用分布式、集群部署模式,每個事務處理服務器上內(nèi)嵌內(nèi)存數(shù)據(jù)庫,保證了高可靠、實時響應。
數(shù)據(jù)分析指導頁面編輯通過分析用戶使用頁面的頻度,針對性的進行優(yōu)化;
活動評估分析專題活動的參與人數(shù)規(guī)模,活動人群的留存及轉化情況等;
訂購分析展現(xiàn)人群的行為特點、觀影習慣、剩余天數(shù),以便進行差異化服務;
用戶分群對分析出的用戶進行歸類分群,以便精準運營;
通過在線數(shù)據(jù)訪問服務API,為三方系統(tǒng)提供數(shù)據(jù)分析結果。
系統(tǒng)提供統(tǒng)一數(shù)據(jù)采集接口服務,實現(xiàn)從廣電域和互聯(lián)網(wǎng)各系統(tǒng)或平臺采集多源異構的海量數(shù)據(jù)。采集數(shù)據(jù)包括但不限于全網(wǎng)用戶直播、點播、回看等視頻點播產(chǎn)生的數(shù)據(jù);所有用戶在EPG 上所產(chǎn)生的任何行為數(shù)據(jù)以及C2 或互聯(lián)網(wǎng)媒資數(shù)據(jù)以及從外部系統(tǒng)收集頻道、節(jié)目等內(nèi)容資源數(shù)據(jù);EPG系統(tǒng)提供的直播頻道信息和節(jié)目信息;點播和回看系統(tǒng)提供點播回看節(jié)目信息,以及用戶視頻點播行為信息。
采集接口有EPG 實時探針、App 采集SDK、FTP 文件接口等方式(如圖2 所示)。
圖2
數(shù)據(jù)服務接口向其他基礎業(yè)務系統(tǒng)提供數(shù)據(jù)分析的結果數(shù)據(jù),即用戶分群的用戶畫像信息。向運營推薦系統(tǒng)提供基于用戶特點的行為數(shù)據(jù),方便進行針對性的差異化運營。
(1)事件的定義:事件定義為一個獨立的用戶操作行為。如瀏覽了一個網(wǎng)頁,觀看了一個視頻,發(fā)生了一次訂購等。事件的幾個要素用4W1H 表述:Who,When,What,Where,How。
Who:誰做了這個事件,即用戶的ID、名稱等;
When:什么時候做的這個事件,即開始時間,結束時間,持續(xù)時間等;
What:做了什么事情,即觀看直播、訂購、點播等;
Where:事情是在哪里發(fā)生的,即用戶所在的區(qū)域;
How:用戶怎么做的這個事情,即使用的機頂盒類型、版本,從哪個頁面跳轉等。
(2)事件表:事件表是統(tǒng)一管理的事件列表,包括事件包含哪些屬性,不同的事件因為行為特點的不同會有不同的屬性。
例如,直播事件的屬性包括頻道名稱、頻道ID、頻道分組等,點播事件的屬性包括影片名稱,影片的導演、演員,影片所屬欄目等,瀏覽事件的屬性主要包括頁面名稱、上一個頁面名稱、所屬欄目等。
(3)事件屬性:用戶行為事件的屬性,不同的事件有不同的屬性。
如點播事件的屬性是播放的內(nèi)容名稱、播放內(nèi)容的標簽等,瀏覽事件的屬性是頁面名稱及欄目名稱等,訂購事件的屬性是產(chǎn)品的價格及名稱。
將事件的屬性統(tǒng)一在屬性池中管理,為不同的事件設置不同的屬性。
(4)用戶表:用戶表的信息包括用戶的基本屬性以及用戶的行為屬性。
用戶的基本屬性包括用戶ID、姓名、地址、手機號、生日、身份證號碼、用戶所在區(qū)域、用戶的機頂盒型號、用戶的機頂盒軟件版本等固有屬性標簽。
用戶的行為屬性包括用戶的開戶時間、首次登陸時間、訂購產(chǎn)品包剩余天數(shù)、入網(wǎng)天數(shù)、上次登陸時間、用戶在線時段、畫像標簽等,同時還包括根據(jù)用戶的實際行為而產(chǎn)生的屬性標簽。
4.2.1 模型概述
精細化運營分析系統(tǒng)是建立在數(shù)據(jù)模型基礎上的模型化分析系統(tǒng)。事件表和用戶表是通過一個用戶ID 進行關聯(lián)的,各種分析模型也都建立在這兩張表之上。即做什么事的是什么人,有多少人,這些人有哪些屬性特點,事情本身又有哪些屬性特點。用戶可以自己增加篩選條件進行數(shù)據(jù)挖掘和分析,精準定位到符合自己業(yè)務特點的用戶群。
同一個事件,通過各個模型的綜合分析,就可以知道這個事件的受歡迎程度、用戶群的規(guī)模、在哪些地區(qū)受歡迎、對哪類用戶影響大、產(chǎn)品的盈利等情況,從而為運營人員和企業(yè)領導在做下一步?jīng)Q策的時候提供數(shù)據(jù)支撐。
4.2.2 事件分析
事件分析通過對某個用戶的行為模型進行統(tǒng)計分析,從而判斷該行為的影響和價值。例如,統(tǒng)計某一個頻道的指標,如CCTV-1 的收視人數(shù)、收視次數(shù)、收視時長;統(tǒng)計某一個欄目的指標,如少兒欄目的收視人數(shù)、收視次數(shù)、收視時長;統(tǒng)計訪問某一頁面的指標,如電影首頁的訪問次數(shù);統(tǒng)計訪問某一功能的指標,如搜索次數(shù)。
事件分析模型包含幾個重要的概念:事件、維度、統(tǒng)計指標、事件屬性、用戶屬性等,支持用戶從不同的維度查看事件指標,同時支持事件屬性、用戶屬性的篩選,通過不斷下鉆分析做到精準定位。
4.2.3 留存分析
留存分析包含狹義和廣義兩種。狹義的留存分析是指用戶先做了事件A,之后第N 天又做了事件A,那么這個用戶就是事件A 的N 日留存用戶。初始事件與后續(xù)事件可以是同一事件,或者有業(yè)務相關性的事件。例如,初始事件是用戶收看央視節(jié)目,后續(xù)事件是用戶收看CCTV-1,或者初始事件是用戶收看CCTV-1,后續(xù)事件也是用戶收看CCTV-1。
廣義的留存分析是指用戶先做了事件A,之后第N 天又做了事件B,那么這個用戶就是事件A 引流用戶對事件B 的N 日留存用戶,初始事件與后續(xù)事件也可以是完全不同的事件,即完全無業(yè)務相關性的事件。例如,初始事件是用戶觀看CCTV-1,后續(xù)事件是用戶看到點播節(jié)目。
4.2.4 漏斗分析
漏斗分析是一套流程式數(shù)據(jù)分析,它能夠科學反映用戶行為狀態(tài)以及從起點到終點各階段用戶轉化率的情況。通過漏斗模型統(tǒng)計可展示用戶在不同層級的頁面上訪問的情況以及轉化情況。
4.2.5 路徑分析
路徑分析包含兩個部分,即統(tǒng)計用戶從某一個行為開始之后的行為操作統(tǒng)計,統(tǒng)計用戶到達某一個行為之前的操作路徑。
用戶分組是將具有相同屬性和特點的用戶進行歸類,創(chuàng)建成相應的用戶分組,把經(jīng)由留存分析、漏斗分析、用戶分析等分析模型篩選出來的用戶歸類到同一個組里并進行管理。
舉例分析使用場景如下:向瀏覽過訂購頁的用戶發(fā)送優(yōu)惠券;向觀看直播頻道的用戶推薦點播內(nèi)容;針對某個城市的用戶進行促銷活動;向習慣看美國片的用戶推薦新上映的美國片。
系統(tǒng)采用目前業(yè)界領先的查詢引擎進行OLAP 實時數(shù)據(jù)分析處理方案,能有效應對用戶的實時數(shù)據(jù)查詢需求,實現(xiàn)大容量高并發(fā)分布式的查詢機制,保證系統(tǒng)響應時間和查詢的穩(wěn)定性,處理性能得到大幅提升。
(1)選用高性能通用服務器(如48 核+,256GB 內(nèi) 存,SSD 硬盤的通用服務器)搭建實時分析的大數(shù)據(jù)集群,且可通過軟硬件的升級擴容滿足200 萬終端用戶行為數(shù)據(jù)分析的要求;
(2)系統(tǒng)數(shù)據(jù)采集處理支持單點故障自動切換,峰值可緩存數(shù)據(jù),延后處理,數(shù)據(jù)不積壓、不丟失;
(3)系統(tǒng)采用實時數(shù)據(jù)共享服務接口向第三方系統(tǒng)實時提供數(shù)據(jù),延時低于1 分鐘;
(4)系統(tǒng)按照本項目建設要求設計支持多套備份策略以滿足不同數(shù)據(jù)安全管理需求,包括數(shù)據(jù)增量備份時間周期不超過24 小時,數(shù)據(jù)全備份時間周期不超過7天,數(shù)據(jù)永久保存;
(5)系統(tǒng)采用雙路冗余網(wǎng)絡設計、分布式集群部署等安全保障機制,無單點故障,支持自動負載均衡,集群中單點宕機或單點關機不會影響對系統(tǒng)正常數(shù)據(jù)采集處理,確保7×24 小時系統(tǒng)穩(wěn)定運行。
精細化運營分析系統(tǒng)的搭建為IPTV 播控平臺進一步完善了整套的集數(shù)據(jù)采集、數(shù)據(jù)建模、模型分析、業(yè)務應用為一體的數(shù)據(jù)系統(tǒng),不但為運營人員提供了強有力的數(shù)據(jù)支撐,也通過在業(yè)務系統(tǒng)中的應用為IPTV 用戶提供了精細化、差異化的經(jīng)營服務。