袁立 孟彩霞 西安郵電大學計算機學院
隨著信息技術的迅猛發(fā)展和普及應用,信息系統(tǒng)規(guī)模不斷擴大,并且產(chǎn)生了海量的數(shù)據(jù),2012年2月《紐約時報》發(fā)表專欄文章,宣告了大數(shù)據(jù)時代的降臨。大數(shù)據(jù)時代的到來,改變著社會的方方面面,給企業(yè)帶來了較大的機遇和挑戰(zhàn):一方面,以大數(shù)據(jù)分析挖掘為基礎,企業(yè)可以實現(xiàn)客戶分群、精準營銷、事件預測、資源優(yōu)化、商機挖掘等功能,從而帶來巨大的商業(yè)價值,實現(xiàn)各種高附加值的增值服務,進一步提升企業(yè)的經(jīng)濟效益和社會效益;另一方面,企業(yè)的商業(yè)模式、業(yè)務策略、決策依據(jù)等都將日益基于大數(shù)據(jù)分析而非基于經(jīng)驗和直覺,這對企業(yè)的業(yè)務運營支撐體系,主要是信息化體系的建設以及發(fā)展戰(zhàn)略帶來了巨大挑戰(zhàn)。
匯總層的數(shù)據(jù)和應用層的數(shù)據(jù)按照業(yè)務邏輯進行歸類,分為:客戶類、渠道類、產(chǎn)品類、收入類、行為類、資源類。
大數(shù)據(jù)HADOOP平臺架構包括數(shù)據(jù)采集層、數(shù)據(jù)存儲和計算層、數(shù)據(jù)服務接口層及平臺自運行能力層。要求能夠處理結構化和非結構化數(shù)據(jù),具備實時計算、流數(shù)據(jù)處理、準實時采集生產(chǎn)系統(tǒng)源數(shù)據(jù)的能力。大數(shù)據(jù)平臺要具備數(shù)據(jù)安全保障能力,滿足省級數(shù)據(jù)安全的相關管理要求。
(1)數(shù)據(jù)采集層:實現(xiàn)對數(shù)據(jù)源的數(shù)據(jù)的采集和裝載,并經(jīng)過加工、清洗,提供到大數(shù)據(jù)存儲層完成數(shù)據(jù)存儲。
(2)數(shù)據(jù)存儲與計算層:采用混合結構搭建,實現(xiàn)數(shù)據(jù)的存儲和計算。存儲層采用HDFS存儲架構;計算層包括HIVE、HBASE包括數(shù)據(jù)獲取、離線批處理、實時處理、異構數(shù)據(jù)同步等功能。其中離線批處理以MapReduce為基礎并提供Hive、Mahout等處理組件,實時處理包括Storm流式實時計算框架。
(3)數(shù)據(jù)服務層:通過數(shù)據(jù)存儲和計算層的挖據(jù)和分析,將海量數(shù)據(jù)處理結果通過封裝、開放,根據(jù)不同業(yè)務部門的使用需求,通過數(shù)據(jù)共享發(fā)布及應用提供給外部使用。
平臺ETL性能要同時滿足今后數(shù)據(jù)準實時抽取和批量采集兩種方式的要求,要求能夠在滿足規(guī)定的時限內(nèi)完成每日數(shù)據(jù)加載工作。ETL過程支持并行處理,且必須具備統(tǒng)一自動調(diào)度、日志監(jiān)控和運營管理的功能。
平臺支持結構化數(shù)據(jù)庫及非結構化數(shù)據(jù),包括文本、語音、圖片等文件格式。
(1)數(shù)據(jù)本身安全;
(2)數(shù)據(jù)存儲安全;
(3)數(shù)據(jù)訪問安全;
(4)數(shù)據(jù)展示安全;
(5)數(shù)據(jù)導出安全;
(6)數(shù)據(jù)權限安全;
(7)數(shù)據(jù)脫敏安全。
基于有數(shù)據(jù)業(yè)務分析系統(tǒng)、用戶行為分析系統(tǒng)、BOSS系統(tǒng)等業(yè)務域分析系統(tǒng),能夠?qū)F(xiàn)有業(yè)務域各分析系統(tǒng)及業(yè)務域各類數(shù)據(jù)、資源融入大數(shù)據(jù)平臺,并將各類數(shù)據(jù)、資源、計算結果由大數(shù)據(jù)平臺發(fā)布共享。并產(chǎn)生新的專題分析數(shù)據(jù)。
平臺數(shù)據(jù)處理能力通過能力封裝形式實現(xiàn),業(yè)務處理流程通過可視化平臺界面進行配置,全能力數(shù)據(jù)流處理狀態(tài)可視化,數(shù)據(jù)接入系統(tǒng)后,為方便應用程序使用,需具備統(tǒng)一格式轉換功能,消息協(xié)議轉換功能。
對于消息接口,接收特定協(xié)議格式后,為方便后續(xù)程序處理,需具備常見轉換為常見消息格式功能,包括:StringJSONXML等,并具備自定義消息格式功能。
面向內(nèi)外部應用,提供大數(shù)據(jù)整合和基礎數(shù)據(jù)處理能力。
外部數(shù)據(jù)源的各類數(shù)據(jù),負責對外部來源系統(tǒng)的數(shù)據(jù)進行統(tǒng)一過濾、存儲和沉淀,實現(xiàn)數(shù)據(jù)準確性、完整性、一致性。
大數(shù)據(jù)平臺采用GBase 8a MPP數(shù)據(jù)庫的MPP數(shù)據(jù)庫。
GBase 8a MPP數(shù)據(jù)庫,是在GBase 8a列存儲數(shù)據(jù)庫基礎上開發(fā)的,基于現(xiàn)代云計算理念和shared nothing架構的并行數(shù)據(jù)庫集群,可支持TB到PB級別結構化數(shù)據(jù)存儲查詢,高性能、高可用、高擴展的分布式、并行的數(shù)據(jù)庫系統(tǒng)。以其獨特的扁平架構,高可用性和動態(tài)擴展能力,為超大型數(shù)據(jù)管理提供一個高性價比的通用平臺。
通過大數(shù)據(jù)平臺使多種業(yè)務數(shù)據(jù)匯聚融合,形成支撐對有線電視用戶的使用行為深層洞察能力,最終支撐用戶行為分析的應用展示。用戶行為分析 從總量、欄目、節(jié)目逐級剖析、支撐月、日、小時級的監(jiān)控分析,實現(xiàn)了數(shù)據(jù)的多維度、多時段及準實時監(jiān)控。
對客戶進行精準營銷,首先要對客戶特點和客戶需求特點進行深入了解,然后根據(jù)這些特點對客戶進行特定的業(yè)務推薦或者維系策略,這樣才可以最大限度提升客戶的滿意度,在改善用戶體驗的同時,適時的增加廣告精準投放業(yè)務,深耕市場提升營業(yè)利潤。
[1]白冰.數(shù)據(jù)挖掘在電視節(jié)目收視率中的應用研究[D].江蘇科技大學, 2008.
[2]裴蕾.基于Web數(shù)據(jù)挖掘的電子商務推薦系統(tǒng)研究[D].同濟大學,2006.
[3]瞿華禮.數(shù)據(jù)挖掘技術在電視用戶滿意度分析中的應用研究[D].安徽大學, 2011.
[4]王鑫.數(shù)據(jù)挖掘中聚類分析算法的研究[D].山東師范大學, 2006.
[5] 謝曉燕.基于陣列處理器的去塊濾波算法并行化設計[N].西安郵電大學學報 2017. P67-72