劉南海,雷蕾,王睿
(中國移動(dòng)通信集團(tuán)廣西有限公司,廣西 南寧530022)
大數(shù)據(jù)時(shí)代運(yùn)營商分析支撐域轉(zhuǎn)型的實(shí)踐與思考
劉南海,雷蕾,王睿
(中國移動(dòng)通信集團(tuán)廣西有限公司,廣西 南寧530022)
大數(shù)據(jù)時(shí)代,隨著業(yè)務(wù)和管理模式向“數(shù)據(jù)驅(qū)動(dòng)型”轉(zhuǎn)變,運(yùn)營商分析支撐域的支撐模型和支撐模式也發(fā)生了轉(zhuǎn)變。制定了分析支撐域規(guī)劃,如構(gòu)建云化ETL、MPP數(shù)據(jù)庫、能力服務(wù)中心、大數(shù)據(jù)運(yùn)營支撐平臺(tái)等IT基礎(chǔ)設(shè)施,實(shí)現(xiàn)轉(zhuǎn)型。同時(shí),提出了分析支撐域在IT、管理和核心競爭力方面的實(shí)施思路。
分析支撐域;大數(shù)據(jù);Hadoop;MPP
伴隨著電子信息技術(shù)的飛速發(fā)展,計(jì)算機(jī)軟件硬件技術(shù)和網(wǎng)絡(luò)不斷更新?lián)Q代,關(guān)系到以互聯(lián)網(wǎng)和數(shù)據(jù)信息處理為核心的行業(yè)信息化水平的日益提高。抽象表征人類個(gè)體及由個(gè)體組成的群體自身屬性和外部行為的各類數(shù)據(jù)呈爆炸式增長,推動(dòng)人類社會(huì)進(jìn)入大數(shù)據(jù)時(shí)代。以解決海量數(shù)據(jù)存儲(chǔ)、計(jì)算、挖掘分析為核心的大數(shù)據(jù)技術(shù)的發(fā)展,使得數(shù)據(jù)成為了一種全新的生產(chǎn)要素,帶動(dòng)業(yè)務(wù)和管理模式的轉(zhuǎn)變,驅(qū)使工業(yè)經(jīng)濟(jì)向數(shù)據(jù)經(jīng)濟(jì)轉(zhuǎn)型。
(1)大數(shù)據(jù)技術(shù)的發(fā)展奠定了業(yè)務(wù)和管理模式轉(zhuǎn)變的基礎(chǔ)
“大數(shù)據(jù)”一般包含4個(gè)方面的意義:數(shù)據(jù)容量(volume)大、數(shù)據(jù)類型(variety)多、數(shù)據(jù)處理速度(velocity)快、數(shù)據(jù)價(jià)值(value)密度低?!按髷?shù)據(jù)技術(shù)”通常也針對(duì)這4個(gè)方面:或解決數(shù)據(jù)存儲(chǔ)效率低的問題;或適應(yīng)不同的數(shù)據(jù)類型(結(jié)構(gòu)化/半結(jié)構(gòu)化/非結(jié)構(gòu)化);或采用不同的處理框架,提升數(shù)據(jù)處理效率;或使用不同的分析挖掘模型促進(jìn)數(shù)據(jù)價(jià)值的轉(zhuǎn)化。
大數(shù)據(jù)技術(shù)的不斷發(fā)展使得數(shù)據(jù)將逐步成為與勞動(dòng)力、土地等并列的生產(chǎn)要素。一方面,數(shù)據(jù)作為對(duì)現(xiàn)實(shí)世界的抽象和度量記載了各類物體的屬性和之間的行為過程;另一方面,通過一定量的客觀數(shù)據(jù)描述記載了事務(wù)發(fā)展的普遍規(guī)律,在一定條件下可以發(fā)掘成知識(shí)以供使用。這兩個(gè)過程在實(shí)際業(yè)務(wù)和管理中的出現(xiàn)和發(fā)展,意味著業(yè)務(wù)和管理模式的轉(zhuǎn)變。
(2)外部競爭和內(nèi)部降本增效驅(qū)動(dòng)業(yè)務(wù)和管理模式向“數(shù)據(jù)驅(qū)動(dòng)型”轉(zhuǎn)變
互聯(lián)網(wǎng)企業(yè)OTT(over the top)業(yè)務(wù)蠶食傳統(tǒng)語音、短信收入,營收“剪刀差”“營改增”對(duì)利潤產(chǎn)生的影響以及監(jiān)管部門“大幅削減營銷費(fèi)用”的要求,倒逼掌握數(shù)據(jù)流動(dòng)通道的運(yùn)營商“降本增效”。數(shù)據(jù)作為新的生產(chǎn)要素融入現(xiàn)代化大生產(chǎn)的過程,勢(shì)必促使業(yè)務(wù)和管理模式向“數(shù)據(jù)驅(qū)動(dòng)型”轉(zhuǎn)變。對(duì)于業(yè)務(wù),可通過歷史的銷售數(shù)據(jù)挖掘產(chǎn)品和客戶之間的潛在關(guān)系,用以指導(dǎo)產(chǎn)品銷售,提升銷售效率。對(duì)于管理,一方面精確衡量某個(gè)管理對(duì)象的靜態(tài)、動(dòng)態(tài)過程;另一方面基于歷史預(yù)測未來,支持管理決策。
運(yùn)營商業(yè)務(wù)和管理模式向“數(shù)據(jù)驅(qū)動(dòng)型”轉(zhuǎn)變勢(shì)必將對(duì)IT基礎(chǔ)設(shè)施提出轉(zhuǎn)型要求。作為企業(yè)內(nèi)部進(jìn)行數(shù)據(jù)采集、存儲(chǔ)、分析、挖掘從而完成知識(shí)到價(jià)值轉(zhuǎn)化的核心,分析支撐域的轉(zhuǎn)型迫在眉睫。轉(zhuǎn)型將涉及IT基礎(chǔ)設(shè)施、管理、運(yùn)營3個(gè)維度,其中,IT基礎(chǔ)設(shè)施的轉(zhuǎn)型最為關(guān)鍵。通過分析支撐模型和支撐模式的轉(zhuǎn)變,規(guī)劃IT基礎(chǔ)設(shè)施的演進(jìn)并實(shí)施,支撐實(shí)際運(yùn)營活動(dòng)的開展,為大數(shù)據(jù)時(shí)代運(yùn)營商分析支撐域持續(xù)轉(zhuǎn)型奠定基礎(chǔ)。具體如圖1所示。
圖1 分析支撐域轉(zhuǎn)型三維度
使用系統(tǒng)的3類角色(客戶、客服代表、內(nèi)部員工)分別通過內(nèi)外部門戶和接觸渠道與公司IT系統(tǒng)發(fā)生聯(lián)系。公司內(nèi)部IT系統(tǒng)按照承擔(dān)的職責(zé),將其劃分為如下四大域。
(1)業(yè)務(wù)支撐域
包含客戶關(guān)系管理(customer relationship management,CRM)子域和業(yè)務(wù)運(yùn)營支撐系統(tǒng)(businessandoperationsupport system,BOSS)子域,面向產(chǎn)品、渠道、定價(jià)、促銷等方面。
(2)運(yùn)營支撐域
主要面向通信網(wǎng)絡(luò),既包含網(wǎng)絡(luò)運(yùn)營的功能,也包含對(duì)設(shè)備的維護(hù)和管理。
(3)管理支撐域
面向企業(yè)核心資產(chǎn)——人、財(cái)、物的配置、管理和效能管理。
(4)分析支撐域
面向上述三域提供專業(yè)的數(shù)據(jù)分析、決策支持。大數(shù)據(jù)技術(shù)引入前的主要系統(tǒng)是經(jīng)營分析系統(tǒng),利用接入業(yè)務(wù)支撐域的客戶基礎(chǔ)數(shù)據(jù)和計(jì)費(fèi)賬務(wù)數(shù)據(jù)提供定期數(shù)據(jù)分析報(bào)表和智能查詢服務(wù)。
運(yùn)營商IT分域構(gòu)成如圖2所示。
支撐模型指業(yè)務(wù)需求、支撐能力要求和支撐方式的集合,是IT能力對(duì)業(yè)務(wù)需求進(jìn)行匹配的抽象。通過分析確定支撐模型,對(duì)IT系統(tǒng)規(guī)劃和實(shí)施具有指導(dǎo)意義,避免系統(tǒng)與業(yè)務(wù)目標(biāo)的偏移;支撐模式指對(duì)一個(gè)具體需求內(nèi)容的支撐過程的抽象,是IT人員使用IT能力實(shí)現(xiàn)業(yè)務(wù)目標(biāo)的過程,更強(qiáng)調(diào)組織和管理。
業(yè)務(wù)和管理模式轉(zhuǎn)向“數(shù)據(jù)驅(qū)動(dòng)型”,對(duì)分析支撐域的支撐模型和支撐模式提出了新的要求。
對(duì)于支撐模型,在傳統(tǒng)經(jīng)營分析系統(tǒng)“報(bào)表展現(xiàn)”業(yè)務(wù)分析支撐模型的基礎(chǔ)上,增加了“數(shù)據(jù)驅(qū)動(dòng)運(yùn)營”“數(shù)據(jù)價(jià)值輸出”兩類支撐模型?!皵?shù)據(jù)驅(qū)動(dòng)運(yùn)營”面向企業(yè)內(nèi)部,強(qiáng)調(diào)通過對(duì)歷史數(shù)據(jù)的相關(guān)性進(jìn)行挖掘形成知識(shí),用知識(shí)實(shí)時(shí)分析當(dāng)前數(shù)據(jù),對(duì)后續(xù)未知進(jìn)行預(yù)測,基于預(yù)測開展行動(dòng)以體現(xiàn)知識(shí)和數(shù)據(jù)的價(jià)值?!皵?shù)據(jù)價(jià)值輸出”強(qiáng)調(diào)面向企業(yè)外部的數(shù)據(jù)開放,形成跨行業(yè)、跨企業(yè)的“數(shù)據(jù)驅(qū)動(dòng)運(yùn)營”,如圖3所示。
對(duì)于支撐模式,由于“數(shù)據(jù)驅(qū)動(dòng)型”的本質(zhì)是從海量數(shù)據(jù)中挖掘知識(shí)并探索價(jià)值轉(zhuǎn)化和實(shí)施途徑,是一個(gè)持續(xù)“運(yùn)行—評(píng)估—優(yōu)化”過程。支撐模式也由傳統(tǒng)的“需求—模型—設(shè)計(jì)—開發(fā)—測試—維護(hù)”模式向 “問題—數(shù)據(jù)源—探索結(jié)果—識(shí)別模式—優(yōu)化模型—假設(shè)—新問題”的螺旋式模式轉(zhuǎn)變,并且這種螺旋式支撐模式比起前者分界明顯的“業(yè)務(wù)人員提需求,技術(shù)人員實(shí)現(xiàn)”更強(qiáng)調(diào)業(yè)務(wù)人員和技術(shù)人員的深度共同協(xié)作,具體如圖4所示。
圖2 運(yùn)營商IT分域構(gòu)成
圖3 分析支撐域的支撐模型
分析支撐域的IT基礎(chǔ)設(shè)施需適應(yīng)支撐模型和支撐模式的轉(zhuǎn)變?;诖?,制定分析支撐域規(guī)劃。支撐模型和支撐模式的分析經(jīng)歷了兩個(gè)階段:首先認(rèn)識(shí)到“大數(shù)據(jù)關(guān)聯(lián)分析”對(duì)數(shù)據(jù)存儲(chǔ)、分析、處理方面的能力要求;然后才是“場景運(yùn)營”對(duì)基礎(chǔ)能力和應(yīng)用整合形成的運(yùn)營能力的要求。因此,分析支撐域規(guī)劃也是兩個(gè)階段的過程。
2.3.1 規(guī)劃演進(jìn)一階段
大數(shù)據(jù)技術(shù)引入之前,傳統(tǒng)分析支撐域的范圍極其有限。分析支撐系統(tǒng)和能力分散在BSS(business support system)域、MSS(management support system)域、OSS(operation support system)域中。BSS域分析支撐相對(duì)集中,通過經(jīng)營分析系統(tǒng)整合域內(nèi)數(shù)據(jù),形成統(tǒng)一客戶畫像,主要支撐域內(nèi)業(yè)務(wù)分析;OSS域系統(tǒng)分析支撐能力相對(duì)分散,分專業(yè)建設(shè),分析支撐能力相對(duì)較弱;MSS域同樣存在分析支撐能力分散的問題,主要根據(jù)各類管理需求建設(shè)對(duì)應(yīng)的系統(tǒng),部分分析需求由經(jīng)營分析系統(tǒng)支撐。
這種分析支撐能力的情形并不適應(yīng)不斷增長的數(shù)據(jù)存儲(chǔ)、分析、處理方面的能力要求,主要體現(xiàn)在小型機(jī)架構(gòu)下高擴(kuò)容成本、離線分析架構(gòu)無法支撐高并發(fā)量大數(shù)據(jù)的處理、分散數(shù)據(jù)訪問、服務(wù)以及對(duì)四網(wǎng)協(xié)同、家庭寬帶流量經(jīng)營等跨域分析專題支撐不力等方面。為此,同時(shí)從跨域綜合分析能力、大數(shù)據(jù)處理能力、需求和數(shù)據(jù)管理能力提升方面著手,引入適用的新技術(shù),按低成本、高效益的原則對(duì)決策分析的整個(gè)體系進(jìn)行改造,提升能力、提高效益。
圖4 分析支撐域的支撐模式轉(zhuǎn)變
在邏輯架構(gòu)上進(jìn)行分層,統(tǒng)一數(shù)據(jù)中心、企業(yè)數(shù)據(jù)中心、能力服務(wù)中心、分析應(yīng)用中心各司其職。在統(tǒng)一數(shù)據(jù)中心,引入基于Hadoop架構(gòu)的云化ETL,利用分布式文件存儲(chǔ)降低成本,利用分布式批處理計(jì)算提升對(duì)數(shù)據(jù)源ETL過程的執(zhí)行效率,統(tǒng)一接入BSS/OSS/MSS三域數(shù)據(jù);在企業(yè)數(shù)據(jù)中心,引入基于MPP的分布式數(shù)據(jù)庫,利用分布式計(jì)算提升高度匯總數(shù)據(jù)關(guān)聯(lián)計(jì)算的效率,利用無共享(share-nothing)架構(gòu)提升擴(kuò)容效率;在能力服務(wù)中心,面向上層應(yīng)用抽象對(duì)底層數(shù)據(jù)操作和基礎(chǔ)功能組件能力,支撐多個(gè)應(yīng)用開發(fā)商開發(fā)不同的應(yīng)用,實(shí)現(xiàn)應(yīng)用的“百花齊放”。具體如圖5所示。
2.3.2 規(guī)劃演進(jìn)二階段
云化ETL、MPP數(shù)據(jù)庫一定程度上提升了數(shù)據(jù)存儲(chǔ)、分析、處理的基礎(chǔ)能力,使得數(shù)據(jù)轉(zhuǎn)化為知識(shí)成為可能,能力服務(wù)中心也為引入外部廠商開發(fā)應(yīng)用提供了開放環(huán)境,促進(jìn)了知識(shí)(各類應(yīng)用的業(yè)務(wù)意義正是知識(shí)的體現(xiàn))的“百花齊放”。
知識(shí)到價(jià)值的轉(zhuǎn)化離不開運(yùn)營。數(shù)據(jù)蘊(yùn)含的知識(shí)通常只是表征一個(gè)事物的屬性或者其活動(dòng)過程的規(guī)律,需要通過運(yùn)營才能轉(zhuǎn)化為價(jià)值。比如,“挖掘出滿足某些條件的客戶有極大可能購買某產(chǎn)品”是知識(shí),可以以客戶標(biāo)簽的應(yīng)用形式存在,需要提取客戶清單,選擇合適時(shí)機(jī)對(duì)其開展?fàn)I銷,產(chǎn)生了產(chǎn)品交易,收了客戶的錢才形成價(jià)值。這個(gè)過程就是一種運(yùn)營。
于是,為了提升知識(shí)到價(jià)值的轉(zhuǎn)化效率,在一階段的應(yīng)用中心上規(guī)劃了運(yùn)營中心。運(yùn)營中心一方面整合應(yīng)用中心的知識(shí);另一方面連接外部使能系統(tǒng)(如BSS域的銷售渠道、OSS域的控制用戶網(wǎng)絡(luò)服務(wù)策略的PCRF網(wǎng)元),打通知識(shí)到價(jià)值的轉(zhuǎn)換渠道,提供一站式的運(yùn)營支撐。具體如圖6所示。
遵循兩階段的規(guī)劃演進(jìn),構(gòu)建云化ETL、MPP數(shù)據(jù)庫、能力服務(wù)中心、大數(shù)據(jù)運(yùn)營支撐平臺(tái)四大IT基礎(chǔ)設(shè)施,支持“數(shù)據(jù)驅(qū)動(dòng)”轉(zhuǎn)型。
2.4.1 云化ETL
ETL(extract-transform-load)指數(shù)據(jù)抽取、轉(zhuǎn)換、裝載的過程。作為分析支撐域的基礎(chǔ),能夠按照具體規(guī)則將分散于各業(yè)務(wù)系統(tǒng)的數(shù)據(jù)進(jìn)行輕度匯總后集成入數(shù)據(jù)倉庫,為上層分析應(yīng)用提供數(shù)據(jù)支撐。
大數(shù)據(jù)技術(shù)引入前,傳統(tǒng)的ETL過程基于 “小型機(jī)+盤陣”的架構(gòu),由于與數(shù)據(jù)倉庫中的高度匯總以及面向應(yīng)用的數(shù)據(jù)計(jì)算共享計(jì)算和存儲(chǔ)能力,在數(shù)據(jù)量激增的大數(shù)據(jù)時(shí)代出現(xiàn)性能瓶頸。并且CPU和存儲(chǔ)的擴(kuò)容與性能的提升已經(jīng)出現(xiàn)強(qiáng)烈的非線性關(guān)系,如圖7所示。因此迫切需要引入MPP架構(gòu)的ETL能力。
圖6 分析支撐域規(guī)劃演進(jìn)二
圖7 SMP和MPP架構(gòu)
云化ETL包含兩個(gè)層面,“云化”指的是采用MPP方式的硬件架構(gòu),并且在軟件框架上采用了“云計(jì)算”類相關(guān)的技術(shù),適用于ETL的過程。云化ETL的核心是Hadoop,如圖8所示。
圖8 云化ETL相關(guān)組件結(jié)構(gòu)
(1)Hadoop
是一個(gè)分布式存儲(chǔ)和計(jì)算的框架,廣泛用于海量數(shù)據(jù)的存儲(chǔ)和處理。包含HDFS(hadoop distributed file system)、YARN(yet another resource negotiator)、MapReduce、HBase、Hive等組件。
(2)HDFS
是一個(gè)適合運(yùn)行在通用硬件之上的、具備高度容錯(cuò)特性、支持高吞吐量數(shù)據(jù)訪問的分布式文件系統(tǒng),適合大規(guī)模數(shù)據(jù)集應(yīng)用。
(3)YARN
是一個(gè)分布式的資源管理系統(tǒng),用以提高分布式集群環(huán)境下的資源利用率,這些資源包括內(nèi)存、I/O、網(wǎng)絡(luò)、磁盤等。在它上面可以部署MapReduce等各種分布式計(jì)算框架。
(4)MapReduce
是分布式大型計(jì)算框架,支持MapReduce編程模型,高度適應(yīng)數(shù)據(jù)處理的ETL過程。
(5)HBase
是面向列(column-oriented)、適合存儲(chǔ)海量非結(jié)構(gòu)化數(shù)據(jù)或半結(jié)構(gòu)化數(shù)據(jù)、高可靠、高性能、可靈活擴(kuò)展伸縮、支持實(shí)時(shí)數(shù)據(jù)讀寫的分布式存儲(chǔ)系統(tǒng)。
(6)Hive
是建立在Hadoop之上的數(shù)據(jù)倉庫解決方案,支持將結(jié)構(gòu)化的數(shù)據(jù)文件映射為一張表,提供HQL(hive SQL)實(shí)現(xiàn)方便高效的數(shù)據(jù)查詢,底層數(shù)據(jù)存儲(chǔ)在HDFS上。Hive的本質(zhì)是將HQL轉(zhuǎn)換為MapReduce程序去執(zhí)行,使不熟悉MapReduce的用戶很方便地利用HQL進(jìn)行數(shù)據(jù)ETL操作。
各組件按照?qǐng)D9的方式以具體的進(jìn)程實(shí)例分布在各種物理節(jié)點(diǎn)上,形成具有高度擴(kuò)展型的IT基礎(chǔ)設(shè)施。BDI管理集群向外提供圖形化的集成管理界面,可以對(duì)ETL的數(shù)據(jù)處理流程進(jìn)行管理和配置。管理階段中的3個(gè)主節(jié)點(diǎn)作為整個(gè)分布式集群管理的核心,維持資源調(diào)用的一致性和高可靠性,確保工作節(jié)點(diǎn)的工作。同時(shí),HDFS、YARN、HBase、Hive的管理組件進(jìn)程也部署在管理節(jié)點(diǎn)上,與部署在工作節(jié)點(diǎn)上的工作組件等一系列靜態(tài)進(jìn)程構(gòu)成統(tǒng)一的ETL處理工作環(huán)境。依靠這些進(jìn)程,部署和分配ETL數(shù)據(jù)處理任務(wù)后,在工作節(jié)點(diǎn)產(chǎn)生一系列的動(dòng)態(tài)進(jìn)程 (由HDFS等組件的管理進(jìn)程生成)完成具體的數(shù)據(jù)處理任務(wù)。
云化ETL的硬件部署情況如圖10所示。本期部署了72個(gè)節(jié)點(diǎn)的集群,包含4個(gè)BDI節(jié)點(diǎn)、4個(gè)管理節(jié)點(diǎn)和64個(gè)工作節(jié)點(diǎn)。節(jié)點(diǎn)內(nèi)部使用萬兆網(wǎng)絡(luò)相連,外部管理控制使用吉比特網(wǎng)絡(luò)。特別地,云化ETL處理后的輕度匯總數(shù)據(jù)將通過萬兆交換機(jī)與MPP數(shù)據(jù)庫集群相連,由MPP數(shù)據(jù)庫集群完成面向分析應(yīng)用的高度匯總過程。
2.4.2 MPP數(shù)據(jù)庫
如果說云化ETL解決的是傳統(tǒng)數(shù)據(jù)倉庫SMP共享存儲(chǔ)架構(gòu)下,ETL和輕度匯總數(shù)據(jù)存儲(chǔ)和處理過程性能不足的問題。對(duì)應(yīng)地,傳統(tǒng)數(shù)據(jù)倉庫的高度匯總和關(guān)聯(lián)分析需要依靠MPP架構(gòu)的數(shù)據(jù)庫來解決。因?yàn)樵苹疎TL使用的Hadoop的MapReduce過程更多偏向于離線數(shù)據(jù)處理,并不適用于多表關(guān)聯(lián)分析。
圖9 云化ETL組件進(jìn)程部署
圖10 云化ETL硬件部署
實(shí)際中采用的是GBase 8a產(chǎn)品,如圖11所示,這是一個(gè)無管理節(jié)點(diǎn)的節(jié)點(diǎn)對(duì)等的架構(gòu),每個(gè)節(jié)點(diǎn)內(nèi)的CPU不能直接訪問另一個(gè)節(jié)點(diǎn)的內(nèi)存,節(jié)點(diǎn)之間的信息交互通過節(jié)點(diǎn)互聯(lián)網(wǎng)實(shí)現(xiàn)。這種無共享(share-nothing)架構(gòu),使得資源的水平擴(kuò)展比較容易實(shí)現(xiàn)。
在各節(jié)點(diǎn)內(nèi)部,通過GCluster組件管理元數(shù)據(jù),對(duì)客戶端的SQL請(qǐng)求映射分布式地執(zhí)行計(jì)劃并調(diào)度實(shí)施,各節(jié)點(diǎn)計(jì)算完成后,將各自部分的結(jié)果匯總在一起得到最終的結(jié)果,返回客戶端。GCluster僅能訪問節(jié)點(diǎn)內(nèi)部的數(shù)據(jù),跨節(jié)點(diǎn)數(shù)據(jù)關(guān)聯(lián)由GCluster之間通過高速網(wǎng)絡(luò)進(jìn)行。具體如圖12所示。
MPP數(shù)據(jù)庫在各節(jié)點(diǎn)實(shí)現(xiàn)多表關(guān)聯(lián)計(jì)算的過程中,性能的核心在于選擇合適的數(shù)據(jù)分布鍵使得需要進(jìn)行關(guān)聯(lián)的表數(shù)據(jù)能均勻分布在所有節(jié)點(diǎn)相同的數(shù)據(jù)分區(qū)中,這將減少擴(kuò)節(jié)點(diǎn)跨分區(qū)的數(shù)據(jù)連接,極大發(fā)揮多節(jié)點(diǎn)并行處理的作用。
如圖13所示,對(duì)于cust表和sales表的數(shù)據(jù),多需要根據(jù)cust_id進(jìn)行關(guān)聯(lián)。那么將cust_id作為分布鍵對(duì)cust表和sales表的數(shù)據(jù)進(jìn)行散列分布后,cust_id相同的數(shù)據(jù)將被分配至相同的節(jié)點(diǎn)或者是節(jié)點(diǎn)相同的數(shù)據(jù)分區(qū)。如此進(jìn)行二表關(guān)聯(lián)時(shí),僅需要在分區(qū)和節(jié)點(diǎn)內(nèi)部進(jìn)行關(guān)聯(lián)計(jì)算,如此極大降低了跨節(jié)點(diǎn)/分區(qū)的網(wǎng)絡(luò)數(shù)據(jù)消耗。
圖11 MPP數(shù)據(jù)庫架構(gòu)
圖12 MPP數(shù)據(jù)庫對(duì)等節(jié)點(diǎn)內(nèi)部組件
圖13 MPP數(shù)據(jù)庫數(shù)據(jù)分布和關(guān)聯(lián)計(jì)算
實(shí)際部署中,按照46個(gè)計(jì)算節(jié)點(diǎn)、2個(gè)數(shù)據(jù)分發(fā)節(jié)點(diǎn)的方式部署MPP數(shù)據(jù)庫集群。48個(gè)節(jié)點(diǎn)內(nèi)部使用萬兆網(wǎng)絡(luò)相連,其中,2個(gè)數(shù)據(jù)分發(fā)節(jié)點(diǎn)與云化ETL相連,外部應(yīng)用和監(jiān)控管理平臺(tái)通過吉比特網(wǎng)絡(luò)接入,如圖14所示。
2.4.3 能力服務(wù)中心
云化ETL和MPP數(shù)據(jù)庫針對(duì)的是數(shù)據(jù)層面的問題,數(shù)據(jù)按照一定的規(guī)則面向業(yè)務(wù)領(lǐng)域進(jìn)行了構(gòu)建。為了實(shí)現(xiàn)數(shù)據(jù)到知識(shí)的轉(zhuǎn)化,需要開發(fā)各類分析應(yīng)用,這個(gè)應(yīng)用開發(fā)的過程通常是極其個(gè)性化和專業(yè)化的,也有不同的開發(fā)商專注于某個(gè)具體的分析應(yīng)用領(lǐng)域。出于降本增效的考慮,引入開發(fā)商之間的競爭,實(shí)現(xiàn)應(yīng)用的“百花齊放”,因此構(gòu)建能力服務(wù)中心,向應(yīng)用開發(fā)商提供統(tǒng)一的數(shù)據(jù)服務(wù),如圖15所示。
圖14 MPP數(shù)據(jù)庫部署
圖15 能力服務(wù)中心的定位
能力服務(wù)中心具體的功能架構(gòu)如圖16所示,分為展示層、業(yè)務(wù)層、服務(wù)層和數(shù)據(jù)層。
展示層、業(yè)務(wù)層主要負(fù)責(zé)展現(xiàn)能力服務(wù)資源管理、能力服務(wù)使用管理、能力服務(wù)管理中心的界面,控制頁面跳轉(zhuǎn)。
服務(wù)層提供統(tǒng)一的開發(fā)規(guī)范和數(shù)據(jù)服務(wù),支持多種形式的能力服務(wù)組件;提供用戶權(quán)限、應(yīng)用權(quán)限管理及鑒權(quán)機(jī)制,確保數(shù)據(jù)安全性及服務(wù)可靠性;引入負(fù)載均衡及基于內(nèi)存的數(shù)據(jù)緩存機(jī)制,提高查詢效率,保障服務(wù)的及時(shí)響應(yīng)。
圖16 能力服務(wù)中心的功能架構(gòu)
數(shù)據(jù)層封裝底層數(shù)據(jù)倉庫,包括傳統(tǒng)Oracle數(shù)據(jù)倉庫、Hadoop集群和MPP數(shù)據(jù)庫,通過透明數(shù)據(jù)層訪問異構(gòu)數(shù)據(jù)庫。
2.4.4 大數(shù)據(jù)運(yùn)營支撐平臺(tái)
云化ETL和MPP數(shù)據(jù)庫解決基礎(chǔ)數(shù)據(jù)能力問題,各類應(yīng)用揭示了數(shù)據(jù)所蘊(yùn)含的知識(shí)。知識(shí)到價(jià)值的轉(zhuǎn)化需要通過運(yùn)營來實(shí)現(xiàn)。事實(shí)上,甚至在未引入大數(shù)據(jù)技術(shù)前,就已經(jīng)有基于傳統(tǒng)Oracle關(guān)系型數(shù)據(jù)庫的精準(zhǔn)營銷運(yùn)營場景,業(yè)務(wù)人員通過客戶畫像指定業(yè)務(wù)口徑,從經(jīng)營分析系統(tǒng)中提取客戶號(hào)碼清單,給客戶群發(fā)推薦短信,客戶接到短信后去營業(yè)廳辦理業(yè)務(wù)完成銷售,實(shí)現(xiàn)了數(shù)據(jù)到價(jià)值的轉(zhuǎn)化。在這個(gè)過程中,客戶數(shù)據(jù)客觀存在,也通過客戶畫像(應(yīng)用)形成知識(shí),如果業(yè)務(wù)人員不指定業(yè)務(wù)口徑(系統(tǒng)知識(shí)與人的知識(shí)結(jié)合),不提取客戶號(hào)碼去群發(fā)短信,客戶沒有進(jìn)行業(yè)務(wù)訂購,不形成價(jià)值。
大數(shù)據(jù)運(yùn)營支撐平臺(tái)面向具體的運(yùn)營場景,比如面向市場的大數(shù)據(jù)銷售模板運(yùn)營、面向網(wǎng)絡(luò)的四網(wǎng)協(xié)同運(yùn)營、面向外部的對(duì)外數(shù)據(jù)服務(wù)等。通過連接各應(yīng)用的功能模塊將涉及的運(yùn)營環(huán)節(jié)進(jìn)行整合,提供一站式運(yùn)營,如圖17所示。
由于目前僅大數(shù)據(jù)銷售模板運(yùn)營較為成熟,所以大數(shù)據(jù)運(yùn)營支撐平臺(tái)當(dāng)前主要面向數(shù)據(jù)驅(qū)動(dòng)營銷進(jìn)行構(gòu)建,后續(xù)擴(kuò)展支撐其他方面的運(yùn)營。
“以產(chǎn)品為抓手,以銷售任務(wù)為導(dǎo)向”的大數(shù)據(jù)銷售模板運(yùn)營的業(yè)務(wù)模板包含客戶(customer)、產(chǎn)品(product)、渠道(channel)、時(shí)機(jī)(time)4 個(gè)要素。強(qiáng)調(diào)業(yè)務(wù)(產(chǎn)品)、客戶、場景(時(shí)間、空間)及營銷話術(shù)等要素協(xié)同一體,推動(dòng)業(yè)務(wù)(產(chǎn)品)產(chǎn)生增量效益。
基于此業(yè)務(wù)模型,按照?qǐng)D18所示的功能框架構(gòu)建大數(shù)據(jù)運(yùn)營支撐平臺(tái)。對(duì)產(chǎn)品/內(nèi)容庫、客戶標(biāo)簽庫、營銷平臺(tái)、事件庫、營銷渠道進(jìn)行功能優(yōu)化改造,并用大數(shù)據(jù)運(yùn)營門戶將運(yùn)營流程串聯(lián)起來,提供面向運(yùn)營的一站式支撐,提升“數(shù)據(jù)—知識(shí)—價(jià)值”的轉(zhuǎn)化效率。
在大數(shù)據(jù)運(yùn)營支撐平臺(tái)整合支撐銷售模板運(yùn)營之前,在沒有大數(shù)據(jù)技術(shù)支撐的傳統(tǒng)Oracle數(shù)據(jù)庫和大量定制化配置開發(fā)、手工數(shù)據(jù)傳遞等的支撐下,銷售模板運(yùn)營取得了不錯(cuò)的效果。見表1,從2013年7月到2014年7月底,累計(jì)營銷1.25億次,成功營銷客戶242.7萬人,累計(jì)銷售收入達(dá)3 348萬元。
有理由相信,隨著分析支撐域云化ETL、MPP數(shù)據(jù)庫、能力服務(wù)中心、大數(shù)據(jù)運(yùn)營支撐平臺(tái)等IT基礎(chǔ)設(shè)施形成生產(chǎn)力,數(shù)據(jù)的存儲(chǔ)、分析、處理能力增強(qiáng),知識(shí)的提煉、知識(shí)到價(jià)值的轉(zhuǎn)化過程將得到固化,更多的運(yùn)營場景被發(fā)掘,結(jié)合組織和管理的配套,將有力地驅(qū)動(dòng)運(yùn)營商業(yè)務(wù)和管理模式向“數(shù)據(jù)驅(qū)動(dòng)型”轉(zhuǎn)變。
大數(shù)據(jù)技術(shù)的發(fā)展、企業(yè)外部競爭和內(nèi)部管理的要求驅(qū)動(dòng)著運(yùn)營商業(yè)務(wù)和管理模式向“數(shù)據(jù)驅(qū)動(dòng)型”轉(zhuǎn)變。相對(duì)應(yīng),分析支撐域的支撐模型和支撐模式也在發(fā)生轉(zhuǎn)變。基于這種轉(zhuǎn)變,制定分析支撐域轉(zhuǎn)型規(guī)劃,構(gòu)建云化ETL、MPP數(shù)據(jù)庫、能力服務(wù)中心、大數(shù)據(jù)運(yùn)營支撐平臺(tái)等IT基礎(chǔ)設(shè)施。這些平臺(tái)和功能已陸續(xù)上線,需要運(yùn)營和使用才能發(fā)揮能力,形成生產(chǎn)力。系統(tǒng)和平臺(tái)的上線僅僅是整個(gè)分析支撐域轉(zhuǎn)型乃至業(yè)務(wù)和管理模式轉(zhuǎn)型的起點(diǎn)。
圖18 大數(shù)據(jù)運(yùn)營支撐平臺(tái)功能框架
表1 大數(shù)據(jù)技術(shù)使用前銷售模板的運(yùn)營效果
傳統(tǒng)分析支撐域的數(shù)據(jù)源多以日為周期(每天可以從數(shù)據(jù)源系統(tǒng)獲得前一天的數(shù)據(jù)),基于歷史數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析,對(duì)實(shí)時(shí)性要求不高,無法支撐如“實(shí)時(shí)/準(zhǔn)實(shí)時(shí)事件驅(qū)動(dòng)營銷”之類的場景。引入云化ETL和MPP數(shù)據(jù)庫后,一定程度上提升了數(shù)據(jù)提取、匯總和查詢的效率,仍無法支撐實(shí)時(shí)性要求高的場景。需要規(guī)劃引入流處理、內(nèi)存數(shù)據(jù)庫等IT基礎(chǔ)設(shè)施,并且積極推動(dòng)前端數(shù)據(jù)源系統(tǒng)向?qū)崟r(shí)消息機(jī)制的轉(zhuǎn)型。
數(shù)據(jù)驅(qū)動(dòng)的運(yùn)營使得數(shù)據(jù)成為一種資產(chǎn)。需要考慮以資產(chǎn)的方式進(jìn)行管理,協(xié)調(diào)考慮數(shù)據(jù)生命周期、數(shù)據(jù)價(jià)值評(píng)估、數(shù)據(jù)口徑、數(shù)據(jù)存儲(chǔ)、知識(shí)挖掘、數(shù)據(jù)使用、數(shù)據(jù)安全等各方面。
數(shù)據(jù)需要通過挖掘才能成為知識(shí),知識(shí)通常以一定模型算法的形式存在,這正是分析支撐域的核心競爭力。大數(shù)據(jù)技術(shù)使得對(duì)海量數(shù)據(jù)的挖掘處理成為可能,迫切需在組織機(jī)構(gòu)、管理流程、人才培養(yǎng)方面統(tǒng)籌規(guī)劃,建立模型挖掘團(tuán)隊(duì),開展挖掘研究,提升核心掌控力。
大數(shù)據(jù)時(shí)代,業(yè)務(wù)和管理模式逐步向“數(shù)據(jù)驅(qū)動(dòng)”轉(zhuǎn)型,對(duì)電信運(yùn)營商的IT支撐提出了轉(zhuǎn)型要求。廣西移動(dòng)在技術(shù)架構(gòu)上采用“Hadoop”和“MPP”的混搭,實(shí)現(xiàn)數(shù)據(jù)生命周期各種能力的服務(wù)化改造以及 “數(shù)據(jù)驅(qū)動(dòng)營銷”作為應(yīng)用層的優(yōu)先切入,確保IT支撐轉(zhuǎn)型與核心業(yè)務(wù)支撐的順利銜接,轉(zhuǎn)型實(shí)踐路徑具有推廣借鑒價(jià)值。
[1]鄭毅.證析——大數(shù)據(jù)與基于證據(jù)的決策[M].北京:華夏出版社,2012.ZHENG Y.Analytics:on big data and evidence-based decision[M].Beijing:Huaxia Publishing House,2012.
[2]BILL F.駕馭大數(shù)據(jù)[M].北京:人民郵電出版社,2013.BILL F.Taming the big data tidal wave [M].Beijing:Postsamp;Telecom Press,2013.
[3]徐子沛.大數(shù)據(jù):正在到來的數(shù)據(jù)革命 [M].桂林:廣西師范大學(xué)出版社,2013.XU Z P.The big data revolution [M].Guilin:Guangxi Normal University Press,2013.
[4]劉軍.Hadoop大數(shù)據(jù)處理[M].北京:人民郵電出版社,2013.LIU J.Hadoop big data processing [M].Beijing:Postsamp;Telecom Press,2013.
Practice and thinking on the transition of telecom operator analysis support system in big data era
LIU Nanhai,LEI Lei,WANG Rui
China Mobile Group Guangxi Co.,Ltd.,Nanning 530022,China
In big data era,with business and management mode changing to “data driven”,the support model and support pattern of telecom operator analysis support system has changed.With the ASS planning,cloud ETL,MPP DB,ability service center and big data operation platform were constructed.Also,implementation thinking in aspects of IT,management and core competitiveness of ASS were proposed.
analysis support system,big data,Hadoop,MPP
TN915.07
A
10.11959/j.issn.1000-0801.2016226
2015-05-03;
2016-08-15
劉南海(1982-),男,中國移動(dòng)通信集團(tuán)廣西有限公司信息系統(tǒng)部IT專家、工程師,主要承擔(dān)BI/大數(shù)據(jù)系統(tǒng)的IT規(guī)劃實(shí)施建設(shè)及運(yùn)營工作,主要研究方向?yàn)榇髷?shù)據(jù)DaaS、PaaS、SaaS的服務(wù)化和企業(yè)級(jí)數(shù)據(jù)治理。
雷蕾(1978-),女,中國移動(dòng)通信集團(tuán)廣西有限公司信息系統(tǒng)部規(guī)劃建設(shè)室經(jīng)理、工程師,主要研究方向?yàn)樵朴?jì)算、大數(shù)據(jù)。
王睿(1980-),男,中國移動(dòng)通信集團(tuán)廣西有限公司信息系統(tǒng)部大數(shù)據(jù)開發(fā)支撐室經(jīng)理、工程師,主要研究方向?yàn)榇髷?shù)據(jù)、IT架構(gòu)、云計(jì)算、網(wǎng)絡(luò)安全管控。