靳志成 胡偉 卞雪梅
摘要:大數(shù)據(jù)作為新時(shí)代背景下推動(dòng)社會(huì)生產(chǎn)要素整合的主要?jiǎng)恿Γ疚膹慕ㄔO(shè)電信行業(yè)企業(yè)大數(shù)據(jù)平臺(tái)角度出發(fā),介紹了大數(shù)據(jù)平臺(tái)建設(shè)思路、建設(shè)策略,并結(jié)合多個(gè)大數(shù)據(jù)平臺(tái)項(xiàng)目落地實(shí)踐中總結(jié)一套大數(shù)據(jù)平臺(tái)建設(shè)五步法,以期全面啟動(dòng)企業(yè)數(shù)據(jù)化建設(shè),并且讓這個(gè)過程不斷地持續(xù)運(yùn)行,最終達(dá)到當(dāng)前技術(shù)和方法所能支撐的企業(yè)全面數(shù)據(jù)化。
關(guān)鍵詞:大數(shù)據(jù)平臺(tái);企業(yè)數(shù)據(jù);平臺(tái)建設(shè)
一、引言
電信業(yè)歷經(jīng)多年IT建設(shè),已經(jīng)具備大量數(shù)據(jù)和應(yīng)用的成果與經(jīng)驗(yàn)。隨著企業(yè)級(jí)數(shù)據(jù)整合,海量數(shù)據(jù)處理和大數(shù)據(jù)應(yīng)用建設(shè)等的需求不斷增加,傳統(tǒng)數(shù)據(jù)運(yùn)營(yíng)管理體系逐漸向大數(shù)據(jù)平臺(tái)運(yùn)營(yíng)體系演進(jìn)[1]。
2015年之后,企業(yè)級(jí)大數(shù)據(jù)平臺(tái)時(shí)代到來。全面應(yīng)用云化大數(shù)據(jù)處理技術(shù),能夠?qū)崿F(xiàn)三域數(shù)據(jù)融合統(tǒng)一存儲(chǔ),同時(shí)處理的數(shù)據(jù)量級(jí)達(dá)80PB。構(gòu)建企業(yè)級(jí)數(shù)據(jù)模型,以多租戶方式為各類業(yè)務(wù)提供數(shù)據(jù)能力和分析能力的支撐,并能提供若干AI應(yīng)用,實(shí)現(xiàn)大數(shù)據(jù)與人工智能的結(jié)合。
運(yùn)營(yíng)商開展大數(shù)據(jù)業(yè)務(wù)優(yōu)勢(shì)顯著,它有獨(dú)特的數(shù)據(jù)資產(chǎn)優(yōu)勢(shì),龐大的用戶資源優(yōu)勢(shì),深遠(yuǎn)的品牌影響優(yōu)勢(shì),但是它也存在一些問題制約,比如數(shù)據(jù)安全及隱私保護(hù)的問題,大數(shù)據(jù)發(fā)展水平、技術(shù)研發(fā)能力落后于互聯(lián)網(wǎng)企業(yè)的問題。在大數(shù)據(jù)技術(shù)發(fā)展的新形勢(shì)下,企業(yè)開始對(duì)信息化管理工作提出了新的要求,各大企業(yè)的數(shù)據(jù)中心在建立并不斷完善,傳統(tǒng)運(yùn)營(yíng)商也面臨轉(zhuǎn)型。各電信運(yùn)營(yíng)商依托于自身優(yōu)勢(shì),借助于各大業(yè)務(wù)運(yùn)營(yíng)系統(tǒng),收集海量數(shù)據(jù),因地制宜,結(jié)合各省的數(shù)據(jù)流量以及業(yè)務(wù)拓展需求情況,構(gòu)建相應(yīng)級(jí)別的數(shù)據(jù)中心。但如何在傳統(tǒng)業(yè)務(wù)之外利用大數(shù)據(jù)等新型技術(shù)處理和利用這些數(shù)據(jù)信息,構(gòu)建更為全面的企業(yè)級(jí)大數(shù)據(jù)平臺(tái)輔助諸如突發(fā)公共事件防控、優(yōu)化業(yè)務(wù)運(yùn)營(yíng)策略等也是當(dāng)下研究的主要任務(wù)。
二、電信行業(yè)企業(yè)級(jí)大數(shù)據(jù)平臺(tái)建設(shè)思路
大數(shù)據(jù)平臺(tái)作為海量數(shù)據(jù)的存儲(chǔ)、運(yùn)算和展示的平臺(tái),通過大規(guī)模并行處理(massively parallel processing,MPP)數(shù)據(jù)庫、分布式、云計(jì)算等大數(shù)據(jù)技術(shù),從多維數(shù)據(jù)中快速獲取價(jià)值信息。大數(shù)據(jù)技術(shù)體系包含以下五方面:采集與預(yù)處理、存儲(chǔ)與管理、計(jì)算模式與系統(tǒng)、數(shù)據(jù)分析與可視化、隱私與安全。
大數(shù)據(jù)處理的第一步是制作高質(zhì)量數(shù)據(jù)集,即通過數(shù)據(jù)源采集樣本數(shù)據(jù)進(jìn)行預(yù)處理[2]和集成操作[3],第二步是通過分布式、訪問接口和查詢語言等技術(shù)滿足數(shù)據(jù)處理的實(shí)時(shí)性和有效性,并對(duì)上層應(yīng)用提供數(shù)據(jù)訪問服務(wù);第三步是根據(jù)數(shù)據(jù)集的不同數(shù)據(jù)特征和多樣化的數(shù)據(jù)計(jì)算分析需求中建立抽象化的計(jì)算模型;第四步是針對(duì)大數(shù)據(jù)難以理解的多維分析結(jié)果,利用可視化、人工交互和數(shù)據(jù)起源等方式方便數(shù)據(jù)展示和用戶理解。
大數(shù)據(jù)平臺(tái)總體建設(shè)應(yīng)以用戶需求為中心,以業(yè)務(wù)運(yùn)營(yíng)為導(dǎo)向,深度分析挖掘用戶的通信和互聯(lián)網(wǎng)行為,依據(jù)行為結(jié)果建設(shè)基礎(chǔ)平臺(tái)集成和數(shù)據(jù)模型,將行為結(jié)果轉(zhuǎn)化為營(yíng)銷商機(jī)數(shù)據(jù),通過多渠道協(xié)同,推進(jìn)智慧在線運(yùn)營(yíng),打造企業(yè)差異化競(jìng)爭(zhēng)能力。大數(shù)據(jù)系統(tǒng)體系架構(gòu)采用云化混搭架構(gòu)建設(shè)開放、可靠、易維護(hù)的大數(shù)據(jù)平臺(tái);以數(shù)據(jù)為基礎(chǔ),需求為導(dǎo)向,通過持續(xù)的模型、業(yè)務(wù)研究,構(gòu)建對(duì)內(nèi)、對(duì)外應(yīng)用,支撐大數(shù)據(jù)戰(zhàn)略的實(shí)現(xiàn)[4]。整個(gè)大數(shù)據(jù)平臺(tái)總體上可分為功能域和管理域,其中功能域可以分為5個(gè)層次,分別是采集層、數(shù)據(jù)存儲(chǔ)與處理層、服務(wù)目錄層、應(yīng)用層、展現(xiàn)層??傮w架構(gòu)如圖1所示。
功能域的五個(gè)層次專注于數(shù)據(jù)從采集、處理到應(yīng)用的整個(gè)生命周期,管理域則側(cè)重對(duì)于數(shù)據(jù)的管理,包括元數(shù)據(jù)管理、數(shù)據(jù)質(zhì)量管理、數(shù)據(jù)安全管理、安全管理等。在大數(shù)據(jù)的整個(gè)應(yīng)用過程中,數(shù)據(jù)安全是極為重要的,它涉及用戶個(gè)人信息以及隱私保護(hù)等問題,需要有一個(gè)強(qiáng)大不易被攻擊的平臺(tái)來管理、保護(hù)數(shù)據(jù)。
三、大數(shù)據(jù)平臺(tái)建設(shè)策略和建設(shè)路徑
建設(shè)企業(yè)級(jí)大數(shù)據(jù)平臺(tái)需要一定的前置條件。本文認(rèn)為需要從以下三方面進(jìn)行考慮。
一是行業(yè)特性,大數(shù)據(jù)平臺(tái)策略的產(chǎn)生是基于互聯(lián)網(wǎng)背景之下,雖由電商行業(yè)興起,但用戶群體面向ToBs,用于打造產(chǎn)業(yè)生態(tài)鏈、銜接上游供應(yīng)商、下游代理商/經(jīng)銷商業(yè)務(wù),幫助企業(yè)前臺(tái)貼近用戶,提供更好、更人性化服務(wù),提升用戶體驗(yàn)、加快業(yè)務(wù)交互頻率,中臺(tái)和后臺(tái)提供管控協(xié)調(diào)和技術(shù)支撐。在當(dāng)前階段,大數(shù)據(jù)平臺(tái)在金融、銀行、政府、能源等行業(yè)領(lǐng)域已經(jīng)開始展開建設(shè)。
二是企業(yè)體量,大數(shù)據(jù)平臺(tái)模式建設(shè)對(duì)企業(yè)體量有較高的要求,通常為龍頭企業(yè)、行業(yè)翹楚,組織結(jié)構(gòu)龐大而復(fù)雜,存在眾多有實(shí)力的子公司或下級(jí)單位,并且整體業(yè)務(wù)上多元化:多板塊、多業(yè)態(tài)。集團(tuán)內(nèi)部擁有較為充足的資金力量、能力較強(qiáng)的技術(shù)團(tuán)隊(duì),良好的信息化基礎(chǔ)設(shè)施建設(shè),具備強(qiáng)大的能力去整合業(yè)務(wù)和上下游的業(yè)務(wù)和信息化系統(tǒng)。
三是技術(shù)實(shí)力,對(duì)于構(gòu)建大數(shù)據(jù)平臺(tái)業(yè)務(wù)模式的企業(yè)來說,內(nèi)部需要具備一定的技術(shù)實(shí)力,首先要對(duì)自身業(yè)務(wù)領(lǐng)域及業(yè)務(wù)流程模式具備較深的了解,之后對(duì)大數(shù)據(jù)平臺(tái)需要的技術(shù)/產(chǎn)品(開源的/非開源的)具備扎實(shí)的基礎(chǔ),以便后續(xù)對(duì)大數(shù)據(jù)平臺(tái)成果維護(hù)的同時(shí)發(fā)現(xiàn)問題并進(jìn)行改進(jìn),如果當(dāng)前企業(yè)暫時(shí)不具備獨(dú)立構(gòu)建或維護(hù)大數(shù)據(jù)平臺(tái)成果的能力,那么可以與一些技術(shù)實(shí)力強(qiáng)的廠商共同合作完成,在構(gòu)建的過程中能夠迅速地學(xué)習(xí)對(duì)方的能力。
(一)大數(shù)據(jù)平臺(tái)建設(shè)路徑
本文在多個(gè)大數(shù)據(jù)平臺(tái)項(xiàng)目落地實(shí)踐中總結(jié)出的一套方法論,大數(shù)據(jù)平臺(tái)建設(shè)五步法。
一是數(shù)據(jù)資源的盤點(diǎn)與規(guī)劃,數(shù)據(jù)化的基礎(chǔ)是信息化或者信息化所產(chǎn)生的數(shù)據(jù)。這些數(shù)據(jù)本身具有數(shù)據(jù)化的含義,同時(shí)這些數(shù)據(jù)又會(huì)進(jìn)入數(shù)據(jù)化框架體系,繼續(xù)通過計(jì)算產(chǎn)出更多的數(shù)據(jù)和更大的價(jià)值。所以說對(duì)企業(yè)數(shù)據(jù)資源的盤點(diǎn)是數(shù)據(jù)化建設(shè)的前提和基礎(chǔ)。一份完整、準(zhǔn)確的數(shù)據(jù)資源是后續(xù)數(shù)據(jù)化建設(shè)的有力保障。同時(shí),在進(jìn)行數(shù)據(jù)資源的盤點(diǎn)與規(guī)劃是需要對(duì)現(xiàn)有數(shù)據(jù)資源盤點(diǎn)和統(tǒng)計(jì);對(duì)企業(yè)可以擁有或者應(yīng)該擁有的數(shù)據(jù)資源進(jìn)行規(guī)劃;構(gòu)建盤點(diǎn)體系并使用必要工具,保證盤點(diǎn)的成果能夠始終與真實(shí)情況相符。
二是數(shù)據(jù)應(yīng)用規(guī)劃與設(shè)計(jì),企業(yè)要基于現(xiàn)有的技術(shù)條件和方案,進(jìn)行相對(duì)完整的數(shù)據(jù)應(yīng)用規(guī)劃。首先應(yīng)從業(yè)務(wù)線、業(yè)務(wù)層級(jí)到最細(xì)粒度的崗位,梳理數(shù)據(jù)需求;其次圍繞數(shù)據(jù)需求進(jìn)行數(shù)據(jù)應(yīng)用的整體規(guī)劃和設(shè)計(jì),構(gòu)建數(shù)據(jù)應(yīng)用;最后對(duì)數(shù)據(jù)應(yīng)用建立評(píng)估模型,評(píng)估的維度包括數(shù)據(jù)應(yīng)用是否可以實(shí)現(xiàn)、數(shù)據(jù)應(yīng)用的業(yè)務(wù)價(jià)值、數(shù)據(jù)應(yīng)用的實(shí)現(xiàn)成本這三個(gè)主要方面。通過評(píng)定結(jié)果,我們可以確定數(shù)據(jù)應(yīng)用的實(shí)現(xiàn)路徑。
三是數(shù)據(jù)資產(chǎn)建設(shè),數(shù)據(jù)資產(chǎn)建設(shè)要依托數(shù)據(jù)中臺(tái)的核心產(chǎn)品完成。數(shù)據(jù)資產(chǎn)是企業(yè)數(shù)據(jù)化建設(shè)的關(guān)鍵基礎(chǔ)。所有的數(shù)據(jù)化建設(shè)最后都以數(shù)據(jù)資產(chǎn)為基礎(chǔ),并且圍繞這個(gè)基礎(chǔ)展開。數(shù)據(jù)資產(chǎn)將是企業(yè)在全面數(shù)據(jù)化建設(shè)前期中投入最多、見效最慢的基礎(chǔ)層模塊。關(guān)于數(shù)據(jù)中臺(tái)的種種探討和爭(zhēng)議以及妥協(xié)的很大一部分原因是這個(gè)基礎(chǔ)建設(shè)龐大、復(fù)雜和投入高。數(shù)據(jù)資產(chǎn)建設(shè)的內(nèi)容包括技術(shù)建設(shè)、數(shù)據(jù)倉(cāng)庫模型構(gòu)建、數(shù)據(jù)抽取和開發(fā)及任務(wù)監(jiān)控與運(yùn)維、質(zhì)量校驗(yàn)、應(yīng)用支撐,相應(yīng)具體內(nèi)容入如表1所示。
四是數(shù)據(jù)應(yīng)用的詳細(xì)設(shè)計(jì)與實(shí)現(xiàn),數(shù)據(jù)應(yīng)用的設(shè)計(jì)大體上都可以遵循傳統(tǒng)信息化應(yīng)用設(shè)計(jì)的過程和理念,如瀑布模型、敏捷開發(fā)模型等。數(shù)據(jù)應(yīng)用中的數(shù)據(jù)開發(fā)一般在數(shù)據(jù)庫或者數(shù)據(jù)倉(cāng)庫中完成。數(shù)據(jù)應(yīng)用的內(nèi)容展示可以采用BI分析工具展現(xiàn),如可視化大屏或定制化開發(fā)應(yīng)用。數(shù)據(jù)應(yīng)用還可以通過API接口服務(wù)提供數(shù)據(jù)成果,讓其他外部應(yīng)用按需調(diào)用。在數(shù)據(jù)應(yīng)用的開發(fā)過程中,應(yīng)對(duì)數(shù)據(jù)源的內(nèi)容與質(zhì)量、數(shù)據(jù)開發(fā)與管理、數(shù)據(jù)結(jié)果驗(yàn)證、數(shù)據(jù)運(yùn)維、數(shù)據(jù)成果運(yùn)營(yíng)等方面予以關(guān)注。
五是數(shù)據(jù)化組織規(guī)劃,企業(yè)數(shù)據(jù)化是未來一個(gè)時(shí)期內(nèi)具有企業(yè)戰(zhàn)略高度的事情,數(shù)據(jù)化需要一個(gè)具有同等戰(zhàn)略高度的組織負(fù)責(zé)推進(jìn)。無論是從傳統(tǒng)的IT部門轉(zhuǎn)型還是由戰(zhàn)略部門或者類似部門介入都是很好的選擇。組織是保障數(shù)據(jù)中臺(tái)順利落地的一個(gè)核心,也是推動(dòng)企業(yè)數(shù)據(jù)化進(jìn)程的人員抓手。
(二)大數(shù)據(jù)中臺(tái)構(gòu)建模式
在滿足上述五步之后,企業(yè)對(duì)于大中臺(tái)的構(gòu)建通常分為三種模式,一種為全部外采,外包給實(shí)施團(tuán)隊(duì);一種為吸收開源融合業(yè)務(wù),之后將成果開源;一種為自研、開源相結(jié)合,下面將具體闡述每種模式。
外部采購(gòu),忽略信息化團(tuán)隊(duì)的能力,使用該種模式的企業(yè)通常擁有雄厚的資金,或是在行業(yè)特性、業(yè)務(wù)方面與外采的大中臺(tái)產(chǎn)品或技術(shù)框架有一定的相似度,業(yè)務(wù)內(nèi)容具備較高的復(fù)用性,否則在獨(dú)有業(yè)務(wù)定制開發(fā)方面會(huì)產(chǎn)生更多成本。對(duì)于外采模式,通常不會(huì)購(gòu)入成品中臺(tái),而是購(gòu)入開放的中間件平臺(tái)類產(chǎn)品,如ESB、Portal、IDM、MDM、BI等作為技術(shù)中臺(tái)、數(shù)據(jù)中臺(tái)提供能力支撐。
基于開源,該種模式企業(yè)通常具備信息化團(tuán)隊(duì),當(dāng)然不排除一些企業(yè)注重時(shí)間成本而直接高薪聘請(qǐng)專業(yè)信息化團(tuán)隊(duì)打造大中臺(tái)架構(gòu),對(duì)于底層技術(shù),不需要花費(fèi)過多時(shí)間去自研,使用開源框架及產(chǎn)品作為支撐即可,對(duì)于專有業(yè)務(wù)結(jié)合擴(kuò)展開發(fā),打造屬于自身業(yè)務(wù)發(fā)展的大中臺(tái)架構(gòu)。部分企業(yè)基于這種模式,會(huì)將研究成果全部或部分開源出去,供其他類似行業(yè)使用借鑒。
自主研發(fā),使用該種模式的企業(yè)同樣具備信息化團(tuán)隊(duì),在大中臺(tái)技術(shù)架構(gòu)上,只部分采用外部吸收的技術(shù),也避免將平臺(tái)后續(xù)的擴(kuò)展與維護(hù)受限,在特有業(yè)務(wù)或主營(yíng)業(yè)務(wù)方面的技術(shù)產(chǎn)品選擇自研,底層通用框架方面選擇當(dāng)前開源的技術(shù)與產(chǎn)品為主,部分技術(shù)中臺(tái)、數(shù)據(jù)中臺(tái)中涉及產(chǎn)品選擇外采,并基于在外部技術(shù)團(tuán)隊(duì)實(shí)施的過程中,吸收、學(xué)習(xí)產(chǎn)品使用的能力,后期維護(hù)擴(kuò)展。
無論是微服務(wù)還是大中臺(tái)理念,都是基于中國(guó)市場(chǎng)特有業(yè)務(wù),根據(jù)傳統(tǒng)架構(gòu)模式演變而來,無論是構(gòu)建成果還是發(fā)揮的作用都更加適應(yīng)中國(guó)模式的發(fā)展,當(dāng)前對(duì)大中臺(tái)的構(gòu)建也應(yīng)該遵循中國(guó)市場(chǎng)獨(dú)有的最佳實(shí)踐。
大中臺(tái)模式不僅對(duì)企業(yè)內(nèi)部進(jìn)行整體管控,還是商業(yè)模式的支撐手段及營(yíng)銷渠道,構(gòu)建時(shí)應(yīng)當(dāng)注重對(duì)中臺(tái)建設(shè)整體的管控能力,在具備充足人力、財(cái)力的情況下,也不必采用全部自建的模式,對(duì)于通用類軟件在滿足開發(fā)性前提下考慮外采,由原廠商提供技術(shù)支持,對(duì)主營(yíng)業(yè)務(wù)建設(shè)則以自建為主,結(jié)合外采一些技術(shù)平臺(tái)類產(chǎn)品、整體解決方案來實(shí)現(xiàn),著重衡量產(chǎn)品的開放性、敏捷性、擴(kuò)展性、維護(hù)性,實(shí)施團(tuán)隊(duì)的成熟度、專業(yè)性、知識(shí)傳遞性等,企業(yè)在建設(shè)過程中完成技能培訓(xùn)、知識(shí)轉(zhuǎn)移,沉淀最佳實(shí)踐,后續(xù)獨(dú)立進(jìn)行平臺(tái)搭建、擴(kuò)展、改造、維護(hù),最終實(shí)現(xiàn)中臺(tái)建設(shè)自主可控。
四、結(jié)束語
本文通過對(duì)電信行業(yè)數(shù)據(jù)進(jìn)行分析,以當(dāng)前主流大數(shù)據(jù)平臺(tái)建設(shè)模式,提出了大數(shù)據(jù)平臺(tái)建設(shè)五步法。在大數(shù)據(jù)平臺(tái)項(xiàng)目落地中,可以根據(jù)具體項(xiàng)目情況對(duì)其中的一個(gè)或者幾個(gè)部分的內(nèi)容做重點(diǎn)的加強(qiáng)或者減弱,甚至可以只在其中一個(gè)方面做重點(diǎn)突破和攻關(guān)。
本文對(duì)數(shù)據(jù)中臺(tái)建設(shè)五步法總結(jié)的目的是相對(duì)地規(guī)范企業(yè)數(shù)據(jù)中臺(tái)建設(shè)的步驟和架構(gòu),五步法只是企業(yè)整體數(shù)據(jù)化建設(shè)的啟動(dòng)。本文希望通過這五個(gè)標(biāo)準(zhǔn)的步驟,全面啟動(dòng)企業(yè)數(shù)據(jù)化建設(shè),并且讓這個(gè)過程不斷地持續(xù)運(yùn)行,最終達(dá)到當(dāng)前技術(shù)和方法所能支撐的企業(yè)全面數(shù)據(jù)化。
作者單位:靳志成? ? 胡偉? ? 國(guó)家計(jì)算機(jī)網(wǎng)絡(luò)與信息安全管理中心新疆分中心
卞雪梅? ? 新疆大學(xué)
參? 考? 文? 獻(xiàn)
[1]成欣, 喻朝新, 劉立. 通信領(lǐng)域大數(shù)據(jù)應(yīng)用前景分析及模式場(chǎng)景探討[J]. 現(xiàn)代電信科技, 2016,46(1):1-7.
[2] Li X, Dong X L, Lyons K, et al. Truth Finding on the Deep Web: Is the Problem Solved?[J]. Proceedings of the VLDB Endowment, 2015,6(2):97-108.
[3] Arasu A, Chaudhuri S, Chen Z, et al. Experiences with using Data Cleaning Technology for Bing Services[J]. Bulletin of the Technical Committee on Data Engineering, 2012(2).
[4]辛笛. 運(yùn)營(yíng)商大數(shù)據(jù)平臺(tái)建設(shè)方案研究[J]. 電信工程技術(shù)與標(biāo)準(zhǔn)化, 2018,31(4):26-29.