劉志勇,何忠江,劉敬龍,阮宜龍,孟照方
(中國電信集團(tuán)有限公司,北京 100033)
隨著信息技術(shù)、芯片技術(shù)、軟件算法的高速發(fā)展,大數(shù)據(jù)、5G、云計(jì)算、人工智能(AI)等新技術(shù)正在成為驅(qū)動(dòng)創(chuàng)新與實(shí)現(xiàn)數(shù)字化轉(zhuǎn)型的重要力量,其中數(shù)據(jù)資源更是推動(dòng)數(shù)字經(jīng)濟(jì)發(fā)展的“糧食”和“血液”。作為每天需要采集PB 級數(shù)據(jù)的企業(yè),建設(shè)什么樣的大數(shù)據(jù)平臺才能以更少的投入發(fā)揮更大的價(jià)值,是電信運(yùn)營商面臨的重大挑戰(zhàn)。
從技術(shù)趨勢上看,近年來,為適應(yīng)日益復(fù)雜的數(shù)據(jù)環(huán)境,加快數(shù)據(jù)應(yīng)用部署速度,數(shù)據(jù)湖逐漸成為全球企業(yè)大數(shù)據(jù)運(yùn)營管理的重要趨勢和方向。數(shù)據(jù)湖的概念由Pentaho 公司的創(chuàng)始人兼首席技術(shù)官Dixon J 提出[1-2],指“未經(jīng)處理和包裝的原生狀態(tài)水庫,不同源頭的水體源源不斷流入數(shù)據(jù)湖,并為企業(yè)帶來各種分析、探索的可能性”。其主要技術(shù)特點(diǎn)為,數(shù)據(jù)湖統(tǒng)一匯集和管理各生產(chǎn)系統(tǒng)的數(shù)據(jù),提供統(tǒng)一的數(shù)據(jù)存儲(chǔ)和訪問服務(wù),數(shù)據(jù)分析和開發(fā)人員可以各取所需,充分發(fā)揮數(shù)據(jù)價(jià)值。數(shù)據(jù)湖概念如圖1 所示。
圖1 數(shù)據(jù)湖概念
在數(shù)據(jù)存儲(chǔ)方面,數(shù)據(jù)湖按照生產(chǎn)系統(tǒng)的原生模型存儲(chǔ)企業(yè)數(shù)據(jù),不僅簡化了數(shù)據(jù)的處理過程,保證數(shù)據(jù)真實(shí)可靠,同時(shí)能對具有時(shí)效性要求的實(shí)時(shí)應(yīng)用提供更好的支撐;在分析應(yīng)用方面,上層應(yīng)用可以通過數(shù)據(jù)湖的標(biāo)準(zhǔn)化接口獲取數(shù)據(jù),進(jìn)行自定義的模型轉(zhuǎn)換,能夠更加快速地滿足日益多樣的分析需求;在數(shù)據(jù)治理方面,數(shù)據(jù)湖提供統(tǒng)一的目錄管理、權(quán)限控制、編排調(diào)度、追蹤溯源等功能,能夠有效識別和管控各項(xiàng)數(shù)據(jù)及其處理過程,促進(jìn)企業(yè)數(shù)據(jù)質(zhì)量的持續(xù)提升。
目前中國電信建設(shè)了集團(tuán)和省兩級大數(shù)據(jù)平臺(部分省仍使用基于IOE 的DW/ODS 系統(tǒng)),各專業(yè)公司、各部門根據(jù)各自需要,也建設(shè)了部分大數(shù)據(jù)分析平臺。大數(shù)據(jù)平臺數(shù)據(jù)采集處理現(xiàn)狀如圖2 所示。其中,集團(tuán)企業(yè)級大數(shù)據(jù)平臺匯總了企業(yè)主要運(yùn)營數(shù)據(jù),開展精準(zhǔn)營銷、精確管理、精細(xì)服務(wù)、精益運(yùn)營等“四精”應(yīng)用探索,對接部分生產(chǎn)系統(tǒng)閉環(huán)注智,較好支撐了企業(yè)智慧運(yùn)營轉(zhuǎn)型。但兩級建設(shè)的分散系統(tǒng),導(dǎo)致數(shù)據(jù)重復(fù)存儲(chǔ)、多頭管理,數(shù)據(jù)質(zhì)量問題多,給大數(shù)據(jù)應(yīng)用進(jìn)一步深化和推廣造成極大困難。主要存在以下突出問題。
(1)數(shù)據(jù)重復(fù)采集、重復(fù)存儲(chǔ)。同一份數(shù)據(jù)在多個(gè)系統(tǒng)進(jìn)行存儲(chǔ),造成硬件資源浪費(fèi),建設(shè)和維護(hù)成本高。以DPI 數(shù)據(jù)為例,2018 年年初僅采集就存在:三套移動(dòng)DPI 重復(fù)采、重復(fù)存,兩套城域網(wǎng)DPI 存在多次分光、重復(fù)分流;數(shù)據(jù)格式不一致;各域、各系統(tǒng)數(shù)據(jù)采集、存儲(chǔ)/處理、應(yīng)用縱向綁定,無法端到端呈現(xiàn)全局?jǐn)?shù)據(jù),難以發(fā)揮大數(shù)據(jù)價(jià)值。
(2)數(shù)據(jù)采集處理環(huán)節(jié)多,海量原始數(shù)據(jù)跨省傳輸,占用大量帶寬,同時(shí)數(shù)據(jù)采集時(shí)延較大,難以滿足一些實(shí)時(shí)應(yīng)用的需要。例如,占大數(shù)據(jù)資產(chǎn)超過90%的DPI/XDR、MR/CDR 等海量網(wǎng)絡(luò)數(shù)據(jù),2018 年年初已超過100 TB/天,而且每年保持50%以上的增長。這些數(shù)據(jù)在集團(tuán)、省相關(guān)系統(tǒng)、大數(shù)據(jù)平臺之間,層層全量傳送、空中搬家,從網(wǎng)元產(chǎn)生到集團(tuán)企業(yè)級大數(shù)據(jù)平臺應(yīng)用展現(xiàn)全流程超過數(shù)小時(shí),而基于網(wǎng)絡(luò)數(shù)據(jù)的實(shí)時(shí)事件營銷、精準(zhǔn)營銷、新零售等大數(shù)據(jù)應(yīng)用越來越豐富,要求分鐘級時(shí)效。
(3)分散的數(shù)據(jù)共享缺乏有效機(jī)制,存在一定技術(shù)和管理壁壘,妨礙了跨專業(yè)和跨部門的全局性數(shù)據(jù)應(yīng)用開展。
(4)各省各專業(yè)的數(shù)據(jù)源系統(tǒng)的數(shù)據(jù)標(biāo)準(zhǔn)不統(tǒng)一,數(shù)據(jù)模型缺乏有效管理,也涉及業(yè)務(wù)管理流程問題,數(shù)據(jù)質(zhì)量問題溯源困難,數(shù)據(jù)質(zhì)量提升難度大[3]。IT 系統(tǒng)除MSS 全國集中建設(shè)以外,BSS、OSS 31 個(gè)省級系統(tǒng)分省建設(shè),且業(yè)務(wù)管理模式不同,數(shù)據(jù)模型標(biāo)準(zhǔn)、主數(shù)據(jù)千差萬別,跨省、跨域、跨系統(tǒng)的模型標(biāo)準(zhǔn)統(tǒng)一困難,數(shù)據(jù)庫之間是孤立的,主數(shù)據(jù)不同導(dǎo)致跨域之間基于原始數(shù)據(jù)的關(guān)聯(lián)整合復(fù)雜。
隨著運(yùn)營商加速數(shù)字化轉(zhuǎn)型需要,其數(shù)據(jù)業(yè)務(wù)化、端到端客戶體驗(yàn)分析、端到端預(yù)防性維護(hù)、大數(shù)據(jù)資源配置等需求越來越強(qiáng)烈,需要拉通BSS、OSS,以數(shù)據(jù)貫通整個(gè)生產(chǎn)流程,注智MSS/BSS/OSS,構(gòu)建開放的數(shù)字化架構(gòu),支撐企業(yè)的智慧運(yùn)營,實(shí)現(xiàn)網(wǎng)絡(luò)的集約、智能、自動(dòng)化運(yùn)維,支持新的數(shù)字化服務(wù)以及改善和個(gè)性化用戶體驗(yàn)。這也對運(yùn)營商的數(shù)據(jù)平臺架構(gòu)提出了新的要求,既要考慮到運(yùn)營商特有的遍布31 省市的數(shù)據(jù)采集、處理和匯聚需求,又要解決數(shù)據(jù)分散、標(biāo)準(zhǔn)不統(tǒng)一、數(shù)據(jù)質(zhì)量不高、跨域困難、數(shù)據(jù)實(shí)時(shí)應(yīng)用支撐不足、開發(fā)工具缺失、應(yīng)用創(chuàng)新靈活性不夠等問題。
圖2 大數(shù)據(jù)平臺數(shù)據(jù)采集處理現(xiàn)狀
數(shù)據(jù)湖和邊緣計(jì)算技術(shù)的出現(xiàn)為大數(shù)據(jù)平臺建設(shè)提供了新的思路。中國電信遵循問題導(dǎo)向、先立后破、有序推進(jìn)的原則引入大數(shù)據(jù)湖技術(shù),最終形成數(shù)據(jù)一體化存儲(chǔ),平臺邏輯統(tǒng)一、 物理分散、統(tǒng)一部署的全網(wǎng)統(tǒng)一的數(shù)據(jù)湖,實(shí)現(xiàn)數(shù)據(jù)統(tǒng)一管理、數(shù)據(jù)充分共享和開發(fā)應(yīng)用。統(tǒng)一數(shù)據(jù)湖概念如圖3 所示。
(1)針對大數(shù)據(jù)海量數(shù)據(jù)規(guī)模特點(diǎn),采用邏輯統(tǒng)一、物理分散的集約數(shù)據(jù)湖架構(gòu)。
圖3 統(tǒng)一數(shù)據(jù)湖概念
對于海量網(wǎng)絡(luò)數(shù)據(jù)采用省公司前置處理方式。集團(tuán)核心節(jié)點(diǎn)與省份前置節(jié)點(diǎn)平臺邏輯統(tǒng)一,網(wǎng)絡(luò)數(shù)據(jù)前置預(yù)處理節(jié)點(diǎn)作為集團(tuán)大數(shù)據(jù)平臺有機(jī)組成部分,實(shí)行一體化部署,部署在省公司;組件一體化,平臺組件集團(tuán)統(tǒng)一版本(自主掌控)、統(tǒng)一運(yùn)營、統(tǒng)一加載到天翼云;處理一體化,網(wǎng)絡(luò)數(shù)據(jù)預(yù)處理規(guī)則集團(tuán)統(tǒng)一定義,處理程序統(tǒng)一部署;安全一體化,安全能力統(tǒng)一建設(shè);監(jiān)控一體化,前置預(yù)處理節(jié)點(diǎn)開放北向接口,全部組件集中化監(jiān)控。數(shù)據(jù)就近處理,減少無效采集,數(shù)據(jù)直接接入企業(yè)級大數(shù)據(jù)平臺,構(gòu)建“邊緣計(jì)算+分布式存儲(chǔ)”的前置預(yù)處理架構(gòu)。數(shù)據(jù)質(zhì)量全程管控,建立端到端數(shù)據(jù)質(zhì)量管控體系和全流程的端到端運(yùn)營體系。
對于存在潛在挖掘需求的數(shù)據(jù),采取原生生產(chǎn)數(shù)據(jù)導(dǎo)入方式入湖。
對于明確需求的統(tǒng)計(jì)分析型數(shù)據(jù),采取統(tǒng)一模型轉(zhuǎn)換后入湖。
(2)明確數(shù)據(jù)入湖五項(xiàng)原則,持續(xù)推進(jìn)客戶資產(chǎn)數(shù)字化、業(yè)務(wù)資產(chǎn)數(shù)字化、網(wǎng)絡(luò)資產(chǎn)數(shù)字化。
原汁原味、全量入湖:企業(yè)數(shù)據(jù)資產(chǎn)原生全量入湖,統(tǒng)一存儲(chǔ)、統(tǒng)一整合、統(tǒng)一關(guān)聯(lián)、統(tǒng)一共享,減少海量數(shù)據(jù)重復(fù)采集、重復(fù)存儲(chǔ)和帶寬消耗。
融通云網(wǎng)、統(tǒng)一交換:CT 域內(nèi)、IT 域內(nèi)以及跨域之間海量數(shù)據(jù)交換,統(tǒng)一由數(shù)據(jù)湖承載,原則上各系統(tǒng)之間交換不做網(wǎng)狀關(guān)聯(lián)(生產(chǎn)類的實(shí)時(shí)接口除外)。
完善數(shù)據(jù)標(biāo)準(zhǔn)、強(qiáng)化數(shù)據(jù)治理:統(tǒng)一制定國際領(lǐng)先的跨CT、IT 的企業(yè)級數(shù)據(jù)模型,規(guī)范各系統(tǒng)自身數(shù)據(jù)模型和數(shù)據(jù)標(biāo)準(zhǔn),建立分工清晰、運(yùn)作高效的企業(yè)全域數(shù)據(jù)治理體系。
端到端閉環(huán)運(yùn)營、提升質(zhì)量:聚焦端到端運(yùn)營流程和用戶體驗(yàn),增加數(shù)據(jù)傳輸節(jié)點(diǎn)的控制信息,實(shí)現(xiàn)入湖數(shù)據(jù)溯源,提高數(shù)據(jù)質(zhì)量保障能力。遵照數(shù)據(jù)入湖質(zhì)量標(biāo)準(zhǔn),清晰數(shù)據(jù)整合責(zé)任,保證主數(shù)據(jù)的聯(lián)動(dòng)統(tǒng)一。
(3)建立全生命周期數(shù)據(jù)目錄,完善數(shù)據(jù)治理機(jī)制。在分布式系統(tǒng)架構(gòu)基礎(chǔ)上通過目錄管理統(tǒng)一標(biāo)識各項(xiàng)數(shù)據(jù),通過編排管理統(tǒng)一調(diào)度模型轉(zhuǎn)換過程,并對各項(xiàng)數(shù)據(jù)生成和使用過程進(jìn)行跟蹤記錄,實(shí)現(xiàn)數(shù)據(jù)的溯源追蹤。
(4)在大數(shù)據(jù)平臺完善、豐富數(shù)據(jù)分析及建模工具,促進(jìn)數(shù)據(jù)共享和應(yīng)用開放,使用各類數(shù)據(jù)特點(diǎn)和數(shù)據(jù)應(yīng)用需求,集成各類數(shù)據(jù)開發(fā)、自主分析、可視化、應(yīng)用部署工具,提供一站式的數(shù)據(jù)開發(fā)和應(yīng)用服務(wù);通過應(yīng)用沉淀,建立和完善共享的指標(biāo)庫、標(biāo)簽庫、模型庫并開放共享,形成良性循環(huán)的數(shù)據(jù)應(yīng)用生態(tài)。
(5)數(shù)據(jù)湖匯聚企業(yè)全量數(shù)據(jù),對信息安全提出更高要求。在演進(jìn)過程中同步研究安全防護(hù)機(jī)制和管理制度,根據(jù)不同數(shù)據(jù)應(yīng)用的不同特點(diǎn),完善生命周期數(shù)據(jù)安全保障策略,防止數(shù)據(jù)越權(quán)訪問、私自篡改、泄露毀壞等情況發(fā)生。
(6)基于當(dāng)前應(yīng)用系統(tǒng)逐步實(shí)現(xiàn)大數(shù)據(jù)在線與離線分析注智現(xiàn)狀,對于集中、集約的基于云化、分布式處理技術(shù)架構(gòu)的應(yīng)用系統(tǒng)可以積極探索部分底層數(shù)據(jù)與集團(tuán)大數(shù)據(jù)平臺融合的系統(tǒng)架構(gòu),進(jìn)一步減少數(shù)據(jù)的重復(fù)存儲(chǔ),并充分發(fā)揮大數(shù)據(jù)平臺數(shù)據(jù)處理與跨域建模的強(qiáng)大優(yōu)勢,實(shí)現(xiàn)對應(yīng)用系統(tǒng)的高效注智。
經(jīng)過兩年多的建設(shè),到2020 年下半年,中國電信初步建成了基于數(shù)據(jù)湖,采用數(shù)據(jù)一體化存儲(chǔ)、平臺邏輯統(tǒng)一、物理分散、統(tǒng)一部署等方式有自身特色的大數(shù)據(jù)平臺,企業(yè)級大數(shù)據(jù)平臺架構(gòu)如圖4 所示。
(1)超大規(guī)模集群
目前企業(yè)級大數(shù)據(jù)平臺規(guī)模已超過萬臺,單集群最大規(guī)模超過3 000 臺,日采集數(shù)據(jù)量500 TB。
(2)平臺核心組件自主掌控、自主運(yùn)營
企業(yè)級大數(shù)據(jù)平臺自主研發(fā)三大類20多種開源組件,整體自研架構(gòu)運(yùn)行穩(wěn)定、性能卓越,完全可承載基于海量數(shù)據(jù)的大規(guī)模應(yīng)用開發(fā)。
(3)首次實(shí)現(xiàn)BSS、OSS、MSS、網(wǎng)絡(luò)、業(yè)務(wù)平臺、外部數(shù)據(jù)等全域數(shù)據(jù)統(tǒng)一匯聚和跨域關(guān)聯(lián)
企業(yè)級大數(shù)據(jù)平臺,經(jīng)過多年的不斷努力,數(shù)據(jù)覆蓋全網(wǎng)5 億多用戶,包含客戶、話單、產(chǎn)品/銷售品、網(wǎng)絡(luò)日志等數(shù)據(jù)。
圖4 企業(yè)級大數(shù)據(jù)平臺架構(gòu)
(4)獨(dú)創(chuàng)的網(wǎng)絡(luò)數(shù)據(jù)前置預(yù)處理架構(gòu)
企業(yè)級大數(shù)據(jù)平臺前置節(jié)點(diǎn)能力視圖如圖5所示。通過在全國31 省市部署近3 000 臺前置預(yù)處理節(jié)點(diǎn)和云網(wǎng)協(xié)同開通,實(shí)現(xiàn)了網(wǎng)絡(luò)數(shù)據(jù)的前置采集、清洗、關(guān)聯(lián)和處理,為將來應(yīng)對5G 數(shù)據(jù)量爆發(fā)性增長建立了靈活的架構(gòu)。前置預(yù)處理后無線網(wǎng)絡(luò)數(shù)據(jù)相比原始數(shù)據(jù)總體壓縮了44%;4G/5G 用戶信令位置時(shí)延由30 min 縮短到5 min以內(nèi)。而且在前置節(jié)點(diǎn)也形成與核心節(jié)點(diǎn)互為補(bǔ)充的對省公司的平臺開放能力:
· D-PaaS 數(shù)據(jù)賦能,前置節(jié)點(diǎn)和省大數(shù)據(jù)平臺共用詳單數(shù)據(jù)存儲(chǔ),前置共享實(shí)時(shí)位置、DPI 業(yè)務(wù)標(biāo)簽?zāi)芰Φ葦?shù)據(jù)服務(wù)能力;
· I-PaaS 存儲(chǔ)計(jì)算賦能,開放數(shù)據(jù)和資源,省公司基于前置租戶,開展本省數(shù)據(jù)處理和和數(shù)據(jù)挖掘,處理后數(shù)據(jù)共享至省大數(shù)據(jù)平臺;
· A-PaaS 能力開放,集團(tuán)承接部分北方省大數(shù)據(jù)建模需求,在前置節(jié)點(diǎn)完成數(shù)據(jù)加工處理,形成服務(wù)能力,快速支撐省公司實(shí)時(shí)營銷、位置應(yīng)用、無線大數(shù)據(jù)應(yīng)用等應(yīng)用建設(shè)。
圖5 企業(yè)級大數(shù)據(jù)平臺前置節(jié)點(diǎn)能力視圖
(5)先進(jìn)的大數(shù)據(jù)+AI 一站式開發(fā)平臺
基于全球主流運(yùn)營商最新經(jīng)驗(yàn)以及演進(jìn)思路,基于統(tǒng)一數(shù)據(jù)湖在集團(tuán)核心節(jié)點(diǎn)建設(shè)大數(shù)據(jù)+AI 一站式開發(fā)平臺,為省公司、專業(yè)公司大數(shù)據(jù)應(yīng)用賦能。企業(yè)級大數(shù)據(jù)平臺專區(qū)能力視圖如圖6 所示。
基于平臺和應(yīng)用解耦架構(gòu),深度編排數(shù)據(jù)采集、數(shù)據(jù)地圖、實(shí)時(shí)開發(fā)、離線開發(fā)等產(chǎn)品,滿足專業(yè)數(shù)據(jù)開發(fā)團(tuán)隊(duì)數(shù)據(jù)匯聚、數(shù)據(jù)加工、數(shù)據(jù)分析、數(shù)據(jù)開放等場景需求。提供Web 應(yīng)用開發(fā)的多場景全流程流水線作業(yè),真正做到數(shù)據(jù)應(yīng)用敏捷開發(fā)。
通過多租戶體系進(jìn)行開放,多租戶體系能夠充分利用計(jì)算存儲(chǔ)資源,基于Hadoop YARN 的Resource Manager,實(shí)現(xiàn)存儲(chǔ)、計(jì)算資源的復(fù)用,并確保各租戶之間的隔離性。通過對集團(tuán)企業(yè)級大數(shù)據(jù)平臺上的計(jì)算/存儲(chǔ)資源、優(yōu)質(zhì)數(shù)據(jù)、成熟工具進(jìn)行組合和封裝,向省公司和專業(yè)公司等用戶提供數(shù)據(jù)采集、離線開發(fā)、可視化挖掘建模、OpenAPI 服務(wù)封裝等共計(jì)30 個(gè)產(chǎn)品能力。
數(shù)據(jù)從匯聚到開放,資源從分散調(diào)度到統(tǒng)一調(diào)動(dòng)的演變,逐步實(shí)現(xiàn)大數(shù)據(jù)能力全網(wǎng)開放,推動(dòng)企業(yè)數(shù)字化轉(zhuǎn)型邁向深水區(qū),為企業(yè)數(shù)據(jù)生產(chǎn)與服務(wù)起到降本增效的作用。
圖6 企業(yè)級大數(shù)據(jù)平臺專區(qū)能力視圖
(6)全方位、全生命周期的數(shù)據(jù)安全防護(hù)
為解決數(shù)據(jù)湖在數(shù)據(jù)匯聚和應(yīng)用過程中的數(shù)據(jù)安全問題,通過數(shù)據(jù)分權(quán)分域管理、數(shù)據(jù)訪問授權(quán)、數(shù)據(jù)加密脫敏、敏感數(shù)據(jù)識別、安全審計(jì)實(shí)時(shí)風(fēng)險(xiǎn)告警、集群多租戶管理等大數(shù)據(jù)平臺數(shù)據(jù)安全管理能力,為數(shù)據(jù)湖各集群提供必要安全防護(hù)和安全事件溯源能力。結(jié)合AI 建模算法,進(jìn)行數(shù)據(jù)安全感知分析,對數(shù)據(jù)安全威脅預(yù)判、預(yù)處理。通過用戶安全風(fēng)險(xiǎn)綜合評分標(biāo)準(zhǔn),結(jié)合數(shù)據(jù)資產(chǎn)、人員資產(chǎn)、主機(jī)資產(chǎn)三大臺賬管理,構(gòu)建以人為核心的安全防護(hù)信息聯(lián)動(dòng)能力。大數(shù)據(jù)安全管理體系架構(gòu)如圖7 所示。
在數(shù)據(jù)湖數(shù)據(jù)采集存儲(chǔ)過程中,落實(shí)數(shù)據(jù)分類分級要求,結(jié)合公司實(shí)際情況,從用戶身份、用戶服務(wù)、服務(wù)衍生數(shù)據(jù)、企業(yè)運(yùn)營管理、網(wǎng)絡(luò)運(yùn)維5 個(gè)維度將數(shù)據(jù)分為五大類43 子類;依據(jù)數(shù)據(jù)敏感程度不同,將數(shù)據(jù)分為敏感級、較敏感級、低敏感級、不敏感級4 個(gè);推動(dòng)全網(wǎng)建立數(shù)據(jù)分類分級管理制度,對不同類別、不同級別的數(shù)據(jù),做好數(shù)據(jù)標(biāo)識,實(shí)施差異化管控要求;加強(qiáng)重要數(shù)據(jù)和敏感數(shù)據(jù)管控,對生產(chǎn)環(huán)境內(nèi)的庫、表、字段進(jìn)行分級打標(biāo),其中所有用戶個(gè)人信息定為最高等級;對數(shù)據(jù)進(jìn)行稽核校驗(yàn),保障結(jié)果的完整性、一致性和準(zhǔn)確性;開啟數(shù)據(jù)采集日志審計(jì),實(shí)現(xiàn)對數(shù)據(jù)采集過程全流程操作可追溯。
(7)抗疫期間發(fā)揮巨大作用
新冠肺炎疫情期間,依托集約PB 級別的數(shù)據(jù)資產(chǎn)和數(shù)據(jù)湖架構(gòu),基于海量數(shù)據(jù)計(jì)算能力,迅速開發(fā)“翼知疫行”,實(shí)現(xiàn)億級用戶行為模式與行為特征的批量處理與實(shí)時(shí)關(guān)聯(lián),并針對疫情的發(fā)展提供數(shù)據(jù)處理、分析與能力輸出能力。其中包含了區(qū)域風(fēng)險(xiǎn)查詢、疫情預(yù)測查詢、返城報(bào)告查詢、行程查詢、接觸查詢等功能,實(shí)現(xiàn)風(fēng)險(xiǎn)人員洞察、疫情防控便民服務(wù)、人員流動(dòng)情況統(tǒng)計(jì)等能力;并以API 形式,提供給工業(yè)和信息化部通信行程碼、電信短信營業(yè)廳、電信網(wǎng)上營業(yè)廳、海關(guān)等,為打贏全國的疫情防控阻擊戰(zhàn)提供有效支撐。
圖7 大數(shù)據(jù)安全管理體系架構(gòu)
數(shù)據(jù)湖成熟度大致可以分為4 個(gè)階段。第一為初級階段。企業(yè)未實(shí)施數(shù)據(jù)湖,生產(chǎn)系統(tǒng)擁有獨(dú)立的數(shù)據(jù)庫,部分?jǐn)?shù)據(jù)導(dǎo)入數(shù)據(jù)倉庫,提供給分析人員開展報(bào)表和分析工作。第二為數(shù)據(jù)湖引入階段。企業(yè)建設(shè)了數(shù)據(jù)湖,并將生產(chǎn)系統(tǒng)數(shù)據(jù)導(dǎo)入數(shù)據(jù)湖,經(jīng)過清洗和轉(zhuǎn)換后提供給數(shù)據(jù)倉庫,同時(shí)支撐其他獨(dú)立建設(shè)的分析應(yīng)用,分析結(jié)果也可以閉環(huán)反饋到生產(chǎn)系統(tǒng)。第三為數(shù)據(jù)湖成長期。數(shù)據(jù)湖成為企業(yè)數(shù)據(jù)長期存儲(chǔ)的缺省設(shè)施,各生產(chǎn)系統(tǒng)通過數(shù)據(jù)湖交換數(shù)據(jù),各分析應(yīng)用基于數(shù)據(jù)湖構(gòu)建,數(shù)據(jù)治理尤其是數(shù)據(jù)目錄管理成為企業(yè)內(nèi)數(shù)據(jù)管理的基本手段。第四為數(shù)據(jù)湖成熟期。各生產(chǎn)系統(tǒng)也基于數(shù)據(jù)湖構(gòu)建,數(shù)據(jù)湖成為企業(yè)數(shù)據(jù)存儲(chǔ)的單一平臺,既支持操作型應(yīng)用,也支撐分析型應(yīng)用,并構(gòu)建了完善的數(shù)據(jù)治理和安全體系[4]。目前大部分企業(yè)均處于數(shù)據(jù)湖的第一、第二階段,中國電信統(tǒng)一數(shù)據(jù)湖處在第三階段向第四階段演進(jìn)的過程中。完成核心節(jié)點(diǎn)+前置/邊緣節(jié)點(diǎn)的分布式數(shù)據(jù)湖布局,實(shí)現(xiàn)CT、IT 全網(wǎng)數(shù)據(jù)匯聚以及跨域之間海量數(shù)據(jù)交換共享,打造了大數(shù)據(jù)+AI 一站式開發(fā)平臺,算力、算據(jù)、算法全網(wǎng)賦能和數(shù)字化生態(tài)開發(fā)正在如火如荼地進(jìn)行。
中國電信統(tǒng)一數(shù)據(jù)湖已經(jīng)在“新基建”上做了有益的探索和實(shí)踐,為31 省市大數(shù)據(jù)平臺/數(shù)據(jù)倉庫/ODS 建立了包括IaaS、PaaS、DaaS 能力的扎實(shí)“底座”,為集團(tuán)“云改數(shù)轉(zhuǎn)”進(jìn)一步夯實(shí)了大數(shù)據(jù)原子能力平臺基礎(chǔ),為開展全國大數(shù)據(jù)云平臺1+N建設(shè)、各省大數(shù)據(jù)平臺高質(zhì)量遷轉(zhuǎn)奠定了基礎(chǔ)。下一步,將繼續(xù)按照“云網(wǎng)融合、數(shù)據(jù)驅(qū)動(dòng)、集成創(chuàng)新、合作共贏”的思路,積極推進(jìn)1+N、推進(jìn)上云用數(shù)賦智,真正實(shí)現(xiàn)從大數(shù)據(jù)平臺向數(shù)據(jù)中臺的升級,助力企業(yè)數(shù)字化轉(zhuǎn)型和社會(huì)數(shù)字化轉(zhuǎn)型。