張小暉 郝潔
摘要:隨著移動互聯(lián)網(wǎng)時代的來臨,河北聯(lián)通大數(shù)據(jù)平臺的數(shù)據(jù)規(guī)模也呈現(xiàn)爆炸式增長,傳統(tǒng)的數(shù)據(jù)管理方式早已無法適應(yīng)現(xiàn)代化的數(shù)據(jù)需求。本文聚焦和分析了當(dāng)前河北聯(lián)通大數(shù)據(jù)平臺存在的問題,構(gòu)建了一套以元數(shù)據(jù)驅(qū)動、數(shù)據(jù)質(zhì)量、數(shù)據(jù)安全、數(shù)據(jù)資產(chǎn)等領(lǐng)域統(tǒng)一、完善的大數(shù)據(jù)治理體系,實現(xiàn)了數(shù)據(jù)管理標(biāo)準(zhǔn)化、規(guī)范化,生產(chǎn)流程標(biāo)準(zhǔn)化和數(shù)據(jù)管控可視化。
關(guān)鍵詞:數(shù)據(jù)治理;大數(shù)據(jù);元數(shù)據(jù);ETL
中圖分類號:TP311 文獻標(biāo)識碼:A 文章編號:1007-9416(2020)02-0027-01
1 方案的主要目標(biāo)
在移動互聯(lián)網(wǎng)高速普及,大數(shù)據(jù)體系快速發(fā)展的背景下,數(shù)據(jù)資源極速增長。海量級數(shù)據(jù)的積累對通訊運營商提出了巨大的挑戰(zhàn),如何利用大數(shù)據(jù)深挖數(shù)據(jù)價值,如何支撐企業(yè)精細化運營,如何釋放數(shù)據(jù)紅利,已經(jīng)成為運營商的當(dāng)務(wù)之急。在這其中,保障數(shù)據(jù)質(zhì)量是前提。而傳統(tǒng)的數(shù)據(jù)質(zhì)量管理方式存在很多問題:對于企業(yè)數(shù)據(jù)資源“看不清,管理難”;無法對數(shù)據(jù)流轉(zhuǎn)全過程進行管控;數(shù)據(jù)運維自動化、智能化程度低等等。
本著以數(shù)據(jù)質(zhì)量保障、過程可視化、界面化流程監(jiān)控為建設(shè)的宗旨,通過對數(shù)據(jù)質(zhì)量管理現(xiàn)狀的調(diào)研與問題需求分析,制定合理的技術(shù)方案,主要實現(xiàn)以下目標(biāo):
(1)構(gòu)建企業(yè)全景數(shù)據(jù)視圖,實現(xiàn)數(shù)據(jù)資源“看得清,易管理”。 對企業(yè)數(shù)據(jù)資源進行統(tǒng)一梳理和管控,通過元數(shù)據(jù)自動采集工具實現(xiàn)對數(shù)據(jù)資源的動態(tài)更新和維護,形成企業(yè)數(shù)據(jù)資源全景視圖,使得數(shù)據(jù)資源“看得清,易管理”?;谠獢?shù)據(jù)血緣關(guān)系,掌握指標(biāo)數(shù)據(jù)生成的來龍去脈,實現(xiàn)對數(shù)據(jù)資源的深入洞察與分析,提高對企業(yè)數(shù)據(jù)運營的支撐能力。
(2)通過界面化監(jiān)控視圖,實現(xiàn)數(shù)據(jù)流轉(zhuǎn)過程可視化。構(gòu)建數(shù)據(jù)流轉(zhuǎn)全過程可視化的監(jiān)控體系,以圖形化、流程化的展現(xiàn)形式,直觀展示數(shù)據(jù)加工處理整體過程各環(huán)節(jié)的情況,支持從流程的任意節(jié)點入手,鉆取獲得任務(wù)的執(zhí)行情況,使維護人員直觀把握系統(tǒng)運行環(huán)境、數(shù)據(jù)加工處理狀況,降低頻繁操作后臺對資源的消耗,實現(xiàn)支撐工作更準(zhǔn)時、更穩(wěn)定、更高效。
(3)通過自動化、智能化手段,提高數(shù)據(jù)運維效率。一是規(guī)范接口信息、流程調(diào)度、稽核規(guī)則、校驗規(guī)則等內(nèi)容的配置標(biāo)準(zhǔn),在前臺實現(xiàn)靈活配置,減輕維護人員后臺編寫代碼的工作量。二是配置流程時,僅需配置節(jié)點任務(wù)的前置條件,通過定時掃描、自動執(zhí)行的方式實現(xiàn)整個工作流的自動化組織,簡化配置操作,優(yōu)化資源利用,提高運維工作效率。三是根據(jù)數(shù)據(jù)血緣分析圖,快速定位異常數(shù)據(jù)節(jié)點位置和具體原因,提高數(shù)據(jù)支撐能力。
2 方案的具體實踐
為解決目前數(shù)據(jù)質(zhì)量管理工作中存在的問題,需要構(gòu)建一套規(guī)范標(biāo)準(zhǔn)、全流程、可視化的大數(shù)據(jù)治理體系。建設(shè)思路是借鑒資產(chǎn)管理的理論,把數(shù)據(jù)看作資產(chǎn)進行標(biāo)準(zhǔn)化的約束,并以元數(shù)據(jù)驅(qū)動,標(biāo)準(zhǔn)化數(shù)據(jù)質(zhì)量管理、數(shù)據(jù)安全管理、數(shù)據(jù)資產(chǎn)管理等領(lǐng)域,形成統(tǒng)一、完善的大數(shù)據(jù)治理體系,實現(xiàn)數(shù)據(jù)管理規(guī)范化,生產(chǎn)流程標(biāo)準(zhǔn)化和數(shù)據(jù)管控可視化,不斷提升大數(shù)據(jù)平臺數(shù)據(jù)質(zhì)量,達到調(diào)用便利、范圍完整、質(zhì)量可靠的要求,增強對業(yè)務(wù)發(fā)展、經(jīng)營決策的支撐能力。
本系統(tǒng)對數(shù)據(jù)從采集、存儲、加工處理到應(yīng)用展現(xiàn)全流程進行端到端的數(shù)據(jù)管控,主要功能模塊包括:元數(shù)據(jù)管理、ETL調(diào)度管理、數(shù)據(jù)質(zhì)量管理、運營監(jiān)控和工單處理等。各功能模塊相互獨立,且相互關(guān)聯(lián),在數(shù)據(jù)流轉(zhuǎn)各個環(huán)節(jié)所管理的對象及流程。
元數(shù)據(jù)是關(guān)于數(shù)據(jù)的描述,存儲關(guān)于數(shù)據(jù)的信息。元數(shù)據(jù)管理對數(shù)據(jù)資源進行識別、描述和追蹤,它是數(shù)據(jù)質(zhì)量、流程監(jiān)控的基礎(chǔ),涉及數(shù)據(jù)治理體系的各個領(lǐng)域和環(huán)節(jié),貫穿從數(shù)據(jù)采集、逐層加工與稽核、數(shù)據(jù)集市到最終應(yīng)用與服務(wù)的整個流程。通過元數(shù)據(jù)管理,明晰了數(shù)據(jù)間的轉(zhuǎn)換關(guān)系,實現(xiàn)360°全方位無死角的數(shù)據(jù)資源管理和端到端的異構(gòu)數(shù)據(jù)流全面管控。元數(shù)據(jù)屬性模板確定之后,采用自動化的元數(shù)據(jù)采集方式,通過設(shè)置掃描規(guī)則。通過既定規(guī)范,對系統(tǒng)中的指標(biāo)進行來源分解,生成血緣關(guān)系,形成企業(yè)全景數(shù)據(jù)視圖。
ETL(Extract-Transform-Load),用來描述將數(shù)據(jù)從源端經(jīng)過抽取、轉(zhuǎn)換、加載至目的端的過程,是構(gòu)建數(shù)據(jù)倉庫的重要環(huán)節(jié)。圖1為ETL調(diào)度管理流程示意圖。
本方案采用全新的任務(wù)流組織方式,配置流程時僅需配置節(jié)點任務(wù)的前置條件,任務(wù)流的實際運作關(guān)系,是在流程運行期間通過對每個節(jié)點任務(wù)的前置條件進行定時掃描,動態(tài)自行組織起來的。創(chuàng)建流程后,通過資源管理,將數(shù)據(jù)庫與相應(yīng)的流程建立關(guān)聯(lián),支持異構(gòu)數(shù)據(jù)數(shù)據(jù)集成。通過流程監(jiān)控實現(xiàn)對ETL過程節(jié)點級的數(shù)據(jù)監(jiān)控查看流程狀態(tài)。支持從流程的任意節(jié)點入手,鉆取獲得子節(jié)點的流程配置及執(zhí)行情況。
數(shù)據(jù)質(zhì)量管理模塊實現(xiàn)端到端的數(shù)據(jù)全生命周期的自動化質(zhì)量監(jiān)控與質(zhì)量稽核,保障數(shù)據(jù)的完整性、準(zhǔn)確性、一致性、及時性等,提高數(shù)據(jù)質(zhì)量?;谠獢?shù)據(jù)對象(如數(shù)據(jù)表、視圖),實現(xiàn)可視化的稽核規(guī)則稽核配置。
運營監(jiān)控模塊實現(xiàn)數(shù)據(jù)加工處理全過程端到端的透明化監(jiān)控,并以圖形化、界面化的形式展示,確保及時發(fā)現(xiàn)數(shù)據(jù)異常,并回顯到數(shù)據(jù)質(zhì)量管理模塊進行跟蹤處理。運營監(jiān)控模塊的主要功能如:數(shù)據(jù)的采集與監(jiān)控、數(shù)據(jù)的稽核與監(jiān)控、數(shù)據(jù)的加工與監(jiān)控、指標(biāo)監(jiān)控。
3 結(jié)語
本方案采用全新的任務(wù)流組織方式,配置流程時僅需配置節(jié)點任務(wù)的前置條件,任務(wù)流的實際運作關(guān)系,是在流程運行期間通過對每個節(jié)點任務(wù)的前置條件進行定時掃描,動態(tài)自行組織起來的。新的任務(wù)流配置方式以智能化、自動化的方式實現(xiàn)任務(wù)流的組織,簡化了流程配置操作,優(yōu)化了資源利用,提高了運維工作效率,具有一定實際的推廣價值。
Research and Application of? Intelligent and Visual big Data Governance System
ZHANG Xiao-hui,Hao Jie
(China united network communications limited Hebei Province Information Security Department, Shijiazhuang? Hebei? 050011)
Abstract:With the advent of the Mobile Internet era, the data scale of Hebei Unicom's big data platform has also shown explosive growth, the traditional data management has long been unable to adapt to modern data needs. This paper focuses on and analyzes the problems existing in the current big data platform of Hebei Unicom, and constructs a set of unified and perfect big data governance system driven by METADATA, data quality, data security, data assets, etc. , it realizes the standardization and standardization of data management, Production Process Standardization and data management visualization.
Key words:data governance; big data; metadata; ETL