張新陽 張梅 馬文 程永新
摘要:從大數(shù)據(jù)中心的數(shù)據(jù)管理通常面臨的元數(shù)據(jù)獲取困難、業(yè)務(wù)元數(shù)據(jù)缺失、影響度變更管理缺乏、數(shù)據(jù)標準化處理缺失等問題出發(fā)分析,提出了基于電力行業(yè)的大數(shù)據(jù)時代下元數(shù)據(jù)管理方法,并對方法中涉及的關(guān)鍵技術(shù)點進行了詳細說明。通過元數(shù)據(jù)管理,可以達到解開大數(shù)據(jù)平臺“黑盒子”的目的,清晰知道數(shù)據(jù)的來龍去脈,為后續(xù)數(shù)據(jù)質(zhì)量、數(shù)據(jù)標準、數(shù)據(jù)安全等治理活動提供能力基礎(chǔ),為大數(shù)據(jù)時代下的電力企業(yè)提供一個更有效的、可控的數(shù)據(jù)管理手段及高質(zhì)量的數(shù)據(jù)環(huán)境,真正指引和支撐企業(yè)的數(shù)據(jù)化運營。
關(guān)鍵詞:大數(shù)據(jù);數(shù)據(jù)治理;數(shù)據(jù)資產(chǎn);元數(shù)據(jù)
中圖分類號:TP311? ? ? 文獻標識碼:A? ? ? 文章編號:1009-3044(2018)31-0258-03
Metadata Management Method in the Era of Big Data Based on Power Industry
ZHANG Xin-yang 1,ZHANG Mei 1,MA Wen 1, CHENG Yong-xin2
(1.China Southern Power Grid , JingKai,KunMing 650000, China; 2. New Century Network Company, Shanghai 200333,China)
Abstract: Based on the analysis of the difficulties of metadata acquisition, business metadata missing, impact change management missing and data standardization processing missing in data management of large data centers, a metadata management method based on large data era of power industry is proposed, and the key technologies involved in the method are discussed. Through metadata management, the purpose of unlocking the "black box" of large data platform can be achieved, the context of data can be clearly known, and the capability foundation for subsequent data quality, data standard, data security and other governance activities can be provided. It provides a more effective and controllable data management means and high quality data environment for power enterprises in the era of large data, and supports enterprise's data operation.
Key words: Big data; Data governance; Data assets; Metadata
2018年3月,南方電網(wǎng)公司評審?fù)ㄟ^了《中國南方電網(wǎng)有限責任公司“十三五”信息化規(guī)劃》。《規(guī)劃》提出圍繞“提升客戶體驗、加強業(yè)務(wù)數(shù)據(jù)化、數(shù)據(jù)業(yè)務(wù)化、新技術(shù)與業(yè)務(wù)深入融合、信息化保障體系”五個方面,重點開展27項重點任務(wù),堅守網(wǎng)絡(luò)安全底線,升級完善信息系統(tǒng)、深化協(xié)同應(yīng)用,強化數(shù)據(jù)資產(chǎn)管理,實現(xiàn)業(yè)務(wù)應(yīng)用移動化、運營監(jiān)控可視化、數(shù)據(jù)資產(chǎn)價值化、安全防御體系化,促進客戶體驗增強,公司運營效率提高,數(shù)據(jù)資產(chǎn)價值深度挖掘,業(yè)務(wù)需求響應(yīng)速度提升,“十三五”末初步建成“數(shù)字南網(wǎng)”。
顯然,數(shù)據(jù)已經(jīng)成為我們企業(yè)的重要資產(chǎn),如何發(fā)揮數(shù)據(jù)資產(chǎn)價值,是我們當下最重要的課題之一。隨著一系列的大規(guī)模信息化建設(shè),公司信息化水平得到明顯提升的同時,數(shù)據(jù)規(guī)模、數(shù)據(jù)量也在逐年遞增,我們企業(yè)已跨入大數(shù)據(jù)時代,近年來各電力公司紛紛構(gòu)建大數(shù)據(jù)平臺,以數(shù)據(jù)化運營業(yè)務(wù)。然而,在大數(shù)據(jù)中心進行數(shù)據(jù)管理的過程中,總會暴露出以下基本相似的問題:
1) 不同類型的大數(shù)據(jù)平臺存在差異,抓取元數(shù)據(jù)的方法不一,獲取完整的元數(shù)據(jù)信息困難。經(jīng)過商業(yè)封裝的大數(shù)據(jù)平臺還具有一定的閉源性,導(dǎo)致大數(shù)據(jù)平臺成為事實上的黑盒子。元數(shù)據(jù)對象、數(shù)據(jù)模型之間的關(guān)系、數(shù)據(jù)指標的統(tǒng)計口徑等獲取困難,可能會導(dǎo)致血緣關(guān)系斷裂,不利于血緣分析、影響分析等工作開展。
2) 通過技術(shù)手段自動化獲取的元數(shù)據(jù)只描述了技術(shù)相關(guān)信息,缺乏業(yè)務(wù)類的元數(shù)據(jù)信息,在大數(shù)據(jù)中心的數(shù)據(jù)提取或數(shù)據(jù)挖掘中起不到指引的作用。
3) 源系統(tǒng)數(shù)據(jù)模型變更,直接影響到大數(shù)據(jù)中心的數(shù)據(jù)質(zhì)量,并且通常是事后才發(fā)現(xiàn)和分析處理。為了滿足不斷變更的業(yè)務(wù)需求,源系統(tǒng)隨著應(yīng)用上線不可避免的頻繁變更數(shù)據(jù)模型版本,大數(shù)據(jù)中心需要根據(jù)具體的數(shù)據(jù)模型同步做出相應(yīng)調(diào)整,否則會影響到從源系統(tǒng)的數(shù)據(jù)采集、清洗及轉(zhuǎn)換等,直接影響到數(shù)據(jù)質(zhì)量。
從這些問題之中亦反映了一個普遍存在的現(xiàn)實:企業(yè)在傾力建設(shè)大數(shù)據(jù)中心的過程中,忽視了數(shù)據(jù)管理的重要性,通常是在后期數(shù)據(jù)使用、數(shù)據(jù)分析和應(yīng)用時才發(fā)現(xiàn)困難重重。數(shù)據(jù)管理與大數(shù)據(jù)平臺應(yīng)該并行建設(shè),元數(shù)據(jù)管理作為數(shù)據(jù)管理的基礎(chǔ),清晰地描述數(shù)據(jù)的來龍去脈,是大數(shù)據(jù)中心建設(shè)過程中不可或缺的一部分。
1 正文
本文將從對大數(shù)據(jù)時代下元數(shù)據(jù)管理的角度出發(fā),論述一種基于電力行業(yè)的大數(shù)據(jù)平臺元數(shù)據(jù)管理方法,并說明該種方法實施后帶來的效果。
由引言問題的分析和歸納,在數(shù)據(jù)管理這個范疇上,我們首先要解決的是企業(yè)自身對大數(shù)據(jù)中心的數(shù)據(jù)管理重要性的認識。尤其是元數(shù)據(jù)作為數(shù)據(jù)管理的基礎(chǔ),應(yīng)該作為大數(shù)據(jù)中心同步建設(shè)的一個必備配置。
按照傳統(tǒng)的定義,元數(shù)據(jù)是關(guān)于數(shù)據(jù)的數(shù)據(jù)。在數(shù)據(jù)倉庫系統(tǒng)中,元數(shù)據(jù)可以幫助管理員和開發(fā)人員非常方便地找到他們所關(guān)心的數(shù)據(jù),同時元數(shù)據(jù)還描述了數(shù)據(jù)與數(shù)據(jù)之間的關(guān)系,可以清晰地知道數(shù)據(jù)的來龍去脈,幫助解決數(shù)據(jù)質(zhì)量定位問題和評估數(shù)據(jù)變更的影響度,是其他諸如數(shù)據(jù)標準、數(shù)據(jù)質(zhì)量、數(shù)據(jù)安全等數(shù)據(jù)管理工作的基礎(chǔ)條件,按用途又可分為技術(shù)元數(shù)據(jù)和業(yè)務(wù)元數(shù)據(jù)兩大類。
在以Hadoop為主流的大數(shù)據(jù)平臺建設(shè)進行企業(yè)數(shù)字化管理當下,電力企業(yè)必須建立起一個基本電力行業(yè)大數(shù)據(jù)中心的元數(shù)據(jù)管理方法。
1.1 元數(shù)據(jù)管理的實施方法
大數(shù)據(jù)中心的數(shù)據(jù)來源為關(guān)系型數(shù)據(jù)庫,關(guān)系型數(shù)據(jù)庫的元數(shù)據(jù)管理已比較成熟,本文不再次討論,本文重點討論大數(shù)據(jù)平臺元數(shù)據(jù)管理方法。考慮到各種類型的大數(shù)據(jù)平臺差異,尤其經(jīng)過商業(yè)封裝的大數(shù)據(jù)平臺還具備一定的閉源性,我們將采取通用的日志方式來解決技術(shù)元數(shù)據(jù)中血緣信息的自動化獲取和整理,并通過人工完善業(yè)務(wù)元數(shù)據(jù),達到完整的元數(shù)據(jù)管理能力。
1.1.1元數(shù)據(jù)自動化獲取
1.1.1.1 基礎(chǔ)信息
一般情況下,大數(shù)據(jù)平臺使用關(guān)系型數(shù)據(jù)庫(如mysql、oracle)作為元數(shù)據(jù)庫,來存儲元數(shù)據(jù)信息。
主要信息存儲情況如下:
TBLS存儲Hive表、視圖、索引表的基本信息
TABLE_PARAMS存儲表/視圖的屬性信息
TBL_PRIVS存儲表/視圖的授權(quán)信息
可以使用JDBC/ODBC連接大數(shù)據(jù)平臺存儲庫,獲取3個元數(shù)據(jù)存儲表中的信息,根據(jù)表間關(guān)聯(lián)關(guān)系進行信息整合,獲取表、字段、視圖等技術(shù)元數(shù)據(jù)信息。
獲取技術(shù)元數(shù)據(jù)信息后,使用業(yè)務(wù)表(Business Table)元模型和業(yè)務(wù)字段(Business Column)元模型來存儲大數(shù)據(jù)平臺的表元數(shù)據(jù)和字段元數(shù)據(jù)。
業(yè)務(wù)表元模型主要信息
業(yè)務(wù)字段元模型主要信息
1.1.1.2 血緣關(guān)系信息解析
血緣關(guān)系的管理和分析是元數(shù)據(jù)管理的重要功能,為實現(xiàn)此項功能首先需要從數(shù)據(jù)處理日志文件中提取數(shù)據(jù)流向相關(guān)信息,包括處理源、目標、處理邏輯、字段映射等。
主要分析流程如下:
1) 從數(shù)據(jù)處理日志文件中提取HIVE SQL數(shù)據(jù)處理信息
2) 利用數(shù)據(jù)處理關(guān)鍵字(INSERT、SELECT、FROM、WHERE 等 )對數(shù)據(jù)處理信息進行分塊,形成邏輯子塊
3) 從邏輯子塊中提取處理過程中的源、目標、處理邏輯、字段映射等信息
最終,整合元數(shù)據(jù)基礎(chǔ)信息、數(shù)據(jù)流向信息,形成血緣關(guān)系信息鏈。
在實際生產(chǎn)環(huán)境中,大數(shù)據(jù)平臺數(shù)據(jù)處理日志文件數(shù)是比較多的,需要采用日志切分、多線程并發(fā)處理等技術(shù)手段,提高血緣關(guān)系信息的解析效率,方可滿足實際生產(chǎn)的需要。
1.1.1.3 自動化執(zhí)行
將元數(shù)據(jù)基礎(chǔ)信息提取及血緣關(guān)系信息解析封裝在任務(wù)中,通過調(diào)度平臺對其進行調(diào)度執(zhí)行,實現(xiàn)大數(shù)據(jù)平臺元數(shù)據(jù)及血緣關(guān)系信息的周期性自動抽取及解析。
1.1.2補充業(yè)務(wù)元數(shù)據(jù)
為了讓用戶能夠更方便快捷使用元數(shù)據(jù)信息,需要為每個元數(shù)據(jù)表、字段補充業(yè)務(wù)屬性,包括業(yè)務(wù)名稱、業(yè)務(wù)定義、業(yè)務(wù)描述等。
補充業(yè)務(wù)元數(shù)據(jù)時,采用EXCEL文件進行信息收集,通過對EXCEL文件解析,獲取并更新業(yè)務(wù)元數(shù)據(jù)信息。
1.2 實施元數(shù)據(jù)管理獲得的關(guān)鍵效果
1.2.1 血緣分析
血緣分析是對數(shù)據(jù)來源的分析,根據(jù)血緣關(guān)系信息,從所分析實體開始,往回遞歸分析,直到數(shù)據(jù)流的起點??烧故緮?shù)據(jù)資產(chǎn)之間的關(guān)系與來龍去脈。利用血緣分析能力,解決了企業(yè)中數(shù)據(jù)質(zhì)量的追根溯源問題,有效提高了大數(shù)據(jù)平臺的數(shù)據(jù)質(zhì)量。
1.2.2 影響分析
影響分析是對影響范圍的分析,根據(jù)血緣關(guān)系信息,從所分析實體開始,往下遞歸分析,直到數(shù)據(jù)流的終點。一般用于量化企業(yè)范圍的各種數(shù)據(jù)變化影響度、確定實體變化的影響范圍。利用影響分析能力,解決了以往數(shù)據(jù)對象變更無法準確確定影響范圍問題,確保了生產(chǎn)的穩(wěn)定運行。
1.2.3 關(guān)聯(lián)分析
關(guān)聯(lián)分析是根據(jù)血緣關(guān)系信息,進行實體重要程度的分析。一般用于分析實體變化時的影響評估。開發(fā)、運維人員通過關(guān)聯(lián)分析能夠確定數(shù)據(jù)對象的重要程度,進行針對性優(yōu)化,提升IT系統(tǒng)的運行效率。
1.2.4 全景視圖
數(shù)據(jù)資產(chǎn)全景視圖使用可視化組件、多媒體、三維動畫展示等高級可視化手段,以圖形化方式展示企業(yè)數(shù)據(jù)資產(chǎn),提供從整體上描述系統(tǒng)間、業(yè)務(wù)線、數(shù)據(jù)域(分析主題)之間的關(guān)系,是宏觀層面的元數(shù)據(jù)視圖,可快速檢索數(shù)據(jù)資產(chǎn)和直觀感知數(shù)據(jù)資產(chǎn)的分布。
2結(jié)語
隨著電力業(yè)務(wù)精細化管理的要求越來越高,信息化支撐能力不斷提升,數(shù)據(jù)治理已成為業(yè)務(wù)應(yīng)用集中建設(shè)、大數(shù)據(jù)應(yīng)用、智能分析決策應(yīng)用的重要基石。元數(shù)據(jù)管理作為數(shù)據(jù)治理所必須的基礎(chǔ)能力,可為數(shù)據(jù)質(zhì)量、數(shù)據(jù)標準、數(shù)據(jù)安全等治理活動提供基礎(chǔ)信息,也可為大數(shù)據(jù)中心對外服務(wù)(如數(shù)據(jù)共享)提供必要的基礎(chǔ)信息。在各電力企業(yè)紛紛建設(shè)大數(shù)據(jù)中心的當下,堅定建設(shè)“數(shù)字電網(wǎng)”的目標,以數(shù)據(jù)驅(qū)動業(yè)務(wù),元數(shù)據(jù)管理能力建設(shè)勢在必行,通過血緣分析保障數(shù)據(jù)質(zhì)量、影響分析避免變更影響、全景視圖實現(xiàn)數(shù)據(jù)資產(chǎn)的層層盤點,為企業(yè)提供一個更有效的、可控的數(shù)據(jù)管理手段及高質(zhì)量的數(shù)據(jù)環(huán)境,真正指引和支撐企業(yè)的數(shù)據(jù)化運營。
參考文獻:
[1] 陳彬.南網(wǎng)“十三五”信息化規(guī)劃修編報告通過專家評審[N]. 南方電網(wǎng)報,2018-03-16.
[2] 賈福清.再接再厲全面推進“三集五大”體系建設(shè)[J].國家電網(wǎng), 2013(2):50–51.
[3] 巨克真,魏珍珍.電力企業(yè)級數(shù)據(jù)治理體系的研究[J].電力信息與通信技術(shù),2014(1).
[4] 鄭悅.數(shù)據(jù)資產(chǎn)管理的關(guān)鍵點[J].IT經(jīng)理世界,2015(1).
[5] 宿曉丹,劉太敏,毛軍. 數(shù)據(jù)資產(chǎn)管理體系研究及服務(wù)平臺架構(gòu)設(shè)計探討[J].信息與電腦(理論版) 2018(15):157-159.
[6] 高偉.數(shù)據(jù)資產(chǎn)管理[M].北京:機械工業(yè)出版社,2016.
[7] 甘似禹,車品覺,楊天順,等.大數(shù)據(jù)治理體系[J].計算機應(yīng)用與軟件,2018,35(6):1-8+69.