文:葉鸝君丨重慶市鐵路(集團(tuán))有限公司系統(tǒng)設(shè)備部項(xiàng)目主管
元數(shù)據(jù)作為數(shù)據(jù)治理中的基石以及信息化發(fā)展中的必要條件,已經(jīng)廣泛的應(yīng)用在各個(gè)領(lǐng)域的信息化建設(shè)與數(shù)據(jù)治理發(fā)展中。中國城市軌道交通發(fā)展中的信息化建設(shè)與海量軌道交通的數(shù)據(jù)治理也已經(jīng)被提上了日程,將元數(shù)據(jù)概念引入軌道交通行業(yè)是智慧城軌發(fā)展的必經(jīng)之路。本文對(duì)于城軌現(xiàn)狀與問題進(jìn)行了簡(jiǎn)要概述,并將元數(shù)據(jù)的概念以及元數(shù)據(jù)對(duì)于城軌行業(yè)的綜合應(yīng)用進(jìn)行了簡(jiǎn)要闡述。
2020年3月12日,中國城市軌道交通協(xié)會(huì)發(fā)布了《中國城市軌道交通智慧城軌發(fā)展綱要》,綱要中的總體布局中明確提出以面向中國城市軌道交通行業(yè),以強(qiáng)國建設(shè)為戰(zhàn)略導(dǎo)向,以推進(jìn)城軌信息化、發(fā)展智能系統(tǒng)、建設(shè)智慧城軌為主題,以城軌交通的關(guān)鍵核心業(yè)務(wù)為主線,以數(shù)字化、智能化、網(wǎng)絡(luò)化為手段,構(gòu)建高度集成的城軌云與大數(shù)據(jù)平臺(tái),建立系統(tǒng)完備的技術(shù)標(biāo)準(zhǔn)體系,堅(jiān)持智能化和自主化“兩手抓”的實(shí)施策略,準(zhǔn)確把握智慧城軌的發(fā)展方向,統(tǒng)籌鋪畫智慧城軌的發(fā)展藍(lán)圖。而利用最新科技成果,推進(jìn)城軌信息化,發(fā)展智能系統(tǒng),建設(shè)智慧城軌,大力開創(chuàng)自主創(chuàng)新發(fā)展新局面,正可成為實(shí)現(xiàn)彎道超車的重要平臺(tái)。
目前,我國城軌交通企業(yè)運(yùn)營管理信息化建設(shè)主要存在以下的問題:建設(shè)數(shù)據(jù)標(biāo)準(zhǔn)不統(tǒng)一;運(yùn)營管理信息化建設(shè)不完整,可擴(kuò)展性較低;運(yùn)營管理信息化建設(shè)安全機(jī)制缺失。對(duì)于以上問題,建議采取引入元數(shù)據(jù)的概念予以解決。
元數(shù)據(jù)(Metadata),又稱中介數(shù)據(jù)、中繼數(shù)據(jù),為描述數(shù)據(jù)的數(shù)據(jù)(data about data),主要是描述數(shù)據(jù)屬性(property)的信息,用來支持如指示存儲(chǔ)位置、歷史數(shù)據(jù)、資源查找、文件記錄等功能。元數(shù)據(jù)算是一種電子式目錄,為了達(dá)到編制目錄的目的,必須在描述并收藏?cái)?shù)據(jù)的內(nèi)容或特色,進(jìn)而達(dá)成協(xié)助數(shù)據(jù)檢索的目的。元數(shù)據(jù)可以為數(shù)據(jù)說明其元素或?qū)傩裕Q、大小、數(shù)據(jù)類型等),或結(jié)構(gòu)(長(zhǎng)度、字段、數(shù)據(jù)列),或其相關(guān)數(shù)據(jù)(位于何處、如何聯(lián)系、擁有者)。
隨著軌道交通行業(yè)的發(fā)展,企業(yè)每年收集和使用的數(shù)據(jù)與日俱增,而對(duì)于不同企業(yè)的大數(shù)據(jù)環(huán)境不同,數(shù)據(jù)的形態(tài)、分類、標(biāo)準(zhǔn)等并不統(tǒng)一,所以在這些類型不同的軌道交通數(shù)據(jù)之間進(jìn)行采集、傳遞、共享就成了較大問題,首先需要對(duì)企業(yè)所有元數(shù)據(jù)進(jìn)行整體規(guī)劃、抽象描述,進(jìn)而設(shè)計(jì)出所需元模型(圖1);再對(duì)企業(yè)這些數(shù)據(jù)有一個(gè)標(biāo)準(zhǔn)的管控,即元數(shù)據(jù)管理。
圖1 元模型關(guān)系圖
元模型由元數(shù)據(jù)組成,元數(shù)據(jù)是描述數(shù)據(jù)的數(shù)據(jù),而元數(shù)據(jù)的集合被稱作為模型。元模型與元數(shù)據(jù)的關(guān)系參考圖書館中找書的例子,通過對(duì)書的元數(shù)據(jù)信息檢索定位,從而找到了想要的那本書,而圖書館中的這些元數(shù)據(jù)信息的組合即元模型。圖書館中的管理員通過對(duì)于書的元數(shù)據(jù)信息的格式化采集(圖2), 收集書的相關(guān)元數(shù)據(jù)信息(書名,作者,書的分類等),為后續(xù)的檢索做準(zhǔn)備。而有了元模型,就能根據(jù)元模型采集元數(shù)據(jù)信息。
圖2 元數(shù)據(jù)信息格式化采集示例
在元數(shù)據(jù)管理中,元數(shù)據(jù)又按照功能及用處對(duì)元數(shù)據(jù)有一個(gè)進(jìn)一步的劃分。具體分為以下幾種分類:
1.業(yè)務(wù)元數(shù)據(jù)。主要包括業(yè)務(wù)術(shù)語、信息分類、指標(biāo)定義、業(yè)務(wù)規(guī)則等;
2.技術(shù)元數(shù)據(jù)。數(shù)據(jù)結(jié)構(gòu)、數(shù)據(jù)處理細(xì)節(jié)方面的技術(shù)化描述,主要包括源系統(tǒng)接口規(guī)范、數(shù)據(jù)倉庫結(jié)構(gòu)的描述(接口信息、表信息、程序信息等)以及經(jīng)營分析數(shù)據(jù)處理過程的描述等。
3.管理元數(shù)據(jù)。主要包括人員角色、崗位職責(zé)、管理流程等信息。
4.安全元數(shù)據(jù)。主要包括訪問安全、權(quán)限控制、分級(jí)管理、隱私控制、流程約束等信息。
5.稽核元數(shù)據(jù)。主要包括數(shù)據(jù)完整性和一致性檢查、數(shù)據(jù)采集日志追蹤、稽核規(guī)則、稽核流程、預(yù)警通知規(guī)則(數(shù)據(jù)質(zhì)量)等信息。
支撐業(yè)務(wù)發(fā)展。方便業(yè)務(wù)人員能夠更快速地理解公司內(nèi)部或外部業(yè)務(wù)系統(tǒng)的業(yè)務(wù)數(shù)據(jù),包括業(yè)務(wù)流程、業(yè)務(wù)系統(tǒng)、數(shù)據(jù)分類、從屬關(guān)系等方面,從而快速精準(zhǔn)查找到對(duì)應(yīng)的業(yè)務(wù)需求,大幅提高業(yè)務(wù)人員熟悉業(yè)務(wù)的速度,更快的提高業(yè)務(wù)人員的業(yè)務(wù)開發(fā)效率。
降低數(shù)據(jù)系統(tǒng)建設(shè)成本。元數(shù)據(jù)管理是企業(yè)數(shù)據(jù)治理的基礎(chǔ),有了元數(shù)據(jù)管理平臺(tái)作為基礎(chǔ),使得系統(tǒng)的數(shù)據(jù)質(zhì)量與數(shù)據(jù)安全有了保障,從而在建設(shè)數(shù)據(jù)治理系統(tǒng)時(shí)提高效率與減少返工,使得開發(fā)成本大幅降低。
在元數(shù)據(jù)實(shí)施的不同階段,需要涉及以下工作:
1.定義范圍。分析當(dāng)前元數(shù)據(jù)管理現(xiàn)狀制定元數(shù)據(jù)管理藍(lán)圖,總體目標(biāo)包括標(biāo)準(zhǔn)化元數(shù)據(jù)及數(shù)據(jù)處理過程;集中式元數(shù)據(jù)管理;消除冗余、重復(fù)元數(shù)據(jù)信息,提高數(shù)據(jù)完整性、精確性;靈活健壯元數(shù)據(jù)管理架構(gòu);降低BI系統(tǒng)在開發(fā)、升級(jí)、維護(hù)等方面的投入。制定配套元數(shù)據(jù)管理體系,包括管理辦法、流程和技術(shù)標(biāo)準(zhǔn);建立元數(shù)據(jù)管理團(tuán)隊(duì):包括管理員、協(xié)調(diào)者、信息分析員以及DBAs等。
2.明確需求。定義元數(shù)據(jù)管理范圍,如數(shù)據(jù)模型,ETL過程,數(shù)據(jù)字典,業(yè)務(wù)術(shù)語字典,現(xiàn)有元數(shù)據(jù)環(huán)境和系統(tǒng)文檔;明確元數(shù)據(jù)需求,如所需遵循業(yè)界標(biāo)準(zhǔn)、元模型需求、元數(shù)據(jù)接口需求、元數(shù)據(jù)系統(tǒng)需求、元數(shù)據(jù)報(bào)表需求、安全需求、變更管理需求、培訓(xùn)需求等方面。
3.設(shè)計(jì)方案。設(shè)計(jì)并歸檔元數(shù)據(jù)管理解決方案的所有重要特征和功能,如元數(shù)據(jù)標(biāo)準(zhǔn)化設(shè)計(jì)、內(nèi)部接口機(jī)制設(shè)計(jì)、外部接口機(jī)制設(shè)計(jì)、協(xié)同工作機(jī)制設(shè)計(jì)、元數(shù)據(jù)同步機(jī)制設(shè)計(jì)等。
4.開發(fā)工具。依據(jù)元數(shù)據(jù)需求及設(shè)計(jì)要求開發(fā)元數(shù)據(jù)管理平臺(tái)。整體功能涵蓋包括:
(1)采集管理:采集適配器列表,元模型管理,基礎(chǔ)元模型列表,數(shù)據(jù)源管理,采集任務(wù)配置,元數(shù)據(jù)入庫審核,采集日志;
(2)變更管理:元數(shù)據(jù)變更訂閱,查詢,申請(qǐng),審批;
(3)元數(shù)據(jù)瀏覽分析:數(shù)據(jù)地圖,血緣分析,影響分析,全鏈分析,關(guān)聯(lián)度分析,屬性差異分析,元數(shù)據(jù)列表瀏覽,元數(shù)據(jù)檢索;
(4)核檢機(jī)制:環(huán)境一致性核檢,元數(shù)據(jù)導(dǎo)出,元數(shù)據(jù)版本維護(hù),元數(shù)據(jù)標(biāo)準(zhǔn)覆蓋核檢。
目前,我國城軌交通行業(yè)已有企業(yè)對(duì)元數(shù)據(jù)在軌道交通的應(yīng)用作了示范,如呼和浩特城軌云示范工程,建立自主可控的城軌云平臺(tái);在城軌云平臺(tái)構(gòu)建數(shù)據(jù)共享平臺(tái),突破數(shù)據(jù)共享的壁壘,為大數(shù)據(jù)應(yīng)用奠定基礎(chǔ);擴(kuò)大智能創(chuàng)新應(yīng)用建設(shè),推進(jìn)大數(shù)據(jù)在業(yè)務(wù)領(lǐng)域的深化應(yīng)用;建成網(wǎng)絡(luò)安全縱深防護(hù)體系;建成適應(yīng)云平臺(tái)體系架構(gòu)的運(yùn)行維護(hù)體系和運(yùn)行管理機(jī)制。此外,武漢也建立了城市軌道交通網(wǎng)絡(luò)信息化建設(shè)示范工程,該示范工程采用基于云平臺(tái)、大數(shù)據(jù)的新IT架構(gòu),構(gòu)建異地雙活的數(shù)據(jù)中心,實(shí)施新建線路和既有線的信息系統(tǒng)全部納入和遷移到云平臺(tái)的技術(shù)方案,實(shí)現(xiàn)云平臺(tái)對(duì)城軌業(yè)務(wù)的綜合承載和數(shù)據(jù)共享,為智慧城軌建設(shè)提供信息技術(shù)支撐。其元數(shù)據(jù)的綜合應(yīng)用如下:
通過元數(shù)據(jù)可以對(duì)企業(yè)數(shù)據(jù)進(jìn)行完整的梳理、采集和整合,從而形成企業(yè)完整的數(shù)據(jù)資產(chǎn)地圖。數(shù)據(jù)資產(chǎn)地圖支持以拓?fù)鋱D的形式進(jìn)行可視化展示各類元數(shù)據(jù)和數(shù)據(jù)處理過程,通過不同層次的圖形展現(xiàn)粒度控制,滿足業(yè)務(wù)上不同應(yīng)用場(chǎng)景的數(shù)據(jù)查詢和輔助分析需要。
企業(yè)級(jí)的業(yè)務(wù)主題元數(shù)據(jù)地圖和數(shù)據(jù)系統(tǒng)的數(shù)據(jù)地圖用于宏觀層面,組織信息,力求以用戶視角對(duì)企業(yè)信息進(jìn)行歸并、整理,展現(xiàn)企業(yè)的宏觀信息,還可以下鉆展示詳細(xì)的元數(shù)據(jù)詳情,便于數(shù)據(jù)分析人員有效挖掘企業(yè)信息的潛在價(jià)值。
元數(shù)據(jù)地圖作為引導(dǎo)入口,通過元數(shù)據(jù)檢索、元數(shù)據(jù)目錄和元數(shù)據(jù)收藏多種方式去輔助數(shù)據(jù)分析人員檢索,最終檢索的結(jié)果都是通過關(guān)系圖譜的方式進(jìn)行展示,可在圖譜上靈活擴(kuò)展關(guān)系節(jié)點(diǎn)。通過業(yè)務(wù)元數(shù)據(jù)構(gòu)建的數(shù)據(jù)目錄,方便用戶準(zhǔn)確定位具體系統(tǒng),并查看具體元數(shù)據(jù)業(yè)務(wù)關(guān)聯(lián)關(guān)系和血緣關(guān)系,使得數(shù)據(jù)治理出來的結(jié)果初步得到資產(chǎn)化使用,降低“找數(shù)據(jù)”的溝通成本,來加速數(shù)據(jù)的資產(chǎn)化,提高數(shù)據(jù)治理結(jié)果易用性,為數(shù)據(jù)的使用和大數(shù)據(jù)挖掘提供支撐。
圖3 全鏈分析的數(shù)據(jù)鏈路展示
針對(duì)于尋找數(shù)據(jù)從哪里來,其價(jià)值在于當(dāng)發(fā)現(xiàn)數(shù)據(jù)問題時(shí)可以通過數(shù)據(jù)的血緣關(guān)系,追根溯源,快速地定位到問題數(shù)據(jù)的來源和加工過程,減少數(shù)據(jù)問題排查分析的時(shí)間和難度。這個(gè)功能常用于數(shù)據(jù)分析發(fā)現(xiàn)數(shù)據(jù)問題時(shí),快速定位和找到數(shù)據(jù)問題的原因。
針對(duì)于數(shù)據(jù)去向哪里,其價(jià)值在于當(dāng)發(fā)現(xiàn)數(shù)據(jù)問題時(shí)可以通過數(shù)據(jù)的關(guān)聯(lián)關(guān)系,向下追蹤,快速找到都哪些應(yīng)用或數(shù)據(jù)庫使用了這個(gè)數(shù)據(jù),從而避免或降低數(shù)據(jù)問題帶來的更大的影響。這個(gè)功能常用于數(shù)據(jù)源的元數(shù)據(jù)變更對(duì)下游ETL、ODS、DW等應(yīng)用應(yīng)用的影響分析。我們通過對(duì)于腳本的解析以及各平臺(tái)對(duì)于數(shù)據(jù)鏈路流轉(zhuǎn)關(guān)系的記載分析獲取到對(duì)于血緣元數(shù)據(jù)的關(guān)系,從而依據(jù)于血緣元數(shù)據(jù)的當(dāng)前結(jié)點(diǎn),子節(jié)點(diǎn)的關(guān)系來構(gòu)建血緣分析圖譜。
針對(duì)于數(shù)據(jù)的全鏈路關(guān)系查看,從數(shù)據(jù)的產(chǎn)生,到最終流轉(zhuǎn)的地方,數(shù)據(jù)的全鏈路分析??梢院暧^的查看數(shù)據(jù)的整體流轉(zhuǎn)情況,幫助業(yè)務(wù)分析人員快速查看數(shù)據(jù)鏈路整體架構(gòu)。具體的業(yè)務(wù)流程數(shù)據(jù)鏈路如圖3所示:
分析數(shù)據(jù)和其他數(shù)據(jù)的關(guān)系以及它們的關(guān)系是怎樣建立的關(guān)聯(lián)度分析是從某一實(shí)體關(guān)聯(lián)的其它實(shí)體和其參與的處理過程兩個(gè)角度來查看具體數(shù)據(jù)的使用情況,形成一張實(shí)體和所參與處理過程的網(wǎng)絡(luò),從而進(jìn)一步了解該實(shí)體的重要程度。
如果我們對(duì)一個(gè)超大城市軌道交通的客流與行車業(yè)務(wù)分析為例,元數(shù)據(jù)管理平臺(tái)通過對(duì)于客流表元數(shù)據(jù)數(shù)據(jù)與行車表原始數(shù)據(jù)的元數(shù)據(jù)信息的采集,獲取到了客流與行車業(yè)務(wù)的相關(guān)表信息與業(yè)務(wù)邏輯。基于這些元數(shù)據(jù),我們按照數(shù)據(jù)倉庫的設(shè)計(jì)理念分成了4層:
ODS(原始數(shù)據(jù)層):主要采集的是客流表原始數(shù)據(jù)與列車表原始數(shù)據(jù),包括帶時(shí)間和OD信息的乘客信息,列車實(shí)際運(yùn)行圖等信息。這些數(shù)據(jù)結(jié)構(gòu)和數(shù)據(jù),不對(duì)外開放;存放在接口數(shù)據(jù)的臨時(shí)存儲(chǔ)區(qū)域,為后一步的數(shù)據(jù)處理做準(zhǔn)備。
DW(數(shù)據(jù)明細(xì)層):主要用于生成客流明細(xì)表數(shù)據(jù)與行車明細(xì)表數(shù)據(jù),是業(yè)務(wù)層與數(shù)據(jù)倉庫的隔離層,此層的數(shù)據(jù)是對(duì)源系統(tǒng)數(shù)據(jù)進(jìn)行了清洗、轉(zhuǎn)換等操作后的數(shù)據(jù)。同時(shí),為了提高數(shù)據(jù)明細(xì)層的易用性,該層數(shù)據(jù)還會(huì)采用一些處理方式,減少事實(shí)表和維表的關(guān)聯(lián),做部分?jǐn)?shù)據(jù)聚合,提高數(shù)據(jù)的可用性。
OTM(數(shù)據(jù)對(duì)象層):主要用于生成對(duì)象的數(shù)據(jù),例如車站對(duì)象、線路對(duì)象、站臺(tái)對(duì)象、換乘通道對(duì)象、斷面對(duì)象、列車對(duì)象、站外對(duì)象等,用于提供后續(xù)的業(yè)務(wù)查詢,OLAP分析,數(shù)據(jù)分發(fā)等。一般來講,該層的數(shù)據(jù)表會(huì)相對(duì)比較少,一張表會(huì)涵蓋比較多的業(yè)務(wù)內(nèi)容。
ADS(數(shù)據(jù)應(yīng)用層):主要用于生成各個(gè)指標(biāo)數(shù)據(jù),如車站進(jìn)站量、車站出站量、進(jìn)出站不平衡、符合最高的車站top、單站晚高峰客流、各線路晚高峰客流分布、斷面客流量等,這些指標(biāo)主要用于后續(xù)的上層決策支撐與優(yōu)化開發(fā)分析等。是同業(yè)務(wù)強(qiáng)相關(guān)的定制化報(bào)表層。
具體業(yè)務(wù)分層情況如圖4所示:
圖4 客流與行車業(yè)務(wù)數(shù)倉分層圖
目前,城市軌道交通已成為大中型城市的動(dòng)脈、城市發(fā)展的引領(lǐng)、城市公共交通的主導(dǎo)。隨著行業(yè)的迅猛發(fā)展,以及運(yùn)營線路數(shù)量的快速增加,其運(yùn)營的經(jīng)濟(jì)壓力也在不斷增大,智能化及可持續(xù)發(fā)展已成為城市軌道交通發(fā)展的必然趨勢(shì)。本文從城市軌道交通智能化及信息化出發(fā),對(duì)其未來發(fā)展進(jìn)行了展望。城市軌道交通企業(yè)應(yīng)對(duì)行業(yè)所處的宏觀環(huán)境分析和謀劃,進(jìn)而建立起具有自身特點(diǎn)的智慧城軌的優(yōu)勢(shì),通過元數(shù)據(jù)引入與數(shù)據(jù)治理,為實(shí)現(xiàn)我國城市軌道交通的智能化及信息化貢獻(xiàn)力量。