• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于Data Vault的交通行業(yè)數(shù)據(jù)倉庫設(shè)計

      2021-05-20 12:05:58陳成偉
      西部交通科技 2021年4期
      關(guān)鍵詞:數(shù)據(jù)倉庫數(shù)據(jù)模型范式

      韋 揚,陳成偉

      (1.廣西交通運輸信息管理中心,廣西 南寧 530029;2.廣西交通設(shè)計集團(tuán)有限公司,廣西 南寧 530029)

      0 引言

      當(dāng)前社會已經(jīng)從信息技術(shù)時代發(fā)展進(jìn)入數(shù)據(jù)技術(shù)時代。數(shù)據(jù),已經(jīng)滲透到每一個行業(yè)和業(yè)務(wù)職能領(lǐng)域,成為重要的生產(chǎn)因素。雖然交通運輸行業(yè)信息化建設(shè)起步較早,已相繼建成很多業(yè)務(wù)系統(tǒng),但缺乏較好的頂層設(shè)計,各個系統(tǒng)各自為戰(zhàn),導(dǎo)致出現(xiàn)重復(fù)投資、信息孤島等問題。為解決交通運輸行業(yè)信息化的痛點、難點,同時順應(yīng)數(shù)據(jù)時代的發(fā)展要求,本文以廣西交通運輸廳現(xiàn)行業(yè)務(wù)系統(tǒng)的歷史數(shù)據(jù)和實時數(shù)據(jù)為基礎(chǔ),首先介紹數(shù)據(jù)倉庫模型設(shè)計常見方法及問題,進(jìn)而提出使用Data Vault建模方法,嘗試構(gòu)建以可追溯、易擴(kuò)展為特點的交通運輸行業(yè)數(shù)據(jù)倉庫。

      1 數(shù)據(jù)模型設(shè)計

      數(shù)據(jù)模型是數(shù)據(jù)的組織和存儲方式,它是整個數(shù)據(jù)倉庫設(shè)計的核心。一方面,數(shù)據(jù)模型是ETL的目標(biāo)結(jié)構(gòu),ETL的設(shè)計是基于數(shù)據(jù)模型而開展的;另一方面,數(shù)據(jù)模型是數(shù)據(jù)分析的基石,決定了報表邏輯以及機(jī)器學(xué)習(xí)等數(shù)據(jù)挖掘工具的數(shù)據(jù)輸入格式。數(shù)據(jù)倉庫建模方法主要有范式建模(關(guān)系模型)和維度建模(多維模型)。

      范式建模源于Inmon提出的集線器式自上而下的數(shù)據(jù)倉庫架構(gòu)。關(guān)系模型通過使用關(guān)鍵字和外鍵在不同行的數(shù)據(jù)間建立關(guān)聯(lián),關(guān)系型數(shù)據(jù)以使數(shù)據(jù)分解成非常低粒度的標(biāo)準(zhǔn)化的形式存在,以標(biāo)準(zhǔn)化程度的不同可以分為:第一范式(1NF)、第二范式(2NF)、第三范式(3NF)等。

      維度建模源于Kimball博士提出的總線式自下而上的數(shù)據(jù)倉庫架構(gòu),多維模型也稱星型連接。多維模型以包含大量數(shù)據(jù)值的事實表為中心,其周圍圍繞的維表用并不多的數(shù)據(jù)來描述事實表的某個重要方面。

      兩種建模方式的特點歸納如表1所示。

      表1 兩種建模方式特點歸納表

      交通行業(yè)信息系統(tǒng)數(shù)據(jù)具有多源異構(gòu)、業(yè)務(wù)變動頻繁、數(shù)據(jù)量大等特點,因此,交通行業(yè)數(shù)據(jù)倉庫的建設(shè)要求可擴(kuò)展性高、處理數(shù)據(jù)量大的建模方法,同時也需要兼顧開發(fā)人員行業(yè)經(jīng)驗、開發(fā)維護(hù)成本等因素。本文嘗試采用一種新的建模方法Data Vault進(jìn)行數(shù)據(jù)倉庫建模。

      2 使用Data Vault進(jìn)行數(shù)據(jù)倉庫模型設(shè)計

      2.1 Data Vault及其特點

      Data Vault是Dan Linstedt發(fā)明的一種數(shù)據(jù)模型,它強(qiáng)調(diào)數(shù)據(jù)的歷史性、可追溯性、原子性,不需要對數(shù)據(jù)進(jìn)行過度一致性處理和整合。同時它基于主題概念將數(shù)據(jù)進(jìn)行結(jié)構(gòu)化組織,并引入了更進(jìn)一步的范式處理來優(yōu)化模型,以應(yīng)對源系統(tǒng)變更的擴(kuò)展性。Data Vault主要由Hub、Link和Satellite三個部分組成。相較于范式建模和維度建模,Data Vault的優(yōu)越性明顯:

      (1)可擴(kuò)展性高。實體分為實體的key值、實體的屬性值、實體的關(guān)系三種存在形式,三者分開存儲,降低了耦合度,提高了靈活性與可擴(kuò)展性。

      (2)符合大數(shù)據(jù)特征。Data Vault是基于客觀事實進(jìn)行的數(shù)據(jù)增量抽取,不做邏輯校驗,因此可以大規(guī)模抽取和處理數(shù)據(jù)。

      (3)建模簡單。模型中只有Hub、Link、Satellite表。只要區(qū)分這些表,剩下的重點就只有設(shè)計和調(diào)度ETL,這在很大程度上簡化了建模過程。

      (4)開發(fā)敏捷。使用Data Vault建模,2~3周即可完成一次迭代,發(fā)布周期短,可以更便捷地應(yīng)對業(yè)務(wù)需求。

      2.2 Data Vault實體設(shè)計

      Hub表示業(yè)務(wù)核心實體,由實體主鍵、倉庫代理鍵、裝載時間、數(shù)據(jù)來源等構(gòu)成。BK為原系統(tǒng)的業(yè)務(wù)主鍵;SK為代理鍵,它由業(yè)務(wù)主鍵與來源節(jié)點LOG_SRC_NODE按規(guī)則生成,用來唯一標(biāo)識一個實體。Hub的代理鍵會向外延伸到與其相關(guān)的Satellite和Link中。

      Link標(biāo)識Hub之間的關(guān)系,它是提升模型擴(kuò)展性的關(guān)鍵,不需要任何變更就可以直接表示1∶1、1∶n、n∶m的關(guān)系。

      Satellite描述Hub或者Link的相關(guān)屬性和上下文內(nèi)容。代理鍵SK由Hub中延伸到Satellite的業(yè)務(wù)主鍵(在Satellite中為FK)和記錄變化時間LOG_CHG_TIME共同計算得出,由此可以記錄歷史信息。如圖1所示為在模型設(shè)計中常用的字段及其釋意。

      圖1 實體示例圖

      3 在數(shù)據(jù)倉庫建設(shè)過程中的應(yīng)用

      3.1 業(yè)務(wù)模型

      根據(jù)交通運輸部印發(fā)的《交通運輸政務(wù)信息資源目錄編制指南(試行)》(以下簡稱編制指南),將信息資源劃分為行業(yè)、業(yè)務(wù)、管理對象、主題、信息類別五大分類。本文參考編制指南從宏觀視角對業(yè)務(wù)架構(gòu)進(jìn)行抽象,提出了“交通運輸行業(yè)全域模型”,如圖2所示。全域模型考慮到數(shù)據(jù)倉庫、數(shù)據(jù)集市的建設(shè)需求以及不同維度的特征,選取對象、行業(yè)、職能事務(wù)三個維度進(jìn)行業(yè)務(wù)建模。由于任何事物都無法脫離時間與空間,且在交通運輸領(lǐng)域這種聯(lián)系尤為突出,因此,本文在對象域中添加了時間、空間兩個維度。此外,職能事務(wù)域作為對目錄編制指南中業(yè)務(wù)分類的整理,考慮到交通領(lǐng)域大數(shù)據(jù)未來的發(fā)展,除業(yè)務(wù)本身外,補(bǔ)充了企業(yè)業(yè)務(wù)和公眾業(yè)務(wù)兩個維度。由于業(yè)務(wù)建模實際上是在選取的維度上進(jìn)行有限枚舉的劃分,因此反映到實際數(shù)據(jù)模型設(shè)計上時主要體現(xiàn)為對實體對象的命名劃分,如“H_船舶_運輸裝備_水路交通_運行管理”,下劃線區(qū)隔的后三部分“運輸裝備_水路交通_運行管理”分別從對象域、行業(yè)域和職能事務(wù)域三個維度對“船舶”這個Hub實體進(jìn)行描述。

      圖2 交通運輸行業(yè)全域模型圖

      3.2 總體架構(gòu)

      一個完整的數(shù)據(jù)倉庫系統(tǒng)的定義為:數(shù)據(jù)倉庫系統(tǒng)(DWS)=抽取/轉(zhuǎn)換/加載(ETL)+數(shù)據(jù)倉庫(DW)+聯(lián)機(jī)分析處理(OLAP)+數(shù)據(jù)挖掘(DM)+決策支持(DS)。結(jié)合業(yè)務(wù)系統(tǒng)和數(shù)據(jù)來源情況,數(shù)據(jù)倉庫整體架構(gòu)設(shè)計如圖3所示。

      圖3 總體架構(gòu)圖

      整個系統(tǒng)架構(gòu)分為數(shù)據(jù)源、數(shù)據(jù)平臺和應(yīng)用三個主要部分。數(shù)據(jù)平臺負(fù)責(zé)數(shù)據(jù)的ETL、存儲和處理,經(jīng)過匯總形成數(shù)據(jù)集市。本文關(guān)注的重點為數(shù)據(jù)倉庫部分,此部分采用Data Vault建模方法進(jìn)行模型設(shè)計。通過對業(yè)務(wù)數(shù)據(jù)的解讀和分析,抽象出實體、關(guān)系及上下文等對象,然后按照對象的業(yè)務(wù)屬性從業(yè)務(wù)模型的三個維度進(jìn)行劃分并按照規(guī)則完成命名,最后設(shè)置相關(guān)屬性和主外鍵關(guān)系。當(dāng)設(shè)計完成后,從宏觀上看整個模型是由Hub、Link、Satellite組成的星型網(wǎng)狀結(jié)構(gòu),如圖4所示。

      3.3 新數(shù)據(jù)的融合

      Hub、Link和Satellite是刻劃實體和實體關(guān)系的基本要素,需要與實際業(yè)務(wù)相結(jié)合才能完成建模。使用Data Vault建模簡單靈活,可擴(kuò)展性高。本文以一張新表(新實體)融入已有模型設(shè)計的過程為線索和切入點,對建模過程進(jìn)行簡要描述。假設(shè)當(dāng)前已經(jīng)存在航道實體即航道Hub,當(dāng)處理新引入的“瓶頸區(qū)段基本信息”表時,得到以下顯示:

      圖4 星型網(wǎng)狀結(jié)構(gòu)圖

      (1)分析其內(nèi)部各個字段識別實體。注意到其屬性“瓶頸區(qū)域編號”為主鍵可以標(biāo)識一個實體,所以抽象為“瓶頸區(qū)域Hub”,而“航道編號”和“航道代碼”可以標(biāo)識與其關(guān)聯(lián)的航道實體,其他字段描述了瓶頸區(qū)域的相關(guān)屬性。

      (2)表屬性“航道編號”和“航道代碼”表明航道與瓶頸區(qū)段存在has-a關(guān)系,因此可將這種關(guān)系抽象為一個Link。

      (3)表中其他屬性則是描述瓶頸區(qū)段Hub這個實體的上下文信息,需要將其抽象出來作為瓶頸區(qū)段Hub的Satellite(可以根據(jù)屬性的使用頻度、重要性、來源等劃分為多個Satellite)。由此可得如圖5所示的實體關(guān)系。

      圖5 實體關(guān)系示例圖

      通過以上方式持續(xù)加入新的實體,發(fā)掘?qū)嶓w與實體的關(guān)系,可以逐步構(gòu)建出一張涵蓋所有交通運輸行業(yè)業(yè)務(wù)實體及其關(guān)系的網(wǎng)。限于篇幅,本文不能完全展示建模的詳細(xì)過程,但通過此片段不難看出使用Data Vault來進(jìn)行建模具有可行性和很強(qiáng)的可操作性。

      3.4 面向業(yè)務(wù)的后續(xù)數(shù)據(jù)處理

      傳統(tǒng)的數(shù)據(jù)倉庫建設(shè)中,數(shù)據(jù)入倉時要做數(shù)據(jù)預(yù)處理,去除掉不合理的數(shù)據(jù)。而Data Vault模型基于客觀事實進(jìn)行數(shù)據(jù)增量抽取,不做邏輯校驗,僅僅是反映了上游系統(tǒng)數(shù)據(jù)的真實性。而數(shù)據(jù)的處理工作相對靠后,在從數(shù)據(jù)倉庫到集市的ETL過程中完成數(shù)據(jù)的清洗工作,或以新增中間緩沖層的處理方式解決。

      Data Vault模型的這些特點在聯(lián)網(wǎng)收費系統(tǒng)和票務(wù)系統(tǒng)中表現(xiàn)較為明顯,系統(tǒng)數(shù)據(jù)日增量在千萬級別,數(shù)據(jù)ETL工作量大、耗費資源。通過將數(shù)據(jù)從源系統(tǒng)直接抽取進(jìn)入Data Vault模型,然后基于模型內(nèi)的數(shù)據(jù),經(jīng)過清洗和轉(zhuǎn)換可以快速地建立出車輛主數(shù)據(jù)等主題應(yīng)用。由此可見,基于Data Vault 模型不但可以快速大規(guī)模地抽取和處理數(shù)據(jù),更符合大數(shù)據(jù)特征,同時可以快速生成面向業(yè)務(wù)分析需求的數(shù)據(jù)模型。

      4 結(jié)語

      本文介紹了基于Data Vault的數(shù)據(jù)倉庫總體架構(gòu)和數(shù)據(jù)模型設(shè)計方法,為交通運輸行業(yè)大數(shù)據(jù)中心和數(shù)據(jù)倉庫建設(shè)提供了一種新的思路。目前已經(jīng)接入結(jié)構(gòu)化數(shù)據(jù)113.66億條記錄、2 100張表、29 591個字段?;谶@些數(shù)據(jù)現(xiàn)有兩個主要應(yīng)用:(1)整理出“人員”“公路路線”“行政機(jī)構(gòu)”“企業(yè)”“船舶”“車輛”等主數(shù)據(jù);(2)梳理出交通行業(yè)政務(wù)資源目錄。但目前引入的數(shù)據(jù)范圍和數(shù)據(jù)量仍較有限,數(shù)據(jù)模型設(shè)計的完備性、穩(wěn)定性、擴(kuò)展性還需要引入大量新數(shù)據(jù)源和更豐富的數(shù)據(jù)應(yīng)用來考驗和優(yōu)化。在此基礎(chǔ)上,如何有效管理數(shù)據(jù)倉庫元數(shù)據(jù)以更好的輔助數(shù)據(jù)的挖掘、分析和利用;如何通過質(zhì)量審計來提高數(shù)據(jù)倉庫中的數(shù)據(jù)質(zhì)量;如何利用大數(shù)據(jù)平臺高效存儲、管理非結(jié)構(gòu)化數(shù)據(jù)(如圖片、視頻等)也將成為研究的重點方向。

      猜你喜歡
      數(shù)據(jù)倉庫數(shù)據(jù)模型范式
      以寫促讀:構(gòu)建群文閱讀教學(xué)范式
      甘肅教育(2021年10期)2021-11-02 06:14:08
      范式空白:《莫失莫忘》的否定之維
      孫惠芬鄉(xiāng)土寫作批評的六個范式
      基于數(shù)據(jù)倉庫的住房城鄉(xiāng)建設(shè)信息系統(tǒng)整合研究
      面板數(shù)據(jù)模型截面相關(guān)檢驗方法綜述
      管窺西方“詩辯”發(fā)展史的四次范式轉(zhuǎn)換
      加熱爐爐內(nèi)跟蹤數(shù)據(jù)模型優(yōu)化
      電子測試(2017年12期)2017-12-18 06:35:36
      分布式存儲系統(tǒng)在液晶面板制造數(shù)據(jù)倉庫中的設(shè)計
      電子制作(2016年15期)2017-01-15 13:39:15
      探析電力系統(tǒng)調(diào)度中數(shù)據(jù)倉庫技術(shù)的應(yīng)用
      基于數(shù)據(jù)倉庫的數(shù)據(jù)分析探索與實踐
      濉溪县| 康保县| 沾益县| 辉县市| 梁平县| 卓尼县| 阜新| 沙河市| 呼玛县| 卓资县| 图片| 磐石市| 邵武市| 靖安县| 无为县| 垣曲县| 米林县| 舞钢市| 攀枝花市| 武强县| 叶城县| 海南省| 滁州市| 荔浦县| 资兴市| 威海市| 靖西县| 宁陕县| 简阳市| 瑞昌市| 定州市| 克东县| 凯里市| 辽宁省| 汶上县| 青龙| 张家川| 汉阴县| 毕节市| 揭东县| 兴仁县|