• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于數(shù)據(jù)倉庫的海綿城市工程數(shù)據(jù)集成技術研究

      2021-06-24 12:53:54白向榮趙江鋒薛華鋒賈新會
      山西建筑 2021年13期
      關鍵詞:小寨數(shù)據(jù)倉庫數(shù)據(jù)源

      白向榮 趙江鋒 薛華鋒 劉 華 蘇 鋒 賈新會

      (1.中電建路橋集團有限公司,北京 100048; 2.中國水利水電第三工程局有限公司華中公司,陜西 西安 710024;3.中國電建集團西北勘測設計研究院有限公司,陜西 西安 710065)

      1 概述

      近年來城市化進程不斷加快,各種城市化問題也隨之而來,為應對和解決城市水問題,海綿城市這一理念被提出[1]。西安市每逢中到大雨均會出現(xiàn)不同程度的內(nèi)澇問題,特別是2016年7月24日,西安城區(qū)遭遇超50年一遇極端暴雨,造成小寨十字及周邊多個街區(qū)發(fā)生內(nèi)澇,小寨海綿城市建設迫在眉睫[2]。為深入剖析海綿城市建設運行管理需求,需充分利用現(xiàn)代信息技術,將海綿城市工程各類異構(gòu)數(shù)據(jù)進行有效集成,打造海綿城市工程數(shù)據(jù)集成平臺,為小寨海綿城市智慧管控平臺[3]提供強大的數(shù)據(jù)支撐。

      近年來,多個行業(yè)已開展了數(shù)據(jù)倉庫的建設工作。比如,東營市水利局將區(qū)域水利資料數(shù)字化,組建數(shù)據(jù)倉庫,進而構(gòu)建東營水利數(shù)據(jù)中心[4];黨懷義[5]分析了試飛大數(shù)據(jù)的特征,介紹了飛行試驗數(shù)據(jù)倉庫的設計與應用;電力調(diào)度綜合數(shù)據(jù)倉庫的建設,為電力調(diào)度帶來了極大的便利[6];煙草數(shù)字倉庫提高了貨物周轉(zhuǎn)效率,節(jié)約了供貨成本,為企業(yè)管理庫存提供了便利[7];張維國[8]分析了數(shù)據(jù)倉庫在高校教務系統(tǒng)中的應用。海綿城市工程建設也同樣離不開數(shù)據(jù)集成技術,本文對海綿城市工程數(shù)據(jù)集成需求、集成設計方案、集成平臺應用展開研究,以期為小寨海綿城市建設提供一定的理論指導。

      2 數(shù)據(jù)集成需求分析

      2.1 數(shù)據(jù)源分析

      海綿城市涉及海量的多源異構(gòu)數(shù)據(jù),支撐著海綿城市的建設和運營,以小寨海綿城市為例,通過對數(shù)據(jù)源進行分析整理,按數(shù)據(jù)源類型可將數(shù)據(jù)劃分為GIS地理信息數(shù)據(jù)、在線實測數(shù)據(jù)、人工填報數(shù)據(jù)和其他數(shù)據(jù),每一類別涵蓋了多種數(shù)據(jù)類型,具體的數(shù)據(jù)類型如表1所示。

      表1 數(shù)據(jù)源類別劃分

      2.2 主題庫建設

      本文針對小寨海綿城市工程數(shù)據(jù)源的分析,并結(jié)合實際建設目標,將小寨海綿城市數(shù)據(jù)倉庫劃分為地理信息主題庫、運行管理主題庫、在線監(jiān)測主題庫和建設文檔主題庫。其中,地理信息主題庫主要包括基礎地形數(shù)據(jù)和雨水系統(tǒng)布局數(shù)據(jù)信息,運行管理主題庫主要包括運行管理信息和建設考核統(tǒng)計信息,在線監(jiān)測主題庫主要包括儀器監(jiān)測信息和儀器狀態(tài)信息,建設文檔主題庫主要包括海綿城市建設相關的文檔信息與規(guī)章文檔信息。按照數(shù)據(jù)類型,將小寨海綿城市多源數(shù)據(jù)集成到相應的主題庫內(nèi),為小寨海綿城市建設與運行提供數(shù)據(jù)支撐。

      3 數(shù)據(jù)集成設計方案

      數(shù)據(jù)倉庫是傳輸系統(tǒng)的云倉庫,倉庫中的數(shù)據(jù)來源主要有區(qū)域基礎地形數(shù)據(jù)、城區(qū)內(nèi)澇數(shù)據(jù)、河道水質(zhì)數(shù)據(jù)、設備狀況數(shù)據(jù)、文檔數(shù)據(jù)等不同的源數(shù)據(jù),這些數(shù)據(jù)傳輸集成到數(shù)據(jù)倉庫中,經(jīng)過數(shù)據(jù)的清洗及預處理后,通過海綿城市工程數(shù)據(jù)集成平臺為小寨海綿城市建設提供數(shù)據(jù)服務。

      3.1 架構(gòu)設計

      為實現(xiàn)海綿城市異構(gòu)數(shù)據(jù)的有效集成,基于平臺需求及數(shù)據(jù)庫需求,建立基于數(shù)據(jù)倉庫的海綿城市工程數(shù)據(jù)集成平臺技術架構(gòu),如圖1所示。

      1)數(shù)據(jù)源層。就海綿城市而言,數(shù)據(jù)倉庫的主要數(shù)據(jù)源為行政區(qū)劃數(shù)據(jù)、管網(wǎng)數(shù)據(jù)、項目管理數(shù)據(jù)、統(tǒng)計填報數(shù)據(jù)、在線實測數(shù)據(jù)、模型數(shù)據(jù)、文檔數(shù)據(jù)等,包含有結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù),數(shù)據(jù)源層數(shù)據(jù)具有格式各異、標準不一、結(jié)構(gòu)復雜等特點,需要對數(shù)據(jù)進行預處理和加工轉(zhuǎn)換后,以某種形式統(tǒng)一存儲、集成。

      2)數(shù)據(jù)采集層。針對海綿城市數(shù)據(jù)結(jié)構(gòu)復雜、數(shù)據(jù)繁多的特點,采用ETL工具進行海綿城市各系統(tǒng)業(yè)務數(shù)據(jù)庫數(shù)據(jù)的采集,并對重復數(shù)據(jù)、異常數(shù)據(jù)、臟數(shù)據(jù)等不符合要求的數(shù)據(jù)進行清洗轉(zhuǎn)換,最終將處理完畢的數(shù)據(jù)存儲至數(shù)據(jù)存儲層。

      3)數(shù)據(jù)存儲層。海綿城市在建設、監(jiān)測、運行管理中所產(chǎn)生的源數(shù)據(jù),進行數(shù)據(jù)的抽取和轉(zhuǎn)化后,以某種特定形式集成到小寨海綿城市數(shù)據(jù)倉庫中。倉庫內(nèi)并不僅存儲原始數(shù)據(jù),而是對數(shù)據(jù)進行預處理后,存儲為細節(jié)數(shù)據(jù),方便數(shù)據(jù)后期的挖掘和分析。數(shù)據(jù)通過獲取層傳輸?shù)酱鎯雍?,依?jù)數(shù)據(jù)分類分別錄入到地理信息主題庫、在線監(jiān)測主題庫、運行管理主題庫以及建設文檔主題庫。

      4)數(shù)據(jù)展現(xiàn)層。數(shù)據(jù)展現(xiàn)層支持對數(shù)據(jù)倉庫中的聚合數(shù)據(jù)、細節(jié)數(shù)據(jù)等開放數(shù)據(jù)進行搜索、查閱及導出,根據(jù)管理人員的需求,可進行多類別搜索、多格式導出,方便管理人員以更為靈活的方式獲取數(shù)據(jù)。海綿城市產(chǎn)生的海量數(shù)據(jù),經(jīng)過數(shù)據(jù)倉庫的有效集成后,基于Hadoop大數(shù)據(jù)分析平臺,進行數(shù)據(jù)分析和數(shù)據(jù)挖掘,從而為管理者提供決策支持。

      5)元數(shù)據(jù)管理。元數(shù)據(jù)是數(shù)據(jù)的“數(shù)據(jù)”,因此又稱解釋性數(shù)據(jù)[9]。通過管理元數(shù)據(jù),可進行數(shù)據(jù)倉庫中模型定義記錄、數(shù)據(jù)狀態(tài)監(jiān)控以及數(shù)據(jù)抽取、轉(zhuǎn)化、導出的任務狀態(tài)。

      3.2 ETL設計

      1)數(shù)據(jù)抽取。由于海綿城市實際數(shù)據(jù)源的數(shù)量是不確定的,因此通過對海綿城市數(shù)據(jù)源進行實際調(diào)研,這些數(shù)據(jù)源可能是在不同的硬件平臺上,使用不同的操作系統(tǒng),因為數(shù)據(jù)可能以不同格式存儲在不同數(shù)據(jù)庫中,如何從不同數(shù)據(jù)源中提取數(shù)據(jù)到數(shù)據(jù)倉庫中,是構(gòu)建數(shù)據(jù)倉庫的關鍵問題。本文根據(jù)不同數(shù)據(jù)源的特點,采取不同的抽取策略。一種是針對數(shù)據(jù)量較大,無法預知數(shù)據(jù)量級時,采用增量抽取策略,例如,一些在線監(jiān)測數(shù)據(jù),由于監(jiān)測設備每天都會產(chǎn)生大量的監(jiān)測數(shù)據(jù),全部抽取是不可能的,因此采取增量抽取策略,只抽取當天的實時數(shù)據(jù)進行查看;另一種是針對一些特殊場景數(shù)據(jù),例如在抽取海綿城市建設中與區(qū)域地理位置相關的數(shù)據(jù)時,本身其數(shù)據(jù)量是確定的,同時數(shù)據(jù)量也不是很大,可以采用全量抽取策略。

      2)數(shù)據(jù)轉(zhuǎn)換和清洗。由于海綿城市涉及海量的多源異構(gòu)數(shù)據(jù),數(shù)據(jù)源多而雜,數(shù)據(jù)格式和存儲形式多而繁雜,針對這一問題,在進行數(shù)據(jù)抽取后,需要對抽取的數(shù)據(jù)進行統(tǒng)一的格式轉(zhuǎn)換,通常采用以下幾種方法:字段的映射與運算、字段的拆分與合并、日期運算和聚合運算等。在對數(shù)據(jù)轉(zhuǎn)換后,將系統(tǒng)中出現(xiàn)的相同、不完整、定義模糊的數(shù)據(jù)進行篩選,可以通過首先抽取一小部分數(shù)據(jù)檢測所抽取的數(shù)據(jù)是否符合要求,若不符合要求則將其剔除,然后對目標數(shù)據(jù)進行相應的處理和糾正。

      3)數(shù)據(jù)加載。數(shù)據(jù)加載是構(gòu)建數(shù)據(jù)倉庫的重要一步,加載的方法主要分為全量加載和增量加載,其中全量加載是將全表刪除后再進行重新數(shù)據(jù)加載,增量加載是只更新變化的數(shù)據(jù)源和受影響的數(shù)據(jù)源。兩種方法視情況而定,在前期數(shù)據(jù)量較小或者每次抽取有1/4源數(shù)據(jù)需要更新的情況下,采用全量加載,其余情況采用增量加載。

      3.3 應用算法

      由于海綿城市工程數(shù)據(jù)量、數(shù)據(jù)類型繁多,本研究采用聚類分析K-means算法進行數(shù)據(jù)挖掘。K-means算法的原理是在n個數(shù)據(jù)對象中,依據(jù)條件選擇k個對象,作為初始聚類中心,然后依據(jù)聚類中心對象,計算每個對象到均值之間的距離值,完成后再以最小距離為依據(jù)重新劃分,重復上述過程,直到準則函數(shù)收斂[10]。平方誤差的準則定義公式為:

      (1)

      其中,x為簇內(nèi)樣本;u為簇的中心;E值越小,說明簇內(nèi)樣本距離越小,相似度越高。

      本研究首先指定K個點作為初始聚類中心,計算每個點離中心的距離,將其歸到與其最近的簇,形成k個簇;然后再計算每個簇的均值,再將其歸到與之最近的簇,如此往復,直至不再發(fā)生變化或達到最大迭代次數(shù)為止[11]。

      4 海綿城市工程數(shù)據(jù)集成平臺應用

      4.1 固有數(shù)據(jù)集成可視化

      海綿城市工程存在大量異構(gòu)數(shù)據(jù),包括地理信息數(shù)據(jù)、工程建設數(shù)據(jù)、模型數(shù)據(jù)、原有設備數(shù)據(jù)等,將這些數(shù)據(jù)錄入集成平臺,實現(xiàn)數(shù)據(jù)的調(diào)用、查看、分析及可視化管理。

      4.2 監(jiān)控數(shù)據(jù)集成可視化

      基于物聯(lián)網(wǎng)、大數(shù)據(jù)、云計算等技術,實現(xiàn)遠程數(shù)據(jù)及雨情數(shù)據(jù)的同步監(jiān)控,涵蓋設施,設備,儀表,雨量、流量、液位、水質(zhì)等多項指標的監(jiān)測數(shù)據(jù)接入集成平臺,實現(xiàn)層、分類、分區(qū)的智能監(jiān)測并可進行人工采樣復核的監(jiān)測管理方案,可對各項數(shù)據(jù)進行查詢,分析及可視化管理。

      4.3 運行管理數(shù)據(jù)集成可視化

      海綿城市工程在建設過程以及運維過程中將產(chǎn)生大量異構(gòu)數(shù)據(jù),將這些數(shù)據(jù)進行處理加工后接入集成平臺,實現(xiàn)運行管理過程的實時記錄,并可對建設文檔、設備檔案、運維任務、運維報表、運維考核等數(shù)據(jù)進行查詢、分析及可視化管理。

      4.4 數(shù)據(jù)管理

      數(shù)據(jù)管理是海綿城市工程數(shù)據(jù)集成平臺的核心模塊,通過該模塊可進行多類型多格式數(shù)據(jù)的批量輸入與輸出,支持數(shù)據(jù)生成數(shù)據(jù)表、趨勢線、分布圖等多種展示形式,方便管理者更清晰直觀的進行決策。同時提供數(shù)據(jù)統(tǒng)計分析功能,幫助管理者快速、準確的分析工作的重難點問題。

      5 結(jié)語

      針對海綿城市工程中大量種類繁多的數(shù)據(jù),對數(shù)據(jù)集成需求進行分析,提出基于數(shù)據(jù)倉庫的海綿城市工程數(shù)據(jù)集成方案,將小寨海綿城市中的數(shù)據(jù)進行統(tǒng)一集成,并通過海綿城市工程數(shù)據(jù)集成平臺實現(xiàn)數(shù)據(jù)可視化,為小寨海綿城市智慧管控系統(tǒng)提供有力的數(shù)據(jù)支撐。

      猜你喜歡
      小寨數(shù)據(jù)倉庫數(shù)據(jù)源
      那些年的小寨
      基于數(shù)據(jù)倉庫的住房城鄉(xiāng)建設信息系統(tǒng)整合研究
      Web 大數(shù)據(jù)系統(tǒng)數(shù)據(jù)源選擇*
      直立式曲線規(guī)
      基于不同網(wǎng)絡數(shù)據(jù)源的期刊評價研究
      分布式存儲系統(tǒng)在液晶面板制造數(shù)據(jù)倉庫中的設計
      電子制作(2016年15期)2017-01-15 13:39:15
      探析電力系統(tǒng)調(diào)度中數(shù)據(jù)倉庫技術的應用
      基于數(shù)據(jù)倉庫的數(shù)據(jù)分析探索與實踐
      基于真值發(fā)現(xiàn)的沖突數(shù)據(jù)源質(zhì)量評價算法
      探訪“全國第一乞丐村”
      八宿县| 巢湖市| 枞阳县| 北票市| 泰州市| 怀化市| 新龙县| 旬阳县| 卓尼县| 万荣县| 五家渠市| 灵川县| 新竹县| 江达县| 平和县| 伊春市| 涿鹿县| 县级市| 永宁县| 石林| 建湖县| 三门县| 岚皋县| 山阳县| 松滋市| 桓台县| 蛟河市| 醴陵市| 丹寨县| 商河县| 沂源县| 板桥市| 祁门县| 宜阳县| 海淀区| 汉阴县| 南陵县| 莱西市| 浦城县| 西华县| 临沭县|