白向榮 趙江鋒 薛華鋒 劉 華 蘇 鋒 賈新會
(1.中電建路橋集團有限公司,北京 100048; 2.中國水利水電第三工程局有限公司華中公司,陜西 西安 710024;3.中國電建集團西北勘測設計研究院有限公司,陜西 西安 710065)
近年來城市化進程不斷加快,各種城市化問題也隨之而來,為應對和解決城市水問題,海綿城市這一理念被提出[1]。西安市每逢中到大雨均會出現(xiàn)不同程度的內(nèi)澇問題,特別是2016年7月24日,西安城區(qū)遭遇超50年一遇極端暴雨,造成小寨十字及周邊多個街區(qū)發(fā)生內(nèi)澇,小寨海綿城市建設迫在眉睫[2]。為深入剖析海綿城市建設運行管理需求,需充分利用現(xiàn)代信息技術,將海綿城市工程各類異構(gòu)數(shù)據(jù)進行有效集成,打造海綿城市工程數(shù)據(jù)集成平臺,為小寨海綿城市智慧管控平臺[3]提供強大的數(shù)據(jù)支撐。
近年來,多個行業(yè)已開展了數(shù)據(jù)倉庫的建設工作。比如,東營市水利局將區(qū)域水利資料數(shù)字化,組建數(shù)據(jù)倉庫,進而構(gòu)建東營水利數(shù)據(jù)中心[4];黨懷義[5]分析了試飛大數(shù)據(jù)的特征,介紹了飛行試驗數(shù)據(jù)倉庫的設計與應用;電力調(diào)度綜合數(shù)據(jù)倉庫的建設,為電力調(diào)度帶來了極大的便利[6];煙草數(shù)字倉庫提高了貨物周轉(zhuǎn)效率,節(jié)約了供貨成本,為企業(yè)管理庫存提供了便利[7];張維國[8]分析了數(shù)據(jù)倉庫在高校教務系統(tǒng)中的應用。海綿城市工程建設也同樣離不開數(shù)據(jù)集成技術,本文對海綿城市工程數(shù)據(jù)集成需求、集成設計方案、集成平臺應用展開研究,以期為小寨海綿城市建設提供一定的理論指導。
海綿城市涉及海量的多源異構(gòu)數(shù)據(jù),支撐著海綿城市的建設和運營,以小寨海綿城市為例,通過對數(shù)據(jù)源進行分析整理,按數(shù)據(jù)源類型可將數(shù)據(jù)劃分為GIS地理信息數(shù)據(jù)、在線實測數(shù)據(jù)、人工填報數(shù)據(jù)和其他數(shù)據(jù),每一類別涵蓋了多種數(shù)據(jù)類型,具體的數(shù)據(jù)類型如表1所示。
表1 數(shù)據(jù)源類別劃分
本文針對小寨海綿城市工程數(shù)據(jù)源的分析,并結(jié)合實際建設目標,將小寨海綿城市數(shù)據(jù)倉庫劃分為地理信息主題庫、運行管理主題庫、在線監(jiān)測主題庫和建設文檔主題庫。其中,地理信息主題庫主要包括基礎地形數(shù)據(jù)和雨水系統(tǒng)布局數(shù)據(jù)信息,運行管理主題庫主要包括運行管理信息和建設考核統(tǒng)計信息,在線監(jiān)測主題庫主要包括儀器監(jiān)測信息和儀器狀態(tài)信息,建設文檔主題庫主要包括海綿城市建設相關的文檔信息與規(guī)章文檔信息。按照數(shù)據(jù)類型,將小寨海綿城市多源數(shù)據(jù)集成到相應的主題庫內(nèi),為小寨海綿城市建設與運行提供數(shù)據(jù)支撐。
數(shù)據(jù)倉庫是傳輸系統(tǒng)的云倉庫,倉庫中的數(shù)據(jù)來源主要有區(qū)域基礎地形數(shù)據(jù)、城區(qū)內(nèi)澇數(shù)據(jù)、河道水質(zhì)數(shù)據(jù)、設備狀況數(shù)據(jù)、文檔數(shù)據(jù)等不同的源數(shù)據(jù),這些數(shù)據(jù)傳輸集成到數(shù)據(jù)倉庫中,經(jīng)過數(shù)據(jù)的清洗及預處理后,通過海綿城市工程數(shù)據(jù)集成平臺為小寨海綿城市建設提供數(shù)據(jù)服務。
為實現(xiàn)海綿城市異構(gòu)數(shù)據(jù)的有效集成,基于平臺需求及數(shù)據(jù)庫需求,建立基于數(shù)據(jù)倉庫的海綿城市工程數(shù)據(jù)集成平臺技術架構(gòu),如圖1所示。
1)數(shù)據(jù)源層。就海綿城市而言,數(shù)據(jù)倉庫的主要數(shù)據(jù)源為行政區(qū)劃數(shù)據(jù)、管網(wǎng)數(shù)據(jù)、項目管理數(shù)據(jù)、統(tǒng)計填報數(shù)據(jù)、在線實測數(shù)據(jù)、模型數(shù)據(jù)、文檔數(shù)據(jù)等,包含有結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù),數(shù)據(jù)源層數(shù)據(jù)具有格式各異、標準不一、結(jié)構(gòu)復雜等特點,需要對數(shù)據(jù)進行預處理和加工轉(zhuǎn)換后,以某種形式統(tǒng)一存儲、集成。
2)數(shù)據(jù)采集層。針對海綿城市數(shù)據(jù)結(jié)構(gòu)復雜、數(shù)據(jù)繁多的特點,采用ETL工具進行海綿城市各系統(tǒng)業(yè)務數(shù)據(jù)庫數(shù)據(jù)的采集,并對重復數(shù)據(jù)、異常數(shù)據(jù)、臟數(shù)據(jù)等不符合要求的數(shù)據(jù)進行清洗轉(zhuǎn)換,最終將處理完畢的數(shù)據(jù)存儲至數(shù)據(jù)存儲層。
3)數(shù)據(jù)存儲層。海綿城市在建設、監(jiān)測、運行管理中所產(chǎn)生的源數(shù)據(jù),進行數(shù)據(jù)的抽取和轉(zhuǎn)化后,以某種特定形式集成到小寨海綿城市數(shù)據(jù)倉庫中。倉庫內(nèi)并不僅存儲原始數(shù)據(jù),而是對數(shù)據(jù)進行預處理后,存儲為細節(jié)數(shù)據(jù),方便數(shù)據(jù)后期的挖掘和分析。數(shù)據(jù)通過獲取層傳輸?shù)酱鎯雍?,依?jù)數(shù)據(jù)分類分別錄入到地理信息主題庫、在線監(jiān)測主題庫、運行管理主題庫以及建設文檔主題庫。
4)數(shù)據(jù)展現(xiàn)層。數(shù)據(jù)展現(xiàn)層支持對數(shù)據(jù)倉庫中的聚合數(shù)據(jù)、細節(jié)數(shù)據(jù)等開放數(shù)據(jù)進行搜索、查閱及導出,根據(jù)管理人員的需求,可進行多類別搜索、多格式導出,方便管理人員以更為靈活的方式獲取數(shù)據(jù)。海綿城市產(chǎn)生的海量數(shù)據(jù),經(jīng)過數(shù)據(jù)倉庫的有效集成后,基于Hadoop大數(shù)據(jù)分析平臺,進行數(shù)據(jù)分析和數(shù)據(jù)挖掘,從而為管理者提供決策支持。
5)元數(shù)據(jù)管理。元數(shù)據(jù)是數(shù)據(jù)的“數(shù)據(jù)”,因此又稱解釋性數(shù)據(jù)[9]。通過管理元數(shù)據(jù),可進行數(shù)據(jù)倉庫中模型定義記錄、數(shù)據(jù)狀態(tài)監(jiān)控以及數(shù)據(jù)抽取、轉(zhuǎn)化、導出的任務狀態(tài)。
1)數(shù)據(jù)抽取。由于海綿城市實際數(shù)據(jù)源的數(shù)量是不確定的,因此通過對海綿城市數(shù)據(jù)源進行實際調(diào)研,這些數(shù)據(jù)源可能是在不同的硬件平臺上,使用不同的操作系統(tǒng),因為數(shù)據(jù)可能以不同格式存儲在不同數(shù)據(jù)庫中,如何從不同數(shù)據(jù)源中提取數(shù)據(jù)到數(shù)據(jù)倉庫中,是構(gòu)建數(shù)據(jù)倉庫的關鍵問題。本文根據(jù)不同數(shù)據(jù)源的特點,采取不同的抽取策略。一種是針對數(shù)據(jù)量較大,無法預知數(shù)據(jù)量級時,采用增量抽取策略,例如,一些在線監(jiān)測數(shù)據(jù),由于監(jiān)測設備每天都會產(chǎn)生大量的監(jiān)測數(shù)據(jù),全部抽取是不可能的,因此采取增量抽取策略,只抽取當天的實時數(shù)據(jù)進行查看;另一種是針對一些特殊場景數(shù)據(jù),例如在抽取海綿城市建設中與區(qū)域地理位置相關的數(shù)據(jù)時,本身其數(shù)據(jù)量是確定的,同時數(shù)據(jù)量也不是很大,可以采用全量抽取策略。
2)數(shù)據(jù)轉(zhuǎn)換和清洗。由于海綿城市涉及海量的多源異構(gòu)數(shù)據(jù),數(shù)據(jù)源多而雜,數(shù)據(jù)格式和存儲形式多而繁雜,針對這一問題,在進行數(shù)據(jù)抽取后,需要對抽取的數(shù)據(jù)進行統(tǒng)一的格式轉(zhuǎn)換,通常采用以下幾種方法:字段的映射與運算、字段的拆分與合并、日期運算和聚合運算等。在對數(shù)據(jù)轉(zhuǎn)換后,將系統(tǒng)中出現(xiàn)的相同、不完整、定義模糊的數(shù)據(jù)進行篩選,可以通過首先抽取一小部分數(shù)據(jù)檢測所抽取的數(shù)據(jù)是否符合要求,若不符合要求則將其剔除,然后對目標數(shù)據(jù)進行相應的處理和糾正。
3)數(shù)據(jù)加載。數(shù)據(jù)加載是構(gòu)建數(shù)據(jù)倉庫的重要一步,加載的方法主要分為全量加載和增量加載,其中全量加載是將全表刪除后再進行重新數(shù)據(jù)加載,增量加載是只更新變化的數(shù)據(jù)源和受影響的數(shù)據(jù)源。兩種方法視情況而定,在前期數(shù)據(jù)量較小或者每次抽取有1/4源數(shù)據(jù)需要更新的情況下,采用全量加載,其余情況采用增量加載。
由于海綿城市工程數(shù)據(jù)量、數(shù)據(jù)類型繁多,本研究采用聚類分析K-means算法進行數(shù)據(jù)挖掘。K-means算法的原理是在n個數(shù)據(jù)對象中,依據(jù)條件選擇k個對象,作為初始聚類中心,然后依據(jù)聚類中心對象,計算每個對象到均值之間的距離值,完成后再以最小距離為依據(jù)重新劃分,重復上述過程,直到準則函數(shù)收斂[10]。平方誤差的準則定義公式為:
(1)
其中,x為簇內(nèi)樣本;u為簇的中心;E值越小,說明簇內(nèi)樣本距離越小,相似度越高。
本研究首先指定K個點作為初始聚類中心,計算每個點離中心的距離,將其歸到與其最近的簇,形成k個簇;然后再計算每個簇的均值,再將其歸到與之最近的簇,如此往復,直至不再發(fā)生變化或達到最大迭代次數(shù)為止[11]。
海綿城市工程存在大量異構(gòu)數(shù)據(jù),包括地理信息數(shù)據(jù)、工程建設數(shù)據(jù)、模型數(shù)據(jù)、原有設備數(shù)據(jù)等,將這些數(shù)據(jù)錄入集成平臺,實現(xiàn)數(shù)據(jù)的調(diào)用、查看、分析及可視化管理。
基于物聯(lián)網(wǎng)、大數(shù)據(jù)、云計算等技術,實現(xiàn)遠程數(shù)據(jù)及雨情數(shù)據(jù)的同步監(jiān)控,涵蓋設施,設備,儀表,雨量、流量、液位、水質(zhì)等多項指標的監(jiān)測數(shù)據(jù)接入集成平臺,實現(xiàn)層、分類、分區(qū)的智能監(jiān)測并可進行人工采樣復核的監(jiān)測管理方案,可對各項數(shù)據(jù)進行查詢,分析及可視化管理。
海綿城市工程在建設過程以及運維過程中將產(chǎn)生大量異構(gòu)數(shù)據(jù),將這些數(shù)據(jù)進行處理加工后接入集成平臺,實現(xiàn)運行管理過程的實時記錄,并可對建設文檔、設備檔案、運維任務、運維報表、運維考核等數(shù)據(jù)進行查詢、分析及可視化管理。
數(shù)據(jù)管理是海綿城市工程數(shù)據(jù)集成平臺的核心模塊,通過該模塊可進行多類型多格式數(shù)據(jù)的批量輸入與輸出,支持數(shù)據(jù)生成數(shù)據(jù)表、趨勢線、分布圖等多種展示形式,方便管理者更清晰直觀的進行決策。同時提供數(shù)據(jù)統(tǒng)計分析功能,幫助管理者快速、準確的分析工作的重難點問題。
針對海綿城市工程中大量種類繁多的數(shù)據(jù),對數(shù)據(jù)集成需求進行分析,提出基于數(shù)據(jù)倉庫的海綿城市工程數(shù)據(jù)集成方案,將小寨海綿城市中的數(shù)據(jù)進行統(tǒng)一集成,并通過海綿城市工程數(shù)據(jù)集成平臺實現(xiàn)數(shù)據(jù)可視化,為小寨海綿城市智慧管控系統(tǒng)提供有力的數(shù)據(jù)支撐。