王凱,李研研
吉林省地礦信息中心, 吉林 長春 130061
地質(zhì)工作是服務經(jīng)濟和社會發(fā)展的先行工作,是國家高度重視的基礎行業(yè)。作為地質(zhì)工作成果的主要載體,地質(zhì)礦產(chǎn)數(shù)據(jù)具有較大的潛在經(jīng)濟價值和可重復開發(fā)利用價值[1]。
相較于其他數(shù)據(jù),地質(zhì)礦產(chǎn)數(shù)據(jù)類型較為復雜,涉及到政治經(jīng)濟基礎、法律法規(guī)、地理概況、考察報告、礦業(yè)開發(fā)、物探、化探、遙感等內(nèi)容[2]。按地質(zhì)礦產(chǎn)數(shù)據(jù)庫數(shù)據(jù)格式劃分,地質(zhì)礦產(chǎn)數(shù)據(jù)可分為矢量數(shù)據(jù)、數(shù)據(jù)表、柵格數(shù)據(jù)和文本數(shù)據(jù)。
伴隨著大數(shù)據(jù)時代的到來,這些數(shù)據(jù)呈現(xiàn)出了豐富多樣、涵蓋面廣而又具備差異性的特點。在現(xiàn)存海量數(shù)據(jù)的狀況下,如何對地質(zhì)礦產(chǎn)大數(shù)據(jù)進行有效分類、建立地質(zhì)礦產(chǎn)數(shù)據(jù)庫并收納具有價值的數(shù)據(jù)則是行業(yè)內(nèi)的熱門話題之一。
地質(zhì)礦產(chǎn)數(shù)據(jù)庫存儲設計主要是結合業(yè)務場景將用到的所有地質(zhì)礦產(chǎn)相關數(shù)據(jù)進行抽取分類存儲管理,按照結構化數(shù)據(jù)存儲、非結構化數(shù)據(jù)存儲和空間數(shù)據(jù)存儲三種方式進行混合存儲設計(圖1)。
圖1 地質(zhì)礦產(chǎn)數(shù)據(jù)庫混合存儲設計
結構化數(shù)據(jù)采用關系型數(shù)據(jù)庫進行管理,包括Oracle、MySql、PostgreSql、Sqlserver等RDBMS關系型數(shù)據(jù)庫。存儲數(shù)據(jù)主要為矢量圖形表和業(yè)務屬性表等二維關系結構數(shù)據(jù)。
將非結構化數(shù)據(jù)本身存儲在內(nèi)存存儲介質(zhì)上,非結構化數(shù)據(jù)元數(shù)據(jù)(如文件路徑、文件名、文件格式、文件大小等)存儲到數(shù)據(jù)庫表中并與對應空間數(shù)據(jù)對象建立關聯(lián)關系,降低數(shù)據(jù)庫資源消耗的同時也減輕了數(shù)據(jù)維護的壓力。
(1)非關系型數(shù)據(jù)庫存儲(NoSQL)。非關系型數(shù)據(jù)庫主要采用Redis、MongoDB、ElasticSearch、ActiveMQ(消息隊列)、等NoSQL非關系型數(shù)據(jù)庫。存儲數(shù)據(jù)可包括切片數(shù)據(jù)緩存、日志緩存數(shù)據(jù)。
(2)分布式文件系統(tǒng)(HDFS)。分布式文件系統(tǒng)FastDFS存儲數(shù)據(jù)可包括辦公文檔、地質(zhì)報告、文本、圖片、圖像、音頻、視頻信息等格式數(shù)據(jù)。
(1)矢量數(shù)據(jù)存儲。主要采用GIS空間數(shù)據(jù)庫+關系型數(shù)據(jù)庫來對空間數(shù)據(jù)進行物理存儲設計。矢量空間數(shù)據(jù)采用關系型數(shù)據(jù)庫RDBMS+空間數(shù)據(jù)庫引擎SDE等方式進行存儲。存儲數(shù)據(jù)包括工作區(qū)以往的1∶5萬、1∶20萬等區(qū)域地質(zhì)圖、構造地質(zhì)圖、基巖地質(zhì)圖,細查閱調(diào)查區(qū)已有的遙感影像、地球物理、地球化學和礦區(qū)大比例尺填圖等提供全局總貌和揭示隱伏信息的各種矢量資料。
(2)柵格數(shù)據(jù)存儲。對于遙感影像等柵格類數(shù)據(jù)由于數(shù)據(jù)量巨大,直接存儲到數(shù)據(jù)庫中不僅增加了數(shù)據(jù)庫運行壓力,同時柵格數(shù)據(jù)本身的讀取速度也會大大降低。采用鑲嵌數(shù)據(jù)集(Mosaic Dataset)形式進行管理,將體量巨大的柵格數(shù)據(jù)本身保留在數(shù)據(jù)庫外部(如ArcGIS地圖服務器分布式文件系統(tǒng))而僅在數(shù)據(jù)庫中保存數(shù)據(jù)的引用。不僅便于柵格數(shù)據(jù)的管理和查詢,同時能夠提供高級柵格查詢功能以及實施函數(shù)處理,還可用作提供影像服務的數(shù)據(jù)源。
在充分調(diào)研、整合存量地質(zhì)礦產(chǎn)大數(shù)據(jù)基礎上,對存量紙質(zhì)資料進行掃描和標準化處理,將所有數(shù)據(jù)進行分類,依據(jù)設計的數(shù)據(jù)庫入庫基本流程進行分類存儲,對地質(zhì)礦產(chǎn)大數(shù)據(jù)進行統(tǒng)一集成調(diào)度,確保有序、高效的管理與應用地質(zhì)礦產(chǎn)數(shù)據(jù)庫(圖2)。
圖2 地質(zhì)礦產(chǎn)大數(shù)據(jù)入庫流程圖
2.1.1 建設模式
按照地質(zhì)礦產(chǎn)數(shù)據(jù)庫標準規(guī)范要求對原始數(shù)據(jù)進行規(guī)范化處理,將數(shù)據(jù)質(zhì)檢后入庫,對已入庫后的數(shù)據(jù)再次進行數(shù)據(jù)量、數(shù)據(jù)質(zhì)量的再次檢查、驗證,形成最終整合后的成果。質(zhì)檢流程與內(nèi)容如圖3所示。
圖3 數(shù)據(jù)質(zhì)檢流程
2.1.2 前提條件
源數(shù)據(jù)存儲管理方式、數(shù)據(jù)格式等與要求不一致,例如原始數(shù)據(jù)是以MapGIS、Access等文件格式存儲的;數(shù)據(jù)完備性、標準化較差,不符合相關數(shù)據(jù)庫標準,例如要素分類、圖層命名、屬性結構與數(shù)據(jù)庫標準不一致,屬性表達、實體對象內(nèi)部及之間的關系不符合數(shù)據(jù)庫標準要求及空間拓撲關系。
2.1.3 數(shù)據(jù)整合特點
按照數(shù)據(jù)整理與加工技術要求進行數(shù)據(jù)整理,統(tǒng)一數(shù)據(jù)格式、坐標系、數(shù)據(jù)結構;根據(jù)應用需求,采集元數(shù)據(jù)、建立索引等;經(jīng)過整理后的數(shù)據(jù)由地質(zhì)礦產(chǎn)數(shù)據(jù)庫集中管理,按照誰生產(chǎn)誰更新的原則進行數(shù)據(jù)更新;該整合方式復雜、工作量大。
2.2.1 建設模式
在條件具備前提下,保持原有數(shù)據(jù)庫及數(shù)據(jù)結構不動,采用加載國際標準化組織開放地理信息聯(lián)盟OGC的標準Web地圖服務(如OGC-W*S,包括Web 地圖服務WMS、Web 要素服務WFS、Web 覆蓋服務WCS等)的方式納入地質(zhì)信息系統(tǒng),實現(xiàn)統(tǒng)一管理和服務。
2.2.2 前提條件
已按照國家、部、省數(shù)據(jù)庫標準建庫,地圖服務空間參考與地質(zhì)礦產(chǎn)數(shù)據(jù)庫要求保持一致;統(tǒng)一集成、訪問、調(diào)用并更新維護數(shù)據(jù)。
2.2.3 數(shù)據(jù)整合特點
通過采集數(shù)據(jù)服務的元數(shù)據(jù),統(tǒng)一注冊數(shù)據(jù)服務到地圖服務目錄中,數(shù)據(jù)服務集中管理,統(tǒng)一設置及分配對外服務權限,誰生產(chǎn)誰更新,數(shù)據(jù)整合集成相對簡單且工作量最小。
2.3.1 建設模式
保持原有數(shù)據(jù)庫不動,采用數(shù)據(jù)提取、轉(zhuǎn)換和加載(Extract--Transform--Load, ETL)方式,按照統(tǒng)一數(shù)據(jù)轉(zhuǎn)換規(guī)則集,實現(xiàn)業(yè)務系統(tǒng)數(shù)據(jù)庫向地質(zhì)數(shù)據(jù)庫的結構轉(zhuǎn)換。數(shù)據(jù)提取、轉(zhuǎn)換和加載(ETL)模式可采用數(shù)據(jù)主動推送和數(shù)據(jù)被動提取兩種方式。無論是市局統(tǒng)一建設、縣(區(qū))局負責應用的業(yè)務應用系統(tǒng),還是市局自建自用的業(yè)務應用系統(tǒng)的數(shù)據(jù)皆可通過該方式進行數(shù)據(jù)整合。
2.3.2 前提條件
數(shù)據(jù)庫已按照部、省數(shù)據(jù)庫標準或者依據(jù)業(yè)務系統(tǒng)需求進行建庫,數(shù)據(jù)的現(xiàn)勢性、完備性、標準化良好;數(shù)據(jù)庫平臺、格式、坐標系等可能不統(tǒng)一;要素分類、命名、結構等數(shù)據(jù)與標準存在差異;重新建庫相對復雜且會影響日常業(yè)務。
2.3.3 數(shù)據(jù)整合特點
該模式較為復雜,需要建立業(yè)務管理數(shù)據(jù)之間的關聯(lián)關系,工作量適中,不影響業(yè)務辦理和審批,可通過數(shù)據(jù)提取、轉(zhuǎn)換和加載(ETL)自動完成。
地質(zhì)礦產(chǎn)數(shù)據(jù)庫試運行合格后,數(shù)據(jù)庫開發(fā)工作就基本完成,即可投入正式運行。但是,由于應用環(huán)境在不斷變化,數(shù)據(jù)庫運行過程中物理存儲也會不斷變化,對數(shù)據(jù)庫設計進行評價、調(diào)整、修改等維護工作是一個長期的任務,也是設計工作的繼續(xù)和提高[3]。地質(zhì)礦產(chǎn)數(shù)據(jù)庫維護工作的內(nèi)容主要包括恢復、備份、安全性、完整性、日志監(jiān)督等方面。
作為系統(tǒng)正式運行后最重要的維護工作之一,數(shù)據(jù)庫的轉(zhuǎn)儲和恢復通過制定差異化的轉(zhuǎn)儲計劃,確保在故障發(fā)生時以最快的速度使地質(zhì)礦產(chǎn)數(shù)據(jù)庫恢復到某種一致的狀態(tài),并盡可能減少對數(shù)據(jù)庫的破壞。
當數(shù)據(jù)庫的應用環(huán)境發(fā)生變化時,其對于安全性的要求也會隨之改變。例如某些原本是機密的數(shù)據(jù)可能轉(zhuǎn)變?yōu)樵试S公開查詢,而新加入的數(shù)據(jù)定義為機密數(shù)據(jù);同時,也會對系統(tǒng)用戶的密級進行修訂;數(shù)據(jù)庫的完整性約束條件也會有所改變。可通過修改當前的安全性控制實現(xiàn)對實際情況的動態(tài)調(diào)整,確保數(shù)據(jù)庫的安全性和完整性。
數(shù)據(jù)庫運行過程中,可通過DBMS(數(shù)據(jù)庫管理系統(tǒng))產(chǎn)品提供的監(jiān)測系統(tǒng)性能參數(shù)的工具對系統(tǒng)的運行狀態(tài)進行實時監(jiān)測,對獲取到的一系列性能參數(shù)的值進行分析。
本文首先對地質(zhì)礦產(chǎn)數(shù)據(jù)庫存儲的設計分類進行了歸納,繼而從建設模式、前提條件和數(shù)據(jù)整合特點三個方面論述了三種不同的地質(zhì)礦產(chǎn)大數(shù)據(jù)入庫模式,簡述了地質(zhì)礦產(chǎn)數(shù)據(jù)庫維護的相關工作。在此基礎上,未來可以緊密結合邊緣計算、數(shù)據(jù)挖掘、數(shù)字地質(zhì)等先進技術對地質(zhì)礦產(chǎn)大數(shù)據(jù)的開發(fā)與利用、地質(zhì)礦產(chǎn)數(shù)據(jù)庫的構建與完善進行深入研究。