宋富玲
(山東建材勘察測繪研究院有限公司,山東 濟南 250000)
新時代背景下,大數(shù)據(jù)的衍生有效突破了傳統(tǒng)數(shù)據(jù)存儲與處理技術(shù)的局限性。而地理信息系統(tǒng)受海量空間數(shù)據(jù)屬性和數(shù)據(jù)處理快速響應需求的限制,對大數(shù)據(jù)的應用有著迫切需求。但傳統(tǒng)專家學者對大數(shù)據(jù)在地理信息系統(tǒng)中的應用進行研究時更傾向于整體方向,忽視了將大數(shù)據(jù)應用到地理信息系統(tǒng)時的技術(shù)研究。對于此,圍繞著數(shù)據(jù)存儲和數(shù)據(jù)處理2 個方面對地理信息系統(tǒng)中大數(shù)據(jù)的應用進行探究時,還需要根據(jù)大數(shù)據(jù)的MongoDB 和Dremel 2個功能提出具有針對性的解決策略,以此有效推動地理信息系統(tǒng)應用的創(chuàng)新與改革,真正為大數(shù)據(jù)時代下地理經(jīng)濟系統(tǒng)的應用提供技術(shù)層面的支持。
受傳統(tǒng)數(shù)據(jù)存儲技術(shù)不發(fā)達的影響,地理信息系統(tǒng)在初期階段主要是依靠RDBMS 進行數(shù)據(jù)處理,或者將文件和RDBMS 進行有機結(jié)合實現(xiàn)綜合管理,如GIS 軟件GeoStar 就是通過這種方式進行管理,其屬性數(shù)據(jù)仍以RDBMS 管理模式進行處理,而圖形、音像、DEM 則是利用文件系統(tǒng)進行管理[1]。但GIS 軟件原本就涵蓋了空間數(shù)據(jù)和海量數(shù)據(jù)的特征,在數(shù)據(jù)處理方面也有著快速響應的迫切需求。這意味著基于RDBMS 的傳統(tǒng)數(shù)據(jù)存儲和以統(tǒng)計學、數(shù)據(jù)挖掘為主的傳統(tǒng)數(shù)據(jù)處理技術(shù)已無法滿足新時代發(fā)展需要,也無法適應GIS 數(shù)據(jù)存儲和處理需求。而大數(shù)據(jù)時代的到來為地理信息系統(tǒng)提供了全新的改革思路,并且大數(shù)據(jù)處理方式與傳統(tǒng)數(shù)據(jù)處理方式還存在以下幾點差別。首先,大數(shù)據(jù)面向的是所有數(shù)據(jù),也就是全樣本數(shù)據(jù),而非通過抽樣的方式進行數(shù)據(jù)處理。但傳統(tǒng)數(shù)據(jù)處理方式無論是站在統(tǒng)計學的角度還是數(shù)據(jù)挖掘的角度,都需要抽取一定的樣本進行數(shù)據(jù)研究與分析。其次,傳統(tǒng)數(shù)據(jù)處理方式更依賴于統(tǒng)計學中的數(shù)據(jù)因果關(guān)系,而大數(shù)據(jù)可以完全忽視數(shù)據(jù)的因果關(guān)系,只需要參考數(shù)據(jù)信息的關(guān)聯(lián)性。與此同時,傳統(tǒng)RDBMS 處理技術(shù)對精確度和一致性提出了較高的要求,但在可擴展性上卻具有一定的弊端,而大數(shù)據(jù)包含了形式多樣的數(shù)據(jù)類型,因此其必須具備良好的可擴展性,在計算結(jié)果的精確性上并未提出較高的要求。此外,盡管RDBMS 的數(shù)據(jù)處理方式也有著并行計算的功能,但其過度追求一致性和容錯性的特點決定了這種數(shù)據(jù)處理方式注定無法如同MapRduce 這類大數(shù)據(jù)并行處理技術(shù)一樣,具備秒級計算的可用性和可拓展性功能。最后,相比于以結(jié)構(gòu)化數(shù)據(jù)為主的傳統(tǒng)數(shù)據(jù)處理方式,大數(shù)據(jù)處理方式下的數(shù)據(jù)類型綜合涵蓋了數(shù)字、字符等結(jié)構(gòu)化數(shù)據(jù)、員工簡歷信息這類半結(jié)構(gòu)化數(shù)據(jù)以及音頻、視頻等非結(jié)構(gòu)化數(shù)據(jù),在數(shù)據(jù)實際處理過程中不但面臨著較高的難度和龐大的任務量,還極大地提高了數(shù)據(jù)處理能力和效率。
從以上4 個角度著手將大數(shù)據(jù)和傳統(tǒng)數(shù)據(jù)處理方式進行對比分析可知,大數(shù)據(jù)更能滿足地理信息系統(tǒng)在空間數(shù)據(jù)、海量數(shù)據(jù)和數(shù)據(jù)處理快速響應等方面提出的要求,因此在新時代背景下將大數(shù)據(jù)靈活運用到地理信息系統(tǒng)已成為緊跟時代發(fā)展潮流的必然選擇。
由于地理信息系統(tǒng)原本就具有良好的空間數(shù)據(jù)存儲特點,因此在數(shù)據(jù)存儲過程中既體現(xiàn)出了非結(jié)構(gòu)化特征,又使其數(shù)據(jù)呈現(xiàn)出明顯的大數(shù)據(jù)優(yōu)勢,也就是所謂的海量數(shù)據(jù)規(guī)模、數(shù)據(jù)快速流轉(zhuǎn)以及動態(tài)數(shù)據(jù)體系、多元化數(shù)據(jù)類型、高速變化的數(shù)據(jù)模型、高價值低密度和高復雜度的大數(shù)據(jù)特性?,F(xiàn)階段我國市場對地理信息系統(tǒng)提出了迫切需求,尤其體現(xiàn)在空間數(shù)據(jù)存儲爆炸性增長、數(shù)據(jù)處理響應速度愈發(fā)快捷、數(shù)據(jù)描述需求逐漸趨于多元化等方面,而這些需求均對地理信息系統(tǒng)的大數(shù)據(jù)應用提出了嚴格要求。最后,在大數(shù)據(jù)應用過程中還面臨著地理信息系統(tǒng)在數(shù)據(jù)傳輸與保護方面的問題,并且大量重復數(shù)據(jù)的處理也給大數(shù)據(jù)的應用帶來了一定的挑戰(zhàn)。
盡管地理信息系統(tǒng)在實際應用過程中已可以通過多種渠道對海量空間數(shù)據(jù)進行集中處理,但在海量空間數(shù)據(jù)的組織、加工、存儲等技術(shù)的應用上仍存在明顯弊端。特別是應用數(shù)據(jù)處理技術(shù)時,非結(jié)構(gòu)化的海量空間數(shù)據(jù)還與傳統(tǒng)SQL 數(shù)據(jù)處理技術(shù)之間存在一定的矛盾和沖突,在某種程度上弱化了海量空間數(shù)據(jù)的加工和處理效果,阻礙了數(shù)據(jù)增值產(chǎn)品的生產(chǎn)進度,這也是限制我國地理信息系統(tǒng)朝著市場化發(fā)展的主要原因。在激烈的市場競爭下,由于用戶的現(xiàn)實需求愈發(fā)迫切,在地理信息系統(tǒng)空間數(shù)據(jù)采集過程中必須達到實時更新的目的,還需要在客觀層面上提高數(shù)據(jù)的計算能力和效率。因此,在地理信息系統(tǒng)中應用大數(shù)據(jù)既是順應新時代發(fā)展趨勢的必然結(jié)果,又是推動海量空間數(shù)據(jù)優(yōu)化與改革的客觀需要。
盡管GIS 軟件在實際應用過程中可以借由對象關(guān)系模型拓展RDBMS 的性能,使其實現(xiàn)對圖形、屬性數(shù)據(jù)、DEM 數(shù)據(jù)的并行管理,還能達到多比例尺空間數(shù)據(jù)存儲的目的。但這種數(shù)據(jù)存儲方式無法通過當時現(xiàn)有的技術(shù)實現(xiàn),并且這種方式在某種程度上還限制了地理信息系統(tǒng)空間數(shù)據(jù)的自動綜合能力。與此同時,基于C/S 架構(gòu)的GIS 系統(tǒng)還會受到自身封閉性的影響,使其數(shù)據(jù)共享能力過于薄弱,無法保證批量數(shù)據(jù)處理后的存儲和同步更新能力,這也是借由大數(shù)據(jù)存儲方式革新傳統(tǒng)地理信息系統(tǒng)數(shù)據(jù)存儲方式的主要原因。
在數(shù)據(jù)信息存儲過程中,傳統(tǒng)數(shù)據(jù)處理方式主要是通過RDBMS 進行存儲,而大數(shù)據(jù)處理方式是以NoSQL為主,這也是2 種數(shù)據(jù)處理方式存在差別的根本原因。傳統(tǒng)數(shù)據(jù)處理方式中的RDBMS 在結(jié)構(gòu)化數(shù)據(jù)存儲方面具有明顯優(yōu)勢,但大數(shù)據(jù)處理方式可以有效應對非結(jié)構(gòu)化數(shù)據(jù)與半結(jié)構(gòu)數(shù)據(jù)化的存儲問題,并且利用大數(shù)據(jù)進行數(shù)據(jù)存儲時還可以實現(xiàn)分布式計算集群或分布式數(shù)據(jù)庫等多種方式,而這種數(shù)據(jù)庫存儲形式就是所謂的NoSQL云存儲技術(shù)。實際上,盡管傳統(tǒng)RDBMS 也包含了分布式數(shù)據(jù)庫,但其仍以結(jié)構(gòu)化數(shù)據(jù)為主,并且還有著較高的精確度和一致性要求,在一定程度上弱化了其拓展功能。而NoSQL 存儲技術(shù)則并不過多地要求精確度和一致性,在功能拓展方面也有著明顯優(yōu)勢[2]。
相比于RDBMS,NoSQL 的連接特性并不強,因此在NoSQL 數(shù)據(jù)存儲過程中其有著良好的可延展性,極大地提高了數(shù)據(jù)存儲模型的靈活多樣性,還節(jié)約了數(shù)據(jù)存儲和更新過程中可能產(chǎn)生的開銷。例如,MongoDB 存儲方式就是將RDBMS 中“行”的概念用“文檔”模型進行替換,以此為文檔數(shù)據(jù)庫管理奠定了良好基礎(chǔ),使其存儲形式達到了多元化和可兼容的目的,還形成了良好的拓展性功能。實際上這種文檔形式的替換為數(shù)據(jù)存儲過程中數(shù)組或文檔的嵌套創(chuàng)造了良好的先決條件,真正意義上實現(xiàn)了復雜層次關(guān)系單一存儲記錄的目的。與此同時,這種存儲方式下的數(shù)據(jù)還具有結(jié)構(gòu)松散的特點,有效提高了該數(shù)據(jù)存儲模型的靈活性和多樣性,還極大地簡化了其數(shù)據(jù)模型的復雜層次關(guān)系,使得復雜屬性下的數(shù)據(jù)查詢和索引功能有著良好的簡便性,真正為RDBMS 查詢功能的實現(xiàn)提供了大力支持。
基于此,文檔型NoSQL 存儲技術(shù)才能真正滿足地理信息系統(tǒng)對空間數(shù)據(jù)的存儲需求,還能有效避免地理信息系統(tǒng)應用傳統(tǒng)數(shù)據(jù)存儲方式時面臨的各種問題,如海量空間數(shù)據(jù)存儲過程中產(chǎn)生的數(shù)據(jù)壓縮與轉(zhuǎn)換系統(tǒng)開銷。因此,依托于全新的數(shù)據(jù)存儲方式可以有效提高地理信息系統(tǒng)在數(shù)據(jù)讀取和同步更新方面的效率。
傳統(tǒng)空間數(shù)據(jù)庫利用地理信息系統(tǒng)提高數(shù)據(jù)處理的響應速度時,通常需要構(gòu)建多種比例尺的空間數(shù)據(jù)庫,并結(jié)合實際應用需求調(diào)整比例尺數(shù)據(jù)庫中的數(shù)據(jù),但這種數(shù)據(jù)處理方法在實際應用過程中,無法滿足地理信息系統(tǒng)對數(shù)據(jù)處理的要求,并且其矢量數(shù)據(jù)的綜合能力也有所欠缺[3]。但在大數(shù)據(jù)時代背景下,利用大數(shù)據(jù)交互式數(shù)據(jù)處理方式就能有效解決地理信息系統(tǒng)在空間數(shù)據(jù)處理方面的問題。
3.2.1 大數(shù)據(jù)交互處理方式
大數(shù)據(jù)交互處理方式指依托于人機交換及時處理和調(diào)整相關(guān)數(shù)據(jù)信息,并將處理結(jié)果實時共享給用戶。目前現(xiàn)有的大數(shù)據(jù)交互處理系統(tǒng)主要由Dremel 和Spark 組成。其中Spark 系統(tǒng)指高效分布式計算系統(tǒng),這種系統(tǒng)的性能遠高于Hadoop 系統(tǒng)的數(shù)據(jù)處理效率,還有著性能優(yōu)良的API。最重要的是,Spark 的代碼也較為簡潔,但Hadoop 若想表達出相同的功能代碼,還需要付出超十倍甚至百倍的代碼長度。與此同時,Dremel 還能以秒為單位快速處理PB 級別的海量數(shù)據(jù),利用上千個規(guī)模的集群共同組建完成。實際上Dremel 的設(shè)計原本就是基于MapReduce 衍生而來的,因此其有著優(yōu)越的規(guī)模和交互查詢能力。此外,Dremel 同步處理半結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù)時,通常需要以嵌套式數(shù)據(jù)模型為基礎(chǔ)進行處理。
3.2.2 大數(shù)據(jù)列式存儲
Dremel 系統(tǒng)主要是通過列式存儲的方式保護相關(guān)數(shù)據(jù)信息,其在數(shù)據(jù)分析和處理過程中,只需要針對某些數(shù)據(jù)進行集中處理,這種方式極大地減少了磁盤及CPU 的訪問量。與此同時,在實際應用過程中還可以將Dremel與Web 搜索、DBMS 技術(shù)進行有機融合,依托于Web 搜索中的“查詢樹”這一功能,就能有效分割查詢搜索中的龐大數(shù)據(jù)庫,并將其科學分布到各個批量節(jié)點上,以此提高數(shù)據(jù)查詢處理的簡便性。例如,以HBase 為基礎(chǔ)的嵌套式數(shù)據(jù)存儲系統(tǒng),就是基于HBase 原有的分布式存儲構(gòu)架,充分發(fā)揮其可用性強、延展性良好的優(yōu)點。利用HMaste 對數(shù)據(jù)存儲系統(tǒng)進行管理時,還可以將HRegion-Server 作為載體對每個子節(jié)點進行數(shù)據(jù)存儲管理,同時優(yōu)化原有的列式存儲格式,以此構(gòu)建成全新的嵌套式數(shù)據(jù)存儲格式。而基于Dremel 的嵌套式數(shù)據(jù)存儲文件格式還能達到數(shù)據(jù)持久化的目的。另一方面,以HBase 為基礎(chǔ)的嵌套式數(shù)據(jù)存儲系統(tǒng)中的存儲和讀取模塊還有著良好的讀寫功能,使讀寫模塊中的查詢功能發(fā)揮出明顯優(yōu)勢。實際上這種交互式數(shù)據(jù)處理方法還優(yōu)化了查詢功能和分片存儲數(shù)據(jù)功能,從整體上提高了海量數(shù)據(jù)的處理效率。
綜上所述,傳統(tǒng)地理信息系統(tǒng)主要是通過列式存儲Dremel 嵌套式模型來存儲多比例尺數(shù)據(jù)庫,利用類似于Web 搜索的數(shù)據(jù)處理方法查詢與整合分片數(shù)據(jù),以此充分滿足數(shù)據(jù)的實際處理需求,進而有效優(yōu)化與處理空間數(shù)據(jù),節(jié)約數(shù)據(jù)搜索的系統(tǒng)開銷,最大限度地提高了地理信息系統(tǒng)的響應速度。
隨著現(xiàn)代科技手段的日益完善,大數(shù)據(jù)技術(shù)逐漸在各行業(yè)領(lǐng)域中得到了廣泛應用,因而在地理信息系統(tǒng)中科學運用大數(shù)據(jù)已成為迎合新時代發(fā)展需要的必然選擇。在地理信息系統(tǒng)中正式應用大數(shù)據(jù)前,還需要從數(shù)據(jù)存儲和數(shù)據(jù)處理兩方面著手,研究地理信息系統(tǒng)應用過程中存在的實際問題,并在此基礎(chǔ)上依托于大數(shù)據(jù)存儲方式革新地理信息系統(tǒng)的數(shù)據(jù)存儲方式。與此同時,在大數(shù)據(jù)交互式處理方式的支持下,還可以從地理信息系統(tǒng)的處理和更新兩方面著手對其應用進行創(chuàng)新。