潘藝
摘要:大數(shù)據(jù)的出現(xiàn),顛覆了既有的傳統(tǒng)數(shù)據(jù)存儲(chǔ)與處理技術(shù)。地理信息系統(tǒng)由于自身的空間數(shù)據(jù)屬性和對(duì)數(shù)據(jù)處理響應(yīng)速度的“實(shí)時(shí)”要求,對(duì)大數(shù)據(jù)的應(yīng)用需求最為迫切。通過解讀地理信息系統(tǒng)應(yīng)用大數(shù)據(jù)的必要性及其問題,結(jié)合大數(shù)據(jù)技術(shù)給出了可行性的解決措施,以此來闡述地理信息系統(tǒng)應(yīng)用大數(shù)據(jù)的廣闊前景。
關(guān)鍵詞:大數(shù)據(jù)時(shí)代;地理信息系統(tǒng);問題分析;應(yīng)用研究
中圖分類號(hào):TP391 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2015)05-0019-02
以往學(xué)者對(duì)地理信息系統(tǒng)應(yīng)用大數(shù)據(jù)方面的研究較多偏向整體方面的研究,較為缺乏對(duì)地理信息系統(tǒng)應(yīng)用大數(shù)據(jù)在技術(shù)層次方面的探討。本研究從地理信息系統(tǒng)應(yīng)用大數(shù)據(jù)在數(shù)據(jù)存儲(chǔ)和數(shù)據(jù)處理方面的問題著手進(jìn)行研究,提出了基于大數(shù)據(jù)的MongoDB和Dremel的解決措施。
1 地理信息系統(tǒng)應(yīng)用大數(shù)據(jù)的必要性
受當(dāng)時(shí)數(shù)據(jù)存儲(chǔ)技術(shù)的限制,早期的地理信息系統(tǒng)主要采用RDBMS進(jìn)行管理,或者采用文件與RDBMS的方式進(jìn)行管理,如國(guó)產(chǎn)GIS軟件GeoStar就采用后者的方式予以實(shí)現(xiàn),其屬性數(shù)據(jù)仍沿用RDBMS管理模式,圖形、影響和DEM則交由文件系統(tǒng)管理[1]。但GIS本身固有的空間數(shù)據(jù)和海量數(shù)據(jù)特征以及數(shù)據(jù)處理快速響應(yīng)的需求,決定了以RDBMS為代表的傳統(tǒng)數(shù)據(jù)存儲(chǔ)和以統(tǒng)計(jì)學(xué)和數(shù)據(jù)挖掘?yàn)榇淼膫鹘y(tǒng)數(shù)據(jù)處理技術(shù)已經(jīng)無法適應(yīng)GIS數(shù)據(jù)存儲(chǔ)及處理的發(fā)展需求。大數(shù)據(jù)的出現(xiàn),帶給了地理信息系統(tǒng)新的變革。就整體而言,大數(shù)據(jù)處理方式與傳統(tǒng)數(shù)據(jù)處理方式存在以下區(qū)別。
大數(shù)據(jù)與傳統(tǒng)數(shù)據(jù)處理方式存在諸多不同:首先,大數(shù)據(jù)沒有抽樣概念,其針對(duì)的是全部數(shù)據(jù),即全樣本數(shù)據(jù)概念,而傳統(tǒng)的數(shù)據(jù)處理方式無論是統(tǒng)計(jì)學(xué)還是數(shù)據(jù)挖掘,都是以在數(shù)據(jù)中抽取樣本研究的方式進(jìn)行;其次,傳統(tǒng)的統(tǒng)計(jì)學(xué)注重?cái)?shù)據(jù)的因果關(guān)系分析,而大數(shù)據(jù)則完全無視數(shù)據(jù)的因果關(guān)系而在乎數(shù)據(jù)的關(guān)聯(lián)信息;再次,傳統(tǒng)的RDBMS數(shù)據(jù)處理技術(shù)十分追求優(yōu)良的精確性、高度的一致性,使得其并不具備良好的可擴(kuò)展性,而大數(shù)據(jù)則因?yàn)槎鄻踊臄?shù)據(jù)類型需要必須具備良好的可拓展性,并不再盲目追求計(jì)算結(jié)果的精確性,雖然RDBMS數(shù)據(jù)處理方式已經(jīng)有了并行計(jì)算,但追求高度一致性和容錯(cuò)性的特點(diǎn)使得其無法像MapReduce等大數(shù)據(jù)并行處理技術(shù)那樣具備“秒級(jí)定律”的可用性和可拓展性;最后,大數(shù)據(jù)處理的數(shù)據(jù)類型也不同于以結(jié)構(gòu)化數(shù)據(jù)為主的傳統(tǒng)數(shù)據(jù)處理方式,其數(shù)據(jù)處理對(duì)象包括了以數(shù)字、字符為代表的結(jié)構(gòu)化數(shù)據(jù)、員工簡(jiǎn)歷信息等為代表的半結(jié)構(gòu)化數(shù)據(jù)、音頻、視頻等為代表的非結(jié)構(gòu)化數(shù)據(jù)這三大類型,在數(shù)據(jù)處理難度大為艱巨的同時(shí),數(shù)據(jù)處理能力也得到了極大的提升[2]。
由以上四個(gè)方面的對(duì)比可以看出,大數(shù)據(jù)相比傳統(tǒng)的數(shù)據(jù)存儲(chǔ)及處理技術(shù),無疑更能滿足地理信息系統(tǒng)空間數(shù)據(jù)、海量數(shù)據(jù)和數(shù)據(jù)處理快速響應(yīng)的需求,因而地理信息系統(tǒng)應(yīng)用大數(shù)據(jù)已成為時(shí)代的必然。
2 地理信息系統(tǒng)應(yīng)用大數(shù)據(jù)的問題分析
2.1 數(shù)據(jù)存儲(chǔ)
地理信息系統(tǒng)的空間數(shù)據(jù)特點(diǎn)注定了其數(shù)據(jù)存儲(chǔ)具有明顯的非結(jié)構(gòu)化特征,其數(shù)據(jù)集呈現(xiàn)出典型的大數(shù)據(jù)特點(diǎn),即海量數(shù)據(jù)規(guī)模(Volume)、快速的數(shù)據(jù)流轉(zhuǎn)和動(dòng)態(tài)的數(shù)據(jù)體系(Velocity)、多樣化的數(shù)據(jù)類型(Variety)、快速變化的數(shù)據(jù)模型(Vitality)和高價(jià)值低密度(Value),以及高復(fù)雜度(Complexity)的大數(shù)據(jù)5V+1C特性。我國(guó)巨大的地理信息系統(tǒng)市場(chǎng)需求,爆炸性增長(zhǎng)的空間數(shù)據(jù)存儲(chǔ)、越來越快速的數(shù)據(jù)處理響應(yīng)以及越來越多樣化和清晰化的數(shù)據(jù)描述需求等等這些都對(duì)地理信息系統(tǒng)應(yīng)用大數(shù)據(jù)提出了高要求。此外,地理信息系統(tǒng)的數(shù)據(jù)共享與保護(hù)、大量重復(fù)數(shù)據(jù)的處理也對(duì)其應(yīng)用大數(shù)據(jù)構(gòu)成了挑戰(zhàn)。
2.2 數(shù)據(jù)處理
雖然地理信息系統(tǒng)目前已實(shí)現(xiàn)對(duì)海量空間數(shù)據(jù)通過多種途徑進(jìn)行匯總,但其對(duì)海量空間數(shù)據(jù)的組織、處理、加工和存儲(chǔ)技術(shù)仍是較為落后[3]。在數(shù)據(jù)處理技術(shù)方面主要呈現(xiàn)為非結(jié)構(gòu)化的海量空間數(shù)據(jù)與傳統(tǒng)SQL數(shù)據(jù)處理技術(shù)的不相兼容,致使對(duì)海量空間數(shù)據(jù)的管理、處理和加工效果仍是差強(qiáng)人意,以此為基礎(chǔ)的數(shù)據(jù)增值產(chǎn)品自然無法順利產(chǎn)生,這已成為制約我國(guó)地理信息系統(tǒng)市場(chǎng)進(jìn)一步發(fā)展的瓶頸。隨著市場(chǎng)競(jìng)爭(zhēng)和用戶需求的現(xiàn)實(shí)需要,地理信息系統(tǒng)空間數(shù)據(jù)集的實(shí)時(shí)更新要求正不斷被提升,在客觀上需要不斷加強(qiáng)的計(jì)算能力及效率。這既是地理信息系統(tǒng)應(yīng)用大數(shù)據(jù)的客觀需要,同時(shí)也是其海量空間數(shù)據(jù)順應(yīng)社會(huì)發(fā)展的必然要求。
3 地理信息系統(tǒng)應(yīng)用大數(shù)據(jù)研究
3.1 數(shù)據(jù)存儲(chǔ)
盡管GIS軟件已經(jīng)通過加入對(duì)象關(guān)系模型實(shí)現(xiàn)了對(duì)RDBMS的性能擴(kuò)展,使其能夠同時(shí)管理圖形、屬性數(shù)據(jù)、影響和DEM數(shù)據(jù),并已實(shí)現(xiàn)了多比例尺空間數(shù)據(jù)的存儲(chǔ),但該數(shù)據(jù)存儲(chǔ)模式已觸碰到既有技術(shù)發(fā)展的瓶頸,并且是導(dǎo)致地理信息系統(tǒng)空間數(shù)據(jù)自動(dòng)綜合能力與效率低下的重要原因。此外,以C/S架構(gòu)為基礎(chǔ)的GIS系統(tǒng)由于自身的封閉性導(dǎo)致了其自身的數(shù)據(jù)共享能力偏弱,對(duì)批量數(shù)據(jù)處理后的存儲(chǔ)與同步性更新能力與效率也仍是有待加強(qiáng)。有鑒于此,有必要采取大數(shù)據(jù)的存儲(chǔ)方式,對(duì)傳統(tǒng)的地理信息系統(tǒng)數(shù)據(jù)存儲(chǔ)模式進(jìn)行革新。
大數(shù)據(jù)處理方式與傳統(tǒng)數(shù)據(jù)處理方式的一大明顯區(qū)別是數(shù)據(jù)存儲(chǔ)形式的不同。傳統(tǒng)的數(shù)據(jù)處理方式在這一環(huán)節(jié)主要依靠RDBMS來實(shí)現(xiàn)。RDBMS尤其擅長(zhǎng)結(jié)構(gòu)化數(shù)據(jù)的數(shù)據(jù)存儲(chǔ),但卻無法很好地存儲(chǔ)半結(jié)構(gòu)化數(shù)據(jù)與非結(jié)構(gòu)化數(shù)據(jù)。而大數(shù)據(jù)處理方式均很擅長(zhǎng)對(duì)半結(jié)構(gòu)化數(shù)據(jù)與非結(jié)構(gòu)化數(shù)據(jù)的存儲(chǔ)。此外,大數(shù)據(jù)普遍采用分布式數(shù)據(jù)庫或分布式計(jì)算集群實(shí)現(xiàn)數(shù)據(jù)的存儲(chǔ)。其數(shù)據(jù)庫類型被人統(tǒng)稱為NoSQL,盡管傳統(tǒng)的RDBMS也有分布式數(shù)據(jù)庫,但它的存儲(chǔ)方式仍以結(jié)構(gòu)化數(shù)據(jù)為主,并在高一致性、高精確度等方面進(jìn)行嚴(yán)格要求,因而無法實(shí)現(xiàn)良好的擴(kuò)展功能,而NoSQL則沒有這方面的嚴(yán)格限制。因此,NoSQL云存儲(chǔ)技術(shù)應(yīng)是未來地理信息系統(tǒng)數(shù)據(jù)存儲(chǔ)的主流技術(shù)。
NoSQL摒棄了RDBMS的關(guān)系與連接特性,保證了在數(shù)據(jù)存儲(chǔ)上的極佳可拓展性。數(shù)據(jù)存儲(chǔ)模型的靈活多變,更是大大減少了其在進(jìn)行數(shù)據(jù)存儲(chǔ)和更新操作時(shí)的系統(tǒng)開銷。以MongoDB為例,它為了實(shí)現(xiàn)對(duì)多樣化的數(shù)據(jù)存儲(chǔ)形式的兼容,采用了面向文檔的數(shù)據(jù)庫管理措施,使得其具備優(yōu)良的可拓展性。其原理就是將RDBMS中“行”的概念替換成“文檔”模型,因而能夠確保實(shí)際數(shù)據(jù)存儲(chǔ)時(shí)文檔或數(shù)組的嵌套,并實(shí)現(xiàn)了復(fù)雜層次關(guān)系的單一記錄存儲(chǔ)[4]。它所存儲(chǔ)的數(shù)據(jù)結(jié)構(gòu)十分松散,保障了其數(shù)據(jù)存儲(chǔ)模型的靈活多變特性,并能夠有效支持復(fù)雜的屬性數(shù)據(jù),在索引結(jié)構(gòu)方面也由于自身復(fù)雜層次關(guān)系的簡(jiǎn)化和查詢索引技術(shù)的強(qiáng)大,已經(jīng)基本實(shí)現(xiàn)了對(duì)RDBMS查詢功能的完全支持。
由此可見,文檔型NoSQL存儲(chǔ)技術(shù)十分符合地理信息系統(tǒng)空間數(shù)據(jù)存儲(chǔ)的要求,并且避免了地理信息系統(tǒng)傳統(tǒng)數(shù)據(jù)存儲(chǔ)技術(shù)在存儲(chǔ)海量空間數(shù)據(jù)時(shí)耗費(fèi)的數(shù)據(jù)壓縮與轉(zhuǎn)換的系統(tǒng)開銷,因而能夠通過對(duì)數(shù)據(jù)存儲(chǔ)方式的革新有效提升地理信息系統(tǒng)在數(shù)據(jù)讀取與更新時(shí)的效率。
3.2 數(shù)據(jù)處理
傳統(tǒng)空間數(shù)據(jù)庫都會(huì)建立多比例尺的空間數(shù)據(jù)庫,再根據(jù)實(shí)際應(yīng)用的需要調(diào)動(dòng)不同比例尺數(shù)據(jù)庫的數(shù)據(jù),來增強(qiáng)地理信息系統(tǒng)對(duì)數(shù)據(jù)處理響應(yīng)速度的需求[1]。但就其實(shí)際操作而言仍無法較好地滿足地理信息系統(tǒng)對(duì)數(shù)據(jù)處理接近實(shí)時(shí)數(shù)據(jù)處理的要求,其矢量數(shù)據(jù)的自動(dòng)綜合能力也是差強(qiáng)人意。但在大數(shù)據(jù)時(shí)代,該空間數(shù)據(jù)的處理方式完全可以用大數(shù)據(jù)的交互式數(shù)據(jù)處理方式來予以解決。
交互式數(shù)據(jù)處理,主要指通過人機(jī)交互來逐步實(shí)現(xiàn)對(duì)數(shù)據(jù)的處理,它能讓數(shù)據(jù)被及時(shí)地處理和修改,并讓處理結(jié)果立刻被用戶知悉和運(yùn)用。當(dāng)前交互式數(shù)據(jù)處理系統(tǒng)有Spark和Dremel等。作為高效分布式計(jì)算系統(tǒng),Spark在性能上要比Hadoop在數(shù)據(jù)處理上的效率提升100倍,并提供了比Hadoop更為上層的API。Spark的代碼簡(jiǎn)潔,Hadoop要實(shí)現(xiàn)與其相同功能的代碼往往需要數(shù)十倍或上百倍的長(zhǎng)度。Dremel則通過組建規(guī)模上千的集群來實(shí)現(xiàn)PB級(jí)別海量數(shù)據(jù)的秒級(jí)處理。因?yàn)镚oogle專門設(shè)計(jì)Dremel用來彌補(bǔ)MapReduce的不足,因而Dremel在規(guī)模上、交互式查詢能力都要比后者優(yōu)越。
以Dremel為例,它通過嵌套式的數(shù)據(jù)模型來支持對(duì)半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的并行處理。通過用列式存儲(chǔ)方法來保存數(shù)據(jù),進(jìn)而在數(shù)據(jù)處理和分析時(shí)只需要針對(duì)指定數(shù)據(jù)進(jìn)行處理,因而減少了CPU和磁盤的訪問量。最后,Dremel結(jié)合了Web搜索和并行DBMS的技術(shù),通過借鑒Web搜索的“查詢樹”概念,將復(fù)雜巨大化的查詢搜索分割成并發(fā)在大量節(jié)點(diǎn)上處理的較小簡(jiǎn)單數(shù)據(jù)查詢。簡(jiǎn)單而言,交互式數(shù)據(jù)處理方式就是通過對(duì)數(shù)據(jù)的分片存儲(chǔ)和對(duì)查詢功能的優(yōu)化來實(shí)現(xiàn)對(duì)海量數(shù)據(jù)的快速處理。
由此可見,地理信息系統(tǒng)傳統(tǒng)的多比例尺數(shù)據(jù)庫數(shù)據(jù)完全可以通過Dremel嵌套式數(shù)據(jù)模型的列式存儲(chǔ)方式進(jìn)行存儲(chǔ),進(jìn)而在響應(yīng)實(shí)際數(shù)據(jù)處理需求時(shí)通過類似Web搜索的處理方法調(diào)出符合查詢要求的分片數(shù)據(jù),從而實(shí)現(xiàn)空間數(shù)據(jù)處理的優(yōu)化,因?yàn)閿?shù)據(jù)搜索的系統(tǒng)開銷大為降低,因而大大提升地理信息系統(tǒng)的數(shù)據(jù)處理響應(yīng)速度。
4 結(jié)束語
經(jīng)過探討地理信息系統(tǒng)在大數(shù)據(jù)應(yīng)用方面的數(shù)據(jù)存儲(chǔ)及數(shù)據(jù)處理問題,并針對(duì)性地給出基于大數(shù)據(jù)的解決措施,可以發(fā)現(xiàn)大數(shù)據(jù)在未來的地理信息系統(tǒng)具備廣闊的應(yīng)用前景。除了本文所提及的MongoDB和Dremel大數(shù)據(jù)處理技術(shù),大數(shù)據(jù)還有以MapReduce為代表的批量數(shù)據(jù)處理技術(shù)、以Storm為代表的流式數(shù)據(jù)處理技術(shù)和以Neo4j為代表的圖數(shù)據(jù)處理技術(shù),它們都在未來的地理信息系統(tǒng)發(fā)展中大有可為。
參考文獻(xiàn):
[1] 龔健雅. 中國(guó)地理信息系統(tǒng)技術(shù)的發(fā)展[J]. 測(cè)繪工程, 2002(2): 5.
[2] 維克托·邁爾·舍恩伯格, 肯尼思·庫克耶.大數(shù)據(jù)時(shí)代[M]. 盛楊燕, 周濤, 譯. 杭州: 浙江人民出版社, 2012.
[3] 韓琳琳, 李元元. 大數(shù)據(jù)在地理信息系統(tǒng)中的應(yīng)用分析[J]. 科技與企業(yè), 2015(3): 83.
[4] 劉卓. 基于NoSQL的空間數(shù)據(jù)云存儲(chǔ)的研究[D]. 鄭州: 河南大學(xué)碩士學(xué)位論文, 2014: 11-18.