譚永杰,文 敏,朱月琴,屈紅剛
(1.中國(guó)地質(zhì)調(diào)查局發(fā)展研究中心,北京 100037;2.國(guó)土資源部地質(zhì)信息技術(shù)重點(diǎn)實(shí)驗(yàn)室,北京 100037)
地質(zhì)數(shù)據(jù)的大數(shù)據(jù)特性研究
譚永杰1,2,文 敏1,2,朱月琴1,2,屈紅剛1,2
(1.中國(guó)地質(zhì)調(diào)查局發(fā)展研究中心,北京 100037;2.國(guó)土資源部地質(zhì)信息技術(shù)重點(diǎn)實(shí)驗(yàn)室,北京 100037)
大數(shù)據(jù)發(fā)展應(yīng)用已成為當(dāng)前社會(huì)和學(xué)術(shù)界的研究熱點(diǎn)。本文基于地質(zhì)工作實(shí)際情況,從地質(zhì)數(shù)據(jù)的采集、匯聚、處理、成果綜合等環(huán)節(jié),系統(tǒng)分析了地質(zhì)數(shù)據(jù)的形成過(guò)程及其數(shù)據(jù)特性,認(rèn)為地質(zhì)工作是一個(gè)大數(shù)據(jù)的完整生態(tài)過(guò)程,其形成的數(shù)據(jù)具有多元(源)、多模態(tài)、異構(gòu)、高度時(shí)空性、大容量高相關(guān)、低價(jià)值密度、復(fù)雜性與不確定性等特點(diǎn),既具有大數(shù)據(jù)的共有特性,又有其自身特點(diǎn),是大數(shù)據(jù)的重要組成部分,并以此提出了目前地質(zhì)大數(shù)據(jù)發(fā)展應(yīng)用中的主要技術(shù)問(wèn)題。
大數(shù)據(jù);地質(zhì)大數(shù)據(jù);數(shù)據(jù)特性;關(guān)鍵技術(shù)問(wèn)題
大數(shù)據(jù)已成為當(dāng)前社會(huì)和技術(shù)發(fā)展的熱點(diǎn)。2012年,美國(guó)發(fā)布“大數(shù)據(jù)研發(fā)計(jì)劃”[1],美國(guó)地質(zhì)調(diào)查局等6個(gè)聯(lián)邦部門(mén)和機(jī)構(gòu)參與,旨在提高和改進(jìn)從海量和復(fù)雜的數(shù)據(jù)中,獲取信息和知識(shí)的能力。我國(guó)于2015年由國(guó)務(wù)院印發(fā)了《促進(jìn)大數(shù)據(jù)發(fā)展行動(dòng)綱要》,國(guó)土資源部、農(nóng)業(yè)部、環(huán)保部、貴州省、北京市等紛紛印發(fā)促進(jìn)大數(shù)據(jù)發(fā)展的實(shí)施意見(jiàn)。大數(shù)據(jù)發(fā)展和應(yīng)用受到國(guó)內(nèi)外各級(jí)政府、社會(huì)及學(xué)術(shù)界、產(chǎn)業(yè)界高度關(guān)注。
中國(guó)地質(zhì)調(diào)查局(以下簡(jiǎn)稱地調(diào)局)高度重視大數(shù)據(jù)技術(shù)及其地質(zhì)應(yīng)用。2015年至今,連續(xù)3年列為地調(diào)局工作的重中之重。2014年,地調(diào)局開(kāi)始設(shè)立地質(zhì)大數(shù)據(jù)與信息服務(wù)工程,開(kāi)展地質(zhì)大數(shù)據(jù)的相關(guān)研究和應(yīng)用工作,工作內(nèi)容包括地質(zhì)大數(shù)據(jù)的頂層設(shè)計(jì)、關(guān)鍵技術(shù)研究,涵蓋地質(zhì)大數(shù)據(jù)的采集、匯聚管理、處理應(yīng)用與服務(wù)全過(guò)程。在地質(zhì)大數(shù)據(jù)的技術(shù)體系、建設(shè)框架和部分基礎(chǔ)理論、方法及應(yīng)用等方面形成了一系列成果[2-3]。但地質(zhì)數(shù)據(jù)的數(shù)據(jù)特性、其與大數(shù)據(jù)的關(guān)系等一系列問(wèn)題,還存在著較大的爭(zhēng)論,這也影響了地質(zhì)大數(shù)據(jù)的進(jìn)一步發(fā)展,因此,本文通過(guò)對(duì)地質(zhì)數(shù)據(jù)的深入思考、系統(tǒng)歸納,初步形成了一些認(rèn)識(shí)。
大數(shù)據(jù)系統(tǒng)通常涉及多個(gè)不同的階段[4-5],最廣為接受的是4個(gè)連續(xù)階段[6],包括數(shù)據(jù)生成、獲取、存儲(chǔ)和分析。地質(zhì)工作旨在采用7種主要手段,包括野外調(diào)查、鉆探槽探等山地工程、地球物理探測(cè)、地球化學(xué)探測(cè)、遙感、分析測(cè)試和綜合研究,研究探索地球表層及地球的物質(zhì)構(gòu)成、結(jié)構(gòu)及演化。基于以上的工作手段,大范圍長(zhǎng)時(shí)間采集巨量地質(zhì)數(shù)據(jù),利用項(xiàng)目匯聚、資料匯交等方法,形成穩(wěn)定匯聚,而地質(zhì)成果均來(lái)自對(duì)已有數(shù)據(jù)和新采集數(shù)據(jù)的分析綜合。因此,地質(zhì)工作是一個(gè)巨量數(shù)據(jù)采集、匯聚存儲(chǔ)管理、分析利用與成果綜合的大數(shù)據(jù)完整生態(tài)過(guò)程。
2.1地質(zhì)數(shù)據(jù)采集
地質(zhì)數(shù)據(jù)的采集逐步走向現(xiàn)代化。隨著計(jì)算機(jī)、物聯(lián)網(wǎng)、對(duì)地觀測(cè)、LBS等技術(shù)發(fā)展,傳統(tǒng)的野外調(diào)查、物探、化探等手段從模擬到數(shù)字化,信息化水平不斷提高;野外地質(zhì)調(diào)查正結(jié)合“3S”、大數(shù)據(jù)等技術(shù)走向智能化[7];國(guó)家地下水、地質(zhì)災(zāi)害等監(jiān)測(cè)網(wǎng)絡(luò)建設(shè)、航空、航天遙感等新型采集平臺(tái)的發(fā)展,使得地質(zhì)數(shù)據(jù)采集走向現(xiàn)代化。
地質(zhì)數(shù)據(jù)的采集逐步走向大范圍高精度。更高空間光譜時(shí)間分辨率的遙感衛(wèi)星、萬(wàn)米大陸深鉆、“海馬”深海潛水器等地質(zhì)裝備研發(fā),使的地質(zhì)數(shù)據(jù)采集逐步走向深空、深地與深海,數(shù)據(jù)采集范圍越來(lái)越廣、效率與精度越來(lái)越高。
利用各種手段采集地球各圈層數(shù)據(jù)是地質(zhì)工作的首要任務(wù)。
2.1.1 多種采集手段
多種采集手段包括野外調(diào)查、鉆探槽探等山地工程、地球物理探測(cè)、地球化學(xué)探測(cè)、遙感、分析測(cè)試和綜合研究等主要手段。野外調(diào)查是地質(zhì)人員到野外現(xiàn)場(chǎng)進(jìn)行實(shí)地觀察,包括點(diǎn)觀察、路線觀察和剖面測(cè)制,記錄描述各種地質(zhì)現(xiàn)象;鉆探槽探等山地工程是利用鉆機(jī)、人工挖槽等方式,對(duì)地球及表層研究進(jìn)行一定范圍的揭露,方便地質(zhì)人員現(xiàn)場(chǎng)觀察和其他探測(cè)手段的實(shí)施,常常形成鉆孔數(shù)據(jù)和測(cè)井?dāng)?shù)據(jù);地球物理探測(cè)利用地球及表層物質(zhì)組成的物性差異,采用物理的方法進(jìn)行探測(cè),主要有電法、磁法、地震勘探、重力勘探、放射性勘探、地球物理測(cè)井等,形成相應(yīng)的數(shù)據(jù)記錄,分析地球及表層物質(zhì)組成及結(jié)構(gòu);地球化學(xué)探測(cè)利用地球及表層物質(zhì)化學(xué)組成差異,采用地球化學(xué)采樣及分析的方法研究地球及表層物質(zhì)組成及結(jié)構(gòu),形成相應(yīng)的數(shù)據(jù)記錄;遙感是利用地球及表層物質(zhì)物性和光性的差異,制作一定的傳感器,在不和觀察物直接接觸的情況下,分析地球及表層物質(zhì)組成及結(jié)構(gòu),目前主要有多光譜遙感、紅外遙感、高光譜遙感、測(cè)試?yán)走_(dá)等,形成海量的遙感數(shù)據(jù);分析測(cè)試是對(duì)野外觀察或鉆探、槽探中采取的地物樣品進(jìn)行物理和化學(xué)分析,形成物理、化學(xué)分析測(cè)試數(shù)據(jù),研究地球及表層物質(zhì)組成及結(jié)構(gòu);綜合分析是對(duì)各種手段采集數(shù)據(jù)的綜合研究,形成成果數(shù)據(jù)。
2.1.2 多層次采集平臺(tái)
地質(zhì)數(shù)據(jù)采集平臺(tái)多樣,包括航空、航天、地表(下)、海洋等類型。其中,航空平臺(tái)如固定翼飛機(jī)、直升飛機(jī)、無(wú)人機(jī)及其機(jī)載探測(cè)設(shè)備;航天平臺(tái)包括光學(xué)、重力等多類型遙感衛(wèi)星及其載荷等;地表(下)平臺(tái)包括在常規(guī)地面、礦井下及鉆孔中開(kāi)展的各種調(diào)查和勘探;海洋平臺(tái)包括海洋地質(zhì)調(diào)查船、海洋鉆探平臺(tái)、深海潛水器等各類平臺(tái)。
2.1.3 多尺度基本單元
地質(zhì)探測(cè)的一組數(shù)據(jù)代表著一定的空間大小,也就是說(shuō)地質(zhì)觀察研究基本單元的空間尺度是不一樣的,例如4 km×4 km的化探、15 m×15 m的遙感等,這種描述稱為地質(zhì)數(shù)據(jù)的基本粒度。這樣,地質(zhì)數(shù)據(jù)的精度就有兩種概念,一是數(shù)據(jù)本身精確性;二是描述對(duì)象的空間尺度大小(空間分辨率)。
2.2地質(zhì)數(shù)據(jù)匯聚管理
在我國(guó),財(cái)政投入的地質(zhì)工作通過(guò)項(xiàng)目、社會(huì)投入的通過(guò)資料匯交,形成了穩(wěn)定和較為完整的數(shù)據(jù)匯聚體系,實(shí)現(xiàn)對(duì)多專業(yè)多類型巨量數(shù)據(jù)的匯聚管理。從20世紀(jì)80年代頒布《全國(guó)地質(zhì)資料匯交管理辦法》,到2002年頒布的《地質(zhì)資料管理?xiàng)l例》(以下簡(jiǎn)稱《條例》),國(guó)家通過(guò)法律形式,對(duì)地質(zhì)資料的匯聚形成了穩(wěn)定體系,由全國(guó)地質(zhì)資料館、各省級(jí)地質(zhì)資料館及委托保管單位構(gòu)成。《條例》規(guī)定,在中華人民共和國(guó)領(lǐng)域及管轄的其他海域范圍內(nèi)開(kāi)展的地質(zhì)工作,都要施行地質(zhì)資料統(tǒng)一匯交。國(guó)家財(cái)政投入的地質(zhì)項(xiàng)目,通過(guò)項(xiàng)目組織體系完成數(shù)據(jù)匯聚。2016年,地質(zhì)大數(shù)據(jù)工程啟動(dòng)地質(zhì)數(shù)據(jù)匯聚管理系統(tǒng)建設(shè),通過(guò)云計(jì)算、互聯(lián)網(wǎng)等信息技術(shù)實(shí)現(xiàn)項(xiàng)目數(shù)據(jù)的云端匯聚,進(jìn)一步提升地質(zhì)數(shù)據(jù)的匯聚管理的效率與質(zhì)量。
2.3地質(zhì)數(shù)據(jù)分析應(yīng)用
2.3.1 大數(shù)據(jù)的重要核心是向數(shù)據(jù)要價(jià)值
地質(zhì)工作采集的各類原始數(shù)據(jù),需要通過(guò)各類地學(xué)分析模型與方法工具的加工和轉(zhuǎn)換,才能形成有價(jià)值的地質(zhì)認(rèn)識(shí)或發(fā)現(xiàn)。從地質(zhì)遙感解譯到物化探異常提取等專業(yè)分析,從資源潛力評(píng)價(jià)到資源環(huán)境承載力評(píng)價(jià)等綜合分析,地質(zhì)成果均來(lái)自數(shù)據(jù)的分析利用與成果綜合。
2.3.2 地質(zhì)數(shù)據(jù)均具有重要的分析利用價(jià)值
數(shù)據(jù)的新鮮度(freshness)是數(shù)據(jù)的潛在價(jià)值體現(xiàn)[8]。地球的演變相對(duì)人類歷史來(lái)說(shuō)緩慢的,地球演化以萬(wàn)年及數(shù)十萬(wàn)年為單元,人們對(duì)于地球及表層的勘探記錄僅有數(shù)百年的歷史,歷史上的任何一次地質(zhì)工作形成的成果記錄都具有現(xiàn)實(shí)性,加之地質(zhì)工作比較艱難,成本比較高,因此,地質(zhì)工作特別強(qiáng)調(diào)對(duì)已有工作成果的綜合利用。近百年來(lái),探測(cè)和積累的地質(zhì)數(shù)據(jù)都有具有重要價(jià)值。
2.3.3 地質(zhì)數(shù)據(jù)分析利用就是一個(gè)大數(shù)據(jù)分析應(yīng)用過(guò)程
具體的地質(zhì)工作探測(cè)研究的對(duì)象是唯一的,采用各種手段對(duì)其進(jìn)行探測(cè),只是利用其物質(zhì)組成及結(jié)構(gòu)的不同特性從不同角度進(jìn)行研究認(rèn)識(shí),其理想的結(jié)果應(yīng)該是高度一致,這也是地質(zhì)工作強(qiáng)調(diào)綜合研究的內(nèi)在原因。地質(zhì)工作往往需要地質(zhì)、地球物理、地球化學(xué)、遙感地質(zhì)等多元地質(zhì)數(shù)據(jù)的綜合分析,且地質(zhì)問(wèn)題都是多因素的復(fù)雜影響,因此多元數(shù)據(jù)的綜合關(guān)聯(lián)分析在地質(zhì)數(shù)據(jù)分析中尤為重要。此外,地震數(shù)據(jù)、遙感數(shù)據(jù)等大規(guī)模數(shù)據(jù)分析處理,需要高性能、分布式的計(jì)算支撐;各類實(shí)時(shí)監(jiān)測(cè)數(shù)據(jù)分析,需要采用流數(shù)據(jù)分析等手段;數(shù)據(jù)分析與挖掘等算法在地質(zhì)統(tǒng)計(jì)學(xué)與各類地質(zhì)建模中廣泛應(yīng)用。大數(shù)據(jù)技術(shù)將助力地質(zhì)數(shù)據(jù)分析利用,為解決更綜合、更復(fù)雜的資源環(huán)境問(wèn)題提供新的解決方案。
李學(xué)龍等[6]將大數(shù)據(jù)分為商業(yè)、網(wǎng)絡(luò)和科學(xué)研究三大領(lǐng)域,并指出在對(duì)地觀測(cè)等領(lǐng)域需要獲取海量的科學(xué)研究大數(shù)據(jù),且學(xué)科的發(fā)展極度依賴于對(duì)這些海量數(shù)據(jù)的分析。地質(zhì)大數(shù)據(jù)具有多元(源)異構(gòu)、多模態(tài)、高度時(shí)空性、大容量高相關(guān)、低價(jià)值密度、復(fù)雜性與不確定性等特點(diǎn),具有大數(shù)據(jù)的共有特征,又有其自身特點(diǎn),對(duì)大數(shù)據(jù)相關(guān)研究極具代表性。地質(zhì)大數(shù)據(jù)就是要用大數(shù)據(jù)、云計(jì)算等理念,重新思考與解決地質(zhì)問(wèn)題,對(duì)支撐國(guó)家經(jīng)濟(jì)社會(huì)與學(xué)科發(fā)展具有重要作用。不論從大數(shù)據(jù)概念的實(shí)質(zhì),還是從大數(shù)據(jù)概念的演化來(lái)看,地質(zhì)數(shù)據(jù)都是屬于大數(shù)據(jù),地質(zhì)大數(shù)據(jù)是國(guó)家大數(shù)據(jù)的重要組成部分。
3.1大數(shù)據(jù)的特性
大數(shù)據(jù)目前沒(méi)有統(tǒng)一的定義。國(guó)際數(shù)據(jù)中心IDC認(rèn)為:大數(shù)據(jù)技術(shù)描述了一個(gè)技術(shù)和體系的新時(shí)代,被設(shè)計(jì)于從大規(guī)模多樣化的數(shù)據(jù)中通過(guò)高速捕獲、發(fā)現(xiàn)和分析技術(shù)提取數(shù)據(jù)的價(jià)值[1],并提出“4V”的大數(shù)據(jù)特點(diǎn)。IT分析公司META集團(tuán)提出數(shù)據(jù)的增長(zhǎng)是三維的,即容量、多樣性和速度的增長(zhǎng)(3Vs)[9],Gartner和多數(shù)產(chǎn)業(yè)界巨頭[10-11]使用“3Vs”模型描述大數(shù)據(jù)。McKinsey公司將大數(shù)據(jù)定義為:超過(guò)了典型數(shù)據(jù)庫(kù)軟件工具捕獲、存儲(chǔ)、管理和分析數(shù)據(jù)能力的數(shù)據(jù)集。美國(guó)國(guó)家標(biāo)準(zhǔn)和技術(shù)研究院NIST同樣認(rèn)為:大數(shù)據(jù)是指數(shù)據(jù)的容量、數(shù)據(jù)的獲取速度或者數(shù)據(jù)的表示限制了使用傳統(tǒng)關(guān)系方法對(duì)數(shù)據(jù)的分析處理能力,需要使用水平擴(kuò)展的機(jī)制以提高處理效率[12]。從大數(shù)據(jù)概念的形成來(lái)看,更加強(qiáng)調(diào)數(shù)據(jù)來(lái)源的廣泛性和全社會(huì)的廣泛應(yīng)用??傮w而言,大數(shù)據(jù)是大容量、多樣性、高速增長(zhǎng)、低價(jià)值密度,且傳統(tǒng)手段已難于管理和有效發(fā)揮其價(jià)值的、具有社會(huì)廣泛應(yīng)用的數(shù)據(jù)集。
3.2地質(zhì)數(shù)據(jù)的數(shù)據(jù)特性
3.2.1 多元(源)異構(gòu)與多模態(tài)
地質(zhì)工作對(duì)象的空間單元是不一樣的,地質(zhì)數(shù)據(jù)代表的基本空間單元是多種尺度的,現(xiàn)有的地質(zhì)數(shù)據(jù)映射多種空間單元。各種手段采集的數(shù)據(jù)、同一類手段不同方法采集的數(shù)據(jù)各自采用不同的數(shù)據(jù)管理方式進(jìn)行存儲(chǔ)管理,形成了多種數(shù)據(jù)源。多種平臺(tái)與手段采集形成各類地質(zhì)數(shù)據(jù),如野外填圖、分析測(cè)試等匯聚GIS與結(jié)構(gòu)化數(shù)據(jù),遙感獲取的柵格影像數(shù)據(jù),地質(zhì)報(bào)告的文檔數(shù)據(jù),地質(zhì)環(huán)境災(zāi)害監(jiān)測(cè)獲得實(shí)時(shí)點(diǎn)位數(shù)據(jù)等。不同工作平臺(tái)形成不同數(shù)據(jù)格式,不同數(shù)據(jù)組織造成不同數(shù)據(jù)結(jié)構(gòu),地質(zhì)本體描述不一致帶來(lái)嚴(yán)重的語(yǔ)義異構(gòu),地質(zhì)數(shù)據(jù)采用的不同空間基準(zhǔn)、空間時(shí)間的不同尺度等,使得形成的地質(zhì)數(shù)據(jù)嚴(yán)重異構(gòu)。同一個(gè)地質(zhì)對(duì)象,通過(guò)不同的方法或平臺(tái),從不同角度與方式描述,形成了多模態(tài)的地質(zhì)數(shù)據(jù)。
3.2.2 高度時(shí)空性
地質(zhì)數(shù)據(jù)的描述對(duì)象是地球,空間屬性是其固有屬性,且在兩個(gè)方面充分體現(xiàn):一方面,地質(zhì)數(shù)據(jù)均是描述特定位置對(duì)象的屬性,如某一位置的巖性、地球化學(xué)成分等,脫離了空間位置的地質(zhì)數(shù)據(jù)沒(méi)有意義;另一方面,地質(zhì)科學(xué)研究具有明顯的區(qū)域性,研究對(duì)象往往帶有明顯的區(qū)域特點(diǎn),如特定區(qū)域內(nèi)的巖石類型、成礦特點(diǎn)等存在明顯區(qū)域特征。
地質(zhì)數(shù)據(jù)的時(shí)間屬性也體現(xiàn)在兩方面:一是地質(zhì)數(shù)據(jù)本身獲取的時(shí)間屬性,任何觀測(cè)數(shù)據(jù)都是在某一時(shí)間點(diǎn)獲取的,具有時(shí)間屬性;二是地質(zhì)對(duì)象本身的時(shí)間屬性,地球的演化與地質(zhì)對(duì)象都具有特定的地質(zhì)年代與時(shí)間點(diǎn),其對(duì)于地質(zhì)研究至關(guān)重要,同位素測(cè)試地質(zhì)年齡等是獲取對(duì)象時(shí)間的重要手段。
地質(zhì)數(shù)據(jù)具有高度的時(shí)空性,加之定義其空間屬性的坐標(biāo)系、投影參數(shù)、探測(cè)精度及基本粒度變化多樣,時(shí)間尺度從分秒跨越至數(shù)十萬(wàn)年,更進(jìn)一步增加了地質(zhì)數(shù)據(jù)的復(fù)雜度。因此,地質(zhì)數(shù)據(jù)的融合分析一定要強(qiáng)調(diào)時(shí)間基準(zhǔn)和空間基準(zhǔn)。
3.2.3 大容量
地質(zhì)工作觀測(cè)對(duì)象廣闊、手段多樣、探測(cè)歷史悠久形成巨量數(shù)據(jù)。目前全國(guó)地質(zhì)工作年投入1 000多億元,累計(jì)投入數(shù)萬(wàn)億元,依托穩(wěn)定的匯聚體系,積累了巨量數(shù)據(jù),現(xiàn)存于各地質(zhì)單位、地質(zhì)工作者和各級(jí)地質(zhì)資料館藏機(jī)構(gòu)。其次,地質(zhì)數(shù)據(jù)采集技術(shù)與手段的提升,使數(shù)據(jù)量呈爆發(fā)式增長(zhǎng),一景幅寬45 km的0.8 m分辨率全色影像達(dá)到1 G,一個(gè)測(cè)點(diǎn)面積約12 km2的高密度三維地震測(cè)量獲取的原始數(shù)據(jù)達(dá)600 G左右。
3.2.4 高相關(guān)、低價(jià)值密度
地質(zhì)數(shù)據(jù)描述的對(duì)象相對(duì)穩(wěn)定,所有數(shù)據(jù)均是針對(duì)同一客觀對(duì)象的不同描述,數(shù)據(jù)間相關(guān)性高,且內(nèi)容多樣,不僅包括本身探測(cè)的地質(zhì)數(shù)據(jù),也含有測(cè)繪地理數(shù)據(jù),并依附了社會(huì)經(jīng)濟(jì)發(fā)展相關(guān)數(shù)據(jù),對(duì)多類型數(shù)據(jù)的綜合與關(guān)聯(lián)分析有重要價(jià)值。相對(duì)于巨量的數(shù)據(jù)規(guī)模,其價(jià)值密度偏低,需要科學(xué)高效的方法技術(shù)來(lái)管理與利用。
3.2.5 復(fù)雜性與模糊不確定性
地質(zhì)數(shù)據(jù)之間關(guān)系是復(fù)雜的,綜合分析的結(jié)果具有模糊不確定性,主要體現(xiàn)在三個(gè)方面。第一,地球及近表層等數(shù)據(jù)描述對(duì)象的高度復(fù)雜與模糊不確定,地球是一個(gè)復(fù)雜巨系統(tǒng),各圈層多因素相互影響,地球演化與各類地質(zhì)現(xiàn)象本身是一個(gè)高度復(fù)雜過(guò)程,地質(zhì)規(guī)律或結(jié)論往往存在模糊性。第二,地質(zhì)數(shù)據(jù)與數(shù)據(jù)描述本身的高度復(fù)雜性與模糊性,主要由描述對(duì)象的復(fù)雜與定量化困難,人類各種認(rèn)識(shí)手段對(duì)地球及近表層的研究對(duì)象來(lái)說(shuō)多為間接的,各種手段認(rèn)識(shí)能力有限,加上數(shù)據(jù)巨量、異構(gòu)、高度時(shí)空性等特點(diǎn)造成。第三,地質(zhì)對(duì)象與地質(zhì)數(shù)據(jù)的復(fù)雜決定了地質(zhì)數(shù)據(jù)的分析、建模與計(jì)算等都存在高度復(fù)雜性,加上無(wú)法采集地球全樣本數(shù)據(jù),因此地質(zhì)數(shù)據(jù)分析結(jié)果大多模糊不確定,對(duì)觀測(cè)對(duì)象的認(rèn)識(shí)是一個(gè)無(wú)窮盡的逼近過(guò)程。
海量數(shù)據(jù)催生了一種新的科研模式,吉姆·格雷(Jim Gray)提出了數(shù)據(jù)密集型科學(xué)研究的“第四范式”(The Fourth Paradigm)[13],并提出其可能是解決全球性挑戰(zhàn)問(wèn)題唯一具有系統(tǒng)性的方法。李國(guó)杰院士等認(rèn)為未來(lái)可能形成數(shù)據(jù)探礦等新興產(chǎn)業(yè)[14]?!秶?guó)土資源大數(shù)據(jù)應(yīng)用發(fā)展實(shí)施意見(jiàn)》提出,發(fā)展智能調(diào)查與監(jiān)測(cè)、培育智慧探礦等新業(yè)態(tài)。全面推進(jìn)地質(zhì)大數(shù)據(jù)發(fā)展,深化其在資源潛力評(píng)價(jià)、資源環(huán)境承載力評(píng)價(jià)、地質(zhì)環(huán)境災(zāi)害監(jiān)測(cè)評(píng)估等各方面應(yīng)用,勢(shì)必成為地質(zhì)工作創(chuàng)新驅(qū)動(dòng)發(fā)展的重要手段,但其分析應(yīng)用仍存在不少科學(xué)與技術(shù)的基本問(wèn)題。
4.1地質(zhì)數(shù)據(jù)的描述與建模
地質(zhì)大數(shù)據(jù)多元(源)異構(gòu)、多實(shí)體和多空間之間的交互動(dòng)態(tài)性,難以用傳統(tǒng)的方法描述與度量,處理的復(fù)雜度高,缺乏科學(xué)有效的特征描述與對(duì)象建?;A(chǔ),影響其有效組織與分析。需要解決多粒度地質(zhì)實(shí)體抽象方法、異構(gòu)多粒度地質(zhì)大數(shù)據(jù)描述模型、形式化表達(dá)模型等關(guān)鍵問(wèn)題,以異構(gòu)多粒度地質(zhì)大數(shù)據(jù)構(gòu)建的事物空間來(lái)描述從微觀到宏觀的異構(gòu)現(xiàn)實(shí)世界。
4.2多元(源)異構(gòu)大容量地質(zhì)數(shù)據(jù)的有效組織管理
從分布式文件系統(tǒng)GFS[15]等新型文件系統(tǒng),到鍵值(key-value)數(shù)據(jù)庫(kù)、Bigtable[16]列式數(shù)據(jù)庫(kù)、Mongo DB[17]文檔數(shù)據(jù)庫(kù)等No SQL數(shù)據(jù)庫(kù),為大數(shù)據(jù)存儲(chǔ)管理提供了新的方式。傳統(tǒng)方式下地質(zhì)數(shù)據(jù)的查詢、統(tǒng)計(jì)、更新等操作不但低效,而且不利于檢索、查詢、挖掘等應(yīng)用,數(shù)據(jù)組織管理能力極低。異構(gòu)數(shù)據(jù)組織管理的核心問(wèn)題,包括多樣化碎片化海量地質(zhì)數(shù)據(jù)存儲(chǔ)管理模型、集成共享等。涉及異構(gòu)多粒度地質(zhì)大數(shù)據(jù)的一體化數(shù)據(jù)模型與全生命周期管理等技術(shù),涵蓋異構(gòu)多粒度地質(zhì)大數(shù)據(jù)模型、數(shù)據(jù)生成與轉(zhuǎn)換、存取與索引、管理與查詢、基本操作與基本計(jì)算等。
4.3地質(zhì)數(shù)據(jù)的有效處理與融合挖掘
傳統(tǒng)統(tǒng)計(jì)分析分為描述性統(tǒng)計(jì)和推斷性統(tǒng)計(jì)。多元統(tǒng)計(jì)分析包括回歸分析、因子分析、聚類分析和判別分析等[18],為地質(zhì)統(tǒng)計(jì)分析奠定了理論基礎(chǔ)。數(shù)據(jù)挖掘技術(shù)及一系列新的數(shù)據(jù)處理模型也為大數(shù)據(jù)分析處理提供了新的思路和工具,C4.5、k-means、神經(jīng)網(wǎng)絡(luò)等數(shù)據(jù)挖掘算法已經(jīng)在人工智能、機(jī)器學(xué)習(xí)等領(lǐng)域得到應(yīng)用[19],通用處理模型如MapReduce[20]、圖處理模型如Google的Pregel[21]、流處理模型如Storm等。但是地質(zhì)數(shù)據(jù)的多源異質(zhì)、基準(zhǔn)不一致、特征多元、語(yǔ)義復(fù)雜等問(wèn)題,結(jié)合地質(zhì)專家知識(shí)、地學(xué)計(jì)算、地學(xué)專業(yè)模型等地質(zhì)大數(shù)據(jù)分析專業(yè)特點(diǎn),使得地質(zhì)大數(shù)據(jù)的有效處理與融合挖掘比較困難,多模態(tài)地質(zhì)時(shí)空對(duì)象分析、不同模態(tài)不同粒度地質(zhì)數(shù)據(jù)融合、唯一地質(zhì)對(duì)象的多數(shù)據(jù)綜合分析建模等問(wèn)題有待解決。
4.4地質(zhì)數(shù)據(jù)的可視化與服務(wù)于有效決策
復(fù)雜性及結(jié)果模糊性為有效決策與可視化帶來(lái)困難。地質(zhì)大數(shù)據(jù)有效輔助決策是指通過(guò)分析應(yīng)用實(shí)現(xiàn)知識(shí)獲取,從而對(duì)決策給予支撐。數(shù)據(jù)可視化的目標(biāo)是以圖形方式清晰有效地展示信息[22],使結(jié)果更直觀以便于洞察[23]。然而地質(zhì)現(xiàn)象本身的復(fù)雜與模糊不確定性、地質(zhì)大數(shù)據(jù)描述及分析結(jié)果的復(fù)雜性與不確定性都對(duì)地質(zhì)大數(shù)據(jù)可視化的困難,影響支撐有效決策。需要研究多粒度地質(zhì)對(duì)象數(shù)據(jù)復(fù)雜性和不確定性特征描述模型,從根本上對(duì)數(shù)據(jù)的處理方式能夠提出新的模型方法,并能夠把握模型的表達(dá)能力與復(fù)雜程度之間的平衡,突破地質(zhì)大數(shù)據(jù)的復(fù)雜性和不確定性描述及建模等問(wèn)題。
通過(guò)近年來(lái)地質(zhì)大數(shù)據(jù)研究實(shí)踐得出,地質(zhì)工作是一個(gè)大數(shù)據(jù)的完整生態(tài)過(guò)程,其形成的數(shù)據(jù)具有多元(源)、多模態(tài)、異構(gòu)、高度時(shí)空性、大容量高相關(guān)、低價(jià)值密度、復(fù)雜性與不確定性等特點(diǎn),既具有大數(shù)據(jù)的共有特性,又有其自身特點(diǎn),是大數(shù)據(jù)的重要組成部分。其研究與應(yīng)用在大數(shù)據(jù)領(lǐng)域極具代表性,大數(shù)據(jù)的理論技術(shù)與思維給各行各業(yè)帶來(lái)新的驅(qū)動(dòng)力,大數(shù)據(jù)革命將對(duì)地質(zhì)工作帶來(lái)創(chuàng)新發(fā)展,地質(zhì)大數(shù)據(jù)的應(yīng)用前景廣闊,但是仍面臨不少的問(wèn)題,需要進(jìn)一步的研究探索。
[1] Tom Kalil.Big Data is a Big Deal[R].2012.
[2] 譚永杰.地質(zhì)大數(shù)據(jù)與信息服務(wù)工程技術(shù)框架[J].地理信息世界,2016,23(1):1-9.
[3] 譚永杰.地質(zhì)大數(shù)據(jù)體系建設(shè)的總體框架研究[J].中國(guó)地質(zhì)調(diào)查,2016,3(3):1-6.
[4] Agrawal D,Bernstein P,Bertino E,et al.Challenges and opportunities with big data-a community white paper developed by leading researchers across the United States[M].Computing Research Association,2012.
[5] Fisher D,De Line R,Czerwinski M,et al.Interactions with big data analytics[J].Interactions,2012,19:50-59.
[6] 李學(xué)龍,龔海剛.大數(shù)據(jù)系統(tǒng)綜述[J].中國(guó)科學(xué):信息科學(xué),2015,45(1):1-44.
[7] 李超嶺,李健強(qiáng),張宏春,等.智能地質(zhì)調(diào)查大數(shù)據(jù)應(yīng)用體系架構(gòu)與關(guān)鍵技術(shù)[J].地質(zhì)通報(bào),2015,34(7):1288-1299.
[8] Tatbul N.Streaming data integration:Challenges and opportunities[C].Proceedings of the 26th International Conference on Data Engineering Workshops,California,2010:155-158.
[9] Manyika J,Chui M,Brown B,et al.Big data:the next frontier for innovation,competition,and productivity[M].Mc Kinsey Global Institute,2011.
[10] Zikopoulos P,Eaton C.Understanding big data:analytics for enterprise class hadoop and streaming data[M].New York:Mc Graw-Hill Osborne Media,2011.
[11] Meijer E.The world according to LINQ[J].Commun ACM,2011,54:45-51.
[12] Cooper M,Mell P.Tackling Big Data[R].NIST,2012.
[13] Tony Hey,Stewart Tansley,Kristin Tolle(Editors).The Fourth Paradigm:Data-Intensive Scientific Discovery[R].Microsoft,2009.
[14] 李國(guó)杰,程學(xué)旗.大數(shù)據(jù)研究:未來(lái)科技及經(jīng)濟(jì)社會(huì)發(fā)展的重大戰(zhàn)略領(lǐng)域——大數(shù)據(jù)的研究現(xiàn)狀與科學(xué)思考[J].中國(guó)科學(xué)院院刊,2012(6):647-657.
[15] Ghemawat S,Gobioff H,Leung S T.The Google file system.In:Proceedings of the nineteenth ACM symposium on Operating systems principles[M].New York,NY,USA,2003:29-43.
[16] Chang F,Dean J,Ghemawat S,et al.Bigtable:A distributed storage system for structured data[J].ACM Trans Comput Syst,2008,26:1-4.
[17] Labrinidis A,Jagadish H V.Challenges and opportunities with big data[J].Proc VLDB Endowment,2012,5:2032-2033.
[18] Anderson T W.An Introduction to Multivariate Statistical Analysis.3rd ed[M].New York:John Wiley & Sons,2003.
[19] Wu X,Kumar V,Ross-Quinlan J,et al.Top 10 algorithms in data mining[J].Knowl Inf Syst,2007,14:1-37.
[20] Dean J,Ghemawat S.Map Reduce:simplified data processing on large clusters[J].Commun ACM,2008,51:107-113.
[21] Malewicz G,Austern M H,Bik A J,et al.Pregel:a system for large-scale graph processing[C].Proceedings of the ACM SIGMOD International Conference on Management of Data,Indianapolis,2010:35-146.
[22] Laurila J K,Gatica-Perez D,Aad I,et al.The mobile data challenge:big data for mobile computing research.In:Proceedings of the Workshop on the Nokia Mobile Data Challenge[C]//The 10th International Conference on Pervasive Computing,Newcastle,2012.
[23] 鄔賀銓.大數(shù)據(jù)時(shí)代的機(jī)遇與挑戰(zhàn)[J].信息安全與通信保密,2013(7):9-10.
Researchonthebigdatacharacteristicsofgeologicaldata
TAN Yongjie1,2,WEN Min1,2,ZHU Yueqin1,2,QU Honggang1,2
(1.Development and Research Center,China Geological Survey,Beijing100037,China;2.Key Laboratory of Geological Information Technology of Ministry of Land and Resources,Beijing100037,China)
The development and application of big data are hotspots in current academic area.This paper analysis the life circle and the characteristics of the geological data in the aspects of its collection,gathering,storage,analysis,which draw conclusions that,the geological works is a typical ecological process of big data.The geological data has the characteristics include:multiple(source),multimodal,heterogeneous,highly spatio-temporal,high volume and correlation,low value density,complexity and uncertainly.Geological data not only have the common features of the big data,but also has its own special attributes,it is the important component of the big data.The key technical issues during the development and application are summarized in this paper.
big data;geological big data;data characteristics;key technical issues
2017-05-28責(zé)任編輯:趙奎濤
國(guó)土資源部公益性行業(yè)科研專項(xiàng)項(xiàng)目資助(編號(hào):201511079)
譚永杰,男,教授級(jí)高級(jí)工程師,博士,主要從事地質(zhì)礦產(chǎn)勘查與地質(zhì)信息化研究工作,E-mail:tan-yj@263.net。
文敏(1986-),男,高級(jí)工程師,從事地質(zhì)調(diào)查信息化方面工作,E-mail:wenm@mail.cgs.gov.cn。
TP18
:A
:1004-4051(2017)09-0067-05