胡 瑛
(浙江省第二測(cè)繪院,浙江 杭州 310012)
大數(shù)據(jù)處理技術(shù)在地理信息檔案管理中的應(yīng)用
胡 瑛
(浙江省第二測(cè)繪院,浙江 杭州 310012)
分析了當(dāng)前地理信息檔案管理的現(xiàn)狀及面臨的問(wèn)題,介紹了HDFS文件管理系統(tǒng)、云存儲(chǔ)、Elastic Search檢索、非結(jié)構(gòu)化數(shù)據(jù)庫(kù)、知識(shí)圖譜5種大數(shù)據(jù)處理技術(shù),并對(duì)其在省級(jí)地理信息檔案資源大數(shù)據(jù)處理平臺(tái)構(gòu)建、地理信息檔案數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)兩方面的應(yīng)用進(jìn)行了論述。
大數(shù)據(jù);地理信息檔案;地理信息檔案管理;大數(shù)據(jù)處理技術(shù);大數(shù)據(jù)處理平臺(tái)構(gòu)建;數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)
近年來(lái),大數(shù)據(jù)已對(duì)國(guó)家科學(xué)技術(shù)、經(jīng)濟(jì)發(fā)展、社會(huì)進(jìn)步等各方面產(chǎn)生了巨大的影響[1]。發(fā)達(dá)國(guó)家十分重視大數(shù)據(jù)技術(shù),美國(guó)于2012年發(fā)布了《大數(shù)據(jù)的研究和發(fā)展計(jì)劃》,英國(guó)、澳大利亞、日本、韓國(guó)分別于2013年發(fā)布了《英國(guó)數(shù)據(jù)能力發(fā)展戰(zhàn)略規(guī)劃》《公共服務(wù)大數(shù)據(jù)戰(zhàn)略》《創(chuàng)建最尖端IT國(guó)家宣言》《第五次國(guó)家信息化基本計(jì)劃》。而中國(guó)也在“十三五”規(guī)劃中明確指出“實(shí)施國(guó)家大數(shù)據(jù)戰(zhàn)略,推進(jìn)數(shù)據(jù)資源開(kāi)放共享”。在世界各國(guó)大數(shù)據(jù)戰(zhàn)略背景下,大數(shù)據(jù)在社會(huì)各個(gè)領(lǐng)域都得到了廣泛的應(yīng)用,隨之帶來(lái)的數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)分析和檢索等方面的問(wèn)題也日益突出。在地理信息檔案管理工作中,同樣面臨著檔案存儲(chǔ)內(nèi)容日益增多、維護(hù)成本逐年上漲、信息檢索低效耗時(shí)等問(wèn)題。
目前在地理信息領(lǐng)域,檔案的類(lèi)型有傳統(tǒng)的文字檔案,但更多的是非結(jié)構(gòu)化地理地圖信息(三維地圖、遙感影像和規(guī)劃圖紙等)。如何有效管理這些結(jié)構(gòu)復(fù)雜的文檔,是一直困擾著地理信息檔案管理工作者的實(shí)際問(wèn)題。隨著大數(shù)據(jù)處理技術(shù)的發(fā)展,包括HDFS、云存儲(chǔ)、知識(shí)圖譜等在內(nèi)的新興大數(shù)據(jù)處理技術(shù)的出現(xiàn),為非結(jié)構(gòu)化文檔的高效管理利用提供了切實(shí)有效的工具。
目前地理信息檔案管理多集中于國(guó)家企事業(yè)測(cè)繪單位,主要由專(zhuān)門(mén)的資料檔案管理部門(mén)進(jìn)行專(zhuān)項(xiàng)管理。隨著地理信息產(chǎn)業(yè)的迅猛發(fā)展,以及數(shù)字城市、智慧城市的建設(shè),越來(lái)越多與地理空間位置有關(guān)的文檔納入到檔案管理中來(lái)。地理信息行業(yè)檔案管理主要面臨以下幾個(gè)問(wèn)題:一是數(shù)據(jù)量大?,F(xiàn)階段檔案管理主要采取紙質(zhì)文件存檔和電子文檔保存相結(jié)合的方式,筆者所在單位現(xiàn)階段已存檔的部分省內(nèi)地理信息相關(guān)文檔約400 TB,且每日以100 GB的速度增長(zhǎng),如何有效存儲(chǔ)這些文檔,并根據(jù)需求進(jìn)行有效擴(kuò)展,是目前急需解決的問(wèn)題。二是文檔數(shù)據(jù)結(jié)構(gòu)復(fù)雜。地理信息數(shù)據(jù)既包括結(jié)構(gòu)化數(shù)據(jù)(如地理空間坐標(biāo)信息、道路基本信息等),也包括大量的非結(jié)構(gòu)化數(shù)據(jù)(如道路采集影像、規(guī)劃圖紙、三維模型等),數(shù)據(jù)檢索耗時(shí)長(zhǎng)、難度大。三是數(shù)據(jù)安全性低。由于數(shù)據(jù)量龐大、格式復(fù)雜,無(wú)法統(tǒng)一集中存儲(chǔ),造成數(shù)據(jù)分散管理,數(shù)據(jù)安全無(wú)法保障,且存在“數(shù)據(jù)孤島”。這些問(wèn)題一直困擾著地理信息數(shù)據(jù)檔案管理工作者[3]。而各類(lèi)大數(shù)據(jù)處理技術(shù)的出現(xiàn),讓這些問(wèn)題的解決成為可能。
大數(shù)據(jù)時(shí)代,特別是以Hadoop為核心的非結(jié)構(gòu)化文檔分布式存儲(chǔ)文件系統(tǒng)的推出,為檔案管理提出了一個(gè)切實(shí)有效的解放方案。Hadoop HDFS(Hadoop distributed file system)由Apache基金會(huì)開(kāi)發(fā),具有以下特性:
1) 應(yīng)用成本低??刹渴鹪诘土挠布?,在系統(tǒng)擴(kuò)容方面成本低,實(shí)施方便。
2) 支持高吞吐量、高并發(fā)訪問(wèn)應(yīng)用程序的數(shù)據(jù),適用于具有超大數(shù)據(jù)集,且訪問(wèn)并發(fā)量大的文件管理程序。
3) 可靠、高效。Hadoop對(duì)文檔進(jìn)行分布存儲(chǔ),提高了檔案管理系統(tǒng)的可靠性。
4) 具有良好的擴(kuò)展性。使用MapReduce進(jìn)行分布式計(jì)算,在可用的計(jì)算機(jī)集簇間分配數(shù)據(jù)并完成計(jì)算任務(wù),這些集簇可以方便地?cái)U(kuò)展到數(shù)以千計(jì)的節(jié)點(diǎn)中。因此HDFS能夠有效解決檔案管理中文檔無(wú)法集中大量存儲(chǔ)的問(wèn)題。
5) 支持包括文檔、音像、圖片等傳統(tǒng)文件格式,同時(shí)基于HDFS的數(shù)據(jù)庫(kù),包括HIVE和Impala等結(jié)構(gòu)化數(shù)據(jù)庫(kù),支持查詢(xún)、更新等功能。構(gòu)建基于HDFS的檔案管理系統(tǒng),實(shí)現(xiàn)海量、多結(jié)構(gòu)的檔案文件集中、高效、安全存儲(chǔ),為地理信息檔案的應(yīng)用提供有效保障。
云存儲(chǔ)是云計(jì)算(cloud computing)概念上延伸和發(fā)展出來(lái)的一個(gè)新概念,是一種新興的網(wǎng)絡(luò)存儲(chǔ)技術(shù),指通過(guò)集群應(yīng)用、網(wǎng)絡(luò)技術(shù)或HDFS等功能,將網(wǎng)絡(luò)中大量的各種不同類(lèi)型的存儲(chǔ)設(shè)備通過(guò)應(yīng)用軟件集合起來(lái)協(xié)同工作,共同對(duì)外提供數(shù)據(jù)存儲(chǔ)和業(yè)務(wù)訪問(wèn)的一個(gè)系統(tǒng)。簡(jiǎn)單來(lái)說(shuō),云存儲(chǔ)就是將儲(chǔ)存資源放到云上供人們存取的一種新興技術(shù)。
Elastic Search(ES)采用Java開(kāi)發(fā),基于Restful Web接口,支持分布式多用戶(hù)全文搜索,是當(dāng)前流行的企業(yè)級(jí)搜索引擎。地理信息文檔管理工作中,最為困難的是文檔檢索。ES具有零配置、快速搜索等特點(diǎn),能夠應(yīng)用于HDFS和傳統(tǒng)Java應(yīng)用,并支持并發(fā)訪問(wèn),它集合了主流的ICTCLAS、庖丁解牛、Lucene分詞等工具,支持中文文檔的分詞檢索,可以較好地實(shí)現(xiàn)地理信息檔案的快速檢索。
目前檔案管理的文件主要為非結(jié)構(gòu)化文檔,數(shù)據(jù)包括且不限于文檔、音頻、圖譜和影像等類(lèi)型,而傳統(tǒng)的主流數(shù)據(jù)庫(kù)(如Oracle、DB2和MySQL等)無(wú)法對(duì)這些非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行有效的存儲(chǔ)和應(yīng)用。采用數(shù)據(jù)庫(kù)對(duì)文檔內(nèi)容進(jìn)行存儲(chǔ)并支持內(nèi)容分析,現(xiàn)有的主要方式是采用基于key-value的非結(jié)構(gòu)數(shù)據(jù)庫(kù),其中Mongo DB應(yīng)用最為廣泛。
知識(shí)圖譜是一種基于圖的數(shù)據(jù)結(jié)構(gòu),本質(zhì)上是語(yǔ)義網(wǎng)絡(luò),由節(jié)點(diǎn)(Point)和邊(Edge)組成。在知識(shí)圖譜里,每個(gè)節(jié)點(diǎn)表示現(xiàn)實(shí)世界中存在的實(shí)體,每條邊為實(shí)體與實(shí)體之間的關(guān)系。知識(shí)圖譜是關(guān)系的最有效表示方式。通俗地講,知識(shí)圖譜就是把所有不同種類(lèi)的信息(heterogeneous information)連接在一起而得到的一個(gè)關(guān)系網(wǎng)絡(luò)。知識(shí)圖譜提供了從關(guān)系的角度去分析問(wèn)題的能力。隨著知識(shí)圖譜的應(yīng)用日益普及,越來(lái)越多的公司將其應(yīng)用到文檔管理中,知識(shí)圖譜能夠有效地管理文檔間的關(guān)聯(lián)關(guān)系和抽取文檔中的知識(shí)點(diǎn),為后續(xù)的文檔管理提供支持。
地理信息檔案管理中最核心的任務(wù)是數(shù)據(jù)的管理存儲(chǔ)與信息挖掘,而大數(shù)據(jù)處理技術(shù)在這兩方面的應(yīng)用將引導(dǎo)檔案管理工作從實(shí)體管理向知識(shí)管理進(jìn)行轉(zhuǎn)變。
地理信息檔案資源主要包括大地測(cè)量成果、工程測(cè)量成果、航測(cè)測(cè)繪成果、地理信息數(shù)據(jù)庫(kù)成果、導(dǎo)航地理信息成果、地圖制圖成果、地理國(guó)情普查測(cè)繪成果、海洋地理信息成果及其他地理信息成果檔案。除了坐標(biāo)成果信息等結(jié)構(gòu)化數(shù)據(jù)之外,還包括大量的技術(shù)文檔、文本、圖片、XML、HTML、各類(lèi)表格、音視頻信息等非結(jié)構(gòu)化數(shù)據(jù),尤其是歷史地理信息檔案資源。這些地理信息資源生成年代久遠(yuǎn),信息化程度較低,必然會(huì)存在大量非結(jié)構(gòu)化數(shù)據(jù)。因此對(duì)地理信息檔案資源管理工作中面對(duì)的大量多源異構(gòu)檔案數(shù)據(jù),可考慮應(yīng)用大數(shù)據(jù)處理技術(shù)構(gòu)建省級(jí)地理信息檔案資源大數(shù)據(jù)處理平臺(tái)。
首先利用Hadoop HDFS構(gòu)建檔案管理集群,由于Hadoop HDFS對(duì)單一節(jié)點(diǎn)硬件資源要求較低,初期可利用檔案館內(nèi)現(xiàn)有的硬件資源構(gòu)建成50~100節(jié)點(diǎn)的檔案管理集群,而集群中所有節(jié)點(diǎn)協(xié)同工作來(lái)負(fù)責(zé)數(shù)據(jù)的存儲(chǔ)和計(jì)算,后期可根據(jù)檔案管理需要,隨時(shí)進(jìn)行節(jié)點(diǎn)擴(kuò)展,以滿(mǎn)足日益增長(zhǎng)的檔案數(shù)據(jù)對(duì)存儲(chǔ)空間和計(jì)算性能的彈性需求。其次利用Hbase數(shù)據(jù)工廠對(duì)大量半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行處理,生成結(jié)構(gòu)化數(shù)據(jù),再存儲(chǔ)到Hadoop的數(shù)據(jù)庫(kù)中。然后布設(shè)Hive數(shù)據(jù)倉(cāng)庫(kù),對(duì)結(jié)構(gòu)化數(shù)據(jù)進(jìn)行管理入庫(kù)。通過(guò)Hive、Hbase的聯(lián)合使用,實(shí)現(xiàn)結(jié)構(gòu)化與非結(jié)構(gòu)化兩類(lèi)地理信息檔案數(shù)據(jù)的集群式存儲(chǔ)與管理。最后利用MapReduce進(jìn)行分布式計(jì)算,通過(guò)Hadoop集群中的并行計(jì)算來(lái)實(shí)現(xiàn)大量數(shù)據(jù)的同步處理,由此形成一個(gè)基于Hadoop框架,包括文件系統(tǒng)(HDFS)、數(shù)據(jù)庫(kù)(Hive、Hbase)、數(shù)據(jù)處理(MapReduce)等功能的完整的地理信息檔案大數(shù)據(jù)處理平臺(tái)。
近年來(lái),隨著地理信息數(shù)據(jù)獲取手段的發(fā)展,筆者所在單位的地理信息檔案資源數(shù)據(jù)日益增長(zhǎng),加之歷年來(lái)積累的地理信息數(shù)據(jù)檔案,形成了海量地理信息檔案資源,要挖掘出其中蘊(yùn)藏著的寶貴知識(shí)財(cái)富,光靠人工是無(wú)法完成的,必須借助技術(shù),而大數(shù)據(jù)處理技術(shù)恰恰是一個(gè)最佳的選擇。
數(shù)據(jù)分析是整個(gè)大數(shù)據(jù)處理的核心,如何充分有效地利用數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn)對(duì)大數(shù)據(jù)進(jìn)行開(kāi)發(fā)分析,是大數(shù)據(jù)時(shí)代知識(shí)服務(wù)深入發(fā)展的重要方向,也是檔案管理部門(mén)服務(wù)創(chuàng)新的關(guān)鍵途徑。筆者對(duì)館藏大量多源異構(gòu)數(shù)據(jù)進(jìn)行清洗、抽取、集成,轉(zhuǎn)換數(shù)據(jù)為易于分析的形式并載入文件系統(tǒng)、數(shù)據(jù)倉(cāng)庫(kù)或分布式處理模型,搭建起一個(gè)完整的地理信息檔案大數(shù)據(jù)處理平臺(tái)后,對(duì)數(shù)據(jù)進(jìn)行挖掘和知識(shí)發(fā)現(xiàn)的條件就已具備。結(jié)合知識(shí)圖譜,利用ES全文搜索引擎實(shí)現(xiàn)對(duì)數(shù)據(jù)的語(yǔ)義理解,提高搜索質(zhì)量,為用戶(hù)找出更加準(zhǔn)確的信息,作出更全面的總結(jié)并提供更有深度的相關(guān)信息。
地理信息檔案資源中含有豐富的隱藏信息。通過(guò)地理信息檔案資源的數(shù)據(jù)挖掘,提取有用的相關(guān)資料,對(duì)有相同或近似的地理信息檔案查詢(xún)可以進(jìn)行關(guān)聯(lián)性的提取和推薦,如在某區(qū)域(某縣)提取應(yīng)急地理信息檔案時(shí),可以同時(shí)推薦其相關(guān)的人口統(tǒng)計(jì)專(zhuān)題信息、地質(zhì)災(zāi)害專(zhuān)題信息;結(jié)合地理空間可視化和本體語(yǔ)義分析等工具,當(dāng)有一個(gè)與地理信息相關(guān)的查詢(xún)需求提出時(shí),能自動(dòng)從地理信息檔案資源中獲取相關(guān)聯(lián)的地理信息檔案資源,進(jìn)行地理信息大數(shù)據(jù)的空間或非空間運(yùn)算、分析,乃至數(shù)據(jù)挖掘。如在基于知識(shí)圖譜的地理信息檔案管理系統(tǒng)中查詢(xún)景寧縣近5年內(nèi)農(nóng)業(yè)用地變化情況時(shí),系統(tǒng)將查詢(xún)近5年來(lái)地理國(guó)情普查數(shù)據(jù),并結(jié)合最新的基礎(chǔ)地理信息數(shù)據(jù),對(duì)所有與農(nóng)業(yè)用地(如水田、旱地等)相關(guān)的基礎(chǔ)地理信息圖層進(jìn)行疊置分析,結(jié)合最新的遙感數(shù)據(jù),對(duì)分析結(jié)果進(jìn)行矯正,最后自動(dòng)選用制圖模板,動(dòng)態(tài)地生成農(nóng)業(yè)用地變化情況返回給用戶(hù),進(jìn)而可發(fā)現(xiàn)一些隱藏的知識(shí)(如景寧產(chǎn)茶區(qū)的茶葉種植品種呈現(xiàn)逐年多樣化趨勢(shì))。
與非空間數(shù)據(jù)挖掘的方法相類(lèi)似,地理信息檔案數(shù)據(jù)挖掘的技術(shù)主要包括:地理信息檔案數(shù)據(jù)預(yù)處理技術(shù),如地理信息數(shù)據(jù)的選取、過(guò)濾、降維,以及地理信息檔案區(qū)域分割等;地理信息檔案空間特征和空間模式提取技術(shù),如地理信息檔案分類(lèi)、地理信息檔案規(guī)則提取、地理信息預(yù)測(cè)和地理信息檔案聚類(lèi)等,既包括有針對(duì)地理信息檔案監(jiān)督學(xué)習(xí)也包含地理信息檔案無(wú)監(jiān)督學(xué)習(xí)。
如對(duì)基于航空、航天遙感影像相關(guān)地理信息檔案的分類(lèi)技術(shù)流程主要為4步:
1) 構(gòu)建航空、航天遙感影像相關(guān)地理信息檔案表達(dá)模型,對(duì)已進(jìn)行類(lèi)標(biāo)記的航空、航天遙感影像相關(guān)地理信息檔案樣本數(shù)據(jù)進(jìn)行特征提取,并建立每個(gè)樣本影像的空間關(guān)系和屬性描述。
2) 對(duì)航空、航天遙感影像相關(guān)地理信息檔案樣本數(shù)據(jù)集進(jìn)行基于空間或非空間的訓(xùn)練和學(xué)習(xí),得到具有相當(dāng)分類(lèi)支持度和確信度的分類(lèi)表達(dá)模型,若有必要?jiǎng)t增加約束關(guān)系。
3) 對(duì)分類(lèi)模型進(jìn)行評(píng)估,先取更精準(zhǔn)的分類(lèi)表達(dá)模型。
4) 根據(jù)最優(yōu)或次優(yōu)分類(lèi)表達(dá)模型對(duì)未分類(lèi)的歷史或新輸入的航空、航天遙感影像數(shù)據(jù)集進(jìn)行自動(dòng)分類(lèi)處理。
該步驟適合處理其他近似的地理信息檔案數(shù)據(jù)。
因此,數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn)使基于大數(shù)據(jù)處理的地理信息檔案資源管理更加智能化。
綜上所述,大數(shù)據(jù)技術(shù)在處理海量、非結(jié)構(gòu)化數(shù)據(jù)上有著傳統(tǒng)文件系統(tǒng)和數(shù)據(jù)庫(kù)無(wú)法比擬的優(yōu)勢(shì)。采用基于HDFS的大數(shù)據(jù)處理技術(shù)可實(shí)現(xiàn)地理信息數(shù)據(jù)的集中安全存儲(chǔ),通過(guò)搭建基于Hadoop省級(jí)地理信息檔案資源大數(shù)據(jù)處理平臺(tái),可實(shí)現(xiàn)地理信息數(shù)據(jù)的云存儲(chǔ)和云應(yīng)用?;贓S檢索、知識(shí)圖譜和非結(jié)構(gòu)化數(shù)據(jù)等技術(shù),可解決檔案管理工作中數(shù)據(jù)快速檢索速度慢、數(shù)據(jù)可用性差、檔案對(duì)業(yè)務(wù)發(fā)展支撐力度不夠等問(wèn)題,提升檔案管理工作效率,而結(jié)合數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn)技術(shù),可大幅提升地理信息檔案資源管理的智能性,實(shí)現(xiàn)檔案管理工作從實(shí)體管理向知識(shí)管理的轉(zhuǎn)變。
[1] 百度百科.大數(shù)據(jù)[EB/OL].[2016-06-20].http:∥baike.baidu.com/subview/6954399/13647476.htm?fr=Aladdin.
[2] KITCHIN R.The Data Revolution:Big Data,Open Data,Data Infrastructures and Their Consequences[M].London:Sage,2014.
[3] 閻曉峰. 大數(shù)據(jù)與檔案資源開(kāi)發(fā)利用[J]. 中國(guó)檔案,2015(11): 16-19.
[4] 金舒平,翟永. 國(guó)家測(cè)繪成果檔案存儲(chǔ)與服務(wù)設(shè)施項(xiàng)目初步設(shè)計(jì)[R].北京:國(guó)家測(cè)繪地理信息局,2013:75-76.
[5] 李德仁,錢(qián)新林.淺論自發(fā)地理信息的數(shù)據(jù)管理[J].武漢大學(xué)學(xué)報(bào)(信息科學(xué)版),2010,35(4):379-383.
ApplicationofBigDataProcessingTechnologyinGeographicInformationFileManagement
HU Ying
胡瑛.大數(shù)據(jù)處理技術(shù)在地理信息檔案管理中的應(yīng)用[J].測(cè)繪通報(bào),2016(9):112-114.
10.13474/j.cnki.11-2246.2016.0307.
P208
B
0494-0911(2016)09-0112-03
2016-06-18
胡 瑛(1962—),女,工程師,主要從事測(cè)繪檔案數(shù)據(jù)管理工作。E-mail:zjhzwhw@163.com