余秋實,邵燕林
(1.長江大學 地球科學學院,湖北 武漢 430000)
空間數(shù)據(jù)庫是旨在研究空間物體和空間數(shù)據(jù)的表示方法和有效存儲結(jié)構(gòu),并在計算機中建立相應的數(shù)據(jù)模型,最終構(gòu)建一定的空間索引方法的科學。空間數(shù)據(jù)的特殊性質(zhì)—現(xiàn)實性、一致性、完整性,以及特有的空間關(guān)系特征和非結(jié)構(gòu)化特征等[1],使得空間數(shù)據(jù)庫從最開始的文件索引系統(tǒng)逐步向大數(shù)據(jù)方向演化,并能結(jié)合不同的實際用途共同開發(fā)多個方向的數(shù)據(jù)管理系統(tǒng),逐步拓展了空間應用范圍、增加了數(shù)據(jù)庫的管理功能。
在空間數(shù)據(jù)庫的全部結(jié)構(gòu)中,對空間數(shù)據(jù)的存儲、索引、壓縮和空間查詢進行處理與優(yōu)化是重中之重,吸引著人們不斷為之探索新技術(shù)、開發(fā)新應用。從較早的強調(diào)繼承性與多態(tài)性的面向?qū)ο蟮能浖椒?,到應用在對象關(guān)系數(shù)據(jù)庫中,結(jié)合抽象數(shù)據(jù)類型來支持空間索引、空間操作和查詢優(yōu)化等操作,空間數(shù)據(jù)庫的清晰脈絡在演變中不斷發(fā)展與更新,也體現(xiàn)了人們不斷更新的應用空間數(shù)據(jù)的方式。
空間數(shù)據(jù)庫的五大核心技術(shù)分別為空間概念模型、空間數(shù)據(jù)類型與操作、空間查詢語言、空間操作算法和空間索引訪問方法[2]。近年來,空間數(shù)據(jù)庫的創(chuàng)新性內(nèi)容無一不是圍繞著五大核心技術(shù)而成,其他基礎性的概念與內(nèi)容也愈發(fā)得到了更多的了解與認同。
地理的不斷發(fā)展以及相關(guān)技術(shù)的更新?lián)Q代使得該學科愈發(fā)體現(xiàn)出其重要的基礎優(yōu)勢,“回歸地理”將成為近期研究的著力點,這意味著空間數(shù)據(jù)庫在結(jié)合了越來越多的實際用途后,終于能回到服務地理應用、共同構(gòu)建基礎地理支撐與操作這一方面。
傳統(tǒng)的數(shù)據(jù)更新主要依靠測繪人員繪制的基礎圖幅地形圖進行更新,過于冗雜耗時,且無法適應新時代信息更新?lián)Q代的速度,因此需對空間數(shù)據(jù)庫中的數(shù)據(jù)標準、管理方案以及數(shù)據(jù)的實時動態(tài)更新進行一定的技術(shù)修改,從而提出新的技術(shù)方法。向紅梅[3]等對基礎地理空間數(shù)據(jù)庫進行了一定的改進與更新,使其更符合當下信息化測繪時代對地理信息數(shù)據(jù)實時綜合服務的更高要求。
針對地貌圖和地形圖的不斷更新,國外相關(guān)研究的思路是開發(fā)一種全新的地貌GIS數(shù)據(jù)庫,可全面存儲地貌數(shù)據(jù),并將其作為處理和提取空間主題數(shù)據(jù)的基礎。該數(shù)據(jù)庫中的空間信息主要包括巖石形態(tài)、水文、巖性、成因、演化過程和巖齡等。Gustavsson M[4]等指出,該地理數(shù)據(jù)庫的獨特之處在于充分考慮了GIS應用程序的實際需求,與其并行設計構(gòu)建了綜合地貌制圖系統(tǒng),這種設計上的緊密耦合使得信息可以輕松地從地貌圖中數(shù)字化到GIS數(shù)據(jù)庫中,以便于科學研究和實際應用。
空間數(shù)據(jù)庫的發(fā)展一直在不斷地進行多領(lǐng)域融合,并在創(chuàng)新中完成自身的蛻變,因此從地理走向生活、走向?qū)Χ喾N數(shù)據(jù)的管理與分析,將是一個無法阻擋的變革趨勢。例如,某地政府與相關(guān)機構(gòu)長期掌握著當?shù)爻鞘幸?guī)劃數(shù)據(jù)以及其他相關(guān)基礎信息數(shù)據(jù),但若不進行一定的數(shù)據(jù)管理與共享,這些數(shù)據(jù)易喪失其時效性與可挖掘性,從而無法發(fā)揮真正的政策支持和輔助規(guī)劃作用。
為了合理分發(fā)與調(diào)用空間數(shù)據(jù),可以構(gòu)建“多規(guī)合一”信息平臺為契機,充分挖掘空間數(shù)據(jù)的存在和使用價值。金兵兵[5]等以廣州市天河區(qū)為例,利用數(shù)據(jù)服務的方式實現(xiàn)了與多個部門業(yè)務系統(tǒng)之間的同步數(shù)據(jù)交換,并在ArcSDE的支持下完成了數(shù)據(jù)的集成化管理;然后利用WebGIS和數(shù)據(jù)挖掘等技術(shù)完成了數(shù)據(jù)之間的“聯(lián)動”操作,進一步提供了數(shù)據(jù)交換與共享、地理坐標轉(zhuǎn)換與三維仿真輔助規(guī)劃等功能,為項目建設審批與管理等業(yè)務提供了相應的GIS技術(shù)支撐?!岸嘁?guī)合一”信息平臺集成了發(fā)展規(guī)劃與土地規(guī)劃數(shù)據(jù)庫、城鄉(xiāng)規(guī)劃數(shù)據(jù)庫和基礎地理信息數(shù)據(jù)庫等豐富的數(shù)據(jù)庫內(nèi)容,在空間數(shù)據(jù)的存儲與管理方面實現(xiàn)了質(zhì)的飛躍,也使空間數(shù)據(jù)能為更多項目提供信息技術(shù)的有力支持。
建設空間結(jié)構(gòu)化的數(shù)據(jù)庫可以幫助決策者制定一定范圍內(nèi)的管理計劃,確定資金和特定管理措施的優(yōu)先順序,跟蹤保護和恢復進度,進行基于科學決策的研究。查閱國外相關(guān)文獻發(fā)現(xiàn),類似的空間分類與空間數(shù)據(jù)庫技術(shù)也同樣應用于環(huán)境數(shù)據(jù)的管理、研究與決策內(nèi)容中,如WANG L Z[6]等指出在研究五大湖水生棲息地框架時,需要一個在整個盆地范圍內(nèi)具有生態(tài)等級和社會經(jīng)濟信息的空間分層數(shù)據(jù)庫來存儲該數(shù)據(jù)。在構(gòu)建的相關(guān)數(shù)據(jù)庫中,為了存儲河流或海岸數(shù)據(jù)的流瀉方向與集水區(qū)數(shù)據(jù),需要劃分30 m的網(wǎng)格單元,從而詳盡描述具體的海岸線條件、沿海人類的干擾以及適度變化的理化和生物特征。該數(shù)據(jù)庫有效存儲了多種相關(guān)的空間數(shù)據(jù),也為海量數(shù)據(jù)的處理方式提供了新的靈感。
海量數(shù)據(jù)正向空間數(shù)據(jù)庫不斷提出新的挑戰(zhàn):首先,在移動互聯(lián)網(wǎng)、云計算以及相應的空間數(shù)據(jù)采集技術(shù)的不斷發(fā)展下,空間數(shù)據(jù)擁有的海量特征已逐步轉(zhuǎn)變?yōu)榭臻g數(shù)據(jù)的大數(shù)據(jù)特征,這對空間數(shù)據(jù)的存儲和管理提出了新的挑戰(zhàn),需要更大的數(shù)據(jù)量和更高效的數(shù)據(jù)處理模式;其次,在大型地理信息系統(tǒng)中,通常需同時對海量的矢量數(shù)據(jù)與柵格數(shù)據(jù)進行合理化存儲,并為高并發(fā)的用戶查詢請求提供高效響應,處理并發(fā)回用戶索取的數(shù)據(jù),但令人遺憾的是,傳統(tǒng)的數(shù)據(jù)庫設計方案難以滿足該需求;與此同時,快速高效地查詢信息日漸成為衡量當前空間數(shù)據(jù)庫性能的重要指標之一,而傳統(tǒng)的單節(jié)點關(guān)系型空間數(shù)據(jù)管理方式難以滿足大數(shù)據(jù)量空間數(shù)據(jù)查詢的需求,特別是高性能的復雜空間多表鏈接任務需求,這也是對新興空間數(shù)據(jù)庫所附加的更高要求。因此,需要基于新型的數(shù)據(jù)庫存儲策略,設計基于新型架構(gòu)的數(shù)據(jù)庫管理系統(tǒng),以期解決數(shù)據(jù)的多分布、多存儲、數(shù)據(jù)量過大與實時動態(tài)采集數(shù)據(jù)等問題。
1)將關(guān)系型數(shù)據(jù)庫轉(zhuǎn)化為分布式空間數(shù)據(jù)庫勢在必行。關(guān)系型數(shù)據(jù)庫主要基于傳統(tǒng)的集中式存儲與數(shù)據(jù)管理模式,以現(xiàn)代的眼光來看,其局限性主要集中在處理和應用大數(shù)據(jù)方面,包括存儲內(nèi)容和存儲能力的可擴展性以及后續(xù)的高并發(fā)處理能力要求。在GIS領(lǐng)域中,空間大數(shù)據(jù)存儲正不斷地向開發(fā)者提出更高的并發(fā)要求,且尤為重視可擴展性數(shù)據(jù)庫的存儲能力以及數(shù)據(jù)庫內(nèi)外的數(shù)據(jù)處理和訪問模式。因此,李紹俊[7]等提出了基于內(nèi)存和NoSQL數(shù)據(jù)庫的空間大數(shù)據(jù)分布式存儲與綜合處理策略。該策略充分結(jié)合了基于傳統(tǒng)關(guān)系型數(shù)據(jù)庫的GIS基本功能和NoSQL數(shù)據(jù)庫提供的大數(shù)據(jù)分布式存儲能力,既滿足了數(shù)據(jù)存儲的需要,又保證了整個系統(tǒng)GIS功能依舊完善。
2)采用分布式空間索引處理海量矢柵數(shù)據(jù)。針對大型GIS中存儲的海量矢柵數(shù)據(jù),吳琰[8]等提出了一種 利用基于內(nèi)存存儲的分布式數(shù)據(jù)庫HBase存儲空間 數(shù)據(jù)的方法,并設計了一種基于GeoHash的分布式空間索引,旨在實現(xiàn)矢柵空間數(shù)據(jù)的分布式存儲與快速并發(fā)查詢。實驗結(jié)果證明,該索引可大大提高海量空間數(shù)據(jù)的存儲和查詢效率,并保證高并發(fā)數(shù)據(jù)訪問時能快速響應,這意味著該數(shù)據(jù)庫可為大型綜合性GIS的運轉(zhuǎn)效率問題提供一條行之有效的解決途徑。
3)采用無共享架構(gòu)的優(yōu)勢。基于MPP架構(gòu)的無共享架構(gòu)的優(yōu)勢再次被人們所重視。陳達倫[9]等設計了基于MPP架構(gòu)的并行空間數(shù)據(jù)庫原型系統(tǒng),并針對空間數(shù)據(jù)的特性,設計了并行空間數(shù)據(jù)劃分與導入、并行空間多表鏈接、空間數(shù)據(jù)查詢優(yōu)化等算法與模型。為驗證該系統(tǒng)的有效性,反復進行了多次試驗。通過數(shù)據(jù)分析發(fā)現(xiàn),在處理大規(guī)模數(shù)據(jù)量的數(shù)據(jù)挖掘時,相較于傳統(tǒng)單節(jié)點數(shù)據(jù)庫,該系統(tǒng)能更充分地提高復雜查詢海量數(shù)據(jù)的性能,更好解決空間數(shù)據(jù)庫并行化處理數(shù)據(jù)的問題。
上述3種解決方案較好地應對了海量數(shù)據(jù)向數(shù)據(jù)庫管理系統(tǒng)提出的挑戰(zhàn),能促使空間數(shù)據(jù)庫的不斷發(fā)展、進步,從而伴隨著人類自身的科學發(fā)展過程。
當種種面向大數(shù)據(jù)的空間數(shù)據(jù)庫技術(shù)不同卻又相似,實質(zhì)性的創(chuàng)新仍在路上、并沒有到達人們眼前時,可考慮對基礎拓撲規(guī)則進行一定的思考與完善,以便于驗證真正復雜的地理數(shù)據(jù)集。
對拓撲規(guī)則進行新擴展,從而擁有更廣泛的規(guī)則集,則可將要素屬性與拓撲規(guī)則混合在一起作為新的過濾器,在一定程度上改變原有的處理邏輯。Martinez-Llario J[10]等提出了一種基于規(guī)則的拓撲軟件系統(tǒng)。該系統(tǒng)提供了高度靈活快速的過程,以便在數(shù)據(jù)集之間的空間關(guān)系中保障數(shù)據(jù)的實施完整性;且可與包括PostgreSQL、H2或Oracle在內(nèi)的各種DBMS一起使用,具有良好的數(shù)據(jù)兼容性,可在后端空間中有效執(zhí)行具體的運算邏輯。
國內(nèi)的相關(guān)文獻更加強調(diào)對空間數(shù)據(jù)本身的處理與分析,如趙紅偉[11]等為解決地理空間數(shù)據(jù)在空間、時間、內(nèi)容上的語義關(guān)系,提出了地理空間數(shù)據(jù)本質(zhì)特征語義相關(guān)度計算模型;艾廷華[12]等則對空間數(shù)據(jù)多尺度表達問題進行了詳細思考,提出了多級尺度顯式存儲、初級尺度變化累積、關(guān)鍵尺度函數(shù)演變和初級尺度自動綜合4種技術(shù)策略。與進步的趨勢,從而便于數(shù)據(jù)科學的進一步發(fā)揚光大,真正讓數(shù)據(jù)組成我們的生活、并服務于我們的生活,讓空間數(shù)據(jù)庫的發(fā)展真正便于每個自由發(fā)展的個體。
目前地理信息處理仍是空間數(shù)據(jù)庫研究內(nèi)容的重要組成部分,但空間數(shù)據(jù)庫技術(shù)已走出了單純研究地理要素、進行地理處理和分析的范疇,正在不斷向海量數(shù)據(jù)管理、海量數(shù)據(jù)處理等方面邁進,且已取得了許多行之有效的研究成果。未來空間信息中的時間數(shù)據(jù)必將被進一步重視與分析,這將意味著時空數(shù)據(jù)庫和智庫功能終將被賦予新的重要價值,而空間信息所蘊含的其余價值也將被進一步挖掘與處理,以期適應人類社會不斷發(fā)展