陳新
摘要:隨著經(jīng)濟全球化不斷發(fā)展,信息化時代的不斷深入,讓更多的知識數(shù)據(jù)成為當(dāng)下進行決策的關(guān)鍵條件。而目前的這種空間數(shù)據(jù)挖掘方法,在信息系統(tǒng)技術(shù)的各個領(lǐng)域都有著廣泛的使用,空間數(shù)據(jù)挖掘也可以稱之為空間知識發(fā)現(xiàn),是從空間數(shù)據(jù)庫中提取相應(yīng)的數(shù)據(jù)模式和特征,通過數(shù)據(jù)分析從而得出數(shù)據(jù)的普遍關(guān)系和其內(nèi)在聯(lián)系的數(shù)據(jù)特征。近幾年來,隨著科學(xué)技術(shù)的發(fā)展,空間信息技術(shù)也取得了非常大的突破。這種對可視化的空間數(shù)據(jù)挖掘方法已經(jīng)是該領(lǐng)域研究發(fā)展的必要手段。該文對于空間數(shù)據(jù)挖掘的問題及發(fā)展趨勢也進行了深刻的討論。
關(guān)鍵詞:空間數(shù)據(jù)挖掘;知識發(fā)現(xiàn);理論;問題;方法
中圖分類號:TP311? ? ? ? 文獻標(biāo)識碼:A
文章編號:1009-3044(2021)33-0020-02
開放科學(xué)(資源服務(wù))標(biāo)識碼(OSID):
1 前言
在大數(shù)據(jù)的影響下,空間測繪技術(shù)不斷發(fā)展,空間數(shù)據(jù)庫也是不斷地完善和發(fā)展。這種包括資源環(huán)境、自然災(zāi)害等空間數(shù)據(jù)越發(fā)增多,而且空間數(shù)據(jù)庫的數(shù)據(jù)量也成指數(shù)級增長。但是目前數(shù)據(jù)資源豐富,空間數(shù)據(jù)挖掘方式的落后成為現(xiàn)狀。如何提高我們現(xiàn)在的空間數(shù)據(jù)挖掘和知識發(fā)現(xiàn)的理論方法便非常重要,所以關(guān)于這個熱點話題,本文展開了討論。
2 什么是空間數(shù)據(jù)挖掘
所謂的空間數(shù)據(jù)挖掘就是在空間數(shù)據(jù)庫和數(shù)據(jù)倉庫的基礎(chǔ)上,通過合理利用統(tǒng)計學(xué)、模式識別技術(shù)、人工智能等信息技術(shù)手段,從大量的數(shù)據(jù)中不斷篩選、發(fā)掘、整理、存儲和輸出的一個過程。最終的目的是將自己所需要的數(shù)據(jù)通過整合聯(lián)系,最終得出可以理解的理論知識,從而發(fā)現(xiàn)出數(shù)據(jù)聯(lián)系的內(nèi)在關(guān)系,進而推導(dǎo)出客觀世界的本質(zhì)規(guī)律和發(fā)展趨勢。
空間數(shù)據(jù)發(fā)掘目前被應(yīng)用的領(lǐng)域非常廣泛,例如地理信息系統(tǒng)、圖像數(shù)據(jù)探測、交通、醫(yī)學(xué)等領(lǐng)域。目前的數(shù)據(jù)庫系統(tǒng)和數(shù)據(jù)倉庫已經(jīng)成為主要的信息交流平臺,所以空間數(shù)據(jù)挖掘系統(tǒng)也應(yīng)當(dāng)成為當(dāng)前數(shù)據(jù)庫和數(shù)據(jù)倉庫體系建設(shè)的必要一環(huán)。當(dāng)下的空間數(shù)據(jù)挖掘技術(shù)的不斷發(fā)展和突破,便成為當(dāng)今社會發(fā)展決策的關(guān)鍵工具[1]。
空間數(shù)據(jù)挖掘系統(tǒng)的結(jié)構(gòu)分為三層。第一層是數(shù)據(jù)源,也就是所謂的空間數(shù)據(jù)庫。第二層是挖掘器,利用空間數(shù)據(jù)挖掘系統(tǒng)中匹配的相應(yīng)算法進行數(shù)據(jù)上的提取。并且在一定程度上根據(jù)客戶的需要和所涉及的領(lǐng)域進行系統(tǒng)化的篩選。第三層則是用戶界面,主要將篩選的空間數(shù)據(jù)通過可視化的方式輸出給用戶。在整個的空間數(shù)據(jù)挖掘的過程中,總體都是由用戶進行控制,通過人機交互數(shù)據(jù)最終取得用戶想要的結(jié)果。而良好的算法邏輯是空間數(shù)據(jù)挖掘出知識的結(jié)果是否滿意的前提。
3 空間數(shù)據(jù)挖掘中存在的問題
空間數(shù)據(jù)挖掘的發(fā)展關(guān)乎空間數(shù)據(jù)庫的整理和探知,也可以在一定程度上影響決策者的決策走向。所以當(dāng)前空間數(shù)據(jù)挖掘的問題研究成為當(dāng)今非常熱門的話題。筆者總結(jié)出了以下幾點:
3.1 空間數(shù)據(jù)挖掘中算法理論并不完善
通過對于空間數(shù)據(jù)挖掘的研究,這種空間數(shù)據(jù)挖掘所涉及的學(xué)科非常多,例如計算機、網(wǎng)絡(luò)學(xué)科、統(tǒng)計學(xué)等。雖然近幾年的研究在這幾方面都有一定的成果,但是隨著各種學(xué)科地深入探索,不斷推動著空間挖掘技術(shù)中算法的更新和完善,而目前隨著數(shù)據(jù)挖掘技術(shù)和相關(guān)理論技術(shù)的不斷突破的情況下,新的空間挖掘中的算法理論出現(xiàn)是肯定的,而且對于當(dāng)前的知識發(fā)現(xiàn)技術(shù)體系也是有非常大的推動作用。所以在空間數(shù)據(jù)挖掘的算法理論上需要進一步地研究和完善。
3.2 應(yīng)用研究方面的問題
當(dāng)前在空間數(shù)據(jù)挖掘應(yīng)用和現(xiàn)實相結(jié)合的問題也是目前熱點討論話題之一。主要是由于集成多的算法和知識發(fā)現(xiàn)系統(tǒng)等相互聯(lián)系而形成的。所以在空間數(shù)據(jù)挖掘中,一個實用的系統(tǒng)都是針對性地開發(fā),針對客戶群體進行一對一的算法研究。
在這種不確定性和模糊性并存的空間數(shù)據(jù)庫進行信息的匹配、分析和存儲的問題上,空間數(shù)據(jù)挖掘方法還并不能滿足這種不確定性的要求。而且目前也沒有相應(yīng)的方法進行解決,更沒有談?wù)摮鲆环N非常好的方法來因?qū)δ壳翱臻g數(shù)據(jù)對于隨機性和模糊性的問題進行解決。這種條件下的數(shù)據(jù)挖掘質(zhì)量也是只能作為參考[2]??臻g數(shù)據(jù)挖掘出來的知識量非常大,但挖掘出來的效益是什么樣的并沒有人去針對性地研究,而且評價條件也是沒有相應(yīng)的參考標(biāo)準(zhǔn),所以在空間數(shù)據(jù)挖掘的發(fā)展和進步中這是一個必須解決的問題。
3.3 空間數(shù)據(jù)庫類型多樣性
空間數(shù)據(jù)庫涉及的領(lǐng)域非常多,這就造成了數(shù)據(jù)類型多種多樣,例如關(guān)系型數(shù)據(jù)、結(jié)構(gòu)化數(shù)據(jù)等,再加上目前互聯(lián)網(wǎng)的發(fā)展。網(wǎng)絡(luò)連接了更多的空間數(shù)據(jù)庫,所以在情況復(fù)雜上面,空間數(shù)據(jù)挖掘方面的要求更加高,而且采用單一的空間數(shù)據(jù)發(fā)掘方案確實遠遠不夠的。而且在空間數(shù)據(jù)不穩(wěn)定的這個條件下,空間數(shù)據(jù)庫也是不穩(wěn)定的,進而對于數(shù)據(jù)的穩(wěn)定性和可靠性是影響非常大的。
4 空間數(shù)據(jù)挖掘中問題的解決辦法
4.1 提高空間數(shù)據(jù)的穩(wěn)定性和可控制性
空間數(shù)據(jù)庫在其數(shù)據(jù)量大、結(jié)構(gòu)多、空間結(jié)構(gòu)差異性大等方面都是會影響到空間數(shù)據(jù)挖掘的準(zhǔn)確性。所以我們想要提高這種空間數(shù)據(jù)挖掘能力,就要先穩(wěn)定數(shù)據(jù)庫的內(nèi)容。首先就是要將現(xiàn)有的數(shù)據(jù)分析技術(shù)引用到數(shù)據(jù)庫的綜合處理能力上面。比如在空間上對數(shù)據(jù)庫進行分層,并且將相鄰的空間數(shù)據(jù)進行結(jié)合,這樣可以高效地從空間分層的數(shù)據(jù)中提高挖掘算法的效率。
4.2 提升數(shù)據(jù)挖掘算法的有效性和可伸縮性
在空間數(shù)據(jù)挖掘過程中,要提高挖掘算法的對于處理大量復(fù)雜數(shù)據(jù)的能力,這就需要讓挖掘算法產(chǎn)生有效性和可伸縮性的特征。在可伸縮性方面,要關(guān)注大量復(fù)雜數(shù)據(jù)的處理問題,改變和精進算法運行的策略,通過使用平行計算環(huán)境來實現(xiàn)多算法同時展開,提高處理復(fù)雜能力的效率,例如使用SPRINT分類算法等。其次,在空間數(shù)據(jù)算法的開始之前,執(zhí)行的邏輯便是劃分數(shù)據(jù)庫,將所要分析的雜亂數(shù)據(jù)進行劃分成為不同的部分,再通過每個部分的知識挖掘,最終達到提高效率,提高準(zhǔn)確率的目的。第三,還可以使用采樣技術(shù),這種技術(shù)是統(tǒng)計學(xué)領(lǐng)域非常重要的組成部分。通過劃分采樣來達到對效率和準(zhǔn)確率的提高。第四則是采用數(shù)據(jù)的預(yù)處理技術(shù),這種技術(shù)可以在算法展開前進行第一層的篩選,而且在用戶的各種約束下,可以很好地保存好原始數(shù)據(jù)信息。在用戶交互的過程中進行不斷地改變與適應(yīng),最終達到提升效率的結(jié)果,做出更有效的空間數(shù)據(jù)挖掘活動[3]。
4.3使用高維空間數(shù)據(jù)算法邏輯
目前互聯(lián)網(wǎng)信息技術(shù)不斷提高,空間數(shù)據(jù)庫的屬性越來越多。所以需要使用這種高維的數(shù)據(jù)挖掘算法邏輯,這種做法的關(guān)鍵就在于要優(yōu)化查詢處理。這種方法主要是兩種:一種是通過映射技術(shù),把高維問題映射到平級的低維問題中;另一種就是建立高維的搜索引擎,通過直接搜索匹配進行問題的解決。
映射技術(shù)存在比較大的問題,高維數(shù)據(jù)映射到一維數(shù)據(jù)中,一維數(shù)據(jù)會被覆蓋,這就會導(dǎo)致一維數(shù)據(jù)也會變得結(jié)構(gòu)復(fù)雜。而且這種高維映射到一維也不可能完全適配,只能盡量映射,所以問題還是比較大的。但是在高維搜索引擎的構(gòu)建上,會考慮到高維數(shù)據(jù)的特點,進而更加合適高維數(shù)據(jù)的查詢[4]。這種搜索引擎的創(chuàng)建過程是個復(fù)雜而且邏輯內(nèi)容量很大的工作,但是可以更好地幫助空間信息挖掘技術(shù)的發(fā)展,所以這種方式還是非常合適的。
4.4 做可視化空間信息挖掘
通過使用SDM算法應(yīng)用來達到數(shù)據(jù)可視化的條件。首先是要數(shù)據(jù)庫可以使用多維度的組合,通過不斷的數(shù)據(jù)組織,成為可視化的數(shù)據(jù),主要是基于圖像或者像素技術(shù)等技術(shù)形式出現(xiàn)。其次是挖掘過程需要可視化,將挖掘過程通過圖標(biāo)標(biāo)注等方式進行相關(guān)的內(nèi)容表現(xiàn),例如數(shù)據(jù)的出處,數(shù)據(jù)如何篩選,如何開始預(yù)處理的,甚至是通過何種邏輯進行保存的。其三便是通過數(shù)據(jù)挖掘算法模型構(gòu)建的可視化,來達到讓用戶及時了解自己所得設(shè)定的規(guī)則,及時對于空間數(shù)據(jù)挖掘知識的調(diào)整,進而提高效率。最后是挖掘結(jié)果的可視化。將數(shù)據(jù)通過表格等方式進行輸出,以用戶可以讀懂的方式呈現(xiàn)在用戶面前[5]。
5 結(jié)論
目前的空間數(shù)據(jù)挖掘在技術(shù)的發(fā)展會給空間信息處理領(lǐng)域帶來非常大的進步。而且這種空間數(shù)據(jù)理論挖掘是一個非常重要的研究方向,不管是在理論和方法上進行深入的研究。也要對數(shù)據(jù)進行優(yōu)化和分類,通過多層次多角度的空間數(shù)據(jù)挖掘來支持決策者進行決策,進而不斷推動各領(lǐng)域發(fā)展。所以在空間技術(shù)挖掘是當(dāng)今必須重視,并且要進行深刻的討論。
參考文獻:
[1] 孫建國,趙軍,閆浩文.一個空間數(shù)據(jù)挖掘原型系統(tǒng)的設(shè)計與實現(xiàn)[J].蘭州交通大學(xué)學(xué)報,2004,23(4):94-97.
[2] 武文波,張自賓,金卓.空間數(shù)據(jù)挖掘技術(shù)及應(yīng)用[J].水資源與水工程學(xué)報,2008,19(6):23-27.
[3] 閆永慧,胡伍生.空間數(shù)據(jù)挖掘中的數(shù)據(jù)預(yù)處理技術(shù)研究[J].山西建筑,2009,35(14):363-365.
[4] 高陽.中國數(shù)據(jù)挖掘研究進展[J].南京大學(xué)學(xué)報(自然科學(xué)版),2011,47(4):351-353.
[5] 原建偉.基于內(nèi)容分析的數(shù)據(jù)挖掘研究[J].河北工業(yè)科技,2011,28(5):299-301,342.
【通聯(lián)編輯:聞翔軍】