趙文博 王曙燕
摘 要:文章主要圍繞可視化交互空間數(shù)據(jù)挖掘技術(shù),闡述了可視化與空間數(shù)據(jù)挖掘之間的關(guān)系、交互可視化的關(guān)鍵方式。進(jìn)而對(duì)數(shù)據(jù)挖掘中的兩種常用技術(shù)做出了進(jìn)一步探究,以供相關(guān)人員參考。
關(guān)鍵詞:可視化;交互;空間數(shù)據(jù)挖掘
目前,在地理信息獲取技術(shù)的快速發(fā)展中,存儲(chǔ)在空間數(shù)據(jù)庫(kù)中空間數(shù)據(jù)的深度與廣度也獲得了進(jìn)一步發(fā)展,傳統(tǒng)的空間統(tǒng)計(jì)與分析方式已很難對(duì)此進(jìn)行快速且有效的處理與分析。因此,為了讓這些數(shù)據(jù)能夠得到更為有效的處理與分析,空間數(shù)據(jù)挖掘技術(shù)便隨之產(chǎn)生。
1 可視化與空間數(shù)據(jù)挖掘之間的關(guān)系
空間數(shù)據(jù)挖掘的知識(shí)發(fā)現(xiàn),主要是針對(duì)有一定可視化需求的地理空間數(shù)據(jù),對(duì)于廣大用戶來(lái)講,地理可視化可以為其提供符合空間目標(biāo)心理認(rèn)知過(guò)程的相關(guān)信息呈現(xiàn)與實(shí)際分析環(huán)境,因此可考慮把空間數(shù)據(jù)挖掘過(guò)程放置在地理可視化的環(huán)境下實(shí)行。針對(duì)知識(shí)發(fā)現(xiàn)與構(gòu)造而言,可視化具有以下比較突出的兩點(diǎn)優(yōu)勢(shì):(1)提供較強(qiáng)的交互功能,使用戶可以將自身的能動(dòng)性自由發(fā)揮出來(lái),并對(duì)數(shù)據(jù)挖掘過(guò)程進(jìn)行較好的控制。(2)提供較為豐富的可視化表現(xiàn)能力,根據(jù)空間數(shù)據(jù)的各個(gè)維度與角度一起進(jìn)行分析,這對(duì)于用戶進(jìn)一步理解問(wèn)題與選擇更加適宜的數(shù)據(jù)挖掘模型算法非常有利。根據(jù)空間數(shù)據(jù)知識(shí)發(fā)現(xiàn)的整個(gè)過(guò)程來(lái)講,差不多所有過(guò)程均能與可視化相結(jié)合,其中包含數(shù)據(jù)選擇過(guò)程與數(shù)據(jù)預(yù)處理階段等,可視化方式對(duì)知識(shí)的整合、提取與傳輸具有非常重要的作用[1]??偠灾槍?duì)空間知識(shí)發(fā)現(xiàn)來(lái)講,其必須經(jīng)歷一個(gè)循環(huán)過(guò)程,即數(shù)據(jù)挖掘算法運(yùn)用、結(jié)果檢測(cè)與可視化、將挖掘方式加以改善。在此整個(gè)過(guò)程當(dāng)中,針對(duì)有關(guān)用戶將自身視覺(jué)觀察能力與專家知識(shí)的合理融入,可視化環(huán)境對(duì)此具有重大意義。
2 交互可視化的關(guān)鍵方式
經(jīng)常使用的可視化技術(shù)主要有以下幾個(gè)方面。
2.1 基本查詢觀察技術(shù)
包含地圖平移、放縮、視點(diǎn)選取與其他不同圖形,比如,空間查詢與選取技術(shù)等。
2.2 色彩的運(yùn)用
人們對(duì)于色彩非常敏感,因而在可視化中,色彩有著很關(guān)鍵的地位,通常情況下,可利用色彩將數(shù)據(jù)的實(shí)際變化趨勢(shì)、部分分布規(guī)律等方面清楚表示出來(lái)。在交互可視化中,應(yīng)當(dāng)讓用戶自由對(duì)不同色彩形式的數(shù)據(jù)描述進(jìn)行選擇,色相、亮度與飽和度等,用戶可任意將此加以調(diào)整,同時(shí)系統(tǒng)環(huán)境也應(yīng)當(dāng)為其提供部分較為有效的色彩形式,從而讓用戶有更多選擇。
2.3 自動(dòng)專題制圖技術(shù)
在時(shí)空數(shù)據(jù)分析與數(shù)據(jù)挖掘過(guò)程中,會(huì)有很多不同的專題地圖。不過(guò),怎樣才能將一些專題信息更好地體現(xiàn)出來(lái),也變成了用戶對(duì)數(shù)據(jù)進(jìn)行深入分析的一種負(fù)擔(dān)。而自動(dòng)專題制圖技術(shù),則能夠利用系統(tǒng)內(nèi)置的地圖制圖知識(shí),將數(shù)據(jù)信息在地圖上自動(dòng)體現(xiàn)出來(lái)。這種方式不僅能夠使用戶對(duì)于這一方面的負(fù)擔(dān)得到有效降低,并且還能較好地防止因?yàn)闆](méi)有足夠的地圖知識(shí)而致使不適宜的表示,從而讓用戶可以投入更多精力對(duì)數(shù)據(jù)做出進(jìn)一步分析。
2.4 不確定數(shù)據(jù)與缺失數(shù)據(jù)可視化
在空間數(shù)據(jù)庫(kù)當(dāng)中,數(shù)據(jù)的不確定與缺失現(xiàn)象普遍存在,怎樣利用可視化方式讓用戶真正意識(shí)到數(shù)據(jù)的質(zhì)量問(wèn)題,同時(shí)在之后的數(shù)據(jù)分析中采用與之對(duì)應(yīng)的方法進(jìn)行有效處理,這也變成需要進(jìn)行深入探究的關(guān)鍵問(wèn)題。針對(duì)數(shù)據(jù)的不確定性,在一般情況下,都會(huì)通過(guò)色彩尤其是飽和度與色調(diào)之間的調(diào)配,同時(shí)與其他數(shù)據(jù)視圖并列或是疊置進(jìn)行表達(dá),也可利用符號(hào)的模糊化將此類信息呈現(xiàn)出來(lái)。而針對(duì)數(shù)據(jù)的缺失現(xiàn)象,通??墒褂霉潭ㄖ荡嫱瑫r(shí)在圖形中體現(xiàn)出來(lái),這種方式能夠較好地發(fā)現(xiàn)缺失數(shù)據(jù)的實(shí)際分布情況[2]。
3 數(shù)據(jù)挖掘中的兩種常用技術(shù)
3.1 貝葉斯網(wǎng)絡(luò)和決策樹(shù)
貝葉斯網(wǎng)絡(luò)主要是對(duì)一組數(shù)據(jù)變量之間概率的有關(guān)關(guān)系進(jìn)行表示的圖形模型,如圖1所示是一個(gè)典型的貝葉斯網(wǎng)絡(luò)結(jié)構(gòu),主要體現(xiàn)了4個(gè)變量之間的相互關(guān)系。其來(lái)源于人工智能領(lǐng)域,最初是在專家系統(tǒng)當(dāng)中加以應(yīng)用,關(guān)鍵是對(duì)不確定信息進(jìn)行有效處理。其呈現(xiàn)出的形式屬于一個(gè)網(wǎng)狀模型,而在這之中的概率模型則是根據(jù)貝葉斯理論而獲得。貝葉斯網(wǎng)絡(luò)在可視化空間數(shù)據(jù)挖掘中的應(yīng)用,主要可以從用戶界面交互、地理信息學(xué)當(dāng)中的空間決策支持與環(huán)境制圖方面體現(xiàn)出來(lái)[3]。
決策樹(shù)主要是一種樹(shù)狀結(jié)構(gòu),通常是對(duì)一組數(shù)據(jù)訓(xùn)練以后所獲得的結(jié)果,依照某一屬性將數(shù)據(jù)集合進(jìn)行的實(shí)際測(cè)試便是其內(nèi)結(jié)點(diǎn),進(jìn)而根據(jù)各個(gè)數(shù)據(jù)記錄,將此不一樣的屬性值分成較多分支,而針對(duì)最后的葉結(jié)點(diǎn)而言,則是將最終類型或類型的分布體現(xiàn)出來(lái)。決策樹(shù)圖形很容易可視化,并且對(duì)于其原理與實(shí)際形式的理解也并不是非常困難,因此在空間數(shù)據(jù)挖掘中經(jīng)過(guò)把決策樹(shù)可視化,同時(shí)和地圖進(jìn)行動(dòng)態(tài)連接,便能夠?qū)⒖臻g數(shù)據(jù)結(jié)構(gòu)更好地體現(xiàn)出來(lái)。這對(duì)于用戶進(jìn)一步分析空間數(shù)據(jù)有很大幫助,并且還能夠使人們的分析決策能力得到一定提升。
3.2 在數(shù)據(jù)挖掘應(yīng)用中,決策樹(shù)與貝葉斯網(wǎng)絡(luò)的有機(jī)結(jié)合
針對(duì)兩者的有機(jī)結(jié)合,根據(jù)緊密程度可將此分為以下幾個(gè)層次
3.2.1 結(jié)果校驗(yàn)比較
其主要是指針對(duì)某項(xiàng)實(shí)際任務(wù)(通常為監(jiān)督分類),可各自經(jīng)過(guò)決策樹(shù)方式與貝葉斯網(wǎng)絡(luò)分析數(shù)據(jù),進(jìn)而比較兩者所獲得的最終結(jié)果,以此使結(jié)果校驗(yàn)的根本目的得以實(shí)現(xiàn),并且還能夠讓某種模型對(duì)于目前也許會(huì)出現(xiàn)問(wèn)題的情況得到避免。
3.2.2 線性結(jié)合
主要是指先利用某種方式的預(yù)處理,之后再把中間結(jié)果導(dǎo)入另外一種方式,從而獲得最終結(jié)果。因?yàn)闆Q策樹(shù)計(jì)算相對(duì)較為簡(jiǎn)單,已有的決策樹(shù)算法通常具備了對(duì)數(shù)據(jù)“噪聲”或者缺失數(shù)據(jù)進(jìn)行有效處理的能力。而貝葉斯網(wǎng)絡(luò)則相反,其學(xué)習(xí)非常繁雜,特別是在數(shù)據(jù)量比較大等有關(guān)狀態(tài)下更加顯著。因此,可先采用決策樹(shù)方式將一些數(shù)據(jù)加以處理,之后再對(duì)運(yùn)用貝葉斯網(wǎng)絡(luò)開(kāi)展進(jìn)一步數(shù)據(jù)挖掘工作進(jìn)行考慮。此外,因?yàn)闆Q策樹(shù)方式能夠獲得相應(yīng)規(guī)則,所以此類規(guī)則便可當(dāng)作用戶的先驗(yàn)知識(shí),進(jìn)而將其引進(jìn)貝葉斯網(wǎng)絡(luò)的學(xué)習(xí)當(dāng)中。反之,貝葉斯網(wǎng)絡(luò)因?yàn)樽陨砟軌蜉^好地考慮到先驗(yàn)知識(shí)的優(yōu)勢(shì),所以可先將其當(dāng)作一種知識(shí)表達(dá)的圖形模型,以此在一定程度上制約決策樹(shù)方式的假設(shè)空間,讓計(jì)算量得到大幅降低。此外,貝葉斯網(wǎng)絡(luò)還能夠?qū)⒍嘣磾?shù)據(jù)融入統(tǒng)一的模型當(dāng)中,從而在統(tǒng)一的圖形模型中,更好地采用其他數(shù)據(jù)挖掘方式,將多源數(shù)據(jù)的可靠性問(wèn)題加以處理[4]。
3.2.3 完全結(jié)合
兩者的完全結(jié)合必須具有高度交互可視化的界面,用戶可在任意時(shí)間對(duì)知識(shí)發(fā)現(xiàn)的整個(gè)過(guò)程進(jìn)行干預(yù)或監(jiān)控,可在任意時(shí)間通過(guò)某種方式分析與處理中間結(jié)果,同時(shí)也可將目前的分析進(jìn)程中止,實(shí)行回溯分析。此種方式是最為理想且很難實(shí)現(xiàn)的知識(shí)發(fā)現(xiàn)形式,用戶在處理有關(guān)問(wèn)題時(shí),可根據(jù)多個(gè)模型與不同角度做出深入分析,進(jìn)而使結(jié)果更加可靠,并讓用戶參與度得到進(jìn)一步提升。用戶的先驗(yàn)知識(shí)不單只是在數(shù)據(jù)挖掘的初期才會(huì)將其作用發(fā)揮出來(lái),同時(shí)還能在后期幫助用戶將處理進(jìn)程進(jìn)行有效調(diào)整,并及時(shí)發(fā)現(xiàn)也許會(huì)產(chǎn)生的錯(cuò)誤。這樣不但能夠獲得新知識(shí),而且又能將此當(dāng)作新的先驗(yàn)知識(shí)而融入以后的知識(shí)發(fā)現(xiàn)當(dāng)中。實(shí)際上就是把整個(gè)數(shù)據(jù)挖掘過(guò)程轉(zhuǎn)換成一個(gè)循環(huán)交替、逐漸上升的過(guò)程,進(jìn)而使其可靠性與透明度得到一定提升[5]。
具體而言,先經(jīng)過(guò)決策樹(shù)方式對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,使某種數(shù)據(jù)減量目的得以實(shí)現(xiàn),其次則可利用貝葉斯網(wǎng)路分析變量之間的關(guān)系,把有關(guān)變量經(jīng)過(guò)決策樹(shù)算法獲得多個(gè)決策樹(shù)模型,因?yàn)樨惾~斯網(wǎng)絡(luò)與貝葉斯統(tǒng)計(jì)方式能夠較好地防止數(shù)據(jù)過(guò)配,而針對(duì)此類多個(gè)決策樹(shù)模型,則需要重新經(jīng)過(guò)貝葉斯網(wǎng)絡(luò)驗(yàn)證,此外還可利用不一樣的決策樹(shù)剪裁算法進(jìn)行比較,這樣不但在選擇決策樹(shù)模型時(shí)更加方便,并且也能夠?qū)⒉煌舨梅绞降男阅茏龀鲞M(jìn)一步分析與比較。反之,決策樹(shù)模型同樣也可對(duì)貝葉斯網(wǎng)絡(luò)中學(xué)習(xí)獲得的因果關(guān)系與局部概率的具體分布進(jìn)行驗(yàn)證。整個(gè)過(guò)程不管是貝葉斯網(wǎng)絡(luò),或者決策樹(shù),均是以可視化方式來(lái)表現(xiàn)出來(lái),不同視圖之間可進(jìn)行連接,這樣在做比較與分析時(shí)則會(huì)更加容易。
4 結(jié)語(yǔ)
在空間數(shù)據(jù)探究分析過(guò)程中,把可視化技術(shù)與空間數(shù)據(jù)挖掘這兩種方式進(jìn)行有機(jī)結(jié)合,使其成為一種可視化交互空間數(shù)據(jù)挖掘技術(shù),這對(duì)于大量空間分析與空間決策具有很大幫助。針對(duì)可視化交互空間數(shù)據(jù)挖掘技術(shù)而言,應(yīng)當(dāng)將地圖的優(yōu)勢(shì)充分發(fā)揮出來(lái),尤其是動(dòng)態(tài)交互地圖,其對(duì)空間信息傳輸與引導(dǎo)用戶思維具有重大意義。
[參考文獻(xiàn)]
[1]王玲.基于GIS空間數(shù)據(jù)挖掘技術(shù)的應(yīng)用研究[J].測(cè)繪與空間地理信息,2013(6):121-123.
[2]南麗麗.基于云模型的數(shù)據(jù)挖掘技術(shù)研究[J].數(shù)字技術(shù)與應(yīng)用,2013(7):65.
[3]朱亞瓊.可視化驅(qū)動(dòng)的交互式數(shù)據(jù)挖掘方法研究[J].電腦知識(shí)與技術(shù),2016(36):4-5.
[4]賈澤露,張彤.基于GIS與SDM技術(shù)的可視化空間數(shù)據(jù)分類研究[J].測(cè)繪科學(xué),2012(1):115-118,165.
[5]劉耀林,張彤.可視化交互空間數(shù)據(jù)挖掘原型系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[J].武漢大學(xué)學(xué)報(bào)(信息科學(xué)版),2016(10):916-919.