• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      可視化數(shù)據(jù)挖掘技術(shù)的研究與實(shí)現(xiàn)*

      2013-05-28 03:33:56
      關(guān)鍵詞:圖標(biāo)數(shù)據(jù)挖掘可視化

      張 俊

      (蕪湖職業(yè)技術(shù)學(xué)院,安徽蕪湖 241000)

      傳統(tǒng)的數(shù)據(jù)挖掘過(guò)程對(duì)用戶而言是一個(gè)“黑盒子”,用戶將數(shù)據(jù)集交給算法,然后自動(dòng)地生成結(jié)果,挖掘的過(guò)程不可見(jiàn),用戶很難參與,挖掘出的結(jié)果也常常只有專業(yè)的數(shù)據(jù)挖掘人員能夠理解,這些結(jié)果難以在實(shí)際應(yīng)用中發(fā)揮作用,用戶對(duì)挖掘的結(jié)果也難以信任,怎樣改進(jìn)這種挖掘過(guò)程一直是個(gè)難題?考慮到圖形和圖像、顏色等表達(dá)方式的直觀性和形象性,因而可以通過(guò)數(shù)據(jù)挖掘與可視化技術(shù)的結(jié)合,來(lái)彌補(bǔ)傳統(tǒng)數(shù)據(jù)挖掘過(guò)程的缺陷,加強(qiáng)數(shù)據(jù)挖掘的處理過(guò)程。可視化數(shù)據(jù)挖掘正是數(shù)據(jù)挖掘和可視化技術(shù)的有機(jī)結(jié)合。這種結(jié)合強(qiáng)調(diào)的是以人為中心,一方面強(qiáng)調(diào)充分利用人類的知識(shí)領(lǐng)域和模式感知能力,另一方面強(qiáng)調(diào)用戶對(duì)挖掘結(jié)果的理解和利用??梢暬姆椒ㄊ箶?shù)據(jù)挖掘技術(shù)的應(yīng)用更具形象性和直觀性,挖掘的過(guò)程加入更多人類的參與和指導(dǎo),可以有效地提高數(shù)據(jù)挖掘結(jié)果的可信度、可理解性和可用性。

      1 可視化數(shù)據(jù)挖掘概述

      可視化數(shù)據(jù)挖掘技術(shù)是可視化技術(shù)和數(shù)據(jù)挖掘技術(shù)的有機(jī)結(jié)合,是運(yùn)用計(jì)算機(jī)圖形學(xué)、圖像處理技術(shù)等,將數(shù)據(jù)挖掘的源數(shù)據(jù)、中間結(jié)果和最終挖掘結(jié)果轉(zhuǎn)換成直觀、易于理解的圖形或圖像的方式,并進(jìn)行交互處理的理論、方法和技術(shù)。按照可視化在數(shù)據(jù)挖掘中應(yīng)用的不同階段,可以將可視化數(shù)據(jù)挖掘劃分為源數(shù)據(jù)的可視化、挖掘過(guò)程的可視化、結(jié)果的可視化。

      (1)源數(shù)據(jù)的可視化。目前對(duì)源數(shù)據(jù)的可視化方法已經(jīng)有了很多種,就是在數(shù)據(jù)投入挖掘算法之前,將整個(gè)數(shù)據(jù)集以可視化的方式呈現(xiàn)給用戶,目的是使用戶能夠快速地找到感興趣的區(qū)域,從而有目的、有針對(duì)性地實(shí)施下一步的挖掘。

      (2)過(guò)程可視化。挖掘過(guò)程的可視化實(shí)現(xiàn)起來(lái)比較復(fù)雜,現(xiàn)階段的可視化方法主要集中于對(duì)源數(shù)據(jù)和結(jié)果的可視化方法。挖掘過(guò)程的可視化有兩種方法,一種方法是對(duì)挖掘過(guò)程中產(chǎn)生的中間結(jié)果進(jìn)行可視化呈現(xiàn),方便用戶根據(jù)中間結(jié)果的反饋調(diào)整參數(shù)和約束條件;另一種方法是將整個(gè)數(shù)據(jù)挖掘的處理過(guò)程以圖標(biāo)和流程圖的形式顯示,用戶可以觀察數(shù)據(jù)的來(lái)源,數(shù)據(jù)集成、清理和預(yù)處理的過(guò)程,挖掘結(jié)果的存儲(chǔ)和可視化表示等等。

      (3)結(jié)果可視化。數(shù)據(jù)挖掘結(jié)果可視化是在挖掘過(guò)程結(jié)束之后,以圖形和圖像的形式描述挖掘的結(jié)果或知識(shí),以提高用戶對(duì)結(jié)果的理解,使用戶更好地評(píng)估和利用挖掘結(jié)果。

      2 可視化數(shù)據(jù)挖掘主要技術(shù)

      將數(shù)據(jù)挖掘技術(shù)與可視化技術(shù)相結(jié)合,其動(dòng)機(jī)一方面是為了利用人類的知識(shí)領(lǐng)域來(lái)指導(dǎo)數(shù)據(jù)挖掘的過(guò)程,從而提高挖掘的質(zhì)量;另一方面是為了幫助分析人員快速且最大限度地獲得數(shù)據(jù)中隱含的信息,理解數(shù)據(jù)挖掘的過(guò)程和結(jié)果??梢暬夹g(shù)根據(jù)是否包含物理數(shù)據(jù),可分為科學(xué)計(jì)算可視化和信息可視化,科學(xué)計(jì)算可視化的重點(diǎn)放在如何真實(shí)有效地反映三維坐標(biāo)場(chǎng),而信息可視化的研究重點(diǎn)則是通過(guò)選擇和設(shè)計(jì)合適的表達(dá)方式來(lái)描述大型的多維數(shù)據(jù)之間的聯(lián)系,以便于用戶理解。數(shù)據(jù)挖掘技術(shù)的可視化主要定位于信息可視化。

      被可視化的數(shù)據(jù)類型包括一維數(shù)據(jù)(如時(shí)序數(shù)據(jù))、二維數(shù)據(jù)(如地理數(shù)據(jù))、多維數(shù)據(jù)、文本/Web數(shù)據(jù)(首先要將其轉(zhuǎn)化為向量描述,然后才能應(yīng)用可視化技術(shù))、層次/圖形數(shù)據(jù)、算法/軟件的可視化??梢暬募夹g(shù)可分為標(biāo)準(zhǔn)2D/3D技術(shù)、幾何轉(zhuǎn)換技術(shù)、面向像素的技術(shù)、基于圖標(biāo)的技術(shù)、分層技術(shù)。還可以將可視化技術(shù)與一些變形與交互技術(shù)相結(jié)合,以實(shí)現(xiàn)更有效的數(shù)據(jù)挖掘。

      (1)標(biāo)準(zhǔn)2D/3D技術(shù)。標(biāo)準(zhǔn)2D/3D技術(shù),如折線圖、條形圖、柱狀圖、餅圖、散點(diǎn)圖等,在統(tǒng)計(jì)應(yīng)用中常用到,但是在表示多維數(shù)據(jù)方面存在缺陷。

      (2)幾何轉(zhuǎn)換技術(shù)。幾何轉(zhuǎn)換技術(shù)的基本思想是通過(guò)幾何學(xué)的投影和轉(zhuǎn)換方法,通過(guò)線性或非線性的投影和映射,把多維數(shù)據(jù)集轉(zhuǎn)換成二維平面或三維空間可以表示的形式,從而實(shí)現(xiàn)對(duì)數(shù)據(jù)集的降維處理。目的是發(fā)現(xiàn)多維數(shù)據(jù)集的令人感興趣的投影。幾何轉(zhuǎn)換技術(shù)適用于數(shù)據(jù)量不大,但維數(shù)較多的數(shù)據(jù)集。幾何轉(zhuǎn)換技術(shù)的具體實(shí)現(xiàn)方法有投影追蹤、地形圖、散點(diǎn)圖矩陣和著名的平行坐標(biāo)法等。

      (3)基于圖標(biāo)技術(shù)。基于圖標(biāo)技術(shù)的基本思想是用圖標(biāo)上的各個(gè)特征對(duì)應(yīng)描述一個(gè)數(shù)據(jù)項(xiàng)的多維屬性值,并將所有的圖標(biāo)依據(jù)一定的順序進(jìn)行排列。其中圖標(biāo)可以隨意定制為一些三維幾何對(duì)象,而且圖標(biāo)的各項(xiàng)屬性包括圖標(biāo)的大小、顏色、形狀等均可用來(lái)描述數(shù)據(jù)項(xiàng)的維。基于圖標(biāo)技術(shù)適用于維數(shù)不多,但具有某些代表特殊含義的屬性的數(shù)據(jù),用戶可以更準(zhǔn)確清晰地理解這些屬性?;趫D標(biāo)技術(shù)的實(shí)現(xiàn)方法有表長(zhǎng)法、契諾夫臉譜圖法、彩色圖標(biāo)法、形狀編碼法、枝形圖法。

      (4)面向像素技術(shù)。面向像素技術(shù)的基本思想是用屏幕上不同的獨(dú)立子窗口分別表示數(shù)據(jù)集中不同的屬性,并在各個(gè)獨(dú)立的子窗口中用一個(gè)個(gè)彩色像素來(lái)表示各個(gè)數(shù)據(jù)項(xiàng)的一個(gè)屬性值,面向像素技術(shù)可以非常有效地描述大型數(shù)據(jù)集,用戶不僅可以觀察自己感興趣的局部區(qū)域,還可以獲得對(duì)數(shù)據(jù)的整體認(rèn)識(shí)。面向像素技術(shù)研究的重點(diǎn)在于考慮這些像素點(diǎn)如何在屏幕上排列的問(wèn)題,應(yīng)根據(jù)不同的目的使用不同的排列方式。根據(jù)不同的像素及窗口排列方法,面向像素技術(shù)的具體實(shí)現(xiàn)方法主要有遞歸模式技術(shù)、圓環(huán)分段技術(shù)、數(shù)據(jù)管道技術(shù)等。

      (5)分層技術(shù)。分層技術(shù)非常適用于層次型數(shù)據(jù)集的可視化,它的基本思想是根據(jù)數(shù)據(jù)集的層次特征將多維數(shù)據(jù)空間劃分為若干個(gè)子空間,然后依據(jù)數(shù)據(jù)集中各層次的關(guān)系將這些子空間以層次結(jié)構(gòu)的方式組織起來(lái),最后轉(zhuǎn)換成圖形輸出,常采用的方法就是利用樹(shù)形結(jié)構(gòu),直接可視化層次型數(shù)據(jù)集,或者對(duì)數(shù)據(jù)維依據(jù)不同的標(biāo)準(zhǔn)進(jìn)行劃分,在不同層次上表示不同的屬性值。分層技術(shù)的具體實(shí)現(xiàn)方法主要有層次軸、維嵌套、錐形樹(shù)、雙曲線樹(shù)等。

      3 可視化數(shù)據(jù)挖掘技術(shù)的實(shí)現(xiàn)

      可視化數(shù)據(jù)挖掘主要利用Swing技術(shù)、AWT、Java2D、結(jié)合JFreeChart開(kāi)源工具包和Java3D技術(shù)開(kāi)發(fā)實(shí)現(xiàn),本論文的驗(yàn)證數(shù)據(jù)集,是著名的購(gòu)物籃分析數(shù)據(jù)集。

      (1)可視化交互的實(shí)現(xiàn)。系統(tǒng)中用戶可以很好的與可視化圖形交互,包括設(shè)置可視化圖形的顏色、形狀,對(duì)產(chǎn)生的關(guān)聯(lián)規(guī)則進(jìn)行篩選、排序,用戶還可以對(duì)結(jié)果進(jìn)行移動(dòng)、縮放、旋轉(zhuǎn)等操作,從而獲得關(guān)聯(lián)規(guī)則挖掘結(jié)果的多角度視圖。

      (2)數(shù)據(jù)可視化技術(shù)的實(shí)現(xiàn)。本文的數(shù)據(jù)可視化部分主要包括兩部分,一部分是對(duì)單個(gè)數(shù)據(jù)屬性的二維展示,另一部分是對(duì)整個(gè)數(shù)據(jù)集的可視化呈現(xiàn)。系統(tǒng)中對(duì)單個(gè)數(shù)據(jù)屬性的二維展示,主要采用了餅圖和條形圖兩種方法,用餅圖可以清晰地描述屬性中各個(gè)屬性值所占的比重,直方圖可以比較不同數(shù)據(jù)對(duì)象中相同屬性的值。如圖1所示,餅圖表現(xiàn)的是對(duì)購(gòu)物籃數(shù)據(jù)集中各商品占總購(gòu)買的比例。

      圖1 屬性二維展示

      系統(tǒng)中對(duì)數(shù)據(jù)集的可視化呈現(xiàn)包括散點(diǎn)圖矩陣、平行坐標(biāo)方法,這兩種方法均可以有效地可視化高維數(shù)據(jù)集,平行坐標(biāo)方法可以通過(guò)調(diào)整平行軸的順序,很好地體現(xiàn)數(shù)據(jù)的功能依賴性。散點(diǎn)圖矩陣方法可以很好地呈現(xiàn)數(shù)據(jù)的分布,方便用戶發(fā)現(xiàn)孤立點(diǎn)。

      (3)過(guò)程可視化技術(shù)的實(shí)現(xiàn)。為了便于比較和驗(yàn)證本文所提出的過(guò)程可視化技術(shù)的有效性和優(yōu)越性,本文對(duì)頻繁項(xiàng)集的挖掘過(guò)程分別采用了文字化的表現(xiàn)方法和基于平行坐標(biāo)的方法。基于平行坐標(biāo)的方法是對(duì)傳統(tǒng)平行坐標(biāo)方法的一種改進(jìn),以平行坐標(biāo)的每一條坐標(biāo)軸表示對(duì)數(shù)據(jù)庫(kù)的一次掃描,軸上均勻分布的是所有的1-項(xiàng)頻繁集,第i條坐標(biāo)軸和第i+1條坐標(biāo)軸之間的連線表示的是i+1-項(xiàng)頻繁集,各項(xiàng)集的支持度用軸間連線的粗細(xì)來(lái)描述,并且用不同的顏色將各頻繁項(xiàng)集區(qū)分開(kāi),避免產(chǎn)生界面混亂的問(wèn)題。用戶可以根據(jù)中間結(jié)果的反饋來(lái)調(diào)整算法的參數(shù)和約束條件,從而改善挖掘結(jié)果,提高挖掘質(zhì)量,并提升用戶對(duì)挖掘結(jié)果的信賴度。對(duì)著名的購(gòu)物籃分析數(shù)據(jù)集設(shè)置支持度閾值為0.05所得的平行坐標(biāo),如圖2所示。

      (4)結(jié)果可視化技術(shù)的實(shí)現(xiàn)。本文對(duì)數(shù)據(jù)挖掘結(jié)果的可視化采用了基于三維坐標(biāo)的方法,該方法可以更清晰直觀的表示關(guān)聯(lián)規(guī)則,并能夠很好的避免界面紊亂、歧義、遮蔽的問(wèn)題,也能夠有效地表示多對(duì)多和多維的關(guān)聯(lián)規(guī)則。根據(jù)Apriori算法的第二步,設(shè)置置信度閾值為0.9,則所生成的強(qiáng)規(guī)則如表1所示。

      用基于三維坐標(biāo)的可視化方法表示這7條關(guān)聯(lián)規(guī)則,其中X軸表示的是規(guī)則,Z軸是所有的1-項(xiàng)頻繁集,X-Z平面上各綠色方格對(duì)應(yīng)規(guī)則的前項(xiàng),紅色方格對(duì)應(yīng)規(guī)則的后項(xiàng),Y軸上紅色的立方體表示規(guī)則的支持度,綠色的立方體表示的是規(guī)則的置信度,如圖3所示。

      由圖3可以看出,基于三維坐標(biāo)的關(guān)聯(lián)規(guī)則可視化方法表達(dá)清晰準(zhǔn)確,對(duì)于關(guān)聯(lián)規(guī)則的參數(shù)也能直觀地描述出來(lái),界面不存在遮蔽的問(wèn)題,且對(duì)于多對(duì)多的規(guī)則也能有效地呈現(xiàn)。

      圖2 基于平行坐標(biāo)的過(guò)程可視化方法

      圖3 基于三維坐標(biāo)的關(guān)聯(lián)規(guī)則結(jié)果可視化

      4 結(jié)束語(yǔ)

      表1 關(guān)聯(lián)規(guī)則集

      在此主要就可視化數(shù)據(jù)挖掘技術(shù)的實(shí)現(xiàn)進(jìn)行探討,采用了一種基于改進(jìn)的平行坐標(biāo)技術(shù)的過(guò)程可視化方法來(lái)表示頻繁項(xiàng)集的挖掘過(guò)程,實(shí)現(xiàn)了可視化交互、數(shù)據(jù)可視化、過(guò)程可視化和結(jié)果可視化。并通過(guò)用筆者所開(kāi)發(fā)的原型系統(tǒng)對(duì)經(jīng)典的購(gòu)物籃分析問(wèn)題進(jìn)行了可視化數(shù)據(jù)挖掘,驗(yàn)證了本文所采用的可視化數(shù)據(jù)挖掘技術(shù)達(dá)到了預(yù)期目標(biāo),同時(shí)也突出了基于改進(jìn)的平行坐標(biāo)技術(shù)的過(guò)程可視化方法的有效性和優(yōu)越性。

      [1]鐘楊俊,文堂柳.可視化數(shù)據(jù)挖掘方法與技術(shù)[J].福建電腦,2008,24(8):59,95

      [2]XML Signature Working Group.XML-Signature Syntax and W3C Proposed Recommendation[S].August 20,2001

      [3]劉玲.基于數(shù)據(jù)挖掘系統(tǒng)的可視化技術(shù)研究[D].北京:北京工業(yè)大學(xué),2010

      [4]羅文靜.數(shù)據(jù)挖掘中可視化技術(shù)研究與實(shí)現(xiàn)[D].成都:電子科技大學(xué),2007

      [5]寧津生,郭金來(lái).地球重力場(chǎng)可視化數(shù)據(jù)挖掘平臺(tái)WHU-3Dgravity的設(shè)計(jì)與實(shí)現(xiàn)[J].武漢大學(xué)學(xué)報(bào):信息科學(xué)版,2007,32(11):945-949

      [6]劉緒崇.基于OLAM的可視化數(shù)據(jù)挖掘技術(shù)研究[D].國(guó)防科學(xué)技術(shù)大學(xué),2002

      [7]陳霞,陳桂芬.基于可視化的時(shí)空數(shù)據(jù)挖掘研究與應(yīng)用[J].安徽農(nóng)業(yè)科學(xué),2012,40(17):9542-9545

      [8]胡俊.數(shù)據(jù)挖掘可視化模型及其應(yīng)用研究[D].北京交通大學(xué),2009

      猜你喜歡
      圖標(biāo)數(shù)據(jù)挖掘可視化
      基于CiteSpace的足三里穴研究可視化分析
      基于Power BI的油田注水運(yùn)行動(dòng)態(tài)分析與可視化展示
      云南化工(2021年8期)2021-12-21 06:37:54
      探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
      基于CGAL和OpenGL的海底地形三維可視化
      “融評(píng)”:黨媒評(píng)論的可視化創(chuàng)新
      Android手機(jī)上那些好看的第三方圖標(biāo)包
      基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
      電力與能源(2017年6期)2017-05-14 06:19:37
      中國(guó)風(fēng)圖標(biāo)設(shè)計(jì)
      一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
      有意思的廁所圖標(biāo)
      讀者(2015年13期)2015-05-14 11:41:05
      象山县| 射洪县| 新昌县| 家居| 城固县| 汽车| 平远县| 普洱| 襄城县| 航空| 津市市| 孟州市| 临潭县| 南平市| 聊城市| 阳江市| 邢台县| 林州市| 鲁山县| 开化县| 正阳县| 通州区| 钟山县| 门头沟区| 来宾市| 泰宁县| 探索| 栾城县| 德清县| 廊坊市| 泰安市| 尼勒克县| 东安县| 成都市| 福清市| 凤凰县| 绥江县| 宁河县| 烟台市| 苏尼特右旗| 长岛县|