面向大規(guī)模數(shù)據(jù)庫的數(shù)據(jù)挖掘系統(tǒng)的設(shè)計

2010-08-15 00:52:53張毅

科技傳播 2010年7期

張毅

四川省宜賓市第一人民醫(yī)院網(wǎng)絡(luò)中心，四川宜賓 644000

1 數(shù)據(jù)挖掘的概念和分類分析

1.1 數(shù)據(jù)挖掘的概念

數(shù)據(jù)挖掘系統(tǒng)是信息化自然進化的結(jié)果，在信息科技時代，隨著數(shù)據(jù)庫技術(shù)的不斷發(fā)展及數(shù)據(jù)庫管理系統(tǒng)的廣泛應(yīng)用，數(shù)據(jù)庫中存儲的數(shù)據(jù)量急劇增大，在大量的數(shù)據(jù)背后隱藏著許多重要的信息。信息中包含大量的數(shù)據(jù)，如何從大量的數(shù)據(jù)中獲取有用的知識是我們面臨的一個重要而且緊迫的課題。數(shù)據(jù)挖掘技術(shù)正是從這樣的商業(yè)角度出發(fā)孕育而生的。簡單的說，數(shù)據(jù)挖掘就是從大量數(shù)據(jù)中提取或挖掘知識。數(shù)據(jù)挖掘步驟可以與用戶或知識庫交互的平臺。

1.2 數(shù)據(jù)挖掘數(shù)據(jù)庫的類型分類

數(shù)據(jù)挖掘系統(tǒng)可以根據(jù)挖掘的數(shù)據(jù)類型分類。數(shù)據(jù)庫系統(tǒng)本身可以根據(jù)不同的標準分類，每一類可以需要自己的數(shù)據(jù)挖掘技術(shù)，這樣就可以根據(jù)數(shù)據(jù)類型分類。

2 Golden-Eye系統(tǒng)簡介

數(shù)據(jù)挖掘融合了數(shù)據(jù)庫技術(shù),人工智能和統(tǒng)計學(xué)是目前的研究熱點、為了能夠集成當(dāng)前數(shù)據(jù)挖掘的主要技術(shù)并使它們協(xié)同工作，在進行數(shù)據(jù)挖掘基本算法研究的基礎(chǔ)上研制開發(fā)了一個數(shù)據(jù)挖掘系統(tǒng)-Golden-Eye-系統(tǒng)實現(xiàn)了數(shù)據(jù)控制研究中的一些最新成果,集成了泛化、數(shù)據(jù)清洗這兩個數(shù)據(jù)準備操作以及關(guān)聯(lián)規(guī)則發(fā)現(xiàn)，例外規(guī)則發(fā)現(xiàn)、時序模式發(fā)現(xiàn)、分類器構(gòu)造、聚類分析等基本數(shù)據(jù)挖掘操作，并實現(xiàn)了對挖掘操作的基本管理和結(jié)果和圖形化顯示，整個框架設(shè)計充分體現(xiàn)了系統(tǒng)的完整性、協(xié)調(diào)性和高效性；自底向上將存儲控制模塊、數(shù)據(jù)預(yù)處理模塊、挖掘操作模塊、挖掘庫管理模塊有機地結(jié)合在一起，在底層實現(xiàn)了對包括中間結(jié)果在內(nèi)的數(shù)據(jù)的統(tǒng)一管理，在上層為用戶提供了可視化的界面，實驗結(jié)果表明，該系統(tǒng) 能夠在大規(guī)模數(shù)據(jù)庫上成功地完成用戶所指定的數(shù)據(jù)挖掘操作。

3 Golden-Eye系統(tǒng)的特點

集成了泛化、數(shù)據(jù)清洗、關(guān)聯(lián)規(guī)則發(fā)現(xiàn)、時序模式(sequential pattern)發(fā)現(xiàn)、分類、聚類等多種基本數(shù)據(jù)挖掘操作。

集成了一些新的操作和新的算法,比如改進的DBSCAN聚類算法以及例外規(guī)則發(fā)現(xiàn)、數(shù)據(jù)清洗、類別屬性(categorical attribute)聚類這些數(shù)據(jù)挖掘領(lǐng)域里較新的操作。

能處理大規(guī)模的數(shù)據(jù)級,測試的最大記錄數(shù)目達到了10000000條以上。

在系統(tǒng)框架的設(shè)計上充分考慮到了系統(tǒng)的完整性、協(xié)調(diào)性和高效性。

4 Golden-Eye系統(tǒng)的展望

我們開發(fā)的數(shù)據(jù)挖掘系統(tǒng)Golden-Eye成功地集成了數(shù)據(jù)挖掘和數(shù)據(jù)準備的幾個方面的功能。從結(jié)構(gòu)上看，系統(tǒng)利用挖掘庫將各個挖掘操作松散且一致地結(jié)合起來，便于擴充新的挖掘操作模塊；從功能上看，我們集成了一些新興的數(shù)據(jù)挖掘操作；從實現(xiàn)上看，我們實現(xiàn)了一些自創(chuàng)或者經(jīng)過改進的算法。

當(dāng)然，本系統(tǒng)還存在著一些不足之處。首先，對各挖掘操作的集成還不夠緊密，挖掘操作只能簡單地按順序進行；其次，系統(tǒng)并未考慮與DBMS和OLAP工具的集成。

我們還需要在以下幾個方面做更多的工作：

1）集成簡單的數(shù)據(jù)庫操作和數(shù)據(jù)倉庫操作；

2）更緊密地集成各個數(shù)據(jù)挖掘操作；

3）在現(xiàn)有平臺的基礎(chǔ)上開發(fā)新的挖掘操作。

5 數(shù)據(jù)挖掘未來研究方向

當(dāng)前,數(shù)據(jù)挖掘研究方興未艾，,其研究與開發(fā)的總體水平相當(dāng)于數(shù)據(jù)庫技術(shù)在90年代所處的地位，迫切需要類似于關(guān)系模式，數(shù)據(jù)系統(tǒng)和SQL查詢語言等理論和方法的指導(dǎo)，才能使數(shù)據(jù)挖掘的應(yīng)用得以普遍推廣。預(yù)計在本世紀，數(shù)據(jù)挖掘的研究還會形成更大的高潮，研究焦點可能會集中到以下幾個方面：

發(fā)現(xiàn)語言的形式化描述，即研究專門用于知識發(fā)現(xiàn)的數(shù)據(jù)挖掘語言，也許會像SQL語言一樣走向形式化和標準化；

尋求數(shù)據(jù)挖掘過程中的可視化方法，使知識發(fā)現(xiàn)的過程能夠被用戶理解，也便于在知識發(fā)現(xiàn)的過程中進行人機交互；

研究在網(wǎng)絡(luò)環(huán)境下的數(shù)據(jù)挖掘技術(shù)(WebMining)，特別是在因特網(wǎng)上建立DMKD服務(wù)器，并且與數(shù)據(jù)庫服務(wù)器配合,實現(xiàn)分布式數(shù)據(jù)采掘；

加強對各種非結(jié)構(gòu)化數(shù)據(jù)的開采(DataMiningforAudio&Video)，如對文本數(shù)據(jù)，圖形數(shù)據(jù)，視頻圖像數(shù)據(jù)，聲音數(shù)據(jù)乃至綜合多媒體數(shù)據(jù)的開采；

處理的數(shù)據(jù)將會涉及到更多的數(shù)據(jù)類型，這些數(shù)據(jù)類型或者比較復(fù)雜，或者是結(jié)構(gòu)比較獨特。為了處理這些復(fù)雜的數(shù)據(jù)，就需要一些新的和更好的分析和建立模型的方法，同時還會涉及到為處理這些復(fù)雜或獨特數(shù)據(jù)所做的費時和復(fù)雜數(shù)據(jù)準備的一些工具和軟件。

6 結(jié)論

需求牽引與市場推動是永恒的，將首先滿足信息時代用戶的急需，大量的基于數(shù)據(jù)挖掘的決策支持軟件產(chǎn)品將會問世。只有從數(shù)據(jù)中有效地提取信息，從信息中及時地發(fā)現(xiàn)知識，才能為人類的思維決策和戰(zhàn)略發(fā)展服務(wù)，也只有到那時，數(shù)據(jù)才能夠真正成為與物質(zhì)，能源相媲美的資源，信息時代才會真正到來。

[1]魏藜,錢海蕾,錢衛(wèi)寧,王焱,周傲英.數(shù)據(jù)挖掘原型系統(tǒng)軟件學(xué)報,2001(8).

[2]王小虎,韓家偉.數(shù)據(jù)挖掘的概念與技術(shù).計算機工程與設(shè)計,2002(10).

[3]錢衛(wèi)寧,周傲英.一個面向大規(guī)模數(shù)據(jù)庫的數(shù)據(jù)挖掘系統(tǒng),2009(1).