蔡鑫輝
摘 要:數(shù)據(jù)挖掘已經(jīng)引起了社會(huì)各界特別是信息產(chǎn)業(yè)界的極大關(guān)注,其主要原因是在統(tǒng)計(jì)學(xué)和數(shù)據(jù)庫(kù)知識(shí)高速發(fā)展的今天,以前積累了大量數(shù)據(jù),迫切需要將這些數(shù)據(jù)轉(zhuǎn)換成有用的信息和知識(shí)。通過數(shù)據(jù)挖掘技術(shù)獲取的信息和知識(shí)可以廣泛用于各個(gè)領(lǐng)域,包括商務(wù)管理、生產(chǎn)控制、市場(chǎng)分析、工程設(shè)計(jì)和科學(xué)探索等。
關(guān)鍵詞:數(shù)據(jù)挖掘;直接數(shù)據(jù)挖掘;間接數(shù)據(jù)挖掘
一、數(shù)據(jù)挖掘的定義
數(shù)據(jù)挖掘,數(shù)據(jù)挖掘的含義。數(shù)據(jù)挖掘又稱為數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn),就是從大量數(shù)據(jù)中獲取有效的、新穎的、潛在有用的、最終可理解的模式的非平凡過程,簡(jiǎn)單地說,數(shù)據(jù)挖掘就是從大量數(shù)據(jù)中提取或“挖掘”知識(shí)。數(shù)據(jù)的分析是數(shù)據(jù)挖掘的一項(xiàng)技術(shù),數(shù)據(jù)的分析有頻數(shù)統(tǒng)計(jì)分析、領(lǐng)悟式分析、聚類分析、相關(guān)關(guān)系分析、人工神經(jīng)網(wǎng)絡(luò)原理分析等方法。數(shù)據(jù)挖掘中聚類分析是其中重要的分析方法之一。數(shù)據(jù)挖掘是數(shù)據(jù)庫(kù)內(nèi)信息的知識(shí)發(fā)現(xiàn),是從數(shù)據(jù)庫(kù)的海量資料中提取或挖掘用戶需要的知識(shí)信息,而這些知識(shí)信息有規(guī)則、概念、模式和規(guī)律等多種表現(xiàn)形式.在數(shù)據(jù)研究的過程中,聚類分析方法能夠有效剔除在分類的過程中所混入的主觀因素,準(zhǔn)確而客觀的將研究對(duì)象的信息表現(xiàn)在用戶面前,并完成信息內(nèi)部客觀規(guī)律的發(fā)掘任務(wù)。在人工智能領(lǐng)域,習(xí)慣上又稱為數(shù)據(jù)庫(kù)中知識(shí)發(fā)現(xiàn)(Knowledge Discovery in Database,簡(jiǎn)稱為KDD),也有人把數(shù)據(jù)挖掘視為數(shù)據(jù)庫(kù)中知識(shí)發(fā)現(xiàn)過程的一個(gè)基本步驟。換言之,就是從存放在數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)或其他信息庫(kù)中大量的數(shù)據(jù)中獲取有效的、新穎的、潛在有用的、最終可理解的模式的非平凡過程。
二、數(shù)據(jù)挖掘的關(guān)鍵步驟
1.挖掘
把潛在的不明確數(shù)據(jù)關(guān)系的數(shù)據(jù)提取并轉(zhuǎn)化為數(shù)學(xué)問題。這一步的結(jié)果只是表明數(shù)據(jù)之間有關(guān)系,但是具體是什么關(guān)系仍然不明確。
2.建模
把不明確的數(shù)據(jù)關(guān)系通過數(shù)學(xué)建模過程轉(zhuǎn)化為明顯的數(shù)據(jù)關(guān)系,即把數(shù)據(jù)之間的內(nèi)在變化規(guī)律由數(shù)學(xué)符號(hào)與數(shù)學(xué)結(jié)構(gòu)表示出來。
三、數(shù)據(jù)挖掘分類
1.直接數(shù)據(jù)挖掘
目標(biāo)是利用可用的數(shù)據(jù)建立一個(gè)模型,這個(gè)模型對(duì)剩余的數(shù)據(jù),即一個(gè)特定的變量進(jìn)行描述。
2.間接數(shù)據(jù)挖掘
目標(biāo)中沒有選出某一具體的變量,而是在所有的變量中建立起某種關(guān)系。
四、數(shù)據(jù)挖掘技術(shù)實(shí)現(xiàn)
在技術(shù)上可以根據(jù)它的工作過程分為:數(shù)據(jù)的抽取、數(shù)據(jù)的存儲(chǔ)和管理、數(shù)據(jù)的展現(xiàn)等關(guān)鍵技術(shù)。
1.數(shù)據(jù)的抽取
就是數(shù)據(jù)進(jìn)入倉(cāng)庫(kù)的入口。由于數(shù)據(jù)倉(cāng)庫(kù)是一個(gè)獨(dú)立的數(shù)據(jù)環(huán)境,它需要通過抽取過程將數(shù)據(jù)從聯(lián)機(jī)事務(wù)處理系統(tǒng)、外部數(shù)據(jù)源、脫機(jī)的數(shù)據(jù)存儲(chǔ)介質(zhì)中導(dǎo)入數(shù)據(jù)倉(cāng)庫(kù)。數(shù)據(jù)抽取在技術(shù)上主要涉及互連、復(fù)制、增量、轉(zhuǎn)換、調(diào)度和監(jiān)控等幾個(gè)方面的處理。
2.數(shù)據(jù)的存儲(chǔ)和管理
數(shù)據(jù)倉(cāng)庫(kù)的組織管理方式?jīng)Q定了它有別于傳統(tǒng)數(shù)據(jù)庫(kù)的特性,也決定了其對(duì)外部數(shù)據(jù)的表現(xiàn)形式。數(shù)據(jù)倉(cāng)庫(kù)管理所涉及的數(shù)據(jù)量比傳統(tǒng)事務(wù)處理大得多,且隨時(shí)間的推移而快速累積。在數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)存儲(chǔ)和管理中需要解決的是如何管理大量的數(shù)據(jù)、如何并行處理大量的數(shù)據(jù)、如何優(yōu)化查詢等。
3.數(shù)據(jù)的展現(xiàn)
主要的方式有:查詢:實(shí)現(xiàn)預(yù)定義查詢、動(dòng)態(tài)查詢、OLAP查詢與決策支持智能查詢;報(bào)表:產(chǎn)生關(guān)系數(shù)據(jù)表格、復(fù)雜表格、OLAP表格、報(bào)告以及各種綜合報(bào)表;可視化:用易于理解的點(diǎn)線圖、直方圖、餅圖、網(wǎng)狀圖、交互式可視化、動(dòng)態(tài)模擬、計(jì)算機(jī)動(dòng)畫技術(shù)表現(xiàn)復(fù)雜數(shù)據(jù)及其相互關(guān)系;統(tǒng)計(jì):進(jìn)行平均值、最大值、最小值、期望、方差、匯總、排序等各種統(tǒng)計(jì)分析;挖掘:利用數(shù)據(jù)挖掘等方法,從數(shù)據(jù)中得到關(guān)于數(shù)據(jù)關(guān)系和模式的識(shí)。
五、數(shù)據(jù)挖掘與數(shù)據(jù)倉(cāng)庫(kù)融合發(fā)展
數(shù)據(jù)挖掘和數(shù)據(jù)倉(cāng)庫(kù)的協(xié)同工作,一方面可以迎合和簡(jiǎn)化數(shù)據(jù)挖掘過程中的重要步驟,提高數(shù)據(jù)挖掘的效率和能力,確保數(shù)據(jù)挖掘中數(shù)據(jù)來源的廣泛性和完整性;另一方面,數(shù)據(jù)挖掘技術(shù)已經(jīng)成為數(shù)據(jù)倉(cāng)庫(kù)應(yīng)用中極為重要和相對(duì)獨(dú)立的方面和工具。
數(shù)據(jù)挖掘和數(shù)據(jù)倉(cāng)庫(kù)是融合與互動(dòng)發(fā)展的,具有廣泛的應(yīng)用空間和豐富的學(xué)術(shù)價(jià)值。簡(jiǎn)而言之,掌握數(shù)據(jù)挖掘和數(shù)據(jù)倉(cāng)庫(kù)技術(shù)可以使我們從數(shù)據(jù)庫(kù)的“奴隸”變成數(shù)據(jù)庫(kù)的“主人”。
六、數(shù)據(jù)挖掘在各領(lǐng)域中的應(yīng)用及發(fā)展前景
當(dāng)前數(shù)據(jù)挖掘應(yīng)用主要集中在電信、零售、農(nóng)業(yè)、網(wǎng)絡(luò)日志、銀行、電力、生物、天體、化工、醫(yī)藥等方面。專家也指出,數(shù)據(jù)挖掘會(huì)成為未來十年內(nèi)重要的技術(shù)之一。而數(shù)據(jù)挖掘,也已經(jīng)開始成為一門獨(dú)立的專業(yè)學(xué)科。
具體發(fā)展趨勢(shì)和應(yīng)用方向主要有:對(duì)知識(shí)發(fā)現(xiàn)方法的研究進(jìn)一步發(fā)展,如對(duì)Bayes和Boosting方法的研究和提高;商業(yè)工具軟件不斷產(chǎn)生和完善,注重建立解決問題的整體系統(tǒng)。
數(shù)據(jù)挖掘的發(fā)展應(yīng)是挖掘工具在先進(jìn)理論指導(dǎo)下的改進(jìn),而就現(xiàn)有情況而言,還有至少二十年的發(fā)展空間。
目前,聯(lián)機(jī)處理技術(shù)與數(shù)據(jù)挖掘是信息系統(tǒng)領(lǐng)域內(nèi)的研究重點(diǎn),OLAP作為一種多維分析的工具,可以為用戶提供多層面、多角度的邏輯視圖,按照用戶所提出問題進(jìn)行假設(shè),分析,并將呈現(xiàn)給用戶。
數(shù)據(jù)挖掘是在海量的數(shù)據(jù)集合中尋找模式的決策支持過程,它從大量數(shù)據(jù)中發(fā)現(xiàn)潛在的模式并作出預(yù)測(cè)性分析,是現(xiàn)有的最新的技術(shù)和統(tǒng)計(jì)學(xué)等成熟技術(shù)在特定系統(tǒng)中的具體的應(yīng)用。
同時(shí),數(shù)據(jù)挖掘與OLAP都屬于分析型工具,從某種角度上說OLAP聯(lián)機(jī)分析方法也是一種數(shù)據(jù)挖掘方法。但二者之間有著明顯的區(qū)別,數(shù)據(jù)挖掘的分析過程是全自動(dòng)的,用戶可以不必提出確切的問題,只需工具去挖掘隱藏的模式并預(yù)測(cè)將來的趨勢(shì),這樣有利于發(fā)現(xiàn)未知的事實(shí);而OLAP更多地依靠用戶輸入問題和假設(shè),由于用戶先入為主的參與問題和假設(shè)的范圍,從而會(huì)影響最后的結(jié)論。從對(duì)數(shù)據(jù)分析的深度角度來講,它比較淺顯,數(shù)據(jù)挖掘則可以發(fā)現(xiàn)OLAP 所不能發(fā)現(xiàn)的更為復(fù)雜的信息。
數(shù)據(jù)挖掘存在的主要問題是實(shí)現(xiàn)很困難,因?yàn)閿?shù)據(jù)庫(kù)或數(shù)據(jù)倉(cāng)庫(kù)中存在大量數(shù)據(jù)和每個(gè)數(shù)據(jù)又有很多屬性,由于挖掘分析過程是全自動(dòng)的,用戶僅僅指定挖掘的任務(wù),而不提供搜索線索,這樣導(dǎo)致搜索的空間過大,生成相當(dāng)多的外模式,其中絕大部分有可能是無意義的是用戶不感興趣的模式。OLAP分析雖然可給用戶提供在不同角度、不同抽象級(jí)別的視圖,但是由于對(duì)用戶的需求了解調(diào)研的不夠全面,視圖中缺乏所應(yīng)包含的維度,從不同的視圖得到的結(jié)果可能并不相同,容易產(chǎn)生錯(cuò)誤引導(dǎo),用戶需做大量的數(shù)據(jù)打撈工作才能夠猜出正確的結(jié)果。
實(shí)際上數(shù)據(jù)挖掘的各個(gè)方法之間,數(shù)據(jù)挖掘和聯(lián)機(jī)分析處理之間都有著密不可分的關(guān)系,有些是可以由OLAP 來展現(xiàn)或分析的,而數(shù)據(jù)挖掘的結(jié)果又可以指導(dǎo)生成OLAP多維模型。
從上述分析可以看出,數(shù)據(jù)挖掘技術(shù)由于內(nèi)在技術(shù)方面和適用范圍的不同,在實(shí)際決策分析中必須協(xié)調(diào)配合使用才能發(fā)揮最好的作用。
參考文獻(xiàn)
[1]廖芹,郝志峰,陳志宏.數(shù)據(jù)挖掘與數(shù)學(xué)建模[M].北京:國(guó)防工業(yè)出版社,2010.
[2]希賽IT發(fā)展研究中心.SQLSEVER數(shù)據(jù)庫(kù)系統(tǒng)開發(fā)[M].北京:電子工業(yè)出版社,2009.
[3]廖里 數(shù)據(jù)挖掘和數(shù)據(jù)倉(cāng)庫(kù)及其在電信業(yè)中的應(yīng)用 2000年 《重慶郵電學(xué)院學(xué)報(bào)》
[4]石磊 OLAP與數(shù)據(jù)挖掘一體化模型的分析與討論 2000年 《小型微型計(jì)算機(jī)系統(tǒng)》
[5]豎 苧 數(shù)據(jù)倉(cāng)庫(kù)的建設(shè)與數(shù)據(jù)挖掘技術(shù)淺析 2003年第3期《現(xiàn)代信息技術(shù)》
[6]宋中山 數(shù)據(jù)倉(cāng)庫(kù)技術(shù)研究與應(yīng)用 2003年 《計(jì)算機(jī)工程與應(yīng)用》