王子陽++羅敦浪++謝先恒++李天夫
摘 要:隨著當(dāng)前現(xiàn)代科技的發(fā)展,計(jì)算機(jī)在各方面都得到了廣泛的應(yīng)用,計(jì)算機(jī)給人們的生活帶來了翻天覆地的變化,人們對(duì)計(jì)算機(jī)的重視程度越來越高。但是應(yīng)該看到,計(jì)算機(jī)一方面帶來了巨大的便利條件,另一方面也帶來了很多問題,數(shù)據(jù)庫(kù)中積累下來海量的數(shù)據(jù),這些數(shù)據(jù)中往往隱藏著很多的重要信息。如果能夠?qū)@些數(shù)據(jù)進(jìn)行深入的分析,并且從中找到潛在的規(guī)律,會(huì)對(duì)管理者決策起到非常大的作用。但是目前的數(shù)據(jù)分析工具還不能夠使?jié)M足深層次分析的需要,當(dāng)前從海量數(shù)據(jù)中挖掘出重要信息并為之所用,已成為一個(gè)新的研究課題。本文主要是在分析數(shù)據(jù)挖掘技術(shù)概念的基礎(chǔ)上,分析了數(shù)據(jù)挖掘的運(yùn)行過程。
關(guān)鍵詞:數(shù)據(jù)挖掘 概念 運(yùn)行過程
一、數(shù)據(jù)挖掘的概念與分類
1、數(shù)據(jù)挖掘技術(shù)的概念
隨著現(xiàn)代科技的迅猛發(fā)展,計(jì)算機(jī)數(shù)據(jù)管理系統(tǒng)在社會(huì)各方面都得到了廣泛的應(yīng)用,尤其是關(guān)系數(shù)據(jù)庫(kù)系統(tǒng)已成為了當(dāng)前事務(wù)處理的強(qiáng)有力工具。人類在更廣泛的領(lǐng)域內(nèi)應(yīng)用數(shù)據(jù)庫(kù)技術(shù),加大了對(duì)空間數(shù)據(jù)庫(kù)、工程數(shù)據(jù)庫(kù)、時(shí)間數(shù)據(jù)庫(kù)、統(tǒng)計(jì)數(shù)據(jù)庫(kù)等的研究和應(yīng)用,這使得越來越多的數(shù)據(jù)在數(shù)據(jù)庫(kù)中被積累下來。就目前來講,計(jì)算機(jī)數(shù)據(jù)庫(kù)可以高效完成的工作有:數(shù)據(jù)的查詢、收錄以及統(tǒng)計(jì)等,還不能夠從眾多的信息中挖掘出來有效信息,以找出數(shù)據(jù)中潛藏的規(guī)律,同時(shí)也不能夠利用現(xiàn)有的數(shù)據(jù)資源對(duì)未來發(fā)展趨勢(shì)進(jìn)行科學(xué)預(yù)測(cè)。正是因?yàn)槿狈ν诰驍?shù)據(jù)背后隱藏的知識(shí)手段,結(jié)果導(dǎo)致了現(xiàn)代信息技術(shù)中“數(shù)據(jù)爆炸但知識(shí)缺乏”的現(xiàn)象,于是數(shù)據(jù)挖掘應(yīng)運(yùn)而生。 數(shù)據(jù)挖掘具有廣闊的應(yīng)用和發(fā)展前景,是數(shù)據(jù)庫(kù)研究、開發(fā)和應(yīng)用最活躍的分支之一。
數(shù)據(jù)挖掘簡(jiǎn)稱DM,也被稱為數(shù)據(jù)庫(kù)中只是發(fā)現(xiàn)。從上個(gè)世紀(jì)90年代,數(shù)據(jù)挖掘技術(shù)就迅速發(fā)展起來。所謂數(shù)據(jù)挖掘就是指將事先隱藏在數(shù)據(jù)中的、有重大價(jià)值的而又未被發(fā)現(xiàn)的信息從大量數(shù)據(jù)中挖掘并提取出來的過程。數(shù)據(jù)挖掘出的內(nèi)容應(yīng)該是使用者有興趣的信息,而且應(yīng)該是大家容易接受的信息,同時(shí)這些信息容易被理解分析和再運(yùn)用;挖掘的目標(biāo)數(shù)據(jù)應(yīng)該是大量的現(xiàn)實(shí)中存在的有效數(shù)據(jù);數(shù)據(jù)挖掘所挖掘的對(duì)象也是多種多樣的,它可以是文本、圖像和圖形等半結(jié)構(gòu)化的數(shù)據(jù),也可以是關(guān)系型數(shù)據(jù)庫(kù)中的數(shù)據(jù)等結(jié)構(gòu)化的數(shù)據(jù),同時(shí)還可以是分布在網(wǎng)絡(luò)上的異構(gòu)型數(shù)據(jù)。一般可以把數(shù)據(jù)挖掘發(fā)現(xiàn)的知識(shí)分為“概念、模式、規(guī)律、規(guī)則等幾種形式。這些知識(shí)可以以新知識(shí)的形式轉(zhuǎn)存到相應(yīng)的系統(tǒng)知識(shí)存儲(chǔ)機(jī)構(gòu)中,相關(guān)的專家領(lǐng)域可以用其來修正原有的知識(shí)體系,同時(shí)決策者可以用這些知識(shí)來輔助決策過程?!?由此我們可以看到數(shù)據(jù)挖掘是門交叉學(xué)科,涉及到數(shù)據(jù)庫(kù)、數(shù)理統(tǒng)計(jì)、機(jī)器學(xué)習(xí)、模式識(shí)別、神經(jīng)網(wǎng)絡(luò)、粗糙集和模糊集等相關(guān)技術(shù),數(shù)據(jù)挖掘采用的主要方法有關(guān)聯(lián)規(guī)則、遺傳算法、模糊論方法、決策樹方法、人工神經(jīng)網(wǎng)絡(luò)、粗糙集方法、貝葉斯模型等;數(shù)據(jù)挖掘過程中涉及到數(shù)據(jù)清理、數(shù)據(jù)采集、數(shù)據(jù)變換、數(shù)據(jù)分析、數(shù)據(jù)挖掘以及數(shù)據(jù)結(jié)果表示等一系列環(huán)節(jié)。
通常情況下,人們把信息和數(shù)據(jù)看作是知識(shí)的表現(xiàn)形式,而實(shí)際上我們更應(yīng)該重視概念、規(guī)則、模式以及約束等。數(shù)據(jù)挖掘把原來對(duì)知識(shí)的簡(jiǎn)單應(yīng)用擴(kuò)展到了對(duì)知識(shí)信息的深度提取和運(yùn)用。在學(xué)生成績(jī)管理系統(tǒng)中,挖掘現(xiàn)有的學(xué)生信息數(shù)據(jù)庫(kù),提取那些對(duì)學(xué)生成績(jī)有影響的屬性信息,進(jìn)行綜合分析,幫助學(xué)??茖W(xué)合理地制定教學(xué)計(jì)劃。隨著此類應(yīng)用需求的不斷增加,各領(lǐng)域?qū)W者都積極投身于數(shù)據(jù)挖掘這門前沿學(xué)科的研究,尤其是人工智能、計(jì)算機(jī)數(shù)據(jù)庫(kù)以及數(shù)理統(tǒng)計(jì)等方面的學(xué)者。我們知道現(xiàn)實(shí)中的數(shù)據(jù)分為三種:結(jié)構(gòu)化的、半結(jié)構(gòu)化的、還有異構(gòu)型的,現(xiàn)在學(xué)校里存儲(chǔ)的學(xué)生信息一般都會(huì)采用其中的一種類型。數(shù)據(jù)挖掘的知識(shí)可以應(yīng)用到學(xué)生基本信息和學(xué)校管理決策方面的管理和數(shù)據(jù)查詢與優(yōu)化,同時(shí)也可以應(yīng)用到數(shù)據(jù)庫(kù)自身的維護(hù)方面??傊?,在學(xué)校管理方面數(shù)據(jù)挖掘的應(yīng)用前景是非常廣闊的。
2、數(shù)據(jù)挖掘技術(shù)的分類
數(shù)據(jù)挖掘可以根據(jù)不同的標(biāo)準(zhǔn)作出不同的分類。按照數(shù)據(jù)挖掘功能可以將數(shù)據(jù)挖掘分為兩大類:預(yù)測(cè)性挖掘和描述性挖掘。按照數(shù)據(jù)庫(kù)類型,數(shù)據(jù)挖掘可以分為面向?qū)ο髷?shù)據(jù)挖掘、有關(guān)系數(shù)據(jù)庫(kù)挖掘、多媒體數(shù)據(jù)庫(kù)的數(shù)據(jù)挖掘、事務(wù)數(shù)據(jù)庫(kù)的數(shù)據(jù)挖掘、數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)挖掘以及模糊數(shù)據(jù)挖掘等等多種類型的數(shù)據(jù)挖掘。按照數(shù)據(jù)挖掘?qū)ο髮?duì)數(shù)據(jù)挖掘進(jìn)行分類,主要可以分為數(shù)據(jù)庫(kù)數(shù)據(jù)挖掘、多媒體數(shù)據(jù)挖掘、Web數(shù)據(jù)挖掘、以及文本數(shù)據(jù)挖掘等。按照數(shù)據(jù)挖掘的任務(wù)進(jìn)行分類,可以分為序列模式挖掘、關(guān)聯(lián)規(guī)則挖掘、分類數(shù)據(jù)挖掘、預(yù)測(cè)挖掘、聚類數(shù)據(jù)挖掘和偏差分析挖掘等類型。按照數(shù)據(jù)挖掘的技術(shù)和方法分類,數(shù)據(jù)挖掘可以分為統(tǒng)計(jì)分析類、歸納學(xué)習(xí)類、模糊數(shù)學(xué)類、聚類方法類、放生物技術(shù)類以及可視化技術(shù)類等。
二、數(shù)據(jù)挖掘的基本運(yùn)行過程
數(shù)據(jù)挖掘中首先要確定需要解決的目標(biāo),了解挖掘該目標(biāo)的背景以及工作的業(yè)務(wù)流程。這樣才能夠充分發(fā)揮出挖掘的作用,提取最有價(jià)值的信息。問題定義的如何對(duì)數(shù)據(jù)模型建立的好壞有著直接關(guān)系,所以一定要做好這一步驟。
數(shù)據(jù)挖掘的第二步就是建立模型,把待挖掘的數(shù)據(jù)存儲(chǔ)到大型數(shù)據(jù)庫(kù)中,然后在此數(shù)據(jù)庫(kù)基礎(chǔ)上建立數(shù)據(jù)倉(cāng)庫(kù),建立各種統(tǒng)計(jì)查詢、圖表以及挖掘模型等等。其中這些挖掘數(shù)據(jù)不需要挖掘者自己開發(fā),而是這些挖掘模型自身數(shù)據(jù)庫(kù)系統(tǒng)提供的,所以只需要建立數(shù)據(jù)庫(kù)就行。
數(shù)據(jù)挖掘的第三步就是數(shù)據(jù)分析環(huán)節(jié),對(duì)數(shù)據(jù)進(jìn)行分析其目的就是為了找出預(yù)測(cè)中有影響力的因素,然后整合這些影響力因素,并且找出關(guān)鍵影響因素。最終通過對(duì)各因素的影響力的分析,得出一個(gè)更有分析價(jià)值的影響因素。
數(shù)據(jù)挖掘的第四個(gè)環(huán)節(jié)就是準(zhǔn)備數(shù)據(jù)環(huán)節(jié),該環(huán)節(jié)主要包括選擇原始數(shù)據(jù)、提前處理目標(biāo)數(shù)據(jù)、整合綜合數(shù)據(jù)等三個(gè)方面的工作。數(shù)據(jù)的選擇是指準(zhǔn)備所有待挖掘數(shù)據(jù)集中屬性和相關(guān)數(shù)據(jù)等,選擇出來重要的數(shù)據(jù)集。然后就是對(duì)數(shù)據(jù)進(jìn)行分析,對(duì)數(shù)據(jù)集中的數(shù)據(jù)進(jìn)行過濾、離散化、填補(bǔ)等,從而分析出更有價(jià)值的信息,這就是提前處理目標(biāo)數(shù)據(jù)環(huán)節(jié);接著就是數(shù)據(jù)的整合環(huán)節(jié),這個(gè)環(huán)節(jié)的主要工作就是把現(xiàn)有的數(shù)據(jù)集整合為一個(gè)可以適應(yīng)挖掘算法需要的分析模型數(shù)據(jù)集。
數(shù)據(jù)挖掘的第五步就是模型選擇的環(huán)節(jié),根據(jù)數(shù)據(jù)特點(diǎn)選擇合適的挖掘算法,包括決策樹算法、神經(jīng)網(wǎng)絡(luò)算法、分類分析、聚類分析等。對(duì)于那些數(shù)據(jù)集中的數(shù)據(jù)還要進(jìn)行相應(yīng)的轉(zhuǎn)化。
數(shù)據(jù)挖掘的第六步就是數(shù)據(jù)挖掘環(huán)節(jié),驗(yàn)證決策的正確性,這一步要把前面步驟所得出的相關(guān)信息運(yùn)用到各項(xiàng)業(yè)務(wù)流程中去。數(shù)據(jù)挖掘的核心是模式發(fā)現(xiàn),充分利用數(shù)據(jù)挖掘方法分析經(jīng)過轉(zhuǎn)換得到的數(shù)據(jù),探索出一個(gè)特定的數(shù)據(jù)集或者感興趣的模式。
數(shù)據(jù)挖掘的第七步就是進(jìn)行結(jié)果分析,采取有效措施對(duì)挖掘結(jié)果進(jìn)行分析驗(yàn)證,保證發(fā)現(xiàn)模式的正確性。剔除冗余或者無關(guān)鍵的模式,對(duì)于不能滿足用戶要求的模式要重新進(jìn)行數(shù)據(jù)選取,甚至要更換一種挖掘算法。
數(shù)據(jù)挖掘的第八個(gè)環(huán)節(jié)就是知識(shí)表示,要對(duì)發(fā)現(xiàn)的模式進(jìn)行可視化,表示轉(zhuǎn)化為一種用戶易懂的形式,例如可以把分類決策樹轉(zhuǎn)換為“if-then”的形式。
參考文獻(xiàn):
[ ]姚雙良.數(shù)據(jù)挖掘在高校成績(jī)分類管理中的應(yīng)用研究[J]. 江蘇科技大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版). 2011(02),第37頁(yè)
[ ]宋虎森.數(shù)理統(tǒng)計(jì)方法在學(xué)生成績(jī)管理中的應(yīng)用[J]. 長(zhǎng)治學(xué)院學(xué)報(bào). 2006(05),第26頁(yè)
[1] 姚雙良.數(shù)據(jù)挖掘在高校成績(jī)分類管理中的應(yīng)用研究[J]. 江蘇科技大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版). 2011(02)
[2] 許曉潔.數(shù)據(jù)挖掘技術(shù)在高校學(xué)生信息管理系統(tǒng)中的應(yīng)用[J]. 中國(guó)科教創(chuàng)新導(dǎo)刊. 2010(22)
[3] 路川,王靜靜,胡欣杰,馬含.數(shù)據(jù)挖掘在高校教學(xué)管理中的應(yīng)用研究[J]. 電腦開發(fā)與應(yīng)用. 2010(01)