于祥茹
[摘要]數(shù)據(jù)挖掘是數(shù)據(jù)庫領(lǐng)域中報(bào)有應(yīng)用價(jià)值的課題,支持決鐿系統(tǒng),人工智能等領(lǐng)域。簡要介紹數(shù)據(jù)挖掘的概念以及分類。另外。重點(diǎn)介紹數(shù)據(jù)挖掘的兩種主要技術(shù)。
[關(guān)鍵詞]數(shù)據(jù)挖掘人工神經(jīng)網(wǎng)絡(luò)決策樹
中圖分類號:TP3文獻(xiàn)標(biāo)識碼:A文章編號:1671—7597(2009)1020081—01
隨著數(shù)據(jù)庫技術(shù)的迅速發(fā)展以及數(shù)據(jù)庫管理系統(tǒng)的廣泛應(yīng)用,人們積累的數(shù)據(jù)越來越多。激增的數(shù)據(jù)背后隱藏著許多重要的信息,人們希望能夠?qū)ζ溥M(jìn)行更高層次的分析,以便更好地利用這些數(shù)據(jù)。目前的數(shù)據(jù)庫系統(tǒng)雖然可以高效地實(shí)現(xiàn)數(shù)據(jù)的錄入、查詢、統(tǒng)計(jì)等功能,但無法發(fā)現(xiàn)數(shù)據(jù)中存在的關(guān)聯(lián)和規(guī)則,無法根據(jù)現(xiàn)有的數(shù)據(jù)預(yù)測未來的發(fā)展趨勢。缺乏挖掘數(shù)據(jù)背后隱藏的知識的手段,導(dǎo)致了“數(shù)據(jù)爆炸但知識貧乏”的現(xiàn)象,應(yīng)用的需求促使一門新的技術(shù)誕生數(shù)據(jù)挖掘。
一、數(shù)據(jù)挖掘的概念
數(shù)據(jù)挖掘的概念有多種的描述,其中常見的概念描述有如下的兩種:
第一種,GPi atetsky Shapior,w.J.Frawley等定義數(shù)據(jù)挖掘?yàn)閺臄?shù)據(jù)庫的大量數(shù)據(jù)中揭示出隱含的、先進(jìn)未知的、潛在有用的信急的非平凡過程。
第二種,數(shù)據(jù)挖掘的廣義觀點(diǎn):數(shù)據(jù)挖掘是從存放在數(shù)據(jù)庫、數(shù)據(jù)倉庫或其他信息庫中的大量數(shù)據(jù)中挖掘有趣知識的過程。
二、數(shù)據(jù)挖掘的分類
從不同的視角看,數(shù)據(jù)挖掘技術(shù)有一下三種分類方法:
1、根據(jù)發(fā)現(xiàn)知識的種類分類。2、根據(jù)挖掘的數(shù)據(jù)庫的種類分類。3、根據(jù)采用的技術(shù)分類。
三、數(shù)據(jù)挖掘的主要技術(shù)介紹
數(shù)據(jù)挖掘的技術(shù)主要分為兩類:一類是預(yù)言,用歷史來預(yù)測未來;另一類是描述,目的是了解數(shù)據(jù)中的潛在規(guī)律。具體來說主要可以分為人工神經(jīng)網(wǎng)絡(luò)技術(shù)、決策樹、遺傳算法、近鄰算法、規(guī)則推導(dǎo)等。下面說一下人工神經(jīng)網(wǎng)絡(luò)與決策樹[2]。
(一)人工神經(jīng)網(wǎng)絡(luò)。神經(jīng)網(wǎng)絡(luò)最早是由心理學(xué)家和神經(jīng)生物學(xué)家提出的,旨在尋求開發(fā)和測試神經(jīng)的計(jì)算模擬。粗略的說,神經(jīng)網(wǎng)絡(luò)是一組連接的輸入/輸出單元,其中每個(gè)連接都與一個(gè)權(quán)相相聯(lián)。在學(xué)習(xí)階段,通過調(diào)整神經(jīng)網(wǎng)絡(luò)的權(quán),使得能夠;預(yù)測輸入樣本的正確類標(biāo)號來學(xué)習(xí)。由于單元之間的連接,神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)又稱連接者學(xué)習(xí)[3]。
(二)決策樹。決策樹提供了一種展示類似在什么條件下會(huì)得到什么值這類規(guī)則的方法。比如,在貸款申請中,要對申請的風(fēng)險(xiǎn)太小做出判斷,圖1是為了解決這個(gè)問題而建立的一棵決策樹,從中我們可以看到?jīng)Q策樹的基本組成部分:決策節(jié)點(diǎn)、分支和葉子。
決策樹的每個(gè)節(jié)點(diǎn)子節(jié)點(diǎn)的個(gè)數(shù)與決策樹在用的算法有關(guān)。如CART算法得到的決策樹每個(gè)節(jié)點(diǎn)有兩個(gè)分支,這種樹稱為X樹。允許節(jié)點(diǎn)含有多于兩個(gè)子節(jié)點(diǎn)的樹稱為多叉樹。
數(shù)據(jù)挖掘中決策樹是一種經(jīng)常要用到的技術(shù),可以用于分析數(shù)據(jù),同樣也可以用來作預(yù)測(就像上面的銀行官員用他來預(yù)測貸款風(fēng)險(xiǎn))。常用的算法有CHAID、CART、Quest~C5,0[4]。
四、數(shù)據(jù)挖掘的功能
數(shù)據(jù)挖掘通過預(yù)測未來趨勢及行為,做出前攝的、基于知識的決策。數(shù)據(jù)挖掘的目標(biāo)是從數(shù)據(jù)庫中發(fā)現(xiàn)隱含的、有意義的知識,主要有以下五類功能。
(一)自動(dòng)預(yù)測趨勢和行為。數(shù)據(jù)挖掘自動(dòng)在大型數(shù)據(jù)庫中尋找預(yù)測性信息,以往需要進(jìn)行大量手工分析的問題如今可以迅速直接由數(shù)據(jù)本身得出結(jié)論。一個(gè)典型的例子是市場預(yù)測問題,數(shù)據(jù)挖掘使用過去有關(guān)促銷的數(shù)據(jù)來尋找未來投資中回報(bào)最大的用戶,其它可預(yù)測的問題包括預(yù)報(bào)破產(chǎn)以及認(rèn)定對指定事件最可能作出反應(yīng)的群體。
(二)關(guān)聯(lián)分析。數(shù)據(jù)關(guān)聯(lián)是數(shù)據(jù)庫中存在的一類重要的可被發(fā)現(xiàn)的知識。若兩個(gè)或多個(gè)變量的取值之間存在某種規(guī)律性,就稱為關(guān)聯(lián)。關(guān)聯(lián)可分為簡單關(guān)聯(lián)、時(shí)序關(guān)聯(lián)、因果關(guān)聯(lián)。關(guān)聯(lián)分析的目的是找出數(shù)據(jù)庫中隱藏的關(guān)聯(lián)網(wǎng)。有時(shí)并不知道數(shù)據(jù)庫中數(shù)據(jù)的關(guān)聯(lián)函數(shù),即使知道也是不確定的,因此關(guān)聯(lián)分析生成的規(guī)則帶有可信度。
(三)聚類。數(shù)據(jù)庫中的記錄可被化分為一系列有意義的子集,即聚類。聚類增強(qiáng)了人們對客觀現(xiàn)實(shí)的認(rèn)識,是概念描述和偏差分析的先決條件。聚類技術(shù)主要包括傳統(tǒng)的模式識別方法和數(shù)學(xué)分類學(xué)。
(四)概念描述。概念描述就是對某類對象的內(nèi)涵進(jìn)行描述,并概括這類對象的有關(guān)特征。概念描述分為特征性描述和區(qū)別性描述,前者描述某類對象的共同特征,后者描述不同類對象之間的區(qū)別。生成一個(gè)類的特征性描述只涉及該類對象中所有對象的共性。生成區(qū)別性描述的方法很多,如決策樹方法、遺傳算法等。
(五)偏差檢測。數(shù)據(jù)庫中的數(shù)據(jù)常有一些異常記錄,從數(shù)據(jù)庫中檢測這些偏差很有意義。偏差包括很多潛在的知識,如分類中的反常實(shí)例、不滿足規(guī)則的特例、觀測結(jié)果與模型預(yù)測值的偏差、量值隨時(shí)間的變化等。偏差檢測的基本方法是,尋找觀測結(jié)果與參照值之間有意義的差別。
五、數(shù)據(jù)挖掘熱點(diǎn)
就目前來看,將來的幾個(gè)熱點(diǎn)包括網(wǎng)站的數(shù)據(jù)挖掘、生物信息或基因的數(shù)據(jù)挖掘及其文本的數(shù)據(jù)挖掘。下面就這幾個(gè)方面加以簡單介紹。
(一)網(wǎng)站的數(shù)據(jù)挖掘。電子商務(wù)業(yè)務(wù)的競爭比傳統(tǒng)的業(yè)務(wù)競爭更加激烈,原因有很多方面,其中一個(gè)因素是客戶從一個(gè)電子商務(wù)網(wǎng)站轉(zhuǎn)換到競爭對手那邊,只需點(diǎn)擊幾下鼠標(biāo)即可。目前,有很多廠商正在致力于開發(fā)專門用于網(wǎng)站挖掘的軟件。
(二)生物信息或基因的數(shù)據(jù)挖掘。生物信息或基因數(shù)據(jù)挖掘則完全屬于另外一個(gè)領(lǐng)域,在商業(yè)上很難講有多大的價(jià)值,但對于人類卻受益匪淺。
(三)文本的數(shù)據(jù)挖掘。人們很關(guān)心的另外一個(gè)話題是文本數(shù)據(jù)挖掘。舉個(gè)例子,在客戶服務(wù)中心,把同客戶的談話轉(zhuǎn)化為文本數(shù)據(jù),再對這些數(shù)據(jù)進(jìn)行挖掘,進(jìn)而了解客戶對服務(wù)的滿意程度和客戶的需求以及客戶之間的相互關(guān)系等信息。
六、結(jié)束語
越來越多的例子可以證明數(shù)據(jù)挖掘在科學(xué)和商業(yè)領(lǐng)域中有越來越多的應(yīng)用。從原來的概念,到數(shù)據(jù)挖掘應(yīng)用的實(shí)現(xiàn),而數(shù)據(jù)挖掘的靈活性也表現(xiàn)在,針對各種具體的案例,可以通過數(shù)據(jù)挖掘的不同側(cè)面的功能去實(shí)現(xiàn)數(shù)據(jù)的挖掘。相信在不久的將來,會(huì)有更加的數(shù)據(jù)挖掘的實(shí)例出現(xiàn)在人們生活的各個(gè)需要處理數(shù)據(jù)信息的方面。但是由于它是一門綜合性強(qiáng)的新興領(lǐng)域,它的發(fā)展還會(huì)有很多的困難和需要進(jìn)一步發(fā)展的地方??梢哉J(rèn)為,它的應(yīng)用會(huì)更加廣泛,它的算法也會(huì)更加優(yōu)化。