孔潔+劉楊
摘要:隨著時(shí)代的發(fā)展,人們對(duì)有價(jià)值的數(shù)據(jù)需求越來(lái)越迫切,因此,需要一種新的技術(shù)來(lái)處理大量的數(shù)據(jù)數(shù)據(jù),并從中抽取我們需要的信息。數(shù)據(jù)挖掘技術(shù)是一門(mén)涉及面很廣的學(xué)科,綜合了統(tǒng)計(jì)學(xué)的方法,同時(shí)又超越了傳統(tǒng)意義上的統(tǒng)計(jì)分析。數(shù)據(jù)挖掘就是從海量的數(shù)據(jù)當(dāng)中,通過(guò)運(yùn)用技術(shù)手段,提煉出我們所需要的有用的數(shù)據(jù)的過(guò)程。該文介紹了數(shù)據(jù)挖掘技術(shù)的基本概念、數(shù)據(jù)挖掘的功能以及數(shù)據(jù)挖掘的常用的技術(shù)。
關(guān)鍵詞:數(shù)據(jù)挖掘;決策樹(shù);OLAP
中圖分類號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2017)32-0009-02
1 什么是數(shù)據(jù)挖掘
數(shù)據(jù)挖掘就是通過(guò)一定的技術(shù)來(lái)分析大量的數(shù)據(jù),從中找出對(duì)我們有用的數(shù)據(jù)的過(guò)程,即從存放在數(shù)據(jù)庫(kù)中的數(shù)據(jù)中獲取有效的、有價(jià)值、最終能被我們所利用的數(shù)據(jù)。若我們?cè)谝粋€(gè)網(wǎng)站買書(shū),系統(tǒng)會(huì)根據(jù)我們近期所購(gòu)買的書(shū)的記錄進(jìn)行分析,然后在我們下次登錄該網(wǎng)站時(shí),自行向我們推薦其他類型的書(shū)籍,這里就是用到了數(shù)據(jù)挖掘的理論和方法。
2 數(shù)據(jù)挖掘的功能
1) 分類
所謂分類就是按照分析對(duì)象的特征,建立類組。也就是說(shuō)分類就是它所預(yù)測(cè)的結(jié)果是一個(gè)類別而不是一個(gè)具體的數(shù)。比如:我猜你是四川人,這個(gè)就是分類問(wèn)題。在商業(yè)案例中分類問(wèn)題很多,再比如通過(guò)銀行的一個(gè)客戶信息,可以預(yù)測(cè)一下他是否會(huì)購(gòu)買基金,大概的數(shù)額;他是否會(huì)辦信用卡等等。
2) 聚類
面對(duì)海量的數(shù)據(jù),首先分類,然后是聚類,屬性接近的劃歸為一類,合理歸類以后,每一類有自己的特征。聚類問(wèn)題主要解決把一定范圍內(nèi)的對(duì)象劃分為若干個(gè)組。它的特點(diǎn)是根據(jù)所選的目標(biāo)來(lái)進(jìn)行劃分。比如:銀行的客戶,我們首先選定幾個(gè)指標(biāo):年收入、年齡、性別等,然后對(duì)他們進(jìn)行劃分,特征相似的為一類,特征不同的分屬不同的類。
3) 估計(jì)與預(yù)測(cè)
估計(jì)就是根據(jù)已有的長(zhǎng)期積累的數(shù)據(jù)來(lái)推測(cè)未知的信息,例如銀行根據(jù)信用卡申請(qǐng)人的單位性質(zhì)、年齡、性別等信息推算他的消費(fèi)水平。所使用的技術(shù)有統(tǒng)計(jì)方法中的相關(guān)分析、回歸分析等等。所謂預(yù)測(cè)就是根據(jù)對(duì)象屬性的過(guò)去值預(yù)測(cè)他的未來(lái)值。比如:通過(guò)查看一個(gè)持卡人以往的消費(fèi)值來(lái)預(yù)測(cè)他今后的消費(fèi),使用的技術(shù)包括回歸分析、時(shí)間序列分析等。
4) 關(guān)聯(lián)
就是找出在一個(gè)事件中同時(shí)出現(xiàn)的事情,確定那些相關(guān)的對(duì)象應(yīng)該放在一起。
5) 描述
描述的就是對(duì)復(fù)雜的數(shù)據(jù)庫(kù)提供簡(jiǎn)單明了的說(shuō)明,描述的主要目的是對(duì)數(shù)據(jù)先有個(gè)了解,這樣有助于怎樣去建模。
3 數(shù)據(jù)挖掘的主要方法
1) 決策樹(shù)法
決策樹(shù)是一種對(duì)實(shí)例進(jìn)行分類的樹(shù)形結(jié)構(gòu),由節(jié)點(diǎn)和有向邊組成。節(jié)點(diǎn)的類型有2種:內(nèi)部節(jié)點(diǎn)和葉子節(jié)點(diǎn)。內(nèi)部節(jié)點(diǎn)一般表示一個(gè)特征或?qū)傩缘臏y(cè)試條件,葉子節(jié)點(diǎn)則表示一個(gè)分類。
當(dāng)我們構(gòu)造了一個(gè)決策樹(shù)模型,以它為基礎(chǔ)來(lái)進(jìn)行分類是很容易的。具體就是:從根節(jié)點(diǎn)開(kāi)始,按照實(shí)例的某一特征進(jìn)行測(cè)試,根據(jù)測(cè)試結(jié)構(gòu)將實(shí)例分配到子節(jié)點(diǎn),當(dāng)沿著該分支可能到達(dá)葉子節(jié)點(diǎn)或到達(dá)另一個(gè)內(nèi)部節(jié)點(diǎn)時(shí),就使用新的測(cè)試條件遞歸執(zhí)行下去,直到到達(dá)一個(gè)葉子節(jié)點(diǎn)。當(dāng)?shù)竭_(dá)葉子節(jié)點(diǎn)時(shí),就得到了最終的分類結(jié)果。
決策樹(shù)它是一種建立在信息論基礎(chǔ)之上的對(duì)數(shù)據(jù)分類的一種方法。具體就是:通過(guò)已知的一批樣本數(shù)據(jù)建立一棵決策樹(shù),然后利用已經(jīng)建好的決策樹(shù)來(lái)對(duì)數(shù)據(jù)進(jìn)行預(yù)測(cè)。決策樹(shù)的建立過(guò)程我們可以看做是數(shù)據(jù)規(guī)則的生成過(guò)程。決策樹(shù)方法精確度高,效率也高,比較常用。
決策樹(shù)法是目前應(yīng)用非常廣泛的一種邏輯方法,生成決策樹(shù)一個(gè)著名的算法是C4.5算法。
2) 神經(jīng)網(wǎng)絡(luò)法
神經(jīng)網(wǎng)絡(luò)它是建立在數(shù)學(xué)模型之上的,我們通過(guò)對(duì)大量的、復(fù)雜的數(shù)據(jù)進(jìn)行分析研究,可以完成非常復(fù)雜的趨勢(shì)分析。神經(jīng)網(wǎng)絡(luò)系統(tǒng)它是由一系列類似于人腦神經(jīng)元的處理單元構(gòu)成的,我們稱之為節(jié)點(diǎn)。這些節(jié)點(diǎn)可以通過(guò)網(wǎng)絡(luò)進(jìn)行互聯(lián)。如果有數(shù)據(jù)輸入,就可以確定數(shù)據(jù)模式的工作。
3) 關(guān)聯(lián)規(guī)則法
關(guān)聯(lián)規(guī)則是數(shù)據(jù)挖掘技術(shù)中的一種技術(shù),它是一種非常簡(jiǎn)單但很實(shí)用的一種規(guī)則,描述了一個(gè)事物如果某些屬性同時(shí)出現(xiàn)的規(guī)律。關(guān)聯(lián)規(guī)則分析就是根據(jù)一定的可信度、支持度等建立相關(guān)規(guī)則,可以幫助很多商務(wù)決策的制定。
4) 聚類分析法
聚類分析就是把一組信息按照相似度歸成若干類別。聚類方法包括統(tǒng)計(jì)方法、神經(jīng)網(wǎng)絡(luò)法和面向數(shù)據(jù)庫(kù)法等方法。聚類分析具體說(shuō)就是依據(jù)樣本或變量之間關(guān)聯(lián)的量度標(biāo)準(zhǔn)將其自動(dòng)分為幾個(gè)組,并且同一個(gè)群內(nèi)樣本相似,而不同組之間的樣本相異。
5) 遺傳算法
遺傳算法它是一種基于生物進(jìn)化論和分子遺傳學(xué)的算法,第一步,將問(wèn)題的所有可能解按照某種方式進(jìn)行編碼;第二步,從中隨機(jī)地選取M個(gè)染色體作為初始種群;第三步,根據(jù)預(yù)定的評(píng)價(jià)函數(shù)對(duì)每個(gè)染色體計(jì)算適應(yīng)值,然后選擇適應(yīng)值較高的染色體進(jìn)行復(fù)制;最后通過(guò)遺傳算子生成新的能夠更好適應(yīng)環(huán)境的染色體,從而生成新的種群,直到最后成為一個(gè)最適應(yīng)環(huán)境的個(gè)體,得到問(wèn)題的最優(yōu)解。
6) 聯(lián)機(jī)分析處理(OLAP)法
聯(lián)機(jī)分析處理就是通過(guò)多維的方式對(duì)數(shù)據(jù)進(jìn)行分析、查詢和報(bào)表。它主要用來(lái)完成用戶的事物處理,比如銀行儲(chǔ)蓄等。需要進(jìn)行大量的更新操作,對(duì)響應(yīng)時(shí)間要求高。
聯(lián)機(jī)分析處理它的核心概念是“維”,它支持?jǐn)?shù)據(jù)分析人員和決策人員從不同的角度、不同的級(jí)別對(duì)數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)進(jìn)行復(fù)雜查詢和多維分析處理,以直觀形象的方式將查詢和分析的結(jié)果反饋給決策人員。OLAP使用的模型是多維數(shù)據(jù)模型,主要用于分析大量的歷史數(shù)據(jù),提供匯總和聚集機(jī)制,訪問(wèn)多是只讀操作。
隨著計(jì)算機(jī)計(jì)算能力的發(fā)展,數(shù)據(jù)的類型越來(lái)越多,越來(lái)越復(fù)雜,尤其在商業(yè)方面,需要對(duì)大量的數(shù)據(jù)分析,需要精確定位潛在的價(jià)值所在,數(shù)據(jù)挖掘技術(shù)可以自動(dòng)探測(cè)以前未發(fā)現(xiàn)的模式。隨著數(shù)據(jù)挖掘技術(shù)的不斷成熟和完善,它將在各行各業(yè)的各個(gè)領(lǐng)域發(fā)揮其越來(lái)越大的作用。
總之,數(shù)據(jù)挖掘技術(shù)的前景是非常好的,我們要充分利用它來(lái)為我們今后的生活提供更多的有用的信息。
參考文獻(xiàn):
[1] 李航.統(tǒng)計(jì)學(xué)習(xí)方法[M].清華大學(xué)出版社,2017.
[2] 陳志泊.數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘[M].2版.清華大學(xué)出版社,2017.
[3] [美]Daniel T. Larose,Chantal D. Larose.數(shù)據(jù)挖掘與預(yù)測(cè)分析[M].2版,清華大學(xué)出版社,2017.
[4] 李春葆.數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘應(yīng)用教程[M].清華大學(xué)出版社,2016.
[5] 毛國(guó)君.數(shù)據(jù)挖掘原理與算法[M].3版.清華大學(xué)出版社,2016.endprint