【摘要】數(shù)據(jù)挖掘技術(shù)混合了以往傳統(tǒng)的數(shù)據(jù)分析處理方法和處理大量數(shù)據(jù)的復(fù)雜算法,為探尋和分析新的數(shù)據(jù)類型以及用新方法分析舊有數(shù)據(jù)類型開辟了寶貴的新天地。數(shù)據(jù)挖掘被廣泛應(yīng)用于商務(wù)、金融、軟件、醫(yī)學(xué)、科學(xué)與工程等領(lǐng)域。本文對數(shù)據(jù)挖掘進(jìn)行介紹,同時對決策樹的定義、思想、工作原理及其算法進(jìn)行介紹。
【關(guān)鍵詞】數(shù)據(jù)挖掘 決策樹算法 分類技術(shù) 信息熵
一、引言
隨著社會的發(fā)展和人類科技的進(jìn)步,各行各業(yè)都需要數(shù)據(jù)信息的存在,現(xiàn)如今的數(shù)據(jù)時代已經(jīng)不同于以往的數(shù)據(jù)時代,隨著數(shù)據(jù)收集和數(shù)據(jù)存儲技術(shù)的快速發(fā)展,各組織各機(jī)構(gòu)各地方都可以收集到大量的數(shù)據(jù)信息。然而,提取有價值的信息目前已經(jīng)成為一項有挑戰(zhàn)性的工作。
二、數(shù)據(jù)挖掘
數(shù)據(jù)挖掘是在大量的數(shù)據(jù)存儲庫中,發(fā)現(xiàn)潛在的有價值的信息的過程。數(shù)據(jù)挖掘與其他好多學(xué)科如統(tǒng)計學(xué)、人工智能、知識發(fā)現(xiàn)、數(shù)據(jù)庫等都有交叉。數(shù)據(jù)挖掘利用了來自統(tǒng)計學(xué)的抽樣、估計和假設(shè)檢驗(yàn)的思想,來自人工智能、模式識別和機(jī)器學(xué)習(xí)的建模技術(shù)、搜索算法和學(xué)習(xí)理論,還有一些來自于最優(yōu)化、信息論、信息檢索。
數(shù)據(jù)挖掘的產(chǎn)生與和發(fā)展是分析和理解數(shù)據(jù)的實(shí)際需求推動的,數(shù)據(jù)挖掘涉及到好多學(xué)科,數(shù)據(jù)挖掘從工、農(nóng)、商業(yè)、醫(yī)療衛(wèi)生的需求中取得動力,從統(tǒng)計學(xué)、人工智能、科技等領(lǐng)域的長期研究與發(fā)展中獲得養(yǎng)分。我國國內(nèi)對數(shù)據(jù)挖掘的研究比較晚,還沒有形成整體力量,而國外早就開展了對數(shù)據(jù)挖掘的研究。
(一)數(shù)據(jù)挖掘的步驟
數(shù)據(jù)挖掘的跨行業(yè)標(biāo)準(zhǔn)過程強(qiáng)調(diào)完整的數(shù)據(jù)挖掘過程,分為六個步驟:
1.商業(yè)理解。本階段的主要工作主要包括制定目標(biāo),確定范圍,選擇方案,項目預(yù)算,估算樣本。了解并確認(rèn)企業(yè)需求,針對不同的問題和需求,并將其轉(zhuǎn)換成數(shù)據(jù)挖掘的問題。
2.數(shù)據(jù)理解。數(shù)據(jù)理解階段包括建立數(shù)據(jù)庫與分析數(shù)據(jù)。先收集數(shù)據(jù),觀察數(shù)據(jù)的含義和特性,并找出所有可能有用或有價值的數(shù)據(jù)信息。數(shù)據(jù)的獲取依賴于眾多因素:數(shù)據(jù)對象;已有數(shù)據(jù)庫;數(shù)據(jù)結(jié)構(gòu);可用數(shù)據(jù)源;成本與效益。同時,數(shù)據(jù)的收集還要注意以下問題:數(shù)據(jù)越多產(chǎn)生的信息不一定越多,有些屬性不是用戶想象的那樣高度關(guān)聯(lián);選取的屬性越多可能導(dǎo)致建模的準(zhǔn)備時間越長;選取的屬性越多說明我們將需要更大容量的數(shù)據(jù)集或數(shù)據(jù)庫來支持。
3.數(shù)據(jù)準(zhǔn)備。數(shù)據(jù)準(zhǔn)備階段和數(shù)據(jù)理解階段都是數(shù)據(jù)處理階段的核心,這是進(jìn)行數(shù)據(jù)挖掘的核心階段建立模型前的最后一步數(shù)據(jù)準(zhǔn)備工作。主要內(nèi)容包括:建立元數(shù)據(jù);檢查數(shù)據(jù)質(zhì)量;填補(bǔ)缺損數(shù)據(jù);對數(shù)據(jù)進(jìn)行變換。缺失值,不合理值,數(shù)據(jù)不一致,異常值是影響數(shù)據(jù)質(zhì)量的幾個主要問題。填補(bǔ)缺損數(shù)據(jù)可以通過查詢原始數(shù)據(jù),跟進(jìn)法,直接平均法,間接平均法來填補(bǔ)。對數(shù)據(jù)進(jìn)行預(yù)處理的任務(wù)要反復(fù)執(zhí)行多次,其目的是讓數(shù)據(jù)更適合數(shù)據(jù)挖掘技術(shù)的使用。
4.建立模型。建立模型階段是關(guān)鍵性的一個階段,對預(yù)處理過的數(shù)據(jù)應(yīng)用各種數(shù)據(jù)挖掘技術(shù),建立分析模型。對于同一個問題,可采用許多種分析技術(shù),各種技術(shù)的要求也不相同。數(shù)據(jù)挖掘中常使用的模型有決策樹,神經(jīng)網(wǎng)絡(luò),貝葉斯分類器。數(shù)據(jù)挖掘的模型分為三大類:監(jiān)督模型,無監(jiān)督模型和數(shù)據(jù)維規(guī)約。屬于監(jiān)督模型的有神經(jīng)網(wǎng)絡(luò)、C5.0、CART、回歸以及Logistic回歸,這些模型都是屬于預(yù)測模型。聚類分析和關(guān)聯(lián)分析屬于無監(jiān)督模型。第三類數(shù)據(jù)維歸約主要包括主成分分析法、因子分析法等。
5.模型評估。模型評估包括數(shù)據(jù)檢驗(yàn)、準(zhǔn)確性檢驗(yàn)、方法比較、商業(yè)檢驗(yàn)。數(shù)據(jù)挖掘過程能進(jìn)入這個階段時說明已經(jīng)建立了被認(rèn)為是高質(zhì)量的模型,但在實(shí)際應(yīng)用中,情況卻不一定。還需注意是否還有重要的問題沒有全面地考慮到或一些問題缺乏充分地考慮,導(dǎo)致使模型的預(yù)測精度發(fā)生顯著變化。一般來說,常使用準(zhǔn)確度來評估分類預(yù)測模型的情況,評估模型分類是否正確。顯然,準(zhǔn)確度越高則就說明模型越好。但事實(shí)上,這樣評估出來的模型并不是最好的。這就是數(shù)據(jù)挖掘模型評估中常常存在的錯誤觀念。
6.模型發(fā)布。模型發(fā)布需要區(qū)分用戶普通用戶、決策者;發(fā)布頻率即席、定期;發(fā)布方式門戶、報告、郵件;模型建立成功并經(jīng)過評估驗(yàn)證后可以將建立的模型提供給專門的人員,由專門人員查看和研究這個模型,提出行動方案策略建議;也可以把模型應(yīng)用到不同的未知分類情況的數(shù)據(jù)集上,并不停監(jiān)測模型的使用效果,收集用戶反饋的信息。
(二)數(shù)據(jù)挖掘的任務(wù)
描述和預(yù)測是數(shù)據(jù)挖掘的主要任務(wù)。描述性挖掘任務(wù)以簡潔的方式描述數(shù)據(jù),通常是探查性的,并且通常需要后處理技術(shù)驗(yàn)證和解釋結(jié)果。預(yù)測性挖掘任務(wù)對當(dāng)前數(shù)據(jù)進(jìn)行分析,建立一個或一組模型,并利用所得結(jié)果預(yù)測新數(shù)據(jù)集的行為,即是根據(jù)原有已知其他屬性的值來預(yù)測另一種特定屬性的值。
三、決策樹
決策樹是用于分類和預(yù)測的主要技術(shù),是能夠被看成一棵樹的預(yù)測模型,其本質(zhì)是通過一系列規(guī)則對數(shù)據(jù)進(jìn)行分類的過程。采用自頂向下的遞歸方式,樹的每一個分支都是一個分類問題,樹上的每個節(jié)點(diǎn)表示在一個屬性上的測試,并且該節(jié)點(diǎn)的每個分支對應(yīng)于該屬性的一個可能值。在決策樹的內(nèi)部節(jié)點(diǎn)進(jìn)行屬性值之間的比較,并根據(jù)不同屬性值來判斷從此節(jié)點(diǎn)該如何向下分支,最終會在決策樹的葉節(jié)點(diǎn)得到結(jié)論。決策樹算法是目前應(yīng)用最廣泛的分類方法之一,以實(shí)例為基礎(chǔ)的歸納學(xué)習(xí)算法,是一種逼近離散值函數(shù)的方法,對海量數(shù)據(jù)集進(jìn)行分類十分有效。
(一)決策樹的思想
決策樹的思想就是對不確定性進(jìn)行分類,應(yīng)用決策樹算法的一個最大的優(yōu)點(diǎn)是其原理容易理解,只要訓(xùn)練事例能夠用屬性的方式表達(dá)出來,不需要使用者了解太多的背景知識。與其他分類方法相比,決策樹方法有很多優(yōu)點(diǎn):計算量相對較小,效率較高,且容易轉(zhuǎn)化成分類規(guī)則;所得到的分類規(guī)則準(zhǔn)確性較高,可更好的進(jìn)行預(yù)測,從而指導(dǎo)人們的決策;分類模型的結(jié)果是用樹狀結(jié)構(gòu)表示的,簡單直觀,使用方便;決策樹算法既可用于小數(shù)據(jù)集,也可用于大的海量數(shù)據(jù)集;既適用于連續(xù)數(shù)據(jù),也適用于離散數(shù)據(jù)。
(二)決策樹算法
最早的決策樹算法是CLS。隨后是ID3算法和C4.5算法,這兩種決策樹算法是最具有影響力的算法。后來,又出現(xiàn)了改進(jìn)版C5.0算法。
1.ID3算法。ID3算法是Quinlan于1986年提出的,是機(jī)器學(xué)習(xí)中著名的一個算法,是國際上最早最有影響力的決策樹方法。其在決策樹的學(xué)習(xí)算法中第一次引入了信息論中的信息增益作為選擇分裂屬性的標(biāo)準(zhǔn),即引入了信息論中信息熵的概念,通過計算根據(jù)各屬性分割數(shù)據(jù)集前后的熵來計算信息增益,作為判斷標(biāo)準(zhǔn)。ID3算法的優(yōu)點(diǎn)在于構(gòu)建決策樹的速度快,ID3算法的不足是其前提假設(shè)條件為屬性值是離散值,但有很多屬性是連續(xù)的,不能找到一個合適確切的標(biāo)準(zhǔn)來對連續(xù)屬性進(jìn)行劃分。該算法生成決策樹分支的數(shù)量取決于屬性值的個數(shù)多少,對于屬性值取值較多情況的處理有一定的復(fù)雜度。
2.C4.5算法。C4.5算法繼承了ID3算法的所有優(yōu)點(diǎn)并對ID3算法進(jìn)行了改進(jìn)和補(bǔ)充,但兩者核心思想相同。C4.5算法是基于信息論概念和思想的方法,以信息論為基礎(chǔ),利用信息熵和信息增益度作為衡量標(biāo)準(zhǔn),實(shí)現(xiàn)對數(shù)據(jù)的歸納分類。C4.5可以將連續(xù)型的屬性劃分成離散型的屬性,從而能夠建立合適的決策樹模型。C4.5算法與ID3算法不同的是采用信息增益率作為選擇分裂數(shù)據(jù)集屬性的標(biāo)準(zhǔn),克服了ID3算法中利用信息增益選擇分裂屬性時的缺點(diǎn)。
3.CART算法。CART算法也稱二叉遞歸分類樹。與前面ID系列算法和C4.5算法不同在于使用的選擇分裂屬性度量標(biāo)準(zhǔn)是Gini系數(shù)指標(biāo)。CART算法與C4.5算法的最大不同之處在于其在每個節(jié)點(diǎn)上都是使用二分法,一次只能有兩個子節(jié)點(diǎn),而C4.5算法在每個節(jié)點(diǎn)上可以產(chǎn)生不同數(shù)量的子節(jié)點(diǎn)。
四、總結(jié)
決策樹C4.5算法雖然對ID3算法進(jìn)行了改進(jìn),但也存在一些不足,如對連續(xù)性屬性的處理比較耗時,計算速度慢等。因此,還需要不斷地學(xué)習(xí)與改進(jìn)。
決策樹雖然應(yīng)用廣泛,但決策樹也存在不足之處:對連續(xù)性的字段預(yù)測較難;當(dāng)屬性類別較多時,錯誤可能會增加得比較快;基于分類的決策樹算法沒有考慮噪聲問題,但在實(shí)際應(yīng)用過程中,可能存在缺失值或某些必須數(shù)據(jù)造成了數(shù)據(jù)的不完整;一般的算法分類的時候只是根據(jù)一個屬性分類,不能保證全局的最優(yōu)。
參考文獻(xiàn)
[1]黃文. 決策樹的經(jīng)典算法[J].自然科學(xué).2007.
[2]朱建平,張潤楚.數(shù)據(jù)挖掘的發(fā)展及其特點(diǎn)[J].統(tǒng)計與決策,2002.
[3]毛國君,段立娟,王實(shí).數(shù)據(jù)挖掘原理與算法[M].北京:清華大學(xué)出版社.2005.
[4]Quinlan J R.Induction of decision tree[J].Machine Learning1986.
[5]黃愛輝.決策樹C4.5算法的改進(jìn)及應(yīng)用[J].科學(xué)技術(shù)與工程.2009.
作者簡介:于笑笑(1995-),女,安徽亳州人,安徽大學(xué)經(jīng)濟(jì)學(xué)院碩士研究生,研究方向:經(jīng)濟(jì)統(tǒng)計。