薛亞楠 楊曉東
摘 ?要:決策樹(shù)是從一組無(wú)規(guī)則并且無(wú)次序的數(shù)據(jù)集中求解分類(lèi)問(wèn)題的重要技術(shù)。決策樹(shù)不僅是從數(shù)據(jù)集中生成分類(lèi)器的有效方法,同時(shí)也是數(shù)據(jù)挖掘技術(shù)中一個(gè)活躍的研究領(lǐng)域。通過(guò)決策樹(shù)挖掘可以對(duì)數(shù)據(jù)進(jìn)行分類(lèi)。該文以學(xué)生學(xué)習(xí)態(tài)度、完成作業(yè)情況、考勤等為因素,利用決策樹(shù)技術(shù)分析影響學(xué)生成績(jī)的因素,對(duì)學(xué)生成績(jī)的影響因素加以探討。
關(guān)鍵詞:數(shù)據(jù)挖掘 ?決策樹(shù)方法 ?學(xué)生成績(jī)
中圖分類(lèi)號(hào):G64 ? 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1672-3791(2019)12(c)-0083-02
在數(shù)據(jù)挖掘和數(shù)據(jù)分析中,決策樹(shù)起著非常重要的作用,其可以構(gòu)建一個(gè)決策系統(tǒng),對(duì)數(shù)據(jù)進(jìn)行預(yù)測(cè)。決策樹(shù)的結(jié)構(gòu)類(lèi)似樹(shù)型結(jié)構(gòu),利用樹(shù)的結(jié)構(gòu)將記錄進(jìn)行分類(lèi),樹(shù)的一個(gè)葉結(jié)點(diǎn)就代表某個(gè)條件下的一個(gè)記錄集。并根據(jù)記錄字段的不同取值建立分支,以此重復(fù),便可生成決策樹(shù)。根據(jù)決策樹(shù)的結(jié)構(gòu)對(duì)數(shù)據(jù)集中的屬性值進(jìn)行測(cè)試可以對(duì)未知數(shù)據(jù)對(duì)象進(jìn)行分類(lèi)識(shí)別。決策樹(shù)的常用算法包括:ID3算法、C4.5算法、CART算法、CHAID算法等。
1 ?決策樹(shù)方法的特點(diǎn)
決策樹(shù)因其形狀像樹(shù)。所以特點(diǎn)包括:(1)一個(gè)決策樹(shù)由一系列節(jié)點(diǎn)和分支組成。(2)節(jié)點(diǎn)和子節(jié)點(diǎn)之間形成分支,節(jié)點(diǎn)代表著決策過(guò)程中所考慮的屬性,不同屬性值形成不同分支。
基于CLS算法思想和Quinlan的ID3算法思想,改進(jìn)的決策樹(shù)學(xué)習(xí)算法如下。
(1)生成一顆空決策樹(shù)和一張訓(xùn)練樣本表。
(2)若訓(xùn)練樣本集T中的所有樣本都屬于同一類(lèi),則生成結(jié)點(diǎn)T,并終止學(xué)習(xí)算法。
(3)根據(jù)最大信息增益的原則,先從訓(xùn)練樣本屬性中選擇信息增益最大的屬性,并生成測(cè)試性結(jié)點(diǎn),即根結(jié)點(diǎn)A。
(4)若A的取值為a1,a2,…,am,則根據(jù)A取值不同,將 T劃分為m個(gè)子集T1,T2,…,Tm。
(5)對(duì)每一個(gè)Ti(1≤i≤m),轉(zhuǎn)步驟(2)。
2 ?實(shí)證分析
該研究用例是采用某大學(xué)學(xué)生期末數(shù)學(xué)成績(jī)數(shù)據(jù)作為挖掘?qū)ο?,?shù)據(jù)來(lái)源于網(wǎng)絡(luò)。通過(guò)挖掘分析,找出影響學(xué)生成績(jī)的主要因素。該文采用基于ID3算法的改進(jìn)算法建立決策樹(shù)。建立決策樹(shù),應(yīng)從以下屬性考慮:(1)學(xué)生對(duì)數(shù)學(xué)課的感興趣程度;(2)學(xué)習(xí)態(tài)度;(3)出勤情況;(4)獨(dú)立完成作業(yè)情況。
如表1所示,經(jīng)過(guò)數(shù)據(jù)處理后的數(shù)據(jù)成績(jī)信息的訓(xùn)練集,將考試結(jié)果分為4類(lèi)。具體為:A(優(yōu)秀)、B(良好)、C(及格)、D(不及格)。我們的輸出結(jié)果是A、B、C、D,一共30條記錄。其中,取值為A的記錄有17個(gè),取值為B的記錄有9個(gè),取值為C的記錄有2個(gè),取值為D的記錄有2個(gè)。則樣本S記為:S1=17,S2=9,S3=2,S4=2。
根據(jù)熵的計(jì)算公式,得到:
下面計(jì)算信息增益:分別以“對(duì)數(shù)學(xué)課感興趣的程度”“學(xué)習(xí)態(tài)度”“課堂考勤”等作為根結(jié)點(diǎn),計(jì)算其信息增益。以屬性“對(duì)數(shù)學(xué)感興趣的程度”作為根節(jié)點(diǎn)。取值為感興趣的記錄有17個(gè),其中有14個(gè)A、2個(gè)B、1個(gè)C,0個(gè)D;取值為一般的記錄有11個(gè),其中有3個(gè)A,7個(gè)B,0個(gè) C,1個(gè)D;取值為不感興趣的記錄有2個(gè),其中1個(gè)D,1個(gè)C,0個(gè)A,0個(gè)B。
計(jì)算其相應(yīng)的熵:
然后計(jì)算其相應(yīng)的信息增益:
同理,我們得到了以上4個(gè)屬性相應(yīng)的信息增值Gain(對(duì)數(shù)學(xué)的感興趣程度)=0.511972,Gain(學(xué)習(xí)態(tài)度)=0.708688,Gain(課堂考勤)=0.395689,Gain(獨(dú)立完成作業(yè)情況)=0.77499。
最后按信息增益最大的原則選 “獨(dú)立完成作業(yè)情況”作為根結(jié)點(diǎn),并將樣本分成3個(gè)部分,然后對(duì)每一棵子樹(shù)按照遞歸的方法計(jì)算,并且進(jìn)行剪枝,最后得出的決策樹(shù)如圖1所示。
從研究得到的決策樹(shù)發(fā)現(xiàn),考試結(jié)果多數(shù)是A(優(yōu)秀)的學(xué)生在作業(yè)完成時(shí),獨(dú)立完成作業(yè)情況很好,對(duì)數(shù)學(xué)感興趣的學(xué)生往往考試結(jié)果也較好,多數(shù)為A(優(yōu)秀)或B(良好);而相反,獨(dú)立完成作業(yè)較差或?qū)?shù)學(xué)不感興趣的學(xué)生,往往考試結(jié)果都不理想。另外,學(xué)生的學(xué)習(xí)態(tài)度也是一個(gè)不容忽視的因素。
3 ?結(jié)語(yǔ)
該文通過(guò)一個(gè)實(shí)例表述了數(shù)據(jù)挖掘技術(shù)在學(xué)生成績(jī)分析中的應(yīng)用,通過(guò)決策樹(shù)方法能夠分析影響學(xué)生學(xué)習(xí)成績(jī)因素的原因,獨(dú)立完成作業(yè)情況,課堂考勤以及學(xué)習(xí)態(tài)度都對(duì)學(xué)生成績(jī)有著相互影響,通過(guò)分析影響學(xué)生成績(jī)的因素,從而制定相應(yīng)的措施,達(dá)到提高教學(xué)質(zhì)量的目的,同時(shí)對(duì)于學(xué)校和教師來(lái)說(shuō)可以通過(guò)決策樹(shù)分析重點(diǎn)管理學(xué)生,幫助有效提高學(xué)習(xí)成績(jī)。
參考文獻(xiàn)
[1] 朱迪茨.實(shí)用數(shù)據(jù)挖掘[M].北京:電子工業(yè)出版社,2004.
[2] 魏萍萍,王翠茹,王保義,等.數(shù)據(jù)挖掘技術(shù)及其在高校教學(xué)系統(tǒng)中的應(yīng)用[J].計(jì)算機(jī)工程,2003(11):87-89.
[3] (英)漢德(Hand,D.),著.數(shù)據(jù)挖掘原理[M].張銀奎,譯.北京:機(jī)械工業(yè)出版社,2003.
[4] 王名揚(yáng).基于數(shù)據(jù)挖掘的決策樹(shù)生成與剪枝方法[J].計(jì)算機(jī)工程與科學(xué),2005(11):19-20.
[5] 楊清.基于決策樹(shù)的學(xué)習(xí)算法[J].湘潭師范學(xué)院學(xué)報(bào),2005(3):24-25.
[6] 黃芳.基于數(shù)據(jù)挖掘的決策樹(shù)技術(shù)在成績(jī)分析中的應(yīng)用研究[D].山東大學(xué),2009.