• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于決策樹技術(shù)的數(shù)據(jù)挖掘的應(yīng)用

      2017-06-03 03:55呂新穎
      電子技術(shù)與軟件工程 2017年9期
      關(guān)鍵詞:決策樹數(shù)據(jù)挖掘分類

      摘 要數(shù)據(jù)挖掘技術(shù)對于處理還有大量數(shù)據(jù)的數(shù)據(jù)集具有十分重要的作用,而對于數(shù)據(jù)的分類中,我們常常使用決策樹分類法。該方法被廣泛用于處理數(shù)據(jù)的分類問題.決策樹分類法在我們的生產(chǎn)、生活、學(xué)習(xí)等數(shù)據(jù)挖掘中具有十分重要的作用,它是數(shù)據(jù)挖掘中進(jìn)行預(yù)測和分類研究的主要技術(shù)。

      【關(guān)鍵詞】數(shù)據(jù)挖掘 決策樹 分類

      數(shù)據(jù)挖掘中的分類任務(wù)主要是為了確定對象屬于哪個預(yù)定義的目標(biāo)類。在我們的日常生活中,這一問題普遍存在,例如我們會根據(jù)需要來檢查接受到的電子郵件是否為垃圾郵件。在數(shù)據(jù)挖掘中的所有分類方法里,決策樹分類法是一種最為簡單且被廣泛使用的分類方法。

      1 決策樹分類法的工作原理

      決策樹是一種由結(jié)點和有向邊組成的層次結(jié)構(gòu),它主要有根節(jié)點、內(nèi)部結(jié)點和葉結(jié)點構(gòu)成。當(dāng)我們分析一個分類實例時可以先去建立一個決策樹,根據(jù)決策樹分類,從決策樹的根節(jié)點開始,將測試的條件用于記錄的檢驗,根據(jù)測試結(jié)果選擇相應(yīng)的分支到達(dá)另一個內(nèi)部節(jié)點,經(jīng)過一個新的選擇條件或者選擇相應(yīng)的分支到達(dá)一個葉節(jié)點。最終都會到達(dá)一個葉節(jié)點,這一葉節(jié)點的類別即為被賦值給此檢驗記錄的。

      2 決策樹的建立過程

      人們開發(fā)了一些決策樹構(gòu)造算法,主要采用的是貪吃算法的思想,利用局部最優(yōu)的方法來建立決策樹。算法分為兩步,第一步,決策樹的生成過程。第二步,決策樹的剪枝,如圖1所示。

      3 決策樹構(gòu)造算法

      (1)導(dǎo)入決策樹構(gòu)造過程中所需要的函數(shù)庫;

      (2)查看需要構(gòu)造決策樹的源數(shù)據(jù);

      (3)通過rpart函數(shù)構(gòu)造一個決策樹;

      (4)查看決策樹的一些具體的信息和內(nèi)容;

      (5)繪制出決策樹圖;

      (6)對決策樹進(jìn)行適當(dāng)?shù)募糁Γ乐惯^擬合,使得樹能夠較好地反映數(shù)據(jù)內(nèi)在的規(guī)律并在實際應(yīng)用中有意義;

      (7)對剪枝后的決策樹圖進(jìn)行繪制,得到最終的決策樹,對其進(jìn)行相應(yīng)分析和研究。

      4 決策樹技術(shù)在職業(yè)院校學(xué)生的成績分析中的研究與應(yīng)用

      4.1 決策樹技術(shù)在職業(yè)院校學(xué)生的成績分析中的研究與應(yīng)用的意義

      現(xiàn)如今,國家開始越來越重視職業(yè)教育,各個職業(yè)院校開始不斷的擴(kuò)大招生的規(guī)模,越來越多的學(xué)生開始選擇進(jìn)入職業(yè)院校去學(xué)習(xí)一門扎實的技術(shù)。這些改變不僅了影響了傳統(tǒng)的招生模式,也影響了教師對學(xué)生的成績的評定方法。對于職業(yè)院校的學(xué)生的成績并不能單純通過考試的分?jǐn)?shù)來評定學(xué)生的學(xué)習(xí)水平,而是要綜合考量學(xué)生的知識和技能水平。不少職業(yè)院校開始使用數(shù)據(jù)挖掘技術(shù)分析學(xué)生的學(xué)習(xí)成績,這不僅可以對學(xué)生的學(xué)業(yè)水平做出更科學(xué)的評定,而且對提高教學(xué)管理水平起到了很好的指導(dǎo)作用。

      4.2 決策樹技術(shù)在職業(yè)院校學(xué)生的成績分析中的研究與應(yīng)用的過程

      4.2.1 確定數(shù)據(jù)挖掘的對象及挖掘的目標(biāo)

      本文對數(shù)據(jù)挖掘中的分類技術(shù)的研究,利用的是某校動畫設(shè)計班的Flash動畫制作課程的期末考試成績。通過決策樹技術(shù),找到對于學(xué)生成績的主要影響要素,對教師的教學(xué)及學(xué)校的管理提供相應(yīng)的幫助。

      4.2.2 數(shù)據(jù)的收集與預(yù)處理

      我們將所要使用的數(shù)據(jù)進(jìn)行收集和整理,其中包括了20名學(xué)生的學(xué)號、出勤情況、上機(jī)作業(yè)的完成情況、成績、試卷難易、興趣。部分?jǐn)?shù)據(jù)如表1所示。

      4.2.3 算法的選定

      通過分析成績數(shù)據(jù)的特點,此次研究我們將采用決策樹技術(shù)中的ID3算法來建立決策樹。

      第一步,計算熵

      任課教師對學(xué)生的成績評定結(jié)果中等級為A的共有8人,等級為B的共有7人,等級為C的共有5人。我們把樣本數(shù)據(jù)S記為S1=8,S2=7,S3=5,計算熵。

      Info(S)==0.469

      第二步,計算信息增益

      學(xué)生的出勤情況中,出勤較好等級為A的有7名同學(xué),其中有5個測試成績?yōu)锳,2個為B;出勤為B的有10個同學(xué),其中有3個成績?yōu)锳,5個成績?yōu)锽,2個成績?yōu)镃;出勤為C的有3個,成績均為C。計算熵:

      Info(A)=0.26

      Info(B)==0.447

      Info(S)==0

      計算增益:

      Gain(出勤)=Info(S)-(7/20)*Info(A)-(10/20)*Info(B)-(3/20)*Info(C)=0.15

      以上機(jī)作業(yè)作為根的決策樹的熵和增益:

      Info(A)=0.26

      Info(B)==0.47

      Info(C)=0.29

      Gain(上機(jī)作業(yè))=Info(S)-(7/20)*Info(A)-(8/20)*Info(B)-(5/20)*Info(C)=0.118

      以學(xué)生對于試卷難度的評定為根節(jié)點時:

      Info(高)==0.47

      Info(中)==0.45

      Info(低)=0.3

      Gain(試卷難度)=Info(S)-(7/20)*Info(高)-(11/20)*Info(中)-(2/20)*Info(低)=0.027

      以學(xué)生興趣作為根節(jié)點時:

      Info(感興趣)==0.37

      Info(一般)==0.42

      Info(不感興趣)=0.24

      Gain(興趣)=Info(S)-(9/20)*Info(感興趣)-(7/20)*Info(一般)-(4/20)*Info(不感興趣)=0.11

      比較上述屬性的增益值,我們可以得到出勤的增益最大,按照增益最大的原則我們把該結(jié)點作為根節(jié)點,并且有三個分支,然后再對其他子樹進(jìn)行遞歸計算,即可得到下中的決策樹,如圖2所示。

      5 總結(jié)

      觀察決策樹,我們可以發(fā)現(xiàn),影響學(xué)生成績的最主要因素是學(xué)生的上課出勤情況,其次是上機(jī)作業(yè)的完成情況。上課出勤情況好,上機(jī)作業(yè)完成好的學(xué)生,考試成績均較高。因此任課教師和學(xué)校的管理部門,在以后的教學(xué)過程中應(yīng)該主要去抓學(xué)生的出勤和上機(jī)作業(yè)的完成以提高學(xué)生的學(xué)習(xí)成績和操作技能。

      參考文獻(xiàn)

      [1]袁琴琴.基于決策樹算法的改進(jìn)與應(yīng)用[D].西安:長安大學(xué),2006.

      [2]曲開設(shè).ID3算法的一種改進(jìn)算法[J].計算機(jī)工程與應(yīng)用,2003.

      作者簡介

      呂新穎,女,河北省秦皇島市人?,F(xiàn)為西華師范大學(xué)計算機(jī)學(xué)院研究生在讀。

      作者單位

      西華師范大學(xué)計算機(jī)學(xué)院 四川省南充市 637002

      猜你喜歡
      決策樹數(shù)據(jù)挖掘分類
      分類算一算
      一種針對不均衡數(shù)據(jù)集的SVM決策樹算法
      分類討論求坐標(biāo)
      決策樹和隨機(jī)森林方法在管理決策中的應(yīng)用
      數(shù)據(jù)分析中的分類討論
      基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
      基于決策樹的出租車乘客出行目的識別
      一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
      基于肺癌CT的決策樹模型在肺癌診斷中的應(yīng)用
      基于GPGPU的離散數(shù)據(jù)挖掘研究
      石河子市| 平山县| 馆陶县| 内江市| 铁岭市| 青阳县| 斗六市| 儋州市| 西贡区| 安平县| 丹寨县| 巩义市| 余庆县| 广河县| 中卫市| 新龙县| 荥经县| 金溪县| 郑州市| 兴山县| 观塘区| 绩溪县| 侯马市| 汕尾市| 西乌珠穆沁旗| 肇源县| 胶南市| 宣汉县| 息烽县| 和政县| 射阳县| 赣榆县| 石城县| 繁昌县| 缙云县| 镇赉县| 兰西县| 盐池县| 黄冈市| 平乐县| 怀来县|