• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于決策樹(shù)的學(xué)生成績(jī)分析

      2019-05-23 10:44劉萃花朱娟
      電腦知識(shí)與技術(shù) 2019年5期
      關(guān)鍵詞:期末考試決策樹(shù)章節(jié)

      劉萃花 朱娟

      摘要:教育行業(yè)的持續(xù)教學(xué)和管理積累了豐富的教學(xué)數(shù)據(jù),如何深度挖掘這些數(shù)據(jù)背后的“寶藏”,是基于現(xiàn)代教育行業(yè)現(xiàn)狀和教學(xué)管理需求的重要課題。本文運(yùn)用數(shù)據(jù)挖掘中決策樹(shù)C5.0算法,對(duì)《數(shù)據(jù)庫(kù)原理》這門(mén)課程的學(xué)生期末考試成績(jī)進(jìn)行分類研究,分析課程各個(gè)章節(jié)對(duì)于期末成績(jī)最具價(jià)值的影響,構(gòu)建了成績(jī)分析的決策樹(shù)模型。實(shí)驗(yàn)結(jié)果表明,該方法對(duì)于細(xì)粒度挖掘課程內(nèi)容對(duì)學(xué)生成績(jī)的影響,具有重要意義,對(duì)于深入幫助教師制定教學(xué)計(jì)劃,突出教學(xué)重難點(diǎn),具有指導(dǎo)作用。

      關(guān)鍵字:決策樹(shù);C5.0算法;成績(jī)分析

      中圖分類號(hào):TP311.13 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2019)05-0013-03

      Analysis of Student Achievement Based on Decision Tree

      LIU Cui-hua, ZHU Juan

      (Jiujiang University, Jiujiang 332005, China)

      Abstract: The continuous teaching and management of the education industry has accumulated rich teaching data. How to deeply explore the “treasure” behind these data is an important topic based on the status quo of modern education industry and the needs of teaching management. This paper uses the decision tree C5.0 algorithm in data mining to classify the students' final exam scores in the course of "Database Principles", analyzes the most valuable influences of the chapters on the final grades, and constructs a decision tree model for grade analysis.The experimental results show that this method is of great significance for the impact of fine-grained mining course content on student achievement. It has a guiding role for helping teachers to develop teaching plans and highlighting the difficult points of teaching.

      Key words: decision tree; C5.0 algorithm; score analysis

      新時(shí)代背景下,計(jì)算機(jī)的普及帶動(dòng)了數(shù)據(jù)收集、存儲(chǔ)和分析處理技術(shù)的發(fā)展。傳統(tǒng)數(shù)據(jù)分析技術(shù)已不再符合時(shí)代潮流,面臨數(shù)以萬(wàn)計(jì)的數(shù)據(jù),新興的數(shù)據(jù)挖掘技術(shù)展露出它的優(yōu)勢(shì),并以迅猛的速度席卷各個(gè)領(lǐng)域。此外,經(jīng)濟(jì)的發(fā)展推動(dòng)了社會(huì)對(duì)人才的渴求,教育這個(gè)熱門(mén)的話題再次被推向了人們的視野。如何提高教育水平?如何對(duì)學(xué)生學(xué)習(xí)進(jìn)行有效的管理?這些都亟待人們?nèi)ソ鉀Q。影響學(xué)生學(xué)習(xí)的因素有很多,其中學(xué)生成績(jī)作為最為直觀體現(xiàn)學(xué)生學(xué)習(xí)情況的重要因素一直被人們重點(diǎn)關(guān)注。由于往昔學(xué)生成績(jī)分析的方法還只是簡(jiǎn)單地統(tǒng)計(jì)查詢與對(duì)比,本文另辟蹊徑,將數(shù)據(jù)挖掘中的決策樹(shù)模型應(yīng)用于學(xué)生成績(jī)分析中,通過(guò)對(duì)學(xué)生成績(jī)的收集、處理與分析,得到隱藏在學(xué)生成績(jī)背后有效信息。這將更大程度上,幫助調(diào)整教育方式方法,致力于科學(xué)指導(dǎo)教育教學(xué)決策。

      1 決策樹(shù)算法原理

      決策樹(shù)的中心思想:將現(xiàn)有的數(shù)據(jù)一分為二,訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)用以構(gòu)建決策樹(shù)模型和測(cè)試決策樹(shù)模型,并做進(jìn)一步改進(jìn),最終實(shí)現(xiàn)對(duì)新數(shù)據(jù)的預(yù)測(cè)。

      1.1 屬性的選擇

      決策樹(shù)的構(gòu)造就是一次次利用訓(xùn)練集中包含的屬性對(duì)訓(xùn)練集進(jìn)行劃分的過(guò)程,而其中屬性的選擇是決策樹(shù)構(gòu)造過(guò)程中的重要部分,如何在訓(xùn)練集眾多屬性中選擇最佳的屬性對(duì)訓(xùn)練集進(jìn)行劃分從而構(gòu)造出最優(yōu)決策樹(shù),是在構(gòu)造決策樹(shù)過(guò)程中需要重點(diǎn)關(guān)注的問(wèn)題。

      1.2 C5.0算法

      C5.0算法的歷史可以追溯到?jīng)Q策樹(shù)最經(jīng)典的算法ID3。ID3算法最初被提出后對(duì)決策樹(shù)算法產(chǎn)生了重大意義,后期經(jīng)過(guò)不斷地改進(jìn)和發(fā)展,提出了C4.5算法。而C5.0算法與C4.5有著密切的聯(lián)系。實(shí)際上,C5.0是從C4.5算法改進(jìn)而得來(lái)的,但在執(zhí)行效率上講,C5.0算法具有C4.5算法不可比擬的優(yōu)勢(shì)。在本文中,就是采用C5.0算法的思想進(jìn)行實(shí)踐分析,剖析學(xué)生成績(jī)背后的秘密。

      2 決策樹(shù)構(gòu)建思路

      在研究過(guò)程中,大體上遵循數(shù)據(jù)挖掘的流程。本文收集九江學(xué)院各個(gè)班級(jí)學(xué)生各章節(jié)具體成績(jī)及期末成績(jī),進(jìn)而分類處理。實(shí)驗(yàn)中,利用SPSS Modeler軟件的C5.0節(jié)點(diǎn)結(jié)合數(shù)據(jù)構(gòu)造一棵關(guān)于各個(gè)章節(jié)成績(jī)與期末成績(jī)影響關(guān)系的決策樹(shù)。初始構(gòu)建的決策樹(shù)可能存在冗余的問(wèn)題,后期研究?jī)?yōu)化決策樹(shù)模型,最后評(píng)估決策樹(shù)模型并分析結(jié)果。具體構(gòu)建思路如圖1所示。

      3 基于C5.0算法的學(xué)生成績(jī)分析

      3.1 數(shù)據(jù)準(zhǔn)備

      1) 確定數(shù)據(jù)挖掘?qū)ο?/p>

      本次學(xué)生成績(jī)的實(shí)驗(yàn)數(shù)據(jù)以九江學(xué)院信息學(xué)院開(kāi)設(shè)的《數(shù)據(jù)庫(kù)原理》課程的學(xué)生成績(jī)?yōu)閿?shù)據(jù)挖掘的對(duì)象。并將《數(shù)據(jù)庫(kù)原理》課程劃分為六大章節(jié)知識(shí),并以此為基準(zhǔn),統(tǒng)計(jì)該門(mén)課程期末考試試卷知識(shí)點(diǎn)在各個(gè)章節(jié)的分值。

      2) 數(shù)據(jù)的選擇

      本文使用的實(shí)驗(yàn)數(shù)據(jù)采集于九江學(xué)院信息學(xué)院2017級(jí)學(xué)習(xí)《數(shù)據(jù)庫(kù)原理》課程的學(xué)生的期末考試試卷,以班級(jí)為單位人工登記各位學(xué)生期末考試的各項(xiàng)成績(jī)信息。

      3.2 數(shù)據(jù)預(yù)處理

      1) 數(shù)據(jù)采集

      原始數(shù)據(jù)源不適用于數(shù)據(jù)挖掘,預(yù)先處理采集的數(shù)據(jù)是成功進(jìn)行數(shù)據(jù)挖掘的第一步。采集的數(shù)據(jù)將處理成Excel表格文件,儲(chǔ)存每一位學(xué)生關(guān)于《數(shù)據(jù)庫(kù)原理》期末考試的各項(xiàng)成績(jī)。其中,Excel表格文件設(shè)有姓名、學(xué)號(hào)、期末考試中各章節(jié)的所得成績(jī)、期末總成績(jī)等。

      2) 數(shù)據(jù)清理

      人工處理得到的數(shù)據(jù)往往存在著很大的不確定性,如數(shù)據(jù)缺失等。慣用處理缺失值方法有:忽略元組、用屬性平均值填充缺失值等。經(jīng)過(guò)調(diào)查,數(shù)據(jù)缺失的原因大多是同學(xué)缺考,為了保證數(shù)據(jù)的質(zhì)量,本文采用忽略元組的方法清理數(shù)據(jù)缺失的條目。

      3) 數(shù)據(jù)集成

      集成不同班級(jí)的期末成績(jī)數(shù)據(jù)的Excel表格文件到一個(gè)表格中。數(shù)據(jù)集成得到最終各個(gè)班級(jí)的期末考試成績(jī)數(shù)據(jù)包含姓名、學(xué)號(hào)、期末考試中各章節(jié)的所得成績(jī),期末總成績(jī)等。最終,得到數(shù)據(jù)樣本數(shù)為148條。

      4) 數(shù)據(jù)歸約

      精簡(jiǎn)集成的數(shù)據(jù),考慮到集成數(shù)據(jù)中姓名和學(xué)號(hào)邏輯上相互關(guān)聯(lián),且姓名可能存在重復(fù),所以去掉姓名的字段,保留學(xué)號(hào)字段。實(shí)驗(yàn)中將連續(xù)性的成績(jī)數(shù)據(jù)處理成離散型變量,將每個(gè)章節(jié)在期末考試所占分?jǐn)?shù)和期末考試成績(jī),按照各成績(jī)的80%、60%,化分為“Super”“Mid”“No”三個(gè)等級(jí)。

      3.3 構(gòu)建決策樹(shù)模型

      本文實(shí)驗(yàn)所使用到的構(gòu)建決策樹(shù)模型的數(shù)據(jù)挖掘工具是SPSS Modeler(版本15.0),利用其中所特有的C5.0節(jié)點(diǎn)構(gòu)建學(xué)生成績(jī)分析的決策樹(shù)模型。具體的學(xué)生成績(jī)分析決策樹(shù)模型流程圖如圖2所示。

      在圖3的流程圖中,通過(guò)設(shè)置數(shù)據(jù)源和分區(qū)參數(shù),執(zhí)行現(xiàn)有流,得到初始決策樹(shù)模型,并且利用分析節(jié)點(diǎn),得到?jīng)Q策樹(shù)模型測(cè)試結(jié)果。構(gòu)建的決策樹(shù)模型在訓(xùn)練集和樣本集的表現(xiàn),其中訓(xùn)練集有71個(gè)樣本,測(cè)試集有77個(gè)樣本,表明該決策樹(shù)模型正確預(yù)測(cè)了55個(gè),即模型正確預(yù)測(cè)率為71.43%??傊撃P驮跍y(cè)試集上的整體預(yù)測(cè)能力不是令人滿意,因此引出下一步的優(yōu)化決策樹(shù)模型。

      3.4 優(yōu)化決策樹(shù)模型

      初始時(shí)構(gòu)建的決策樹(shù)明顯帶有殘缺性、并且存在異常分支。為了提高決策樹(shù)模型預(yù)測(cè)能力,本文將訓(xùn)練集和測(cè)試集的比例、修剪嚴(yán)重性以及每個(gè)子分支的最小記錄數(shù)作為影響決策樹(shù)模型預(yù)測(cè)準(zhǔn)確性的三個(gè)變量,通過(guò)控制變量的取值,反復(fù)驗(yàn)證形成不同變量下的決策樹(shù)模型的預(yù)測(cè)正確性,最后選取預(yù)測(cè)正確性最高的決策樹(shù)模型作為后期進(jìn)行結(jié)果分析的對(duì)象。最終得到三種方案:

      1) 方案一:訓(xùn)練集和測(cè)試集的比例采取5:5的比重方式,修剪嚴(yán)重性置于0到100之間,每個(gè)子分支的最小記錄數(shù)為2。

      2) 方案二:訓(xùn)練集和測(cè)試集的比例采取7:3的比重方式,修剪嚴(yán)重性置于0到100之間,每個(gè)子分支的最小記錄數(shù)為2。

      3) 方案三:訓(xùn)練集和測(cè)試集的比例采取5:5的比重方式,修剪嚴(yán)重性置于0到100之間,每個(gè)子分支的最小記錄數(shù)取1、2、3、4、5。

      通過(guò)方案一的執(zhí)行結(jié)果可以發(fā)現(xiàn),當(dāng)訓(xùn)練集和測(cè)試集的比例采取7:3的比重方式,隨著修剪嚴(yán)重性逐漸提高,對(duì)其采取5:5的比重方式時(shí)更加顯著。綜上所述,采用訓(xùn)練集和測(cè)試集之比為7:3、修剪嚴(yán)重性為20、每個(gè)子分支的最小記錄數(shù)為2的設(shè)置方式構(gòu)建決策樹(shù)模型,得到的模型如圖4所示。此時(shí)決策樹(shù)模型的預(yù)測(cè)正確性可達(dá)到85.11%,說(shuō)明此模型在預(yù)測(cè)期末成績(jī)上的能力是較好的。

      3.5 模型評(píng)估與結(jié)果分析

      從圖4可以看出,影響期末考試成績(jī)最重要的因素是第二章的成績(jī),說(shuō)明學(xué)生第二章成績(jī)的好壞更大程度上影響該同學(xué)期末成績(jī)的等級(jí)劃分。其次,第三章和第一章的成績(jī)也對(duì)期末成績(jī)有著重要影響。實(shí)際情況如下:

      1) 如果某同學(xué)第二章和第四章成績(jī)處于中低等,第三章成績(jī)處于中高等,無(wú)論其他章節(jié)的等分高低,該同學(xué)的期末成績(jī)都將處于偏中高等。

      2) 如果某同學(xué)第二章、第三章和第六章成績(jī)處于中低等,則預(yù)測(cè)該同學(xué)成績(jī)處于中低等,且更大程度上處于低等。

      3) 即使某同學(xué)第三章、第四章和第六章成績(jī)處于中高等,甚至高等,但是如果他第二章成績(jī)處于中低等,那么預(yù)測(cè)其同學(xué)成績(jī)偏向于中等。

      4) 如果某同學(xué)第二章成績(jī)處于高等,第二章成績(jī)也處于高等,則該同學(xué)成績(jī)一定處于高等,且如果第二章成績(jī)處于中低等,則該同學(xué)期末成績(jī)偏向中等。

      綜上所述,我們得到各個(gè)章節(jié)成績(jī)和期末成績(jī)背后隱含的“寶藏”,并且通過(guò)信息總結(jié)以下幾點(diǎn)建議:

      1) 對(duì)于《數(shù)據(jù)庫(kù)原理》這門(mén)課程,教學(xué)部門(mén)和教師應(yīng)著重準(zhǔn)備第二章的備課和教學(xué),可以適當(dāng)增加與第二章理論相配套的實(shí)踐,將理論與實(shí)踐相結(jié)合,提高學(xué)生學(xué)習(xí)興趣以及加深學(xué)生對(duì)第二章的學(xué)習(xí)和理解。雖然第二章的知識(shí)十分重要,但是第一章、第三章和第六章的成績(jī)也在一定程度上影響最終的期末成績(jī)。因此,教學(xué)者也應(yīng)該把握這幾個(gè)章節(jié)的教學(xué)質(zhì)量。

      2) 學(xué)習(xí)《數(shù)據(jù)庫(kù)原理》這門(mén)課程,不僅僅是學(xué)習(xí)課程中的重點(diǎn)內(nèi)容,更應(yīng)該從整體、從宏觀上把握這門(mén)課程。通過(guò)數(shù)據(jù)挖掘?qū)嶒?yàn)得出的結(jié)論,將把控重點(diǎn)章節(jié)第二章與輔之提升第一章、第三章和第六章的成績(jī)相結(jié)合,共同促進(jìn)學(xué)生成績(jī)與教學(xué)質(zhì)量的提升。

      當(dāng)然這些建議對(duì)于在校學(xué)習(xí)《數(shù)據(jù)庫(kù)原理》學(xué)生也同樣具有深遠(yuǎn)的意義,推動(dòng)學(xué)生與教學(xué)相適應(yīng),達(dá)到突破重點(diǎn)和深度學(xué)習(xí)的目的。

      4 結(jié)束語(yǔ)

      本文中對(duì)于學(xué)生成績(jī)的數(shù)據(jù)挖掘的實(shí)驗(yàn)得出的結(jié)果較之傳統(tǒng)數(shù)據(jù)統(tǒng)計(jì)方式得出的結(jié)果有著無(wú)法比擬的優(yōu)點(diǎn),它經(jīng)過(guò)多角度分析、深層次論證來(lái)提煉最精華的數(shù)據(jù),為以后學(xué)校相關(guān)部門(mén)和技術(shù)人員進(jìn)行進(jìn)一步學(xué)生成績(jī)分析,提供一種可行的思路和方法。未來(lái)對(duì)于學(xué)生成績(jī)分析的數(shù)據(jù)挖掘研究將不止于此,通過(guò)采集更多的樣本數(shù)據(jù),探索多方面影響因子,構(gòu)建更強(qiáng)預(yù)測(cè)能力的決策樹(shù)模型,協(xié)助教育決策。此外,利用決策樹(shù)其他算法得到更加豐富的學(xué)生成績(jī)背后的隱含“寶藏”,這也將大大提高獲得信息的可靠性,成為后期深入研究的方向。

      參考文獻(xiàn):

      [1] 狄曉嬌.基于數(shù)據(jù)挖掘技術(shù)的學(xué)生成績(jī)分析[J].現(xiàn)代商貿(mào)工業(yè),2018,39(17):170-171.

      [2] 郭宇紅,王路寧,毛玉琪.SPSS Clementine決策樹(shù)建模在圖書(shū)館中的應(yīng)用[J].計(jì)算機(jī)時(shí)代,2014(4):30-33.

      [3] 熊蜀峰,聶黎明.基于C5.0算法的學(xué)生成績(jī)分析決策樹(shù)構(gòu)造[J].科技信息,2010(8):24-25.

      [4] 涂波,張煒,胡文,等.基于決策樹(shù)C5.0算法的員工職稱晉級(jí)評(píng)估研究[J].中國(guó)管理信息化,2018,21(8):63-64.

      [5] 薛薇.基于SPSS Modeler的數(shù)據(jù)挖掘[M].中國(guó)人民大學(xué)出版社,2014.

      【通聯(lián)編輯:梁書(shū)】

      猜你喜歡
      期末考試決策樹(shù)章節(jié)
      期末考試
      一種針對(duì)不均衡數(shù)據(jù)集的SVM決策樹(shù)算法
      期末考試
      高中數(shù)學(xué)章節(jié)易錯(cuò)點(diǎn)提前干預(yù)的策略研究
      決策樹(shù)和隨機(jī)森林方法在管理決策中的應(yīng)用
      素養(yǎng)之下,美在引言——《“推理與證明”章節(jié)引言》一節(jié)比賽課的實(shí)錄
      十年
      基于決策樹(shù)的出租車(chē)乘客出行目的識(shí)別
      黃廖本《現(xiàn)代漢語(yǔ)》詞匯章節(jié)中的幾個(gè)問(wèn)題
      基于肺癌CT的決策樹(shù)模型在肺癌診斷中的應(yīng)用
      池州市| 济源市| 剑川县| 彭州市| 克东县| 雷山县| 新建县| 泾阳县| 西盟| 石棉县| 阿坝| 故城县| 远安县| 惠水县| 拉萨市| 桐乡市| 日照市| 南漳县| 沁水县| 六盘水市| 巴马| 庆阳市| 镇安县| 三穗县| 肥东县| 吉安县| 缙云县| 涿鹿县| 策勒县| 惠来县| 新安县| 额尔古纳市| 临朐县| 木兰县| 太保市| 德钦县| 丽江市| 大埔县| 无锡市| 姚安县| 木里|