• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于知識點決策樹的學(xué)生學(xué)習(xí)成績預(yù)測研究

      2020-11-16 02:27:45王小越吳筱萌
      數(shù)字教育 2020年5期
      關(guān)鍵詞:預(yù)測模型決策樹

      王小越 吳筱萌

      摘 要:傳統(tǒng)教學(xué)中教師無法及時關(guān)注每個學(xué)生的知識掌握情況,對學(xué)生學(xué)習(xí)狀況有更深入的了解,學(xué)生也無法準(zhǔn)確對自己學(xué)習(xí)過程中出現(xiàn)的癥狀進(jìn)行及時診斷。本研究以七年級數(shù)學(xué)為例,嘗試進(jìn)行學(xué)生數(shù)學(xué)知識點掌握程度的分析,并基于數(shù)學(xué)知識點掌握程度和成績等級數(shù)據(jù),采用決策樹C5.0算法構(gòu)建學(xué)習(xí)成績預(yù)測模型并驗證了模型的有效性。這對教師的教和學(xué)生的學(xué),以及后續(xù)開展關(guān)于知識點和學(xué)習(xí)成績的研究都有一定參考意義。

      關(guān)鍵詞:決策樹;數(shù)學(xué)知識點;預(yù)測模型

      中圖分類號:G434文獻(xiàn)標(biāo)志碼:A文章編號:2096-0069(2020)05-0070-05

      收稿日期:2020-03-27

      作者簡介:王小越(1992— ),女,河北唐山人,助教,碩士,研究方向為學(xué)習(xí)科學(xué)與技術(shù)、學(xué)習(xí)分析、信息技術(shù)教育等;吳筱萌(1966— ),女,北京人,副教授,博士生導(dǎo)師,研究方向為網(wǎng)絡(luò)遠(yuǎn)程教育、信息技術(shù)的教學(xué)應(yīng)用、課程教學(xué)與教師發(fā)展、信息技術(shù)教育研究等。

      引言

      《中國教育現(xiàn)代化2035》明確提出要“利用現(xiàn)代技術(shù)加快推動培養(yǎng)模式改革,實現(xiàn)規(guī)?;逃c個性化培養(yǎng)的有機結(jié)合”[1]。其有機結(jié)合的基礎(chǔ)在于,計算機能夠掌握不同學(xué)習(xí)者的不同特征,并進(jìn)行分析、預(yù)測,給出適當(dāng)建議。

      傳統(tǒng)教學(xué)中,教師對學(xué)生學(xué)習(xí)情況的掌握仍然只能憑借書面測驗和印象進(jìn)行大概評估,缺乏精準(zhǔn)性和科學(xué)性,無法深入地了解每個學(xué)生的學(xué)習(xí)狀況以及對特定知識的掌握情況,為學(xué)生提供個性化指導(dǎo)和教學(xué)。學(xué)生無法通過作業(yè)、考試成績等準(zhǔn)確地判斷自己是否真正學(xué)會并運用特定知識或概念解決實際問題,不能全面了解自己學(xué)科知識的掌握情況。在這樣的背景下,本文以七年級數(shù)學(xué)為例,以為學(xué)生提供個性化學(xué)習(xí)分析和預(yù)測學(xué)習(xí)狀態(tài)為目標(biāo),嘗試依據(jù)學(xué)生平時作業(yè)和測試成績相關(guān)數(shù)據(jù)進(jìn)行學(xué)生數(shù)學(xué)知識點掌握程度的分析,并基于七年級數(shù)學(xué)知識點掌握程度數(shù)據(jù),采用決策樹C5.0算法構(gòu)建了數(shù)學(xué)學(xué)習(xí)成績預(yù)測模型,并檢驗?zāi)P偷挠行浴?/p>

      一、研究基礎(chǔ)概述

      (一)知識點及掌握程度相關(guān)研究

      周越、徐繼紅在結(jié)合了學(xué)習(xí)研究的主要經(jīng)典理論、現(xiàn)代心理學(xué)的知識觀以及其他學(xué)者的觀點后,認(rèn)為在課程內(nèi)容體系中,能夠與教學(xué)目標(biāo)進(jìn)行直接對應(yīng)的單一命題就是知識點[2]。關(guān)于知識點掌握程度的分析,已有研究主要采用以下方法:

      (1)知識點正確率[3];

      (2)習(xí)題得分率[4];

      (3)相似性度量[5];

      (4)認(rèn)知診斷模型中的DINA模型的EM算法[6];

      (5)利用“試題-知識點-應(yīng)答情況”表對學(xué)生數(shù)學(xué)知識點狀態(tài)進(jìn)行表征,來確定掌握和未掌握的知識點[7]。

      (二)決策樹算法

      決策樹算法C5.0是學(xué)習(xí)分析領(lǐng)域使用最廣、最流行的分類預(yù)測技術(shù)之一。相較于其他學(xué)習(xí)分析算法,決策樹算法C5.0的優(yōu)點如下:(1)可以處理連續(xù)型的高維數(shù)據(jù),可按照目標(biāo)類別進(jìn)行數(shù)據(jù)分類。(2)能夠產(chǎn)生易于理解的知識,形成的預(yù)測模型可解釋性強。(3)工作效率較高,且通常情況下會具有較高的正確率,為用戶提供可信度較高的信息。決策樹算法C5.0的主要內(nèi)容如下:

      設(shè)S是訓(xùn)練樣本集,s為樣本個數(shù)。假定樣本集S中目標(biāo)變量可取m個不同值,則樣本集S中具有m個不同的樣本子集Ci(i=1,2,…,m),si為樣本子集Ci在S中的個數(shù),樣本集S所期望的信息熵為:

      若某個屬性A有v個不同值,則屬性A可將樣本集S劃分為v個樣本子集(S1,S2,…,Sv),|Sj|為樣本子集Sj的個數(shù),則屬性A 實際所需的信息熵為:

      屬性A的信息熵越小,表明該屬性對樣本集S劃分的純度越高。則屬性A的信息增益(樣本集S原來所需的信息熵與利用屬性A進(jìn)行劃分后所需的信息熵之差)為:

      如果以屬性A具有的值作為基準(zhǔn)對樣本集S 進(jìn)行劃分,其初始的信息量為:

      那么屬性A 的信息增益率(信息增益與初始信息量之比)為:

      C5.0算法就是通過不斷選擇信息增益率最大的屬性來作為決策節(jié)點,進(jìn)行決策樹的構(gòu)造。

      本研究中七年級數(shù)學(xué)知識點較多,要處理這種知識點過多的高維度屬性特征的數(shù)據(jù)集,并按照特定的目標(biāo)成績類別進(jìn)行數(shù)據(jù)分類、構(gòu)建可解釋的學(xué)習(xí)成績預(yù)測模型,需要采用決策樹算法C5.0進(jìn)行實現(xiàn)。

      二、樣本選擇及數(shù)據(jù)預(yù)處理

      本研究采用了2017年常州市某中學(xué)七年級的6套在線暑假數(shù)學(xué)作業(yè)作為數(shù)據(jù)來源。6套暑假數(shù)學(xué)作業(yè)由該校老師編制。每套作業(yè)共30題。每套作業(yè)完成人數(shù)分別為1142人、979人、926人、858人、829人、814人。通過數(shù)據(jù)核查處理后,最終篩選出752人的做答數(shù)據(jù)。

      假期作業(yè)一般是一個學(xué)期知識學(xué)習(xí)的總結(jié)與復(fù)習(xí),本研究假設(shè)此6套數(shù)學(xué)作業(yè)中的知識點匯總基本代表了七年級數(shù)學(xué)下學(xué)期知識點的總體。本研究邀請到常州市某數(shù)學(xué)教研員,對試卷的知識點進(jìn)行了標(biāo)注,共65個知識點。

      三、知識點掌握程度計算及學(xué)習(xí)成績預(yù)測模型構(gòu)建分析

      (一)知識點掌握程度計算

      數(shù)學(xué)知識點掌握程度的計算是學(xué)習(xí)成績預(yù)測模型構(gòu)建的基礎(chǔ)。數(shù)學(xué)知識點掌握程度的計算主要存在兩個難點:一是知識點對錯如何確定,二是針對知識點應(yīng)該采取怎樣的計算方式來分析掌握程度。

      本研究中常州市某中學(xué)七年級6套暑假數(shù)學(xué)作業(yè)中的試題均為單選題,考查的知識點可能包含一個或多個,大體可分為四類,試題類型及相關(guān)說明如表1所示。

      考慮到考查多個知識點試題類型的多樣性,并且無法直接判斷學(xué)生到底掌握哪個知識點,未掌握哪個知識點,本研究將知識點掌握對錯評定的標(biāo)準(zhǔn)定為:題目答對則該題目對應(yīng)的一個或多個知識點掌握,題目答錯則該題目對應(yīng)的一個或多個知識點未掌握。

      如前所述,已有研究中關(guān)于數(shù)學(xué)知識點掌握程度的分析中多采用計算知識點正確率的方法、計算得分率的算法或相似性度量方法。針對本數(shù)據(jù)樣本,這些計算方法存在一定的問題。例如,計算得分率算法將題目分值作為一個重要變量,分值的高低往往代表了試題的難度或不同的考查能力,比如分值越高表明題目本身越難或考查了知識點綜合運用能力。但本研究中的作業(yè)試題分值一樣,無法體現(xiàn)題目分值的意義,喪失了分值在知識點掌握程度分析時的重要作用。相似性度量方法主要是在學(xué)生沒有學(xué)習(xí)某些知識點時,根據(jù)該學(xué)生已學(xué)習(xí)的知識點情況,在其他將所有知識點都學(xué)完的學(xué)生中找出與該學(xué)生已學(xué)習(xí)知識點情況最相似的一個人,然后通過計算來估算出該學(xué)生對未學(xué)習(xí)知識點的掌握程度,本研究數(shù)據(jù)中的知識點都是學(xué)生學(xué)完的,所以此方法對本研究知識點掌握程度的計算也不太適用。

      為此,本研究對知識點掌握程度的計算方法是統(tǒng)計知識點的正確率,即每個知識點的掌握程度等于該知識點被正確答對的個數(shù)除以該知識點出現(xiàn)的總個數(shù),每個學(xué)生的每個知識點的掌握程度的值介于0~1之間,數(shù)值越接近于1表明學(xué)生對該知識點掌握得越好,反之,越差。

      決策樹的目標(biāo)屬性為分類類型,需要對學(xué)生成績進(jìn)行離散化處理。每套作業(yè)滿分為100分,設(shè)90~100分為A、80~89分為B、70~79分為C、60~69分為D、59分及以下為E。將學(xué)生6套作業(yè)的得分累計求和,并對成績按百分制的固定區(qū)間法的六倍進(jìn)行成績等級離散處理,即540~600分為A、480~539分為B、420~479分為C、360~419分為D、359分及以下為E。

      通過在Visual Studio 2010中編寫公式算法程序,計算出每個學(xué)生對知識點的掌握程度,以及對學(xué)生的成績等級屬性構(gòu)造后,生成了學(xué)生的“知識點-成績”等級表,其數(shù)據(jù)格式舉例如表2所示。

      (二)學(xué)習(xí)成績預(yù)測模型構(gòu)建分析

      本研究采用IBM SPSS Modeler 18.0軟件C5.0技術(shù)進(jìn)行成績預(yù)測模型的適應(yīng)性參數(shù)的決策樹擬合。根據(jù)表2數(shù)據(jù),以65個知識點掌握程度的0~1之間的連續(xù)值作為輸入變量X,成績等級作為輸出變量Y,基于Pearson分布,找出非重要的預(yù)測屬性2個,最后進(jìn)入模型構(gòu)建的知識點共有63個。

      經(jīng)過預(yù)測屬性篩選后,采用交叉驗證方法,折疊10次。該方法常被用于評估模型預(yù)測的效果,以80%的知識點掌握程度數(shù)據(jù)作為訓(xùn)練集,以20%的知識點掌握程度數(shù)據(jù)作為測試集。運行后,構(gòu)建了具有35條規(guī)則的決策樹模型,其中對應(yīng)成績等級A的規(guī)則有2條,對應(yīng)成績等級B的規(guī)則有13條,對應(yīng)成績等級C的規(guī)則有10條,對應(yīng)成績等級D的規(guī)則有6條,對應(yīng)成績等級E的規(guī)則有4條。考慮到規(guī)則較多,本文以對應(yīng)成績等級A的規(guī)則集為例進(jìn)行呈現(xiàn),如圖1。

      決策樹規(guī)則集結(jié)果顯示,成績等級A對應(yīng)的規(guī)則1中有11個樣本數(shù)據(jù)符合規(guī)則,其中81.8%被正確預(yù)測;成績等級A對應(yīng)的規(guī)則2中有74個樣本數(shù)據(jù)符合規(guī)則,其中87.8%被正確預(yù)測。35條決策樹規(guī)則集顯示,規(guī)則集中共包括610個樣本數(shù)據(jù)(占總樣本的81.8%),預(yù)測成績等級A、B、C、D、E的人數(shù)分別為85、218、97、63和147人。在63個知識點中,只有“代入消元法解二元一次方程組”“三角形的內(nèi)角和”“不等式的基本性質(zhì)”等19個知識點掌握程度進(jìn)入模型,說明在這63個知識點中此19個知識點對學(xué)生的學(xué)習(xí)成績有較大影響。在19個知識點中,“代入消元法解二元一次方程組”在35條規(guī)則集中均有出現(xiàn),是決策樹第一個最佳決策節(jié)點,表明該知識點的掌握程度對學(xué)生的學(xué)習(xí)成績具有更大的影響。以該知識點掌握程度值0.62為臨界值,知識點掌握程度大于0.62的學(xué)生成績等級為A、B、C、D、E的人數(shù)分別為85、211、80、16和5人,說明學(xué)生對該知識點掌握程度超過0.62時成績等級最大可能為B,其次是A。所以,學(xué)生需在教師進(jìn)一步講解以及自己深入理解該知識點解題方法的同時,不斷練習(xí)該知識點的相關(guān)題目以掌握解題方法,將該知識點的掌握程度提升到0.62以上才有可能提升學(xué)習(xí)成績。除“代入消元法解二元一次方程組”外,其他18個知識點及其重要性排序依次為不等式(組)的解集、三角形的內(nèi)角和、不等式的基本性質(zhì)、真命題與假命題、三角形的外角、平行線的性質(zhì)、整式的加減、冪的乘方與積的乘方、多項式乘多項式、有理數(shù)比較大小、二元一次方程組的應(yīng)用、同位角內(nèi)錯角同旁內(nèi)角的識別、多邊形的內(nèi)角和、單項式乘多項式、二元一次方程(組)的基本概念、科學(xué)記數(shù)法、中線高線角平分線、因式分解的概念。IBM SPSS Modeler 18.0軟件C5.0技術(shù)中的變量重要性排序表明了知識點掌握程度對學(xué)生學(xué)習(xí)成績的影響,重要性越高,該知識點對學(xué)生的學(xué)習(xí)成績影響越大。

      模型的有效性是檢驗?zāi)P褪欠窨捎玫闹饕椒?,本研究利用SPSS Modeler中的分析功能進(jìn)行評估,結(jié)果顯示訓(xùn)練集正確率為81.26%,測試集正確率為80.61%??梢钥闯?,無論是訓(xùn)練集還是測試集的模型評估正確率均在80%以上,表明此模型具有較好的可行性、有效性。

      四、討論與展望

      本研究以某校七年級學(xué)生暑假數(shù)學(xué)作業(yè)為數(shù)據(jù)集,對七年級下學(xué)期數(shù)學(xué)知識點掌握程度進(jìn)行了計算,在此基礎(chǔ)上,采用決策樹C5.0算法構(gòu)建了學(xué)習(xí)成績預(yù)測模型——規(guī)則集。模型中訓(xùn)練集和測試集正確率均在80%以上,效果良好,說明該模型在實際應(yīng)用中能夠給出較佳的預(yù)測,這也表明可以利用決策樹算法對知識點和學(xué)習(xí)成績之間的關(guān)系進(jìn)行深入挖掘。

      通過該方法構(gòu)建的規(guī)則集模型直觀、易于理解,可以發(fā)現(xiàn)哪些知識點對于學(xué)生學(xué)習(xí)成績的影響比較重要,對教師的教學(xué)有指導(dǎo)意義。針對學(xué)生平時的學(xué)習(xí)成績,如果能夠通過這種方法去分析知識點掌握情況并構(gòu)建學(xué)習(xí)成績預(yù)測模型,每個學(xué)生都可以準(zhǔn)確找到自己的薄弱知識點,從而有針對性地加強薄弱知識點的學(xué)習(xí)以提高自己的學(xué)習(xí)成績。對于中考、高考的試卷分析采用這種方法,可以幫助找到更重要的知識點,供教師和學(xué)生參考。

      由于本研究所獲得的學(xué)生作業(yè)數(shù)據(jù)有限,以此構(gòu)建的知識點掌握情況預(yù)測學(xué)生成績模型的適用性有待進(jìn)一步提升。未來可選擇一個學(xué)區(qū)的階段性考試數(shù)據(jù)以增加數(shù)據(jù)量,通過引入知識點相關(guān)的描述性因素和多種試題類型以更精確地計算學(xué)生知識點掌握程度,提高學(xué)習(xí)成績預(yù)測模型的可行性和拓展性。

      Abstract: In traditional teaching,teachers can not pay attention to each students knowledge mastery timely and provide personalized guidance and teaching,and students also cannot diagnose their symptoms appeared in their own learning process timely and precisely.This research,taking mathematics of grade seven as an example,tries to analyze the mastery degree of math knowledge point,and,based on the mastery degree of math knowledge point and grading data of academic record,adopts decision tree C5.0 algorithm to construct prediction model of academic record,and validates the effectiveness of this model,which is of certain significance of reference to teachersteaching and studentsstudy,and also the research related to the knowledge point and academic record carried out later.

      Key words: decision tree;math knowledge point;prediction model

      猜你喜歡
      預(yù)測模型決策樹
      一種針對不均衡數(shù)據(jù)集的SVM決策樹算法
      決策樹和隨機森林方法在管理決策中的應(yīng)用
      電子制作(2018年16期)2018-09-26 03:27:06
      基于改進(jìn)決策樹的故障診斷方法研究
      基于矩陣?yán)碚撓碌母咝=處熑藛T流動趨勢預(yù)測
      東方教育(2016年9期)2017-01-17 21:04:14
      基于支持向量回歸的臺灣旅游短期客流量預(yù)測模型研究
      基于神經(jīng)網(wǎng)絡(luò)的北京市房價預(yù)測研究
      商情(2016年43期)2016-12-23 14:23:13
      中國石化J分公司油氣開發(fā)投資分析與預(yù)測模型研究
      基于IOWHA法的物流需求組合改善與預(yù)測模型構(gòu)建
      基于決策樹的出租車乘客出行目的識別
      基于決策樹的復(fù)雜電網(wǎng)多諧波源監(jiān)管
      電測與儀表(2016年2期)2016-04-12 00:24:40
      信丰县| 宝兴县| 泉州市| 颍上县| 天祝| 扶风县| 如东县| 聂拉木县| 鸡东县| 博罗县| 泗洪县| 灵川县| 平顶山市| 黄山市| 兴业县| 兴山县| 霍邱县| 公安县| 北安市| 崇州市| 桃园县| 安阳市| 乌拉特前旗| 台南县| 姜堰市| 莱州市| 武夷山市| 安远县| 福安市| 宁波市| 平陆县| 西丰县| 黄骅市| 江华| 丘北县| 阳江市| 印江| 吉木萨尔县| 塔城市| 奉节县| 嘉兴市|