錢濤
摘??要:教育數(shù)據(jù)挖掘是數(shù)據(jù)挖掘中的重要領(lǐng)域之一,其中成績預測是研究的重點內(nèi)容,
成績數(shù)據(jù)是學生學習行為的重要反映?;跀?shù)據(jù)挖掘技術(shù),通過采集學生的基本信息、圖書借閱、消費行為、門禁數(shù)據(jù)等各類數(shù)據(jù),挖掘行為特征與學習成績之間的關(guān)聯(lián)性,構(gòu)建基于學生行為數(shù)據(jù)的成績預測模型。以達到對學生異常情況的早期預警,優(yōu)化教學實施過程,以促進學校對不同類群學生培養(yǎng)、引導和管理工作。
關(guān)鍵詞:隨機森林?成績預測?R語言?數(shù)據(jù)挖掘
中圖分類號:G434;TP18
Realization?of?Student?Grade?Prediction?Based?on?the?Random?Forest?Algorithm
QIAN?Tao
(Zhejiang?Agricultural?Business?College,Shaoxing,Zhejiang?Province,312088?China)
Abstract:?Educational?data?mining?is?one?of?the?important?fields?in?data?mining,?and?grade?prediction?is?its?key?research?content.?Grade?data?is?an?important?reflection?of?students'?learning?behavior.?Based?on?data?mining?technology,?this?paper?explores?the?correlation?between?behavioral?characteristics?and?academic?performance?by?collecting?various?data?such?as?students'?basic?information,?book?borrowing,?consumption?behavior?and?access?control?data,?and?builds?a?grade?prediction?model?based?on?student?behavior?data,?in?order?to?achieve?the?early?warning?of?the?abnormal?situation?of?students,?optimize?the?teaching?implementation?process,?and?promote?the?training,?guidance?and?management?of?different?groups?of?students.
Key?Words:?Random?forest;?Grade?prediction;?R?language;?Data?mining
數(shù)據(jù)挖掘在教育領(lǐng)域的應用已經(jīng)成為一種趨勢,取得了廣泛的關(guān)注和應用。高校管理人員通過收集學生的學習數(shù)據(jù)和行為數(shù)據(jù),結(jié)合大數(shù)據(jù)分析技術(shù),能夠?qū)W生的學習情況進行深度分析和挖掘。
在教育大數(shù)據(jù)挖掘領(lǐng)域中成績預測是研究的重點內(nèi)容,成績數(shù)據(jù)是學生學習行為的重要反映。羅楊洋等人[1]針對混合學習場景,基于學生認知水平、先前知識水平和在線行為等數(shù)據(jù),建立多元回歸預測模型,開展預測結(jié)果指導下的學習干預,以提升在云環(huán)境下的學習效果。張莉等人[2]構(gòu)建模型應用到高考預測,支持向量機分類來預測高考的錄取批次,以回歸分析來預測高考特征分,并成功進行混合預測。沈江等人[3]提出了基于Adaboost方法的學生學習軌跡方法分析,引入了損益函數(shù)來表示預測誤差率帶來的影響,并根據(jù)預測的結(jié)果生成學生學習軌跡。王娜等人[4]、謝軍飛等人[5]、張文奇等人[6]分別采用基于Lightgbm、XGBoost、向量機等機器學習算法實現(xiàn)成績預測和學情預警功能。
1隨機森林算法
在數(shù)據(jù)挖掘的預測模型中往往包括分類和回歸任務,隨機森林算法能有效地處理上述兩類問題。本文將學生成績預測問題劃歸為一種多分類問題,相較于單一的決策樹,隨機森林算法在一定程度上可以能夠降低單一決策樹的方差,提高模型的穩(wěn)定性和泛化能力。隨機森林算法步驟如下。
(1)自助采樣:從原始訓練數(shù)據(jù)集中進行有放回的隨機抽樣,生成多個自助樣本集。 (2)構(gòu)建決策樹:對于每個自助樣本集,使用決策樹算法(如CART、ID3等)構(gòu)建一棵決策樹。
(3)特征值選擇:在構(gòu)建決策樹的過程中,每個節(jié)點使用隨機選擇的特征子集進行分裂,而不是使用所有特征。通過這種篩選增加模型中可能存在的過擬合現(xiàn)象。
(4)集成預測:當所有決策樹構(gòu)建完成后,對于新的輸入樣本,將其輸入到每棵決策樹中進行預測。每棵樹都會給出一個分類結(jié)果,隨機森林算法將這些結(jié)果進行集成。
2基于隨機森林算法構(gòu)建成績預測模型
本文的研究對象是來自某高職院校財經(jīng)類專業(yè)的三個班2021級105名學生,通過隨機森林算法將學生行為數(shù)據(jù)進行數(shù)據(jù)建模,預測學生學期末成績的等級。研究數(shù)據(jù)包括一卡通數(shù)據(jù)(消費、門禁情況)、圖書館數(shù)據(jù)(借閱、到館情況)、教務數(shù)據(jù)(生源、學業(yè)情況)。數(shù)據(jù)的收集時間從2022年2—6月(2021—2022學年第二學期)。
2.1?數(shù)據(jù)準備與預處理
所使用的學生數(shù)據(jù)都是來源于學校中相關(guān)業(yè)務系統(tǒng)的數(shù)據(jù)庫,其中一卡通系統(tǒng)使用SQL?Server,圖書、門禁、教務數(shù)據(jù)采用Oracle。經(jīng)過對業(yè)務系統(tǒng)數(shù)據(jù)進行預處理后,選定為10項特征數(shù)據(jù)分別為X1:性別(0男,1女),X2:生源(1普高生,2三校生,3中高職一體),X3:英語四級通過(0否,1是),X4:月均圖書借閱量(數(shù)值),X5:月均入館頻次(數(shù)值),X6:晚歸情況(數(shù)值型),X7:月均消費值(數(shù)值),X8:月均早餐數(shù)(數(shù)值),X9:月均請假次數(shù)(數(shù)值),X10:上學期加權(quán)平均分(數(shù)值),X11:專業(yè)課加權(quán)均分(數(shù)值),選定GRADE為預測數(shù)據(jù)即當前學期成績專業(yè)均分等級:G(80-100),P(60-80),NP(60以下)。
2.2?預測的RF模型算法實現(xiàn)
2.2.1數(shù)據(jù)隨機抽樣
本實驗的編程語言是?R?語言,在?RStudio?環(huán)境下運行。數(shù)據(jù)預處理后整個數(shù)據(jù)集包含105個樣本和11個變量。將學生的考試等級(grade)視為響應變量,響應變量設(shè)置為因子變量,實驗中選取65%的樣本作為訓練集,剩余作為預測集,代碼如下所示。
2.2.2模型構(gòu)建以及參數(shù)調(diào)整
通過R中randomForest包中randomForest函數(shù)從訓練集中有放回地隨機抽取76個樣本,在每棵樹的每個節(jié)點隨機抽取4個變量,從而生成了200棵經(jīng)典決策樹,代碼如下所示。
模型中mtry參數(shù)控制每個決策樹在分裂節(jié)點時隨機選擇的特征數(shù)。一般推薦使用默認值模型中總特征值的平方根,故mtry參數(shù)設(shè)定為4。模型中ntree的設(shè)置會導致模型的穩(wěn)定性和準確性變化,可以通過下圖所示,ntree與error之間的關(guān)系,在ntree設(shè)置到200時,模型中error值趨向穩(wěn)定。
2.2.3模型訓練以及混淆矩陣
經(jīng)過上述步驟已經(jīng)實現(xiàn)成績預測模型cjyc_rf構(gòu)造,接下來將在預測集中通過predict函數(shù)將cjyc_rf模型和testdata作為參數(shù),生成testpredprob預測值,將testdata$GRADE作為參數(shù)通過confusionMatrix函數(shù)構(gòu)建混淆矩陣以及生成ROC圖,ROC圖用于表示分類模型對成績預測的效果,代碼如圖4所示。
預測模型在訓練集和預測級中的預測分類結(jié)果如圖5和圖6所示,73個訓練樣本中68個樣本匹配,分別G(優(yōu)秀):27,P(合格):32,NP(不合格):9,Accuracy為0.9315。在33個預測樣本中24個樣本匹配,分別G(優(yōu)秀):9,P(合格):14,NP(不合格):1,Accuracy為0.7742,成績預測模型cjyc_rf在預測集展現(xiàn)出較好的預測效果,但由于本次實驗中樣本總數(shù)偏少,隨機森林本身就是容易過擬合的模型,存在一定的過擬合現(xiàn)象導致訓練集和預測集預測效果有一定的差距。
3.2.4特征屬性重要性排序
通過調(diào)用RondomForest包中?importances?函數(shù),將cjyc_rf模型作為參數(shù),輸出后得到11個特征屬性在此次預測模型中的預測的重要程度,MeanDecrease?Accuracy和MeanDecrease?Gini為隨機森林模型中的兩個重要指標,分別表示隨機森林預測準確性的降低程度以及每個變量對分類樹每個節(jié)點上觀測值的異質(zhì)性的影響,值越大代表對應的特征屬性的重要性越大。在圖7中,X5(月均圖書借閱量),X6(晚歸情況),X8(月均早餐數(shù)),X10(上學期加權(quán)平均分),X11(專業(yè)課加權(quán)均分)五項特征值對預測的結(jié)果影響比較大。通過研究特征屬性對成績預測重要性的排名,可以明確學習過程有一定延續(xù)性,前一學期的學習成績對后一階段的學習有很大程度的影響,早餐消費次數(shù)、晚歸次數(shù)、月均入館頻次一定程度上反映學生的自律程度和學習自主性,但是像學生的生源、性別、圖書借閱次數(shù)等數(shù)據(jù)相對于其他動態(tài)數(shù)據(jù)而言影響的比重較小。
3結(jié)語
本文學生在校的行為數(shù)據(jù)中篩選出特征數(shù)據(jù),構(gòu)建預測模型進行學生成績預測,并對特征數(shù)據(jù)進行重要性排序。文中選取的隨機森林方法是一種樹型分類器的組合算法。它的優(yōu)點在于能高效地處理大數(shù)據(jù)集,而且預測精度較高。數(shù)據(jù)在分析前不需要過多的預處理,不需要標準化或是歸一化,但本次實驗的樣本基數(shù)偏小,存在一定的過擬合現(xiàn)象。
參考文獻
[1] 羅楊洋,韓錫斌.基于增量學習算法的混合課程學生成績預測模型研究[J].電化教育研究,2021,42(7):83-90.
[2] ?張莉,盧星凝,陸從林,等.支持向量機在高考成績預測分析中的應用[J].中國???科學技術(shù)大學學報,2017,47(1):1-9.
[3] 沈江,陳璐琳,潘婷,等.新工科背景下基于數(shù)據(jù)挖掘的學習軌跡分析[J].天津大學學報(社會科學版),2023,25(6):499-506.
[4] 王娜,李勁松,潘子堯,等.基于支持向量機的學位預警方法研究[J].吉林大學學報(信息科學版),2023,41(5):903-907.
[5] 謝軍飛,張海清,李代偉,等.基于Lightgbm和XGBoost的優(yōu)化深度森林算法[J].南京大學學報(自然科學),2023,59(5):833-840.
[6] 張文奇,王海瑞,朱貴富.基于因果推斷和多頭自注意力機制的學生成績預測[J].現(xiàn)代電子技術(shù),2023,46(17):111-116.