白楊
摘要:課程成績預測研究對大學生的學習指導及課程評價體系的構建具有指導意義。為了監(jiān)測學習過程和預測學習效果,以泛雅網絡教學平臺為輔助環(huán)境,文章采用決策樹方法對學生的課程學習過程進行分析,獲得課程成績的主要影響因素和分類規(guī)則。該方法能為學生提供課程學習指導,為制定課程的考核及評價方式提供思路。
關鍵詞:課程成績預測;決策樹;信息增益;泛雅網絡教學平臺
隨著教育信息化、全球化的迅猛發(fā)展,慕課、可汗學院等網絡教學平臺應運而生,并由此產生了海量的學習活動和教學管理數(shù)據,如何有效地利用這些數(shù)據提升學生的學習效率,已經成為在線教育面臨的挑戰(zhàn)之一。分類挖掘是數(shù)據挖掘研究領域中的一個重要分支,目前,在商業(yè)、電信、生物等研究和應用領域取得了令人矚目的成績,不少學者也開始嘗試將分類挖掘應用到教育信息化領域,為教學改革與管理提供了科學依據。課程成績是衡量學生的學習效果和教師教學質量的重要依據之一,是教師和學生關注的重點,但是,成績的評定通常是在課程期末考試之后才能確定,只能讓師生了解一個學習的結果。實際上,學生對課程掌握程度在平時的教學過程中有所體現(xiàn),如果能讓學生隨時了解自己的課程學習情況以及教師實時監(jiān)測學生的學習狀況,無疑能為課程學習提供有益的指導。本文以信息管理專業(yè)的“運籌學”課程為例,通過泛雅網絡平臺,對學生課程學習過程的考核數(shù)據與期末成績之間的關系類別進行分析,得到結構統(tǒng)一的數(shù)據及泛化的屬性,并構建課程成績的決策樹,獲得分類規(guī)則和分析結果。
1 數(shù)據采集和預處理
泛雅網絡教學平臺覆蓋了課程建設、課程學習、學習社區(qū)、學習分析和課程管理的整個教學過程。對于學習效果評測,平臺提供了對學生的學習活動記錄和統(tǒng)計的功能。統(tǒng)計指標主要包括學生學習課程視頻的完成指標,以課程視頻進度與任務點完成百分比呈現(xiàn),另外還包括作業(yè)得分、考試得分、訪問數(shù)得分,均按照設定的比例給出分數(shù)。這些指標記錄了學生課程學習過程中參與話題討論、學習活動、完成作業(yè)及參加測試的情況。
首先,對學習“運籌學”課程的70位學生的學習統(tǒng)計數(shù)據進行采集,將其分為成兩個部分:60條數(shù)據作為訓練集,10條數(shù)據作為測試集。然后,采用數(shù)據預處理技術來提升數(shù)據的質量,具體分為3個步驟:(l)屬性的刪除,將冗余數(shù)據、與挖掘過程不相關數(shù)據,從數(shù)據表里去除掉;(2)屬性的泛化,將屬性值做泛化處理,化簡分類過程,結果如表1所示;(3)數(shù)據清理,對提取的數(shù)據集進行檢查,把所有數(shù)據規(guī)范化,刪除匯總表里不標準的數(shù)據集。
與“運籌學”關聯(lián)最大的先導課是“統(tǒng)計學”,在表1中,“先導課”屬性依據“統(tǒng)計學”的期末成績,將原始數(shù)據的百分制泛化為優(yōu)(≥90分),良(≥60分且<89分),差(<60分)3個級別。“出勤”屬性依據學生的課堂出勤情況,屬性值為合格、不合格(缺勤3次以上)。“視頻學習”屬性為任務點完成情況,級別為高(≥0%)、中(≥40%且<70%)、低(<40%)?!霸L問數(shù)”屬性依據網站訪問數(shù)得分,級別為高(≥8分)、中(≥4分且<8分)、低(<4分)?!皽y驗”屬性依據平時的考試得分,級別為優(yōu)(≥10分),良(≥5分且<10分),差(<5分)?!白鳂I(yè)”屬性依據作業(yè)得分,級別為好(>10分),一般《10分)?!捌谀┏煽儭睘榉诸悓傩?,是“運籌學”這門課程的期末成績,級別劃分與“先導課”屬性相同。
2 決策樹構造
采用經典的決策樹C4.5算法進行分析,該算法采用基于信息增益率選擇測試屬性。決策樹模型創(chuàng)建過程分為以下幾個步驟。
(1)計算分類屬性的信息量。對隨機選定的60位學生的訓練數(shù)據進行分析,“期末成績”考試成績屬性分類優(yōu)、良、差對應的子集元組數(shù)分別為si=9,s2=43,S3=8。根據分類期望值公式,可得到I(s1,s2,s3)=I(9,43,8)=1.142 7。
(2)計算每個測試屬性的信息量。以“視頻學習”屬性為例,“視頻學習”分成高、中、低3個分支,相應的元組個數(shù)分別是18,35以及7。首先對“視頻學習”為高的分支,統(tǒng)計“期末成績”為優(yōu)、良、差依次對應的子集元組數(shù)si=10,s2=5,s3=3。則信息量為/(s1,s2,S3)=I(10,5,3)=1.415 3。繼續(xù)計算“實踐能力”為中的分支的信息量為:I(5,21,9)=0.986 1,“視頻學習”為低的分支的信息量為I(0,2,5)=0.863 0。
(3)計算每個測試屬性的信息熵。如:
E(視頻學習)=1/60I(10,5,3)+35 /(5, 21,9)+7/60 I(0,2,5)=1.114 9
(4)計算每個測試屬性的信息增益量。如:
Gain(視頻學習)=I(9,43,8)-E(視頻學習)=0.027 8
(5)計算每個測試屬性的信息增益率。如:
GainRatio(視頻學習,=Gain(視頻學習/E(視頻學習)=0.024 9
(6)根據上面(1)~(5)步驟,分別得到各屬性的信息增益率:先導課=0.017 8、出勤=0.030 3、訪問數(shù)=0.021 1、測驗=0.051 6、作業(yè)=0.013 4。由結果可知,信息增益率數(shù)值最大的屬性是“測驗”,故“測驗”是決策樹的根結點,并根據它的3個屬性值,對樣本繼續(xù)劃分,并重復(1)~(5),分別計算除了“測驗”外的各個屬性的信息增益率,通過尋找最大值,得到“測驗”為優(yōu)的分支節(jié)點為“先導課”屬性,“測驗”為良的分支節(jié)點為“訪問數(shù)”屬性、差的分支節(jié)點為“出勤”屬性。重復(1)~(6)步驟,確定其他的分節(jié)支點,得到如圖1所示的學生成績分析決策樹。
根據圖1構建的決策樹,可以得出多條分類規(guī)則,如“測試=優(yōu)∧先導課=優(yōu)”或者“測試=良∧訪問數(shù)=高”,期末成績?yōu)閮?yōu);“測試=差∧出勤=一般”或者“測試=良∧訪問數(shù)=低”,期末成績?yōu)椴?。總結這些分類規(guī)則可以得出如下結論。平時測驗成績較高和經常通過教學平臺學習課程的學生,期末成績比較容易取得高分;而平時測驗成績較低且上課出勤率較低的學生,期末成績往往也較差;而那些在平時測驗、網站訪問量、視頻學習完成率和先導課的掌握程度都一般的學生,則期末成績平平。
3 結語
根據泛雅網絡教學平臺的輔助功能,采用C4.5方法構造了課程成績測評的決策樹模型,獲得了影響成績的主要因素和分類規(guī)則。該模型的基本功能是可以結合學生在平臺上學習的記錄數(shù)據,預測出學生的期末成績,并且能解釋成績不良的原因。另外,該模型還為課程體系的重構及課程教學方法的改革提供參考,對教師和學生具有監(jiān)督和強化作用,根據反饋信息學生可以修訂學習計劃,教師可以調整教學行為。除此之外,還可以將該模型與泛雅平臺提供的督學功能相結合,設置出督導對象并確定督學的條件(屬性),這將豐富泛雅平臺的使用功能,使其成為一個更科學、更有效的教學平臺。