摘 要 使用ID3算法對高校學生的學籍信息數據和學生日常表現數據進行數據挖掘,分析學生的學籍信息中的屬性、學生日常表現對于學生預警的影響,并以數據挖掘結果建立學生學業(yè)預警的決策樹,為教學管理、學生管理提供數據支持。
【關鍵詞】決策樹 學業(yè)預警 數據挖掘 ID3
“學業(yè)預警”作為一種預防學生學業(yè)成績下滑的管理制度源自于江西理工大學2006年在校內實施的“學業(yè)預警”制度。當今許多高校在校內實施“學業(yè)預警”制,并建有符合各自高校的學業(yè)預警標準。但在實際實施過程中由于都是在學年結束后人工統計學生的學分獲得情況或通過計算機匯總統計學生的學分情況,所以一般情況下,學生都是在學業(yè)問題比較嚴重的時候才被發(fā)現,才被預警。
造成學生“學業(yè)預警”滯后的主要原因是高校沒有有效利用學校在教學與管理過程中積累的大量原始數據。這些沉睡的數據背后可能隱藏著不為我們所知的但又對我們的各種管理工作十分有用的規(guī)律或知識。數據挖掘技術可以通過科學的分析、挖掘從數據中發(fā)現隱藏的規(guī)律或模式。將數據挖掘技術與學生的學籍信息和學生日常表現數據結合,尋找“學業(yè)預警”學生的發(fā)展變化規(guī)律,盡可能體現發(fā)現學生可能被預警的苗頭,降低學生預警率,提高高校的教育教學水平和學生管理水平。
1 決策樹技術概述
決策樹技術是數據挖掘的一個重要的研究分支,是采用樹結構算法將數據劃分成離散類的方法,其主要作用和目的是揭示大量數據中的類別信息。
Quinlan提出的基于信息熵的ID3(Induction Decision-tree 3)算法是決策樹技術中的經典算法。ID3算法以信息論為理論基礎,在執(zhí)行過程中要計算屬性的信息熵與信息增益,然后在每次分類判斷是以信息增益為標準,通過選擇信息增益高的屬性進行分類。
2 決策樹技術在學生學業(yè)預警中應用
學生的學業(yè)成績變化受到各個方面因素的影響,學生的主觀努力程度是決定性因素,但也會受到諸如入學成績、家庭經濟狀況等客觀因素的影響,同時學生的學業(yè)成績變動必然會在其日常學習生活中有所體現。所以,將ID3算法應用于學生的學籍基本信息和學生日常表現的歷史數據中,可以構建一個預測學生是否被預警的決策樹。
2.1 數據處理
從學校教務系統導出學生的學籍基本信息,從學生管理系統中導出學生的日常表現數據信息,根據數據挖掘目的和需要,保留家庭經濟狀況、高考成績、單親或孤兒、作業(yè)情況、出勤情況、是否被預警共計6列屬性,通過繪制直方圖分析,將高考成績、作業(yè)情況、出勤情況屬性數據離散化,整理出包含160名被預警學生在內的共計500條樣本數據如表1所示。
2.2 決策樹構建
根據樣本數據,以“預警與否”為目標類屬性構建決策樹。
2.2.1 計算樣本數據“預警與否”分類的信息熵
2.2.2 計算各屬性信息熵與信息增益
由樣本數據可知決策樹存在5種分裂可能,分別計算“家庭經濟狀況”、“高考成績”、“單親或孤兒”、“作業(yè)情況”、“出勤情況”的信息熵與信息增益。
根據信息增益計算的結果可知“作業(yè)情況”是最大的增益屬性,應按“作業(yè)情況”的屬性進行分類并創(chuàng)建3個分支。
2.2.3 重復以上計算過程即可構建一個決策樹
2.2.4 決策樹剪枝
為防止經上述運算構建的決策樹的訓練過度,對決策樹進行剪枝,可提高決策樹對新數據運用的準確度。常用先剪枝、后剪枝和兩者結合三種剪枝方法,本文采用后剪枝法。經過多次分析測試,設學生“預警與否”的比例為35%,剪枝后的決策樹如圖1所示。
2.3 分類規(guī)則及分析
根據決策樹,可以提取相應分類規(guī)則
(1)IF 作業(yè)情況=C AND 出勤情況=C AND 高考成績=C THEN 學生被預警的比率=73.3%。
(2)IF 作業(yè)情況=C AND 出勤情況=C AND 高考成績=B AND 家庭經濟狀況=B AND 單親孤兒=T THEN 學生被預警的比率=57.14%。
(3)IF 作業(yè)情況=C AND 出勤情況=C AND 高考成績=B 家庭經濟狀況=B THEN 學生被預警的比率=36.1%。
分析決策樹得出的規(guī)則,并結合學生情況有如下結論:
(1)學生的日常表現中作業(yè)情況、出勤情況非常重要和關鍵,是學生學習態(tài)度、水平變化的明顯標志。
(2)學生的高考成績不是大學生在校學業(yè)成績的關鍵因素,但作為學生學習的基礎,對于學生的學習有一定的影響。結合學生具體數據,并經了解學生情況可知,高考成績低的學生不僅僅是學業(yè)基礎差,往往是因為缺少良好的學習方法與學習習慣,造成學業(yè)成績不良。
(3)學生家庭經濟狀況、是否是單親或孤兒也是影響學生學業(yè)的一個因素。部分學生由于承受學業(yè)與經濟兩個方面的壓力,必然影響學生的時間與精力,容易造成學業(yè)問題。
根據挖掘結果和對規(guī)則分析,建議在教學和管理中要注意以下幾個方面:
(1)學工部門要加強對學生的基礎管理管理,嚴把學生請假關,并與任課教師共同做好課堂考勤工作。任課教師要重視學生的平日作業(yè)完成情況與完成質量,特別要重視學生在作業(yè)、課堂出勤方面的苗頭性傾向。對于學生的苗頭性問題早發(fā)現、早了解、早解決。
(2)可以通過大學生導師制、班主任工作、新生研討等多種方法做好學生指導,增強高考成績較低學生的信心,做好學生的學習方法、學習習慣的養(yǎng)成工作。同時,任課教師在授課時要了解學生學業(yè)基礎,因材施教。
(3)學校各相關部門、班主任、輔導員、任課教師要備加關心和愛護單親、孤兒學生和來自貧困家庭的學生,充分利用高校的各種獎、助、助等政策,減輕學生經濟壓力,切實將學生的主要精力轉到專業(yè)學習上來。
(4)專業(yè)教師在授課時要特別注意學生學期基礎,查缺補漏,分類施教,因材施教,深入淺出。
(5)教學管理部門、專業(yè)教師要做好學生的導師,指導學生的學習與選課,學生在選擇專業(yè)選修課時要充分考慮課程的先修課程,結合自己的學習興趣與今后的發(fā)展方向,量力而行,不能跟著別人的選課思路走,避免造成課程不及格。
3 結束語
將數據挖掘技術應用于學生“學業(yè)預警”不僅能提高該項工作的針對性,也能夠對高校的學生管理、教學管理決策提供數據支持,也是對高校保存的大量歷史數據的科學使用。同樣地,數據挖掘技術也可以對高校保存的教師科研數據、學生評價數據、教師業(yè)績數據等深入的挖掘分析,挖掘數據背后的有用的規(guī)律來服務高校的人才培養(yǎng)、教學管理等工作。
參考文獻
[1]楊士同,馬香麗.高校學業(yè)預警機制運作中對象監(jiān)測方式研究——以西北農林科技大學X學院為例[J].中國農業(yè)教育,2014(05):47-49.
[2]鄭剛,岑漢彬.數據挖掘在電力負荷預測中的應用[J].水利電力機械,2006,(01):44-47.
[3]丁保忠.數據挖掘技術在學生綜合信息管理系統中的應用研究[D].河北:河北科技大學碩士論文,2013(04).
作者簡介
宮鋒(1975-),男,漢族,山東省萊陽市人?,F為濱州學院信息工程學院講師,主要從事數據挖掘方面研究。
作者單位
濱州學院信息工程學院 山東省濱州市 256600