數(shù)據(jù)挖掘在學生專業(yè)成績預測上的應(yīng)用

2016-03-08 18:24崔仁桀

軟件 2016年1期

崔仁桀

摘要：學生特征的提取以及學習效果預測一直是教育數(shù)據(jù)挖掘領(lǐng)域的熱門課題。本文將結(jié)合國內(nèi)高校教育現(xiàn)狀和現(xiàn)有的教育數(shù)據(jù)挖掘成果，以weka作為實驗平臺，應(yīng)用C4.5算法對本科生的專業(yè)培養(yǎng)數(shù)據(jù)做建模分析以及成績預測，通過采集到的實際數(shù)據(jù)做實驗驗證，找到潛在于成績信息之中的學生行為規(guī)律，為提前干預學生學習行為，優(yōu)化教育決策做出有意義的指引。

關(guān)鍵詞：計算機應(yīng)用；數(shù)據(jù)挖掘；weka；學生成績預測

中圖分類號：TP391

文獻標識碼：A

DOI： 10.3969/j.issn.1003-6970.2016.01.007

0 引言

教育數(shù)據(jù)挖掘領(lǐng)域從2009年興起至今已經(jīng)得到了飛速的發(fā)展。EDM社區(qū)對教育數(shù)據(jù)挖掘做了如下定義：教育數(shù)據(jù)挖掘是一個新興學科，致力于探索特定（來自于教育環(huán)境）數(shù)據(jù)的先進方法，并使用這些方法來更好的了解學生，并將其應(yīng)用到他們的學習環(huán)境中。在高校的校園信息化建設(shè)已經(jīng)日臻成熟的大趨勢下，高校教務(wù)信息管理系統(tǒng)里積存了大量教務(wù)數(shù)據(jù)，教育數(shù)據(jù)挖掘領(lǐng)域根植的環(huán)境已經(jīng)具備，本文將以此為背景，利用課程成績對學生的專業(yè)學習行為進行建模，并對其未來的學習成果做出預測。研究過程中將基于weka實驗平臺，應(yīng)用經(jīng)典的C4.5決策樹算法作為模型建立方法展開研究和實驗。

本文的組織結(jié)構(gòu)如下。第一章闡述研究主題內(nèi)容的定義和算法原理簡述；第二章從數(shù)據(jù)預處理，算法應(yīng)用和模型評估三個方面來分析機器學習方案的創(chuàng)建過程；第三章以實際數(shù)據(jù)為例執(zhí)行建模實驗，分析和討論實驗結(jié)果，得出實驗結(jié)論。第四章對全文的研究作總結(jié)，并對未來的研究做出展望。

1 研究背景與算法簡述

1.1 研究背景討論

關(guān)于學生表現(xiàn)的預測，有很多專家和學者做出了嘗試和貢獻。M.Vranic，D.Pintar and Z.Skocir通過應(yīng)用聚類、關(guān)聯(lián)分析和探索性數(shù)據(jù)分析等多重手段，分析了如何用本科生的生源情況，高考成績，以及大一的重點課程“電子工程基礎(chǔ)”的課堂表現(xiàn)情況預測出學生在這門課程的最終表現(xiàn)；Judith Zimmermann等學者從蘇黎世聯(lián)邦理工大學的一個專門制定的研究生推免計劃中獲得學生本科生和研究生成績信息，以GGPA代表學生研究生的評定等級，應(yīng)用多種預測和統(tǒng)計手段進行基于模型的成績預測研究，分析如何用本科成績單上得到的數(shù)據(jù)來預測GGPA，來推斷其在研究生期間的表現(xiàn)。

然而對于這些跨越了學歷階段之間的預測分析并不適用于國內(nèi)的教育體制，兩個問題：1.首先以GGPA評定整個學歷的學習行為未免過于粗糙，我們難以察覺出學生的具體特征；2.對于特定課程的預測需要用與之相關(guān)的解釋變量做模型訓練才更有意義，然而如果學習階段相差過大，學習內(nèi)容和環(huán)境都有很大差別，這樣極大弱化了自變量和目的變量之間的相關(guān)性，使得預測結(jié)果的說服力大大降低。

為了克服這兩點矛盾因素，我們將預測素材和預測目標都鎖定在本科教育階段。圖1列出了目前主流的計算機科學與技術(shù)專業(yè)的培養(yǎng)課程體系的主要內(nèi)容。方案的主要思想是將重要的基礎(chǔ)課程放在大一大二兩個學年，將較為高階和關(guān)鍵的專業(yè)課放在大三學年，大四學年供學生根據(jù)自己意愿自由選擇更偏向于社會應(yīng)用課程以及畢業(yè)設(shè)計。以此為指導，我們選用課程體系中的學科基礎(chǔ)課，專業(yè)基礎(chǔ)課作為解釋變量，來預測與之相關(guān)的高階專業(yè)課的學習成績，以達到加深對于學生學習行為的理解，和提前對學生學習進行干預，幫助其更好的完成專業(yè)培養(yǎng)的目的。

1.2 C4.5決策樹算法原理簡述

決策樹是一種預測模型，它以決策節(jié)點、分支和葉節(jié)點的構(gòu)造形式表示，將實例通過屬性值逐步判別為某個類別標簽上。我們需要用訓練數(shù)據(jù)集來做決策樹模型訓練，然后將得到的樹形結(jié)構(gòu)進行保存并應(yīng)用到測試數(shù)據(jù)和實際數(shù)據(jù)中。

本文將使用最為先進的C4.5決策樹算法，它基于從上到下的遞歸分治策略，選擇信息熵增益最大的屬性作為樹的根節(jié)點，為每一個可能的屬性值創(chuàng)建分支，這樣將實例分成多個子集。算法將遞歸地執(zhí)行這一步驟直到所有子節(jié)點的所有實例都屬于同一類別，也就是葉節(jié)點的產(chǎn)生。不過要將決策樹算法應(yīng)用到成績預測問題的最關(guān)鍵部分在于我們要調(diào)整我們的數(shù)據(jù)集。決策樹算法需要應(yīng)用在擁有名稱性類別屬性的數(shù)據(jù)集上，我們需要將我們的目標課程成績離散化后才能使用算法，具體的離散方法會在第2.1節(jié)講到。在weka中C4.5的實現(xiàn)是J48算法，我們可以通過調(diào)節(jié)api提供的多種參數(shù)來改變決策樹的生成和修剪過程，使得預測模型規(guī)模更加符合我們的預期，而且也往往伴隨著預測效果的提升。

2 決策樹預測方案的設(shè)計

2.1 數(shù)據(jù)預處理

為了構(gòu)建預測模型，我們需要將多門課程的成績數(shù)據(jù)合并到同一數(shù)據(jù)集下，并指定數(shù)據(jù)的目標類別屬性（預測的專業(yè)課程）。為了將數(shù)據(jù)構(gòu)建成分類模型，我們需要將預測的專業(yè)課程成績離散化，把數(shù)值型屬性轉(zhuǎn)換成名詞型屬性。成績的離散化可以通過表1的方式進行轉(zhuǎn)化。

由于數(shù)據(jù)收集來源和渠道的多樣化，在數(shù)據(jù)預處理階段不可避免的遇到缺失值的處理問題。在實際教育場景中，成績?nèi)笔У闹饕蚍譃閮煞N：

（1）學生缺考或者申請緩考，這兩種成績?nèi)笔怯捎诙喾N客觀因素造成的，然而一般都會有相應(yīng)的補考數(shù)據(jù)存在。為了正確判斷學生的學習表現(xiàn)，我們應(yīng)該用對應(yīng)的補考成績替換缺考的缺失值。如果實在找不到可替代的值，將其置為0或者“未通過”。

（2）學生流失，原因包括輟學或者轉(zhuǎn)專業(yè)等。事實證明，高校專業(yè)范圍內(nèi)每級的學生流失率平均要達到3%到7%左右，這部分學生未能完成全部專業(yè)培養(yǎng)計劃，所以他們的數(shù)據(jù)對于構(gòu)建學生成績預測模型沒有意義，應(yīng)該被過濾掉。

另外對于多次補考、重考的數(shù)據(jù)實例，我們選擇“采用第一次有效成績作為屬性值”的原則，這樣可以避免補考出現(xiàn)的較高成績影響我們對于學生實際學習行為的判斷，同時避免了因特殊原因缺考而出現(xiàn)的0分成績對于學生學習成果造成的過低估計。

2.2 剪枝優(yōu)化與模型建立

本文的1.2節(jié)已簡述了C4.5算法的工作原理，將其應(yīng)用到我們準備好的數(shù)據(jù)集上就可以得到?jīng)Q策樹模型。然而樹模型在C4.5算法的訓練之后完全展開通常會包含著很多不必要的結(jié)構(gòu)，使得樹模型的非常的龐大和繁瑣。所以在應(yīng)用決策樹模型之前最好要進行剪枝優(yōu)化。剪枝根據(jù)策略不同分為先剪枝和后剪枝兩類。C4.5算法采用的是后剪枝策略，即在得到?jīng)Q策樹模型以后再反向?qū)ζ湫薷钠浣Y(jié)構(gòu)，改變或提升其子樹的位置，使得模型的可信度更高。Weka中為J48算法提供了信心因數(shù)（confidenceFactor）參數(shù)。通過對信心因數(shù)的調(diào)整，算法會將具有更高可信度的子樹進行提升，從而調(diào)整整個樹形結(jié)構(gòu)。

2.3 模型評估

對于應(yīng)用于分類問題的模型，需要通過準確率來衡量分類器的性能。模型的建立和評估往往是一體的，算法需要在訓練數(shù)據(jù)集中應(yīng)用，訓練出應(yīng)用模型，然后再將模型應(yīng)用到測試集中得到評估結(jié)果。測試集和訓練集必須保持獨立性，才能得到真實可靠的誤差率，有效的判斷出模型是否存在過度擬合等問題。

一種非常有效的評估方式是交叉驗證法，它不是簡單的將數(shù)據(jù)集分割成訓練集和測試集，而是對整體數(shù)據(jù)集分割成多等份，每次選用其中一份作為測試集，其余數(shù)據(jù)作為訓練集。將每一次訓練出的模型進行測試并得到結(jié)果，然后將得的預測精度取出均值和方差，得到最準確的評估反饋。最后，將算法應(yīng)用于整體數(shù)據(jù)集訓練出最終的模型結(jié)果。本文采用的是十折交叉驗證算法作為模型的評估手段，即將數(shù)據(jù)集平均分成十份，完成十一次建模過程來得出最終的模型及其性能數(shù)據(jù)。

3 實驗驗證與結(jié)果分析

本次研究中我們用收集到的了某高校計算機科學專業(yè)的整級學生的專業(yè)課數(shù)據(jù)信息，包括其培養(yǎng)計劃內(nèi)的專業(yè)基礎(chǔ)課和高階專業(yè)課中的“數(shù)據(jù)庫系統(tǒng)課程設(shè)計”共12門課程的等級成績，通過預處理篩選無效實例后，最后得到424個數(shù)據(jù)實例。本章通過應(yīng)用第二章闡述的方案設(shè)計流程，以高階專業(yè)課的等級作為預測的目標類別屬性，完成學生成績預測模型的創(chuàng)建，并從模型結(jié)果中提取出規(guī)則結(jié)論。

3.1 可視化分析與分類基線精準度

圖2展示了離散化以后weka的數(shù)據(jù)可視化結(jié)果，從圖中可以看到類別屬性“數(shù)據(jù)庫系統(tǒng)課程設(shè)計”的等級成績的每個屬性值的分布情況。

另外，在評估模型性能之前按需要一個基準線來對數(shù)據(jù)的可預測性做大致考量。OneR算法是一個非常簡單有效的分類算法，它會尋找出數(shù)據(jù)集中對于目標預測的貢獻值最突出的屬性作為唯一的分類依據(jù)。本例中OneR選擇了計算機導論的成績，得出本數(shù)據(jù)集的分類基準線在40.7%。

3.2 決策樹模型分析

我們將數(shù)據(jù)載入weka平臺，并調(diào)用J48算法對其進行建模。并不斷調(diào)整minNumObj參數(shù)以獲得最佳的樹形結(jié)構(gòu)，最終結(jié)果如圖3所示。

交叉驗證的結(jié)果顯示決策樹模型的預測性能為83%，明顯高于基線精準度。從圖中可以看出，模型以“計算機導論”作為模型根節(jié)點，可見其是信息熵增益最強的屬性，其次是數(shù)據(jù)結(jié)構(gòu)，算法設(shè)計與分析和離散數(shù)學等。因此在眾多基礎(chǔ)課程中，“計算機導論”與“數(shù)據(jù)結(jié)構(gòu)”對于預測目標課程“數(shù)據(jù)庫系統(tǒng)課程設(shè)計”的成績的貢獻度最大，對于預測結(jié)果較差的學生應(yīng)著重增強對這兩門成績的補習。

從圖4所示的混淆矩陣中我們注意到，決策樹模型對于成績較低的“未通過”與“通過”兩個類別的判斷比較準確，這意味著這個模型可以較好的預測出有掛科傾向的學生，模型可以幫助我們有效的避免學生掛科，及時進行有針對性的補習，有很高的實用價值。

我們可以根據(jù)這些屬性之間的相對關(guān)系來判斷學生未來的學習趨勢，進行提前干預和矯正，讓其在專業(yè)學習上取得更好的成就。這些規(guī)律都會對矯正學生學習行為，輔助教育決策的優(yōu)化起到很好的輔助作用。

4 結(jié)論與展望

4.1 結(jié)論

本文結(jié)合教育環(huán)境中的成績數(shù)據(jù)特點，應(yīng)用經(jīng)典的C4.5決策樹算法為本科生的專業(yè)學習表現(xiàn)構(gòu)建了完整的預測模型方案，包括將數(shù)據(jù)進行必要的與處理工作來適應(yīng)建模算法的要求，對決策樹模型的剪枝優(yōu)化，以及最后用十折交叉驗證方法對模型性能的評估等。

此外，本文對采集到的某高校計算機科學技術(shù)專業(yè)424個實例構(gòu)成的數(shù)據(jù)集的進行了分類建模分析，以“數(shù)據(jù)庫系統(tǒng)課程設(shè)計”的成績預測為例，完成了整個數(shù)據(jù)建模流程，得出了能夠有效識別學生學習行為并預測學生未來成績的決策樹模型，并從中推導出了一些有價值的規(guī)則。

4.2 展望

本次研究有很多環(huán)節(jié)可以做更多補充和完善。首先對于學生特征來講除了課程成績以外，任課教師和出勤率等因素也可能導致對學習造成較大影響。然而由于本次研究所采集的數(shù)據(jù)數(shù)量集較小，無法很好地反映出這種變化幅度較輕的因素帶來的影響。在將來的研究中我們可以擴大研究對象范圍，擴展更多屬性作為分析因子，得出更加全面的結(jié)論。

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

數(shù)據(jù)挖掘在學生專業(yè)成績預測上的應(yīng)用