周慶+尹春梅+全文君+張代英
摘 要 旨在通過校園卡消費(fèi)來預(yù)測學(xué)生掛科情況。首先通過對消費(fèi)數(shù)據(jù)和成績數(shù)據(jù)的預(yù)處理,再結(jié)合輔導(dǎo)員的反饋,提出作息習(xí)慣對成績有很大影響的合理猜想;然后運(yùn)用多種數(shù)據(jù)挖掘模型來預(yù)測學(xué)生是否存在掛科風(fēng)險(xiǎn)。研究結(jié)果表明,通過使用一卡通消費(fèi)數(shù)據(jù),能比較準(zhǔn)確地預(yù)測學(xué)生是否存在掛科風(fēng)險(xiǎn),其中樸素貝葉斯模型的預(yù)測效果最好,Recall超過80%。
關(guān)鍵詞 校園卡;數(shù)據(jù)挖掘;一卡通;Recall;掛科
中圖分類號:G647 文獻(xiàn)標(biāo)識碼:B
文章編號:1671-489X(2017)24-0051-05
Using Consumption of Campus Card to Predict Students Fail//ZHOU Qing, YIN Chunmei, QUAN Wenjun, ZHANG Daiying
Abstract This study aims at predicting the students final exam per-
formance using the campus card consumption data. Firstly, data pre-
processing was conducted in our experiments. And then, a reasona-ble assumption based on the counselors feedback and related studies
about the correlation between students living styles and their acade-
mic performance was proposed. Finally, some state-of-art algori-thms were adopted for prediction. Our experiments showed that Ba-yesian model outperformed the others, and Recall was more than 80%.
Key words campus card; data mining; metro card; Recall; fail an exam
1 引言
教育數(shù)據(jù)挖掘(Educational Data Mining,簡稱EDM)
是綜合利用數(shù)理統(tǒng)計(jì)、機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘技術(shù)與方法,對教育大數(shù)據(jù)進(jìn)行處理和分析,從而發(fā)現(xiàn)這些信息背后隱藏的有價(jià)值的信息[1]。學(xué)生表現(xiàn)預(yù)測(Predicting Student
Performance,簡稱PSP)是EDM最早也最流行的應(yīng)用之一[2],它有利于及時(shí)發(fā)現(xiàn)學(xué)生出現(xiàn)的不良學(xué)習(xí)行為,檢查教師的教學(xué)效果。
高校數(shù)字化校園建設(shè)中使用到許多系統(tǒng),如校園一卡通系統(tǒng)、智能校園系統(tǒng)、自助圖書館服務(wù)系統(tǒng)等,這些系統(tǒng)在方便學(xué)校管理的同時(shí)也積累了大量的數(shù)據(jù)。如果將這些數(shù)據(jù)有效地運(yùn)用起來進(jìn)行數(shù)據(jù)挖掘,能獲得不少有價(jià)值的信息。校園一卡通系統(tǒng)里存儲著豐富的學(xué)生消費(fèi)數(shù)據(jù),研究校園一卡通數(shù)據(jù),有助于了解學(xué)生在校生活情況。很多國外的學(xué)者通過校園一卡通數(shù)據(jù)分析學(xué)生在校的生活習(xí)慣。張林紅[3]等人通過數(shù)據(jù)挖掘方法,發(fā)現(xiàn)吃早餐的次數(shù)和時(shí)間與成績存在較大的相關(guān)性和可靠的關(guān)聯(lián)規(guī)則。
本研究主要通過校園卡消費(fèi)來分析學(xué)生作息習(xí)慣,從而預(yù)測學(xué)生是否存在掛科風(fēng)險(xiǎn)。首先對校園卡消費(fèi)數(shù)據(jù)進(jìn)行預(yù)處理,然后根據(jù)相關(guān)研究結(jié)果以及輔導(dǎo)員的反饋提出幾個(gè)用于預(yù)測學(xué)生成績的猜想,接著根據(jù)猜想選取四個(gè)特征變量,最后通過使用幾種經(jīng)典的數(shù)據(jù)挖掘方法來預(yù)測學(xué)生掛科風(fēng)險(xiǎn)。實(shí)驗(yàn)結(jié)果表明,樸素貝葉斯預(yù)測效果最好,它的Precision和Recall分別為62.15%和80.41%。由此可以看出,通過學(xué)生校園卡消費(fèi)數(shù)據(jù)能較準(zhǔn)確地預(yù)測出存在掛科風(fēng)險(xiǎn)的學(xué)生,這有利于對學(xué)生學(xué)習(xí)的及時(shí)預(yù)警和向?qū)W生提供幫助。此外,本實(shí)驗(yàn)用來進(jìn)行預(yù)測建模的特征集只包含四個(gè)特征,雖然該特征集比較簡單,但這幾個(gè)特征能很好反映學(xué)生的作息習(xí)慣,并且具有較高的可解釋性。
2 數(shù)據(jù)預(yù)處理
本實(shí)驗(yàn)數(shù)據(jù)來源于學(xué)生校園卡刷卡記錄和成績記錄,通過對這些數(shù)據(jù)的觀察,發(fā)現(xiàn)這些數(shù)據(jù)比較雜亂且難理解。為了更好地了解數(shù)據(jù)以便為進(jìn)一步分析做準(zhǔn)備,對這兩部分?jǐn)?shù)據(jù)分別進(jìn)行了預(yù)處理。
校園一卡通數(shù)據(jù)預(yù)處理 校園一卡通數(shù)據(jù)由重慶大學(xué)2012級計(jì)算機(jī)科學(xué)與技術(shù)專業(yè)的167名學(xué)生從第二學(xué)期到第四學(xué)期共約18萬條刷卡消費(fèi)記錄構(gòu)成。為保護(hù)學(xué)生隱私,對學(xué)生學(xué)號進(jìn)行加密處理。所有學(xué)生的校園卡消費(fèi)記錄按時(shí)間順序存儲在數(shù)據(jù)庫中的一個(gè)表中,表中包含27個(gè)字段,如刷卡時(shí)間、學(xué)生學(xué)號、賬戶號、卡號、姓名、性別、部門編碼等。這些數(shù)據(jù)中有很多用不到的字段,只保留表1所示字段:學(xué)號、消費(fèi)時(shí)間、消費(fèi)地點(diǎn)、消費(fèi)金額等。
通過對比發(fā)現(xiàn),學(xué)生一卡通中的數(shù)據(jù)以食堂消費(fèi)數(shù)據(jù)居多且最為穩(wěn)定,而其他消費(fèi)出現(xiàn)頻率較低,如超市、洗衣、網(wǎng)絡(luò)費(fèi)。這些數(shù)據(jù)不利于分析學(xué)生的作息和學(xué)習(xí)情況,所以實(shí)驗(yàn)中只選用食堂消費(fèi)數(shù)據(jù)。為了分析食堂的就餐情況,需要解決以下問題:
1)校園內(nèi)有上百個(gè)商家,需要確定哪些商家屬于食堂;
2)學(xué)生節(jié)假日和周末的就餐記錄少且分布散亂,可能與上課期間存在極大差異,不利于學(xué)生就餐或者作息規(guī)律性的發(fā)現(xiàn);
3)學(xué)生三餐時(shí)間受到很多因素影響,如最主要的食堂開放時(shí)間和上課時(shí)間安排,合理劃分三餐時(shí)間和夜宵是一個(gè)需要解決的問題。
為了解決以上問題,通過分析原始記錄,確定最終消費(fèi)數(shù)據(jù)預(yù)處理過程。
1)數(shù)據(jù)過濾。首先確定哪些商家屬于食堂,將非食堂的消費(fèi)記錄過濾;然后鑒于周末和節(jié)假日的消費(fèi)存在較大的偶然性,過濾掉這些時(shí)間的消費(fèi)記錄。endprint
2)類型劃分。根據(jù)食堂供餐規(guī)律,將11:00之前的消費(fèi)記錄判定為早餐,11:00—16:00記作午餐,16:00—20:00歸為晚餐,20:00之后統(tǒng)一歸為夜宵。另外,根據(jù)上課時(shí)間安排,給學(xué)生劃定一個(gè)標(biāo)準(zhǔn)就餐時(shí)間,這里定義標(biāo)準(zhǔn)就餐時(shí)間為:早餐,6:30—8:25和9:40—10:10;午餐,11:40—12:40;晚餐,17:20—18:20。
3)記錄合并。按照消費(fèi)類型對消費(fèi)記錄進(jìn)行合并,消費(fèi)時(shí)間設(shè)定為在被合并的消費(fèi)記錄中最早的消費(fèi)時(shí)間,消費(fèi)金額為被合并的消費(fèi)記錄之和。經(jīng)過對數(shù)據(jù)的預(yù)處理和統(tǒng)計(jì)分析之后得到三類特征:就餐時(shí)間、就餐金額、就餐規(guī)律。這些特征共計(jì)34個(gè)。表2列出部分特征屬性的分類和計(jì)算方法,這里以早餐為例,實(shí)際表中還包含午餐、晚餐等。
成績預(yù)處理 本實(shí)驗(yàn)的成績數(shù)據(jù)為學(xué)生成績管理系統(tǒng)中計(jì)算機(jī)科學(xué)與技術(shù)專業(yè)167名學(xué)生(其中38名女生,129名男生)第二至四學(xué)期的成績記錄,每個(gè)學(xué)生大約有75條成績記錄,總計(jì)約12 000條。
在學(xué)生成績管理系統(tǒng)中,每個(gè)學(xué)生都有一張成績表,里面存儲著學(xué)生入校以來的所有考試成績記錄。這些表包含10個(gè)字段,分別是課程編碼、課程名稱、成績、學(xué)分、選修、類別、教師、考別、備注、時(shí)間等(表3)。從這些表中可以看出成績是無序的;成績的評定沒有統(tǒng)一的標(biāo)準(zhǔn),有的成績按分?jǐn)?shù)表示,有的按等級表示;考試的類別也比較多樣,包含正考和補(bǔ)考;同一門課程也有可能出現(xiàn)正常和重修的情況;另外,記錄中還包含與成績不相關(guān)的教師、課程編碼等信息。由于原始數(shù)據(jù)存在如此多的問題,因此,為了詳細(xì)了解學(xué)生成績分布情況,對成績數(shù)據(jù)進(jìn)行預(yù)處理。
本研究的目的是預(yù)測學(xué)生是否存在掛科風(fēng)險(xiǎn),所以首先需要統(tǒng)計(jì)學(xué)生的掛科情況。整體看來,學(xué)生每學(xué)期的掛科率為39%。另外,學(xué)生成績績點(diǎn)(GPA)也是學(xué)生成績優(yōu)劣的綜合體現(xiàn),因此,根據(jù)獎(jiǎng)學(xué)金劃分原則統(tǒng)計(jì)了GPA位于前15%和后15%的情況。綜合以上需求,成績處理結(jié)果如表4所示。
3 特征屬性的猜想及驗(yàn)證
從輔導(dǎo)員的反饋可知學(xué)生的作息時(shí)間、生活規(guī)律性以及自習(xí)習(xí)慣能在一定程度上反映一個(gè)學(xué)生成績的好壞,同時(shí)也有相關(guān)研究證實(shí)了這一觀點(diǎn)。梁桂珍[4]在學(xué)生作息習(xí)慣與學(xué)生成績相關(guān)關(guān)系的研究中發(fā)現(xiàn),早起早睡的學(xué)生成績更優(yōu)異。張林紅的研究表明,早餐時(shí)間和早餐規(guī)律性與學(xué)生成績存在很大的相關(guān)性。另外,國內(nèi)不少學(xué)者在各自的研究中均發(fā)現(xiàn)學(xué)生成績和圖書館的利用情況存在顯著的正相關(guān)。
由于學(xué)生的作息與成績存在一定的相關(guān)性,因此,嘗試從學(xué)生的校園卡就餐消費(fèi)情況中挖掘出學(xué)生的作息習(xí)慣,從而預(yù)測學(xué)生的成績。但是該數(shù)據(jù)集沒有直接提供有關(guān)學(xué)生作息習(xí)慣的信息,這就需要對就餐數(shù)據(jù)進(jìn)行詳細(xì)分析,以便找出學(xué)生作息習(xí)慣的規(guī)律性并提取相應(yīng)特征。圖1和圖2是2012級計(jì)算機(jī)科學(xué)與技術(shù)專業(yè)學(xué)生的就餐時(shí)間分布圖,分別代表成績優(yōu)異的和成績一般的學(xué)生的就餐分布熱力圖。圖中橫坐標(biāo)表示時(shí)間點(diǎn),縱坐標(biāo)表示年份、月份,中間的數(shù)字代表在對應(yīng)時(shí)間的就餐次數(shù),數(shù)值越大顏色越深。
從圖1可以看出,成績較優(yōu)異的學(xué)生就餐時(shí)間比較符合課程時(shí)間安排,比如:8:30上第一節(jié)課之前,9:40后30分鐘的課間休息時(shí)間,一般按時(shí)上課的學(xué)生會選在這兩個(gè)時(shí)間段內(nèi)吃早餐。然而圖2中的這類學(xué)生早餐次數(shù)極少,且分布多在9點(diǎn)之后。同樣,上午放學(xué)時(shí)間在11:50,成績較優(yōu)異的學(xué)生多在這個(gè)時(shí)間前后就餐,較差的學(xué)生在13點(diǎn)之后。綜合以上發(fā)現(xiàn),筆者認(rèn)為按課程時(shí)間的就餐規(guī)律與成績存在一定的相關(guān)性。另外,由于學(xué)生三食堂離圖書館很近,多數(shù)去圖書館學(xué)習(xí)的學(xué)生會選擇在圖書館吃晚餐,因此,筆者認(rèn)為學(xué)生在三食堂的晚餐數(shù)據(jù)能在一定程度上反映學(xué)生去圖書館自習(xí)的情況。
為了了解本實(shí)驗(yàn)各特征變量對成績的影響大小,筆者做了相關(guān)性分析。從表3可以看出,作息相關(guān)的特征與成績存在較大的相關(guān)性。另外,根據(jù)輔導(dǎo)員的反饋和相關(guān)文獻(xiàn)的研究以及對實(shí)際數(shù)據(jù)的相關(guān)性分析,猜想早餐頻率、平均早餐時(shí)間、標(biāo)準(zhǔn)時(shí)間就餐次數(shù)、三食堂晚餐次數(shù)占學(xué)期總天數(shù)的比重等能較好地反映學(xué)生的作息習(xí)慣,可以作為特征屬性來預(yù)測學(xué)生的掛科情況。
接下來將對猜想的合理性做進(jìn)一步分析。首先,為了更形象地對比成績與所選特征屬性之間的關(guān)系,對預(yù)處理后的數(shù)據(jù)進(jìn)行可視化分析。從圖3可以看出,學(xué)生成績越優(yōu)異,吃早餐的時(shí)間越早。圖4表明,學(xué)生成績的優(yōu)劣隨著規(guī)定時(shí)間就餐頻率和三食堂的晚餐情況變化而變化。
綜合以上分析可以看出,學(xué)生作息習(xí)慣確實(shí)與學(xué)生成績存在較大相關(guān)性。本實(shí)驗(yàn)所選取的特征屬性包括早餐時(shí)間、早餐頻率以及學(xué)生標(biāo)準(zhǔn)時(shí)間就餐次數(shù)等,能很大程度上反映學(xué)生的學(xué)習(xí)情況。
4 實(shí)驗(yàn)對比
預(yù)測模型 EDM中運(yùn)用了很多經(jīng)典的數(shù)據(jù)挖掘算法[5],如決策樹、人工神經(jīng)網(wǎng)絡(luò)、樸素貝葉斯、邏輯回歸和支持向量機(jī)等。本實(shí)驗(yàn)中也采用了這些算法。下面將對樸素貝葉斯算法進(jìn)行簡要介紹。
貝葉斯分類器(Naive Bayesian,NB)的原理是通過某對象的先驗(yàn)概率,利用貝葉斯公式計(jì)算出其后驗(yàn)概率,即該對象屬于某一類的概率,選擇具有最大后驗(yàn)概率的類作為該對象所屬的類別。已經(jīng)有不少學(xué)者使用貝葉斯算法來預(yù)測學(xué)生的成績提升、學(xué)業(yè)表現(xiàn)和學(xué)期成績。
評價(jià)指標(biāo) 本文研究的問題(即預(yù)測學(xué)生是否掛科)是一個(gè)典型的二分類問題。預(yù)測結(jié)果分為四種類型:
預(yù)測為掛科的學(xué)生該學(xué)期實(shí)際也掛科了,可表示為TP(True Positive);
預(yù)測為不掛科的學(xué)生實(shí)際卻掛科了,可表示為FN(False Negative);
預(yù)測為掛科的學(xué)生實(shí)際不掛科,可表示為FP(False Positive);
預(yù)測為不掛科的學(xué)生實(shí)際也不掛科,可表示為TN(True Negative)。
二分類預(yù)測問題中常用召回率(Recall)、準(zhǔn)確率(Precision)和F1值(F1-measure)來評價(jià)模型的優(yōu)劣。在本應(yīng)用中,輔導(dǎo)員更在意的是Recall,也就是盡量多地找出可能掛科的學(xué)生。endprint
實(shí)驗(yàn)過程及結(jié)果 本實(shí)驗(yàn)中采用DT、ANN、NB、LR、SVM等多種算法來建立模型,以對預(yù)處理之后的數(shù)據(jù)進(jìn)行分析。各模型均使用10折交叉驗(yàn)證,即將167名學(xué)生第二至四學(xué)期的統(tǒng)計(jì)記錄隨機(jī)分成10份,九份用于訓(xùn)練模型,一份留作檢驗(yàn)。總記錄條數(shù)本應(yīng)為501條,但由于有三條數(shù)據(jù)存在較大的缺失,因此,實(shí)際分析中用到的是498條。將整理好的數(shù)據(jù)分別導(dǎo)入各個(gè)模型中,以學(xué)生是否掛科作為預(yù)測標(biāo)簽,使用選定的特征屬性來對學(xué)生的掛科情況進(jìn)行預(yù)測。實(shí)驗(yàn)結(jié)果如表5所示。
從表5可以看出,NB模型的預(yù)測綜合性能最好,F(xiàn)1值達(dá)到0.70。由于在本研究中Recall是關(guān)注的重點(diǎn),而NB模型的Recall明顯比其他模型好,達(dá)到80.41%,因此,NB模型能較準(zhǔn)確地預(yù)測學(xué)生的掛科風(fēng)險(xiǎn)。從本實(shí)驗(yàn)可以看出,看似與學(xué)生成績沒有多大關(guān)聯(lián)的一卡通消費(fèi)數(shù)據(jù),也可以比較準(zhǔn)確地預(yù)測學(xué)生是否存在掛科風(fēng)險(xiǎn)。一個(gè)很重要的原因是通過輔導(dǎo)員的反饋和相關(guān)研究成果對成績的影響因素進(jìn)行合理猜想,從而從一卡通消費(fèi)數(shù)據(jù)中提取出恰當(dāng)?shù)奶卣鱽眍A(yù)測學(xué)生成績。較少的特征數(shù)量也有效地避免了模型過擬合的問題。
5 結(jié)論
筆者認(rèn)為,利用一卡通消費(fèi)數(shù)據(jù)預(yù)測學(xué)生成績是一個(gè)新穎的嘗試。本實(shí)驗(yàn)首先對原始的消費(fèi)數(shù)據(jù)進(jìn)行預(yù)處理,然后根據(jù)輔導(dǎo)員的反饋和數(shù)據(jù)分析提取出四個(gè)特征,最后采用不同的數(shù)據(jù)挖掘算法來構(gòu)建預(yù)測模型。實(shí)驗(yàn)結(jié)果表明,通過使用一卡通消費(fèi)數(shù)據(jù),能有效地預(yù)測學(xué)生是否存在掛科風(fēng)險(xiǎn),其中樸素貝葉斯模型的預(yù)測效果最好,Recall值達(dá)到80.41%。雖然本實(shí)驗(yàn)僅選取了四個(gè)特征變量,但這幾個(gè)特征變量能很好地反映學(xué)生的作息習(xí)慣,具有很高的可解釋性。
本研究尚不完善,如模型采納的數(shù)據(jù)還不夠全面。目前,高校數(shù)字化校園建設(shè)已經(jīng)比較成熟,各個(gè)校園管理系統(tǒng)都存有豐富的學(xué)生數(shù)據(jù),如圖書館、門禁系統(tǒng)等,如果能有效地將這些數(shù)據(jù)運(yùn)用起來,相信可以發(fā)現(xiàn)更多有價(jià)值的、有意義的信息。因此,下一步想結(jié)合圖書館數(shù)據(jù)做進(jìn)一步研究。另外也希望本研究能對PSP的研究人員帶來一些啟發(fā),促進(jìn)PSP研究的發(fā)展。
參考文獻(xiàn)
[1]徐鵬,王以寧,劉艷華,等.大數(shù)據(jù)視角分析學(xué)習(xí)變革:美國《通過教育數(shù)據(jù)挖掘和學(xué)習(xí)分析促進(jìn)教與學(xué)》報(bào)告解讀及啟示[J].遠(yuǎn)程教育雜志,2013(6):11-17.
[2]Romero C, Ventura S. Educational Data mining: A
reviews of the state of the art[J].IEEE Transactions on Systems Man & Cybernetics Part C Applications & Reviews,2010, 40(6):601-618.
[3]張林紅,劉紅梅.基于一卡通數(shù)據(jù)分析的學(xué)生早餐習(xí)慣與成績關(guān)聯(lián)規(guī)則挖掘[J].阜陽師范學(xué)院學(xué)報(bào):自然科學(xué)版,
2014,31(4):92-95,105.
[4]梁桂珍,高亞丹,吳志才.學(xué)生作息習(xí)慣與學(xué)習(xí)成績的相關(guān)關(guān)系[J].新鄉(xiāng)學(xué)院學(xué)報(bào),2014(8):63-65.
[5]Kotsiantis S B. Supervised Machine Learning: A
Review of Classification Techniques[J].Informatica,
2007,31(3):249-268.endprint