張凱
摘 要:近年來(lái),許多職校教育工作者利用數(shù)據(jù)挖掘技術(shù)去研究教學(xué)數(shù)據(jù)庫(kù)中的相關(guān)數(shù)據(jù),并獲得很多有價(jià)值的信息。本文使用數(shù)據(jù)挖掘做關(guān)聯(lián)規(guī)則技術(shù)來(lái)研究學(xué)生不及格科目間的關(guān)聯(lián)性并給出成績(jī)預(yù)警的理論化模型來(lái)為教學(xué)管理者及早發(fā)現(xiàn)“學(xué)困生”提供一個(gè)途徑。
關(guān)鍵詞:數(shù)據(jù)挖掘;關(guān)聯(lián)規(guī)則;算法
大家都知道,一個(gè)高等數(shù)學(xué)不及格的學(xué)生有可能概率分析也不及格。針對(duì)這種現(xiàn)象帶給我們的啟示是:我們是不是能從大量的學(xué)生成績(jī)數(shù)據(jù)庫(kù)中挖掘出成績(jī)間的關(guān)聯(lián)問(wèn)題,構(gòu)建出一個(gè)比較完善的預(yù)警機(jī)制。目前,很多學(xué)校針對(duì)“學(xué)困生”進(jìn)行監(jiān)管和幫扶,如果我們能根據(jù)“學(xué)困生”前期的課程成績(jī)分析出他有可能哪門課程不及格,由此對(duì)他進(jìn)行介入監(jiān)管,那么這樣將會(huì)是一件非常有意義的工作。
一、關(guān)聯(lián)規(guī)則概述
關(guān)聯(lián)是指兩個(gè)或多個(gè)變量取值上存在某種規(guī)律性??蓪?duì)關(guān)聯(lián)規(guī)則進(jìn)行以下形式化描述:設(shè)假設(shè)I={I1,I2...Im}是m個(gè)不同的項(xiàng)的集合。給定一個(gè)數(shù)據(jù)庫(kù)D,其中每一個(gè)事務(wù)(Transaction)t是I的非空子集,即,每一個(gè)交易都與一個(gè)唯一的標(biāo)識(shí)符TID(Transaction ID)對(duì)應(yīng)。關(guān)聯(lián)規(guī)則在D中的支持度(support)是D中事務(wù)同時(shí)包含X、Y的百分比,即概率;置信度(confidence)是D中事務(wù)已經(jīng)包含X的情況下,包含Y的百分比,即條件概率。如果滿足最小支持度閾值和最小置信度閾值,則認(rèn)為關(guān)聯(lián)規(guī)則是有效的。這些閾值是根據(jù)挖掘需要人為設(shè)定。
二、建立分析數(shù)據(jù)源
對(duì)不及格學(xué)生進(jìn)行數(shù)據(jù)挖掘的前提是有大量有效的數(shù)據(jù)。我從天津市機(jī)電工業(yè)學(xué)校14級(jí)中職生原始數(shù)據(jù)表進(jìn)行挖掘,并對(duì)其進(jìn)行了預(yù)處理。
(一)對(duì)無(wú)用記錄和字段進(jìn)行刪除
進(jìn)行數(shù)據(jù)挖掘之前要篩選出有用的數(shù)據(jù),這里我們數(shù)據(jù)挖掘的目的是對(duì)不及格的學(xué)生進(jìn)行分析,所以我們第一步要?jiǎng)h除及格學(xué)生的全部記錄,以及涉及到的相關(guān)字段。由于原始表中不是所有的字段都對(duì)數(shù)據(jù)挖掘有用,我們通過(guò)投影操作只選擇學(xué)號(hào)、課程號(hào)、成績(jī)?nèi)齻€(gè)字段。
對(duì)照中職生培養(yǎng)方案中的教學(xué)計(jì)劃我們挑選出10門主干課程進(jìn)行挖掘研究,并給這十個(gè)課程用A~J進(jìn)行標(biāo)識(shí),如表1所示。并且在原始表中保留10個(gè)值的記錄,其他記錄做刪除處理。
(二)創(chuàng)建預(yù)處理數(shù)據(jù)表
因?yàn)楸碇袛?shù)據(jù)已經(jīng)為全部不及格學(xué)生的成績(jī)了,所以不需要再進(jìn)行離散化操作,只要對(duì)不及格成績(jī)的課程進(jìn)行簡(jiǎn)單標(biāo)識(shí)即可。為了更加明晰,將“課程號(hào)”字段及“成績(jī)”字段進(jìn)行合并為“課程成績(jī)”字段,其結(jié)果表示的是不及格課程所對(duì)應(yīng)的標(biāo)識(shí)。例如,用A表示“線性代數(shù)不及格”。數(shù)據(jù)表形式如圖3。
通過(guò)上述預(yù)處理操作可以得到如圖3的待處理數(shù)據(jù),但是我們需要的數(shù)據(jù)表應(yīng)該為按照學(xué)號(hào)的順序進(jìn)行排列的數(shù)據(jù)表,因此我們要先創(chuàng)建表結(jié)構(gòu),并將相關(guān)數(shù)據(jù)進(jìn)行同值歸并的原則填充到里面。在進(jìn)行數(shù)據(jù)輸入時(shí)要將“學(xué)號(hào)”字段對(duì)應(yīng)的“課程成績(jī)”字段的值放入數(shù)據(jù)表中,生成只包含不及格成績(jī)的數(shù)據(jù)表。
三、建立和分析成績(jī)預(yù)警模型
使用WEKA軟件對(duì)不及格成績(jī)的數(shù)據(jù)表進(jìn)行挖掘,得出關(guān)聯(lián)結(jié)果如表3所示。在這里設(shè)置最小置信度為0.1,最小支持度為0.4,得到關(guān)聯(lián)規(guī)則生成的預(yù)警系統(tǒng)模型圖5。
一是H,I,J間有極高強(qiáng)關(guān)聯(lián)性。這三門課程是數(shù)據(jù)結(jié)構(gòu),數(shù)據(jù)庫(kù)原理和數(shù)據(jù)庫(kù)應(yīng)用。當(dāng)一個(gè)學(xué)生其中任意兩門不及格時(shí),另外一門不及格的概率有70%。因此,這就指導(dǎo)我們教務(wù)人員在排課程的時(shí)候要注意不要同一學(xué)期安排這3門課程,讓學(xué)生避免出現(xiàn)同時(shí)掛科的現(xiàn)象。例如,可以把造成成績(jī)預(yù)警中置信度最高的數(shù)據(jù)結(jié)構(gòu)安排在第二學(xué)期,將數(shù)據(jù)庫(kù)應(yīng)用和數(shù)據(jù)原理分別安排在第三學(xué)期和第四學(xué)期。通過(guò)實(shí)踐發(fā)現(xiàn),這對(duì)早期發(fā)現(xiàn)“學(xué)困生”起到了積極的作用,并且對(duì)其學(xué)習(xí)態(tài)度糾正起到了正向的作用。
二是該模型不但可以在學(xué)生出現(xiàn)一門不及格的情況下對(duì)其本人發(fā)出預(yù)警,還能提示后續(xù)課程學(xué)習(xí)時(shí)哪些課程有可能不及格需要重點(diǎn)進(jìn)行學(xué)習(xí)。
三是I課程在預(yù)警中產(chǎn)生的次數(shù)最多,由此我們可以看出來(lái)數(shù)據(jù)庫(kù)原理是計(jì)算機(jī)專業(yè)在低年級(jí)比較容易發(fā)生問(wèn)題的一個(gè)關(guān)鍵課程。因此在教學(xué)管理中要將該課程作為重點(diǎn)課程進(jìn)行質(zhì)量監(jiān)督和定期檢查。
四是在最小置信度為0.1,最小支持度為0.4的條件下,并沒(méi)有出現(xiàn)A==>B和C==>D這種規(guī)則,這似乎有些不合常理,但也說(shuō)明像語(yǔ)文、數(shù)學(xué)、英語(yǔ)等基礎(chǔ)學(xué)科只要努力學(xué)習(xí)就可以擺脫原來(lái)成績(jī)的影響。由于進(jìn)校時(shí)學(xué)生入學(xué)成績(jī)有高有低,有的學(xué)生可能初中的時(shí)候基礎(chǔ)比較薄弱,從預(yù)警模型分析可以得出,對(duì)后面課程學(xué)習(xí)沒(méi)有絕對(duì)的影響,只要努力學(xué)習(xí)完全可以擺脫后進(jìn)生隊(duì)伍。這對(duì)鼓勵(lì)那些進(jìn)校分?jǐn)?shù)較低的學(xué)生提供了科學(xué)的理論依據(jù)。
四、結(jié)束語(yǔ)
本文對(duì)不及格學(xué)生數(shù)據(jù)庫(kù)應(yīng)用數(shù)據(jù)關(guān)聯(lián)規(guī)則進(jìn)行數(shù)據(jù)挖掘并建立成績(jī)預(yù)警模型進(jìn)行監(jiān)管,對(duì)提早發(fā)現(xiàn)“學(xué)困生”起到了積極的作用。
參考文獻(xiàn):
[1]潘潔珠,吳共慶,胡學(xué)鋼等.基于領(lǐng)域知識(shí)的預(yù)警規(guī)則發(fā)現(xiàn)研究[J].計(jì)算機(jī)技術(shù)與發(fā)展,2012,18(7):66-68,73.
[2]李舒,陳麗君.高校學(xué)生成績(jī)管理系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J].遼寧大學(xué)學(xué)報(bào)(自然科學(xué)版),2013,33(3):283-285.
[3]李吳,周振華.基于數(shù)據(jù)挖掘的高校學(xué)生成績(jī)預(yù)警系統(tǒng)[J].大慶石油學(xué)院學(xué)報(bào),20ll,4(35):91-95.
[4]董軍凱.數(shù)據(jù)挖掘技術(shù)在成績(jī)分析中的應(yīng)用[J].科技資訊,2009(22):72—74.