劉道君 王常穎
摘 要:關(guān)聯(lián)規(guī)則挖掘是近年來數(shù)據(jù)挖掘領(lǐng)域的重要手段。針對不同因素對學(xué)生成績的影響,應(yīng)用關(guān)聯(lián)規(guī)則Apriori算法對學(xué)生成績的影響因素進(jìn)行分析。首先收集了與學(xué)生成績及學(xué)習(xí)習(xí)慣相關(guān)的數(shù)據(jù),并對其進(jìn)行了離散化處理;然后采用關(guān)聯(lián)規(guī)則Apriori算法對離散后的學(xué)生數(shù)據(jù)信息進(jìn)行挖掘,得到了12條強相關(guān)規(guī)則;通過分析這些規(guī)則發(fā)現(xiàn),家長和老師的督促可以很好的改善學(xué)生上課走神現(xiàn)象,而走神對學(xué)生的成績影響是特別大的,且通過分析發(fā)現(xiàn)學(xué)生的書寫格式,學(xué)習(xí)持久力,記筆記的習(xí)慣等因素之間相互影響。研究成果表明,要想提升學(xué)生的學(xué)業(yè)成績,不能單一的做題和補課,而是應(yīng)該找到學(xué)生成績不好的成因,進(jìn)而提高成績。
關(guān)鍵詞:數(shù)據(jù)挖掘; Apriori算法;成績分析;離散化
引 言
學(xué)生的學(xué)業(yè)成績是國家和社會選拔人才的一個重要的結(jié)果性變量,也是評價一個學(xué)生基本素質(zhì)的重要標(biāo)準(zhǔn)。學(xué)生成績的優(yōu)劣甚至能影響個人的發(fā)展。因此學(xué)生本人,家長和老師等都非常重視學(xué)生的學(xué)業(yè)成績,都想法提高學(xué)業(yè)成績。那么究竟是哪些因素影響學(xué)生的學(xué)業(yè)成績,又當(dāng)如何去提高呢?我們可以依靠數(shù)據(jù)挖掘從海量的數(shù)據(jù)中挖掘出自身感興趣的信息。關(guān)聯(lián)規(guī)則挖掘就是一種從歷史數(shù)據(jù)集中發(fā)現(xiàn)隱藏信息,從海量數(shù)據(jù)中發(fā)現(xiàn)潛在的有價值的技術(shù)方法。本文采用關(guān)聯(lián)規(guī)則Apriori算法[1,2,3,4]挖掘?qū)W生成績數(shù)據(jù),可以從中挖掘出不同因素對成績的影響和不同因素之間的影響。力圖通過關(guān)聯(lián)規(guī)則分析[5,6,7,8,9],得到一些有意義的信息。以此幫助學(xué)生找到提高學(xué)業(yè)成績的方法。
一、關(guān)聯(lián)規(guī)則的概念
關(guān)聯(lián)規(guī)則就是指兩個或兩個以上的變量之間存在的某種規(guī)則。關(guān)聯(lián)規(guī)則挖掘即是從已知事務(wù)數(shù)據(jù)庫中找到支持度和置信度分別大于給定的閾值的所有關(guān)聯(lián)規(guī)則。支持度就是在事務(wù)數(shù)據(jù)庫中某個項目集出現(xiàn)的次數(shù)占總事務(wù)數(shù)的比值,最小支持度就是用戶設(shè)置的符合實際要求的最低閾值,把符合最小支持度要求的項目集稱為頻繁項目集。置信度是指包含頻繁項目集A和B的事務(wù)數(shù)與頻繁項目集A的事務(wù)數(shù)之比。最小置信度就是用戶設(shè)置的符合實際要求的最低閾值。很顯然,把同時符合最小支持度與最小置信度的關(guān)聯(lián)規(guī)則稱為強相關(guān)規(guī)則。
這里采用了Apriori算法來尋找所有的頻繁項目集。它使用了一種被稱為逐層搜索的迭代算。其核心步驟如下:
①連接步:為了尋找LK,在k次掃描數(shù)據(jù)庫時,通過Lk-1與自身連接產(chǎn)生候選k-項集CK。
②剪枝步:由于Ck是Lk的超集,即Ck的成員可能是也可能不是頻繁的。需要掃描數(shù)據(jù)庫,確定是否大于最小支持度。為了壓縮Ck,可以運用Apriori性質(zhì):任何一個頻繁集的全部非空子集一定是頻繁集,所以如果某個候選集的一個非空子集不是頻繁的,則該候選集可以刪除。
二、利用關(guān)聯(lián)規(guī)則分析學(xué)生成績
(一)數(shù)據(jù)的采集與處理
關(guān)聯(lián)規(guī)則分析需要豐富的數(shù)據(jù)信息作為基礎(chǔ)。本文采用初一學(xué)生的成績作為研究對象,研究與學(xué)生成績相關(guān)的12個屬性[10,11,12,13]。選取了100名學(xué)生的成績和相關(guān)屬性值。其中屬性值對成績的影響分為三個方面,分別為學(xué)生,家長,學(xué)習(xí)環(huán)境。
首先將學(xué)生成績進(jìn)行離散化。將100名學(xué)生按照成績進(jìn)行排名,然后按照人數(shù)百分比進(jìn)行離散。排名前10%的學(xué)生,即第1名到第10名(包括第10名)的學(xué)生記作A1 ;排名在10%到30%的學(xué)生,即第11名到第30名(包括第30名)的學(xué)生記作A2;排名在30%到60%的學(xué)生,即第30名到第60名(包括第60名)的學(xué)生記作A3;排名在60%之后的學(xué)生,即第61名到第100名(包括第100名)的學(xué)生記作A4。
再將相關(guān)屬性值進(jìn)行離散。
學(xué)生學(xué)習(xí)持久力,定義為學(xué)生連續(xù)作業(yè)的時間:低于0.5h的記作B1,0.5-1h的記作B2,高于1h的記作B3。
筆記錯題本每周使用次數(shù),定義使用20分鐘以上為一次:少于2次的記作C1,2到4次的記作C2,4次以上的記作C3。
書寫格式:書寫潦草的記作D1,書寫清晰的記作D2
每周使用與學(xué)習(xí)無關(guān)的電子類產(chǎn)品次數(shù),定義使用15分鐘以上為一次:4次以上的記作E1,2到4次的記作E2,少于2次的記作E3。
家長每周督促學(xué)生學(xué)習(xí)次數(shù),定義在家長督促下,學(xué)生在有效學(xué)習(xí)的為有效督促,記作1次。而在家長口頭督促下學(xué)生并沒有有效學(xué)習(xí)的不記作次數(shù):少于2次的記作F1,2到4次的記作F2,4次以上的記作F3。
學(xué)生與老師每周交流次數(shù),定義為學(xué)生主動與老師交流學(xué)習(xí)相關(guān)問題記作1次:少于2次的記作G1,2到4次的記作G2,4次以上的記作G3。
每周課堂聽課走神次數(shù),定義為學(xué)生在課堂上因走神而導(dǎo)致課程重點知識沒聽到的記作1次):4次以上的記作H1,2到4次的記作H2,少于2次的記作H3。
每周家庭學(xué)習(xí)走神次數(shù),定義為學(xué)生在作業(yè)時走神5分鐘以上的記作1次:4次以上的記作I1,2到4次的記作I2,少于2次的記作I3。
(二)挖掘關(guān)聯(lián)規(guī)則
本文主要是挖掘不同因素對學(xué)生成績的影響,以及不同因素之間的影響。這一步的關(guān)鍵在于選擇恰當(dāng)?shù)年P(guān)聯(lián)規(guī)則算法對數(shù)據(jù)進(jìn)行處理,這里主要采用關(guān)聯(lián)規(guī)則Aprior算法對離散后的學(xué)生數(shù)據(jù)信息進(jìn)行挖掘。設(shè)定最小支持度為0.3,最小置信度為0.8。運行關(guān)聯(lián)規(guī)則Aprior算法程序后,得到的部分實驗結(jié)果如表1所示。
2.3 挖掘結(jié)果分析
規(guī)則1說明:成績差的學(xué)生,一般都很少與老師交流。該規(guī)則支持度0.33,置信度0.82。說明成績差的學(xué)生,在學(xué)習(xí)過程中遇到的問題得不到及時有效的解決,從而導(dǎo)致問題積累,惡性循環(huán),所以老師更應(yīng)該多關(guān)心,多與這類學(xué)生交流。
規(guī)則2說明:學(xué)習(xí)持久力低的學(xué)生,一般在學(xué)習(xí)過程中很少有記筆記和用筆記的習(xí)慣。該規(guī)則支持度0.32,置信度0.86。說明要想改善學(xué)生的學(xué)習(xí)持久力,可從科學(xué)使用筆記開始。
規(guī)則3說明:上課走神次數(shù)較少的學(xué)生,一般書寫都比較清晰。該規(guī)則支持度0.32,置信度0.81。
規(guī)則4說明:每周能經(jīng)常使用筆記的學(xué)生,書寫一般都較清晰,該規(guī)則支持度0.25,置信度0.97。說明學(xué)生要想使用筆記,應(yīng)先注意平時的書寫習(xí)慣,只有書寫清晰,才會有看筆記的欲望。
規(guī)則5說明:書寫潦草的學(xué)生,一般都極少使用筆記。該規(guī)則支持度0.34,置信度0.94.該規(guī)則與規(guī)則4正好對應(yīng)。說明良好的書寫習(xí)慣對一個學(xué)生相當(dāng)重要。
規(guī)則6、7說明:學(xué)習(xí)成績差和上課走神這兩個屬性相關(guān)度很高。該規(guī)則支持度0.36,置信度0.90和0.82。說明上課走神可能是導(dǎo)致學(xué)生成績差的一個主要原因。
本文挖掘出的規(guī)則從一定程度上說明了,良好的學(xué)習(xí)習(xí)慣的重要性以及家長、老師對于學(xué)生學(xué)習(xí)的重要性。所以要想提高學(xué)生的學(xué)業(yè)成績,首先要加強學(xué)生的自我修養(yǎng),其次需要家長、老師對學(xué)生進(jìn)行正確的引導(dǎo)。
三、規(guī)則應(yīng)用
學(xué)生Z1在利用規(guī)則進(jìn)行分析時,問題主要體現(xiàn)在書寫潦草,上課走神,家長督促較少,成績檔次在A4。發(fā)現(xiàn)問題后,經(jīng)過與家長溝通,加強了對學(xué)生的督促。首先規(guī)劃好了學(xué)生每天的學(xué)習(xí)時間,其次每天對學(xué)生的書寫著重檢查。經(jīng)過一個學(xué)期的改變,學(xué)生上課走神現(xiàn)象明顯有所改善,學(xué)習(xí)積極性也提高了,學(xué)習(xí)持久力也加強了,成績檔次上升至A3,并且有上升至A2的趨勢。
學(xué)生Z2在利用規(guī)則分析時,問題主要體現(xiàn)在家長工作很忙,很少督促學(xué)生學(xué)習(xí),學(xué)生與老師交流很少,成績檔次在A3。發(fā)現(xiàn)問題后,經(jīng)過與家長溝通,首先加強了對學(xué)生的督促,其次老師與學(xué)生通過多次交流。經(jīng)過一個學(xué)期的改變,發(fā)現(xiàn)學(xué)生的可塑性很強,只是性格上相對敏感,需要老師和家長的時常關(guān)心。成績檔次也上升至A2。
以上兩個事例說明,只要能對學(xué)生進(jìn)行正確科學(xué)的引導(dǎo),不僅能提高學(xué)生的學(xué)業(yè)成績,還能提升學(xué)生的整體素質(zhì),從而在學(xué)習(xí)和生活上能順利發(fā)展。
四、結(jié)語
關(guān)聯(lián)規(guī)則挖掘技術(shù)是一種非常有用的技術(shù)工具,可以廣泛的應(yīng)用到不同的領(lǐng)域當(dāng)中。而應(yīng)用關(guān)聯(lián)規(guī)則挖掘技術(shù),提高學(xué)生的學(xué)業(yè)成績,是一個非常有意義的研究方向,在實際應(yīng)用中應(yīng)該注意的是:由于最小支持度和最小置信度是主觀設(shè)定的,這會出現(xiàn)兩種情況,可能是取值太小,會生成很多規(guī)則,產(chǎn)生很多意義不大的規(guī)則;也可能取值過大,導(dǎo)致錯失很多有價值的信息。因此,在應(yīng)用中應(yīng)該反復(fù)試驗,以確定一個最佳的閾值。相信正確和準(zhǔn)確的應(yīng)用關(guān)聯(lián)挖掘算法一定能科學(xué)有效的提出改善學(xué)生學(xué)習(xí)的策略方法,為國家和社會的人才培養(yǎng)起到積極的促進(jìn)作用。
【參考文獻(xiàn)】
[1] 劉以安,羊斌. 關(guān)聯(lián)規(guī)則挖掘中對Apriori算法的一種改進(jìn)研究[J]. 計算機應(yīng)用,2007(02):418-420.
[2] 劉麗娟. 改進(jìn)的Apriori算法的研究及應(yīng)用[J]. 計算機工程與設(shè)計,2017,38(12):3324-3328.
[3] 周發(fā)超,王志堅,葉楓,鄧玲玲. 關(guān)聯(lián)規(guī)則挖掘算法Apriori的研究改進(jìn)[J]. 計算機科學(xué)與探索,2015,9(09):1075-1083.
[4] 詹芹,張幼明. 一種改進(jìn)的動態(tài)遺傳Apriori挖掘算法[J]. 計算機應(yīng)用研究,2010,27(08):2929-2930+2935.
[5] 何軍,劉紅巖,杜小勇. 挖掘多關(guān)系關(guān)聯(lián)規(guī)則[J]. 軟件學(xué)報,2007(11):2752-2765.
[6] 崔妍,包志強. 關(guān)聯(lián)規(guī)則挖掘綜述[J]. 計算機應(yīng)用研究,2016,33(02):330-334.
[7] 王華,劉萍. 改進(jìn)的關(guān)聯(lián)規(guī)則算法在學(xué)生成績預(yù)警中的應(yīng)用[J]. 計算機工程與設(shè)計,2015,36(03):679-682+752.
[8] 謝芳,王波. 基于關(guān)聯(lián)規(guī)則個性化推薦的改進(jìn)算法[J]. 計算機應(yīng)用,2006(S2):149-151.
[9] 何小東,劉衛(wèi)國. 數(shù)據(jù)挖掘中關(guān)聯(lián)規(guī)則挖掘算法比較研究[J]. 計算機工程與設(shè)計,2005(05):1265-1268.
[10] 李颯. 基于關(guān)聯(lián)規(guī)則的學(xué)習(xí)行為關(guān)聯(lián)度分析方法研究[J]. 微電子學(xué)與計算機,2018,35(06):65-68.
[11] 顧輝,楊青,蔣成功,張茜. 關(guān)聯(lián)規(guī)則在成績分析中的研究及應(yīng)用[J]. 計算機應(yīng)用,2015,35(S1):149-151+198.
[12] 何楚,宋健,卓桐. 基于頻繁模式譜聚類的課程關(guān)聯(lián)分類模型和學(xué)生成績預(yù)測算法研究[J]. 計算機應(yīng)用研究,2015,32(10):2930-2933.
[13] 劉美玲,李熹,李永勝. 數(shù)據(jù)挖掘技術(shù)在高校教學(xué)與管理中的應(yīng)用[J]. 計算機工程與設(shè)計,2010,31(05):1130-1133.