施成湘, 周 婷
(重慶第二師范學院 數(shù)學與信息工程學院, 重慶 400067)
隨著信息技術(shù)的快速發(fā)展和普及,大量的數(shù)據(jù)和信息得以積累,如何從大量數(shù)據(jù)中提取出有用的信息已成為信息技術(shù)研究的重要課題之一,數(shù)據(jù)挖掘技術(shù)應運而生。研究人員從不同角度、不同側(cè)重對數(shù)據(jù)挖掘技術(shù)的應用進行了深入的研究與探討。尤其是近年來,隨著全世界對教育熱點問題關(guān)注度的持續(xù)升溫,新思想、新方法層出不窮。吳文玲[1]以大量學生課程數(shù)據(jù)為切入點,探討了如何利用數(shù)據(jù)得到統(tǒng)計意義上的課程相關(guān)性,為課程設(shè)置提供決策依據(jù);張濠天等[2]對數(shù)學專業(yè)學生的成績數(shù)據(jù)進行研究,確定了不同類型課程之間的相關(guān)性,努力探索提高學生課程成績和教學質(zhì)量的方法;陳喜華等[3]對學生成績進行分析,挖掘出學生各門課程成績的分布情況及課程之間的關(guān)聯(lián)性,并對挖掘結(jié)果進行了詳細的分析和說明[4];李芳[5]將數(shù)據(jù)挖掘技術(shù)應用在學生成績數(shù)據(jù)分析中,為設(shè)計課程的順序提供了可行性建議。
推動高校教師改進教學, 激發(fā)學生學習積極性,需要對學科課程的設(shè)置、課程之間的相互關(guān)系、學生學科成績的綜合評定等問題進行深入的思考。本文先利用數(shù)據(jù)挖掘中的關(guān)聯(lián)規(guī)則技術(shù)對師范專業(yè)學生課程成績數(shù)據(jù)進行分析,得出課程之間存在的相關(guān)性及重要性;再利用數(shù)據(jù)挖掘中的聚類分析技術(shù)預測課程重要性并得出學生在校的學習情況,為人才培養(yǎng)方案的制定、課程的設(shè)置提供決策支持。同時,教師也可以根據(jù)挖掘結(jié)果因材施教,從而更加靈活地組織教學,提高教學效率。
關(guān)聯(lián)規(guī)則(Association Rules)是指大型數(shù)據(jù)庫系統(tǒng),它可以快速找到各種事物之間的潛在和有價值的關(guān)聯(lián),并以規(guī)則表達。關(guān)聯(lián)規(guī)則的研究和應用是數(shù)據(jù)挖掘中最活躍、最深刻的分支。為了使挖掘出來的關(guān)聯(lián)規(guī)則有效,需要給出兩個最常用的指標:最小支持度和最小置信度。
(1)對于規(guī)則X→Y,其規(guī)則的支持度定義為
(1)
其中,N(X∩Y)表示同時包含前項X和后項Y的事務數(shù)量,N表示總的事務數(shù)量。規(guī)則支持度反映了該規(guī)則的普遍程度。
(2)對于規(guī)則X→Y,其規(guī)則的置信度定義為
(2)
其中,N(X∩Y)表示同時包含前項X和后項Y的事務數(shù)量,N(X)表示包含前項X的事務數(shù)量。規(guī)則的置信度實際上是在給定前項X的前提下,后項Y的條件概率。
一般來說,一個“好”的關(guān)聯(lián)規(guī)則應當同時具有較高的支持度和置信度。因此,在實際使用過程中,通常設(shè)置最小支持度和最小置信度。
Apriori算法是一種挖掘關(guān)聯(lián)規(guī)則的頻繁項集算法。一個有效的關(guān)聯(lián)規(guī)則應當滿足SX→Y≥Smin且CX→Y≥Cmin,故Apriori 算法可以分為三步:
(1)設(shè)定最小支持度Smin及最小置信度Cmin。
(2)根據(jù)最小支持度,生成頻繁項集。
(3)根據(jù)最小置信度,基于頻繁項集生成最終關(guān)聯(lián)規(guī)則。
數(shù)據(jù)來源于重慶第二師范學院本科小學教育專業(yè)(全科)347名學生四年來25門專業(yè)必修課的成績,通過關(guān)聯(lián)規(guī)則Apriori算法,從學生成績的數(shù)據(jù)中發(fā)現(xiàn)內(nèi)部頻繁項集之間的關(guān)聯(lián),找到數(shù)據(jù)與數(shù)據(jù)間的潛在關(guān)系、課程與課程之間隱含關(guān)系、某些課程對其他課程的影響程度,為課程的設(shè)置和教學計劃的制定提供一定的參考依據(jù)。整個實施過程分為數(shù)據(jù)預處理、模型建立、挖掘結(jié)果分析與評估應用四部分。
數(shù)據(jù)信息包括學年、學期、任選課程、公共必修課、實踐課、專業(yè)必修課、課程學分、學分績點、平時成績、期末成績,對緩考、免考、曠考等情況不予考慮。由于學生成績總體水平較高,各科的差距不明顯,為了讓課程成績之間有點差距,方便數(shù)據(jù)分析,對課程按性質(zhì)劃分大類,相似課程進行合并(見表1),以均值的形式呈現(xiàn),經(jīng)過處理后為12大類。
同時,為了方便數(shù)據(jù)的處理,本文采用表格格式(一般來說,進行關(guān)聯(lián)分析的數(shù)據(jù)形式可以有表格格式和事務格式),即將學生成績高于該類課程均值(347名學生該類課程的總成績除以總?cè)藬?shù))的記為1,低于該類課程均值的記為0(如圖1所示)。
表1 相似課程合并
圖1 2014級小學全科專業(yè)必修課
將專業(yè)必修課課程成績?nèi)繉隨PSS Modeler中,建立如圖2所示的Apriori算法模型。
在建模時,系統(tǒng)默認的最低條件支持度為10%,最小規(guī)則置信度為80%,最大前項數(shù)為10,運行得到5505條關(guān)聯(lián)規(guī)則。規(guī)則太多,分析較復雜,所以要提高最低條件支持度和最小規(guī)則置信度,減少規(guī)則條數(shù),得到有效、有價值的信息,但當最低條件支持度為31%、最小規(guī)則置信度為92%時,得到5條關(guān)聯(lián)規(guī)則。規(guī)則太少,可能會丟失有價值的規(guī)則信息,最終選擇最低條件支持度為31%、最小規(guī)則置信度為91%,得出10條關(guān)聯(lián)規(guī)則。考慮最大鏈接數(shù)太大,得到的網(wǎng)絡(luò)圖太復雜,不方便分析,將網(wǎng)絡(luò)圖中的可顯示的最大鏈接數(shù)設(shè)置為25。
運行Apriori算法挖掘模型得到的結(jié)果如圖3和圖4所示。
圖2 Apriori算法挖掘模型
圖3 Apriori挖掘模型
從圖4可以看出不同課程之間的關(guān)聯(lián)程度:連線越多,說明與其他課程之間的聯(lián)系越緊密;連線越粗,對其他課程的影響程度越大。彼此聯(lián)系緊密的課程應該作為基礎(chǔ)課程使用,而且應該優(yōu)先設(shè)置,比如教學書法、小學教學課程、班隊管理。對于彼此影響程度高的課程,重要的是要考慮哪個課程是先導課程,哪個是后續(xù)課程,如小學教學課程和教學書法、班隊管理和教學書法、心理學和班隊管理等。
圖4 網(wǎng)絡(luò)圖
根據(jù)圖3的挖掘結(jié)果,并結(jié)合對圖4的分析,可以得出:
1.鍵盤、心理學、教育測量與評價能夠促進教學書法的學習,說明教學書法應該開設(shè)在這三門基礎(chǔ)課程之后,教育經(jīng)典、課程與教學、媒體與課件制作雖能促進教學書法的學習,但影響并不大。
2.教學書法和小學教學課程、班隊管理和教學書法之間是互為促進的關(guān)系,可以同時開設(shè)。
3.鍵盤能促進小學教學課程的學習,可以優(yōu)先考慮。
4.模型中沒有挖掘教學書法與微課之間的關(guān)聯(lián)規(guī)則,但網(wǎng)絡(luò)圖表現(xiàn)為密切相關(guān)??赡苁菙?shù)據(jù)集成和清理、數(shù)據(jù)轉(zhuǎn)換錯誤或它們沒有達到最小條件支持度和最小規(guī)則置信度。
5.在模型中沒有發(fā)現(xiàn)媒體與課件制作和鍵盤之間的關(guān)聯(lián)規(guī)則,這表明這兩門課程相關(guān)性不強。
通過以上分析,可以明確課程與課程之間的關(guān)聯(lián)關(guān)系以及課程之間的重要性。模型的挖掘結(jié)果可為學校的課程設(shè)置、教學計劃的制定和人才培養(yǎng)方案的修訂提供決策支持。
為了更準確地知道課程之間的重要性以及該年級學生的學習成績分布,繼續(xù)對學生的成績進行聚類分析。通過K-Means算法對學生的課程成績進行聚類,得出學生課程成績分布情況,并預測課程的重要性,從而指導和建議學生選課和學習,達到提高教學效果的目的。建立K-Means算法模型,如圖5所示。
圖5 K-Means算法挖掘模型
在運行模型之前,為了找到聚類質(zhì)量的轉(zhuǎn)折點,選擇合適的聚類數(shù),需要分別將聚類數(shù)設(shè)置為2~6,共5個數(shù)值。每運行一次,觀察其模型,并記錄模型的聚類質(zhì)量(見表2)。
表2 不同K值的聚類質(zhì)量
由表2可知,第二次,當k=3時,是聚類質(zhì)量的轉(zhuǎn)折點。選擇這一轉(zhuǎn)折點對學生的課程成績進行分析比較合理,聚類數(shù)為3,最后運行模型得到以下結(jié)果(見圖6)。
圖6 各聚類均值
根據(jù)圖6(部分圖)所示,每個類別是分數(shù)組,每個類別中的分數(shù)是分數(shù)組的平均值。這些平均值是對學生成績進行分類和評價的標準和依據(jù)。將圖6中的平均值匯總在表中,學生成績的聚類平均值如表3所示。
根據(jù)圖7的MYMKM-K-Means的分布和對表3的學生成績聚類均值的分析可得:
第一類學生比例最大,占總數(shù)的48.7%,他們成績中等,少數(shù)科目成績稍差。教師應該指導這類學生全面發(fā)展,這類學生應在偏差的學科上多下功夫,遇到問題主動、積極地向同學或者老師請教,從而防止偏科嚴重化。
第二類學生比例最小,占總數(shù)的17.29%,他們成績較差,其中心理學和教學書法相對更差,而普通話和微課相對較好。教師要提醒這類學生更多地了解心理學和書法知識,彌補這方面知識的缺陷,同時督促學生自律,提高他們學習的積極性。
表3 學生成績聚類均值
圖7 MYMKM-K-Means的分布
第三類學生占總數(shù)的34.01%,他們成績最好,而且所有科目的成績都比較平衡,沒有嚴重的偏差。教師在教學過程中應注意提高他們的實踐能力和專業(yè)技能。
從圖8可以得到12門課程的重要性,如表4所示。從表4可以清楚地看出小學教學課程是最重要的,重要性為1,微課是最不重要的,重要性為0.02。
結(jié)合圖8和表4分析,教學管理者可以依據(jù)不同課程的重要性來適當增加重要課程的學時。當預測變量的重要性大于0.5時,可以視為相對比較重要的課程,則從表4可以看出小學教學課程、心理學、鍵盤、教育學、教育測量與評價等課程是相對比較重要的課程,那么就可以適當增加這幾門課程的課時,從而促進后面課程的學習,也有利于教學人員的教學,有利于提高學生的課程成績。應安排具有豐富教學經(jīng)驗的教師承擔這些課程的教學任務,從而提高教學效果。
圖8 預測變量的重要性
表4 課程重要性
本文運用Apriori算法對學生課程成績數(shù)據(jù)進行關(guān)聯(lián)規(guī)則分析,得出了課程之間的相關(guān)性及重要性,提出了合理設(shè)置課程順序的建議;運用K-Means算法對課程成績數(shù)據(jù)進行深層次的聚類分析,不僅預測了課程的重要性,為課程的設(shè)置提供決策支持,還可讓學生了解自己整體成績的相對位置和薄弱科目,從而確定自己的學習方法;教師可以根據(jù)挖掘的結(jié)果,分析各類學生的表現(xiàn)特點、學習狀況以及教學中存在的問題,從而調(diào)整教學方法,以便更好地實施教學改革,提高教學質(zhì)量和教學效果。