魏韞怡
(廣東廣播電視大學(xué) 廣東理工職業(yè)學(xué)院 廣東 廣州 510091)
隨著 “中央電大人才培養(yǎng)模式改革和開放教育試點(diǎn)”已經(jīng)通過教育部的總結(jié)性評(píng)估,現(xiàn)代遠(yuǎn)程開放教育成為電大辦學(xué)的常規(guī)形式,這表明電大教育進(jìn)入新的發(fā)展階段。 開放教育事業(yè)的飛速發(fā)展,學(xué)生注冊(cè)人數(shù)不斷增加,畢業(yè)生的數(shù)據(jù)也在持續(xù)遞漲[1]。 由于電大主要面向成人教育,具有遠(yuǎn)程教育特征、采用多種媒體教學(xué)、共享優(yōu)秀教育資源、開放的學(xué)習(xí)模式、學(xué)籍年限長等特點(diǎn)。 一方面學(xué)生們學(xué)習(xí)目的明確,學(xué)習(xí)主動(dòng)性很高,他們都希望學(xué)到知識(shí)的同時(shí)能在教育部規(guī)定的最短年限內(nèi)獲取畢業(yè)證書;另一方面作為學(xué)校,也希望在保證教學(xué)質(zhì)量的同時(shí),提高學(xué)生首次畢業(yè)通過率。 但如何才能在最短年限內(nèi)取得證書? 這已成為制約學(xué)校招生、教學(xué)管理發(fā)展的棘手問題。 本文希望通過數(shù)據(jù)挖掘技術(shù)能在大量的教務(wù)管理系統(tǒng)數(shù)據(jù)中,發(fā)現(xiàn)潛在規(guī)律,找出隱含的模式,找出制約的原因, 為學(xué)校的管理決策提供有力的數(shù)據(jù)支持和依據(jù),提高管理水平和辦學(xué)質(zhì)量。
數(shù)據(jù)挖掘就是技術(shù)地從大型數(shù)據(jù)庫或數(shù)據(jù)倉庫中提取人們感興趣的信息和知識(shí),這些知識(shí)或信息在被提取之前是是隱含的,事先未知而潛在有用的,被提取的知識(shí)表示為概念、規(guī)則、規(guī)律、模式等形式。
原則上講, 數(shù)據(jù)挖掘可以在任何類型的信息存儲(chǔ)上進(jìn)行,包括關(guān)系數(shù)據(jù)庫、事務(wù)數(shù)據(jù)庫、數(shù)據(jù)倉庫、高級(jí)數(shù)據(jù)庫系統(tǒng)和面向特殊應(yīng)用的數(shù)據(jù)庫系統(tǒng)(面向?qū)ο髷?shù)據(jù)庫、對(duì)象-關(guān)系數(shù)據(jù)庫、空間數(shù)據(jù)庫、時(shí)間數(shù)據(jù)庫、時(shí)間序列數(shù)據(jù)庫、文本數(shù)據(jù)庫、多媒體數(shù)據(jù)庫、WWW 等)[2][3][4]。
數(shù)據(jù)庫中的知識(shí)挖掘是一個(gè)多步驟的處理過程, 數(shù)據(jù)挖掘的基本過程和主要步驟如圖1 所示。
圖1 數(shù)據(jù)挖掘的基本過程和主要步驟
常用的數(shù)據(jù)挖掘方法有關(guān)聯(lián)分析、序列模式分析、分類分析、聚類分析、預(yù)測(cè)分析、回歸分析;而常用的數(shù)據(jù)挖掘算法有人工神經(jīng)網(wǎng)絡(luò)、決策樹、遺傳算法、最臨近技術(shù)、規(guī)則歸納、可視化技術(shù)等。 數(shù)據(jù)挖掘不是一個(gè)單向的過程,對(duì)同一個(gè)問題,可有多種不同的算法。 不同的數(shù)據(jù)挖掘方法作用于同一數(shù)據(jù)庫,對(duì)數(shù)據(jù)的理解可有不同的角度,每種方法的合理與否都有可能。 這就需要將發(fā)現(xiàn)結(jié)果在實(shí)際運(yùn)用中反復(fù)求證,以檢驗(yàn)其合理性。
1993 年IBMAldRhCt 的RkhAgawl 等人首先提出關(guān)聯(lián)規(guī)則挖掘,關(guān)聯(lián)規(guī)則挖掘目的是發(fā)現(xiàn)大量數(shù)據(jù)中項(xiàng)集之間有趣的關(guān)聯(lián)或相關(guān)聯(lián)系,可以幫助許多商務(wù)決策的制訂,如市場(chǎng)規(guī)劃、廣告策劃、分類設(shè)計(jì)等。
Apriori 算法是一種最有影響的挖掘布爾關(guān)聯(lián)規(guī)則頻繁項(xiàng)集的算法。 其核心是基于兩階段頻集思想的遞推算法。 該關(guān)聯(lián)規(guī)則在分類上屬于單維、單層、布爾關(guān)聯(lián)規(guī)則。 該算法的基本思想是:首先找出所有的頻集,這些項(xiàng)集出現(xiàn)的頻繁性至少和預(yù)定義的最小支持度一樣。 然后由頻集產(chǎn)生強(qiáng)關(guān)聯(lián)規(guī)則,這些規(guī)則必須滿足最小支持度和最小可信度。 然后使用第1 步找到的頻集產(chǎn)生期望的規(guī)則,產(chǎn)生只包含集合的項(xiàng)的所有規(guī)則,其中每一條規(guī)則的右部只有一項(xiàng),這里采用的是中規(guī)則的定義。 一旦這些規(guī)則被生成,那么只有那些大于用戶給定的最小可信度的規(guī)則才被留下來。 為了生成所有頻集,使用了遞推的方法。
以廣東電大為例, 抽取2004 年級(jí)的12001 名本科學(xué)生為主要分析對(duì)象,根據(jù)這些學(xué)生的學(xué)籍及第一年考試成績(jī)作為分析的原始數(shù)據(jù), 參考其他高校分析的一些指標(biāo)定義,構(gòu)造挖掘模型。 從教務(wù)管理廣東理工職業(yè)學(xué)院數(shù)據(jù)倉庫中導(dǎo)出相關(guān)的基本表進(jìn)行集成、清理、轉(zhuǎn)換等數(shù)據(jù)預(yù)處理;使用關(guān)聯(lián)分析中的Apriori 算法對(duì)數(shù)據(jù)進(jìn)行挖掘分析,從數(shù)據(jù)中發(fā)現(xiàn)某些規(guī)律和參考信息, 找出學(xué)生能在最短年限內(nèi)畢業(yè)的因素,對(duì)教學(xué)等管理提出建議。
對(duì)電大學(xué)生數(shù)據(jù)建立分析模型,以選擇合適的方法和算法對(duì)數(shù)據(jù)進(jìn)行分析,得到一個(gè)數(shù)據(jù)挖掘模型的過程。 一個(gè)好的模型沒必要與已有數(shù)據(jù)完全相符,但模型對(duì)未來的數(shù)據(jù)應(yīng)有較好的預(yù)測(cè)。 建立分析模型如圖2。
圖2 電大學(xué)生數(shù)據(jù)分析模型
數(shù)據(jù)的預(yù)處理是數(shù)據(jù)挖掘過程中一個(gè)非常重要的環(huán)節(jié),一般需要用掉挖掘過程中70%的工作量。 本文以2004 年級(jí)的本科學(xué)生為主要分析對(duì)象,因此從教務(wù)管理系統(tǒng)倉庫中導(dǎo)出相關(guān)的三個(gè)表:學(xué)生基本檔案表、成績(jī)總表、畢業(yè)生名單,并對(duì)這三個(gè)表進(jìn)行預(yù)處理。 經(jīng)過數(shù)據(jù)采集、數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)消減這五個(gè)步驟后,最終建立了可用于下一步數(shù)據(jù)挖掘的目標(biāo)數(shù)據(jù)表。 如圖3 所示。
其中: xh(學(xué)號(hào))字段值為
20041440000001-20041440011999;
kscs(考試次數(shù))字段值定義為:1-16;
hgcs(合格次數(shù))字段值定義為:1-16;
rxjd(入學(xué)季度)字段值如此定義:1 表示春季入學(xué),2 表示秋季入學(xué);
hydm(婚姻代碼) 字段值如此定義:根據(jù)全局統(tǒng)計(jì)只有兩種狀況:1 表示未婚,2 表示已婚;
nl(年齡)字段值如此定義:年齡采用等高方式劃分bucket,分成5 個(gè)年齡段:20、25、30、35、40;
dwdm(單位代碼)字段值如此定義:將廣東電大系統(tǒng)地區(qū)劃分為四個(gè)區(qū)域,A 代表粵北,B 代表粵東,C 代表粵西,D 代表珠三角。
圖3 目標(biāo)數(shù)據(jù)表片段
從目標(biāo)數(shù)據(jù)表中統(tǒng)計(jì), 約25.5%的學(xué)生就讀五個(gè)學(xué)期后畢業(yè),約45.1%的學(xué)生就讀六個(gè)學(xué)期后畢業(yè),其余剩29.4%的學(xué)生不能在最短的第五或者第六個(gè)學(xué)期畢業(yè),下面通過Apriori 算法對(duì)該表進(jìn)行挖掘應(yīng)用,找出答案。
事務(wù)數(shù)據(jù)庫D 由已經(jīng)經(jīng)過預(yù)處理的目標(biāo)數(shù)據(jù)倉庫中(見圖3) 給出, 設(shè)最小支持度Minimum support=0.05 (612 instances);Minimum metric <confidence>= 0.2,利用Apriori 算法找出D 的頻繁項(xiàng)集。
1)掃描整個(gè)表,計(jì)算出D 中所包含的每個(gè)項(xiàng)目出現(xiàn)的次數(shù),得出C1。 將C1 各項(xiàng)計(jì)數(shù),由最小事務(wù)支持計(jì)數(shù)為0.1,從C1 中可以確定出頻繁1-項(xiàng)集,得出L1:
3)執(zhí)行L2∪L2 產(chǎn)生C3,根據(jù)Apriori-gen 中剪枝步驟對(duì)C3 進(jìn)行剪枝,然后掃描事務(wù)數(shù)據(jù)庫對(duì)C3 中的項(xiàng)目集進(jìn)行計(jì)數(shù),得出L3,同理得出L4、L5:
4)在執(zhí)行L5∪L5 后,通過剪枝與計(jì)數(shù),得出C6,在掃描以及對(duì)比數(shù)據(jù)庫與最小支持計(jì)數(shù)后,得知C6=Φ ,算法終止。
經(jīng)過以上4 個(gè)步驟的頻繁集生成規(guī)則共有228 條。
1)以全省總體來說:第五個(gè)學(xué)期畢業(yè)的置信度比第六個(gè)學(xué)期畢業(yè)要低,即使全部考試都合格的情況下,結(jié)果也一樣;但分布來說:粵東地區(qū)第五個(gè)學(xué)期畢業(yè)的置信度比第六個(gè)學(xué)期畢業(yè)要高;粵西地區(qū)就剛好相反;珠三角地區(qū)則有一半的學(xué)生在第六個(gè)學(xué)期畢業(yè);
2)以全省25 歲的學(xué)生為參照物,第一年參加考試次數(shù)7次比參加考試6 次在第六個(gè)學(xué)期畢業(yè)的置信度要高;
3)如果考試次數(shù)為8 次在不考慮合格率的情況下,其置信度比只考7 次的要低;
4)婚姻狀態(tài)與能否在最短年限內(nèi)畢業(yè)結(jié)果無關(guān);
5)年齡與學(xué)生畢業(yè)時(shí)間沒有太大關(guān)系;
6)入學(xué)季度與學(xué)生畢業(yè)時(shí)間沒有太大關(guān)系,但粵西地區(qū)春季入學(xué)的學(xué)生比秋季入學(xué)的學(xué)生,在第六個(gè)學(xué)期畢業(yè)的置信度高得多;
7) 綜合平均分為D 以上的學(xué)生在六個(gè)學(xué)期前畢業(yè)的置信度比較高,但綜合平均分為F 的,有八成多都不可能在六個(gè)學(xué)期前畢業(yè)。
根據(jù)以上分析,對(duì)學(xué)校招生管理部門建議:學(xué)生報(bào)讀時(shí)提醒學(xué)生學(xué)習(xí)態(tài)度是決定其能否最短時(shí)間拿到畢業(yè)證書的關(guān)鍵。 想按時(shí)畢業(yè)有幾個(gè)關(guān)鍵因素:第一年參加考試總次數(shù)要在6 次或者以上并且至少有6 次及格;第一年綜合平均分要為D 以上。 對(duì)學(xué)校教學(xué)管理部門建議:鼓勵(lì)學(xué)生以積極的態(tài)度去學(xué)習(xí),第一年盡可能多的參加期末考試;進(jìn)一步指導(dǎo)學(xué)生進(jìn)行有效的學(xué)習(xí)、復(fù)習(xí),提高考試通過率的同時(shí)盡量拿取高分?jǐn)?shù)。
本文通過介紹數(shù)據(jù)挖掘的基本概念、對(duì)象、過程、方法和算法,分析了隨著電大辦學(xué)規(guī)模的不斷擴(kuò)大,信息量大幅度增加,使用Apriori 關(guān)聯(lián)規(guī)則挖掘算法對(duì)數(shù)據(jù)倉庫中的部分?jǐn)?shù)據(jù)進(jìn)行挖掘,找出潛在的關(guān)聯(lián)規(guī)則,獲取影響學(xué)生能在最短年限內(nèi)畢業(yè)的潛在因素與信息,用于指導(dǎo)教學(xué),開展有針對(duì)性的教學(xué)安排與教學(xué)組織,借以提高教學(xué)質(zhì)量,對(duì)學(xué)校教學(xué)管理提出建議。 將數(shù)據(jù)挖掘技術(shù)引入教育領(lǐng)域是可行的,可以對(duì)教務(wù)管理龐大的數(shù)據(jù)進(jìn)行多方面、多角度的數(shù)據(jù)分析和挖掘,應(yīng)該會(huì)得到大量的有指導(dǎo)意義的結(jié)果,以提高學(xué)校管理的決策,提高管理水平和辦學(xué)質(zhì)量。
[1]田紅梅,彭愈強(qiáng).論現(xiàn)代遠(yuǎn)程開放教育學(xué)籍管理的特點(diǎn)及戰(zhàn)略意義[J].廈門廣播電視大學(xué)學(xué)報(bào),2008(1):10-12.
[2]邵峰晶,于忠清.數(shù)據(jù)挖掘原理與算法[M].中國水利水電出版社,2003,8.
[3]Jiawei Han,Micheline Kamber.數(shù)據(jù)挖掘概念與技術(shù)[M].范明,孟小峰,譯.機(jī)械工業(yè)出版社,2001.
[4]談恒貴, 王文杰,李游華.數(shù)據(jù)挖掘分類算法綜述[J].微型計(jì)算機(jī)與應(yīng)用,2005(2):4-9.
[5]陳京民,等.數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)[M].電子工業(yè)出版社,2002.
[6]黃麗莉.電大教務(wù)管理工作的改革與創(chuàng)新[J].科技傳播,2010(1):84.
[7]陳文慶.關(guān)聯(lián)規(guī)則挖掘APriori 算法的改進(jìn)與研究[J].微機(jī)發(fā)展,2005:85-89
[8]于玲玲. 數(shù)據(jù)挖掘技術(shù)在獨(dú)立學(xué)院教務(wù)管理中的應(yīng)用[J]. 計(jì)算機(jī)教學(xué)與教育信息化,2009(36):93-95.