摘要:該文將布爾關(guān)聯(lián)規(guī)則Apriori算法應(yīng)用于高校決策中,以獲得對(duì)高校決策的有價(jià)值的輔助信息,進(jìn)而為高校各個(gè)部門(mén)提高科學(xué)的決策支持。
關(guān)鍵詞:數(shù)據(jù)挖掘;Apriori算法;高校決策
中圖分類(lèi)號(hào):TP393 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2014)01-0170-02
數(shù)據(jù)挖掘技術(shù)在美國(guó)高校管理及院校研究中主要運(yùn)用在預(yù)估大學(xué)入學(xué)人數(shù)、優(yōu)化課程設(shè)置、預(yù)測(cè)學(xué)生保留及畢業(yè)情況、評(píng)估學(xué)生學(xué)習(xí)成果及研究學(xué)生學(xué)習(xí)生活經(jīng)歷等等。在我國(guó)高等教育領(lǐng)域內(nèi),隨著高校規(guī)模的不斷擴(kuò)大和信息技術(shù)的飛速發(fā)展,各個(gè)高校都建立了高校信息管理系統(tǒng),這些系統(tǒng)大大提高了教學(xué)和管理的水平,同時(shí)也積累了海量的數(shù)據(jù)。將數(shù)據(jù)挖掘技術(shù)應(yīng)用于高校決策中,對(duì)高校招生、學(xué)生成績(jī)管理、教師信息管理、學(xué)生就業(yè)等等方面這些信息資源進(jìn)行研究,可以獲得對(duì)高校決策的有價(jià)值的輔助信。該文對(duì)數(shù)據(jù)挖掘技術(shù)中的布爾關(guān)聯(lián)規(guī)則Apriori算法進(jìn)行分析研究,并將其運(yùn)用在高校決策中,進(jìn)而為各個(gè)部門(mén)提高科學(xué)的決策支持。
1 布爾關(guān)聯(lián)規(guī)則Apriori算法
Apriori算法是一種布爾關(guān)聯(lián)規(guī)則挖掘頻繁項(xiàng)集的深度優(yōu)先算法,該算法是用頻繁項(xiàng)集的性質(zhì),進(jìn)行逐層搜索的一種迭代方法,即K項(xiàng)集用于探察(K+1)項(xiàng),集。該算法的基本思想是:第一步列出所有的頻繁項(xiàng)集。預(yù)定義的一個(gè)最小支持度,確保這些項(xiàng)集的頻繁性至少和預(yù)設(shè)值一樣。然后產(chǎn)生強(qiáng)關(guān)聯(lián)規(guī)則,并且要求其滿足最小支持度和最小可信度。第二步用第一步中產(chǎn)生的規(guī)則,生成只包含集合的項(xiàng)的規(guī)則。并且只保留那些大于預(yù)設(shè)值的規(guī)則。為了生成所有頻繁項(xiàng)集,使用了遞推的方法。
K項(xiàng)集用于探察(K+1)項(xiàng)集,第一步掃描數(shù)據(jù)庫(kù)中的每一項(xiàng),收集并找到滿足預(yù)設(shè)值的頻繁1項(xiàng)集的集合,記作L1。第二步根據(jù)頻繁1項(xiàng)集確定頻繁2項(xiàng)集L2,然后用L2找L3,依次類(lèi)推直到無(wú)法找到頻繁項(xiàng)集為止。
從Lk-1項(xiàng)集探查L(zhǎng)項(xiàng)集,由連接步和剪枝步組成:
1)連接步:把Lk-1中項(xiàng)集與自身連接,產(chǎn)生候選K項(xiàng)集集合,將該集合記作Ck。
2) 剪枝步:雖然所有頻繁的K項(xiàng)集都包含在Ck中,但Ck 集合中的成員可能不都是頻繁的。將Ck中各項(xiàng)的計(jì)數(shù)與預(yù)設(shè)值進(jìn)行比較,符合要求的項(xiàng)都是頻繁的,從而確定Lk。
2 高校決策應(yīng)用的研究
基于數(shù)據(jù)挖掘技術(shù)中的布爾關(guān)聯(lián)規(guī)則Apriori算法,可以對(duì)高校已有的海量數(shù)據(jù)進(jìn)行分析挖掘,從設(shè)置課程、高校招生、教學(xué)評(píng)估等方面多維度的尋找關(guān)聯(lián)度,從而達(dá)到為高校管理提高科學(xué)決策支持的目的。高校決策系統(tǒng)對(duì)教育決策的輔助作用主要體現(xiàn)在以下設(shè)計(jì)中:
1)高校教學(xué)的評(píng)估:由于不同教師的授課方式和教學(xué)水平的差異,學(xué)生的成績(jī)也會(huì)有所差別。通過(guò)數(shù)據(jù)挖掘技術(shù),可以發(fā)現(xiàn)教師學(xué)歷、職稱、授課方式等同學(xué)生成績(jī)之間的聯(lián)系,從而對(duì)高校的教學(xué)進(jìn)行評(píng)估,并提出輔助性的決策建議,已提高教學(xué)的質(zhì)量。
2)課程的合理設(shè)置:高校各個(gè)專業(yè)課程之間都具有一定的銜接性,先行課程的學(xué)習(xí)效果會(huì)直接影響后續(xù)課程的學(xué)習(xí)。利用數(shù)據(jù)挖掘技術(shù)對(duì)學(xué)生的成績(jī)進(jìn)行分析,尋找課程之間的關(guān)聯(lián)性,并以此為依據(jù),對(duì)課程設(shè)置提出有價(jià)值的決策建議。
3)高校招生的分析:在高校招生部門(mén)進(jìn)行高招錄取的時(shí)候,生源是其保障。他們的目標(biāo)是在保證學(xué)生高的報(bào)到率的前提下,能夠錄取高素質(zhì)的學(xué)生。在錄取過(guò)程中,可以通過(guò)使用關(guān)聯(lián)規(guī)則算法對(duì)學(xué)生的信息進(jìn)行挖掘和分析。以學(xué)校的歷年招生數(shù)據(jù)為數(shù)據(jù)源,利用數(shù)據(jù)挖掘技術(shù)對(duì)的考生報(bào)到率進(jìn)行預(yù)測(cè)??梢詾檎猩块T(mén)提供招生決策支持建議。
3 Apriori算法在高校決策中的應(yīng)用研究
本文以高校決策中的學(xué)生信息數(shù)據(jù)倉(cāng)庫(kù)D作為分析對(duì)象進(jìn)行研究,利用Apriori算法對(duì)樣本進(jìn)行分析、挖掘。
通過(guò)表1的學(xué)生信息數(shù)據(jù)倉(cāng)庫(kù)D演示挖掘過(guò)程。假設(shè)最小支持度的預(yù)設(shè)值為2。
1) 在算法第一輪迭代中,所有項(xiàng)都是候選1項(xiàng)集C1的成員。通過(guò)算法掃描所有事務(wù),統(tǒng)計(jì)所有項(xiàng)的出現(xiàn)次數(shù)。
2) 由C1中符合最小支持度要求的項(xiàng)集來(lái)確定頻繁1項(xiàng)集L1。
3) 將L1與自身相連接,從而產(chǎn)生頻繁2項(xiàng)集C2。
4) 通過(guò)掃描D中的事務(wù),對(duì)C2中所有候選項(xiàng)集支持度的進(jìn)行計(jì)數(shù)。
5) 將C2中符合最小支持度要求的項(xiàng)集來(lái)確定頻繁2項(xiàng)集L2。
6) 首先C3=L2∧L2={{1,2,3},{1,3,5},{2,3,5}}。由于{1,2}不是頻繁的,所以{1,2,3}也不是頻繁的,從而得到C3={{1,3,5},{2,3,5}}。
7) 將C3中符合最小支持度要求的候選組成頻繁3項(xiàng)集L3。
8) 將L3與自身相連接,從而產(chǎn)生候選項(xiàng)C4。因?yàn)椴淮嬖陬l繁子集,C4為空集,所以算法終止。
具體過(guò)程如圖1中所示。
圖1 候選項(xiàng)和頻繁項(xiàng)集的產(chǎn)生
當(dāng)頻繁項(xiàng)集挖掘完成后,可利用Apriori算法生成關(guān)聯(lián)規(guī)則。
假定需要挖掘項(xiàng)集L={1,3,5}。L的非空子集有6個(gè):{1}、{3}、{5}、{1,5}、{1,3}、{3,5},計(jì)算結(jié)果如下:
1[?]3∧5, confidence=2/3=66.7%
3[?]1∧5, confidence=2/4=50%
5[?]1∧3, confidence=2/4=50%
3∧5[?]1, confidence=2/3=66.7%
1∧5[?]3, confidence=2/2=100%
1∧3[?]5 confidence=2/3=66.7%
假設(shè)最小置信度閾值為65%,則第1、4、5、6個(gè)規(guī)則可以作為強(qiáng)關(guān)聯(lián)規(guī)則進(jìn)行最終輸出。
4 結(jié)論
在高校教學(xué)數(shù)字信息化的時(shí)代趨勢(shì)下,使用關(guān)聯(lián)規(guī)則挖掘方法從高校海量數(shù)據(jù)中發(fā)現(xiàn)潛在的數(shù)據(jù)規(guī)律,并進(jìn)行分析和預(yù)測(cè),為決策者做出正確的決策提供理論依據(jù),對(duì)高等院校擴(kuò)大規(guī)模、提高辦學(xué)質(zhì)量有著重要的實(shí)踐意義。 (下轉(zhuǎn)第225頁(yè))
(上接第171頁(yè))
參考文獻(xiàn):
[1] 常桐善.數(shù)據(jù)挖掘技術(shù)在美國(guó)院校研究中的應(yīng)用[J].復(fù)旦教育論壇,2009(2).
[2] 李橋,陽(yáng)春華.關(guān)聯(lián)規(guī)則Apriori算法在教學(xué)評(píng)價(jià)中的應(yīng)用[J].計(jì)算機(jī)與數(shù)字工程,2010(6).
[3] Han J W,Micheline Kamber M.數(shù)據(jù)挖掘概念與技術(shù)[M].北京:機(jī)械工業(yè)出版社,2008.