• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于Apriori算法的高職院校課程相關(guān)性分析

      2013-12-06 06:32:52傅亞莉
      關(guān)鍵詞:項(xiàng)集置信度事務(wù)

      傅亞莉

      (無錫科技職業(yè)學(xué)院,江蘇 無錫214028)

      0 引言

      高職院校的人才培養(yǎng)方案中,課程設(shè)置是最關(guān)鍵的元素。課程設(shè)置規(guī)定了課程的類型、課程的性質(zhì)、學(xué)時(shí)分配以及課程之間的順序,課程結(jié)構(gòu)的合理與否會(huì)直接影響到人才培養(yǎng)的質(zhì)量。但是在人才培養(yǎng)方案的制定過程中,課程的設(shè)置是否合理,課程的先行后續(xù)的關(guān)系、課程之間內(nèi)容銜接是否正確,還有待驗(yàn)證。通過數(shù)據(jù)挖掘的方式對學(xué)生成績的樣本數(shù)據(jù)進(jìn)行深層次的挖掘,分析課程之間隱藏的內(nèi)在聯(lián)系,將課程相關(guān)性研究成果作為課程設(shè)置的基本依據(jù),有利于在課程設(shè)置過程中優(yōu)化課程結(jié)構(gòu),幫助學(xué)生構(gòu)建良好的知識和能力的體系,提高教學(xué)質(zhì)量,同時(shí)對學(xué)院教學(xué)和管理水平的提高也有一定的幫助。

      1 關(guān)聯(lián)規(guī)則挖掘

      數(shù)據(jù)挖掘(Data Mining),就是對整理好的龐大的數(shù)據(jù)集或事務(wù)數(shù)據(jù)庫進(jìn)行分析,挖掘出其中隱含的、未知的、用戶可能感興趣的和對決策有潛在價(jià)值的知識和規(guī)則,供用戶在決策時(shí)有一定的依據(jù)可循[1]。

      關(guān)聯(lián)分析是數(shù)據(jù)挖掘的重要分析方法之一,關(guān)聯(lián)分析的目的就是發(fā)現(xiàn)隱藏在事務(wù)數(shù)據(jù)庫中項(xiàng)目集之間有意義的聯(lián)系,從而確定不同數(shù)據(jù)之間的關(guān)聯(lián)規(guī)則。

      1.1 關(guān)聯(lián)規(guī)則的定義

      關(guān)聯(lián)規(guī)則是形如X→Y的蘊(yùn)涵表達(dá)式,其中X和Y是事務(wù)數(shù)據(jù)庫D中不相交的項(xiàng)集,X稱作規(guī)則的前提或前項(xiàng),Y為結(jié)果或后項(xiàng)。關(guān)聯(lián)規(guī)則的強(qiáng)度可以用它的支持度(Support)和置信度(Confidence)度量。[2]

      支持度(Support)是一種重要的度量,是指在事務(wù)數(shù)據(jù)庫D中項(xiàng)目集X在總事務(wù)中出現(xiàn)的頻率,記為Support(X)。項(xiàng)目集X和Y同時(shí)出現(xiàn)的頻率即支持度為:Support(X→Y)=Support(X∪Y)=XY出現(xiàn)的次數(shù)/事務(wù)總數(shù)。支持度應(yīng)用于發(fā)現(xiàn)頻率出現(xiàn)較大的項(xiàng)目集,低支持度的規(guī)則是沒有意義的,一般會(huì)被刪除。

      置信度(Confidence)是指在事務(wù)數(shù)據(jù)庫D中項(xiàng)為:Confidence(X→Y)=Support(X∪Y)/Support(X)=XY出現(xiàn)的次數(shù)/X出現(xiàn)的次數(shù)。置信度應(yīng)用于在頻繁項(xiàng)目集中發(fā)現(xiàn)頻率較大的關(guān)聯(lián)規(guī)則[3]。置信度越高,表示Y在包含X的事務(wù)中出現(xiàn)的可能性就越大。

      1.2 Apriori算法

      Apriori算法是關(guān)聯(lián)規(guī)則挖掘算法中最為經(jīng)典的算法,它使用了基于支持度的剪枝技術(shù),找出數(shù)據(jù)庫中的最大頻繁項(xiàng)集,分析得到符合要求的關(guān)聯(lián)規(guī)則。

      1.2.1 Apriori算法的主要思想

      首先產(chǎn)生頻繁項(xiàng)集,利用先驗(yàn)原理“在給定的事務(wù)數(shù)據(jù)庫中,如果一個(gè)項(xiàng)集是頻繁的,則它的所有子集一定也是頻繁的”[4],對事務(wù)數(shù)據(jù)庫進(jìn)行循環(huán)掃描,按層次順序搜索,完成頻繁項(xiàng)集的挖掘工作,利用k_項(xiàng)集產(chǎn)生(k+1)_項(xiàng)集,通過連接和剪枝找到全部的頻繁項(xiàng)集,然后根據(jù)頻繁項(xiàng)集來產(chǎn)生關(guān)聯(lián)規(guī)則。

      1.2.2 Apriori算法的操作

      Apriori算法的主要操作步驟是連接和剪枝。

      (1)連接:將符合條件的k_頻繁項(xiàng)集中的項(xiàng)目集,按照連接的規(guī)則作連接運(yùn)算,尋找出符合條件的k+1_頻繁項(xiàng)集。

      (2)剪枝:通過對事務(wù)數(shù)據(jù)庫進(jìn)行掃描計(jì)算判斷出候選項(xiàng)集是否為頻繁項(xiàng)集,為減少掃描計(jì)算量,需將非頻繁的子集或包含非頻繁子集的候選項(xiàng)目集從候選集中清除,以提高算法的效率。

      1.2.3 Apriori算法過程

      (1)確定最小支持度minsup及最小置信度mincon。

      (2)數(shù)據(jù)庫中初始的每個(gè)項(xiàng)集均是候選1_項(xiàng)集,再根據(jù)支持度計(jì)算公式計(jì)算出候選1_項(xiàng)集的支持度,如果候選項(xiàng)目集的支持度大于給定的最小支持度,則為頻繁項(xiàng)集。將候選1_項(xiàng)集的每一候選項(xiàng)與最小支持度比較判斷,得到頻繁1_項(xiàng)集。

      (3)再根據(jù)連接的規(guī)則將頻繁1_項(xiàng)集的集合兩兩連接,迭代產(chǎn)生候選2_項(xiàng)集。計(jì)算出其每一項(xiàng)集的支持度,與最小支持度進(jìn)行比較,同時(shí)使用先驗(yàn)原理,可以更快捷地獲得頻繁2_項(xiàng)集。以此類推,不斷產(chǎn)生新的候選項(xiàng)集和頻繁項(xiàng)集,直到獲得最大頻繁項(xiàng)集為止。[5]

      2 Apriori算法在課程相關(guān)性分析中的應(yīng)用

      使用Apriori算法發(fā)掘?qū)W生成績事務(wù)數(shù)據(jù)庫中各門課程成績之間的關(guān)聯(lián)規(guī)則,需首先確立進(jìn)行數(shù)據(jù)挖掘的事務(wù)數(shù)據(jù)庫,并對數(shù)據(jù)進(jìn)行有效性清理和轉(zhuǎn)換,再進(jìn)行數(shù)據(jù)挖掘。

      2.1 事務(wù)數(shù)據(jù)庫

      在關(guān)聯(lián)規(guī)則Apriori算法中,事務(wù)數(shù)據(jù)庫多采用橫向結(jié)構(gòu)。Apriori算法在生成候選項(xiàng)集和頻繁項(xiàng)集過程中,因要不斷計(jì)算支持度和置信度,需要反復(fù)對數(shù)據(jù)庫進(jìn)行掃描,學(xué)生數(shù)越多,課程門數(shù)越多,所耗費(fèi)的時(shí)間越多。在本例中,共選取了軟件技術(shù)專業(yè)150位學(xué)生,選取了每個(gè)學(xué)生事務(wù)的高等數(shù)學(xué)、C語言程序設(shè)計(jì)、數(shù)據(jù)庫原理與應(yīng)用、數(shù)據(jù)結(jié)構(gòu)4門課程成績共600條成績記錄做為研究對象,通過學(xué)生成績優(yōu)秀的獲得情況來挖掘某門課程學(xué)習(xí)與其他課程的關(guān)聯(lián)關(guān)系,以及對其他課程的影響程度。如表1所示橫向結(jié)構(gòu)的數(shù)據(jù)庫中,每個(gè)學(xué)生是一個(gè)事務(wù),4門課程分別用I1,I2,I3,I4表示。并設(shè)定最小支持度為10%,最小置信度為50%。

      表1 學(xué)生成績事務(wù)數(shù)據(jù)庫

      2.2 數(shù)據(jù)的清理與轉(zhuǎn)換

      確定好的數(shù)據(jù)庫,需要通過數(shù)據(jù)清理來消除干擾性數(shù)據(jù),同時(shí)還要針對事務(wù)數(shù)據(jù)進(jìn)行數(shù)據(jù)的選擇與轉(zhuǎn)換,使數(shù)據(jù)庫適合數(shù)據(jù)挖掘。

      在學(xué)生成績事務(wù)數(shù)據(jù)庫中,會(huì)因?yàn)閷W(xué)生的缺考、休學(xué)等情況產(chǎn)生成績記錄的缺失。數(shù)據(jù)清理主要是檢查事務(wù)數(shù)據(jù)庫中不完整的、含噪聲的、不一致的數(shù)據(jù),對數(shù)據(jù)進(jìn)行清理,同時(shí)刪除無效數(shù)據(jù),最終得到149個(gè)學(xué)生成績事務(wù)。并將事務(wù)數(shù)據(jù)庫進(jìn)行整理,按照80分進(jìn)行等級劃分,80分以上為優(yōu),記為“1”,其他記為“0”,最終使事務(wù)數(shù)據(jù)庫成為適合數(shù)據(jù)挖掘處理的格式,提高數(shù)據(jù)挖掘數(shù)據(jù)的精度和有效性。

      2.3 數(shù)據(jù)挖掘

      應(yīng)用Apriori算法進(jìn)行數(shù)據(jù)挖掘的過程,就是不斷地連接和剪枝的過程,最后形成滿足要求的最大頻繁項(xiàng)集,具體操作步驟如下:

      (1)初次掃描學(xué)生成績事務(wù)數(shù)據(jù)庫,初始的每個(gè)項(xiàng)集均是候選1_項(xiàng)集C1中的項(xiàng)集,本例中選擇了4門課程做為數(shù)據(jù)挖掘的對象,挖掘其中成績優(yōu)秀的獲取情況,因此,共有4個(gè)候選項(xiàng)集,C1包括{I1},{I2},{I3},{I4}。并根據(jù)支持度的計(jì)算公式計(jì)算出每個(gè)候選1_項(xiàng)集的支持度,如表2所示。根據(jù)Apriori算法的規(guī)則,滿足給定的最小支持度的候選項(xiàng)集均為頻繁項(xiàng)集,C1中所有項(xiàng)目集均滿足最小支持度10%,因此,所有項(xiàng)集均是頻繁1_項(xiàng)集,即F1包含{{I1},{I2},{I3},{I4}},如表3所示。

      表2 候選1_項(xiàng)集支持度

      表3 頻繁1_項(xiàng)集支持度

      (2)將F1中的項(xiàng)集兩兩連接,形成候選2_項(xiàng)集C2,C2包括{I1,I2},{I1,I3},{I1,I4},{I2,I3},{I2,I4},{I3,I4}。再次掃描事務(wù)數(shù)據(jù)庫,計(jì)算出候選2_項(xiàng)集的支持度,如表4所示。與給定的最小支持度比較,得到頻繁2_項(xiàng)集F2。由于C2中{I3,I4}項(xiàng)集的支持度小于給定的最小支持度10%,不是頻繁項(xiàng)集,除此之外的其他項(xiàng)集均滿足條件,如表5所示。

      表4 候選2_項(xiàng)集支持度

      表5 頻繁2_項(xiàng)集支持度

      (3)再采用Fk-1×Fk-1的方法,將F2中的每一個(gè)項(xiàng)集連接生成候選3_項(xiàng)集C3,連接時(shí),算法要求k-2項(xiàng)相同的頻繁項(xiàng)集才可連接。因此,候選3_項(xiàng)集C3包括{I1,I2,I3}、{I1,I2,I4}、{I1,I3,I4}、{I2,I3,I4}4個(gè)候選集。因?yàn)樗惴ㄐ璐_定該項(xiàng)集的真子集是否是頻繁的,如果其中有一個(gè)是非頻繁的,則該項(xiàng)集是非頻繁的,會(huì)被剪枝。這樣可以減少候選項(xiàng)集的數(shù)量,減少支持度的計(jì)算的復(fù)雜度。由于{I3,I4}項(xiàng)集是非頻繁項(xiàng)集,因此{I1,I3,I4}和{I2,I3,I4}均是非頻繁項(xiàng)集,經(jīng)過剪枝后的候選項(xiàng)集如表6所示。第三次掃描數(shù)據(jù)庫,計(jì)算出支持度,再根據(jù)給定的最小支持度得出結(jié)論,{I1,I2,I3}小于給定的支持度10%,不是頻繁項(xiàng)集。因此,得到一個(gè)頻繁3_項(xiàng)集也就是最大頻繁項(xiàng)集F3{I1,I2,I4},如表7所示。

      表6 候選3_項(xiàng)集支持度

      表7 頻繁3_項(xiàng)集支持度

      (4)根據(jù)得到的頻繁項(xiàng)集,形成關(guān)聯(lián)規(guī)則。根據(jù)得到的頻繁項(xiàng)集,可生成關(guān)聯(lián)規(guī)則,如頻繁2_項(xiàng)集中的{I1,I2},可生成I1→I2和I2→I1兩種關(guān)聯(lián)規(guī)則。最大頻繁項(xiàng)集中的{I1,I2,I4}可生成6種關(guān)聯(lián)規(guī)則,如表9所示。Apriori算法在生成頻繁項(xiàng)集時(shí),記錄了每個(gè)頻繁項(xiàng)集的支持度,置信度由頻繁項(xiàng)集產(chǎn)生,因此可根據(jù)置信度的計(jì)算公式,利用頻繁項(xiàng)集的支持度計(jì)算出每種關(guān)聯(lián)規(guī)則的置信度,即項(xiàng)目集X出現(xiàn)使項(xiàng)目集Y也出現(xiàn)的條件概率。根據(jù)計(jì)算公式得到頻繁2_項(xiàng)集關(guān)聯(lián)規(guī)則置信度如表8所示,最大頻繁集關(guān)聯(lián)規(guī)則的置信度如表9所示。其中滿足最小置信度50%的關(guān)聯(lián)規(guī)則為符合條件的關(guān)聯(lián)規(guī)則。

      表8 頻繁2_項(xiàng)集關(guān)聯(lián)規(guī)則

      表9 最大頻繁集關(guān)聯(lián)規(guī)則

      2.4 結(jié)果分析

      Apriori算法通過數(shù)據(jù)挖掘,得出如下分析情況:

      (1)滿足最小置信度50%關(guān)聯(lián)規(guī)則符合條件,置信度高的可能性更大一些。根據(jù)頻繁2_項(xiàng)集關(guān)聯(lián)規(guī)則分析,I1→I2關(guān)聯(lián)規(guī)則的置信度為62%,即高等數(shù)學(xué)成績?yōu)閮?yōu)→C語言程序設(shè)計(jì)成績?yōu)閮?yōu)的置信度為62%;I2→I1關(guān)聯(lián)規(guī)則的置信度為59%,C語言程序設(shè)計(jì)為優(yōu)→高等數(shù)學(xué)為優(yōu)的置信度為59%。算法規(guī)定置信度高的關(guān)聯(lián)規(guī)則的可信度更大,因此,可以斷定,高等數(shù)學(xué)對C語言程序設(shè)計(jì)課程的學(xué)習(xí)影響大,課程設(shè)置要在前。同理分析,高等數(shù)學(xué)的學(xué)習(xí)對在數(shù)據(jù)庫原理與應(yīng)用、數(shù)據(jù)結(jié)構(gòu)有一定的影響,課程設(shè)置在前。C語言程序設(shè)計(jì)的學(xué)習(xí)對數(shù)據(jù)結(jié)構(gòu)有一定的影響,課程設(shè)置要在數(shù)據(jù)結(jié)構(gòu)之前。C語言程序設(shè)計(jì)與數(shù)據(jù)庫原理與應(yīng)用的關(guān)聯(lián)規(guī)則置信度低,因此兩門課程的學(xué)習(xí)相互影響較低,兩門課程的順序可自行安排。

      (2)根據(jù)最大頻繁集關(guān)聯(lián)規(guī)則分析,I1,I2→I4關(guān)聯(lián)規(guī)則的置信度最高,為62%,因此可信度最大,高等數(shù)學(xué)成績?yōu)閮?yōu)同時(shí)C語言成績?yōu)閮?yōu)的同學(xué),數(shù)據(jù)結(jié)構(gòu)為優(yōu)的置信度為62%。因此這兩門課程對數(shù)據(jù)結(jié)構(gòu)的學(xué)習(xí)有很大的幫助。

      3 結(jié)語

      利用關(guān)聯(lián)規(guī)則挖掘的Apriori算法對專業(yè)的部分課程成績規(guī)律進(jìn)行挖掘,通過最小支持度和最小置信度,可以分析課程的相關(guān)性,挖掘出各門課程之間的隱藏關(guān)聯(lián)關(guān)系,如課程的先行后續(xù)關(guān)系、銜接關(guān)系等。擴(kuò)大課程研究范圍并有效地利用課程相關(guān)性的分析結(jié)果,可有利于在制定人才培養(yǎng)方案中時(shí)優(yōu)化專業(yè)課程設(shè)置,規(guī)范課程先行后續(xù)的開設(shè)流程,同時(shí)有利于引導(dǎo)學(xué)生正確地選修課程,幫助學(xué)生根據(jù)合理的課程設(shè)置構(gòu)建出良好的知識和能力的體系,提高學(xué)校的教學(xué)質(zhì)量。

      [1]邵峰晶,于忠清,王金龍,等.數(shù)據(jù)挖掘原理與算法[M].北京:科學(xué)出版社,2009.

      [2]廖芹,郝志峰,陳志宏.數(shù)據(jù)挖掘與數(shù)學(xué)建模[M].北京:國防工業(yè)出版社,2010.

      [3]宋中山.挖掘大型數(shù)據(jù)庫中的Apriori算法及其改進(jìn)[J].中南民族大學(xué)學(xué)報(bào):自然科學(xué)版,2003,22(1):54-57.

      [4]Tan Pang-Ning,Steinbach Michael,Kumar Vipin,等.數(shù)據(jù)挖掘?qū)д摚跰].北京:人民郵電出版社,2011.

      [5]陳啟買,彭利寧,劉海,等.基于關(guān)聯(lián)挖掘的課程相關(guān)性模式研究[J].華南師范大學(xué)學(xué)報(bào):自然科學(xué)版,2008(1):52-59.

      猜你喜歡
      項(xiàng)集置信度事務(wù)
      “事物”與“事務(wù)”
      基于分布式事務(wù)的門架數(shù)據(jù)處理系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)
      硼鋁復(fù)合材料硼含量置信度臨界安全分析研究
      河湖事務(wù)
      正負(fù)關(guān)聯(lián)規(guī)則兩級置信度閾值設(shè)置方法
      置信度條件下軸承壽命的可靠度分析
      軸承(2015年2期)2015-07-25 03:51:04
      關(guān)聯(lián)規(guī)則中經(jīng)典的Apriori算法研究
      卷宗(2014年5期)2014-07-15 07:47:08
      一種頻繁核心項(xiàng)集的快速挖掘算法
      SQLServer自治事務(wù)實(shí)現(xiàn)方案探析
      多假設(shè)用于同一結(jié)論時(shí)綜合置信度計(jì)算的新方法?
      衢州市| 武定县| 丽江市| 广饶县| 靖远县| 固镇县| 泸溪县| 宜良县| 桐梓县| 海晏县| 宜都市| 屯门区| 万源市| 连平县| 汉阴县| 伊金霍洛旗| 广宗县| 镇坪县| 曲沃县| 潮州市| 平邑县| 黄浦区| 奉节县| 五台县| 衡水市| 都江堰市| 定襄县| 乌鲁木齐市| 五常市| 平谷区| 墨竹工卡县| 连江县| 商南县| 泽州县| 东城区| 包头市| 澎湖县| 淄博市| 长海县| 盐津县| 若尔盖县|