• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      關(guān)聯(lián)分析技術(shù)在學(xué)生成績(jī)分析中的應(yīng)用

      2016-12-22 21:58:16龔希章付熙徐
      軟件導(dǎo)刊 2016年11期
      關(guān)鍵詞:關(guān)聯(lián)分析數(shù)據(jù)挖掘

      龔希章 付熙徐

      摘 要:采用Visual Basic對(duì)學(xué)生管理系統(tǒng)數(shù)據(jù)倉庫進(jìn)行關(guān)聯(lián)分析,揭示了各科成績(jī)之間的聯(lián)系,詳細(xì)描述了關(guān)聯(lián)規(guī)則算法及實(shí)時(shí)優(yōu)化,分析了使用高維數(shù)據(jù)結(jié)構(gòu)在關(guān)聯(lián)分析中的優(yōu)化效果。

      關(guān)鍵詞:數(shù)據(jù)挖掘;關(guān)聯(lián)分析;高維數(shù)據(jù)

      DOIDOI:10.11907/rjdk.161962

      中圖分類號(hào):TP391

      文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào)文章編號(hào):16727800(2016)011017303

      0 引言

      互聯(lián)網(wǎng)及信息技術(shù)的發(fā)展,產(chǎn)生了大量的歷史數(shù)據(jù),這些數(shù)據(jù)迫切需要轉(zhuǎn)換為有用的信息和知識(shí)[12],通過這些信息和知識(shí),研究經(jīng)營管理狀況、分析市場(chǎng)、控制生產(chǎn),發(fā)現(xiàn)和挖掘可以改進(jìn)的地方,甚至預(yù)測(cè)將來的發(fā)展和變化,由此產(chǎn)生數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)。數(shù)據(jù)挖掘是從大型數(shù)據(jù)庫或數(shù)據(jù)倉庫中發(fā)現(xiàn)并提取隱藏其中的信息的一種技術(shù),目的是幫助決策者尋找數(shù)據(jù)間潛在關(guān)聯(lián),發(fā)現(xiàn)被忽略的要素,這些信息對(duì)預(yù)測(cè)趨勢(shì)和決策十分重要[34]。數(shù)據(jù)挖掘技術(shù)涉及數(shù)據(jù)庫、人工智能(AI)、機(jī)器學(xué)習(xí)和統(tǒng)計(jì)分析等多種技術(shù)。

      數(shù)據(jù)倉庫與數(shù)據(jù)挖掘正越來越多地應(yīng)用到傳統(tǒng)數(shù)據(jù)庫技術(shù)領(lǐng)域[5]。本文介紹了一個(gè)關(guān)聯(lián)分析技術(shù)在教育領(lǐng)域的應(yīng)用。學(xué)生某些課程成績(jī)比較好會(huì)導(dǎo)致另外一門或幾門課程成績(jī)比較好,對(duì)此進(jìn)行關(guān)聯(lián)分析可得到其對(duì)課程偏好之間的聯(lián)系。本文討論了經(jīng)典頻繁集算法進(jìn)行關(guān)聯(lián)分析過程,描述了關(guān)聯(lián)分析中發(fā)現(xiàn)多維關(guān)聯(lián)規(guī)則方法,分析了使用高維數(shù)據(jù)結(jié)構(gòu)在關(guān)聯(lián)分析中的優(yōu)化效果。

      1 相關(guān)數(shù)據(jù)庫結(jié)構(gòu)與分析

      學(xué)生成績(jī)關(guān)聯(lián)分析數(shù)據(jù)來自一個(gè)學(xué)生管理系統(tǒng)數(shù)據(jù)倉庫,數(shù)據(jù)倉庫中包含學(xué)生成績(jī)信息和住宿信息等,由于分析的是各科成績(jī)關(guān)系,故相關(guān)的只有成績(jī)事實(shí)表和學(xué)生、課程兩個(gè)維表,表中出生年月、教師、課程類型、學(xué)分、籍貫、考試日期等不相關(guān)屬性可以去掉,相關(guān)數(shù)據(jù)倉庫結(jié)構(gòu)如表1、表2、表3所示。

      2 數(shù)據(jù)挖掘準(zhǔn)備工作

      數(shù)據(jù)預(yù)處理包括數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)抽取、數(shù)據(jù)變換和數(shù)據(jù)歸約。數(shù)據(jù)清理和數(shù)據(jù)集成在數(shù)據(jù)倉庫構(gòu)建過程中已經(jīng)完成。

      對(duì)預(yù)處理后數(shù)據(jù)進(jìn)行統(tǒng)計(jì),以直方圖表示成績(jī)的分布情況,直方圖用分箱的方法來表示數(shù)據(jù)的近似分布。圖1以橫坐標(biāo)表示成績(jī),縱坐標(biāo)表示百分比,用Visual Basic 處理數(shù)據(jù)。

      從圖1可以看出,考試中成績(jī)優(yōu)秀的只占很小一部分,而成績(jī)及格和中等卻占比很大。一般意義上成績(jī)良好也可以說是成績(jī)好,因此將成績(jī)良好和優(yōu)秀(score>=3)都定義為成績(jī)好。

      3 數(shù)據(jù)挖掘算法及改進(jìn)

      3.1 關(guān)聯(lián)分析和經(jīng)典頻繁集算法

      關(guān)聯(lián)分析發(fā)現(xiàn)關(guān)聯(lián)規(guī)則,這些規(guī)則展示屬性-值頻繁地在給定數(shù)據(jù)集中一起出現(xiàn)的條件。關(guān)聯(lián)規(guī)則是形如X=>Y的規(guī)則,支持度為在所有交易集中同時(shí)符合X與Y的交易數(shù)與所有交易數(shù)之比,可信度指在所有交易集中同時(shí)符合X與Y的交易數(shù)與符合X的交易數(shù)之比。關(guān)聯(lián)規(guī)則可表示為:

      關(guān)聯(lián)分析主要算法有經(jīng)典頻繁集算法和FP-growth等改進(jìn)算法,本文采用經(jīng)典頻集算法思想對(duì)數(shù)據(jù)進(jìn)行關(guān)聯(lián)分析。經(jīng)典頻繁集算法思想如下:①找出所有具有超出最小支持度的支持度項(xiàng)集(itemsets),由Apriori算法實(shí)現(xiàn);②利用大項(xiàng)集(litemsets)產(chǎn)生所需規(guī)則(rules)。算法實(shí)現(xiàn)如下:

      3.2 關(guān)聯(lián)分析算法優(yōu)化

      根據(jù)上面的歸約,分析學(xué)生某科(幾科)成績(jī)與其它科目成績(jī)關(guān)系。把一門課程成績(jī)好(score>=3)作為一個(gè)項(xiàng),每個(gè)學(xué)生的考試可作為一項(xiàng)交易,下面討論進(jìn)行關(guān)聯(lián)分析時(shí)遇到的問題和解決辦法。

      3.2.1 關(guān)聯(lián)分析問題

      由于數(shù)據(jù)結(jié)構(gòu)關(guān)系,本次關(guān)聯(lián)分析遇到以下問題:①經(jīng)典頻繁集算法理論一般只介紹同一字段值之間的關(guān)系,而考試成績(jī)分析涉及到課程和成績(jī)兩個(gè)字段,屬于多維關(guān)聯(lián)規(guī)則;②課程數(shù)量很多(1 000門左右),但大多數(shù)課程只有部分學(xué)生選修,如果支持度要求太高就得不到有意義的規(guī)則,故頻繁-1項(xiàng)集也會(huì)比較多。數(shù)據(jù)倉庫中每次考試都存儲(chǔ)為一條記錄,需要過于頻繁地掃描數(shù)據(jù)量巨大的事實(shí)表。

      3.2.2 多維關(guān)聯(lián)規(guī)則處理方法和頻繁-1項(xiàng)集找尋

      為了簡(jiǎn)化多維關(guān)聯(lián)規(guī)則,建立一個(gè)頻繁項(xiàng)集表,結(jié)構(gòu)如表4所示。

      3.2.3 交易集表產(chǎn)生和算法優(yōu)化

      如果直接在事實(shí)表中搜尋層次為2以上的頻繁項(xiàng)集,需對(duì)每個(gè)學(xué)生確認(rèn)頻繁集組合條件是否符合,對(duì)每個(gè)學(xué)生都要掃描記錄數(shù)巨大的考試事實(shí)表數(shù)次。為解決此問題,建立了專門的交易集表(也可在學(xué)生表中直接加一個(gè)字段,但這需要更新數(shù)據(jù)倉庫的學(xué)生表,并影響其它分析),表結(jié)構(gòu)見表5。

      3.2.4 層次較高的頻繁集和規(guī)則產(chǎn)生

      找出頻繁-1項(xiàng)集并生成交易集表后,即可依次找出頻繁-2項(xiàng)集等層次的頻繁集,其中一個(gè)2項(xiàng)集由兩項(xiàng)頻繁-1項(xiàng)集構(gòu)成,一個(gè) n項(xiàng)集由一個(gè)頻繁n-1項(xiàng)集和一個(gè)頻繁-1項(xiàng)集構(gòu)成??蓮念l繁項(xiàng)集表中推出構(gòu)成每個(gè)多項(xiàng)集的頻繁-1項(xiàng)集,掃描交易集表即可找出該頻繁多項(xiàng)集的支持度,最終找出所有頻繁項(xiàng)集。以下程序可確定某頻繁項(xiàng)集包含的所有頻繁-1項(xiàng)集:

      其中,array()是用于保存該頻繁項(xiàng)集包含的所有頻繁-1項(xiàng)集數(shù)組,也可直接生成查詢條件:將array(i)=rs2(“p2”)改為str1=”$”+cstr(rs2(“p2”))+”$%”,該字符串可直接用于判斷交易集表中的交易是否包含該頻繁項(xiàng)集的所有條件。

      通過掃描交易集表找出所有頻繁大項(xiàng)集后生成規(guī)則,若支持度大于給定的支持度即可輸出為關(guān)聯(lián)規(guī)則。

      3.2.5 興趣度分析及規(guī)則輸出

      關(guān)聯(lián)分析規(guī)則是否有興趣,主要評(píng)價(jià)標(biāo)準(zhǔn)是可信度和支持度。通常使用固定的可信度和支持度標(biāo)準(zhǔn),但由于本例中頻繁項(xiàng)數(shù)量很多,高層關(guān)聯(lián)規(guī)則產(chǎn)生算法的復(fù)雜度也相對(duì)較高。而較高層次頻繁項(xiàng)的支持度要比較低層次頻繁項(xiàng)低很多,可將支持度低的低層次頻繁項(xiàng)不產(chǎn)生高層次頻繁項(xiàng),予以清除。本例中各層次使用不同的支持度標(biāo)準(zhǔn),該標(biāo)準(zhǔn)從低層到高層遞減。

      經(jīng)過最后篩選,輸出部分規(guī)則如下(最小可信度為30%):

      (漁業(yè)導(dǎo)論>=3)AND(大學(xué)英語1>=3)=>(法律基礎(chǔ)>=3)支持度5.1% 可信度33.3%

      (法律基礎(chǔ)>=3)=>(漁業(yè)法規(guī)>=3) 支持度5.2% 可信度53.1%

      (漁業(yè)法規(guī)>=3)=>(法律基礎(chǔ)>=3) 支持度5.2% 可信度61.2%

      注:倒過來不一定有足夠可信度,例如由于可信度不到30%的緣故,(法律基礎(chǔ)>=3) =>(大學(xué)英語1>=3)沒有作為規(guī)則輸出。

      4 結(jié)語

      數(shù)據(jù)挖掘是一項(xiàng)復(fù)雜技術(shù),本文介紹了經(jīng)典頻繁集算法進(jìn)行多維關(guān)聯(lián)分析的方法,討論了如何將多維關(guān)聯(lián)分析簡(jiǎn)化為一維關(guān)聯(lián)分析,將多次掃描龐大的事實(shí)表轉(zhuǎn)化為掃描相對(duì)較小的交易集表。

      課程很多,項(xiàng)集也會(huì)很大,而經(jīng)典頻繁集算法的缺點(diǎn)之一正是建立了大量頻繁項(xiàng)集,頻繁掃描事實(shí)表。所以對(duì)此種關(guān)聯(lián)分析,經(jīng)典頻繁集算法不是最好的算法,但分步優(yōu)化和使用高維數(shù)據(jù)能使算法復(fù)雜度大大降低。

      參考文獻(xiàn):

      [1] 張兵令,付熙徐,張丹玨.數(shù)據(jù)倉庫的建立與維護(hù)[J].微型電腦應(yīng)用,2006(2):1519.

      [2] 朱揚(yáng)勇.高級(jí)數(shù)據(jù)庫應(yīng)用開發(fā)[M].北京:清華大學(xué)出版社,2007.

      [3] JIAWEI HAN,MICHELINE KAMBR.數(shù)據(jù)挖掘——概念與技術(shù)[M].影印版.北京:高等教育出版社,2001.

      [4] [美]OLIVIA PARR RUD.數(shù)據(jù)挖掘?qū)嵺`[M].朱揚(yáng)勇,左子葉,張忠平,譯.北京:機(jī)械工業(yè)出版社,2003.

      [5] 康曉東.基于數(shù)據(jù)倉庫的數(shù)據(jù)挖掘技術(shù)[M].北京:機(jī)械工業(yè)出版社,2004.

      (責(zé)任編輯:杜能鋼)

      猜你喜歡
      關(guān)聯(lián)分析數(shù)據(jù)挖掘
      探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
      基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
      電力與能源(2017年6期)2017-05-14 06:19:37
      玉米骨干親本及其衍生系中基因的序列變異及與株高等性狀的關(guān)聯(lián)分析
      玉米骨干親本及其衍生系中基因的序列變異及與株高等性狀的關(guān)聯(lián)分析
      基于隨機(jī)函數(shù)Petri網(wǎng)的系統(tǒng)動(dòng)力學(xué)關(guān)聯(lián)分析模型
      數(shù)據(jù)挖掘技術(shù)在中醫(yī)診療數(shù)據(jù)分析中的應(yīng)用
      基于關(guān)聯(lián)分析的學(xué)生活動(dòng)參與度與高校社團(tuán)管理實(shí)證研究
      科技視界(2016年15期)2016-06-30 12:43:00
      不同的數(shù)據(jù)挖掘方法分類對(duì)比研究
      一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
      名老中醫(yī)經(jīng)驗(yàn)方用藥加減規(guī)律的研究
      五原县| 乌恰县| 苍南县| 马边| 延吉市| 科技| 新巴尔虎右旗| 奉节县| 三江| 绍兴市| 萍乡市| 临湘市| 永定县| 保靖县| 井研县| 迭部县| 儋州市| 平塘县| 那曲县| 都匀市| 来宾市| 桦南县| 林周县| 顺昌县| 梁河县| 长岛县| 阿城市| 遂溪县| 靖江市| 怀仁县| 聂拉木县| 重庆市| 彭山县| 余姚市| 中宁县| 广汉市| 青铜峡市| 海南省| 攀枝花市| 岳西县| 靖边县|