• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      關(guān)聯(lián)分析在學(xué)生成績數(shù)據(jù)挖掘的應(yīng)用

      2018-02-24 13:55狄曉嬌
      電腦知識與技術(shù) 2018年34期
      關(guān)鍵詞:關(guān)聯(lián)分析數(shù)據(jù)挖掘算法

      狄曉嬌

      摘要:許多的企業(yè)在實際生產(chǎn)和營銷中會產(chǎn)生并積累大量的數(shù)據(jù),怎么才能夠有效地利用這些數(shù)據(jù)成為企業(yè)急需解決的問題。關(guān)聯(lián)分析可以用于分析“哪些物品經(jīng)常被同時購買?”這樣一類的問題,書中將這種問題稱為“購物籃實物”(market basket transaction)。并且列舉了一些關(guān)聯(lián)分析的例子,例如:通過查看哪些商品經(jīng)常在一起購買,比如:買牛奶的顧客同時也有可能同時購買面包。通過分析這些數(shù)據(jù),找出其中的關(guān)聯(lián),可以幫助商家了解用戶的購買行為。這種從海量數(shù)據(jù)中抽取的有用信息,可以幫助商家用于商品定價、商場的物品的擺放、市場促銷、存貨等管理等環(huán)節(jié)。同時這種數(shù)據(jù)分析方式也可以應(yīng)用在網(wǎng)絡(luò)數(shù)據(jù)分析中,例如在社交媒體中發(fā)現(xiàn)一些共同出現(xiàn)的詞。或者從新聞網(wǎng)站點擊流中挖掘當(dāng)前新聞流行的趨勢,挖掘出哪些新聞被用戶廣泛瀏覽或者被搜索引擎廣泛推薦等等。在我們教學(xué)領(lǐng)域可以通過關(guān)聯(lián)規(guī)則的分析,找到考試通過與其他屬性的聯(lián)系。

      關(guān)鍵詞:數(shù)據(jù)挖掘;關(guān)聯(lián)分析;算法

      中圖分類號:TP311? ? ? ? 文獻標(biāo)識碼:A? ? ? ? 文章編號:1009-3044(2018)34-0246-02

      2 Apriori算法

      2.1 Apriori算法基本概念

      Apriori算法是Agrawal 和R.Srikant于1994年提出的,為布爾關(guān)聯(lián)規(guī)則挖掘頻繁項集的原創(chuàng)性算法[AS94b]。

      前面提到,關(guān)聯(lián)分析的目標(biāo)包括兩項:發(fā)現(xiàn)頻繁項集和發(fā)現(xiàn)關(guān)聯(lián)規(guī)則。一般的順序是先找到頻繁項集,后找到關(guān)聯(lián)規(guī)則。因為我們在計算關(guān)聯(lián)規(guī)則的可信度時需要用到頻繁項集的支持度。由于對于項集支持度的計算需要大量的計算,因為無論計算哪個項集的支持度都需要算法遍歷每一條記錄來檢查并記錄,這樣的計算量是一個天文數(shù)字,尤其是對于大量數(shù)據(jù)的計算,明顯是不現(xiàn)實的。所以為了提高對頻繁項集產(chǎn)生的效率,一種稱為先驗性質(zhì)(Apriori Property)的主要性質(zhì)被發(fā)現(xiàn)并且應(yīng)用于壓縮搜索空間。

      先驗性質(zhì)就是頻繁項集的所有非空子集也一定是頻繁的。但是,在實踐中我們更常用的是它的逆否命題,即如果一個項集是非頻繁的,那么它的所有超集也是非頻繁的。

      Apriori算法的兩個輸入?yún)?shù)分別是最小支持度和數(shù)據(jù)集。該算法首先生成所有單個元素的項集列表。然后掃描數(shù)據(jù)集, 以查看哪些項目集滿足最低支持要求, 而那些不滿足最低支持的項將被刪除。然后, 將余下的集組合起來, 生成包含兩個元素的項集。接下來, 重新掃描事務(wù)記錄, 刪除不滿足最低支持的項。此過程將重復(fù), 直到刪除所有項目集。

      具體算法流程是:

      ⑴ 掃描整個數(shù)據(jù)集,得到所有出現(xiàn)過的數(shù)據(jù),作為候選頻繁1項集。k=1,頻繁0項集為空集。

      ⑵ 挖掘頻繁k項集

      a)掃描數(shù)據(jù)計算候選頻繁k項集的支持度

      b)去除候選頻繁k項,集中支持度低于設(shè)定最小支持度閾值的數(shù)據(jù)集,得到頻繁k項集。如果得到的頻繁k項集為空,則直接返回頻繁k-1項集的集合作為算法結(jié)果,算法結(jié)束。如果得到的頻繁k項集只有一項,則直接返回頻繁k項集的集合作為算法結(jié)果,算法結(jié)束。

      c)基于頻繁k項集,連接生成候選頻繁k+1項集。

      ⑶ 令k=k+1,轉(zhuǎn)入步驟2。

      從算法的步驟可以看出,Aprior算法每輪迭代都要掃描數(shù)據(jù)集,因此在數(shù)據(jù)集很大,數(shù)據(jù)種類很多的時候,算法效率很低。

      2.2 Apriori算法總結(jié)

      Apriori算法是一個非常經(jīng)典的頻繁項集的挖掘算法,很多算法都是基于Apriori算法而產(chǎn)生的,包括FP-Tree,GSP, CBA等。這些算法利用了Apriori算法的思想,但是對算法做了改進,數(shù)據(jù)挖掘效率更好一些,因此現(xiàn)在一般很少直接用Apriori算法來挖掘數(shù)據(jù)了,但是理解Apriori算法是理解其他Apriori類算法的前提,同時算法本身也不復(fù)雜,因此研究后使用也十分廣泛。[24]

      3 Apriori算法在學(xué)生成績分析中的應(yīng)用

      3.1 確定關(guān)聯(lián)規(guī)則挖掘?qū)ο?/p>

      運用Apriori算法分析《計算機應(yīng)用基礎(chǔ)》與其后續(xù)課程之間存在的聯(lián)系,本文研究的對象依舊是我校2013至2015級學(xué)生的成績。選取《計算機基礎(chǔ)》及后續(xù)開設(shè)的《Dreamweaver》、《Flash》、《fireworks》等課程的成績,并且將各科成績合并為一個用于關(guān)聯(lián)分析的成績數(shù)據(jù)庫。

      3.2 數(shù)據(jù)的預(yù)處理

      由于在上一章的數(shù)據(jù)預(yù)處理過程中已經(jīng)進行了清理,降維等操作,所以本次省略相關(guān)步驟。所以本文研究課題原始樣本數(shù)據(jù)為2397個,經(jīng)過預(yù)處理可以進行數(shù)據(jù)挖掘的數(shù)據(jù)樣本數(shù)為2253個。本次進行數(shù)據(jù)挖掘的數(shù)據(jù)樣本有效率為94%。

      3.3 數(shù)據(jù)的離散化

      在進行關(guān)聯(lián)分析數(shù)據(jù)挖掘時,為了將數(shù)據(jù)轉(zhuǎn)換成適合關(guān)聯(lián)規(guī)則分析的數(shù)據(jù)格式,所以需要對數(shù)據(jù)進行離散化。將《計算機應(yīng)用基礎(chǔ)》成績,《fireworks》成績劃分為“Super”“Hi”, “Mid”, “Low”“No”幾個等級,將分數(shù)高于90分的數(shù)值用“Super”來替換,將分數(shù)高于80分的數(shù)值用“Hi”來替換,將成績在79分到70分的分數(shù)值用“Mid”替換,將成績在69分到60分的分數(shù)值用“Low”替換,將成績小于60分的分值用“No”替換。這樣經(jīng)過離散化的數(shù)據(jù)如圖1所示:

      3.4 使用SPSS Modeler的成績關(guān)聯(lián)分析

      SPSS Modeler 數(shù)據(jù)挖掘平臺對已經(jīng)離散化的數(shù)據(jù)進行分析,使用Apriori算法將最小支持度閾值設(shè)為10%,最小置信度閾值設(shè)定50%,具體設(shè)置在圖2。

      經(jīng)過運行軟件得到規(guī)則如圖3。

      根據(jù)以上得到的規(guī)則我們可以看出,Apriori 算法生成的規(guī)則L1 有1個,L2規(guī)則由4個,L3規(guī)則有3個。在挖掘過程中得到的規(guī)則最小支持度為30.368%,最大支持度為96.014%,最小置信度為23.673%,最大置信度為34.133% 最高規(guī)則支持度為32.772% 。選擇有用的規(guī)則可以得到如下結(jié)論:

      基礎(chǔ)成績與以后的學(xué)習(xí)相關(guān)課程成績的相關(guān)性很高,比如基礎(chǔ)成績好的同學(xué),其他科目有可能得到較高的分數(shù),而基礎(chǔ)成績一般的同學(xué)今后學(xué)習(xí)相關(guān)課程的成績也一般。

      基礎(chǔ)成績好的同學(xué)有50%以上的可能在Fireworks也有高的成績,并且置信度也有43.6%。

      根據(jù)以上的結(jié)果,我們可以分析出基礎(chǔ)課學(xué)習(xí)成績好或中等的同學(xué)中,其他學(xué)期在計算機相關(guān)課程中也有很大的可能得到較好的成績。因此可以看出《計算機應(yīng)用基礎(chǔ)》的好壞對與后續(xù)課程的學(xué)習(xí)起到了重要的作用。

      因此在日常的學(xué)習(xí)過程中,要提高對《計算機應(yīng)用基礎(chǔ)》的學(xué)習(xí)的重視,教師在教學(xué)中也要對《計算機應(yīng)用基礎(chǔ)》的教學(xué)方法和教學(xué)手段更加重視,努力在課堂授課中提高學(xué)生對于該門課程的學(xué)習(xí)興趣,從而激發(fā)起學(xué)生學(xué)習(xí)的熱情,為今后的學(xué)習(xí)打好基礎(chǔ),從而進一步提高。

      4 小結(jié)

      信息化技術(shù)的高速發(fā)展,對于高校教師教學(xué)既是機遇又是一項挑戰(zhàn),因此如何更有效的利用現(xiàn)有資源,利用現(xiàn)代化科技,對現(xiàn)有的數(shù)據(jù)進行有效的挖掘,通過挖掘找到授課過程中影響學(xué)生的學(xué)習(xí)因素,以更好地讓科技服務(wù)于教學(xué),對于教師而言是一個十分必要而且是一個長期探索的過程。

      【通聯(lián)編輯:代影】

      猜你喜歡
      關(guān)聯(lián)分析數(shù)據(jù)挖掘算法
      基于MapReduce的改進Eclat算法
      Travellng thg World Full—time for Rree
      進位加法的兩種算法
      基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
      基于隨機函數(shù)Petri網(wǎng)的系統(tǒng)動力學(xué)關(guān)聯(lián)分析模型
      一種改進的整周模糊度去相關(guān)算法
      一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
      基于GPGPU的離散數(shù)據(jù)挖掘研究
      沙坪坝区| 萍乡市| 卓尼县| 南京市| 安仁县| 厦门市| 屏东市| 义马市| 扎兰屯市| 应城市| 阳山县| 仁布县| 玉树县| 东乡族自治县| 政和县| 罗江县| 遂昌县| 义乌市| 轮台县| 东港市| 梨树县| 高阳县| 岫岩| 黄陵县| 南澳县| 广河县| 巴林左旗| 民勤县| 荥经县| 义乌市| 苍溪县| 修水县| 长垣县| 兰坪| 鸡西市| 观塘区| 肥乡县| 万盛区| 久治县| 龙南县| 旌德县|