• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      數(shù)據(jù)挖掘中關(guān)聯(lián)規(guī)則算法的研究

      2015-02-04 09:39楊帆杜瑋陳經(jīng)優(yōu)
      電子技術(shù)與軟件工程 2014年22期
      關(guān)鍵詞:Apriori算法數(shù)據(jù)挖掘

      楊帆 杜瑋 陳經(jīng)優(yōu)

      隨著計(jì)算機(jī)技術(shù)的迅猛發(fā)展,使得現(xiàn)代信息技術(shù)也得到了發(fā)展,數(shù)據(jù)挖掘技術(shù)被廣泛地應(yīng)用到許多領(lǐng)域當(dāng)中。而數(shù)據(jù)挖掘技術(shù)中最常用的算法則是關(guān)聯(lián)規(guī)則算法,它能夠?qū)Υ罅康臄?shù)據(jù)和信息進(jìn)行處理, 在數(shù)據(jù)庫中將繁瑣的項(xiàng)集找出來,經(jīng)過處理之后,將項(xiàng)集與項(xiàng)集之間的關(guān)聯(lián)關(guān)系建立起來,然后從中挖掘出有用的信息。本文針對(duì)數(shù)據(jù)挖掘中的關(guān)聯(lián)規(guī)則算法進(jìn)行研究。

      【關(guān)鍵詞】數(shù)據(jù)挖掘 關(guān)聯(lián)規(guī)則算法 Apriori算法

      隨著現(xiàn)代科學(xué)技術(shù)和數(shù)據(jù)庫技術(shù)的迅猛發(fā)展,人們積累越來越多的數(shù)據(jù),海量的數(shù)據(jù)背后隱藏著很多重要的信息,人們希望能夠?qū)ζ溥M(jìn)行更高層次的分析,以求更好地了解這些數(shù)據(jù)背后的價(jià)值。目前的數(shù)據(jù)庫系統(tǒng)可以快速地實(shí)現(xiàn)對(duì)數(shù)據(jù)的操作,卻難以發(fā)掘數(shù)據(jù)中存在的關(guān)系和規(guī)則,也就難以根據(jù)現(xiàn)有的數(shù)據(jù)預(yù)測(cè)未來的發(fā)展趨勢(shì)。因此,需要找到新的、更為有效的方法對(duì)這些數(shù)據(jù)進(jìn)行挖掘,以便獲得有價(jià)值的信息并加以利用。

      1 數(shù)據(jù)挖掘

      數(shù)據(jù)挖掘(Data Mining,簡(jiǎn)稱DM),其功能是指從龐大的數(shù)據(jù)中挖掘或抽取出知識(shí)。雖然它的出現(xiàn)并沒有多久,但自二十世紀(jì)八十年代末到現(xiàn)在,它的發(fā)展迅速,而且它跨越多個(gè)學(xué)科,到現(xiàn)在也沒有一個(gè)確切的定義,許多不同的研究領(lǐng)域的人們提出的定義也不盡相同。隨著對(duì)數(shù)據(jù)挖掘的研究越來越深入,如何定義數(shù)據(jù)挖掘也是越來越清晰,而由 Fayyad等人給出的定義是大家比較認(rèn)可的。當(dāng)前能被大眾普遍接受的定義是:數(shù)據(jù)挖掘(簡(jiǎn)稱DM) 是一種通過數(shù)理模式來分析企業(yè)數(shù)據(jù)庫存儲(chǔ)的龐大的數(shù)據(jù),從不同的客戶或市場(chǎng)劃分找到消費(fèi)者愛好和行為的方法。

      由于規(guī)則AC的支持度和置信度都大于或者等于最小支持度和最小置信度,因此規(guī)則AC是強(qiáng)關(guān)聯(lián)規(guī)則。

      3 關(guān)聯(lián)規(guī)則的典型算法分析

      在所有的關(guān)聯(lián)規(guī)則算法中,Apriori 算法是比較著名的,這個(gè)算法可以從關(guān)聯(lián)規(guī)則中挖掘出的頻繁項(xiàng)集。這個(gè)算法采用頻繁項(xiàng)集或者是大項(xiàng)目集的性質(zhì): 任意一個(gè)大項(xiàng)目集的子集也一定是大的。如果一個(gè)項(xiàng)目集滿足最小支持度的設(shè)置要求,則它全部的子集也一定滿足最小支持度的設(shè)置要求。其逆否命題是這樣的,假如一個(gè)項(xiàng)目集是小的,根據(jù)性質(zhì)它們也肯定是小的。因此,沒有得到它的任意一個(gè)超集來作為候選的必要。

      Apriori算法發(fā)現(xiàn)關(guān)聯(lián)規(guī)則的過程一共分為以下兩步。

      (1)通過迭代的方法,檢索出事務(wù)數(shù)據(jù)庫中所有支持度不能低于最小支持度項(xiàng)集--頻繁項(xiàng)集。

      (2)采用頻繁項(xiàng)集構(gòu)造出滿足用戶最小信任度的規(guī)則。其作用主要是為了挖掘或識(shí)別出所有的頻繁項(xiàng)集。

      Apriori算法的核心內(nèi)容的描述如圖2-3所示。

      第一步得到的是頻繁1-項(xiàng)集L1,接著是得到頻繁2-項(xiàng)集L2,當(dāng)出現(xiàn)某個(gè)k的值使得Lk=Ф,當(dāng)Lk=Ф時(shí)則算法結(jié)束。在進(jìn)行到第k次循環(huán)的時(shí)候,首先得到的是候選k-項(xiàng)集的集合,中的每一個(gè)項(xiàng)集是對(duì)兩個(gè)只有一個(gè)項(xiàng)不同的屬于-1的頻集做一個(gè)(k-2)連接來產(chǎn)生的。中的項(xiàng)集是用來產(chǎn)生頻繁項(xiàng)集的候選集,最后的頻繁項(xiàng)集一定是的一個(gè)子集。先在交易的數(shù)據(jù)庫中進(jìn)行求證,然后才決定中的每個(gè)元素是否可以加入,這個(gè)求證過程需要掃描數(shù)據(jù)庫,這也是該算法性能的一個(gè)缺點(diǎn)。每次求證都需要掃描一次數(shù)據(jù)庫,對(duì)于數(shù)據(jù)庫很大的話則需要多次掃描數(shù)據(jù)庫,例如頻繁項(xiàng)集含有10個(gè)項(xiàng),則需要掃描10遍數(shù)據(jù)庫,這對(duì)于I/O來說是一個(gè)很大的負(fù)擔(dān)。也許會(huì)產(chǎn)生大量的候選集,或者是需要重復(fù)掃描數(shù)據(jù)庫,這是Apriori算法的兩個(gè)不足之處。

      4 結(jié)束語

      數(shù)據(jù)挖掘技術(shù),由于其廣泛的實(shí)用前景,得到很多這方面的研究者的關(guān)注。目前,國外對(duì)于數(shù)據(jù)挖掘技術(shù)的研究正蒸蒸日上,而國內(nèi)在數(shù)據(jù)挖掘方面的研究也越來越多。本文主要是對(duì)數(shù)據(jù)挖掘技術(shù)中的一個(gè)重要部分即關(guān)聯(lián)規(guī)則作了比較深入的研究,主要是分析數(shù)據(jù)挖掘中的關(guān)聯(lián)規(guī)則算法。雖然Apriori算法需要多次掃描數(shù)據(jù)庫,當(dāng)數(shù)據(jù)庫比較大時(shí)算法的效率受到了很大的制約。而當(dāng)數(shù)據(jù)庫不是很大時(shí),Apriori算法仍不失為一個(gè)好的挖掘關(guān)聯(lián)規(guī)則的算法。

      參考文獻(xiàn)

      [1]陸建江,張亞非,宋自林.模糊關(guān)聯(lián)規(guī)則的研究與應(yīng)用[M].北京:科學(xué)出版社,2010.

      [2]王欣,徐騰飛,唐連章.SQLServer2005數(shù)據(jù)挖掘?qū)嵗治鯷M].北京:中國水利水電出版社,2012.

      [3]袁繼東,郁有全.層次分析法在地空導(dǎo)彈團(tuán)戰(zhàn)斗力評(píng)估中的應(yīng)用[J].西安:空軍工程大學(xué)學(xué)報(bào)(自然科學(xué)版)2011,5(1):80-83.

      [4]JamieMacLennan.數(shù)據(jù)挖掘原理與應(yīng)用—SQLServer[M].北京:清華大學(xué)出版社,2012.

      作者簡(jiǎn)介

      楊帆(1982-),男,海南省東方市人?,F(xiàn)為海南軟件職業(yè)技術(shù)學(xué)院講師。

      杜瑋女,江蘇省徐州市人?,F(xiàn)為海南軟件職業(yè)技術(shù)學(xué)院助教。

      陳經(jīng)優(yōu),女,海南省東方市人?,F(xiàn)為海南軟件職業(yè)技術(shù)學(xué)院講師。

      作者單位

      海南軟件職業(yè)技術(shù)學(xué)院 海南省瓊海市 571400endprint

      猜你喜歡
      Apriori算法數(shù)據(jù)挖掘
      基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
      基于Hadoop平臺(tái)的并行DHP數(shù)據(jù)分析方法
      一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
      數(shù)據(jù)挖掘的分析與探索
      基于GPGPU的離散數(shù)據(jù)挖掘研究
      黎平县| 鸡西市| 辉南县| 搜索| 平原县| 历史| 黎川县| 巧家县| 闻喜县| 博爱县| 措美县| 枣强县| 宝清县| 扎鲁特旗| 蚌埠市| 乐山市| 乌鲁木齐县| 泰来县| 赞皇县| 三门县| 阳信县| 会理县| 江口县| 阆中市| 大宁县| 平凉市| 合作市| 武威市| 大理市| 金川县| 会理县| 慈溪市| 康平县| 军事| 阿克苏市| 南和县| 壶关县| 孟村| 洞口县| 庆安县| 班玛县|