數(shù)據(jù)挖掘中關(guān)聯(lián)規(guī)則算法的研究

2015-02-04 09:39楊帆杜瑋陳經(jīng)優(yōu)

電子技術(shù)與軟件工程 2014年22期

楊帆　杜瑋　陳經(jīng)優(yōu)

隨著計(jì)算機(jī)技術(shù)的迅猛發(fā)展，使得現(xiàn)代信息技術(shù)也得到了發(fā)展，數(shù)據(jù)挖掘技術(shù)被廣泛地應(yīng)用到許多領(lǐng)域當(dāng)中。而數(shù)據(jù)挖掘技術(shù)中最常用的算法則是關(guān)聯(lián)規(guī)則算法，它能夠?qū)Υ罅康臄?shù)據(jù)和信息進(jìn)行處理，在數(shù)據(jù)庫中將繁瑣的項(xiàng)集找出來，經(jīng)過處理之后，將項(xiàng)集與項(xiàng)集之間的關(guān)聯(lián)關(guān)系建立起來，然后從中挖掘出有用的信息。本文針對(duì)數(shù)據(jù)挖掘中的關(guān)聯(lián)規(guī)則算法進(jìn)行研究。

【關(guān)鍵詞】數(shù)據(jù)挖掘關(guān)聯(lián)規(guī)則算法 Apriori算法

隨著現(xiàn)代科學(xué)技術(shù)和數(shù)據(jù)庫技術(shù)的迅猛發(fā)展，人們積累越來越多的數(shù)據(jù)，海量的數(shù)據(jù)背后隱藏著很多重要的信息，人們希望能夠?qū)ζ溥M(jìn)行更高層次的分析，以求更好地了解這些數(shù)據(jù)背后的價(jià)值。目前的數(shù)據(jù)庫系統(tǒng)可以快速地實(shí)現(xiàn)對(duì)數(shù)據(jù)的操作，卻難以發(fā)掘數(shù)據(jù)中存在的關(guān)系和規(guī)則，也就難以根據(jù)現(xiàn)有的數(shù)據(jù)預(yù)測(cè)未來的發(fā)展趨勢(shì)。因此，需要找到新的、更為有效的方法對(duì)這些數(shù)據(jù)進(jìn)行挖掘，以便獲得有價(jià)值的信息并加以利用。

1 數(shù)據(jù)挖掘

數(shù)據(jù)挖掘（Data Mining，簡(jiǎn)稱DM），其功能是指從龐大的數(shù)據(jù)中挖掘或抽取出知識(shí)。雖然它的出現(xiàn)并沒有多久，但自二十世紀(jì)八十年代末到現(xiàn)在，它的發(fā)展迅速，而且它跨越多個(gè)學(xué)科，到現(xiàn)在也沒有一個(gè)確切的定義，許多不同的研究領(lǐng)域的人們提出的定義也不盡相同。隨著對(duì)數(shù)據(jù)挖掘的研究越來越深入，如何定義數(shù)據(jù)挖掘也是越來越清晰，而由 Fayyad等人給出的定義是大家比較認(rèn)可的。當(dāng)前能被大眾普遍接受的定義是：數(shù)據(jù)挖掘（簡(jiǎn)稱DM）是一種通過數(shù)理模式來分析企業(yè)數(shù)據(jù)庫存儲(chǔ)的龐大的數(shù)據(jù)，從不同的客戶或市場(chǎng)劃分找到消費(fèi)者愛好和行為的方法。

由于規(guī)則AC的支持度和置信度都大于或者等于最小支持度和最小置信度，因此規(guī)則AC是強(qiáng)關(guān)聯(lián)規(guī)則。

3 關(guān)聯(lián)規(guī)則的典型算法分析

在所有的關(guān)聯(lián)規(guī)則算法中，Apriori 算法是比較著名的，這個(gè)算法可以從關(guān)聯(lián)規(guī)則中挖掘出的頻繁項(xiàng)集。這個(gè)算法采用頻繁項(xiàng)集或者是大項(xiàng)目集的性質(zhì)：任意一個(gè)大項(xiàng)目集的子集也一定是大的。如果一個(gè)項(xiàng)目集滿足最小支持度的設(shè)置要求，則它全部的子集也一定滿足最小支持度的設(shè)置要求。其逆否命題是這樣的，假如一個(gè)項(xiàng)目集是小的，根據(jù)性質(zhì)它們也肯定是小的。因此，沒有得到它的任意一個(gè)超集來作為候選的必要。

Apriori算法發(fā)現(xiàn)關(guān)聯(lián)規(guī)則的過程一共分為以下兩步。

（1）通過迭代的方法，檢索出事務(wù)數(shù)據(jù)庫中所有支持度不能低于最小支持度項(xiàng)集--頻繁項(xiàng)集。

（2）采用頻繁項(xiàng)集構(gòu)造出滿足用戶最小信任度的規(guī)則。其作用主要是為了挖掘或識(shí)別出所有的頻繁項(xiàng)集。

Apriori算法的核心內(nèi)容的描述如圖2-3所示。

第一步得到的是頻繁1-項(xiàng)集L1，接著是得到頻繁2-項(xiàng)集L2，當(dāng)出現(xiàn)某個(gè)k的值使得Lk=Ф，當(dāng)Lk=Ф時(shí)則算法結(jié)束。在進(jìn)行到第k次循環(huán)的時(shí)候，首先得到的是候選k-項(xiàng)集的集合，中的每一個(gè)項(xiàng)集是對(duì)兩個(gè)只有一個(gè)項(xiàng)不同的屬于-1的頻集做一個(gè)（k-2）連接來產(chǎn)生的。中的項(xiàng)集是用來產(chǎn)生頻繁項(xiàng)集的候選集，最后的頻繁項(xiàng)集一定是的一個(gè)子集。先在交易的數(shù)據(jù)庫中進(jìn)行求證，然后才決定中的每個(gè)元素是否可以加入，這個(gè)求證過程需要掃描數(shù)據(jù)庫，這也是該算法性能的一個(gè)缺點(diǎn)。每次求證都需要掃描一次數(shù)據(jù)庫，對(duì)于數(shù)據(jù)庫很大的話則需要多次掃描數(shù)據(jù)庫，例如頻繁項(xiàng)集含有10個(gè)項(xiàng)，則需要掃描10遍數(shù)據(jù)庫，這對(duì)于I/O來說是一個(gè)很大的負(fù)擔(dān)。也許會(huì)產(chǎn)生大量的候選集，或者是需要重復(fù)掃描數(shù)據(jù)庫，這是Apriori算法的兩個(gè)不足之處。

4 結(jié)束語

數(shù)據(jù)挖掘技術(shù)，由于其廣泛的實(shí)用前景，得到很多這方面的研究者的關(guān)注。目前，國外對(duì)于數(shù)據(jù)挖掘技術(shù)的研究正蒸蒸日上，而國內(nèi)在數(shù)據(jù)挖掘方面的研究也越來越多。本文主要是對(duì)數(shù)據(jù)挖掘技術(shù)中的一個(gè)重要部分即關(guān)聯(lián)規(guī)則作了比較深入的研究，主要是分析數(shù)據(jù)挖掘中的關(guān)聯(lián)規(guī)則算法。雖然Apriori算法需要多次掃描數(shù)據(jù)庫，當(dāng)數(shù)據(jù)庫比較大時(shí)算法的效率受到了很大的制約。而當(dāng)數(shù)據(jù)庫不是很大時(shí)，Apriori算法仍不失為一個(gè)好的挖掘關(guān)聯(lián)規(guī)則的算法。

參考文獻(xiàn)

[1]陸建江，張亞非，宋自林.模糊關(guān)聯(lián)規(guī)則的研究與應(yīng)用[M].北京：科學(xué)出版社，2010.

[2]王欣，徐騰飛，唐連章.SQLServer2005數(shù)據(jù)挖掘?qū)嵗治鯷M].北京：中國水利水電出版社，2012.

[3]袁繼東，郁有全.層次分析法在地空導(dǎo)彈團(tuán)戰(zhàn)斗力評(píng)估中的應(yīng)用[J].西安：空軍工程大學(xué)學(xué)報(bào)（自然科學(xué)版）2011，5（1）：80-83.

[4]JamieMacLennan.數(shù)據(jù)挖掘原理與應(yīng)用—SQLServer[M].北京：清華大學(xué)出版社，2012.

作者簡(jiǎn)介

楊帆（1982-），男，海南省東方市人?，F(xiàn)為海南軟件職業(yè)技術(shù)學(xué)院講師。

杜瑋女，江蘇省徐州市人?，F(xiàn)為海南軟件職業(yè)技術(shù)學(xué)院助教。

陳經(jīng)優(yōu)，女，海南省東方市人?，F(xiàn)為海南軟件職業(yè)技術(shù)學(xué)院講師。

作者單位

海南軟件職業(yè)技術(shù)學(xué)院海南省瓊海市 571400endprint

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

數(shù)據(jù)挖掘中關(guān)聯(lián)規(guī)則算法的研究