楊帆 杜瑋 陳經(jīng)優(yōu)
隨著計(jì)算機(jī)技術(shù)的迅猛發(fā)展,使得現(xiàn)代信息技術(shù)也得到了發(fā)展,數(shù)據(jù)挖掘技術(shù)被廣泛地應(yīng)用到許多領(lǐng)域當(dāng)中。而數(shù)據(jù)挖掘技術(shù)中最常用的算法則是關(guān)聯(lián)規(guī)則算法,它能夠?qū)Υ罅康臄?shù)據(jù)和信息進(jìn)行處理, 在數(shù)據(jù)庫中將繁瑣的項(xiàng)集找出來,經(jīng)過處理之后,將項(xiàng)集與項(xiàng)集之間的關(guān)聯(lián)關(guān)系建立起來,然后從中挖掘出有用的信息。本文針對(duì)數(shù)據(jù)挖掘中的關(guān)聯(lián)規(guī)則算法進(jìn)行研究。
【關(guān)鍵詞】數(shù)據(jù)挖掘 關(guān)聯(lián)規(guī)則算法 Apriori算法
隨著現(xiàn)代科學(xué)技術(shù)和數(shù)據(jù)庫技術(shù)的迅猛發(fā)展,人們積累越來越多的數(shù)據(jù),海量的數(shù)據(jù)背后隱藏著很多重要的信息,人們希望能夠?qū)ζ溥M(jìn)行更高層次的分析,以求更好地了解這些數(shù)據(jù)背后的價(jià)值。目前的數(shù)據(jù)庫系統(tǒng)可以快速地實(shí)現(xiàn)對(duì)數(shù)據(jù)的操作,卻難以發(fā)掘數(shù)據(jù)中存在的關(guān)系和規(guī)則,也就難以根據(jù)現(xiàn)有的數(shù)據(jù)預(yù)測(cè)未來的發(fā)展趨勢(shì)。因此,需要找到新的、更為有效的方法對(duì)這些數(shù)據(jù)進(jìn)行挖掘,以便獲得有價(jià)值的信息并加以利用。
1 數(shù)據(jù)挖掘
數(shù)據(jù)挖掘(Data Mining,簡(jiǎn)稱DM),其功能是指從龐大的數(shù)據(jù)中挖掘或抽取出知識(shí)。雖然它的出現(xiàn)并沒有多久,但自二十世紀(jì)八十年代末到現(xiàn)在,它的發(fā)展迅速,而且它跨越多個(gè)學(xué)科,到現(xiàn)在也沒有一個(gè)確切的定義,許多不同的研究領(lǐng)域的人們提出的定義也不盡相同。隨著對(duì)數(shù)據(jù)挖掘的研究越來越深入,如何定義數(shù)據(jù)挖掘也是越來越清晰,而由 Fayyad等人給出的定義是大家比較認(rèn)可的。當(dāng)前能被大眾普遍接受的定義是:數(shù)據(jù)挖掘(簡(jiǎn)稱DM) 是一種通過數(shù)理模式來分析企業(yè)數(shù)據(jù)庫存儲(chǔ)的龐大的數(shù)據(jù),從不同的客戶或市場(chǎng)劃分找到消費(fèi)者愛好和行為的方法。
由于規(guī)則AC的支持度和置信度都大于或者等于最小支持度和最小置信度,因此規(guī)則AC是強(qiáng)關(guān)聯(lián)規(guī)則。
3 關(guān)聯(lián)規(guī)則的典型算法分析
在所有的關(guān)聯(lián)規(guī)則算法中,Apriori 算法是比較著名的,這個(gè)算法可以從關(guān)聯(lián)規(guī)則中挖掘出的頻繁項(xiàng)集。這個(gè)算法采用頻繁項(xiàng)集或者是大項(xiàng)目集的性質(zhì): 任意一個(gè)大項(xiàng)目集的子集也一定是大的。如果一個(gè)項(xiàng)目集滿足最小支持度的設(shè)置要求,則它全部的子集也一定滿足最小支持度的設(shè)置要求。其逆否命題是這樣的,假如一個(gè)項(xiàng)目集是小的,根據(jù)性質(zhì)它們也肯定是小的。因此,沒有得到它的任意一個(gè)超集來作為候選的必要。
Apriori算法發(fā)現(xiàn)關(guān)聯(lián)規(guī)則的過程一共分為以下兩步。
(1)通過迭代的方法,檢索出事務(wù)數(shù)據(jù)庫中所有支持度不能低于最小支持度項(xiàng)集--頻繁項(xiàng)集。
(2)采用頻繁項(xiàng)集構(gòu)造出滿足用戶最小信任度的規(guī)則。其作用主要是為了挖掘或識(shí)別出所有的頻繁項(xiàng)集。
Apriori算法的核心內(nèi)容的描述如圖2-3所示。
第一步得到的是頻繁1-項(xiàng)集L1,接著是得到頻繁2-項(xiàng)集L2,當(dāng)出現(xiàn)某個(gè)k的值使得Lk=Ф,當(dāng)Lk=Ф時(shí)則算法結(jié)束。在進(jìn)行到第k次循環(huán)的時(shí)候,首先得到的是候選k-項(xiàng)集的集合,中的每一個(gè)項(xiàng)集是對(duì)兩個(gè)只有一個(gè)項(xiàng)不同的屬于-1的頻集做一個(gè)(k-2)連接來產(chǎn)生的。中的項(xiàng)集是用來產(chǎn)生頻繁項(xiàng)集的候選集,最后的頻繁項(xiàng)集一定是的一個(gè)子集。先在交易的數(shù)據(jù)庫中進(jìn)行求證,然后才決定中的每個(gè)元素是否可以加入,這個(gè)求證過程需要掃描數(shù)據(jù)庫,這也是該算法性能的一個(gè)缺點(diǎn)。每次求證都需要掃描一次數(shù)據(jù)庫,對(duì)于數(shù)據(jù)庫很大的話則需要多次掃描數(shù)據(jù)庫,例如頻繁項(xiàng)集含有10個(gè)項(xiàng),則需要掃描10遍數(shù)據(jù)庫,這對(duì)于I/O來說是一個(gè)很大的負(fù)擔(dān)。也許會(huì)產(chǎn)生大量的候選集,或者是需要重復(fù)掃描數(shù)據(jù)庫,這是Apriori算法的兩個(gè)不足之處。
4 結(jié)束語
數(shù)據(jù)挖掘技術(shù),由于其廣泛的實(shí)用前景,得到很多這方面的研究者的關(guān)注。目前,國外對(duì)于數(shù)據(jù)挖掘技術(shù)的研究正蒸蒸日上,而國內(nèi)在數(shù)據(jù)挖掘方面的研究也越來越多。本文主要是對(duì)數(shù)據(jù)挖掘技術(shù)中的一個(gè)重要部分即關(guān)聯(lián)規(guī)則作了比較深入的研究,主要是分析數(shù)據(jù)挖掘中的關(guān)聯(lián)規(guī)則算法。雖然Apriori算法需要多次掃描數(shù)據(jù)庫,當(dāng)數(shù)據(jù)庫比較大時(shí)算法的效率受到了很大的制約。而當(dāng)數(shù)據(jù)庫不是很大時(shí),Apriori算法仍不失為一個(gè)好的挖掘關(guān)聯(lián)規(guī)則的算法。
參考文獻(xiàn)
[1]陸建江,張亞非,宋自林.模糊關(guān)聯(lián)規(guī)則的研究與應(yīng)用[M].北京:科學(xué)出版社,2010.
[2]王欣,徐騰飛,唐連章.SQLServer2005數(shù)據(jù)挖掘?qū)嵗治鯷M].北京:中國水利水電出版社,2012.
[3]袁繼東,郁有全.層次分析法在地空導(dǎo)彈團(tuán)戰(zhàn)斗力評(píng)估中的應(yīng)用[J].西安:空軍工程大學(xué)學(xué)報(bào)(自然科學(xué)版)2011,5(1):80-83.
[4]JamieMacLennan.數(shù)據(jù)挖掘原理與應(yīng)用—SQLServer[M].北京:清華大學(xué)出版社,2012.
作者簡(jiǎn)介
楊帆(1982-),男,海南省東方市人?,F(xiàn)為海南軟件職業(yè)技術(shù)學(xué)院講師。
杜瑋女,江蘇省徐州市人?,F(xiàn)為海南軟件職業(yè)技術(shù)學(xué)院助教。
陳經(jīng)優(yōu),女,海南省東方市人?,F(xiàn)為海南軟件職業(yè)技術(shù)學(xué)院講師。
作者單位
海南軟件職業(yè)技術(shù)學(xué)院 海南省瓊海市 571400endprint