基于Hadoop的關(guān)聯(lián)規(guī)則挖掘算法研究
——以Apriori算法為例

2016-02-27 06:48:55劉木林朱慶華

計算機技術(shù)與發(fā)展 2016年7期

關(guān)鍵詞：項集數(shù)據(jù)量事務(wù)

劉木林，朱慶華

(南京大學(xué) 信息管理學(xué)院，江蘇南京 210023)

基于Hadoop的關(guān)聯(lián)規(guī)則挖掘算法研究
——以Apriori算法為例

劉木林，朱慶華

(南京大學(xué) 信息管理學(xué)院，江蘇南京 210023)

為了解決傳統(tǒng)關(guān)聯(lián)規(guī)則挖掘算法在挖掘效率、算法擴展性等方面無法適應(yīng)大數(shù)據(jù)挖掘需求的問題，以經(jīng)典的關(guān)聯(lián)規(guī)則挖掘算法—Apriori算法為例，首先基于Hadoop平臺和MapReduce編程模型，實現(xiàn)算法的并行化。在此基礎(chǔ)上，基于事務(wù)縮減的思想對算法進行優(yōu)化，進一步提高算法的挖掘效率。搭建Hadoop集群環(huán)境，對算法的挖掘結(jié)果和挖掘效率進行實驗。通過并行挖掘結(jié)果驗證、串行版與并行版效率對比、挖掘時間與節(jié)點數(shù)目的變化關(guān)系、挖掘時間與數(shù)據(jù)量的變化關(guān)系4組實驗，結(jié)果表明：文中實現(xiàn)的Apriori算法不僅能夠準確挖掘頻繁項集，而且比傳統(tǒng)串行算法具有更高的挖掘性能和可擴展性。該算法能夠更好地適應(yīng)大數(shù)據(jù)集的挖掘要求，能夠?qū)崿F(xiàn)從大規(guī)模數(shù)據(jù)集中高效挖掘頻繁項集和關(guān)聯(lián)規(guī)則。

數(shù)據(jù)挖掘；關(guān)聯(lián)規(guī)則；Hadoop；Apriori

0 引言

關(guān)聯(lián)規(guī)則是指存在于兩個或多個變量之間的一類重要的能被發(fā)現(xiàn)的規(guī)律性，這種規(guī)律性往往對實際的生產(chǎn)生活有著重要的指導(dǎo)作用，因此關(guān)聯(lián)規(guī)則挖掘一直都是數(shù)據(jù)挖掘的一個重要方面。隨著大數(shù)據(jù)時代的來臨，傳統(tǒng)的關(guān)聯(lián)規(guī)則挖掘算法已難以滿足大數(shù)據(jù)量的挖掘需求。Hadoop平臺是在大數(shù)據(jù)背景下誕生的分布式計算平臺。Hadoop的工作方式是并行的，通過并行提高處理效率。因此將傳統(tǒng)挖掘算法的思想基于Hadoop平臺實現(xiàn)，使得傳統(tǒng)關(guān)聯(lián)規(guī)則算法能夠適應(yīng)大規(guī)模數(shù)據(jù)集的處理要求，同時借助Hadoop平臺在分布式處理方面的優(yōu)勢，獲得處理性能方面的提升無疑是很有意義的，而這也正是文中研究的目的所在。

1 關(guān)聯(lián)規(guī)則算法研究現(xiàn)狀

1993年，Agrawal提出關(guān)聯(lián)規(guī)則挖掘后，關(guān)聯(lián)規(guī)則的挖掘算法就成為了研究的一個熱點，相繼出現(xiàn)了很多研究成果。其中最著名的包括Agrawal提出的Apriori算法[1]，這是布爾型關(guān)聯(lián)規(guī)則挖掘的基礎(chǔ)算法，此外Han等提出的改進算法—FP-Growth算法[2]。隨著數(shù)據(jù)量的不斷積累，串行算法越來越難以滿足需要，因此Agrawal等又在1996年創(chuàng)造性地提出了并行的挖掘算法[3]。而Hadoop平臺誕生后，也有研究將關(guān)聯(lián)規(guī)則算法通過Hadoop平臺進行移植和改進。

表1總結(jié)了目前關(guān)聯(lián)規(guī)則算法研究的現(xiàn)狀。

表1 關(guān)聯(lián)規(guī)則算法研究現(xiàn)狀

從文獻調(diào)研中發(fā)現(xiàn)，基于Hadoop平臺實現(xiàn)關(guān)聯(lián)規(guī)則挖掘仍然主要基于Apriori和FP-Growth這兩種基礎(chǔ)算法，在實現(xiàn)并行化的基礎(chǔ)上，再采用優(yōu)化策略對算法進行性能優(yōu)化。但是已有的研究在對算法進行實驗時，大都只專注于提高挖掘性能，并不注重對挖掘結(jié)果的驗證和比較?；谶@種情況，文中重點關(guān)注Apriori算法，首先將算法在Hadoop平臺上進行實現(xiàn)，同時利用事務(wù)縮減思想對算法進行改進，在保證挖掘結(jié)果正確性的前提下，提高算法的挖掘性能和可擴展性。

2 基于Hadoop的Apriori算法的實現(xiàn)與改進

2.1 Hadoop平臺簡介

Hadoop是基于主從結(jié)構(gòu)的架構(gòu)，集群中主要分為master節(jié)點和slave節(jié)點。整個平臺最核心的兩個部分是HDFS(Hadoop Distributed File System)和MapReduce。

HDFS是GFS(Google File System)的開源實現(xiàn)，從架構(gòu)上看是一個主從體系結(jié)構(gòu)，以流式數(shù)據(jù)訪問模式來存儲超大文件[28]。它的高容錯性、高可擴展性、高吞吐率與高獲得性等特點為大數(shù)據(jù)提供了可靠的存儲。而MapReduce則大大降低了并行編程的門檻，并行編程中的工作調(diào)度、負載均衡以及容錯處理等問題均由MapReduce框架負責(zé)。使用MapReduce框架編寫分布式并行程序時，只需要實現(xiàn)框架下的map()和reduce()函數(shù)即可。

2.2 Apriori算法的Hadoop實現(xiàn)

Apriori的Hadoop實現(xiàn)一般有兩種思路，筆者這里是通過迭代MapReduce的方法來實現(xiàn)，因為HDFS默認的數(shù)據(jù)分塊大小是64 MB，如果采取另一種思路來實現(xiàn)，則意味著每個節(jié)點都需要單獨處理64 MB的數(shù)據(jù)量，同時可能會產(chǎn)生數(shù)量龐大的局部頻繁項集。雖然Hadoop允許自定義文件塊的大小，但是這種更改會對Hadoop的可擴展性、伸縮性以及并行性造成影響，并不值得提倡。實現(xiàn)后的程序流程圖見圖1。

圖1 并行后的程序流程圖

下面對程序?qū)崿F(xiàn)的關(guān)鍵細節(jié)進行說明。

(1)初始化過程。

挖掘頻繁項集首先需要確定實際的支持度計數(shù)，這要根據(jù)事務(wù)總數(shù)和輸入的支持度百分比來確定，但實驗中是以文件代替數(shù)據(jù)庫來存儲事務(wù)集，因此需要通過一個單獨的Job來完成事務(wù)總數(shù)的統(tǒng)計，統(tǒng)計完成后再計算出最小支持度計數(shù)，并放入全局配置對象中。

(2)挖掘頻繁1項集。

挖掘頻繁1項集的過程類似于單詞計數(shù)過程，不同的是需要Reducer判斷每個條目的計數(shù)是否滿足最小支持度，并將滿足最小支持度的條目輸出，這個過程同樣需要主進程新建一個Job。

(3)迭代挖掘頻繁k項集。

這一步是整個算法實現(xiàn)的核心。首先需要讀入上一步得出的頻繁1項集，進行連接后產(chǎn)生候選2項集，由于候選2項集的產(chǎn)生無法進行剪枝，因此只需要進行連接步即可，然后再進行候選2項集的支持度計數(shù)與篩選。隨后Mapper從全局配置對象中獲取候選2項集的路徑，然后將文件中的條目讀入放到內(nèi)存中。隨后在map函數(shù)中按行讀入每一條事務(wù)，并將包含于事務(wù)中的候選2項集輸出至Combiner中。Combiner先對本地相同key值的條目進行匯總，將本地匯總結(jié)果輸出至Reducer中，Reducer對全部的結(jié)果進行最終匯總，并且判斷條目的支持度計數(shù)是否滿足最小支持度計數(shù)，如果滿足，則將條目及其支持度輸出至HDFS。主進程在Job完成之后，到對應(yīng)的上一次頻繁項集的輸出路徑中讀取k-1項頻繁項集，并且判斷k-1項頻繁項集是否為空，如果是，則結(jié)束挖掘，如果否，則對讀入的k-1項頻繁項集進行自連接，并利用先驗性質(zhì)進行剪枝，隨后開始一個Job對候選頻繁項集進行支持度計數(shù)，并且不斷迭代這個過程，直到產(chǎn)生的頻繁項集為空。

2.3 基于事務(wù)縮減的算法改進策略

上節(jié)敘述了Apriori算法在Hadoop平臺上實現(xiàn)的基本思路，在這一思路中將數(shù)據(jù)庫的掃描過程實現(xiàn)了并行化，而數(shù)據(jù)庫掃描是Apriori算法的主要瓶頸之一。在基本實現(xiàn)的基礎(chǔ)上，還可以對算法的實現(xiàn)進行改進。表1中分析了Apriori算法的兩處性能瓶頸，對于問題二，文中算法在主程序產(chǎn)生候選項集的過程中應(yīng)用了先驗剪枝，對于候選項集的數(shù)量產(chǎn)生了限制作用。而對于問題一，文中進一步采用事務(wù)縮減的思想來減少數(shù)據(jù)庫事務(wù)的掃描次數(shù)。事務(wù)縮減思想同樣基于頻繁項集的一種性質(zhì)即：不包含任何k-1項頻繁集的事務(wù)不可能包含k項頻繁集，因此在數(shù)據(jù)庫掃描過程中可以將這些事務(wù)進行標記，從而減少需要掃描的事務(wù)數(shù)目，提高挖掘效率。而文中利用了與此相似的另外一種性質(zhì)即：不包含任何候選k項集的事務(wù)不可能包含任何k項頻繁集。

基于事務(wù)縮減的算法改進策略需要解決的第一個問題就是如何唯一地標識每一條事務(wù)記錄。在HDFS中，每個文件都會以64MB的塊為單位進行存儲，每個塊都有一個唯一的URL。此外，在MapReduce執(zhí)行過程中，每個Mapper都需要單獨處理一個split(split與HDFS中的block是相對應(yīng)的)，采用按行讀入事務(wù)記錄的方式時，key值為該行記錄在文件中的偏移字節(jié)數(shù)，對于該記錄而言，此key值可以作為其在該split中的唯一標識。這樣，由split的URL加該事務(wù)記錄的key值便可以將其唯一地標識出來。按照該策略，改進的重點就在Mapper的執(zhí)行邏輯中。即Mapper首先需要獲取split的URL，存入Mapper中的一個成員變量。同時根據(jù)split的URL，根據(jù)約定的路徑找到存儲其剔除列表的文件，并將剔除列表讀入一個HashSet中。map函數(shù)對候選項集計數(shù)時，如果發(fā)現(xiàn)該條事務(wù)不包含任何候選項集，則將其加入最新的剔除列表。最后在Mapper的cleanup函數(shù)中將新的剔除列表附加到剔除文件中，以供下一次掃描時使用。

筆者在測試中發(fā)現(xiàn)，采用事務(wù)縮減進行改進后，在挖掘頻繁3項集時可以剔除約5%的事務(wù)，4項集時可以剔除約10%的事務(wù)，5項集時可以剔除約17%的事務(wù)，6項集時可以剔除約25%的事務(wù)。因此，隨著挖掘的不斷進行，剔除的事務(wù)量會不斷增多，挖掘效率的提升也更加明顯。

3 實驗

3.1 Hadoop分布式環(huán)境搭建

為了進行實驗，筆者搭建了一個小型的集群環(huán)境，包括1個master節(jié)點和2個slave節(jié)點(節(jié)點計算機配置如表2所示)，namenode、jobtracker均位于master節(jié)點，datanode、tasktracker均位于slave節(jié)點，3個節(jié)點統(tǒng)一使用JDK1.7.0_45版本，Hadoop版本則為1.2.1。

表2 集群節(jié)點配置情況

3.2 實驗結(jié)果分析

實驗采用的數(shù)據(jù)為FIMI Repository(Frequent Itemset Mining Implementations Repository，該網(wǎng)站提供大量IEEE國際數(shù)據(jù)挖掘大會上關(guān)于頻繁項集挖掘方面的數(shù)據(jù)集、論文、實驗結(jié)果等資料)提供的一份webdocs事務(wù)數(shù)據(jù)集，該數(shù)據(jù)是由意大利國家研究理事會的Claudio Lucchese等通過Web爬蟲爬取了170萬Web文檔后，通過初步清理(取出html標簽)和分詞，并通過詞干提取算法，獲得了出現(xiàn)在文檔中的所有單詞的事務(wù)集(同一個文檔中一個單詞只計1次，并將相應(yīng)的單詞轉(zhuǎn)換為數(shù)字id來表示)。文件大小為1.4 GB，包含169萬條事務(wù)集，其中最長的事務(wù)集約包含7萬個條目。為了方便實驗的進行，在原文件的基礎(chǔ)上，將文件分割成50 MB，100 MB，150 MB，200 MB，250 MB，300 MB，500 MB，750 MB，1 GB，1.4 GB等分塊。另外，筆者利用Java語言實現(xiàn)了單機串行版的Apriori算法(以下簡稱串行版)，并將串行版與并行算法的效率進行對比，其中串行版程序都運行在slave1節(jié)點上，實驗共分為3組進行，每次實驗都運行3次取平均值。

(1)并行挖掘結(jié)果驗證。

挖掘結(jié)果的驗證主要通過串行程序與并行程序挖掘結(jié)果的對比來展示，如果并行程序的挖掘結(jié)果與串行程序的一致，則說明筆者實現(xiàn)的并行算法是可靠的，反之則說明并行算法的設(shè)計與實現(xiàn)存在問題，無法得出正確的挖掘結(jié)果。

表3顯示了150 M文件的挖掘結(jié)果；表4顯示了250 M文件的挖掘結(jié)果(FIM1代表頻繁項集1項集，其他的依此類推)。

表3 150 M文件挖掘結(jié)果

表4 250 M文件挖掘結(jié)果

從表中可以看出，串行算法與并行算法挖掘出的頻繁項集的數(shù)目是一致的，另外，筆者對比了從頻繁1項集到頻繁5項集的具體挖掘結(jié)果，均完全一致。因此，文中提出的并行挖掘算法是可靠的，能夠準確挖掘出滿足最小支持度的頻繁項集。

(2)串行版與并行版效率對比。

分別利用串行版程序與并行版程序?qū)Υ笮?0 MB，100 MB，150 MB，200 MB，250 MB，300 MB，350 MB，400 MB，450 MB，500 MB的數(shù)據(jù)進行挖掘，最小支持度設(shè)為0.25，實驗結(jié)果見圖2。

圖2 串行版與并行版效率對比

從圖中可以看出，在數(shù)據(jù)量較小時，并行算法由于在工作調(diào)度等方面的開銷，并沒有體現(xiàn)出挖掘效率的優(yōu)勢。而隨著數(shù)據(jù)量的不斷積累，并行算法的優(yōu)勢逐漸體現(xiàn)出來，挖掘時間也大大少于串行算法。更重要的是，串行算法在挖掘500 MB以上的數(shù)據(jù)量時，內(nèi)存不足等方面的限制會導(dǎo)致運行失敗，除非繼續(xù)改進單機的配置，否則無法繼續(xù)挖掘更大的數(shù)據(jù)，而并行算法則不存在這樣的問題。

(3)挖掘時間與節(jié)點數(shù)目的變化關(guān)系。

筆者搭建的集群共有3臺計算機，其中配置較好的一臺即作為NameNode、JobTracker，也作為DataNode、TaskTracker。分別將集群調(diào)整為1個節(jié)點、2個節(jié)點、3個節(jié)點，并對300 M的數(shù)據(jù)進行挖掘，設(shè)最小支持度為0.25，實驗結(jié)果見圖3。

圖3 挖掘時間與節(jié)點數(shù)目的變化關(guān)系

從圖中可以看出，計算節(jié)點的增大能夠明顯提高挖掘效率，這也是分布式計算可擴展性方面的最大優(yōu)勢之一，即通過節(jié)點的靈活配置，可以很輕松地應(yīng)對大數(shù)據(jù)的處理。

(4)挖掘時間與數(shù)據(jù)量的變化關(guān)系。

采用并行版程序分別挖掘大小為100 MB，200 MB，300 MB，400 MB，500 MB，600 MB，700 MB，800 MB，900 MB，1 000 MB，1 100 MB，1 200 MB，1 300 MB，1 400 MB的數(shù)據(jù)集，設(shè)置最小支持度為0.25，觀察隨著數(shù)據(jù)量的增加挖掘時間的變化情況，實驗結(jié)果如圖4所示。

圖4 挖掘時間與數(shù)據(jù)量的變化關(guān)系

從圖中可以看出，隨著挖掘數(shù)據(jù)量的不斷增長，挖掘時間的增長速度低于線性增長速度，并且接近于對數(shù)增長速度，而圖3中的普通串行算法的挖掘時間會因數(shù)據(jù)量的增加而迅速增長，說明文中算法對于數(shù)據(jù)量的增長有著更好的適應(yīng)性。如果結(jié)合計算節(jié)點的適當擴展，完全能夠適應(yīng)更大數(shù)據(jù)量的挖掘要求。

4 結(jié)束語

文中通過Hadoop平臺實現(xiàn)了Apriori算法的并行化，通過事務(wù)集的并行掃描大大提高了算法的執(zhí)行效率，同時為了減少數(shù)據(jù)庫的掃描消耗，運用事務(wù)縮減思想優(yōu)化算法實現(xiàn)，進一步提高了算法效率。經(jīng)過一系列的實驗表明，文中實現(xiàn)的并行Apriori算法在保證挖掘結(jié)果準確的前提下，比普通串行挖掘具有更少的時間消耗，能夠更快速地挖掘出頻繁項集，同時從實驗中看出，并行算法對數(shù)據(jù)量的不斷增長有著更好的適應(yīng)能力，對于大文件也有著很好的挖掘性能。此外，實驗結(jié)果還表明，計算節(jié)點的增加同樣能夠提高挖掘效率，這也是分布式集群系統(tǒng)的最大威力所在。綜合來看，文中的研究能夠為大數(shù)據(jù)條件下關(guān)聯(lián)規(guī)則的高效挖掘提供借鑒意義。當然，目前也還存在一些不足，比如最小支持度的變化對算法性能的影響比較明顯，特別在頻繁2項集的挖掘上，因為先驗剪枝無法對候選2項集的產(chǎn)生進行限制，同時文中提出的事務(wù)縮減思想同樣也無法提高頻繁2項集的挖掘效率。因此，下一步的研究重點主要是如何利用哈希散列的方式來限制候選2項集的產(chǎn)生，進一步提高算法的效率。

[1] Agrawal R,Srikant R.Fast algorithms for mining association rules[C]//Proceedings of the 20th VLDB conference.Santiago,Chile:[s.n.],1994:487-499.

[2] Han J,Pei J,Yin Y.Mining frequent patterns without candidate generation[J].ACM SIGMOD Record,2000,29(2):1-12.

[3] Agrawal R,Shafer J C.Parallel mining of association rules[J].IEEE Transactions on Knowledge and Data Engineering,1996,8(6):962-969.

[4] Zaki M J.Scalable algorithms for association mining[J].IEEE Transactions on Knowledge and Data Engineering,2000,12(3):372-390.

[5] Park J S,Chen M S,Yu P S.An effective hash-based algorithm for mining association rules[J].ACM SIGMOD Record,1995,24(2):175-186.

[6] Sarasere A,Omiecinsky E,Navathe S.An efficient algorithm for mining association rules in large databases[C]//Proc of 21st international conference on very large databases.Zurich,Switzerland:[s.n.],1995.

[7] Toivonen H. Sampling large databases for association rules[C]//Proc of conference on very large data bases.[s.l.]:[s.n.],1999:134-145.

[8] 孫逢嘯,倪世宏,謝川.一種基于矩陣的Apriori改進算法[J].計算機仿真,2013,30(8):245-249.

[9] 羅丹,李陶深.一種基于壓縮矩陣的Apriori算法改進研究[J].計算機科學(xué),2013,40(12):75-80.

[10] 高海洋,沈強,張軒溢,等.一種基于數(shù)據(jù)壓縮的Apriori算法[J].計算機工程與應(yīng)用,2013,49(14):117-120.

[11] 楊云,羅艷霞.FP-Growth算法的改進[J].計算機工程與設(shè)計,2010,31(7):1506-1509.

[12] 張玉芳,熊忠陽,耿曉斐,等.Eclat算法的分析及改進[J].計算機工程,2010,36(23):28-30.

[13] 馮培恩,劉嶼,邱清盈,等.提高Eclat算法效率的策略[J].浙江大學(xué)學(xué)報:工學(xué)版,2013,47(2):223-230.

[14] Za?ane O R,El-Hajj M,Lu P.Fast parallel association rule mining without candidacy generation[C]//Proceedings IEEE international conference on data mining.[s.l.]:IEEE,2001:665-668.

[15] Park J S,Chen M S,Yu P.Efficient parallel data mining for association rules[C]//Pissinou N,Silberschatz A,Park E K,et al.Proceedings of the fourth international conference on information and knowledge management.New York,NY,USA:ACM,1995:31-36.

[16] Cheung D W,Han J,Ng V T,et al.A fast distributed algorithm for mining association rules[C]//Proc of fourth international conference on parallel and distributed information systems.[s.l.]:IEEE,1996:31-42.

[17] Yang X Y,Liu Z,Fu Y.MapReduce as a programming model for association rules algorithm on Hadoop[C]//Proc of 3rd international conference on information sciences and interaction sciences.[s.l.]:IEEE,2010:99-102.

[18] Li N,Zeng L,He Q,et al.Parallel implementation of Apriori algorithm based on MapReduce[C]//Proc of 13th ACIS international conference on software engineering,artificial intelligence,networking and parallel & distributed computing.[s.l.]:IEEE,2012:236-241.

[19] Lin M Y,Lee P Y,Hsueh S C.Apriori-based frequent itemset mining algorithms on MapReduce[C]//Proceedings of the 6th international conference on ubiquitous information management and communication.[s.l.]:ACM,2012.

[20] Li L,Zhang M.The strategy of mining association rule based on cloud computing[C]//Proc of international conference on business computing and global informatization.[s.l.]:IEEE,2011:475-478.

[21] Woo J.Apriori-Map/Reduce algorithm[C]//Proc of the 2012 international conference on parallel and distributed processing techniques and applications.Las Vegas:[s.n.],2012.

[22] 章志剛,吉根林.基于迭代式MapReduce的Apriori算法設(shè)計與實現(xiàn)[J].華中科技大學(xué)學(xué)報:自然科學(xué)版,2012(S1):9-12.

[23] 黃立勤,柳燕煌.基于MapReduce并行的Apriori算法改進研究[J].福州大學(xué)學(xué)報:自然科學(xué)版,2011,39(5):680-685.

[24] 范燕燕.基于MapReduce的分布式關(guān)聯(lián)規(guī)則挖掘算法研究[D].哈爾濱:哈爾濱工程大學(xué),2013.

[25] Yong W,Zhe Z,Fang W.A parallel algorithm of association rules based on cloud computing[C]//Proc of 8th international ICST conference on communications and networking in China.[s.l.]:IEEE,2013:415-419.

[26] Zhou L,Zhong Z,Chang J,et al.Balanced parallel FP-growth with MapReduce[C]//Proc of IEEE youth conference on information computing and telecommunications.Beijing:IEEE,2010:243-246.

[27] 周詩慧.基于Hadoop的改進的并行Fp-Growth算法[D].濟南:山東大學(xué),2013.

[28] White T.Hadoop:the definitive guide[M].3rd ed.USA:O'Reillv Media,2012.

Research on Association Rules Mining Algorithm Based on Hadoop—Taking Apriori as an Example

LIU Mu-lin，ZHU Qing-hua

(School of Information Management，Nanjing University，Nanjing 210023，China)

In order to solve the problem that the traditional association rules mining algorithm has been unable to meet the mining needs of large amount of data in the aspect of efficiency and scalability,take Apriori as an example,the algorithm is realized in the parallelization based on Hadoop framework and MapReduce model.On the basis,it is improved using the transaction reduce method for further enhancement of the algorithm’s mining efficiency.The experiment,which consists of verification of parallel mining results,comparison on efficiency between serials and parallel,variable relationship between mining time and node number and between mining time and data amounts,is carried out in the mining results and efficiency by Hadoop clustering.Experiments show that the paralleled Apriori algorithm implemented is able to accurately mine frequent item sets,with a better performance and scalability.It can be better to meet the requirements of big data mining and efficiently mine frequent item sets and association rules from large dataset.

data mining;association rules;Hadoop;Apriori

2015-08-13

2015-11-18

時間：2016-06-22

國家自科基金面上項目(71473114)

劉木林(1991-)，男，碩士研究生，通訊作者，研究方向為互聯(lián)網(wǎng)用戶行為分析；朱慶華，教授，博士生導(dǎo)師，研究方向為網(wǎng)絡(luò)信息資源管理、信息用戶行為、信息政策分析、決策咨詢服務(wù)等。

http://www.cnki.net/kcms/detail/61.1450.TP.20160621.1701.010.html

TP393

1673-629X(2016)07-0001-05

10.3969/j.issn.1673-629X.2016.07.001

基于Hadoop的關(guān)聯(lián)規(guī)則挖掘算法研究——以Apriori算法為例

0 引 言

1 關(guān)聯(lián)規(guī)則算法研究現(xiàn)狀

2 基于Hadoop的Apriori算法的實現(xiàn)與改進

3 實 驗

4 結(jié)束語

基于Hadoop的關(guān)聯(lián)規(guī)則挖掘算法研究
——以Apriori算法為例

0 引言

3 實驗