鄧宗強(qiáng)
摘要:關(guān)聯(lián)規(guī)則是數(shù)據(jù)挖掘的重要方法之一,但傳統(tǒng)的關(guān)聯(lián)規(guī)則算法Apriori需要多次掃描數(shù)據(jù)庫,需要很大的I/O開銷,不能處理節(jié)點(diǎn)失效和負(fù)載均衡。云計(jì)算下的MapReduce模型能夠處理節(jié)點(diǎn)失效并能做到負(fù)載均衡。將傳統(tǒng)的關(guān)聯(lián)規(guī)則算法Apriori進(jìn)行改進(jìn),然后移植到Hadoop平臺(tái),提出了基于MapReduce編程的數(shù)據(jù)挖掘算法,它能高效的、并行的完成海量數(shù)據(jù)挖掘任務(wù)。通過實(shí)驗(yàn)驗(yàn)證了算法的有效性。
關(guān)鍵詞:云計(jì)算;數(shù)據(jù)挖掘;Apriori算法;MapReduce