黃 鑫
德宏師范高等專科學(xué)校,云南 芒市 678400
?
物聯(lián)網(wǎng)數(shù)據(jù)挖掘中Apriori算法的實(shí)踐應(yīng)用研究
黃 鑫*
德宏師范高等??茖W(xué)校,云南 芒市 678400
近年來(lái),由于物聯(lián)網(wǎng)概念的出現(xiàn),在給人們?nèi)粘I顏?lái)帶便利的同時(shí),也在產(chǎn)生的海量的數(shù)據(jù)存儲(chǔ),物聯(lián)網(wǎng)數(shù)據(jù)的不斷增多,加大了用戶在龐大的數(shù)據(jù)中獲取想要的信息的難度。因此,對(duì)于物聯(lián)網(wǎng)中數(shù)據(jù)挖掘能力的研究成為當(dāng)下最熱門的話題。
Apriori算法;物聯(lián)網(wǎng);數(shù)據(jù)挖掘
隨著物聯(lián)網(wǎng)概念的不斷發(fā)展,通過(guò)物聯(lián)網(wǎng)的農(nóng)業(yè)、交通、物流等方面進(jìn)行的活動(dòng)都愈發(fā)廣泛,在不少領(lǐng)域中物聯(lián)網(wǎng)都有著良好的發(fā)揮。物聯(lián)網(wǎng)可以通過(guò)對(duì)數(shù)據(jù)的存儲(chǔ)和分析,解決物聯(lián)網(wǎng)過(guò)程中產(chǎn)生的海量數(shù)據(jù),在此之中數(shù)據(jù)挖掘的意義就顯現(xiàn)了出來(lái)。由于物聯(lián)網(wǎng)數(shù)據(jù)的零散性和無(wú)規(guī)律性,在物聯(lián)網(wǎng)數(shù)據(jù)挖掘之前,必須先對(duì)物聯(lián)網(wǎng)數(shù)據(jù)進(jìn)行量化整理,導(dǎo)致了數(shù)據(jù)挖掘難度增大。而Apriori算法由于其在規(guī)則關(guān)聯(lián)運(yùn)算中的優(yōu)勢(shì),常被用于物聯(lián)網(wǎng)的數(shù)據(jù)挖掘,通過(guò)Apriori運(yùn)算,可以更好的關(guān)聯(lián)用戶數(shù)據(jù),完成對(duì)于物聯(lián)網(wǎng)海量數(shù)據(jù)的挖掘。
(一)物聯(lián)網(wǎng)數(shù)據(jù)挖掘的特點(diǎn)
物聯(lián)網(wǎng)技術(shù)和互聯(lián)網(wǎng)技術(shù)的不斷發(fā)展,在用戶收集和使用數(shù)據(jù)等方面取得了巨大的成功,但在此過(guò)程中,會(huì)產(chǎn)生海量的數(shù)據(jù),難以被歸納和整理。在物聯(lián)網(wǎng)的使用過(guò)程中,通過(guò)傳感設(shè)備,將采集到的信息數(shù)據(jù)向物聯(lián)網(wǎng)數(shù)據(jù)中心傳輸。為了滿足用戶對(duì)于數(shù)據(jù)的使用,數(shù)據(jù)中心會(huì)對(duì)所產(chǎn)生的數(shù)據(jù)進(jìn)行保留,而隨著歷史數(shù)據(jù)的不斷積壓,數(shù)據(jù)中心的負(fù)荷也不斷增加。又由于物聯(lián)網(wǎng)的涉及范圍的廣泛,在使用過(guò)程中所產(chǎn)生的數(shù)據(jù)種類也更加復(fù)雜。由于傳感器的不同類型,如GPS傳感、RFID傳感等傳感終端都可以構(gòu)成物聯(lián)網(wǎng),而不同傳感終端所使用的語(yǔ)言、格式也不相同。
(二)物聯(lián)網(wǎng)海量數(shù)據(jù)挖掘
在物聯(lián)網(wǎng)海量數(shù)據(jù)的研究過(guò)程當(dāng)中,RFID信息數(shù)據(jù)占有主體地位。通過(guò)對(duì)研究對(duì)象的數(shù)據(jù)挖掘,可以在海量數(shù)據(jù)中獲得有價(jià)值的信息。如在RFID傳感終端中,可以得到EPC既標(biāo)簽的標(biāo)識(shí)碼、標(biāo)簽的地點(diǎn)和時(shí)間等數(shù)據(jù)。由于物聯(lián)網(wǎng)的海量數(shù)據(jù)在多方面存在著局限性,對(duì)于物聯(lián)網(wǎng)海量數(shù)據(jù)的挖掘具有巨大的難度。而通過(guò)RFID數(shù)據(jù)分析,對(duì)于物聯(lián)網(wǎng)商業(yè)的決策方式有著非常重要的影響。
(一)數(shù)據(jù)挖掘的系統(tǒng)整體結(jié)構(gòu)
數(shù)據(jù)挖掘系統(tǒng)是由數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)挖掘算法、數(shù)據(jù)挖掘的任務(wù)處理等層面構(gòu)成的,數(shù)據(jù)挖掘系統(tǒng)以Master為主控節(jié)點(diǎn),通過(guò)與用戶進(jìn)行交互、管理整個(gè)系統(tǒng)。而存儲(chǔ)在同一個(gè)部分的節(jié)點(diǎn)中的Map/Reduce化數(shù)據(jù)挖掘算法可以更好的實(shí)現(xiàn)數(shù)據(jù)挖掘的高效性。通過(guò)NameNdoe接受用戶的相關(guān)請(qǐng)求,將用于返回存儲(chǔ)數(shù)據(jù)的DataNode的IP傳送給用戶,并將信息通知通過(guò)網(wǎng)絡(luò)渠道發(fā)送給其他接受副本信息的DataNote。
(二)數(shù)據(jù)挖掘的算法層面
Map/Reduce化深入到了數(shù)據(jù)挖掘的常用算法中,將Apriori算法進(jìn)行Map/Reduce化可以獲得分布式并行的關(guān)聯(lián)規(guī)則算法。在系統(tǒng)數(shù)據(jù)挖掘算法層中,常用算法都集中在該層面的算法節(jié)點(diǎn)里,通過(guò)相應(yīng)的平臺(tái),通過(guò)Msater主控程序節(jié)點(diǎn)進(jìn)行相關(guān)的管理與使用,并根據(jù)不同的客戶需求,對(duì)相關(guān)節(jié)點(diǎn)進(jìn)行傳送算法。
(三)數(shù)據(jù)挖掘的任務(wù)處理
數(shù)據(jù)挖掘的任務(wù)處理層面,是整體系統(tǒng)的核心層面。Master可以通過(guò)調(diào)動(dòng)空閑的DataNode節(jié)點(diǎn),將其導(dǎo)入空閑節(jié)點(diǎn)列表中,通過(guò)用戶的不同請(qǐng)求,獲取DataNote各個(gè)數(shù)據(jù)模塊的存儲(chǔ)信息,通過(guò)采取相應(yīng)的算法,將數(shù)據(jù)進(jìn)行挖掘計(jì)算,再將挖掘計(jì)算后的成果傳送給DataNode節(jié)點(diǎn),根據(jù)計(jì)算任務(wù),通過(guò)HDFS服務(wù)器傳送給Master,再反饋給用戶。這個(gè)過(guò)程中因?yàn)槿∠藬?shù)據(jù)重組與傳送的過(guò)程,所以在整個(gè)系統(tǒng)的運(yùn)行過(guò)程中,效率都會(huì)大大提高。
Apriori算法是一種挖掘布爾關(guān)聯(lián)規(guī)則頻繁項(xiàng)集的算法,在物聯(lián)網(wǎng)數(shù)據(jù)挖掘領(lǐng)域中是最常用也是最有效的算法。所謂的關(guān)聯(lián)規(guī)則挖掘,就是指在關(guān)聯(lián)數(shù)據(jù)當(dāng)中,針對(duì)用戶個(gè)人的資源檢索,根據(jù)某一特定因素進(jìn)行判斷和分析,保證系統(tǒng)整體的行為模式正常進(jìn)行。在此之間,從許多看似無(wú)關(guān)的項(xiàng)里分析其內(nèi)在關(guān)聯(lián)性,在物聯(lián)網(wǎng)的數(shù)據(jù)挖掘中具有重大意義,而在事物中找出頻繁項(xiàng)集和項(xiàng)集之間的關(guān)聯(lián)性,就需要運(yùn)用到關(guān)聯(lián)規(guī)則運(yùn)算。Apriori算法通過(guò)候選集生成和情節(jié)的向下封閉檢測(cè)兩個(gè)階段來(lái)挖掘頻繁項(xiàng)集,讓Apriori算法在數(shù)據(jù)的關(guān)聯(lián)過(guò)程中,向數(shù)據(jù)庫(kù)中存入內(nèi)存,將其實(shí)現(xiàn)在數(shù)據(jù)硬盤之中。使用逐層替代的方法,通過(guò)K項(xiàng)集進(jìn)行(K+1)項(xiàng)集的探索,對(duì)數(shù)據(jù)集進(jìn)行第一層掃描,并生成L1項(xiàng)集,利用L1項(xiàng)集再對(duì)深層次的L2項(xiàng)集進(jìn)行探索,直到頻繁項(xiàng)集為空集。由于任意子集都是頻繁項(xiàng)集,可以將其用來(lái)壓縮并處理搜索空間,加快頻繁項(xiàng)集的生成速度,經(jīng)過(guò)K次循環(huán)搜索,數(shù)據(jù)挖掘通過(guò)操作連接項(xiàng),使LK-1產(chǎn)生候選集CK,在此基礎(chǔ)上進(jìn)行連接操作,讓CK產(chǎn)生頻繁項(xiàng)集LK,從而按照Apriori的性質(zhì)進(jìn)行操作。這種算法固然具有其優(yōu)越性,但卻需要進(jìn)行多次掃描,才能將所有頻繁項(xiàng)集進(jìn)行逐層篩選,由于物聯(lián)網(wǎng)的海量數(shù)據(jù)特性,這種算法在物聯(lián)網(wǎng)方面的運(yùn)用有其局限性,無(wú)法在物聯(lián)網(wǎng)數(shù)據(jù)挖掘領(lǐng)域發(fā)揮作用。
通過(guò)對(duì)于物聯(lián)網(wǎng)數(shù)據(jù)挖掘的研究,可以優(yōu)化物聯(lián)網(wǎng)所存在的弊端,提升物聯(lián)網(wǎng)的實(shí)際運(yùn)用能力,通過(guò)Apriori算法的進(jìn)一步使用,可以對(duì)用戶的個(gè)人信息、學(xué)歷、搜索偏好等進(jìn)行預(yù)估,并給用戶補(bǔ)充其可能想要的相關(guān)資源。
[1]何清.物聯(lián)網(wǎng)與數(shù)據(jù)挖掘云服務(wù)[J].智能系統(tǒng)學(xué)報(bào),2013,3(8):182-183.
[2]周芳.基于關(guān)聯(lián)規(guī)則Apriori算法的物聯(lián)網(wǎng)海量數(shù)據(jù)挖掘系統(tǒng)研究[J].河北北方學(xué)院學(xué)報(bào)·自然科學(xué)版,2015,31(1):15-16.
[3]彭春燕.基于物聯(lián)網(wǎng)的安全架構(gòu)[J].網(wǎng)絡(luò)安全技術(shù)與應(yīng)用,2011,5(2):13-14.
黃鑫(1981-),男,漢族,湖北武漢人,研究生,德宏師范高等??茖W(xué)校,講師,研究方向:數(shù)據(jù)挖掘及物聯(lián)網(wǎng)。
TP
A
1006-0049-(2017)15-0245-01