丁錦華
摘要:當(dāng)前廣泛使用的被動數(shù)據(jù)快速關(guān)聯(lián)算法存在關(guān)聯(lián)準(zhǔn)確性較低的不足,為此提出了一種基于云計算平臺的復(fù)雜網(wǎng)絡(luò)被動數(shù)據(jù)快速關(guān)聯(lián)算法?;谠朴嬎闫脚_的引入,依托復(fù)雜網(wǎng)絡(luò)下的被動數(shù)據(jù)節(jié)點(diǎn)解析,確定被動數(shù)據(jù)快速關(guān)聯(lián)算法核心步驟,實現(xiàn)了基于云計算平臺的復(fù)雜網(wǎng)絡(luò)被動數(shù)據(jù)快速關(guān)聯(lián)算法設(shè)計。試驗數(shù)據(jù)表明,提出的快速關(guān)聯(lián)算法較常規(guī)算法,具有較高的關(guān)聯(lián)準(zhǔn)確性以及穩(wěn)定性,適合復(fù)雜網(wǎng)絡(luò)下被動數(shù)據(jù)的快速關(guān)聯(lián)計算。
關(guān)鍵詞:云計算平臺;復(fù)雜網(wǎng)絡(luò);被動數(shù)據(jù);關(guān)聯(lián)算法
中圖分類號:N37 文獻(xiàn)標(biāo)識碼:A
文章編號:1009-3044(2019)30-pppp-O
目前,我國對海量數(shù)據(jù)處理方式主要有兩種,一種是多處理器的服務(wù)器進(jìn)行處理,一種是采用高內(nèi)存處理器的服務(wù)器進(jìn)行處理,但是由于技術(shù)問題,這兩種處理方式均存在著一定的問題,比如處理器有限問題等等。從計算能力到存儲能力均越來越無法有效的支撐網(wǎng)絡(luò)數(shù)據(jù)的“挖掘”海量數(shù)據(jù)處理分析進(jìn)人到了一個“瓶頸”期,它直接導(dǎo)致了網(wǎng)絡(luò)數(shù)據(jù)的潛在利用價值實效。與此同時,Google MapReduce、Spark、Hadoop、BigTable以及GFS等一系列支持海量數(shù)據(jù)分析與儲存工具出現(xiàn),有效的解決了大數(shù)據(jù)的“瓶頸”問題嘲。本文在立足我國現(xiàn)有數(shù)據(jù)分析的基礎(chǔ)之上,進(jìn)一步設(shè)計了一種新型的研究算法——基于云計算平臺的復(fù)雜網(wǎng)絡(luò)被動數(shù)據(jù)快速關(guān)聯(lián)算法。
1基于云計算平臺的復(fù)雜網(wǎng)絡(luò)被動數(shù)據(jù)快速關(guān)聯(lián)算法設(shè)計
1.1云計算平臺的引入
在我國現(xiàn)有的云計算平臺和復(fù)雜網(wǎng)絡(luò)的經(jīng)典算法基礎(chǔ)之上深入的研究,同時提出提出基于云計算平臺的復(fù)雜網(wǎng)絡(luò)被動數(shù)據(jù)快速關(guān)聯(lián)算法。根據(jù)算法的特點(diǎn)進(jìn)一步選擇合適的云計算平臺,以此來設(shè)計適當(dāng)?shù)臄?shù)據(jù)結(jié)構(gòu)。針對不同的云計算平臺所具有的不同應(yīng)用場景,在恰當(dāng)?shù)脑朴嬎闫脚_上進(jìn)行巧妙的算法設(shè)計以此來明顯提高算法效率。
引入云計算平臺,利用云計算平臺的方式,進(jìn)行復(fù)雜網(wǎng)絡(luò)被動數(shù)據(jù)快速關(guān)聯(lián)計算。引入云計算平臺過程首先應(yīng)確定復(fù)雜網(wǎng)絡(luò)被動數(shù)據(jù)與云計算平臺數(shù)據(jù)的兼容性,其數(shù)據(jù)串口與云計算平平臺通信示意圖如圖1所示:
1.2復(fù)雜網(wǎng)絡(luò)下的被動數(shù)據(jù)節(jié)點(diǎn)解析
眾所周知,復(fù)雜網(wǎng)絡(luò)中節(jié)點(diǎn)重要性評價方法眾多,本文在研究該問題時主要是從網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)角度進(jìn)行研究的。網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)主要包括網(wǎng)絡(luò)的全局屬性、網(wǎng)絡(luò)的局部屬性、隨機(jī)游走、網(wǎng)絡(luò)的位置等方向,合理的實現(xiàn)被動數(shù)據(jù)快速關(guān)聯(lián)的計算,對復(fù)雜網(wǎng)絡(luò)下的被動數(shù)據(jù)節(jié)點(diǎn)解析是十分必要的。
復(fù)雜網(wǎng)絡(luò)下的被動數(shù)據(jù)節(jié)點(diǎn)解析,考慮網(wǎng)絡(luò)的局部特性特征,如:頂點(diǎn)鄰居信息、頂點(diǎn)與其鄰居之間關(guān)系以及頂點(diǎn)自身信息等等,這些指標(biāo)計算相對比較簡單,且其所需時間復(fù)雜度較低,比較適用于大型復(fù)雜網(wǎng)絡(luò)。對復(fù)雜網(wǎng)絡(luò)下的被動數(shù)據(jù)節(jié)點(diǎn)解析,需要依托云計算平臺下的LeaderRank算法,并以此來作為基于云計算平臺的復(fù)雜網(wǎng)絡(luò)被動數(shù)據(jù)快速關(guān)聯(lián)算法的基礎(chǔ)算法。
LeaderRank算法是在PageRank算法的基礎(chǔ)上進(jìn)行設(shè)計。并利用Hadoop和GraphLab對LeaderRank算法進(jìn)行架構(gòu)。在應(yīng)用云計算LeaderRank算法時,首先需要建立一個GroundNode加入到網(wǎng)絡(luò)中,將其與圖中其他Ve~ex建立雙向連接。為盡可能的方便,在GraphLab平臺上,Ground Node頂點(diǎn)的加入在圖加載的過程中進(jìn)行;而在Hadoop中根據(jù)算法的輸入,我們把Ground Node的加入放在數(shù)據(jù)預(yù)處理階段。其次,對圖中的每個頂點(diǎn)的初始化,Ground Node初始化為0,而網(wǎng)絡(luò)中其他頂點(diǎn)初始化為1。然后根據(jù)相關(guān)數(shù)據(jù)對每個頂點(diǎn)進(jìn)行更新操作。最后達(dá)到穩(wěn)態(tài)后得到每個頂點(diǎn)的LeaderRank值,完成復(fù)雜網(wǎng)絡(luò)下的被動數(shù)據(jù)節(jié)點(diǎn)解析。
1.3確定被動數(shù)據(jù)快速關(guān)聯(lián)算法核心步驟
基于復(fù)雜網(wǎng)絡(luò)下的被動數(shù)據(jù)節(jié)點(diǎn)的解析,采用云計算的LeaderRank算法,構(gòu)建了被動數(shù)據(jù)快速關(guān)聯(lián)算法的基本結(jié)構(gòu);利用PageRank算法建立了算法網(wǎng)絡(luò);使用Hadoop和GraphLab構(gòu)建了數(shù)據(jù)結(jié)構(gòu),進(jìn)行復(fù)雜網(wǎng)絡(luò)被動數(shù)據(jù)快速關(guān)聯(lián)計算,其整個過程共分為五個階段,即Map階段、Reduce階段、迭代階段、Gather階段、Apply階段,其具體被動數(shù)據(jù)快速關(guān)聯(lián)算法核心步驟如表1所示:
2實驗論證
為保證提出的基于云計算平臺的復(fù)雜網(wǎng)絡(luò)被動數(shù)據(jù)快速關(guān)聯(lián)算法的有效性,進(jìn)行實例分析,分析過程中,目前廣泛使用使用的粒子群被動數(shù)據(jù)快速關(guān)聯(lián)算法、閾值被動數(shù)據(jù)快速關(guān)聯(lián)算法作為實驗對比對象,進(jìn)行算法的關(guān)聯(lián)準(zhǔn)確性驗證。
2.1實驗準(zhǔn)備
本次實驗環(huán)境為5臺普通PC組成的集群系統(tǒng),Inteli3-3.30GHz、8G內(nèi)存,Hadoop版本是Hadoop-0.20,GraphLab采用2.1版本。采用數(shù)據(jù)集com-Youtube、uS Football Network、com-Orkut、twitter7、Zacharys Karate Club五種數(shù)據(jù)集形式,進(jìn)行對比實驗分析。
其中com-Youtube、US Football Network、com-Orkut、twit-ter7、Zacharys Karate Club數(shù)據(jù)集為實時數(shù)據(jù)集,具有統(tǒng)計相同性,同時因數(shù)據(jù)量不同,數(shù)據(jù)交互方式不同,為此選用了com-Youtube、US Football Network、com-Orkut、twitter7、Zacha-rys Karate Club五種數(shù)據(jù)集進(jìn)行分析。
2.2實驗過程與結(jié)果分析
試驗過程中,分別載入五種數(shù)據(jù)集,利用粒子群被動數(shù)據(jù)快速關(guān)聯(lián)算法、閾值被動數(shù)據(jù)快速關(guān)聯(lián)算法,以及本文提出的基于云計算平臺的復(fù)雜網(wǎng)絡(luò)被動數(shù)據(jù)快速關(guān)聯(lián)算法進(jìn)行關(guān)聯(lián)準(zhǔn)確性驗證。并記錄驗證結(jié)果。
根據(jù)基于云計算平臺的復(fù)雜網(wǎng)絡(luò)被動數(shù)據(jù)快速關(guān)聯(lián)算法、粒子群被動數(shù)據(jù)快速關(guān)聯(lián)算法、閾值被動數(shù)據(jù)快速關(guān)聯(lián)算法,在不同試驗數(shù)據(jù)集情況下,試驗記錄數(shù)據(jù),形成不同關(guān)聯(lián)算法驗證試驗結(jié)果對比表,如表2所示:
根據(jù)實驗結(jié)果可以得出,粒子群被動數(shù)據(jù)快速關(guān)聯(lián)算法,在USFootballNetwork、Zacharys Karate Club數(shù)據(jù)集中,具有良好的驗證關(guān)聯(lián)準(zhǔn)確性,但在其他數(shù)據(jù)集中,其關(guān)聯(lián)準(zhǔn)確性較低,體現(xiàn)出該方法的不全面性,應(yīng)用閾值被動數(shù)據(jù)快速關(guān)聯(lián)算法時,其整體波動較大,準(zhǔn)確率較低。因此,基于云計算平臺的復(fù)雜網(wǎng)絡(luò)被動數(shù)據(jù)快速關(guān)聯(lián)算法具有較高的關(guān)聯(lián)準(zhǔn)確性,同時具有較高的穩(wěn)定性,適合復(fù)雜網(wǎng)絡(luò)下被動數(shù)據(jù)的快速關(guān)聯(lián)計算。
3結(jié)束語
本文針對LeaderRank平臺設(shè)計了一個基于云計算平臺的復(fù)雜網(wǎng)絡(luò)被動數(shù)據(jù)快速關(guān)聯(lián)算法,給出了該算法的具體思路及其應(yīng)用步驟,最后通過實驗論證了該算法的正確性和實用性,通過實驗發(fā)現(xiàn),本文研究的基于云計算平臺的復(fù)雜網(wǎng)絡(luò)被動數(shù)據(jù)快速關(guān)聯(lián)算法既具有較高的模塊度,在處理海量網(wǎng)絡(luò)數(shù)據(jù)又具有很大的優(yōu)勢。