肖錚+董祥千+趙文革
摘 要: 針對傳統(tǒng)調(diào)度方法一直存在調(diào)度精度不準(zhǔn)確的問題,提出一種Web網(wǎng)絡(luò)大數(shù)據(jù)的聚類中心調(diào)度技術(shù)的研究方案。針對Web網(wǎng)絡(luò)大數(shù)據(jù)重新建立調(diào)度模型有效的對數(shù)據(jù)進行識別,優(yōu)化聚類中心的K?means算法,解決對大數(shù)據(jù)調(diào)度能力差的問題,提高聚類中心的大數(shù)據(jù)調(diào)度能力,最后使用建立調(diào)度模型完成在Web網(wǎng)絡(luò)大數(shù)據(jù)環(huán)境下的聚類中心數(shù)據(jù)調(diào)度。設(shè)計對比仿真試驗,通過實驗數(shù)據(jù)可以有效地證明Web網(wǎng)絡(luò)大數(shù)據(jù)的聚類中心調(diào)度技術(shù)的有效性。
關(guān)鍵詞: Web網(wǎng)絡(luò)大數(shù)據(jù); 聚類中心; 調(diào)度技術(shù); 數(shù)據(jù)識別; 數(shù)據(jù)調(diào)度
中圖分類號: TN711?34; TP391.3 文獻標(biāo)識碼: A 文章編號: 1004?373X(2017)24?0025?03
Abstract: In allusion to the problem of the inaccurate scheduling precision of the traditional scheduling method, a research scheme of clustering center scheduling technology for Web network big data is proposed. The Web network big data scheduling model is reconstructed for effective data recognition. The K?means algorithm in clustering center is optimized to resolve the problem of poor big data scheduling capability and improve the big data scheduling capability in clustering center. The constructed scheduling model is employed to accomplish the data scheduling of clustering center in the Web network big data environment. The contrast simulation experiment was carried out. The experimental data effectively demonstrates the validity of the clustering center scheduling technology for Web network big data.
Keywords: Web network big data; clustering center; scheduling technology; data identification; data scheduling
0 引 言
互聯(lián)網(wǎng)時代的快速崛起,在網(wǎng)絡(luò)上信息傳遞的數(shù)量已經(jīng)出現(xiàn)井噴式的爆發(fā),許多依附互聯(lián)網(wǎng)的產(chǎn)業(yè)應(yīng)運而生[1?2]。聚類中心是對數(shù)據(jù)進行系統(tǒng)分類以及統(tǒng)計調(diào)用網(wǎng)絡(luò)應(yīng)用層的關(guān)鍵設(shè)置[3?4]。聚類中心能夠在Web網(wǎng)絡(luò)環(huán)境中進行數(shù)據(jù)的系統(tǒng)分析篩選,通過不同信道將信息劃分成若干個簇族,這樣方便對海量信息進行汲取分類,保證了數(shù)據(jù)的有效性同時完成了對數(shù)據(jù)調(diào)度任務(wù)[5?6]。傳統(tǒng)的聚類中心對大數(shù)據(jù)進行調(diào)度是通過數(shù)據(jù)屬性篩選提取進行調(diào)度的,這樣的方法雖然調(diào)度準(zhǔn)確率極高但是調(diào)度時間很長,在數(shù)據(jù)量增長以平方計算的今天,此方法已經(jīng)不能滿足人們的正常需求[7?8]。針對上述情況,本文提出一種Web網(wǎng)絡(luò)大數(shù)據(jù)的聚類中心調(diào)度技術(shù)研究方案。還設(shè)計了對比仿真試驗,通過實驗數(shù)據(jù)的分析有效地證明了本文研究的Web網(wǎng)絡(luò)大數(shù)據(jù)的聚類中心調(diào)度技術(shù)的有效性。
1 聚類中心調(diào)度技術(shù)的設(shè)計方案
本文針對聚類中心數(shù)據(jù)調(diào)度技術(shù)進行一定的有效設(shè)計,主要針對調(diào)度的數(shù)據(jù)模型進行有效的研發(fā),調(diào)度數(shù)據(jù)模型是對大數(shù)據(jù)進行篩選、分類、簇族選取的關(guān)鍵所在,其中優(yōu)化數(shù)據(jù)調(diào)用算法也是節(jié)省時間的有效手段。本文在調(diào)度數(shù)據(jù)模型的設(shè)計過程中,對其中的K?means算法進行了有效的優(yōu)化,這樣可以提高數(shù)據(jù)的分配同時加強管理調(diào)用的能力。最后通過調(diào)用模型完成了在Web網(wǎng)絡(luò)下的大數(shù)據(jù)調(diào)用。其調(diào)度數(shù)據(jù)的流程圖如圖1所示。
1.1 大數(shù)據(jù)調(diào)度模型的建立
Web網(wǎng)絡(luò)環(huán)境下的大數(shù)據(jù)首先需要進行標(biāo)注篩選,這樣能夠有效地提高本文設(shè)計調(diào)度模型抗數(shù)據(jù)干擾能力,但是由于簇族劃分過程中會出現(xiàn)數(shù)據(jù)波動,還需要對調(diào)度模型進行系統(tǒng)條件篩選:
式中:為簇族劃分熵函數(shù);為大數(shù)據(jù)的可信度;為篩選預(yù)處理結(jié)果;為預(yù)處理過程系數(shù);表示簇族的類比屬性集合。
經(jīng)過篩選過后的大數(shù)據(jù)需要進行簇族的分類,分類后的數(shù)據(jù)才可以進入調(diào)度模型中進行系統(tǒng)的調(diào)用。過程如下:
式中:表示經(jīng)過分類后的大數(shù)據(jù);為簇族分類的路徑標(biāo)注碼。經(jīng)簇族分類的大數(shù)據(jù)便可進行調(diào)度:
式中:代表大數(shù)據(jù)的波動能力;表示大數(shù)據(jù)的最小波動能力。調(diào)度的過程中需要進行一定的條件限制,限制的目的是保證調(diào)度的準(zhǔn)確性,過程如下:
式中,為大數(shù)據(jù)屬性有效值。經(jīng)過上述條件的限制能夠保證模型的調(diào)度準(zhǔn)確率,也進一步完成了調(diào)度模型。
1.2 優(yōu)化聚類中心的K?means算法
本文對聚類中心K?means算法進行了優(yōu)化,K?means算法是針對獨立的大數(shù)據(jù)進行有效選取計算方法。K?means算法中大數(shù)據(jù)必須經(jīng)過預(yù)處理才能夠進行K?means計算,大數(shù)據(jù)預(yù)處理[9]公式為:
式中:P為大數(shù)據(jù)運行參數(shù);為大數(shù)據(jù)差值轉(zhuǎn)換屬性;表示大數(shù)據(jù)差值轉(zhuǎn)換用時。經(jīng)預(yù)處理后大數(shù)據(jù)便可進行K?means計算,如下:endprint
式中:表示K?means算法的調(diào)用常數(shù),一般是在[100,150]值域范圍內(nèi);表示大數(shù)據(jù)的極限調(diào)用屬性;表示能夠平復(fù)的能力數(shù)據(jù)屬性。通過K?means計算過后有效地縮短了計算的步驟,簡化了調(diào)用時間,同時避免了數(shù)據(jù)波動的產(chǎn)生[10]。
2 仿真實驗分析
2.1 參數(shù)設(shè)定
為了保證設(shè)計的Web網(wǎng)絡(luò)大數(shù)據(jù)的聚類中心調(diào)度技術(shù)的有效性,對參數(shù)進行設(shè)定,調(diào)用常數(shù)選擇在[100,150]值域范圍之內(nèi);設(shè)置熵變函數(shù)的表達值為18.5。設(shè)置與的分類項分別為:
設(shè)置實驗參數(shù)如表1所示。
2.2 結(jié)果分析
實驗對比過程中,主要以基礎(chǔ)分析、調(diào)度時間及調(diào)度準(zhǔn)確率為指標(biāo)進行對比分析。其中基礎(chǔ)分析主要通過最大調(diào)度距離、平均調(diào)度距離為指標(biāo)對其調(diào)度距離進行分析:
式中:為兩個所需調(diào)度數(shù)據(jù)和之間的距離;為數(shù)據(jù)類中所要調(diào)度的數(shù)據(jù)量;為數(shù)據(jù)類中所要調(diào)度的數(shù)據(jù)量。實驗結(jié)果如表2所示。
分析表2結(jié)果得知,本文提出的Web網(wǎng)絡(luò)大數(shù)據(jù)的聚類中心調(diào)度技術(shù)能夠在Web環(huán)境下進行長距離的大數(shù)據(jù)調(diào)度。本文提出的Web網(wǎng)絡(luò)大數(shù)據(jù)的聚類中心調(diào)度技術(shù)在最大調(diào)度距離上比傳統(tǒng)的調(diào)度方法增加了30 m,同時平均調(diào)度距離大于傳統(tǒng)調(diào)度方法30 m。上述數(shù)據(jù)表明本文提出的方法能夠進行更快更長距離的大數(shù)據(jù)調(diào)度。調(diào)度時間和調(diào)度準(zhǔn)確率如圖2、圖3所示。
分析圖2結(jié)果得知,傳統(tǒng)的調(diào)度方法所需的時間明顯要多于本文提出的調(diào)度方法。分析圖3結(jié)果得知,本文提出的Web網(wǎng)絡(luò)大數(shù)據(jù)的聚類中心調(diào)度技術(shù)能夠保證較高的調(diào)度準(zhǔn)確率,同時沒有隨著數(shù)據(jù)的變化產(chǎn)生浮動。
3 結(jié) 語
本文提出一種Web網(wǎng)絡(luò)大數(shù)據(jù)的聚類中心調(diào)度技術(shù)的研究方案。針對Web網(wǎng)絡(luò)大數(shù)據(jù)進行調(diào)度模型的建立,重新建立的調(diào)度模型能夠有效的對數(shù)據(jù)進行識別。特別是大數(shù)據(jù)的識別,有效地避免了數(shù)據(jù)干擾、數(shù)據(jù)混亂的發(fā)生,優(yōu)化了聚類中心中的K?means算法,解決了對大數(shù)據(jù)調(diào)度能力差的問題,提高了聚類中心的調(diào)度能力。最后使用建立的調(diào)度模型完成在Web網(wǎng)絡(luò)大數(shù)據(jù)環(huán)境下的聚類中心數(shù)據(jù)調(diào)度。希望通過本文的研究能夠提高聚類中心對大數(shù)據(jù)的調(diào)度能力。
參考文獻
[1] 陳珂,柯文德,許波.一種基于增量式時間序列和最佳任務(wù)調(diào)度的Web數(shù)據(jù)聚類算法[J].現(xiàn)代電子技術(shù),2016,39(14):4?8.
[2] 王向華,陳特放,張必明,等.基于時間序列和任務(wù)調(diào)度的Web數(shù)據(jù)聚類算法[J].計算機工程與應(yīng)用,2016,52(9):159?163.
[3] 張曉,王紅.一種改進的基于大數(shù)據(jù)集的混合聚類算法[J].計算機工程與科學(xué),2015,37(9):1621?1626.
[4] 王海巍.我國險企運營中道德風(fēng)險甄別問題研究:以大數(shù)據(jù)Hadoop聚類分析技術(shù)為視角[J].保險研究,2016(2):59?67.
[5] 廖律超,蔣新華,鄒復(fù)民,等.一種支持軌跡大數(shù)據(jù)潛在語義相關(guān)性挖掘的譜聚類方法[J].電子學(xué)報,2015(5):956?964.
[6] 王晨,李耀庭.大數(shù)據(jù)大數(shù)據(jù)視閾下檔案學(xué)研究的困境和啟示:基于CNKI檔案類期刊的共詞聚類分析[J].北京檔案,2016(6):14?17.
[7] 高繼平,馬崢,潘云濤,等.大數(shù)據(jù)領(lǐng)域代表性專家識別與分析:文獻計量學(xué)視角[J].科技管理研究,2016,36(16):177?182.
[8] 周潤物,李智勇,陳少淼,等.CCF BigData 2015+063面向大數(shù)據(jù)處理的并行優(yōu)化抽樣聚類K?means算法[J].計算機應(yīng)用,2016,36(2):311?315.endprint