翁子寒
摘 要: 目前,計(jì)算數(shù)據(jù)中心設(shè)計(jì)動(dòng)態(tài)數(shù)據(jù)聚集算法,通過(guò)仿真實(shí)驗(yàn)進(jìn)行驗(yàn)證分析,表明動(dòng)態(tài)數(shù)據(jù)聚集算法能夠保障計(jì)算數(shù)據(jù)中心的服務(wù)質(zhì)量,提高計(jì)算機(jī)設(shè)備穩(wěn)定性,提升計(jì)算機(jī)數(shù)據(jù)中心的服務(wù)質(zhì)量,并且還可以在不同時(shí)段動(dòng)態(tài)分配數(shù)據(jù)使用,實(shí)現(xiàn)有效的聚集數(shù)據(jù)分配模式,從而確保系統(tǒng)計(jì)算存儲(chǔ)節(jié)點(diǎn)可以輪流運(yùn)轉(zhuǎn),提升計(jì)算機(jī)數(shù)據(jù)中心區(qū)域溫控設(shè)備的精度,充分利用計(jì)算數(shù)據(jù)中心資源,滿(mǎn)足用戶(hù)的實(shí)際服務(wù)需求,降低計(jì)算數(shù)據(jù)中心系統(tǒng)動(dòng)態(tài)數(shù)據(jù)分配能耗。
關(guān)鍵詞: 計(jì)算數(shù)據(jù)中心; 動(dòng)態(tài)數(shù)據(jù); 聚集算法; 仿真實(shí)驗(yàn)
中圖分類(lèi)號(hào): TN919.2?34 文獻(xiàn)標(biāo)識(shí)碼: A 文章編號(hào): 1004?373X(2015)17?0142?02
Research on aggregation algorithm of dynamic data in computing data center
WENG Zihan
(Shanghai Children′s Medical Center, Shanghai 200127, China)
Abstract: The aggregation algorithm of dynamic data was designed according to current computing data center, which was verified and analyzed by simulation experiments. The simulation results show that this algorithm can ensure service quality of compu?ting data center, enhance the stability of computer equipment and improve service quality of computer data center. Data usage can be allocated dynamically at different time period to achieve effective allocation pattern of aggregate data, which can ensure that the storage nodes of system computation operate in turns, and improve the accuracy of temperature control equipments in the area of computer data center. This algorithm can make full use of the resources in computing data center to satisfy the actual service demands for users, and reduce the allocation energy consumption of dynamic data in computing data center system.
Keywords: computing data center; dynamic data; aggregation algorithm; simulation experiment
本研究針對(duì)當(dāng)前計(jì)算數(shù)據(jù)中心的動(dòng)態(tài)數(shù)據(jù)分配及數(shù)據(jù)分配方法中存在的問(wèn)題,其局限性、公式復(fù)雜、算法運(yùn)行效率低等弊端,提出動(dòng)態(tài)數(shù)據(jù)聚集算法,并結(jié)合計(jì)算數(shù)據(jù)中心實(shí)際情況進(jìn)行改進(jìn),仿真研究動(dòng)態(tài)數(shù)據(jù)聚集算法在計(jì)算數(shù)據(jù)中心的應(yīng)用效果。
1 淺析動(dòng)態(tài)數(shù)據(jù)聚集算法
動(dòng)態(tài)數(shù)據(jù)聚集算法中,聚類(lèi)是數(shù)據(jù)挖掘中一類(lèi)重要的問(wèn)題,在許多領(lǐng)域有其應(yīng)用之處。聚類(lèi)的定義是:給定一個(gè)由許多數(shù)據(jù)元素組成的集合,將其分為不同的組(類(lèi)、簇),使得組內(nèi)的元素盡可能相似,不同組之間的元素盡可能不同[1]。在動(dòng)態(tài)數(shù)據(jù)聚集算法中,其數(shù)據(jù)流具有以下特點(diǎn):數(shù)據(jù)實(shí)時(shí)到達(dá),數(shù)據(jù)到達(dá)次序獨(dú)立,不受系統(tǒng)控制;數(shù)據(jù)量巨大,不能預(yù)知其大?。粏未螔呙?,數(shù)據(jù)一經(jīng)處理,除非特意保存,否則不能再次被處理。由于計(jì)算機(jī)數(shù)據(jù)中心數(shù)據(jù)流的特點(diǎn),要求數(shù)據(jù)壓縮表達(dá),并且可以迅速、增量地處理新到達(dá)的數(shù)據(jù),要求該算法可以快速、清晰地識(shí)別離群點(diǎn)。
2 計(jì)算數(shù)據(jù)中心應(yīng)用動(dòng)態(tài)數(shù)據(jù)聚集算法實(shí)現(xiàn)
對(duì)動(dòng)態(tài)聚類(lèi)算法中的數(shù)據(jù)流,在每一個(gè)時(shí)刻,動(dòng)態(tài)聚類(lèi)算法的在線(xiàn)部分連續(xù)地讀入一個(gè)新的記錄,將多維的數(shù)據(jù)放置到對(duì)應(yīng)多維空間中的離散密度網(wǎng)格。在第一個(gè)gap時(shí)間內(nèi)產(chǎn)生了初始簇[2],然后,算法周期性地移除松散的網(wǎng)格以及調(diào)整簇,由于不可能保留原始數(shù)據(jù),D?Stream將多維數(shù)據(jù)空間分為許多密度網(wǎng)格,然后由這些網(wǎng)格形成簇,如圖1所示。
文本中,假設(shè)輸入的數(shù)據(jù)有[d]維,在計(jì)算機(jī)數(shù)據(jù)中心空間中定義數(shù)據(jù):
[S=S1×S2×…×Sd]
在動(dòng)態(tài)數(shù)據(jù)聚集中,可以將[d]維的空間[S]劃分成密度網(wǎng)格。假設(shè)對(duì)于每一維,它的空間是[Si,][i=1,2,…,d]被分為[pi]個(gè)部分。
[Si=Si,1∪Si,2∪…∪Si,pi]
這樣數(shù)據(jù)空間[S]被分成了[N=i=1d=pi]個(gè)密度網(wǎng)格。每個(gè)密度網(wǎng)格[g]是由[S1, j1×S2, j2×…×Sd,jd,][ji=1,]2,…,[pi]組成,將它表示為:
[g=(j1, j2,…, jd)]
一個(gè)數(shù)據(jù)記錄[X=(x1,x2,…,xd)]可以映射到下面一個(gè)密度網(wǎng)格[g(x):]
[g(x)=(j1, j2,…, jd) where Xi∈Si,ji]
根據(jù)網(wǎng)格密度變動(dòng),更新網(wǎng)格密度,當(dāng)一個(gè)新的計(jì)算機(jī)中心數(shù)據(jù)到網(wǎng)格,接收數(shù)據(jù)記錄,設(shè)一個(gè)網(wǎng)格[g]在時(shí)刻[tn]接收到一個(gè)新的數(shù)據(jù)記錄,假設(shè)[g]接收到最后的數(shù)據(jù)記錄是在時(shí)刻[tl(tn>tl),]那么[g]的密度可以按下面的方式更新:
[D(g,tn)=λtn-tlD(g,tl)+1]
計(jì)算數(shù)據(jù)中心動(dòng)態(tài)數(shù)據(jù)聚集算法的實(shí)現(xiàn)中,其最基本的計(jì)算思想是,在聚集數(shù)據(jù)的最中心對(duì)象,對(duì)[n]個(gè)對(duì)象給予[k]個(gè)劃分區(qū)域;并且此代表對(duì)象也可以被稱(chēng)為中心點(diǎn),而其他的對(duì)象為非代表對(duì)象,反復(fù)使用非代表對(duì)象替換代表對(duì)象,從而動(dòng)態(tài)地找出數(shù)據(jù)中心更好的中心點(diǎn),改進(jìn)數(shù)據(jù)中心聚類(lèi)質(zhì)量。自定義一個(gè)函數(shù):
function [result,c,s,index,label]=kpam(data,k);
[N,n]=size(data);
index=randperm(N);
v=data(index(1:k),:);
for t=1:100
if k==1
for j=1:N
label(j)=1;
end
else
for i=1:k
label(index(i))=i;
end
for j=k+1:N
for i=1:k
dist(:,i)=sqrt(sum((data(index(j),:)?v(i,:)).^2));
end
[m,l]=min(dist');
label(index(j))=l;
end
end
for i=1:k
c(i,:)=v(i,:);
end
一個(gè)非中心點(diǎn)代替一個(gè)中心點(diǎn)的總代價(jià)s
s((h?k),:,i)=sum(cjih(:,:),1);
end
end
if min(min(s))==0
for i=1:k
for h=k+1:N
if s((h?k),:,i)==min(min(s))
s((h?k),:,i)=1;
end
end
end
end
3 計(jì)算數(shù)據(jù)中心動(dòng)態(tài)數(shù)據(jù)聚集算法仿真研究
3.1 仿真試驗(yàn)環(huán)境搭建
對(duì)于計(jì)算數(shù)據(jù)中心動(dòng)態(tài)數(shù)據(jù)聚集算法,針對(duì)動(dòng)態(tài)數(shù)據(jù)聚集算法實(shí)施仿真試驗(yàn),在一臺(tái)帶有1.7 GHz CPU和256 MB內(nèi)存的PC上進(jìn)行,用VC++ 6.0以及一個(gè)Matlab圖形接口實(shí)現(xiàn)動(dòng)態(tài)聚類(lèi)算法仿真。研究其算法性能及結(jié)果準(zhǔn)確性,數(shù)據(jù)中心將10個(gè)節(jié)點(diǎn)存放于一個(gè)機(jī)架上,環(huán)境參數(shù)見(jiàn)表1。
在動(dòng)態(tài)數(shù)據(jù)聚集算法仿真試驗(yàn)中,可以設(shè)置:[Cm=]3.0,[Cl=0.8,][λ=0.998,][β=0.3,]使用兩個(gè)測(cè)試集。第一個(gè)就是測(cè)試數(shù)據(jù)集,也是一個(gè)真實(shí)的數(shù)據(jù)集合KDD CUP?99,它包含由MIT林肯實(shí)驗(yàn)室收集的網(wǎng)絡(luò)入侵?jǐn)?shù)據(jù)流。也使用人工數(shù)據(jù)集測(cè)試動(dòng)態(tài)聚類(lèi)算法的伸縮性。這個(gè)人工數(shù)據(jù)集包含的數(shù)據(jù)數(shù)量從35 000~85 000不等,簇的數(shù)目被設(shè)定為4,維度的數(shù)目范圍[3]從2~40。在動(dòng)態(tài)數(shù)據(jù)聚集算法仿真試驗(yàn)中,將數(shù)據(jù)集的所有屬性規(guī)格化為[0,1]。每個(gè)維度被均勻地分為多個(gè)數(shù)據(jù)段,每個(gè)段的長(zhǎng)度為len。
3.2 仿真結(jié)果評(píng)估
將評(píng)估計(jì)算數(shù)據(jù)中心的動(dòng)態(tài)聚類(lèi)質(zhì)量與效率與傳統(tǒng)計(jì)算數(shù)據(jù)中心的算法進(jìn)行比較,本文算法能提高算法時(shí)間、空間效率,對(duì)于計(jì)算中心高速的數(shù)據(jù)流不損失聚類(lèi)質(zhì)量,有獨(dú)特的優(yōu)勢(shì),準(zhǔn)確地識(shí)別實(shí)時(shí)數(shù)據(jù)流,并實(shí)施演化行為。計(jì)算數(shù)據(jù)中心動(dòng)態(tài)聚類(lèi)算法與傳統(tǒng)數(shù)據(jù)分配算法相比,數(shù)據(jù)準(zhǔn)確性得到提升,為98.2%,常規(guī)數(shù)據(jù)分配準(zhǔn)確率為83.6%,有明顯優(yōu)勢(shì)(P<0.05)。計(jì)算數(shù)據(jù)中心動(dòng)態(tài)聚類(lèi)算法的應(yīng)用,可以提升計(jì)算數(shù)據(jù)中心系統(tǒng)的穩(wěn)定性。
4 總 結(jié)
基于計(jì)算機(jī)數(shù)據(jù)中心數(shù)據(jù)分配中,在數(shù)據(jù)中心網(wǎng)絡(luò)技術(shù)基礎(chǔ)上,由于數(shù)據(jù)節(jié)點(diǎn)可以自由移動(dòng),這樣會(huì)降低數(shù)據(jù)分配進(jìn)度,從而降低系統(tǒng)性能,導(dǎo)致計(jì)算機(jī)數(shù)據(jù)中心網(wǎng)絡(luò)維護(hù)開(kāi)銷(xiāo)過(guò)高。故此,針對(duì)計(jì)算機(jī)數(shù)據(jù)中心數(shù)據(jù)分配,應(yīng)該改進(jìn)傳統(tǒng)靜態(tài)數(shù)據(jù)流數(shù)據(jù)方法,實(shí)現(xiàn)動(dòng)態(tài)數(shù)據(jù)聚集,減少信息冗余,提升數(shù)據(jù)計(jì)算效率及安全性。
參考文獻(xiàn)
[1] 李文華,羅霄,張樂(lè).飛控計(jì)算機(jī)數(shù)據(jù)模擬器的設(shè)計(jì)與實(shí)現(xiàn)[J].現(xiàn)代電子技術(shù),2014,37(11):104?106.
[2] 徐小龍,楊庚,李玲娟,等.面向綠色云計(jì)算數(shù)據(jù)中心的動(dòng)態(tài)數(shù)據(jù)聚集算法[J].系統(tǒng)工程與電子技術(shù),2012,34(9):1923?1929.
[3] 郭建波.動(dòng)態(tài)數(shù)據(jù)聚集算法探究:以綠色云計(jì)算數(shù)據(jù)中心為研究方向[J].中國(guó)信息化,2013(4):108?109.
[4] 翁祖泉,張琪.基于物聯(lián)網(wǎng)海量數(shù)據(jù)處理的數(shù)據(jù)庫(kù)技術(shù)分析與研究[J].物聯(lián)網(wǎng)技術(shù),2014,4(6):88?90.
[5] 李海濤.云計(jì)算用戶(hù)數(shù)據(jù)傳輸與存儲(chǔ)安全研究[J].現(xiàn)代電子技術(shù),2013,36(20):24?26.
[6] 楊波.基于云計(jì)算的作戰(zhàn)數(shù)據(jù)存儲(chǔ)系統(tǒng)研究[J].現(xiàn)代電子技術(shù),2013,36(19):12?14.