Hadoop異構(gòu)集群中數(shù)據(jù)負(fù)載均衡的研究

2016-06-08 06:04:45杜慶偉

計算機應(yīng)用與軟件 2016年5期

關(guān)鍵詞：存儲空間異構(gòu)機架

張　松　杜慶偉　孫　靜　孫　振

1(南京航空航天大學(xué)計算機科學(xué)與技術(shù)學(xué)院　江蘇南京 210016)2(中國人民解放軍94860部隊　江蘇南京 210016)

Hadoop異構(gòu)集群中數(shù)據(jù)負(fù)載均衡的研究

張松1杜慶偉1孫靜2孫振2

1(南京航空航天大學(xué)計算機科學(xué)與技術(shù)學(xué)院江蘇南京 210016)2(中國人民解放軍94860部隊江蘇南京 210016)

摘要Hadoop平臺下，數(shù)據(jù)的負(fù)載均衡對平臺性能的發(fā)揮有著深遠(yuǎn)的影響。首先分析默認(rèn)數(shù)據(jù)負(fù)載均衡的局限性，針對現(xiàn)有默認(rèn)HDFS(Hadoop Distributed File System)數(shù)據(jù)負(fù)載均衡算法只考慮存儲空間利用率，而未考慮節(jié)點間異構(gòu)性的問題，提出一種量化異構(gòu)集群數(shù)據(jù)負(fù)載均衡的數(shù)學(xué)模型。該模型根據(jù)節(jié)點的存儲空間及節(jié)點性能計算得到各個節(jié)點的理論空間利用率，并根據(jù)當(dāng)前集群存儲空間利用率動態(tài)調(diào)整節(jié)點最大負(fù)載。實驗結(jié)果表明，提出的數(shù)據(jù)負(fù)載均衡策略能夠讓異構(gòu)集群達(dá)到更合理的均衡狀態(tài)，提高集群的效率，并有效減少作業(yè)的執(zhí)行時間。

關(guān)鍵詞HadoopHDFS數(shù)據(jù)負(fù)載均衡異構(gòu)集群

0引言

隨著計算機技術(shù)和信息技術(shù)的飛速發(fā)展，在科研和商業(yè)領(lǐng)域產(chǎn)生了越來越規(guī)模巨大的數(shù)據(jù)，這些數(shù)據(jù)的規(guī)模甚至達(dá)到了若干PB。單臺節(jié)點顯然已經(jīng)無法處理如此規(guī)模巨大的數(shù)據(jù)，云計算在此背景下應(yīng)運而生。Hadoop是一個由Apache基金會所開發(fā)的開源分布式處理系統(tǒng)[1]。該系統(tǒng)由若干節(jié)點組成，數(shù)據(jù)分布在各個節(jié)點上。用戶提交作業(yè)后，Hadoop將作業(yè)拆分成若干task,然后分布到各個節(jié)點上運行，最后將結(jié)果匯總返回給用戶。

在Hadoop等數(shù)據(jù)密集型的超級計算中，移動數(shù)據(jù)的代價要遠(yuǎn)遠(yuǎn)高于移動計算的代價。因此將計算移動到數(shù)據(jù)節(jié)點上，將大大節(jié)省網(wǎng)絡(luò)帶寬，提升作業(yè)的執(zhí)行效率。數(shù)據(jù)負(fù)載均衡的集群，能夠降低非本地化任務(wù)的次數(shù)，進(jìn)而減少集群中數(shù)據(jù)傳輸量，提高系統(tǒng)效率[2]。

然而隨著新的數(shù)據(jù)節(jié)點的加入以及用戶對集群中文件的動態(tài)刪除和添加，使得各個節(jié)點擁有的數(shù)據(jù)量變得不均衡。當(dāng)集群中節(jié)點間的數(shù)據(jù)負(fù)載變得不均衡后，會引發(fā)許多問題。比如，MapReduce程序無法很好地利用本地計算的優(yōu)勢，計算任務(wù)被分配到非本地化執(zhí)行的概率增大，于是節(jié)點不得不從其他節(jié)點復(fù)制數(shù)據(jù)，增加網(wǎng)絡(luò)負(fù)載。節(jié)點之間無法達(dá)到更好的網(wǎng)絡(luò)帶寬使用率，各節(jié)點磁盤無法達(dá)到更好的利用率，這將間接導(dǎo)致集群的效率降低，作業(yè)的執(zhí)行時間變長?？梢姡ＷCHadoop集群的數(shù)據(jù)平衡是非常重要是事情，數(shù)據(jù)的負(fù)載均衡已經(jīng)成為分布式計算的一個重要的研究領(lǐng)域[3-5]。

文獻(xiàn)[6]對異構(gòu)集群負(fù)載均衡以及文件響應(yīng)時間進(jìn)行了初步研究，但忽略了異構(gòu)集群中節(jié)點容量的異構(gòu)性。文獻(xiàn)[7]提出了按比例存放數(shù)據(jù)的策略，該策略考慮到了節(jié)點的異構(gòu)性，然而卻忽略了節(jié)點存儲空間的異構(gòu)性對數(shù)據(jù)存放的影響。文獻(xiàn)[8]在Hadoop數(shù)據(jù)負(fù)載均衡效率方面，提出了超負(fù)載機架的優(yōu)先處理，能夠在較短時間內(nèi)使各個機架的數(shù)據(jù)負(fù)載達(dá)到平衡，但并沒有考慮節(jié)點的異構(gòu)性。文獻(xiàn)[9]改進(jìn)了副本管理技術(shù)，通過動態(tài)副本來解決數(shù)據(jù)熱點的問題。

本文首先分析了默認(rèn)負(fù)載均衡的原理及其局限性，然后提出了適用于異構(gòu)集群的負(fù)載均衡的量化模型。最后通過大量實驗證明了在特定環(huán)境下該模型能夠更合理的降低集群的不均衡性，提高集群的效率，并有效減少作業(yè)的執(zhí)行時間。

1默認(rèn)負(fù)載均衡原理及其局限性

默認(rèn)的負(fù)載均衡策略是基于所有節(jié)點都是同構(gòu)節(jié)點這樣一個假設(shè)下的。同構(gòu)集群下，由于節(jié)點的硬件配置，包括CPU、內(nèi)存、磁盤容量等都是一樣的，唯一不一樣的參數(shù)為各個節(jié)點的存儲空間利用率。負(fù)載均衡的目的就是將各個節(jié)點的存儲空間利用率盡量達(dá)到一致。當(dāng)集群中的部分datanode承載了過多的數(shù)據(jù)時，集群管理員便應(yīng)該通過start-balancer.sh啟動均衡器，來重新布局?jǐn)?shù)據(jù)塊。Balancer負(fù)載均衡程序根據(jù)用戶提交的閾值(threshold)(默認(rèn)為10%)，將DataNode按照存儲空間的利用率分為四組：分別為overUtilizedDatanodes(過載的節(jié)點信息)、aboveAvgUtilizedDatanodes(大于閾值的節(jié)點信息)、belowAvgUtilizedDatanodes(小于閾值的節(jié)點信息)、underUtilizedDatanodes(空載的節(jié)點信息)。負(fù)載均衡的主要過程是將過載節(jié)點和大于閾值的節(jié)點數(shù)據(jù)往空載節(jié)點和小于閾值的節(jié)點移動，最終使得各個節(jié)點的存儲空間的利用率偏離集群平均存儲空間利用率在閾值以內(nèi)。

在同構(gòu)集群中，該負(fù)載均衡策略簡單并可獲得較好的效果。但是在異構(gòu)集群中，由于節(jié)點的硬件配置有可能相差很大，性能高的節(jié)點顯然可以處理更多的數(shù)據(jù)。各個節(jié)點分配給HDFS的可用空間也有可能相差幾倍，將異構(gòu)集群中各個節(jié)點的存儲空間利用率均衡到盡量一致并不能達(dá)到負(fù)載均衡的效果。分析這樣一種情況，假設(shè)集群中的節(jié)點Na的性能是節(jié)點Nb的一半(Pa=1/2 Pb)，節(jié)點Na的存儲空間Da為節(jié)點Nb的存儲空間Db兩倍(Da=2Db),節(jié)點Na的存儲空間使用率是節(jié)點Nb的兩倍。即性能低的節(jié)點Na的存儲空間是性能高的節(jié)點的兩倍，調(diào)用默認(rèn)負(fù)載均衡程序，最終得到的期望結(jié)果會是節(jié)點Na的存儲空間利用率等于節(jié)點Nb的存儲空間利用率。表面上看兩異構(gòu)節(jié)點的存儲空間的利用率達(dá)到了一個均衡狀態(tài)，實際上，該操作使得集群變得更加不均衡，性能較低的節(jié)點Na獲得了更多的數(shù)據(jù)。這使得低性能節(jié)點承擔(dān)了更多的數(shù)據(jù)負(fù)載,使得該節(jié)點在作業(yè)執(zhí)行過程中成為高負(fù)載節(jié)點,同時增加了非本地化任務(wù)的概率,增加了網(wǎng)絡(luò)流量負(fù)載。此時，集群默認(rèn)的負(fù)載均衡策略失效。所以異構(gòu)集群中通過將各個節(jié)點的存儲空間利用率均衡到一個一致的期望值來使得集群負(fù)載均衡的方法是不可取的?；趯δJ(rèn)負(fù)載均衡原理及其局限性的分析，我們提出了一種適用于異構(gòu)集群中量化數(shù)據(jù)負(fù)載均衡的數(shù)學(xué)模型。該模型基于各個節(jié)點的性能及存儲空間計算得出各個節(jié)點的理論空間利用率。

2異構(gòu)集群負(fù)載均衡量化模型

2.1問題描述

異構(gòu)集群的異構(gòu)性不僅體現(xiàn)在高性能節(jié)點處理相同的工作消耗更少的時間，還體現(xiàn)在各節(jié)點分配給Hadoop使用的存儲空間之間的差異性。本文提出的均衡模型基于各節(jié)點的性能按比例分配存儲容量，而各節(jié)點存儲空間的異構(gòu)性可能導(dǎo)致異構(gòu)集群中節(jié)點無法承載理想的存儲容量。為此我們提出了一種基于集群異構(gòu)性的量化負(fù)載均衡的數(shù)學(xué)模型。該模型基于各個節(jié)點的性能及存儲空間，分別計算得到各個節(jié)點的理論磁盤利用率。再將用戶輸入的threshold參數(shù)泛化為各個節(jié)點的閾值。最終將異構(gòu)集群的負(fù)載均衡轉(zhuǎn)化為類同構(gòu)集群的負(fù)載均衡，簡化異構(gòu)集群負(fù)載均衡問題的復(fù)雜性。

2.2相關(guān)參數(shù)及定義

存儲空間(Cconf(i))：某節(jié)點分配給HDFS使用的容量，而非節(jié)點磁盤容量，Cconf(i)表示第i個節(jié)點的配置容量。

已用容量(Cused(i))：某個節(jié)點的存儲空間中HDFS使用的容量，Cused(i)表示第i個節(jié)點的已用容量。

節(jié)點的CPU性能(Pcpu(i))：由于多核的性能是無法達(dá)到1+1=2的效果。查閱相關(guān)資料得知，比較理想的情況下，雙核的每個核的性能為單核的0.8～0.9。所以我們?nèi)《嗪薈PU轉(zhuǎn)換參數(shù)ρ=0.8。得到節(jié)點的CPU性能為：

Pcpu(i)=ρ×(Ncore(i)-1)×F(i)+F(i)

(1)

其中Ncore(i)為節(jié)點的CPU核數(shù)，F(xiàn)(i)為節(jié)點的CPU頻率(單位GHZ)，ρ為多核CPU轉(zhuǎn)換參數(shù)。

節(jié)點的內(nèi)存性能(Pmem(i))：對于節(jié)點內(nèi)存的衡量，采用Pmem(i)=Nmem(i)，其中Nmem(i)為節(jié)點i的內(nèi)存的大小(單位為MB)。

定義1節(jié)點相對性能：

(2)

式中α和β為CPU性能和內(nèi)存性能的權(quán)重因子，且α+β=1。min(Pcpu),min(Pmen)分別為集群中節(jié)點CPU性能和內(nèi)存性能的最小值。將集群中的所有節(jié)點性能統(tǒng)一為最小值為1的量化值,方便后面的計算。并由此計算出節(jié)點的性能總和：

(3)

定義2集群的存儲空間利用率：

(4)

定義3各節(jié)點基于性能的理論存儲空間占用容量及各節(jié)點基于性能的理論存儲空間利用率：

(5)

(6)

定義4節(jié)點的動態(tài)存儲空間最大負(fù)載：

M=(0.8 + 0.2×RAvg2)×100%

(7)

由于磁盤空間的異構(gòu)性，節(jié)點的存儲空間有時并不能滿足理論占用容量的需求，這時，我們需要將該節(jié)點理論上多余的數(shù)據(jù)轉(zhuǎn)移到其他節(jié)點。為了確保節(jié)點的存儲空間占用率不超過某一特定百分比這里我們需要定義一個節(jié)點最大負(fù)載。該值應(yīng)該隨著集群存儲空間利用率的提高而提高。當(dāng)集群負(fù)載較輕的時候，節(jié)點的最大負(fù)載應(yīng)該維持在一個低水平上。這里我們采用自定義式(7)來描述節(jié)點動態(tài)最大負(fù)載,M取值范圍[80%,100%)，并隨著集群存儲空間利用率Ravg的增大而增大。若Ravg=50%，我們可以得到集群中的單個節(jié)點的最大負(fù)載為M=85%，若Ravg=50%，則M=96.2%。該公式較好地定義了節(jié)點最大負(fù)載，解決了節(jié)點可能出現(xiàn)的負(fù)載過重的問題，避免了用戶靜態(tài)配置導(dǎo)致的參數(shù)不適用的問題。

根據(jù)節(jié)點最大負(fù)載和各個節(jié)點基于性能的理論利用率，找出那些節(jié)點理論利用率大于節(jié)點最大負(fù)載的節(jié)點，并計算出盈余容量，集群盈余容量的計算公式如下：

(8)

式中i=1,2,…,n并且Rideal(i)>M 。然后再將這部分容量分配給其他節(jié)點。迭代運行，直到集群中沒有節(jié)點的理論容量大于節(jié)點最大負(fù)載值。

在將盈余容量分配給其他節(jié)點的過程中，以減少機架間數(shù)據(jù)傳輸為目的，我們采用了同機架優(yōu)先的策略。該策略如下：當(dāng)前機架內(nèi)的某節(jié)點基于性能的理論利用率高于節(jié)點最大負(fù)載的時候，優(yōu)先將該節(jié)點的容量分配到該機架的其他節(jié)點上。為此，我們定義了一個同一機架和非同一機架的配置比γ=2。該參數(shù)的意義在于優(yōu)先將當(dāng)前機架盈余出來的容量存放在同一機架的其他節(jié)點上，以減少機架與機架之間理論存儲空間利用率的差別。最終我們得到一組各個節(jié)點基于性能的理論存儲空間利用率。

定義5各節(jié)點參數(shù)化的閾值：

(9)

用戶輸入的threshold參數(shù)值t是集群達(dá)到平衡狀態(tài)的各節(jié)點存儲空間使用率與集群存儲空間使用率的偏差值的最大值。如果偏差值小于該值，那么我們認(rèn)為該節(jié)點是均衡的。由于異構(gòu)集群中，各個節(jié)點的存儲空間的異構(gòu)性，該閾值所對應(yīng)的存儲空間及節(jié)點性能差別較大，于是我們需要將該閾值根據(jù)式(9)參數(shù)化為各個節(jié)點的閾值。

2.3算法

下面介紹算法的詳細(xì)步驟。

1) 計算各個節(jié)點的相對性能值P(i)，節(jié)點的性能總和P以及集群的存儲空間利用率Ravg。

2) 求出各個節(jié)點基于性能的理論占用容量Cidel(i)及基于性能的理論利用率Ridel(i)。

3) 計算集群節(jié)點最大負(fù)載值M。

4) 根據(jù)節(jié)點最大負(fù)載和各個節(jié)點基于性能的理論利用率，找出那些節(jié)點理論利用率大于節(jié)點最大負(fù)載的節(jié)點，并計算出盈余容量C_supr。如果沒有找到該類節(jié)點，轉(zhuǎn)6)。

5) 基于機架的策略，優(yōu)先將盈余容量分配到同一機架上。然后重新計算各個節(jié)點基于性能的理論利用率并轉(zhuǎn)到4)。

6) 將用戶輸入的threshold 通過式(8)參數(shù)化為各個節(jié)點的閾值。

7) 根據(jù)最終計算得到的各節(jié)點基于性能的理論利用率和各節(jié)點參數(shù)化后的閾值，將集群中的節(jié)點分為如表1所示四組。

表1　節(jié)點分組

8) 計算各節(jié)點需要移動的數(shù)據(jù)量并移動數(shù)據(jù)。

9) 算法結(jié)束。

3實驗與結(jié)果分析

由于實驗環(huán)境有限，測試環(huán)境由三個機架共9個節(jié)點組成。其中機架A中有兩個節(jié)點，機架B中有四個節(jié)點，機架C中有三個節(jié)點，Namenode節(jié)點位于機架B中編號為3的節(jié)點，同時該節(jié)點也作為Datanode節(jié)點。所有節(jié)點都安裝為Ubuntu 12.04操作系統(tǒng)。實驗環(huán)境的網(wǎng)絡(luò)拓?fù)淙鐖D1所示。

圖1　網(wǎng)絡(luò)拓?fù)?/p>

實驗中我們的負(fù)載均衡器運行在節(jié)點編號為3的節(jié)點，即Namenode節(jié)點。其中各個節(jié)點的硬件配置如表2所示。

表2　節(jié)點硬件配置

為了比較異構(gòu)集群中HDFS默認(rèn)的負(fù)載均衡器和本文改進(jìn)的負(fù)載均衡器之間的效果差異，我們將數(shù)據(jù)塊的副本數(shù)設(shè)定為2，并將其中幾個節(jié)點作為客戶端上傳文本數(shù)據(jù)，再刪除其中的部分?jǐn)?shù)據(jù)使集群處于不均衡的狀態(tài)。然后分別運行默認(rèn)負(fù)載均衡器和本文改進(jìn)的負(fù)載均衡器，觀察均衡效果。同時，我們分別在運行默認(rèn)負(fù)載均衡器后和運行本文改進(jìn)的負(fù)載均衡器后執(zhí)行Hadoop的WordCount程序，觀察程序在各個負(fù)載均衡后的執(zhí)行時間。執(zhí)行指令start-balancer.sh-threshold 5 ，即將閾值(threshold)設(shè)定為百分之5并執(zhí)行負(fù)載均衡器，集群的狀態(tài)如表3所示。

表3　集群負(fù)載狀態(tài)

續(xù)表3

由表3的數(shù)據(jù)我們可以看出，改進(jìn)后的數(shù)據(jù)負(fù)載均衡器能夠較好地依據(jù)節(jié)點的性能調(diào)整數(shù)據(jù)的分布。為了驗證本文改進(jìn)的負(fù)載均衡器能夠具有較好的數(shù)據(jù)均衡效果。運行WordCount程序以觀察該程序在各狀態(tài)下的執(zhí)行時間。WordCount是Hadoop官方的MapReduce的demo程序。WordCount例程讀取集群中文本文件，并統(tǒng)計文件中單詞出現(xiàn)的頻數(shù)。不同于蒙特卡羅方法計算π的demo例程，蒙特卡洛發(fā)計算π值，對節(jié)點的CPU性能要求較高，屬于CPU密集型作業(yè)，而WordCount程序?qū)儆贗/O密集型作業(yè)，對數(shù)據(jù)的分布更加敏感。本實驗采用節(jié)點5作為客戶端提交用戶WordCount作業(yè)20次，觀察作業(yè)的執(zhí)行時間，并且作業(yè)執(zhí)行前數(shù)據(jù)已經(jīng)分布在集群中。

數(shù)據(jù)分布均衡的集群，可以有效減少作業(yè)調(diào)度帶來的計算資源和數(shù)據(jù)資源在不同的物理節(jié)點而產(chǎn)生的數(shù)據(jù)遷移問題，并有效減少網(wǎng)絡(luò)I/O，降低所謂的“非本地化任務(wù)”，縮短作業(yè)的執(zhí)行時間[10, 11]。圖2顯示了在不同數(shù)據(jù)負(fù)載均衡算法下作業(yè)的執(zhí)行時間，橫坐標(biāo)表示的是我們執(zhí)行作業(yè)的序列號，縱坐標(biāo)表示的是作業(yè)的執(zhí)行時間。從圖中我們可以清楚的看出，相較于默認(rèn)數(shù)據(jù)負(fù)載均衡算法下作業(yè)的執(zhí)行時間，改進(jìn)后的數(shù)據(jù)負(fù)載均衡算法可以有效地減少作業(yè)的執(zhí)行時間，提高集群效率。

圖2　不同均衡算法下作業(yè)的執(zhí)行時間

4結(jié)語

本文分析了集群默認(rèn)數(shù)據(jù)負(fù)載均衡的局限性，并針對該問題提出了異構(gòu)集群數(shù)據(jù)負(fù)載均衡的量化模型。該模型通過綜合考慮節(jié)點性能的異構(gòu)性和存儲空間的異構(gòu)性求得各個節(jié)點存儲空間的理論均衡利用率，并將用戶輸入的閾值量化為各個節(jié)點的負(fù)載參數(shù)。然后移動各個節(jié)點的數(shù)據(jù)，使得各個節(jié)點的存儲空間利用率與理論均衡利用率的偏差值不大于各個節(jié)點的理論閾值。通過實驗分析，證明了該模型能夠讓集群達(dá)到更均衡的狀態(tài)，一定程度上減少了作業(yè)的執(zhí)行時間，提高了集群的整體性能。

后續(xù)的研究將繼續(xù)關(guān)注Hadoop異構(gòu)集群中數(shù)據(jù)的負(fù)載均衡，特別關(guān)注集群中作業(yè)的執(zhí)行與數(shù)據(jù)副本之間的關(guān)系。

參考文獻(xiàn)

[1] White T.Hadoop:The definitive guide[M].O’Reilly Media,Inc,2012.

[2] 王意潔,孫偉東,周松,等.云計算環(huán)境下的分布存儲關(guān)鍵技術(shù)[J].Journal of Software,2012,23(4):962-986.

[3] Sun H,Chen J,Liu C,et al.Improving MapReduce Performance via Heterogeneity-Load-Aware Partition Function[C]//Cluster Computing(CLUSTER),2011 IEEE International Conference on.IEEE,2011:557-560.

[4] 楊昊溟.云存儲系統(tǒng)的數(shù)據(jù)副本放置算法研究[D].電子科技大學(xué),2013.

[5] 王寧,楊揚,孟坤,等.云計算環(huán)境下基于用戶體驗的成本最優(yōu)存儲策略研究[J].電子學(xué)報,2014,42(1):20-27.

[6] 劉琨,鈕文良.一種改進(jìn)的Hadoop數(shù)據(jù)負(fù)載均衡算法[J].河南理工大學(xué)學(xué)報:自然科學(xué)版,2013,32(3):332-336.

[7] Xie J,Yin S,Ruan X,et al.Improving mapreduce performance through data placement in heterogeneous hadoop clusters[C]//Parallel & Distributed Processing,Workshops and Phd Forum (IPDPSW),2010 IEEE International Symposium on.IEEE,2010:1-9.

[8] 劉琨,肖琳,趙海燕.Hadoop中云數(shù)據(jù)負(fù)載均衡算法的研究及優(yōu)化[J].微電子學(xué)與計算機,2012,29(9):18-22.

[9] 陶永才,張寧寧,石磊,等.異構(gòu)環(huán)境下云計算數(shù)據(jù)副本動態(tài)管理研究[J].小型微型計算機系統(tǒng),2013,34(7):1487-1492.

[10] Ananthanarayanan G,Agarwal S,Kandula S,et al.Scarlett:coping with skewed content popularity in mapreduce clusters[C]//Proceedings of the sixth conference on Computer systems.ACM,2011:287-300.

[11] Wei Q,Veeravalli B,Gong B,et al.CDRM:A cost-effective dynamic replication management scheme for cloud storage cluster[C]//Cluster Computing (CLUSTER),2010 IEEE International Conference on.IEEE,2010:188-196.

RESEARCH ON DATA LOAD BALANCING IN HETEROGENEOUS HADOOP CLUSTER

Zhang Song1Du Qingwei1Sun Jing2Sun Zhen2

1(SchoolofComputerScienceandTechnology,NanjingUniversityofAeronauticsandAstronautics,Nanjing210016,Jiangsu,China)2(Unit94860ofPLA,Nanjing210016,Jiangsu,China)

AbstractIn Hadoop, the data load balancing has profound effect on the exertion of platform performance. First we analysed the limitation of default data load balancing, aiming at the problem of current default HDFS (Hadoop distributed file system) that the data load balancing algorithm only focuses on the storage space utilisation but not considers the heterogeneity between nodes, we presented a mathematic model which quantifies the data load balancing of heterogeneous clusters. The model calculates the theoretical space utilisation of each node based on their allocated storage space and processing capacity, and dynamically adjusts the maximum load of each node according to current average utilisation of cluster storage space. Experimental result showed that the proposed data balancing strategy could enable the heterogeneous clusters to reach more reasonable balancing state so as to improve clusters efficiency, and to decrease the execution time of job effectively as well.

KeywordsHadoopHDFSData load balancingHeterogeneous cluster

收稿日期：2014-11-14。國家自然科學(xué)基金項目(61202350)。張松，碩士生，主研領(lǐng)域：計算機網(wǎng)絡(luò)與分布式計算。杜慶偉，副教授。孫靜，助理工程師。孫振，助理工程師。

中圖分類號TP391

文獻(xiàn)標(biāo)識碼A

DOI:10.3969/j.issn.1000-386x.2016.05.009

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

Hadoop異構(gòu)集群中數(shù)據(jù)負(fù)載均衡的研究