云計(jì)算就是大數(shù)據(jù)這匹駿馬所要的好鞍,只有通過(guò)彈性、可靠、自助服務(wù)的云計(jì)算平臺(tái),才能充分發(fā)揮大數(shù)據(jù)的威力,讓它縱橫馳騁業(yè)務(wù)的各個(gè)疆場(chǎng)。
自從V Mwa re在2013年的全球用戶大會(huì)上推出vSphere Big Data Extention(B D E)以來(lái),大數(shù)據(jù)這匹駿馬越來(lái)越受到大家的追捧。當(dāng)然B D E主要針對(duì)是Hadoop的大數(shù)據(jù)應(yīng)用,其實(shí)大數(shù)據(jù)不僅僅是Hadoop,即使只算Hadoop也還有不同的發(fā)布版本。但是無(wú)論Hadoop的哪個(gè)版本或者哪個(gè)大數(shù)據(jù)平臺(tái),都蜂擁開(kāi)始追隨云計(jì)算,就像好馬配好鞍一樣重要,那怎樣的云計(jì)算平臺(tái)才是大數(shù)據(jù)的好鞍呢?運(yùn)行環(huán)境平臺(tái):多租戶、資源供應(yīng)和管理。
在過(guò)去幾個(gè)月的客戶溝通中,我學(xué)習(xí)了運(yùn)行大數(shù)據(jù)的多種不同平臺(tái),包括Twitter使用的Mesos、Fedex使用的虛擬化和Yahoo使用的Yarn。而不同的云計(jì)算平臺(tái)特性能解決大數(shù)據(jù)應(yīng)用的不同問(wèn)題。比如:Yarn的目標(biāo)是支持Hadoop上的非M-R應(yīng)用。而Twitter使用的Mesos則可以支持混合的負(fù)載,并且會(huì)利用操作系統(tǒng)的虛擬化。由于企業(yè)的大數(shù)據(jù)應(yīng)用場(chǎng)景往往是多樣的,所以需要選擇一種平臺(tái)適合不同的應(yīng)用場(chǎng)景,這包括:
●部署新的大數(shù)據(jù)應(yīng)用極其簡(jiǎn)單:可以通過(guò)自動(dòng)化和自助服務(wù)來(lái)完成;
●可以支持多種不同的負(fù)載:也就是能運(yùn)行多種大數(shù)據(jù)應(yīng)用,不僅僅限于Map-Reduce,還可支持一些Hadoop生態(tài)圈應(yīng)用、SQL服務(wù)和其他通用應(yīng)用;
●可靠的安全隔離:如果需要將某些敏感信息隔離,該平臺(tái)有能力確保數(shù)據(jù)集和環(huán)境安全;
●安全的資源隔離:為了能夠提供足夠的資源來(lái)滿足整體SLA要求,可以將吵鬧的鄰居隔離來(lái)確保性能;
●多版本支持能力:能運(yùn)行多個(gè)不同版本的運(yùn)行環(huán)境,滿足不同用戶、開(kāi)發(fā)者要求;
●企業(yè)級(jí)的可用性:確保整個(gè)系統(tǒng)的強(qiáng)壯性,提供企業(yè)等級(jí)的可用性。
對(duì)網(wǎng)絡(luò)而言,挑戰(zhàn)和機(jī)遇并存。今天兩層核心聚合交換網(wǎng)絡(luò)不能跨機(jī)架提供足夠的帶寬。機(jī)架內(nèi)的帶寬應(yīng)該沒(méi)有問(wèn)題,經(jīng)??梢赃_(dá)到每秒幾百Gbit,但機(jī)架間的帶寬往往十分有限,為此往往需要優(yōu)化流量到本地,也就是數(shù)據(jù)和計(jì)算完全整合的模式。幸運(yùn)的是,新的網(wǎng)絡(luò)拓?fù)?,包括CLOS和主干加分支設(shè)計(jì)都提供了很好的解決方案。使用這些新型的網(wǎng)絡(luò)拓?fù)?,可以在整個(gè)集群延時(shí)基本恒定的情況下確保足夠的帶寬,無(wú)論是機(jī)架內(nèi)還是機(jī)架間都不會(huì)有帶寬問(wèn)題。
隨著存儲(chǔ)技術(shù)的不斷發(fā)展,大數(shù)據(jù)的存儲(chǔ)選擇越來(lái)越豐富。當(dāng)然Hadoop的HDFS處于最核心圈,但其他的存儲(chǔ)平臺(tái)也可以提供跟Hadoop類似、即插即用的兼容能力,并且提供了某些獨(dú)特的價(jià)值。幾個(gè)主要的存儲(chǔ)選項(xiàng)如下:
●傳統(tǒng)的SAN或者NAS:這應(yīng)該算是支撐大數(shù)據(jù)應(yīng)用的最佳存儲(chǔ)選項(xiàng),因?yàn)槟壳按罅康臄?shù)據(jù)中心都可以提供這樣的存儲(chǔ)選項(xiàng),并且也包括了各種存儲(chǔ)服務(wù),例如:快照、歸檔、復(fù)制等;
●服務(wù)器內(nèi)置磁盤構(gòu)建的軟件定義存儲(chǔ):這方面HDFS是主要的代表,其他的選項(xiàng)包括CEPH、Gluster和MAPR,他們都可以建立文件系統(tǒng),滿足大數(shù)據(jù)的應(yīng)用;
●橫向擴(kuò)展存儲(chǔ)方案:很多獨(dú)具特色的新興公司提供了可以替代H D F S橫向擴(kuò)展存儲(chǔ),很好解決了成本和帶寬問(wèn)題。比如I s i l o n的橫向擴(kuò)展存儲(chǔ)方案,提供了3到144個(gè)節(jié)點(diǎn)的解決方案,可以擴(kuò)展到15PB、每秒85GB吞吐能力,成為橫向擴(kuò)展存儲(chǔ)的典型代表。
VMwa re推出的BDE方案也在不斷進(jìn)步中,為各種不同版本的Hadoop運(yùn)行提供了強(qiáng)大的支撐。目前BDE已經(jīng)可以和vCloud Automation Center結(jié)合來(lái)提供Hadoop集群的自助創(chuàng)建,借助vSphere平臺(tái)讓最終用戶可以快速自助創(chuàng)建應(yīng)用,大數(shù)據(jù)的部署難題迎刃而解。大數(shù)據(jù)平臺(tái)具有了自動(dòng)化、自助服務(wù)能力,讓大數(shù)據(jù)再也不是極客的專利,任何大數(shù)據(jù)應(yīng)用的開(kāi)發(fā)者、管理員都只需要專注自己的大數(shù)據(jù)應(yīng)用本身,而無(wú)需關(guān)心底層的架構(gòu)。