Marc Wilczek 陳琳華
端正成為企業(yè)加快數(shù)字化活動的首選,以下是評估HaaS(Hadoop即服務(wù))提供商時應(yīng)考慮的事項。
Hadoop為一種基于開放源代碼的軟件框架,能夠跨分布式集群以高吞吐量處理海量的大數(shù)據(jù)。
幾年前主攻小眾市場的Hadoop如今正進軍主流市場。隨著數(shù)字化運動的快速發(fā)展,Hadoop提供了充足的應(yīng)用案例,允許使用普通的商品硬件進行大數(shù)據(jù)處理。
Hadoop還具有很高的可擴展性,可從單一服務(wù)器擴展到多個服務(wù)器農(nóng)場,同時每個集群都能夠運行自己的計算和存儲。Hadoop為應(yīng)用層提供了高可用性,由于集群硬件可以是現(xiàn)成的,所以它們能夠?qū)崿F(xiàn)節(jié)點輕松互換,從而提高成本收益。“云端化”發(fā)展趨勢
雖然早期使用者通常使用的是通過Apache發(fā)行版搭建的本地部署,但是目前企業(yè)開始逐步加大對云計算的使用。相比之下,自己動手DIY的方法無疑是繁瑣和耗時的。
隨著產(chǎn)品上市時間在數(shù)字時代的重要性逐漸突顯,越來越多的公司開始使用迅速崛起并被大量采用的Hadoop即服務(wù)(Haas)產(chǎn)品。
從用戶的角度來看,將云作為首選具有重大意義。規(guī)?;?jīng)濟使得單位成本更加低廉,企業(yè)可以提高效率,減少資本支出,同時獲得更大的靈活性。
除了商業(yè)利益之外,云還開辟了一系列全新的數(shù)字用例,特別是在物聯(lián)網(wǎng)環(huán)境下和需要實時數(shù)據(jù)處理的其他場景中。亞馬遜網(wǎng)絡(luò)服務(wù)的Elastic Map Reduce(EMR)即為該領(lǐng)域的開拓性產(chǎn)品之一。
基本上所有的大型服務(wù)提供商都不約而同地在其產(chǎn)品組合中添加了基于云的Hadoop托管服務(wù),而且Hadoop發(fā)行版廠商自己也在努力“云端化”他們的框架,其中Cloudera的Altus就是最新的例子之一。Altus允許用戶利用MapReduce上的Hive或按需的Spark運行數(shù)據(jù)處理作業(yè)。市場發(fā)展前景
在強大的云需求下,越來越多的公司選擇了Hadoop即服務(wù)。HaaS本質(zhì)上是一個平臺即服務(wù)(PaaS)的子類別,它包括虛擬存儲和計算資源以及基于Hadoop的處理與分析框架。服務(wù)提供商通常運維一個多租戶HaaS環(huán)境,允許在共享基礎(chǔ)設(shè)施上托管多個客戶。
據(jù)市場研究機構(gòu)Allied Market稱,隨著越來越多的公司接受了“云優(yōu)先”思維模式,預(yù)計到2020年,HaaS市場的收入將達到161億美元;從2014年到2020年,復(fù)合年增長率(CAGR)將達到70.8%。從收入角度來看,北美地區(qū)仍然是領(lǐng)先的地區(qū),其次分別是歐洲和亞太地區(qū)。
預(yù)計到2020年,Haas的爆發(fā)將讓本地部署的Hadoop的增長相形見絀。據(jù)市場研究機構(gòu)IDC的研究顯示,公有云部署已占全球業(yè)務(wù)分析軟件市場的12%,預(yù)計其復(fù)合年增長率將達到25%。除了大型企業(yè)外,中小企業(yè)也在越來越多地選擇HaaS以獲得有可操作性的洞察力和創(chuàng)建以數(shù)據(jù)為中心的商業(yè)模式。
考慮HaaS時需要關(guān)注的事項
目前已經(jīng)有了許多HaaS用例,同時也暴露出了一些缺點。將大量數(shù)據(jù)移動到云端可能會產(chǎn)生延遲問題并且需要額外的帶寬。雖然只需點擊幾下即可方便地部署高度標(biāo)準(zhǔn)化的HaaS環(huán)境,但設(shè)計權(quán)限完全是由服務(wù)提供商自行決定。此外,云端上的數(shù)據(jù)會出現(xiàn)“引力場”并導(dǎo)致用戶被廠商鎖定。以下是評估HaaS提供商時還需要關(guān)注的事項:
1.彈性
Hadoop支持適用于各種工作負載的彈性集群,這在考慮基于云的部署時尤為重要。有哪些可用的計算和存儲選項能夠支持不同的用例?例如,哪些額外的“計算刀片”可用于高I/O工作負載?環(huán)境的可擴展性如何,以及調(diào)用額外資源(計算和存儲)的難易程度如何?
2.HDFS的持續(xù)使用
盡管不需要將HDFS作為持久性數(shù)據(jù)存儲,但在使用它們具有明顯的好處。HDFS使用的是商用直接附加存儲(DAS)并且分擔(dān)了底層基礎(chǔ)設(shè)施的成本。此外,HDFS可以無縫支持YARN和MapReduce,這使得其能夠本地處理查詢并充當(dāng)數(shù)據(jù)倉庫。
3.計費
服務(wù)提供商的基本價格指標(biāo)是什么(按訂單還是按消費進行計費)?如果能力未得到充分使用,退訂服務(wù)的靈活性如何?最重要的是,要記住“數(shù)據(jù)湖”是在快速擴張的,那么價格水平將如何隨著時間的推移而變化?
4.高可用性
實現(xiàn)“零中斷”是一個微妙但卻非常重要的問題。提供商的服務(wù)級協(xié)議和故障切換理念是什么?冗余是如何實現(xiàn)的?例如,提供商是否能夠在不中斷整個作業(yè)的情況下隔離并重新啟動單臺機器(又稱“不間斷運行”)?
5.互操作性
用例往往會隨著時間的推移變得越來越復(fù)雜,那么將正在使用或計劃使用的服務(wù)集成在一起的難易程度如何?它們支持哪些數(shù)據(jù)流和API,以及它們的文檔文件完備程度如何?
6.人才需求
雖然與DIY相比,設(shè)置Haas環(huán)境所需的人力明顯減少,但是Hadoop并沒有完全實現(xiàn)“開箱即用”。雖然節(jié)點的運行只需點擊幾下鼠標(biāo),但是這只是在實際工作剛開始時如此。定制仍然需要花費時間和精力。