海綿數(shù)據(jù)近日宣布推出其第二代大數(shù)據(jù)操作系統(tǒng)產(chǎn)品Sponge。Sponge是一個簡單多層,兼容完全POSIX兼容的分布式NFS、Hadoop,支持對象存儲、云存儲、SDS(軟件定義存儲)、容器機制,集成Spark為計算引擎,基于內(nèi)存計算技術(shù)的分布式系統(tǒng),將大數(shù)據(jù)的存儲、管理和計算有機融合,具有實時一致性,易于兼容現(xiàn)有系統(tǒng),相比10年前誕生的第一代產(chǎn)品Hadoop更加簡單易用,易于擴展。僅僅有作為計算平臺的Spark不足以應(yīng)對大數(shù)據(jù)的挑戰(zhàn),整合后的Sponge技術(shù)框架,能夠同時支持大數(shù)據(jù)、云存儲、結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的處理,代表了大數(shù)據(jù)的發(fā)展方向。
簡單 高效 可靠 經(jīng)濟
今天已經(jīng)沒有人再懷疑大數(shù)據(jù)的價值,云計算、移動互聯(lián)、物聯(lián)網(wǎng)、機器學(xué)習(xí)、無人機等前沿技術(shù)的普及與大數(shù)據(jù)的發(fā)展相得益彰,不論在美國還是中國,大數(shù)據(jù)已經(jīng)在很多的IT企業(yè)和傳統(tǒng)企業(yè)開始落地,譬如互聯(lián)網(wǎng)金融公司的反欺詐流程,電信運營商的客戶服務(wù)分析,都貫穿著大數(shù)據(jù)和機器學(xué)習(xí)技術(shù)的應(yīng)用,這也刺激著初創(chuàng)企業(yè)在這個領(lǐng)域?qū)ふ倚碌纳虡I(yè)機會。
目前普遍被采用來應(yīng)對大數(shù)據(jù)的是開源軟件與廉價的x86服務(wù)器的組合,這些開源產(chǎn)品包括Hadoop、Spark、Storm、NoSQL等。傳統(tǒng)存儲和數(shù)據(jù)庫當(dāng)然也針對大數(shù)據(jù)的需求升級,用來存儲價值密度低的大量非結(jié)構(gòu)化數(shù)據(jù)卻不現(xiàn)實。這些原本被Google、Facebook、Yahoo等大公司驗證在某些場景很成功的開源項目,也存在問題:不同功能模塊對應(yīng)多個相互獨立的開源項目,為不同的目的而設(shè)計,其關(guān)系很復(fù)雜,缺乏通用性,系統(tǒng)部署和使用復(fù)雜而低效,二次開發(fā)困難,并且難以統(tǒng)一管理和監(jiān)控,維護成本高,所以,需要有一個統(tǒng)一的平臺。
李東認為,第二代大數(shù)據(jù)操作系統(tǒng)和第一代產(chǎn)品的最本質(zhì)區(qū)別在于設(shè)計理念的不同,由此架構(gòu)和實現(xiàn)方法也不一樣。第一代的系統(tǒng)即使再打補丁,因為架構(gòu)的原因也存在無法添加的功能。海綿數(shù)據(jù)相信,隨著社交媒體、智能設(shè)備的普及,Hadoop在其誕生環(huán)境下自然采用的傳統(tǒng)批處理的方式,已經(jīng)跟不上現(xiàn)在的交互式處理、實時處理的需求,現(xiàn)在我們需要多樣化的處理方式,如果部署Hadoop就可能需要并行的兩套系統(tǒng)來提供兩種處理模式。另一方面,Hadoop版本眾多,現(xiàn)在就有1.0、1.1、2.0,生態(tài)系統(tǒng)項目的使用也不是一件簡單的事情。
簡單、高效、可靠、經(jīng)濟,這四個詞,是海綿數(shù)據(jù)對第二代大數(shù)據(jù)操作系統(tǒng)的價值的追求,以及Sponge產(chǎn)品設(shè)計的理念。
滿足大量文件數(shù)據(jù)讀寫IO的高需求
不同于以往以磁盤計算技術(shù)為核心的文件系統(tǒng),SpongeFS將集群內(nèi)存管理提升成為文件系統(tǒng)的重要組成部分,以滿足大量文件數(shù)據(jù)讀寫IO的高需求。SpongeFS基于分布式設(shè)計,上文說的Masterless結(jié)構(gòu),以及模塊化架構(gòu),正是由SpongeFS來操盤的。
SpongeFS主要由集群管理層、文件管理層和存儲層構(gòu)成。當(dāng)數(shù)據(jù)進入SpongeFS,就被分成一個個數(shù)據(jù)塊,每個數(shù)據(jù)塊通過文件管理層先存入緩存層,被加入集群間復(fù)制隊列,一擊加入到持久隊列等待存入持久層,CDR則把持久層數(shù)據(jù)塊復(fù)制到目標(biāo)集群(目標(biāo)群數(shù)據(jù)塊也優(yōu)先存到緩存層)。文件管理層的基本管理單位是Volume,每個Volume可以有不同的管理設(shè)置,如容錯性、安全性、物理資源的使用等。