蒲松濤
從云計(jì)算、大數(shù)據(jù)、物聯(lián)網(wǎng)、人工智能等新一代信息技術(shù)創(chuàng)新歷程可以清晰地看出,開(kāi)源模式活躍在各個(gè)領(lǐng)域,更為重要的是,隨著全球各大科技巨頭的競(jìng)相加入,開(kāi)源模式正逐漸成為推動(dòng)大數(shù)據(jù)等各領(lǐng)域技術(shù)創(chuàng)新的主導(dǎo)力量。
開(kāi)源已成為大數(shù)據(jù)技術(shù)創(chuàng)新的主要模式
大數(shù)據(jù)源于開(kāi)源,并基于開(kāi)源不斷演進(jìn)發(fā)展,自身就已具備了開(kāi)源基因。經(jīng)過(guò)若干年的發(fā)展,開(kāi)源軟件和開(kāi)源工具已經(jīng)覆蓋了大數(shù)據(jù)產(chǎn)業(yè)發(fā)展的各個(gè)環(huán)節(jié),基于開(kāi)源軟件,企業(yè)可以快速構(gòu)建大數(shù)據(jù)應(yīng)用平臺(tái),提供豐富的大數(shù)據(jù)開(kāi)發(fā)和應(yīng)用工具。當(dāng)前,從小型初創(chuàng)企業(yè)到行業(yè)科技巨頭,各種規(guī)模的企業(yè)都在使用開(kāi)源軟件和工具做大數(shù)據(jù)處理和基于數(shù)據(jù)的預(yù)測(cè)分析。由此可見(jiàn),開(kāi)源不僅驅(qū)動(dòng)著大數(shù)據(jù)技術(shù)的創(chuàng)新演進(jìn),也推動(dòng)著大數(shù)據(jù)產(chǎn)業(yè)的不斷進(jìn)步,對(duì)繁榮大數(shù)據(jù)應(yīng)用生態(tài)起到了不可忽視的作用。
嚴(yán)格來(lái)說(shuō),大數(shù)據(jù)并不是一個(gè)產(chǎn)業(yè)或市場(chǎng),而是一類問(wèn)題,或者一種思維。從這些思維和問(wèn)題中獲得價(jià)值,需要完整的信息基礎(chǔ)設(shè)施,并配套以相關(guān)的技術(shù)和工具,這些共同構(gòu)成大數(shù)據(jù)應(yīng)用的生態(tài)。因此,把大數(shù)據(jù)當(dāng)作產(chǎn)業(yè)來(lái)看待,其生態(tài)體系的外延是非常廣闊的。
狹義來(lái)看,按照應(yīng)用流程,大數(shù)據(jù)生態(tài)鏈包括數(shù)據(jù)采集、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)應(yīng)用和數(shù)據(jù)可視化等環(huán)節(jié);從廣義來(lái)看,大數(shù)據(jù)生態(tài)鏈貫穿數(shù)據(jù)的整個(gè)生命周期,包括各種基礎(chǔ)設(shè)施和軟件系統(tǒng),從數(shù)據(jù)的產(chǎn)生到采集、傳輸、分享到存儲(chǔ),再到分析挖掘,直至最終的呈現(xiàn)與應(yīng)用。從技術(shù)的應(yīng)用范圍和重要性可以看出,數(shù)據(jù)的存儲(chǔ)、數(shù)據(jù)處理、價(jià)值挖掘和數(shù)據(jù)可視化等是大數(shù)據(jù)產(chǎn)業(yè)環(huán)節(jié)中的重點(diǎn)領(lǐng)域。
開(kāi)源技術(shù)創(chuàng)新引領(lǐng)大數(shù)據(jù)基礎(chǔ)平臺(tái)演進(jìn)
對(duì)于云計(jì)算發(fā)展而言,開(kāi)源基礎(chǔ)平臺(tái)如OpenStack、CloudStack的發(fā)展是推動(dòng)云計(jì)算技術(shù)創(chuàng)新和行業(yè)應(yīng)用的關(guān)鍵。與之類似,大數(shù)據(jù)的發(fā)展與開(kāi)源軟件的不斷創(chuàng)新密切相關(guān),在大數(shù)據(jù)處理平臺(tái)這個(gè)基礎(chǔ)性并處于核心地位的環(huán)節(jié),開(kāi)源技術(shù)的創(chuàng)新成為了引領(lǐng)其不斷演進(jìn)的主要?jiǎng)恿Α?/p>
Hadoop是推動(dòng)大數(shù)據(jù)應(yīng)用的基礎(chǔ)平臺(tái),是基于GFS和Mapreduce的開(kāi)源實(shí)現(xiàn)。盡管在Hadoop之前也有一些類似的分布式存儲(chǔ)和計(jì)算平臺(tái),但真正能實(shí)現(xiàn)工業(yè)級(jí)應(yīng)用、大幅降低應(yīng)用門(mén)檻、帶動(dòng)各行業(yè)大規(guī)模部署的無(wú)疑當(dāng)屬Hadoop。受益于MapReduce框架的易用性和容錯(cuò)性,以及對(duì)先進(jìn)存儲(chǔ)系統(tǒng)和計(jì)算系統(tǒng)的集成,Hadoop成為大數(shù)據(jù)處理平臺(tái)的主要基石。
在大數(shù)據(jù)產(chǎn)業(yè)發(fā)展的初期,Hadoop可滿足90%以上的離線存儲(chǔ)和離線計(jì)算需求,它成為各大公司早期大數(shù)據(jù)平臺(tái)的首選。可以說(shuō),沒(méi)有Hadoop就沒(méi)有今天的大數(shù)據(jù)產(chǎn)業(yè)發(fā)展。自Hadoop起,大數(shù)據(jù)平臺(tái)幾經(jīng)升級(jí)及更替,發(fā)展出兩主線、多支線的演進(jìn)態(tài)勢(shì),但不管是主線亦或是支線,開(kāi)源都是大數(shù)據(jù)平臺(tái)技術(shù)創(chuàng)新的主要模式,開(kāi)源軟件始終是大數(shù)據(jù)基礎(chǔ)平臺(tái)的重要屬性。
主線一是Hadoop生態(tài),主要組成包括Hadoop、Pig、HBase、ZooKeeper、Hive、Yarn和Impala,主要組件提出于2008年之前,Yarn和Impala分別提出于2011年和2012年。Pig是一種開(kāi)源編程語(yǔ)言,可加載數(shù)據(jù)、表達(dá)轉(zhuǎn)換數(shù)據(jù)和存儲(chǔ)最終結(jié)果,其內(nèi)置操作可處理半結(jié)構(gòu)化數(shù)據(jù);HBase是一個(gè)分布式的、面向列的開(kāi)源數(shù)據(jù)庫(kù),在Hadoop之上提供了類似于Bigtable的能力,是一個(gè)適合于非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)的數(shù)據(jù)庫(kù);ZooKeeper是一個(gè)分布式的開(kāi)源分布式應(yīng)用程序協(xié)調(diào)服務(wù),可提供配置維護(hù)、名字服務(wù)、分布式同步、組服務(wù)等功能;Hive是一個(gè)基于Hadoop的數(shù)據(jù)倉(cāng)庫(kù)工具,可以將結(jié)構(gòu)化的數(shù)據(jù)文件映射為數(shù)據(jù)庫(kù)表,并提供簡(jiǎn)單的SQL查詢功能;Yarn是一個(gè)全新的MapReduce框架,可為從根本上解決傳統(tǒng)MapReduce框架的性能瓶頸,對(duì)促進(jìn)Hadoop框架應(yīng)用發(fā)展發(fā)揮重要作用;Impala可以直接為Hadoop數(shù)據(jù)提供快速,交互式的SQL查詢。
主線二是Spark生態(tài),包括Spark、Shark、SparkStreaming、Bagel、GraphX、SparkSQL等,Spark提出于2009年,主要生態(tài)組成提出于2011年至2014年。
Spark是開(kāi)源類Hadoop框架,可將中間輸出結(jié)果保存在內(nèi)存中,因此計(jì)算速度較Hadoop有幾倍到幾十倍的提升,在成熟之后得到了迅速普及;Shark可通過(guò)Hive的HQL解析將其翻譯成Spark上的RDD操作,具有運(yùn)算速度快、兼容性強(qiáng)等特點(diǎn);Spark Streaming、Bagel、GraphX、Spark SQL等開(kāi)源軟件均以Spark為基礎(chǔ),從實(shí)時(shí)計(jì)算框架、圖計(jì)算模型、圖模型API、數(shù)據(jù)查詢等方面對(duì)原有平臺(tái)進(jìn)行了優(yōu)化或補(bǔ)充。
除Hadoop、Spark之外,還涌現(xiàn)出了一批支線平臺(tái),絕大多數(shù)是開(kāi)源的,主要代表有Hypertable、Cassandra、Dryad、S4、Kalka、Haloop和Storm。其中,Storm完全擺脫了MapReduce架構(gòu),重新設(shè)計(jì)了一個(gè)適用于流式計(jì)算的架構(gòu),以數(shù)據(jù)流為驅(qū)動(dòng)觸發(fā)計(jì)算,計(jì)算時(shí)效性高,適應(yīng)有向無(wú)環(huán)圖計(jì)算拓?fù)涞脑O(shè)計(jì),計(jì)算方式較為靈活,在業(yè)界得到了一定的部署應(yīng)用。
科技企業(yè)是大數(shù)據(jù)開(kāi)源軟件發(fā)展的主要力量
表面上看,大數(shù)據(jù)基礎(chǔ)平臺(tái)和主要環(huán)節(jié)的技術(shù)創(chuàng)新均是基于開(kāi)源模式推動(dòng)的,全球各界人士均有平等的參與和應(yīng)用機(jī)會(huì)。但是,從技術(shù)演進(jìn)的確定權(quán)和影響力來(lái)看,大數(shù)據(jù)領(lǐng)域的技術(shù)創(chuàng)新離不開(kāi)全球主要科技企業(yè)的參與。
科技企業(yè)既是大數(shù)據(jù)技術(shù)創(chuàng)新的主要力量,同時(shí)也圍繞開(kāi)源世界的游戲規(guī)則不斷擴(kuò)大行業(yè)影響力,緊抓技術(shù)創(chuàng)新前沿,搶占大數(shù)據(jù)技術(shù)發(fā)展和標(biāo)準(zhǔn)制定的話語(yǔ)權(quán),培育發(fā)展形成以企業(yè)核心競(jìng)爭(zhēng)力為中心、以開(kāi)源為主要方式的新型產(chǎn)業(yè)生態(tài)。