葉惠仙+賈如春
摘 要: 用哪種平臺(tái)能更有效地從海量數(shù)據(jù)中找到有價(jià)值的信息并利用,是現(xiàn)代IT人不斷追求的目標(biāo)。簡(jiǎn)述了大數(shù)據(jù)的定義與特征,提出大數(shù)據(jù)的架構(gòu)模型。從軟件角度對(duì)大數(shù)據(jù)架構(gòu)平臺(tái)進(jìn)行了分析與研究,分析了大數(shù)據(jù)架構(gòu)模型各層次的意義與關(guān)系,描述了數(shù)據(jù)存儲(chǔ)層及計(jì)算框架層的技術(shù)應(yīng)用,并對(duì)大數(shù)據(jù)應(yīng)用進(jìn)行了展望。
關(guān)健詞: 大數(shù)據(jù); 大數(shù)據(jù)定義; 大數(shù)據(jù)架構(gòu); 計(jì)算框架
中圖分類(lèi)號(hào):TP393 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):1006-8228(2016)12-42-04
Abstract: Which platform can be used more effectively to find valuable information from the mass data and to make use of it, is the goal of modern IT people continue to pursue. This paper briefly introduces the definition and characteristics of big data, and puts forward the architecture model of big data. The big data architecture is analyzed and studied from the software point of view, the meaning and relationship of all layers of the big data architecture model are analyzed, the technologies used in the data storage layer and computing framework layer are described, and the application of big data is prospected.
Key words: big data; big data definition; big data architecture; computing framework
0 引言
當(dāng)前,大數(shù)據(jù)存儲(chǔ)信息全球所擁有的數(shù)據(jù)總量已經(jīng)遠(yuǎn)遠(yuǎn)超過(guò)歷史上的任何時(shí)期,且數(shù)據(jù)量的增加速度呈現(xiàn)倍增趨勢(shì)。技術(shù)的發(fā)展往往不是那么一往無(wú)前,而是一直不停的迭代,然后論證,再互相影響。大數(shù)據(jù)技術(shù)也同樣如此,從各種各樣類(lèi)型的數(shù)據(jù)中,做到快速獲得有價(jià)值信息的能力,主要是大數(shù)據(jù)技術(shù)。
就現(xiàn)今數(shù)據(jù)分析方法而言,更多傾向于數(shù)據(jù)的關(guān)聯(lián)性,精確性。數(shù)據(jù)種類(lèi)繁多,在編碼方式、存儲(chǔ)格式和應(yīng)用特征等多個(gè)方面也存在多層次、多方面的差異性,結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)并存;如何處理隱含于生產(chǎn)者和消費(fèi)者之間產(chǎn)生的數(shù)據(jù)知識(shí)的價(jià)值信息延遲,一直是現(xiàn)代計(jì)算構(gòu)架不斷演進(jìn)的主要?jiǎng)恿Α?/p>
1 大數(shù)據(jù)的定義
在大數(shù)據(jù)的快速發(fā)展中,各個(gè)學(xué)者試圖對(duì)大數(shù)據(jù)理論、模型、分析、解決方案等提出自己的見(jiàn)解,并且定義也多種多樣,但是被大多人所認(rèn)可的是由道格拉斯·蘭尼(Douglas Laney)在2001年提出的經(jīng)典的3V定義:規(guī)模龐大的數(shù)據(jù)集合(volume),高速(velocity)地累積和變化,以及廣泛(variety)的來(lái)源種類(lèi)[1]。在2012年世界經(jīng)濟(jì)論壇上增加了第四個(gè)V:價(jià)值(value),將大數(shù)據(jù)作為一種新的經(jīng)濟(jì)資產(chǎn)。大數(shù)具有以下最為重要的五大特征。
⑴ 非競(jìng)爭(zhēng)性(non-Rival):它可以被許多消費(fèi)者同時(shí)使用和重復(fù)使用。這意味著向個(gè)人提供大數(shù)據(jù)的邊際成本是零。
⑵ 持續(xù)增長(zhǎng)(Rising):大數(shù)據(jù)還呈指數(shù)級(jí)增長(zhǎng)(Rising)。最小的基本單位是Byte,1TB=1,024GB;1PB=1,024TB;1EB=1,024PB;1ZB=1,024EB;1YB=
1,024ZB。在現(xiàn)階段的TB時(shí)代,1NB=2的60次方TB=1152921504606846976TB=115292150460684697個(gè)1TB硬盤(pán)。
⑶ 精煉(Refinable):這些海量數(shù)據(jù)很容易處理和精煉(Refinable),一家公司越使用大數(shù)據(jù),它的質(zhì)量和價(jià)值就越高。
⑷ 可再生(Renewable):大數(shù)據(jù)是可再生的(Renewable),像風(fēng)能一樣。
⑸ 可轉(zhuǎn)變用途(Repurposable):大數(shù)據(jù)是可延展和轉(zhuǎn)變用途的(Repurposable)。作為一種資源,大數(shù)據(jù)是非競(jìng)爭(zhēng)性、不斷增長(zhǎng)、可精煉、可再生以及可轉(zhuǎn)變用途的。大數(shù)據(jù)是應(yīng)用領(lǐng)域一項(xiàng)偉大的資產(chǎn),它是一種非常真實(shí)的現(xiàn)象,是一種對(duì)任何組織來(lái)說(shuō)都非常珍貴的資源[2]。
2 大數(shù)據(jù)架構(gòu)模型
近年來(lái),世界產(chǎn)生的數(shù)據(jù)就超過(guò)了可用存儲(chǔ)量。已經(jīng)從思考“存儲(chǔ)什么”轉(zhuǎn)向了“清除什么”。當(dāng)下智能手機(jī)由于存儲(chǔ)了過(guò)多的圖片而變得空間不足,這已經(jīng)是一個(gè)全球性的問(wèn)題了。經(jīng)常是存儲(chǔ)后再也沒(méi)看過(guò),或是偶爾查閱,這樣就成就了一句話:存儲(chǔ)中的一半數(shù)據(jù)是垃圾。只有那些知道怎樣提出正確問(wèn)題的人才知道哪些數(shù)據(jù)可能會(huì)對(duì)提問(wèn)有用和相關(guān),從而值得收集和處理,目的是開(kāi)發(fā)它們的寶貴模式。我們需要更多更好的思路來(lái)篩選有價(jià)值的數(shù)據(jù)信息,大數(shù)據(jù)還會(huì)不斷地增長(zhǎng)[3]。
對(duì)此類(lèi)技術(shù)的需求正在堆積,單位業(yè)務(wù)、創(chuàng)新和福利都取決與數(shù)據(jù)科學(xué)的價(jià)值量,現(xiàn)在是時(shí)候開(kāi)發(fā)一套大數(shù)據(jù)系統(tǒng)的方法論了。圖1為大數(shù)據(jù)架構(gòu)關(guān)系模型圖。
3 大數(shù)據(jù)架構(gòu)模型分析
⑴ 文件系統(tǒng)層:在這一層,分布式文件系統(tǒng)需具備存儲(chǔ)管理、容錯(cuò)處理、高可擴(kuò)展性、高可靠性和高可用性等特性。由于文件系統(tǒng)層關(guān)注的焦點(diǎn)開(kāi)始向“低延時(shí)處理”方向轉(zhuǎn)移,所以傳統(tǒng)基于磁盤(pán)存儲(chǔ)的文件系統(tǒng),也開(kāi)始向基于內(nèi)存計(jì)算的文件系統(tǒng)轉(zhuǎn)變,這樣可大大降低I/O操作和磁盤(pán)序列化帶來(lái)的訪問(wèn)開(kāi)銷(xiāo)。Tachyon和Spark RDD(彈性分布式數(shù)據(jù)集(Resilient Distributed Datasets)就是朝這個(gè)方向演化的范例,是一種高度受限的共享內(nèi)存模型。Tachyon是一個(gè)高容錯(cuò)的分布式內(nèi)存文件系統(tǒng),其設(shè)計(jì)的核心內(nèi)涵是要滿足當(dāng)下“低延遲”的數(shù)據(jù)處理要求。tachyon是在內(nèi)存中處理緩存文件,允許文件以訪問(wèn)內(nèi)存的速度在集群框架中進(jìn)行可靠的共享,類(lèi)似于Spark。Tachyon的吞吐量比HDFS高100倍。Spark框架雖然也提供了強(qiáng)大的內(nèi)存計(jì)算能力,但其沒(méi)有提供內(nèi)存文件的存儲(chǔ)管理能力,而Tachyon則彌補(bǔ)了Spark的不足之處。如CEPH文件系統(tǒng),Hadoop文件系統(tǒng)HDFS。Google文件系統(tǒng)GFS(Google File System)是一個(gè)可擴(kuò)展的分布式文件系統(tǒng),隱藏下層負(fù)載均衡,冗余復(fù)制等細(xì)節(jié),對(duì)上層程序提供一個(gè)統(tǒng)一的文件系統(tǒng)API接口[4]。Google根據(jù)自己的需求對(duì)它進(jìn)行了特別優(yōu)化,包括超大文件的訪問(wèn),讀操作比例遠(yuǎn)超過(guò)寫(xiě)操作,PC機(jī)極易發(fā)生故障造成節(jié)點(diǎn)失效等。GFS的新穎之處在于它著眼于幾個(gè)重要的目標(biāo),如性能、可伸縮性、可靠性和可用性,能利用所提出的方案,采用廉價(jià)的商用機(jī)器構(gòu)建高效的分布式文件系統(tǒng)。
⑵ 數(shù)據(jù)存儲(chǔ)層:由于目前采集到的數(shù)據(jù),大部分為非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù),數(shù)據(jù)的表現(xiàn)形式各異,有文本的、圖像的、音頻的、視頻的等,因此常見(jiàn)的數(shù)據(jù)存儲(chǔ)也要對(duì)應(yīng)有多種形式,有基于鍵值(Key-Value)的,有基于文檔(Document)的,還有基于列(Column)和圖表(Graph)的。如果采用單一數(shù)據(jù)庫(kù)引擎來(lái)滿足所有類(lèi)型的數(shù)據(jù)存儲(chǔ)需求,通常會(huì)嚴(yán)重降低數(shù)據(jù)庫(kù)管理的性能。因此,需要多元的(Polyglot)數(shù)據(jù)庫(kù)解決方案。非結(jié)構(gòu)化(NOSQL)數(shù)據(jù)存儲(chǔ)或可擴(kuò)展的結(jié)構(gòu)化數(shù)據(jù)(包括基于鍵值、基于文檔的和面向列的)數(shù)據(jù)存儲(chǔ)方案是支撐大數(shù)據(jù)應(yīng)用的關(guān)鍵所在。RCFile文件存儲(chǔ)格式,充分吸取面向列和面向行存儲(chǔ)模式的優(yōu)點(diǎn),揚(yáng)長(zhǎng)避短,根據(jù)對(duì)一致性(consistency)要求的強(qiáng)弱不同,分布式數(shù)據(jù)存儲(chǔ)策略可分為ACID和BASE兩大陣營(yíng)。ACID是指數(shù)據(jù)庫(kù)事務(wù)具有的四個(gè)特性:原子性(Atomicity)、一致性(Consistency)、隔離性(Isolation)、持久性(Durability)。ACID中的一致性要求比較強(qiáng),事務(wù)執(zhí)行的結(jié)果必須是使數(shù)據(jù)庫(kù)從一個(gè)一致性狀態(tài)變到另一個(gè)一致性狀態(tài)。而B(niǎo)ASE對(duì)一致性要求較弱,它的三個(gè)特征分別是:基本可用(Basically Available),軟狀態(tài)/柔性事務(wù)(Soft-state,即狀態(tài)可以有一段時(shí)間的不同步),最終一致性(Eventual consistency)[5]。BASE還進(jìn)一步細(xì)分基于鍵值的,基于文檔的和基于列和圖形的,細(xì)分的依據(jù)取決于底層架構(gòu)和所支持的數(shù)據(jù)結(jié)構(gòu)。Dynamo是基于鍵值的高可用的分布式存儲(chǔ)系統(tǒng),該系統(tǒng)放棄了數(shù)據(jù)建模的能力,所有的數(shù)據(jù)對(duì)象采用最簡(jiǎn)單的Key-value模型存儲(chǔ),可簡(jiǎn)單地將Dynamo理解為一個(gè)巨大的Map。Dynamo是犧牲了部分一致性,來(lái)?yè)Q取整個(gè)系統(tǒng)的高可用性。Cassandra是由Facebook工程師設(shè)計(jì)的一個(gè)離散的分布式結(jié)構(gòu)化存儲(chǔ)系統(tǒng),采用的是面向多維的鍵值或面向列的數(shù)據(jù)存儲(chǔ)格式。
⑶ 資源管理層:這一層是為了提高資源的高利用率和吞吐量,以到達(dá)高效的資源管理與調(diào)度目的。資源協(xié)調(diào)層需要完成對(duì)資源的狀態(tài)、分布式協(xié)調(diào)、一致性和資源實(shí)施管理。第一代Hadoop的生態(tài)系統(tǒng),其資源管理是以整體單一的調(diào)度器起家的,其代表作品為YARN。而當(dāng)前的調(diào)度器則是朝著分層調(diào)度的方向演進(jìn),這種分層的調(diào)度方式,可以管理不同類(lèi)型的計(jì)算工作負(fù)載,從而可獲取更高的資源利用率和調(diào)度效率。這些計(jì)算框架和調(diào)度器之間是松散耦合的,調(diào)度器的主要功能就是基于一定的調(diào)度策略和調(diào)度配置,完成作業(yè)調(diào)度,以達(dá)到工作負(fù)載均衡,使有限的資源有較高的利用率。
⑷ 計(jì)算框架層:本層的計(jì)算框架非常龐雜,有很多高度專(zhuān)用的框架如:流式的,交互式的,實(shí)時(shí)的,批處理和迭代圖的(Batch and Iterative Graph,BSP)等。為這些計(jì)算框架提供支撐的是運(yùn)行時(shí)引擎,如BDAS指“Berkeley Data Analytics Stack”即伯克利數(shù)據(jù)分析棧,Spark和 Flink等。Spark和Flink都屬于基礎(chǔ)性的大數(shù)據(jù)處理引擎。Spark是一個(gè)基于內(nèi)存計(jì)算的開(kāi)源的集群計(jì)算系統(tǒng),其目的在于讓數(shù)據(jù)分析更加快速。適合各種迭代算法和交互式數(shù)據(jù)分析,能夠提升大數(shù)據(jù)處理的實(shí)時(shí)性和準(zhǔn)確性,現(xiàn)已逐漸獲得很多企業(yè)的支持,如阿里巴巴、百度、網(wǎng)易、英特爾等公司均是其用戶(hù)。Flink是一個(gè)非常類(lèi)似于Spark的計(jì)算框架,但在迭代式數(shù)據(jù)處理上比Spark更給力。Pregel采用的是迭代式的計(jì)算模型,它被稱(chēng)之為Google后Hadoop時(shí)代的新“三駕馬車(chē)”之一,另外兩駕馬車(chē)分別是:“交互式”大數(shù)據(jù)分析系統(tǒng)Dremel和網(wǎng)絡(luò)搜索引擎Caffeine)。GraphX 是一個(gè)同時(shí)采用圖并行計(jì)算和數(shù)據(jù)并行計(jì)算的框架[6]。Storm一個(gè)大數(shù)據(jù)實(shí)時(shí)處理系統(tǒng),大大簡(jiǎn)化了面向龐大規(guī)模數(shù)據(jù)流的處理機(jī)制,從而在實(shí)時(shí)處理領(lǐng)域扮演著重要角色。BlinkDB是一個(gè)用于在海量數(shù)據(jù)上運(yùn)行交互式 SQL查詢(xún)的大規(guī)模并行查詢(xún)引擎。BlinkDB允許用戶(hù)通過(guò)適當(dāng)降低數(shù)據(jù)精度,對(duì)數(shù)據(jù)進(jìn)行先采樣后計(jì)算,通過(guò)其獨(dú)特的優(yōu)化技術(shù),實(shí)現(xiàn)了比Hive快百倍的交互式查詢(xún)速度,而查詢(xún)進(jìn)度誤差僅降低2~10%。BlinkDB采用的策略,與大數(shù)據(jù)布道師,維克托·邁爾-舍恩伯格在其著作《大數(shù)據(jù)時(shí)代》中提到的觀點(diǎn),“要全體,不要抽樣”,恰恰相反,如果要實(shí)現(xiàn)在大體量數(shù)據(jù)上的“快”,就得想辦法減少數(shù)據(jù),而減少數(shù)據(jù),勢(shì)必要適度地降低數(shù)據(jù)分析精確性。
⑸ 數(shù)據(jù)分析層:在這一層里,主要包括數(shù)據(jù)分析(消費(fèi))工具和一些數(shù)據(jù)處理函數(shù)庫(kù)。這些工具和函數(shù)庫(kù),可提供描述性的、預(yù)測(cè)性的或統(tǒng)計(jì)性的數(shù)據(jù)分析功能及機(jī)器學(xué)習(xí)模塊。數(shù)據(jù)分析層中的工具,涵蓋范圍很廣,從諸如SQL的聲明式編程語(yǔ)言,到諸如Pig的過(guò)程化編程語(yǔ)言,均有涉及。數(shù)據(jù)分析層中的庫(kù)也很豐富,可支持常見(jiàn)的數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)算法,這些類(lèi)庫(kù)可拿來(lái)即用,甚是方便。Hive是一個(gè)建立于 Hadoop上的數(shù)據(jù)倉(cāng)庫(kù)基礎(chǔ)構(gòu)架,用于進(jìn)行數(shù)據(jù)的提取、轉(zhuǎn)化和加載(即Extract-Transform-Load,ETL),是一種可以存儲(chǔ)、查詢(xún)和分析存儲(chǔ)在Hadoop 中的大規(guī)模數(shù)據(jù)的機(jī)制[7]。
⑹ 數(shù)據(jù)集成層:在這一層里,不僅包括管理數(shù)據(jù)分析工作流中用到的各種適用工具,還包括對(duì)元數(shù)據(jù)(Metadata)管理的工具。數(shù)據(jù)集成框架提供了良好的機(jī)制,以協(xié)助高效地?cái)z取和輸出大數(shù)據(jù)系統(tǒng)之間的數(shù)據(jù)。從業(yè)務(wù)流程線到元數(shù)據(jù)框架,數(shù)據(jù)集成層皆有涵蓋,從而提供全方位的數(shù)據(jù)在整個(gè)生命周期的管理和治理。ETL是數(shù)據(jù)抽?。‥xtract)、清洗(Cleaning)、轉(zhuǎn)換(Transform)、裝載(Load)過(guò)程,是構(gòu)建數(shù)據(jù)倉(cāng)庫(kù)的重要一環(huán)[8]。
⑺ 操作框架層:操作性框架用來(lái)構(gòu)建一套衡量標(biāo)準(zhǔn)和測(cè)試基準(zhǔn),從而來(lái)評(píng)價(jià)各種計(jì)算框架的性能優(yōu)劣。在這個(gè)操作性框架中,還需要包括性能優(yōu)化工具,借助它來(lái)平衡工作負(fù)載。包含監(jiān)測(cè)管理框架(Monitoring Frameworks),基準(zhǔn)測(cè)試(Benchmarking)[9]。Apache HCatalog提供一個(gè)共享的模式和數(shù)據(jù)類(lèi)型的機(jī)制,使用戶(hù)不必關(guān)心數(shù)據(jù)怎么存儲(chǔ),并提供了可操作的跨數(shù)據(jù)處理工具。
4 大數(shù)據(jù)的發(fā)展應(yīng)用
大數(shù)據(jù)這種近乎神奇的新資源,它理應(yīng)改變和提高商業(yè)生命周期的各個(gè)方面。一個(gè)企業(yè)的決策分析,雖然是微小的數(shù)據(jù),但卻是非常重要的強(qiáng)大工具,如此多的數(shù)據(jù)可以非??焖俣统杀镜禺a(chǎn)生和處理。日益擴(kuò)大的大數(shù)據(jù)海洋中有價(jià)值的“潛流”越來(lái)越多,但是對(duì)于沒(méi)有計(jì)算能力的人來(lái)說(shuō)是看不到的,因此更多更好的技能和技術(shù)極為有用。當(dāng)IT部門(mén)要求更多的資金時(shí),可能是有非常好的理由。然而,僅靠他們一己之力,再多的數(shù)字技術(shù)和解決方案也依然不夠用。需要有能夠自動(dòng)從大數(shù)據(jù)中獲取經(jīng)濟(jì)價(jià)值的方式,經(jīng)濟(jì)價(jià)值就是從大數(shù)據(jù)中找到的小但是重要的模式[10]。大數(shù)據(jù)可被用于以下方面。
⑴ 改善服務(wù)、產(chǎn)品或流程,幫助找到企業(yè)低效的地方。
⑵ 為用戶(hù)或客戶(hù)量身定制產(chǎn)品或服務(wù),讓公司更了解他們對(duì)客戶(hù)需求。
⑶ 預(yù)測(cè)趨勢(shì)發(fā)展方向,因?yàn)榇髷?shù)據(jù)可以表明歷史是如何塑造未來(lái)的。
⑷ 激發(fā)可能的戰(zhàn)略,比如新產(chǎn)品的設(shè)計(jì)和發(fā)行、時(shí)間、方式、目標(biāo)人口等。
⑸ 規(guī)劃并決定替代方案,大數(shù)據(jù)支持實(shí)證選擇。
⑹ 教育行業(yè)中,讓師者接近發(fā)現(xiàn)“每一個(gè)學(xué)生的真實(shí)”[10]。
⑺ 最后,對(duì)產(chǎn)品和服務(wù)進(jìn)行創(chuàng)新或革新,幫助公司預(yù)測(cè)無(wú)法察覺(jué)的需要、愿望和需求。
5 結(jié)束語(yǔ)
本文以大數(shù)據(jù)架構(gòu)為核心,分析了大數(shù)據(jù)解決方案中的特定的功能組件及關(guān)鍵技術(shù)。架構(gòu)技術(shù)的演進(jìn)是一個(gè)開(kāi)放并不斷改進(jìn)的過(guò)程,模型中的操作框架、數(shù)據(jù)集成與分析、計(jì)算框架、數(shù)據(jù)存儲(chǔ)等技術(shù)發(fā)展還面臨著問(wèn)題,減少批處理和交互式分析之間的平衡,實(shí)時(shí)和低延時(shí)處理的計(jì)算架構(gòu)在快速的發(fā)展過(guò)程中,也不斷推進(jìn)這種計(jì)算架構(gòu)的演進(jìn)。大數(shù)據(jù)需要新處理模式才能具有更強(qiáng)的決策力、洞察力和過(guò)程優(yōu)化能力。加強(qiáng)大數(shù)據(jù)技術(shù)研究,使不同行為特征的行業(yè)得以針對(duì)性塑造及創(chuàng)新發(fā)展,大數(shù)據(jù)高效有序的利用,有助于推進(jìn)國(guó)民經(jīng)濟(jì)的繁榮發(fā)展。
參考文獻(xiàn)(Reference):
[1] 張鋒軍.大數(shù)據(jù)技術(shù)研究綜述[J].通信技術(shù),2014.11:40-48
[2] 陸云帆,諸振家.大數(shù)據(jù)數(shù)據(jù)庫(kù)的特點(diǎn)與處理技術(shù)分析[J].信
息通信,2014.7:114
[3] 馬建光,姜巍.大數(shù)據(jù)的概念、特征及其應(yīng)用[J].國(guó)防科技,
2013.2:10-17
[4] 李芬,朱志祥,劉盛輝.大數(shù)據(jù)發(fā)展現(xiàn)狀及面臨的問(wèn)題[J].西安
郵電大學(xué)學(xué)報(bào),2013.5:100-103
[5] 王珊,王會(huì)舉,覃雄派,周烜.架構(gòu)大數(shù)據(jù):挑戰(zhàn)、現(xiàn)狀與展望[J].
計(jì)算機(jī)學(xué)報(bào),2011.10:41-52
[6] 黃哲學(xué),曹付元,李俊杰,陳小軍.面向大數(shù)據(jù)的海云數(shù)據(jù)系統(tǒng)
關(guān)鍵技術(shù)研究[J].網(wǎng)絡(luò)新媒體技術(shù),2012.6:20-26
[7] 夏海元.面向Big Data的數(shù)據(jù)處理技術(shù)概述[J].數(shù)字技術(shù)與
應(yīng)用,2012.3:179-180
[8] 楊京,王效岳,白如江,祝娜.大數(shù)據(jù)背景下數(shù)據(jù)科學(xué)分析工具
現(xiàn)狀及發(fā)展趨勢(shì)[J].情報(bào)理論與實(shí)踐,2015.3:134-137,144
[9] 張延松,焦敏,王占偉,王珊,周烜.海量數(shù)據(jù)分析的
One-size-fits-all OLAP技術(shù)[J].計(jì)算機(jī)學(xué)報(bào),2011.10:36-46
[10] 廖建新.大數(shù)據(jù)技術(shù)的應(yīng)用現(xiàn)狀與展望[J].電信科學(xué),
2015.7:7-18