崔力升
(信陽職業(yè)技術學院,河南 信陽464200)
Google文件系統(tǒng)(Google File System,GFS),它能運行在不可靠硬件設備上,對PB級別海量的數(shù)據(jù)進行處理,并且能同時多個用戶并發(fā)訪問服務器集群。文件系統(tǒng)中存放的數(shù)據(jù)絕大部分采用追加新數(shù)據(jù)而非覆蓋現(xiàn)有數(shù)據(jù)的方式進行寫操作。除了考慮到這些需要和技術特點后,GFS也考慮了分布式文件系統(tǒng)的共性設計目標:高可用性,大容量數(shù)據(jù)存儲和調(diào)度,簡單的負載均衡和冗余。
圖1是Google文件系統(tǒng)的文件架構(gòu)圖。
圖1 GFS架構(gòu)
Hadoop分布式文件系統(tǒng) (Hadoop Distributed File System,HDFS)是一個設計為用在普通硬件設備上的分布式文件系統(tǒng)。將其運行于計算機集群上,完成海量數(shù)據(jù)的計算,還包含了一個分布式文件系統(tǒng)HDFS(Hadoop Distributed File System)。
Hadoop具有如下優(yōu)勢:
1)具有更高的可用性,可以容忍多個節(jié)點同時失效
2)具有更好的可擴展性,而且能夠?qū)崿F(xiàn)在線的動態(tài)擴展
3)分布式的元數(shù)據(jù)管理,消除集中管理的瓶頸
4)采用類似于內(nèi)存數(shù)據(jù)庫的方式存儲元數(shù)據(jù),提供了元數(shù)據(jù)的訪問速度
5)配置簡單,方便管理,具有很好的實用性
圖2HDFS架構(gòu)
HDFS是主/從結(jié)構(gòu)的。一個集群有一個名字結(jié)點,也就是主控制服務器,負責管理文件系統(tǒng)的名字空間并協(xié)調(diào)客戶對文件的訪問。還有很多數(shù)據(jù)結(jié)點,一般一個物理結(jié)點上部署一個,負責它們所在的物理結(jié)點上的存儲管理。HDFS開放文件系統(tǒng)的命名空間,用戶能夠以文件的形式在上面存儲數(shù)據(jù)。在HDFS中,也是以塊的形式儲數(shù)據(jù)(同GFS一樣,文件被分成塊來存儲),這些數(shù)據(jù)塊存儲在一組數(shù)據(jù)結(jié)點中。名字結(jié)點執(zhí)行文件系統(tǒng)的名字空間操作(比如打開、關閉、重命名文件或目錄,還決定數(shù)據(jù)塊到數(shù)據(jù)結(jié)點的映射)。數(shù)據(jù)結(jié)點負責提供客戶的讀寫請求。名字結(jié)點對數(shù)據(jù)結(jié)點的數(shù)據(jù)塊進行統(tǒng)一調(diào)度。
Hadoop分布式文件系統(tǒng)中的MapReduce是核心計算模型,它有一個基本要求:待處理的數(shù)據(jù)集可以分解成許多小的數(shù)據(jù)集,而且每一個小數(shù)據(jù)集都可以完全并行地進行處理。
圖3
圖3中說明了用MapReduce處理海量數(shù)據(jù)的流程,將大數(shù)據(jù)分解為成百上千的小數(shù)據(jù),各個數(shù)據(jù)分別由集群中的某一個結(jié)點生成中間結(jié)果,又有大量的結(jié)點對中間結(jié)果進行計算處理,形成最終結(jié)果。
表1
盡管Google分布式文件系統(tǒng)和Hadoop分布式文件系統(tǒng)在自己的優(yōu)勢上各具特色,所以對Google分布式文件系統(tǒng)和Hadoop分布式文件系統(tǒng)在實際應用中的各種性能上進行對比。
[1]苗放,葉成名,劉瑞,孔祥生.新一代數(shù)字地球平臺與“數(shù)字中國”技術體系架構(gòu)探討[J].2007,6.
[2]郭曦榕,苗放,王華軍,劉瑞,等.基于G/S模式架構(gòu)的數(shù)字旅游服務平臺研究[J].遙感技術與應用,2009.
[3]郭曦榕,苗放,王華軍,許義興,等.空間信息G/S網(wǎng)絡訪問模式體系架構(gòu)初探[J].計算機應用與軟件,2009.