• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于Hadoop的云存儲服務(wù)系統(tǒng)在高校中應(yīng)用的探究

      2013-04-29 23:29:47陳雅
      都市家教·上半月 2013年6期
      關(guān)鍵詞:云存儲

      【摘 要】隨著高校視頻監(jiān)控、無紙化辦公、圖書館資料電子化的推廣,高校中海量的數(shù)字資源呈現(xiàn)爆炸性增長,校園中數(shù)據(jù)存儲逐漸成為高校亟需解決的一大難題。高校現(xiàn)行傳統(tǒng)方法是購買更多存儲硬件來解決,其存在成本高、效率低、共享性能差等缺點。通過Hadoop這個云開源項目,它由分布式文件系統(tǒng)HDFS與分布式處理框架MapReduce組成,能夠有效解決校園教學(xué)、辦公等過程中遇到的海量數(shù)據(jù)存儲問題,具有成本低、速度快、易于編程擴展等特點。

      【關(guān)鍵詞】云存儲;MapReduce;海量數(shù)據(jù)存儲;HDFS

      海量的高校信息資源需要整合,這是當(dāng)前無可爭議的事實,因為高校信息資源存在著資源分布不均衡、更新維護成本高、共享程度低和安全性差等一系列問題。整合資源首先要解決信息的合理存儲這一問題,以便實現(xiàn)高效、安全的訪問。與傳統(tǒng)的存儲方式相比,云存儲很好地解決了這個問題。將基于Hadoop的云存儲應(yīng)用于整合高校信息資源,旨在通過構(gòu)建基于Hadoop的云存儲服務(wù)系統(tǒng),解決海量數(shù)據(jù)存儲問題,構(gòu)建了一個低成本、高效率、高安全性的分布式信息資源整合解決方案,并給出了系統(tǒng)功能模塊劃分圖。

      一、云存儲架構(gòu)的技術(shù)基礎(chǔ)

      1.云存儲

      云存儲是通過Web服務(wù)API經(jīng)由(內(nèi)部或外部)網(wǎng)絡(luò)訪問的存儲。嚴(yán)格來講,云存儲是服務(wù),不是存儲,是使用一個由多個存儲設(shè)備和服務(wù)器所組建而成的集合體。云存儲訪問API一般天生就是RESTful的。表述式狀態(tài)轉(zhuǎn)移(REST)是一種分布式超媒體系統(tǒng)的軟件架構(gòu)風(fēng)格。RESTful意味著服務(wù)REST模式的一種架構(gòu),它由客戶端和服務(wù)器組成,其中客戶端向服務(wù)器發(fā)起請求,服務(wù)器處理請求并返回適當(dāng)?shù)捻憫?yīng)。

      2.分布式文件系統(tǒng)HDFS的體系結(jié)構(gòu)

      分布式文件系統(tǒng)(Hadoop Distributed File System),簡稱HDFS。具有高容錯性,可以部署在低成本的硬件上。而且它可以提供高傳輸率來訪問API的數(shù)據(jù),特別適合那些有著超大規(guī)模數(shù)據(jù)集的API。HDFS放寬了對可移植操作系統(tǒng)接口的要求,使其可以流的形式訪問文件系統(tǒng)中的數(shù)據(jù)。

      HDFS系統(tǒng)采用主/從架構(gòu),是Hadoop集群的工作機制的中心,每個Hadoop集群都有以下四個守護進程:

      ①NameNode:管理命名空間、文件系統(tǒng)元數(shù)據(jù)和訪問控制。

      ②JobTracker:將子任務(wù)委派給從節(jié)點(TaskTracker)。

      ③DataNode:通過本地連接的存儲實現(xiàn)文件系統(tǒng)。每個節(jié)點都會在文件系統(tǒng)中存儲這些塊的一個部分(或完整)副本。

      ④TaskTracker:執(zhí)行map和reduce子任務(wù)。

      在每個集群中都只有一個NameNode和JobTracker。但是,可以有多個DataNode和TaskTracker。事實上,復(fù)制式文件系統(tǒng)就意味著你要有一個以上的DataNode節(jié)點。出于簡單和性能方面的原因,大多數(shù)集群都在專用系統(tǒng)上運行NameNode和JobTracker。另外,為了實現(xiàn)數(shù)據(jù)的臨近度,最有效的方式是讓另外一臺機器(稱為“從節(jié)點”)來同時運行DataNode和TaskTracker這兩個守護進程。除了上述四個組件外,還需要一個Secondary NameNode來輔助NameNode,可以防治永久丟失狀態(tài)。

      3.彈性MapReduce

      MapReduce實現(xiàn)是一種可靠、復(fù)雜的并行處理框架,用一種高分布式風(fēng)格進行,它們允許分布式處理的map函數(shù)和reduce函數(shù)。

      ①map:最初攝取數(shù)據(jù)的步驟,它會并行地對原始數(shù)據(jù)進行處理。主節(jié)點讀取輸入,將其分成小塊,然后將這些小塊分配給各處理節(jié)點。

      ②reduce:是一個聚合的步驟,它會將所有map函數(shù)的輸出手機起來,將其組合在一起從而得出原而難題的結(jié)果。

      彈性MapReduce是一個Web服務(wù),你可以將MapReduce應(yīng)用于巨大的數(shù)據(jù)集上,它比任何廉價服務(wù)器可以處理的數(shù)據(jù)規(guī)模要大得多,數(shù)小時內(nèi)完成PB(100萬GB)級的數(shù)據(jù)排序,工作人員可以使用它來處理海量的數(shù)據(jù)。它基于一個托管的Hadoop框架, Hadoop在開始時會將數(shù)據(jù)集分成一些可并行處理的較小的塊(這就是map功能),然后再將這些中間數(shù)據(jù)合并到一個最終的解決方案中(即reduce功能)。彈性MapReduce支持一些類似SQL的工具,如Hive和Pig都是依靠Hadoop進行負載分布和橫向伸縮的,以及許多編程語言,其中包括C++、Cascading、Java、Perl、PHP、Python、R和Ruby。

      二、基于Hadoop的海量數(shù)據(jù)存儲模型

      Hadoop就是開源的MapReduce,MapReduce也是Hadoop所包括的核心功能,Hadoop這一MapReduce框架要求使用一個共享文件系統(tǒng),Hadoop通常會運行在HDFS之上。

      高校相對于云存儲系統(tǒng)是一個用戶,而高校內(nèi)部有多個部門,相對于云存儲系統(tǒng)的用戶高校來說是一個子用戶。云存儲系統(tǒng)能夠創(chuàng)建、管理、維護高校云存儲用戶;高校云用戶能夠創(chuàng)建、管理、維護各部門子用戶。而子用戶才是真正的終端信息存儲用戶,他們上傳、下載、刪除數(shù)據(jù)信息。由于我們的這個系統(tǒng)是基于HDFS的,而一個基本的HDFS由一個NameNode和n個DataNode組成,云存儲系統(tǒng)是由多個地方的HDFS存儲設(shè)備通過應(yīng)用軟件集合起來協(xié)同工作,完成外部訪問請求。HDFS存儲業(yè)務(wù)以云狀分布在網(wǎng)絡(luò)的各個部分,它具有容量大、性能高、可靠性好、協(xié)同優(yōu)良的特點,正是這些特點,完成了高校信息資源高效訪問與存儲。

      圖一 基于Hadoop的海量數(shù)據(jù)存儲模型

      在模型設(shè)計上,從圖一可以看出: “主”包括NameNode和JobTracker,每個“從”中包括DataNode和TaskTracker。HDFS的工作主要由NameNode和DataNode共同完成,MapReduce的工作主要由JobTracker和TaskTracker共同完成。

      模型工作流程:服務(wù)控制集群SCC(service Controller Cluster)主要負責(zé)對用戶應(yīng)用請求進行接受,并根據(jù)用戶的請求完成應(yīng)答工作。存儲節(jié)點集群SNC(Storage Node Cluster)主要負責(zé)處理數(shù)據(jù)資源的存取工作。JobTracker可以運行在集群系統(tǒng)中的每一臺計算機上,主要完成管理和調(diào)度其它計算機上的TaskTracker。不同的是TaskTracker必須運行在數(shù)據(jù)存儲節(jié)點的DataNode上,主要完成執(zhí)行任務(wù)工作。JobTracker負責(zé)將每一個Map和Reduce任務(wù)分配給空閑的TaskTracker處理,完成對每個數(shù)據(jù)文件并行計算處理任務(wù),同時對每個任務(wù)運行完成的情況進行監(jiān)控。當(dāng)其中一個TaskTracker重新執(zhí)行完成這個任務(wù)。用戶本身不直接通過Hadoop架構(gòu)進行讀寫數(shù)據(jù),這樣可以避免大量的讀寫操作造成系統(tǒng)擁塞。當(dāng)用戶通過Hadoop架構(gòu)把信息傳給SCC后,將直接與存儲節(jié)點進行交互,同時完成數(shù)據(jù)讀取操作。

      三、校園海量數(shù)據(jù)存儲系統(tǒng)的設(shè)計

      1.云存儲系統(tǒng)架構(gòu)設(shè)計

      系統(tǒng)由四個部分組成,分別是用戶層、系統(tǒng)管理層、數(shù)據(jù)存儲層和基礎(chǔ)設(shè)施層。

      ①用戶層:即客戶端瀏覽器。用戶通過客戶端向系統(tǒng)發(fā)出請求,系統(tǒng)把信息反饋給客戶端。

      ②系統(tǒng)管理層:負責(zé)應(yīng)用程序與底層數(shù)據(jù)操作連接,把用戶需要的數(shù)據(jù)結(jié)果傳回客戶端。主要提供用戶管理、目錄管理、資源管理等服務(wù)。

      ③數(shù)據(jù)存儲層:Hadoop集群工作在這一層,由MapReduce和HDFS構(gòu)成,負責(zé)數(shù)據(jù)管理與分配任務(wù),為系統(tǒng)提供分布式計算和存儲。

      ④基礎(chǔ)設(shè)施層:即硬件基礎(chǔ)設(shè)施,主要包括磁盤、服務(wù)器等。

      2.云存儲系統(tǒng)功能設(shè)計

      本系統(tǒng)目的是為學(xué)校提供一個解決高校中海量數(shù)據(jù)存儲問題的管理平臺考慮到高校中有多個部門,并且不同部門使用的數(shù)據(jù)內(nèi)容一般不同,為了更好地對數(shù)據(jù)進行分類管理,按照不同部門的職能進行了相應(yīng)子用戶的劃分系統(tǒng)

      設(shè)計包括子用戶管理、普通用戶管理、管理員管理和平臺管理四個功能模塊。

      子用戶模塊:包括創(chuàng)建目錄、查看目錄、文件上傳、文件下載和文件刪除、修改密碼等

      普通用戶模塊: 包括創(chuàng)建目錄、查看目錄、文件上傳、文件下載和文件刪除、修改密碼外,還有子用戶管理等功能,只有普通用戶關(guān)聯(lián)和激活了子用戶,子用戶才能可用

      管理員模塊:包括查看目錄、對普通用戶和子用戶的管理等功能,只有關(guān)聯(lián)和激活用戶后,用戶才可以使用。

      平臺管理功能:包括服務(wù)器信息管理、故障監(jiān)控和報警管理,為服務(wù)器管理提供友好的用戶界面接口,監(jiān)控系統(tǒng)運行中出現(xiàn)的故障,通過設(shè)定好的方式報警,以便管理人員及時發(fā)現(xiàn)故障和排除故障,最后記錄下故障以便日后查詢。

      3.云存儲系統(tǒng)與傳統(tǒng)存儲比較

      本系統(tǒng)是基于Hadoop構(gòu)建起來的,能夠迅速地、高效地處理海量數(shù)據(jù)存儲這一難題,滿足當(dāng)今高校在辦公、教學(xué)、科研等各方面的應(yīng)用需求,具有以下優(yōu)勢。

      (1)高可靠性。實現(xiàn)了對信息的分布式存儲分布式處理,信息被切分為多個數(shù)據(jù)塊分散地存儲在云中的節(jié)點里,實現(xiàn)了多個副本的備份機制,因此可靠性要遠高于傳統(tǒng)的單機甚至是帶有鏡像服務(wù)的服務(wù)器的存儲方式。

      (2)訪問的高效性。通過“心跳檢測”,云中的控制節(jié)點能夠不斷地監(jiān)視節(jié)點的狀態(tài),當(dāng)發(fā)現(xiàn)存儲節(jié)點失效時,控制節(jié)點能夠?qū)⒁瓿傻墓ぷ鹘唤o那些運行正常的節(jié)點來完成。同時,由于數(shù)據(jù)在云中是分布式的存儲,能夠有效地分擔(dān)存儲和訪問的壓力,這些都使得云存儲具有訪問高效性。

      (3)存儲成本低。原先的信息存儲一般使用單一的硬件存儲設(shè)備,信息量增加導(dǎo)致購買成本不斷增加,使得資源存儲的成本不斷提高。而云中的存儲設(shè)備都是廉價的商業(yè)機,并且可以多次重復(fù)利用,跟單一的大容量硬件存儲設(shè)備相比較,容量更大,成本更低。

      (4)便捷的管理。云存儲能夠在軟件層做到自動容錯而不依賴硬件本身的容錯,而且將信息資源存儲在云中,有利于對資源進行統(tǒng)一的管理,提高資源的管理效率。

      四、結(jié)束語

      基于Hadoop的云存儲是一種動態(tài)可調(diào)整、基于互聯(lián)網(wǎng)的存儲解決方案,高校用戶可以使用通用的協(xié)議和應(yīng)用程序接口,經(jīng)由網(wǎng)絡(luò)訪問存儲目標(biāo),這種新技術(shù)對終端客戶來說很有好處。云存儲可以方便高校用戶增加存儲容量,并且不需要重新購買、安裝和管理任何存儲方面的基礎(chǔ)設(shè)施,卻能提供一個完善的備份、容錯數(shù)據(jù)中心。云存儲的成本低廉和簡易操作性等優(yōu)勢對高校來說具有很強的吸引力,發(fā)展和應(yīng)用前景。

      參考文獻:

      [1]Jothy Rosenberg,Arthur Mateos.The Cloud at Your Service. Manning Publications Company, 2010

      [2]John Rhoton,Risto Haukioja.Cloud Computing Architected:Solution Design Handbook. Recursive, Limited, 2011

      [3]黃曉云.基于HDFS的云存儲服務(wù)系統(tǒng)研究[D].大連:大連海事大學(xué),2010:11-14

      作者簡介:

      陳雅(1986~),女,廣西南寧人,助教,廣西交通職業(yè)技術(shù)學(xué)院,專職教師。

      猜你喜歡
      云存儲
      基于云存儲的氣象數(shù)字化圖像檔案存儲研究
      試論云存儲與數(shù)字版權(quán)的沖突、法制與協(xié)同
      出版廣角(2016年14期)2016-12-13 02:10:43
      云存儲出版服務(wù)的版權(quán)侵權(quán)責(zé)任風(fēng)險分析
      出版廣角(2016年14期)2016-12-13 02:06:45
      云存儲技術(shù)的起源與發(fā)展
      基于云存儲的數(shù)據(jù)庫密文檢索研究
      淺析龍巖煙草業(yè)務(wù)數(shù)據(jù)與監(jiān)控數(shù)據(jù)中的云存儲與大數(shù)據(jù)
      通州市| 喀喇沁旗| 治县。| 云梦县| 五华县| 永川市| 贵阳市| 洛川县| 泽库县| 政和县| 湖口县| 宁波市| 旬邑县| 宜州市| 华宁县| 台湾省| 塔河县| 嘉义县| 武冈市| 巨鹿县| 花莲县| 隆子县| 江阴市| 安泽县| 抚宁县| 江达县| 黔西县| 福贡县| 和田市| 汉中市| 曲松县| 乐东| 泗阳县| 汪清县| 临澧县| 措美县| 峨边| 克东县| 连平县| 高要市| 巩义市|