• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      一種基于Hadoop的數(shù)字圖書存儲(chǔ)系統(tǒng)設(shè)計(jì)方案

      2014-11-11 19:32鄒群
      黑龍江史志 2014年1期
      關(guān)鍵詞:存儲(chǔ)系統(tǒng)

      鄒群

      [摘 要]數(shù)字圖書館是當(dāng)前各大高校重點(diǎn)建設(shè)的信息化系統(tǒng)之一。本文分析了高校數(shù)字圖書存儲(chǔ)面臨的問題,提出了一種分層的基于Hadoop的云圖書存儲(chǔ)方案,該方案具有成本低廉、動(dòng)態(tài)可擴(kuò)展、可靠性高等優(yōu)點(diǎn)。

      [關(guān)鍵詞]Hadoop;數(shù)字圖書;存儲(chǔ)系統(tǒng)

      一、引言

      隨著互聯(lián)網(wǎng)的蓬勃發(fā)展,各大高校開始著手于數(shù)字圖書館的建設(shè),數(shù)字圖書的數(shù)據(jù)量和數(shù)據(jù)種類都在高速的增長(zhǎng)。隨著師生對(duì)數(shù)字圖書的需求日益多樣化,如何高效地存儲(chǔ)和管理豐富的數(shù)字圖書信息變得十分重要。傳統(tǒng)的數(shù)字圖書存儲(chǔ)方案日益滿足不了圖書存儲(chǔ)業(yè)務(wù)的需求,因此非常有必要進(jìn)行基于云架構(gòu)的海量數(shù)字圖書存儲(chǔ)方案的設(shè)計(jì)與研究。

      目前我國各大高校主要采用SQLServer和Oracle等關(guān)系數(shù)據(jù)庫存儲(chǔ)數(shù)字圖書,但是由于數(shù)字圖書信息量日益龐大,如全部采用關(guān)系數(shù)據(jù)庫存儲(chǔ)其成本較高,對(duì)于盈利性較差的圖書部門來說日益增長(zhǎng)的費(fèi)用讓人難以承受。而且部分掃描圖書體積較大,不適合采用關(guān)系數(shù)據(jù)庫保存,如果采用文件式存儲(chǔ),又不利于圖書的檢索和統(tǒng)計(jì),其安全性、靈活性和擴(kuò)展性都會(huì)受到極大的限制。

      二、本方案研究思想

      基于此,考慮到現(xiàn)實(shí)環(huán)境狀況和目前國內(nèi)外相關(guān)的學(xué)術(shù)理論研究水平,本文提出一種基于Hadoop的數(shù)字圖書云存儲(chǔ)方案。Hadoop是一個(gè)可以對(duì)海量數(shù)據(jù)作出分布式處理的基礎(chǔ)架構(gòu),由Apache基金會(huì)開發(fā)管理,可以部署在廉價(jià)的X86硬件設(shè)備上。Hadoop數(shù)據(jù)節(jié)點(diǎn)可以按需擴(kuò)展,能夠很容易增大整個(gè)系統(tǒng)的處理容量,從而節(jié)約存儲(chǔ)成本。它的出現(xiàn)為海量數(shù)字圖書提供了一種全新的、高效的存儲(chǔ)、篩選、加工和挖掘方法。本文擬采用基于Linux的Hadoop集群技術(shù),其易于擴(kuò)充的存儲(chǔ)容量,高效處理數(shù)據(jù)的分布式計(jì)算框架,以及基于Hive的元數(shù)據(jù)管理,使其能夠較好地滿足海量數(shù)字圖書存儲(chǔ)管理的技術(shù)要求。

      本方案擬采用開源免費(fèi)的Hadoop平臺(tái)用于底層數(shù)據(jù)存儲(chǔ),然后選擇擴(kuò)展性好、層次分明的SSH(Struts+Spring+Hibernate)框架開發(fā)出一套數(shù)字圖書信息存儲(chǔ)系統(tǒng),實(shí)現(xiàn)數(shù)字圖書的高效管理、使用和維護(hù)。基本研究思想是:首先使用Hadoop架構(gòu)中的HDFS(Hadoop Distributed File System)實(shí)現(xiàn)圖書文件的分布式存儲(chǔ),然后在HDFS基礎(chǔ)上使用HBase技術(shù)構(gòu)建一個(gè)分布式的、面向列的開源數(shù)據(jù)庫,最后使用Phoenix開源引擎將針對(duì)圖書數(shù)據(jù)的SQL請(qǐng)求轉(zhuǎn)化為針對(duì)HBase的操縱。本方案的實(shí)現(xiàn)步驟如下:

      (1)在普通X86PC集群上構(gòu)建HDFS;

      (2)基于HDFS使用HBase技術(shù)構(gòu)建分布式數(shù)據(jù)庫;

      (3)使用Phoenix開源引擎將SQL請(qǐng)求轉(zhuǎn)化為針對(duì)HBase的NoSQL操作;

      (4)使用SSH框架開發(fā)一套數(shù)字圖書存儲(chǔ)系統(tǒng)前臺(tái)。

      三、本方案技術(shù)路線

      (1)基于HDFS的分布式文件存儲(chǔ)技術(shù)研究:長(zhǎng)久以來傳統(tǒng)關(guān)系型數(shù)據(jù)庫一直扮演著數(shù)據(jù)信息存儲(chǔ)的重要角色。但是由于圖書信息數(shù)據(jù)的特殊性,經(jīng)常會(huì)有超大文件需要存儲(chǔ),隨著時(shí)間的推移,需要海量空間來儲(chǔ)存這些文件;而且數(shù)字圖書數(shù)據(jù)一旦寫入很少再更改,對(duì)事務(wù)要求也比較低。傳統(tǒng)數(shù)據(jù)庫無法做到大容量、低價(jià)格和高可靠并行。而Hadoop能處理TB大小的文件,其設(shè)計(jì)建立在更多地響應(yīng)“一次寫入、多次讀取”任務(wù)的基礎(chǔ)上,數(shù)據(jù)集一旦生成,就會(huì)自動(dòng)復(fù)制到不同的存儲(chǔ)節(jié)點(diǎn)中,然后響應(yīng)各種類型的數(shù)據(jù)分析請(qǐng)求,不僅提高了可靠性,也提高了訪問帶寬,故使用Hadoop來處理數(shù)字圖書數(shù)據(jù)尤為合適。

      (2)基于HBase技術(shù)的分布式數(shù)據(jù)庫研究:HDFS不適合處理低延遲的用戶請(qǐng)求,也不適合高效管理海量小文件。HBase是一個(gè)很好的選擇,它過上層數(shù)據(jù)管理項(xiàng)目來盡可能地彌補(bǔ)這兩條不足。HBase使用緩存和多Master設(shè)計(jì)來降低來自Client的數(shù)據(jù)訪問壓力,以減少延時(shí);利用SequenceFile、MapFile、Har等方式對(duì)小文件進(jìn)行歸檔,讓HDFS能高效地處理好小體積的數(shù)字圖書。

      (3)使用Phoenix引擎實(shí)現(xiàn)SQL到NoSQL的轉(zhuǎn)換:Phoenix是一個(gè)全新的,相對(duì)來說并不為人知的一個(gè)開源項(xiàng)目,出自Salesforce.com,旨在打造一個(gè)更快的SQL查詢工具,面向的對(duì)象有HBase或者是部署在HDFS之上的NoSQL數(shù)據(jù)庫,用戶通過JDBC接口與其進(jìn)行交互,降低了系統(tǒng)開發(fā)的難度。

      (4)基于SSH框架開發(fā)的數(shù)字圖書存儲(chǔ)平臺(tái):本系統(tǒng)的主要功能是通過Web頁面對(duì)大量的數(shù)字圖書數(shù)據(jù)進(jìn)行存儲(chǔ)管理、顯示、查詢和統(tǒng)計(jì)分析,采用當(dāng)前流行的Struts+Spring+Hibernate框架編程。系統(tǒng)主要由數(shù)據(jù)存儲(chǔ)系統(tǒng)、數(shù)據(jù)管理系統(tǒng)和數(shù)據(jù)顯示系統(tǒng)三大模塊構(gòu)成:數(shù)據(jù)存儲(chǔ)系統(tǒng)負(fù)責(zé)將圖書數(shù)據(jù)存入Hadoop平臺(tái);數(shù)據(jù)管理系統(tǒng)負(fù)責(zé)圖書數(shù)據(jù)的修改、刪除和查詢;數(shù)據(jù)顯示系統(tǒng)能夠通過調(diào)用圖書插件顯示各種格式的圖書數(shù)據(jù),如TXT、PDF、CAJ、CHM等。

      四、總結(jié)

      本方案如果能夠順利實(shí)施,將會(huì)為高校圖書館提供更加準(zhǔn)確的圖書存儲(chǔ)服務(wù),也有利于提高圖書館的現(xiàn)代化管理水平。預(yù)期將建成一個(gè)結(jié)構(gòu)清晰、可復(fù)用性好、維護(hù)方便的數(shù)字圖書存儲(chǔ)系統(tǒng),系統(tǒng)具有以下優(yōu)點(diǎn):一、超大規(guī)模。系統(tǒng)中大量存儲(chǔ)設(shè)備協(xié)同工作,大大提高了存儲(chǔ)容量。二、動(dòng)態(tài)可擴(kuò)展。可以在不影響系統(tǒng)運(yùn)營(yíng)的前提下擴(kuò)展容量,滿足圖書數(shù)據(jù)和用戶規(guī)模日益增長(zhǎng)的需要。三、虛擬化。系統(tǒng)對(duì)于使用者是透明的,用戶無需關(guān)心數(shù)據(jù)如何存儲(chǔ),用戶可以使用各種終端訪問系統(tǒng),獲取所需服務(wù)。四、高可靠性。Hadoop使用多副本和快速恢復(fù)等機(jī)制來保障數(shù)據(jù)的高可靠性。五、價(jià)格低廉。本系統(tǒng)可以部署在廉價(jià)的X86PC上,可以為經(jīng)費(fèi)緊張的圖書館部門節(jié)省成本的同時(shí)提高設(shè)備使用率。因此本系統(tǒng)在圖書館將會(huì)具有廣闊的應(yīng)用前景,能夠?yàn)楹A繑?shù)字圖書信息存儲(chǔ)提供一套完整的解決方案。

      參考文獻(xiàn):

      [1]劉貝,湯斌.云存儲(chǔ)原理及發(fā)展趨勢(shì).科技信息,2011(5).

      [2]周可,王樺等.云存儲(chǔ)技術(shù)以及應(yīng)用.中興通訊技術(shù),2010(4).

      猜你喜歡
      存儲(chǔ)系統(tǒng)
      天河超算存儲(chǔ)系統(tǒng)在美創(chuàng)佳績(jī)
      面向4K/8K的到來 存儲(chǔ)該怎么辦?
      利用存儲(chǔ)系統(tǒng)恢復(fù)服務(wù)器系統(tǒng)
      柳州市| 井冈山市| 旬阳县| 新乡市| 青铜峡市| 青州市| 长泰县| 重庆市| 凯里市| 板桥市| 宁河县| 西丰县| 瓦房店市| 陵川县| 永德县| 海林市| 嘉禾县| 时尚| 琼海市| 游戏| 房产| 桃江县| 荆州市| 隆昌县| 永平县| 伊宁县| 两当县| 贵德县| 平塘县| 常宁市| 涪陵区| 喀什市| 富平县| 东源县| 桐乡市| 黑山县| 霍城县| 贵州省| 泰顺县| 清原| 屯昌县|