一種基于Hadoop的數(shù)字圖書存儲(chǔ)系統(tǒng)設(shè)計(jì)方案

2014-11-11 19:32鄒群

黑龍江史志 2014年1期

鄒群

[摘要]數(shù)字圖書館是當(dāng)前各大高校重點(diǎn)建設(shè)的信息化系統(tǒng)之一。本文分析了高校數(shù)字圖書存儲(chǔ)面臨的問題，提出了一種分層的基于Hadoop的云圖書存儲(chǔ)方案，該方案具有成本低廉、動(dòng)態(tài)可擴(kuò)展、可靠性高等優(yōu)點(diǎn)。

[關(guān)鍵詞]Hadoop；數(shù)字圖書；存儲(chǔ)系統(tǒng)

一、引言

隨著互聯(lián)網(wǎng)的蓬勃發(fā)展，各大高校開始著手于數(shù)字圖書館的建設(shè)，數(shù)字圖書的數(shù)據(jù)量和數(shù)據(jù)種類都在高速的增長(zhǎng)。隨著師生對(duì)數(shù)字圖書的需求日益多樣化，如何高效地存儲(chǔ)和管理豐富的數(shù)字圖書信息變得十分重要。傳統(tǒng)的數(shù)字圖書存儲(chǔ)方案日益滿足不了圖書存儲(chǔ)業(yè)務(wù)的需求，因此非常有必要進(jìn)行基于云架構(gòu)的海量數(shù)字圖書存儲(chǔ)方案的設(shè)計(jì)與研究。

目前我國各大高校主要采用SQLServer和Oracle等關(guān)系數(shù)據(jù)庫存儲(chǔ)數(shù)字圖書，但是由于數(shù)字圖書信息量日益龐大，如全部采用關(guān)系數(shù)據(jù)庫存儲(chǔ)其成本較高，對(duì)于盈利性較差的圖書部門來說日益增長(zhǎng)的費(fèi)用讓人難以承受。而且部分掃描圖書體積較大，不適合采用關(guān)系數(shù)據(jù)庫保存，如果采用文件式存儲(chǔ)，又不利于圖書的檢索和統(tǒng)計(jì)，其安全性、靈活性和擴(kuò)展性都會(huì)受到極大的限制。

二、本方案研究思想

基于此，考慮到現(xiàn)實(shí)環(huán)境狀況和目前國內(nèi)外相關(guān)的學(xué)術(shù)理論研究水平，本文提出一種基于Hadoop的數(shù)字圖書云存儲(chǔ)方案。Hadoop是一個(gè)可以對(duì)海量數(shù)據(jù)作出分布式處理的基礎(chǔ)架構(gòu)，由Apache基金會(huì)開發(fā)管理，可以部署在廉價(jià)的X86硬件設(shè)備上。Hadoop數(shù)據(jù)節(jié)點(diǎn)可以按需擴(kuò)展，能夠很容易增大整個(gè)系統(tǒng)的處理容量，從而節(jié)約存儲(chǔ)成本。它的出現(xiàn)為海量數(shù)字圖書提供了一種全新的、高效的存儲(chǔ)、篩選、加工和挖掘方法。本文擬采用基于Linux的Hadoop集群技術(shù)，其易于擴(kuò)充的存儲(chǔ)容量，高效處理數(shù)據(jù)的分布式計(jì)算框架，以及基于Hive的元數(shù)據(jù)管理，使其能夠較好地滿足海量數(shù)字圖書存儲(chǔ)管理的技術(shù)要求。

本方案擬采用開源免費(fèi)的Hadoop平臺(tái)用于底層數(shù)據(jù)存儲(chǔ)，然后選擇擴(kuò)展性好、層次分明的SSH（Struts+Spring+Hibernate）框架開發(fā)出一套數(shù)字圖書信息存儲(chǔ)系統(tǒng)，實(shí)現(xiàn)數(shù)字圖書的高效管理、使用和維護(hù)。基本研究思想是：首先使用Hadoop架構(gòu)中的HDFS（Hadoop Distributed File System）實(shí)現(xiàn)圖書文件的分布式存儲(chǔ)，然后在HDFS基礎(chǔ)上使用HBase技術(shù)構(gòu)建一個(gè)分布式的、面向列的開源數(shù)據(jù)庫，最后使用Phoenix開源引擎將針對(duì)圖書數(shù)據(jù)的SQL請(qǐng)求轉(zhuǎn)化為針對(duì)HBase的操縱。本方案的實(shí)現(xiàn)步驟如下：

（1）在普通X86PC集群上構(gòu)建HDFS；

（2）基于HDFS使用HBase技術(shù)構(gòu)建分布式數(shù)據(jù)庫；

（3）使用Phoenix開源引擎將SQL請(qǐng)求轉(zhuǎn)化為針對(duì)HBase的NoSQL操作；

（4）使用SSH框架開發(fā)一套數(shù)字圖書存儲(chǔ)系統(tǒng)前臺(tái)。

三、本方案技術(shù)路線

（1）基于HDFS的分布式文件存儲(chǔ)技術(shù)研究：長(zhǎng)久以來傳統(tǒng)關(guān)系型數(shù)據(jù)庫一直扮演著數(shù)據(jù)信息存儲(chǔ)的重要角色。但是由于圖書信息數(shù)據(jù)的特殊性，經(jīng)常會(huì)有超大文件需要存儲(chǔ)，隨著時(shí)間的推移，需要海量空間來儲(chǔ)存這些文件；而且數(shù)字圖書數(shù)據(jù)一旦寫入很少再更改，對(duì)事務(wù)要求也比較低。傳統(tǒng)數(shù)據(jù)庫無法做到大容量、低價(jià)格和高可靠并行。而Hadoop能處理TB大小的文件，其設(shè)計(jì)建立在更多地響應(yīng)“一次寫入、多次讀取”任務(wù)的基礎(chǔ)上，數(shù)據(jù)集一旦生成，就會(huì)自動(dòng)復(fù)制到不同的存儲(chǔ)節(jié)點(diǎn)中，然后響應(yīng)各種類型的數(shù)據(jù)分析請(qǐng)求，不僅提高了可靠性，也提高了訪問帶寬，故使用Hadoop來處理數(shù)字圖書數(shù)據(jù)尤為合適。

（2）基于HBase技術(shù)的分布式數(shù)據(jù)庫研究：HDFS不適合處理低延遲的用戶請(qǐng)求，也不適合高效管理海量小文件。HBase是一個(gè)很好的選擇，它過上層數(shù)據(jù)管理項(xiàng)目來盡可能地彌補(bǔ)這兩條不足。HBase使用緩存和多Master設(shè)計(jì)來降低來自Client的數(shù)據(jù)訪問壓力，以減少延時(shí)；利用SequenceFile、MapFile、Har等方式對(duì)小文件進(jìn)行歸檔，讓HDFS能高效地處理好小體積的數(shù)字圖書。

（3）使用Phoenix引擎實(shí)現(xiàn)SQL到NoSQL的轉(zhuǎn)換：Phoenix是一個(gè)全新的，相對(duì)來說并不為人知的一個(gè)開源項(xiàng)目，出自Salesforce.com，旨在打造一個(gè)更快的SQL查詢工具，面向的對(duì)象有HBase或者是部署在HDFS之上的NoSQL數(shù)據(jù)庫，用戶通過JDBC接口與其進(jìn)行交互，降低了系統(tǒng)開發(fā)的難度。

（4）基于SSH框架開發(fā)的數(shù)字圖書存儲(chǔ)平臺(tái)：本系統(tǒng)的主要功能是通過Web頁面對(duì)大量的數(shù)字圖書數(shù)據(jù)進(jìn)行存儲(chǔ)管理、顯示、查詢和統(tǒng)計(jì)分析，采用當(dāng)前流行的Struts+Spring+Hibernate框架編程。系統(tǒng)主要由數(shù)據(jù)存儲(chǔ)系統(tǒng)、數(shù)據(jù)管理系統(tǒng)和數(shù)據(jù)顯示系統(tǒng)三大模塊構(gòu)成：數(shù)據(jù)存儲(chǔ)系統(tǒng)負(fù)責(zé)將圖書數(shù)據(jù)存入Hadoop平臺(tái)；數(shù)據(jù)管理系統(tǒng)負(fù)責(zé)圖書數(shù)據(jù)的修改、刪除和查詢；數(shù)據(jù)顯示系統(tǒng)能夠通過調(diào)用圖書插件顯示各種格式的圖書數(shù)據(jù)，如TXT、PDF、CAJ、CHM等。

四、總結(jié)

本方案如果能夠順利實(shí)施，將會(huì)為高校圖書館提供更加準(zhǔn)確的圖書存儲(chǔ)服務(wù)，也有利于提高圖書館的現(xiàn)代化管理水平。預(yù)期將建成一個(gè)結(jié)構(gòu)清晰、可復(fù)用性好、維護(hù)方便的數(shù)字圖書存儲(chǔ)系統(tǒng)，系統(tǒng)具有以下優(yōu)點(diǎn)：一、超大規(guī)模。系統(tǒng)中大量存儲(chǔ)設(shè)備協(xié)同工作，大大提高了存儲(chǔ)容量。二、動(dòng)態(tài)可擴(kuò)展。可以在不影響系統(tǒng)運(yùn)營(yíng)的前提下擴(kuò)展容量，滿足圖書數(shù)據(jù)和用戶規(guī)模日益增長(zhǎng)的需要。三、虛擬化。系統(tǒng)對(duì)于使用者是透明的，用戶無需關(guān)心數(shù)據(jù)如何存儲(chǔ)，用戶可以使用各種終端訪問系統(tǒng)，獲取所需服務(wù)。四、高可靠性。Hadoop使用多副本和快速恢復(fù)等機(jī)制來保障數(shù)據(jù)的高可靠性。五、價(jià)格低廉。本系統(tǒng)可以部署在廉價(jià)的X86PC上，可以為經(jīng)費(fèi)緊張的圖書館部門節(jié)省成本的同時(shí)提高設(shè)備使用率。因此本系統(tǒng)在圖書館將會(huì)具有廣闊的應(yīng)用前景，能夠?yàn)楹Ａ繑?shù)字圖書信息存儲(chǔ)提供一套完整的解決方案。

參考文獻(xiàn)：

[1]劉貝，湯斌.云存儲(chǔ)原理及發(fā)展趨勢(shì).科技信息，2011（5）.

[2]周可，王樺等.云存儲(chǔ)技術(shù)以及應(yīng)用.中興通訊技術(shù)，2010（4）.

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

一種基于Hadoop的數(shù)字圖書存儲(chǔ)系統(tǒng)設(shè)計(jì)方案