• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      數(shù)字圖書館中海量異構(gòu)數(shù)據(jù)存儲(chǔ)組織研究

      2014-03-25 01:04:27
      電子測試 2014年16期
      關(guān)鍵詞:存儲(chǔ)空間備份數(shù)字

      劉 樂

      (陜西職業(yè)技術(shù)學(xué)院,陜西西安,710054)

      數(shù)字圖書館中海量異構(gòu)數(shù)據(jù)存儲(chǔ)組織研究

      劉 樂

      (陜西職業(yè)技術(shù)學(xué)院,陜西西安,710054)

      在大數(shù)據(jù)時(shí)代,圖書館工作中最為重要的問題就是數(shù)據(jù)的存儲(chǔ)以及存取。圖書館數(shù)字化的管理方式也提升了資料的數(shù)據(jù)容量,數(shù)字圖書館也面臨著更高的存儲(chǔ)要求。

      數(shù)字圖書館;大數(shù)據(jù);存儲(chǔ);應(yīng)用

      0 引言

      圖書館與其他行業(yè)相比,在數(shù)據(jù)存儲(chǔ)上有著較大的不同,主要體現(xiàn)在圖書館的數(shù)據(jù)量非常龐大,數(shù)據(jù)存儲(chǔ)的時(shí)間較長,并且數(shù)據(jù)具有多種類型,對數(shù)據(jù)存儲(chǔ)的安全性要求較高。隨著圖書館信息化程度不斷提高,數(shù)據(jù)存儲(chǔ)系統(tǒng)也面臨著更高的要求,要能夠?qū)崿F(xiàn)系統(tǒng)的自動(dòng)精簡配置、數(shù)據(jù)的壓縮以及刪除重復(fù)數(shù)據(jù)等技術(shù),只有這樣才能夠管理好海量的數(shù)據(jù)。

      1 數(shù)字圖書館概念

      所謂數(shù)字圖書館,也可以稱為一種系統(tǒng),它屬于信息檢索系統(tǒng)。數(shù)字圖書館就是把傳統(tǒng)的資源經(jīng)過數(shù)字化之后進(jìn)行存儲(chǔ),用戶能夠通過圖書館的終端設(shè)備或者通過互聯(lián)網(wǎng)對數(shù)字化的資源進(jìn)行瀏覽。當(dāng)今時(shí)代早已成為信息化的時(shí)代,所以,世界各國都在建立數(shù)字圖書館,企圖通過數(shù)字圖書館來促進(jìn)國民教育,提高國民的綜合素質(zhì)。隨著信息化的不斷發(fā)展,對數(shù)字圖書館的研究也在最近幾年越來越多,包括了數(shù)字資源的加工、存儲(chǔ)等一系列過程。

      2 數(shù)字圖書館大數(shù)據(jù)存儲(chǔ)組織中存在的問題

      現(xiàn)代圖書館的結(jié)構(gòu)非常復(fù)雜,其中不僅需要對圖書館讀者的信息數(shù)據(jù)進(jìn)行存儲(chǔ),比如讀者的圖書借閱信息和出入信息等,還需要將圖書資料進(jìn)行數(shù)字化的處理,同時(shí)進(jìn)行存儲(chǔ)和管理。在圖書館當(dāng)中,對圖書本身的數(shù)據(jù)管理以及對數(shù)字化的圖書資料進(jìn)行管理和存儲(chǔ),二者是數(shù)據(jù)量最大的部分,尤其是一些大型圖書館,資源種類齊全,并且借閱量較大,內(nèi)容齊全,設(shè)備種類多樣,這就增加了數(shù)據(jù)結(jié)構(gòu)以及數(shù)據(jù)量。圖書館需要面對的數(shù)據(jù)量隨著時(shí)間的推移呈現(xiàn)出線性增長的趨勢,并且由于圖書館中各種各樣的服務(wù)設(shè)備也越來越多,信息化程度越來越高,同時(shí)圖書館對圖書和讀者的管理也更加規(guī)范,另外讀者對圖書館中的數(shù)字資源需求不斷加深,都導(dǎo)致了圖書館數(shù)據(jù)量增長速度越來越快。目前,我國大型圖書館的數(shù)據(jù)增長量已經(jīng)達(dá)到了最高30TB每年。面對如此巨大的數(shù)據(jù),而圖書館的儲(chǔ)存容量一般為100TB,相當(dāng)于圖書館的數(shù)據(jù)儲(chǔ)存空間能夠滿足幾年的使用需要,所以必須采取針對性的措施。并且使用碎片整理技術(shù),不能夠有效地挖掘出未使用的空間,所以該技術(shù)只適用于小型圖書館。

      3 數(shù)字圖書館海量異構(gòu)數(shù)據(jù)存儲(chǔ)問題解決辦法

      3.1 利用分布式文件管理系統(tǒng),有效利用空間

      在海量資源面前,要想存儲(chǔ)全部數(shù)據(jù)必然需要大規(guī)模的服務(wù)器,這也是近年來比較流行的一種方法。目前國外比較流行的方法是構(gòu)建分布式文件系統(tǒng),這也是許多大型公司采取的方法。比較著名的有谷歌的GFS系統(tǒng),雅虎的HDFS系統(tǒng),以及亞馬遜的Dymamo。谷歌采用的GFS系統(tǒng)屬于可擴(kuò)展的分布式文件系統(tǒng),主要應(yīng)用于對大數(shù)據(jù)量的信息進(jìn)行訪問。而且該系統(tǒng)能夠在普通硬件上使用,花費(fèi)較低,所以應(yīng)用于大型數(shù)字圖書館具有可操作性。GFS的系統(tǒng)機(jī)構(gòu)比較簡單,包括了一臺主機(jī)和多個(gè)服務(wù)模塊。數(shù)據(jù)在GFS文件系統(tǒng)當(dāng)中會(huì)被分割為大小相同的多個(gè)模塊,在不同的模塊服務(wù)區(qū)上進(jìn)行存儲(chǔ),每個(gè)模塊都有多個(gè)備份。而主機(jī)只需要對元數(shù)據(jù)進(jìn)行維護(hù)即可,比如文件的目錄以及模塊的相對位置等,同時(shí)要管理模塊服務(wù)區(qū)。當(dāng)對內(nèi)容資源進(jìn)行訪問時(shí),首先在客戶端通過主機(jī)獲取元數(shù)據(jù)信息,然后通過元數(shù)據(jù)獲得所需數(shù)據(jù)在文件中的具體位置,向模塊服務(wù)區(qū)發(fā)出命令,將目標(biāo)文件的數(shù)據(jù)展現(xiàn)出來。HDFS文件系統(tǒng)時(shí)對GFS系統(tǒng)的一種改變,在該系統(tǒng)中,包括了一臺主控節(jié)點(diǎn)和多臺數(shù)據(jù)節(jié)點(diǎn)。這樣的結(jié)構(gòu)構(gòu)成與GFS相仿。但是在文件訪問模式的設(shè)計(jì)上二者出現(xiàn)了差別,HDFS采用了一次錄入多次訪問的模式,將一致性問題簡化。存放副本時(shí),HDFS通過使用機(jī)架感知策略提高了數(shù)據(jù)的可用性、安全性和網(wǎng)絡(luò)傳輸利用率。亞馬遜提出的Dunamo系統(tǒng)通過一致性哈希實(shí)現(xiàn)對集群節(jié)點(diǎn)的動(dòng)態(tài)調(diào)整,在管理數(shù)據(jù)版本時(shí),使用到了向量時(shí)鐘。亞馬遜所使用的文件系統(tǒng)與GFS和HDFS相比,它最大的特征是它屬于去中心化的文件系統(tǒng),所需對于人工依賴性不強(qiáng),所需的人工管理較小。分布式文件系統(tǒng)具有良好的存儲(chǔ)數(shù)據(jù)功能,所以在大型分布式服務(wù)上應(yīng)用較多。

      3.2 使用非結(jié)構(gòu)化的數(shù)據(jù)索引技術(shù),保證高效存取

      數(shù)字圖書館信數(shù)據(jù)的存儲(chǔ)不僅是要高效地保存信息資源,同時(shí)也是為了更好的方便用戶。而用戶查找數(shù)據(jù)就需要使用到數(shù)據(jù)索引,不同的索引技術(shù)效果不同,只有索引結(jié)果的準(zhǔn)確度較高時(shí)才能夠達(dá)到用戶的滿意。由于索引機(jī)制的效率不斷提升,所以非結(jié)構(gòu)化的數(shù)據(jù)管理也逐漸在現(xiàn)實(shí)中應(yīng)用。非結(jié)構(gòu)化數(shù)據(jù)索引技術(shù)中還涉及到了索引緩存技術(shù)、索引分片技術(shù)等,最近幾年,已經(jīng)根據(jù)非非結(jié)構(gòu)化數(shù)據(jù)的不同誕生了許多索引技術(shù)。當(dāng)前,XML索引技術(shù)包括了兩個(gè)種類,結(jié)構(gòu)摘要類索引以及節(jié)點(diǎn)記錄類索引。對于結(jié)構(gòu)摘要類索引,其中的基礎(chǔ)為樹結(jié)構(gòu)的節(jié)點(diǎn)路徑信息,該索引采用的方式比較簡單,所以其樹結(jié)構(gòu)只需要對不同的路徑數(shù)據(jù)進(jìn)行維護(hù)即可,同時(shí)在這種索引方式中,也不可能有重復(fù)節(jié)點(diǎn)存在的可能。所謂節(jié)點(diǎn)記錄類索引技術(shù),就是將XML的數(shù)據(jù)進(jìn)行分解,使其成為包含數(shù)據(jù)單元的記錄集合,數(shù)據(jù)的位置信息同樣也是在該記錄中保存。要想支持高維數(shù)據(jù),可以對多維數(shù)據(jù)索引模型進(jìn)行修改,使索引模型能夠較好的支持高維數(shù)據(jù),目前的技術(shù)主要包括了四個(gè)種類。第一是樹形索引技術(shù);第二,對高維數(shù)據(jù)進(jìn)行壓縮,然后存儲(chǔ);第三種方法基于距離尺度,將高維數(shù)據(jù)的維度降低,使其轉(zhuǎn)變?yōu)橐痪S數(shù)據(jù),進(jìn)而再對高維數(shù)據(jù)進(jìn)行檢索;第四種方法主要基于Hash函數(shù),其目的同樣是將高維數(shù)據(jù)的維數(shù)降低,使其轉(zhuǎn)化為一維數(shù)據(jù),這種方法與第三種方法雖然原理不同,達(dá)到的效果基本一致,都是縮小了數(shù)據(jù)查詢范圍。

      3.3 提升存儲(chǔ)空間的利用率

      當(dāng)前,數(shù)字圖書館對電子數(shù)據(jù)的存儲(chǔ)方法只要是要求電子圖書商家進(jìn)行數(shù)據(jù)備份,但是采用這種方法進(jìn)行數(shù)據(jù)存儲(chǔ),顯然效率較低。為了能夠?qū)?shù)據(jù)存儲(chǔ)的效率大幅提升,最好的途徑就是使用重復(fù)數(shù)據(jù)刪除技術(shù)以及數(shù)據(jù)壓縮技術(shù)。目前可以采取Delta技術(shù),該技術(shù)能夠?qū)ξ募A內(nèi)部以及文件夾之間的數(shù)據(jù)信息進(jìn)行對比,將其中的多余數(shù)據(jù)刪除,壓縮數(shù)據(jù),當(dāng)數(shù)據(jù)相似度越高時(shí),壓縮比就越小。其次還可以通過消重技術(shù)來增加空間利用率。由于圖書館數(shù)據(jù)的存儲(chǔ)多是采用數(shù)據(jù)備份,但數(shù)據(jù)經(jīng)過較多次的備份之后,重復(fù)數(shù)據(jù)就會(huì)大量產(chǎn)生,而重復(fù)數(shù)據(jù)刪除技術(shù)主要就是在備份過程中發(fā)揮作用,當(dāng)進(jìn)行備份時(shí),該技術(shù)能夠很好地將其中相同的內(nèi)容刪除,達(dá)到節(jié)約空間的效果。重復(fù)數(shù)據(jù)刪除又包括了兩種,一種是空間數(shù)據(jù)消除,另一種是時(shí)間數(shù)據(jù)消除。圖書館的數(shù)字化書籍?dāng)?shù)據(jù)本質(zhì)上屬于自然數(shù)據(jù),這種數(shù)據(jù)具有變化率低、數(shù)據(jù)備份完備、數(shù)據(jù)保存時(shí)間長、數(shù)據(jù)內(nèi)容可感知性等特點(diǎn)。在備份重要的數(shù)據(jù)時(shí),應(yīng)該使用冗余級別的主機(jī),或者使用RAID硬盤。在對比較關(guān)鍵的數(shù)據(jù)信息進(jìn)行備份時(shí),可采用RAID陣列的軟件鏡像,鏡像通過兩個(gè)相互獨(dú)立的硬件來控制。這個(gè)方法具有一定的可操作性,同時(shí)還有一定的優(yōu)點(diǎn),當(dāng)設(shè)備中的某一部分意外發(fā)生故障時(shí),整個(gè)系統(tǒng)的使用不會(huì)受到任何影響,而且更換非常容易。比如當(dāng)網(wǎng)卡、控制器、視頻設(shè)備或者語音設(shè)備等發(fā)生故障時(shí),整個(gè)系統(tǒng)的運(yùn)行不會(huì)受到影響。另外還可以使用RAID4冗余技術(shù),使用該技術(shù)對數(shù)據(jù)進(jìn)行備份不僅效果好,同時(shí)還最為經(jīng)濟(jì)。該技術(shù)需要一個(gè)冗余盤和多個(gè)數(shù)據(jù)盤構(gòu)成,在盤的對應(yīng)模塊當(dāng)中,存儲(chǔ)著相應(yīng)為的1的數(shù)量需要使偶數(shù)個(gè)。當(dāng)其中的某個(gè)數(shù)據(jù)盤發(fā)生意外故障時(shí),必須要更換新的數(shù)據(jù)盤,而要將原有數(shù)據(jù)恢復(fù)到新的數(shù)據(jù)盤當(dāng)中,只需要根據(jù)偶數(shù)個(gè)1的規(guī)則就可以完成相應(yīng)操作。在對數(shù)字圖書館的數(shù)據(jù)進(jìn)行備份的實(shí)際操作當(dāng)中,備份的方案有很多種,停機(jī)備份是使用比較多的方案,將需要操作的數(shù)據(jù)正常關(guān)閉,然后對數(shù)據(jù)進(jìn)行冷備份。

      3.4 采用自動(dòng)精簡配置技術(shù),提高存儲(chǔ)空間利用效率

      在傳統(tǒng)情況下,針對某個(gè)應(yīng)用,為了保證該應(yīng)用的增長空間足夠使用,采取的空間分配方法均是完全供給,而這樣的分配手段必定會(huì)導(dǎo)致存在大量的閑置空間,不僅浪費(fèi)了存儲(chǔ)空間,同時(shí)也浪費(fèi)了能源。要解決這種問題,可以采用自動(dòng)精簡配置技術(shù),該技術(shù)能夠?qū)Υ鎯?chǔ)空間進(jìn)行有效的管理。通常情況下,使用該技術(shù)不僅保證了應(yīng)用性能不會(huì)受到影響,同時(shí)還能夠?qū)⒋鎯?chǔ)空間的利用效率大幅提升,幫助用戶實(shí)現(xiàn)100%的存儲(chǔ)空間利用率。該技術(shù)會(huì)根據(jù)數(shù)據(jù)的空間需求量進(jìn)行自動(dòng)分配,所以不會(huì)產(chǎn)生任何的多余空間。自動(dòng)精簡分配技術(shù)的另一個(gè)明顯特點(diǎn)就是還能夠?qū)崿F(xiàn)分配卷的自動(dòng)擴(kuò)展功能,不需要任何的手動(dòng)操作。當(dāng)數(shù)據(jù)占用空間需求變大時(shí),不需要人工修改存儲(chǔ)的容量設(shè)置,能夠?qū)崿F(xiàn)自動(dòng)調(diào)整。將數(shù)據(jù)信息通過虛擬技術(shù)進(jìn)行集成存儲(chǔ),不僅實(shí)現(xiàn)了存儲(chǔ)空間利用率的大幅提升,同時(shí)還降低了總功耗,所以這種技術(shù)還能夠有效的降低機(jī)房能耗,節(jié)省了能源。

      4 總結(jié)

      在大數(shù)據(jù)時(shí)代,數(shù)字圖書館要想尋求長遠(yuǎn)的發(fā)展,必須要做好數(shù)據(jù)存儲(chǔ)和數(shù)據(jù)管理工作,有效的對海量異構(gòu)數(shù)據(jù)進(jìn)行存儲(chǔ),提高存儲(chǔ)率。有條件數(shù)字圖書館可以選擇增加存儲(chǔ)服務(wù)器的方法,增加存儲(chǔ)空間。而一般情況下,數(shù)字圖書館可以采用分布式文件系統(tǒng),有效地利用空間,同時(shí)在存儲(chǔ)數(shù)據(jù)時(shí),必須要考慮到數(shù)據(jù)索引問題,可以采用非結(jié)構(gòu)化的索引技術(shù),縮小數(shù)據(jù)查詢范圍,提高查詢精度。另外,還可以通過重復(fù)數(shù)據(jù)刪除技術(shù),數(shù)據(jù)壓縮技術(shù),自動(dòng)精簡配置技術(shù),在有限的空間下提升存儲(chǔ)空間利用效率,實(shí)現(xiàn)更多數(shù)據(jù)的存儲(chǔ)。

      [1] cADAL管理中心,大學(xué)數(shù)字圖書館國際合作計(jì)劃在中國的背景情況[OL].2010,http;//www.eadal.Zju.edu.cn

      [2] 彭磊.建立SAN(存儲(chǔ)局域網(wǎng))——高校圖書館數(shù)據(jù)存儲(chǔ)系統(tǒng)發(fā)展的趨勢[J].現(xiàn)代情報(bào),2004,(04):36-37.

      [3] Hubert Yoshida.大數(shù)據(jù)存儲(chǔ)平臺必須具有彈性[J].微電腦世界,2012,(10):97.

      [4] 劉青寶等,鄧蘇,張維明等.海量信息組織與集成技術(shù)[J].計(jì)算機(jī)世界報(bào),2004,(B8):94-95.

      [5] 陳耀盛.網(wǎng)絡(luò)信息組織〔M].北京:科學(xué)技術(shù)出版社.2004:25-34.

      Research on massive heterogeneous data storage in Digital Library

      Liu Le
      (Shaanxi Vocational and Technical College,Xi'an,Shaanxi,710054)

      In the age of big data, an important problem is the data storage and access to the library work. Management mode of digital library also increased data capacity, digital library is facing higher storage requirements.

      digital library;data storage;application

      猜你喜歡
      存儲(chǔ)空間備份數(shù)字
      “備份”25年:鄧清明圓夢
      基于多種群協(xié)同進(jìn)化算法的數(shù)據(jù)并行聚類算法
      蘋果訂閱捆綁服務(wù)Apple One正式上線
      用好Windows 10保留的存儲(chǔ)空間
      答數(shù)字
      數(shù)字看G20
      淺析數(shù)據(jù)的備份策略
      科技視界(2015年6期)2015-08-15 00:54:11
      成雙成對
      出版原圖數(shù)據(jù)庫遷移與備份恢復(fù)
      數(shù)字變變變
      五台县| 水富县| 富川| 开鲁县| 合水县| 罗平县| 贵德县| 渝北区| 哈尔滨市| 台中市| 光山县| 彰武县| 普安县| 周口市| 杭州市| 曲麻莱县| 宜黄县| 大关县| 辽宁省| 涟源市| 凤庆县| 冀州市| 高唐县| 金阳县| 宁陕县| 根河市| 类乌齐县| 乌兰察布市| 微山县| 长葛市| 商城县| 阳东县| 琼结县| 鹤庆县| 武山县| 扎鲁特旗| 仙游县| 建阳市| 横峰县| 阿鲁科尔沁旗| 陇川县|