李可風(fēng),李晚照
數(shù)字圖書館的海量信息存儲(chǔ)策略
李可風(fēng),李晚照
針對(duì)數(shù)字圖書館在海量信息存儲(chǔ)方面存在數(shù)據(jù)來(lái)源各異、數(shù)據(jù)存儲(chǔ)方式多樣化、數(shù)據(jù)非結(jié)構(gòu)化問題,文章設(shè)計(jì)了在數(shù)據(jù)中心架構(gòu)下的數(shù)字圖書館海量信息存儲(chǔ)模型,討論利用三層存儲(chǔ)模型解決數(shù)字圖書資源存儲(chǔ)問題。
海量數(shù)據(jù) 數(shù)字圖書館 信息存儲(chǔ)
數(shù)字圖書館存儲(chǔ)著海量數(shù)據(jù),而數(shù)據(jù)來(lái)自不同的數(shù)據(jù)源。面對(duì)海量和非結(jié)構(gòu)性的數(shù)字資源,數(shù)字圖書館在信息存儲(chǔ)方面有特別的需求。第一,高存儲(chǔ)速率。海量的數(shù)字資源面臨著海量的讀者查詢請(qǐng)求和存儲(chǔ)請(qǐng)求[1-2]。為滿足讀者的使用體驗(yàn),須加快資源的存儲(chǔ)速率。第二,多元化存儲(chǔ)。數(shù)字圖書館包含大量的音頻和視頻資源[3-5],需采取合理的存儲(chǔ)策略,比如根據(jù)不同的數(shù)字信息存儲(chǔ)形式,動(dòng)態(tài)地調(diào)整存儲(chǔ)方法,以實(shí)現(xiàn)信息資源的高效配置。第三,高抗毀性。在突發(fā)性的不可抗力影響下,如突然斷電、設(shè)備突然損毀,如果缺乏合理的備份措施,會(huì)造成數(shù)據(jù)丟失,損失無(wú)法估量。因此,數(shù)字資源在數(shù)據(jù)備份和數(shù)據(jù)修復(fù)方面需要重點(diǎn)考慮[6]。
面臨著上述存儲(chǔ)需求,當(dāng)前數(shù)字圖書館的信息存儲(chǔ)存在三大挑戰(zhàn):一是數(shù)據(jù)來(lái)源各異,數(shù)量巨大,現(xiàn)有的數(shù)據(jù)存儲(chǔ)方式不適應(yīng)非結(jié)構(gòu)化數(shù)據(jù)的存儲(chǔ),無(wú)法提供較高的存儲(chǔ)速率。二是數(shù)據(jù)呈現(xiàn)多元化,現(xiàn)有的文件管理方式不能適應(yīng)數(shù)據(jù)的多樣性和海量性,難以實(shí)現(xiàn)高效率的查找和定位。三是現(xiàn)有的存儲(chǔ)方式在數(shù)據(jù)安全性和抗毀性方面存在缺陷。針對(duì)上述存儲(chǔ)需求和存儲(chǔ)挑戰(zhàn),需要相應(yīng)的數(shù)字存儲(chǔ)技術(shù)支持。
面對(duì)海量的數(shù)字資源,除原有存儲(chǔ)技術(shù)和方法,如磁盤陣列RAID、直連存儲(chǔ)、網(wǎng)絡(luò)附加存儲(chǔ)、網(wǎng)絡(luò)局域存儲(chǔ)外,還有滿足高速存儲(chǔ)的光纖通道存儲(chǔ)、基于對(duì)象的存儲(chǔ)以及內(nèi)容尋址存儲(chǔ)。
(1)光纖通道(Fiber Channel,F(xiàn)C)存儲(chǔ)。光纖信道是越來(lái)越普遍的高速網(wǎng)絡(luò)技術(shù),高速局域網(wǎng)最早使用FC技術(shù)。由于光纖通道具有傳輸距離長(zhǎng)、傳輸速度快、延遲低和故障率低等特點(diǎn),如果數(shù)字圖書館采用光纖通道存儲(chǔ),能提升資源共享范圍和質(zhì)量。光纖通道存儲(chǔ)一般采用3種拓?fù)浣Y(jié)構(gòu):點(diǎn)對(duì)點(diǎn)拓?fù)洹⑾薅ōh(huán)路拓?fù)浜凸饫w拓?fù)?。在光纖拓?fù)渲校鎯?chǔ)設(shè)備需要多個(gè)光纖交換機(jī)連接。如果數(shù)字圖書館采用光纖通道存儲(chǔ),需要購(gòu)置特殊的具有FC接口的存儲(chǔ)設(shè)備,既使數(shù)字圖書館的管理成本增加,也會(huì)增加管理難度。隨著以太網(wǎng)Ethernet發(fā)展,存儲(chǔ)網(wǎng)絡(luò)和傳輸網(wǎng)絡(luò)不斷融合,以太光纖通道網(wǎng)絡(luò)FCoE(Fibre Channel over Ethernet)進(jìn)入海量存儲(chǔ)管理者的視野,并占據(jù)主要地位。FCoE與光纖通道網(wǎng)絡(luò)相比,最大的優(yōu)勢(shì)是無(wú)需具有FC接口的存儲(chǔ)設(shè)備,簡(jiǎn)化存儲(chǔ)管理的復(fù)雜度,降低設(shè)備帶來(lái)的損耗。數(shù)字圖書館的海量信息資源需要高傳輸速率,須采用多樣化的靈活的存儲(chǔ)策略,可以考慮使用以太網(wǎng)光纖通道存儲(chǔ)策略。
(2)基于對(duì)象的存儲(chǔ),主要采用基于對(duì)象的存儲(chǔ)設(shè)備Object-based Storage Device(OSD)。其與傳統(tǒng)的磁盤存儲(chǔ)類似,不同之處是:基于對(duì)象的存儲(chǔ)方式工作在比磁盤存儲(chǔ)更高的層次上。磁盤存儲(chǔ)是以數(shù)據(jù)塊為單位進(jìn)行數(shù)據(jù)的組織和存取,數(shù)據(jù)塊的大小固定;OSD則將數(shù)據(jù)以對(duì)象的方式進(jìn)行存儲(chǔ),對(duì)象的大小可變。OSD具有較高的靈活度,能很好地滿足數(shù)字圖書館存儲(chǔ)的多元化需求。對(duì)象不僅包含屬性說(shuō)明,而且包含普通的文本數(shù)據(jù)。同時(shí),OSD可以提供命令接口,不局限于新建和擦除數(shù)據(jù),也包含向?qū)ο髮懭胱止?jié)、讀取字節(jié),以及設(shè)置和讀取對(duì)象的屬性。OSD不僅承擔(dān)管理數(shù)字對(duì)象的工作,還針對(duì)每一管理對(duì)象和命令建立安全機(jī)制來(lái)實(shí)現(xiàn)訪問控制?;趯?duì)象的存儲(chǔ)能實(shí)現(xiàn)數(shù)字圖書館面向文本、音頻和視頻資料的多元化存儲(chǔ),是數(shù)字圖書館信息存儲(chǔ)的新趨勢(shì)。
(3)基于內(nèi)容尋址的存儲(chǔ),是針對(duì)部分固定內(nèi)容的存儲(chǔ)方式。固定內(nèi)容主要指生成后不輕易變動(dòng)或不再發(fā)生變動(dòng)的內(nèi)容。這些數(shù)據(jù)一般的存取模式為寫入一次、讀取多次。一般來(lái)說(shuō),法律文書、電子規(guī)范文檔、電子郵件歸檔、衛(wèi)星圖像等可以考慮使用基于內(nèi)容尋址的存儲(chǔ)方式。顧名思義,基于內(nèi)容尋址的存儲(chǔ)指數(shù)據(jù)的存取是基于數(shù)據(jù)內(nèi)容,而不是根據(jù)數(shù)據(jù)存放位置和存放名稱來(lái)檢索數(shù)據(jù)?;趦?nèi)容尋址的存儲(chǔ)數(shù)據(jù)的存取主要依靠數(shù)字指紋,系統(tǒng)會(huì)根據(jù)文本內(nèi)容計(jì)算哈希值,將哈希值作為數(shù)字指紋,然后根據(jù)數(shù)字指紋決定數(shù)據(jù)的存放。此外,基于內(nèi)容尋址的存儲(chǔ)方法還有豐富的標(biāo)簽,能對(duì)信息資源的軌跡進(jìn)行追溯,具有較強(qiáng)的搜索能力。
數(shù)字圖書館信息資源存儲(chǔ)可以考慮綜合運(yùn)用上述三種技術(shù)。筆者結(jié)合數(shù)字圖書館數(shù)字資源現(xiàn)狀,建立存儲(chǔ)模型,見圖1。
圖1 數(shù)字圖書館資源存儲(chǔ)模型
(1)存儲(chǔ)物理層。主要為數(shù)字資源提供最基本的網(wǎng)絡(luò)環(huán)境和物理存儲(chǔ)環(huán)境。原有的磁盤陣列RAID、光盤庫(kù)、集群、直連存儲(chǔ)、網(wǎng)絡(luò)附加存儲(chǔ)、網(wǎng)絡(luò)局域存儲(chǔ)等存儲(chǔ)技術(shù)和存儲(chǔ)設(shè)備可沿用。數(shù)字圖書館可以使用的云存儲(chǔ)設(shè)備和存儲(chǔ)網(wǎng)絡(luò),大多先使用現(xiàn)有的存儲(chǔ)設(shè)備進(jìn)行網(wǎng)絡(luò)連接,然后增加新的技術(shù)元素。FC光纖通道存儲(chǔ)可以在原有的存儲(chǔ)局域網(wǎng)中進(jìn)行改造升級(jí)。這些技術(shù)的提升依賴統(tǒng)一的存儲(chǔ)設(shè)備管理軟件。通過該軟件,能整合底層的存儲(chǔ)硬件,并在上層提供虛擬化存儲(chǔ)管理,能實(shí)時(shí)監(jiān)測(cè)存儲(chǔ)硬件設(shè)備狀態(tài),以及進(jìn)行硬件維修。
(2)存儲(chǔ)邏輯層。所有存儲(chǔ)核心管理在該層實(shí)現(xiàn),分布式文件系統(tǒng)技術(shù)是主角。通過分布式文件系統(tǒng)和分布式數(shù)據(jù)庫(kù)系統(tǒng)等平臺(tái),數(shù)字圖書館的多元化數(shù)字資源可以協(xié)同存儲(chǔ),實(shí)現(xiàn)海量的數(shù)字資源調(diào)度、監(jiān)控和備份。該層同樣需要存儲(chǔ)管理系統(tǒng)。通過存儲(chǔ)管理系統(tǒng),采用基于對(duì)象的存儲(chǔ)和基于內(nèi)容尋址的存儲(chǔ)技術(shù)策略來(lái)適應(yīng)數(shù)字圖書館不同的數(shù)字資源存儲(chǔ)需求。該層的存儲(chǔ)強(qiáng)調(diào)使用存儲(chǔ)管理軟件實(shí)現(xiàn)物理層上的虛擬化存儲(chǔ)管理。隨著時(shí)間推移,數(shù)字圖書館會(huì)面對(duì)不同廠家、不同型號(hào)、遵循不同通信協(xié)議的存儲(chǔ)設(shè)備,如何將這些設(shè)備鏈接起來(lái),以及整合這些異構(gòu)的物流存儲(chǔ)設(shè)備和存儲(chǔ)資源,是數(shù)字圖書館建設(shè)必須考慮的問題。虛擬化存儲(chǔ)設(shè)計(jì)可以使存儲(chǔ)架構(gòu)具有較大的可擴(kuò)展性,能充分利用新舊設(shè)備,提高管理效率,降低管理成本。
(3)應(yīng)用邏輯層。在該層向用戶提供可以直接操作的管理平臺(tái)。管理平臺(tái)不僅提供普通的web頁(yè)面服務(wù),也向用戶提供數(shù)字信息收集、匯總、分析、綜合管理等實(shí)用性功能。這里的用戶包括讀者用戶和管理員用戶。管理員用戶可以方便地在應(yīng)用層使用云端的借還書系統(tǒng)、書目管理系統(tǒng)等。應(yīng)用層的使用方式靈活,移動(dòng)終端、PC機(jī)、筆記本電腦,只要能接入數(shù)字圖書館局域網(wǎng),就能在應(yīng)用邏輯層使用數(shù)字圖書館的大數(shù)據(jù)存儲(chǔ)平臺(tái),滿足信息收集和分析需求。
通過設(shè)置包括存儲(chǔ)物流層、存儲(chǔ)邏輯層和應(yīng)用邏輯層,組成存儲(chǔ)模型,進(jìn)行信息資源的數(shù)字化存儲(chǔ),能有效解決數(shù)據(jù)多元化、數(shù)據(jù)源異構(gòu)和數(shù)據(jù)存儲(chǔ)安全性問題。采用這樣的架構(gòu),能在應(yīng)用邏輯層上為多種可聯(lián)網(wǎng)設(shè)備提供數(shù)據(jù)服務(wù)。
本文探討了在海量數(shù)據(jù)影響下,數(shù)字圖書館實(shí)現(xiàn)海量信息的存儲(chǔ)策略;在分析新技術(shù)的基礎(chǔ)上,構(gòu)建數(shù)字圖書館存儲(chǔ)模型,描述存儲(chǔ)模型中不同的存儲(chǔ)層次的角色和作用,分析每一層提供的具體功能,并給出每一層的對(duì)應(yīng)管理系統(tǒng)的功能設(shè)計(jì)。今后的研究重點(diǎn)是以該存儲(chǔ)策略為基礎(chǔ)的存儲(chǔ)應(yīng)用程序?qū)崿F(xiàn),通過架設(shè)云平臺(tái),將文中探討的關(guān)鍵存儲(chǔ)技術(shù)以應(yīng)用程序的方式運(yùn)用于存儲(chǔ)管理系統(tǒng)中,增強(qiáng)數(shù)字圖書館用戶的使用體驗(yàn)。
[1]李愛勤,鮑凌云,馮曉娜.數(shù)字圖書館資源云存儲(chǔ)模型研究[J].現(xiàn)代情報(bào),2012,32(2):48-50.
[2]魏曉萍.數(shù)字圖書館網(wǎng)格存儲(chǔ)模型及關(guān)鍵技術(shù)分析[J].現(xiàn)代情報(bào),2009,29(11):85-86.
[3]Borthakur D.The hadoop distributed file system:Architecture and design[J].Hadoop Project Website,2007,11:21.
[4]Dean J,Ghemawat S.MapReduce:simplified data processing on large clusters[J].Communications of the ACM,2008,51(1):107-113.
[5]Ihaka R,Gentleman R.R:a language for data analysis and graphics[J].Journal of computational and graphical statistics,1996,5(3):299-314.
[6]金志敏.基于云存儲(chǔ)技術(shù)的數(shù)字圖書館信息資源存儲(chǔ)架構(gòu)模型探討[J].辦公自動(dòng)化,2015(16):26-30,52.
Massive Information Storage Strategy of Digital Library
LI Ke-feng,LI Wan-zhao
In view of the issues concerning different data sources,diverse data storage and unstructured data existing in massive information storage of digital library,this paper designs a massive information storage model for digital library based on data center architecture,and discusses how to effectively use the three-storage model to solve data storage problems in digital libraries.
massive data;digital library;information storage
格式 李可風(fēng),李晚照.數(shù)字圖書館的海量信息存儲(chǔ)策略[J].圖書館論壇,2015(12):100-102.
李可風(fēng),南昌大學(xué)管理學(xué)院信息管理系副研究員;李晚照,南昌大學(xué)管理學(xué)院研究生。
2015-09-10