任生楠 黃奮 徐寬
東北師范大學(xué)信息管理系,吉林 長春 130000
云存儲在數(shù)字資源長期保存中的優(yōu)勢和問題研究
任生楠 黃奮 徐寬
東北師范大學(xué)信息管理系,吉林 長春 130000
文章結(jié)合數(shù)字資源長期保存的模式及云存儲的含義,分析了云存儲在數(shù)字資源長期保存中的優(yōu)勢,進(jìn)一步探討目前云存儲存在的突出問題。
云存儲;數(shù)字資源長期保存;安全問題
云存儲是一種新興的數(shù)字信息存儲概念,鑒于它在資源分布式保存利用方面的優(yōu)勢,已經(jīng)開始在數(shù)字資源長期保存研究中得到重視,可以為該領(lǐng)域提供有力的技術(shù)支持。
1.1 信息長期保存的最終目標(biāo)
目前比較常用的保存模式有遷移、仿真和備份。遷移法是把數(shù)字信息按照一定的周期從一代計(jì)算機(jī)上遷移到新一代計(jì)算機(jī)上的過程;仿真法是對已經(jīng)過時(shí)的或者數(shù)字信息產(chǎn)生時(shí)的硬件、軟件及系統(tǒng)進(jìn)行模仿,使得數(shù)字信息能以原始面貌出現(xiàn);備份法是在多個(gè)地點(diǎn)、利用多個(gè)備份來完成保存工作。但這些策略有些價(jià)格昂貴,普通的機(jī)構(gòu)很難保證長期的支付,有些技術(shù)手段單一或者技術(shù)過時(shí),影響保存和重現(xiàn)效果,而云存儲概念的提出就可以有效地解決這些問題。
1.2 云存儲的功能作用
云存儲系統(tǒng)的結(jié)構(gòu)模型由4層組成。
存儲層。存儲層是云存儲最基礎(chǔ)的部分。存儲設(shè)備可以是FC光纖通道存儲設(shè)備,可以是NAS(網(wǎng)絡(luò)附加存儲)和 iSCSI 等IP存儲設(shè)備,也可以是 SCSI 或SAS(統(tǒng)計(jì)分析系統(tǒng) )等 DAS(直接附加存儲)存儲設(shè)備。云存儲中的存儲設(shè)備往往數(shù)量龐大且分布多不同地域,彼此之間通過廣域網(wǎng)、互聯(lián)網(wǎng)或者FC光纖通道網(wǎng)絡(luò)連接在一起。
基礎(chǔ)管理層。云存儲通過集群、分布式文件系統(tǒng)和網(wǎng)格計(jì)算等技術(shù)保證各個(gè)存儲設(shè)備之間協(xié)同工作, 同時(shí)利用數(shù)據(jù)壓縮、重復(fù)數(shù)據(jù)刪除、數(shù)據(jù)加密等技術(shù)進(jìn)行數(shù)據(jù)管理和安全管理。
應(yīng)用層。不同的云存儲開發(fā)不同的應(yīng)用服務(wù)接口, 提供不同的服務(wù)。
訪問層。任何一個(gè)授權(quán)用戶都可以通過標(biāo)準(zhǔn)的公用應(yīng)用接口來登錄云存儲系統(tǒng),享受云存儲服務(wù)。
與傳統(tǒng)存儲系統(tǒng)相比較,云存儲系統(tǒng)具有如下不同:
(1)功能。云存儲系統(tǒng)針對的是多種類型的網(wǎng)絡(luò)在線存儲服務(wù),但傳統(tǒng)存儲系統(tǒng)則針對如高性能計(jì)算等應(yīng)用;
(2)性能。云存儲服務(wù)要把考慮數(shù)據(jù)的可靠、安全、效率等指標(biāo)作為首要目的,而且由于用戶規(guī)模大、服務(wù)范圍廣等特點(diǎn),實(shí)現(xiàn)高質(zhì)量的云存儲服務(wù)必將面臨更大的技術(shù)挑戰(zhàn);
(3)數(shù)據(jù)管理。云存儲系統(tǒng)不僅要提供類似于POSIX(可移植操作系統(tǒng)接口)的傳統(tǒng)文件訪問,還要能夠支持海量數(shù)據(jù)管理并提供公共服務(wù)支撐功能,以方便云存儲系統(tǒng)后臺數(shù)據(jù)的維護(hù)。
從2006年到2010年,全球信息總量增長了6倍以上,隨著技術(shù)的不斷發(fā)展,現(xiàn)已經(jīng)普遍采用的SATA硬盤容量是750GB或1 TB。但在面對PB級的海量存儲需求時(shí),傳統(tǒng)的NAS(網(wǎng)絡(luò)附屬存儲)或SAN(存儲區(qū)域網(wǎng))已經(jīng)不能滿足目前對數(shù)據(jù)保存高容量、高性能、易擴(kuò)展的需求。
2.1 支持海量存儲
傳統(tǒng)的DAS和SAN使用塊數(shù)據(jù)存儲, 并利用分離的文件系統(tǒng)或數(shù)據(jù)庫管理支持串行擴(kuò)容, 在系統(tǒng)規(guī)模較小時(shí)性能較好, 但是隨著數(shù)字資源數(shù)量的不斷增大,存儲性能會受I/O服務(wù)瓶頸制約而降低。云存儲集成使用了支持大規(guī)模存儲的集群技術(shù)、P2P 技術(shù)和網(wǎng)格技術(shù), 允許存儲服務(wù)器和存儲節(jié)點(diǎn)同時(shí)增加, 進(jìn)行并行擴(kuò)容。因此, 在擴(kuò)展時(shí)不會遇到兼容性的問題, 存儲的性能還會隨著節(jié)點(diǎn)的增加而無縫增長。
2.2 動(dòng)態(tài)擴(kuò)展與動(dòng)態(tài)保存
云存儲能將資源集中監(jiān)控,同時(shí)可將這些資源進(jìn)行動(dòng)態(tài)管理,確保每個(gè)應(yīng)用所使用的存儲空間可以實(shí)時(shí)調(diào)整。因此,在進(jìn)行數(shù)字資源長期保存時(shí),機(jī)構(gòu)可根據(jù)自身保存資源的狀況,在保存前期先申請較小的存儲空間,隨著保存資源的增加,動(dòng)態(tài)調(diào)整存儲空間大小。此外,存儲中的任何數(shù)據(jù)都是經(jīng)常被使用的。由于云存儲自身動(dòng)態(tài)靈活的特點(diǎn),機(jī)構(gòu)在保存資源時(shí)并不是想將其完全靜態(tài)孤立的保存,所以,當(dāng)原有的數(shù)據(jù)應(yīng)用平臺出現(xiàn)版本過低要求升級時(shí),利用云存儲的優(yōu)勢,同時(shí)也將數(shù)據(jù)對象格式同步升級,而不會等到數(shù)據(jù)版本或者環(huán)境因素改變過多而造成原有數(shù)據(jù)無法讀寫、原有數(shù)據(jù)平臺無法接納新數(shù)據(jù)的矛盾情況。
2.3 管理方便
在以往的存儲系統(tǒng)管理中,管理者不但要了解并掌握不同存儲設(shè)備的管理界面,而且對所有目前正在應(yīng)用的存儲器使用狀況要精確掌握,工作量繁瑣且容易出錯(cuò)。此外,在硬盤或是存儲服務(wù)器損壞時(shí),數(shù)據(jù)容易丟失。而云存儲則大大避免了這個(gè)麻煩,若硬盤損壞,數(shù)據(jù)會自動(dòng)按照一定的程序遷移到另外的已經(jīng)準(zhǔn)備好的硬盤,不用立即更換存儲器,從而減輕了管理者的工作負(fù)擔(dān)和出錯(cuò)概率。
2.4 成本更低廉
云存儲系統(tǒng)中所采用的存儲及服務(wù)器設(shè)備均是性價(jià)比較高的設(shè)備??蓪?shí)現(xiàn)長久合作關(guān)系下,設(shè)備商采購的穩(wěn)定渠道,便于實(shí)現(xiàn)對成本及服務(wù)質(zhì)量的控制。傳統(tǒng)的存儲系統(tǒng)對硬盤的一致性要求近乎苛刻,必須同廠牌、同容量、同型號,否則系統(tǒng)很容易出問題。面對升級換代較快的IT產(chǎn)業(yè),硬盤在使用2~3年后很難找到同型號產(chǎn)品更換。使用云存儲沒有這個(gè)問題,云存儲系統(tǒng)對存儲設(shè)備、服務(wù)器設(shè)備、硬盤等產(chǎn)品的一致性沒有要求,不同介質(zhì)、容量、廠牌、型號的硬盤,都可以一起工作,既可以實(shí)現(xiàn)原有硬件的利舊保護(hù)投入,又可以實(shí)現(xiàn)新技術(shù)、新設(shè)備的快速更新,合理搭配、優(yōu)化選擇、可持續(xù)發(fā)展。
如今,云存儲已經(jīng)越來越受到人們的重視,其特有的優(yōu)勢幫助使用者們解決了許多過去無法解決的問題,同時(shí)也為使用者們節(jié)省了不少資金,但是由于云存儲剛剛被引入數(shù)字資源長期保存領(lǐng)域不久,因此由于技術(shù)受限而存在的一系列問題自然成為焦點(diǎn),主要涉及的問題包括:
3.1 安全問題
(1)云數(shù)據(jù)存儲位置
在云提供商中,用戶不知道實(shí)際數(shù)據(jù)的存儲位置,這一點(diǎn)會造成用戶對于數(shù)據(jù)存儲地的擔(dān)心。另外還有對敏感數(shù)據(jù)的訪問問題,如果云存儲管理出現(xiàn)異常,可能導(dǎo)致用戶不能掌控自己數(shù)據(jù)的訪問權(quán)限。
(2)數(shù)據(jù)隔離
云存儲存儲了大量的客戶數(shù)據(jù),這些數(shù)據(jù)本身是應(yīng)該隔離的,云提供商需要保證私有數(shù)據(jù)不能被其他無授權(quán)的用戶訪問。
(3)數(shù)據(jù)恢復(fù)
一旦云端數(shù)據(jù)出現(xiàn)全部或部分?jǐn)?shù)據(jù)破壞時(shí),提供商是否有能力進(jìn)行全面恢復(fù), 需要多少時(shí)間才能完成恢復(fù), 都具有不確定性.
(4)云服務(wù)擴(kuò)充與遷移
當(dāng)用戶需求擴(kuò)大時(shí), 云提供商現(xiàn)有的云服務(wù)不能滿足用戶需求,用戶需要轉(zhuǎn)移至其他云提供商。但對于用戶來說,已有數(shù)據(jù)及應(yīng)用能否保證順利遷移將面臨很大的不確定性。
3.2 數(shù)據(jù)隱私問題
需要長期保存的數(shù)字資源類型不僅包括期刊論文,還包括在互聯(lián)網(wǎng)上開放獲取的資源。對于前者,往往只有訂購數(shù)據(jù)庫的用戶(如高校圖書館,各類研究所等)才有權(quán)利訪問,并且受到版權(quán)的保護(hù)。如果將這些數(shù)據(jù)內(nèi)容以遠(yuǎn)程方式存放到云端,必然會引發(fā)用戶對數(shù)據(jù)隱私保護(hù)的擔(dān)憂。目前,在云存儲技術(shù)領(lǐng)域,有研究者提出可以通過加密或文件/碎片方式阻止未經(jīng)授權(quán)用戶的非法訪問,但這是否適用于數(shù)字資源長期保存的流程、是否還能夠保證數(shù)據(jù)的完整性, 有待于進(jìn)一步研究和考證。
數(shù)字資源長期安全保存的最終目的不是保存,而是利用。保存是手段,而利用才是最終目的。作為一項(xiàng)新的概念,云存儲有它自己獨(dú)特的技術(shù)等優(yōu)勢,在數(shù)字資源長期安全保存領(lǐng)域中是一顆新星,雖然有很多地方不是很完善,但是對于未來的年輕科學(xué)家們來說,這種思想的提出,不僅對現(xiàn)當(dāng)代有著重要的意義,還為今后數(shù)字資源長期安全保存提供了捷徑,云存儲將是未來數(shù)字資源長期安全保存的主流方向。
[1]趙敏.淺談數(shù)字資源長期保存相關(guān)問題[J].科技情報(bào)開發(fā)與經(jīng)濟(jì).2010(11):98~101
[2]宋凱,耿義良.云存儲技術(shù)[J].才智.2010 (04):65
[3]張龍立.云存儲技術(shù)探討[J].電信科學(xué). 2010(S1):71-74
10.3969/j.issn.1001-8972.2011.18.025