董曉莉
〔摘要〕本文在介紹軟件定義存儲(chǔ)概念和技術(shù)特征的基礎(chǔ)上,對(duì)應(yīng)用于數(shù)字資源長(zhǎng)期保存系統(tǒng)建設(shè)的傳統(tǒng)存儲(chǔ)弊端和軟件定義存儲(chǔ)優(yōu)勢(shì)進(jìn)行了深入的對(duì)比和剖析,引出軟件定義存儲(chǔ)對(duì)數(shù)字資源長(zhǎng)期保存存儲(chǔ)系統(tǒng)建設(shè)的影響,并進(jìn)一步分析了合作模式下數(shù)字資源長(zhǎng)期保存的存儲(chǔ)需求,進(jìn)而提出基于軟件定義存儲(chǔ)的數(shù)字資源長(zhǎng)期保存存儲(chǔ)系統(tǒng)架構(gòu)。最后,本文有針對(duì)性地提出了基于軟件定義存儲(chǔ)的長(zhǎng)期保存存儲(chǔ)系統(tǒng)建設(shè)策略。對(duì)數(shù)字資源長(zhǎng)期保存系統(tǒng)的建設(shè)起到一定的借鑒作用。
〔關(guān)鍵詞〕長(zhǎng)期保存;數(shù)字圖書館;數(shù)字信息資源;軟件定義存儲(chǔ)
DOI:10.3969/j.issn.1008-0821.2017.02.008
〔中圖分類號(hào)〕G25076〔文獻(xiàn)標(biāo)識(shí)碼〕A〔文章編號(hào)〕1008-0821(2017)02-0038-06
〔Abstract〕This paper gave an overview on the basic concept and technical architecture of SDS,then the paper compared and analyzed the disadvantages of the traditional storage and the advantages of software defined storage in the application of digital preservation.Besides,it further put forword the impact of software defined storage for long-term preservation.And then the software defined storage reference architecture for long-term preservation combined with the software defined storage requirements was proposed,finally the evolution of ideas were put forward.
〔Key words〕long-term preservation;digital library;digital information resources;software defined storage
安全可靠的存儲(chǔ)環(huán)境是數(shù)字資源長(zhǎng)期保存工作的基礎(chǔ)和保障,數(shù)字資源長(zhǎng)期保存的關(guān)鍵在于維護(hù)數(shù)字形態(tài)資源的可用性、可表現(xiàn)性、可理解性、真實(shí)性和可識(shí)別性,但其面臨著數(shù)據(jù)易丟失、介質(zhì)故障、海量資源存儲(chǔ)、軟硬件過時(shí)等與存儲(chǔ)資源息息相關(guān)的不良因素影響,給數(shù)字信息的穩(wěn)定可靠帶來巨大的挑戰(zhàn)。
同時(shí)數(shù)字資源長(zhǎng)期保存工作還面臨著技術(shù)、經(jīng)濟(jì)、法律等諸多方面的問題,任何一個(gè)機(jī)構(gòu)僅憑一己之力難以勝任,需要跨機(jī)構(gòu)、跨行業(yè)、跨地域間的協(xié)同合作;且隨著社會(huì)的發(fā)展和科學(xué)技術(shù)的進(jìn)步,數(shù)字信息的增長(zhǎng)量也呈現(xiàn)出指數(shù)級(jí)增長(zhǎng)的趨勢(shì)。面對(duì)數(shù)字資源爆炸式增長(zhǎng)的存儲(chǔ)需求以及協(xié)同合作長(zhǎng)期保存工作模式的推廣,存儲(chǔ)系統(tǒng)必須具備足夠的靈活性、高可靠性、開放性以及智能化,才能長(zhǎng)期應(yīng)對(duì)海量數(shù)字資源的保存需求;同時(shí),為保障數(shù)字信息的長(zhǎng)期可用性,在數(shù)字資源長(zhǎng)期保存過程中還需要依托存儲(chǔ)系統(tǒng)的數(shù)據(jù)服務(wù)完成對(duì)保存資源的合理備份和遷移。因此,從靈活性、安全性、支持跨地域協(xié)同工作、跨異構(gòu)環(huán)境的配置和管理、對(duì)異構(gòu)資源的持續(xù)監(jiān)控、效能管理、降低成本、易擴(kuò)展等方面考慮,探索可持續(xù)發(fā)展的數(shù)字資源長(zhǎng)期保存存儲(chǔ)解決方案,是當(dāng)前長(zhǎng)期保存領(lǐng)域面臨的重要問題之一。
隨著互聯(lián)網(wǎng)、云計(jì)算的快速普及以及大數(shù)據(jù)時(shí)代下數(shù)字信息資源的爆炸性增長(zhǎng),為了打破傳統(tǒng)存儲(chǔ)系統(tǒng)軟硬件緊耦合造成的系統(tǒng)割裂狀態(tài),增強(qiáng)存儲(chǔ)系統(tǒng)的橫向擴(kuò)展能力,進(jìn)一步實(shí)現(xiàn)資源的集中統(tǒng)一管理,提高系統(tǒng)的開放性,軟件定義存儲(chǔ)(Software Defined Storage,SDS)應(yīng)運(yùn)而生。數(shù)字資源長(zhǎng)期保存工作中引入軟件定義存儲(chǔ),不但可以簡(jiǎn)化運(yùn)行管理,保障長(zhǎng)期保存系統(tǒng)底層存儲(chǔ)平臺(tái)安全、穩(wěn)定、高效運(yùn)行,而且可以實(shí)現(xiàn)基礎(chǔ)設(shè)施資源的按需配置和動(dòng)態(tài)調(diào)整,改進(jìn)合作模式下數(shù)字資源長(zhǎng)期保存工作的業(yè)務(wù)流程,有效平衡效能與成本的比率,提高長(zhǎng)期保存系統(tǒng)存儲(chǔ)資源部署管理的自動(dòng)化、標(biāo)準(zhǔn)化和一體化水平。本文通過對(duì)軟件定義存儲(chǔ)的分析,進(jìn)一步探討其在數(shù)字資源長(zhǎng)期保存中的應(yīng)用,為國(guó)內(nèi)外同行提供參考。
1軟件定義存儲(chǔ)對(duì)數(shù)字資源長(zhǎng)期保存的影響
11軟件定義存儲(chǔ)概念
2013年“軟件定義存儲(chǔ)”的概念被提出,旨在創(chuàng)造一種新的存儲(chǔ)方法,以此來改進(jìn)原先由硬件驅(qū)動(dòng)的存儲(chǔ)設(shè)計(jì)方式。由于軟件定義存儲(chǔ)的發(fā)展時(shí)間較短,目前國(guó)內(nèi)外并沒有對(duì)其形成統(tǒng)一的定義,各大存儲(chǔ)廠商和存儲(chǔ)研究機(jī)構(gòu)分別從不同角度、不同側(cè)重對(duì)軟件定義存儲(chǔ)作出了定義。如2013年,EMC[1]推出其對(duì)軟件定義存儲(chǔ)的定義,該定義包括可以在不同的地理位置、不同服務(wù)器產(chǎn)品或不同廠商的磁盤陣列上擴(kuò)展、能夠?qū)⑺谢A(chǔ)存儲(chǔ)資源虛擬化后融入資源池、以及開放API等。同年,IBM中國(guó)也推出了其軟件定義存儲(chǔ)的技術(shù)路線圖,即SDS10實(shí)現(xiàn)存儲(chǔ)虛擬化,并針對(duì)工作負(fù)載進(jìn)行優(yōu)化;SDS20是在虛擬化基礎(chǔ)上實(shí)現(xiàn)存儲(chǔ)平臺(tái)的開放和可擴(kuò)展性;SDS30將更突出平臺(tái)開放和分析功能,并通過智能的數(shù)據(jù)管理完全實(shí)現(xiàn)應(yīng)用對(duì)存儲(chǔ)資源的動(dòng)態(tài)分配和管理。
與此同時(shí),各研究機(jī)構(gòu)也紛紛推出其針對(duì)軟件定義存儲(chǔ)的定義。如全球網(wǎng)絡(luò)存儲(chǔ)工業(yè)協(xié)會(huì)(Storage Networking Industry Association,SNIA)[2]認(rèn)為軟件定義存儲(chǔ)應(yīng)具備以下典型特征:容許用戶“自主創(chuàng)建”,用戶可以自主選擇硬件品牌,并通過所提供的軟件完成解決方案;既支持通用硬件,又可支持專用硬件的既有增強(qiáng)功能;支持幾乎所有存儲(chǔ)的橫向擴(kuò)展和縱向擴(kuò)展;支持異構(gòu)存儲(chǔ)資源的統(tǒng)一池化管理;提供的存儲(chǔ)和數(shù)據(jù)服務(wù)可進(jìn)行漸進(jìn)式延展;支持全局自動(dòng)化管理;為用戶提供豐富的自助服務(wù)接口;提供基于服務(wù)級(jí)別的管理形式,可通過標(biāo)注元數(shù)據(jù)來驅(qū)動(dòng)某類型的存儲(chǔ)數(shù)據(jù)服務(wù);容許管理員設(shè)置存儲(chǔ)數(shù)據(jù)服務(wù)的管理策略;支持存儲(chǔ)和數(shù)據(jù)服務(wù)的解聚。IDC對(duì)軟件定義存儲(chǔ)的定義如下:軟件定義存儲(chǔ)將數(shù)據(jù)中心或者跨數(shù)據(jù)中心的各種存儲(chǔ)資源抽象化、池化,以服務(wù)的形式提供給應(yīng)用,滿足應(yīng)用按需(如容量、性能、QoS、SLA等)自動(dòng)化使用存儲(chǔ)的需求[3-4]。
由此不難看出,目前對(duì)軟件定義存儲(chǔ)的定義主要分成兩類,一類是以傳統(tǒng)存儲(chǔ)廠商為代表,他們重點(diǎn)關(guān)注自身存儲(chǔ)產(chǎn)品,將自身?yè)碛械拇鎯?chǔ)管理軟件從存儲(chǔ)設(shè)備中抽離出來,形成一套用于管理自身存儲(chǔ)硬件和第三方存儲(chǔ)硬件以及通用硬件的管理軟件系統(tǒng),并利用虛擬化技術(shù)將底層存儲(chǔ)硬件池化,向前端應(yīng)用提供存儲(chǔ)資源。另一類以一些研究機(jī)構(gòu)為代表,他們更強(qiáng)調(diào)硬件平臺(tái)的通用性,通過軟件功能完成傳統(tǒng)存儲(chǔ)系統(tǒng)的多路徑、容錯(cuò)、故障恢復(fù)等功能并提供有質(zhì)量保證的服務(wù),同時(shí)其可以在不直接操作存儲(chǔ)底層硬件的情況下,實(shí)現(xiàn)數(shù)據(jù)分配的動(dòng)態(tài)部署并保證自動(dòng)保持所需服務(wù)級(jí)別。
雖然目前各方對(duì)軟件定義存儲(chǔ)的定義不盡相同,各有側(cè)重。但不難發(fā)現(xiàn)自動(dòng)化、良好的擴(kuò)展性、開放性以及基于策略或者應(yīng)用驅(qū)動(dòng)服務(wù)已經(jīng)成為各家定義中的必備元素。筆者認(rèn)為,軟件定義存儲(chǔ)與以往通用存儲(chǔ)系統(tǒng)不同,它已經(jīng)突破了存儲(chǔ)功能與硬件綁定的限制,把存儲(chǔ)資源提供的控制能力抽象出來,并將其與數(shù)據(jù)訪問層面分開,通過抽象出的控制能力管理來自不同廠商的所有物理和虛擬存儲(chǔ)資源,按需提供智能服務(wù)。軟件定義存儲(chǔ)已逐步轉(zhuǎn)變?yōu)橐环N數(shù)據(jù)存儲(chǔ)方式,一種由軟件驅(qū)動(dòng)的非專屬存儲(chǔ)系統(tǒng)。在該系統(tǒng)中,所有與存儲(chǔ)相關(guān)的軟件與物理系統(tǒng)相剝離,不再是一個(gè)固件;物理存儲(chǔ)系統(tǒng)則成為不受限制的共享池,方便用戶有效利用。
12軟件定義存儲(chǔ)特征
軟件定義存儲(chǔ)架構(gòu)的核心思想在于硬件解耦、軟件定義、彈性擴(kuò)展和資源融合。與傳統(tǒng)存儲(chǔ)架構(gòu)相比,軟件定義存儲(chǔ)無論在可維護(hù)性、可擴(kuò)展性、產(chǎn)品價(jià)格以及產(chǎn)品的選擇等方面都有更大的優(yōu)勢(shì)和靈活性。限于當(dāng)前技術(shù)環(huán)境下,軟件定義存儲(chǔ)應(yīng)具有如下特征[5-6]:
121智能且自優(yōu)化
通過定義標(biāo)準(zhǔn)的應(yīng)用編程接口(API)可以進(jìn)行自動(dòng)化存儲(chǔ)配置,以滿足應(yīng)用程序和用戶所需要的存儲(chǔ)資源,無需人工干預(yù);通過元數(shù)據(jù)設(shè)定,可以自動(dòng)地進(jìn)行存儲(chǔ)資源的部署、優(yōu)化和管理,并為應(yīng)用提供所需的服務(wù)。該特性將極大地簡(jiǎn)化應(yīng)用系統(tǒng)管理員的配置工作,有利于存儲(chǔ)資源與應(yīng)用系統(tǒng)的集成,有效降低管理成本。
122系統(tǒng)架構(gòu)靈活,支持異構(gòu)設(shè)備的統(tǒng)一管理
軟件定義存儲(chǔ)的一個(gè)優(yōu)勢(shì)在于對(duì)異構(gòu)存儲(chǔ)設(shè)備的整合,其可以實(shí)現(xiàn)對(duì)不同類型的存儲(chǔ)系統(tǒng)(如NAS、SAN、對(duì)象存儲(chǔ)等)和不同廠商存儲(chǔ)設(shè)備的快速接入和統(tǒng)一管理,為實(shí)現(xiàn)存儲(chǔ)資源池化和全局統(tǒng)一管理創(chuàng)造條件。
123良好的可擴(kuò)展性(主要指橫向擴(kuò)展)
軟件定義存儲(chǔ)的存儲(chǔ)控制器可以放置在任何位置,比如將存儲(chǔ)管理控制軟件放置在虛擬服務(wù)器架構(gòu)中,借用其主機(jī)的計(jì)算能力和擴(kuò)展能力,不但可以消減部署費(fèi)用,而且可以有力地增加存儲(chǔ)架構(gòu)的可擴(kuò)展性。
124存儲(chǔ)虛擬化
存儲(chǔ)虛擬化可以聚合異構(gòu)存儲(chǔ)資源并將其池化,使得所有存儲(chǔ)設(shè)備中的存儲(chǔ)容量均可以得到充分利用,有效提高空間利用率,降低成本。同時(shí)軟件定義存儲(chǔ)提供的資源(空間、I/O能力)自由分配和組合的能力,減少了應(yīng)用對(duì)存儲(chǔ)硬件資源的綁定,增加了異構(gòu)存儲(chǔ)設(shè)備的整合能力。特別是軟件定義存儲(chǔ)所具有的數(shù)據(jù)跨異構(gòu)存儲(chǔ)孤島的功能,有助于實(shí)現(xiàn)數(shù)據(jù)的無縫遷移,方便管理。
125豐富的數(shù)據(jù)接口
軟件定義存儲(chǔ)可以對(duì)外提供豐富的數(shù)據(jù)接口,如文件系統(tǒng)接口(NFS、CIFS等)、塊接口(iSCSI、FC等)、對(duì)象接口(S3、SWIFT等)以及大數(shù)據(jù)接口(HDFS)等,用戶可以根據(jù)應(yīng)用需求自行選擇合適的存儲(chǔ)接口和協(xié)議。
13傳統(tǒng)存儲(chǔ)的劣勢(shì)
當(dāng)前基于傳統(tǒng)存儲(chǔ)(如SAN、NAS、DAS等)的獨(dú)立存儲(chǔ)中心仍是長(zhǎng)期保存實(shí)踐中的主流存儲(chǔ),但伴隨跨行業(yè)、跨地域工作模式的增加以及豐富多樣海量數(shù)據(jù)存儲(chǔ)需求的驅(qū)動(dòng),傳統(tǒng)存儲(chǔ)在某些方面已經(jīng)無法滿足合作模式下長(zhǎng)期保存用戶對(duì)集中、動(dòng)態(tài)管理存儲(chǔ)資源的需要。
131傳統(tǒng)存儲(chǔ)的擴(kuò)展能力較差
傳統(tǒng)存儲(chǔ)通常采用專有存儲(chǔ)硬件設(shè)備,系統(tǒng)部署和擴(kuò)容較為復(fù)雜,需要專業(yè)人員處理,且周期較長(zhǎng);從其他存儲(chǔ)設(shè)備中調(diào)配容量,將打亂原有數(shù)據(jù)的部署規(guī)則和原有的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu),不利于后續(xù)管理;傳統(tǒng)存儲(chǔ)以控制器為核心,存儲(chǔ)管理軟件與硬件緊密耦合的設(shè)計(jì)理念導(dǎo)致其僅支持縱向擴(kuò)展,無法支持橫向和縱向的雙向靈活擴(kuò)展。
132傳統(tǒng)存儲(chǔ)的成本較高
傳統(tǒng)存儲(chǔ)產(chǎn)品硬件擴(kuò)容時(shí),由于受到原有設(shè)備選型的局限,無法采購(gòu)新型性價(jià)比更好的產(chǎn)品;同時(shí)各家產(chǎn)品存在技術(shù)壁壘,通常采用專有存儲(chǔ)硬件且與存儲(chǔ)軟件綁定,通用性差,對(duì)廠商依賴性很大,維護(hù)成本很高。
133傳統(tǒng)存儲(chǔ)運(yùn)行管理復(fù)雜
傳統(tǒng)存儲(chǔ)由于各設(shè)備的運(yùn)行管理方式較為獨(dú)立,且差異較大,無法實(shí)現(xiàn)全局統(tǒng)一管理和調(diào)度,即使采用第三方管理軟件,也無法脫離原有存儲(chǔ)控制軟件對(duì)底層存儲(chǔ)資源進(jìn)行調(diào)配的依賴性;對(duì)資源的調(diào)度只能局限于存儲(chǔ)系統(tǒng)內(nèi)部,無法實(shí)現(xiàn)跨存儲(chǔ)節(jié)點(diǎn)的靈活遷移。
同時(shí),伴隨數(shù)字資源長(zhǎng)期保存合作模式的推廣,未來的保存機(jī)構(gòu)對(duì)資源存儲(chǔ)提出了更多的要求。首先,面對(duì)用戶泛化的信息需求,特別是“大數(shù)據(jù)”技術(shù)的飛速發(fā)展,用戶“大數(shù)據(jù)”也將作為一種重要資源被納入數(shù)字資源長(zhǎng)期保存對(duì)象集合之中。隨著保存機(jī)構(gòu)對(duì)保存對(duì)象的界定逐漸寬泛,數(shù)字資源長(zhǎng)期保存將對(duì)結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的存儲(chǔ)空間產(chǎn)生更大的需求;其次,伴隨長(zhǎng)期保存由單中心模式變?yōu)槎嘀行哪J?,其業(yè)務(wù)模式變化加快,這不但需要數(shù)字保存中心的存儲(chǔ)擁有更靈活的擴(kuò)展和響應(yīng)能力,而且需要其具有更便捷的配置能力以及更精細(xì)化的管理模式。
軟件定義存儲(chǔ)和傳統(tǒng)存儲(chǔ)設(shè)備的主要差異在于其在可擴(kuò)展性和統(tǒng)一操作方面的突出優(yōu)勢(shì),而這些優(yōu)勢(shì)恰恰可以緩解合作模式下數(shù)字資源長(zhǎng)期保存在存儲(chǔ)容量和資源有效管理等方面的難題。采用軟件定義存儲(chǔ)的長(zhǎng)期保存存儲(chǔ)環(huán)境,不僅體現(xiàn)出數(shù)字資源存儲(chǔ)容量的巨大變化,而且可以提供基于容量、性能等存儲(chǔ)資源統(tǒng)一調(diào)配的管理控制,實(shí)現(xiàn)對(duì)資源的集中監(jiān)控和動(dòng)態(tài)管理,屏蔽底層SAN、NAS等異構(gòu)存儲(chǔ)、服務(wù)器、SAN存儲(chǔ)交換機(jī)、網(wǎng)絡(luò)交換機(jī)等硬件設(shè)備的差異,從而解決數(shù)字資源長(zhǎng)期保存在存儲(chǔ)空間有限和難于有效管理方面的難題。同時(shí)其可以在不改變?cè)O(shè)備網(wǎng)絡(luò)拓?fù)浼軜?gòu)的情況下,將原各保存中心已購(gòu)置的存儲(chǔ)資源整合起來,及時(shí)響應(yīng)業(yè)務(wù)需求,節(jié)約再次購(gòu)置存儲(chǔ)資源的成本,這既能使數(shù)字資源長(zhǎng)期保存系統(tǒng)擁有無限量存儲(chǔ)資源,又能有效降低保存成本,提升設(shè)備管理工作效率。
14軟件定義存儲(chǔ)應(yīng)用于數(shù)字資源長(zhǎng)期保存的優(yōu)勢(shì)
目前,各數(shù)字文化遺產(chǎn)機(jī)構(gòu)的存儲(chǔ)系統(tǒng)各自自成體系,擴(kuò)展能力有限,管理成本巨大,利用軟件定義存儲(chǔ)的優(yōu)勢(shì),將存儲(chǔ)軟件從硬件資源中剝離出來,不但可以實(shí)現(xiàn)對(duì)全局存儲(chǔ)存儲(chǔ)資源和數(shù)字資源的自動(dòng)化管理,同時(shí)可以打破不同機(jī)構(gòu)存儲(chǔ)間的壁壘,提高存儲(chǔ)平臺(tái)的橫向擴(kuò)展能力,延長(zhǎng)存儲(chǔ)資源的利用周期,加強(qiáng)長(zhǎng)期保存系統(tǒng)平臺(tái)的整體健壯性。軟件定義存儲(chǔ)可以解決合作模式下分布式數(shù)字資源長(zhǎng)期保存存儲(chǔ)平臺(tái)建設(shè)的如下問題[7-8]:
141異構(gòu)存儲(chǔ)的集中統(tǒng)一管理
各保存機(jī)構(gòu)中已購(gòu)置的大量異構(gòu)存儲(chǔ)進(jìn)一步增加了管理的復(fù)雜性。如何利用有限的存儲(chǔ)資源實(shí)現(xiàn)混合環(huán)境下各種異構(gòu)存儲(chǔ)的管理,同時(shí)最大化地簡(jiǎn)化管理難度是亟需解決的問題之一。軟件定義存儲(chǔ)的存儲(chǔ)自動(dòng)化集中統(tǒng)一管理能力,不僅可以在單一管理界面下實(shí)現(xiàn)跨異構(gòu)環(huán)境的存儲(chǔ)管理,而且可以有效簡(jiǎn)化異構(gòu)存儲(chǔ)的管理難度。此外,其自動(dòng)化功能可以及時(shí)檢測(cè)到存儲(chǔ)系統(tǒng)故障并及時(shí)處理,有利于保持長(zhǎng)期保存業(yè)務(wù)的連續(xù)性。
142異構(gòu)存儲(chǔ)的整合
利用軟件定義存儲(chǔ)實(shí)現(xiàn)已有異構(gòu)存儲(chǔ)的整合再利用,不僅可以提高存儲(chǔ)生命周期的使用效率,降低各保存機(jī)構(gòu)新增存儲(chǔ)的采購(gòu)需求,而且對(duì)于新增的異構(gòu)存儲(chǔ)也可以通過整合實(shí)現(xiàn)統(tǒng)一管理。
143異構(gòu)存儲(chǔ)的資源配置效率
傳統(tǒng)存儲(chǔ)配置方式造成大量存儲(chǔ)資源閑置,同時(shí)無法滿足合作模式下長(zhǎng)期保存業(yè)務(wù)對(duì)大規(guī)模資源存儲(chǔ)和管理效率的需求。軟件定義存儲(chǔ)可以實(shí)現(xiàn)在有限的存儲(chǔ)資源條件下,通過資源池化提高存儲(chǔ)資源利用率和配置率,簡(jiǎn)化以工作負(fù)載為核心的存儲(chǔ)資源部署管理,降低異構(gòu)存儲(chǔ)資源配置所需的時(shí)間,提高整體存儲(chǔ)資源的管理效率。
144卷高可移動(dòng)性
數(shù)字資源長(zhǎng)期保存存儲(chǔ)平臺(tái)在運(yùn)行過程中,無法避免會(huì)出現(xiàn)宕機(jī),進(jìn)而造成業(yè)務(wù)中斷甚至數(shù)據(jù)丟失。軟件定義存儲(chǔ)的卷高可移動(dòng)性,不但使數(shù)字資源長(zhǎng)期保存的存儲(chǔ)系統(tǒng)具有故障切換能力,而且可以有效確保其業(yè)務(wù)持續(xù)運(yùn)行的能力和保存數(shù)據(jù)的安全性和高可用性。同時(shí),多站點(diǎn)保存機(jī)構(gòu)間的存儲(chǔ)資源均衡,有利于存儲(chǔ)資源利用最大化,特別是軟件定義存儲(chǔ)具有的跨數(shù)據(jù)中心的存儲(chǔ)卷自動(dòng)遷移能力,將有效確保存儲(chǔ)卷的高可移動(dòng)性。
此外,軟件定義存儲(chǔ)可通過增加復(fù)制、壓縮等技術(shù),優(yōu)化數(shù)據(jù)存儲(chǔ),進(jìn)而優(yōu)化長(zhǎng)期保存系統(tǒng)性能,加快保存系統(tǒng)的響應(yīng)時(shí)間,減少能耗,消減保存成本。由此可見,軟件定義存儲(chǔ)已成為未來合作模式下數(shù)字資源長(zhǎng)期保存存儲(chǔ)平臺(tái)建設(shè)的重要選擇之一。
2基于軟件定義存儲(chǔ)的長(zhǎng)期保存存儲(chǔ)系統(tǒng)架構(gòu)設(shè)計(jì)
數(shù)字資源長(zhǎng)期保存數(shù)據(jù)量飛速增長(zhǎng),如果需要保存這些珍貴資源,就需要存儲(chǔ)系統(tǒng)快速地供給足夠的存儲(chǔ)資源,否則一旦存儲(chǔ)容量的擴(kuò)展速度跟不上海量數(shù)據(jù)的增長(zhǎng)速度,將會(huì)導(dǎo)致數(shù)據(jù)管理失控,并直接導(dǎo)致保存資源失效。因此,在面向合作模式下的數(shù)字資源長(zhǎng)期保存存儲(chǔ)系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)中,與性能、成本等其它因素比,支持高效管理、彈性擴(kuò)展、可靠性、數(shù)據(jù)一致性是剛性需求。
21系統(tǒng)需求
合作模式下數(shù)字資源長(zhǎng)期保存系統(tǒng)的底層數(shù)據(jù)集中存儲(chǔ)平臺(tái)應(yīng)為上層提供安全、可靠的數(shù)據(jù)服務(wù)和穩(wěn)定健壯的存儲(chǔ)環(huán)境,以保證上層長(zhǎng)期保存應(yīng)用可為用戶提供真實(shí)、可靠且具有可用性保障的數(shù)字資源。因此數(shù)字資源長(zhǎng)期保存存儲(chǔ)系統(tǒng)應(yīng)具有如下能力:
211跨數(shù)據(jù)中心的存儲(chǔ)資源統(tǒng)一管理能力
隨著長(zhǎng)期保存數(shù)字資源總量的爆炸性增長(zhǎng),存儲(chǔ)規(guī)模越來越大,而當(dāng)資源量上升到EB或ZB級(jí)別后,很難由一個(gè)機(jī)構(gòu)的數(shù)據(jù)中心完成,需要跨地域、跨機(jī)構(gòu)、跨行業(yè)進(jìn)行存儲(chǔ)資源與存儲(chǔ)服務(wù)的統(tǒng)一組織和管理。面對(duì)龐大的源于不同機(jī)構(gòu)的異構(gòu)存儲(chǔ)資源以及難于統(tǒng)一調(diào)配的存儲(chǔ)資源等難題,必須增強(qiáng)虛擬化管理、端到端的存儲(chǔ)自動(dòng)化管理以及異構(gòu)存儲(chǔ)自發(fā)現(xiàn)管理等方面的能力,以實(shí)現(xiàn)對(duì)各地各機(jī)構(gòu)存儲(chǔ)資源集中控制和統(tǒng)一管理。
212完善的大規(guī)模分布式安全存儲(chǔ)架構(gòu)
存儲(chǔ)系統(tǒng)應(yīng)支持分布式架構(gòu),具有橫向和縱向的雙向擴(kuò)展能力,可實(shí)現(xiàn)不同機(jī)構(gòu)異構(gòu)存儲(chǔ)系統(tǒng)間的資源共享,同時(shí)支持對(duì)數(shù)字對(duì)象進(jìn)行有效的管理、協(xié)作、控制共享、傳輸、備份與恢復(fù),可通過層次邏輯名稱實(shí)現(xiàn)對(duì)保存數(shù)據(jù)對(duì)象的統(tǒng)一有序的控制與管理,保障資源的安全性和一致性。
213較強(qiáng)的智能管理功能
合作模式下,存儲(chǔ)系統(tǒng)中的物理存儲(chǔ)節(jié)點(diǎn)數(shù)量從幾個(gè)到幾十個(gè)不等,面對(duì)超大規(guī)模的I/O吞吐需求,在保證數(shù)據(jù)安全、一致的前提下,應(yīng)高效進(jìn)行節(jié)點(diǎn)間的負(fù)載均衡,充分發(fā)揮空閑節(jié)點(diǎn)的作用,保證服務(wù)質(zhì)量,提高系統(tǒng)運(yùn)行效能。
214面向長(zhǎng)期保存應(yīng)用的專業(yè)化管理策略
可根據(jù)長(zhǎng)期保存業(yè)務(wù)流程,設(shè)定合理的且簡(jiǎn)單易控的管理策略,并根據(jù)應(yīng)用的變化進(jìn)行彈性配額。通過采集長(zhǎng)期保存應(yīng)用系統(tǒng)運(yùn)行的反饋數(shù)據(jù)進(jìn)行容量、性能等方面的智能分析,結(jié)合存儲(chǔ)設(shè)備的相關(guān)特性(如存儲(chǔ)容量、設(shè)備類型、性能指標(biāo)等),為保存應(yīng)用選擇最合適的存儲(chǔ)資源,以完成自動(dòng)化調(diào)配,如自動(dòng)化精簡(jiǎn)配置、存儲(chǔ)空間的動(dòng)態(tài)分配等,實(shí)現(xiàn)針對(duì)長(zhǎng)期保存應(yīng)用進(jìn)行的專業(yè)化策略管理。
215開放靈活的自主服務(wù)機(jī)制
通過在面向數(shù)字資源長(zhǎng)期保存工作流中嵌入相關(guān)存儲(chǔ)技術(shù),如快照管理、壓縮解密、分層存儲(chǔ)、備份恢復(fù)、性能監(jiān)控、注冊(cè)認(rèn)證、硬件檢測(cè)等,可形成數(shù)字資源長(zhǎng)期保存需求驅(qū)動(dòng)下基于存儲(chǔ)策略的存儲(chǔ)資源和保存數(shù)據(jù)的高效、統(tǒng)一的自助服務(wù)體系,并實(shí)現(xiàn)有效提高保存資源的安全可靠性、降低資源保存管理成本。
22基于軟件定義存儲(chǔ)的長(zhǎng)期保存存儲(chǔ)系統(tǒng)架構(gòu)
合作模式下的數(shù)字資源長(zhǎng)期保存要求數(shù)據(jù)信息具有較強(qiáng)實(shí)時(shí)可用性、活動(dòng)可控性和數(shù)據(jù)管理動(dòng)態(tài)可維護(hù)性。因此,在數(shù)字資源長(zhǎng)期保存存儲(chǔ)系統(tǒng)的設(shè)計(jì)中,應(yīng)結(jié)合不同保存機(jī)構(gòu)的資源特征、資源來源以及保存需求,重點(diǎn)做好保存系統(tǒng)在資源質(zhì)量保證、高效且可靠的存儲(chǔ)策略以及資源存儲(chǔ)平臺(tái)可靠性和可擴(kuò)展性等方面的建設(shè)工作?;谝陨戏治?,結(jié)合軟件定義存儲(chǔ)的特征,筆者認(rèn)為在設(shè)計(jì)基于軟件定義存儲(chǔ)的數(shù)字資源長(zhǎng)期保存存儲(chǔ)系統(tǒng)時(shí),應(yīng)重點(diǎn)考慮靈活的存儲(chǔ)配置策略、多樣化的異構(gòu)存儲(chǔ)供給能力、存儲(chǔ)資源和保存信息的安全性以及存儲(chǔ)資源的彈性擴(kuò)展等方面的內(nèi)容,其參考架構(gòu)圖如圖1所示。
該系統(tǒng)的設(shè)計(jì)過程在堅(jiān)持開放、互聯(lián)、模塊化和低復(fù)雜度的前提下,將系統(tǒng)劃分為3個(gè)層次:策略驅(qū)動(dòng)的控制平臺(tái)層、虛擬數(shù)據(jù)平臺(tái)層、集合存儲(chǔ)池層。各個(gè)層次相互獨(dú)立,高層系統(tǒng)模塊依靠較低層的模塊提供服務(wù)支持,最終為各機(jī)構(gòu)和用戶的數(shù)字資源長(zhǎng)期保存應(yīng)用提供安全、高效、經(jīng)濟(jì)、可控的存儲(chǔ)保障。
221集合存儲(chǔ)池層
該層是非常重要的一層,主要由3個(gè)部分組成。其一是由各個(gè)保存機(jī)構(gòu)存儲(chǔ)構(gòu)成的物理存儲(chǔ)部分,該部分將各機(jī)構(gòu)已購(gòu)置的異構(gòu)存儲(chǔ)資源,如高性能的SAN存儲(chǔ)、高擴(kuò)展性的NAS存儲(chǔ)以及對(duì)象存儲(chǔ)等整合并池化。其二是存儲(chǔ)管理接口部分,該部分支持通過多種訪問接口實(shí)現(xiàn)對(duì)底層圖1基于軟件定義存儲(chǔ)的長(zhǎng)期保存存儲(chǔ)系統(tǒng)架構(gòu)
異構(gòu)存儲(chǔ)資源的訪問,如全球網(wǎng)絡(luò)存儲(chǔ)工業(yè)協(xié)會(huì)(Storage Networking Industry Association,SNIA)定義的SMIS-S協(xié)議和CDMI協(xié)議,以及第三方專有訪問接口等。系統(tǒng)可通過通用或?qū)S迷L問接口,實(shí)現(xiàn)對(duì)存儲(chǔ)硬件設(shè)備的訪問和存儲(chǔ)設(shè)備特性的充分利用。其三是數(shù)據(jù)服務(wù)部分,該部分通過軟件定義可以實(shí)現(xiàn)或者提升傳統(tǒng)存儲(chǔ)設(shè)備的相關(guān)功能,如去重、快照、數(shù)據(jù)復(fù)制以及壓縮加密等。集合存儲(chǔ)池層由上層控制平臺(tái)進(jìn)行統(tǒng)一管理和調(diào)度,通過管理管理接口和數(shù)據(jù)接口面向長(zhǎng)期保存應(yīng)用提供存儲(chǔ)服務(wù)。
222虛擬數(shù)據(jù)平臺(tái)
系統(tǒng)可通過協(xié)議轉(zhuǎn)換的方式,對(duì)外部長(zhǎng)期保存應(yīng)用提供豐富的數(shù)據(jù)接口,如對(duì)象接口、文件接口、HDFS接口、塊接口等等。
223策略驅(qū)動(dòng)的控制平臺(tái)
系統(tǒng)可根據(jù)預(yù)設(shè)的基于存儲(chǔ)設(shè)備的性能、可靠性等指標(biāo)進(jìn)行相關(guān)策略配置,同時(shí)結(jié)合長(zhǎng)期保存業(yè)務(wù)工作預(yù)設(shè)的資源存儲(chǔ)工作流,為保存應(yīng)用提供自服務(wù)管理、調(diào)配管理等方面的控制。如計(jì)算方面的CPU/GPU/內(nèi)存等、網(wǎng)絡(luò)控制方面的安全連接、帶寬管理等以及存儲(chǔ)資源提供、存儲(chǔ)服務(wù)優(yōu)化、全局?jǐn)?shù)據(jù)目錄、資源呈現(xiàn)管理等等。
該模型通過軟件對(duì)底層存儲(chǔ)硬件資源進(jìn)行池化和統(tǒng)一管理,克服了原有剛性存儲(chǔ)架構(gòu)擴(kuò)容艱難,僅能靜態(tài)分配的難題,有效增強(qiáng)了整體存儲(chǔ)平臺(tái)的擴(kuò)展能力。采用基于存儲(chǔ)設(shè)備的性能、可靠性等方面的規(guī)則進(jìn)行相關(guān)存儲(chǔ)策略配置,同時(shí)實(shí)現(xiàn)對(duì)存儲(chǔ)資源進(jìn)行統(tǒng)一管理,易于用戶結(jié)合應(yīng)用需求及時(shí)增加或調(diào)整存儲(chǔ)策略,方便管理。集合存儲(chǔ)池屏蔽了底層異構(gòu)復(fù)雜環(huán)境,完成了對(duì)底層存儲(chǔ)資源的抽象,以存儲(chǔ)資源池的方式對(duì)外提供服務(wù),有效提高了資源共享的能力。同時(shí)系統(tǒng)可利用數(shù)據(jù)壓縮、重復(fù)數(shù)據(jù)刪除、數(shù)據(jù)加密、分層存儲(chǔ)、數(shù)據(jù)復(fù)制等技術(shù)有效提高數(shù)據(jù)安全管理的能力;利用多鏈路冗余管理,負(fù)載均衡管理,以及硬件設(shè)備的狀態(tài)監(jiān)控和故障維護(hù)等手段有效保障存儲(chǔ)系統(tǒng)的健康運(yùn)行。
在該模型中,用戶可以通過管理接口開放的API進(jìn)行存儲(chǔ)配置并調(diào)用相應(yīng)的數(shù)據(jù)服務(wù),以滿足長(zhǎng)期保存應(yīng)用所需的存儲(chǔ)資源,無需人工干預(yù);通過元數(shù)據(jù)設(shè)定,即長(zhǎng)期保存應(yīng)用可將存儲(chǔ)需求信息標(biāo)記至每個(gè)保存對(duì)象文件,自動(dòng)調(diào)用策略驅(qū)動(dòng)的控制平臺(tái)和虛擬數(shù)據(jù)平臺(tái),分別形成控制流和數(shù)據(jù)流,以完成保存資源和存儲(chǔ)資源的優(yōu)化、部署和管理。策略驅(qū)動(dòng)的控制平臺(tái)可根據(jù)保存需求元數(shù)據(jù)和預(yù)設(shè)的存儲(chǔ)策略以及長(zhǎng)期保存工作流程,為不同的保存需求選擇合適的數(shù)據(jù)接口,并通過這些數(shù)據(jù)接口指引保存對(duì)象調(diào)用相應(yīng)的存儲(chǔ)資源、執(zhí)行相應(yīng)數(shù)據(jù)服務(wù)。該模型將極大地方便長(zhǎng)期保存系統(tǒng)管理員的配置、優(yōu)化存儲(chǔ)資源、降低管理和存儲(chǔ)成本。
23建設(shè)策略
基于軟件定義存儲(chǔ)的數(shù)字資源長(zhǎng)期保存存儲(chǔ)系統(tǒng)建設(shè)應(yīng)重點(diǎn)考慮以下幾點(diǎn):首先在建設(shè)過程中,為了確保長(zhǎng)期保存資源存儲(chǔ)過程的安全、高效、經(jīng)濟(jì)和易控,保存機(jī)構(gòu)可聯(lián)合多個(gè)機(jī)構(gòu)合作建設(shè),采用分布式建設(shè)模式,利用軟件定義存儲(chǔ)數(shù)據(jù)服務(wù)所提供的多種存儲(chǔ)技術(shù),實(shí)現(xiàn)資源對(duì)象在集合存儲(chǔ)池中的多份保存,以形成地域上分散的保存資源多副本。當(dāng)單個(gè)保存機(jī)構(gòu)存儲(chǔ)系統(tǒng)硬件出現(xiàn)異常導(dǎo)致數(shù)據(jù)丟失時(shí),由于集合存儲(chǔ)池中多副本資源的存在,可有效保障長(zhǎng)期保存的存儲(chǔ)、訪問等服務(wù)安全、高效、可控和不間斷。其次,存儲(chǔ)平臺(tái)的建設(shè)應(yīng)注重對(duì)海量保存資源的索引,充分利用軟件定義存儲(chǔ)較強(qiáng)的硬件兼容性、自服務(wù)、易擴(kuò)展等特性,實(shí)現(xiàn)長(zhǎng)期保存資源保存能力的動(dòng)態(tài)擴(kuò)展。第三,可充分利用軟件定義存儲(chǔ)預(yù)設(shè)的資源存儲(chǔ)策略,結(jié)合不同機(jī)構(gòu)的資源特點(diǎn)和保存需求,設(shè)定資源保存的安全級(jí)別、存儲(chǔ)模式,滿足保存資源短期和長(zhǎng)期利用的需求,保障存儲(chǔ)資源保存和利用的動(dòng)態(tài)平衡。
利用軟件定義存儲(chǔ)建設(shè)數(shù)字資源長(zhǎng)期保存存儲(chǔ)系統(tǒng)需要分階段實(shí)施。第一階段,重點(diǎn)實(shí)現(xiàn)存儲(chǔ)資源虛擬化。該階段要結(jié)合長(zhǎng)期保存工作對(duì)存儲(chǔ)資源的需求,分析目前各機(jī)構(gòu)長(zhǎng)期保存存儲(chǔ)資源的使用狀況以及未來的購(gòu)置計(jì)劃,對(duì)存儲(chǔ)資源進(jìn)行合理配置。同時(shí)分析各機(jī)構(gòu)長(zhǎng)期保存資源,并按已設(shè)定的保存級(jí)別和安全級(jí)別進(jìn)行等級(jí)劃分,通過存儲(chǔ)虛擬化手段,將各保存機(jī)構(gòu)內(nèi)部已有的異構(gòu)存儲(chǔ)資源整合為統(tǒng)一的存儲(chǔ)資源池,以便于資源保存,并根據(jù)底層存儲(chǔ)資源定義相關(guān)API,簡(jiǎn)化存儲(chǔ)配置,以實(shí)現(xiàn)上層保存系統(tǒng)透明訪問底層存儲(chǔ)資源。第二階段,解耦存儲(chǔ)軟件,實(shí)現(xiàn)存儲(chǔ)功能軟件化,降低長(zhǎng)期保存存儲(chǔ)系統(tǒng)建設(shè)成本。該階段主要完成在已構(gòu)建的集中存儲(chǔ)池上建設(shè)數(shù)據(jù)服務(wù)功能,并將原置于存儲(chǔ)硬件內(nèi)部的功能(如快照、存儲(chǔ)精簡(jiǎn)配置,重復(fù)數(shù)據(jù)刪除等)與存儲(chǔ)硬件解耦,統(tǒng)一歸并到數(shù)據(jù)服務(wù)部分。同時(shí)該部分應(yīng)支持第三方軟件的無縫接入,支持長(zhǎng)期保存數(shù)據(jù)底層功能的自定義開發(fā)。第三階段,實(shí)現(xiàn)基于策略的自動(dòng)化智能管理,并實(shí)現(xiàn)存儲(chǔ)軟件和硬件的完全解耦,文件、塊和對(duì)象存儲(chǔ)設(shè)備將在通用的計(jì)算資源、存儲(chǔ)資源上按需創(chuàng)建、靈活擴(kuò)展。
3結(jié)語
近年,隨著數(shù)字資源長(zhǎng)期保存領(lǐng)域中各文化遺產(chǎn)機(jī)構(gòu)合作增加,各機(jī)構(gòu)原有的獨(dú)立運(yùn)行模式逐漸向跨行業(yè)、跨地域的工作模式轉(zhuǎn)化,而傳統(tǒng)存儲(chǔ)明顯在擴(kuò)展能力、集中統(tǒng)一管理能力、成本控制等方面無法滿足合作模式下數(shù)字資源長(zhǎng)期保存用戶對(duì)集中、動(dòng)態(tài)管理存儲(chǔ)資源的需要。而軟件定義存儲(chǔ)和傳統(tǒng)存儲(chǔ)設(shè)備的主要差異在于其在可擴(kuò)展性和統(tǒng)一操作等方面的突出優(yōu)勢(shì)[9],這些優(yōu)勢(shì)恰恰可以緩解合作模式下數(shù)字資源長(zhǎng)期保存在存儲(chǔ)空間和有效管理方面的難題。
軟件定義存儲(chǔ)作為一種新的技術(shù)已經(jīng)引起很多業(yè)界研究和保存機(jī)構(gòu)的重視,其出現(xiàn)為數(shù)字資源長(zhǎng)期保存存儲(chǔ)系統(tǒng)的建設(shè)提供了一種新的選擇。在數(shù)字資源長(zhǎng)期保存工作中引入軟件定義存儲(chǔ),利用其存儲(chǔ)自動(dòng)化集中統(tǒng)一管理能力,可以有效實(shí)現(xiàn)跨異構(gòu)環(huán)境的存儲(chǔ)管理,降低異構(gòu)存儲(chǔ)的管理難度;利用其對(duì)異構(gòu)存儲(chǔ)資源的整合再利用能力,可以有效提高存儲(chǔ)生命周期的使用效率;利用其資源池化能力,可以有效提高整體存儲(chǔ)資源的管理效率;利用其卷高可移動(dòng)性,可以有效確保長(zhǎng)期保存業(yè)務(wù)持續(xù)運(yùn)行,提高數(shù)據(jù)的安全性和高可用性。雖然目前數(shù)字資源長(zhǎng)期保存領(lǐng)域應(yīng)用軟件定義存儲(chǔ)的成功案例還很鮮見,但其已突顯出在數(shù)字資源長(zhǎng)期保存領(lǐng)域應(yīng)用的技術(shù)優(yōu)勢(shì)。相信,隨著軟件定義存儲(chǔ)技術(shù)的不斷發(fā)展,其自動(dòng)化、優(yōu)良的橫向擴(kuò)展能力、開放性以及基于策略或者應(yīng)用驅(qū)動(dòng)服務(wù)等特點(diǎn)必然會(huì)在數(shù)字資源長(zhǎng)期保存工作中發(fā)揮重要作用,其必將成為未來合作模式下數(shù)字資源長(zhǎng)期保存存儲(chǔ)平臺(tái)建設(shè)的重要選擇之一。
參考文獻(xiàn)
[1]EMC,EMC發(fā)布全新軟件定義存儲(chǔ)平臺(tái)ViPR[EB].http:∥storage.chinabyte.com/146/12608146.shtml,2013.
[2]SNIA White Paper Defines SDS 2015 Editon,Mark Carlson,Alan Yoder,Leah Schoeb,Don Dell,Carlos Pratt,Chris Lionetti,Doug Voigt,Jan.2015 SNIA White Paper Defines SDS 2015 Editon,Mark Carlson,Alan Yoder,Leah Schoeb,Don Dell,Carlos Pratt,Chris Lionetti,Doug Voigt,Jan.2015.
[3]Nadkarni A,DuBois L,Sheppard E.IDCs worldwide software-based(software-defined)storage taxonomy[EB].http:∥www.idc.com/getdoc.jsp containerId=240500,2013.
[4]孫振正,龔靖,段勇,等.面向下一代數(shù)據(jù)中心的軟件定義存儲(chǔ)技術(shù)研究[J].電信科學(xué),2014,(1):39-43.
[5]Fichera R,Washburn D.The software-defined data center is thefuture of infrastructure architecture[EB].http:∥www.forrester.com/The+SoftwareDefined+Data+Center+Is+The+Future+Of+Infrastructure+Architecture/fulltext/-/E-RES81941,2012.
[6]Lecat J.Is“software-defined”just a new way to whitewash oldproducts[EB].http:∥www.scality.com/is-software-defined-just-a-new-way-to-whitewash-old-products/,2012.
[7]Worldwide Storage and Device Management Software 2014-2018 Forecast and 2013 Vendor Shares:Future Impact from Software-Defined Storage,Laura DuBois,Iris Feng,Jingwen Li,Ashish Nadkarni,Eric Sheppard,2014.
[8]IDC brings clarity to software-based/software-defined storage markets[EB].http:∥www.idc.com/getdoc.jsp?containerId=prUS240687 13,2016.
[9]Nadkarni A,DuBois L,Sheppard E.IDCs worldwide software based(software-defined)storage taxonomy[EB].http:∥www.idc.com/getdoc.jsp containerId=240500,2013.
(本文責(zé)任編輯:郭沫含)