陳偉斌 張慶順
隨著高校信息化校園和智慧校園建設(shè)的不斷推進(jìn),高校教學(xué)、科研、財務(wù)、基建以及公文管理系統(tǒng)中的數(shù)據(jù)飛速增長。同時,高校檔案館根據(jù)“存量檔案數(shù)字化,增量檔案電子化”的工作要求,將各類系統(tǒng)的業(yè)務(wù)數(shù)據(jù)納入學(xué)校歸檔范圍,加強對業(yè)務(wù)系統(tǒng)數(shù)據(jù)的集中管理,出現(xiàn)了高校數(shù)字檔案數(shù)據(jù)量急劇增加[1]。但是,數(shù)字檔案存在不穩(wěn)定、易更改和設(shè)備依賴性等特點,高校數(shù)字檔案在面臨自然災(zāi)害、硬件組件故障或老化、管理不善、軟件不兼容等不確定因素威脅的情況下,容易出現(xiàn)數(shù)據(jù)損壞、丟失或者無法讀取等問題。尤其是在“單套制”管理背景下,如果沒有妥善的應(yīng)對措施,會造成無法估量的損失。因此,高校檔案館亟須選擇合理的存儲備份技術(shù),對高校數(shù)字檔案進(jìn)行有效存儲和備份。
一、大數(shù)據(jù)環(huán)境下高校數(shù)字檔案備份的重要意義
大數(shù)據(jù)時代的一個顯著特征就是數(shù)據(jù)量大,大數(shù)據(jù)環(huán)境下高校數(shù)字檔案數(shù)據(jù)量巨大,而且格式類型多樣,給高校數(shù)字檔案安全存儲增加了許多風(fēng)險。高校數(shù)字檔案備份是指為了防止自然或人為因素出現(xiàn)系統(tǒng)故障,導(dǎo)致高校檔案數(shù)據(jù)的丟失,而事先將全部或部分檔案數(shù)據(jù),從應(yīng)用主機的存儲介質(zhì)上復(fù)制到其它存儲介質(zhì)的過程[2]。高校數(shù)字檔案數(shù)據(jù)出現(xiàn)問題時,利用備份數(shù)據(jù)可以恢復(fù)損壞或被刪除、篡改的高校數(shù)字檔案資源,保障高校數(shù)字檔案的完整和安全。
第一,可以保障高校檔案源頭數(shù)據(jù)安全。高校數(shù)字檔案數(shù)據(jù)通常存儲于高校檔案館的主機或者學(xué)校服務(wù)器中,由于主機在運行高校數(shù)字檔案數(shù)據(jù)時,容易暴露其存放路徑或者IP地址,從而遭到黑客的人為攻擊或者破壞。此外,隨著高校數(shù)字檔案數(shù)據(jù)的增加,主機系統(tǒng)或者服務(wù)器容易出現(xiàn)容量不足的問題,隨著運行時間的增長,不僅會使主機系統(tǒng)更容易老化,也會增加系統(tǒng)崩潰的風(fēng)險。高校數(shù)字檔案備份主要是在其他位置、其他介質(zhì)上保存高校數(shù)字檔案數(shù)據(jù),這些介質(zhì)與高校檔案館主機或者服務(wù)器既存在空間位置上的物理隔離,也存在網(wǎng)絡(luò)隔離。因此,對高校數(shù)字檔案進(jìn)行數(shù)據(jù)備份,可以更好地保障高校數(shù)字檔案源頭數(shù)據(jù)的安全和完整。
第二,可以實現(xiàn)高校檔案數(shù)據(jù)的災(zāi)難恢復(fù)。由于許多自然或人為災(zāi)害是無法預(yù)見甚至無法防范的,這些形式的災(zāi)害一旦發(fā)生,極有可能對檔案資料或數(shù)據(jù)造成毀滅性的打擊,從而直接影響高校檔案館對高校檔案數(shù)據(jù)的正常管理與服務(wù)工作。對高校數(shù)字檔案數(shù)據(jù)進(jìn)行備份后,一旦高校檔案館的正常工作因自然或人為災(zāi)害無法繼續(xù),備份數(shù)據(jù)可以及時啟用,對丟失或損壞數(shù)據(jù)進(jìn)行數(shù)據(jù)災(zāi)難恢復(fù)和全面更新,確保高校數(shù)字檔案數(shù)據(jù)在較短時間內(nèi)恢復(fù),保障高校檔案館正常的管理與服務(wù)工作。
第三,可以促進(jìn)高校數(shù)字檔案的安全共享。高校數(shù)字檔案共享需要最大限度、最多渠道和最便捷地提供高校數(shù)字檔案給教職員工、學(xué)生和各界人士共享利用。數(shù)字檔案的共享利用,尤其是在網(wǎng)絡(luò)開放環(huán)境下開展的共享利用,會給高校數(shù)字檔案數(shù)據(jù)帶來更多的安全隱患。對高校數(shù)字檔案進(jìn)行有效的備份,可以更好地應(yīng)對高校數(shù)字檔案共享過程中可能出現(xiàn)的人為破壞、系統(tǒng)崩潰問題,也可以及時恢復(fù)損壞或被篡改的高校數(shù)字檔案數(shù)據(jù),妥善應(yīng)對數(shù)字檔案共享中可能出現(xiàn)的高校檔案數(shù)據(jù)安全隱患,從而促進(jìn)高校數(shù)字檔案的全方位和多途徑共享。
二、傳統(tǒng)高校數(shù)字檔案備份存在的問題
大數(shù)據(jù)環(huán)境下高校數(shù)字檔案安全面臨更大的挑戰(zhàn),雖然高校檔案館都在不同程度上開展了數(shù)字檔案數(shù)據(jù)的存儲和備份工作,目前主要采用的備份方式是異地備份和異質(zhì)備份,這樣可以起到保護(hù)高校數(shù)字檔案資源的作用,但還存在著一些尚待解決的問題。
第一,備份時間整體偏長。傳統(tǒng)高校數(shù)字檔案資源的備份方式多為離線備份,這種備份方式要求在備份時檔案部門不能進(jìn)行相關(guān)的檔案管理工作,數(shù)據(jù)庫中的文件數(shù)目的變化有可能影響到備份工作的順利進(jìn)行。同時,在大數(shù)據(jù)環(huán)境下,檔案部門需要處理大量的文件,離線備份就需要花費更長的時間,難以實現(xiàn)對相關(guān)文件的及時保護(hù)。
第二,存儲介質(zhì)存在固有的缺陷。首先,大部分的存儲介質(zhì)擴展性較差,而且使用壽命會因自身材質(zhì)老化、存儲環(huán)境不適宜等因素而縮短,導(dǎo)致了備份介質(zhì)不斷更新,備份成本比較高,無論是介質(zhì)本身還是讀取介質(zhì)的設(shè)備,甚至是存放介質(zhì)的保存環(huán)境,都需要額外的資金投入。
第三,存儲格式的可讀性難以持續(xù)。高校數(shù)字檔案存儲時采用的格式多種多樣,而且隨著新興技術(shù)的發(fā)展,許多存儲格式或者運行環(huán)境都在不斷更新,造成很多舊的存儲格式難以被新設(shè)備讀取,甚至由于讀取或識別舊格式文件的設(shè)備、軟件以及運行環(huán)境的升級,造成存儲時間較久的檔案數(shù)據(jù)文件無法讀取或者沒有設(shè)備可以讀取。
第四,備份數(shù)據(jù)恢復(fù)過程較慢。高校數(shù)字檔案數(shù)據(jù)備份恢復(fù)時,需要較長的時間。主要是由于:在進(jìn)行備份時,若采用多次的完全備份,會造成存儲備份數(shù)據(jù)庫中存在大量的冗余數(shù)據(jù),龐大的數(shù)據(jù)量會影響數(shù)據(jù)恢復(fù)的速度;當(dāng)遇到災(zāi)難性破壞時,數(shù)據(jù)恢復(fù)并非單純的恢復(fù)高校數(shù)字檔案數(shù)據(jù),還要對相應(yīng)的操作系統(tǒng)、軟件進(jìn)行恢復(fù),這些工具的配置過程也會影響數(shù)據(jù)恢復(fù)的進(jìn)程和速度。
三、大數(shù)據(jù)環(huán)境下高校數(shù)字檔案備份技術(shù)與策略
在復(fù)雜的大數(shù)據(jù)網(wǎng)絡(luò)環(huán)境下,需要建立科學(xué)合理、可行高效的數(shù)字檔案資源的備份方案。其中,備份策略和備份技術(shù)是備份方案的核心,它決定了高校數(shù)字檔案數(shù)據(jù)以何種形式進(jìn)行備份,才能產(chǎn)生良好的備份效果。
(一)增量方式的實時備份技術(shù)
增量方式的實時備份技術(shù),主要通過文件監(jiān)控機制,實現(xiàn)對高校數(shù)字檔案數(shù)據(jù)庫中的文件目錄或文件的實時監(jiān)控,當(dāng)數(shù)據(jù)庫中出現(xiàn)新增的數(shù)字檔案文件時,這種文件監(jiān)控機制會發(fā)生響應(yīng),并調(diào)用目前比較流行的用于數(shù)據(jù)增量備份的算法——Rsync算法,通過這種算法可以精準(zhǔn)的識別出數(shù)字檔案數(shù)據(jù)庫中新增的數(shù)字檔案文件,從而達(dá)到增量備份數(shù)字檔案的目的[3]。
Rsync算法通過強和弱兩種校驗碼,確定文件的唯一性,具體的實現(xiàn)形式如下:首先,在文件監(jiān)控機制的調(diào)動下,由存儲高校數(shù)字檔案備份數(shù)據(jù)的服務(wù)器發(fā)出備份請求,對數(shù)據(jù)庫中存儲的所有文件數(shù)據(jù),按固定大小進(jìn)行分塊劃分,并計算每一個劃分好的數(shù)據(jù)塊的弱校驗碼和強校驗碼(弱校驗碼的計算速度快但存在誤差,強校驗碼的計算慢但可靠性強),全部完成后將每個數(shù)據(jù)塊的校驗碼以成對的形式,發(fā)送給存儲有源數(shù)據(jù)的服務(wù)器。存儲有源數(shù)據(jù)的服務(wù)器接收到成對的強、弱校驗碼序列后,對其構(gòu)建哈希表以便于查找、匹配;同時,對高校數(shù)字檔案的源數(shù)據(jù),按照同樣的固定大小進(jìn)行分塊和計算強、弱校驗碼,然后利用校驗碼驗證是否有相同的數(shù)據(jù)塊存在,從而篩選出備份數(shù)據(jù)庫中不存在的數(shù)據(jù)塊,將其傳輸給備份服務(wù)器,備份服務(wù)器根據(jù)傳輸來的數(shù)據(jù)塊及其相關(guān)信息,將其重構(gòu)為高校數(shù)字檔案文件。
高校數(shù)字檔案采用增量方式的實時備份技術(shù),無需將源數(shù)據(jù)庫中的高校數(shù)字檔案文件完全傳輸給備份的數(shù)據(jù)庫,只需要傳輸新增的高校數(shù)字檔案文件,這樣可以有效彌補離線備份方式在突發(fā)情況下不能及時對處理好的數(shù)據(jù)進(jìn)行備份的缺陷,而且實時備份形式可以節(jié)省每隔一段時期進(jìn)行備份時所需要花費的時間,達(dá)到更加快速備份的目的。
(二)基于快照的數(shù)據(jù)備份技術(shù)
快照是指一個對某個給定的數(shù)據(jù)集合完全有效的可用拷貝,這個拷貝的內(nèi)容主要是該數(shù)據(jù)集合的相應(yīng)數(shù)據(jù)在某個時間點——通常是指拷貝開始的時間的映像[4]。快照技術(shù)整體上可以分為兩大類,一種是鏡像快照技術(shù),可以對某特定時刻的高校數(shù)字檔案數(shù)據(jù)進(jìn)行完整的復(fù)制;另一種是連續(xù)數(shù)據(jù)保護(hù)快照,可以跟蹤目標(biāo)數(shù)據(jù)庫的任何操作,從而實現(xiàn)數(shù)據(jù)的實時快照備份。由于高校數(shù)字檔案是一種對實時性要求不太高的數(shù)據(jù),而且連續(xù)性的快照進(jìn)行數(shù)據(jù)恢復(fù)時需要的時間較長,相比較之下,鏡像快照更適用于高校數(shù)字檔案數(shù)據(jù)的備份。鏡像快照技術(shù)生成的快照數(shù)據(jù)占用的存儲空間較小,而且其生成的區(qū)塊型快照會對備份數(shù)據(jù)進(jìn)行整理和建立索引,可以提高數(shù)據(jù)的存儲效率和檢索效率,從而可以實現(xiàn)檔案數(shù)據(jù)的高效備份和快速恢復(fù)。但是,高校數(shù)字檔案數(shù)據(jù)進(jìn)行鏡像快照備份,應(yīng)當(dāng)在檔案管理人員對高校數(shù)字檔案文件執(zhí)行完一系列的管理操作,進(jìn)行最后的保存時生成快照,并將其臨時存儲到備份緩存中,等到存儲服務(wù)器和備份服務(wù)器的鏈接同步,再將高校數(shù)字檔案的快照文件通過備份服務(wù)器上傳到存儲備份數(shù)據(jù)的空間中。
在數(shù)據(jù)恢復(fù)方面,鏡像快照技術(shù)的數(shù)據(jù)恢復(fù)是基于完整鏡像與多個增量鏡像來實現(xiàn),鏡像的檢索時間從很大程度上決定了數(shù)據(jù)的恢復(fù)時間,高效的快照索引,可以降低鏡像查詢的復(fù)雜程度、縮短數(shù)據(jù)恢復(fù)時間??煺帐前凑諘r間順序存儲的,同時提供索引信息,在進(jìn)行恢復(fù)時可以根據(jù)索引信息訪問快照區(qū)塊,并按照順序讀取,可以極大提高數(shù)據(jù)恢復(fù)的效率。同時,由于數(shù)據(jù)鏡像快照是只讀不可寫的,如果要對備份數(shù)據(jù)進(jìn)行讀取之外的操作,可以應(yīng)用專門針對快照進(jìn)行恢復(fù)的數(shù)據(jù)卷克隆技術(shù),快照克隆出一份與其對應(yīng)的數(shù)據(jù)集數(shù)據(jù)內(nèi)容相同的、既可讀又可寫的數(shù)據(jù)卷,從而達(dá)到恢復(fù)數(shù)據(jù)并使數(shù)據(jù)可用的目的[5]。
(三)基于IPSAN的數(shù)據(jù)備份技術(shù)
SAN是指存儲區(qū)域網(wǎng)絡(luò),其主流形式是基于光纖搭建的,而IPSAN則是基于IP的存儲區(qū)域網(wǎng)絡(luò),它通過IP網(wǎng)絡(luò)實現(xiàn)存儲系統(tǒng)和服務(wù)器之間的相互連接,無需其他硬件設(shè)備,這里的存儲設(shè)備通常由磁盤陣列構(gòu)成,而且一般存儲于遠(yuǎn)離檔案工作部門的區(qū)域。IP網(wǎng)絡(luò)主要有兩種形式,各有優(yōu)劣,專用IP網(wǎng)絡(luò)方式不占用傳統(tǒng)IP網(wǎng)絡(luò)帶寬,但成本高;共享IP網(wǎng)絡(luò)方式成本低但會占用帶寬[6]。IPSAN使用網(wǎng)絡(luò)協(xié)議進(jìn)行數(shù)據(jù)傳輸,當(dāng)需要傳輸?shù)臄?shù)據(jù)量較大時,網(wǎng)絡(luò)的帶寬會影響到數(shù)據(jù)的傳輸速度。所以,在建設(shè)相應(yīng)的IPSAN時,檔案部門可以根據(jù)自身需要選擇相應(yīng)的IP網(wǎng)絡(luò)形式。
利用IPSAN實現(xiàn)高校數(shù)字檔案的備份,就是利用存儲設(shè)備給存儲高校數(shù)字檔案的服務(wù)器和備用服務(wù)器各自劃分一個專用的、獨立的備份空間,而待備份的高校數(shù)字檔案則通過檔案部門所用的數(shù)據(jù)庫、應(yīng)用系統(tǒng)所附帶的備份功能或備份腳本,存儲到相應(yīng)的備份空間內(nèi),該備份空間可以直接實現(xiàn)數(shù)據(jù)的恢復(fù)。當(dāng)目前使用的服務(wù)器受到網(wǎng)絡(luò)攻擊、外力破壞或因自身故障導(dǎo)致無法支持檔案管理和利用工作時,可將存儲有備份高校數(shù)字檔案數(shù)據(jù)的備份空間,分配給狀態(tài)良好的備用服務(wù)器,在該服務(wù)器上讀取備份的檔案數(shù)據(jù),從而快速實現(xiàn)檔案管理和服務(wù)等工作的異機或異地恢復(fù)。這種恢復(fù)方式可以使檔案部門在遭遇破壞性災(zāi)難時,繼續(xù)開展高校數(shù)字檔案共享服務(wù)。IPSAN相較于基于光纖的搭建形式,節(jié)省了布置硬件設(shè)施所需的成本,同時也解決了光纖等硬件設(shè)備在傳輸距離方面的限制,而且互聯(lián)網(wǎng)協(xié)議技術(shù)在后續(xù)的整理和維護(hù)方面也更具有優(yōu)勢。雖然IPSAN在數(shù)據(jù)傳輸過程中的風(fēng)險較高,但結(jié)合數(shù)字加密、數(shù)字簽名等相應(yīng)的數(shù)據(jù)安全技術(shù),可以保證高校數(shù)字檔案數(shù)據(jù)在備份過程中的安全。