劉 倩
(安徽科技學(xué)院黨委(校長)辦公室 安徽滁州 233000)
數(shù)字檔案數(shù)量呈急劇增長態(tài)勢(shì),如何鑒定,管理和存儲(chǔ)這些海量的檔案數(shù)據(jù)是檔案學(xué)界的熱點(diǎn)問題。數(shù)字檔案館作為新型的檔案?jìng)}庫和窗口,既具備傳統(tǒng)檔案館的功能和性質(zhì),也承擔(dān)著在信息時(shí)代更大程度的發(fā)揮檔案價(jià)值的重任。然而,數(shù)字檔案因自身的脆弱性,與載體的不可分離性等特點(diǎn),保存期限較短,其長期安全保存較傳統(tǒng)紙質(zhì)檔案更加困難。數(shù)據(jù)遷移是數(shù)字檔案保存利用過程中常用的技術(shù)手段,是實(shí)現(xiàn)檔案在分級(jí)存儲(chǔ)設(shè)備中合理、高效調(diào)度的重要組成部分[1]。數(shù)字的檔案館存儲(chǔ)壓力隨著數(shù)據(jù)量的爆炸性增長越來越大,數(shù)據(jù)遷移技術(shù)的應(yīng)用能幫助實(shí)現(xiàn)存儲(chǔ)資源合理、經(jīng)濟(jì)、高效的分配,數(shù)據(jù)遷移在數(shù)字檔案的長期保存和方便利用中有不可忽視的作用?;诖?,探究數(shù)字時(shí)代下檔案管理數(shù)據(jù)遷移模式的規(guī)范化具有重要價(jià)值。
(一)數(shù)字檔案及數(shù)字檔案館。數(shù)字檔案是在計(jì)算機(jī)環(huán)境中生成的,具有保存和利用價(jià)值,并按照電子文件管理規(guī)定正式歸檔的電子文件。電子文件類型非常豐富,遠(yuǎn)超傳統(tǒng)觀念中的檔案。正如傳統(tǒng)檔案的主體是紙質(zhì)文件一般,數(shù)字檔案的主體是文本文件。隨著信息技術(shù)的發(fā)展,更加生動(dòng)、直觀和形象的圖像、音頻、視頻和多媒體文件也成為“社會(huì)記憶”必不可少的一部分。常見的電子文件包括文本文件,影像文件,聲音文件,多媒體文件,數(shù)據(jù)庫文件,超文本文件等等,其中部分文件可以打印出來,但有些文件只有在計(jì)算機(jī)環(huán)境中才有意義。電子文件不但類型豐富,同類型文件的格式也極具多樣化,譬如文本文件常用的有wps,doc,pdf等格式,圖像文件的常用格式有bmp,tiff,gif 等,影像文件的常用格式為avi,wma等常用格式,聲音文件也有mp3,mid,wav等格式。如此紛繁的文件格式,使得文件管理者在面對(duì)海量的信息的同時(shí),還要選擇轉(zhuǎn)化合適的文件格式。這不僅是數(shù)字檔案管理的一大威脅,也是數(shù)據(jù)遷移時(shí)要考慮的重要因素。
目前,數(shù)字檔案大多保存在數(shù)字檔案館中。通常來說數(shù)字檔案館至少會(huì)擁有檔案目錄數(shù)據(jù)庫和全文數(shù)據(jù)庫兩個(gè)大型數(shù)據(jù)庫。目錄數(shù)據(jù)庫存儲(chǔ)的不是檔案原文,而是在著錄和標(biāo)引的過程中產(chǎn)生的二次文獻(xiàn)。它有助于檢索功能的開發(fā),并具有一定的學(xué)術(shù)研究價(jià)值。全文數(shù)據(jù)庫存儲(chǔ)的是所有數(shù)字檔案的主體,包括傳統(tǒng)檔案資料數(shù)字化后形成的數(shù)字檔案,以及直接移交進(jìn)館的檔案數(shù)據(jù)。數(shù)字檔案館中幾乎全部的數(shù)字檔案都集中存儲(chǔ)在這兩個(gè)信息數(shù)據(jù)庫中。信息爆炸的今天,數(shù)字檔案的數(shù)量以極高的速度增長,數(shù)字檔案館的存儲(chǔ)容量也隨之不斷增加?,F(xiàn)在中國第一歷史檔案館和第二歷史檔案館的存儲(chǔ)數(shù)量早已達(dá)到上千TB,即便是中小型的檔案館,其數(shù)據(jù)存儲(chǔ)容量也已經(jīng)突破了TB級(jí)[2]。如何降低數(shù)字檔案的存儲(chǔ)成本和管理難度,以及后續(xù)對(duì)數(shù)字檔案資源進(jìn)行針對(duì)性的開發(fā)和利用是數(shù)字檔案館亟需解決的問題。數(shù)據(jù)遷移是數(shù)字檔案館海量信息資源的來源手段之一,也是數(shù)字檔案館合理分配存儲(chǔ)資源的重要方式。由此可見,檔案管理中數(shù)據(jù)遷移的規(guī)范化發(fā)展尤為重要。
(二)檔案管理內(nèi)數(shù)據(jù)遷移。自然界中,遷移是由原來的地點(diǎn)前往新的地點(diǎn)的行為和活動(dòng)過程。傳統(tǒng)的檔案遷移比較符合這種定義,遷移的方式相對(duì)單一,本質(zhì)上是檔案實(shí)體物理位置的變化。檔案數(shù)字化也是數(shù)據(jù)遷移的一種,從實(shí)體檔案到電子文件,檔案的內(nèi)容發(fā)生了復(fù)制和遷移,但數(shù)據(jù)遷移的重要性、多樣性和復(fù)雜性更多的還是體現(xiàn)在計(jì)算機(jī)環(huán)境中的電子文件上。電子文件的遷移是指將源系統(tǒng)中的電子文件向目標(biāo)系統(tǒng)進(jìn)行轉(zhuǎn)移存儲(chǔ)的方法與過程。隨著檔案管理現(xiàn)代化的步伐,檔案管理系統(tǒng)本身面臨著不斷的升級(jí),同時(shí)不同全宗、不同系統(tǒng)保存的文件的集中化存儲(chǔ)也是必然趨勢(shì)。這個(gè)過程可能是軟件的更新,系統(tǒng)的升級(jí),或者硬件的轉(zhuǎn)變,是一個(gè)從原來的計(jì)算機(jī)環(huán)境向目標(biāo)環(huán)境轉(zhuǎn)移的過程。利用數(shù)據(jù)遷移可以實(shí)現(xiàn)數(shù)字檔案的備份、利用、共享,從而達(dá)到長期保存和發(fā)揮檔案價(jià)值的目的。由于數(shù)字檔案的非人工識(shí)讀性,與載體不可分離性等自身特性,對(duì)遷移的技術(shù)和安全水平有較高的標(biāo)準(zhǔn)[3]。
(一)數(shù)據(jù)遷移執(zhí)行力度規(guī)范化。我國電子文件和數(shù)字檔案的管理缺乏全盤的戰(zhàn)略安排,在規(guī)范和標(biāo)準(zhǔn)滯后時(shí)又難以通過戰(zhàn)略指明方向,發(fā)布的標(biāo)準(zhǔn)主要集中在格式,術(shù)語,歸檔等方面,對(duì)數(shù)據(jù)遷移并沒有細(xì)致、深入的規(guī)定[4]。目前,我國的文件是分階段保存的,文件生產(chǎn)者和檔案管理者相互獨(dú)立,互不干涉。因此同類型的文件,生成者可以有多種可以選擇的格式,在歸檔時(shí)通常就要反復(fù)的壓縮和解壓縮將文件從原本的格式轉(zhuǎn)換為規(guī)范的格式。有時(shí)由于文件體積過大,為了節(jié)約存儲(chǔ)空間,在保管時(shí)進(jìn)行必要的壓縮,利用時(shí)則需要解壓縮,后果是數(shù)字檔案的格式、結(jié)構(gòu)甚至內(nèi)容有可能會(huì)在高頻率的格式轉(zhuǎn)換中受損。雖然文本文件可能沒有直觀的體現(xiàn),但是經(jīng)過轉(zhuǎn)換的數(shù)字檔案的真實(shí)性、完整性和可靠性都無法保證。對(duì)于音頻、視頻檔案,信息的損失很容易造成畫質(zhì)、音質(zhì)的下降。即使采用統(tǒng)一的格式也不能做到一勞永逸,如果選擇了專有格式,可能面臨技術(shù)陳舊,兼容性差,安全版權(quán)等方面的問題,甚至還會(huì)因?yàn)楣镜南鰧?dǎo)致文件的不可解讀從而丟失[3]。除此之外,技術(shù)過時(shí),后繼無力。比如根據(jù)十幾年前發(fā)表的規(guī)范,很多現(xiàn)已淘汰的載體、格式還列在其中,現(xiàn)在主流的最新的技術(shù)卻沒有納入規(guī)范。在實(shí)踐中,各級(jí)各地區(qū)檔案部門各自做主,既存在選擇的檔案格式不一的情況,也可能選擇的格式不適合歸檔。如現(xiàn)在很多的文本文件以doc格式歸檔保存,但規(guī)范標(biāo)準(zhǔn)下推薦的歸檔格式其實(shí)是pdf格式。這對(duì)將來數(shù)字檔案規(guī)范化遷移時(shí)的實(shí)際執(zhí)行情況造成了障礙。
(二)數(shù)據(jù)遷移環(huán)節(jié)步驟規(guī)范化。與傳統(tǒng)檔案不同的是,數(shù)字檔案必須依托兼容的系統(tǒng)環(huán)境中才可以正常使用。所以軟件環(huán)境,系統(tǒng)環(huán)境的改變都可能影響數(shù)字檔案的狀態(tài)。系統(tǒng)的升級(jí)包括檔案管理系統(tǒng)的升級(jí),軟件系統(tǒng)的更新升級(jí)、操作系統(tǒng)平臺(tái)的升級(jí)等許多方面[5]。相對(duì)來說檔案管理系統(tǒng)升級(jí)的周期較短,風(fēng)險(xiǎn)更大。操作系統(tǒng)更新發(fā)生的頻率低,環(huán)境相對(duì)穩(wěn)定,對(duì)檔案的影響較小。系統(tǒng)升級(jí)時(shí),檔案數(shù)據(jù)遷移一般有三種方法:首先,系統(tǒng)切換前通過工具遷移。即在系統(tǒng)切換前利用工具將源系統(tǒng)中的檔案數(shù)據(jù)提取,轉(zhuǎn)換,然后加載到新的目標(biāo)系統(tǒng)中。因?yàn)槠浞奖憧旖?,是?shù)據(jù)遷移最常用的方法。其次,系統(tǒng)切換前手工錄入。手工錄入一方面會(huì)消耗大量的人力、物力和時(shí)間成本,另一方面人工操作較高的出錯(cuò)率導(dǎo)致遷移過程的數(shù)據(jù)損失。最后,切換后由新系統(tǒng)生成。這種方法需要提前遷移所需的數(shù)據(jù)到新系統(tǒng)中,通過系統(tǒng)自帶的功能和程序生成主要的檔案數(shù)據(jù)。每次檔案管理系統(tǒng)的升級(jí),要對(duì)遷移數(shù)據(jù)進(jìn)行大量格式上或存儲(chǔ)位置上的遷移,在此過程中面臨極大的成本上的風(fēng)險(xiǎn)和檔案完整性、可讀性的風(fēng)險(xiǎn)。目前,針對(duì)系統(tǒng)升級(jí)可能帶來的風(fēng)險(xiǎn),僅規(guī)范化了測(cè)試及備份步驟,對(duì)于數(shù)據(jù)遷移的具體環(huán)節(jié)步驟規(guī)范化較為模糊。
(三)數(shù)據(jù)遷移存儲(chǔ)載體。數(shù)字檔案不僅格式讓人眼花繚亂,存儲(chǔ)載體也一直更新?lián)Q代,多種多樣,從最初的軟盤到如今常見的u盤,光盤,磁盤以及綜合的磁盤陣列等等,功能各有千秋。但受使用壽命和技術(shù)壽命限制,檔案管理者不得不采取數(shù)據(jù)遷移的方式來實(shí)現(xiàn)數(shù)據(jù)的長期保存。在遷移過程中,如果載體遇到風(fēng)險(xiǎn),信息的安全性必然受到影響,所以必須慎重選擇合適的遷移載體。
表1 常見遷移載體性能
通過分析表格中幾種常用的遷移載體,就存儲(chǔ)容量而言,硬盤拔得頭籌,從保存期限和安全性的角度考慮,光盤、磁帶特別是縮微膠片都遠(yuǎn)勝于它。一般磁帶、光盤比較適合作為需要長期保存的,相對(duì)重要的檔案遷移和備份載體。目前光盤是相對(duì)主流的檔案存儲(chǔ)載體,但磁帶也有不可取代的優(yōu)點(diǎn),隨著技術(shù)的更新發(fā)展,重回市場(chǎng)也未可知。硬盤雖然具有數(shù)據(jù)量大,存取速度快等優(yōu)點(diǎn),但使用壽命較短,隨時(shí)可能失真,而且開放的修改權(quán)限不能保證文件的安全性,真實(shí)性和可靠性,適合作為大容量的檔案暫存設(shè)備??s微膠片是縮微版的檔案原件,適合作為珍貴檔案的備份,替代原件使用,起到保護(hù)和利用的作用。此外,云計(jì)算背后的云存儲(chǔ)開始走入人們的視線并得到了廣泛的運(yùn)用。云存儲(chǔ)作為新的存儲(chǔ)手段,有明顯的優(yōu)勢(shì)和劣勢(shì)。優(yōu)勢(shì)在于其海量的存儲(chǔ)空間,高效的存取效率,數(shù)據(jù)的高度共享性。但其劣勢(shì)也不容忽視,如果云存儲(chǔ)平臺(tái)的保密性,穩(wěn)定性,規(guī)范性不能得到保障,數(shù)字檔案的云存儲(chǔ)模式還任重道遠(yuǎn),但也是未來可能的方向,值得長期關(guān)注[6]。綜上,在數(shù)據(jù)遷移過程中,格式的轉(zhuǎn)換,系統(tǒng)的升級(jí)和載體的選擇都存在風(fēng)險(xiǎn)。為了保證檔案信息的安全,完整和利用,在制定遷移策略時(shí)需根據(jù)存儲(chǔ)系統(tǒng)規(guī)范化選擇存儲(chǔ)載體,分級(jí)存儲(chǔ)系統(tǒng)及存儲(chǔ)模式。
(一)規(guī)范數(shù)據(jù)遷移前提條件。首先,選擇檔案遷移的基本單位。在數(shù)字檔案遷移過程中,實(shí)際對(duì)象是全文數(shù)據(jù)庫中的電子文件[7]。如果每次遷移以文件為單位,容量太小,增加系統(tǒng)的負(fù)擔(dān)。如果容量過大,遷移策略也失去了意義,所以確定合適的遷移單位是遷移策略一大要點(diǎn)。由此,結(jié)合檔案本身的保存方式,和遷移觸發(fā)的兩個(gè)條件:訪問頻率和保存時(shí)間來確定基本單位。當(dāng)訪問頻率高低的變化觸發(fā)遷移時(shí),檔案全宗可以作為數(shù)據(jù)遷移的基本單位的,而時(shí)間上的定期遷移一般以年度文件夾為基本單位。其次,保證目標(biāo)系統(tǒng)有足夠的存儲(chǔ)空間。一般正常的遷移順序是由在線存儲(chǔ)轉(zhuǎn)變?yōu)榻€存儲(chǔ)甚至離線存儲(chǔ)。但次級(jí)存儲(chǔ)設(shè)備上的文件遷移到一級(jí)設(shè)備上的情況也會(huì)發(fā)生。因此,必須考慮在線存儲(chǔ)的磁盤空間,在能保證隨時(shí)遷入的新數(shù)據(jù)的存儲(chǔ)空間的前提下,可以將次級(jí)存儲(chǔ)設(shè)備的文件恢復(fù)在線存儲(chǔ)。如果在線存儲(chǔ)空間不足或者超過警告值,決不能從次級(jí)存儲(chǔ)遷入數(shù)據(jù),甚至需要酌情遷出在線文件來保證足夠的剩余空間[8]。最后,根據(jù)指定的保管期限和訪問頻率遷移數(shù)據(jù)下,系統(tǒng)大多數(shù)采用定期遷移的方式,好處是以固定的時(shí)間做標(biāo)準(zhǔn),定期執(zhí)行遷移工作能減少系統(tǒng)的負(fù)擔(dān);缺點(diǎn)是過于死板,不能夠及時(shí)根據(jù)訪問率的變化情況來做調(diào)整。因此,增加人為控制數(shù)據(jù)遷移的前提。在特殊情況下,如預(yù)見政策的變化會(huì)帶來某種檔案數(shù)據(jù)利用率的增加,可以提前直接將相關(guān)檔案由次級(jí)存儲(chǔ)遷移至在線存儲(chǔ)。
(二)規(guī)范數(shù)據(jù)遷移具體環(huán)節(jié)。數(shù)據(jù)遷移工作最主要的是實(shí)施階段,常用方法可分為一次遷移、分次遷移、先錄后遷和先遷后補(bǔ)。不同系統(tǒng)間的數(shù)據(jù)遷移在遷移方法上一般采用一次遷移,分次遷移和先遷后補(bǔ)。該模式下的每一次遷移工作理論上都需要經(jīng)過制定遷移計(jì)劃、準(zhǔn)備工作、風(fēng)險(xiǎn)分析、實(shí)施工作、校驗(yàn)工作等完整的流程。在制定遷移計(jì)劃時(shí),首先確定遷移對(duì)象的數(shù)量、種類、和優(yōu)先順序。內(nèi)容重要的優(yōu)先,載體受損的優(yōu)先,利用率高的優(yōu)先。做遷移準(zhǔn)備工作時(shí),成立檔案遷移小組,確定遷移時(shí)間、遷移方法和工具。在進(jìn)行風(fēng)險(xiǎn)分析時(shí),制定規(guī)避措施。對(duì)于可能的“內(nèi)容穩(wěn)定性風(fēng)險(xiǎn)、安全性風(fēng)險(xiǎn)、完整性風(fēng)險(xiǎn)、參考性風(fēng)險(xiǎn)、成本風(fēng)險(xiǎn)、功能風(fēng)險(xiǎn)、知識(shí)產(chǎn)權(quán)風(fēng)險(xiǎn)等”,要充分評(píng)測(cè),做好應(yīng)對(duì)[9]。在遷移實(shí)施工作時(shí),此階段應(yīng)該根據(jù)制定的方案有序進(jìn)行。為了保證檔案的安全性,首先應(yīng)該對(duì)源檔案數(shù)據(jù)的進(jìn)行異地備份,直到遷移后的電子檔案正常運(yùn)行一定期限后方可銷毀。過程中應(yīng)登記檔案遷移過程表,保存詳細(xì)的遷移記錄,以備以后參考。在進(jìn)行遷移校驗(yàn)工作時(shí),數(shù)據(jù)遷移完成后有必要對(duì)電子檔案內(nèi)容的完整性、可用性進(jìn)行校驗(yàn)測(cè)試,確保遷移工作質(zhì)量。
(三)規(guī)范分級(jí)存儲(chǔ)系統(tǒng)模式。面對(duì)數(shù)字檔案爆發(fā)性的增長態(tài)勢(shì),數(shù)字檔案館的存儲(chǔ)空間、擴(kuò)容能力甚至資金成本將難以應(yīng)付高速增長的數(shù)字檔案數(shù)量,屆時(shí)檔案的在線檢索利用效率也會(huì)隨之降低。根據(jù)信息生命周期理論,數(shù)據(jù)歸檔之后,對(duì)檔案用戶而言是新的數(shù)據(jù),會(huì)重新開始下一個(gè)生命周期循環(huán)[9]。在一個(gè)完整的周期中,信息的訪問頻率是變化的,所以數(shù)字檔案館可以采用分級(jí)存儲(chǔ),即通過分級(jí)存儲(chǔ)管理軟件實(shí)現(xiàn)存放在不同級(jí)別的存儲(chǔ)設(shè)備中數(shù)據(jù)的自動(dòng)遷移,達(dá)到存儲(chǔ)設(shè)備和訪問頻率的匹配,在盡可能不影響訪問性能的情況下,用更低的成本來存儲(chǔ)檔案[10]。在實(shí)踐上這也符合存儲(chǔ)的“二八原則”,即存儲(chǔ)的檔案中只有20%是常常被訪問的,80%的檔案出于無人問津的狀態(tài)。
存儲(chǔ)設(shè)備一般是按磁盤陣列—光盤庫—磁帶庫分布,存儲(chǔ)級(jí)別與載體相匹配的,根據(jù)分級(jí)存儲(chǔ)的分類要求,不同檔案按照利用需求、保密級(jí)別、檔案價(jià)值等要素可以分為三種不同的存儲(chǔ)模式,如表2所示。
表2 分級(jí)存儲(chǔ)的各級(jí)載體特點(diǎn)
首先,第一級(jí)以在線(On-line)存儲(chǔ)為主,采用傳輸效率高、性能好、價(jià)格昂貴的設(shè)備來實(shí)現(xiàn)存儲(chǔ)數(shù)據(jù)的任意讀取,滿足使用者對(duì)數(shù)據(jù)訪問的速度要求。其次,第二級(jí)為近線(Near-line)存儲(chǔ),近線存儲(chǔ)設(shè)備的價(jià)格比在線存儲(chǔ)低,相對(duì)數(shù)據(jù)訪問速度也慢一些,一般存儲(chǔ)的是那些需要定期訪問,但對(duì)頻率和響應(yīng)速度要求不高的數(shù)據(jù)。近線存儲(chǔ)的數(shù)據(jù)在總數(shù)據(jù)量中占很大的比重,所以足夠的容量最重要。最后,離線(Off-line)存儲(chǔ),可以類比為實(shí)體的文件管理中心,保存?zhèn)浞莸幕蚣磳N毀的數(shù)據(jù),在需要獲取離線數(shù)據(jù)時(shí)可以通過數(shù)據(jù)遷移技術(shù)回到在線存儲(chǔ)狀態(tài)。
檔案是人類在社會(huì)活動(dòng)中真實(shí)記錄和反映,是寶貴的社會(huì)財(cái)富,是意義深遠(yuǎn)的文化遺產(chǎn),需要得到充分的保存和利用。數(shù)字檔案是現(xiàn)今其中最?yuàn)Z目的一員,數(shù)字檔案館是檔案館的發(fā)展方向。數(shù)據(jù)遷移對(duì)檔案尤其是數(shù)字檔案的長期保存和有效利用具有重要作用,需要在模式上、技術(shù)上、規(guī)范上進(jìn)行挖掘和提升。檔案事業(yè)需要在國家的戰(zhàn)略布置和規(guī)范指導(dǎo)下,在全社會(huì)的合作中,用科學(xué)管理的思想,不斷迎接新的變化,成為重要的文化支柱,促進(jìn)社會(huì)的進(jìn)步與發(fā)展。