鄭慧梅
(三亞圖書(shū)館,海南 三亞 572000)
隨著數(shù)字信息資源的爆炸式增長(zhǎng),數(shù)字信息長(zhǎng)期安全保存已成為各國(guó)研究的焦點(diǎn)。早在20世紀(jì)90年代初,歐洲就開(kāi)始關(guān)注數(shù)字信息長(zhǎng)期存取問(wèn)題。我國(guó)于20世紀(jì)90年代末,相繼開(kāi)展了中國(guó)國(guó)家圖書(shū)館(以下簡(jiǎn)稱(chēng)國(guó)圖)的WICP(Web Information Collection and Preservation Project) 項(xiàng)目和 ODAN(On-line Database Navigation)項(xiàng)目以及中國(guó)Web信息博物館項(xiàng)目。由于我國(guó)開(kāi)展數(shù)字信息長(zhǎng)期保存研究起步比較晚,圖書(shū)情報(bào)界對(duì)數(shù)字信息長(zhǎng)期保存還缺乏深入研究?;诖?,本文在分析影響數(shù)字信息長(zhǎng)期保存的因素的基礎(chǔ)上,提出數(shù)字信息長(zhǎng)期保存的技術(shù)策略。
數(shù)字信息是指所有以數(shù)字形式把文字、圖像、聲音、動(dòng)畫(huà)等多種形式的信息存儲(chǔ)在光、磁等非紙介質(zhì)的載體中,通過(guò)網(wǎng)絡(luò)通信、計(jì)算機(jī)或終端再現(xiàn)出來(lái)的信息。與傳統(tǒng)印刷型信息相比,數(shù)字信息有以下特點(diǎn):(1)數(shù)字信息對(duì)設(shè)備的依賴(lài)性。計(jì)算機(jī)是數(shù)字信息產(chǎn)生的前提和基礎(chǔ),數(shù)字信息對(duì)計(jì)算機(jī)和相關(guān)設(shè)備具有絕對(duì)依賴(lài)性;(2)數(shù)字信息的不安全性。計(jì)算機(jī)病毒入侵、黑客攻擊等都對(duì)數(shù)字信息的安全性、完整性、真實(shí)性構(gòu)成威脅;(3)數(shù)字信息的不穩(wěn)定性。數(shù)字信息容易產(chǎn)生,同時(shí)也容易被修改或刪除;(4)載體易脆性。大部分?jǐn)?shù)字信息的存儲(chǔ)介質(zhì)不穩(wěn)定,如果沒(méi)有相應(yīng)的存儲(chǔ)環(huán)境和管理,可能迅速消失。數(shù)字信息的這些特點(diǎn),嚴(yán)重影響了數(shù)字信息的有效存取。長(zhǎng)期保護(hù)具有使用價(jià)值的數(shù)字信息是信息保護(hù)者義不容辭的責(zé)任。
關(guān)于數(shù)字信息長(zhǎng)期保存的概念,國(guó)內(nèi)外還沒(méi)有形成統(tǒng)一的認(rèn)識(shí)。畢強(qiáng)在《數(shù)字信息資源開(kāi)發(fā)與利用》(第二版)中指出,數(shù)字信息長(zhǎng)期保存是為了長(zhǎng)期維護(hù)數(shù)字信息的真實(shí)性、可靠性,免于意外損壞、存儲(chǔ)介質(zhì)退化,以及因?yàn)檐浻布^(guò)時(shí)造成的喪失,保證可預(yù)料的將來(lái)的人們的獲取。數(shù)字信息長(zhǎng)期保存的主要內(nèi)容:(1)保存數(shù)字比特流,即通過(guò)對(duì)數(shù)字存儲(chǔ)媒介的保護(hù)或轉(zhuǎn)移,確保存儲(chǔ)其中的物理數(shù)字?jǐn)?shù)據(jù)能被準(zhǔn)確完好地讀出;(2)保存數(shù)字格式與處理信息,即通過(guò)保存有關(guān)數(shù)字信息編碼、格式、標(biāo)記、結(jié)構(gòu)、壓縮、加密等方面的技術(shù)方法信息,確保能夠識(shí)別和解析數(shù)字信息內(nèi)容;(3)保存數(shù)字信息處理環(huán)境,如相關(guān)軟件甚至硬件系統(tǒng),確保能擁有相應(yīng)的技術(shù)工具來(lái)識(shí)別、利用數(shù)字信息;(4)保存數(shù)字信息的內(nèi)容校驗(yàn)、身份認(rèn)證、版本演變、知識(shí)產(chǎn)權(quán)管理機(jī)制,確保能可信賴(lài)、可靠和合法地鑒別使用被保存的數(shù)字信息;(5)保存數(shù)字信息的知識(shí)組織體系,保存數(shù)字信息的組織利用環(huán)境。
數(shù)字信息目前主要有兩大類(lèi):(1)傳統(tǒng)文獻(xiàn)的數(shù)字化復(fù)制;(2)以數(shù)字化形式直接生產(chǎn)的非傳統(tǒng)文獻(xiàn)。前者,其原件已被圖書(shū)館、檔案館等保存;后者,形成之初就是數(shù)字化文獻(xiàn),是尚未保存的文化遺產(chǎn)。因而,數(shù)字信息保存系統(tǒng)的保存對(duì)象主要指后者,即直接以數(shù)字化形式生產(chǎn)的信息資源。
存儲(chǔ)載體是存儲(chǔ)數(shù)字信息資源的實(shí)體或記錄信息的材料,數(shù)字信息長(zhǎng)期保存與其依附的存儲(chǔ)載體密切相關(guān)。目前,我們常用的數(shù)字信息存儲(chǔ)載體有軟盤(pán)、硬盤(pán)、磁帶、軟驅(qū)、服務(wù)器等。這些存儲(chǔ)載體不論如何完備,也只是延長(zhǎng)其使用期限,例如:光盤(pán)在使用時(shí)由于受數(shù)據(jù)記錄質(zhì)量、紅外線(xiàn)照射、盤(pán)面污損、外力損傷等因素影響,其物理壽命一般在5~200年之間;磁帶由于受保存地點(diǎn)的溫度、濕度、灰塵、使用不當(dāng)?shù)纫蛩氐挠绊?,其物理壽命一般?~30年之間;硬盤(pán)由于受到震動(dòng)、撞擊、電壓不穩(wěn)、病毒的侵入等因素的影響,其物理壽命一般在5~10年之間。
數(shù)字信息的長(zhǎng)期保存需要以技術(shù)發(fā)展為保障。電子產(chǎn)品更新?lián)Q代極快,硬件、軟件的技術(shù)淘汰使數(shù)字信息的長(zhǎng)期讀取充滿(mǎn)了未知數(shù)。圖書(shū)館在對(duì)一些文獻(xiàn)進(jìn)行數(shù)字化轉(zhuǎn)換時(shí),數(shù)字信息的內(nèi)容以數(shù)字編碼的形式存儲(chǔ)于各種介質(zhì)上,人們利用文件格式對(duì)數(shù)據(jù)和有關(guān)數(shù)據(jù)的信息進(jìn)行編碼,各種電子出版物其格式也不盡相同,且其不斷更新,這樣就給數(shù)字信息保存帶來(lái)了一定的困難。
數(shù)字信息在存儲(chǔ)、傳播的過(guò)程中,其諸多環(huán)節(jié)都涉及到了相應(yīng)的知識(shí)產(chǎn)權(quán)問(wèn)題。在多數(shù)情況下,圖書(shū)館根據(jù)《中華人民共和國(guó)著作權(quán)法》和《信息網(wǎng)絡(luò)傳播權(quán)保護(hù)條例》中的“合理使用”規(guī)定,對(duì)數(shù)字信息進(jìn)行合理使用,但目前有關(guān)法律對(duì)“合理使用”的范圍并沒(méi)有作出明確的界定,沒(méi)有法律條款的支持,數(shù)字信息在保存的過(guò)程中,很容易引起知識(shí)產(chǎn)權(quán)糾紛。所以,相關(guān)法律法規(guī)的完善,已經(jīng)呈現(xiàn)出迫在眉睫的態(tài)勢(shì)。
物質(zhì)第一性決定了數(shù)字信息保存必須要有充足的經(jīng)費(fèi)作后盾。數(shù)字信息的長(zhǎng)期保存是一個(gè)動(dòng)態(tài)、持續(xù)的過(guò)程,每一個(gè)環(huán)節(jié)都會(huì)涉及到保存的運(yùn)營(yíng)成本。保存數(shù)字信息所需要的成本支出類(lèi)型與保存?zhèn)鹘y(tǒng)紙質(zhì)信息所需成本支出類(lèi)型截然不同,數(shù)字信息長(zhǎng)期保存的維護(hù)費(fèi)用將比傳統(tǒng)文獻(xiàn)維護(hù)費(fèi)用高,而且數(shù)字資源的保存具有不確定性,難以精確計(jì)算,其保存成本具有不可預(yù)測(cè)性。缺少經(jīng)費(fèi)的支持,必然會(huì)影響到數(shù)字資源的長(zhǎng)期保存。
數(shù)字信息長(zhǎng)期保存體系涉及多個(gè)研究、合作和服務(wù)領(lǐng)域,保存政策的周期滯后性嚴(yán)重影響數(shù)字信息的長(zhǎng)期保存。如由于不健全或不完善的博客保存政策,一些有價(jià)值的博客信息將會(huì)永久性地遺失。過(guò)強(qiáng)的政策針對(duì)性從宏觀上會(huì)對(duì)數(shù)字信息保存的長(zhǎng)期發(fā)展產(chǎn)生一定的負(fù)面影響,在某種程度上會(huì)影響到保存機(jī)構(gòu)、版權(quán)所有者及用戶(hù)三方的利益以及保存機(jī)構(gòu)之間的長(zhǎng)期合作關(guān)系。數(shù)字信息長(zhǎng)期保存是對(duì)人類(lèi)提出的一個(gè)世界性的問(wèn)題,但目前尚缺乏國(guó)際性的保存政策對(duì)數(shù)字信息的長(zhǎng)期保存加以規(guī)范和約束。
目前,數(shù)字信息保存層次分為位流保存、數(shù)據(jù)內(nèi)容保存、完整的知識(shí)內(nèi)容保存、服務(wù)保存四個(gè)層次。位流保存即保存純粹的數(shù)據(jù),只存儲(chǔ)原始數(shù)字對(duì)象,維護(hù)原位流的完整性和可讀取性,不考慮數(shù)字對(duì)象的外觀和相關(guān)功能;數(shù)據(jù)內(nèi)容保存即保存數(shù)字對(duì)象的最基本內(nèi)容,如文檔類(lèi)文件的文件方式保存、圖像類(lèi)文件的光柵方式保存等;完整的知識(shí)內(nèi)容保存即在保存內(nèi)容數(shù)據(jù)的同時(shí)還保存“與內(nèi)容數(shù)據(jù)的保存和使用相關(guān)的元數(shù)據(jù)”;服務(wù)保存即保存數(shù)據(jù)的支撐運(yùn)行環(huán)境。
數(shù)據(jù)備份即是對(duì)重要的數(shù)據(jù)資料,如將文檔、數(shù)據(jù)庫(kù)、記錄等備份下來(lái),生成一個(gè)備份文件放在安全的存儲(chǔ)空間內(nèi)。當(dāng)重要的數(shù)據(jù)丟失、誤刪或被病毒破壞時(shí),將其上傳到一定的系統(tǒng)上提供服務(wù)。這種保存有時(shí)也被稱(chēng)為陰暗存儲(chǔ),如美國(guó)佛羅里達(dá)州的DAITSS數(shù)字保存系統(tǒng)和英國(guó)大不列顛圖書(shū)館的數(shù)字保存系統(tǒng)。比較流行的方式有多重備份、異地備份,通常用于位流保存。
仿真是生成一套軟件,用于模擬保存、訪(fǎng)問(wèn)數(shù)據(jù)的硬件或軟件,有時(shí)只是模擬硬件或軟件的一部分功能,預(yù)期重現(xiàn)數(shù)字對(duì)象的原始操作環(huán)境,其優(yōu)勢(shì)在于與操作平臺(tái)無(wú)關(guān)。當(dāng)訪(fǎng)問(wèn)數(shù)字信息唯一可行的方法是利用該數(shù)字信息生成時(shí)的早已過(guò)時(shí)的硬件與軟件平臺(tái)、操作系統(tǒng)以及程序時(shí),可以考慮使用仿真,即制作一個(gè)仿真器,但其費(fèi)用較為昂貴。仿真技術(shù)適合于超文本、多媒體等復(fù)雜的以及其所依賴(lài)的運(yùn)行條件無(wú)法在新、舊技術(shù)平臺(tái)之間進(jìn)行遷移的數(shù)字信息,仿真是延遲技術(shù)淘汰的方法之一。
遷移是較為廣泛使用的一種數(shù)字信息長(zhǎng)期保存的策略,遷移是定期地將數(shù)字信息從不穩(wěn)定的媒體轉(zhuǎn)換到穩(wěn)定的媒體上,從舊計(jì)算機(jī)的環(huán)境轉(zhuǎn)換到新計(jì)算機(jī)環(huán)境上;將數(shù)字信息從各種不同格式上遷移至易于管理的最簡(jiǎn)單且符合標(biāo)準(zhǔn)的格式上,保證數(shù)據(jù)可以被當(dāng)前的計(jì)算機(jī)系統(tǒng)讀取。當(dāng)數(shù)據(jù)格式過(guò)時(shí)或發(fā)生其他情況時(shí),利用遷移工具將原始的數(shù)字對(duì)象遷移到新的數(shù)據(jù)格式下,可保證數(shù)據(jù)在新的平臺(tái)環(huán)境下的可用性。然而傳統(tǒng)的遷移方法存在著一些不足,即如果在遷移的某一步驟存在錯(cuò)誤、遺漏或其他情況,就會(huì)影響以后的遷移,會(huì)產(chǎn)生不同程度的失真。按需遷移的方法,保存的原始字節(jié)流并不隨時(shí)間改變,只是改變了遷移原始格式的工具和方式。當(dāng)以前支持的格式過(guò)時(shí),只需在工具上添加新遷移工具,實(shí)現(xiàn)新的輸出模塊即可。
加利福尼亞數(shù)字圖書(shū)館(CDL)的John Kunze博士認(rèn)為:“……技術(shù)當(dāng)然是數(shù)字保存的一個(gè)部分,但是如果對(duì)技術(shù)的依賴(lài)性越大,數(shù)字保存的風(fēng)險(xiǎn)也就越大?!币虼耍岢隽肆硗庖环N數(shù)字保存的方法—風(fēng)干(Dessication)方法。風(fēng)干是指從復(fù)雜數(shù)字對(duì)象格式中提取有價(jià)值的內(nèi)容,保存簡(jiǎn)單的、低技術(shù)含量、機(jī)器易于還原和容易被人理解的數(shù)字對(duì)象格式的過(guò)程?;陲L(fēng)干的策略,就是在保存數(shù)字對(duì)象的原始版本外,還需要保存一個(gè)簡(jiǎn)單的、低技術(shù)含量的、經(jīng)過(guò)干燥處理的數(shù)據(jù)版本。如CDL對(duì)Web格式文檔數(shù)據(jù)的風(fēng)干處理時(shí),過(guò)濾掉所需保存的復(fù)雜數(shù)字對(duì)象的字體、圖像、色彩、讀音符號(hào)等,只保存最基本的文本數(shù)據(jù),整個(gè)處理過(guò)程是隨著對(duì)原始數(shù)字對(duì)象的保存而進(jìn)行的。
技術(shù)保存以數(shù)字對(duì)象的讀取、呈現(xiàn)、處理技術(shù)為主要保存對(duì)象,而不以數(shù)字對(duì)象為保存對(duì)象。由于某些數(shù)據(jù)無(wú)法脫離于原始的運(yùn)行環(huán)境,需將數(shù)據(jù)、產(chǎn)生數(shù)據(jù)的原始軟件、操作系統(tǒng)和硬件平臺(tái)一起保存下來(lái),才能為日后運(yùn)行此數(shù)據(jù)信息時(shí)提供運(yùn)行的支撐,所以才產(chǎn)生了技術(shù)保存。
數(shù)字信息長(zhǎng)期保存是一項(xiàng)復(fù)雜而又艱巨的工作,數(shù)字信息長(zhǎng)期保存的每一個(gè)過(guò)程都需要標(biāo)準(zhǔn)的支持。因此,我國(guó)應(yīng)盡快制定數(shù)字資源長(zhǎng)期保存的各種標(biāo)準(zhǔn),建立數(shù)字信息長(zhǎng)期保存技術(shù)體系。英國(guó)Cedars(CURL Exemplars in Digita1 Archives)的分布式數(shù)字檔案原型系統(tǒng)、歐洲NEDLIB(Network European Deposit Library)的電子出版物保存系統(tǒng)(DSEP)、加利福尼亞大學(xué)的數(shù)字保存?zhèn)}儲(chǔ) (Digital Preservation Repository)系統(tǒng)等有關(guān)數(shù)字信息保存系統(tǒng)的設(shè)計(jì)和實(shí)現(xiàn)思路,能夠?yàn)槲覈?guó)數(shù)字信息保存系統(tǒng)設(shè)計(jì)和實(shí)現(xiàn)提供參考。
[1]王暉.數(shù)字信息長(zhǎng)期保存的技術(shù)策略[J].情報(bào)探索,2008(10):111-114.
[2]畢強(qiáng).數(shù)字信息資源開(kāi)發(fā)與利用[M].2版.北京:科學(xué)出版社,2009.
[3]黃旭,畢強(qiáng).國(guó)內(nèi)外數(shù)字資源長(zhǎng)期保存研究現(xiàn)狀與進(jìn)展[J].圖書(shū)館學(xué)研究,2009(1):25-28.