柯燕紅(福建師范大學協(xié)和學院圖書館)
隨著信息技術(shù)和網(wǎng)絡技術(shù)的飛速發(fā)展,數(shù)字信息以驚人的速度增長著,然而數(shù)字信息卻比歷史上任何一個時期的文獻信息更加脆弱。West World 公司的報告指出,每500 個數(shù)據(jù)中心每年至少有一個要經(jīng)歷一次災難,每個網(wǎng)頁存活的時間不超過40 天。另一方面,由于數(shù)字信息技術(shù)大約每18 個月就更新一次,格式、軟件間的更新?lián)Q代使原有的數(shù)字信息再也無法存取。例如,從1995 到1999年在IEEE Computer和Communictions of the ACM 中被引用的文獻在2000年時就有28%不可再獲得,到2002年增加到41%。人們對數(shù)字信息的管理特別是數(shù)字信息的長期保存再也不能無視,國外很早就對這一問題進行了研究,并己取得一些成果。
然而數(shù)字信息保存在國內(nèi)的形勢相當嚴峻,根據(jù)中國互聯(lián)網(wǎng)絡信息中心(CNNIC)發(fā)布的調(diào)查數(shù)據(jù),因特網(wǎng)上的中文信息狀況為(截止2005年12月31日):全國域名數(shù)259.2萬個,網(wǎng)站數(shù)量69.4 萬個,網(wǎng)頁總量24 億頁,在線數(shù)據(jù)庫總量29.5 萬個。面對如此龐大的數(shù)字信息,目前在國內(nèi)沒有一個可靠的保存機構(gòu)保證這些信息的長期可存取,一旦信息丟失,我們的文化遺產(chǎn)很可能就付之東流。而美國Internet Archive 卻搜集和保存了我國官方網(wǎng)站的大量信息,甚至包含我們自己現(xiàn)在再也無法找到和再現(xiàn)的信息。我們無法回避數(shù)字信息保存的問題。
原國家檔案局科研所所長徐義全說:“電子檔案存儲載體的壽命一般都超過了讀寫它的計算機軟硬件技術(shù)生命周期,使得載體壽命相對于計算機軟硬件技術(shù)過時而言,顯得并不十分重要?!狈从沉嗽跀?shù)字技術(shù)日新月異的時代下,數(shù)字資源能否長期保存,問題已經(jīng)不在于存儲介質(zhì)的壽命長短,而在如何保證數(shù)字信息的長期可存取。所以數(shù)字信息長期保存在技術(shù)上面臨的是新舊文件格式、新舊計算機系統(tǒng)之間能否相容的難關(guān),專家們紛紛轉(zhuǎn)向研究制定適合數(shù)字信息長期保存的技術(shù)策略。
目前國際上數(shù)字信息長期保存的技術(shù)方法主要有:更新,仿真,遷移。表面上似乎每一種方法都可行,但實際上卻都存在隱患。更新是每隔幾年就將信息就轉(zhuǎn)移到新的存儲介質(zhì)上,防止存儲介質(zhì)的不可用,保證數(shù)據(jù)內(nèi)容的存在性。但是數(shù)據(jù)格式、格式間的協(xié)議以及計算機軟硬件的快速發(fā)展將使這些信息不久便無法存取,信息將變得毫無用處。在這樣的限制下更新變得毫無用處。于是遷移與仿真技術(shù)成為維護數(shù)字信息的長期可讀性的重要技術(shù),但兩者也都同樣面臨困境。所謂仿真,就是模擬舊的計算機軟硬件、舊的文件格式,使信息能夠在原環(huán)境下原貌讀出。雖然在仿真環(huán)境下,數(shù)字信息的外觀及行為特性保存了原有的基本特征。但是仿真的所有環(huán)境都是在新的環(huán)境下開發(fā)出來的,數(shù)據(jù)不可避免地也會丟失一些原有的特征。而數(shù)據(jù)遷移技術(shù)的原則是數(shù)據(jù)的格式和結(jié)構(gòu)可以改變,但是內(nèi)容蘊含的語義不變。簡單說來,就是將數(shù)據(jù)從舊的格式遷移到新的格式,從舊的計算機系統(tǒng)遷移到新的計算機系統(tǒng)。這樣既可以保證存儲介質(zhì)的更新,也可以保證信息可存取。遷移于是成為最具生命力的是信息保存技術(shù),但是數(shù)據(jù)遷移卻需要大量的財力支持。種種難題使信息保存部門面臨來自技術(shù)方面的沉重壓力。
數(shù)字信息的新特點同樣也使圖書館等保存機構(gòu)在管理上面臨難關(guān),體現(xiàn)在以下三個方面。
2.2.1 保存機構(gòu)往往無法擁有相應的信息資源
在傳統(tǒng)的文獻采集中,文獻部門購買多少就擁有多少,不用考慮獲取與擁有的關(guān)系。只要文獻部門購買了相當?shù)奈墨I資料就擁有一定數(shù)量的文獻資源,圖書館輕易就有了保存的前題和基礎。信息產(chǎn)品則不同,網(wǎng)絡環(huán)境下信息的傳播幾乎不用任何成本,人們可以任意地發(fā)布和利用信息,這對以出售信息產(chǎn)品來獲得經(jīng)濟利益的提供商來說是絕對不允許的。因而大多數(shù)信息提供者為了防止信息的無序傳播,保護他們的經(jīng)濟利益,并不會出售信息的所有權(quán),而僅僅是采用許可協(xié)議的方法出售信息在購買期間的可讀權(quán)限。在購買期內(nèi),用戶擁有搜索利用相應信息資源的權(quán)限,一旦購買期限到了,人們連舊有的電子信息的利用都不可能,更不用談電子信息的長期保存了。在國內(nèi)圖書館建立的數(shù)據(jù)庫中,人們對電子資源的利用也幾乎通過商業(yè)提供商提供的數(shù)據(jù)庫,如維普、CNKI 等。擁有權(quán)掌握在提供商手中,面對信息資源長期保存的使命,保存機構(gòu)只能是有心無力。
雖然許多提供者為了將來信息能夠再次出售,對他們的核心數(shù)字信息也進行了保存,牛津大學出版社、Reed Elsevier、美國地球物理學協(xié)會和美國物理協(xié)會等都采取了這種做法。但是這種保存行為的目的不在于保存人類的知識文明,而是維護他們的經(jīng)濟利益,因此在保存過程中提供者會將電子出版物與訪問密碼綁定,將保存過程復雜化,甚至一旦發(fā)現(xiàn)一些數(shù)字信息不再有利于他們的銷售,還會將具有保存價值的數(shù)字信息清除,無數(shù)的數(shù)字信息將白白流失。如何解決保存機構(gòu)擁有信息資源的難題亟待解決。
2.2.2 保存機構(gòu)進行保存活動沒有法律保障
數(shù)字信息的保存容易侵害相關(guān)作者的版權(quán),引起不必要的法律糾紛,但是到目前為止國內(nèi)仍然沒有強有力的制度保證數(shù)字信息長期保存的合法性。雖然我國制定了完整的繳存本制度,但這僅僅局限于傳統(tǒng)文獻,并未把數(shù)字資源納入其繳存的范圍。國際上一些國家早已意識到保存數(shù)字信息的重要性,并對繳送法做了相應的修改。如丹麥的繳送法在1997年6月己修改規(guī)定靜態(tài)的網(wǎng)絡信息資源需向國家圖書館繳送。該國目前還在修改現(xiàn)行繳送制度和著作權(quán)法,試圖保障動態(tài)信息的自動收集。芬蘭國家圖書館也于2002年開始接受繳送的網(wǎng)絡信息資源。而國內(nèi)至今還缺乏有力的法制保障,圖書館等各個保存機構(gòu)開展長期保存工作舉步維艱。
2.2.3 信息創(chuàng)作者對信息保存的重要作用未得到發(fā)揮
對紙質(zhì)材料等傳統(tǒng)的信息資源來說,創(chuàng)作者和管理者的職責是明確的。創(chuàng)作者只要創(chuàng)作了傳統(tǒng)的信息資源,并不參與信息產(chǎn)品生命周期的其他環(huán)節(jié),資源的保存不在創(chuàng)作者的考慮范圍之內(nèi)。而信息資源管理機構(gòu)(如圖書館、檔案館和博物館等)作為信息資源的管理者,盡管并不產(chǎn)生作品,卻對他人產(chǎn)生的具有保存價值的信息產(chǎn)品負有長期保存的責任。但是在數(shù)字和網(wǎng)絡環(huán)境下,數(shù)字信息的創(chuàng)作不再與保存活動相脫節(jié)。在信息產(chǎn)生時創(chuàng)作者直接決定數(shù)據(jù)的形成,有權(quán)決定數(shù)字信息采用何種格式,何種讀取軟件。而文件格式、讀取軟件的采用直接決定今后數(shù)字信息讀取壽命的長短。信息創(chuàng)作者除了原來扮演的角色外,更重要的責任在于能否保持資源的長期可存取,但是現(xiàn)階段國內(nèi)不同創(chuàng)作者、不同創(chuàng)作機構(gòu)采用的軟件往往互不相同,比如單單是文字編輯軟件的使用就多達十幾種,如WPS、MS Word、Ultraedit、EditPlus 等,這種情況無疑大大增加了保存工作的難度。
首先,由于數(shù)字信息保存的關(guān)鍵在于保證它的可存取性,因此如果數(shù)字信息的保存從信息生成之初抓起,積極地與信息生產(chǎn)者進行對話,使生產(chǎn)者最大限度地按標準或協(xié)調(diào)而成的統(tǒng)一軟件生產(chǎn)數(shù)字信息,延長相應數(shù)字格式使用的壽命,就可以大大地緩解圖書館等信息保存部門的壓力,為更新技術(shù)的應用提供了極為有利的條件。第二,在更新,仿真,遷移等保存技術(shù)的選擇上,圖書館、檔案館等保存部門應根據(jù)需求者利用信息的程度制定一套相應的信息分級制。對級別較低的數(shù)字信息采用更新技術(shù),幾年以后信息過時了就可將該信息剔除;對級別居中者,采取仿真技術(shù),保證信息的基本原貌,在保證信息可利用的前提下長久地保存信息;對特別珍貴的信息資源則采取遷移技術(shù),力求完整真實地保證信息的原貌。在遷移問題上,圖書館、檔案館等保存部門還必須與IT 界保持溝通,了解技術(shù)發(fā)展現(xiàn)狀,確定信息遷移的最佳時間。第三,各個信息保存機構(gòu)之間可通過采用統(tǒng)一的標準,如統(tǒng)一的元數(shù)據(jù)、存儲標準等,促進保存系統(tǒng)數(shù)據(jù)間的共享,使各個機構(gòu)之間合理分擔相應的保存工作,降低保存的難度,避免信息保存工作的重復勞動。
有研究者撰文指出:長期保存需要有固定和長期收入(資助)的機構(gòu)來承擔保存的任務,因此有的學者提出應該由那些能夠“維持幾百年以上的專門的長期保存機構(gòu),比如圖書館、檔案館”進行保存。IFLA/IPA 的聯(lián)合聲明也指出,“出版者應該擔負短期保存的責任,長期保存的責任由圖書館承擔”。我們不能寄希望于商業(yè)機構(gòu)的保存活動,而應該盡快加強與提供商之間的溝通與合作。圖書館應該向提供商表達愿意收藏已無銷售價值卻仍需保存的信息的愿望,同時希望他們對正在或?qū)⒁N售的電子出版物采取安全的保存策略,兩者甚至可以共同探討信息長期保存的解決方案。同時出版者與圖書館也可以對提供商的短期保存提供合理的建議,就保存元數(shù)據(jù)的制定進行協(xié)商,使用共同的元數(shù)據(jù),以便在長期保存中節(jié)省保存的成本。
聯(lián)合國教科文組織2003年8月19日發(fā)表的《保存數(shù)字化遺產(chǎn)憲章草案》第8 條提出,為了保護數(shù)字化遺產(chǎn),各會員國須有必要的法律框架,僅依靠市場力量是不行的,同時建議會員國制定的國家遺產(chǎn)保存政策應該保證圖書館等公共文獻保存機構(gòu)可以在繳送制或其他法律強制作用下獲得數(shù)字化遺產(chǎn)。該草案堅定了我們向法律求助的信心,因此信息保存機構(gòu),包括各類圖書館、檔案館,甚至各種各樣可能從數(shù)字信息遺產(chǎn)獲益的組織應該聯(lián)合起來,呼吁國家修改圖書館法,繳存法等相關(guān)法律,將數(shù)字信息納入文獻繳存的范圍。同時修改著作權(quán)法的相關(guān)規(guī)定,在保證相關(guān)作者版權(quán)的同時可以保證相應資源的保存。
數(shù)字信息的標準包括文件格式標準與管理標準。文件格式統(tǒng)一規(guī)范,信息長期可存取不再困難;管理的規(guī)范使不同技術(shù)平臺之間的相容險增大,信息容易共享,保存工作不再繁重。我國對文件格式的統(tǒng)一應該通過宣傳和強制手段促進各機構(gòu)逐步利用標準規(guī)范,充分發(fā)揮信息創(chuàng)作者的重要作用。在管理標準上,1999年美國空間數(shù)據(jù)系統(tǒng)咨詢委員會(CCSDS)提出了OAIS(開放檔案信息參考模型),作為一種有關(guān)長期保存和利用數(shù)字資源的參考模型和框架出現(xiàn),并提交ISO。經(jīng)過3年討論修改,OAIS 于2002 正式成為ISO 標準—ISO14721:2003。OAIS 參考模型定義了一個數(shù)據(jù)保存的總體框架,包括應具備的功能,統(tǒng)一的概念和術(shù)語等,此框架適用于所有致力于長期保存數(shù)字資源并提供利用的系統(tǒng)和組織,幾乎所有大型的長期保存項目都將它作為實施標準,國外許多機構(gòu)結(jié)合自身特點和需求建立了基于OAIS 的本地長期保存結(jié)構(gòu),如NEDLIB(歐洲國家版本圖書館網(wǎng)絡)。國內(nèi)采用OAIS 的只有少數(shù)圖書館,應該加強推廣力度。
數(shù)字信息長期保存是一個系統(tǒng)工程,涉及技術(shù),法律,經(jīng)濟,管理多方面的問題。僅僅靠獨立的保存機構(gòu)不可能完成數(shù)字信息長期保存的重任。因此將圖書館、基金會、技術(shù)部門等多種信息機構(gòu)和社會機構(gòu)納入數(shù)字信息保存的隊伍,探索可行的合作模式勢在必行。這方面國外一些國家早已為我們作出榜樣。
3.5.1 1998年由荷蘭國家圖書館牽頭,與歐洲6 個國家圖書館(法國,挪威,德國,葡萄牙,瑞士,意大利)以及3 個主要出版社Kluwer,Elsevier 和Springer-verlag 共同開展網(wǎng)絡化歐洲存儲圖書館(NEDLIB),研究長期保存基礎結(jié)構(gòu),以保證電子出版物的長期獲取。2001 荷蘭國家圖書館與IBM 公司合作,建立電子出版物存儲機構(gòu)e-deposit,2003年1月最新系統(tǒng)啟用。2002年8月和2003年5月,分別與Elsevier Science 公司和Kluwer 公司正式簽署長期保存其聯(lián)機期刊和電子圖書的協(xié)議,接受該公司繳送的1500 種超過7TB 的電子期刊。這樣,荷蘭圖書館通過與圖書館、出版社、商業(yè)機構(gòu)之間的合作尋求解到?jīng)Q數(shù)字信息的長期保存的方法。
3.5.2 除了積極同各個部門合作,國外專門的信息保存機構(gòu)還致力于探索可行的技術(shù)合作。美國斯坦福大學圖書館LOCKSS 項目就是一項解決出版商的信息保存問題的技術(shù)。安裝LOCKSS 系統(tǒng)的保存機構(gòu)與出版商協(xié)商,允許LOCKSS系統(tǒng)收集和保存其出版的一些允許保存的期刊資源。保存到LOCKSS 系統(tǒng)的信息通過審計,一旦發(fā)現(xiàn)錯誤可以從另外的LOCKSS 中得到正確的資源。這樣LOCKSS 系統(tǒng)的成員都可以利用LOCKSS 工具收集正確的文件,并成為其他支持LOCKSS 的存儲庫的信息提供者,以保證所有的LOCKSS 系統(tǒng)用戶能夠獲得該平臺的資源。LOCKSS 項目建立在分布互惠,共建共享的基礎上,致力于解決出版商生產(chǎn)數(shù)字信息而無法保證它的長期保存,轉(zhuǎn)而讓社會公益機構(gòu)保存的解決之道。在這個項目中中國科學院國家科學圖書館于2003年5月加入了LOCKSS 系統(tǒng),成為與出版商的合作的一員,可惜LOCKSS 并無我國出版商的參與,意味著LOCKSS 無法搜集我國相關(guān)數(shù)字信息資源。
2003年,國家圖書館開展了網(wǎng)絡信息資源采集與保存試驗項目(WICP)和網(wǎng)絡數(shù)據(jù)庫導航項目(ODBN),進行了數(shù)字信息長期保存的探索,對靜態(tài)網(wǎng)頁和動態(tài)網(wǎng)頁采用不同的整合策略,該項目的目的在于:通過試驗發(fā)現(xiàn)網(wǎng)絡文獻收集、整理、編目、保存和服務中存在的問題,提出解決問題的方案。雖然國家圖書館一直關(guān)注數(shù)字信息長期保存技術(shù)的發(fā)展,但是目前對保存的研究還不夠,也還沒有正式開展數(shù)字信息長期保存方面的實踐。但是該項目體現(xiàn)了目前我國在信息保存方面的進步。此外在國家圖書館二期工程暨國家數(shù)字圖書館工程介紹中,國家圖書館已將OAIS 系統(tǒng)作為數(shù)字資源存儲與長期保存的一個參考系統(tǒng),這說明實力強責任重的少數(shù)圖書館正在與國際接軌,為數(shù)字信息的長期保存作出榜樣和示范。只有越來越多的保存機構(gòu)開展保存活動,我們的數(shù)字信息遺產(chǎn)才有可能更加完善地保留下來。
我國數(shù)字信息長期保存工作處于剛剛起步階段,但是我們應該認識到數(shù)字信息極易丟失,而且一旦丟失,很難重建,很難修復,甚至永遠也找不回來。因此圖書館應盡快促進多方合作,把技術(shù)部門、出版社等信息部門帶入一個開放的系統(tǒng)中,共同承擔起傳承人類文明的歷史責任。
1 曾蕾. 數(shù)字保存Digital Preservation[EB/OL].http://webapp.lib.tsinghua.edu.cn:8090/meeting/ppt/zenglei1.pdf,2006-08-30/2012-06-01.
2 中國互聯(lián)網(wǎng)絡信息中心(CNNIC).2005年中國互聯(lián)網(wǎng)絡信息資源數(shù)量調(diào)查報告[EB/OL].http://www.cnnic.net.cn/download/2006/20060516.pdf,2006-05-01/2012-06-01.
3 宛玲.數(shù)字資源長期保存的管理機制[M].北京:北京圖書館出版社,2006.
4 黃如花.數(shù)字圖書館原理與技術(shù)[M].武漢:武漢大學出版社,2005.
5 賴朝新.數(shù)字信息長期保存的主體研究[J].圖書館理論與實踐,2005(2):47~48
6 陳力,郝守真,王志庚.網(wǎng)絡信息資源的采集與保存——國家圖書館的WICP 和ODBN 項目介紹[J].國家圖書館學刊,2004(1):2~6
7 王志庚,赫守真.網(wǎng)絡文獻保存的實踐和課題[J].國家圖書館學刊,2004(2):23~29
8 牛金芳,鄭小惠,吳天華.OAIS 與數(shù)字圖書館[J].圖書情報知識,2002(6):53~55
9 胡燕菘.數(shù)字資源保存:相關(guān)項目與管理策略[J].圖書館工作與研究,2005(4):48~51
10 劉家真. 拯救數(shù)字信息:數(shù)據(jù)安全存儲與讀取策略研究[M].北京:科學出版社,2004.
11 趙俊玲.國外關(guān)于網(wǎng)絡信息資源保存的研究[J].中國圖書館學報,2004(3)
12 趙俊玲,杜國芳.網(wǎng)絡信息長期保存合作模式探析[J].理論與探索,2006(1):60~62
13 陳清文.數(shù)字信息保護:網(wǎng)絡時代一項不容忽視的工作[J].現(xiàn)代情報,2004(3):20~24
14 田碩,黃國彬.近十年國外數(shù)字資源長期保存研究綜述[J].圖書館雜志,2011(7):8~13
15 宛玲,崔廣治.數(shù)字資源長期保存公共服務體系研究[J].現(xiàn)代情報,2007(1):59~61
16 臧國全,秦東方.數(shù)字保存的經(jīng)濟風險與對策[J].圖書館,2011(1):74~77
17 鐘常青,楊道玲.中文網(wǎng)絡信息保存體系探討[J].圖書館雜志,2008(4):21~25