王承冠
(金陵圖書館,江蘇 南京 210019)
隨著信息技術和互聯(lián)網的飛速發(fā)展、數字信息的激增和數字化環(huán)境的形成,根據國外有關研究預測,2015年印刷媒體將占到45%,電子媒體會占55%,甚至更高。由于數字資源及其利用所依賴的網絡和存儲媒介的不穩(wěn)定性,使數字資源容易消失,難以長期為人們所利用。因此,數字資源長期保存是近年來圖書館界討論與研究的熱門話題,并已發(fā)展成為圖書館技術的一個新的研究領域。
數字資源長期保存在國際上已不是新話題,但具體實施并沒有大范圍展開,主要集中在幾個發(fā)達國家的一些大型圖書館,其在制定標準、具體實施等方面對我國亦有一定借鑒意義。
1.1.1 OAIS標準
在數字資源長期保存領域,最有影響的標準當屬開放檔案信息參考模型OAIS。OAIS是由美國國家航空和航天局和英國太空數據系統(tǒng)委員會(CCSDS)聯(lián)合制定的標準,于2003年正式成為ISO標準(ISO 14721:2003)。OAIS規(guī)定了數字資源躍期保存的術語、概念和參考框架,確定了一個存檔系統(tǒng)的基本功能,提出了一個管理數字對象和信息包的信息模型。在一致性方面起了很重要的作用,并逐漸成為眾多存儲項目遵循的標準,被廣泛應用于開發(fā)保存工具和存儲系統(tǒng)。
1.1.2 美國的NDIIPP項目
NDIIPP(National Digital Information Infrastructure Preservation Program)項目,即國家數字信息基礎設施和保存計劃,是以美國國會圖書館為主導,聯(lián)合全國許多大學圖書館、研究機構、商業(yè)組織對數字資源進行收集、保存的研究。它的工作目標是構建數字資源收集和保存的全國性戰(zhàn)略;與圖書館、聯(lián)邦代理機構、研究機構和非盈利性組織等進行合作;幫助鑒別和保存瀕臨消失的數字資源;對數字資源保存方法、模式和改良工具等發(fā)揮促進作用。
1.1.3 英國的CEDARS項目
CEDARS(CURL Exemplars in Digital Archives)項目,即高校研究圖書館聯(lián)盟數字存盤樣書項目。該項目在1998~2002年間,致力于研究數字保存的策略、方法和實際問題,包括數字對象的獲取、長期保存、有效描述和永久獲取。CEDARS成果是研究了數字資源長期保存的戰(zhàn)略框架和具體方法,并建立了一個分布式的長期存儲系統(tǒng)和支持數字資源長期保存的CEDARS元數據。
1.1.4 澳大利亞的PANDORA項目
PANDORA(Preserving and Accessing Networked Docu mentary Resources of Australia)項目,即保護和存取澳大利亞網絡信息資源項目。該項目由澳大利亞國家圖書館主持實施,其根本目的是在建立一個經過選擇的澳大利亞網絡信息資源歸檔系統(tǒng)的同時,為保護和存取澳大利亞電子資源制定政策和程序。采用選擇性存取策略,側重收集重要的且具有長期保存價值的聯(lián)機出版物和網站。
我國對數字資源保存問題的研究開始于20世紀90年代后期,目前,國內學者對數字資源長期保存問題的理論研究主要集中在對其概念、影響因素、保存策略這3個主要方面。雖取得了一定的成績,但與國外相比,我國對數字資源長期保存問題的研究仍處于起步階段,基本上還是以跟蹤、吸收、消化國外研究成果為主。
從研究主體來看,目前我國關注數字資源長期保存的機構比較集中,主要是圖書館、信息中心等信息服務機構。從研究內容看,我國偏向理論研究,實踐研究比較缺乏,學者們對數字資源的研究主要以對相關項目的介紹、研究動態(tài)綜述較多,介紹自身情況的較少。從啟動項目看,我國數字資源長期保存實踐項目成立的時間較晚,項目不多,具有代表性的如“中國國家圖書館的網絡信息資源保存試驗項目——WICP-Project”“OAIS體系結構的研究”“數字資源長期保存遷移技術及其在國家圖書館中的應用研究”等。
隨著國家和各級政府對公益性文化事業(yè)的關心和支持,使得地方公共圖書館的發(fā)展日新月異,數字資源的產量與總量已經初具規(guī)模。根據2013年全國公共圖書館評估標準中對省級(含副省級)圖書館的數字資源、自建資源總量的指標,絕大部分省級、副省級公共圖書館在數字資源總量方面均能達到甚至超過30TB的最高標準。因此,數字資源的長期保存工作越來越成為地方公共圖書館將要面對和亟待解決的問題。然而,各地方圖書館由于所屬的地域、經濟、財政投入等情況的不同,致使各館數字資源建設、軟硬件水平千差萬別,這也是地方公共圖書館數字資源長期保存的難點所在。地方公共圖書館對數字資源進行長期保存必須要從實際出發(fā),因地制宜,制定切實可行的方案。
數字保存是一個需要持續(xù)投資的成本昂貴的項目,在缺乏政策支持、財政投入的情況下,若不對所有長期保存的資源進行分類、評估、取舍,必定會使得經費本來就不寬裕的圖書館雪上加霜。
從數字資源的來源上分,可以分為外購商品數字資源與自建數字資源;從數字資源的內容上分,大致可以分為電子期刊、電子圖書、多媒體音視頻,特色數據庫等;從數字資源的存儲位置上分,可以分為包庫資源、鏡像資源和本地資源。此外,在對資源進行分類的同時,還需對資源的價值進行評估。評估的標準應從本館的自身條件與實際出發(fā),如財政的投入,本館的人力資源、技術力量,數字資源的版權問題等。筆者認為,只有經過評估,確定有永久保存價值及重要的數字對象并進行長期保存,才是地方公共圖書館比較務實的做法。
數字資源的長期保存涉及兩個方面的內容,一是防止數字資源的變更和被破壞,二是維護數字信息資源的長期真實性和可獲得性。因此,需要將數字資源分為元數據與對象數據加以描述和規(guī)范,以確保資源的存取。元數據是關于數據的數據,提供了關于信息資源或數據的一種結構化的數據,是對信息資源的結構化描述;對象數據是用戶最終獲取、以特定形式展現的數字化文本、圖像、聲音、影像等數據。在保存之初,應考慮資源的格式問題,包括元數據格式與對象數據格式,應盡可能地采用當前主流的、標準的格式,以方便未來對這些數字資源的仿真、遷移、再保存。
從目前人類的數字資源存儲水平來看,依舊是以磁盤、磁帶等磁介質為主的存儲設備與系統(tǒng)。因此,根據數字資源的使用狀況和應用需求,可以將它們分為在線、近線、離線這三種存儲模式。對于數字資源長期保存來說,在對數字資源價值評估的基礎上,根據數字資源的訪問需求和性能要求將數字資源放入在線或近線存儲系統(tǒng),同時也要做好數字資源的離線存儲工作,并確保備份數據的可靠性和一致性。
由于數字資源的載體極易受到外界環(huán)境條件的影響,因此,必須對保存的數字資源進行定期檢測,以保證數據的真實性和完整性。對于目前常見的存儲介質來說,一般磁性載體每滿兩年檢測一次,光盤每滿4年檢測一次,抽樣率以不少于20%為宜。檢測包括外觀檢查和邏輯檢測。外觀檢查是確認載體表面是否清潔、是否有霉斑、是否損壞或變形等。邏輯檢測是采用專用或自行編制的檢測軟件,對載體上的信息進行測試,查看數據有無丟失,如果發(fā)現問題應及時采取恢復措施。
硬件、軟件的技術淘汰使數字信息的長期讀出充滿了未知數,正如劉家真所說,“媒體的腐壞與脆化帶來信息的丟失,即使保存條件再好,數字媒體的架藏壽命也是有限的。”因此,保存的數字資源需要在其生命周期過程中經歷多次遷移過程??傮w上說,這類方法主要有數字遷移、數字仿真和技術保存等。
數字遷移:遷移是根據軟件、硬件的發(fā)展將數字資源遷移到不同的軟件或硬件環(huán)境下,從而保證數字資源可以在發(fā)展的環(huán)境中被識別、使用和檢索。根據遷移條件的不同,遷移可以分為硬件遷移、軟件遷移、載體遷移、格式遷移、版本遷移和訪問點遷移等。
數字仿真:指保存數字資源本身的全貌(包括內容和外觀兩個部分),但不保存數字資源存取的環(huán)境(包括軟件環(huán)境和硬件環(huán)境),用戶需要在新環(huán)境下實現對原始數字資源的訪問。
技術保存:指將數字資源以及閱讀數字資源所需的操作系統(tǒng)和瀏覽軟件一起保存,用戶始終在這個環(huán)境下實現對數字資源的存取操作。這種方法比較適合于一些小規(guī)模的專業(yè)數字資源的短中期保存,但對于大規(guī)模數字資源的長期保存而言則不具有可行性。
地方公共圖書館在制定數字資源長期保存的方案時,有效的組織和管理是數字資源得以長期保存的重要保障。因此,在不斷探索和總結適合本館的技術手段的同時,數字資源長期保存的制度建設也同樣重要。在工作流程上,通過長期積累的經驗,總結出一套行之有效的方法,并形成文檔,建立自己的SOP。在崗位設置上,應設有專門的部門負責全館數字資源的長期保存工作,并由專業(yè)管理人員進行數據的保存與操作,保證數字資源保存工作的順利進行。在考核機制上,不僅是要考核工作人員是否嚴格按照工作流程操作,還要考察管理人員的細心、耐心以及對工作的責任心。
金陵圖書館系南京市圖書館,副省級圖書館。自2000年開始,該館注重數字化建設,除了常規(guī)的商品數據庫的選購外,還自主構建了富有南京地方特色的數據庫,如南京云錦數據庫、鄭和研究專題數據庫、南京民國建筑數據庫、南京地方法律法規(guī)數據庫等。此外,還建有金圖講壇視頻資源庫、南京文化信息資源共享工程視頻資源庫等。據統(tǒng)計,截至2012年,金陵圖書館總計發(fā)布數字資源數據庫55個(不含試用資源),其中,自建資源數據庫30個,外購商品資源數據庫20個,共享工程下發(fā)資源數據庫及數字圖書館推廣工程共享資源數據庫5個??側萘砍^93TB,其中存儲在本地的資源總量超過29TB。
金陵圖書館從2011年開始就將數字資源長期保存作為一項課題,列入了信息系統(tǒng)部和信息技術部的工作計劃,同年開始研究、制定方案,并于2012年進入初步實施階段。金陵圖書館對數字資源的保存主要從以下4個方面進行。
從數字資源的來源看,金陵圖書館的數字資源主要分為外購資源和自建資源。經過對數字資源的價值評估、資源保存的可行性研究,最終決定立足本館的自建資源,從自建資源入手,根據資源的價值選擇性地進行長期保存工作。其原因有三:一是由于每年用于數字資源建設的經費有限,且市級財政并沒有專項經費用于數字資源的長期保存;二是越來越多的外購資源趨于網絡包庫模式,使用本地鏡像的資源,由于依賴資源商專門的系統(tǒng)環(huán)境和數據結構,并不利于長期保存,加上鏡像資源保存價值不高,即使丟失也可以通過資源商進行重新安裝;三是版權問題不可避免,地方公共圖書館外購資源一般都是購買的使用權,并沒有版權或保存權,相反自建資源一般都是對海量信息的搜集、整理、標引,以二三次文獻形式展現,恰恰規(guī)避了版權問題。
信息技術的日新月異,軟硬件系統(tǒng)的更新?lián)Q代,由此給數字資源讀取造成的技術過時問題備受關注,同時也促使了元數據概念的提出。因此,數字資源的長期保存,是對數據的保存更是對元數據和對象數據的保存。為了避免某些數據格式隨著時間和技術發(fā)展而消亡,必須規(guī)范需長期保存的數據的格式,包括元數據格式和對象數據格式。數據格式的選擇應本著大眾化、主流化、系統(tǒng)依賴度低等原則。金陵圖書館針對需長期保存的資源,就元數據、對象數據等進行了如下的格式規(guī)范:
元數據格式:MARC元數據、DC元數據、XML、關系型數據庫格式(如 Oracle、SQL Server、Access等)。
對象數據格式:
6.3.3 抽獎規(guī)則。抽獎是從已關注了XX圖書館官方微信并參與了現場網上薦購的讀者的微信號中抽取。其中,微信薦書抽獎共分3輪,第一輪抽取三等獎20個,第二輪抽取二等獎10個,第三輪抽取一等獎5個,抽獎只針對微信網上薦購渠道,門戶、APP等渠道,不參與抽獎。
文本:不壓縮 TIFF格式、PDF、TXT;
圖像:不壓縮TIFF格式、JPEG、PDF;
音頻:WAVE、MP3;
視頻:MPEG2、MP4、FLV。
此外,金陵圖書館根據數字資源的使用頻率、系統(tǒng)需求等因素,提供在線式FC-SAN存儲和近線式IP-SAN存儲系統(tǒng)。對于需要長期保存的數字資源,在規(guī)范數據格式的前提下進行離線存檔,并根據資源的保存級別建立多個備份。
考慮到數據存儲的成本,對于需長期保存的離線數據和存檔數據均使用普通2TB或以上容量的硬盤存儲。根據本館制定的相關規(guī)范,對于備份數據的完整性和正確性檢測,其頻率為兩年一次,每次抽檢10塊硬盤或等同于20TB的存儲空間,對于3年或5年以上的存儲介質,無論是否數據正常,都應當使用新的存儲介質進行兩次備份,確保備份數據的完整、可靠。目前,本館主要采用MD5的校驗方法,通過使用MD5的校驗工具和數據抽檢、恢復機制,完成對所保存數字化文件的完整性檢測。
由于金陵圖書館數字資源長期保存工作起步不久,對于數據遷移還沒有實際的操作經驗,但在學習和研究他人相關理論和成果的基礎上,也開始并嘗試一些數據遷移的準備工作。例如:針對需要長期保存的數字資源,撰寫資源恢復文檔,盡可能詳細地將如何安裝操作系統(tǒng)、數據庫系統(tǒng)、資源系統(tǒng)等進行文字性記錄,并將該資源所依賴的操作系統(tǒng)、數據庫系統(tǒng)等的安裝程序一并保存,使后人進行數據遷移時有跡可循。
在數字資源長期保存管理規(guī)范方面,金陵圖書館正在起草《金陵圖書館自建數字資源保存管理暫行條例(草案)》,該條例從數字資源保存原則、保存級別、資源數據保存格式等方面進行了闡述;在日常的數字資源保存工作中,制定了一系列切實可行的操作規(guī)范和流程,如《數字資源長期保存工作流程》《數字資源長期保存存檔規(guī)范》《數字資源長期保存定期巡檢操作流程》等。
此外,金陵圖書館將數字資源長期保存作為一項長期工作,在全館范圍進行普及。不僅在相關部門內部進行學習、討論,還邀請業(yè)內人士就資源保存問題展開全館學習,旨在樹立全館的資源保存意識。
數字資源的長期保存是一項對人類文明傳承極具意義的工程。公共圖書館作為信息資源的保存機構,義不容辭,任重而道遠。因此,在今后的工作中,一方面要讓政府認識到數字資源長期保存的意義和重要性,積極爭取政策和財政的支持;另一方面要積極與國家圖書館及其他地方圖書館交流合作,通過會議、實地調研等方式,在交流探討中碰撞出新想法、新思路。
[1] 宛玲.國外數字資源長期保存的最新發(fā)展及對我國的啟示[J].中國圖書館學報,2004(2):22-25.
[2] 劉家真.數字信息保存的策略[J].情報學報,2000(4):349-353.
[3] 邢軍.國家圖書館數字資源長期保存現狀與研究[J].數字與微縮影響,2011(4):18-21.
[4] 劉喜球.中小型圖書館數字資源長期保存的特點及其策略[J].工作研究,2008(9):120-122.
[5] 董曉莉.圖書館數字資源長期保存遷移技術分析[J].圖書館雜志,2012(7):63-69.