董曉莉+龍偉
[摘要]本文在分析大數據環(huán)境下圖書館采用合作保存必要性的基礎上,探討了國際主流的數字資源保存合作模式,進而提出目前我國圖書館應采用的數字保存合作模式和資源存儲方式,最后設計了圖書館基于OAIS的數字資源長期保存協(xié)作保存平臺模型,并對該模型構成、運行模式以及主要功能進行了深入的描述和分析。相信本研究將對合作模式下圖書館數字資源長期保存系統(tǒng)的建設起到拋磚引玉的作用。
[關鍵詞]圖書館;長期保存;數字資源;合作模式
大數據時代的到來,整個社會不可避免地被卷入數字洪流之中,如何保存人類社會的數字文明,圖書館的保存工作面臨著越來越多的挑戰(zhàn)和考驗。一方面要面對數字保存對象的不斷多元化和泛在化,另一方面要解決用戶與日俱增的數字資源長期保存需求和資源共享需求。在這種情況下,國際上很多數字文化遺產收藏機構都開始積極采取合作的方式開展數字資源長期保存的研究與實踐,國際上也相繼出現多個跨地域、跨機構的數字保存聯盟,如英國的數字保存聯盟(digital preservation coalition,簡稱DPC)以及協(xié)同化的國際合作項目,如歐洲的NEDLIB項目。目前,各國學者對采用合作方式開展數字資源長期保存的發(fā)展方向已有普遍共識。我國雖然諸如國家圖書館等個別機構近年已著手采用獨立保存方式對機構內所藏數字資源實施保存,但是尚未形成成熟的合作保存體系,未建立一套統(tǒng)一的支持機構間協(xié)作的合作保存網絡,極易導致對重要資源內容保存的遺漏;且資源的利用率不高,無法滿足大數據時代對圖書館數字資源收集、保存、維護、處理和利用的需求;特別是會由于重復存儲導致大量人力資源和物理資源的浪費。因此,選擇合理的數字資源長期合作保存模式,選用靈活且適應性強的數字保存合作策略,建設相對全面的數字資源長期保存協(xié)作平臺是目前大數據環(huán)境下國內圖書館等文化資源保護機構亟需考慮和解決的問題。
1大數據環(huán)境下圖書館采用合作保存的必要性
大數據環(huán)境下,數字內容的體量飛速發(fā)展,用戶需求呈現出多元化的態(tài)勢。面對用戶不斷泛化的資源保存需求,圖書館對保存對象的定義也更加寬泛,數字對象的類型變得更加復雜,資源類型逐步由單一的圖像、文本類型向包括音視頻、網絡資源等在內的結構化與非結構化多元類型拓展。同時,用戶發(fā)現、利用、反饋圖書館資源的信息,即圖書館用戶“大數據”也將作為一種重要的資源被納入到圖書館的保存對象范圍之中,保存對象的類型和結構將變得更加復雜多樣,數字資源長期保存正經歷著越來越嚴峻的挑戰(zhàn)。
同時,隨著社會數字化的不斷發(fā)展,社會經濟和文化的發(fā)展對數字資源的依賴性更強,各國保存機構對數字資源長期保存可信賴性提出了更高的要求。面對更加艱巨的保存任務和更為復雜的保存環(huán)境,僅依賴于單一機構已無法完成數字保存任務,采用合作方式開展數字保存不但可以避免單一機構實施保存所造成的單點故障,規(guī)避出現數字孤島的風險,而且有利于集結多種類型的數字資源,實現不同內容、不同類型資源的有機關聯,進而提高大規(guī)模數字資源保存的可增值性,改變原有保存機構基于本地、私有、封閉的保存模式,打破機構問資源保存與共享的諸多壁壘,實現資源保存與服務的有機結合。在此情況下,圖書館間合作構建數字資源長期保存協(xié)作平臺形成數字資源協(xié)作保存網絡已成為圖書館等文化遺產保存機構的必然選擇。
2大數據環(huán)境下圖書館數字資源合作保存模式分析
近年,在大數據環(huán)境下歐美等發(fā)達國家的圖書館、博物館、檔案館等數字文化遺產機構紛紛探索多種合作模式,以期提升其在公共文化機構中的地位,改善其現有的數字保存和服務現狀,更好地滿足越來越多的多樣化用戶需求。目前國際上主流合作模式主要包括集中分散、對等分散、高度整合等模式。其中,集中分散式即由一個機構主導,由其制定相關政策、方針、管理機制,并實施技術指導,協(xié)助其他機構解決長期保存中的實際問題,其他機構作為合作參與方,承擔一定的保存責任并具有相應的權利,如美國的NDIIPP項目、澳大利亞的PANDORA項目、美國阿拉巴馬州的ADPNet(the Alabama DigitalPreservation Network)等項目都屬于集中分散式的合作保存模式。對等分散式指參與數字資源長期保存合作的成員機構在合作中所處的地位平等,且具有同等的責任和義務,主要通過協(xié)商來完成相應的保存任務,如歐洲的NEDLIB合作項目。高度整合模式,是近兩年新興的一種合作模式,其一般由國家主導,通過實施法令和制定政策,完成機構間運行機制和內部結構的重組,如挪威、新加坡、加拿大等國對圖書館、檔案館、博物館等機構開展的機構整合。
由于我國目前的數字資源長期保存政策和策略尚不完善,且機構問在數字資源長期保存領域的研究與實踐工作缺乏有效的溝通和協(xié)調,跨機構、行業(yè)、區(qū)域的合作關系松散,缺乏統(tǒng)一規(guī)范的合作模式和制度,特別是各圖書館長期保存的技術能力參差不齊,因此在現有狀態(tài)下,圖書館長期保存合作模式可以考慮采用集中分散的模式,即由某一權威機構作為合作保存的中心機構,由其主導并協(xié)調指導其他機構共同完成保存任務,該合作模式下的資源存儲方式可以考慮采用集中管理——分布存儲——集中整合的構建模式。在該合作模式和存儲方式下,中心機構負責完成保存政策、運行機制、合作機制、保存策略等方面的全局性指導,并通過共享基礎設施、功能設計標準框架等方式完成機構問的共享與協(xié)作;在統(tǒng)一的資源采集政策下,各分支機構獨立完成資源的收集、加工、審核、管理和存儲;利用分布式的保存策略和多副本安全策略,保證種類各異的資源分布式存儲于地理位置分散的各合作保存機構內部;通過規(guī)范的數據集中整合流程,保證資源保存形式的一致性,便于更新以及為用戶集中揭示資源,實現保存資源的全方位揭示。該模式通過機構間的合作保存,有效規(guī)避了單機構保存所造成風險;通過共享基礎設施,降低開發(fā)成本;通過共享功能設計標準框架,有效降低管理成本;通過資源的多副本保存可以有效提高資源的安全性和完整性,降低昂貴的備份成本,如圖1所示。
圖書館數字資源的合作保存是以最終實現保存資源的長期存儲、管理和長效利用為導向,采用該合作模式,可以有效實現對聯盟內保存資源的統(tǒng)一存儲、集中監(jiān)控和動態(tài)管理,從而保障數字信息資源的真實性和永久可獲得性;可以集結多種類型的資源,通過保存平臺實現對資源的有效關聯、整合、管理和利用,從而滿足大數據環(huán)境下,對更加龐大的異構資源實現有效組織整合;通過將資源集中保存于數字保存合作平臺中,可以有效打破原有資源保存和共享的諸多壁壘,消除資源保存機構的存儲孤島現象;通過跨系統(tǒng)、跨地域的合作保存,可以有效避免資源的重復存儲,解決目前普遍存在的基于本地的、私有的、封閉的保存模式,有利于合作機構在指導機構的統(tǒng)一管理下,完成對保存的資源統(tǒng)一處理和整合,保證對保存資源的持續(xù)性、系統(tǒng)性的維護和開發(fā)利用,為最終實現知識發(fā)現、體現數字資源長期保存意義提供重要保障。
3基于OAIS的數字資源長期保存協(xié)作平臺模型分析
基于以上合作模式,圖書館數字資源的合作保存可以通過建立基于OAIS的數字資源長期保存協(xié)作平臺而實現,該協(xié)作平臺可由跨地域或跨機構的多個機構或長期保存系統(tǒng)耦合形成,共同創(chuàng)造一個協(xié)同保存的工作環(huán)境,以實現機構或系統(tǒng)問的協(xié)同工作,完成對跨地域資源的統(tǒng)一協(xié)調、調度和管理,其不但可以有效節(jié)約資金、人力等物理資源,而且可以促進溝通和交流,確保大數據環(huán)境下我國數字文化遺產得到長期存儲和有效保護,方便獲取利用。
3.1大數據環(huán)境下圖書館合作保存對象需求
大數據背景下,數字資源總量呈指數級增長,資源構成變得更為復雜,從資源結構看,包括結構化數據、半結構化數據、非結構化數據,且數據與數據之間彼此交叉,彼此融合;從資源來源看,涉及同類型不同來源的資源、不同類型不同來源資源以及相同類型相同來源的資源,且資源的異構性、碎片化、多維性等特點越來越突顯。同時,數據的保存環(huán)境變化加快,數據生命周期縮短、格式更新頻率加快,人類對數字資源長期保存的要求不斷提高,而保存環(huán)境卻日益惡化,因此大數據環(huán)境下,圖書館的數字保存對象應達到以下要求:
真實性:數字對象文件應可以通過評估身份信息和操作記錄的完整性進行驗證,其驗證過程應貫穿于系統(tǒng)的整個工作流程。在任何時候都能夠確定數據的內容完整無缺、身份來源可靠、且未被非法更改,同時保證數據的創(chuàng)建時間、創(chuàng)建人員、創(chuàng)建模式等內容明確,數字對象所參與的行為或事件有明確標示,數字對象與其相關聯對象的關聯關系表達明確且相關附件信息完善。
位階完整性:數字對象的位級存儲可以確保提交的數據不發(fā)生任何變化,即每一位(bit)可保持原狀,持續(xù)維持原始位流的完整性和可讀性。
安全性:保證數字對象未被未經授權的用戶訪問或更改。
可用性:保證數字對象的封裝、遷移、備份、交換、訪問、傳輸都是容易的,不會隨著保存環(huán)境的變化而產生改變。
要達到以上對數字保存對象的要求,協(xié)作平臺不但需要配置一系列的審計、校驗、身份認證、信息跟蹤、格式監(jiān)測、統(tǒng)計報告、遷移等保存功能和策略,還應支持靈活嵌入一系列的軟件和工具以完成對數字對象的持續(xù)存儲和管理,如為保證數字對象的真實性,在資源的攝入階段需要持續(xù)監(jiān)控整個攝入過程中數據內容、結構及其狀態(tài),因此需要嵌入AutoTODD等類別的攝取軟件;為保證平臺數據對象歸檔和保存階段所保存數據對象的完整性和正確性,平臺需要配備ACE(Audit Control Environment)等完整、系統(tǒng)的校驗機制(如奇偶校驗、指紋驗證等);為保證信息包的有效傳輸需要配備BaTIt等包處理工具,以實現對信息包的創(chuàng)建、操縱和校驗。同時還需要配備合理的數據處理軟件,通過獲取數字指紋、文件格式轉換、元數據抽取等功能完成對數字對象的完整傳輸,確保數字對象按原有的層次結構復制和上載等,如Archive This!、WebIndexing Portal、E-PubsPortal等。此外,該平臺還應支持靈活配置用于查詢定位的軟件如Lucene,用于病毒查驗的軟件等工具軟件。
同時,為滿足以上數據對象的保存需求,在進行系統(tǒng)模型設計時,不但要考慮整個平臺的靈活擴展能力,以能夠應對不斷增加的資源類型和飛速增長的資源保存需求;同時要充分考慮到協(xié)作平臺對不同類型資源對象的處理能力和節(jié)點問的協(xié)同工作能力,使其在中心節(jié)點的統(tǒng)籌規(guī)劃下,充分利用每個分支機構的資源處理能力,依據數據資源的內容、結構特征、質量保證標準定制合理的保存工作策略和工作機制,有效保障資源的安全性、有效性,提高平臺資源的服務能力。
3.2系統(tǒng)平臺模型設計
OAIS模型作為數字資源長期保存領域的標準,其提供了對數字資源長期保存系統(tǒng)的外部環(huán)境、功能模塊以及保存對象模型的定義。針對基于OAIS模型的分布式長期保存系統(tǒng)框架的討論最早始于2010年,由MetaArchiveCooperative,、Chronopolis和the Library of Congress共同發(fā)起討論。近兩年,隨著歐美等國家合作保存項目的發(fā)展,分布式長期保存體系框架逐漸受到各保存機構的重視,其中比較有代表性項目包括Archivematica,Chronopolis,Data-PASS,the Danish Bit Repository,DuraCloud,InternetArchive,LOCKSS,MetaArchive Cooperative,and UC3 Merritt等。上述各項目的系統(tǒng)的實現方式各不相同,如LOCKSS分布式保存項目,其資源被重復保存在多個站點中,網絡中所有服務器在權利和職責方面都是對等;而Chronopolis項目采用了混合的協(xié)作模式,三個節(jié)點協(xié)同提供網格服務,同時又有不同的分工,三個節(jié)點問通過GridFTP進行網格中大規(guī)模的并行數據復制,每份資源都存在3個獨立管理的副本。可以看出,上述每個項目都根據項目的實際保存需求和機構特點設計了不同的實現方式,且各有特色、各不相同。因此,圖書館基于OAIS的數字資源長期保存協(xié)作平臺模型的設計應緊密結合集中分散的合作模式,充分利用現有的工具和成果,綜合考慮合作機構所具有的不同職責、角色和能力,根據大數據環(huán)境下圖書館合作保存對象需求,以OAIS標準為基礎,構建一個具備協(xié)同工作能力、支持靈活、擴展的協(xié)作、互聯、分布式的數字資源長期保存體系架構,如圖2所示。
該模型是一個包括協(xié)作、互聯、分布式的數字保存模型,模型由一個中心機構和若干分支機構共同組成基于OAIS的數字資源長期保存協(xié)作平臺,每個機構都是協(xié)作平臺中的一個節(jié)點,各個節(jié)點都根據預先制定的分工協(xié)作策略進行協(xié)同工作,各節(jié)點均有分工,且彼此協(xié)作。模型中的中心節(jié)點和各個分支節(jié)點都遵循OAIS參考模型,且在中心節(jié)點的集中指導下獨立組織開發(fā)、維護并確保數據的完整性和有效性,其主要包括攝入模塊、保存計劃模塊、數據管理模塊、歸檔存儲模塊以及資源利用模塊。平臺中的每個節(jié)點均可根據本機構所具有的不同職責、角色和能力進行自治,獨立執(zhí)行保存功能,維護保存系統(tǒng),并提供服務。每個分支機構的節(jié)點對等,各分支節(jié)點的關閉、停止、增加,并不影響整個平臺的正常運行,平臺可以隨著資源規(guī)模的擴大不斷增加分支節(jié)點,有效保證了平臺的靈活性。采用該種模式不但可以有效簡化平臺管理和開發(fā)的復雜性,增強協(xié)作平臺的可擴展性,而且可以允許各分支機構根據自身需求,靈活配置存儲策略和工作流程,增強了整個平臺的包容性,有利于充分利用現有工作和研究成果。
該模型采用松耦合的工作模式,模型的中心節(jié)點負責對整個平臺的日常管理和監(jiān)控,各分支節(jié)點采用獨立運行的管理機制,由于每個分支機構具有很高的自治性,因此每個機構可以在遵循一定的標準、政策的前提下,采用不同的系統(tǒng)、嵌入不同的保存工具,保存不同類型的數字對象,有效保證大數據環(huán)境下保存平臺的擴展能力。在分布式架構下,中心節(jié)點通過執(zhí)行日常管理和檢測,協(xié)調各分支節(jié)點獨立運行,使該平臺可支持不同的保存功能,達到不同的保存目標。平臺通過采用基于分布式的保存策略和多副本安全策略,將多個副本分布式地保存在地理位置分散的多個分支節(jié)點的歸檔存儲中,可以使得各分支節(jié)點資源互為備份和補充,共同完成資源保存,保證保存資源的多地多副本,最大限度的保障資源的安全性,避免因惡意攻擊、本地資源丟失等因素造成的資源受損。
中心節(jié)點負責平臺的統(tǒng)籌規(guī)劃和全局監(jiān)管,通過相應的節(jié)點注冊機制完成對各分支節(jié)點信息的管理,利用資源提交機制接收各分支節(jié)點的數據和資源,其主要功能模塊包括系統(tǒng)管理(如各節(jié)點信息管理、備份管理、人員權限管理、各種報告管理等等)、長期保存(如保存規(guī)劃、環(huán)境監(jiān)測、策略評估等)、倉儲管理(如數據庫管理、唯一標識符管理等)、歸檔存儲(如存儲系統(tǒng)管理、介質管理、存儲機制管理等)、資源攝?。ㄈ绶种Ч?jié)點資源的接收、審核、AIP生成等)、資源利用(如DIP生成、資源呈現等)。中心節(jié)點的主要任務包括:①每個分支節(jié)點通過各自節(jié)點的資源利用模塊向中心節(jié)點提供信息,中心節(jié)點通過其攝入模塊完成資源的收集,并通過倉儲管理和歸檔存儲完成對平臺內資源的組織和管理,平臺內資源索引的整合與請求分發(fā)由倉儲管理模塊負責。②中心節(jié)點負責對所有分支節(jié)點內容信息和保存管理信息的收集、組織,并完成對已解決版權資源的融合分析和統(tǒng)一揭示,保證在低成本的條件下實現數據的高效存儲和訪問。③各分支節(jié)點問可以在中心節(jié)點的管理下,完成對保存資源的遷移和備份,中心節(jié)點負責協(xié)作平臺內資源備份遷移實施情況的統(tǒng)計。④中心機構負責對分支機構進行檢查和審計,管理協(xié)作平臺內部各節(jié)點的名稱、機構性質、保存資源的基本情況等信息。⑤中心節(jié)點負責完成對協(xié)作平臺內保存資源的統(tǒng)計管理,匯集各分支節(jié)點的數據保存情況,各分支結構可以通過向中心節(jié)點提交請求,系統(tǒng)了解協(xié)作保存平臺內資源的保存情況。⑥中心節(jié)點負責提供協(xié)作平臺的保存規(guī)劃管理,在匯集各分支節(jié)點制定的保存規(guī)劃的基礎上,制定協(xié)作平臺的全局保存規(guī)劃和策略,以指導各分支機構制定相應的保存實施策略。⑦中心節(jié)點負責提供服務注冊機制,以靈活嵌入一系列的保存軟件和工具,完成對數字對象的持續(xù)存儲和管理,保證協(xié)作平臺內部資源的安全性、完整性,各分支機構可以通過服務調用或服務嵌入的方式,完成對所需軟件和工具的使用,保證機構內資源的有效性。
各分支節(jié)點可以通過向中心節(jié)點注冊,自主加入整個協(xié)作平臺中,其具備完整的保存功能,執(zhí)行機構內的資源攝入、存儲、管理、備份、利用等保存功能,是一個獨立的保存功能節(jié)點。各分支節(jié)點主要完成對保存對象的管理,并對數據安全提供保障。分支節(jié)點的主要任務包括:①負責對機構內保存資源對象內容數據和元數據的監(jiān)控和管理,可通過嵌入相應的校驗工具實現對保存?zhèn)}儲中數字對象進行完整性校驗。②負責機構內保存資源的安全性和可靠性,配備一定的安全保障機制,如數據存儲狀態(tài)的審計、數據狀態(tài)的跟蹤機制、存儲介質的安全保障機制等。③負責機構內保存資源的不變性檢查,定期檢查數據內容是否未經任何改變。④負責機構內保存資源信息的統(tǒng)計,完成對保存資源處理過程的追蹤和檢查,并生成報告。⑤提供資源對象遷移功能,即在中心節(jié)點的統(tǒng)一調配下,支持將對象從一個分支節(jié)點遷移到另一個分支節(jié)點,或從一種媒介遷移到另一種媒介資源。⑥負責資源原始資源的攝入和清洗,即各分支節(jié)點的資源攝入模塊要面向資源提交者提供對原始提交信息的管理,如數據完整性檢查、數據內容和元數據格式檢測、元數據抽取、格式轉換、病毒檢測、剔除噪聲數據、數據提取、有用數據提取,以及圖書館相關資源整合等功能。⑦各分支節(jié)點的輸出模塊主要完成向中心節(jié)點推送資源的功能,可以根據中心節(jié)點的攝入策略,進行資源的主動推送,推送模式可采用實時、定時、觸發(fā)性推送以及手工推送等方式。
各分支節(jié)點可與中心節(jié)點協(xié)商,共同制定符合各分支節(jié)點自身技術能力和資源規(guī)模的資源復制策略和保存規(guī)劃,在最大限度保證資源安全性,確保數字對象長期可用的同時,有效平衡各分支機構節(jié)點的獨立性,保障資源在協(xié)作平臺中的共享與協(xié)調。協(xié)作保存平臺中各節(jié)點都設置獨立的技術檢測機制作為其長期保存計劃的一部分,如攝入文件的格式、文件的完整性、存儲媒介的安全性等。各分支節(jié)點的保存計劃側重于對本中心內部保存文件的日常檢測,而保存中心節(jié)點的保存規(guī)劃除包括對中心節(jié)點內部文件的技術檢測外,還要指導平臺中各節(jié)點完成對其內部存儲媒介的檢測。由于各分支節(jié)點所依賴的存儲單元不同,因此中心節(jié)點的保存計劃應不但涵蓋其自身的內部保存計劃還應當包括各分支節(jié)點的保存計劃,以指導各分支機構用自己的技術檢測功能對他們使用的存儲媒介進行檢測。
該模型的設計參考了Chronopolis項目區(qū)分主控節(jié)點和分支節(jié)點的分工協(xié)作模式,參考了LOCKSS項目的基于策略的存檔復制模式,使得整個模型既具有一定的獨立性又具有資源共享和易于擴展的特點。模型設計的基本原則包括采用分布式架構,具有良好的可擴展性、靈活性和安全性,數字資源的副本和原始版本可以分布在不同的地理位置,可以由多個機構共同構成,且由不同的管理員完成對系統(tǒng)平臺的分層管理和監(jiān)控,內容可以進行實況查詢,并定期檢查資源內容的完整性及其他問題,通過這些原則的設定,可以保證大量副本分布在不同的地理位置上,最大程度地保障資源可以在大多數可預知的環(huán)境中保存下來。此外,由于該模型遵循節(jié)點自治原則,可以減少系統(tǒng)的維護和開發(fā)量,保證在不影響已運行節(jié)點的情況下,實現多個分支節(jié)點的統(tǒng)一管理,實現保存協(xié)作平臺的可靈活擴展。
4結語
大數據環(huán)境下,僅依靠單一機構完成對形態(tài)各異資源的保存與保護,已難以滿足圖書館數據服務對數據質量、價值密度、可用性和可控性的需求。因此,面對更加艱巨的保存任務和更為復雜的保存環(huán)境,采用合作方式開展數字保存,打破機構問資源保存與共享的諸多壁壘,實現資源保存與服務的有機結合,已成為目前眾多文化遺產機構的必然選擇。圖書館采用集中分散的合作保存模式,依托集中管理——分布存儲——集中整合的資源存儲方式,構建數字資源協(xié)作保存平臺,有利于協(xié)調和調度社會資源,共同分擔保存風險和責任;有利于充分利用現有研究和實踐成果,發(fā)揮各保存機構的數據保存優(yōu)勢;有利于實現對數字資源長期保存的統(tǒng)籌規(guī)劃、分工協(xié)作、分級管理的一體化運行;有利于實現對資源對象實施不同層級的保存管理,保障數字對象的安全性、易控性和可用性;有利于圖書館長期保存角色的轉變,即從數據的被動存儲與保存,轉換到對資源的積極存儲、共享和利用;有利于節(jié)約資金、存儲資源以及人力資源;有利于實現對資源長期存儲、管理和應用機制的不斷完善和優(yōu)化;有利于依據數據的類型、結構特點、使用方向和存儲方式,通過在不同存儲節(jié)點問合理規(guī)劃存儲策略,實現資源的選擇性管理和存儲,保證數據在物理特性上安全、正確、完整、可控和可用;有利于保存資源在不同機構的服務與應用中的共享,避免數據內容誤存和誤用。