耿志杰 郭心竹
摘? 要:數字檔案長期保存是一項艱巨的系統(tǒng)工程,技術方案是長期保存策略體系中的重要組成部分,只有合理應用技術方案才能確保數字檔案的長期可用,因此需要對技術方案進行優(yōu)化選擇。通過分析數字檔案長期保存技術方案優(yōu)化選擇的必要性,在參考歐盟Planets項目“目標樹”對長期保存技術策略量化評估的基礎上,從構筑合作聯盟、引入效能分析法、培育量化思維、樹立規(guī)劃意識四個方面,提出我國數字檔案長期保存技術方案的優(yōu)化選擇策略。
關鍵詞:數字檔案;長期保存;技術方案;優(yōu)化選擇;檔案技術
Abstract: The long-term preservation of digital Archives is an arduous system engineering. The technical scheme is an important part of the long-term preservation strategy system. Only the reasonable application of the technical scheme can ensure the long-term availability of digital Archives. Therefore, it is necessary to optimize and explore the technical scheme. By analyzing the necessity of optimizing the selection of long-term preservation scheme of digital Archives, and based on the experience of objective basis instead of subjective conjecture, establishing measurement standards and scales, combining internal rough evaluation with external fine evaluation, and forming a global preservation plan, this paper introduces efficiency analysis and progressive evaluation from the perspective of building cooperation alliance, In order to inspire the practical work of Archives department in China, this paper puts forward the optimization and selection strategy of long-term preservation technical scheme of digital Archives from four aspects: upgrading quantitative thinking, constructing index system, establishing planning consciousness and overall concept.
Keywords: Digital archives; Long term preservation; Technical proposal; Optimizing selection; Archival technology
數字檔案長期保存是一項重要的系統(tǒng)工程,各種應對策略最終需要落實在各種技術方案上,“在數字資源保存策略中,技術方案是全部策略賴以依附和執(zhí)行的基礎,是數字資源保存的核心與關鍵”。[1]目前我國關于數字檔案長期保存技術方案的研究主要聚焦于三個方面:
技術體系的構建研究,如國家層面長期保存技術體系[2];技術方案的應用及比較研究,如云備份[3]、格式注冊[4]、更新、仿真、遷移[5]等;技術方案的實踐案例研究,如英國國家檔案館數字檔案長期保存元數據方案[6]、ARCHANGEL項目和InterPARES Trust項目中的區(qū)塊鏈技術[7]等。
上述研究成果均對我國數字檔案長期保存的理論與實踐發(fā)展具有重要參考價值。然而,目前我國還沒有對技術方案的選擇問題進行系統(tǒng)研究,面對多種多樣的技術方案,如何在長期保存的關鍵環(huán)節(jié)選用最優(yōu)的技術方案,如何揚長避短發(fā)揮技術方案的最大優(yōu)勢,檔案部門應給予特別關注并積極采取措施加以解決。
本文參考歐盟Planets(Preservation and Long-term Access through NET-worked Services,也稱“行星”)項目的“目標樹”框架,對數字檔案長期保存的技術方案如何優(yōu)化選擇進行探索,以期為檔案部門的數字檔案長期保存實踐工作提供參考。
1 數字檔案長期保存技術方案優(yōu)化選擇的必要性
1.1 技術方案的復雜性。數字檔案長期保存相關技術方案種類繁多,這種復雜性導致了優(yōu)化選擇以及協調組合較為困難,因此需要對技術方案進行優(yōu)化選擇,以規(guī)避各種不確定因素所帶來的技術風險。技術方案的復雜性主要表現在兩個方面:
(1)單一技術方案無法滿足長期保存的所有需求且自身存在不足。在長期保存實踐中,常見的技術方案有遷移、仿真、更新、封裝等,這些技術方案針對性很強,單獨使用只能解決長期保存中的部分問題。同時,這些技術方案自身也會存在不足,如遷移可能丟失一定的結構、版式、鏈接、交互關系等信息,導致轉換后的數字信息內容與原數字信息內容出現差異[8];仿真工具的開發(fā)和維護是一項十分復雜、困難、成本高昂的工作,[9]且存在軟件兼容性問題[10];更新不能完全解決數字檔案的可用性、完整性和真實性等問題[11];封裝難以刷新元數據,且對相關軟件的使用有依賴性。[12]
(2)組合技術方案較為困難且易混亂。技術方案的復雜性導致了它們之間協調組合的難度較大,尤其在面對數量巨大、類型多樣的數字檔案資源時,組合多種技術方案可能出現搭配不協調、混亂等情況,檔案部門在實踐中的組合應用現狀并不理想。北京聯合大學謝永憲團隊2018年調查發(fā)現,采取兩種技術方案的綜合檔案館有20.6%,采取三種技術方案的只有4.7%。[13]
1.2 技術方案選擇缺少客觀性。長期保存技術方案的制定需要分析數字資源保存所處的完整的上下文環(huán)境,識別影響保存技術的各種關鍵因素,根據既定目標選擇合適的保存技術,形成一個可行的、安全的混合保存技術策略。[14]
由于目前我國在數字檔案長期保存技術方案選擇方面缺乏相關標準,導致檔案部門在實踐中過于依賴以往的工作經驗,難以保證客觀性。[15]這種主觀選擇充滿不確定性,會導致技術方案不科學,難以確保技術方案的有效性,更難以發(fā)揮技術方案的最佳效能,無法滿足長期保存的要求。
2? Planets項目“目標樹”經驗分析
Planets項目是一項為期4年(2006—2010)的數字保存研究與開發(fā)項目,成員包括圖書館、檔案館、研究型大學和科技公司等。
該項目通過構建分布式的服務網絡框架,利用框架內的保存計劃、保存特征描述和保存工具等實現數字資源的長期保存,其核心工作包括六個部分:保存計劃、保存行動、保存特征描述、測試平臺、傳播和使用、互操作性框架。[16]其中,保存計劃旨在為保存方案的選擇提供決策支持,計劃內部的“目標樹”則為長期保存技術方案的優(yōu)化選擇提供了可供借鑒的范例。
2.1 “目標樹”的實現框架。“目標樹”具體表現為一個樹形結構圖,按層次高低設置了保存機構可測量的所有目標,據此對技術方案進行實驗評估,并根據實驗結果考察技術方案滿足長期保存需求的程度,從而優(yōu)化選擇技術方案并制定保存計劃。
參考Planets項目研究報告,[17]“目標樹”流程框架如圖1,其實現流程主要有四個步驟。
(1)創(chuàng)建目標樹。保存機構首先要明確保存需求并自上而下劃分目標層級,最高層目標通常分為四類:文件特征、記錄特征、過程特征和成本問題。[18]在此基礎上為目標樹中的所有目標分配可測量單位,如色彩深度的位數、每秒幀數等,以作為技術方案的實驗指標與評估依據。最后利用項目內的計劃工具Plato[19]創(chuàng)建目標樹,若保存機構條件有限,可在知識庫中提取目標樹的片段或模板完成創(chuàng)建。
(2)通過實驗測試技術方案。使用項目內的測試平臺Testbed,[20]對各種單獨或組合的技術方案進行測試,并根據實驗結果評估是否需要重復實驗,以保證技術方案的有效性。[21]
(3)分析比較技術方案。對技術方案的實驗測試結果進行分值轉換(0-5分),并結合目標分配權重系數,利用聚合函數Sum of Differences[22](差異求和)等,計算保存方案的總效用值和分效用值,根據總效用值排名并形成列表,分效用值則在必要時作為參考。
(4)確定保存方案,形成保存計劃。根據總效用值和分效用值推薦出最優(yōu)保存方案,并形成保存計劃存儲于知識庫中,保存計劃具有宏觀規(guī)劃和指導作用。
2.2 “目標樹”的經驗分析
2.2.1 客觀依據代替主觀臆測,提升技術方案科學性。通過Testbed運行的實驗,允許參與者系統(tǒng)地執(zhí)行實驗,實現了實驗的可重復性和結構化實驗文檔的長期可用性,[23]提升了技術方案的科學性?;趯嶒灥呐琶斜恚喢髑逦卣宫F了技術方案與保存目標的匹配程度,是優(yōu)化選擇的客觀依據,能夠避免因技術方案的不恰當應用所導致的風險,以保證數字檔案的長期可用性。
(1)避免技術方案選擇的盲目性和主觀性。由于缺少選擇標準,盲目選擇會導致決策出現失誤或錯誤,而依賴于經驗的技術方案選擇主觀性過強,也無法保證決策的準確客觀。從長期保存的角度看,復雜的信息技術更迭以及各種未知風險,將會使數字檔案長期保存面臨各種風險挑戰(zhàn),相應技術方案必須確保科學性,否則將導致巨大的隱患,直接影響長期保存效果。此外數字檔案長期保存是一項長期性工作,其間將有很多檔案管理人員經手,如果純粹依靠他們的經驗和主觀判斷,無疑會增加長期保存的風險。
(2)可重復的實驗充分驗證各類技術方案。Testbed可以對各類技術方案重復進行多次實驗,結構化的實驗文檔詳細記錄了實驗相關內容。從長期保存的角度看,這不僅可以對技術方案進行充分驗證,確保技術方案的可行性、有效性和協調性,而且可以作為優(yōu)化選擇的客觀依據,提升優(yōu)化選擇的科學性。
2.2.2 制定測量標準和尺度,串聯優(yōu)化選擇“核心線”。制定測量標準、制定測量尺度和運行實驗這三步共同構成了優(yōu)化選擇的“核心線”,這一流程是技術方案優(yōu)化選擇的中心部分,有助于從根本上解決技術方案的選擇亂象問題,實現長期保存的具體目標,即保證數字檔案的生存能力、可呈現能力和可理解能力。[24]
(1)與實驗過程串點為線,是技術方案優(yōu)化選擇的基石。制定測量標準,即為“目標樹”中的目標分配可測量單位,是順利進行實驗的基礎;制定測量尺度,即將實驗結果轉換為統(tǒng)一分值,是量化實驗結果的手段。二者既是實驗前后的基礎性工作,也是必不可少的環(huán)節(jié),與實驗過程串聯起來構成貫穿優(yōu)化選擇全過程的“核心線”。從長期保存角度看,風險因素種類多且充滿未知性,需要系統(tǒng)化、科學化的實驗設計,確保從多維度對技術方案進行充分檢驗和論證,才能保證技術方案針對各種風險因素的有效性。
(2)實驗結果具有可比性,為優(yōu)化選擇提供決策依據。制定測量標準和尺度,本質上是以量化的方法使實驗結果具有可比性,進而為技術方案的優(yōu)化選擇提供依據??陀^的度量標準與數值化的衡量尺度不僅是優(yōu)化選擇客觀依據的直接體現,還可以直觀顯現出不同技術方案的效用差異。從長期保存角度看,這種差異體現為保存效果的差異和技術方案的優(yōu)劣,直接決定了數字檔案長期保存的質量與效率;相反,失去量化比較這一核心思想的支撐,優(yōu)化選擇就會喪失客觀性,只能依靠檔案人員的經驗和主觀判斷。
2.2.3 內部粗評與外部精評相結合,遞進式推動優(yōu)化選擇進程??茖W的優(yōu)化選擇決策需要對技術方案進行全方位評估,“目標樹”通過將技術方案的內部粗略評估與外部精準評估相結合,以“模糊匹配+精準比較”的方法遞進式推動了優(yōu)化選擇的進程,也為長期保存整體工作的高效推進增添助力。
(1)內部粗略評估的方法與過程。內部粗略評估是為了確定是否需要重復實驗,即確定技術方案能否滿足機構的長期保存需求,根據步驟“將目標特征映射到需求”[25]的結果,在技術方案的內部,評估各個目標與機構長期保存需求的匹配程度??赏ㄟ^評估該程度的一致性來決定是否需要重復實驗。
這一階段確定了技術方案的初步篩選情況,如果省略此步驟則會導致具有迷惑性的極端數據干擾后續(xù)優(yōu)化選擇進程、無法識別因實驗設置錯誤或實驗設計不合理而造成的不利因素、無效數據冗余等情況。從長期保存角度看,經初步篩選的技術方案在整體上符合長期保存的總目標和總需求,因此,內部粗略評估有利于節(jié)約長期保存時間成本,精簡保存流程,還能規(guī)避因技術方案應用不合理所造成的技術風險,如數字檔案的不真實風險、不完整風險[26]等。
(2)外部精準評估的方法與過程。外部精準評估是面向各技術方案間的橫向比較,依據是經過比例轉換和權重分配后得出的排名列表,目的是評估各技術方案滿足機構長期保存目標和需求的總體程度,這將直接影響優(yōu)化選擇的最終決策,共分為三步:測量尺度的數值化轉換、權重系數的分配、利用聚合函數或技術得出方案效用值。
這一階段具有重要意義,不但以量化的方式精準實現了優(yōu)化選擇的目標,而且評估結果保證了優(yōu)化選擇決策的系統(tǒng)性,其最終結果也是推薦技術方案的關鍵依據。從長期保存角度看,優(yōu)化選擇目標的精準實現有利于確保長期保存技術方案的應用效果最大化,保障數字檔案的真實性、完整性和可用性;評估結果中分效用值的存在則考慮了長期保存的總體目標,對長期保存的整體規(guī)劃具有重要指導意義;如果省略此步驟會打斷優(yōu)化選擇進程,停留在初始的內部粗評階段且無法得出排名列表,無法對各種技術方案進行細致對比,則不能實現長期保存技術方案的優(yōu)化選擇。
2.2.4 形成全局性的保存計劃,推動長期保存持續(xù)發(fā)展。(1)擴大優(yōu)化選擇范圍,統(tǒng)籌長期保存整體規(guī)劃?!澳繕藰洹辈粌H針對技術方案進行優(yōu)化選擇,同時以全局視角考慮了保存方案的其他因素,如監(jiān)測規(guī)則、成本估算、決策證據、角色和責任等,打破了優(yōu)化選擇的范圍局限。從長期保存角度看,“目標樹”可以將優(yōu)化選擇上升到宏觀層面,并制定一個系統(tǒng)的全局保存計劃,計劃的有無不僅體現了對數字檔案長期保存的重視與否,更在一定程度上決定了長期保存工作的質量和能否實現可持續(xù)發(fā)展,[27]同時也為長期保存實踐作出了宏觀層面上的規(guī)劃設計。
(2)有利于構建長期保存技術體系。長期保存技術體系包括技術策略選擇、保存計劃管理、保存工作流管理等眾多組成部分,[28]“目標樹”不僅形成了搭配協調的技術方案,而且制定了全局性的保存計劃。從長期保存角度看,經由“目標樹”形成的保存計劃具有科學合理、經濟高效、考量周全等優(yōu)勢,技術方案與保存計劃對于構建長期保存技術體系具有重要價值,對于檔案部門的長期保存實踐工作也具有指導意義。
3 “目標樹”對我國數字檔案長期保存技術方案優(yōu)化選擇的啟示
3.1 構筑合作聯盟,科學評測技術方案。實驗是優(yōu)化選擇的核心部分,優(yōu)化選擇正是通過運行實驗和檢測各種技術方案的效用大小,進而推薦最優(yōu)方案以實現數字檔案的長期保存,這種方法具有較高的客觀性和科學性。針對如何開展實驗這一問題,我國檔案部門可以根據實際情況,面向社會廣泛構建合作聯盟,通過實驗為技術方案的優(yōu)化選擇注入科學力量。
在合作聯盟構建方面可以考慮兩種模式:一是檔案部門之間的合作,充分發(fā)揮一些檔案部門在長期保存和信息技術方面的優(yōu)勢,集體構建長期保存技術方案實驗測評體系,這種模式可以實現技術上的合作攻關與經費支持上的最佳分配[29];二是檔案部門與科研機構或信息技術公司之間的合作,將專業(yè)性和技術性較強的實驗測評體系外包出去,充分發(fā)揮相關科研機構或信息技術公司的技術優(yōu)勢,充分保障實驗測評體系的專業(yè)性與準確性,這種模式既能簡化工作流程,又能提高長期保存的工作效率。
3.2 培育量化思維,構建指標體系?!澳繕藰洹睘楦鱾€長期保存目標制定了測量標準和尺度,以便于直觀比較技術方案的效用差異,為技術方案優(yōu)化選擇提供充分依據。我國檔案部門可以借鑒其中的量化比較思想,摒棄傳統(tǒng)的經驗主導思維,運用量化思維構建技術方案評價指標體系。
在指標體系構建過程中,應該根據長期保存目標對評估內容進行細化,明確指標分級和設計權重,并對關鍵指標進行量化,以此對技術方案的功能效用進行充分檢驗。同時,該指標體系還可以為長期保存的質量評估提供參考。
3.3 引入效能分析與遞進評估,提供技術保障。目前,數字檔案長期保存領域的風險評估主要是以數字檔案資源為評估對象,如NARA“2017戰(zhàn)略”評估了數字檔案資源的格式與載體過時風險,據此選擇優(yōu)先采取的長期保存策略。[30]而“目標樹”則提供了新思路,即針對技術方案進行效用評估。
我國檔案部門可以采取如下做法:一是引入效能分析法,在效能分析的流程中每個步驟有各自的研究方法、測量方法和不同的測量指標,整個評價的過程透明而清晰,[31]有助于提高技術方案評估的規(guī)范性與準確性;二是借鑒“目標樹”的遞進式評估,首先初步篩選出大體符合保存目標和需求的技術方案,在此基礎上進行技術方案間的精細比較,有助于精簡評估流程、優(yōu)化選擇技術方案,為長期保存實踐提供技術保障。
3.4 樹立規(guī)劃意識與全局觀念,提供方向引領。我國檔案部門可以參照“目標樹”形成的全局性保存計劃,樹立規(guī)劃意識與全局觀念,為長期保存的整體實踐提供方向引領。長期保存策略安排目前缺乏全局性和整體性的規(guī)劃設計,致使技術方法的應用缺乏針對性或技術方法種類單一、功能欠缺,從而導致長期保存效果不彰、效益不高。[32]
我國檔案部門可以采取如下做法:一是要制定長期保存路線規(guī)劃,對長期保存的整體運行與未來發(fā)展作出全局性的設計與規(guī)劃,不僅為技術方案的優(yōu)化選擇提供保障,還可以在整體上促進長期保存的持續(xù)發(fā)展;二是要制定長期保存的總體目標,為技術方案的優(yōu)化選擇提供方向引導,指導優(yōu)化選擇朝著與保存目標更加契合的方向推進,促進技術方案效用最大化,提高數字檔案生存能力,如英國國家圖書館基于整體發(fā)展的需要,制定了保證數字館藏內容動態(tài)更新的目標。[33]需要注意的是,所制定的規(guī)劃與目標必須符合我國國情,最好形成正式的書面文件,在長期保存實踐中作為指導依據遵照執(zhí)行。
參考文獻:
[1][31]宛玲,吳振新,郭家義.數字資源長期戰(zhàn)略保存的管理與技術策略——中歐數字資源長期保存國際研討會綜述[J].現代圖書情報技術,2005(01):56-60.
[2][12]聶云霞.國家層面數字資源長期保存策略研究[D].武漢大學,2014.
[3]陶水龍.檔案數字資源云備份策略的分析與研究[J].檔案學通訊,2012(04):12-16.
[4][24]高旭,趙豪邁.數字檔案長期保存利用技術機制[J].檔案學通訊,2013(06):85-89.
[5]連成葉.論數字信息檔案長期安全保存策略[J].檔案學通訊,2004(03):34-38.
[6]史雅莉,趙童.數字檔案資源的長期保存元數據方案研究——以英國國家檔案館為例[J].北京檔案,2020(10):38-43.
[7]劉越男,吳云鵬.基于區(qū)塊鏈的數字檔案長期保存:既有探索及未來發(fā)展[J].檔案學通訊,2018(06):44-53.
[8]徐瑞平.數字遷移研究[J].河南圖書館學刊,2007(06):104-106.
[9]王軍.基于成本分析的數字資源長期保存策略研究——遷移法與仿真法比較[J].圖書情報知識,2006(01):74-77.
[10]肖秋會,張瑜.非結構化數字檔案資源長期保存的挑戰(zhàn)及應對策略[J].中國檔案,2016(07):74-77.
[11]陳慰湧,秦建偉.數字信息長期保存研究現狀分析[J].浙江檔案,2008(01):43-45.
[13][27]謝永憲,王巧玲,房小可,薛怡.我國國家綜合檔案館數字檔案信息長期保存現狀調查[J].檔案學通訊,2019(04):58-62.
[14]熊燕.數字資源長期保存的策略研究[J].農業(yè)圖書情報學刊,2010(04):124-127.
[15]謝永憲,王巧玲,閆格.我國檔案形成機構數字檔案信息長期保存現狀調查[J].北京檔案,2019(02):28-31.
[16]Planets[EB/OL].[2021- 05-15].http://www.planets - project.eu /.
[17][18][22]StephanStrodl,Christoph Becker,Natasa Milic-Frayling.Report on methodology for specifying preservation plans[R].Vienna:TUWIEN,2007.
[19][20]Plato[EB/OL].[2021-05-15].http://www.ifs.tuwien.ac.at/dp/plato/team/.html.
[21]耿志杰,程明宵.數字檔案長期保存技術策略規(guī)劃研究[J].檔案與建設,2018(05):24-26.
[23]BrianAitken,PetraHelwig,AndrewJackson,et al.The Planets Testbed:Science for Digital Preservation[J].Code4Lib Journal,2008(03)
[25]Christoph Becker,Hannes Kulovits,Andreas Rauber,et al.Plato:a service-oriented decision support system for preservation planning[C]//Proceedings of the ACM/IEEE Joint Conference on Digital Libraries (JCDL'08).Pittsburgh,Pennsylvania:ACM,2008.
[26]張瑜.數字檔案長期保存風險的識別與應對策略[D].武漢大學,2017.
[28]張智雄,林穎,吳振新等.數字信息資源長期保存技術體系研究[J].現代圖書情報技術,2006(04):2-7.
[29]陳清文,高紅文.數字檔案合作保存模式研究[J].浙江檔案,2010(01):26-27.
[30]祈天嬌.美國數字檔案資源長期保存戰(zhàn)略的分析與啟示[J].檔案學研究,2019(01):108-113.
[32]謝永憲.中國數字檔案信息長期保存的策略體系研究[M].北京:研究出版社,2019.
[33]柴會明.圖書館數字資源長期保存的目標?原則與策略——基于英美德澳4國國家圖書館數字保存戰(zhàn)略的分析[J].圖書館學研究,2020(14):57-62,75.
(作者單位:耿志杰,上海大學圖書情報檔案系講師;郭心竹,上海大學圖書情報檔案系在讀碩士研究生 來稿日期:2021-06-16)