楊帆 王強
摘 要?本文介紹了中石油在建設(shè)數(shù)字檔案長期保存系統(tǒng)、設(shè)計數(shù)字檔案長期保存數(shù)據(jù)架構(gòu)、制定數(shù)字檔案長期保存管理規(guī)范、采取多種形式的數(shù)字檔案存儲方式、實施數(shù)字檔案備份與容災策略等方面的做法,結(jié)合存在的問題,總結(jié)了構(gòu)建數(shù)字檔案長期保存框架體系的五點啟示:一是全面遵循OAIS參考模型設(shè)計可持續(xù)框架;二是建設(shè)適用的數(shù)字檔案長期保存系統(tǒng);三是建設(shè)基于認證的數(shù)字檔案長期保存管理體系;四是合理選擇長期保存工具與技術(shù)策略;五是打造企業(yè)數(shù)字檔案長期保存共贏生態(tài)。
關(guān)鍵詞 數(shù)字檔案 長期保存 中石油
中圖分類號 G273.2 文獻標識碼 A 收稿日期 2020-05-26
★作者簡介:楊帆,中油國際管道公司文檔管理主管;王強,中國石油檔案館副研究館員,中國人民大學電子文件管理研究中心研究員。
Abstract? This paper introduces CNPC's practices of digital archives in the construction of long-term preservation system, the design of long-term preservation data architecture, the formulation of long-term preservation management specifications, the adoption of multiple storage methods, the implementation of backup and disaster recovery strategies. In view of the existing problems, the paper summarizes five implications of building a long-term preservation framework system of digital archives: The first is to fully follow the OAIS reference model to design a sustainable framework; the second is to build a suitable long-term preservation system for digital archives; the third is to build a certification based long-term preservation management system for digital archives; the fourth is to reasonably select long-term preservation tools and technical strategies; and the fifth is to create a win-win ecology for long-term preservation of enterprise digital archives.
Keyword? digital archives; long-term preservation; CNPC
企業(yè)檔案是企業(yè)的重要信息資源和知識資產(chǎn),隨著企業(yè)信息化和檔案信息化的深入推進,數(shù)字檔案日益成為檔案管理的主要對象并成為企業(yè)數(shù)據(jù)資產(chǎn)的重要內(nèi)容,數(shù)字檔案長期保存是持續(xù)維護和開發(fā)數(shù)字檔案資源與資產(chǎn)價值的基礎(chǔ)。因而,如何通過數(shù)字檔案保存維護數(shù)字對象的長期可獲取與可用成為重要議題。
于國家層面,我國的數(shù)字檔案館與數(shù)字檔案室戰(zhàn)略從基礎(chǔ)設(shè)施、管理系統(tǒng)到實施方案正探索持續(xù)推進的整體框架,美國的ERA、加拿大的數(shù)字可信倉儲、澳大利亞的數(shù)字連續(xù)性政策均從不同方面探討數(shù)字檔案長期保存在國家層面的布局和政府部門中的落實。然而,對于企業(yè)這類重要社會組織機構(gòu)而言,如何立足其性質(zhì)與職能展開數(shù)字檔案保存缺乏較多元與代表性的實踐參照。這同樣體現(xiàn)在國內(nèi)外的理論研究中。較具國際影響力的跨國項目InterPARES從理論基礎(chǔ)、原則與方法、具體方案探討電子文件與檔案的長久保存要義。我國近年來除明確數(shù)字檔案以及電子文件以真實性、可信性為主的概念外,一方面,從保存格式、元數(shù)據(jù)模型、保管技術(shù)如區(qū)塊鏈等方面研究具體的戰(zhàn)略、策略、標準、方案[1][2][3][4]等;另一方面,明確檔案數(shù)據(jù)化的趨勢,提出面臨的挑戰(zhàn)與應對設(shè)想[5]。這些研究同樣更多立足于政府機構(gòu)或公共檔案館的范疇中,缺少企業(yè)數(shù)字檔案長期保存實踐數(shù)據(jù)與理論框架,對于企業(yè)如何開展數(shù)字檔案長期保存缺失系統(tǒng)和具有實踐論證的指導。
因之,本文將以中石油數(shù)字檔案長期保存實踐為案例,對具體行動及其進展予以全面說明,結(jié)合理論框架呈現(xiàn)更具應用價值的策略,以期為企業(yè)主體乃至更普遍的數(shù)字檔案長期保存提供參照。
一、中石油數(shù)字檔案長期保存多元維度解析
1.建設(shè)數(shù)字檔案長期保存系統(tǒng)。中石油檔案管理系統(tǒng)基于OAIS(Open Archival Information System,開放檔案信息系統(tǒng))參考模型建設(shè),業(yè)務功能包括收集整理、檔案管理、長期保存、開發(fā)利用、管理支撐五大模塊112項功能。長期保存模塊是檔案管理系統(tǒng)核心模塊之一,主要實現(xiàn)電子檔案的長久保存,包括電子文件格式管理、元數(shù)據(jù)封裝、數(shù)據(jù)包維護、“四性”檢查等功能。功能描述如下:電子文件格式管理,按照國家和中石油電子文件格式規(guī)范要求,在線維護系統(tǒng)管理的電子文件格式規(guī)則,并可自動完成每種格式的電子文件數(shù)量、占用大小、平均大小等數(shù)據(jù)統(tǒng)計;電子檔案存儲格式轉(zhuǎn)換與信息組織,通過對電子檔案存儲格式的轉(zhuǎn)換,將存入系統(tǒng)的電子檔案轉(zhuǎn)換為符合長期保存要求的存儲格式;電子檔案長期保存,采用遷移、封裝、檢測等方式保障數(shù)字檔案信息的長期保管;對非通用格式電子檔案閱讀所需要的原始軟硬件在系統(tǒng)中進行標識;元數(shù)據(jù)封裝,支持在線對電子檔案設(shè)置元數(shù)據(jù)及數(shù)據(jù)長久保存封裝規(guī)則,根據(jù)規(guī)則自動進行數(shù)據(jù)封裝;數(shù)據(jù)包維護,支持通過數(shù)據(jù)包管理功能查看電子文件和電子檔案相關(guān)數(shù)據(jù)封裝后情況;備份,支持軟件系統(tǒng)、數(shù)據(jù)庫和電子檔案備份,根據(jù)數(shù)據(jù)重要程度選擇在線、離線等不同備份方式;“四性”檢查,支持針對電子文件和電子檔案來源、內(nèi)容是否被篡改,信息構(gòu)成是否完整,元數(shù)據(jù)和特殊軟硬件是否完整,是否具備信息可識別性、存儲系統(tǒng)可靠性、載體完好和兼容性等涉及“真實性、完整性、可靠性、可用性”的指標項進行在線監(jiān)測和維護。
2.設(shè)計數(shù)字檔案長期保存數(shù)據(jù)架構(gòu)。數(shù)據(jù)架構(gòu)參照OAIS參考模型進行設(shè)計。根據(jù)業(yè)務應用場景對檔案業(yè)務數(shù)據(jù)進行分庫管理,并結(jié)合分布式存儲技術(shù)對數(shù)據(jù)內(nèi)容進行存儲,在功能、性能兩方面滿足業(yè)務發(fā)展需要。
從業(yè)務與信息系統(tǒng)自動歸檔或歸檔人員手工上傳的電子文件對應OAIS中SIP數(shù)據(jù)包,其電子文件和關(guān)聯(lián)的背景信息除以原始文件形式保存在數(shù)字檔案館系統(tǒng)外,還將背景信息中的結(jié)構(gòu)化數(shù)據(jù)保存在數(shù)字檔案館數(shù)據(jù)庫中,以方便查找利用。歸檔辦結(jié)的檔案中,對于有長久保存價值的(如保管期限為30年及以上的)電子文件,數(shù)字檔案館系統(tǒng)自主定制了專業(yè)數(shù)據(jù)包,對應OAIS中的AIP數(shù)據(jù)包。該數(shù)據(jù)包在檔案辦結(jié)穩(wěn)定后,由后臺打包服務自動完成長久保存數(shù)據(jù)包封裝工作,并保存在一套獨立的存儲中。用戶借閱的電子文件,對應OAIS中的DIP數(shù)據(jù)包,在用戶進行借閱時,系統(tǒng)自動生成帶權(quán)限保護的加密壓縮數(shù)據(jù)包,每個借閱者都有其獨立副本,只能通過系統(tǒng)自主開發(fā)的文件保護客戶端由授權(quán)用戶打開利用。
3.制定數(shù)字檔案長期保存管理規(guī)范。一是歸檔電子文件元數(shù)據(jù)規(guī)范。保存元數(shù)據(jù)是電子檔案長期保存重要技術(shù)保障措施之一,中國石油從集團公司層面制定了企業(yè)標準《歸檔電子文件元數(shù)據(jù)規(guī)范》(QS/Y10542—2018)。該標準定義了文件實體元數(shù)據(jù)(文件本身屬性內(nèi)容)、業(yè)務實體元數(shù)據(jù)(處理文件過程中的業(yè)務狀態(tài)、行為)和實體關(guān)系元數(shù)據(jù)(實體關(guān)系類型、關(guān)系及表述等)三個域,規(guī)定了歸檔電子文件元數(shù)據(jù)的元素、結(jié)構(gòu)、表述方法和封裝,以滿足數(shù)字檔案長期保存的需要。針對每類電子文件明確元數(shù)據(jù)項,如電子會計檔案元數(shù)據(jù)共81項,其中文件實體元數(shù)據(jù)71項、業(yè)務實體元數(shù)據(jù)6項、實體關(guān)系元數(shù)據(jù)4項。電子合同檔案元數(shù)據(jù)共93項,其中文件實體元數(shù)據(jù)83項、業(yè)務實體元數(shù)據(jù)6項、實體關(guān)系元數(shù)據(jù)4項。二是歸檔電子文件格式規(guī)范。中石油從集團公司層面制定了企業(yè)標準《歸檔電子文件格式規(guī)范》,規(guī)定了歸檔電子文件長期保存格式應具有的特征和選擇原則,定義了純文本文件、格式化文本文件、版式文件、圖像文件、矢量圖形文件、音頻文件、視頻文件的歸檔電子文件的長期保存格式,同時定義了可提供保護的電子文件格式共7類,包括25種,如版式文件采用PDF格式、XPS格式、OFD格式,純文本文件采用TXT格式、XML格式。
4.采取多種形式的數(shù)字檔案存儲方式。在數(shù)據(jù)保存方式上,檔案管理系統(tǒng)中所有檔案條目數(shù)據(jù)均保存在結(jié)構(gòu)化數(shù)據(jù)庫中,對應的電子文件保存在以NAS作為底層存儲的分布式文件存儲中,該保存方式結(jié)構(gòu)公開,無技術(shù)偏好性,后期可隨時更換底層的NAS存儲以使用其他技術(shù)。以上數(shù)據(jù)均為方便在線利用進行保存。對于具備長久保存價值的電子文件及其相應的元數(shù)據(jù),設(shè)計了一套以ZIP壓縮包為封裝載體,以分級文件夾進行電子文件組織,以XML文件為結(jié)構(gòu)化數(shù)據(jù)組織的數(shù)據(jù)包封裝方案。數(shù)據(jù)包中存儲的XML文件保留了檔案形成過程中產(chǎn)生的各類審批信息、源頭信息和簽名信息等。每份檔案一個數(shù)據(jù)包,每個數(shù)據(jù)包均采用公開方式進行封裝,沒有加密操作,以確保長久保存數(shù)據(jù)脫離檔案管理系統(tǒng)也可進行利用。長久保存數(shù)據(jù)包可定期存儲在磁帶庫或不可覆蓋的光盤介質(zhì)中,并將介質(zhì)進行登記與離線保存,防止數(shù)據(jù)被篡改。未來如在線系統(tǒng)中保存的檔案數(shù)據(jù)丟失,或與長久保存數(shù)據(jù)包中的數(shù)據(jù)出現(xiàn)不一致時,均以長久保存數(shù)據(jù)包中的數(shù)據(jù)為準。在硬件存儲方式上,檔案管理系統(tǒng)計算資源與存儲資源全部由中石油云計算平臺提供,其中結(jié)構(gòu)化數(shù)據(jù)底層存儲采用SAN存儲區(qū)域網(wǎng)絡(Storage Area Network),非結(jié)構(gòu)化數(shù)據(jù)采用NAS網(wǎng)絡連接存儲(Network-Attached Storage),備份數(shù)據(jù)采用磁帶庫方式保存。
5.實施數(shù)字檔案備份與容災策略。數(shù)據(jù)庫備份策略:每周一至周六進行差異備份,周日進行全量備份。每天每隔三小時整點進行事務日志備份。每日對數(shù)據(jù)庫備份完后對備份文件再次進行磁帶庫自動備份。每月30日在測試環(huán)境進行備份可用性恢復測試。電子文件備份策略:生產(chǎn)環(huán)境每日變化的電子文件數(shù)據(jù),相關(guān)服務自動進行復制,復制至單獨磁盤,并對磁盤文件每天進行磁帶庫備份。如出現(xiàn)需要恢復電子文件的情況,根據(jù)當日備份文件進行恢復。系統(tǒng)容災策略:檔案管理系統(tǒng)生產(chǎn)環(huán)境部署在北京數(shù)據(jù)中心,異地災備環(huán)境規(guī)劃在新疆數(shù)據(jù)中心,兩個數(shù)據(jù)中心間具備萬兆光纖進行數(shù)據(jù)傳輸與同步。中石油通過建設(shè)數(shù)字檔案長期保存系統(tǒng)、設(shè)計數(shù)字檔案長期保存數(shù)據(jù)架構(gòu)、制定數(shù)字檔案長期保存管理規(guī)范、采取多種形式的數(shù)字檔案存儲方式、實施數(shù)字檔案備份與容災策略等措施,基本實現(xiàn)數(shù)字檔案的安全保管和長期可用。
二、中石油數(shù)字檔案長期保存主要問題
通過選擇數(shù)字保存能力成熟度模型(DPCMM)進行評價,中石油數(shù)字檔案長期保存主要存在以下問題。一是沒有系統(tǒng)化的數(shù)字檔案長期保存框架。主要體現(xiàn)在OAIS的核心要素缺失——偏宏觀管理活動而非檔案業(yè)務活動的行政管理和保存規(guī)劃模塊的功能并沒有納入到檔案管理系統(tǒng)建設(shè)中,說明業(yè)務和系統(tǒng)在整體建設(shè)與規(guī)劃中缺少對于OAIS體系性的認識。二是缺乏數(shù)字檔案長期保存體系認證意識。中石油尚且處于數(shù)字對象管理的功能建設(shè)階段,并沒有實施任何功能認證。三是數(shù)字檔案長期保存技術(shù)與工具體系不完備。中石油在開展檔案長期保存活動時,運用了數(shù)字對象封裝技術(shù)、“四性”檢測等校驗技術(shù)、災難備份與恢復技術(shù)和安全風險管理等。以數(shù)字封裝為例,中石油目前使用的是常規(guī)的ZIP壓縮工具,直接將內(nèi)容信息與元數(shù)據(jù)進行壓縮打包,而沒有做任何XML格式封裝處理。對照基于OAIS的數(shù)字保存技術(shù)工具與服務體系,如在接收功能方面,缺少數(shù)字對象封裝技術(shù)、完整性校驗技術(shù)。以上問題是很多企業(yè)開展數(shù)字檔案長期保存時容易忽視的問題,應引起重視。
三、數(shù)字檔案長期保存策略
1.框架指引:全面遵循OAIS參考模型設(shè)計可持續(xù)框架。OAIS(開放檔案信息系統(tǒng))(ISO 14721:2012)作為國際公認的數(shù)字信息長期保存標準,為數(shù)字檔案長期保存提供了一個基本的框架,它所提出的信息模型對于制訂長期保存元數(shù)據(jù)方案和指導數(shù)據(jù)封裝具有重要的參考價值。此外,OAIS還針對數(shù)字信息的特點及生命運動規(guī)律,提供了包含六個基本功能模塊的功能模型,為企業(yè)數(shù)字檔案長期保存系統(tǒng)框架的構(gòu)建提供了科學指導。值得注意的是,OAIS參考模型針對不同的應用對象,有著不同的具體實現(xiàn),而且OAIS所提出的理論設(shè)想并不都具有絕對可行性,需要加以靈活應用。
2.系統(tǒng)保障:建設(shè)適用的數(shù)字檔案長期保存系統(tǒng)。建設(shè)數(shù)字檔案長期保存系統(tǒng)是實現(xiàn)數(shù)字檔案長期保存的重要載體。數(shù)字檔案長期保存系統(tǒng)的開發(fā)和建構(gòu),可基于《信息與文件—文件管理—第一部分:總則》(ISO 15489)的概念模型,也可參考OAIS參考模型提供的系統(tǒng)架構(gòu)。ISO 15489作為整個文件與檔案管理領(lǐng)域公認的奠基標準,其確立的一系列概念與管理原則在各個長期保存標準中也得到了廣泛繼承和發(fā)展。OAIS參考模型是建設(shè)可信數(shù)字資源保存庫的基本參照和重要指南。很多檔案館、圖書館及出版機構(gòu)等應用OAIS構(gòu)建了數(shù)字信息長期保存系統(tǒng),如美國國家檔案館以O(shè)AIS為參照,開發(fā)了著名的數(shù)字檔案館(ERA)項目;歐洲NEDLIB項目以O(shè)AIS的功能模塊為參照,構(gòu)建了電子出版物版本系統(tǒng)(DSEP)。在參照OAIS功能模型時,一些企業(yè)常常忽視行政管理功能的建設(shè),行政管理功能通常包括制定標準和政策、管理系統(tǒng)配置、審查提交、商定提交協(xié)議等,在整個OAIS系統(tǒng)中扮演著宏觀組織、控制和協(xié)調(diào)的重要角色,與其他五個功能實體保持聯(lián)系和互動。另外,它還具有檔案信息更新、物理存取控制、激活需求和客戶服務等多項業(yè)務功能。因此,企業(yè)在參照OAIS功能模型建設(shè)數(shù)字檔案長期保存系統(tǒng)時,應格外重注行政管理功能的建設(shè)。
3.體系作戰(zhàn):建設(shè)基于認證的數(shù)字檔案長期保存管理體系。健全的管理體系是數(shù)字檔案長期保存的重要保障。企業(yè)可遵循《可信數(shù)字倉儲審計與認證:標準與審計表》(TRAC)國際標準,建立可信可認證的長期保存技術(shù)與管理體系?;緝?nèi)容可從三個基本層次展開,即組織基礎(chǔ)建設(shè)、數(shù)字對象管理、技術(shù)基礎(chǔ)設(shè)施及安全保障,在每一個層次又可進一步展開和細分,形成具有可操作性的二級和三級指標。同時,可參考國家檔案局在2017年發(fā)布的《企業(yè)數(shù)字檔案館(室)建設(shè)指南》,以其基本要求為指導,健全管理體系。
4.技術(shù)支撐:合理選擇長期保存工具與技術(shù)策略。企業(yè)應重視以下方面技術(shù)應用。一是格式管理技術(shù)。我國檔案行業(yè)標準《版式電子文件長期保存格式需求》(DA/T47—2009)作出了明確規(guī)定:支持真實性、格式透明、不綁定軟硬件、格式自包含、格式自描述、固定顯示、持續(xù)可解釋、持續(xù)可用、可轉(zhuǎn)換、易存儲。《電子文件歸檔與電子檔案管理規(guī)范》(GB/T 18894—2016),規(guī)定了不同類型文件的格式要求。企業(yè)在實施格式管理策略時,應在已有標準和實踐基礎(chǔ)上,開展格式注冊管理,明確規(guī)定所接收的歸檔文件格式類型、非標準格式轉(zhuǎn)化為標準格式的流程和技術(shù)要求,以及格式轉(zhuǎn)換的質(zhì)量控制。由于格式本身處于動態(tài)變化之中,加之電子檔案本身覆蓋的業(yè)務范圍廣泛,信息類型多樣,因此企業(yè)宜定期發(fā)布數(shù)字檔案長期保存格式推薦指南。二是遷移技術(shù)。遷移技術(shù)是數(shù)字保存領(lǐng)域應用最為普遍且相對成熟的技術(shù)策略。目前,主要有物理遷移(存儲介質(zhì)遷移)和邏輯遷移(文件格式遷移)兩種方式,企業(yè)需要結(jié)合自身情況制定合理的遷移管理策略。另外,由于目前還有大量非標準格式的電子文件存在,數(shù)據(jù)格式尚處在自我發(fā)展階段,缺乏必要的整合,軟件系統(tǒng)也是類似情況,因而建立遷移管理中心,集中應對舊有信息的遷移工作,在成本控制、技術(shù)保障方面很有優(yōu)勢,便于對類似數(shù)據(jù)庫系統(tǒng)、多媒體信息、地理信息系統(tǒng)等復雜文件的遷移提供服務。三是封裝技術(shù)。封裝技術(shù)通過將元數(shù)據(jù)和內(nèi)容直接關(guān)聯(lián)打包為一體的形式,實現(xiàn)數(shù)字檔案自包含、自描述和自證明,成為數(shù)字檔案安全管理較為有效的一種技術(shù)手段。目前,較典型的幾種封裝結(jié)構(gòu)或模型有VEO(VERS Encapsulation Object)封裝包、METS(Metadata Encoding and Transmission Standard,數(shù)據(jù)編碼和傳輸格式)封裝、XML封裝。我國制定了行業(yè)標準《基于XML的電子文件封裝規(guī)范》(DA/T 48—2009),《電子檔案移交與接收辦法》規(guī)定“一般采用基于XML的封裝方式組織檔案數(shù)據(jù)”。四是面向未來搭建長期保存工具與服務體系。目前,相關(guān)機構(gòu)開發(fā)出檔案接收、檔案存儲與數(shù)據(jù)管理、檔案存取、保存規(guī)劃等方面各類軟件工具并提供有關(guān)支持服務。企業(yè)可選擇性引進使用,面對眾多的軟件工具,有必要建立長期保存工具統(tǒng)一管理模塊,開展工具的注冊和備案管理。
5.協(xié)同治理:打造企業(yè)數(shù)字檔案長期保存共贏生態(tài)。數(shù)字檔案長期保存是一項系統(tǒng)工程,從企業(yè)內(nèi)部看,涉及檔案部門、業(yè)務部門、數(shù)據(jù)管理部門等多個主體;從企業(yè)外部看,涉及國家檔案行政管理部門、社會研究機構(gòu)、各類相關(guān)企業(yè)等。因此,建立各參與主體間的良性互動機制,打造企業(yè)數(shù)字檔案長期保存共贏生態(tài),是企業(yè)數(shù)字檔案長期保存可持續(xù)發(fā)展的有效途徑??蓮囊韵路矫骈_展合作:一是數(shù)字檔案資源長期保存合作體系的構(gòu)建、政策的制定。二是數(shù)字檔案長期保存前后端業(yè)務活動的協(xié)調(diào),特別是提前介入數(shù)字檔案的產(chǎn)生、流轉(zhuǎn)過程,參與業(yè)務信息系統(tǒng)的設(shè)計。三是數(shù)字檔案長期保存標準規(guī)范的制訂。為保證數(shù)字檔案長期保存業(yè)務標準的適用性,文件形成部門、檔案部門、技術(shù)部門、利用者、政府等多方主體應共同參與,在進行充分調(diào)查的基礎(chǔ)上制定數(shù)字檔案長期保存標準與規(guī)范。四是技術(shù)研發(fā)。開發(fā)具有國產(chǎn)自有知識產(chǎn)權(quán)的管理軟件和硬件。
參考文獻
[1]祁天嬌. 美國數(shù)字檔案資源長期保存戰(zhàn)略的分析與啟示[J]. 檔案學研究,2019(1):108-113.
[2]錢毅. 基于OAIS 的數(shù)字檔案資源長期保存認證策略研究[J]. 檔案學研究,2018(4):72-77.
[3]肖秋會,高婷. 電子文件長期保存格式標準研究[J]. 信息資源管理學報,2017(2):71-76.
[4]劉越男,楊建梁. 面向電子文件保存的統(tǒng)一元數(shù)據(jù)模型的構(gòu)建[J]. 中國圖書館學報,2017(2):66-79.
[5]錢毅. 數(shù)據(jù)態(tài)環(huán)境中數(shù)字檔案對象保存問題與策略分析[J]. 檔案學通訊,2019(4):40-47.