趙鈺婷
一、引言
電子檔案被定義為“具有憑證、查考和保存價值并歸檔保存的電子文件”,由于容量大、占地小、便于檢索和管理,逐漸成為當(dāng)今時代常用且與時俱進(jìn)的檔案形式。在檔案管理中,元數(shù)據(jù)是描述檔案資源內(nèi)容、結(jié)構(gòu)、背景等的數(shù)據(jù),有助于高效管理電子檔案,保障其真實(shí)性、完整性、可靠性和可用性等。隨著電子檔案的大量產(chǎn)生,識別、收集和管理用于電子檔案管理的元數(shù)據(jù)至關(guān)重要,迫切需要探析科學(xué)的元數(shù)據(jù)方案,定義電子檔案元數(shù)據(jù)和元數(shù)據(jù)元素之間的邏輯結(jié)構(gòu),助力電子檔案管理工作,以便為后續(xù)的檔案信息化建設(shè)工作提供指導(dǎo)。
二、元數(shù)據(jù)對電子檔案的作用
(一)規(guī)范電子檔案管理流程
元數(shù)據(jù)是電子檔案不可或缺的組成部分,伴隨著電子文件的產(chǎn)生到歸檔的全程,因此,充分捕獲與收集元數(shù)據(jù)十分重要。與傳統(tǒng)的檔案收集相比,電子環(huán)境下以更準(zhǔn)確和科學(xué)的方式和數(shù)據(jù)形式捕捉檔案的內(nèi)容、結(jié)構(gòu)和背景。可以說,元數(shù)據(jù)作為重要的基本數(shù)據(jù),是實(shí)現(xiàn)電子檔案標(biāo)準(zhǔn)化管理的重要基礎(chǔ)[1],它貫穿電子文件生命全程,組成電子檔案,并規(guī)范其管理流程。
(二)輔助電子檔案數(shù)據(jù)查詢
在檔案數(shù)據(jù)管理時代,任何類型的檔案數(shù)據(jù)采集都離不開對元數(shù)據(jù)的關(guān)注[2]。元數(shù)據(jù)是電子檔案數(shù)據(jù)查詢的基礎(chǔ),查詢與利用電子檔案就是檢索元數(shù)據(jù)。元數(shù)據(jù)不僅能輔助電子檔案查詢,如輸入文件名、機(jī)構(gòu)等元數(shù)據(jù)實(shí)現(xiàn)電子檔案的精準(zhǔn)定位,還能通過設(shè)置并規(guī)范填寫元數(shù)據(jù)輔助結(jié)構(gòu)化分析,基于此可以實(shí)現(xiàn)電子檔案的統(tǒng)計、編研、分析利用。
(三)助力電子檔案四性檢測
四性檢測是電子檔案生命周期管理的關(guān)鍵要素,其目的是通過驗(yàn)證電子檔案的真實(shí)性、完整性、可靠性和可用性。電子文件是可復(fù)制、可修改的,而元數(shù)據(jù)是伴隨電子文件從生成到最終歸檔管理的數(shù)據(jù),能充分記錄其各項(xiàng)內(nèi)容信息,包括電子文件自身屬性、技術(shù)環(huán)境等,是電子檔案真實(shí)性的重要保障,可以說,元數(shù)據(jù)構(gòu)成了四性檢測的來源和基礎(chǔ)。
(四)推動電子檔案資源開發(fā)
元數(shù)據(jù)是實(shí)現(xiàn)語義網(wǎng)的基礎(chǔ),它能為不同形態(tài)的電子檔案提供描述方法、基準(zhǔn),也為分布式信息以及多種檔案資源的信息系統(tǒng)提供整合工具,令其具備最基礎(chǔ)的結(jié)構(gòu)特征[3]。元數(shù)據(jù)不僅是確保電子檔案真實(shí)性、完整性、可讀性等的基礎(chǔ),也是整合檔案資源和信息集成與共享系統(tǒng)不可或缺的工具??梢哉f,元數(shù)據(jù)是電子檔案數(shù)據(jù)的基礎(chǔ)和核心,有利于電子檔案的保護(hù)與長期有效的存儲、有利于科學(xué)管理電子檔案、有利于電子檔案的查詢和利用[4],以此推動電子檔案資源開發(fā)。
三、電子檔案及其對元數(shù)據(jù)方案的影響
(一)電子檔案的特性
第一,電子檔案基于系統(tǒng)生成,并且在創(chuàng)建電子文件的同時生成相關(guān)元數(shù)據(jù)。從創(chuàng)建電子文件到歸檔形成電子檔案的整個過程都離不開系統(tǒng)支持,元數(shù)據(jù)記錄了各種痕跡、特征,是電子檔案系統(tǒng)依賴性的直接體現(xiàn)。第二,由于在虛擬環(huán)境生成,檔案工作者難以通過固定載體來判斷電子檔案是否為原件。電子文件從生成到歸檔始終處于實(shí)時運(yùn)轉(zhuǎn)過程,由于其與載體的可分離性,判斷是否為原件需采用技術(shù)手段,通過嚴(yán)格的運(yùn)作程序,能夠最大程度避免失真。第三,電子檔案的存儲時間長且要求高。不同種類檔案的重要性和保存要求也存在差異[5],憑證價值的維護(hù)、復(fù)雜的數(shù)據(jù)形態(tài)和巨大的數(shù)據(jù)體量也對電子檔案的保存構(gòu)成了挑戰(zhàn),因此,電子檔案的存儲要求比普通計算機(jī)數(shù)據(jù)嚴(yán)格得多。
(二)電子檔案對元數(shù)據(jù)方案的影響
上述特點(diǎn)使電子檔案面臨真實(shí)性、完整性、可用性和安全性等多方面的挑戰(zhàn),繼而影響電子檔案管理的元數(shù)據(jù)方案設(shè)計。一方面,檔案與其他事物最本質(zhì)的區(qū)別在于其原始性和真實(shí)性,因而要突出元數(shù)據(jù)能夠保證電子檔案的原始性和真實(shí)性的價值[6],電子檔案可修改復(fù)制、元數(shù)據(jù)的完整性維護(hù)、電子檔案不同組成部分的關(guān)系保持等都是需要考慮的問題;另一方面,對元數(shù)據(jù)方案的設(shè)計提出功能實(shí)施層面的要求,由于電子檔案種類繁多,需要按照電子檔案的類型、技術(shù)環(huán)境、職能等特征進(jìn)行標(biāo)準(zhǔn)化分類,便于各個領(lǐng)域獲取相應(yīng)的檔案資源。
四、電子檔案管理的元數(shù)據(jù)方案
(一)設(shè)計原則
第一,電子檔案也是檔案,其相應(yīng)的元數(shù)據(jù)方案應(yīng)以尊重檔案、尊重客觀、尊重元數(shù)據(jù)與整體間的有機(jī)聯(lián)系為原則,使元數(shù)據(jù)與電子檔案內(nèi)容信息保持關(guān)聯(lián)。第二,電子檔案元數(shù)據(jù)伴隨其整個生命階段生成,元數(shù)據(jù)方案的設(shè)計應(yīng)始終堅(jiān)持前端控制與全過程管理的原則,推動電子檔案管理工作科學(xué)展開。第三,充分考慮數(shù)據(jù)格式、編碼規(guī)則等,使得元數(shù)據(jù)與電子檔案內(nèi)容信息間的關(guān)聯(lián)有效、有邏輯可言,進(jìn)而實(shí)現(xiàn)數(shù)據(jù)交換、信息共享,提高元數(shù)據(jù)管理的效率。
(二)元數(shù)據(jù)方案
元數(shù)據(jù)伴隨電子檔案的生命全過程,從生成到捕獲,再到封裝,最后到維護(hù),每一環(huán)節(jié)環(huán)環(huán)相扣,需要進(jìn)行合理的安排,以此助力電子檔案管理工作。
在生成環(huán)節(jié),主要是確定元數(shù)據(jù)的值域以便形成確定的元數(shù)據(jù)內(nèi)容,應(yīng)采用統(tǒng)一軟件進(jìn)行處理,避免元數(shù)據(jù)格式轉(zhuǎn)換中的錯誤,并將識別的元數(shù)據(jù)內(nèi)容存儲在數(shù)據(jù)庫中。在捕獲環(huán)節(jié),采用人工與計算機(jī)著錄相結(jié)合的方式,并檢查元數(shù)據(jù)的內(nèi)容、邏輯等,做好質(zhì)量控制。在封裝環(huán)節(jié),按照不同級別對元數(shù)據(jù)進(jìn)行封裝,每一個封裝包要包含一個基于XML結(jié)構(gòu)的數(shù)據(jù)文件和相關(guān)元數(shù)據(jù),多個文件封裝包就形成了更高一級的基于XML結(jié)構(gòu)的數(shù)據(jù)文件。在維護(hù)環(huán)節(jié),關(guān)鍵在于保持電子檔案與元數(shù)據(jù)間的關(guān)聯(lián),避免由于存儲方法而影響電子檔案的整合和它們之間關(guān)系的穩(wěn)定性。
為了更好地進(jìn)行電子檔案管理,充分發(fā)揮電子檔案價值,電子檔案的原始文本及其索引數(shù)據(jù)可以單獨(dú)保存,由專門的文件資源管理系統(tǒng)對接數(shù)據(jù)庫系統(tǒng)。前者負(fù)責(zé)獲取存儲站點(diǎn)和數(shù)據(jù)文件之間的關(guān)系,并將數(shù)據(jù)報告給后者便于其記錄與存儲,而后者則是通過XML的元數(shù)據(jù)記錄導(dǎo)入或更新數(shù)據(jù)表,并通過這些數(shù)據(jù)表提供其他應(yīng)用程序、訪問和服務(wù)(圖1)。
在電子檔案管理過程引入元數(shù)據(jù)方案,旨在更好地記錄電子檔案著錄信息、標(biāo)識、管理信息,并為用戶提供完善的服務(wù)。電子檔案的所有索引信息存儲在與電子檔案的原始文本相對應(yīng)的XML文件中,新增文件資源管理系統(tǒng),以確保索引文件與相應(yīng)檔案的原始文本之間的關(guān)系不受干擾,用戶通過前臺系統(tǒng)提取所需檔案相關(guān)信息。如此一來,系統(tǒng)可以自動完成關(guān)于電子檔案的一切操作,并且記錄電子檔案的讀取時間、操作過程,從而在一定程度上保證了電子檔案真實(shí)性、完整性、可靠性和可用性。
五、實(shí)施路徑探析
(一)制定科學(xué)的元數(shù)據(jù)標(biāo)準(zhǔn)
目前為止,我國已經(jīng)制定了一些元數(shù)據(jù)行業(yè)標(biāo)準(zhǔn),如《文書類電子文件元數(shù)據(jù)方案》《照片類電子檔案元數(shù)據(jù)方案》和《電子文件元數(shù)據(jù)標(biāo)準(zhǔn)》等。沒有及時捕獲、記錄和有效管理元數(shù)據(jù)是造成電子檔案損失的一大風(fēng)險因素,應(yīng)對此類風(fēng)險因素,國家層面應(yīng)當(dāng)制定電子檔案長期保存元數(shù)據(jù)標(biāo)準(zhǔn),相關(guān)部門也亟需制定科技類、音頻類、視頻類電子檔案元數(shù)據(jù)標(biāo)準(zhǔn)。除了對電子檔案元數(shù)據(jù)的設(shè)計和捕獲提出要求,還應(yīng)關(guān)注其管理,制定相關(guān)元數(shù)據(jù)管理標(biāo)準(zhǔn),以此對元數(shù)據(jù)檢測、保存和記錄等管理方面的要求作出規(guī)定。此外,還應(yīng)區(qū)分不同類型的元數(shù)據(jù),制定專門針對長期保存的元數(shù)據(jù)標(biāo)準(zhǔn)[7],為電子檔案的價值發(fā)揮奠定基礎(chǔ)。
(二)探尋獨(dú)特的檔案元數(shù)據(jù)
檔案與諸如圖書、情報之類的其他相似事物有本質(zhì)區(qū)別,在其他領(lǐng)域成功實(shí)踐的元數(shù)據(jù)標(biāo)準(zhǔn)難以直接運(yùn)用于電子檔案管理,因此,檔案界迫切需要建立屬于檔案領(lǐng)域自身的元數(shù)據(jù)標(biāo)準(zhǔn)。在現(xiàn)有的標(biāo)準(zhǔn)基礎(chǔ)上,根據(jù)檔案領(lǐng)域特殊要求擴(kuò)充一些新的元數(shù)據(jù)信息,既不影響通用標(biāo)準(zhǔn)的使用,也可以在電子檔案備份、還原、移交等業(yè)務(wù)操作過程中保持電子檔案信息的完整。當(dāng)然,若電子檔案元數(shù)據(jù)只是簡單地著錄,沒有建立起數(shù)據(jù)間的關(guān)聯(lián)關(guān)系,則很難真正發(fā)揮電子檔案價值。因此,為了更科學(xué)有效地管理電子檔案,最大程度揭示并整合電子檔案之間的有機(jī)聯(lián)系,有學(xué)者提出了“檔案元數(shù)據(jù)核心集”的概念[8]。基于完整描述檔案自身形成過程中歷史聯(lián)系的信息,在可視化描述中展現(xiàn)檔案的內(nèi)部聯(lián)系。應(yīng)結(jié)合歷史主義精神,根據(jù)檔案歷史聯(lián)系與歷史的“同構(gòu)性”規(guī)律[9],挖掘檔案所特有的元數(shù)據(jù)標(biāo)準(zhǔn)并構(gòu)建專屬檔案領(lǐng)域的元數(shù)據(jù)核心集[10]。
(三)構(gòu)建完善的前后端管理
一方面,應(yīng)依托前端控制思想,改造前端業(yè)務(wù)系統(tǒng)。電子文件轉(zhuǎn)化為電子檔案的時間節(jié)點(diǎn)不清晰,且涉及管理權(quán)的轉(zhuǎn)移,若只關(guān)注電子檔案的形成結(jié)果而忽視其形成過程,易產(chǎn)生電子檔案真實(shí)性存疑的風(fēng)險并且不可逆轉(zhuǎn)。為了避免這種安全風(fēng)險,首先應(yīng)以前端控制思想為指引改造原有的業(yè)務(wù)系統(tǒng),在形成電子檔案期間按照相應(yīng)要求收集所有類型的元數(shù)據(jù),做到應(yīng)收盡收,以證明電子檔案的創(chuàng)建在整個過程中處于受控狀態(tài)。
另一方面,還應(yīng)建立實(shí)時響應(yīng)機(jī)制和備份機(jī)制。電子檔案數(shù)據(jù)庫應(yīng)定期備份電子檔案及其元數(shù)據(jù),便于在遭到破壞后及時恢復(fù)數(shù)據(jù)。但若電子檔案管理系統(tǒng)沒有及時獲知破壞信息,錯誤的電子檔案及其元數(shù)據(jù)就會自動備份,使電子檔案的真實(shí)性存疑。因此,可以同時建立實(shí)時響應(yīng)機(jī)制、備份機(jī)制,完善電子檔案管理的后端工作,切實(shí)保障電子檔案信息的安全,以便后續(xù)開發(fā)利用。
(四)形成豐富的元數(shù)據(jù)描述
在電子檔案時代,檔案元數(shù)據(jù)具有了結(jié)構(gòu)化、集中化、標(biāo)準(zhǔn)化等基本屬性,一般以XML格式進(jìn)行表達(dá)[11]。元數(shù)據(jù)不僅可以為不同形式的電子檔案提供標(biāo)準(zhǔn)化的描述標(biāo)準(zhǔn)和方法,還可以為由多個電子檔案組成的分布式信息系統(tǒng)提供集成工具和鏈接。然而,在電子檔案管理實(shí)踐中,利用元數(shù)據(jù)對電子檔案進(jìn)行初步的語義描述只能解決資源描述問題,語義異構(gòu)問題依然嚴(yán)重。各檔案機(jī)構(gòu)采用的元數(shù)據(jù)規(guī)范不同,不利于電子檔案規(guī)范化管理工作的開展。而語義本體是元數(shù)據(jù)的補(bǔ)充形式,對電子檔案具有強(qiáng)大的描述能力,給異構(gòu)元數(shù)據(jù)間的映射、轉(zhuǎn)換、互操作提供幫助。它以XML和RDF為基礎(chǔ),在完成電子檔案語義描述的前提下,促進(jìn)數(shù)字檔案資源的關(guān)聯(lián)與共享,在語義層面上形成豐富描述[12]。
六、結(jié)語
元數(shù)據(jù)有助于完整地記錄電子檔案的背景、內(nèi)容、結(jié)構(gòu)等信息,在保障電子檔案的真實(shí)性、完整性、可靠性和可用性等方面發(fā)揮著重要作用。隨著電子檔案的大量產(chǎn)生,元數(shù)據(jù)方案的確定、捕獲與管理尤為重要。本文提出了元數(shù)據(jù)方案的設(shè)計原則,認(rèn)為在電子檔案管理過程引入元數(shù)據(jù)方案有助于記錄電子檔案著錄信息、標(biāo)識、管理信息,并為用戶提供完善的服務(wù)。具體實(shí)施路徑包括制定科學(xué)的元數(shù)據(jù)標(biāo)準(zhǔn)、探尋獨(dú)特的檔案元數(shù)據(jù)、構(gòu)建完善的前后端管理、形成豐富的元數(shù)據(jù)描述,以此提升電子檔案管理水平,便于后續(xù)開發(fā)利用。
參考文獻(xiàn):
[1]李芳芳,吳玉龍,米捷,陳成.機(jī)關(guān)電子檔案元數(shù)據(jù)體系構(gòu)建及元數(shù)據(jù)庫建設(shè)研究[J].檔案管理,2019(05):13-15.
[2]陳雪燕,于英香.從檔案管理走向檔案數(shù)據(jù)管理:大數(shù)據(jù)時代下的檔案管理范式轉(zhuǎn)型[J].山西檔案,2019(05):24-32.
[3]熊華蘭.基于語義本體的數(shù)字檔案資源知識管理模型研究[D].遼寧大學(xué),2019.
[4]馬利濤.檔案信息資源管理平臺設(shè)計與實(shí)現(xiàn)[D].西安電子科技大學(xué),2019.
[5]杜琳琳,袁嘉新.電子檔案長期保存技術(shù)策略研究[J].中國檔案,2021(12):67-69.
[6]陶水龍,王貞,田雷,白巍,任文革.電子文件和電子檔案元數(shù)據(jù)分類與方案設(shè)計[J].檔案學(xué)研究,2016(06):83-90.
[7]張瑜.數(shù)字檔案長期保存風(fēng)險的識別與應(yīng)對策略[D].武漢大學(xué),2017.
[8]田偉,韓海濤.發(fā)揮檔案元數(shù)據(jù)核心集作用推進(jìn)“互聯(lián)網(wǎng)+檔案”建設(shè)[J].檔案,2016,(6):5-9.
[9]任天琪.檔案元數(shù)據(jù)核心集內(nèi)部要素及關(guān)系研究[J].檔案與建設(shè),2016(08):12-15.
[10]楊文剛,崔杰,田偉.檔案元數(shù)據(jù)核心集系統(tǒng)的設(shè)計研究[J].北京檔案,2016(07):12-15.
[11]祁天嬌,馮惠玲.檔案數(shù)據(jù)化過程中語義組織的內(nèi)涵、特點(diǎn)與原理解析[J].圖書情報工作,2021,65(09):3-15.
[12]王志宇,熊華蘭.語義網(wǎng)環(huán)境下數(shù)字檔案資源關(guān)聯(lián)與共享模式研究[J].檔案學(xué)研究,2019(05):114-119.
作者單位:上海大學(xué)文化遺產(chǎn)與信息管理學(xué)院