李芳芳 吳玉龍 米捷 陳成
摘? 要:通過(guò)對(duì)數(shù)字檔案室建設(shè)過(guò)程中實(shí)踐經(jīng)驗(yàn)進(jìn)行總結(jié),對(duì)機(jī)關(guān)電子檔案管理過(guò)程中元數(shù)據(jù)的分類、元數(shù)據(jù)體系構(gòu)建方面進(jìn)行分析梳理并為機(jī)關(guān)元數(shù)據(jù)庫(kù)建設(shè)提供經(jīng)驗(yàn)借鑒。以自然資源部數(shù)字檔案室建設(shè)為例從形成階段、捕獲方式、實(shí)體類型、通用及專用屬性、聚合層次等方面分析元數(shù)據(jù)體系的組成部分,研究機(jī)關(guān)電子文件收集與電子檔案管理過(guò)程中元數(shù)據(jù)體系構(gòu)建及元數(shù)據(jù)庫(kù)建設(shè)的關(guān)鍵環(huán)節(jié)并分析元數(shù)據(jù)在數(shù)字檔案管理過(guò)程中的重要作用。
關(guān)鍵詞:元數(shù)據(jù);電子文件;電子檔案;數(shù)據(jù)庫(kù)
Abstract: Aims to summarize the practical experience of metadata classification, metadata system and metadata database in the electronic archives management information system. The Digital Archives Office of the Ministry of Natural Resources of China was approved by the National Archives Administration of China as the National Demonstration Digital Archives Office in 2018.Take the Digital Archives Office of the Ministry of Natural Resources of China as an example to analyze the components of the metadata system in terms of forming stage, capture mode, entity type, general and special attributes, aggregation level, etc.. ,Study the key link of metadata system construction and metadata database construction in the process of electronic file collection and electronic archives management, and analyze the important role of metadata in the process of electronic archives management.
Keywords: Metadata; Electronic file; Electronic Archives; Database
隨著機(jī)關(guān)辦公自動(dòng)化及電子政務(wù)建設(shè)的發(fā)展,以及信息技術(shù)在機(jī)關(guān)檔案管理工作中的應(yīng)用,電子文件歸檔是檔案管理信息化建設(shè)和數(shù)字檔案室建設(shè)的必然趨勢(shì)和發(fā)展方向。元數(shù)據(jù)是指描述電子檔案的內(nèi)容、結(jié)構(gòu)、背景及其整個(gè)管理過(guò)程的數(shù)據(jù),因此元數(shù)據(jù)是電子文件歸檔的重要內(nèi)容,元數(shù)據(jù)信息可應(yīng)用于電子檔案歸檔、移交、接收、利用以及長(zhǎng)期保存數(shù)據(jù)檢測(cè)過(guò)程中,是實(shí)現(xiàn)各個(gè)環(huán)節(jié)電子檔案數(shù)據(jù)真實(shí)性、完整性、可用性和安全性的重要保障。本文以自然資源部為例,分析機(jī)關(guān)電子檔案元數(shù)據(jù)體系的構(gòu)建和組成結(jié)構(gòu),元數(shù)據(jù)在電子檔案管理過(guò)程中的作用和實(shí)踐經(jīng)驗(yàn)。
機(jī)關(guān)電子檔案元數(shù)據(jù)體系的構(gòu)建與電子檔案類別息息相關(guān),既有傳統(tǒng)的文書、科技、專業(yè)、照片、音像、會(huì)計(jì)等類別,還有電子郵件、網(wǎng)頁(yè)信息以及專業(yè)數(shù)據(jù)庫(kù)、空間圖形數(shù)據(jù)等新興的檔案類別。
如何科學(xué)合理地設(shè)置各類檔案的元數(shù)據(jù),構(gòu)建機(jī)關(guān)電子檔案元數(shù)據(jù)體系,需要綜合考慮各個(gè)類別檔案的通用性,形成通用元數(shù)據(jù)項(xiàng),也要考慮各個(gè)類別的特殊性,針對(duì)特殊屬性設(shè)置各個(gè)類別特有的元數(shù)據(jù)項(xiàng);同時(shí)考慮到檔案收集的方式和環(huán)節(jié)、描述的實(shí)體及檔案整理的聚合層次,對(duì)各個(gè)元數(shù)據(jù)項(xiàng)進(jìn)行分類聚合,共同形成機(jī)關(guān)電子檔案元數(shù)據(jù)體系。[1]元數(shù)據(jù)體系構(gòu)建示意圖如圖1所示。
2.1 按元數(shù)據(jù)的形成階段,可分為電子文件的形成階段、歸檔階段、管理階段。其中形成階段可形成題名、日期、起草人、部門等元數(shù)據(jù),以及審批人、審批部門、審批日期等元數(shù)據(jù),整理歸檔階段可形成檔號(hào)、件號(hào)、保管期限、移交人員、接收人員、歸檔日期等元數(shù)據(jù),管理階段可形成存儲(chǔ)位置、處置方式、處置日期等元數(shù)據(jù)。
2.2 按元數(shù)據(jù)的捕獲方式分,可分為從移出系統(tǒng)接收、默認(rèn)賦值、自動(dòng)捕獲、半自動(dòng)化賦值、手工錄入等方式。其中從移出系統(tǒng)接收、默認(rèn)賦值、自動(dòng)捕獲為主要獲取方式。元數(shù)據(jù)的獲取方式與業(yè)務(wù)流程、功能節(jié)點(diǎn)密切關(guān)聯(lián),應(yīng)在電子檔案管理系統(tǒng)總體設(shè)計(jì)時(shí)做統(tǒng)籌規(guī)劃。
從移出系統(tǒng)接收是指從原辦公自動(dòng)化系統(tǒng)與業(yè)務(wù)審批系統(tǒng)接收數(shù)據(jù)時(shí)與電子文件同時(shí)接收的元數(shù)據(jù),例如電子文件的題名、文號(hào)、形成日期在從辦公自動(dòng)化系統(tǒng)向檔案系統(tǒng)的推送過(guò)程中進(jìn)行接收;默認(rèn)賦值是指通過(guò)系統(tǒng)初始化設(shè)置對(duì)諸如全宗號(hào)、單位名稱等元數(shù)據(jù)賦值;自動(dòng)捕獲是指在電子文件接收、掛接或管理過(guò)程中對(duì)元數(shù)據(jù)信息進(jìn)行捕獲,例如電子文件格式、大小、分辨率等信息在接收或者導(dǎo)入電子文件的同時(shí)進(jìn)行自動(dòng)捕獲,電子文件移交、登記、銷毀等業(yè)務(wù)行為元數(shù)據(jù)在業(yè)務(wù)行為發(fā)生的同時(shí)進(jìn)行自動(dòng)捕獲。
半自動(dòng)化賦值是指在系統(tǒng)中為元數(shù)據(jù)設(shè)置詞典,用戶通過(guò)下拉菜單等形式選擇元數(shù)據(jù)值并賦值,比如保管期限等元數(shù)據(jù)。手工錄入方式主要是針對(duì)無(wú)法實(shí)現(xiàn)自動(dòng)捕獲的元數(shù)據(jù),由整理人員進(jìn)行手工著錄,例如在電子文件整理過(guò)程中對(duì)題名、責(zé)任者等信息進(jìn)行確認(rèn)和修改的過(guò)程需要手工著錄,對(duì)歷史檔案中缺失元數(shù)據(jù)需要手工著錄或手工批量錄入。
2.3 按元數(shù)據(jù)實(shí)體類型分,可分為文件實(shí)體元數(shù)據(jù)、機(jī)構(gòu)人員實(shí)體元數(shù)據(jù)、業(yè)務(wù)實(shí)體元數(shù)據(jù)和實(shí)體關(guān)系元數(shù)據(jù)等。其中文件實(shí)體元數(shù)據(jù)可分為檔案信息元數(shù)據(jù)、內(nèi)容描述元數(shù)據(jù)、形式特征元數(shù)據(jù)、電子屬性元數(shù)據(jù)、數(shù)字化屬性元數(shù)據(jù)、電子簽名元數(shù)據(jù)、存儲(chǔ)位置元數(shù)據(jù)、權(quán)限管理元數(shù)據(jù)等。以采礦權(quán)登記檔案元數(shù)據(jù)方案為例,表1列出了各類元數(shù)據(jù)的主要元數(shù)據(jù)項(xiàng):
2.4 按元數(shù)據(jù)的通用屬性分,可分為通用元數(shù)據(jù)和專用元數(shù)據(jù)。通用元數(shù)據(jù)是指各類電子文件都需要設(shè)置的且可獲取的、符合檔案管理一般要求的元數(shù)據(jù),例如:檔號(hào)、件號(hào)、保管期限、題名、電子文件格式、大小、存儲(chǔ)地址等。專用元數(shù)據(jù)是指針對(duì)各個(gè)特殊類別特有的元數(shù)據(jù)項(xiàng),例如:照片檔案專用元數(shù)據(jù)包括攝影者、攝影時(shí)間、攝影地點(diǎn)、人物、水平分辨率、垂直分辨率、圖像高度、圖像寬度、色彩空間、設(shè)備制造商、設(shè)備型號(hào)等。音像檔案專用元數(shù)據(jù)包括攝錄者、攝錄時(shí)間、時(shí)間長(zhǎng)度、設(shè)備制造商、設(shè)備型號(hào)、色彩空間、分辨率、幀率等。
專業(yè)檔案專用元數(shù)據(jù)要依據(jù)專業(yè)檔案的分類,針對(duì)各個(gè)類別特有的信息確定專用元數(shù)據(jù),例如自然資源專業(yè)檔案中礦產(chǎn)資源管理檔案專用元數(shù)據(jù)包括類別、礦山名稱、礦山地址、許可證號(hào)、開(kāi)采礦種、礦區(qū)面積、開(kāi)采方式、采礦權(quán)人、生產(chǎn)規(guī)模、礦區(qū)范圍拐點(diǎn)坐標(biāo)等,建設(shè)用地預(yù)審檔案專用元數(shù)據(jù)包括申請(qǐng)單位、用地規(guī)模、行業(yè)分類、涉及省份、項(xiàng)目代碼、批復(fù)文號(hào)等。網(wǎng)頁(yè)類電子檔案專用元數(shù)據(jù)包括欄目、網(wǎng)址、發(fā)布時(shí)間、發(fā)布單位等。[2]
2.5 按聚合層次分,可分為案卷層元數(shù)據(jù)、文件層元數(shù)據(jù)以及電子文件層元數(shù)據(jù)。按照現(xiàn)有的有關(guān)標(biāo)準(zhǔn),元數(shù)據(jù)聚合層次分為案卷層和文件層,但是實(shí)際管理工作當(dāng)中,文件層電子文件往往不是由一個(gè)單一文件組成,而是由一組文件組成,例如文書類電子文件一件檔案由正文、審批單、定稿、花臉稿以及來(lái)文審批單、來(lái)文組成,需要針對(duì)每一個(gè)電子文件描述文件大小、格式等信息。
根據(jù)檔案組件方式,如果是以案卷整理的檔案,需要設(shè)計(jì)案卷層元數(shù)據(jù)和文件層元數(shù)據(jù),其中案卷層元數(shù)據(jù)需要列出案卷題名、卷號(hào)、檔號(hào)、保管期限等案卷信息屬性,文件層元數(shù)據(jù)需要列出文件編號(hào)、文件題名、日期等信息。如果是按件整理的檔案,則不需要設(shè)計(jì)案卷層元數(shù)據(jù)。
如果文件層的電子文件數(shù)量大于1件,對(duì)每個(gè)電子文件還要分出電子文件層元數(shù)據(jù),將電子文件的格式、大小、存儲(chǔ)位置等信息列入電子文件層元數(shù)據(jù)。
如前文所述,元數(shù)據(jù)體系是一個(gè)復(fù)雜的系統(tǒng),涉及電子文件形成到整理歸檔、檔案管理的各個(gè)環(huán)節(jié),因此元數(shù)據(jù)體系的設(shè)計(jì)與構(gòu)建需要綜合考慮檔案分類體系,辦公自動(dòng)化系統(tǒng)、業(yè)務(wù)系統(tǒng)以及檔案管理系統(tǒng)的流程,獲取方式等方面,具體的關(guān)鍵環(huán)節(jié)如下:
3.1 確定機(jī)關(guān)檔案分類體系及各類檔案通用元數(shù)據(jù)項(xiàng)、專用元數(shù)據(jù)項(xiàng)。檔案分類體系的確立是實(shí)現(xiàn)檔案科學(xué)規(guī)范管理的基礎(chǔ),根據(jù)國(guó)家有關(guān)要求,自然資源部機(jī)關(guān)檔案可分為文書檔案(WS)、專業(yè)檔案(ZY)、照片檔案(ZP)、音像檔案(YX)、網(wǎng)頁(yè)檔案(WY)、科技檔案(KJ)、會(huì)計(jì)檔案(KU)等。其中專業(yè)檔案、科技檔案需要再細(xì)化進(jìn)行分類。根據(jù)檔案分類體系確定通用元數(shù)據(jù)項(xiàng)以及各類別專用元數(shù)據(jù)項(xiàng),共同構(gòu)成機(jī)關(guān)元數(shù)據(jù)體系構(gòu)架。
3.2 在檔案系統(tǒng)中構(gòu)建元數(shù)據(jù)庫(kù)實(shí)現(xiàn)元數(shù)據(jù)統(tǒng)一配置和管理。在元數(shù)據(jù)庫(kù)建設(shè)中需要考慮各元數(shù)據(jù)項(xiàng)設(shè)置規(guī)則,例如數(shù)據(jù)類型、填寫格式、長(zhǎng)度限制、編碼規(guī)則、聚合層次、值域、權(quán)限控制等。將元數(shù)據(jù)實(shí)體以及實(shí)體之間的關(guān)系進(jìn)行科學(xué)設(shè)計(jì),例如業(yè)務(wù)行為實(shí)體元數(shù)據(jù)涉及整個(gè)擬文、歸檔流程,分別在擬文、簽發(fā)、用印、整理、檢查、接收、移交等環(huán)節(jié)都需要設(shè)置,并且有一定的邏輯先后關(guān)系,以及各業(yè)務(wù)行為之間的關(guān)系。通過(guò)設(shè)置完整的元數(shù)據(jù)配置信息和數(shù)據(jù)字典等信息。在檔案的門類管理模塊根據(jù)元數(shù)據(jù)的聚合層次和各類檔案的專有屬性分別針對(duì)各類檔案的卷、件層級(jí)設(shè)置相應(yīng)的元數(shù)據(jù)項(xiàng)。
3.3 確定元數(shù)據(jù)的獲取方式并逐一細(xì)化實(shí)現(xiàn)元數(shù)據(jù)規(guī)范填寫。元數(shù)據(jù)完整規(guī)范的收集是元數(shù)據(jù)體系構(gòu)建和元數(shù)據(jù)庫(kù)建設(shè)的難點(diǎn)。在元數(shù)據(jù)體系設(shè)計(jì)之初需要考慮可獲得性。確定元數(shù)據(jù)體系后,在辦公自動(dòng)化系統(tǒng)、業(yè)務(wù)系統(tǒng)與檔案系統(tǒng)的設(shè)計(jì)和建設(shè)中,系統(tǒng)之間接口開(kāi)發(fā)以及數(shù)據(jù)收集、整理、掃描過(guò)程中逐一落實(shí)。例如成文日期元數(shù)據(jù),需要與辦公自動(dòng)化系統(tǒng)中正文的落款日期一致,捕獲節(jié)點(diǎn)以部發(fā)文為例是在部領(lǐng)導(dǎo)最后一次簽批的節(jié)點(diǎn)進(jìn)行捕獲。責(zé)任者元數(shù)據(jù)的收集需要根據(jù)發(fā)文的文號(hào)類別、簽報(bào)起草司局在數(shù)據(jù)字典中提前設(shè)置,自動(dòng)判別和填報(bào),收文的責(zé)任者需要在收文登記的環(huán)節(jié)通過(guò)辦公自動(dòng)化系統(tǒng)進(jìn)行錄入。照片以及掃描件的分辨率、圖像高度、圖像寬度、色彩空間等元數(shù)據(jù)在數(shù)據(jù)整理和數(shù)字化環(huán)節(jié)進(jìn)行自動(dòng)捕獲。
隨著電子文件的大量產(chǎn)生,元數(shù)據(jù)方案的確定、捕獲與管理是電子文件歸檔和電子檔案管理中不可缺少的一部分。對(duì)于實(shí)現(xiàn)電子文件的歸檔和電子檔案的有效管理和利用,完整地記錄電子文件的背景、內(nèi)容、結(jié)構(gòu)等信息,在保障電子文件的真實(shí)性、完整性、可靠性和可用性等方面發(fā)揮著重要作用。[3]
4.1 元數(shù)據(jù)為電子文件的重要組成部分。電子檔案與傳統(tǒng)載體檔案的一個(gè)重要區(qū)別就在于,電子檔案既包括電子文件又包括描述電子文件的一系列元數(shù)據(jù)。元數(shù)據(jù)隨著電子文件生成而生成,伴隨著電子文件流轉(zhuǎn)、歸檔和管理的各個(gè)環(huán)節(jié),是電子檔案不可或缺的組成部分。
4.2 元數(shù)據(jù)是電子檔案規(guī)范管理的保障。電子檔案管理的過(guò)程中,收集階段除了要完成電子文件收集外,還要完成元數(shù)據(jù)的捕獲與收集。傳統(tǒng)載體檔案整理需要編制目錄,目錄數(shù)據(jù)可以理解為元數(shù)據(jù)的一部分,電子檔案的元數(shù)據(jù)信息在傳統(tǒng)載體檔案目錄的基礎(chǔ)上進(jìn)行擴(kuò)充,在檔案鑒定、整理、歸檔等管理環(huán)節(jié),元數(shù)據(jù)作為重要的基礎(chǔ)數(shù)據(jù),是現(xiàn)實(shí)電子檔案規(guī)范管理的重要依據(jù)。
4.3 元數(shù)據(jù)為四性檢測(cè)的信息來(lái)源和依據(jù)。電子檔案歸檔規(guī)程中需要進(jìn)行四性檢測(cè),分別檢測(cè)電子檔案的真實(shí)性、完整性、可靠性和可用性。元數(shù)據(jù)檢測(cè)為四性檢測(cè)的重要內(nèi)容,四性檢測(cè)的實(shí)現(xiàn)主要通過(guò)對(duì)各類元數(shù)據(jù)信息內(nèi)容的檢測(cè)進(jìn)行實(shí)現(xiàn)。由于電子文件的可復(fù)制、可修改等特性,與電子文件伴生的能夠說(shuō)明電子文件性質(zhì)的元數(shù)據(jù)是證明電子文件真實(shí)性的重要依據(jù),包括電子文件產(chǎn)生時(shí)的電子文件自身屬性、技術(shù)環(huán)境等。
4.4 元數(shù)據(jù)是電子檔案數(shù)據(jù)查詢檢索、編研利用的基礎(chǔ)。電子檔案利用過(guò)程中,對(duì)元數(shù)據(jù)的檢索是實(shí)現(xiàn)電子檔案查詢與利用的基礎(chǔ)功能,對(duì)文件名稱、文號(hào)、機(jī)構(gòu)、年度以及檔號(hào)等信息填寫完整和規(guī)范是實(shí)現(xiàn)快速準(zhǔn)確檢索的基礎(chǔ)。同時(shí)電子檔案的統(tǒng)計(jì)編研分析利用也是基于結(jié)構(gòu)化的元數(shù)據(jù)信息實(shí)現(xiàn)的,需要各類檔案元數(shù)據(jù)的設(shè)計(jì)與填寫齊全完整規(guī)范。
5 機(jī)關(guān)電子檔案元數(shù)據(jù)體系及元數(shù)據(jù)庫(kù)建設(shè)幾點(diǎn)體會(huì)
首先,各類檔案元數(shù)據(jù)體系的設(shè)計(jì)與構(gòu)建是元數(shù)據(jù)庫(kù)建設(shè)的前提條件。需要針對(duì)各個(gè)類別的檔案從電子文件形成開(kāi)始,到整理、歸檔整個(gè)流程進(jìn)行分析研究。電子文件起草單位和人員、審批流程、整理者、歸檔信息等元數(shù)據(jù)都需要收集,明確各個(gè)環(huán)節(jié)的元數(shù)據(jù)項(xiàng)和獲取方式,制定元數(shù)據(jù)標(biāo)準(zhǔn)體系框架,作為電子文件歸檔和電子檔案管理的重要內(nèi)容和依據(jù)。
其次,元數(shù)據(jù)收集齊全完整,有助于電子文件歸檔與電子檔案的規(guī)范高效管理。例如,文書檔案稿本信息元數(shù)據(jù)的收集,包括正文、定稿、花臉稿等各類稿本,這些信息收集齊全可以實(shí)現(xiàn)利用系統(tǒng)自動(dòng)化判別文檔是否收集齊全完整,排序是否規(guī)范等,大大減少了檔案工作人員的工作量。業(yè)務(wù)行為元數(shù)據(jù)的收集,對(duì)于檔案是由誰(shuí)、在什么時(shí)間整理、登記、歸檔、移交等行為進(jìn)行詳細(xì)記錄,可以實(shí)現(xiàn)電子檔案全流程電子化管理與歷史追溯。
最后,元數(shù)據(jù)中對(duì)內(nèi)容的描述信息,特別是對(duì)各類專業(yè)檔案內(nèi)容的描述進(jìn)一步細(xì)化、分類合理對(duì)檔案的利用和編研工作的開(kāi)展非常重要。各類業(yè)務(wù)檔案需要檔案人員和業(yè)務(wù)人員一起,認(rèn)真分析研究提出針對(duì)各類業(yè)務(wù)檔案重要的、專有的元數(shù)據(jù)項(xiàng)。例如礦業(yè)權(quán)登記檔案設(shè)立礦山名稱、礦山坐標(biāo)、所屬省份、開(kāi)采礦種、礦區(qū)面積、生產(chǎn)規(guī)模等元數(shù)據(jù)項(xiàng),能夠?qū)窈髾n案利用、統(tǒng)計(jì)分析和編研提供豐富的內(nèi)容,進(jìn)一步對(duì)行政管理與政策研究提供支撐與服務(wù)。
[1]陶水龍.電子文件和電子檔案元數(shù)據(jù)分類與方案設(shè)計(jì)[J].檔案學(xué)研究,2016(6),83-90
[2]田雷.電子文件元數(shù)據(jù)分類與方案設(shè)計(jì)對(duì)策研究[J].中國(guó)檔案,2017(4),62-63
[3]毛海帆.電子檔案元數(shù)據(jù)方案設(shè)計(jì)與應(yīng)用初探[J].檔案學(xué)研究,2010(1),74-78