摘 ?要:檔案元數(shù)據(jù)互操作對(duì)檔案信息資源整合意義重大。通過(guò)分析我國(guó)新舊《檔案著錄規(guī)則》、不同格式檔案元數(shù)據(jù)標(biāo)準(zhǔn)、不同門類間檔案元數(shù)據(jù)標(biāo)準(zhǔn)和不同領(lǐng)域間檔案元數(shù)據(jù)的互操作情況,提出結(jié)構(gòu)、語(yǔ)義和技術(shù)三個(gè)層次的互操作問(wèn)題,并從重視檔案元數(shù)據(jù)標(biāo)準(zhǔn)制定、切實(shí)提高檔案元數(shù)據(jù)質(zhì)量、加強(qiáng)檔案資源整合實(shí)踐和重視語(yǔ)義本體技術(shù)應(yīng)用四方面提出對(duì)策。
關(guān)鍵詞:檔案元數(shù)據(jù);檔案著錄;互操作
Abstract: Archival metadata interoperability is of great significance to the integration of archival information resources. By analyzing the interoperability of Rules for Archival Description(1999) and Rules for Archival Description(2022), archival metadata standards in different formats, archival metadata standards among different categories and archival metadata among different fields, we propose the interoperability problems at three levels: structure, semantics and technology, and then we propose four countermeasures: attaching importance to the formulation of archival metadata standards, effectively improving the quality of archival metadata, strengthening the practice of archival resource integration and attaching importance to the application of semantic ontology technology.
Keywords: ?Archival metadata; Archival description; Interoperability
從“互聯(lián)網(wǎng)+政務(wù)”“一網(wǎng)通辦”的服務(wù)要求,到政府開(kāi)放數(shù)據(jù)、開(kāi)放科學(xué)數(shù)據(jù)的興起,大數(shù)據(jù)時(shí)代給檔案信息資源整合開(kāi)放提出了更新、更高的互操作要求。2021年中辦、國(guó)辦發(fā)布《“十四五”全國(guó)檔案事業(yè)發(fā)展規(guī)劃》,要求“加強(qiáng)本區(qū)域檔案信息資源共享平臺(tái)建設(shè),實(shí)現(xiàn)本區(qū)域各級(jí)綜合檔案館互聯(lián)互通,推動(dòng)共享平臺(tái)向機(jī)關(guān)等單位延伸,促進(jìn)檔案信息資源館際、館室共建互通,推進(jìn)檔案信息資源跨層級(jí)跨部門共享利用”。檔案元數(shù)據(jù)互操作是在數(shù)字轉(zhuǎn)型、在線公共服務(wù)和開(kāi)放數(shù)據(jù)背景下的新需求,也是檔案資源整合和提供多元利用服務(wù)的必經(jīng)之路。
1 引言
1.1 概念界定?;ゲ僮魇侵竷蓚€(gè)或多個(gè)系統(tǒng)及其組成部分之間交換數(shù)據(jù)并相互使用已交換數(shù)據(jù)以實(shí)現(xiàn)協(xié)同共享的能力?;ゲ僮鞲拍钭钤鐟?yīng)用于鐵路工程系統(tǒng)領(lǐng)域,用于解決鐵路和列車零部件、信號(hào)系統(tǒng)以及操作規(guī)范等兼容性問(wèn)題。隨后,開(kāi)始應(yīng)用于各個(gè)領(lǐng)域的信息系統(tǒng)中,如軍事領(lǐng)域美軍基于C4I作戰(zhàn)指揮系統(tǒng)、電子政務(wù)領(lǐng)域的泛歐洲互操作框架(EIF)、電子醫(yī)療領(lǐng)域的健康信息系統(tǒng)等。
所謂互操作,那么就至少需要存在兩套不同系統(tǒng)。如果系統(tǒng)間采用相同的數(shù)據(jù)編碼、命名、格式、結(jié)構(gòu)和傳輸方式,那么就不存在元數(shù)據(jù)互操作問(wèn)題。一般而言,規(guī)定元數(shù)據(jù)的元素、結(jié)構(gòu)和描述方法等規(guī)則集合稱之為元數(shù)據(jù)標(biāo)準(zhǔn)或元數(shù)據(jù)方案。因此,本文所討論的元數(shù)據(jù)互操作是指不同元數(shù)據(jù)標(biāo)準(zhǔn)或方案之間映射問(wèn)題。
1.2 文獻(xiàn)綜述。元數(shù)據(jù)互操作并不是一個(gè)新的研究領(lǐng)域,在圖書情報(bào)、電子政務(wù)等領(lǐng)域較早受到廣泛關(guān)注。研究主要集中在二個(gè)方面:
一是元數(shù)據(jù)互操作的層次和方法。國(guó)內(nèi)張曉林[1]較早提出應(yīng)從元數(shù)據(jù)結(jié)構(gòu)分析,從數(shù)據(jù)內(nèi)容、元素語(yǔ)義、編碼規(guī)則等七個(gè)層面來(lái)實(shí)現(xiàn)元數(shù)據(jù)互操作,并指出其中語(yǔ)義、描述規(guī)則和語(yǔ)法結(jié)構(gòu)三項(xiàng)互操作是核心,后續(xù)張東[2]、畢強(qiáng)[3]、彭靜[4]等也提出了各自關(guān)于元數(shù)據(jù)互操作的劃分層次觀點(diǎn)。國(guó)外方面,William Y. Arms等[5]根據(jù)實(shí)現(xiàn)互操作的效果和性價(jià)比程度將元數(shù)據(jù)互操作分為聯(lián)盟(Federation)、采集(Harvesting)和搜集(Gathering)三個(gè)級(jí)別。Lois Mai Chan 和Marcia Lei Zeng,[6,7]從元數(shù)據(jù)標(biāo)準(zhǔn)構(gòu)建、元數(shù)據(jù)記錄產(chǎn)生到信息檢索應(yīng)用的全過(guò)程將元數(shù)據(jù)互操作分為模式級(jí)(Schema)、記錄級(jí)(Record)和倉(cāng)儲(chǔ)級(jí)(Repository),并總結(jié)了14種互操作方法,對(duì)后續(xù)學(xué)者研究元數(shù)據(jù)互操作范式影響深遠(yuǎn)??偟膩?lái)看,從語(yǔ)義、語(yǔ)法、結(jié)構(gòu)等層面的互操作已基本成為共識(shí)。
二是元數(shù)據(jù)互操作核心技術(shù),主要可以概括為互操作規(guī)范、互操作描述語(yǔ)言、數(shù)據(jù)轉(zhuǎn)換技術(shù)和符號(hào)標(biāo)識(shí)技術(shù)四類,其中互操作規(guī)范包括OAI、Z39.50等,互操作描述語(yǔ)言包括XML、RDF、JSON等,數(shù)據(jù)轉(zhuǎn)換技術(shù)包括中間庫(kù)、WebService、XSLT、RestfulAPI等,符號(hào)標(biāo)識(shí)技術(shù)主要指唯一標(biāo)識(shí)符如DOI、Handle、CSTR、ORCID等。
目前國(guó)內(nèi)檔案領(lǐng)域關(guān)于元數(shù)據(jù)互操作的研究成果較少,主要包括元數(shù)據(jù)互操作協(xié)議[8-11]、元數(shù)據(jù)互操作技術(shù)[12-14]以及互操作框架構(gòu)建[15]等,大多以理論層面介紹和分析為主,缺乏互操作實(shí)際應(yīng)用場(chǎng)景的視角研究。
2 我國(guó)檔案元數(shù)據(jù)互操作現(xiàn)狀
本文篩選了我國(guó)有代表性的元數(shù)據(jù)標(biāo)準(zhǔn)或方案,包括通用的著錄規(guī)則以及不同門類、不同領(lǐng)域的元數(shù)據(jù)方案,通過(guò)映射的方式對(duì)比總結(jié)互操作現(xiàn)狀。美國(guó)檔案學(xué)者David Wallance曾指出“元數(shù)據(jù)是著錄的替代策略(an alternative strategy)”,[16]劉越男也曾提出“電子環(huán)境中可以將文件管理元數(shù)據(jù)理解為著錄信息”。理論上所有的元數(shù)據(jù)標(biāo)準(zhǔn)/方案中值域和類型都應(yīng)遵循通用的《檔案著錄規(guī)則》的相應(yīng)要求,故本文也將檔案著錄標(biāo)準(zhǔn)視為元數(shù)據(jù)標(biāo)準(zhǔn)的子集,納入討論范圍。
2.1 新舊《檔案著錄規(guī)則》的互操作情況。2022年,國(guó)家檔案局時(shí)隔23年正式發(fā)布了修訂《檔案著錄規(guī)則》(以下簡(jiǎn)稱“《規(guī)則》”),新《規(guī)則》在實(shí)現(xiàn)多級(jí)著錄、調(diào)整著錄項(xiàng)目和適應(yīng)電子環(huán)境的著錄等方面做了較大調(diào)整。[17]
從著錄項(xiàng)來(lái)看,新《規(guī)則》較好地兼容了舊《規(guī)則》原有的著錄項(xiàng)目,僅刪除了不常用的“電子文檔號(hào)”,以及將“提要”修改為“范圍和提要”,其他著錄項(xiàng)目均得到保留。但是新《規(guī)則》同時(shí)新增了17個(gè)著錄項(xiàng),其中必著的有著錄層級(jí)、開(kāi)放標(biāo)識(shí)等,這也意味著從舊《規(guī)則》轉(zhuǎn)向新《規(guī)則》時(shí)可能需要補(bǔ)充缺失的必要信息。
從著錄層級(jí)來(lái)看,舊《規(guī)則》僅適用于文件級(jí)、案卷級(jí)的著錄,而新《規(guī)則》著錄層級(jí)包括文件級(jí)、案卷級(jí)、類別級(jí)和全宗級(jí)四類,其中包含一些必填著錄項(xiàng)如著錄層級(jí)(所有)、檔號(hào)(所有)、題名(所有)、檔案保管沿革(全宗級(jí))等,這導(dǎo)致新舊《規(guī)則》相互映射時(shí)可能無(wú)法對(duì)應(yīng)層級(jí),造成互操作障礙。
從著錄細(xì)則來(lái)看,由于舊《規(guī)則》是基于傳統(tǒng)手工整理和檢索需求編制,如今看來(lái)許多格式要求已不再有必要,因此新《規(guī)則》在內(nèi)容格式上也做了修改。比如,舊《規(guī)則》要求在第一個(gè)責(zé)任者前加“/”,新《規(guī)則》無(wú)此要求;對(duì)于文件責(zé)任者不完整、有誤的情況,舊《規(guī)則》要求照原文著錄,并直接附上加“[]”的考證結(jié)果,新《規(guī)則》要求將原文責(zé)任者注明在附注項(xiàng)目;舊《規(guī)則》要求主題詞和關(guān)鍵詞之間用空格分割,新《規(guī)則》要求用“;”分割。這種格式上細(xì)微差異雖然不影響人的正常識(shí)讀,但是會(huì)影響機(jī)器理解,為后續(xù)資源開(kāi)發(fā)帶來(lái)阻礙。
2.2 我國(guó)不同格式檔案元數(shù)據(jù)標(biāo)準(zhǔn)的互操作情況。我國(guó)現(xiàn)行的通用檔案元數(shù)據(jù)標(biāo)準(zhǔn)主要包括基于置標(biāo)語(yǔ)言的XML封裝格式(即《DA/T 48-2009 基于XML的電子文件封裝規(guī)范》和《DA/T 46-2009文書類電子文件元數(shù)據(jù)方案》)和基于MARC檔案機(jī)讀目錄格式(即《GB/T 20163-2006 中國(guó)檔案機(jī)讀目錄格式》)兩類。
從結(jié)構(gòu)上看,檔案機(jī)讀目錄數(shù)據(jù)由頭標(biāo)區(qū)、目次區(qū)、數(shù)據(jù)區(qū)和記錄分隔符四部分構(gòu)成,其中數(shù)據(jù)區(qū)主要記錄著錄信息。一條機(jī)讀目錄數(shù)據(jù)可對(duì)應(yīng)一個(gè)全宗、類別、案卷或文件,整體呈現(xiàn)扁平的結(jié)構(gòu)。基于XML封裝的檔案元數(shù)據(jù)由聲明、元素和注釋組成,其中元素包括標(biāo)簽、文本、屬性等信息,且元素可以嵌套,整體呈現(xiàn)多層次的樹(shù)結(jié)構(gòu)。
從著錄項(xiàng)數(shù)量上看,檔案機(jī)讀目錄格式包括10個(gè)記錄塊和77個(gè)字段,《文書類電子文件元數(shù)據(jù)方案》包括88個(gè)元素(如果加上封裝元數(shù)據(jù),共有129個(gè)),考慮到機(jī)讀目錄中的字段仍可包含多個(gè)子字段和數(shù)據(jù)元,因此檔案機(jī)讀目錄格式的著錄粒度實(shí)際上遠(yuǎn)超過(guò)XML封裝格式的元數(shù)據(jù)。
從映射情況看,兩種不同格式的元數(shù)據(jù)標(biāo)準(zhǔn)基本能夠相互映射,主要存在“一對(duì)多”或“多對(duì)一”映射障礙?!痘赬ML的電子文件封裝規(guī)范》只是封裝規(guī)范,要結(jié)合具體元數(shù)據(jù)方案使用,以《文書類電子文件元數(shù)據(jù)方案》為例,如:
①以日期著錄項(xiàng)為例,《文書類電子文件元數(shù)據(jù)方案》中的“日期”著錄項(xiàng)對(duì)應(yīng)《中國(guó)檔案機(jī)讀目錄格式》的“100通用處理數(shù)據(jù)”和“210檔案形成時(shí)間”兩個(gè)字段中數(shù)據(jù)元。
②《中國(guó)檔案機(jī)讀目錄格式》將“附注”分為一般性附注、標(biāo)識(shí)號(hào)附注、編碼信息附注等25種不同類型的附注,而在《文書類電子文件元數(shù)據(jù)方案》中僅有“M75附注”一種,無(wú)法完整映射。
③《中國(guó)檔案機(jī)讀目錄格式》將“主題詞”分為受控主題詞(如600人名、601機(jī)關(guān)團(tuán)體名、602家族名、606職能、607地名等)和非受控主題詞,可從多維度進(jìn)行主題標(biāo)引。而《文書類電子文件元數(shù)據(jù)方案》中僅有“M26主題詞”“M27關(guān)鍵詞”“M28人名”,兩者對(duì)于主題詞的詳略以及采用主題詞表、著錄規(guī)則不完全一致,無(wú)法完整準(zhǔn)確映射。
④《文書類電子文件元數(shù)據(jù)方案》中“M87關(guān)系”字段的值域包括轉(zhuǎn)發(fā)/被轉(zhuǎn)發(fā)、來(lái)文/復(fù)文、正文/附件等若干常用關(guān)系,而《中國(guó)檔案機(jī)讀目錄格式》的“4--記錄連接塊”僅提供了繼承/由……繼承、替代/由……替代4種可選關(guān)系,無(wú)法完整映射。
⑤《文書類電子文件元數(shù)據(jù)方案》中“M56圖像壓縮方案”對(duì)應(yīng)《中國(guó)檔案機(jī)讀目錄格式》中的“135編碼數(shù)據(jù)字段:電子檔案”中子字段“電子檔案的壓縮級(jí)別”,雖然含義相近,但是值域范圍不同,無(wú)法準(zhǔn)確映射。
⑥《中國(guó)檔案機(jī)讀目錄格式》中缺少關(guān)于電子簽名、權(quán)限管理、實(shí)體及實(shí)體關(guān)系相關(guān)的元數(shù)據(jù)項(xiàng)?!段臅愲娮游募獢?shù)據(jù)方案》中缺少關(guān)于著錄行為、國(guó)別地區(qū)、歷史沿革、獎(jiǎng)懲、參見(jiàn)關(guān)聯(lián)等元數(shù)據(jù)項(xiàng)。
雖然檔案機(jī)讀目錄格式是出于檔案數(shù)據(jù)共享、交換和傳輸?shù)哪康亩a(chǎn)生,但是由于結(jié)構(gòu)規(guī)則復(fù)雜、人工可讀性差等缺點(diǎn),目前實(shí)際中應(yīng)用并不廣泛,因此互操作需求并不旺盛。
2.3 我國(guó)不同門類間檔案元數(shù)據(jù)標(biāo)準(zhǔn)的互操作情況。我國(guó)目前針對(duì)電子文件/電子檔案的現(xiàn)行檔案元數(shù)據(jù)方案共涉及三個(gè)門類,分別是《DA/T 46-2009 文書類電子文件元數(shù)據(jù)方案》《DA/T 54-2014 照片類電子檔案元數(shù)據(jù)方案》和《DA/T 63-2017 錄音錄像類電子檔案元數(shù)據(jù)方案》。其中文書類的檔案元數(shù)據(jù)方案制定最早,為后續(xù)其他門類檔案元數(shù)據(jù)奠定了基礎(chǔ)。照片類和錄音錄像類院屬方案制定較晚,結(jié)構(gòu)和內(nèi)容上兩者較為相似,即使考慮各自個(gè)性化的元素,它們之間能夠相互映射元素的比例也分別達(dá)到了73.96%和72.34%。錄音錄像類電子檔案元數(shù)據(jù)方案作為制定最晚的元數(shù)據(jù)方案,在元數(shù)據(jù)項(xiàng)的數(shù)量上略多于其他兩者。
《DA/T 46-2009 文書類電子文件元數(shù)據(jù)方案》《DA/T 54-2014 照片類電子檔案元數(shù)據(jù)方案》和《DA/T 63-2017 錄音錄像類電子檔案元數(shù)據(jù)方案》中必選元數(shù)據(jù)項(xiàng)映射關(guān)系如表1所示。考慮到涉及元數(shù)據(jù)項(xiàng)較多,表中僅展示了三個(gè)門類元數(shù)據(jù)方案中的必填項(xiàng)映射情況,可以發(fā)現(xiàn)主要存在以下映射問(wèn)題:
①《文書類電子文件元數(shù)據(jù)方案》中“立檔單位名稱”“年度”“脫機(jī)載體編號(hào)”等字段無(wú)法映射到其他兩個(gè)門類元數(shù)據(jù)方案中。《照片類電子檔案元數(shù)據(jù)方案》中“生成方式”“圖像參數(shù)”等字段無(wú)法映射到其他兩個(gè)門類元數(shù)據(jù)方案中?!朵浺翡浵耦愲娮訖n案元數(shù)據(jù)方案》中“時(shí)間長(zhǎng)度”等字段無(wú)法映射到其他兩個(gè)門類元數(shù)據(jù)方案中。
表1 各類方案中必選元數(shù)據(jù)項(xiàng)映射關(guān)系
②由于容器型元數(shù)據(jù)并不實(shí)際著錄信息,因此容易出現(xiàn)容器型元數(shù)據(jù)與字符型元數(shù)據(jù)的映射障礙。如《文書類電子文件元數(shù)據(jù)方案》中“檔號(hào)”字段是需要組配多個(gè)元數(shù)據(jù)形成,無(wú)法直接對(duì)應(yīng)其他兩個(gè)門類元數(shù)據(jù)的中“檔號(hào)”字段。
③同樣的字段在不同元數(shù)據(jù)方案中的必選、可選或條件選屬性差異,導(dǎo)致無(wú)法完整映射。如“密級(jí)”在《文書類電子文件元數(shù)據(jù)方案》中屬于必填,但是在其他兩個(gè)門類元數(shù)據(jù)方案中屬于選填。
④同樣的字段實(shí)際定義不同,導(dǎo)致無(wú)法準(zhǔn)確映射。如《錄音錄像類電子檔案元數(shù)據(jù)方案》中的“責(zé)任者”描述的是對(duì)錄音錄像內(nèi)容負(fù)有責(zé)任的組織或個(gè)人,而在《照片類電子檔案元數(shù)據(jù)方案》中與之含義相對(duì)應(yīng)的實(shí)際應(yīng)為“人物”字段,并不是名為“責(zé)任者(容器型)”的字段。
⑤相似字段在定義上有所差異,導(dǎo)致無(wú)法完整映射。如《照片類電子檔案元數(shù)據(jù)方案》中“軟件信息”字段包括創(chuàng)建、形成、處理電子檔案的軟件名稱、版本等信息,而對(duì)應(yīng)《文書類電子文件元數(shù)據(jù)方案》中“文檔創(chuàng)建程序”字段僅包含創(chuàng)建電子文件的軟件信息,在定義范圍上有所差異。
2.4 我國(guó)不同領(lǐng)域間檔案元數(shù)據(jù)的互操作情況。除了按照檔案門類劃分元數(shù)據(jù),各領(lǐng)域也根據(jù)自身特點(diǎn)形成了各自的檔案元數(shù)據(jù),如《LD/T 03-2021 社會(huì)保險(xiǎn)業(yè)務(wù)檔案元數(shù)據(jù)規(guī)范》《QX/T 514—2019 氣象檔案元數(shù)據(jù)》《NB/T 20418-2017核電電子文件元數(shù)據(jù)》《CJJ/T 187-2012建設(shè)電子檔案元數(shù)據(jù)標(biāo)準(zhǔn)》等。經(jīng)過(guò)比對(duì),大部分領(lǐng)域的檔案元數(shù)據(jù)方案制定是參考了《文書類電子文件元數(shù)據(jù)方案》,理論上都可以《文書類電子文件元數(shù)據(jù)方案》為中間元數(shù)據(jù)從而實(shí)現(xiàn)互操作。但也有學(xué)者通過(guò)專門比對(duì)發(fā)現(xiàn),即使不考慮標(biāo)準(zhǔn)之間的結(jié)構(gòu)差異,《文書類電子文件元數(shù)據(jù)方案》與《核電電子文件元數(shù)據(jù)》之間相互能夠映射的元素比例也很低(分別為23.86%和12.85%),而其中完全映射的也僅占65%,同時(shí)兩個(gè)標(biāo)準(zhǔn)與DC元數(shù)據(jù)映射的覆蓋率也十分不樂(lè)觀(分別為6.82%和5.03%)。[18]
值得一提的是,一些領(lǐng)域針對(duì)檔案目錄數(shù)據(jù)交換制定了專門的規(guī)范和格式要求,如《GJB 4500-2002 軍隊(duì)檔案機(jī)讀目錄信息交換格式》《HJ/T 79-2001 環(huán)境保護(hù)檔案機(jī)讀目錄數(shù)據(jù)交換格式》《QJ 2878A-2005 航天檔案數(shù)據(jù)采集規(guī)定》等,雖然不是元數(shù)據(jù)方案,但也提供一條可行的互操作路徑。
3 我國(guó)檔案元數(shù)據(jù)互操作問(wèn)題
從上述我國(guó)檔案元數(shù)據(jù)互操作現(xiàn)狀可以看出,我國(guó)檔案元數(shù)據(jù)互操作在結(jié)構(gòu)、語(yǔ)義和技術(shù)三個(gè)層面存在問(wèn)題。
3.1 結(jié)構(gòu)互操作問(wèn)題。結(jié)構(gòu)問(wèn)題包括語(yǔ)法結(jié)構(gòu)和內(nèi)容結(jié)構(gòu)兩方面,目前國(guó)內(nèi)大多數(shù)學(xué)者習(xí)慣將語(yǔ)法互操作和結(jié)構(gòu)互操作分開(kāi)闡釋,但是這忽略了元數(shù)據(jù)的語(yǔ)法和結(jié)構(gòu)往往是一體的,很難區(qū)分開(kāi)。比如XML和MARC,既規(guī)定了數(shù)據(jù)結(jié)構(gòu),也是標(biāo)記語(yǔ)法/句法規(guī)則,元數(shù)據(jù)的語(yǔ)法和結(jié)構(gòu)往往取決于采用什么定義語(yǔ)言(Definition Language)及建模語(yǔ)言(Modelling Language)來(lái)表達(dá),因此在本文將內(nèi)容結(jié)構(gòu)和語(yǔ)法結(jié)構(gòu)統(tǒng)一概括為結(jié)構(gòu)問(wèn)題。語(yǔ)法結(jié)構(gòu)沖突指不同元數(shù)據(jù)方案在命名、表達(dá)、定義能力和方式上的問(wèn)題,包括命名及標(biāo)識(shí)沖突、語(yǔ)法/句法沖突和元素定義沖突。內(nèi)容結(jié)構(gòu)問(wèn)題主要指兩種或兩種以上元數(shù)據(jù)方案在結(jié)構(gòu)映射時(shí)出現(xiàn)的問(wèn)題,包括一對(duì)多/多對(duì)一、層次錯(cuò)位、無(wú)對(duì)應(yīng)。
①命名及標(biāo)識(shí)沖突。命名沖突是指不同元數(shù)據(jù)方案中同一實(shí)體的元素被賦予不同命名名稱所帶來(lái)的沖突。
②語(yǔ)法/句法沖突。語(yǔ)法/句法(syntax)規(guī)定了機(jī)器可讀的編碼方式,語(yǔ)法沖突是指不同元數(shù)據(jù)方案采用了不同的編碼方式帶來(lái)的互操作差異。
③元素定義沖突。不同元語(yǔ)言提供不同的定義能力,例如XML描述語(yǔ)言一般可以從約束性(必選/可選)、可重復(fù)性、元素類型、數(shù)據(jù)類型、值域、缺省值等方面提供豐富的定義。即便是同一實(shí)體的元素在不同的元數(shù)據(jù)方案中也可能采取不同的定義。
④一對(duì)多/多對(duì)一映射沖突。元數(shù)據(jù)方案映射時(shí),源元數(shù)據(jù)中的一個(gè)元素可能對(duì)應(yīng)目標(biāo)元數(shù)據(jù)中的多個(gè)元素,即一對(duì)多沖突。考慮到映射的雙向性,也必然存在源元數(shù)據(jù)中的多個(gè)元素對(duì)應(yīng)目標(biāo)元數(shù)據(jù)中的一個(gè)元素,即多對(duì)一沖突。
⑤層次映射錯(cuò)位。一般領(lǐng)域的元數(shù)據(jù)方案僅起到多角度描述作用,元素之間的層級(jí)簡(jiǎn)單,結(jié)構(gòu)扁平,而檔案元數(shù)據(jù)方案通常有著明顯的多層著錄特征,因此在與其他元數(shù)據(jù)方案映射時(shí)常常會(huì)出現(xiàn)層次錯(cuò)位現(xiàn)象。即便同是檔案元數(shù)據(jù)方案,也可能因?yàn)樵貙傩裕ㄈ缛萜餍?、?fù)合型和字符型)造成準(zhǔn)確對(duì)應(yīng)層次。
⑥無(wú)對(duì)應(yīng)映射關(guān)系。無(wú)對(duì)應(yīng)是指源元數(shù)據(jù)中的一個(gè)元素?zé)o法對(duì)應(yīng)到目標(biāo)元數(shù)據(jù)中的任何一個(gè)元素。這在跨門類、跨領(lǐng)域元數(shù)據(jù)之間互操作時(shí)最常見(jiàn)。
3.2 語(yǔ)義互操作問(wèn)題。語(yǔ)義問(wèn)題是目前元數(shù)據(jù)互操作研究的共識(shí),主要包括領(lǐng)域沖突、術(shù)語(yǔ)沖突、表達(dá)沖突、多語(yǔ)言等問(wèn)題。
①領(lǐng)域沖突。這里的領(lǐng)域沖突皆可以指元素概念之間的相交、包含或相離關(guān)系帶來(lái)的語(yǔ)義沖突,也可以指定義語(yǔ)言表達(dá)能力之間的差別帶來(lái)的語(yǔ)義沖突。比如電子文件領(lǐng)域的元數(shù)據(jù)和地理信息領(lǐng)域的元數(shù)據(jù)之間領(lǐng)域重疊范圍小,互操作存在沖突。再比如OWL可以表示兩個(gè)元素之間的相等關(guān)系,而XML Schema并不能做到。
②術(shù)語(yǔ)沖突。術(shù)語(yǔ)沖突是元數(shù)據(jù)互操作中最常見(jiàn)的問(wèn)題之一,是指將相同域的概念映射到不同名稱的元素(即命名沖突)會(huì)發(fā)生同義詞沖突。
③表達(dá)沖突。表達(dá)沖突主要表現(xiàn)為單位不一致和編碼規(guī)則不一致。當(dāng)元數(shù)據(jù)元素值涉及測(cè)量數(shù)字時(shí),往往可能出現(xiàn)由于單位不一致導(dǎo)致的互操作沖突。如在DC中規(guī)定采用厘米作為長(zhǎng)度單位,而在照片類電子檔案元數(shù)據(jù)方案中采用分辨率(即像素)作為單位。此外,編碼規(guī)則不一致問(wèn)題在諸如日期表達(dá)中常見(jiàn),不同的表達(dá)規(guī)范會(huì)在語(yǔ)義上造成歧義。
④多語(yǔ)言。不同語(yǔ)種之間也存在互操作的要求,跨語(yǔ)言的互操作一般使用受控詞表及多語(yǔ)言的敘詞表,通過(guò)翻譯建立不同元素之間的關(guān)聯(lián)。我國(guó)是一個(gè)多民族多語(yǔ)言國(guó)家,解決好多語(yǔ)言間的互操作問(wèn)題也是語(yǔ)義互操作關(guān)注點(diǎn)之一。
3.3 技術(shù)互操作問(wèn)題。①文件格式不一致。目前檔案領(lǐng)域常用的XML格式作為元數(shù)據(jù)存儲(chǔ)和交換格式,但使用MARC機(jī)讀目錄格式、DBF數(shù)據(jù)庫(kù)文件格式甚至Excel格式的情況也仍然存在,不同的文件格式在轉(zhuǎn)換過(guò)程中會(huì)造成數(shù)據(jù)失真、缺失等情況,影響元數(shù)據(jù)互操作效果。
②數(shù)據(jù)交換協(xié)議/接口缺失。系統(tǒng)之間及系統(tǒng)內(nèi)部各組件之間常用的元數(shù)據(jù)交換方式包括Web Service、SOAP、OAI-PMH、Restful API等。目前我國(guó)各領(lǐng)域內(nèi)的信息壁壘、信息煙囪現(xiàn)象較常見(jiàn),信息系統(tǒng)間普遍缺少數(shù)據(jù)交換接口。
③安全問(wèn)題?;ゲ僮鞔蚱屏嗽蟹忾]環(huán)境,引進(jìn)了新的數(shù)據(jù)必然會(huì)帶來(lái)新的風(fēng)險(xiǎn)?;ゲ僮靼踩珕?wèn)題如未鑒權(quán)訪問(wèn)、元數(shù)據(jù)傳輸泄露、跳板攻擊、惡意爬蟲及DDOS攻擊等。
4 促進(jìn)我國(guó)檔案元數(shù)據(jù)互操作對(duì)策
4.1 重視檔案元數(shù)據(jù)標(biāo)準(zhǔn)制定。通過(guò)現(xiàn)狀總結(jié)不難發(fā)現(xiàn),我國(guó)檔案元數(shù)據(jù)標(biāo)準(zhǔn)的制定相對(duì)滯后,嚴(yán)重限制了元數(shù)據(jù)互操作以及檔案資源開(kāi)發(fā)。在檔案元數(shù)據(jù)互操作中,檔案元數(shù)據(jù)標(biāo)準(zhǔn)/方案無(wú)疑是處于核心地位,其制定和實(shí)施將直接影響檔案元數(shù)據(jù)的格式和形態(tài),決定了與其他元數(shù)據(jù)互操作的難易程度。因此重視檔案元數(shù)據(jù)標(biāo)準(zhǔn)的制定尤為重要。
一是遵循制定元數(shù)據(jù)標(biāo)準(zhǔn)通用原則。元數(shù)據(jù)標(biāo)準(zhǔn)設(shè)計(jì)原則包括簡(jiǎn)單性和準(zhǔn)確性、專指度和通用性、易轉(zhuǎn)換性、可擴(kuò)展性和用戶需求導(dǎo)向等。[19]目前我國(guó)的《文書類電子文件元數(shù)據(jù)方案》《照片類電子檔案元數(shù)據(jù)方案》和《錄音錄像類電子檔案元數(shù)據(jù)方案》在元數(shù)據(jù)元素的選擇和定義上體現(xiàn)的通用性不足,沒(méi)有復(fù)用國(guó)際上通用的檔案元數(shù)據(jù)元素,未來(lái)制定我國(guó)通用檔案元數(shù)據(jù)標(biāo)準(zhǔn)時(shí)需要注意這一點(diǎn)。可以通過(guò)制定檔案元數(shù)據(jù)標(biāo)準(zhǔn)框架,明確設(shè)計(jì)檔案元數(shù)據(jù)標(biāo)準(zhǔn)時(shí)需要遵守的規(guī)則和方法。
二是參與國(guó)際元數(shù)據(jù)標(biāo)準(zhǔn)研究。國(guó)際上主要的元數(shù)據(jù)標(biāo)準(zhǔn)主要包括由DCMI主導(dǎo)的DC、SAA主導(dǎo)的EAD和EAC-CPF、ICA主導(dǎo)的RiC等,這些標(biāo)準(zhǔn)大多以專業(yè)組織為單位,廣泛結(jié)合國(guó)際各國(guó)的力量和實(shí)踐經(jīng)驗(yàn)展開(kāi)研發(fā)。元數(shù)據(jù)標(biāo)準(zhǔn)規(guī)定了數(shù)據(jù)在電子環(huán)境下的存儲(chǔ)和傳輸方式,可以說(shuō)元數(shù)據(jù)標(biāo)準(zhǔn)就是網(wǎng)絡(luò)空間的話語(yǔ)權(quán)。隨著我國(guó)經(jīng)濟(jì)和政治影響力不斷提升,我國(guó)檔案界有責(zé)任和義務(wù)在國(guó)際元數(shù)據(jù)標(biāo)準(zhǔn)舞臺(tái)上發(fā)聲,積極融入國(guó)際檔案元數(shù)據(jù)標(biāo)準(zhǔn)的研究進(jìn)程中,努力與世界水平接軌。
三是引入國(guó)際成熟標(biāo)準(zhǔn),加快研究檔案語(yǔ)義本體。EAD、EAC-CPF等標(biāo)準(zhǔn)已經(jīng)成為事實(shí)上的通用國(guó)際標(biāo)準(zhǔn),現(xiàn)有的大多數(shù)檔案語(yǔ)義本體標(biāo)準(zhǔn)也是基于此研制。由于我國(guó)尚無(wú)類似的檔案通用元數(shù)據(jù)標(biāo)準(zhǔn),導(dǎo)致檔案資源開(kāi)發(fā)和利用很難直接借鑒國(guó)外的經(jīng)驗(yàn)和方法。為了保障和其他國(guó)家檔案資源的互操作,有必要引入成熟的國(guó)際標(biāo)準(zhǔn),并在全國(guó)范圍內(nèi)推行,同時(shí)加強(qiáng)研究中文語(yǔ)境下的檔案本體,構(gòu)建具有中國(guó)特色的檔案元數(shù)據(jù)標(biāo)準(zhǔn)。
4.2 切實(shí)提高檔案元數(shù)據(jù)質(zhì)量。受限我國(guó)各地區(qū)、各領(lǐng)域參差不齊的信息化水平以及著錄人員的負(fù)責(zé)程度,檔案元數(shù)據(jù)質(zhì)量水平高低不等令人擔(dān)憂。有調(diào)查曾指出,現(xiàn)有檔案目錄數(shù)據(jù)庫(kù)建設(shè)中存在諸如著錄格式不規(guī)范、數(shù)據(jù)庫(kù)設(shè)計(jì)不合理、分類標(biāo)引工作停滯等,為建設(shè)統(tǒng)一元數(shù)據(jù)目錄中心以及后續(xù)合并數(shù)據(jù)帶來(lái)了困難。[20]因此,必須首先提高檔案元數(shù)據(jù)質(zhì)量,才能為后續(xù)互操作打下堅(jiān)實(shí)基礎(chǔ)。
一是要加強(qiáng)檔案信息化建設(shè)。檔案信息化是資源整合的前提,也是元數(shù)據(jù)互操作的前提。加強(qiáng)數(shù)字檔案資源建設(shè),尤其是原生電子文件的管理,確保檔案元數(shù)據(jù)及時(shí)準(zhǔn)確捕獲。二是加強(qiáng)檔案元數(shù)據(jù)著錄工作。新《規(guī)則》對(duì)檔案內(nèi)容著錄提出了更高的要求,檔案著錄不再是“一次性”工作。檔案元數(shù)據(jù)著錄工作必須嚴(yán)格遵守相關(guān)的著錄規(guī)則,確保在格式和內(nèi)容上保持統(tǒng)一。三是開(kāi)發(fā)元數(shù)據(jù)自動(dòng)著錄技術(shù)。面對(duì)海量的存量檔案資源,僅依賴人工手動(dòng)著錄是不現(xiàn)實(shí)的,也不可能完全避免錯(cuò)誤,因此開(kāi)發(fā)基于AI的自動(dòng)著錄技術(shù)是有必要的,再通過(guò)人工審核進(jìn)一步確保檔案元數(shù)據(jù)質(zhì)量。
4.3 加強(qiáng)檔案資源整合實(shí)踐。目前我國(guó)檔案元數(shù)據(jù)互操作實(shí)踐大多還停留在以地域?yàn)閱挝换蛱囟愋蜋n案資源整合方面,表面看起來(lái)問(wèn)題并不突出,但在整合理念、整合主體和整合范圍等方面都有較大的提升空間。
一是轉(zhuǎn)變重藏輕用思想,加快檔案開(kāi)放共享。開(kāi)放共享數(shù)字檔案資源是實(shí)現(xiàn)檔案元數(shù)據(jù)互操作的重要基礎(chǔ)。加快開(kāi)放共享檔案資源具體可以從法律、政策和社會(huì)環(huán)境幾個(gè)角度著手。法律層面,盡快給檔案資源“松綁”,確定檔案開(kāi)放的法律義務(wù)和責(zé)任,針對(duì)信息公開(kāi)和檔案開(kāi)放之間的不適應(yīng),及時(shí)做出修訂和調(diào)整,為開(kāi)放共享打下基礎(chǔ)。政策方面,政府和檔案部門要積極推動(dòng)檔案資源的開(kāi)放,更加強(qiáng)調(diào)檔案資源的文化屬性而不是政治屬性,發(fā)布促進(jìn)檔案資源開(kāi)發(fā)和利用的政策和保障措施。社會(huì)層面,努力改善公眾對(duì)檔案的認(rèn)識(shí),提高檔案利用意識(shí),通過(guò)開(kāi)發(fā)歷史檔案資源激起社會(huì)對(duì)檔案研究?jī)r(jià)值的重視。
二是積極開(kāi)展跨領(lǐng)域檔案資源整合。首先,檔案機(jī)構(gòu)要革新自我定位,要認(rèn)識(shí)到除了有保存的職能,更有傳播和開(kāi)發(fā)文化遺產(chǎn)、歷史記憶的職能,樹(shù)立為公民服務(wù)的理念,為公眾提供一站式服務(wù)。其次,積極和其他領(lǐng)域文化機(jī)構(gòu)合作,如圖書館和博物館等,以專題項(xiàng)目為契機(jī),關(guān)聯(lián)共性資源,提供更豐富的檔案元數(shù)據(jù)信息。最后,探索與非公共文化領(lǐng)域的合作,鼓勵(lì)跨界合作,比如與百度百科鏈接,提供專業(yè)詞條撰寫和鏈接;與國(guó)際相關(guān)數(shù)據(jù)集建立(如人名、地名、事件)關(guān)聯(lián),充實(shí)元數(shù)據(jù)內(nèi)容;建立眾包平臺(tái),吸引不同專業(yè)背景的用戶參與添加標(biāo)簽,豐富檔案著錄信息等。從整合內(nèi)容看,可以保持目前以整合歷史檔案為主做法,同時(shí)適當(dāng)放開(kāi)其他類型檔案的利用限制,如民生檔案、名人檔案、非遺檔案等,以特色檔案資源整合服務(wù)為抓手,擴(kuò)大檔案元數(shù)據(jù)互操作的實(shí)踐面。
4.4 重視語(yǔ)義本體技術(shù)應(yīng)用。結(jié)構(gòu)/語(yǔ)法和技術(shù)層面的互操作問(wèn)題目前已經(jīng)通過(guò)統(tǒng)一XML和API技術(shù)基本解決,語(yǔ)義互操作成為下一步關(guān)注的核心問(wèn)題,因此重視語(yǔ)義及本體相關(guān)技術(shù)的應(yīng)用就顯得尤為重要。
一是積極開(kāi)發(fā)和應(yīng)用檔案本體標(biāo)準(zhǔn)。RiC作為檔案領(lǐng)域最新的國(guó)際著錄標(biāo)準(zhǔn),在設(shè)計(jì)理念上引入了本體概念,構(gòu)建了一套基于實(shí)體的概念體系。目前國(guó)外已經(jīng)在PIAAF、Docuteam、SNAC等多個(gè)項(xiàng)目中開(kāi)始應(yīng)用實(shí)施RiC。
二是語(yǔ)義網(wǎng)環(huán)境下的敘詞表開(kāi)發(fā)。敘詞表、分類表、主題詞表等作為傳統(tǒng)手工管理常用的標(biāo)引工具,具有良好的檢索性能,但是并不能被機(jī)器直接讀取和理解。通過(guò)SKOS數(shù)據(jù)模型規(guī)范、統(tǒng)一組織后可以形成各類知識(shí)組織系統(tǒng),并且彼此相互映射、相互兼容,共同組成了語(yǔ)義網(wǎng)的重要部分。
三是關(guān)聯(lián)技術(shù)的廣泛應(yīng)用。目前比較常用的關(guān)聯(lián)技術(shù)包括OWL、知識(shí)圖、知識(shí)圖譜等,其本質(zhì)都是構(gòu)建實(shí)體之間的RDF關(guān)系三元組,再將彼此鏈接起來(lái)形成一張復(fù)雜的語(yǔ)義網(wǎng),從而實(shí)現(xiàn)語(yǔ)義關(guān)聯(lián)。
參考文獻(xiàn):
[1]張曉林.元數(shù)據(jù)研究與應(yīng)用[M].北京:北京圖書館出版社,2002.
[2]張東.論元數(shù)據(jù)互操作的層次[J].情報(bào)理論與實(shí)踐,2005(06):91-93.
[3]畢強(qiáng),朱亞玲.元數(shù)據(jù)標(biāo)準(zhǔn)及其互操作研究[J].情報(bào)理論與實(shí)踐,2007(05):666-670.
[4]彭靜,高林,張展新.元數(shù)據(jù)互操作技術(shù)研究[J].信息技術(shù)與標(biāo)準(zhǔn)化,2008(11):50-53.
[5]Arms W A,Hillman D,Lagoze C,et al.A Spectrum of Interoperability,The Site for Science Prototype for the NSDL[J].D-Lib magazine;2002(08):1,2002.
[6]Chan L M,Zeng M L.Metadata interoperability and standardization-a study of methodology part I[J].D-Lib magazine,2006,12(06):1082-9873.
[7]Zeng M L,Chan L M.Metadata interoperability and standardization-A study of methodology,Part II[J].D-Lib Magazine,2006,12(06):1082-9873.
[8]王芳,王小麗.基于OAI協(xié)議的數(shù)字檔案館元數(shù)據(jù)互操作問(wèn)題研究[J].現(xiàn)代圖書情報(bào)技術(shù),2007(03):18-24.
[9]王萍,鄧君,高漸.開(kāi)放獲取理念及技術(shù)在檔案領(lǐng)域中的應(yīng)用[J].檔案學(xué)通訊,2007,No.179(06):43-46.
[10]包海峰,陳剛.基于OAI互操作協(xié)議的檔案信息資源整合模式研究[J].檔案與建設(shè),2012,No.286(12):13-16.
[11]彭楨,包海峰,徐濼燚.支持元數(shù)據(jù)和服務(wù)共享的三類互操作協(xié)議比較[J].檔案與建設(shè),2016,No.336(12):23-27.
[12]安海寧,程子彧.檔案系統(tǒng)互操作問(wèn)題研究[J].合作經(jīng)濟(jì)與科技,2013,No.466(11):125-126.
[13]房小可.OAI環(huán)境下基于本體的DC元數(shù)據(jù)與檔案元數(shù)據(jù)EAD的映射[J].蘭臺(tái)世界,2018,No.554(12):41-45.
[14]郭學(xué)敏,Ryan Shaw.基于關(guān)聯(lián)數(shù)據(jù)的檔案語(yǔ)義轉(zhuǎn)換實(shí)踐分析[J].檔案學(xué)通訊,2019(05):50-57.
[15]呂元智.數(shù)字檔案資源體系的語(yǔ)義互操作實(shí)現(xiàn)研究[J].檔案學(xué)通訊,2013,No.214(05):53-57.
[16]Wallace D A.Managing the present:Metadata as archival description[J].Archivaria,1995,39.
[17]王熹.《檔案著錄規(guī)則》修訂解讀[J].中國(guó)檔案,2022,(09):28-29.
[18]蘇洲,劉娟.核電文檔元數(shù)據(jù)比較研究[J].浙江檔案,2014(12):12-16.
[19]肖瓏,陳凌,馮項(xiàng)云,馮英.中文元數(shù)據(jù)標(biāo)準(zhǔn)框架及其應(yīng)用[J].大學(xué)圖書館學(xué)報(bào),2001(05):29-35+91.
[20]浙江省檔案數(shù)據(jù)庫(kù)建設(shè)調(diào)查組 ,韓李敏.檔案信息化建設(shè) 數(shù)據(jù)質(zhì)量是關(guān)鍵──浙江省綜合檔案館信息數(shù)據(jù)庫(kù)建設(shè)調(diào)查報(bào)告[J].檔案學(xué)研究,2002(03):45-48.
(作者單位:中國(guó)科學(xué)院檔案館 孔祥盛,碩士,館員 ?來(lái)稿日期:2022-10-20)