沈 藝
(南京師范大學 圖書館,南京 210023)
2009年初,開放數(shù)據(jù)(open data)作為美國新一屆政府的第一個政府令,引起研究人員廣泛關注,發(fā)表論文數(shù)量逐年增加[1].隨著開放數(shù)據(jù)應用和研究的深入,針對開放數(shù)據(jù)元數(shù)據(jù)研究也在近期成為重要選題,如:司莉和趙潔以美國開放政府數(shù)據(jù)網(wǎng)站data.gov中的元數(shù)據(jù)標準為例,分析其元數(shù)據(jù)體系及具體標準[2].黃如花和李楠選取澳大利亞開放政府數(shù)據(jù)平臺Data.gov.au為研究對象,分析其元數(shù)據(jù)標準的元素組成、數(shù)據(jù)格式、語法結構[3];趙蓉英、梁志森、段培培以Data.gov.uk為研究對象,通過查閱相關政府文獻和對網(wǎng)站信息進行調(diào)查,從文件結構、元素組成及規(guī)則等方面總結元數(shù)據(jù)標準的特點,揭示Data.gov.uk 兩種類型的元數(shù)據(jù),即面向網(wǎng)站數(shù)據(jù)資源的CKAN 格式記錄和針對地理空間數(shù)據(jù)的Gemini 地理空間元數(shù)據(jù)標準[4];黃如花和林焱對開放政府數(shù)據(jù)水平較高的英國、美國、加拿大、澳大利亞、新西蘭、歐盟的政府數(shù)據(jù)開放門戶及其相關公共部門的元數(shù)據(jù)描述規(guī)范進行調(diào)研,提出我國開放數(shù)據(jù)元數(shù)據(jù)標準建設要求,以期更好地實現(xiàn)政府數(shù)據(jù)開放共享[5];翟軍、于夢月、林巖在介紹W3C元數(shù)據(jù)標準DCAT (Data Catalog Vocabulary)、美國的“開放數(shù)據(jù)項目”(Project Open Data,POD)和歐盟的DCAT 應用綱要(DCAT-AP)方案基礎上,分析和總結美國、歐盟和愛爾蘭政府開放數(shù)據(jù)元數(shù)據(jù)建設的成果和特點[6],此外,還借鑒和參考其它國家經(jīng)驗,調(diào)查和分析我國地方政府開放數(shù)據(jù)元數(shù)據(jù),設計基于DCAT的描述數(shù)據(jù)集和數(shù)據(jù)資源的核心元數(shù)據(jù)方案[7].由此可見,元數(shù)據(jù)是政府開放數(shù)據(jù)行動的重要內(nèi)容,也是開放數(shù)據(jù)平臺建設的重要基礎,更是開放數(shù)據(jù)質(zhì)量保證的關鍵因素.
開放數(shù)據(jù)元數(shù)據(jù)映射(open data metadata mapping)雖然在相關國際集團[8]中,列為共同行動計劃,但描述和管理開放數(shù)據(jù)的元數(shù)據(jù)標準和規(guī)范不斷變遷,任何一種元數(shù)據(jù)標準都不可能完全適應結構日益復雜、分布日益廣泛、共享的需求日益增強、檢索方式差異日益增大的開放數(shù)據(jù).迫切需要對開放數(shù)據(jù)元數(shù)據(jù)映射相關內(nèi)容作進一步探索.為此,本文在研究目前主要開放數(shù)據(jù)元數(shù)據(jù)標準規(guī)范的基礎上,解析其元數(shù)據(jù)映射實現(xiàn)機制,為開放數(shù)據(jù)資源整合,實現(xiàn)跨平臺開放數(shù)據(jù)共享提供參考.
為讓開放數(shù)據(jù)元數(shù)據(jù)映射行動得到較廣泛的接受,可根據(jù)開放數(shù)據(jù)元數(shù)據(jù)字段所起作用,選取五類元數(shù)據(jù)字段[9]:(1)聯(lián)絡信息(contact information),包含與開放數(shù)據(jù)相關的聯(lián)絡人姓名、辦事處或機構信息,如開放數(shù)據(jù)擁有者、發(fā)布者,以及聯(lián)系方式;(2)數(shù)據(jù)集描述(dataset information),是與數(shù)據(jù)集相關的信息,如數(shù)據(jù)集唯一標識符,數(shù)據(jù)集更新頻率,相關的關鍵詞或者標簽;(3)范圍信息(extent information),指明數(shù)據(jù)集適用范圍,即數(shù)據(jù)集覆蓋的地理區(qū)域、數(shù)據(jù)細節(jié)等字段;(4)補充信息(supplemental information),與數(shù)據(jù)集(資源)相關的其他重要信息,如上下文文檔等;(5)發(fā)布信息(distribution information),是開放數(shù)據(jù)資源發(fā)布使用相關的信息,如文件大小、格式、語言等.這5個方面的元數(shù)據(jù)字段元素構成的開放數(shù)據(jù)元數(shù)據(jù)映射的核心框架.這5 類元數(shù)據(jù)字段需要隨著開放數(shù)據(jù)應用發(fā)展狀況進行擴充或修改.
聯(lián)絡信息包含8個字段,分別是聯(lián)系人(person)、聯(lián)系人郵箱(contact Email)、機構(organization)、出版者(publisher)、作者(author)、作者郵箱(author Email)、維護者(maintainer)及維護者郵箱(maintainer Email).其中聯(lián)系人是指將開放數(shù)據(jù)作為數(shù)據(jù)資產(chǎn)管理所指定對外聯(lián)系人,機構(所有者)是指出版機構,如果是涉及多部門機構可以使用這個字段來描述發(fā)布該數(shù)據(jù)集的下屬機構.
數(shù)據(jù)集(dataset)是有組織的數(shù)據(jù)集合,不僅可以包含結構化數(shù)據(jù)文件,還可以包含各種非結構化或半結構化的信息文件.數(shù)據(jù)集可以被某個機構所擁有,成為特定的數(shù)據(jù)資產(chǎn)(data asset),用于支持各個用戶對信息資源的需求.這里的數(shù)據(jù)集是指開放數(shù)據(jù)集,可以給公眾開放使用.
數(shù)據(jù)集標識(dataset identification)元數(shù)據(jù)標記了開放數(shù)據(jù)集的辨識信息,主要有9個屬性:唯一標識符(unique identifier)、發(fā)布日期(release date)、修改日期(modified)、最后更新日期(last updated)、描述(description)、關鍵詞(keyword)、更新周期(frequency of update)、題名(title)和目錄(category).數(shù)據(jù)集唯一標識符一般需要由代理商維護,以確保開放數(shù)據(jù)集的標題或網(wǎng)址變更后,其唯一標識符不變.描述信息是對數(shù)據(jù)集內(nèi)容特征的簡要描述,如摘要等,供使用者閱讀后,獲得足夠的細節(jié),能夠快速決定是否對該數(shù)據(jù)集感興趣.
數(shù)據(jù)集覆蓋范圍元數(shù)據(jù)用于描述開放數(shù)據(jù)集覆蓋的地域范圍,及與數(shù)據(jù)集位置相關的細節(jié),一般作為擴展信息使用.因此,在描述管理數(shù)據(jù)集覆蓋范圍信息時,可以使用其他元數(shù)據(jù)標準中的詞匯表.這些擴展信息可以被網(wǎng)絡搜索引擎或開放數(shù)據(jù)平臺編入索引,為開放數(shù)據(jù)共享提供幫助,也可以讓開放數(shù)據(jù)集的發(fā)布者方便使用擴展信息字段列表中的元素,以及從其他任何元數(shù)據(jù)標準(如:DC、Schema.org、FGDC、ISO 19115和NIEM 等)中引入相關字段,并通過目錄元數(shù)據(jù)前面描述的By和@context 字段來定義這些擴展,正確分配字段.
這里給出的描述開放數(shù)據(jù)集覆蓋范圍元數(shù)據(jù)字段都不是必備字段,其字段名的機讀形式可以自定義:
(1)Spatial coverage/空間覆蓋范圍
(2)Spatial Type/空間覆蓋類型
(3)Spatial Coordinates/空間坐標
(4)Geographic Region Name/地理區(qū)域名稱
(5)Geographic Bounding Box - Lower Left Corner/地理邊界框-左下角
(6)Bounding Box - Upper Right Corner/地理邊界框-右上角
(7)Bounding Box - Coordinate Reference System/地理邊界框-坐標參照系
(8)Geographic Bounding Box–Dimensions/地理邊界框-維度
(9)Temporal coverage/數(shù)據(jù)集時間跨度
(10)Temporal coverage starts/數(shù)據(jù)集時間范圍開始時間
(11)Temporal coverage ends/數(shù)據(jù)集時間范圍結束時間
(12)Temporal granularity/數(shù)據(jù)集時間粒度
(13)Temporal granularity factor/數(shù)據(jù)集時間粒度因子數(shù)據(jù)
(14)Periodicity of data(set) collection/數(shù)據(jù)(集)采集周期
(15)Periodicity of the production process/數(shù)據(jù)集生產(chǎn)周期
(16)Periodicity of the estimates/數(shù)據(jù)集引用周期
(17)Temporal and spatial comparability/數(shù)據(jù)集時空比較
(18)Periodicity of data dissemination/數(shù)據(jù)發(fā)布周期
(19)Data Quality/數(shù)據(jù)質(zhì)量
(20)Granularity/粒度
其中,空間范圍是指開放數(shù)據(jù)集的空間適用性范圍,可以包含像邊界框或指定位置的空間區(qū)域.以十進制度數(shù)指定,順序為:最小經(jīng)度,最小緯度,最大經(jīng)度,最大緯度;空間坐標表示開放數(shù)據(jù)集中地理信息相關點的緯度/經(jīng)度對(十進制度);地理區(qū)域名稱使用簡單特征文檔以地理標記語言表示的地理特征,或來自地理名稱數(shù)據(jù)庫的地理特征,其字段名可以spatial 開頭.時間跨度為數(shù)據(jù)集的時間適用范圍(即數(shù)據(jù)適用性的開始和結束日期),字段應包含由開始和結束日期定義的時間間隔.日期應使用24 小時制時間表示法,格式為YYYY-MM-DD hh:mm:ss 格式對{開始日期,結束日期},例如:2017-02-14 12:00:00,2018-02-14 12:00:00.
與開放數(shù)據(jù)集發(fā)布相關的元數(shù)據(jù)至少有7 項.其中,開放數(shù)據(jù)資源網(wǎng)址(resource URL)必須提供可直接訪問并能下載開放數(shù)據(jù)集的網(wǎng)址.主頁網(wǎng)址(homepage URL)讓用戶在開放數(shù)據(jù)平臺上選擇開放數(shù)據(jù)集時可以重定向到開放數(shù)據(jù)的內(nèi)容.主頁網(wǎng)址不能用代理托管門戶主頁代替,而必須是開放數(shù)據(jù)的中心網(wǎng)站.資源格式(Format)顯示所發(fā)布開放數(shù)據(jù)文件格式或應用程序接口(API)類型,因此,文件必須使用擴展名(例如,CSV,XLS,XSLX,TSV,JSON,XML)來描述.
增補信息(supplemental information)中只有一個相關文檔網(wǎng)址(documentation URL)的元數(shù)據(jù),用于表示元數(shù)據(jù)數(shù)據(jù)集技術信息文檔和開發(fā)者文檔的網(wǎng)址.字段名可以用resources 表示,它不是必備字段,其值是逗號分隔的網(wǎng)址.
此外,開放數(shù)據(jù)平臺會根據(jù)自己的情況擴展一些特定的元數(shù)據(jù)項.如:主題(Theme)、公共訪問級別(Public Access Level)、API 端點(API Endpoint)、RSS訂閱(RSS Feed)、數(shù)據(jù)字典(Data Dictionary)和記錄系統(tǒng)(System of Records)等.其中,主題表明數(shù)據(jù)集的主要類別,多個主題詞用逗號分隔.公共訪問級別定義了數(shù)據(jù)集可以公開獲取的程度,如:公共(公開可用),限制(在某些條件下可用)或私有(永遠不能公開),必須在所定義的選項中選擇一種.API 端點定義訪問數(shù)據(jù)集的Web 服務端點,可用于描述由代理機構提供的網(wǎng)絡服務,以及匯總跨開放數(shù)據(jù)平臺的API 目錄.RSS訂閱提供對數(shù)據(jù)集訪問RSS 訂閱網(wǎng)址.這些RSS 源將用于創(chuàng)建一個跨機構的RSS 源搜索工具.數(shù)據(jù)字典記錄數(shù)據(jù)集或API 屬性描述對照表的URL.記錄系統(tǒng)收錄與此數(shù)據(jù)集相關的記錄網(wǎng)址.
開放數(shù)據(jù)元數(shù)據(jù)映射行動目前才剛剛起步,英國承諾在政府發(fā)布的企業(yè)數(shù)據(jù)中進行開放數(shù)據(jù)元數(shù)據(jù)映射實踐,在2015年6月之前建立標準化的通用元數(shù)據(jù)詞匯表,用于數(shù)據(jù)集的發(fā)布,同步建立可持續(xù)使用的元數(shù)據(jù)詞典[10].加拿大承諾為元數(shù)據(jù)映射實踐作貢獻.美國各級政府結合自身特點提出各自開放數(shù)據(jù)元數(shù)據(jù)映射方法.從開放數(shù)據(jù)全面共知共享要求來看,開放數(shù)據(jù)元數(shù)據(jù)映射應包含3個層面的內(nèi)容:①國家間開放數(shù)據(jù)元數(shù)據(jù)映射;②不同開放數(shù)據(jù)元數(shù)據(jù)方案(標準)間映射;③相同標準不同版本間的映射.
開放數(shù)據(jù)平臺上發(fā)布的數(shù)據(jù)集大都使用本國官方指定語言.而描述開放數(shù)據(jù)集的元數(shù)據(jù)與記錄放數(shù)據(jù)所用語言就可能不同,并且元數(shù)據(jù)的用戶閱讀形式和機讀形式也可能不同.如開放數(shù)據(jù)的許可元數(shù)據(jù)Licence 用戶閱讀形式,美國為License,而英國、法國和加拿大都是Licence,德國是Nutzungsbestimmungen,日本是ライセンス,意大利是Licenza,俄國是Условия использования набора данных.而機讀形式大多采用英文.如開放數(shù)據(jù)集發(fā)布信息中的資源格式元數(shù)據(jù)Format,不同國家,不同開放數(shù)據(jù)平臺,所用的元數(shù)據(jù)的表達形式會不一樣,這要求在跨平臺共享操作時進行映射.元數(shù)據(jù)Format 在英美等國之間的映射如表1所示.
表1 元數(shù)據(jù)Format 在國家之間的映射
開放數(shù)據(jù)元數(shù)據(jù)標準多樣性,往往表現(xiàn)在:一個開放數(shù)據(jù)平臺上所采用的元數(shù)據(jù)標準規(guī)范不止一種,不同國家或地區(qū)的開放數(shù)據(jù)平臺所用的元數(shù)據(jù)標準也會有多種選擇,常用的有:
(1)DCAT (Data CATalog vocabulary)[11]及其應用綱要(Application Profile):DCAT 最初由愛爾蘭國立高威大學的數(shù)字化企業(yè)研究所(Digital Enterprise Research Institute) 開發(fā),是目前最為廣泛采用的元數(shù)據(jù)詞表[12],經(jīng)W3C 發(fā)布,成為政府開放數(shù)據(jù)元數(shù)據(jù)正式推薦標準,被歐盟、美國、英國、西班牙、愛爾蘭和意大利等政府機構、服務全球的數(shù)據(jù)目錄DataHub和CKAN等開放數(shù)據(jù)平臺采用,有7個類,其中dcat:Catalog 類有13個屬性;dcat:Dataset 類有15個屬性,5個新屬性;dcat:Distribution 類有11個屬性,4個新屬性.
(2)DCAT-AP (DCAT Application Profile for data portals in Europe):是歐盟在DCAT 基礎上將類和屬性分成強制的(mandatory)、推薦的(recommended)和可選的(optional)三組,共計22個類,DCAT-AP 被歐盟各成員國通過,并被用于歐盟14個國家的開放數(shù)據(jù)門戶網(wǎng)站.
(3)POD 開放數(shù)據(jù)元數(shù)據(jù)修飾詞規(guī)范(Project Open Data Metadata Schema V1.1[13]):POD“元數(shù)據(jù)方案”由美國白宮“開放數(shù)據(jù)項目”(Project Open Data)發(fā)布,廣泛用于美國各級政府開放數(shù)據(jù)平臺,PODV1.1的數(shù)據(jù)目錄設有6個元素,描述數(shù)據(jù)集的元素有29個(17個來自DCAT),描述數(shù)據(jù)資源的元素有10個(6來自DCAT,4個自定義).
(4)開放數(shù)據(jù)平臺自定義元數(shù)據(jù),如CKAN 等;CKAN是一種開源的數(shù)據(jù)門戶平臺,由開放知識國際(Open Knowledge International) 開發(fā),提供數(shù)據(jù)發(fā)布、共享、搜索和使用的一系列流程的工具,被英國、荷蘭和歐盟等用于開放數(shù)據(jù)平臺的構建.該平臺定義自己的元數(shù)據(jù)規(guī)范ADMS (Asset Description Metadata Schema)[14],可用于開放數(shù)據(jù)描述和管理.
(5)Schema.org 體系:它于2011年6月由谷歌、微軟和雅虎聯(lián)合建立.目的是要創(chuàng)建搜索引擎都支持的結構化數(shù)據(jù)標記架構,在提供一套通用模式的基礎上,給用戶提供更好的網(wǎng)絡體驗.
不同開放數(shù)據(jù)平臺、不同標準規(guī)范方案之間的元數(shù)據(jù)也需要映射.這里,以發(fā)布信息指標元數(shù)據(jù)為例,展示不同開放數(shù)據(jù)元數(shù)據(jù)方案之間的映射,如表2.
表2 不同元數(shù)據(jù)方案的發(fā)布信息指標元數(shù)據(jù)映射表
有些國家甚至對同一種元數(shù)據(jù)標準(或規(guī)范),采用不同的版本,由于開放數(shù)據(jù)元數(shù)據(jù)標準或規(guī)范會隨時間進行修改升級,依據(jù)老版本標準對開放數(shù)據(jù)進行描述所產(chǎn)生的元數(shù)據(jù),與新版本相比,如果變化較大,特別是有描述字段等的增改,是有對新老版本描述的元數(shù)據(jù)進行映射.表3列出POD中數(shù)據(jù)集發(fā)布類元數(shù)據(jù)字段的映射,為適應開放數(shù)據(jù)的發(fā)展,POD v1.1 版就比v1.0 版增加很多字段.
表3 POD v1.1 與v1.0 數(shù)據(jù)集發(fā)布類元數(shù)據(jù)字段映射表
元素映射存在一對一、一對多和無對應元素三種映射關系,也存在必備元素映射為必備元素、可選元素或者條件元素的差異.因此要深入研究元數(shù)據(jù)映射實現(xiàn)機制,還要著力實現(xiàn)不同元數(shù)據(jù)標準元數(shù)據(jù)元素之間的完全映射.
完成元數(shù)據(jù)映射,既可用轉換程序,也可用中介格式,更有效的是建立一個標準的資源描述框架(RDF).轉換程序?qū)υ獢?shù)據(jù)方案進行轉換,轉換程序修改元數(shù)據(jù)內(nèi)容,存儲在目標元數(shù)據(jù)方案相似的元素里,這個元數(shù)據(jù)方案中定義的元素(類或字段)通過轉換程序被其它相關元數(shù)據(jù)方案識別和利用.中介格式是對同一格式框架下的多種元數(shù)據(jù)格式進行轉換,這種方法映射轉換準確、轉換效率較高,但在面對多種元數(shù)據(jù)格式并存的開放式環(huán)境中的應用效率明顯受到限制[15,16].而建立一個標準的資源描述框架(RDF),即定義一種標準的框架描述所有的元數(shù)據(jù)格式,開放數(shù)據(jù)平臺只要能解析這個標準描述框架,就能解讀相應的開放數(shù)據(jù)的元數(shù)據(jù)格式,建立元數(shù)據(jù)元素的語義關系,利用XML或JSON 實現(xiàn)開放數(shù)據(jù)元數(shù)據(jù)映射.
RDF 以可擴展標記語言(eXtensible Markup Language,XML)為表達工具,構成元數(shù)據(jù)交換和處理的通用語法結構體系.RDF 描述體系封裝多種元數(shù)據(jù),統(tǒng)一了元數(shù)據(jù)的描述體系,也為多種元數(shù)據(jù)之間的互操作提供了基礎.這里以開放機讀目錄元數(shù)據(jù)和DC為例說明如何將它們描述的對象納入到同一個RDF 框架中,實現(xiàn)數(shù)據(jù)共享.
xmlns:rdf="http://www.w3.org/1999/02/22-rdfsyntax-ns#" xmlns:dc="http://purl.org/metadata/dublin_core#" ……
JSON (JavaScript Object Notation)即JavaScript 對象表示法是一種目前流行的數(shù)據(jù)交換格式,在Web API、服務端編程語言、NoSQL 數(shù)據(jù)庫及客戶端框架等方面都有應用.JSON 可用于不同平臺間的數(shù)據(jù)交換,是一種輕量級的數(shù)據(jù)交換格式,既易于人編寫和閱讀,又易于機器生成和解析,非常適合在不同平臺、不同元數(shù)據(jù)標準所描述開放數(shù)據(jù)之間的映射表達[17],相比XML,JSON的效率更高.
JSON的數(shù)據(jù)是被保存在花括號{}中,這里給以美國開放數(shù)據(jù)的發(fā)布信息元數(shù)據(jù)映射為例,看看如何用JSON 實現(xiàn)對不同元數(shù)據(jù)標準描述的開放數(shù)據(jù)進行映射.首先對發(fā)布信息的元數(shù)據(jù)字段進行定義:
[{ "title":"Data Catalog","description":"Version 1.0","keyword":"catalog","modified":"2013-05-09 06:00:00","publisher":"US Department of X","person":"Contact Person","mbox":"contact.person@agency.gov","identifier":"1","accessLevel":"public","distribution":[{ "accessURL":"http://agency.gov/data.json","format":"json" } ]
……
接下來對不同格式的開放數(shù)據(jù)的存取進行了映射:
"http://nces.ed.gov/ccd/pdf/INsc09101a.pdf","distribution":[{ "accessURL":
"https://explore.data.gov/views/ykv5-fn9t/rows.csv?accessType=DOWNLOAD","format":"csv","size":"200mb" },{ "accessURL":
"https://explore.data.gov/views/ykv5-fn9t/rows.json?accessType=DOWNLOAD","format":"json" },{ "accessURL":
"https://explore.data.gov/views/ykv5-fn9t/rows.xml?accessType=DOWNLOAD","format":"xml" } ],
可見,開放數(shù)據(jù)元數(shù)據(jù)映射機制是將不同開放數(shù)據(jù)平臺上的多種元數(shù)據(jù)方案,建立相應映射機制,將不同平臺上開放數(shù)據(jù)整合成一個共知、共享的系統(tǒng).
為整合不同開放數(shù)據(jù)平臺上的多種元數(shù)據(jù),需要將其描述的數(shù)據(jù)集納入到一個開放框架中.由于不同的開放數(shù)據(jù)平臺可能采用不同的元數(shù)據(jù)標準,即使同一個開放數(shù)據(jù)平臺,不同的開放數(shù)據(jù)集,其元數(shù)據(jù)描述也可能不相同.為此,元數(shù)據(jù)映射就承擔了轉換和解釋各種元數(shù)據(jù)的功能.基于元數(shù)據(jù)映射的開放數(shù)據(jù)整合是一個雙向的過程[18],一方面將用戶的提問翻譯成不同的元數(shù)據(jù)系統(tǒng)的表達形式,從而可以分別自動對應相關的開放數(shù)據(jù)資源;另一方面,元數(shù)據(jù)體系還要將用不同種類的元數(shù)據(jù)系統(tǒng)描述的檢索結果用一種元數(shù)據(jù)系統(tǒng)表達出來,以解決開放數(shù)據(jù)(集)的多樣性.
建立一個標準的資源描述框架,定義一種標準的框架描述所有的元數(shù)據(jù)格式,開放數(shù)據(jù)平臺只要能解析這個標準描述框架,就能解讀相應的開放數(shù)據(jù)的元數(shù)據(jù)格式,建立元數(shù)據(jù)元素的語義關系,利用XML 或JSON 實現(xiàn)開放數(shù)據(jù)元數(shù)據(jù)映射,是實現(xiàn)開放數(shù)據(jù)元數(shù)據(jù)映射的關鍵.