路麗華,李敬年
(1.中華地圖學(xué)社,上海200063;2.河北省地質(zhì)礦產(chǎn)勘查開發(fā)局第四地質(zhì)大隊(duì)地勘院,河北承德067000)
數(shù)據(jù)字典與元數(shù)據(jù)是地理信息產(chǎn)業(yè)最常用到的兩個(gè)專業(yè)名詞之一,也是最易混淆的兩個(gè)名詞。兩者都被認(rèn)為是“關(guān)于數(shù)據(jù)的數(shù)據(jù)”。然而此“關(guān)于數(shù)據(jù)的數(shù)據(jù)”非彼“關(guān)于數(shù)據(jù)的數(shù)據(jù)”,二者是有明顯區(qū)別的。本文從定義出發(fā)對二者的區(qū)別與聯(lián)系等展開論述,并給出了一個(gè)地形圖數(shù)據(jù)庫數(shù)據(jù)字典與元數(shù)據(jù)的樣例。
《基礎(chǔ)地理信息要素?cái)?shù)據(jù)字典 第一部分:1∶500 1∶1000 1∶2000基礎(chǔ)地理信息要素?cái)?shù)據(jù)字典》(GB/T 20258.1—2007)的起草人段怡紅、呂玉霞認(rèn)為數(shù)據(jù)字典是關(guān)于地理實(shí)體數(shù)據(jù)描述信息的集合?!兜貓D學(xué)術(shù)語》(GB/T 16820—2009)中將數(shù)據(jù)字典定義為描述數(shù)據(jù)庫中各數(shù)據(jù)屬性與組成的數(shù)據(jù)集合。目前還沒有關(guān)于數(shù)據(jù)字典的標(biāo)準(zhǔn)定義,但一般有以下幾種理解方法:
1)數(shù)據(jù)字典是以數(shù)據(jù)庫中數(shù)據(jù)基本單元為單位,按一定順序排列,對其內(nèi)容作詳細(xì)說明的數(shù)據(jù)集。
2)數(shù)據(jù)字典中存放著系統(tǒng)中所有數(shù)據(jù)的定義,即對所有數(shù)據(jù)庫結(jié)構(gòu)的描述。數(shù)據(jù)字典提供了對數(shù)據(jù)庫數(shù)據(jù)描述的集中管理手段。
3)數(shù)據(jù)字典是一個(gè)定義應(yīng)用程序中使用的所有數(shù)據(jù)元素和結(jié)構(gòu)的含義、類型、數(shù)據(jù)大小、格式、度量單位、精度及允許取值范圍的共享倉庫。
從上面的描述可以看出,數(shù)據(jù)字典有3個(gè)基本特性:描述范圍的完整性,強(qiáng)調(diào)描述范圍包括所有數(shù)據(jù)或數(shù)據(jù)元素;描述內(nèi)容是數(shù)據(jù)庫結(jié)構(gòu);編排有順序。
元數(shù)據(jù)(metadata)又稱描述數(shù)據(jù)、詮釋數(shù)據(jù),是關(guān)于數(shù)據(jù)的數(shù)據(jù)。1993年IEEE第一屆元數(shù)據(jù)研討會上提出了元數(shù)據(jù)的幾種定義:
1)元數(shù)據(jù)是有關(guān)存儲的關(guān)于信息實(shí)體的信息,即語義信息和內(nèi)容、元素的類型和編碼、實(shí)體之間的關(guān)系數(shù)據(jù)結(jié)構(gòu)、數(shù)據(jù)格式、數(shù)據(jù)類型、相關(guān)的數(shù)據(jù)、數(shù)據(jù)推論和派生等;
2)元數(shù)據(jù)是有關(guān)數(shù)據(jù)存儲管理的信息,即位置和名稱、訪問時(shí)間、訪問方法等;
3)元數(shù)據(jù)是有關(guān)數(shù)據(jù)應(yīng)用的信息,即使用限制、使用方法、歷史記錄等。
《地理信息 元數(shù)據(jù)》(GB/T 19710—2005)對元數(shù)據(jù)的定義是關(guān)于數(shù)據(jù)的數(shù)據(jù),即標(biāo)識、覆蓋范圍、質(zhì)量、空間和時(shí)間模式、空間參照系和分發(fā)等信息。
從上面的幾個(gè)定義可以大致得出:元數(shù)據(jù)描述的是數(shù)據(jù)的內(nèi)容,主要用于數(shù)據(jù)的存儲、管理和應(yīng)用,是數(shù)據(jù)與數(shù)據(jù)用戶之間的橋梁。
上文已從定義上對數(shù)據(jù)字典與元數(shù)據(jù)進(jìn)行了分析,以下從更深層次剖析二者的關(guān)系。
數(shù)據(jù)字典建立的目的是數(shù)據(jù)庫建庫的標(biāo)準(zhǔn)化、規(guī)范化。數(shù)據(jù)字典的意義在于:一是確保開發(fā)人員使用統(tǒng)一的數(shù)據(jù)定義;二是數(shù)據(jù)庫設(shè)計(jì)、生產(chǎn)、建庫、更新與維護(hù)的重要依據(jù);三是便于數(shù)據(jù)庫應(yīng)用系統(tǒng)的功能擴(kuò)展和操作數(shù)據(jù)范圍擴(kuò)展。
元數(shù)據(jù)建立的目的是方便用戶查找和使用數(shù)據(jù)。其意義包括:①數(shù)據(jù)生產(chǎn)單位有效地管理和維護(hù)空間數(shù)據(jù),在不看或沒有原始數(shù)據(jù)的情況下也能大致了解數(shù)據(jù)情況,包括數(shù)據(jù)內(nèi)容、數(shù)據(jù)分類、數(shù)據(jù)質(zhì)量、數(shù)據(jù)存儲、數(shù)據(jù)交換網(wǎng)絡(luò)及數(shù)據(jù)銷售等方面的信息;②幫助用戶了解數(shù)據(jù),確定數(shù)據(jù)能否滿足其需求;③提供通過網(wǎng)絡(luò)對數(shù)據(jù)進(jìn)行查詢檢索的方法或界面,以及數(shù)據(jù)交換或傳輸?shù)妮o助信息,方便用戶處理和轉(zhuǎn)換通過網(wǎng)絡(luò)接收的外部數(shù)據(jù)。
從數(shù)據(jù)字典和元數(shù)據(jù)形成或產(chǎn)生的時(shí)間來看,數(shù)據(jù)字典產(chǎn)生于數(shù)據(jù)庫分析設(shè)計(jì)階段,也就是說它在數(shù)據(jù)生產(chǎn)之前;元數(shù)據(jù)則產(chǎn)生于數(shù)據(jù)生產(chǎn)過程當(dāng)中或完成之后。因此,同一個(gè)數(shù)據(jù)庫的元數(shù)據(jù)要晚于其數(shù)據(jù)字典。
事實(shí)上,兩個(gè)概念在歷史上出現(xiàn)的先后順序也是如此,數(shù)據(jù)字典在數(shù)據(jù)庫出現(xiàn)后就存在了,而元數(shù)據(jù)早期主要用于圖書館的圖書編目,真正用到數(shù)據(jù)庫領(lǐng)域是在數(shù)據(jù)庫技術(shù)得到高度發(fā)展、數(shù)據(jù)共享問題提上日程后。
從層次結(jié)構(gòu)上來看,數(shù)據(jù)字典分為數(shù)據(jù)庫數(shù)據(jù)字典、數(shù)據(jù)集數(shù)據(jù)字典和要素?cái)?shù)據(jù)字典3個(gè)層次。數(shù)據(jù)庫數(shù)據(jù)字典對空間數(shù)據(jù)庫整體進(jìn)行描述,內(nèi)容主要包括數(shù)據(jù)的歸屬、數(shù)據(jù)源、數(shù)據(jù)的分層、數(shù)據(jù)質(zhì)量及數(shù)據(jù)質(zhì)量檢測部門等;數(shù)據(jù)集數(shù)據(jù)字典對數(shù)據(jù)庫中的數(shù)據(jù)集進(jìn)行描述,主要包括數(shù)據(jù)集中數(shù)據(jù)的分層和數(shù)據(jù)命名等;要素?cái)?shù)據(jù)字典對數(shù)據(jù)庫數(shù)據(jù)中所包含的數(shù)據(jù)要素進(jìn)行描述,主要描述要素的概念、要素的幾何表示、屬性,以及相關(guān)要素間的關(guān)系等。元數(shù)據(jù)的層次結(jié)構(gòu)也分為3層:元數(shù)據(jù)子集、實(shí)體和元素。元素是元數(shù)據(jù)最基本的信息單元;實(shí)體是同類元數(shù)據(jù)元素的集合;子集是相互關(guān)聯(lián)的元數(shù)據(jù)實(shí)體和元素的集合。
從數(shù)據(jù)重要程度的分級來看,數(shù)據(jù)字典各條目的重要程度是相同的,都是必選的,無主次之分;元數(shù)據(jù)則有全集元數(shù)據(jù)和核心元數(shù)據(jù)之分。全集元數(shù)據(jù)是建立完整的數(shù)據(jù)集(數(shù)據(jù)集、數(shù)據(jù)集系列、要素和屬性)文檔所需要的全部元數(shù)據(jù)實(shí)體和元素;核心元數(shù)據(jù)是唯一標(biāo)識一個(gè)數(shù)據(jù)集(數(shù)據(jù)集、數(shù)據(jù)集系列、要素和屬性)所需要的最少元數(shù)據(jù)實(shí)體和元素。
從數(shù)據(jù)的組織形式來看,數(shù)據(jù)字典是一組規(guī)范的表格,但元數(shù)據(jù)的組織形式則要靈活得多,可以是文本文件、XML或元數(shù)據(jù)庫。
數(shù)據(jù)字典描述的基本對象是要素?cái)?shù)據(jù),可隨新要素?cái)?shù)據(jù)種類的出現(xiàn)而擴(kuò)展;元數(shù)據(jù)描述的基本對象則是數(shù)據(jù)集,可擴(kuò)展為數(shù)據(jù)集系列,以及數(shù)據(jù)集內(nèi)的要素和屬性。
由于數(shù)據(jù)字典和元數(shù)據(jù)都是關(guān)于數(shù)據(jù)的數(shù)據(jù),因此就有關(guān)于數(shù)據(jù)字典的元數(shù)據(jù)和關(guān)于元數(shù)據(jù)的數(shù)據(jù)字典。前者著重對數(shù)據(jù)字典內(nèi)容的解釋,后者著重元數(shù)據(jù)的定義和結(jié)構(gòu)性描述。
地形圖數(shù)據(jù)庫數(shù)據(jù)字典描述的內(nèi)容包括要素名稱、要素描述、要素分類代碼、要素屬性表、幾何表示、幾何表示示例與制圖表示示例、相關(guān)要素和關(guān)系。與非空間數(shù)據(jù)庫相比,其增加的內(nèi)容包括幾何表示、相關(guān)要素(與本要素有拓?fù)淇臻g關(guān)系的要素)、關(guān)系(空間拓?fù)?等。表1~表5是一個(gè)要素級常年河的數(shù)據(jù)字典。
表1 要素一般信息描述
表2 屬性表
續(xù)表2
表3 幾何表示
表4 可視化表示
表5 相關(guān)要素及關(guān)系、備注
表6 地形圖數(shù)據(jù)庫中的部分元數(shù)據(jù)要素內(nèi)容
地形圖數(shù)據(jù)庫元數(shù)據(jù)存放有關(guān)數(shù)據(jù)源、數(shù)據(jù)分層、產(chǎn)品歸屬、空間參考系、數(shù)據(jù)質(zhì)量(數(shù)據(jù)精度、數(shù)據(jù)評價(jià))、數(shù)據(jù)更新、圖幅接邊等方面的信息。與非空間數(shù)據(jù)庫相比,其增加了空間參照系、數(shù)據(jù)源覆蓋的空間范圍、空間信息表示方法、顯示數(shù)據(jù)的圖示表達(dá)類目、數(shù)據(jù)集空間分辨率等元數(shù)據(jù)要素。表6是地形圖數(shù)據(jù)庫中一個(gè)圖幅級 (相當(dāng)于數(shù)據(jù)集級)元數(shù)據(jù)部分要素內(nèi)容。
本文討論了數(shù)據(jù)字典和元數(shù)據(jù)的定義,并對這兩類數(shù)據(jù)進(jìn)行了比較。盡管二者都是關(guān)于數(shù)據(jù)的數(shù)據(jù),但二者描述的內(nèi)容、目的、意義、層次與分級、組織形式、描述的基本對象與可擴(kuò)展性等不盡相同。數(shù)據(jù)字典著重于對數(shù)據(jù)的定義、結(jié)構(gòu)、表示方面的描述,在數(shù)據(jù)庫分析設(shè)計(jì)時(shí)產(chǎn)生,目的是數(shù)據(jù)庫建庫的標(biāo)準(zhǔn)化、規(guī)范化,適用于數(shù)據(jù)庫設(shè)計(jì)、生產(chǎn)、建庫、更新與維護(hù);元數(shù)據(jù)則著重于對數(shù)據(jù)內(nèi)容、存儲、使用的描述,在數(shù)據(jù)生產(chǎn)過程中或完成后產(chǎn)生,目的是數(shù)據(jù)共享。數(shù)據(jù)字典分為數(shù)據(jù)庫數(shù)據(jù)字典、數(shù)據(jù)集數(shù)據(jù)字典和要素?cái)?shù)據(jù)字典3個(gè)層次;元數(shù)據(jù)的層次結(jié)構(gòu)為元數(shù)據(jù)子集、實(shí)體和元素。數(shù)據(jù)字典各條目的重要程度相同;元數(shù)據(jù)則有全集元數(shù)據(jù)和核心元數(shù)據(jù)之分。數(shù)據(jù)字典的形式是一組規(guī)范的表格;元數(shù)據(jù)的形式可以是文本文件、XML或元數(shù)據(jù)庫。數(shù)據(jù)字典描述的基本對象是要素?cái)?shù)據(jù),可隨新要素?cái)?shù)據(jù)類型的出現(xiàn)而擴(kuò)展;元數(shù)據(jù)描述的基本對象是數(shù)據(jù)集,可擴(kuò)展為數(shù)據(jù)集系列和數(shù)據(jù)集內(nèi)的要素和屬性。即使是數(shù)據(jù)結(jié)構(gòu)等數(shù)據(jù)字典和元數(shù)據(jù)均有的內(nèi)容,兩者的作用也不一樣:前者要求數(shù)據(jù)庫設(shè)計(jì)時(shí)必須遵守,后者則是對現(xiàn)有數(shù)據(jù)庫結(jié)構(gòu)的描述,也就是說前者決定數(shù)據(jù)庫結(jié)構(gòu)設(shè)計(jì),而數(shù)據(jù)庫結(jié)構(gòu)的內(nèi)容決定了元數(shù)據(jù)關(guān)于數(shù)據(jù)庫結(jié)構(gòu)的描述。
[1]中華人民共和國質(zhì)量監(jiān)督檢驗(yàn)檢疫總局,中國國家標(biāo)準(zhǔn)化管理委員會.GB/T 20258.1—2007基礎(chǔ)地理信息要素?cái)?shù)據(jù)字典 第一部分:1∶500 1∶1000 1∶2000基礎(chǔ)地理信息要素?cái)?shù)據(jù)字典[S].北京:中國標(biāo)準(zhǔn)出版社,2007.
[2]中華人民共和國質(zhì)量監(jiān)督檢驗(yàn)檢疫總局,中國國家標(biāo)準(zhǔn)化管理委員會.GB/T 19710—2005地理信息 元數(shù)據(jù)[S].北京:中國標(biāo)準(zhǔn)出版社,2005.
[3]中華人民共和國質(zhì)量監(jiān)督檢驗(yàn)檢疫總局,中國國家標(biāo)準(zhǔn)化委員會.GB/T 16820—2009地圖學(xué)術(shù)語[S].北京:中國標(biāo)準(zhǔn)出版社,2009.
[4]呂玉霞,段怡紅.關(guān)于矢量地形圖數(shù)據(jù)字典的研究[J].測繪標(biāo)準(zhǔn)化,2003(4):1-6.
[5]段怡紅,呂玉霞,李建利,等.《基礎(chǔ)地理信息要素?cái)?shù)據(jù)字典第2、3部分》編制說明[J].測繪標(biāo)準(zhǔn)化,2006(2):1-4.