• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于內(nèi)容結(jié)構(gòu)視圖的研究數(shù)據(jù)元數(shù)據(jù)標(biāo)準(zhǔn)比較研究

      2019-01-14 02:26朱玲

      朱玲

      摘要?元數(shù)據(jù)是保證研究數(shù)據(jù)(又被稱作“科學(xué)數(shù)據(jù)”)獲取和再利用的關(guān)鍵,國內(nèi)外許多學(xué)科領(lǐng)域和學(xué)術(shù)社區(qū)都制定了該領(lǐng)域特定的研究數(shù)據(jù)元數(shù)據(jù)標(biāo)準(zhǔn)或規(guī)范。與文獻(xiàn)資源元數(shù)據(jù)標(biāo)準(zhǔn)相較,研究數(shù)據(jù)元數(shù)據(jù)標(biāo)準(zhǔn)結(jié)構(gòu)和元素設(shè)計(jì)往往更為復(fù)雜,為跨學(xué)科的數(shù)據(jù)分享和發(fā)現(xiàn)帶來了障礙。文章應(yīng)用一種內(nèi)容結(jié)構(gòu)視圖,對八種典型的研究數(shù)據(jù)元數(shù)據(jù)標(biāo)準(zhǔn)元素進(jìn)行比較分析,分析不同研究數(shù)據(jù)元數(shù)據(jù)標(biāo)準(zhǔn)的內(nèi)容特征,并由此探討研究數(shù)據(jù)元數(shù)據(jù)標(biāo)準(zhǔn)發(fā)展趨勢,為元數(shù)據(jù)應(yīng)用方案設(shè)計(jì)提供參考。

      關(guān)鍵詞?研究數(shù)據(jù)?科學(xué)數(shù)據(jù)?元數(shù)據(jù)標(biāo)準(zhǔn)?內(nèi)容結(jié)構(gòu)視圖

      分類號?G254

      DOI?10.16603/j.issn1002-1027.2019.06.013

      1?引言

      研究數(shù)據(jù),是指科研人員通過觀察、探測、實(shí)驗(yàn)、建模、仿真和調(diào)查等形式收集的,用于驗(yàn)證研究發(fā)現(xiàn)的,能夠直接或間接產(chǎn)出學(xué)術(shù)成果的完整事實(shí)材料和數(shù)字產(chǎn)品,例如:文檔、數(shù)據(jù)文件、問卷、模型、算法、軟件或代碼、圖片、音視頻資料等。

      元數(shù)據(jù),被定義為“描述數(shù)據(jù)的數(shù)據(jù)”。相應(yīng)地,研究數(shù)據(jù)元數(shù)據(jù)是指描述研究數(shù)據(jù)集的創(chuàng)建者、上下文、空間、時(shí)間、起源、歷史、數(shù)據(jù)質(zhì)量等信息,以便支持?jǐn)?shù)據(jù)使用者對數(shù)據(jù)的發(fā)現(xiàn)、選擇、定位、獲取、解釋和再利用等功能,以及數(shù)據(jù)擁有者或管理者對數(shù)據(jù)的組織、管理、共享和長期保存等功能。

      2011年,英國數(shù)字監(jiān)護(hù)中心(Digital Curation Center)發(fā)布了《數(shù)字監(jiān)護(hù)參考手冊—科學(xué)數(shù)據(jù)元數(shù)據(jù)部分》(Digital Curation Reference ManualInstalment on Scientific Metadata),論述了科學(xué)數(shù)據(jù)元數(shù)據(jù)的特征和角色,指出元數(shù)據(jù)在數(shù)據(jù)倉儲的管理和數(shù)據(jù)監(jiān)護(hù)中扮演中心角色[1]。研究數(shù)據(jù)元數(shù)據(jù)在數(shù)據(jù)管理計(jì)劃和公共資助研究項(xiàng)目研究數(shù)據(jù)的公眾獲取中也扮演著核心角色,例如,2011年美國國家自然科學(xué)基金會(NSF)新增的研究數(shù)據(jù)管理計(jì)劃要求中明確把“將使用的數(shù)據(jù)和元數(shù)據(jù)格式標(biāo)準(zhǔn)”列為重要建議[2]。2012年,歐洲研究圖書館協(xié)會(LIBER)發(fā)布的《圖書館開始從事研究數(shù)據(jù)管理的十條建議》中指出,圖書館應(yīng)該參與元數(shù)據(jù)和相關(guān)數(shù)據(jù)標(biāo)準(zhǔn)的建設(shè),同時(shí)應(yīng)當(dāng)提供研究數(shù)據(jù)相關(guān)的元數(shù)據(jù)服務(wù)[3]。美國密歇根大學(xué)校際政治及社會研究聯(lián)盟(Interuniversity Consortium for Political and Social Research,ICPSR)在其《維持領(lǐng)域數(shù)據(jù)倉儲白皮書》(Sustaining Domain Repositories for Digital Data:A White Paper)中指出,元數(shù)據(jù)標(biāo)準(zhǔn)如保存元數(shù)據(jù)框架對于數(shù)據(jù)倉儲的發(fā)現(xiàn)、檢索、獲取和科研群體標(biāo)準(zhǔn)的轉(zhuǎn)變是非常必要的[4]。

      2?研究數(shù)據(jù)元數(shù)據(jù)的功能需求

      研究數(shù)據(jù)的產(chǎn)生和積累正在呈指數(shù)級增長,科學(xué)研究和科技創(chuàng)新越來越依賴于對海量數(shù)據(jù)的管理、分析和再利用。為了支持研究數(shù)據(jù)的發(fā)現(xiàn)、獲取、解析和再利用,描述和呈現(xiàn)研究數(shù)據(jù)的元數(shù)據(jù)應(yīng)該滿足的功能需求可以從以下兩方面進(jìn)行探討:

      2.1?面向數(shù)據(jù)任務(wù)和數(shù)據(jù)活動的需求

      研究數(shù)據(jù)元數(shù)據(jù)功能需求模型將元數(shù)據(jù)功能需求分為四個(gè)象限:數(shù)據(jù)管理、數(shù)據(jù)質(zhì)量控制、數(shù)據(jù)發(fā)現(xiàn)和數(shù)據(jù)利用[5]。這四個(gè)象限分別支持不同的數(shù)據(jù)任務(wù):數(shù)據(jù)管理象限支持元數(shù)據(jù)自動或半自動生成、數(shù)據(jù)管理、數(shù)據(jù)存儲、數(shù)據(jù)安全、數(shù)據(jù)互通等任務(wù);數(shù)據(jù)質(zhì)量控制象限支持?jǐn)?shù)據(jù)驗(yàn)證、復(fù)制等任務(wù);數(shù)據(jù)發(fā)現(xiàn)象限支持?jǐn)?shù)據(jù)分享(發(fā)布、引用)和數(shù)據(jù)發(fā)現(xiàn)(選擇、唯一性確定、獲取)等任務(wù);數(shù)據(jù)使用象限支持?jǐn)?shù)據(jù)分析、可視化等任務(wù)。

      研究數(shù)據(jù)元數(shù)據(jù)對研究數(shù)據(jù)生命周期中的用戶數(shù)據(jù)活動的支持,體現(xiàn)在為數(shù)據(jù)活動需要的信息設(shè)計(jì)相應(yīng)的元數(shù)據(jù)模塊和字段。例如,數(shù)據(jù)發(fā)現(xiàn)、數(shù)據(jù)唯一性確定、數(shù)據(jù)選擇、數(shù)據(jù)獲取等活動,屬于與傳統(tǒng)文獻(xiàn)類似的一般性任務(wù),元數(shù)據(jù)以描述性、身份標(biāo)識、語義等信息內(nèi)容為主,其中數(shù)據(jù)選擇活動的需求還包括技術(shù)性、科研上下文、時(shí)空等信息內(nèi)容。數(shù)據(jù)驗(yàn)證、數(shù)據(jù)分析屬于科研任務(wù),元數(shù)據(jù)主要以描述性、科研上下文、時(shí)空等信息內(nèi)容為主。數(shù)據(jù)管理、數(shù)據(jù)存檔屬于數(shù)據(jù)監(jiān)護(hù)任務(wù),元數(shù)據(jù)主要以描述性、管理性、結(jié)構(gòu)性和技術(shù)性等信息內(nèi)容為主,并以身份標(biāo)識、語義信息、科研上下文、時(shí)空等信息內(nèi)容作為補(bǔ)充。數(shù)據(jù)發(fā)布、數(shù)據(jù)引用屬于傳播任務(wù),元數(shù)據(jù)主要以描述性、身份標(biāo)識、語義等信息內(nèi)容為主,并以科研上下文、時(shí)空等信息內(nèi)容作為補(bǔ)充。

      2.2?面向不同服務(wù)對象的需求

      針對不同的對象,研究數(shù)據(jù)元數(shù)據(jù)發(fā)揮的作用也不同[6]。對于數(shù)據(jù)用戶而言,元數(shù)據(jù)是他們正確選擇、使用、交換數(shù)據(jù)的不可缺少的工具。元數(shù)據(jù)通過對數(shù)據(jù)資源的內(nèi)容、分類、質(zhì)量和存儲等的詳細(xì)描述,回答了用戶的一系列問題:有什么數(shù)據(jù)?數(shù)據(jù)怎么樣?如何獲取數(shù)據(jù)?怎么使用數(shù)據(jù)?對于數(shù)據(jù)管理者而言,元數(shù)據(jù)方便了他們集成各種數(shù)據(jù)庫,為數(shù)據(jù)集(或庫)建立目錄,更有效地管理并維護(hù)海量數(shù)據(jù)。對于數(shù)據(jù)生產(chǎn)者而言,元數(shù)據(jù)的存在方便了數(shù)據(jù)的生產(chǎn)、加工和更新,并可以使數(shù)據(jù)歸檔更高效,使數(shù)據(jù)成為有生命力的資源,不必?fù)?dān)心隨著時(shí)間或者人員的變化而影響到數(shù)據(jù)的生產(chǎn),數(shù)據(jù)的增值具有了持久性。研究數(shù)據(jù)元數(shù)據(jù)的最大用戶是科研人員,元數(shù)據(jù)是他們發(fā)現(xiàn)數(shù)據(jù)、評價(jià)數(shù)據(jù)和使用數(shù)據(jù)的不可或缺的工具。

      3?研究數(shù)據(jù)元數(shù)據(jù)標(biāo)準(zhǔn)發(fā)展現(xiàn)狀

      3.1?國內(nèi)外研究數(shù)據(jù)元數(shù)據(jù)標(biāo)準(zhǔn)的發(fā)展和分布

      元數(shù)據(jù)是保證研究數(shù)據(jù)獲取和再利用的關(guān)鍵因素。國外許多學(xué)科領(lǐng)域和學(xué)者社區(qū)都采取了各種行動制定和發(fā)展該學(xué)科需要遵守的元數(shù)據(jù)標(biāo)準(zhǔn)或規(guī)范,根據(jù)英國數(shù)字監(jiān)護(hù)中心對目前國際上各學(xué)科的主流研究數(shù)據(jù)元數(shù)據(jù)標(biāo)準(zhǔn)的總結(jié),其主要分布在通用學(xué)科、生物學(xué)、地球科學(xué)、物理學(xué)、社會科學(xué)與人文學(xué)科、跨學(xué)科等領(lǐng)域[7]。

      與國外相比,我國研究數(shù)據(jù)元數(shù)據(jù)標(biāo)準(zhǔn)的制定起步較晚,但近年來在科學(xué)數(shù)據(jù)共享工程等項(xiàng)目推動下,取得了較快的發(fā)展??茖W(xué)數(shù)據(jù)共享工程試點(diǎn)建立了9個(gè)學(xué)科領(lǐng)域(氣象、地球系統(tǒng)、水文、海洋、地震、國土、農(nóng)業(yè)、林業(yè)、人口健康數(shù)據(jù)共享)的科學(xué)數(shù)據(jù)共享平臺。為了滿足科學(xué)數(shù)據(jù)共享工程對元數(shù)據(jù)內(nèi)容的基本需求,促進(jìn)數(shù)據(jù)加工的規(guī)范化、標(biāo)準(zhǔn)化,科學(xué)數(shù)據(jù)共享工程辦公室制定了《科學(xué)數(shù)據(jù)共享元數(shù)據(jù)內(nèi)容》作為參考元數(shù)據(jù)標(biāo)準(zhǔn)[8]。以此為基礎(chǔ),各領(lǐng)域逐漸建立了各自的科學(xué)元數(shù)據(jù)標(biāo)準(zhǔn)或者元數(shù)據(jù)應(yīng)用方案[9-15]。另外,中國科學(xué)院為了實(shí)現(xiàn)院內(nèi)科學(xué)數(shù)據(jù)庫群的資源利用、共享、交換和整合,制定了《科學(xué)數(shù)據(jù)庫核心元數(shù)據(jù)標(biāo)準(zhǔn)》[16],并為滿足各學(xué)科領(lǐng)域的特殊要求,制定了元數(shù)據(jù)應(yīng)用擴(kuò)展方案的規(guī)則和方法。

      3.2?研究數(shù)據(jù)元數(shù)據(jù)標(biāo)準(zhǔn)的復(fù)雜性

      研究數(shù)據(jù)元數(shù)據(jù)的基本功能,是在研究數(shù)據(jù)共享和交換中提供快速查詢和定位,通過元數(shù)據(jù)提供的信息描述,迅速查找所需信息的存放位置,發(fā)現(xiàn)原始數(shù)據(jù)的存在狀況。除此之外,為了實(shí)現(xiàn)大型項(xiàng)目中學(xué)科領(lǐng)域內(nèi)深度數(shù)據(jù)互通與合作的需求,研究數(shù)據(jù)元數(shù)據(jù)還需支持?jǐn)?shù)據(jù)初步分析、數(shù)據(jù)質(zhì)量評價(jià)和控制等功能。例如,生態(tài)學(xué)研究的空間疊加分析中,需要元數(shù)據(jù)提供分析所需的多層空間數(shù)據(jù)的范圍、坐標(biāo)體系、空間位置坐標(biāo)等信息,對空間特征和屬性進(jìn)行合并。因此,研究數(shù)據(jù)元數(shù)據(jù)在基本發(fā)現(xiàn)信息之外,往往根據(jù)科研過程的需要進(jìn)行了較多的擴(kuò)展設(shè)計(jì),如在時(shí)空范圍、研究方法、數(shù)據(jù)加工處理過程等方面。

      MODAL框架是一種考察元數(shù)據(jù)標(biāo)準(zhǔn)實(shí)施文件組織結(jié)構(gòu)和規(guī)模的研究方法,包括編碼方式(Encodings)、結(jié)構(gòu)類型(Structural Types)、元素規(guī)模(Extent)、實(shí)施文件數(shù)量、層級數(shù)量(Levels of Hierarchy)等。一項(xiàng)基于MODAL框架的研究對9種研究數(shù)據(jù)元數(shù)據(jù)標(biāo)準(zhǔn)的結(jié)構(gòu)特征進(jìn)行了分析[17]。結(jié)果表明,9種標(biāo)準(zhǔn)平均具有563個(gè)元數(shù)據(jù)元素(最少142個(gè)元素,最多1802個(gè)元素),9個(gè)實(shí)施文件(最少1個(gè)文件,最多25個(gè)文件),5個(gè)元素層級(最少3個(gè)層級,最多10個(gè)層級),大大超過文獻(xiàn)資源元數(shù)據(jù)標(biāo)準(zhǔn)的復(fù)雜度。

      4?基于內(nèi)容結(jié)構(gòu)視圖的研究數(shù)據(jù)元數(shù)據(jù)標(biāo)準(zhǔn)比較

      4.1?內(nèi)容結(jié)構(gòu)視圖

      研究數(shù)據(jù)元數(shù)據(jù)內(nèi)容結(jié)構(gòu)視圖[18](如圖1所示)將跨學(xué)科、跨領(lǐng)域的研究數(shù)據(jù)元數(shù)據(jù)元素按照通用的結(jié)構(gòu)模塊進(jìn)行分類和重組,這些結(jié)構(gòu)模塊組合成研究數(shù)據(jù)元數(shù)據(jù)的總體框架,數(shù)據(jù)集對象的綜合信息透過此總體框架得以更為清晰地呈現(xiàn)。其中:識別元數(shù)據(jù)模塊(Identity Metadata)提供支持識別功能和發(fā)現(xiàn)功能的基礎(chǔ)信息,包含可以用于識別該數(shù)據(jù)集的所有實(shí)體信息,以及實(shí)體信息與該數(shù)據(jù)集的相互關(guān)系,例如數(shù)據(jù)集創(chuàng)建人、負(fù)責(zé)機(jī)構(gòu)、數(shù)據(jù)集標(biāo)識符等。語義元數(shù)據(jù)(Semantic Metadata)模塊提供學(xué)科、主題、分類等信息,可以用于學(xué)科分類和鏈接到相關(guān)領(lǐng)域的其他數(shù)據(jù)??蒲谢顒由舷挛模⊿cientific Context)模塊包含工作流程、所用模型、數(shù)據(jù)來源、實(shí)驗(yàn)方法和參數(shù)等信息,這些信息可以被研究數(shù)據(jù)流程管理系統(tǒng)用于確定下一步數(shù)據(jù)分析操作。時(shí)間元數(shù)據(jù)(Temporal Metadata)和地理空間元數(shù)據(jù)(Geospatial Metadata)包含數(shù)據(jù)集所采用的時(shí)間和空間維度以及覆蓋的范圍。無法歸于上面所列模塊的其他元數(shù)據(jù)元素放入其他元數(shù)據(jù)(Miscellany)模塊。

      4.2?八種典型研究數(shù)據(jù)元數(shù)據(jù)標(biāo)準(zhǔn)的結(jié)構(gòu)視圖分析

      本文對三種通用學(xué)科研究數(shù)據(jù)元數(shù)據(jù)標(biāo)準(zhǔn),即都柏林核心集(Dublin Core)、DataCite Metadata Schema和中國科學(xué)院科學(xué)數(shù)據(jù)庫核心元數(shù)據(jù)標(biāo)準(zhǔn),以及五種特定學(xué)科研究數(shù)據(jù)元數(shù)據(jù)標(biāo)準(zhǔn)(生物學(xué)Darwin Core、物理學(xué)AVM、地球科學(xué)CF、社會科學(xué)DDI、人口健康科學(xué)數(shù)據(jù)共享元數(shù)據(jù)標(biāo)準(zhǔn))的元素或者元素分類應(yīng)用上述結(jié)構(gòu)視圖進(jìn)行分析,以便在此基礎(chǔ)上識別和分析各個(gè)研究數(shù)據(jù)元數(shù)據(jù)標(biāo)準(zhǔn)的內(nèi)容特征。結(jié)構(gòu)視圖分析結(jié)果如表1所示。

      4.3?元數(shù)據(jù)標(biāo)準(zhǔn)內(nèi)容特征分析

      (1)元數(shù)據(jù)標(biāo)準(zhǔn)內(nèi)容結(jié)構(gòu)特征

      Dublin Core元數(shù)據(jù)標(biāo)準(zhǔn)是一種平行或并列結(jié)構(gòu),包含15個(gè)元素,有的元素具有對元素語義做進(jìn)一步限定的修飾詞,修飾詞的語義包含于被修飾詞(即元素)之中,對于不了解修飾詞使用方法的用戶來說,可以直接使用元素本身來描述資源。

      DataCite Metadata Schema元數(shù)據(jù)標(biāo)準(zhǔn)、Darwin Core元數(shù)據(jù)標(biāo)準(zhǔn)、AVM元數(shù)據(jù)標(biāo)準(zhǔn)可以看作是一種樹狀結(jié)構(gòu),其中只有葉節(jié)點(diǎn)才真正有值。例如,Darwin Core標(biāo)準(zhǔn)下的每一個(gè)元素類可以看作是“根”下面的一個(gè)“枝”, 下面的元素是“葉”。DataCite Metadata Schema、AVM的一級元素可以看作直接附屬在“根”下面的“葉”,而二級元素可以看作附屬在“根”下面一個(gè)“枝”上的“葉”。

      科學(xué)數(shù)據(jù)庫核心元數(shù)據(jù)標(biāo)準(zhǔn)、人口健康科學(xué)數(shù)據(jù)共享元數(shù)據(jù)標(biāo)準(zhǔn)可以看作是一種多層父子結(jié)構(gòu),其中最頂層的根元素屬于復(fù)合型元素,下面可包含其他復(fù)合型元素或單純型元素作為子元素。遞歸地,每一級的復(fù)合型元素都由一個(gè)或多個(gè)下一級復(fù)合型或單純型子元素組成。

      以上六種元數(shù)據(jù)標(biāo)準(zhǔn)重點(diǎn)都是從數(shù)據(jù)集層面的特征進(jìn)行描述,而CF元數(shù)據(jù)標(biāo)準(zhǔn)和DDI元數(shù)據(jù)標(biāo)準(zhǔn)則更進(jìn)一步引入了用于變量定義和描述的龐大的變量屬性集,支持專業(yè)領(lǐng)域的變量理解和操作。這兩種元數(shù)據(jù)標(biāo)準(zhǔn)在數(shù)據(jù)集層面描述上可以看作平行或并列結(jié)構(gòu),在變量描述上可以看作是帶有龐大修飾詞體系(變量屬性:例如變量單位、坐標(biāo)、取值范圍、測量誤差、缺失插值等)的可重復(fù)元素的平行或并列結(jié)構(gòu)。

      (2)元數(shù)據(jù)標(biāo)準(zhǔn)內(nèi)容分布特征

      從上文中的內(nèi)容結(jié)構(gòu)視圖分析可以得出,通用學(xué)科研究數(shù)據(jù)元數(shù)據(jù)標(biāo)準(zhǔn)內(nèi)容更大比例分布在識別元數(shù)據(jù)模塊,而特定學(xué)科研究數(shù)據(jù)元數(shù)據(jù)標(biāo)準(zhǔn)內(nèi)容更大比例分布在科研活動上下文模塊,其中:

      Dublin Core元數(shù)據(jù)標(biāo)準(zhǔn)定義了Web資源都應(yīng)遵循的通用的核心標(biāo)準(zhǔn),其內(nèi)容較少,也比較通用,描述對象并不限于研究數(shù)據(jù),因此其元數(shù)據(jù)元素主要為識別類和語義類,較少覆蓋科研活動上下文模塊。

      DataCite Metadata Schema元數(shù)據(jù)標(biāo)準(zhǔn)、科學(xué)數(shù)據(jù)庫核心元數(shù)據(jù)標(biāo)準(zhǔn),這兩種元數(shù)據(jù)標(biāo)準(zhǔn)以描述通用學(xué)科的研究數(shù)據(jù)為目標(biāo),其元數(shù)據(jù)內(nèi)容主要分布在識別模塊和科研活動上下文模塊,但科研活動上下文的字段與學(xué)科無關(guān)。

      Darwin Core元數(shù)據(jù)標(biāo)準(zhǔn)、AVM元數(shù)據(jù)標(biāo)準(zhǔn)、人口健康科學(xué)數(shù)據(jù)共享元數(shù)據(jù)標(biāo)準(zhǔn),這三種元數(shù)據(jù)標(biāo)準(zhǔn)的特征是設(shè)計(jì)了較多的子類和字段對特定學(xué)科領(lǐng)域的科研活動上下文進(jìn)行描述,描述主要以數(shù)據(jù)收集、觀測等科研活動的參數(shù)為對象。

      CF元數(shù)據(jù)標(biāo)準(zhǔn)、DDI元數(shù)據(jù)標(biāo)準(zhǔn),這兩種元數(shù)據(jù)標(biāo)準(zhǔn)也有較多的字段屬于科研活動上下文模塊,但其特征在于對本學(xué)科的數(shù)據(jù)、文件、變量等進(jìn)行了較為充分的分層描述。

      5?研究數(shù)據(jù)元數(shù)據(jù)標(biāo)準(zhǔn)發(fā)展趨勢

      5.1?支持跨學(xué)科數(shù)據(jù)分享和發(fā)現(xiàn)

      近年來,各學(xué)科領(lǐng)域的研究數(shù)據(jù)元數(shù)據(jù)標(biāo)準(zhǔn)設(shè)計(jì)和實(shí)踐取得了積極成果,但專門針對學(xué)科需求的元數(shù)據(jù)標(biāo)準(zhǔn)的增長也為跨學(xué)科的數(shù)據(jù)發(fā)現(xiàn)和再利用造成了一定的人為障礙,這些障礙體現(xiàn)在元數(shù)據(jù)語義信息和數(shù)據(jù)結(jié)構(gòu)的多樣性,以及對多學(xué)科的科學(xué)進(jìn)程的干擾。

      當(dāng)代科學(xué)被認(rèn)為是一個(gè)結(jié)合了專業(yè)化和多學(xué)科或跨學(xué)科的綜合研究,越來越多的成果和突破來自學(xué)科之間的邊界區(qū)域,研究者需要越來越頻繁地與其他學(xué)科領(lǐng)域交換信息、技術(shù)和工具。實(shí)現(xiàn)跨學(xué)科元數(shù)據(jù)的互通和分享,從而實(shí)現(xiàn)跨學(xué)科的數(shù)據(jù)管理、監(jiān)護(hù)、再利用,是研究數(shù)據(jù)元數(shù)據(jù)標(biāo)準(zhǔn)發(fā)展的必然趨勢。

      從研究數(shù)據(jù)元數(shù)據(jù)元素的類別分布來看,分布極不均勻,例如科研上下文類別中的元素種數(shù)遠(yuǎn)超其他類別的元素種數(shù);從研究數(shù)據(jù)元數(shù)據(jù)元素的統(tǒng)計(jì)頻次來看,在不同標(biāo)準(zhǔn)中具有最高統(tǒng)計(jì)頻次的元素都屬于描述類別,且大部分與DC元素重疊;少數(shù)語義性的一般元素在標(biāo)準(zhǔn)中也出現(xiàn)較多的頻次;其余的元素統(tǒng)計(jì)頻次很少,共同形成了具有各自領(lǐng)域特定語義的長尾部分。為了支持跨學(xué)科領(lǐng)域的研究數(shù)據(jù)分享,研究數(shù)據(jù)元數(shù)據(jù)標(biāo)準(zhǔn)的設(shè)計(jì)和實(shí)施中,需要重點(diǎn)考慮模塊化、可擴(kuò)展性、靈活性、綜合性、充足性、簡易性等目標(biāo)。

      5.2?嵌入研究數(shù)據(jù)生命周期

      研究數(shù)據(jù)的生命周期管理是確保其連續(xù)性的必要條件。如果元數(shù)據(jù)希望捕捉更加動態(tài)的結(jié)構(gòu),認(rèn)識到什么信息在持續(xù),而什么信息在數(shù)據(jù)隨著時(shí)間的推移期間發(fā)生了什么變化,就必須基于對研究數(shù)據(jù)生命周期的理解和應(yīng)用。例如,DDI生命周期模型包含研究構(gòu)想、數(shù)據(jù)收集、數(shù)據(jù)處理、數(shù)據(jù)分發(fā)、數(shù)據(jù)發(fā)現(xiàn)和數(shù)據(jù)分析等線性模塊,以及作為可選路徑的數(shù)據(jù)存檔模塊和作為反饋循環(huán)路徑的數(shù)據(jù)重新規(guī)劃模塊。相應(yīng)地,DDI元數(shù)據(jù)標(biāo)準(zhǔn)的元素(Codebook)[26]也遵循這些模塊內(nèi)容來設(shè)計(jì),例如,DDI針對數(shù)據(jù)收集模塊設(shè)計(jì)了2.3小節(jié)、2.5小節(jié)和4.8小節(jié)的元素。通過將研究數(shù)據(jù)生命周期與元數(shù)據(jù)標(biāo)準(zhǔn)元素結(jié)合設(shè)計(jì),DDI可以使用該模型作為數(shù)據(jù)創(chuàng)建者、數(shù)據(jù)管理者和數(shù)據(jù)用戶的培訓(xùn)工具,并組織和規(guī)劃資源,策劃計(jì)劃和管理策略。

      此外,為了在科研過程和數(shù)據(jù)管理的同時(shí),收集、自動或者半自動地生成所需的元數(shù)據(jù)信息,有必要構(gòu)建元數(shù)據(jù)基礎(chǔ)設(shè)施服務(wù)。相應(yīng)地,研究數(shù)據(jù)元數(shù)據(jù)標(biāo)準(zhǔn)的設(shè)計(jì)也需要與研究數(shù)據(jù)生命周期結(jié)合,為元數(shù)據(jù)基礎(chǔ)設(shè)施服務(wù)的應(yīng)用提供前提和一致性。

      5.3?應(yīng)用語義數(shù)據(jù)和語義工具

      資源描述框架(Resource Description Framework,RDF)、網(wǎng)絡(luò)本體語言(Web Ontology Language,OWL)、關(guān)聯(lián)數(shù)據(jù)(Linked Data)等新技術(shù)的發(fā)展,為元數(shù)據(jù)更深入和更有意義地表達(dá)和關(guān)聯(lián)研究數(shù)據(jù),更有力地支持?jǐn)?shù)據(jù)驅(qū)動的科研活動提供了更多可能。研究數(shù)據(jù)元數(shù)據(jù)中的語義元數(shù)據(jù)扮演著兩種角色:一是進(jìn)行數(shù)據(jù)主題識別,二是作為主題分類依據(jù),支持相似主題鏈接機(jī)制。目前,統(tǒng)一醫(yī)學(xué)語言系統(tǒng)(Unified Medical Language System,UMLS)、國會圖書館主題列表(Congress Subject Headings,LCSH)等一些大型語義工具,已被轉(zhuǎn)換成為RDF等編碼方式,這就為在元數(shù)據(jù)中應(yīng)用這些語義工具,實(shí)現(xiàn)對數(shù)據(jù)的更加靈活和廣泛的表達(dá)和鏈接功能提供了支持。例如,我們可以使用主題項(xiàng)的URI或者其他標(biāo)識方式來代替用自然語言描述研究數(shù)據(jù)的主題,并且在數(shù)據(jù)、主題項(xiàng)之間通過主題關(guān)系建立RDF的三元組。通過這種方式,可以使得研究數(shù)據(jù)的發(fā)現(xiàn)、分類和關(guān)聯(lián)變得更為智能和準(zhǔn)確,避免經(jīng)常返回?zé)o關(guān)數(shù)據(jù)的情況。

      目前,應(yīng)用語義數(shù)據(jù)和語義工具,發(fā)展關(guān)聯(lián)數(shù)據(jù)形式的大規(guī)模研究數(shù)據(jù)語義元數(shù)據(jù)[27],探索跨學(xué)科的數(shù)據(jù)發(fā)現(xiàn)和關(guān)聯(lián)等[28],都已取得可喜進(jìn)展,是研究數(shù)據(jù)元數(shù)據(jù)標(biāo)準(zhǔn)發(fā)展值得期待的未來發(fā)展方向。

      6?啟示

      研究數(shù)據(jù)元數(shù)據(jù),是當(dāng)代科學(xué)交流活動的重要元素。同時(shí),元數(shù)據(jù)作為數(shù)據(jù)資源存放、管理和交換的重要手段,在科學(xué)數(shù)據(jù)共享和數(shù)據(jù)倉儲平臺建設(shè)中發(fā)揮著極其重要的作用,包括數(shù)據(jù)描述作用、數(shù)據(jù)發(fā)現(xiàn)作用、數(shù)據(jù)管理作用、數(shù)據(jù)互換互通作用、資源整合作用、數(shù)據(jù)引用作用和知識產(chǎn)權(quán)保護(hù)作用等[29]。

      目前,各學(xué)科領(lǐng)域的研究數(shù)據(jù)元數(shù)據(jù)標(biāo)準(zhǔn)設(shè)計(jì)和實(shí)踐取得了積極成果,但也面臨著不少問題。例如,在跨學(xué)科數(shù)據(jù)分享和發(fā)現(xiàn)方面,已有研究數(shù)據(jù)元數(shù)據(jù)標(biāo)準(zhǔn)結(jié)構(gòu)不一,且往往只考慮標(biāo)準(zhǔn)之內(nèi)的統(tǒng)一設(shè)計(jì)和實(shí)施,在標(biāo)準(zhǔn)之間的信息互通和數(shù)據(jù)互操作上重視不足。滿足學(xué)科數(shù)據(jù)交流和數(shù)據(jù)倉儲平臺建設(shè)的研究數(shù)據(jù)元數(shù)據(jù)方案設(shè)計(jì)時(shí)應(yīng)著重考慮的目標(biāo)包括:(1)實(shí)現(xiàn)跨學(xué)科領(lǐng)域的數(shù)據(jù)分享實(shí)踐,具體目標(biāo)包括模塊化、可擴(kuò)展性、靈活性、綜合性、充足性、簡易性、數(shù)據(jù)交換、數(shù)據(jù)檢索、數(shù)據(jù)存檔、數(shù)據(jù)發(fā)布等;(2)支持科研過程和數(shù)據(jù)管理活動,具體目標(biāo)包括數(shù)據(jù)收集、數(shù)據(jù)處理、數(shù)據(jù)分發(fā)、數(shù)據(jù)發(fā)現(xiàn)和數(shù)據(jù)分析等;(3)支持更智能的數(shù)據(jù)主題分類和實(shí)體識別,具體目標(biāo)包括數(shù)據(jù)語義化、關(guān)聯(lián)化等。

      21?Biodiversity Information Standards. Darwin core terms: a quick reference guide[EB/OL]. [2018-07-05]. http://rs.tdwg.org/dwc/terms/index.htm.

      22?Robert H, Lars L.C., Adrienne G, et al.Astronomy visualization metadata (AVM) standardversion 1.2 rc1[EB/OL].[2018-07-05]. https://www.virtualastronomy.org/AVM_DRAFTVersion12_rlh02.pdf.

      23?Brian E, Jonathan G, Bob D, et al.NetCDF Climate and forecast metadata conventionsversion 1.7[EB/OL].[2018-07-05]. http://cfconventions.org/Data/cfconventions/cfconventions1.7/cfconventions.pdf.

      24?Data Documentation Initiative. DDI_3.0_part_I_overview[EB/OL].[2018-07-05]. https://bitbucket.org/ddialliance/ddilifecycle/downloads/DDI_3_0_2008-04-28_Documentation_XMLSchema.zip.

      25?中國科學(xué)院數(shù)據(jù)應(yīng)用環(huán)境建設(shè)和服務(wù)項(xiàng)目組. 科學(xué)數(shù)據(jù)庫核心元數(shù)據(jù)標(biāo)準(zhǔn)[EB/OL].[2018-07-05]. https://wenku.baidu.com/view/db2808365a8102d276a22f51.html.

      26?DDI structural reform group. DDI version 3.0 conceptual modelData Documentation Initiative[EB/OL].[2018-07-05]. https://www.ddialliance.org/sites/default/files/ConceptModelWD.pdf.

      27?Bizer C, Tom H, Tim B.L. Linked data-the story so far[M]. Semantic Services, Interoperability and Web Applications: Emerging Concepts,2009:205-227.

      28?Bechhofer S, et al. Why linked data is not enough for scientists[J]. Future Generation Computer Systems,2013,29(2): 599-611.

      29?王國復(fù),涂勇,王卷樂,等.科學(xué)數(shù)據(jù)共享中的元數(shù)據(jù)技術(shù)研究[J].中國科技資源導(dǎo)刊,2008,40(1):30-36.

      作者單位:北京大學(xué)圖書館,北京,100871

      收稿日期:2018年7月7日

      (責(zé)任編輯:關(guān)志英)

      子长县| 潍坊市| 金溪县| 富裕县| 苗栗县| 孙吴县| 嘉峪关市| 定安县| 万荣县| 延庆县| 平和县| 云南省| 交口县| 淮滨县| 赤水市| 博客| 偏关县| 普兰店市| 涟水县| 蒲江县| 大荔县| 长沙市| 开平市| 卫辉市| 新沂市| 庆安县| 濮阳市| 云霄县| 泰兴市| 阿拉善左旗| 凌海市| 宜兴市| 西林县| 平阳县| 图们市| 博野县| 马公市| 汉沽区| 景洪市| 公安县| 顺昌县|