黃如花劉 龍陳 萌
(1.武漢大學(xué)信息資源研究中心 武漢 430072 ;2.武漢大學(xué)信息管理學(xué)院 武漢 430072;3.武漢音樂學(xué)院圖書館 武漢 430060)
·工作研究·
科學(xué)數(shù)據(jù)開放存取的途徑*
黃如花1劉 龍2陳 萌3
(1.武漢大學(xué)信息資源研究中心 武漢 430072 ;2.武漢大學(xué)信息管理學(xué)院 武漢 430072;3.武漢音樂學(xué)院圖書館 武漢 430060)
文章詳細(xì)論述了科學(xué)數(shù)據(jù)開放存取的多種途徑,包括利用數(shù)據(jù)檢索工具,訪問Dataverse倉儲(chǔ),訪問相關(guān)組織或機(jī)構(gòu)的開放數(shù)據(jù)站點(diǎn),查閱開放存取倉儲(chǔ)注冊(cè)系統(tǒng)或目錄,查閱開放數(shù)據(jù)期刊,利用綜合性搜索引擎等,以期為用戶查找并獲取科學(xué)數(shù)據(jù)提供一些參考。
科學(xué)數(shù)據(jù) 研究數(shù)據(jù) 開放存取 途徑
〔引用本文格式〕黃如花,劉龍,陳萌.科學(xué)數(shù)據(jù)開放存取的途徑[J].圖書館,2016(11):26-33
科學(xué)數(shù)據(jù)是指各類科技活動(dòng)產(chǎn)生的原始性、基礎(chǔ)性的數(shù)據(jù)及其分析研究信息,是國(guó)家創(chuàng)新體系中最活躍的要素之一[1],無論對(duì)經(jīng)濟(jì)發(fā)展、政府決策、科技創(chuàng)新還是科學(xué)研究都具有重要意義??茖W(xué)數(shù)據(jù)的開放存取越來越受到世界各國(guó)的重視,根據(jù)相關(guān)統(tǒng)計(jì),截至2015年11月27日,在調(diào)查的全球157個(gè)科研資助機(jī)構(gòu)中,有60個(gè)出臺(tái)了要求或鼓勵(lì)研究數(shù)據(jù)開放存取的政策[2]。2015年更是被稱為“開放數(shù)據(jù)授權(quán)年”(The Year of Open Data Mandates[3]),一大批機(jī)構(gòu)在該年出臺(tái)了科學(xué)數(shù)據(jù)開放存取的政策。美國(guó)國(guó)家科學(xué)基金會(huì)(National Science Foundation,簡(jiǎn)稱NSF)分別于2015年3月和7月發(fā)布《國(guó)家科學(xué)基金會(huì)公共獲取計(jì)劃:今天的數(shù)據(jù),明天的發(fā)現(xiàn)》(NSF’S PUBLIC ACCESS PLAN: Today’s Data, Tomorrow’s Discoveries[4])和開放政府計(jì)劃3.5(Open Government Plan3.5[5]),以促進(jìn)其資助的科學(xué)數(shù)據(jù)等研究成果的開放獲??;歐盟于2015年10月頒布了推動(dòng)研究數(shù)據(jù)開放獲取的文件《地平線2020:科學(xué)出版物和研究數(shù)據(jù)開放獲取指南》(Guidelines on Open Access to Scientific Publications and Research Data in Horizon 2020[6]);英國(guó)工程和自然科學(xué)研究委員會(huì)(EPSRC)制定的《EPSRC研究數(shù)據(jù)政策框架》(EPSRC Policy Framework on Research Data)于2015年5月1日正式生效[7];我國(guó)國(guó)務(wù)院發(fā)布的《促進(jìn)大數(shù)據(jù)發(fā)展行動(dòng)綱要》也明確提出積極推動(dòng)由國(guó)家公共財(cái)政支持的公益性科研活動(dòng)獲取和產(chǎn)生的科學(xué)數(shù)據(jù)逐步開放共享[8]。
開放存取政策的出臺(tái)為科學(xué)數(shù)據(jù)的開放存取提供了條件。但由于缺少跨機(jī)構(gòu)和地域性的一站式檢索站點(diǎn),公開可用的科學(xué)數(shù)據(jù)散布在眾多獨(dú)立的組織或機(jī)構(gòu)站點(diǎn)中,導(dǎo)致用戶很難從紛繁復(fù)雜的各類數(shù)據(jù)存儲(chǔ)站點(diǎn)中找到自己所需的科學(xué)數(shù)據(jù),因此了解和掌握科學(xué)數(shù)據(jù)開放存取的途徑就變得尤為重要。本文介紹了多種科學(xué)數(shù)據(jù)開放存取的途徑,可以為用戶查找和獲取科學(xué)數(shù)據(jù)提供一些幫助。
數(shù)據(jù)檢索工具可用于直接檢索特定的科學(xué)數(shù)據(jù)資源,用戶只需輸入相應(yīng)的檢索詞即可得到準(zhǔn)確的檢索結(jié)果,是最為快捷、方便的科學(xué)數(shù)據(jù)查找途徑。DataCite[9]、CrossRef[10]、Zanran[11]、Voovle[12]以及Google Public Data Explorer[13]等都可算是這類工具的典型代表。本文選取DataCite元數(shù)據(jù)搜索、CrossRef元數(shù)據(jù)搜索和Zanran來進(jìn)行介紹,其中前兩者分別隸屬于全球最大的兩家DOI(數(shù)字對(duì)象標(biāo)識(shí)符)注冊(cè)、發(fā)布機(jī)構(gòu)DataCite與CrossRef,可分別檢索在這兩個(gè)機(jī)構(gòu)注冊(cè)的數(shù)據(jù)集,Zanran是一個(gè)專門用于查找數(shù)值型數(shù)據(jù)(Numerical Data)搜索引擎,功能非常強(qiáng)大。
1.1 DataCite元數(shù)據(jù)搜索
DataCite元數(shù)據(jù)搜索(DataCite Metadata Search)是一個(gè)通過搜索數(shù)據(jù)集在Datacite上注冊(cè)的關(guān)鍵詞、日期、位置等相關(guān)元數(shù)據(jù)信息,來查找和獲取某些特定數(shù)據(jù)集的數(shù)據(jù)檢索工具。Datacite作為一個(gè)幫助研究者發(fā)現(xiàn)、識(shí)別和引用研究數(shù)據(jù)的非營(yíng)利性機(jī)構(gòu),目前已注冊(cè)了大量的研究數(shù)據(jù)集,用戶可利用DataCite元數(shù)據(jù)搜索來獲取所需的科學(xué)數(shù)據(jù)。
DataCite元數(shù)據(jù)搜索提供簡(jiǎn)單檢索和高級(jí)檢索兩種檢索方式,并且給出了詳細(xì)的使用方法。使用簡(jiǎn)單檢索時(shí),用戶只需輸入DOI或相關(guān)元數(shù)據(jù),如題名、主題等作為檢索詞,點(diǎn)擊檢索按鈕即可;使用高級(jí)檢索時(shí),用戶可從DOI、標(biāo)題、創(chuàng)建者、出版者、貢獻(xiàn)者、格式、主題、日期等13個(gè)字段中選擇輸入一個(gè)或幾個(gè)進(jìn)行檢索,同時(shí)還可根據(jù)數(shù)據(jù)中心、資源類型和語言等進(jìn)行檢索過濾。
1.2 CrossRef 元數(shù)據(jù)搜索
CrossRef 元數(shù)據(jù)搜索(Crossref Metadata Search)可通過元數(shù)據(jù)來檢索Crossref數(shù)據(jù)庫的資源。CrossRef是一個(gè)旨在促進(jìn)學(xué)術(shù)成果內(nèi)容更容易被發(fā)現(xiàn)、鏈接、引用和評(píng)定的非營(yíng)利性會(huì)員組織,截至2015年11月21日,其數(shù)據(jù)庫收錄的資源記錄已超過7700萬個(gè),其中很多為研究數(shù)據(jù)。目前僅提供簡(jiǎn)單檢索這一種檢索方式,用戶可通過輸入作者、標(biāo)題、DOI、ORCIDs、 ISSNs、FundRefs等元數(shù)據(jù)信息來進(jìn)行檢索,檢索頁面給出了多種查詢示例以幫助用戶進(jìn)行操作[14],例如輸入DOI“10.2331/ suisan.32.804”來查找某一特定的學(xué)術(shù)成果。
1.3 Zanran
Zanran是一個(gè)專門用來查找數(shù)值型數(shù)據(jù)(Numerical Data)的搜索引擎,可幫助用戶找到網(wǎng)絡(luò)上半結(jié)構(gòu)化的開放數(shù)據(jù),格式包括PDF、Excel、HTML Tables和Images等,比如他人發(fā)表的PDF格式的圖表、EXCEL格式的表格、圖片或HTML格式的條形圖等,其中很多是研究論文中的數(shù)值型數(shù)據(jù)。相比綜合性搜索引擎,Zanran檢索結(jié)果更為精確,而且操作也更為簡(jiǎn)單,Zanran會(huì)在搜索框中給出檢索提示,用戶根據(jù)提示可以很容易地構(gòu)造出標(biāo)準(zhǔn)的檢索式,提高檢準(zhǔn)率。除此之外,用戶還可以在輸入檢索詞的同時(shí)選擇地區(qū)(如澳大利亞、加拿大等,也可以是特定的網(wǎng)址)、日期(所有日期、最近6個(gè)月、最近12個(gè)月、最近24個(gè)月)和文件類型(PDF、Excel、HTML Tables、Images)等進(jìn)行限定,進(jìn)一步精確檢索結(jié)果。因此,利用Zanran進(jìn)行檢索是一種非常便捷、高效地獲取科學(xué)數(shù)據(jù)的途徑。
Dataverse倉儲(chǔ)(Dataverse Repository)即基于Dataverse軟件而建立的科學(xué)數(shù)據(jù)倉儲(chǔ)。Dataverse是一種分享、保存、引用、查找和分析研究數(shù)據(jù)的開源網(wǎng)絡(luò)應(yīng)用程序,以利于研究數(shù)據(jù)更方便地為他人獲取和復(fù)用。一個(gè)Dataverse倉儲(chǔ)一般會(huì)收錄多個(gè) Dataverse,每個(gè)Dataverse包含多個(gè)數(shù)據(jù)集以及其他的Dataverse,每個(gè)數(shù)據(jù)集又包括元數(shù)據(jù)和各種數(shù)據(jù)文件[15]。用戶訪問Dataverse倉儲(chǔ)不僅可以獲取大量的研究數(shù)據(jù),而且可以找到很多其他的Dataverse,然后再通過這些Dataverse又可以獲取更多的科學(xué)數(shù)據(jù)和Dataverse。因此,相對(duì)于基于DSpace、CKAN等其他開源軟件建立的科學(xué)數(shù)據(jù)倉儲(chǔ)而言,Dataverse倉儲(chǔ)更適合用戶查找和獲取科學(xué)數(shù)據(jù)。
哈佛大學(xué)的Harvard Dataverse[16]是由哈佛大學(xué)社會(huì)科學(xué)研究所(Institute for Quantitative Social Science,IQSS)、哈佛大學(xué)圖書館(Harvard Library)和哈佛大學(xué)信息技術(shù)中心(Harvard University Information Technology,HUIT)合作開發(fā)的,作為目前收錄數(shù)據(jù)資源最多、最為著名的Dataverse倉儲(chǔ),截至2015年11月21日,共收錄1331個(gè)Dataverse以及涵蓋社會(huì)科學(xué)、經(jīng)濟(jì)學(xué)、物理學(xué)、生物學(xué)等學(xué)科的59580個(gè)研究數(shù)據(jù)集、286741個(gè)數(shù)據(jù)文件。這些數(shù)據(jù)資源既可按出版日期、主題和作者名進(jìn)行瀏覽,也可通過簡(jiǎn)單或高級(jí)檢索功能進(jìn)行檢索、下載和引用。目前其資源下載次數(shù)已超過140萬次。
表1 Dataverse倉儲(chǔ)列表
這里所指的開放數(shù)據(jù)站點(diǎn)是各種開放數(shù)據(jù)資源存儲(chǔ)地點(diǎn)的統(tǒng)稱,其形式包括開放數(shù)據(jù)倉儲(chǔ)(Open Data Repository)、開放數(shù)據(jù)門戶(Open Data Portal)、開放數(shù)據(jù)平臺(tái)(Open Data Platform)和開放數(shù)據(jù)庫(Open Database)等。近些年,開放科學(xué)數(shù)據(jù)站點(diǎn)呈現(xiàn)爆發(fā)式增長(zhǎng),各類組織或機(jī)構(gòu)紛紛建立起自己的開放數(shù)據(jù)站點(diǎn),用以保存和共享研究數(shù)據(jù)。以開放數(shù)據(jù)倉儲(chǔ)為例,截至2015年11月21日,僅在Re3data.org[18]注冊(cè)的開放科學(xué)數(shù)據(jù)倉儲(chǔ)就達(dá)到了1163個(gè),并且以每周約10個(gè)新數(shù)據(jù)倉儲(chǔ)的速度不斷增加。用戶可通過訪問這些數(shù)據(jù)站點(diǎn)來獲取所需科學(xué)數(shù)據(jù)。依據(jù)不同的建設(shè)或管理者,開放數(shù)據(jù)站點(diǎn)主要有以下幾種。
3.1 國(guó)際組織的開放數(shù)據(jù)站點(diǎn)
作為開放數(shù)據(jù)運(yùn)動(dòng)的有力推動(dòng)者,國(guó)際組織特別是大型的國(guó)際組織一般都建立了相應(yīng)的開放數(shù)據(jù)站點(diǎn),有些組織為了方便用戶查找本組織各成員單位的開放數(shù)據(jù),還會(huì)建立統(tǒng)一的開放數(shù)據(jù)門戶以省去用戶逐個(gè)查找各個(gè)成員單位數(shù)據(jù)倉儲(chǔ)的麻煩,實(shí)現(xiàn)各類開放數(shù)據(jù)的一站式獲取,如聯(lián)合國(guó)(United Nations)、歐盟(European Union)等。這些站點(diǎn)的建立為用戶開放獲取各類科學(xué)數(shù)據(jù),特別是涉及多個(gè)國(guó)家和地區(qū)的科學(xué)數(shù)據(jù)提供了一條不錯(cuò)的途徑,它們收錄的數(shù)據(jù)不僅涵蓋地域面廣、涉及學(xué)科領(lǐng)域多,而且權(quán)威性也可以得到保證。表2列舉了世界上幾個(gè)重要國(guó)際組織的開放數(shù)據(jù)站點(diǎn)。
表2 國(guó)際組織的開放數(shù)據(jù)站點(diǎn)
(注:表中統(tǒng)計(jì)數(shù)據(jù)截至2015年11月21日。)
3.2 政府開放數(shù)據(jù)站點(diǎn)
政府開放數(shù)據(jù)站點(diǎn)是一個(gè)國(guó)家或地區(qū)政府統(tǒng)一對(duì)外發(fā)布數(shù)據(jù)信息的平臺(tái)和窗口,其數(shù)據(jù)主要來源于政府各個(gè)機(jī)構(gòu)的調(diào)查、統(tǒng)計(jì)、觀測(cè)及研究等活動(dòng),數(shù)據(jù)全面、可靠且容易獲取,是查找一個(gè)國(guó)家或地區(qū)政府開放科學(xué)數(shù)據(jù)的理想途徑。這類站點(diǎn)主要可分為兩類:一類是政府?dāng)?shù)據(jù)統(tǒng)一開放門戶,另一類是具體政府部門建立的開放數(shù)據(jù)站點(diǎn)。
3.2.1 政府?dāng)?shù)據(jù)統(tǒng)一開放門戶
政府?dāng)?shù)據(jù)統(tǒng)一開放門戶又可分為兩種:一種是國(guó)家政府?dāng)?shù)據(jù)統(tǒng)一開放門戶,例如美國(guó)的Data.gov、英國(guó)的Data.gov.uk、法國(guó)的Data.gouv.fr、印度的Data.gov.in等,表3列舉了世界上一些主要國(guó)家的國(guó)家政府?dāng)?shù)據(jù)統(tǒng)一開放門戶;另一種是地方政府?dāng)?shù)據(jù)統(tǒng)一開放門戶,如美國(guó)加利福尼亞州的Data.CA.gov、芝加哥市建立的City of Chicago Data Portal、圣馬特奧縣政府建立的Data. smcgov.org等。
表3 世界上主要國(guó)家的國(guó)家政府?dāng)?shù)據(jù)統(tǒng)一開放門戶
美國(guó)政府的數(shù)據(jù)門戶網(wǎng)站(Data.gov)是政府?dāng)?shù)據(jù)統(tǒng)一開放門戶的典范,無論是資源數(shù)量、開放程度還是站點(diǎn)功能,都遠(yuǎn)超其他國(guó)家同類站點(diǎn)。截至2015年11月21日,Data.gov可檢索的數(shù)據(jù)集已超過188955個(gè),包括農(nóng)業(yè)、商業(yè)、消費(fèi)、生態(tài)系統(tǒng)、教育、能源、金融、海洋、科學(xué)與研究等14個(gè)主題,堪稱海量數(shù)據(jù)。為了幫助和引導(dǎo)用戶獲取相關(guān)數(shù)據(jù),Data.gov還在其網(wǎng)站給出了查找和下載數(shù)據(jù)資源的具體方法,非常人性化[19]。
3.2.2 具體政府部門建立的開放數(shù)據(jù)站點(diǎn)
這些政府部門包括國(guó)家的統(tǒng)計(jì)部門、教育部門、科技部門、文化部門、衛(wèi)生部門等。訪問這些政府部門建立的開放數(shù)據(jù)站點(diǎn)可以獲取該部門相關(guān)的科學(xué)數(shù)據(jù)。例如美國(guó)國(guó)家航空航天局(NASA)建立的NASA’s Data Portal[20];美國(guó)疾病控制與預(yù)防中心(Centers for Disease Control and Prevention)建立的Data.CDC.gov[21]等。這些數(shù)據(jù)站點(diǎn)是獲取某些政府部門科學(xué)數(shù)據(jù)的絕佳途徑。表4列舉了一些我國(guó)政府部門建立的開放科學(xué)數(shù)據(jù)站點(diǎn)。
表4 我國(guó)政府部門建立的開放科學(xué)數(shù)據(jù)站點(diǎn)
3.3 高校和科研機(jī)構(gòu)的開放數(shù)據(jù)站點(diǎn)
如果說訪問政府開放科學(xué)數(shù)據(jù)站點(diǎn)是獲取政府科學(xué)數(shù)據(jù)的主要途徑,那么訪問高校和科研機(jī)構(gòu)的開放數(shù)據(jù)站點(diǎn)就是獲取研究數(shù)據(jù)的主要途徑,因?yàn)楦咝:涂蒲袡C(jī)構(gòu)是主要的研究數(shù)據(jù)生產(chǎn)者,很多研究數(shù)據(jù)都是通過各國(guó)高校和科研機(jī)構(gòu)的開放數(shù)據(jù)站點(diǎn)來存儲(chǔ)和發(fā)布的,這些機(jī)構(gòu)包括各國(guó)高校、高校圖書館、高校實(shí)驗(yàn)室、科學(xué)院、社科院、研究所以及研究協(xié)會(huì)等。每個(gè)國(guó)家都擁有眾多的高校和科研機(jī)構(gòu),且大多建立了開放數(shù)據(jù)站點(diǎn),因此這類站點(diǎn)也是多不勝舉。例如世界頂級(jí)研究型綜合大學(xué)之一的康奈爾大學(xué)建立的CISER Data Archive[22],澳大利亞最大的國(guó)家級(jí)科研機(jī)構(gòu),同時(shí)也是世界上最大、最多樣化的科研機(jī)構(gòu)之一的澳大利亞聯(lián)邦科學(xué)與工業(yè)研究組織(Commonwealth Scientific and Industrial Research Organization ,CSIRO)建立的CSIRO數(shù)據(jù)獲取門戶(CSIRO Data Access Portal)[23]、美國(guó)四大學(xué)術(shù)機(jī)構(gòu)之一的國(guó)家科學(xué)基金會(huì)(National Science Foundation)資助建立的DataONE[24]、中國(guó)最高的學(xué)術(shù)和研究機(jī)構(gòu)中國(guó)科學(xué)院建立的中國(guó)科學(xué)院數(shù)據(jù)云[25]和基礎(chǔ)科學(xué)數(shù)據(jù)共享網(wǎng)[26]、英國(guó)研究理事會(huì)重要成員之一的英國(guó)科學(xué)和技術(shù)設(shè)施理事會(huì)(Science and Technology Facilities Council)建立的CEDA環(huán)境數(shù)據(jù)分析中心[27]等。由于這類站點(diǎn)比較繁多,且各機(jī)構(gòu)科學(xué)數(shù)據(jù)開放程度、數(shù)量難以比較,因此這里不再對(duì)具體的站點(diǎn)進(jìn)行詳細(xì)論述。多數(shù)情況下,用戶只需登陸某個(gè)機(jī)構(gòu)的官方網(wǎng)站便可找到相關(guān)開放數(shù)據(jù)站點(diǎn)的鏈接。
3.4 其他組織或機(jī)構(gòu)的開放數(shù)據(jù)站點(diǎn)
除了以上所列出的機(jī)構(gòu)外,還有很多由非營(yíng)利性會(huì)員組織、出版社、基金會(huì)等其他類型的組織或機(jī)構(gòu)建設(shè)管理的開放數(shù)據(jù)站點(diǎn)。限于篇幅,經(jīng)過同類站點(diǎn)對(duì)比之后,這里僅選取收錄科學(xué)數(shù)據(jù)比較多的DataDryad. org[28]、Figshare[29]和Datahub[30]進(jìn)行簡(jiǎn)要列表介紹。
表5 DataDryad.org、Figshare和Datahub簡(jiǎn)介
4.1 專門的開放數(shù)據(jù)倉儲(chǔ)注冊(cè)系統(tǒng)或目錄
如前文所述,近些年開放數(shù)據(jù)倉儲(chǔ)如雨后春筍般涌現(xiàn),其數(shù)量越來越龐大、類型越來越多,用戶想要在如此復(fù)雜繁多的數(shù)據(jù)倉儲(chǔ)中找到自己所需的科學(xué)數(shù)據(jù)也變得愈發(fā)困難。因此,一些專門用于查找開放數(shù)據(jù)倉儲(chǔ)的注冊(cè)系統(tǒng)或目錄應(yīng)運(yùn)而生,例如Re3data.org、Dataportals.org[31]、Datalib[32]等,為用戶全面、準(zhǔn)確地查找科學(xué)數(shù)據(jù)帶來了諸多便利。除此之外,很多政府或研究機(jī)構(gòu)門戶站點(diǎn)也會(huì)建立類似的注冊(cè)系統(tǒng)或目錄,用于指引用戶和查找與本機(jī)構(gòu)、本系統(tǒng)相關(guān)的開放科學(xué)數(shù)據(jù),例如美國(guó)政府開放數(shù)據(jù)目錄[33]、美國(guó)能源部開放數(shù)據(jù)目錄[34]等。這里選取影響較大的Re3data.org和Dataportals.org進(jìn)行介紹。
4.1.1 Re3data.org
Re3data. org建立于2012年秋,是一個(gè)由德國(guó)研究基金會(huì)資助的、涵蓋不同學(xué)科數(shù)據(jù)倉儲(chǔ)的全球性研究數(shù)據(jù)倉儲(chǔ)注冊(cè)系統(tǒng),該系統(tǒng)旨在為研究人員、資助機(jī)構(gòu)、出版商以及學(xué)術(shù)機(jī)構(gòu)提供永久存儲(chǔ)和開放獲取相關(guān)研究數(shù)據(jù)的數(shù)據(jù)倉儲(chǔ),以促進(jìn)研究數(shù)據(jù)的獲取和共享。截至2015年11月21日,Re3data.org共收錄了1371個(gè)研究數(shù)據(jù)倉儲(chǔ),其中1163個(gè)數(shù)據(jù)倉儲(chǔ)可開放獲取,所收錄的數(shù)據(jù)倉儲(chǔ)可按照主題、內(nèi)容類型和國(guó)家進(jìn)行瀏覽,并且以圖形的形式進(jìn)行呈現(xiàn),也可以進(jìn)行在線檢索,具體到每個(gè)數(shù)據(jù)倉儲(chǔ),用戶可以查看其主題、URL、內(nèi)容類型、關(guān)鍵詞、倉儲(chǔ)類型等詳細(xì)信息。目前, Re3data. org正在與另一個(gè)重要的開放數(shù)據(jù)倉儲(chǔ)目錄Datalib.org進(jìn)行合并,合并完成后,其功能將更為強(qiáng)大和完善。
4.1.2 Dataportals.org
數(shù)據(jù)門戶網(wǎng)站(Dataportals.org)又叫數(shù)據(jù)目錄網(wǎng)站(Datacatalogs.org ),是世界上最全面、最詳細(xì)的開放數(shù)據(jù)資源目錄,它是由一群來自世界各地的開放數(shù)據(jù)權(quán)威專家(包括一些國(guó)家、地區(qū)和地方的政府代表、世界銀行等國(guó)際組織的代表以及眾多的非政府組織代表)策劃建立的,由開放知識(shí)基金會(huì)(Open Knowledge Foundation)來管理和運(yùn)行[22]。截至2015年11月21日,該門戶網(wǎng)站共收錄了世界各地的461個(gè)數(shù)據(jù)倉儲(chǔ)、數(shù)據(jù)倉儲(chǔ)注冊(cè)站點(diǎn)、目錄以及其他數(shù)據(jù)門戶網(wǎng)站等資源,包括聯(lián)合國(guó)數(shù)據(jù)目錄(UN Data)、歐盟開放數(shù)據(jù)(EU Open Data)、澳大利亞南極數(shù)據(jù)中心(Australian Antarctic Data Centre)等,并通過地圖的形式顯示各個(gè)開放數(shù)據(jù)倉儲(chǔ)的分布地點(diǎn)。每個(gè)資源項(xiàng)都有簡(jiǎn)介和標(biāo)簽,點(diǎn)擊資源列表右側(cè)的圖標(biāo)按鈕可以查看該資源的具體描述信息,包括數(shù)據(jù)涉及范圍、出版者、狀態(tài)、所屬國(guó)家或語言、標(biāo)簽、鏈接地址、API端口等。
4.2 綜合性的開放存取倉儲(chǔ)注冊(cè)系統(tǒng)或目錄
眾所周知,開放科學(xué)數(shù)據(jù)是重要的開放存取資源之一,因此除了上文介紹的專門收錄開放科學(xué)數(shù)據(jù)倉儲(chǔ)的注冊(cè)系統(tǒng)或目錄外,一些著名的綜合性開放存取倉儲(chǔ)注冊(cè)系統(tǒng)或目錄也會(huì)收錄大量的開放科學(xué)數(shù)據(jù)倉儲(chǔ)。例如“開放存取倉儲(chǔ)目錄”(The Directory of Open Access Repositories,OpenDOAR)[35]、開放存取目錄(Open Access Directory,OAD)[36]、“開放存取倉儲(chǔ)注冊(cè)”(Registry of Open Access Repositories,ROAR)[37]等。它們?cè)谑珍浧渌_放存取資源倉儲(chǔ)的同時(shí),也收錄相當(dāng)數(shù)量的開放科學(xué)數(shù)據(jù)倉儲(chǔ),因此,查閱這些注冊(cè)系統(tǒng)或目錄也是查找科學(xué)數(shù)據(jù)的可行途徑之一。表6以O(shè)penDOAR、OAD、ROAR為例,列舉了它們所收錄開放科學(xué)數(shù)據(jù)倉儲(chǔ)的情況。
表6 OpenDOAR、OAD和ROAR收錄開放科學(xué)數(shù)據(jù)倉儲(chǔ)情況
查閱開放數(shù)據(jù)期刊也是獲取科學(xué)數(shù)據(jù)的途徑之一。這些數(shù)據(jù)期刊不僅包括一些專門的科學(xué)數(shù)據(jù)期刊,如《科學(xué)數(shù)據(jù)》(Scientific Data)[38]、《中國(guó)科學(xué)數(shù)據(jù)》(China Scientific Data)[39],也包括某些特定學(xué)科領(lǐng)域的數(shù)據(jù)期刊,像《地球系統(tǒng)科學(xué)數(shù)據(jù)》(Earth System Science Data)、《生物醫(yī)學(xué)數(shù)據(jù)雜志》(Biomedical Data Journal)等。用戶可通過DOAJ、Open J-Gate等大型的開放存取期刊目錄來查找相關(guān)的開放數(shù)據(jù)期刊,表7列出了DOAJ收錄的一些不同學(xué)科的開放數(shù)據(jù)期刊。這里僅以《科學(xué)數(shù)據(jù)》和《中國(guó)科學(xué)數(shù)據(jù)》這兩個(gè)專門的科學(xué)數(shù)據(jù)期刊為例進(jìn)行詳細(xì)介紹。
表7 DOAJ收錄的開放數(shù)據(jù)期刊
5.1 《科學(xué)數(shù)據(jù)》
《科學(xué)數(shù)據(jù)》(Scientific Data)由《自然》出版集團(tuán)于2014年推出,用于描述有價(jià)值的科學(xué)數(shù)據(jù)集,是一個(gè)可開放獲取的同行評(píng)審期刊。該期刊主要出版數(shù)據(jù)描述符(Data Descriptor),它是一種為促進(jìn)研究數(shù)據(jù)更容易地被發(fā)現(xiàn)、解釋和復(fù)用而設(shè)計(jì)的新的出版物形式,每個(gè)數(shù)據(jù)描述符都是由一篇描述數(shù)據(jù)集的文章和為最大限度地發(fā)現(xiàn)和復(fù)用數(shù)據(jù)而設(shè)計(jì)的結(jié)構(gòu)化的、機(jī)器可讀的信息組成,它既可用來補(bǔ)充傳統(tǒng)研究論文,也可用于描述單個(gè)數(shù)據(jù)集[40]。用戶可通過訪問《科學(xué)數(shù)據(jù)》的官方網(wǎng)站來查找和下載科學(xué)數(shù)據(jù),并可利用電子郵件、RSS等進(jìn)行訂閱。
5.2 《中國(guó)科學(xué)數(shù)據(jù)》
《中國(guó)科學(xué)數(shù)據(jù)》(China Scientific Data)是由中國(guó)科學(xué)院主辦的數(shù)據(jù)論文在線發(fā)表期刊,于2015年創(chuàng)刊。該期刊致力于科學(xué)數(shù)據(jù)的開放、共享和引用,是目前中國(guó)唯一的專門面向多學(xué)科領(lǐng)域科學(xué)數(shù)據(jù)出版的學(xué)術(shù)期刊。主要收錄具有領(lǐng)域科學(xué)研究特色的數(shù)據(jù)論文,包括但不限于生命科學(xué)與醫(yī)學(xué)、地球系統(tǒng)科學(xué)、空間科學(xué)與天文學(xué)、物理學(xué)、化學(xué)化工、材料科學(xué)與工程、信息科學(xué)、社會(huì)科學(xué)等學(xué)科領(lǐng)域的基礎(chǔ)數(shù)據(jù)及數(shù)據(jù)產(chǎn)品,同時(shí)兼收高質(zhì)量的數(shù)據(jù)科學(xué)評(píng)述以及數(shù)據(jù)觀點(diǎn)論文[41]。
《中國(guó)科學(xué)數(shù)據(jù)》出版平臺(tái)提供科學(xué)數(shù)據(jù)論文發(fā)布和相關(guān)數(shù)據(jù)服務(wù)??蒲腥藛T可通過該平臺(tái)提交數(shù)據(jù)論文以及相關(guān)數(shù)據(jù)集,經(jīng)由同行評(píng)審?fù)ㄟ^后進(jìn)行在線發(fā)布和共享,提供給更多用戶瀏覽。同時(shí)該平臺(tái)還提供數(shù)據(jù)論文搜索、數(shù)據(jù)預(yù)覽、數(shù)據(jù)集下載等服務(wù)。用戶可通過該出版平臺(tái)來獲取相關(guān)科學(xué)數(shù)據(jù)[42]。
截至2015年9月,全球市場(chǎng)占有率排名前四的綜合性搜索引擎分別為Google、Yahoo、Bing和百度[43],這些都是用戶比較熟悉的、甚至經(jīng)常使用的搜索引擎,但是利用這些工具查找開放科學(xué)數(shù)據(jù)時(shí)需要運(yùn)用一些檢索技巧并巧妙構(gòu)造檢索式,因?yàn)榫C合性的搜索引擎很難直接檢索到存儲(chǔ)在各個(gè)具體開放數(shù)據(jù)站點(diǎn)中的科學(xué)數(shù)據(jù)。如果直接檢索科學(xué)數(shù)據(jù)得到的結(jié)果較少或者不符合需求,用戶就需要改變檢索策略,放棄直接查找科學(xué)數(shù)據(jù),轉(zhuǎn)而去檢索這些數(shù)據(jù)的存儲(chǔ)站點(diǎn)、數(shù)據(jù)倉儲(chǔ)注冊(cè)系統(tǒng)或目錄等,然后去登陸具體的站點(diǎn)或倉儲(chǔ)來間接查找和獲取科學(xué)數(shù)據(jù)。具體檢索式的構(gòu)建如表8所示。
表8 不同檢索需求時(shí)的檢索式構(gòu)建
除了上文提到的幾種主要途徑外,獲取科學(xué)數(shù)據(jù)的途徑還有很多:訪問學(xué)科庫和知識(shí)庫,因?yàn)樵S多學(xué)科庫和知識(shí)庫也會(huì)收錄一些科學(xué)數(shù)據(jù),筆者在《論開放存取資源的收集策略》[44]一文中已介紹,這里不再贅述;利用維基百科查找“Open Scientific Data”、“Open Research Data”、“Open Data”、“Data Repository”、“Data Archive”、“Data Portal”等詞條,可得到很多站點(diǎn)資源;利用關(guān)聯(lián)網(wǎng)站,如一些科學(xué)數(shù)據(jù)網(wǎng)站的友情鏈接、相關(guān)鏈接等,可通過一個(gè)網(wǎng)站獲得大量的相關(guān)網(wǎng)站;通過社交媒體,一些名人、數(shù)據(jù)專家、數(shù)據(jù)愛好者會(huì)在其個(gè)人網(wǎng)站、Blog等媒體上分享少量科學(xué)數(shù)據(jù);利用關(guān)聯(lián)數(shù)據(jù)或API來獲取等。以上都是獲取科學(xué)數(shù)據(jù)的可行途徑,但由于其利用價(jià)值有限或需要一定的技術(shù)基礎(chǔ),因此,對(duì)于普通用戶而言,一般僅作為科學(xué)數(shù)據(jù)開放存取的輔助途徑。
總之,科學(xué)數(shù)據(jù)開放存取的途徑多種多樣,不同的獲取途徑有著不同的特點(diǎn),且各具優(yōu)勢(shì)和不足。比如利用數(shù)據(jù)檢索工具比較快捷、方便,但獲取的數(shù)據(jù)全面性卻不夠;訪問開放數(shù)據(jù)站點(diǎn)針對(duì)性比較強(qiáng),卻通常需要逐個(gè)站點(diǎn)去查找,費(fèi)時(shí)費(fèi)力;查閱開放存取注冊(cè)站點(diǎn)或目錄可獲取的數(shù)據(jù)比較全面,但由于是間接查找科學(xué)數(shù)據(jù),所以過程也比較繁瑣。所以用戶在具體操作時(shí),可根據(jù)自己的使用習(xí)慣和需求選擇合適的獲取途徑。同時(shí)需要注意辨別數(shù)據(jù)來源和質(zhì)量,選擇那些權(quán)威、真實(shí)和可靠的科學(xué)數(shù)據(jù)來為自己的科研服務(wù)。
(來稿時(shí)間:2016年1月)
1.陳傳夫.中國(guó)科學(xué)數(shù)據(jù)公共獲取機(jī)制:特點(diǎn)、障礙與優(yōu)化的建議[J].中國(guó)軟科學(xué),2004(2):8-13
2. Some JULIET Statistics [EB/OL].[2015-11-21].http:// www.sherpa.ac.uk/juliet/stats.php?la=en&mode=simple
3.2015 - The year of open data mandates[EB/OL].[2015-11-21]. http://figshare.com/blog/2015_The_year_of_open_data_mandates/143
4. NSF’S PUBLIC ACCESS PLAN: Today’s Data, Tomorrow’s Discoveries[EB/OL].[2015-11-21]. http://www.nsf. gov/pubs/2015/nsf15052/nsf15052.pdf
5. Open Government Plan3.5[EB/OL].[2015-11-21]. http:// www.nsf.gov/pubs/2015/nsf15094/nsf15094.pdf
6. Guidelines on Open Access to Scientific Publications and Research Data in Horizon 2020[EB/OL].[2015-11-21].http:// ec.europa.eu/research/participants/data/ref/h2020/grants_manual/ hi/oa_pilot/h2020-hi-oa-pilot-guide_en.pdf
7. Impact, timescales and support[EB/OL].[2015-11-21]. https://www.epsrc.ac.uk/about/standards/researchdata/impact/
8.國(guó)務(wù)院關(guān)于印發(fā)促進(jìn)大數(shù)據(jù)發(fā)展行動(dòng)綱要的通知[EB/ OL].[2015-11-21]. http://www.gov.cn/zhengce/content/2015-09/05/content_10137.htm
9. DataCite Metadata Search [EB/OL].[2015-11-21].http:// search.datacite.org/u
10. Crossref Metadata Search [EB/OL].[2015-11-21]. http:// search.crossref.org/
11. Zanran[EB/OL].[2015-11-21]. http://www.zanran.com/q/
12. Voovle [EB/OL].[2015-11-21].http://voovle.csdb.cn/
13. Google Public Data Explorer [EB/OL].[2015-11-21]. https://www.google.com/publicdata/directory
14. Example Queries [EB/OL].[2015-11-21].http://search. crossref.org/help/search
15. About the Dataverse Project [EB/OL].[2015-11-21].http:// dataverse.org/about/
16. Harvard Dataverse [EB/OL].[2015-11-21].https:// dataverse.harvard.edu/dataverse/harvard
17. STUDIES[EB/OL].[2015-11-21].http://arc.irss.unc.edu/dvn/
18. re3data.org[EB/OL].[2015-11-21]. http://www.re3data.org/
19. Data.gov Search & Feedback [EB/OL].[2015-11-21]. https://www.data.gov/about#who
20. NASA’s Data Portal [EB/OL].[2015-11-21]. https://data. nasa.gov/
21. Data.CDC.gov [EB/OL].[2015-11-21]. https://data.cdc.gov/
22. CISER Data Archive [EB/OL].[2015-11-21]. http://ciser. cornell.edu/info/about.shtml
23. CSIRO Data Access Portal[EB/OL].[2015-11-21]. https:// data.csiro.au/dap/home?execution=e1s1
24. DataONE[EB/OL].[2015-11-21].https://www.dataone.org/
25.中國(guó)科學(xué)院數(shù)據(jù)云[EB/OL].[2015-11-21].http://www. csdb.cn/
26.基礎(chǔ)科學(xué)數(shù)據(jù)共享網(wǎng)[EB/OL].[2015-11-21]. http:// www.nsdc.cn/
27. Environmental Data Analysis [EB/OL].[2015-11-21]. http://www.ceda.ac.uk/
28. DataDryad.org [EB/OL].[2015-11-21]. http://datadryad.org/
29. Figshare [EB/OL].[2015-11-21]. http://figshare.com/
30. Datahub [EB/OL].[2015-11-21]. https://datahub.io/
31. About DataPortals.org [EB/OL].[2015-11-21]. http:// dataportals.org/about
32. Databib[EB/OL].[2015-11-21]. http://databib.org/ databib.php
33. Catalog.data.gov [EB/OL].[2015-11-21].http://catalog. data.gov/dataset
34. Energy.gov [EB/OL].[2015-11-21]. http://energy.gov/ data/downloads/open-data-catalogue
35. The Directory of Open Access Repositories [EB/OL]. [2015-11-21].http://www.opendoar.org/index.html
36. Open Access Directory [EB/OL].[2015-11-21]. http://oad. simmons.edu/oadwiki/Main_Page
37. Registry of Open Access Repositories [EB/OL].[2015-11-21]. http://roar.eprints.org/
38. Scientific Data [EB/OL].[2015-11-21]. http://www.nature. com/sdata/
39. China Scientific Data [EB/OL].[2015-11-21]. http://www. csdata.org/
40. About Scientific Data [EB/OL].[2015-11-21]. http://www. nature.com/sdata/about
41.《中國(guó)科學(xué)數(shù)據(jù)》成功獲批國(guó)內(nèi)統(tǒng)一連續(xù)出版物[EB/OL]. [2015-11-21]. http://www.ecas.cn/yjsdt/201508/t20150827_4416884.html
42.關(guān)于《中國(guó)科學(xué)數(shù)據(jù)》出版平臺(tái)[EB/OL].[2015-11-21]. http://www.csdata.org/introduction
43. Desktop Search Engine Market [EB/OL].[2015-11-21]. Sharehttps://www.netmarketshare.com/search-engine-marketshare.aspx?qprid=4&qpcustomd=0
44.黃如花.論開放存取資源的收集策略[J].圖書情報(bào)工作,2008(12):6-8
examples, in the hope of providing some reference for users to search and obtain scientific data. These methods including using data search tools , visiting Dataverse repositories , visiting open data sites of relevant organizations or institutions, consulting the registration system or directory of open scientific data repository, consulting the registration system or directory of open access repository, consulting open access data journals and retrieving through the Synthetic Search Engines, etc.〔Key words 〕Scientific data Research data Open access Method
Methods of Open Access to Scientific Data
Huang Ruhua1Liu Long2Chen Meng3
( 1.Center for the Studies of Information Resources of Wuhan University; 2.School of Information Management of Wuhan University;3.Wuhan Conservatory of Music Library )
This paper discusses various methods of open access to scientific data detailedly with operating example
G25
*本文系中國(guó)科學(xué)技術(shù)信息研究所與武漢大學(xué)信息管理學(xué)院合作項(xiàng)目“科學(xué)文獻(xiàn)的語義功能識(shí)別與深度利用”研究成果之一。
黃如花,女,博士生導(dǎo)師,武漢大學(xué)信息資源研究中心教授;劉龍,男,武漢大學(xué)信息管理學(xué)院博士研究生;陳萌,女,武漢音樂學(xué)院圖書館館員。