許艷蘋
(廈門大學(xué) 近海海洋環(huán)境科學(xué)國家重點實驗室,福建 廈門 361102)
國際海洋觀測計劃,始于20世紀60年代,約每10年開展一次。1956—1959年的國際地球物理年,是海洋觀測史上第一次大規(guī)模的國際聯(lián)合行動。1971—1980年的國際海洋考察十年,經(jīng)歷 1980—1985年間的中型計劃,發(fā)展為1985—1990年的全球變化。物理海洋學(xué)觀測計劃,經(jīng)歷中大洋動力學(xué)實驗,發(fā)展為世界大洋環(huán)流實驗(WOCE)計劃。生物地球化學(xué)海洋學(xué)觀測計劃,經(jīng)歷海洋地球化學(xué)斷面研究(Geochemical Ocean Sections,GEOSECS)計劃,發(fā)展為全球聯(lián)合海洋通量研究(JGOFS)計劃[1]。在20世紀60—70年代,船測的科學(xué)數(shù)據(jù)和資料主要通過出版研究圖集的形式公開,如 GEOSECS 計劃。隨著全球變化計劃的蓬勃發(fā)展,獲取了海量高分辨率的觀測數(shù)據(jù),完善而有效的數(shù)據(jù)管理方案尤為重要,如何讓這些數(shù)據(jù)具有長久的使用性和可傳承性,國際計劃如何管理數(shù)據(jù),哪些經(jīng)驗值得借鑒?
本研究選取世界大洋環(huán)流實驗(World Ocean Circulation Experiment,WOCE)、全球聯(lián)合海洋通量研究(Joint Global Ocean Flux Study,JGOFS)、全球海洋船基水文調(diào)查計劃(Global Ocean Ship-based Hydrographic Investigations Program,GO-SHIP)和痕量元素及同位素海洋生物地球化學(xué)循環(huán)國際研究(An International Study of the Marine Biogeochemical Cycles of Trace Elements and Isotopes,GEOTRACES)四個海洋學(xué)科領(lǐng)域的國際計劃,包含物理海洋、海洋化學(xué)、海洋生物與生態(tài)、海洋氣象、光學(xué)等不同的學(xué)科方向,對其數(shù)據(jù)管理流程和管理政策進行分析和總結(jié),借鑒國際海洋觀測計劃數(shù)據(jù)管理規(guī)范化理念和共享經(jīng)驗,探討建立適合我國的數(shù)據(jù)管理方案。
WOCE(1988—1998年)是世界氣候研究計劃的主要組成部分,是規(guī)模最大的國際海洋學(xué)合作計劃之一。該計劃為全球海洋觀測提供了前所未有的全球海洋觀測數(shù)據(jù),數(shù)據(jù)量大,覆蓋海域廣,包含 350多種示蹤劑分布,>18 500個站位的高精度溫鹽深儀(Conductivity-Temperature-Depth,CTD)數(shù)據(jù),>17 400個站位的瓶采數(shù)據(jù)(包含水文、營養(yǎng)鹽和示蹤劑),540個航次的船載聲學(xué)多普勒流速剖面儀(Acoustic Doppler Current Profile,ADCP)流速數(shù)據(jù)等。這些數(shù)據(jù)以電子圖集(Electronic Atlas of WOCE Data,eWOCE)的形式發(fā)布[2],eWOCE是WOCE計劃數(shù)據(jù)集發(fā)布的一部分,收錄在DVD2[3]中。
WOCE中國計劃,原國家海洋局依托“向陽紅5號”于1991年11—12月在西太平洋實施首次WOCE中國海上多學(xué)科綜合考察,歷時45 天,共完成10條斷面的現(xiàn)場作業(yè)。其中有 4條完整的 WOCE斷面(P27-P30,即 PR21-PR24),兩條為 WOCE斷面的一部分(P8和P9,即PR1和PR3)[4]。首航共完成CTD測站82個,拋棄式溫深儀(XBT)147個,收集各種水化學(xué)樣品6 100多個,進行了全剖面觀測,這些資料全部匯入國際WOCE資料集。
JGOFS(1989—2000年)是一個包含水文、生物、化學(xué)、光學(xué)等多學(xué)科的國際研究計劃,研究區(qū)域包含太平洋、大西洋、印度洋、南大洋等海盆,來自美國、德國、英國、法國等26個國家的科學(xué)家參與其中。中國是最早參入國際 JGOFS計劃活動的國家之一,在1989年2月JGOFS中國委員會在青島成立,制定了 JOGFS在中國實施的基本要點,即黃河和長江與具有寬廣陸架的中國邊緣海間的通量,為全球陸海間的通量研究提供重要的數(shù)據(jù)支撐。1991年國家自然科學(xué)基金委員會啟動重點項目“東海陸架邊緣海洋通量研究”(1991—1994年),開啟了全球陸架邊緣海洋通量研究的序幕[5]。中國于 1990—1999年在臺灣海峽、東海、西菲律賓海等海域共實施80多個航次的研究工作,均納入了國際JGOFS計劃[6]。
GO-SHIP由國際海洋碳協(xié)調(diào)項目(The International Ocean Carbon Coordination Project,IOCCP)與氣候和海洋項目(Climate and Ocean: Variability,Predictability and Change,CLIVAR),于2007年聯(lián)合成立[7]。旨在進行海岸到海岸、海岸到冰區(qū)的持續(xù)重復(fù)的水文學(xué)斷面調(diào)查計劃,于2012—2023年計劃55條核心斷面(包含WOCE計劃的重復(fù)斷面),截止2020年 1月已完成80%的斷面調(diào)查,仍有11%斷面還沒有列入調(diào)查計劃。GO-SHIP計劃匯集物理海洋學(xué)、碳循環(huán)、海洋生物地球化學(xué)、生態(tài)系統(tǒng)等觀測,是全球氣候觀測系統(tǒng)/全球海洋觀測系統(tǒng)(Global Ocean/Climate Observing System)的一部分。
GEOTRACES于2010年由國際海洋研究委員會啟動,是國際海洋學(xué)界的一項全球尺度的重大研究計劃。來自美國、英國、德國、法國等30多個國家的科學(xué)家參與其中,航跡遍布太平洋、大西洋、印度洋和極地海洋,中國是首批成員國之一。目前已實施130多個航次,其中僅2017年發(fā)布的數(shù)據(jù)產(chǎn)品包含了來自25個國家的326名科學(xué)家于2007—2014年實施的39個航次的數(shù)據(jù)集,總計1 810個站位,458種參數(shù),590張斷面圖、130多個3D動畫場景[8]。下一期數(shù)據(jù)產(chǎn)品預(yù)期于2021年發(fā)布。
其中有關(guān)痕量元素及其同位素的海洋生物地球化學(xué)及生態(tài)氣候效應(yīng)的研究,受潔凈采樣與分析技術(shù)的限制,被視為各國海洋科學(xué)研究實力的體現(xiàn)。第一個 GEOTRACES中國斷面調(diào)查航次—GP09斷面調(diào)查航次,于2019年4—6月由廈門大學(xué)牽頭依托廈門大學(xué)“嘉庚號”科考船執(zhí)行。
WOCE、JGOFS、GO-SHIP和GEOTRACES計劃都制定了數(shù)據(jù)標準,實施科學(xué)數(shù)據(jù)規(guī)范化。規(guī)范化的科研數(shù)據(jù)包含元數(shù)據(jù)和實體數(shù)據(jù),元數(shù)據(jù)是對樣品的采集、測試、質(zhì)控步驟及每個步驟的操作人、參照標準等的詳細描述。元數(shù)據(jù)如同實體數(shù)據(jù)的說明書,在數(shù)據(jù)使用過程中對任何一個步驟產(chǎn)生疑問、遇到問題都可以溯源,對數(shù)據(jù)的歷史版本、版本的更新內(nèi)容及解釋也可以溯源。實體數(shù)據(jù)是數(shù)據(jù)集實體,通常包含采樣日期及時間、站位名稱、緯度、經(jīng)度、水深、采樣深度、布放cast號(即所在站位科研儀器下水順序)、采樣瓶號和具體參數(shù)名稱,需要對數(shù)據(jù)集的每項內(nèi)容如參數(shù)名稱進行解釋,對參數(shù)單位等進行統(tǒng)一規(guī)定。
WOCE、JGOFS、GO-SHIP和GEOTRACES計劃對元數(shù)據(jù)都有規(guī)定的模板內(nèi)容,包含航次時間、調(diào)查船、首席科學(xué)家、調(diào)查海域、參數(shù)采集的流程、分析步驟、質(zhì)控措施、參照標準等。具體而言,WOCE的元數(shù)據(jù)文檔,包含航次時間、調(diào)查船、調(diào)查斷面/航次名稱、首席科學(xué)家、航次實施的國家、調(diào)查區(qū)域經(jīng)緯度范圍、調(diào)查參數(shù)采樣和分析信息、數(shù)據(jù)結(jié)果的不確定性等。GO-SHIP作為WOCE歷史斷面的重復(fù)調(diào)查,元數(shù)據(jù)文檔大部分與 WOCE是相同的,增加了數(shù)據(jù)/數(shù)據(jù)集發(fā)表情況。
JGOFS的元數(shù)據(jù)模板,又稱采樣和分析方法的說明文檔,是ASCII文本文件,包含采樣流程、分析步驟、設(shè)備校驗、數(shù)據(jù)處理技術(shù)等,采樣方法可以引用參考文獻。
GEOTRACES的元數(shù)據(jù)模板,是Excel文件,除了共同信息外,增加“質(zhì)控標簽”,不同機構(gòu)和項目通常采用不同的質(zhì)控標簽標準。同樣都是 GEOTRACES的數(shù)據(jù)產(chǎn)品(GEOTRACES Intermediate Data Product,IDP),不同 IDP版本,標準也是不同的。如 IDP2014和 IDP2017,采用的是國際海洋學(xué)數(shù)據(jù)與信息交流(International Oceanographic Data and Information Exchange,IODE)的質(zhì)控標簽; 而即將發(fā)布的 IDP2021,采用的 SeaDataNet(Pan-European Infrastructure for Ocean & Marine Data Management)的質(zhì)控標簽。質(zhì)控標簽是對數(shù)據(jù)進行質(zhì)控后的數(shù)據(jù)質(zhì)量評估,如IODE的質(zhì)控標簽有5個,分別為: 1代表數(shù)據(jù)質(zhì)量好(good quality),2代表數(shù)據(jù)質(zhì)量不確定(not evaluated,not available or unknown quality),3代表數(shù)據(jù)質(zhì)量存疑(questionable/suspect quality),4代表數(shù)據(jù)質(zhì)量不好(bad quality),9代表數(shù)據(jù)丟失(missing data)。隨著分析檢測方法和技術(shù)的提高,數(shù)據(jù)說明文件逐漸被規(guī)范化,對數(shù)據(jù)的說明越來越詳細,質(zhì)控標簽的個數(shù)也不斷增多,如 SeaDataNet增加了低于儀器檢測限(value below detection)、內(nèi)插值(interpolated value,即從項目的其他數(shù)據(jù)中衍生得出的值)等。
為了保持整個項目參數(shù)的一致性,需要對項目的實體數(shù)據(jù)參數(shù)名稱、單位等進行統(tǒng)一規(guī)定,即數(shù)據(jù)庫框架,也稱數(shù)據(jù)目錄。已有的數(shù)據(jù)管理經(jīng)驗表明,隨著研究的深入,開展的參數(shù)不斷增加,參數(shù)列表需要實時更新,每個項目的參數(shù)列表都記錄著更新的版本日期。
2.2.1 建立數(shù)據(jù)目錄
WOCE的參數(shù)分類包括海氣通量、水文、海洋表層溫度/鹽度、聲學(xué)多普勒流速剖面儀(ADCP)、海流計(Current Meters)、漂浮浮標(Drifters)、次表層浮標(Subsurface Floats)、剖面浮標(Profiling Floats)、海平面/海表高度數(shù)據(jù)(Sea Level Data)、海洋氣象等。
JGOFS的參數(shù)分類包括物理海洋、海洋化學(xué)、痕量元素、有機化合物、生物學(xué)-生物豐度/生物量、生物學(xué)-生產(chǎn)力/吸收/呼吸、同位素和光學(xué)等。
GO-SHIP的參數(shù)分類包含CTD和基于CTD采集的參數(shù)、碳數(shù)據(jù)、船載聲學(xué)多普勒流速剖面儀數(shù)據(jù)、投放式聲學(xué)多普勒流速剖面儀數(shù)據(jù)、海洋氣象數(shù)據(jù)和走航數(shù)據(jù)。
GEOTRACES的參數(shù)分類借助參數(shù)樹探索工具(Parameter Tree Exploration Tool)和參數(shù)搜索工具(Parameter Search Tool)拓展,兩者可以相互轉(zhuǎn)換。分為8大方向: 氣溶膠、生物、溶解態(tài)痕量金屬、水文和生物地球化學(xué)、木質(zhì)素、顆粒態(tài)痕量金屬、極地、沉降。在每個方向中再按照采樣系統(tǒng)/采樣方式分為若干類,如痕量潔凈CTD、常規(guī)CTD、原位大體積泵、拖魚、自動收集的雨水、分粒級的顆粒物、船舶的走航采樣等,共計11 000多種參數(shù)。GEOTRACES的參數(shù)樹按字母排序,如同詞匯表,便于查找的同時,也方便后續(xù)參數(shù)的添加,是很好的參數(shù)樹框架范例。
2.2.2 參數(shù)名稱和單位
四大計劃都對參數(shù)的名稱、縮寫進行定義; 在參數(shù)目錄下,可檢索每項參數(shù)的名稱、解釋和單位。對參數(shù)列表中沒有包含的參數(shù),也都提供了命名方式的參考依據(jù)。
2.2.3 文件格式及內(nèi)容
WOCE的實體數(shù)據(jù),綜合網(wǎng)頁公開發(fā)布的DVD和數(shù)據(jù)中心網(wǎng)站,數(shù)據(jù)格式包含 NetCDF、ASCII和Excel。
JGOFS的數(shù)據(jù)管理系統(tǒng),可讀取任何格式的數(shù)據(jù)。對提交的實體數(shù)據(jù)的內(nèi)容有以下3點要求: (1) 記錄航次的事件編號,(2) 從CTD中采集的樣品,記錄cast號和采樣瓶號,(3) 數(shù)據(jù)記錄不能為空白,須標明理由,如壞的數(shù)據(jù)標記為“nd”,低于檢測限標記為“zero”。
GO-SHIP的實體數(shù)據(jù),綜合不同的數(shù)據(jù)中心,數(shù)據(jù)格式包含NetCDF、Csv、Excel等。
GEOTRACES的實體數(shù)據(jù),在公開發(fā)布的 IDP數(shù)據(jù)頁面包含 4種格式: ODV、ASCII、Excel和NetCDF。
1980年末,時值WOCE計劃啟動伊始,國際海洋學(xué)界尚沒有一個數(shù)據(jù)系統(tǒng)能滿足WOCE計劃的數(shù)據(jù)管理。為此,該計劃建立了一系列的數(shù)據(jù)整合中心(Data Assembly Center,DAC)和特殊分析中心(Special Analysis Centers),這些中心分布在各實驗室和研究院校,每個數(shù)據(jù)中心只處理一個數(shù)據(jù)流,需要具備一定的專業(yè)知識來確保數(shù)據(jù)質(zhì)量[9]。
GO-SHIP計劃參照 WOCE計劃的數(shù)據(jù)管理方式,依托不同的數(shù)據(jù)中心存儲不同參數(shù)。修訂了1994年WOCE水文項目手冊,于2010年初發(fā)表。新手冊規(guī)定了每個參數(shù)從產(chǎn)生到質(zhì)控的細節(jié),還規(guī)定了使用認證的參考物質(zhì)/標準物質(zhì)(Certified Reference Materials,CRMs),航次及測定期間盡可能頻繁地使用,以確保不同航次相同斷面的數(shù)據(jù)具有可比性。
JOGFS計劃,各個國家相繼建立JGOFS項目數(shù)據(jù)管理辦公室,負責數(shù)據(jù)質(zhì)量的把關(guān)。
GEOTRACES計劃設(shè)有國際計劃的數(shù)據(jù)中心—GEOTRACES國際數(shù)據(jù)中心(GEOTRACES International Data Assembly Centre,GDAC),依托英國國家海洋數(shù)據(jù)中心(British Oceanographic Data Centre,BODC)。數(shù)據(jù)中心建立后,由專家組成數(shù)據(jù)管理委員會,制定了詳細的數(shù)據(jù)質(zhì)量控制流程。開展不同實驗室之間的國際互校; 對同一海域不同國家執(zhí)行航次的校驗,即在同一地理位置設(shè)置互校站位; 提供鐵等痕量元素的標準樣品等。
每個大計劃都產(chǎn)生了大量高質(zhì)量、高分辨率的多學(xué)科參數(shù),科學(xué)家們普遍的愿望是全面公開船測資料,為了平衡整個大計劃對數(shù)據(jù)的集成需求及科學(xué)家們的數(shù)據(jù)知識產(chǎn)權(quán)之間的矛盾,各大計劃相繼制定了數(shù)據(jù)共享與引用政策,規(guī)定了數(shù)據(jù)的公開時間、公開方式等。
3.2.1 數(shù)據(jù)保護期
WOCE計劃規(guī)定數(shù)據(jù)產(chǎn)生 2年后公開,科學(xué)家可以在這段時間分析和發(fā)表數(shù)據(jù),同時確保大計劃對全球數(shù)據(jù)的收集。
美國 JGOFS項目的大部分數(shù)據(jù)是在線公開,如過程研究項目中的北大西洋藻華實驗(North Atlantic Bloom Experiment,NABE)、阿拉伯海過程研究(Arabian Sea Process Study)、赤道太平洋過程研究(Equatorial Pacific Process Study),BATS和HOTS時間序列站數(shù)據(jù),CO2調(diào)查數(shù)據(jù),遙感數(shù)據(jù)等[10]。只有過程研究中的南極環(huán)境與南大洋過程研究(Antarctic Environment and Southern Ocean Process Study,AESOPS)項目對數(shù)據(jù)設(shè)置為期 2年的數(shù)據(jù)保護期。法國 JGOFS項目對數(shù)據(jù)設(shè)有 2—4年的保護期。日本JGOFS項目對數(shù)據(jù)設(shè)有3年的保護期。
GO-SHIP計劃要求各項參數(shù)依托數(shù)據(jù)中心公開,依據(jù)航次的類型和參數(shù)的分類,規(guī)定航次結(jié)束后6周公開初步數(shù)據(jù),6個月公開質(zhì)控數(shù)據(jù),2年內(nèi)公開所有數(shù)據(jù)。
國際GEOTRACES計劃要求所有參與國家在數(shù)據(jù)產(chǎn)生兩年后公開。其中美國GEOTRACES項目要求2年內(nèi)(自樣品收集時間計算)公開所有數(shù)據(jù)集、元數(shù)據(jù)文件、衍生的數(shù)據(jù)產(chǎn)品如模型結(jié)果等。加拿大GEOTRACES項目要求在項目結(jié)束 3年后,公開所有數(shù)據(jù)。
3.2.2 數(shù)據(jù)公開發(fā)布方式
四大計劃數(shù)據(jù)都公開發(fā)布數(shù)據(jù)產(chǎn)品,包含數(shù)據(jù)集和圖集,發(fā)布方式略有不同。
WOCE計劃數(shù)據(jù)的公開發(fā)布方式是DVD(WOCE Data DVD[11])和數(shù)據(jù)中心網(wǎng)站。GO-SHIP計劃數(shù)據(jù)的公開方式有兩部分: (1) 項目網(wǎng)站公開航次調(diào)查計劃及完成情況,(2) 數(shù)據(jù)中心網(wǎng)站公開數(shù)據(jù)。作為WOCE斷面的重復(fù)計劃,部分航次數(shù)據(jù)同時公開在 WOCE項目的數(shù)據(jù)網(wǎng)站。
JGOFS計劃的數(shù)據(jù)產(chǎn)品“國際JGOFS數(shù)據(jù)集,第 1卷: 離散數(shù)據(jù)集(1989—2000)”,于 2003年 5月召開的JGOFS開放科學(xué)會議,首次以DVD的形式公開發(fā)布[12]。為了實現(xiàn)長期存儲和在線訪問,2003年秋季由世界海洋環(huán)境科學(xué)數(shù)據(jù)中心(World Data Centre for Marine Environmental Sciences,WDC-MARE,Germany)負責整合國際 JGOFS數(shù)據(jù)集,出版了“國際 JGOFS數(shù)據(jù)集,第2卷: 集成數(shù)據(jù)集”及對應(yīng)的數(shù)據(jù)報告; 近40 000個數(shù)據(jù)記錄可以在PANGAEA數(shù)據(jù)庫里實現(xiàn)在線檢索[12]。JGOFS數(shù)據(jù)產(chǎn)品的發(fā)布經(jīng)歷了每個國家單獨發(fā)布其數(shù)據(jù)產(chǎn)品,而后集成發(fā)布,期刊公開發(fā)表和網(wǎng)站發(fā)布相結(jié)合。
GEOTRACES計劃在實施的第四年公開發(fā)布第一個數(shù)據(jù)產(chǎn)品,即 IDP2014[13],包含兩部分: (1) 實測數(shù)據(jù)集,(2) 電子圖集(eGEOTRACES),eGEOTRACES基于實測數(shù)據(jù)集,展示方式包含斷面圖和3維動畫場景。3年后又發(fā)布了第二個數(shù)據(jù)產(chǎn)品IDP2017[8,14],數(shù)據(jù)量增加了一倍,數(shù)據(jù)質(zhì)量和展示形式上也有所創(chuàng)新。目前正在準備第三個數(shù)據(jù)產(chǎn)品IDP2021。IDP的特點是以航次為連接,將來自不同國家科學(xué)家的數(shù)據(jù)進行集成,以期刊的形式公開發(fā)表,結(jié)合網(wǎng)站發(fā)布。
四個大計劃都制定了數(shù)據(jù)共享政策,以保護知識產(chǎn)權(quán)。對還沒有公開/發(fā)表的數(shù)據(jù),未經(jīng)提供數(shù)據(jù)的科學(xué)家同意不得傳遞和使用。已公開公布的數(shù)據(jù),采用科學(xué)引用的方式使用。如WOCE的數(shù)據(jù)引用公開的DVD和eWOCE。JGOFS計劃制定了引用政策,國際計劃匯編來自各個國家的單個數(shù)據(jù)集,引用格式: 責任科學(xué)家姓名+數(shù)據(jù)集名稱+CD-ROM 名稱,每個國家的格式略有不同[15]。GO-SHIP的數(shù)據(jù)使用,需致謝“全球海洋船基水文調(diào)查計劃(GO-SHIP)”,并引用氣候和海洋項目與碳水文數(shù)據(jù)辦公室發(fā)布的數(shù)據(jù)集等。GEOTRACES的數(shù)據(jù)和圖集引用公開發(fā)表的 IDP[8,13]和 eGEOTRACES。
WOCE計劃設(shè)立國際項目辦公室,最初位于英國伍姆利的海洋科學(xué)研究所執(zhí)事實驗室(Institute of Oceanographic Sciences Deacon Laboratory,Wormley,U.K),1995年夏季搬到英國南安普敦大學(xué)南安普敦海洋學(xué)中心。項目辦公室的主要任務(wù)是獲取、評估和傳播科學(xué)家們參與 WOCE領(lǐng)域的活動,數(shù)據(jù)分析和建模方案等。WOCE的數(shù)據(jù)集存儲在美國國家海洋數(shù)據(jù)中心(US National Oceanographic Data Centre,NODC)。
JGOFS計劃設(shè)立JGOFS國際項目辦公室,位于挪威卑爾根大學(xué)。沒有國際計劃的數(shù)據(jù)中心,數(shù)據(jù)管理依托各參與國家建立的項目數(shù)據(jù)管理辦公室。
JGOFS美國建立JGOFS美國數(shù)據(jù)管理辦公室,位于伍茲霍爾海洋學(xué)研究所(Woods Hole Oceanographic Institution,WHOI),負責JGOFS美國的數(shù)據(jù)收集、存儲與管理。JGOFS德國數(shù)據(jù)中心設(shè)在德國基爾海洋科學(xué)研究所(Institut für Mereeskunde,Kiel,Germany),有數(shù)據(jù)系統(tǒng)網(wǎng)站,可以檢索航次信息、參數(shù)及負責責任科學(xué)家、數(shù)據(jù)可用性。數(shù)據(jù)申請和使用時,需要郵件聯(lián)系責任科學(xué)家得到許可。JGOFS英國數(shù)據(jù)中心設(shè)在BODC,負責數(shù)據(jù)的存儲、共享與發(fā)布,其中得到授權(quán)的用戶可以在在線系統(tǒng)中提取數(shù)據(jù)。JGOFS法國數(shù)據(jù)中心設(shè)在法國自由城海洋觀測站(Villefranche Oceanographic Observatory,France),負責JGOFS法國數(shù)據(jù)的收集和存儲,并維護數(shù)據(jù)庫網(wǎng)站。JGOFS日本設(shè)有數(shù)據(jù)管理辦公室,數(shù)據(jù)存儲在日本海洋數(shù)據(jù)中心(Japan Oceanographic Data Center,JODC); 數(shù)據(jù)中心的網(wǎng)站由名古屋大學(xué)維護。JGOFS加拿大數(shù)據(jù)中心設(shè)有專門的數(shù)據(jù)管理網(wǎng)站,與加拿大的國家海洋數(shù)據(jù)中心—加拿大海洋環(huán)境數(shù)據(jù)服務(wù)(Marine Environment Data Service,MEDS)相連接,存儲 JGOFS加拿大項目的數(shù)據(jù)和相關(guān)事件文件集; 通過MEDS的離線數(shù)據(jù)申請系統(tǒng)申請數(shù)據(jù)。JGOFS印度數(shù)據(jù)存儲在印度的國家海洋數(shù)據(jù)中心(Indian National Oceanographic Data Centre,NODC),負責數(shù)據(jù)的收集和存儲[10]。
GO-SHIP計劃,依托不同的數(shù)據(jù)中心對數(shù)據(jù)進行收集、存儲與發(fā)布[8]: (1) 氣候和海洋項目與碳水文數(shù)據(jù)辦公室(CLIVAR and Carbon Hydrographic Data Office,CCHDO),負責CTD和瓶采參數(shù); (2) 海洋碳數(shù)據(jù)系統(tǒng)(Ocean Carbon Data System,OCADS,former CDIAC),負責碳數(shù)據(jù); (3) 夏威夷聯(lián)合存儲船載ADCP(Hawaii Joint Archive for Shipboard ADCP)和全球海洋表面航行數(shù)據(jù)項目(The Global Ocean Surface Underway Data Project,GOSUD),負責船載聲學(xué)多普勒流速剖面儀數(shù)據(jù); (4) 夏威夷大學(xué)海流組(Hawaii Joint Archive for Shipboard ADCP),負責投放式聲學(xué)多普勒流速剖面儀數(shù)據(jù); (5) 上層海洋氣象數(shù)據(jù)整合中心(Surface Marine Meteorological Data Assembly Center,COAPS,FSU),負責海洋氣象數(shù)據(jù); (6) 全球海表走航數(shù)據(jù)項目(The Global Ocean Surface Underway Data Project,GOSUD),負責走航數(shù)據(jù)。
GEOTRACES計劃設(shè)有國際計劃數(shù)據(jù)中心GDAC,由英國國家海洋數(shù)據(jù)中心管理,由海洋研究科學(xué)委員會、美國國家科學(xué)基金會和英國自然環(huán)境研究中心共同資助。
GEOTRACES美國項目數(shù)據(jù)中心設(shè)在生物化學(xué)海洋學(xué)數(shù)據(jù)管理辦公室(Biological and Chemical Oceanography Data Management Office,BCO-DMO),負責數(shù)據(jù)的收集、存儲與發(fā)布。GEOTRACES加拿大項目數(shù)據(jù)中心設(shè)在加拿大的國家極地數(shù)據(jù)中心—極地數(shù)據(jù)目錄(Polar Data Catalogue),由加拿大國際極地年(The Canadian International Polar Year,IPY)計劃提名,加拿大卓越中心網(wǎng)(ArcticNet)和加拿大冰凍圈信息網(wǎng)(CCIN)聯(lián)合開發(fā),項目辦公室設(shè)在滑鐵盧大學(xué)和魁北克市拉瓦爾大學(xué)。GEOTRACES德國項目數(shù)據(jù)中心設(shè)在德國的國家極地數(shù)據(jù)中心—PANGAEA,負責數(shù)據(jù)的收集、存儲與發(fā)布。GEOTRACES瑞典項目數(shù)據(jù)中心設(shè)在瑞典氣象水文研究所(SMHI),負責數(shù)據(jù)的收集、存儲與發(fā)布。GEOTRACES日本項目數(shù)據(jù)中心設(shè)在日本海洋數(shù)據(jù)中心 JODC,負責收集和管理所有海洋學(xué)數(shù)據(jù),并負責數(shù)據(jù)的質(zhì)量控制。GEOTRACES法國項目數(shù)據(jù)中心設(shè)在法國自由城海洋觀測站,負責數(shù)據(jù)的收集、存儲與發(fā)布。GEOTRACES荷蘭項目數(shù)據(jù)中心設(shè)在荷蘭皇家海洋研究所(Royal Netherlands Institute for Sea Research,NIOZ),負責數(shù)據(jù)的收集、存儲與發(fā)布。GEOTRACES中國項目數(shù)據(jù)中心設(shè)在廈門大學(xué),負責數(shù)據(jù)的收集、存儲與發(fā)布。
綜合WOCE、JGOFS、GO-SHIP和GEOTRACES四個國際海洋觀測計劃,項目的執(zhí)行期都超過10年,研究區(qū)域遍布全球大洋,多個國家的科學(xué)家共同參與,均依托國家數(shù)據(jù)中心/大型數(shù)據(jù)中心,依次為美國國家海洋數(shù)據(jù)中心(NODC)、地球與環(huán)境科學(xué)數(shù)據(jù)發(fā)布(PANGAEA)、氣候和海洋項目與碳水文數(shù)據(jù)辦公室(CCHDO)、GEOTRACES國際數(shù)據(jù)中心(GDAC)等。在數(shù)據(jù)管理方面都制定了數(shù)據(jù)規(guī)范化存儲、數(shù)據(jù)質(zhì)量控制措施、數(shù)據(jù)保護期,在數(shù)據(jù)的公開發(fā)布方式、共享與引用、數(shù)據(jù)的下載使用等方面略有不同。
四大計劃的不同之處,對比如下:
實體數(shù)據(jù)內(nèi)容: 四個計劃只有 JGOFS計劃要求提供cast號和采水瓶號,同一站位不同cast號,可能一個采自白天,一個采自夜晚; 這兩個參數(shù)決定了各參數(shù)是否是采自同一水團,對過程研究非常重要。
數(shù)據(jù)質(zhì)量保證: WOCE和JGOFS計劃的數(shù)據(jù)質(zhì)量保證依靠各數(shù)據(jù)中心和項目數(shù)據(jù)管理辦公室,沒有統(tǒng)一的質(zhì)控措施和標準。GO-SHIP計劃在WOCE計劃的基礎(chǔ)上,修改制定了新的操作手冊,統(tǒng)一了從采樣到質(zhì)控的流程,規(guī)定了樣品測定過程中使用標準物質(zhì)進行質(zhì)量控制。GEOTRACES計劃建立國際數(shù)據(jù)中心,成立數(shù)據(jù)管理委員會,規(guī)定對于不同國家/研究團隊實施的不同航次需設(shè)定互校站位,各實驗室參與國際比對等措施,對各參與國家的數(shù)據(jù)質(zhì)量進行統(tǒng)一把關(guān)。
數(shù)據(jù)產(chǎn)品發(fā)布: GEOTRACES計劃在執(zhí)行期間,每隔3—4年更新發(fā)布一次數(shù)據(jù)產(chǎn)品,采用數(shù)據(jù)圖集和實體數(shù)據(jù)相結(jié)合,期刊發(fā)布和網(wǎng)站發(fā)布相結(jié)合的方式,能夠更快地促進學(xué)科間的交流及數(shù)據(jù)的共享。而WOCE和JGOFS計劃都是項目結(jié)束后再組織發(fā)布數(shù)據(jù)產(chǎn)品。GO-SHIP計劃仍在執(zhí)行期,還沒有發(fā)布整合的數(shù)據(jù)產(chǎn)品,依托數(shù)據(jù)中心發(fā)布數(shù)據(jù)集。
數(shù)據(jù)申請與共享: WOCE、GO-SHIP和 JGOFS計劃,打開數(shù)據(jù)中心網(wǎng)址選擇需要的斷面/航次/參數(shù),可以直接下載實體數(shù)據(jù)[16,17,12]; GEOTRACES計劃,打開數(shù)據(jù)中心網(wǎng)址先注冊賬號選擇數(shù)據(jù)使用用途,可以下載不同格式的實體數(shù)據(jù)和圖集[14]。
國際計劃的數(shù)據(jù)管理經(jīng)歷了WOCE時代從剛開始沒有數(shù)據(jù)中心可用,到建立各種組合和處理數(shù)據(jù)中心管理數(shù)據(jù); JGOFS計劃依托各國家建立的項目數(shù)據(jù)管理辦公室管理數(shù)據(jù); GO-SHIP依托不同的數(shù)據(jù)中心管理不同類型的數(shù)據(jù); 到 GEOTRACES計劃建立國際計劃數(shù)據(jù)中心并依托各國家的國家數(shù)據(jù)中心。數(shù)據(jù)管理方面從數(shù)據(jù)規(guī)范化內(nèi)容、數(shù)據(jù)質(zhì)量控制方案、數(shù)據(jù)發(fā)布與引用方式、共享政策等都在不斷發(fā)展完善。
其中數(shù)據(jù)的發(fā)布和引用方式,從WOCE和JGOFS計劃的 CD-ROM,GO-SHIP計劃的航次數(shù)據(jù)集,到GEOTRACES計劃的IDP,目的都是讓數(shù)據(jù)能獨立于文章單獨發(fā)表/發(fā)布。數(shù)字對象標識符(digital object identifiers,doi)的應(yīng)用,解決了數(shù)據(jù)要與文章捆綁發(fā)表的困局,確保數(shù)據(jù)知識產(chǎn)權(quán)的同時能夠最大程度地使用數(shù)據(jù),是全球大數(shù)據(jù)時代海洋科學(xué)發(fā)展的重大機遇。建立規(guī)范的數(shù)據(jù)倉儲中心,必定能推進數(shù)據(jù)共享與使用。
國際計劃數(shù)據(jù)共享與管理的成功經(jīng)驗,得益于他們所依托的科學(xué)數(shù)據(jù)中心。我們選取了其中四家海洋學(xué)數(shù)據(jù)中心,分析其功能與特點,匯總在表1。
表1 四個科學(xué)數(shù)據(jù)中心的功能與特點匯總Tab.1 Summary of functions and characteristics from four scientific data centers
BODC成立于 1988年,起初負責北海項目的數(shù)據(jù)管理,如今已發(fā)展成為具有成熟的樣本框架數(shù)據(jù)庫,負責管理大型多學(xué)科研究項目的數(shù)據(jù),如 JGOFS英國、GEOTRACES英國和國際計劃的數(shù)據(jù)管理。除了項目數(shù)據(jù)庫管理,BODC的數(shù)據(jù)庫設(shè)計還兼具其他三大功能: 關(guān)系數(shù)據(jù)庫管理系統(tǒng)、國家海洋學(xué)數(shù)據(jù)庫和網(wǎng)絡(luò)數(shù)據(jù)庫[18]。
BODC還是一個巨大的數(shù)據(jù)存儲中心,接收全球海洋環(huán)境領(lǐng)域數(shù)據(jù)的存儲。存儲在BODC的數(shù)據(jù),會配備doi。doi是用于永久和穩(wěn)定地標識(通常是數(shù)字)對象的代碼,提供了一種用于檢索有關(guān)對象的元數(shù)據(jù)的標準機制,且通常提供一種訪問數(shù)據(jù)對象本身的方法。
對數(shù)據(jù)知識產(chǎn)權(quán)的保護,除發(fā)表文章之外,將其存儲在數(shù)據(jù)倉儲/數(shù)據(jù)中心以獲取 doi,儼然已經(jīng)成為保護其知識產(chǎn)權(quán)的最好辦法。
BCO-DMO 于2006年由前 JGOFS美國項目辦公室和前全球海洋生態(tài)系統(tǒng)動力學(xué)(GLOBal Ocean ECosystems Dynamics,GLOBEC)美國項目辦公室合并成立。位于 WHOI,目前也負責 GEOTRACES美國的數(shù)據(jù)管理,由美國國家科學(xué)基金會資助[19]。
BCO-DMO目前只接收美國國家科學(xué)基金會海洋科學(xué)部的生物和化學(xué)海洋學(xué)部門以及極地項目部的南極生物和生態(tài)系統(tǒng)項目,提供數(shù)據(jù)存儲和數(shù)據(jù)管理服務(wù)。其他來源的數(shù)據(jù)存儲需要付費。
PANGAEA成立于1995年,是地球與環(huán)境科學(xué)數(shù)據(jù)發(fā)布信息系統(tǒng),支持全球的科學(xué)家使用、存儲和發(fā)布數(shù)據(jù)。可以使用doi來標識、共享、發(fā)布和引用每個數(shù)據(jù)集[20]。由阿爾弗雷德·韋格納研究所,亥姆霍茲極地和海洋研究中心(the Alfred Wegener Institute,Helmholtz Center for Polar and Marine Research,AWI)和不來梅大學(xué)海洋環(huán)境科學(xué)中心(the Center for Marine Environmental Sciences,University of Bremen,MARUM)主辦。
JODC成立于 1965年,是日本的海洋綜合數(shù)據(jù)庫,收集和管理日本政府機構(gòu)、大學(xué)和其他海洋研究機構(gòu)觀測到的海洋數(shù)據(jù)[21]。負責管理日本的國際項目數(shù)據(jù),如JGOFS,GEOTRACES,PICES(North Pacific Marine Science Organization)等。
自1995年,海洋數(shù)據(jù)服務(wù)系統(tǒng)實現(xiàn)互聯(lián)網(wǎng)在線使用功能,用戶可以使用多個關(guān)鍵字在線檢索數(shù)據(jù),并下載。不支持其他來源的數(shù)據(jù)存儲。
基于以上對比分析,在開展綜合性項目數(shù)據(jù)管理工作時,為了讓數(shù)據(jù)具備長久的使用性和可傳承性,平衡項目對數(shù)據(jù)的集成需求和科學(xué)家對數(shù)據(jù)的共享需求。建議項目啟動時,建立項目/數(shù)據(jù)管理辦公室,制定科研數(shù)據(jù)標準化規(guī)范。針對項目研究內(nèi)容和目標,制定出一套完整的項目的實體參數(shù)目錄,統(tǒng)一數(shù)據(jù)名稱、單位、分類及內(nèi)容,制定元數(shù)據(jù)模板,根據(jù)數(shù)據(jù)系統(tǒng)功能設(shè)定可接收的數(shù)據(jù)格式。數(shù)據(jù)管理辦公室要具備存儲、共享與發(fā)布數(shù)據(jù)的功能。在項目成員內(nèi)部就數(shù)據(jù)質(zhì)量的保證措施、數(shù)據(jù)共享和使用等管理規(guī)定達成共識。
針對項目的關(guān)鍵科學(xué)問題、主要研究目標和預(yù)期目標等,結(jié)合責任科學(xué)家的研究方向和項目的課題設(shè)置,制定出實施參數(shù)與責任科學(xué)家一一對應(yīng)的項目計劃實施參數(shù)匯總表,依照航次執(zhí)行情況實時更新。
所謂數(shù)據(jù)標準化,即制定數(shù)據(jù)規(guī)范化標準,包含元數(shù)據(jù)和實體數(shù)據(jù),規(guī)定其具體內(nèi)容,同時預(yù)留新增學(xué)科數(shù)據(jù)的空間。
7.2.1 元數(shù)據(jù)
需要建立元數(shù)據(jù)模板,包含所有與科學(xué)數(shù)據(jù)產(chǎn)生相關(guān)的基本信息,做到每個步驟細節(jié)可溯源,如航次基本信息,參數(shù)的采樣、測樣、分析流程及質(zhì)控措施等相關(guān)流程和操作人等。
7.2.2 實體數(shù)據(jù)
(1) 參數(shù)名稱和單位,同一個參數(shù)在不同的研究機構(gòu)和不同的科學(xué)家的筆下,常常有不同的名稱。參數(shù)名稱需要標準化,第一步是匯總同一參數(shù)盡可能多的名稱,第二步要求參數(shù)名稱歸一化?;蛘咧贫ǔ鲞m合項目參數(shù)的命名規(guī)則,并統(tǒng)一參數(shù)的單位。
(2) 文件模板和格式,根據(jù)數(shù)據(jù)庫設(shè)計的功能,規(guī)定實體數(shù)據(jù)的內(nèi)容和提交格式。
(3) 數(shù)據(jù)質(zhì)量的保證方案和質(zhì)控標簽
數(shù)據(jù)質(zhì)量的保證方案,盡可能詳細具體。比如規(guī)定各參數(shù)從采樣、分析測定到質(zhì)量控制每個步驟的操作規(guī)范,使用統(tǒng)一的標準物質(zhì),設(shè)置共同的互校站位(每個海域設(shè)置一個站位或者一條斷面),在國內(nèi)開展各實驗室之間的比對,參與國際互校等工作方案。
質(zhì)控標簽,可以創(chuàng)立項目/數(shù)據(jù)中心的質(zhì)控標簽,也可以直接采用國際上已有的質(zhì)控標簽。
(4) 參數(shù)分類,根據(jù)計劃參數(shù)的特點,建立項目/數(shù)據(jù)中心的參數(shù)分類體系,創(chuàng)建“參數(shù)字典表”,便于在數(shù)據(jù)庫中檢索查找; 預(yù)留新增數(shù)據(jù)的空間。
數(shù)據(jù)提交時間要視項目研究特點,依據(jù)數(shù)據(jù)生產(chǎn)周期,可以設(shè)置不同的時間節(jié)點提交數(shù)據(jù)。比如在船上能夠完成測定的參數(shù),可以設(shè)置1—6個月提交原始數(shù)據(jù)、質(zhì)控數(shù)據(jù)和相關(guān)報告。測定周期比較長的數(shù)據(jù)如同位素等可以設(shè)置1—2年提交。國際慣例一般要求在航次結(jié)束后兩年/數(shù)據(jù)產(chǎn)生后兩年完成提交并公開,公開時間同樣需要視項目研究特點,在項目成員內(nèi)部達成共識。
數(shù)據(jù)共享管理政策,盡可能詳細具體。比如: 數(shù)據(jù)未公開前,(1) 在期刊論文中使用未發(fā)表數(shù)據(jù),投稿前需要聯(lián)系數(shù)據(jù)提供人征得同意,并商討數(shù)據(jù)的具體使用方式。(2) 不得將申請到的數(shù)據(jù)提供給第三方等。
綜合性項目的特點強調(diào)多學(xué)科交叉,如何既能滿足學(xué)科交叉對數(shù)據(jù)共享交流的需求,又能保證科學(xué)家的知識產(chǎn)權(quán),除了項目成員共同遵守學(xué)術(shù)道德規(guī)范,還需出臺法律/政策規(guī)范進行保障和限制[22]。
數(shù)據(jù)要集成,各學(xué)科要進行充分的共享交流,促進項目的成果產(chǎn)出,必須建立/依托數(shù)據(jù)共享平臺,同時配備共享平臺的開發(fā)小組和共享管理的業(yè)務(wù)小組,共同合作運營。同時為數(shù)據(jù)按時提交如期公開提供技術(shù)支撐與保障。數(shù)據(jù)共享平臺,可以是分布式國家級數(shù)據(jù)中心群[23],可以是與國際接軌的數(shù)據(jù)倉儲中心群,數(shù)據(jù)集提交到數(shù)據(jù)倉儲/數(shù)據(jù)中心獲得 doi,使用該數(shù)據(jù)集,必須引用doi。
本文介紹了 WOCE、JGOFS、GO-SHIP和GETRACES四個國際海洋觀測計劃對數(shù)據(jù)管理的一整套流程。數(shù)據(jù)在管理方式上都制定了數(shù)據(jù)規(guī)范化、數(shù)據(jù)質(zhì)量控制措施、數(shù)據(jù)保護期、數(shù)據(jù)公開發(fā)布、共享與引用政策。
全球海洋觀測計劃的數(shù)據(jù)管理經(jīng)歷了近30年的發(fā)展,WOCE計劃由剛開始沒有數(shù)據(jù)中心可用,到建立各種組合和處理數(shù)據(jù)中心管理數(shù)據(jù); JGOFS計劃依托各國家建立的項目數(shù)據(jù)管理辦公室管理數(shù)據(jù);GO-SHIP依托不同數(shù)據(jù)中心存儲和管理不同類型的數(shù)據(jù); GEOTRACES計劃建立國際計劃數(shù)據(jù)中心并依托各國家的國家數(shù)據(jù)中心,數(shù)據(jù)管理從數(shù)據(jù)規(guī)范化內(nèi)容、數(shù)據(jù)發(fā)布與引用方式、共享政策都在不斷發(fā)展完善。在此基礎(chǔ)上對比了美國 BCO-DMO、英國BODC、德國PANGAEA和日本JODC四個國家的國家海洋數(shù)據(jù)中心的功能與特點,探討了建立數(shù)據(jù)中心和數(shù)據(jù)倉儲對推行數(shù)據(jù)規(guī)范化存儲與管理和推進數(shù)據(jù)共享的重要性。
借鑒國際海洋觀測計劃數(shù)據(jù)管理形式和各國的數(shù)據(jù)共享經(jīng)驗,探討建立一套適合我國的數(shù)據(jù)管理方案。項目啟動時,依托數(shù)據(jù)中心,建立項目/數(shù)據(jù)管理辦公室,制定科研數(shù)據(jù)標準化規(guī)范。針對項目研究內(nèi)容和目標,制定出一套完整的項目的實體參數(shù)目錄,統(tǒng)一數(shù)據(jù)名稱、單位、分類及內(nèi)容,制定元數(shù)據(jù)模板,根據(jù)數(shù)據(jù)系統(tǒng)功能設(shè)定可接收的數(shù)據(jù)格式。數(shù)據(jù)管理辦公室要具備存儲、共享與發(fā)布數(shù)據(jù)的功能。在項目成員內(nèi)部就數(shù)據(jù)質(zhì)量的保證措施、數(shù)據(jù)共享和引用等管理規(guī)定達成共識。本研究可以為我國的海洋觀測計劃制定數(shù)據(jù)管理方案提供參考和借鑒。
致謝:感謝廈門大學(xué)戴民漢教授的指導(dǎo)與建議,感謝廈門大學(xué)蔡毅華教授、楊進宇助理教授、李驍麟教授、郭香會副教授、林宏陽副教授和集美大學(xué)何碧煙教授在論文修改過程中提出的建議,感謝兩位評審專家對論文提出的評審建議。