邢文明,肖嘉麗,陳繼麗
隨著計算機(jī)、互聯(lián)網(wǎng)、傳感技術(shù)和科研信息化的飛速發(fā)展與廣泛應(yīng)用,人類正以前所未有的速度產(chǎn)生和積累了海量科學(xué)數(shù)據(jù)。這些數(shù)據(jù)給人類既帶來了機(jī)遇,也帶來了挑戰(zhàn)。一方面,科技創(chuàng)新越來越依賴于對大量、系統(tǒng)、高可信度的科學(xué)數(shù)據(jù)的分析挖掘和綜合利用,科學(xué)數(shù)據(jù)已成為科學(xué)研究和知識發(fā)現(xiàn)的基礎(chǔ)。因而,越來越多的國家將其視為重要的基礎(chǔ)性科技資源,通過制定相關(guān)政策、為科學(xué)數(shù)據(jù)的存儲與監(jiān)護(hù)提供基礎(chǔ)設(shè)施及服務(wù)、為科研人員提供指導(dǎo)幫助等多種措施推動科學(xué)數(shù)據(jù)的管理和開放共享,以實現(xiàn)科學(xué)數(shù)據(jù)的廣泛再利用,發(fā)揮其推動科技創(chuàng)新、降低科研成本、規(guī)范科研過程以及促進(jìn)科研誠信等多方面的價值[1]。另一方面,并非僅僅將科學(xué)數(shù)據(jù)公開或提交到數(shù)據(jù)存儲庫就能實現(xiàn)共享和利用,只有確保數(shù)據(jù)易于發(fā)現(xiàn)、獲取、理解、操作,才能保障數(shù)據(jù)的有效共享,充分發(fā)揮數(shù)據(jù)的潛在價值。特別是隨著大數(shù)據(jù)和數(shù)據(jù)密集型科研范式的迅速發(fā)展,如何對數(shù)量巨大、分布廣泛、來源多樣、標(biāo)準(zhǔn)不一的數(shù)據(jù)進(jìn)行管理、整合和重新利用已成為科學(xué)界面臨的一大難題。為了推動科學(xué)數(shù)據(jù)的大規(guī)模集成和高效重用,在2014年荷蘭萊頓舉辦的一次討論會上,包括科研界、工業(yè)界、資助機(jī)構(gòu)和學(xué)術(shù)出版社在內(nèi)的相關(guān)領(lǐng)域人士匯聚在一起,共同討論形成了一套簡潔且可衡量的數(shù)據(jù)管理原則——FAIR(Findable,Accessible,Interoperable and Reusable)原則,旨在通過廣泛協(xié)商形成一套共同認(rèn)可的科學(xué)數(shù)據(jù)管理和開放的原則規(guī)范,以促進(jìn)數(shù)據(jù)的有效共享利用,推動科學(xué)數(shù)據(jù)開放共享愿景的實現(xiàn)。
我國高度重視科學(xué)數(shù)據(jù)的共享利用,建立了科學(xué)數(shù)據(jù)共享工程,在農(nóng)業(yè)、林業(yè)、水文水資源等多個領(lǐng)域啟動了科學(xué)數(shù)據(jù)共享試點(diǎn)項目,隨后在基礎(chǔ)科學(xué)、農(nóng)業(yè)、林業(yè)、海洋、氣象、地震、地球系統(tǒng)科學(xué)、人口與健康等領(lǐng)域建立了國家科技資源共享服務(wù)平臺,初步形成了一批資源科學(xué)數(shù)據(jù)中心,發(fā)布了《國家科技計劃項目科學(xué)數(shù)據(jù)匯交暫行辦法(草案)》《科學(xué)數(shù)據(jù)共享工程技術(shù)標(biāo)準(zhǔn)(征求意見稿)》《國家重點(diǎn)基礎(chǔ)研究發(fā)展計劃資源環(huán)境領(lǐng)域項目數(shù)據(jù)匯交暫行辦法》《科學(xué)數(shù)據(jù)管理辦法》(以下簡稱《辦法》)和《國家科技資源共享服務(wù)平臺管理辦法》等系列政策規(guī)范,有力地推動了我國科學(xué)數(shù)據(jù)的管理和開放共享。作為我國首個國家層面的科學(xué)數(shù)據(jù)管理辦法,《辦法》明確了我國科學(xué)數(shù)據(jù)管理的總體原則、主要職責(zé)、數(shù)據(jù)采集匯交與保存、共享利用、保密與安全等方面內(nèi)容,對進(jìn)一步加強(qiáng)和規(guī)范我國的科學(xué)數(shù)據(jù)管理,推動科學(xué)數(shù)據(jù)的開放共享,更好地為國家科技創(chuàng)新、經(jīng)濟(jì)社會發(fā)展和國家安全提供支撐具有重要意義。然而,雖然《辦法》初步明確了我國科學(xué)數(shù)據(jù)開放共享的管理機(jī)制和工作內(nèi)容,但對于如何確??茖W(xué)數(shù)據(jù)開放共享的標(biāo)準(zhǔn)化、規(guī)范化還不夠具體明確,有待在實施細(xì)則或政策修訂時進(jìn)一步優(yōu)化完善[2]。作為我國第一部專門規(guī)范科學(xué)數(shù)據(jù)管理共享的政策,《辦法》對FAIR原則的支持度如何?是否可以將相關(guān)原則理念納入政策中以推動該原則在我國的實施?本文擬建立觀察框架,考察《辦法》對于FAIR原則內(nèi)涵的支持程度,在此基礎(chǔ)上提出相關(guān)改進(jìn)建議,以更好地推動我國科學(xué)數(shù)據(jù)的開放共享。
FAIR原則得到眾多機(jī)構(gòu)和主體的引用、認(rèn)可與采納。Science Europe將FAIR原則作為管理和共享科研數(shù)據(jù)的基礎(chǔ)?!抖畤瘓F(tuán)創(chuàng)新行動計劃》提倡加強(qiáng)科學(xué)研究活動的合作并鼓勵基于FAIR原則推動開放科學(xué)和開放獲取[3]。美國國立衛(wèi)生研究院(National Institutes of Health,NIH)發(fā)布《數(shù)據(jù)科學(xué)戰(zhàn)略計劃》(NIH Strategic Plan for Data Science),目標(biāo)是確保由NIH資助的全部數(shù)據(jù)科學(xué)活動和相應(yīng)產(chǎn)品符合FAIR原則,并將制定和實施相關(guān)政策作為推進(jìn)該目標(biāo)的重要措施之一[4]。歐盟委員會將FAIR原則納入開放科學(xué)建設(shè)體系,英國、瑞士、荷蘭等多個歐洲國家對FAIR原則積極響應(yīng)[5]。國外學(xué)者積極探討FAIR原則的內(nèi)涵及實施,包括:FAIR原則的介紹[6]及其實施[7]研究;支撐數(shù)據(jù)管理FAIR化的技術(shù)平臺基礎(chǔ)(如建立本地網(wǎng)絡(luò)基礎(chǔ)設(shè)施[8]、引入Fedora開源存儲庫平臺[9]);FAIR原則在各個科學(xué)領(lǐng)域的應(yīng)用研究(如提高生物制藥行業(yè)研發(fā)效率[10]、改善B2B數(shù)據(jù)治理技術(shù)[11])。國內(nèi)學(xué)者重點(diǎn)關(guān)注FAIR原則的應(yīng)用研究,包括:國外推進(jìn)FAIR原則實踐的經(jīng)驗總結(jié)[5,12];FAIR原則產(chǎn)生背景及內(nèi)容介紹[13-14];FAIR原則在不同領(lǐng)域的應(yīng)用研究[15-18]等。整體而言,國內(nèi)學(xué)者對FAIR原則的關(guān)注度持續(xù)上升。
學(xué)者圍繞《辦法》進(jìn)行了多角度研究。一是《辦法》的解讀與優(yōu)化建議,如從科學(xué)數(shù)據(jù)生命周期[19]、利益相關(guān)者[20]、政策文本量化[21]、政策議程[22]等視角對《辦法》中科學(xué)數(shù)據(jù)共享與利用[23]、管理體制及安全措施[24]等方面進(jìn)行解讀,揭示《辦法》蘊(yùn)含的豐富思想和智慧結(jié)晶,提出增加科學(xué)數(shù)據(jù)治理措施[25]、完善科學(xué)數(shù)據(jù)質(zhì)量要求[26]、明確屬于“商業(yè)秘密”的科學(xué)數(shù)據(jù)類型[27]等修訂建議。二是《辦法》實施現(xiàn)狀與策略研究,各級政府主管部門是推進(jìn)《辦法》落實的主力軍,其他科學(xué)數(shù)據(jù)利益相關(guān)機(jī)構(gòu)落實程度差距較大,總體上不太理想[28]。利用區(qū)塊鏈核心技術(shù)可解決《辦法》落實中數(shù)據(jù)版權(quán)與外流、用戶隱私及應(yīng)急備份、成效考核評價等多方面的現(xiàn)實困境[29]。三是從《辦法》確立的原則規(guī)范出發(fā),探討其對科學(xué)數(shù)據(jù)管理與共享的指導(dǎo)意義,如從數(shù)據(jù)生命周期視角構(gòu)建高??茖W(xué)數(shù)據(jù)管理流程[30],高校應(yīng)建立科學(xué)數(shù)據(jù)管理制度[31]。
本文借鑒FAIRsFAIR(https://www.fairsfair.eu/,一個旨在促進(jìn)歐洲FAIR數(shù)據(jù)實踐的組織)于2019年11月發(fā)布的“FAIR政策現(xiàn)狀掃描”[32](Fair Policy Landscape Analysis)報告中采用的政策分析方法。該方法基于歐盟委員會FAIR數(shù)據(jù)專家組(European Commission Expert Groupon FAIRData)發(fā)布的《將FAIR變成現(xiàn)實》(Turning FAIRinto Reality,TFiR)報告中提出的相關(guān)政策建議,提煉出支持和促進(jìn)FAIR原則的數(shù)據(jù)政策應(yīng)具備的特征和要求(部分示例見表1),進(jìn)一步根據(jù)這些要求提煉出FAIR政策的相關(guān)要素(見表2)。由表2可知,基于TFiR報告,共提煉出13個FAIR政策要素,其中外部特征要素3個,內(nèi)容要素10個。這些要素有助于將FAIR原則的要求融入政策,借助政策的強(qiáng)制約束力推動FAIR原則在實踐中落實。
表1 TFiR相關(guān)建議與行動計劃對科研數(shù)據(jù)政策的要求(部分示例)
表2 FAIR政策要素及內(nèi)涵
根據(jù)上述政策要素,本文對我國《辦法》進(jìn)行梳理分析,考察其對FAIR原則的支持程度,將每個要素的支持度劃分為“完全支持”“部分支持”和“不支持”3個級別,詳見表3。由表3可知《辦法》對于FAIR原則的相關(guān)要求,完全支持的要素有2個,即允許不共享數(shù)據(jù)和要求數(shù)據(jù)引用。部分支持的要素有5個,包括:提供政策制定/更新日期、為政策賦予永久標(biāo)識符、政策是機(jī)器可讀的、對數(shù)據(jù)進(jìn)行明確定義、要求數(shù)據(jù)共享。不支持的要素有6個,分別是:明確提及FAIR原則;支持與科研數(shù)據(jù)管理(RDM)相關(guān)的、使數(shù)據(jù)FAIR化的合理成本;要求制定數(shù)據(jù)管理計劃;如果允許不共享數(shù)據(jù),應(yīng)要求說明理由;要求元數(shù)據(jù)共享;提供指導(dǎo)、培訓(xùn)或支持以促進(jìn)政策的實施等。
表3 《辦法》對FAIR原則的支持度
(1)允許不共享數(shù)據(jù)。并非所有的數(shù)據(jù)都適宜無條件公開,對于那些涉及國家安全、個人信息、商業(yè)秘密,以及其他不適宜共享的數(shù)據(jù),應(yīng)允許其不予共享。國外不少政策都明確指出:(研究人員)如有正當(dāng)理由,可以不分享科研項目產(chǎn)生的數(shù)據(jù),但應(yīng)說明其理由。如歐盟委員會為“地平線2020”計劃制定的“數(shù)據(jù)管理手冊”指出:如果某些數(shù)據(jù)集無法共享(或需受限共享),請解釋原因[33]。我國《辦法》也遵循這一理念,第25條指出:涉及國家秘密、國家安全、社會公共利益、商業(yè)秘密和個人隱私的科學(xué)數(shù)據(jù),不得對外開放共享??梢?,《辦法》充分認(rèn)識到了科學(xué)數(shù)據(jù)共享的復(fù)雜性,在明確要求數(shù)據(jù)共享的同時也支持和允許不共享的情況。
(2)要求數(shù)據(jù)引用。對使用的數(shù)據(jù)進(jìn)行合理引用是對數(shù)據(jù)提供者的最高獎賞[34]?!掇k法》第23條指出:科學(xué)數(shù)據(jù)使用者“在論文發(fā)表、專利申請、專著出版等工作中注明所使用和參考引用的科學(xué)數(shù)據(jù)”。同時,我國國家標(biāo)準(zhǔn)化管理委員會于2017年底公布《信息技術(shù) 科學(xué)數(shù)據(jù)引用》(GB/T 35294-2017)國家標(biāo)準(zhǔn),這對于推動我國科學(xué)數(shù)據(jù)共享實踐以及FAIR原則的實施都具有重要的意義。
(1)提供政策制定/更新日期。TFiR報告指出:默認(rèn)情況下,整個FAIR生態(tài)系統(tǒng)及其每個組件都應(yīng)該是人和機(jī)器可讀、可理解和可操作的;同時,政策應(yīng)在政策注冊中心進(jìn)行版本化、索引和語義注釋,以便在FAIR數(shù)據(jù)生態(tài)系統(tǒng)中廣泛重用。為支持上述目標(biāo),政策應(yīng)明確提供其制定(或生效)的日期,計劃何時進(jìn)行評審/更新等。盡管國務(wù)院辦公廳在印發(fā)《辦法》時注明發(fā)文日期,但并未說明未來將進(jìn)行評審/更新的時間,因而有待加強(qiáng)。
(2)為政策賦予永久標(biāo)識符。永久標(biāo)識符(Persistent Identifier,PID)能夠?qū)?shù)字資源進(jìn)行持久、唯一地標(biāo)識,有助于資源的引用、識別、定位和長期保存,在數(shù)字出版、數(shù)字資源長期保存等領(lǐng)域得到了廣泛應(yīng)用。同時,永久標(biāo)識符還有助于機(jī)器自動提取政策的相關(guān)信息,與其他數(shù)字資源對象進(jìn)行信息交換等。盡管我國在制定和發(fā)布《辦法》時為其分配了發(fā)文字號(國辦發(fā)[2018]17號),在一定程度上有助于查找該政策,但這并不是通用的永久標(biāo)識符,無法通過該發(fā)文號與其他數(shù)字對象進(jìn)行信息交換,且《辦法》也未在國際相關(guān)政策登記系統(tǒng)進(jìn)行注冊登記,這不利于《辦法》的國際交流。為了保持相關(guān)工作的連貫性與穩(wěn)定性,未來在對《辦法》進(jìn)行修訂時,除了分配發(fā)文字號,還應(yīng)推動政策在DOI系統(tǒng)進(jìn)行注冊,為政策賦予永久標(biāo)識符以推動FAIR生態(tài)系統(tǒng)的構(gòu)建。
(3)政策是機(jī)器可讀的。機(jī)器可讀不僅意味著政策內(nèi)容能夠被機(jī)器/程序解析(如采用HTML格式),還能被機(jī)器/程序理解和推理。目前,越來越多的網(wǎng)頁或文檔已開始使用結(jié)構(gòu)化數(shù)據(jù)標(biāo)記模式對文檔的章節(jié)段落進(jìn)行標(biāo)記,以便于搜索引擎或程序識別/理解其具體內(nèi)容。盡管《辦法》以HTML格式發(fā)布,但卻沒有對其各部分內(nèi)容和章節(jié)進(jìn)行結(jié)構(gòu)化標(biāo)記,使得機(jī)器和相關(guān)程序(如搜索引擎)無法直接定位到其具體章節(jié)段落,無法對政策的具體內(nèi)容進(jìn)行解析和處理。因而,亟待運(yùn)用結(jié)構(gòu)化數(shù)據(jù)標(biāo)記模式對政策進(jìn)行標(biāo)記和發(fā)布,促進(jìn)政策內(nèi)容的機(jī)器可讀性和可操作性。
(4)對數(shù)據(jù)進(jìn)行明確定義。為避免混淆,政策制定者必須明確其數(shù)據(jù)政策涵蓋哪些研究成果。因此,為“數(shù)據(jù)”提供明確的定義不僅是一種良好實踐,也是FAIR原則的內(nèi)在要求。國外一些政策對科學(xué)數(shù)據(jù)的定義進(jìn)行了較為詳細(xì)和明確的說明,如英國國家科研與創(chuàng)新署(UK Research and Innovation,UKRI)發(fā)布的《開放研究數(shù)據(jù)協(xié)議》(Concordat on Open Research Data[35])一方面從抽象概括的角度對數(shù)據(jù)進(jìn)行界定,指出:“研究數(shù)據(jù)是支撐研究問題答案的證據(jù),可用于驗證研究結(jié)果,無論其形式如何(如印刷、數(shù)字或物理的),這些信息可能是研究人員在工作過程中通過實驗、觀察、建模、訪談或其他方法收集的定量信息或定性陳述,或者是從現(xiàn)有證據(jù)中獲得的信息。數(shù)據(jù)可以是天然的或原始的(如直接來自測量或收集),也可以是從基礎(chǔ)數(shù)據(jù)集中提取以便進(jìn)行后續(xù)分析或挖掘(如從其他數(shù)據(jù)集中整理或提取),或來自他人所擁有的數(shù)據(jù)”。另一方面通過舉例加以說明:“它們可能包括統(tǒng)計數(shù)據(jù)、數(shù)字圖像集、錄音、訪談記錄、調(diào)查數(shù)據(jù)、帶有適當(dāng)注釋的實地觀察記錄、藝術(shù)品、檔案、自然物品、已發(fā)表的文本或手稿等?!北M管《辦法》第2條對科學(xué)數(shù)據(jù)的范圍進(jìn)行了界定,但不夠明確具體。
(5)要求數(shù)據(jù)共享。從實際角度出發(fā),科學(xué)數(shù)據(jù)共享并非僅僅向他人提供自己擁有的數(shù)據(jù)或?qū)⒆约旱目茖W(xué)數(shù)據(jù)公開這么簡單。一方面,并非所有的數(shù)據(jù)都適宜無條件公開,需要清楚說明數(shù)據(jù)的開放程度/范圍和使用時應(yīng)遵循的相關(guān)要求;另一方面,并非將數(shù)據(jù)提交到開放儲存庫就意味著能順利實現(xiàn)再利用從而發(fā)揮其價值。應(yīng)從數(shù)據(jù)需求者的角度出發(fā),確保他們易于發(fā)現(xiàn)/找到數(shù)據(jù)、易于訪問/獲取數(shù)據(jù)、清楚數(shù)據(jù)使用的條件及要求,并能正確理解/操作數(shù)據(jù),只有這樣,才能實現(xiàn)數(shù)據(jù)重用的目標(biāo)。FAIR原則正是考慮了這些實際問題和需求,要求在項目/研究正式開始前就通過數(shù)據(jù)管理計劃對數(shù)據(jù)共享進(jìn)行規(guī)劃和計劃,包括:將收集哪些數(shù)據(jù)?項目/研究結(jié)束時哪些數(shù)據(jù)可以公開?通過什么平臺、如何公開?如何確保數(shù)據(jù)易于查找和獲???如何確保數(shù)據(jù)易于理解和進(jìn)一步分析利用?盡管《辦法》從多個角度對科學(xué)數(shù)據(jù)的共享進(jìn)行了要求,如第十九條指出“政府預(yù)算資金資助形成的科學(xué)數(shù)據(jù)應(yīng)當(dāng)按照開放為常態(tài)、不開放為例外的原則”,依照規(guī)范程序向社會和相關(guān)部門開放共享。第20條指出法人單位“要按要求公布科學(xué)數(shù)據(jù)開放目錄”。但從FAIR原則的視角來看,還遠(yuǎn)遠(yuǎn)不夠,難以確??茖W(xué)數(shù)據(jù)的需求者有效獲取和利用數(shù)據(jù)。因而,有待從FAIR原則的理念要求出發(fā),進(jìn)一步細(xì)化數(shù)據(jù)共享規(guī)范,以確保數(shù)據(jù)共享順利進(jìn)行,只有這樣,才能充分發(fā)揮數(shù)據(jù)的價值。
(1)明確提及FAIR原則。在政策中明確提及FAIR原則,表明政策制定者了解和認(rèn)可FAIR原則的理念內(nèi)涵,對支持和促進(jìn)FAIR原則的實施具有重要意義。盡管《辦法》包含了FAIR原則內(nèi)涵的某些方面,如:要求法人單位及科學(xué)數(shù)據(jù)生產(chǎn)者按照相關(guān)標(biāo)準(zhǔn)規(guī)范開展科學(xué)數(shù)據(jù)的采集生產(chǎn)和加工整理,并建立科學(xué)數(shù)據(jù)質(zhì)量控制體系,保證數(shù)據(jù)的準(zhǔn)確性和可用性;支持科學(xué)數(shù)據(jù)共享;要求法人單位建立科學(xué)數(shù)據(jù)保存制度,配備數(shù)據(jù)存儲、管理、服務(wù)和安全等必要設(shè)施,保障科學(xué)數(shù)據(jù)完整性和安全性;支持建立科學(xué)數(shù)據(jù)中心,開展科學(xué)數(shù)據(jù)的整合匯交、加工整理、開放共享等工作;要求科學(xué)數(shù)據(jù)使用者對數(shù)據(jù)進(jìn)行引用等。然而,《辦法》并沒有明確提及FAIR原則,不利于我國科學(xué)數(shù)據(jù)資源整體實現(xiàn)FAIR化,限制了科學(xué)數(shù)據(jù)價值的充分發(fā)揮。
(2)支持與科研數(shù)據(jù)管理相關(guān)的、使數(shù)據(jù)FAIR化的合理成本。將科研數(shù)據(jù)FAIR化需要科研人員在整個科研過程中付出一系列額外的時間和精力,特別是一些環(huán)節(jié)可能還需要直接的資金投入(如購買所需要的軟件),如果沒有相應(yīng)的經(jīng)濟(jì)補(bǔ)償和激勵措施,他們可能缺乏這一動力。歐盟委員會資助的一項調(diào)查發(fā)現(xiàn),超過80%科研人員認(rèn)為缺少資金支持是數(shù)據(jù)管理與共享中面臨的最主要困難[36]。因而,相關(guān)研究呼吁在政策中明確支持?jǐn)?shù)據(jù)管理和共享可能產(chǎn)生的成本[20]?!掇k法》并沒有說明為科研數(shù)據(jù)的管理提供資金支持。筆者查詢國家近年出臺的一系列重要的科技計劃項目資金管理政策,如《國務(wù)院關(guān)于改進(jìn)加強(qiáng)中央財政科研項目和資金管理的若干意見》[37]《國家重點(diǎn)研發(fā)計劃資金管理辦法》[38]《關(guān)于進(jìn)一步優(yōu)化國家重點(diǎn)研發(fā)計劃項目和資金管理的通知》[39]等均未明確提出相關(guān)資金可用于對科研項目中產(chǎn)生的數(shù)據(jù)和資料進(jìn)行管理。
(3)要求制定數(shù)據(jù)管理計劃。國際上,通過數(shù)據(jù)管理計劃(DMP)推動科學(xué)數(shù)據(jù)的有效管理,并最終促進(jìn)數(shù)據(jù)高效共享已成為普遍共識。歐盟委員會FAIR數(shù)據(jù)專家組為推動FAIR原則實施而發(fā)布的《將FAIR變成現(xiàn)實》充分吸收了這一最佳實踐,指出:任何研究項目都應(yīng)將數(shù)據(jù)管理作為實現(xiàn)其科學(xué)目標(biāo)所必需的核心要素,并通過數(shù)據(jù)管理計劃加以實現(xiàn)。應(yīng)在項目開始時就制定詳細(xì)的DMP,并在項目實施過程中隨時或定期進(jìn)行更新,項目結(jié)束報告應(yīng)包括對DMP的報告[40]?!掇k法》尚未要求實施數(shù)據(jù)管理計劃??上驳氖?,中國科學(xué)院2019年2月11日發(fā)布的《中國科學(xué)院科學(xué)數(shù)據(jù)管理與開放共享辦法(試行)》中已明確要求將“科技項目數(shù)據(jù)管理計劃”作為項目立項的必要條件,列入項目評審內(nèi)容,并明確了科技項目數(shù)據(jù)管理計劃主要內(nèi)容:項目預(yù)期產(chǎn)生的數(shù)據(jù)內(nèi)容、類型、規(guī)模、質(zhì)量、提交時間和最終匯交的科學(xué)數(shù)據(jù)管理機(jī)構(gòu)名稱等[41]。未來我國應(yīng)加大數(shù)據(jù)管理計劃的應(yīng)用與推廣力度,將數(shù)據(jù)管理計劃納入相關(guān)政策中,推進(jìn)FAIR原則的應(yīng)用和我國科學(xué)數(shù)據(jù)的開放共享。
(4)如果允許不共享數(shù)據(jù),應(yīng)要求說明理由。并非所有的數(shù)據(jù)都適宜無條件公開,對于那些涉及國家安全、個人信息、商業(yè)秘密,以及其他不適宜共享的數(shù)據(jù),應(yīng)允許其不予共享。但一些科研人員或機(jī)構(gòu)可能會以此為由,將本應(yīng)共享的數(shù)據(jù)不提供共享。為避免這種情況,政策應(yīng)明確要求科研人員對于認(rèn)為不宜開放的情況,提供合理充分的理由,證明確實不應(yīng)開放共享。這樣,既可以確保不適宜共享的數(shù)據(jù)得到有效保護(hù),又有利于其他數(shù)據(jù)的充分共享。《辦法》雖然也對不能開放共享的情形進(jìn)行了明確,指出“涉及國家秘密、國家安全、社會公共利益、商業(yè)秘密和個人隱私的科學(xué)數(shù)據(jù),不得對外開放共享”,但并沒有要求提供相關(guān)理由,也未明確數(shù)據(jù)保密的審查程序,這可能會導(dǎo)致部分科學(xué)數(shù)據(jù)因過度保護(hù)而無法共享的情況。
(5)要求元數(shù)據(jù)共享。為了使科學(xué)數(shù)據(jù)能夠被理解和重新利用,應(yīng)為其提供充分詳細(xì)的元數(shù)據(jù)信息和有關(guān)數(shù)據(jù)的來源及背景信息的支持文檔。為科學(xué)數(shù)據(jù)(集)提供基本的元數(shù)據(jù)僅能支持其被發(fā)現(xiàn),要想理解和重用數(shù)據(jù),還需要了解有關(guān)數(shù)據(jù)是為何、如何、何時創(chuàng)建、由誰創(chuàng)建,以及創(chuàng)建時的環(huán)境條件、使用的設(shè)備與軟件、操作步驟等一系列背景信息。可見,元數(shù)據(jù)及相關(guān)文檔是實現(xiàn)科研數(shù)據(jù)FAIR化的關(guān)鍵要素。分析發(fā)現(xiàn),《辦法》在要求數(shù)據(jù)共享的同時,并沒有要求數(shù)據(jù)擁有者同時共享科學(xué)數(shù)據(jù)集的元數(shù)據(jù)信息,這不利于確保數(shù)據(jù)共享的最終實現(xiàn)。
(6)提供指導(dǎo)、培訓(xùn)或支持以促進(jìn)政策的實施。盡管科研數(shù)據(jù)開放共享的意義已得到普遍認(rèn)同,但科學(xué)數(shù)據(jù)的開放共享在很大程度上仍處于“都喜歡但很少做”的狀態(tài)[42]。由于缺乏數(shù)據(jù)管理與共享的能力、激勵和支持[43],科研人員迫切希望能夠得到幫助和培訓(xùn),以提高自身的數(shù)據(jù)素養(yǎng)[44]。一些研究也表明,盡管越來越多的科研人員認(rèn)識到科研數(shù)據(jù)的價值,但不知道如何管理和保存科研數(shù)據(jù),不知道有哪些資源與工具可以利用[1]。這說明為科研人員提供指導(dǎo)/培訓(xùn)/支持的必要性。國外在制定相關(guān)政策的同時還發(fā)布了相應(yīng)的政策指南,如歐盟為其Horizon2020項目制定《Horizon 2020 FAIR數(shù)據(jù)管理指南》(Guidelines on FAIR Data Management in Horizon 2020),為科學(xué)數(shù)據(jù)的管理、發(fā)布和共享提供詳細(xì)的指導(dǎo)參考,從而促進(jìn)了科學(xué)數(shù)據(jù)的共享與重用。研究數(shù)據(jù)聯(lián)盟(Research Data Alliance,RDA)發(fā)布《FAIR數(shù)據(jù)成熟度模型:規(guī)范和指南》[45],提出數(shù)字資源對FAIR遵循度的評估方法。盡管《辦法》要求法人單位要為科學(xué)數(shù)據(jù)提交/匯交、保存、共享利用提供相應(yīng)的標(biāo)準(zhǔn)規(guī)范、規(guī)章制度、平臺設(shè)施,但較宏觀和抽象,缺少指南和說明,也缺少指導(dǎo)、咨詢與幫助措施。因而,我國在將FAIR原則納入政策的同時,還應(yīng)盡快發(fā)布相關(guān)政策指南以促進(jìn)政策的實施。
應(yīng)在已有研究與實踐探索的基礎(chǔ)上,與利益相關(guān)者協(xié)作,形成一系列共同認(rèn)可的FAIR原則政策要素,并將之融入政策內(nèi)容,以推動FAIR原則的實施。在實踐過程中,應(yīng)重點(diǎn)關(guān)注那些能夠成為“規(guī)則”的政策要素,而不是將FAIR原則落實到科學(xué)數(shù)據(jù)管理與共享中的實踐建議(這些實踐建議可通過政策指南的方式體現(xiàn))。
FAIR原則的落實離不開在整個科研周期對相關(guān)數(shù)據(jù)進(jìn)行良好整理與管理,而該目標(biāo)的實現(xiàn)離不開數(shù)據(jù)管理計劃的支持。因而《辦法》應(yīng)將數(shù)據(jù)管理計劃納入政策,主管部門和法人單位應(yīng)要求科研人員在科研項目正式開始前編制數(shù)據(jù)管理計劃,考慮如何管理和共享科研過程中產(chǎn)生的數(shù)據(jù),以確保科學(xué)數(shù)據(jù)從一開始就符合FAIR原則的要求。同時,政策應(yīng)要求在整個研究生命周期內(nèi)根據(jù)實際情況和需要隨時(定期)更新數(shù)據(jù)管理計劃,確保數(shù)據(jù)管理計劃與實際情況保持一致。此外,數(shù)據(jù)管理計劃還應(yīng)考慮數(shù)據(jù)管理與共享過程中可能產(chǎn)生的相應(yīng)成本,以便資助部門在科研項目立項時對合理且必要的成本給予支持?!吨袊茖W(xué)院科學(xué)數(shù)據(jù)管理與開放共享辦法(試行)》已將“科技項目數(shù)據(jù)管理計劃”作為項目立項的必要條件,列入項目評審內(nèi)容。未來應(yīng)進(jìn)一步加大數(shù)據(jù)管理計劃的應(yīng)用范圍,將其作為推動FAIR原則實施,促進(jìn)科學(xué)數(shù)據(jù)開放共享的重要工具。
結(jié)構(gòu)化數(shù)據(jù)指使用專門的格式進(jìn)行標(biāo)記、嵌入在HTML網(wǎng)頁中、有著良好的結(jié)構(gòu)且相互關(guān)聯(lián)的數(shù)據(jù)[46]。它通過在網(wǎng)頁中使用結(jié)構(gòu)化標(biāo)記實現(xiàn)數(shù)據(jù)與樣式分離,以簡單、有效的方式提升文檔內(nèi)容在搜索引擎上的用戶體驗和準(zhǔn)確性,得到了Google、Bing、Yahoo等國外主流搜索引擎共同支持。目前越來越多的網(wǎng)頁或文檔已開始使用結(jié)構(gòu)化數(shù)據(jù)標(biāo)記模式對文檔內(nèi)容進(jìn)行標(biāo)記,以便于搜索引擎或程序識別/理解其內(nèi)容。因而,《辦法》也應(yīng)充分利用這些最新規(guī)范,使用結(jié)構(gòu)化數(shù)據(jù)標(biāo)記模式對政策進(jìn)行標(biāo)記和發(fā)布,促進(jìn)政策內(nèi)容的機(jī)器可讀性和可操作性。
為促進(jìn)FAIR原則的落地,應(yīng)在政策中明確要求共享描述和說明數(shù)據(jù)集的元數(shù)據(jù)。元數(shù)據(jù)可用于構(gòu)建數(shù)據(jù)集的索引,從而確保數(shù)據(jù)集易于發(fā)現(xiàn)。盡管《辦法》對科學(xué)數(shù)據(jù)共享做出了明確要求,但如果沒有相應(yīng)元數(shù)據(jù),數(shù)據(jù)需求者就難以找到所需數(shù)據(jù),即便幸運(yùn)地獲得數(shù)據(jù)集,也可能因為不了解數(shù)據(jù)含義而無法利用。數(shù)據(jù)集和描述它們的元數(shù)據(jù)應(yīng)是單獨(dú)的文件,兩者通過數(shù)據(jù)集的永久標(biāo)識符進(jìn)行關(guān)聯(lián)。應(yīng)在元數(shù)據(jù)中包含數(shù)據(jù)集充分全面的信息,包括:有關(guān)數(shù)據(jù)背景的信息:由誰收集/生成的(數(shù)據(jù)集生成日期、實驗條件、操作者、所用軟件的名稱和版本、參數(shù)設(shè)置等)?是如何處理的?是否包含來自他人的數(shù)據(jù)等;有關(guān)數(shù)據(jù)(集)本身的信息:如變量名稱及含義等;數(shù)據(jù)集的永久標(biāo)識符;數(shù)據(jù)的許可證,明確說明在什么條件下,哪些人可以訪問和使用數(shù)據(jù)。這樣,才能確保任何其他研究人員或他們的計算機(jī)都能夠易于找到所需數(shù)據(jù),正確理解數(shù)據(jù),合理高效使用數(shù)據(jù)。
對不少科研人員來說,F(xiàn)AIR原則還是一個陌生概念。不少科研人員從未聽說過該原則,另一些人則對FAIR原則如何在科研實踐中落實感到困惑[10]。因而,為FAIR政策制定相應(yīng)的實施指南對于促進(jìn)政策的落實具有重要意義。TFiR行動計劃也指出,應(yīng)為FAIR原則的實施(添加元數(shù)據(jù)、制定和落實數(shù)據(jù)管理計劃、為數(shù)據(jù)添加永久標(biāo)識符等)制定相關(guān)指南[40]。國外一些機(jī)構(gòu)在發(fā)布科學(xué)數(shù)據(jù)管理共享政策的同時還制定了相關(guān)指南,就政策中的相關(guān)問題進(jìn)行解釋說明,幫助科研人員更好地理解和執(zhí)行政策。如歐盟為其Horizon2020項目制定《Horizon 2020 FAIR數(shù)據(jù)管理指南》(Guidelines on FAIRData Management in Horizon 2020),為科研人員基于FAIR原則進(jìn)行科學(xué)數(shù)據(jù)的管理、發(fā)布和共享提供詳細(xì)的指導(dǎo)參考。我國相關(guān)政策也應(yīng)從宏觀規(guī)劃向具體實施逐步邁進(jìn),即在為《辦法》增加FAIR要素和要求的基礎(chǔ)上,各政府機(jī)構(gòu)、科研院所、研究單位等可根據(jù)自身需求和責(zé)任制定相應(yīng)的實施指南,為科研人員制定和實施數(shù)據(jù)管理計劃、在科研過程中進(jìn)行數(shù)據(jù)管理、為數(shù)據(jù)添加元數(shù)據(jù)、數(shù)據(jù)開放與存儲、確定許可協(xié)議、如何引用數(shù)據(jù)等方面提供指導(dǎo)和幫助,促進(jìn)良好政策環(huán)境的形成,推動政策高效的實施。
穩(wěn)定的財政支持有助于科學(xué)數(shù)據(jù)開放共享產(chǎn)生的成本得到基本保障,建立相應(yīng)的獎勵機(jī)制能夠在某些程度上減少科學(xué)數(shù)據(jù)共享過程中的阻礙。歐洲開放科學(xué)云(European Open Science Cloud,EOSC)呼吁,應(yīng)為開放科研數(shù)據(jù)和遵循FAIR原則的研究人員給予職稱評估和項目評估上的獎勵,且與大學(xué)和研究機(jī)構(gòu)的其他職業(yè)政策(聘任、晉升等)同步進(jìn)行[47]。德國與瑞士科學(xué)基金會在相關(guān)政策中提到,將會資助科研人員的數(shù)據(jù)提交工作。合理的獎勵能提高科研人員的共享意識,也能讓他們?yōu)閿?shù)據(jù)共享作出的努力與貢獻(xiàn)得到充分的認(rèn)可,進(jìn)而提升行動力。
隨著大數(shù)據(jù)時代的到來、數(shù)據(jù)密集型科研范式和開放科學(xué)運(yùn)動的發(fā)展,推動科學(xué)數(shù)據(jù)的開放共享以實現(xiàn)數(shù)字資源的最大限度再利用,進(jìn)而加速科技創(chuàng)新、經(jīng)濟(jì)高質(zhì)量發(fā)展和社會全面進(jìn)步已成為國際社會共同努力的目標(biāo)。FAIR原則的推出正是國際科學(xué)界為這一目標(biāo)協(xié)同努力的結(jié)果,旨在進(jìn)一步指導(dǎo)和促進(jìn)數(shù)字資源的可發(fā)現(xiàn)、可獲取、可互操作和可重用性,從而不斷提升數(shù)字資源的機(jī)器可解析和可操作性,幫助人類應(yīng)對大數(shù)據(jù)時代的挑戰(zhàn),適應(yīng)數(shù)據(jù)密集型科研范式的要求。然而,F(xiàn)AIR作為一套指導(dǎo)科研人員處理科研結(jié)果和數(shù)字資源的原則,并非一個可操作的標(biāo)準(zhǔn),如何在現(xiàn)實中落實,還有待進(jìn)一步探索具體方案。
歐美國家通過完整清晰的立法與政策來推進(jìn)FAIR原則的實施,各基金組織、出版發(fā)行機(jī)構(gòu)、科研機(jī)構(gòu)等也在數(shù)據(jù)政策制定方面積極向FAIR原則的要求靠攏,如瑞士國家科學(xué)基金會(Swiss National Science Foundation)、荷蘭國家科研基金(The Netherlands Organisation for Scientific Research)[48]、奧地利科學(xué)基金會(Austrian Science Fund)[49]、挪威科研理事會(The Research Council of Norway)[50]均將FAIR原則納入科研數(shù)據(jù)管理與開放政策中。Taylor&Francis出版集團(tuán)在其數(shù)據(jù)共享政策中要求數(shù)據(jù)應(yīng)符合主題領(lǐng)域制定的FAIR標(biāo)準(zhǔn)[51]。我國尚未出臺國家層面的FAIR原則相關(guān)政策,但在出版、醫(yī)學(xué)等領(lǐng)域已經(jīng)開始探索:北京大學(xué)開放研究數(shù)據(jù)平臺加入Datacite數(shù)據(jù)中心獲取DOI,促進(jìn)研究數(shù)據(jù)的傳播、重用和規(guī)范引用;有研究者基于FAIR原則構(gòu)建了循證醫(yī)學(xué)文獻(xiàn)數(shù)據(jù)本體,以實現(xiàn)醫(yī)學(xué)知識的再現(xiàn)與迭代[16]。因此,有必要深化對科學(xué)數(shù)據(jù)FAIR化的價值認(rèn)識,結(jié)合我國已有的政策基礎(chǔ),從戰(zhàn)略層面納入FAIR原則的相關(guān)精神理念,并通過發(fā)布政策實施指南、完善相關(guān)配套基礎(chǔ)設(shè)施(如支持FAIR原則的數(shù)據(jù)存儲中心和數(shù)據(jù)開放、發(fā)布、出版平臺)、構(gòu)建標(biāo)準(zhǔn)規(guī)范(如符合FAIR原則的數(shù)據(jù)引用標(biāo)準(zhǔn))、強(qiáng)化指導(dǎo)培訓(xùn)和支持服務(wù)等,以推動FAIR原則的全面落實,促進(jìn)科學(xué)數(shù)據(jù)資源的最大限度開放共享與重用,助力我國創(chuàng)新驅(qū)動發(fā)展戰(zhàn)略。與此同時,各相關(guān)責(zé)任者應(yīng)與時俱進(jìn),盡快將科學(xué)數(shù)據(jù)開放與共享工作落到實處,如:科研機(jī)構(gòu)可明確符合FAIR原則的數(shù)據(jù)格式與元數(shù)據(jù)規(guī)范,要求數(shù)據(jù)提供者提交符合FAIR要求的研究數(shù)據(jù)。科學(xué)數(shù)據(jù)平臺也可采取措施支持?jǐn)?shù)據(jù)FAIR化。
注釋
①結(jié)構(gòu)化數(shù)據(jù)標(biāo)記模式(structured datamarkup schema):指使用專門的格式進(jìn)行標(biāo)記、嵌入在HTML網(wǎng)頁中、有著良好的結(jié)構(gòu)且相互關(guān)聯(lián)的數(shù)據(jù)。