• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      科研機構數(shù)據(jù)管理體系構建研究
      ——來自NIH和CNRS的經(jīng)驗啟示

      2022-10-09 08:53:38劉思彤游玎怡
      全球科技經(jīng)濟瞭望 2022年6期
      關鍵詞:數(shù)據(jù)管理數(shù)據(jù)庫科學

      劉思彤,游玎怡,陳 光,溫 珂

      (1.中國科學院科技戰(zhàn)略咨詢研究院,北京 100190;2.中國科學院大學公共政策與管理學院,北京 100049;3.中國科學院學部工作局,北京 100190)

      目前,科學研究正邁入吉姆·格雷(Jim Gray)提出的“第四范式”時代——數(shù)據(jù)密集型科研范式時代。科學數(shù)據(jù)不再僅僅是研究活動的結果,而且是科學研究活動的投入要素,成為重要的科研基礎設施。經(jīng)濟合作與發(fā)展組織(OECD)將科學數(shù)據(jù)定義為:科學研究基本來源的實時記錄,包括數(shù)值、文本記錄、圖像和聲音,是科學團體共同接受的對研究結果有用的數(shù)據(jù)[1]。我國《科學數(shù)據(jù)管理辦法》規(guī)定,科學數(shù)據(jù)是指:在自然科學、工程技術科學等領域,通過基礎研究、應用研究、試驗開發(fā)等產(chǎn)生的數(shù)據(jù),以及通過觀測監(jiān)測、考察調查、檢驗檢測等方式取得并用于科學研究活動的原始數(shù)據(jù)及其衍生數(shù)據(jù)[2]??茖W數(shù)據(jù)包括科研過程和結果的各項記錄,具有典型的大數(shù)據(jù)特征:規(guī)模巨大、多源多樣和價值待挖掘等。因此,對任何一個科研活動主體而言,如何匯集、存儲、共享、開發(fā)和利用科學數(shù)據(jù),圍繞數(shù)據(jù)構造開放協(xié)同的科研組織模式,已成為迎接科學研究“第四范式”時代到來所面臨的嚴峻挑戰(zhàn)。

      科研機構與大學和企業(yè)相比,具有建制化和任務牽引的組織優(yōu)勢,有條件和機會在科學數(shù)據(jù)管理體系化建設上做出先行探索。美國國立衛(wèi)生研究院(National Institutes of Health, NIH)作為全球最大的生命醫(yī)學研究機構,是最早倡導科學數(shù)據(jù)管理的組織之一;法國國家科學研究中心(Centre national de la recherche scientifique, CNRS)作為歐洲最大的基礎科學研究機構,也是科學數(shù)據(jù)管理的先行者之一。身處不同科技體制中的兩家科研機構在建設科學數(shù)據(jù)管理體系中都面臨著主體多元、類型多樣和促進共享等挑戰(zhàn),從組織結構的適應性變革到數(shù)據(jù)標準化建設、分析工具開發(fā),再到數(shù)據(jù)安全和質量的管控,兩家綜合性科研機構建立科學數(shù)據(jù)管理體系的努力為我國提供了有益經(jīng)驗。本文嘗試從數(shù)據(jù)生命周期管理的角度梳理NIH和CNRS的科學數(shù)據(jù)管理體系現(xiàn)狀,總結構建科學數(shù)據(jù)管理體系的關鍵機制,以期為我國科研機構加快建設和完善數(shù)據(jù)管理體系提供借鑒。

      1 構建科學數(shù)據(jù)管理體系的制度和組織準備

      美國和歐洲秉持的不同數(shù)據(jù)監(jiān)管模式,在NIH和CNRS設計數(shù)據(jù)管理工作的制度和組織準備中得以體現(xiàn)。NIH的數(shù)據(jù)監(jiān)管是以自律為基礎的部門模式,CNRS則是在歐盟和法國統(tǒng)一性的數(shù)據(jù)管理規(guī)范內(nèi)行事。

      1.1 制定科學數(shù)據(jù)管理規(guī)劃

      自主型規(guī)劃。NIH 既是美國生物醫(yī)學的重要研究機構, 也是美國政府最主要的醫(yī)學研究資助機構,具有國家研究機構和政府科學基金資助組織的雙重重要屬性。在科學數(shù)據(jù)管理方面,NIH做出了不少先行實踐。2003年,NIH發(fā)布了《研究數(shù)據(jù)共享的最終聲明》;2014年,NIH專門就基因組數(shù)據(jù)管理發(fā)布了《基因組數(shù)據(jù)共享政策》,在保護相關研究者隱私的同時,促進基因組研究數(shù)據(jù)的臨床轉化和應用;2018年,NIH制定《數(shù)據(jù)科學戰(zhàn)略計劃》,闡述其數(shù)據(jù)管理的戰(zhàn)略目標和實施策略;2020年4月,面對新冠肺炎疫情的肆虐,NIH專門發(fā)布了《COVID-19研究戰(zhàn)略規(guī)劃 (2020—2024)》,同時啟動用于追蹤相關神經(jīng)系統(tǒng)癥狀的“COVID-19神經(jīng)系統(tǒng)數(shù)據(jù)庫”(NeuroCOVID)項目,在及時開放共享與COVID-19相關的研究數(shù)據(jù)和研究成果的同時,倡議并支持科學界基于臨床數(shù)據(jù)情況聯(lián)合開展戰(zhàn)略性研究[3]。

      響應型規(guī)劃。從科研機構的角度出發(fā),CNRS以實踐經(jīng)驗支持國家數(shù)據(jù)政策的編寫,并在國家政策的大背景下,立足于機構使命和愿景提出自身的數(shù)據(jù)管理發(fā)展規(guī)劃。2016年法國政府頒布《數(shù)字共和國法》,其中關于數(shù)據(jù)開放的相關條例(研究人員有權在較短的開放獲取滯后期之后發(fā)表由公共資金資助的研究文章等),即是由CNRS結合自身實踐支持編寫。在法國政府《數(shù)字化路線圖》(2013年)和《數(shù)字共和國法》(2016年)等政策指導下,CNRS頒布了《開放科學路線圖》(2019年11月)及《研究數(shù)據(jù)計劃》(2020年11月)文件,積極響應國家數(shù)據(jù)管理的政策號召[4]。

      1.2 組織結構的適應性變革

      NIH和CNRS都將FAIR原則(可發(fā)現(xiàn)Findability、可訪問Accessibility、可互操作Interoperability、可重用Reuse)貫徹到數(shù)據(jù)戰(zhàn)略規(guī)劃中,在該原則指導下,兩家機構均展開了適應性組織創(chuàng)新。NIH先后任命了數(shù)據(jù)科學副主任和首席數(shù)據(jù)戰(zhàn)略家,并設有數(shù)據(jù)科學戰(zhàn)略辦公室(The Office of Data Science Strategy,ODSS)以及科學數(shù)據(jù)委員會(NIH Scientific Data Council,SDC)[5]和數(shù)據(jù)科學政策委員會 (NIH Data Science Policy Council,DSPC)兩個內(nèi)部委員會。數(shù)據(jù)科學戰(zhàn)略辦公室主要負責領導NIH數(shù)據(jù)科學戰(zhàn)略計劃的實施,科學數(shù)據(jù)委員會和數(shù)據(jù)科學政策委員會則分別從發(fā)展機遇和政策法規(guī)方面提供相應的指導建議[6]。

      從2020年開始,CNRS的科學技術信息部(The Department of Scientific and Technical Information,DIST)和數(shù)學計算任務部(MiCaDo)合并為開放研究數(shù)據(jù)部(Open Research Data Department,DDOR)[7],從事開放科學戰(zhàn)略的制定與執(zhí)行工作,并關注與數(shù)據(jù)研究相關的所有問題,包括數(shù)字基礎設施建設等。其中,科學技術信息部主要負責CNRS的數(shù)據(jù)管理工作落地,包括三個研究單元,分別為科學技術信息研究所(Institute for Scientific and Technical Information,INIST),負責科技信息的獲取與傳播、分析工具開發(fā);科學交流中心(Centre for Direct Scientific Communication,CCSD),負責開放獲取期刊出版物的平臺(Hyper Articles Online,HAL)建設工作;Persée①Persée通常不翻譯為中文,是電子學術期刊法文縮寫,最初是一個項目,目前是一個隸屬于里昂高師和法國國家科學研究中心的研究支撐單元。感謝中科院科技戰(zhàn)略咨詢研究院陳曉怡提供此條解釋。,負責數(shù)字化傳播科學歷史工作[8]。此外,CNRS還在籌備新的數(shù)據(jù)研究部門,主要負責數(shù)據(jù)開放程度的界定工作。層級式模塊化的管理結構設計,讓CNRS擁有很強的數(shù)據(jù)管理執(zhí)行力。

      2 基于數(shù)據(jù)生命周期的管理體系建設

      從過程來看,科學數(shù)據(jù)管理涵蓋了數(shù)據(jù)的獲取、描述、存儲、共享和重用等環(huán)節(jié),從多源數(shù)據(jù)產(chǎn)生到匯集數(shù)據(jù)、對數(shù)據(jù)進行命名及統(tǒng)一數(shù)據(jù)格式,再到對數(shù)據(jù)進行存儲并在此基礎上進行開放共享和重復利用等等。數(shù)據(jù)生命周期理論,即是對上述數(shù)據(jù)管理各環(huán)節(jié)進行階段特征分析,提出了鏈型、矩陣型、環(huán)型和層次型等模型[9-11]。英國國家數(shù)據(jù)檔案館(UK Data Archive)結合自身管理實踐,將數(shù)據(jù)生命周期界定為六個階段,包括數(shù)據(jù)創(chuàng)建、數(shù)據(jù)處理、數(shù)據(jù)分析、數(shù)據(jù)存儲、數(shù)據(jù)訪問和數(shù)據(jù)重用[12]。國內(nèi)學者基于對不同科學數(shù)據(jù)管理實踐的案例觀察,也分別提出了五階段[13-14]、六階段[15-16]的劃分,認為收集、保存、處理、共享、分析等是數(shù)據(jù)生命周期共有屬性[17]。

      綜合已有數(shù)據(jù)生命周期理論的相關分析,本文采納的科學數(shù)據(jù)管理生命周期模型(見圖1),包括獲取、描述、存儲、共享和重用五個環(huán)節(jié)。運用這一模型,以下重點比較分析NIH和CNRS的科學數(shù)據(jù)管理體系現(xiàn)狀與特征。

      圖1 科學數(shù)據(jù)管理生命周期模型圖

      2.1 以規(guī)制和補貼等方式多途徑匯集科學數(shù)據(jù)

      NIH和CNRS主要通過政策規(guī)制和補貼的方式要求或鼓勵科學數(shù)據(jù)的匯交。一方面,對于利用政府資助產(chǎn)生的研究數(shù)據(jù),要求匯交。例如,NIH要求“年度預算超過50萬美元”的大額資助項目必須公開研究數(shù)據(jù)。具體的研究數(shù)據(jù)范圍涵蓋用于證明研究發(fā)現(xiàn)的、科學界公認的真實數(shù)字化資料,不包括樣本、實物資料、音頻、視頻等內(nèi)容。并且為降低數(shù)據(jù)共享成本,研究者可以基于自己的數(shù)據(jù)量選擇恰當?shù)墓蚕砬?。例如,針對少量且訪問量不高的數(shù)據(jù),研究者可以選擇“自主提供數(shù)據(jù)”的方式;而對于訪問需求量或數(shù)據(jù)體量較大的數(shù)據(jù),研究人員可以選擇將數(shù)據(jù)提交公共數(shù)據(jù)庫的共享方式[18]。

      CNRS要求接受其資助的研究人員將研究成果在其所屬的HAL數(shù)據(jù)庫進行存儲和公開。針對可共享的研究數(shù)據(jù),研究人員需要提交原始或重新處理的數(shù)據(jù)的所有格式、文本和文檔、軟件、算法、協(xié)議和工作流情況。為遵循CNRS“盡可能開放,必要時盡可能保留”的開放數(shù)據(jù)原則,研究人員需要與知識產(chǎn)權事務、數(shù)據(jù)保護等部門共同確定后續(xù)數(shù)據(jù)的具體開放程度[19]。

      另一方面,對于科學家個人擁有的數(shù)據(jù),機構通過補貼或創(chuàng)建交流網(wǎng)絡等方式鼓勵匯交。例如,NIH鼓勵個人、團隊、科研機構通過數(shù)據(jù)平臺上傳數(shù)據(jù),并給予數(shù)據(jù)提交者一定的補貼。NIH還開發(fā)了Eye Wire項目,以游戲的形式聯(lián)系起130多個國家的約7萬名玩家。玩家可以使用真實的電子顯微鏡圖像繪制老鼠視網(wǎng)膜上神經(jīng)元的三維結構,“游玩”過程所產(chǎn)生的數(shù)據(jù)信息可以幫助研究人員發(fā)現(xiàn)神經(jīng)元是如何連接起來處理視覺信息的[20]。

      2.2 建立數(shù)據(jù)標準化體系

      為便于數(shù)據(jù)存儲和共享,對數(shù)據(jù)管理工作進行質量把控,匯集過程中的標準化工作倍受重視。NIH和CNRS要求從數(shù)據(jù)類型、應用工具、應用標準等方面對數(shù)據(jù)進行描述,并將相關信息與數(shù)據(jù)一并提交。兩家科研機構要求數(shù)據(jù)上傳者按照標準內(nèi)容和格式提交的數(shù)據(jù)信息如表1所示。

      表1 NIH與CNRS關于數(shù)據(jù)信息的提交要求

      2.3 建設高質量數(shù)據(jù)庫

      數(shù)據(jù)庫是數(shù)據(jù)存儲的載體,肩負了“數(shù)據(jù)中轉場”的責任。NIH和CNRS目前均建成了多個數(shù)據(jù)庫,為研究人員提供數(shù)據(jù)庫參考建議,鼓勵研究人員將數(shù)據(jù)存儲到合適的高質量數(shù)據(jù)庫。為了更好地統(tǒng)一存儲需求,促進數(shù)據(jù)共享,CNRS在研究者提交數(shù)據(jù)之始強調了數(shù)據(jù)存儲和數(shù)據(jù)歸檔的應用差別,即存儲包括數(shù)據(jù)識別、索引和頻繁訪問的長期化管理,而歸檔則是出于法律或歷史原因對數(shù)據(jù)的保存管理。

      迄今,NIH已建成涵蓋文獻、基因、基因組、蛋白質類、化學物質、健康等方面的多個高質量數(shù)據(jù)庫[23],并以需求為導向,根據(jù)不同類型的疾病或項目特點,分級分類地增設新的數(shù)據(jù)庫。例如,新冠肺炎爆發(fā)時,NIH啟動用于追蹤相關神經(jīng)系統(tǒng)癥狀的“COVID-19神經(jīng)系統(tǒng)數(shù)據(jù)庫”項目,旨在從臨床醫(yī)生手中收集與新冠肺炎神經(jīng)系統(tǒng)癥狀相關的各類信息,加速研究并發(fā)癥、疾病情況以及新冠肺炎對已有神經(jīng)系統(tǒng)疾病的影響[24]。CNRS則針對不同類型數(shù)據(jù)的特點,不斷探索更優(yōu)的數(shù)據(jù)分類存儲方式。例如,CNRS正以地理領域為試點,為數(shù)據(jù)量級較小的“長尾數(shù)據(jù)”建設通用數(shù)據(jù)存儲庫[25]。

      在指導研究人員選擇合適的數(shù)據(jù)庫方面,NIH發(fā)布了《NIH數(shù)據(jù)管理和共享政策的補充信息:為NIH支持的研究結果選擇數(shù)據(jù)存儲庫》政策計劃,幫助研究人員高效存儲數(shù)據(jù),并鼓勵研究人員盡可能使用已建立的并且更適合的存儲庫來保存和共享相應的科學數(shù)據(jù),以確保數(shù)據(jù)的質量和可長期存儲性。為幫助研究人員更好地選擇數(shù)據(jù)庫進行數(shù)據(jù)存儲,CNRS下屬的科學技術信息研究所也在其門戶網(wǎng)站中公開了旗下的數(shù)據(jù)庫清單,涵蓋法國工程學院的博士論文數(shù)據(jù)庫、集成式書目科學數(shù)據(jù)庫以及超1 700萬條文獻的PASCAL和FRANCIS數(shù)據(jù)庫[26]。同時,CNRS也正在籌備開放一個更加詳細完善的專題數(shù)據(jù)中心清單。

      2.4 開發(fā)云平臺和數(shù)據(jù)分析工具促進共享

      為促進高效高質量的數(shù)據(jù)共享,讓科學數(shù)據(jù)創(chuàng)造更大的社會價值,開發(fā)云平臺成為科學數(shù)據(jù)共享的重要方式。一方面,云平臺可以鏈接起數(shù)據(jù)產(chǎn)生方和數(shù)據(jù)需求方,幫助研究人員快速且無縫訪問、使用科學數(shù)據(jù),另一方面,云平臺也可以大大降低科學數(shù)據(jù)的基礎設施建設和運維成本。NIH主張使用大規(guī)模云計算平臺(用于數(shù)據(jù)存儲、訪問和計算的共享環(huán)境),通過分布式數(shù)據(jù)存儲資源來實現(xiàn)可訪問性和規(guī)模經(jīng)濟。以NIH Data Commons 為例[27],其主要職責是開發(fā)和測試云平臺,研究人員可以在該平臺上存儲、共享、訪問生物醫(yī)學和行為生成的數(shù)字對象(數(shù)據(jù)、軟件等),通過數(shù)據(jù)的便捷共享加速生物醫(yī)學發(fā)現(xiàn)。目前NIH也在與戰(zhàn)略伙伴共同努力創(chuàng)建一個可操作的服務平臺(PaaS)環(huán)境,推動整體的數(shù)據(jù)生態(tài)建設[28]。

      CNRS在歐盟委員會的歐洲開放科學云(European Open Science Cloud,EOSC)計劃中積極行動,為研究人員提供共享服務清單,促進國家范圍內(nèi)的云平臺建設。CNRS旗下的科學技術信息研究所也在開放科學的目標下,開發(fā)建設了Connect Sciences(一個可通過英語、意大利語、法語、西班牙語四種語言進行檢索的門戶網(wǎng)站),逐步打破數(shù)據(jù)共享的國別限制,并不斷匯集科學技術信息及醫(yī)學信息等,形成完善的知識云平臺[29]。

      因獲取和分析數(shù)據(jù)的技術水平不統(tǒng)一而導致的“技術壁壘”會對數(shù)據(jù)共享的程度和范圍產(chǎn)生較大阻礙。對此NIH和CNRS均開發(fā)了幫助研究人員高效挖掘和分析數(shù)據(jù)的線上工具,并向外界開放獲取分析工具的渠道和使用方式,將數(shù)據(jù)共享主體拓展至非專業(yè)性研究的大眾用戶。數(shù)據(jù)共享工具的開放不僅可以減少數(shù)據(jù)污染的情況發(fā)生,還可以通過工具的普及有效地降低因技術導致的“數(shù)據(jù)鴻溝”現(xiàn)象。NIH的國家衛(wèi)生服務研究和衛(wèi)生保健技術信息中心 (NICHSR)網(wǎng)站會提供數(shù)據(jù)庫和相關統(tǒng)計分析工具包[30]。CNRS在其官方網(wǎng)站上開放了數(shù)據(jù)分析工具GarganText以及數(shù)據(jù)可視化工具Lodex等,幫助研究人員提取數(shù)據(jù)和進行數(shù)據(jù)的可視化操作[31]。為了不斷優(yōu)化數(shù)據(jù)分析工具, NIH還設立項目資助私營部門的系統(tǒng)工程師,不斷將原型工具和算法更好地應用至生物醫(yī)藥研究領域,對現(xiàn)有工具進行改良迭代和優(yōu)化升級,如增加更具安全性數(shù)據(jù)接口等。

      2.5 促進數(shù)據(jù)重用的互動迭代機制

      為促進數(shù)據(jù)重用,NIH和CNRS采取擴大數(shù)據(jù)再利用范圍、提供良好的數(shù)據(jù)服務等方法,與數(shù)據(jù)使用者搭建良好的互動關系,提升數(shù)據(jù)重用效率。在擴大數(shù)據(jù)再利用范圍方面,NIH廣泛邀請數(shù)據(jù)領域專家參與數(shù)據(jù)科學項目解決方案和計劃立項工作。例如,數(shù)據(jù)科學戰(zhàn)略辦公室啟動數(shù)據(jù)和技術進步國家服務學者計劃,參與計劃的數(shù)據(jù)科學家和計算機工程師可獲得公共健康領域中的生物醫(yī)學數(shù)據(jù);數(shù)據(jù)科學戰(zhàn)略辦公室同時提供相關的潛在生物醫(yī)學問題,以促成多領域的科學家共同解決“如何加速人工智能在醫(yī)學成像中的臨床應用”等問題[32];數(shù)據(jù)引用規(guī)范方面,除了發(fā)布相關引用規(guī)范文件供研究人員參考外,隸屬NIH的美國國立醫(yī)學圖書館(National Library of Medicine,NLM)正將一些新的索引辦法發(fā)表在數(shù)據(jù)期刊上,如《科學數(shù)據(jù)》,幫助研究人員更好地掌握數(shù)據(jù)索引的使用[33];數(shù)據(jù)服務方面,CNRS的科學技術信息研究所會針對用戶需求,提供領域及數(shù)據(jù)專家的數(shù)據(jù)監(jiān)測和提取服務,幫助用戶整理及總結所需的數(shù)據(jù)信息。科學技術信息研究所還會聚焦當前的熱門研究話題,如禽流感和人類、生物技術和藥品等主題,在官方網(wǎng)站上將上述話題的評論文件進行集中發(fā)布,以推動交叉領域內(nèi)學者的研究互動。

      3 運行數(shù)據(jù)管理體系的關鍵要素分析

      在建立數(shù)據(jù)生命周期五階段數(shù)據(jù)管理工作的基礎上,NIH和CNRS還通過與外部多主體的互動合作,拓展數(shù)據(jù)存儲和共享工作的邊界,加大基礎實施建設和人才培養(yǎng)投入,重視數(shù)據(jù)安全隱私問題,穩(wěn)定支持數(shù)據(jù)管理工作的開展。這些舉措為確保數(shù)據(jù)管理體系的高效運作提供了進一步的保障,激發(fā)了機構數(shù)據(jù)生態(tài)的活力。

      3.1 推動多主體合作

      3.1.1 與其他機構合作,不斷探索數(shù)據(jù)交互新機制

      在數(shù)據(jù)管理流程的各階段,積極推進數(shù)據(jù)的交互十分重要。如數(shù)據(jù)收集階段,NIH與各類組織機構合作,促進數(shù)據(jù)協(xié)同以解決疾病難題。為改善對致病細菌和食源性疾病的監(jiān)測,NIH 與疾病預防控制中心(Centers for Disease Control and Prevention,CDC)和美國食品藥品管理局(Food and Drug Administration,F(xiàn)DA)合作,實施了病原體檢測項目和食品與飼料安全基因組學跨機構研究項目 (Gen-FS)。通過該項目,美國和國際上的許多公共衛(wèi)生機構從食物、環(huán)境和人類患者中收集樣本,并將獲得的細菌病原體的基因序列數(shù)據(jù)提交至NIH[34]。類似的還有結核病門戶項目,負責耐藥結核病的臨床醫(yī)生和科學家組成聯(lián)盟,與數(shù)據(jù)科學家和信息技術專業(yè)人員合作,收集多領域的結核病數(shù)據(jù),并向臨床和研究界提供這些數(shù)據(jù)。在數(shù)據(jù)存儲的互聯(lián)互通方面,由于擁有的數(shù)據(jù)庫體系龐大,NIH致力于加強整合,改進知識庫和數(shù)據(jù)庫的互操作性。其以美國國家生物技術信息中心(National Center for Biotechnology Information,NCBI)為中介,在云平臺與目前廣泛使用的NIH數(shù)據(jù)庫之間建立連接。

      在科學技術信息研究所的主導下,CNRS與法國高校的圖書館和文獻中心達成了合作關系。例如,在與法國高等教育編目中心(ABES)的良好合作下,科學技術信息研究所能夠實現(xiàn)與大學體系資料庫(SUDOC)的互通,構建了館際互借的良好互動體系。同時,科學技術信息研究所在與國際上重要科技信息機構的合作方面投入了大量精力,目前已經(jīng)和英國圖書館、加拿大科技情報所以及德國文獻服務系統(tǒng)Subito達成合作協(xié)議。與此同時,CNRS積極探索與美國計算機聯(lián)網(wǎng)圖書館中心(Online Computer Library Center,OCLC)、 美 國 劍 橋 科學 文 摘(ProQuest-Cambridge Scientific Abstracts,ProQuest-CSA)的合作路徑。如若科學技術信息研究所能促成與上述機構的合作,格式化的文獻就可以通過FTP或電子郵件實現(xiàn)訂單的跨國傳遞,或者以機器可讀文件的形式交換目錄。

      3.1.2 與公眾合作,開放科學邊界

      一方面,激勵公眾為數(shù)據(jù)庫提供數(shù)據(jù)。NIH積極招募志愿者以及通過補貼鼓勵公眾提交健康信息等數(shù)據(jù),以便為研究人員提供研究資源。每年有近3 500 名健康志愿者參與 NIH 的研究[35]。除此之外,每天有超過3 000個不同的團體和個人通過美國國家生物技術信息中心系統(tǒng)上傳數(shù)據(jù),數(shù)據(jù)包括人類和研究生物的基因組序列、基因表達數(shù)據(jù)、化學結構和性質(安全性和毒性數(shù)據(jù))、有關臨床試驗及其結果的信息等。許多個人和團體,如聯(lián)邦機構、出版商、州公共衛(wèi)生實驗室、基因檢測實驗室、生物技術和制藥公司等,積極主動地為生物醫(yī)學研究數(shù)據(jù)生態(tài)貢獻數(shù)據(jù)。

      另一方面,幫助公眾了解科學數(shù)據(jù)和支持科學研究。如CNRS開發(fā)了嶄新的交互式數(shù)字媒體Doranum軟件并在其官網(wǎng)發(fā)布,通過遠程培訓的方式幫助公眾了解數(shù)據(jù)管理計劃和共享方面的知識,并不定期地召開展數(shù)據(jù)知識研討會[36]。公眾可以在網(wǎng)站自由報名,與嘉賓共同探討數(shù)據(jù)管理的相關內(nèi)容。

      3.2 保障對基礎設施建設的資金投入

      NIH的《數(shù)據(jù)科學戰(zhàn)略計劃》明確提出要支持建設高質量的生物醫(yī)學研究數(shù)據(jù)基礎設施、實現(xiàn)數(shù)據(jù)資源生態(tài)系統(tǒng)的現(xiàn)代化。2020年,NIH請求增加1億美元投資內(nèi)部的信息技術基礎設施,保障數(shù)據(jù)隱私安全,以及不斷研發(fā)和更新數(shù)據(jù)處理、共享、分析的工具和方法等。

      為促進數(shù)據(jù)信息共享,CNRS同樣為基礎設施建設投入大量心血。2019年,CNRS為下屬的法語學術文獻開放網(wǎng)站,即HAL項目,額外撥款65萬歐元予以支持,通過研究工具的改進增加HAL存儲量,加強與其他國際開放檔案庫的互操作性等。同時,CNRS正在籌備一份基礎研究的設備規(guī)章,以擴大FAIR原則在所有學科中的應用,并承諾所有的基礎研究和數(shù)據(jù)存儲設備均將采用FAIR慣例和質量標準。

      3.3 重視數(shù)據(jù)安全和隱私問題

      當前,各管理主體在推進數(shù)據(jù)開放共享的實踐中,都遭遇了數(shù)據(jù)安全以及隱私保護等挑戰(zhàn)。通過對NIH的“注重數(shù)據(jù)開放的前提”和CNRS的“盡可能開放,必要時盡可能不開放”等相關數(shù)據(jù)政策進行梳理,可以發(fā)現(xiàn)二者對數(shù)據(jù)安全問題的重視。NIH積極探索通過技術升級等方式盡可能地保證數(shù)據(jù)獲取過程的安全性。如鼓勵研發(fā)人員開發(fā)和采用更適合移動設備與數(shù)據(jù)接口的工具,確保該信息工具可以獲得相關認證,以及認證的電子健康記錄和其他臨床數(shù)據(jù)能夠安全合法地應用于醫(yī)學研究等。NIH特別重視隱私保護,要求促進基因組研究數(shù)據(jù)的臨床轉化和應用必須是在保護相關研究測試人員隱私基礎上進行下一步研究。

      比較而言,CNRS由于涉及領域更加廣泛、不同學科領域之間存在異質性和復雜性,因此更多的是僅做出原則性規(guī)定,如科學成果需要在不挑戰(zhàn)個人數(shù)據(jù)或知識產(chǎn)權保護的情況下獲取和公開等。而對于數(shù)據(jù)隱私安全和知識產(chǎn)權的歸屬并未給出統(tǒng)一界定,號召各領域形成各自的具體要求規(guī)范。

      3.4 培養(yǎng)管理人才,保持管理體系活力

      隨著數(shù)據(jù)與其他領域交叉的問題涌現(xiàn),科研機構也在不斷將目光聚焦于數(shù)據(jù)科學的人才培養(yǎng)和隊伍建設。人才招聘方面,NIH啟動了“數(shù)據(jù)研究員計劃”等項目,為積極建設數(shù)據(jù)科學人才隊伍提供支撐。NIH主要采用數(shù)據(jù)驅動研究的理念招聘相關背景的科研人員,并將招聘的數(shù)據(jù)科學家和其他在項目管理等領域有專長的人納入NIH的一系列數(shù)據(jù)科學項目,比如“All of Us”項目等,通過人才的知識多樣化增強項目研究專業(yè)性[37]。CNRS數(shù)據(jù)管理部門的管理層人員也是領域內(nèi)具有數(shù)據(jù)類專業(yè)背景的管理人才。同時,為打破社會對數(shù)據(jù)科學領域女性研究人員的刻板印象,CNRS在網(wǎng)站上專門發(fā)布了12幅女性數(shù)字科學研究人員的肖像和漫畫[38],分享優(yōu)秀女性數(shù)據(jù)科學研究人才背后的故事,為實現(xiàn)數(shù)字科學研究的多樣性做出了巨大努力。

      人才培訓方面,CNRS憑借持續(xù)積累的文獻加工與數(shù)據(jù)庫管理的豐富經(jīng)驗,為有意愿提升信息檢索和數(shù)據(jù)管理方法的相關研究人員或者信息專業(yè)學者提供上述內(nèi)容的培訓課程[39],旗下的科學技術信息研究所還為此專門建設了一個線上的培訓網(wǎng)站,以便研究人員進行線上學習。

      人才評價方面,CNRS大力倡導對數(shù)據(jù)研究人員的評價方式改革??紤]到目前主要是通過文獻計量的方式進行評估,CNRS簽署了《數(shù)字運營彈性法案》(Digital Operational Resilience Act,DORA),承諾機構各部門采用更定性的評估方式,并且在評估時應考察各種類型的研究成果。

      4 對我國科研機構建設數(shù)據(jù)管理體系的啟示

      在開放共享的目標下,NIH和CNRS基于數(shù)據(jù)生命周期的管理體系和開放式數(shù)據(jù)生態(tài)系統(tǒng)建設有力推動了科學數(shù)據(jù)的流動和價值創(chuàng)造,為我國科研機構的數(shù)據(jù)管理工作提供了有益啟示。

      (1)重視頂層設計,建立基礎制度和組織管理架構。

      在建設數(shù)據(jù)管理體系之初,首先要做好頂層設計,明確機構數(shù)據(jù)管理工作的原則和定位,如NIH和CNRS始終堅持FAIR原則,并強調要構建開放共享的數(shù)據(jù)管理體系。聚焦戰(zhàn)略目標,科研機構應結合領域數(shù)據(jù)管理的特征制定相應的管理政策,統(tǒng)籌規(guī)劃數(shù)據(jù)管理工作的層級和要素,且要有專業(yè)的數(shù)據(jù)管理領導團隊牽頭推進數(shù)據(jù)管理工作??蒲袡C構的各部門需要展開相應的數(shù)據(jù)管理流程建設,并加強部門之間的互聯(lián)互通。領導團隊與各部門數(shù)據(jù)管理負責人之間緊密合作,形成科研機構數(shù)據(jù)管理的基本組織架構。

      (2)建設專業(yè)數(shù)據(jù)庫,多主體合作構建科學數(shù)據(jù)庫網(wǎng)絡。

      在業(yè)務范圍內(nèi),科研機構應著力聚焦建設領域數(shù)據(jù)庫。依托領域數(shù)據(jù)庫,再逐步拓展至交叉領域的數(shù)據(jù)庫鏈接,如NIH以美國國家生物技術信息中心為中介,連接起關聯(lián)領域的數(shù)據(jù)庫和數(shù)據(jù)資源,為數(shù)據(jù)的共享增加可操作性和便捷性。在建設數(shù)據(jù)庫的過程中,科研機構要增進跨領域多主體間的合作交流,為后續(xù)的數(shù)據(jù)資源流動和共享夯實基礎,最終參與到更大范圍的科學數(shù)據(jù)庫網(wǎng)絡建設。

      (3)技術和管理并重,注重科學數(shù)據(jù)安全和標準化工作。

      在技術上,首先要重視數(shù)據(jù)分析和管理工具的開發(fā)??蒲袡C構應加大數(shù)據(jù)庫軟件研發(fā)投入,開發(fā)數(shù)據(jù)檢索、分析等工具,在使用中擴大數(shù)據(jù)規(guī)模并迭代數(shù)據(jù)服務,促使科學數(shù)據(jù)價值流動替代科學數(shù)據(jù)流動。其次,加強區(qū)塊鏈等技術在科學數(shù)據(jù)保密和隱私保護等方面的應用,為安全前提下的科學數(shù)據(jù)開放共享提供技術支撐。

      在管理上,重視科學數(shù)據(jù)標準化工作,著力搭建科學數(shù)據(jù)分級分類管理制度體系,出臺科學數(shù)據(jù)安全使用各項規(guī)定??蒲袡C構應制訂和完善科學數(shù)據(jù)提交、描述等的標準格式,明確訪問控制要求??蒲袡C構應著力推進建立科學數(shù)據(jù)分級分類管理制度,為推進科學數(shù)據(jù)安全使用和共享提供制度基礎。依據(jù)國家數(shù)據(jù)安全管理相關規(guī)定,積極探索制定科學數(shù)據(jù)安全管理的職責和程序,形成具有可操作性的實施范例。

      (4)加強數(shù)據(jù)管理人才培養(yǎng),完善人才成長激勵制度。

      科研機構應重視科學數(shù)據(jù)管理人才培養(yǎng),給予研究項目支持和人員培養(yǎng)培訓等機會,為人才成長提供實踐土壤。研究制定適用于科學數(shù)據(jù)管理人才的崗位設置與晉升辦法,推動出版科學數(shù)據(jù)論文納入職稱晉升和工作績效等評價內(nèi)容,暢通數(shù)據(jù)管理人才的職業(yè)發(fā)展路徑。建立有競爭力的薪資管理制度,吸引具有領域知識背景和信息化管理技能的復合型人才積極投身科學數(shù)據(jù)事業(yè)。

      猜你喜歡
      數(shù)據(jù)管理數(shù)據(jù)庫科學
      企業(yè)級BOM數(shù)據(jù)管理概要
      定制化汽車制造的數(shù)據(jù)管理分析
      海洋環(huán)境數(shù)據(jù)管理優(yōu)化與實踐
      CTCS-2級報文數(shù)據(jù)管理需求分析和實現(xiàn)
      科學大爆炸
      小小藝術家(2019年6期)2019-06-24 17:39:44
      數(shù)據(jù)庫
      財經(jīng)(2017年2期)2017-03-10 14:35:35
      科學
      數(shù)據(jù)庫
      財經(jīng)(2016年15期)2016-06-03 07:38:02
      數(shù)據(jù)庫
      財經(jīng)(2016年3期)2016-03-07 07:44:46
      數(shù)據(jù)庫
      財經(jīng)(2016年6期)2016-02-24 07:41:51
      阜新市| 古浪县| 丰顺县| 时尚| 临泉县| 龙陵县| 黎川县| 宜阳县| 栾城县| 津南区| 洛南县| 四川省| 阿克陶县| 博客| 临安市| 塔河县| 凉城县| 宁都县| 湖北省| 阿图什市| 湖州市| 襄樊市| 永顺县| 新泰市| 三穗县| 临湘市| 揭西县| 金堂县| 洮南市| 阿拉善左旗| 星子县| 鸡泽县| 宁南县| 镇平县| 肥东县| 成安县| 同心县| 锡林郭勒盟| 尼木县| 保德县| 长岭县|