陳麗君
〔摘 要〕從約翰·霍普金斯大學開展科學數據管理服務的背景出發(fā),闡述約翰·霍普金斯大學科學數據管理服務的內容與實踐情況,并總結幾點啟示以供國內高校借鑒。
〔關鍵詞〕約翰·霍普金斯大學;科學數據管理;圖書館
DOI:10.3969/j.issn.1008-0821.2016.04.020
〔中圖分類號〕G252 〔文獻標識碼〕A 〔文章編號〕1008-0821(2016)04-0110-05
〔Abstract〕Based on the background of Johns Hopkins University Data Management Services,it expounded the content and practice of Johns Hopkins University Data Management Services and concludes some enlightenment for the college of our country.
〔Key words〕Johns Hopkins university;data management;libraries
約翰·霍普金斯大學是全美乃至西半球第一所研究型大學。據統(tǒng)計,2011年霍普金斯大學從美國國家科學基金會(NSF)、美國國家航空航天局(NASA)、美國國立衛(wèi)生研究院(NIH)和美國國防部(DOD)獲得超過18億美元的科研經費,這使得霍普金斯大學連續(xù)33年被評為全美年科研經費最高的大學[1]。2015年《美國新聞與世界報道》世界大學排名將約翰·霍普金斯大學列為世界第12[2]、美國第10[3]。該校高額的科研經費與排名靠前的美譽離不開成功的科研數據管理服務的支持與推動。約翰·霍普金斯大學的科學數據管理服務(Johns Hopkins University Data Management Services,簡稱JHUDMS)[4]是該校在經過數十年的研發(fā)、數據管理系統(tǒng)原型的建立、用戶需求的測評、服務能力的建設和可持續(xù)規(guī)劃的基礎上發(fā)展而來的,其成功經驗值得深入研究并供國內高校借鑒。
1 JHUDMS開展背景
2010年5月,美國科學基金會宣布從2011年1月開始所有項目申請書都要包含一份2頁的科學數據管理計劃。在約翰·霍普金斯大學研究人員對科學數據管理服務需求的推動和約翰·霍普金斯大學教務處處長、科技處處長和二級院系院長共同推動下,再加上JHUDMS開展之前,約翰·霍普金斯大學謝里登圖書館參與實施史隆數位巡天(Sloan Digital Sky Survey,簡稱SDSS)[5]項目以及與此項目相關的數據管理(Data Conservancy,簡稱DC)[6]工作中積累的大量專業(yè)知識、技能與建立的數據管理基礎設施,這共同促進了JHUDMS的開展。
基于前期實踐經驗、數據管理基礎設施基礎和約翰·霍普金斯大學研究人員對科學數據管理服務的迫切需求,謝里登圖書館首先對約翰·霍普金斯大學的環(huán)境和用戶需求進行了綜合性分析,并基于調查問卷對過去5年申請NSF項目的主要人員進行了調查,計算出了過去5年約翰·霍普金斯大學研究人員申報NSF項目的成功率。調查問卷設計的較簡單,主要包括科學數據存儲需求、研究人員目前的實踐行為、角色和科學數據潛在的保存期限。該問卷不以開展深度學術研究為目的,而以信息搜集和喚醒研究人員的科學數據管理意識為目的。謝里登圖書館的企業(yè)圖書館項目負責人Barbara Pralle對調查結果進行了綜合性分析,制定了一份科學數據管理商業(yè)計劃并提交到約翰·霍普金斯大學的管理部門。商業(yè)計劃中列出的費用預算是基于近3年來該校研究人員向NSF申請的項目在約翰·霍普金斯大學各部門的分布狀況、每個項目申報書所需的存儲容量、約翰·霍普金斯大學現有政策下每個項目申報書的保存期限和無障礙存取科學數據所需的支持這4個方面綜合計算出來的。因此,商業(yè)計劃中的預算包括存儲費用、人員費用、日常管理費用,需要管理的科學數據的總量和在科學數據接收階段對多樣化科學數據的處理費用等。約翰·霍普金斯大學的管理部門經過論證、研討,肯定了該計劃的合理性與可行性并最終批準了該計劃,使得JHUDMS在2011年7月正式開展。
2 JHUDMS開展概況
后來,為更有效地實施科學數據管理服務,約翰·霍普金斯大學建立了專門的科學數據服務網站(http:∥dmp.data.jhu.edu/)。有效的科學數據管理可加速科學研究的進程、保證科研成果的完整性和通過使科學數據的共享變得更加容易而滿足科研資助機構的需求。JHUDMS的愿景是通過提供指導、教育、培訓與科研數據的歸檔與共享等最佳數據管理服務支持研究人員、機構實現自身目標。JHUDMS包括3方面;提供科學數據管理計劃制定的咨詢服務,通過約翰·霍普金斯大學的數據檔案庫提供科學數據的歸檔服務和科學數據管理培訓服務。
2.1 提供制定科學數據管理計劃的咨詢服務
制定符合科研資助機構需求的高質量科學數據管理計劃能夠增加科研項目申報的競爭力,進而提高科研項目受資助的成功率。約翰·霍普金斯大學為用戶提供個性化的科學數據管理計劃制定的咨詢服務。用戶可通過電子郵件的形式(datamanagement@jhu.edu)在科研項目申報截止的兩周前聯系科學數據管理咨詢服務的人員,提供科學數據管理咨詢服務的人員將與研究人員取得聯系,以調查問卷的形式進行訪談,幫助研究人員搜集與組織科學數據管理計劃相關的信息。由于不同類型科研項目申報的截止日期不同,這需要約翰·霍普金斯大學圖書館對服務時間與服務人員進行合理把握與組織。
2.2 提供科學數據的歸檔服務
通過約翰·霍普金斯大學的數據檔案庫為研究人員提供科學數據的歸檔服務,目前該數據檔案庫共有17項研究報告、112個文件[7]。一項研究報告是一個研究數據集,包括數據目錄信息、數據文件和補充文件??茖W數據歸檔服務的特征包括:任何研究領域、任何格式科學數據的接收,為每個數據集提供一個永久性的引用標識和鏈接,對科學數據文件完整性的常規(guī)檢查和保存科學數據文件副本。目前約翰·霍普金斯大學提供兩種形式的科學數據歸檔服務,小數據集合的歸檔服務和大數據集合的歸檔服務。該項服務的形式包括培訓會議和應邀進行個性化培訓與指導。
2.2.1 提供小數據集合的歸檔服務
該項服務對于想要提供諸如出版物、仿真模型、實驗或小型項目等離散型研究成果數據在線存取服務的研究人員來說是十分理想的。該項服務的內容包括:提供上限為20GB的未壓縮數據存儲空間,為公眾提供為期5年的科學數據的免費存取與發(fā)現服務,提供科學數據的元數據和提供3次離散科學數據從研究人員到約翰·霍普金斯大學數據管理顧問之間的傳輸服務。目前該項服務是免費的,如果數據容量大于20GB或向公眾提供免費存取與發(fā)現科學數據服務的期限超過5年,需要根據研究人員的具體需求收取一定的費用。
2.2.2 提供大數據集合的歸檔服務
該項服務主要針對受資助的重大科研項目科學數據的管理并且是有償服務。該項服務的內容包括:提供上限為2TB的未壓縮數據存儲空間,為公眾提供為期5年的科學數據的免費存取與發(fā)現服務,提供面向科研項目全過程的科學數據的保存與共享服務,提供不受次數限制的離散科學數據從研究人員到約翰·霍普金斯大學數據管理顧問之間的傳輸服務和提供科學數據的分離識別、知識產權等方面的服務。目前對該項服務收取的費用為項目總資助經費的2%。如果數據容量大于2TB或向公眾提供免費存取與發(fā)現科學數據服務的期限超過5年,需要根據研究人員的具體需求收取一定的費用。
2.3 提供科學數據管理的培訓服務
該項服務對約翰·霍普金斯大學的所有研究人員和研究生都是免費的。服務內容包括:科學數據管理與共享的技巧與方法,包括科學數據備份程序,有效的科學數據文件的命名與組織,數據安全與存取控制和科學數據元數據;人物身份數據與科學數據的分離識別技巧,包括評估信息泄露的風險,在量與質2方面從科學數據中去除人物身份標識,便于科學數據的共享;科學數據重用服務,包括已經完成的科研項目和出版物中科學數據被研究人員和其他人重用的具體實現方法與步驟;用于共享的科學數據電子表格的準備與制作;編制科學數據管理計劃準備工作的指導。
3 啟 示
3.1 豐富的實踐經驗與DC平臺的成功研發(fā)是順利開展科學數據管理服務的堅實基礎 一方面,早在2011年1月NSF頒布的科學數據管理計劃頒布實施之前,謝里登圖書館就曾與研究人員一起制定科學數據管理計劃。早期與研究人員的溝通、協(xié)作與交流使謝里登圖書館能真正從用戶的角度理解圖書館員應該具備什么樣的數據管理技能,怎么更好地進行自我提升。另一方面,HUDMS開展之前,謝里登圖書館曾參與SDSS項目以及與此項目相關的DC平臺的的研發(fā)與管理。為歸檔與保存SDSS的數據,謝里登圖書館與美國天體物理研究協(xié)會簽署了一個關于SDSS數據歸檔與保存的5年期的學術合作備忘錄(MOU)。作為MOU的一部分,謝里登圖書館的服務人員開始獲取和研究SDSS的數據發(fā)布,這使服務人員能夠更好地理解不同類型和層次的數據、數據庫和數據處理過程。謝里登圖書館得到美國博物館、圖書館與微軟研究院的授權,與美國天體物理虛擬天文臺、美國天文學會合作,研發(fā)了一個鏈接數據與出版物的數據聚合框架模型[8]。該框架模型包含了重要的科學數據管理的思想,如數據的級別、對復合對象的處理與監(jiān)管等,不僅適用于天文學科學數據,對其他領域的科學數據同樣適用。此外,謝里登圖書館為實施科學數據管理工作,還專門向NSF的DataNet項目成功申請了數據管理專項經費用于DC平臺的研發(fā),JHUDMS是基于DC平臺開展的,該DC平臺的層次結構如圖1所示。該DC平臺通過一個通用的界面層用于科學數據元數據的管理、注冊,科學數據的存取、檢索與其他任務的執(zhí)行。存儲的科學數據本身分布于不同的天文臺、數據中心與研究團體,所以該DC平臺不僅用于這些科學數據的整合,還承擔科學數據交換所的角色,因為許多重要的科學數據或個別數據集沒有永久的存儲場所。該平臺能夠使不同的學術社區(qū)上傳與分享科學數據。上述努力為謝里登圖書館JHUDMS的順利開展積累了豐富的實踐經驗與大量的專業(yè)知識與技能,并奠定了良好的數據管理基礎設施基礎。
3.2 學校管理部門的支持是成功開展科學數據管理服務的重要保障 學校管理部門對JHUDMS的支持主要包括對謝里登圖書館開展的對研究人員調查的直接幫助和對謝里登圖書館科學數據管理商業(yè)計劃的行政批準。謝里登圖書館對過去5年申請NSF項目的主要人員進行調查時,約翰·霍普金斯大學的教務長負責提供科研項目申請人員的詳細信息并授權謝里登圖書館與這些研究人員進行聯系,科技處的副處長代表謝里登圖書館親自發(fā)放調查問卷。謝里登圖書館的企業(yè)圖書館項目負責人Barbara Pralle制定的科學數據管理商業(yè)計劃清晰地列出了科學數據管理的成本,對科學數據進行管理的利弊分并附相關證明材料,約翰·霍普金斯大學的管理部門對該科學數據管理商業(yè)計劃進行了論證并批準支持JHUDMS。行政批準JHUDMS的開展使JHUDMS被認為是該校圖書館系統(tǒng)(10個分館)開展的支持科學研究的服務,而不僅僅是某個圖書館開展的一項具體的服務,有利于增強研究人員對JHUDMS的認同感,提高參與度,進而使得JHUDMS能夠利用現存的管理部門支持系統(tǒng)和與研究人員的良好溝通持續(xù)地開展科學數據管理服務的宣傳推廣與用戶培訓工作。
3.3 清晰的服務內容是成功開展科學數據管理服務的重要因素 JHUDMS內容包括科研項目申請階段的JHUDMS和科研項目獲得資助階段的JHUDMS。科研項目申請階段的JHUDMS具體包括:幫助用戶了解所有的數據產物,基于調查問卷向用戶提供咨詢服務,討論存檔數據的需求和選擇,提供不同學科領域數據倉儲的選擇范圍,提供約翰·霍普金斯大學數據檔案庫信息和幫助用戶以清晰的語言撰寫2頁科學數據管理計劃??蒲许椖揩@得資助階段的JHUDMS具體包括:準備一份深度的科學數據管理計劃(并不僅僅是NSF要求的2頁科學數據管理計劃),推薦元數據標準,將科學數據遷移到約翰·霍普金斯大學的數據檔案庫,為研究人員管理數據便于以后他們能夠找到、存取和使用數據檔案庫的工具完善科學數據,數據檔案庫中科學數據的監(jiān)護及其與其他數據間的關聯,在數據檔案庫實施數據格式的轉化便于在未來發(fā)布諸如科學數據特征提取的軟件工具。科研項目申請階段的JHUDMS是免費的,直接受到約翰·霍普金斯大學管理部門的資助,目的是讓所有申請項目的研究人員都能享受到該項服務;科研項目獲得資助后JHUDMS是有償服務,如果研究人員選擇使用后者的服務,需要在項目申報書中寫明科學數據管理費用在申報的科研項目總經費中的比例,便于受到NSF的資助。
3.4 個性化的定制服務是成功開展科學數據管理服務的靈魂 個性化的科學數據管理計劃有助于科學數據的分享、存取和保存。利用模板制定科學數據管理計劃相對簡單并且僅代表了科學數據管理的開始。JHUDMS針對獲得資助的科研項目制定出了一個深層次的數據管理計劃因為僅僅2頁的數據管理計劃幾乎不能提供足夠的項目背景和細節(jié)等方面的信息,進而不利于研究人員完全理解科學數據及其相關的共享、存取和保存需求。JHUDMS致力于幫助研究人員使用科學數據完成特定的任務而不僅僅是滿足于科研項目資助機構的要求。為滿足研究人員個性化科學數據管理的需求,約翰·霍普金斯大學制定了一個概念層次模型[9],該概念層次模型被證明是對研究人員非常有用的,因為它清晰地展示了存儲(Storage)、歸檔(Archiving)、保存(Preservation)與監(jiān)管(Curation)這4個從底端到頂端的層次概念之間既相互獨立又相互依存的關系,有利于科學數據管理服務人員向研究人員解釋科學數據管理平臺上不同軟件的現在與未來的功能及其相關的服務,進而便于用戶做出個性化選擇,減少溝通障礙與不必要的誤解。
3.5 良好的支持科學數據生命周期的機構生態(tài)系統(tǒng)的構建是成功開展科學數據管理服務的關鍵 約翰·霍普金斯大學構建了良好的支持科學數據生命周期的機構生態(tài)系統(tǒng)(圖2),以支撐科學數據的整個生命周期。
此生態(tài)系統(tǒng)中的數據館員是約翰·霍普金斯大學專門針對JHUDMS的開展而招聘的,要求數據館員不僅有較高的數據管理技能,并且要具有豐富的科學數據管理經驗,這使得招聘到的數據館員不僅有圖書館學/情報學研究生學歷與學位,并且具有其他學科的背景,更要從事過SDSS項目以及與此項目相關的DC平臺的的研發(fā)與管理工作。招聘到的高素質科學數據服務人員能夠獨當一面地開展工作,并且跟蹤整個看科學項目申報、進展與結項的整個過程,并根據項目進展的需要,創(chuàng)新性地開展科學數據管理服務工作,得到了研究人員的認可。獲取科學數據與重用科學數據的環(huán)節(jié)離不開專業(yè)人士的指導,為此專門成立的倫理委員會,并設立了法律顧問崗位??茖W數據的整個生命周期離不開數據管理工作組的組織與協(xié)調,并需要保證數據的安全性、完整性與隱私權。
4 結 語
科學數據管理不僅僅與科學數據有直接關系,不僅僅是存儲(Store)、歸檔(Archive)、保存(Perserve)和監(jiān)管(Curate)科學數據,更與誰生產科學數據和誰使用科學數據有緊密聯系,需要讓用戶了解科學數據的上下文情景、動員與支持生產數據的研究人員的廣泛參與。JHUDMS代表了研發(fā)科學數據管理基礎設施向前發(fā)展的重要一步,它將最終改變數據存取與共享的文化,這種文化的改變不僅僅是通過技術手段能夠實現的,更需要社會各方面的支持。我國高??山梃bJHUDMS的成功經驗,與國內外盟友攜手緊跟時代的發(fā)展步伐,共同實現人類社會的飛躍發(fā)展。
參考文獻
[1]Johns Hopkins University[EB/OL].http:∥ncsesdata.nsf.gov/profiles/site?method=view&fice=2077,2016-01-04.
[2]Best Global Universities Rankings[EB/OL].http:∥www.usnews.com/education/best-global-universities/rankings,2016-01-04.
[3] National Universities Rankings[EB/OL].http:∥colleges.usnews.rankingsandreviews.com/best-colleges/rankings/national-universities?int=9ff208,2016-01-04.
[4]Research Data Management Services at JHU[EB/OL].http:∥dmp.data.jhu.edu,2016-01-04.
[5]The Sloan Digital Sky Survey:Mapping the Universe[EB/OL].http:∥www.sdss.org/,2016-01-04.
[6]Leading the movement to build data management tools and services across institutions and disciplines[EB/OL].http:∥dataconservancy.org,2016-01-04.
[7]Johns Hopkins Data Archive Dataverse Network[EB/OL].https:∥archive.data.jhu.edu/dvn/,2016-01-04.
[8]An OAI-ORE Aggrega/on for the Na/onal Virtual[EB/OL].Observatory.https:∥jscholarship.library.jhu.edu/bitstream/handle/1774.2/32723/Reynolds-2008-04-07.pdf?sequence=3,2016-02-23.
[9]Levels of Services and Curation for High Functioning Data[EB/OL].http:∥www.dcc.ac.uk/sites/default/files/documents/idcc13posters/Poster192.pdf,2016-01-04.
(本文責任編輯:孫國雷)