儲節(jié)旺 夏莉
摘? 要:[目的/意義]通過構建數(shù)據(jù)生命周期模型,進一步構建科學數(shù)據(jù)管理體系,為我國科學數(shù)據(jù)管理提供理論基礎。[方法/過程]在總結科學數(shù)據(jù)特征和分析當前存在挑戰(zhàn)的基礎上,采用文獻調研法和案例分析法,總結科學數(shù)據(jù)生命周期模型。[結果/結論]構建科學數(shù)據(jù)管理體系,結合實際提出3點對策:科學數(shù)據(jù)管理的政策細分、科學數(shù)據(jù)生命周期的階段性規(guī)劃和明確責任主體的數(shù)據(jù)素養(yǎng)與責任。
關鍵詞:科學數(shù)據(jù)管理;生命周期;數(shù)據(jù)管理體系;牛津大學
DOI:10.3969/j.issn.1008-0821.2020.10.004
〔中圖分類號〕G203? 〔文獻標識碼〕A? 〔文章編號〕1008-0821(2020)10-0034-09
Research on Scientific Dta Management Construction
Based on Life Cycle Theory
Chu Jiewang? Xia Li*
(School of Management,Anhui University,Hefei 230601,China)
Abstract:[Purpose/Significance]By building a data life cycle model,a scientific data management system is further constructed to provide a theoretical basis for scientific data management in China.[Method/Process]On the basis of summarizing the characteristics of scientific data and analyzing the current challenges,the literature survey method and case study method were used to summarize the scientific data life cycle model.[Result/Conclusion]Constructed a scientific data management system and put forward three countermeasures in accordance with the actual situation:Scientific data management policy segmentation,phased planning of scientific data life cycle,and clear data literacy and responsibility of responsible subjects.
Key words:scientific data management;life cycle;data management system;university of Oxford
伴隨互聯(lián)網和信息化技術的發(fā)展,社會信息呈指數(shù)形式增長,數(shù)據(jù)成為科學研究活動的新型基礎要素。隨著科學研究范式的演進,傳統(tǒng)的假設驅動轉為向基于科學數(shù)據(jù)進行探索的科學方法,即數(shù)據(jù)密集型科學——第四范式[1]??茖W活動不再以科研結果為唯一目標,對科學數(shù)據(jù)的整合分析、存儲傳播和共享利用能夠產生新的學術價值,為科學人員的探索研究提供新方法和新思路。
2018年3月,國務院發(fā)布《科學數(shù)據(jù)管理辦法》,明確提出我國科學數(shù)據(jù)管理在數(shù)據(jù)采集、數(shù)據(jù)保存、數(shù)據(jù)共享和數(shù)據(jù)保密安全等方面的主要內容與相關要求。當前的科學數(shù)據(jù)管理研究主題集中在國內外科學數(shù)據(jù)管理實踐調研、管理過程中的影響因素研究和相關政策解讀三大方面。在科學數(shù)據(jù)管理實踐調研與分析中,主要是通過對比國內外科學數(shù)據(jù)管理平臺建設[2]及其實踐經驗[3]為我國科學數(shù)據(jù)管理提供借鑒??茖W數(shù)據(jù)管理效率受數(shù)據(jù)文化、數(shù)據(jù)素養(yǎng)的影響[4],在提高科學數(shù)據(jù)管理知識的普及率和安全意識的同時增強科學數(shù)據(jù)管理技能,能夠有效實現(xiàn)數(shù)據(jù)素養(yǎng)與數(shù)據(jù)服務共同驅動[5]。在進行優(yōu)化科學數(shù)據(jù)管理流程時,要將管理成本[6]、數(shù)據(jù)評價[7]、需求識別[8]等要素作為主要考慮因素。對《科學數(shù)據(jù)管理辦法》及其相關政策的解讀是一大研究熱點,邢文明等從科學數(shù)據(jù)管理體系的二維視角出發(fā),分別從管理的角度和生命周期的角度明確科學數(shù)據(jù)管理中的主要任務責任主體的分工[9],張洋等[10]、魏悅等[11]從生命周期理論出發(fā),對《科學數(shù)據(jù)管理辦法》和圖書館服務創(chuàng)新進行研究。盡管近年來國內學者對科學數(shù)據(jù)管理的研究已經有了進一步深入和泛化,但從系統(tǒng)性的角度出發(fā),當前科研中的成果較為分散,研究視角較窄,對于科學數(shù)據(jù)管理的可持續(xù)發(fā)展缺乏全局推動力。數(shù)據(jù)生命周期理論作為數(shù)據(jù)管理的重要理論,強調數(shù)據(jù)的流動性和生命性,對科學數(shù)據(jù)管理意義極大。因此,本文以生命周期理論為支撐,構建完善系統(tǒng)的科學數(shù)據(jù)管理體系,充分考慮數(shù)據(jù)流動的各個環(huán)節(jié),力求在科學管理上發(fā)揮戰(zhàn)略性的引領作用。
1? 數(shù)據(jù)生命周期理論模型
科學數(shù)據(jù)的生命周期管理以數(shù)據(jù)的生命周期理論為基礎,通過細化數(shù)據(jù)流動中的各個環(huán)節(jié)及各環(huán)節(jié)之間的關系形成循環(huán)進化的系統(tǒng)[12],為科學數(shù)據(jù)的采集、增值、長期保存以及共享利用等多個方面提供選擇評價和優(yōu)化策略。
但從經濟的角度上看,科學數(shù)據(jù)是有限的,科學數(shù)據(jù)管理目標就是實現(xiàn)科學數(shù)據(jù)資源價值的最大化,減少數(shù)據(jù)在生命周期各個環(huán)節(jié)的管理成本消耗。通過數(shù)據(jù)生命周期管理,可以對科學數(shù)據(jù)實行規(guī)范有效的整合和利用,協(xié)助管理者做好數(shù)據(jù)規(guī)劃,以處理數(shù)據(jù)流動各環(huán)節(jié)的問題[13]。
對科學數(shù)據(jù)生命周期的研究,是我國處于科學數(shù)據(jù)管理探索階段的重點內容。通過文獻調研和網絡檢索發(fā)現(xiàn),國際上比較典型的科學數(shù)據(jù)生命周期模型主要有DCC(Digital Curation Center)模型、DataONE(DataONE Date Lifecycle)模型、UKDA(UK Date Archive)模型、DDI(Date Documentation Initiative)模型、USGS(US Geological Survey)模型、ICPSR(Inter-University Consortium for Political and Social Research)模型等。這些模型能夠為不同類型的科學數(shù)據(jù)服務,如社會經濟研究數(shù)據(jù)、環(huán)境科學數(shù)據(jù)、社會科學數(shù)據(jù)等。通過研究不同生命周期理論,能夠有效綜合構建符合我國發(fā)展現(xiàn)狀的科學數(shù)據(jù)管理模型,實現(xiàn)數(shù)據(jù)管理的本土化。國外科學數(shù)據(jù)生命周期大部分由科學數(shù)據(jù)管理機構提出,如ICPSR(美國高校校際政治與社會研究聯(lián)盟)由密歇根大學1962年創(chuàng)建、由埃塞克斯大學于1967年成立的UKDAE(英國國家數(shù)據(jù)檔案中心)等(見表1)。在我國也成立了一些科學數(shù)據(jù)管理機構,用于執(zhí)行高校社科數(shù)據(jù)管理功能。如北京大學2006年建立的ISSS(中國社會科學調查中心)、清華大學和國家統(tǒng)計局合作建立的CDC(中國經濟社會數(shù)據(jù)研究中心)以及同年在中國人民大學創(chuàng)建的NSRC(中國調查與數(shù)據(jù)中心)等。此外,還有部分學者以不同的學科領域數(shù)據(jù)為對象提出的數(shù)據(jù)生命周期模型(如表1所示)。
通過對國內外部分典型數(shù)據(jù)生命周期的對比,可以發(fā)現(xiàn)多個生命周期模型均包含數(shù)據(jù)收集、數(shù)據(jù)處理、數(shù)據(jù)利用等核心環(huán)節(jié),而針對不同數(shù)據(jù)類型各個模型存在差異。例如:DCC數(shù)據(jù)生命周期模型和DDI生命周期模型相比增加了數(shù)據(jù)描述表示和社區(qū)觀察的環(huán)節(jié),DDI模型主要多出數(shù)據(jù)分配、數(shù)據(jù)發(fā)現(xiàn)、數(shù)據(jù)再利用等環(huán)節(jié)。基于核心環(huán)節(jié)和科學數(shù)據(jù)所呈現(xiàn)出的創(chuàng)建過程系統(tǒng)性、組織過程生命周期性、數(shù)據(jù)資源的積累性[20]等特征,筆者將科學數(shù)據(jù)生命周期模型劃分為數(shù)據(jù)收集、數(shù)據(jù)處理、數(shù)據(jù)保存、數(shù)據(jù)共享、數(shù)據(jù)分析、數(shù)據(jù)再利用幾個環(huán)節(jié),構造一個封閉的科學數(shù)據(jù)生命周期模型,并確定每個階段的子階段,以科學數(shù)據(jù)利用的主體為對象循環(huán),有效收集與數(shù)據(jù)共享是整個生命周期中最重要的環(huán)節(jié),如圖1所示。
2? 科學數(shù)據(jù)生命周期管理特征與挑戰(zhàn)
科學數(shù)據(jù)本身所具有的繼承性和長期性凸顯出對其進行管理的重要性。隨著大數(shù)據(jù)技術的發(fā)展,科學數(shù)據(jù)共享利用的可行性得到提高,但科學數(shù)據(jù)的跨度寬、數(shù)量大、深度廣,對這些數(shù)據(jù)進行收集組織、整合存儲、傳播再利用是社會科學機構亟需學習的內容。
21? 科學數(shù)據(jù)的生命周期特征
1)科學數(shù)據(jù)收集的目的性
數(shù)據(jù)收集過程具有顯著的目的性特征,即為數(shù)據(jù)利用而服務。基于科學數(shù)據(jù)收集所立足的目的性視角,要精準獲取識別科研人員的需求,為不同領域不同學科的用戶收集不同類型的科學數(shù)據(jù)。作為數(shù)據(jù)生命周期管理的第一個環(huán)節(jié),收集目標能為后續(xù)的數(shù)據(jù)流動提供足夠的指導。
2)科學數(shù)據(jù)處理的專業(yè)性
科研機構和科研人員是科學數(shù)據(jù)處理的責任主體,在整個生命周期循環(huán)中起著重要作用??茖W數(shù)據(jù)相對而言具有更高的價值性、復雜性,數(shù)據(jù)讀取、數(shù)據(jù)轉換、數(shù)據(jù)挖掘、數(shù)據(jù)存檔等處理過程要求具備高素質的科研主體參與。因此,在科學數(shù)據(jù)生命周期的第二個環(huán)節(jié)呈現(xiàn)出一定的專業(yè)技術性。
3)科學數(shù)據(jù)存儲的繼承性和變革性
數(shù)據(jù)始終處于“生老病死”的輪回之中,但在其由“生”到“死”的過程,數(shù)據(jù)本身所含的價值被不斷占用和再生。在科學數(shù)據(jù)生命周期中,數(shù)據(jù)以流動的形式經過各個階段,將數(shù)據(jù)以某種形式存儲在某一載體上,就形成了靜態(tài)的數(shù)據(jù)流。但這一靜態(tài)是相對的,它既會隨著數(shù)據(jù)共享利用而流動,又會隨著數(shù)據(jù)存儲的增加或刪改而變動。在科學技術飛速發(fā)展和學科領域不斷擴展的時代背景下,科學數(shù)據(jù)存儲不僅表現(xiàn)在量上的變化,還包括數(shù)據(jù)的質上的積累,當這種積累的量達到一定程度時,就會產生質上的突破,即所謂的變革性??茖W數(shù)據(jù)存儲的變革性與繼承性是相輔相成的,數(shù)據(jù)在質的突破中繼承,在積累中推進質的突破。
4)科學數(shù)據(jù)共享的風險性與收益性
科學數(shù)據(jù)的利用價值高,管理效益明顯。縱觀各個學科領域,從數(shù)學、物理等理工科學,到天文、大氣等環(huán)境科學,再到醫(yī)學、農業(yè)、工程以及人文等學科,每個領域都能產生具有價值的科學數(shù)據(jù)。這些數(shù)據(jù)直接利益者為其所屬的科研人員,但從間接利益者的角度出發(fā),每個學科領域的研究者都與其他領域的科學數(shù)據(jù)存在著深淺不一的利益關系。但科學數(shù)據(jù)的價值并不總是樂觀的,科學數(shù)據(jù)共享意味著將具有價值的信息處于一個流通的環(huán)境中,數(shù)據(jù)的價值性、使用者的目的性、共享環(huán)境的穩(wěn)定性都會產生一定的數(shù)據(jù)共享風險。從宏觀的角度來說,科學數(shù)據(jù)的風險與收益是并存的,因此要把握好這一生命周期階段的管理的度。
5)科學數(shù)據(jù)分析的效率性
通過數(shù)據(jù)分析能夠發(fā)現(xiàn)知識價值,并在這個過程中產生新的科學數(shù)據(jù),在這個過程中不僅要評估各種數(shù)據(jù)類型的價值,同時也進行二次篩選,過濾多余信息??茖W數(shù)據(jù)分析的效率性指的是要以最小的數(shù)據(jù)管理投入獲取最大的價值,通過數(shù)據(jù)分析進一步提高數(shù)據(jù)的科學性和精準性,避免在流動循環(huán)中需要重復投入時間、精力。這是科學數(shù)據(jù)分析環(huán)節(jié)的特征,也是整個數(shù)據(jù)生命周期管理的意義。
6)科學數(shù)據(jù)再利用的價值性
沒有科學數(shù)據(jù)的再利用,整個生命周期管理無法形成相對封閉的循環(huán),而再利用的價值高低是科學數(shù)據(jù)管理效果直觀體現(xiàn)。在數(shù)據(jù)的再利用環(huán)節(jié)就是將數(shù)據(jù)流動的可用性充分發(fā)揮出來,為需求者的科研活動提供快捷精確的參考。價值性是科研數(shù)據(jù)再利用的本質屬性,也是科研數(shù)據(jù)投入生命周期管理的最終意義。
22? 科學數(shù)據(jù)生命周期管理的挑戰(zhàn)
從創(chuàng)建時間的總體趨勢上看,我國科學數(shù)據(jù)管理機構成立較晚,存在涉及的學科領域窄,數(shù)據(jù)平臺服務單一等問題[22]。但現(xiàn)有研究僅對科學數(shù)據(jù)管理提出挑戰(zhàn),未立足于生命周期視角審視科學數(shù)據(jù)管理過程,因此,筆者以生命周期理論為基礎,提出現(xiàn)階段科學數(shù)據(jù)生命周期管理存在的一些挑戰(zhàn)。
221? 科學數(shù)據(jù)價值評估自動化程度低
在數(shù)據(jù)生命周期管理中,首要問題是如何根據(jù)用戶(科研機構及其相關人員)需求來賦予科學數(shù)據(jù)的價值,以及如何根據(jù)數(shù)據(jù)的價值規(guī)劃服務等級目標??茖W數(shù)據(jù)具有一定的大數(shù)據(jù)特征,即數(shù)據(jù)規(guī)模大、數(shù)據(jù)種類多。當前科學數(shù)據(jù)生命周期管理中,數(shù)據(jù)與其服務對象的價值評估劃分大多是基于元數(shù)據(jù)的策略劃分方法來實現(xiàn)的,但不論是基于知識的劃分策略還是基于專家的劃分策略,最終離不開科研人員的自主評估。對生命周期管理來說,其主要目標是通過科學數(shù)據(jù)管理以使數(shù)據(jù)獲得更好的可用性,因此,數(shù)據(jù)劃分的高效率是實現(xiàn)有效科學數(shù)據(jù)生命周期管理必要手段。同時,科學數(shù)據(jù)的價值是隨著時間的變化而變化的,僅依靠人工化的數(shù)據(jù)價值評估,難以及時更新科學數(shù)據(jù)的服務對象,從而導致整個生命周期管理產生滯后的循環(huán)。
222? 科學數(shù)據(jù)存儲尚未實現(xiàn)標準化
基于生命周期實現(xiàn)對科學數(shù)據(jù)的管理需要建設一個標準化的存儲和服務平臺,減少應用配置之間的差異性,并對數(shù)據(jù)存儲類型、存儲方式進行標準化處理??茖W數(shù)據(jù)存儲是為其應用提供便利的,而科學數(shù)據(jù)生命周期管理的優(yōu)點也是通過有效的數(shù)據(jù)共享利用體現(xiàn)出來的,在數(shù)據(jù)存儲階段的基礎結構建設是推動標準化存儲服務的重要力量??茖W數(shù)據(jù)在經過有序化處理后,仍呈現(xiàn)出不同的信息形態(tài),當這些形態(tài)的信息缺少統(tǒng)一化的存儲工具和介質時,會阻礙科學數(shù)據(jù)公共價值的高效發(fā)揮,降低共享應用的效率,進而削弱數(shù)據(jù)生命周期管理的作用。
223? 科學數(shù)據(jù)流動循環(huán)缺乏規(guī)范性
從生命周期的角度來看,任何數(shù)據(jù)都處于從生成到其價值完全喪失的流動過程,在這個循環(huán)過程中,數(shù)據(jù)是活性的,在每個階段都具有不同的價值屬性。對科學數(shù)據(jù)的管理,不僅是在生命周期的不同階段對數(shù)據(jù)進行處理存儲利用,更重要的是建立一定的數(shù)據(jù)管理環(huán)境,保障整個生命流程在前后階段的順利轉換。要使數(shù)據(jù)流動保持有序性和高效率,必須依據(jù)一定的制度規(guī)范和技術引導。從現(xiàn)有的關于科學數(shù)據(jù)管理研究的文獻中可以發(fā)現(xiàn),目前,我國關于科學數(shù)據(jù)管理的相關政策較少,除國務院印發(fā)的《科學數(shù)據(jù)管理辦法》之外,針對不同類型科學數(shù)據(jù)的分治政策尚未提出[23]。在具體的科學數(shù)據(jù)管理領域,缺乏相應的管理規(guī)范引導,會使科學數(shù)據(jù)在生命周期內產生較差的流動性,影響其轉化增值。
3? 牛津大學科學數(shù)據(jù)生命周期管理案例分析
31? 牛津大學科學數(shù)據(jù)管理探索
2008年,牛津大學為了提高該??茖W數(shù)據(jù)利用的效率和價值,在JISC(英國聯(lián)合信息系統(tǒng)委員會)和DCC(數(shù)字管理中心)的政策指導和技術支持下,聯(lián)合校內不同部門機構,展開了一系列科學數(shù)據(jù)管理的相關項目,其中包括“Scoping Digital Repository Services for Research Data Management”的跨部門項目研究[24]。該項目主要通過數(shù)據(jù)審計方法和對不同機構的數(shù)據(jù)需求調研方法,實現(xiàn)對當前校內科學數(shù)據(jù)資源的分類整合。在對科學數(shù)據(jù)進行管理實踐的過程中,牛津大學以數(shù)據(jù)生命周期理論為基礎,啟動Damaro等相關需求調研項目,將DCC數(shù)據(jù)生命周期管理模型與已有的數(shù)據(jù)需求調研結果和管理工具相結合,構建起基礎的數(shù)據(jù)管理服務框架以映射生命周期內不同階段的數(shù)據(jù)流動[25]。
牛津大學根據(jù)不同職責為其各個部門匹配了不同的科學數(shù)據(jù)管理網站和科學數(shù)據(jù)管理基礎設施服務,形成了較為完整的科學數(shù)據(jù)管理體系。在科學數(shù)據(jù)管理服務框架中,牛津大學設置了包括數(shù)據(jù)需求調研、數(shù)據(jù)發(fā)展規(guī)劃和數(shù)據(jù)管理實施等3個階段。通過開展需求項目調研科學數(shù)據(jù)管理的實踐狀況,收集不同科研群體對科學數(shù)據(jù)的需求,根據(jù)這些多元需求制定相應發(fā)展策略,在策略指導下開發(fā)數(shù)據(jù)管理工具,最終構建面向需求的數(shù)據(jù)供應集成系統(tǒng)。
32? 牛津大學科學數(shù)據(jù)管理深化
牛津大學將數(shù)據(jù)生命周期理論與工作流程作為其科學數(shù)據(jù)管理的指導思想,提出從數(shù)據(jù)創(chuàng)建到數(shù)據(jù)存儲以及再利用的生命周期管理過程,并數(shù)據(jù)管理政策和管理工具推動科學數(shù)據(jù)管理基礎設施建設,保障科學數(shù)據(jù)生命周期的全方位管理。如圖2所示。
牛津大學使用DMP Online和DMP Tool等網絡工具制定數(shù)據(jù)管理計劃(DMP),借此來管理科學數(shù)據(jù),對數(shù)據(jù)創(chuàng)建、數(shù)據(jù)準備、數(shù)據(jù)存儲、數(shù)據(jù)發(fā)布、數(shù)據(jù)共享、數(shù)據(jù)重用等不同的生命周期階段所要采取的策略進行描述,從宏觀上規(guī)劃整個科學數(shù)據(jù)生命周期過程[26]。
科學數(shù)據(jù)主要產生于科研項目發(fā)展過程,在對這些數(shù)據(jù)進行組織處理之前,它們都處于管理的準備階段。牛津大學開發(fā)出Databank、Datafiner等多種數(shù)據(jù)管理項目對數(shù)據(jù)存儲和數(shù)據(jù)發(fā)現(xiàn)進行規(guī)范化管理,如Datafinder項目通過數(shù)據(jù)管理計劃、原生數(shù)據(jù)管理、數(shù)據(jù)的發(fā)現(xiàn)定位與數(shù)據(jù)獲取再利用4個模塊劃分,使該校的科學數(shù)據(jù)在整個生命周期中都能被有效地存儲以及被充分利用其價值。在科學數(shù)據(jù)的存儲階段,牛津大學主要利用的是ORA-Data存儲倉庫,用來長期保存校內學者和研究生產生的科學數(shù)據(jù)[27]。同時,向科研機構提供HFS科學數(shù)據(jù)備份服務,以保證科學數(shù)據(jù)的安全存儲和定期備份工作的順利進行。牛津大學非常注重數(shù)據(jù)的長期保存與共享,現(xiàn)階段正通過Data Flow項目提供兩階段的數(shù)據(jù)管理基礎架構,為研究人員利用、處理和共享科學數(shù)據(jù)提供技術支持[28]??茖W數(shù)據(jù)管理旨在將作為資源的科學數(shù)據(jù)二次開發(fā)實現(xiàn)增值再利用,對于完成管理目標的數(shù)據(jù)或是不符合增值條件的數(shù)據(jù),牛津大學采取數(shù)據(jù)銷毀手段,并從機密性和安全性的首要要求出發(fā),維護科學數(shù)據(jù)管理資助者和合作者的相關利益。為了提高科學數(shù)據(jù)生命周期管理的規(guī)范性和條理性,牛津大學明確權責機制,通過專門的PI(Principal Investigator)負責科學數(shù)據(jù)管理實踐,從而使其校內科學數(shù)據(jù)得到準確專業(yè)的管理引導。
經過近年來的發(fā)展,在牛津大學的科學數(shù)據(jù)管理過程中,長期以數(shù)據(jù)生命周期理論為指導,使得各階段的科學數(shù)據(jù)管理設施服務建設具有規(guī)范性和條理性。牛津大學在科研工作中嵌入數(shù)據(jù)生命周期開展科學活動,為科學數(shù)據(jù)收集和利用的系統(tǒng)性提供基礎。
33? 牛津大學科學數(shù)據(jù)生命周期管理經驗總結
牛津大學通過數(shù)據(jù)生命周期管理方法實現(xiàn)對科學數(shù)據(jù)的有效整合和再利用,通過生命周期的不同階段使科學數(shù)據(jù)流動更具有連貫性和有序性,確??茖W數(shù)據(jù)共享再利用的效率。根據(jù)牛津大學科學數(shù)據(jù)生命周期管理實踐,能夠從中總結出幾點借鑒經驗:一是完善技術體系;二是數(shù)據(jù)生命周期管理;三是資源統(tǒng)籌規(guī)劃。
牛津大學的科學管理基礎服務設施建設圍繞不同部門展開,為缺乏管理技術的科研人員提供針對性培訓和學習,形成系統(tǒng)的專業(yè)化管理體系。為提高科學數(shù)據(jù)管理質量和效率,牛津大學開發(fā)多種科學數(shù)據(jù)管理項目和管理工具,為其管理服務的基礎服務框架提供了有力支撐。因此能夠以較高的速度對處于生命周期不同階段的科學數(shù)據(jù)進行整合處理,減少數(shù)據(jù)流動的成本,推動科學數(shù)據(jù)管理建設。
通過生命周期視角下的循環(huán),科學數(shù)據(jù)在創(chuàng)建、組織、再利用的流動過程中進行規(guī)范化的整合,同時與工作流程緊密結合起來,在生命周期的不同階段映射科學數(shù)據(jù)管理建設要素,共同協(xié)助科研活動的開展。在流動中使數(shù)據(jù)管理有序準確,實現(xiàn)科學數(shù)據(jù)增值活動,將科學數(shù)據(jù)管理建設向健康的可持續(xù)發(fā)展的方向引導。
牛津大學在政府機構的相關管理政策、管理技術和管理制度等的支持和保障下,形成穩(wěn)定的科學數(shù)據(jù)流動環(huán)境,通過嵌入科研項目建設支持科學數(shù)據(jù)存儲共享,使科學數(shù)據(jù)管理中的資源得到充分利用。在這個過程中,牛津大學設置了主導部門和各個分部門,以主導部門的科學數(shù)據(jù)管理規(guī)劃策略為指導,將具體的數(shù)據(jù)管理任務落實到校內的不同部門,通過各階段的協(xié)同管理,最終實現(xiàn)科學數(shù)據(jù)管理理論與實踐的結合,提高科學數(shù)據(jù)管理的科學性和層次性。
4? 嵌入生命周期理論的科學數(shù)據(jù)管理體系構建研究
現(xiàn)有研究為科學數(shù)據(jù)管理提供了不少思路和新方法,但從總體上看,整個管理過程的系統(tǒng)性和關聯(lián)性仍需加強?;趯茖W數(shù)據(jù)生命周期模型的歸納,筆者試圖結合科學數(shù)據(jù)的特征及當前所面臨的挑戰(zhàn),對基本概念和管理環(huán)境進行邏輯關系梳理,構建整個管理過程中的體系框架,為科學數(shù)據(jù)管理提供理論基礎,如圖3所示。
41? 數(shù)據(jù)收集
數(shù)據(jù)收集是指決策者或用戶根據(jù)需求,采取不同渠道不同方式產生或收集數(shù)據(jù)的過程。數(shù)據(jù)管理計劃是貫徹科學數(shù)據(jù)生命周期全流程管理的出發(fā)點[29],應在充分考慮用戶需求的基礎上對數(shù)據(jù)進行分級發(fā)布[30]??茖W數(shù)據(jù)來源廣泛,涉及工程學科、醫(yī)學學科、農業(yè)學科、人文社科等多個領域,在生命周期的第一個階段要做好基礎工作,才能使科學數(shù)據(jù)管理健康發(fā)展??茖W數(shù)據(jù)收集應遵循全面性、時效性和準確性。全面性是指面對不同角度的科學數(shù)據(jù)和成果,要盡可能多渠道多方式收集,避免出現(xiàn)收集到的數(shù)據(jù)單一化、片面化,不利于科學活動的開展。時效性是指任何科學數(shù)據(jù)的價值會隨著時間空間的變化而變化,要保證收集到的數(shù)據(jù)仍處于壽命周期內,具有可利用的價值。衡量數(shù)據(jù)的時效性要同時考慮收集的時間及其所反映的物質狀態(tài)。在科研活動的全過程中,除了一部分科研成果,還會產生大量的數(shù)據(jù),這些數(shù)據(jù)并不完全是有用的,科研成果也并不總是有用的。因此,準確性要求數(shù)據(jù)收集時要從質量和數(shù)量上考慮,同時結合學科屬性,使收集工作高效完成。
42? 數(shù)據(jù)處理
數(shù)據(jù)處理是指在收集階段結束后,對數(shù)據(jù)進行轉換、重組、增刪等工作,包括內容上、載體上和描述方式上的轉換。在這一階段,數(shù)據(jù)分析技術、挖掘技術、重組技術等數(shù)據(jù)管理技術最為核心,使用的范圍最深最廣。在管理過程中對數(shù)據(jù)的選擇評價能夠優(yōu)化數(shù)據(jù)資源結構[31],科學數(shù)據(jù)通常具有多源異構的特征,因此需要配備充足的專業(yè)人員,以較高的數(shù)據(jù)素養(yǎng)推動科學數(shù)據(jù)有效管理[32]。首先要制定處理標準,對數(shù)據(jù)的有效范圍和可允許的偏差做出界定,使處理過程標準化;其次要選擇專門的技術人員,為數(shù)據(jù)的有效處理組織做好人員匹配工作,使處理過程專業(yè)化;最后要制定數(shù)據(jù)處理計劃,借鑒國內外其他科學數(shù)據(jù)的管理,使數(shù)據(jù)處理過程效率化。
43? 數(shù)據(jù)保存
數(shù)據(jù)保存的目的是要將處理完的數(shù)據(jù)以某種形式存放在一定的物質載體上,以便為以后需要時查找利用。數(shù)據(jù)存儲的集合為數(shù)據(jù)庫(信息庫),在進行保存工作,科研工作人員要注意對數(shù)據(jù)按某一標準進行分類,如按內容分類或按存儲手段分類。在數(shù)據(jù)保存階段,要同時設置容量擴充和維護更新的功能,科學技術和當下社會變遷的速度使得科學數(shù)據(jù)的更新、增長速度大大提高,及時剔除無用數(shù)據(jù),擴充實時數(shù)據(jù)是非常有必要的。此時的存儲是為一定目標服務的,因此必須明確數(shù)據(jù)保存用以支持何種目的,同時,要權衡經濟是否合算,以實現(xiàn)效率最大化。在數(shù)據(jù)保存中也要充分考慮數(shù)據(jù)安全問題,包括版權、知識產權和轉存許可方面[11]。
44? 數(shù)據(jù)共享
科學數(shù)據(jù)共享的積極意義在于向不同需求用戶開放數(shù)據(jù),以供其他科研活動利用并產生新價值,推動學術交流進步。科學數(shù)據(jù)共享的風險性和收益性從客觀上要求明確責任主體和制定細分政策[33],對于科學數(shù)據(jù)來說,共享的具體內容仍需擴大,如共享方式、共享時間、共享權限等。數(shù)據(jù)共享是整個科學數(shù)據(jù)生命周期的核心,也是科學數(shù)據(jù)管理的直接目的。通過數(shù)據(jù)共享能夠降低科學活動收集數(shù)據(jù)、處理數(shù)據(jù)和驗證數(shù)據(jù)的成本,有利于減少科研過程中的成本投入。但數(shù)據(jù)共享的本質不在于開放獲取,而是數(shù)據(jù)利用,只有被用戶有效獲取并產生價值的共享才是具有現(xiàn)實意義的[34]。
45? 數(shù)據(jù)分析
數(shù)據(jù)分析不同于數(shù)據(jù)處理,但與數(shù)據(jù)處理目的相同,都是為了提高數(shù)據(jù)利用的效率。數(shù)據(jù)分析側重于對數(shù)據(jù)的應用層次和應用環(huán)境進行劃分,從全局性角度為不同科學研究匹配合適數(shù)據(jù),以避免共享利用過程中的混亂和誤差。數(shù)據(jù)分析要使用一定的統(tǒng)計方法,從更深層次對數(shù)據(jù)中的內容信息進行提取研究,幫助科研人員做出判斷。在這個階段,分析的著眼點是梳理出數(shù)據(jù)的邏輯和層次,最大化地開發(fā)數(shù)據(jù)的潛在價值。數(shù)據(jù)分析的意義不僅是描述數(shù)據(jù)特征和發(fā)現(xiàn)新價值,還在于為即將要服務的科學活動提供數(shù)據(jù)驗證。通過使用定性和定量分析方法,對不同類型數(shù)據(jù)進行多維價值分析,有助于提高科學數(shù)據(jù)利用的質量。
46? 數(shù)據(jù)再利用
科學數(shù)據(jù)生命周期的最后一個階段是數(shù)據(jù)再利用,但從系統(tǒng)性觀點來看,數(shù)據(jù)再利用同時意味著新的數(shù)據(jù)生命周期的開始,以此循環(huán)往復。再利用的過程實際上就是科學數(shù)據(jù)增值的過程??茖W數(shù)據(jù)本身是已經實現(xiàn)一次服務的數(shù)據(jù),數(shù)據(jù)的共享開放,能夠同時為不同對象提供使用。通過再利用,可以最大程度地提高科學數(shù)據(jù)的利用效率[10]。在提供數(shù)據(jù)服務時,要對數(shù)據(jù)再利用階段的科研人員進行相關培訓,以提高對新數(shù)據(jù)的判斷能力和利用效果的評估能力。
在科學數(shù)據(jù)管理體系中,要以3個保障為基礎,即制度保障、安全防護保障和理論保障。處于科學數(shù)據(jù)生命周期的管理環(huán)境,通過制度保障規(guī)范和優(yōu)化管理流程;通過安全防護避免知識產權和成果的污染;通過理論保障為科研人員提供實踐依據(jù)。
5? 結? 語
通過科學數(shù)據(jù)管理體系框架的提出,對于科學數(shù)據(jù)管理具有重要的啟示意義。但理論需要以實踐證實,也要通過實踐不斷探索以完善理論。根據(jù)科學數(shù)據(jù)管理當前面臨的挑戰(zhàn)和數(shù)據(jù)生命周期流程,以及牛津大學科學數(shù)據(jù)生命周期管理實例,可以對3個方面重點關注:科學數(shù)據(jù)管理的政策細分、科學數(shù)據(jù)生命周期的階段性規(guī)劃和責任主體的數(shù)據(jù)素養(yǎng)與責任。
《科學數(shù)據(jù)管理辦法》為科學數(shù)據(jù)管理提供了較為周密的指導意見,但從實踐層面看,仍需將宏觀制度向中觀、微觀層面過渡。目前,高校圖書館是進行科學數(shù)據(jù)管理的主要機構,不同高校和不同科學數(shù)據(jù)管理平臺存在的內外部環(huán)境存在差別,《辦法》作為戰(zhàn)略性政策,在各機構進行實際科學數(shù)據(jù)管理時提供的動力不足。因此需要依托當?shù)貦C構需求、資源、技術等制定詳細的指導策略。
數(shù)據(jù)管理計劃成為科學數(shù)據(jù)管理研究領域中新的關注點,通過統(tǒng)籌規(guī)劃結合數(shù)據(jù)生命周期管理有助于進一步提高科學數(shù)據(jù)管理效率和規(guī)范。針對數(shù)據(jù)流動的不同環(huán)節(jié),可以考慮制定階段性的管理計劃,同時考慮各部分管理計劃之間的關聯(lián),力求實現(xiàn)“1+1>2”的管理目標。
科研機構、科研人員在科學數(shù)據(jù)管理中承擔主要責任者的角色,責任主體的數(shù)據(jù)素養(yǎng)、安全意識、產權意識和技能掌握等各個方面影響科學數(shù)據(jù)管理的實踐發(fā)展。在未來應強調責任主體參與數(shù)據(jù)管理的核心地位,對責任主體的權利、責任、利益進行明確劃分和統(tǒng)一,增強其數(shù)據(jù)管理素質,是推動科學數(shù)據(jù)管理向規(guī)范化、協(xié)同化發(fā)展的可行措施。
參考文獻
[1]鄧仲華,李志芳.科學研究范式的演化——大數(shù)據(jù)時代的科學研究第四范式[J].情報資料工作,2013,(4):19-23.
[2]衛(wèi)軍朝,張春芳.國內外科學數(shù)據(jù)管理平臺比較研究[J].圖書情報知識,2017,(5):97-107.
[3]崔旭,趙希梅,王錚,等.我國科學數(shù)據(jù)管理平臺建設成就、缺失、對策及趨勢分析——基于國內外比較視角[J].圖書情報工作,2019,63(9):21-30.
[4]沈婷婷.數(shù)據(jù)素養(yǎng)及其對科學數(shù)據(jù)管理的影響[J].圖書館論壇,2015,(1):68-73.
[5]朱大麗,介風.從科學數(shù)據(jù)素養(yǎng)角度剖析國內外高校科學數(shù)據(jù)管理[J].圖書館學研究,2015,(16):53-59.
[6]衛(wèi)軍朝,李思雪.國外主要科學數(shù)據(jù)管理成本模型調研與分析[J].圖書館學研究,2019,(22):15-27.
[7]崔旭,韓子鶴,王錚,等.科學數(shù)據(jù)管理中的數(shù)據(jù)選擇與評價關鍵要素研究[J].情報理論與實踐,2018,41(3):78-82,100.
[8]王丹丹.科學數(shù)據(jù)管理服務需求識別方法研究[J].大學圖書館學報,2018,(1):41-47.
[9]邢文明,洪芳林,李曉妍.科學數(shù)據(jù)管理體系的二維視角——《科學數(shù)據(jù)管理辦法》解讀[J].圖書情報工作,2019,63(23):30-37.
[10]張洋,肖燕珠.生命周期視角下《科學數(shù)據(jù)管理辦法》 解讀及其啟示[J].圖書館學研究,2019,(15):37-43.
[11]魏悅,劉桂鋒.基于數(shù)據(jù)生命周期的國外高??茖W數(shù)據(jù)管理與共享政策分析[J].情報雜志,2017,36(5):153-158.
[12]Carlson J.The Use of Life Cycle Models in Developing and Supporting Data Services[J].Research Data Management:Practical Strategies for Information Professionals,2014:63-86.
[13]Sinaeepourfard A,Garcia J,Masip-Bruin X,et al.A Comprehensive Scenario Agnostic Data LifeCycle Model for an Efficient Data Complexity Management[C]..2016 IEEE 12th International Conference on e-Science(e-Science).IEEE Computer Society,2016.
[14]Higgins S.The DCC Curation Lifecycle Model[J].International Journal of Digital Curation,2008,3(1):134-140.
[15]DataONE.Data Life Cycle[EB/OL].https://www.dataone.org/data-life-cycle,2019-12-25.
[16]Ball A.Review of Data Management Lifecycle Models[DB/OL].https://purehost.bath.ac.uk/ws/portalfiles/portal/206543/redm1rep120110ab10.pdf,2019-12-25.
[17]Guide to Social Science Data Preparation and Archiving:Introduction[EB/OL].https://www.icpsr.umich.edu/icpsrweb/,2019 -12-25.
[18]JISC[EB/OL].https://www.webarchive.org.uk/wayback/en/archive/20130807174415/http://www.webarchive.org.uk/ukwa/alpha/J/page/6,2020-01-03.
[19]章惠民.福建煙草數(shù)據(jù)中心報表全生命周期管理模型構建[J].中國煙草學報,2018,24(6):104-109.
[20]孟祥保,錢鵬.數(shù)據(jù)生命周期視角下人文社會科學數(shù)據(jù)特征研究[J].圖書情報知識,2017,(1):76-88.
[21]黎建輝,沈志宏,孟小峰.科學大數(shù)據(jù)管理:概念、技術與系統(tǒng)[J].計算機研究與發(fā)展,2017,54(2):6-18.
[22]徐妹,馮小英.中外高校社會科學數(shù)據(jù)管理與服務比較研究[J].圖書館工作與研究,2018,(2):28-35.
[23]張洋,肖燕珠.生命周期視角下《科學數(shù)據(jù)管理辦法》解讀及其啟示[J].圖書館學研究,2019,(15):37-43.
[24]Luis Martinez-Uribe.Finding of the Scoping Study Interviews and the Research Data Management Workshop[EB/OL].www.ict.ox.ac.uk/odit/projects/digitalrepository/,2020-01-03.
[25]武琳,林明春.牛津大學科學數(shù)據(jù)管理經驗與啟示[J].圖書館學研究,2015,(24):48-53.
[26]楊云秀,顧立平,張瑤,等.國外科研教育機構數(shù)據(jù)政策的調研與分析——以英國10所高校為例[J].圖書情報工作,2015,59(5):53-59.
[27]The University of Oxford.Tools,Services and Training[EB/OL].http://researchdata.ox.ac.uk/home/tools-and-resources/,2020-01-07.
[28]Oxford E-Research Centre[EB/OL].http://www.oerc.ox.ac.uk/,2020-01-07.
[29]劉瓊,劉桂鋒.高校圖書館科學數(shù)據(jù)管理計劃服務框架構建與解析[J]國家圖書館學刊,2019,(4):21-31.
[30]賴劍菲,洪正國.對高??茖W數(shù)據(jù)管理平臺建設的建議[J].圖書情報工作,2013,57(6):23-27.
[31]崔旭,韓子鶴,王錚,等.科學數(shù)據(jù)管理中的數(shù)據(jù)選擇與評價關鍵要素研究[J].情報理論與實踐,2018,41(3):78-82.
[32]張艷梅.用戶數(shù)據(jù)素養(yǎng)教育視角下的圖書館科學數(shù)據(jù)管理研究[J].圖書與情報,2015,(4):139-142.
[33]劉莉,劉文云,劉建,等.英國科研數(shù)據(jù)管理與共享政策研究[J].情報資料工作,2019,40(5):46-53.
[34]黃靜,周銳.基于信息生命周期管理理論的政府數(shù)據(jù)治理框架構建研究[J].電子政務,2019,(9):85-95.
(責任編輯:陳? 媛)