, , ,
隨著“開放科學(xué)、開放數(shù)據(jù)”的推進(jìn)與發(fā)展,以及科學(xué)數(shù)據(jù)共享協(xié)議的實(shí)施,科學(xué)數(shù)據(jù)共享的生態(tài)環(huán)境正在形成,數(shù)據(jù)管理、信息組織的研究與實(shí)踐面臨機(jī)遇與挑戰(zhàn)[1]。由于海量開放數(shù)據(jù)標(biāo)準(zhǔn)不一,科研人員和相關(guān)領(lǐng)域決策者想要快速找到可比較、可分析的數(shù)據(jù)并不容易。因此,如何實(shí)現(xiàn)相關(guān)領(lǐng)域海量數(shù)據(jù)的有效管理與整合變得非常重要。
信息時(shí)代每天都會(huì)產(chǎn)生大量的新數(shù)據(jù),新數(shù)據(jù)將舊數(shù)據(jù)淹沒或覆蓋,許多極具潛在價(jià)值的數(shù)據(jù)未能得到有效保存和管理,數(shù)據(jù)的利用率非常低。目前流行病學(xué)數(shù)據(jù)管理方法尚未形成統(tǒng)一的標(biāo)準(zhǔn)和模型,各醫(yī)院臨床數(shù)據(jù)管理中心開發(fā)的數(shù)據(jù)管理平臺(tái)也不盡相同,無法實(shí)現(xiàn)數(shù)據(jù)的統(tǒng)一管理和分析。因此需要制定全面的數(shù)據(jù)管理計(jì)劃,實(shí)現(xiàn)對海量數(shù)據(jù)進(jìn)行科學(xué)化管理,即從數(shù)據(jù)采集、保存和共享的全過程進(jìn)行數(shù)據(jù)管理,以確保數(shù)據(jù)得到良好的描述、存儲(chǔ),實(shí)現(xiàn)可訪問、可重復(fù)利用,為研究人員重新使用和理解數(shù)據(jù)奠定基礎(chǔ)。
近年來,惡性腫瘤的發(fā)病率不斷攀升,惡性腫瘤已經(jīng)成為我國乃至全世界最重要的公共衛(wèi)生問題之一。
國家癌癥中心發(fā)布的中國癌癥報(bào)告顯示,2013年我國癌癥發(fā)病率為284.55/100 000,即平均每10萬人就有284人新發(fā)癌癥,癌癥負(fù)擔(dān)十分嚴(yán)重[2-3]。因此,本文選取腫瘤流行病數(shù)據(jù)作為分析對象,對科學(xué)數(shù)據(jù)的獲取、處理、分析等環(huán)節(jié)進(jìn)行管理研究,詳細(xì)闡述數(shù)據(jù)從采集到發(fā)布的全生命周期,為相關(guān)科研人員進(jìn)行科學(xué)數(shù)據(jù)的有效管理與整合提供借鑒,為科學(xué)數(shù)據(jù)的再利用、數(shù)據(jù)價(jià)值的再創(chuàng)造提供參考。
對于規(guī)范化管理各類科學(xué)數(shù)據(jù)已有諸多相關(guān)研究,如科學(xué)數(shù)據(jù)眾包處理研究[4],國內(nèi)外開放科學(xué)數(shù)據(jù)的分布及特點(diǎn)分析[5],科學(xué)數(shù)據(jù)共享模式選擇與情景分析[6],大數(shù)據(jù)環(huán)境下的科學(xué)數(shù)據(jù)共享模式研究[7]等。不同組織機(jī)構(gòu)根據(jù)管理對象和使用場景提出了若干數(shù)據(jù)生命周期模型,如DCC審編生命周期模型(DCC Curation Lifecycle Model)[8]、UKDA數(shù)據(jù)生命周期模型(UK Data Archive Data Lifecycle)[9]、DataONE數(shù)據(jù)生命周期模型(DataONE Data Lifecycle)[10]、USGS科學(xué)數(shù)據(jù)生命周期模型(The USGS Science Data Lifecycle Model)[11]等。這些模型分別從不同角度描述了數(shù)據(jù)從產(chǎn)生、收集、描述、存儲(chǔ)、發(fā)現(xiàn)、分析到再利用的生命周期[12]。其中,由英國數(shù)字審編中心(Digital Curation Center,DCC)提出的DCC審編生命周期模型,可指導(dǎo)機(jī)構(gòu)或組織制定數(shù)據(jù)管理活動(dòng)方案、構(gòu)建標(biāo)準(zhǔn)與技術(shù)框架等,其適用對象是數(shù)據(jù)庫;由英國數(shù)據(jù)倉儲(chǔ)(UK Data Archive,UKDA)提出的UKDA數(shù)據(jù)生命周期模型,是面向社會(huì)經(jīng)濟(jì)研究數(shù)據(jù)的一種環(huán)形結(jié)構(gòu);由DataONE領(lǐng)導(dǎo)團(tuán)隊(duì)(DataONE Leadership Team)和DataONE社區(qū)共同提出的DataONE數(shù)據(jù)生命周期模型,是面向環(huán)境科學(xué)數(shù)據(jù)的一種環(huán)形結(jié)構(gòu)。
由美國地質(zhì)調(diào)查局(U.S.Geological Survey,USGS)提出的USGS科學(xué)數(shù)據(jù)生命周期模型,是密切圍繞科學(xué)研究的全生命周期的一種鏈?zhǔn)浇Y(jié)構(gòu),其適應(yīng)對象為各領(lǐng)域科學(xué)數(shù)據(jù)。
USGS是面向科研過程提出的一種用來指導(dǎo)和說明數(shù)據(jù)管理活動(dòng)與項(xiàng)目流程的框架,涵蓋了研究數(shù)據(jù)從概念、保存到共享的全過程[13],包括數(shù)據(jù)管理計(jì)劃、數(shù)據(jù)獲取、數(shù)據(jù)處理、數(shù)據(jù)分析、數(shù)據(jù)保存、數(shù)據(jù)出版與共享6個(gè)關(guān)鍵環(huán)節(jié)。各環(huán)節(jié)可相互協(xié)作形成有機(jī)整體,亦可根據(jù)需要進(jìn)行調(diào)整,以適應(yīng)不同領(lǐng)域的應(yīng)用(圖1)。USGS模型可以為管理人員評估和改進(jìn)科學(xué)數(shù)據(jù)的管理方法提供幫助,為科研人員做好數(shù)據(jù)的整合與管理工作提供指導(dǎo),進(jìn)而促進(jìn)科學(xué)數(shù)據(jù)管理的發(fā)展。
圖1 USGS數(shù)據(jù)生命周期模型
考慮到腫瘤領(lǐng)域科學(xué)數(shù)據(jù)數(shù)量大、來源多樣、標(biāo)準(zhǔn)不一等特點(diǎn),本文以USGS數(shù)據(jù)管理生命周期模型為指導(dǎo)框架,初步構(gòu)建了腫瘤科學(xué)數(shù)據(jù)的管理流程。具體流程見圖2。
數(shù)據(jù)管理計(jì)劃是用于描述整個(gè)數(shù)據(jù)生命周期內(nèi)數(shù)據(jù)處理及相關(guān)質(zhì)控的規(guī)范性文檔,包括數(shù)據(jù)獲取、處理、分析、存儲(chǔ)、發(fā)布與共享的全過程,其主要目的是保證研究數(shù)據(jù)的完整性和可用性?;赨SGS數(shù)據(jù)生命周期模型,制定腫瘤科學(xué)數(shù)據(jù)的管理計(jì)劃和元數(shù)據(jù)標(biāo)準(zhǔn),整合、分析不同來源的科學(xué)數(shù)據(jù),幫助相關(guān)人員統(tǒng)籌項(xiàng)目“開始-發(fā)布-歸檔”過程中與腫瘤數(shù)據(jù)有關(guān)的所有活動(dòng),應(yīng)對各階段的評估、處理和記錄要求,考慮每個(gè)階段的方法、所需資源以及預(yù)期產(chǎn)出等。
圖2 腫瘤科學(xué)數(shù)據(jù)生命周期模型構(gòu)建流程
USGS數(shù)據(jù)管理模型認(rèn)為,以數(shù)據(jù)的可靠性和完整性為目標(biāo)的數(shù)據(jù)獲取是確保數(shù)據(jù)處理、分析以及評估數(shù)據(jù)可重復(fù)再利用的關(guān)鍵。鑒于此,管理人員應(yīng)根據(jù)腫瘤數(shù)據(jù)源的特性,利用爬蟲工具、ETL工具、數(shù)據(jù)提交工具等從世界衛(wèi)生組織(World Health Organization,WHO)癌癥研究中心(International Agency for Research on Cancer,IARC)、中國腫瘤登記年報(bào)等官方渠道采集腫瘤科學(xué)數(shù)據(jù),進(jìn)行數(shù)據(jù)去重、完整性評估、缺失值處理等工作,并將數(shù)據(jù)存儲(chǔ)在數(shù)據(jù)庫中。
數(shù)據(jù)處理是對所獲取數(shù)據(jù)(包括定義數(shù)據(jù)元素,整合不同數(shù)據(jù)集,提取、轉(zhuǎn)換和加載等)進(jìn)行的操作,目的是為后續(xù)集成和分析做準(zhǔn)備。由于腫瘤科學(xué)數(shù)據(jù)來源多樣、標(biāo)準(zhǔn)不一,管理人員需要構(gòu)建數(shù)據(jù)整合標(biāo)準(zhǔn)化模型,使用各類自動(dòng)化工具開展多樣化的數(shù)據(jù)處理工作(包括數(shù)據(jù)標(biāo)準(zhǔn)化、噪音數(shù)據(jù)清洗、數(shù)據(jù)匿名化、數(shù)據(jù)分類、構(gòu)建整合數(shù)據(jù)集等),形成各類派生數(shù)據(jù),進(jìn)而為數(shù)據(jù)的后續(xù)使用提供標(biāo)準(zhǔn)及基礎(chǔ)。USGS數(shù)據(jù)管理模型可以實(shí)現(xiàn)醫(yī)學(xué)數(shù)據(jù)與人口數(shù)據(jù)、氣象環(huán)境數(shù)據(jù)、地理信息數(shù)據(jù)等其他類型數(shù)據(jù)的整合,為后續(xù)開展跨學(xué)科、跨領(lǐng)域的數(shù)據(jù)分析和服務(wù)提供支撐和保障。
數(shù)據(jù)分析是探索、闡釋上述經(jīng)過處理的數(shù)據(jù)的相關(guān)活動(dòng)(包括總結(jié)、制圖、統(tǒng)計(jì)分析、建模、假設(shè)檢驗(yàn)、科學(xué)發(fā)現(xiàn)、得出結(jié)論等),從而形成不同層面的派生數(shù)據(jù)集,為科研人員提供多元化的數(shù)據(jù)服務(wù)。本文選取USGS數(shù)據(jù)管理模型對腫瘤發(fā)病數(shù)據(jù)集和相應(yīng)的人口數(shù)據(jù)集進(jìn)行整合分析,進(jìn)而比較不同地區(qū)、不同年齡段、不同性別之間的腫瘤發(fā)病情況和趨勢變化,為腫瘤流行病學(xué)研究及政策制定提供借鑒。
數(shù)據(jù)存儲(chǔ)是保證數(shù)據(jù)可長期使用和可訪問的基礎(chǔ),是數(shù)據(jù)管理過程中最為重要也是最易被忽視的環(huán)節(jié)之一。在項(xiàng)目或任務(wù)前期和中期執(zhí)行過程中,數(shù)據(jù)存儲(chǔ)的重要性不言而喻;而在后期或項(xiàng)目結(jié)束后,由于預(yù)算、人力、時(shí)間等原因,數(shù)據(jù)有可能會(huì)被忽視、丟棄或損壞。為此,管理人員必須參照USGS模型,制定相關(guān)政策和標(biāo)準(zhǔn),以促使科研人員長期保存腫瘤科學(xué)數(shù)據(jù)、元數(shù)據(jù)、輔助產(chǎn)品、附加文檔等,確保相關(guān)數(shù)據(jù)的完整性、可用性和重用性,為后續(xù)的科學(xué)研究提供便利,發(fā)揮數(shù)據(jù)的潛在價(jià)值。
隨著互聯(lián)網(wǎng)、物聯(lián)網(wǎng)以及新媒體技術(shù)的快速發(fā)展,數(shù)據(jù)發(fā)布的渠道更為多樣化,數(shù)據(jù)共享更為便捷。數(shù)據(jù)同傳統(tǒng)出版物一樣可作為研究成果,其發(fā)布和共享亦是項(xiàng)目和任務(wù)的重要組成部分。管理人員應(yīng)遵從USGS模型的相關(guān)準(zhǔn)則對腫瘤科學(xué)數(shù)據(jù)進(jìn)行共享和發(fā)布,提供數(shù)據(jù)的瀏覽、下載、分析等服務(wù),為科研人員開展更為深入的研究節(jié)約時(shí)間,促進(jìn)腫瘤知識(shí)的有效轉(zhuǎn)化。
基于USGS數(shù)據(jù)生命管理周期模型對腫瘤流行病學(xué)發(fā)病數(shù)據(jù)和對應(yīng)的人口數(shù)據(jù)進(jìn)行整合、分析、管理(包括制定數(shù)據(jù)管理計(jì)劃、數(shù)據(jù)獲取、數(shù)據(jù)處理、數(shù)據(jù)分析、數(shù)據(jù)存儲(chǔ)、發(fā)布與共享等步驟),為相關(guān)人員做好數(shù)據(jù)整合與管理工作提供參考和借鑒。
借助USGS科學(xué)數(shù)據(jù)生命周期模型進(jìn)行癌癥科學(xué)數(shù)據(jù)的管理,結(jié)合實(shí)際需求對USGS數(shù)據(jù)生命周期模型進(jìn)行適當(dāng)調(diào)整,制定詳細(xì)的數(shù)據(jù)管理計(jì)劃(圖3)。首先,獲取癌癥科學(xué)數(shù)據(jù),解讀數(shù)據(jù)集的內(nèi)容、格式等;其次,根據(jù)數(shù)據(jù)集的具體情況進(jìn)行整合,初步分析數(shù)據(jù);第三,通過科學(xué)的計(jì)算方法對數(shù)據(jù)進(jìn)行再加工;最后對處理后的數(shù)據(jù)進(jìn)行對比、分析和使用,并做好數(shù)據(jù)的存儲(chǔ)和再利用。
圖3 癌癥發(fā)病科學(xué)數(shù)據(jù)管理計(jì)劃
基于現(xiàn)有數(shù)據(jù)的開放程度、完整性及權(quán)威性考慮,選取IARC發(fā)布的五大洲癌癥發(fā)病數(shù)據(jù)集CI5plus(Cancer Incidence in Five Continents Time Trends,http://ci5.iarc.fr/CI5plus/Default.aspx)進(jìn)行整合分析。CI5plus數(shù)據(jù)集包含了截至2007年,118個(gè)地區(qū)的癌癥發(fā)病數(shù)據(jù)以及與118個(gè)地區(qū)對應(yīng)的人口數(shù)據(jù)。考慮到實(shí)際入選CI5數(shù)據(jù)集的時(shí)間、地域特征、代表性等因素,本文選取上海市和浙江省嘉善縣1993-2007年的癌癥發(fā)病數(shù)據(jù)和相應(yīng)的人口數(shù)據(jù)進(jìn)行整合、處理和分析。部分來源數(shù)據(jù)見表1和表2。
表1 上海1993年不同部位癌癥在不同年齡段的發(fā)病人數(shù)
表2 上海1993-1997年不同性別在不同年齡段的人口數(shù)
其中,表1為1993年上海地區(qū)(地區(qū)編號為“15602”)不同部位癌癥(如列CANCER中“4”代表“胃”)在不同年齡段(如“N5_9”為5-9歲)的發(fā)病人數(shù)分布情況,表2為1993-1997年上海不同性別(列性別中“1”為男性,“2”為女性)在不同年齡段的人口數(shù)。
為了直觀、全面地對上述原始數(shù)據(jù)進(jìn)行對比分析,本文使用流行病學(xué)研究方法,分別從地區(qū)、癌癥類別、年齡組、性別等維度對已有數(shù)據(jù)進(jìn)行了整合。數(shù)據(jù)整合后,可以直觀地了解到各地區(qū)不同年度、不同性別、不同癌癥、不同年齡組的發(fā)病總數(shù)。如對表1中上海地區(qū)1993年男性各年齡段、各部位癌癥的發(fā)病數(shù)據(jù)(即所有地區(qū)編號為“15602”、年度為“1993”、性別為“1”的數(shù)據(jù)項(xiàng))進(jìn)行整合,可得到1993年上海地區(qū)男性總發(fā)病人數(shù)為19 496。整合后的部分?jǐn)?shù)據(jù)見表3(性別列“1”為男性,“2”為女性)。同時(shí)對各地區(qū)人口總數(shù)也進(jìn)行了相應(yīng)整合。
對人口和發(fā)病數(shù)據(jù)初步整合后,能夠直觀了解各地區(qū)、各年度、各癌癥類別、各年齡組的發(fā)病情況,但還不能滿足對不同地區(qū)、不同時(shí)期發(fā)病情況的對比分析和趨勢分析要求。
表3 上海1993-1997年各性別的癌癥發(fā)病總?cè)藬?shù)
為了實(shí)現(xiàn)這一目的,本文通過計(jì)算惡性腫瘤的發(fā)病率使其標(biāo)準(zhǔn)一致,從而具有可比性。本文所指的發(fā)病率為粗發(fā)病率,即某年該地登記的每10 萬人口中惡性腫瘤的新發(fā)病例數(shù),是反映人口發(fā)病情況最基本的指標(biāo)。
按照上述公式計(jì)算各地區(qū)惡性腫瘤的發(fā)病率,均保留小數(shù)點(diǎn)后兩位。如上海1993年男性的發(fā)病率為565.11/10萬,即每10萬人就有約565人新發(fā)癌癥,其他年度發(fā)病率如表4所示。
表4 1993-2007年上海和嘉善惡性腫瘤發(fā)病率
通過對比分析1993-2007年的發(fā)病率,可以發(fā)現(xiàn)上海惡性腫瘤發(fā)病率明顯高于嘉善。隨著時(shí)間的推移,兩地發(fā)病率都呈逐年上升趨勢,如2007年嘉善總發(fā)病率已上升至623.08/10萬,比1993年上升了約77%(圖4)。
另外,嘉善女性的發(fā)病率在同期均為最低,但其漲幅最為明顯,相關(guān)部門應(yīng)盡快采取措施控制嘉善地區(qū)女性發(fā)病增長速度。上海地區(qū)腫瘤發(fā)病率變化雖然較小,但發(fā)病率一直居高不下。
圖4 1993-2007年上海和嘉善惡性腫瘤發(fā)病趨勢
隨著年齡的增長,兩地發(fā)病率都呈現(xiàn)上升的趨勢,且男性增長速度普遍快于女性,整體發(fā)病率也明顯高于女性。1993-2007年上海和嘉善各年齡段惡性腫瘤發(fā)病率詳見圖5。
圖5 1993-2007年上海和嘉善各年齡段惡性腫瘤發(fā)病率
綜上,本文利用USGS數(shù)據(jù)生命周期管理模型,對部分腫瘤流行病學(xué)數(shù)據(jù)和相應(yīng)的人口數(shù)據(jù)進(jìn)行了整合分析,并借助流行病學(xué)研究方法和統(tǒng)計(jì)學(xué)方法對數(shù)據(jù)進(jìn)行了處理,旨在實(shí)現(xiàn)數(shù)據(jù)的最大價(jià)值。
本文所使用的數(shù)據(jù)均存儲(chǔ)于中國工程科技知識(shí)中心醫(yī)藥衛(wèi)生專業(yè)知識(shí)服務(wù)系統(tǒng)的MySQL數(shù)據(jù)庫中,包括元數(shù)據(jù)、整體數(shù)據(jù)以及整合、分析過程中形成的中間數(shù)據(jù)和結(jié)果數(shù)據(jù),并同步備份于另一數(shù)據(jù)庫,以確保數(shù)據(jù)長期有效,可被隨時(shí)訪問。
本文所涉及的數(shù)據(jù)均已發(fā)布于中國工程科技知識(shí)中心醫(yī)藥衛(wèi)生專業(yè)知識(shí)服務(wù)系統(tǒng)平臺(tái)(http://med.ckcest.cn/)。
該平臺(tái)提供了數(shù)據(jù)的簡要說明以及瀏覽、下載和分析(包括對不同地區(qū)、不同年齡段、不同性別、各類癌癥數(shù)據(jù)的對比分析以及癌癥發(fā)病情況隨時(shí)間變化的趨勢分析)等功能,以達(dá)到對數(shù)據(jù)有效管理與利用的目的,為相關(guān)人員獲取與深入挖掘數(shù)據(jù)提供有效途徑,也為重大戰(zhàn)略決策的制定提供直觀展示和可視化對比分析。
具體示例如圖6、圖7所示。
圖6數(shù)據(jù)瀏覽與下載圖7數(shù)據(jù)分析
隨著海量科學(xué)數(shù)據(jù)的開放與共享,相關(guān)研究人員和領(lǐng)域決策者面臨著如何從海量數(shù)據(jù)中快速獲取高質(zhì)量的數(shù)據(jù)、如何對不同領(lǐng)域的數(shù)據(jù)進(jìn)行科學(xué)整合、如何對各領(lǐng)域數(shù)據(jù)進(jìn)行對比分析、如何實(shí)現(xiàn)數(shù)據(jù)價(jià)值最大化等一系列問題,因此選擇合適的科學(xué)數(shù)據(jù)生命周期管理模型對數(shù)據(jù)進(jìn)行全過程管理是十分關(guān)鍵且有意義的。
根據(jù)數(shù)據(jù)生命周期管理模型的要求,本文制定了具體的數(shù)據(jù)管理計(jì)劃,并記錄了數(shù)據(jù)使用的各個(gè)環(huán)節(jié),能保證數(shù)據(jù)可被完整還原,為深度挖掘數(shù)據(jù)的價(jià)值提供保障。
通過整合分析后發(fā)現(xiàn),數(shù)據(jù)生命周期管理模型在一定程度上解決了相關(guān)人員的數(shù)據(jù)管理問題,也為推動(dòng)數(shù)據(jù)管理工作提供了借鑒。在數(shù)據(jù)泛濫的今天,選擇合適的數(shù)據(jù)模型,做好數(shù)據(jù)的管理和再利用,充分挖掘數(shù)據(jù)的潛在價(jià)值十分重要。