張艷
(1.上海理工大學(xué) 光電信息與計(jì)算機(jī)工程學(xué)院,上海 200093;2.復(fù)旦大學(xué)數(shù)字醫(yī)學(xué)研究中心,上海市醫(yī)學(xué)圖像處理與計(jì)算機(jī)輔助手術(shù)重點(diǎn)實(shí)驗(yàn)室;上海 200032)
近年來,信息技術(shù)的進(jìn)步讓生物醫(yī)學(xué)成為科技發(fā)展最迅速的領(lǐng)域之一,基因序列、各種醫(yī)學(xué)圖像、病歷記錄和多中心臨床藥物試驗(yàn)等領(lǐng)域每天產(chǎn)生大量各類數(shù)據(jù),并呈爆炸式增長,使生物醫(yī)學(xué)信息處理跨入網(wǎng)絡(luò)化的大數(shù)據(jù)時(shí)代[1,2]。研究人員、臨床醫(yī)生和醫(yī)療監(jiān)管機(jī)構(gòu)如何有效存儲、分類、處理和挖掘這些復(fù)雜、豐富的生物醫(yī)學(xué)信息,發(fā)現(xiàn)蘊(yùn)藏在大量數(shù)據(jù)集中的有用知識,并最大程度地減少安全、倫理等相關(guān)問題造成的負(fù)面影響,對揭示人體奧秘、提高人類健康水平有著十分重要的科學(xué)價(jià)值和現(xiàn)實(shí)意義。
大數(shù)據(jù)是指無法在可容忍的時(shí)間內(nèi)用傳統(tǒng)IT技術(shù)和軟硬件工具進(jìn)行感知、獲取、管理、處理和服務(wù)的數(shù)據(jù)集合[1]。現(xiàn)實(shí)社會中來自網(wǎng)絡(luò)搜索引擎、電子商務(wù)、交通監(jiān)控、物聯(lián)網(wǎng)等各方面的數(shù)據(jù)已經(jīng)跨越GB級,向TB, PB甚至EB(1018)級發(fā)展,人類社會已經(jīng)邁入大數(shù)據(jù)時(shí)代。大數(shù)據(jù)的時(shí)代特征可以歸納為4個(gè)方面,即4V[1]:(1)數(shù)據(jù)量浩大(Volume)——數(shù)據(jù)集合的規(guī)模不斷擴(kuò)大,已從GB到PB級,甚至以EB和ZB來計(jì)數(shù)。近年來,基因組學(xué)(Genome)、蛋白組學(xué)(Proteome)、腦連接網(wǎng)絡(luò)等研究產(chǎn)生大量數(shù)據(jù)。個(gè)人基因組數(shù)據(jù)庫PGP(the Personal Genome Project)、 歐洲癲癇病數(shù)據(jù)庫EDE(the European Data base on Epilepsy)等數(shù)據(jù)庫通過互聯(lián)網(wǎng),被很多科研人員共享,使數(shù)據(jù)量在橫向上迅速增大[3]。(2)模態(tài)繁多、異構(gòu)(Variety)——大量數(shù)據(jù)是結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),數(shù)據(jù)之間的復(fù)雜關(guān)聯(lián)無處不在。(3)生成快速(Velocity)——數(shù)據(jù)以數(shù)據(jù)流的形式動(dòng)態(tài)、快速地產(chǎn)生,具有很強(qiáng)的時(shí)效性和涌現(xiàn)特征。(4)價(jià)值巨大(Value)——大數(shù)據(jù)的分析、挖掘?qū)ι鐣恼?、?jīng)濟(jì)和科技等諸多領(lǐng)域的發(fā)展起到革命性的作用。尤其是對醫(yī)藥研發(fā)、疾病診療、公共衛(wèi)生管理和健康危險(xiǎn)因素分析等方面有重要意義。MGI的分析報(bào)告指出:大數(shù)據(jù)技術(shù)可以保障醫(yī)療系統(tǒng)安全有效運(yùn)行,讓美國每年減少8%的醫(yī)療支出,并多創(chuàng)造3000億美元的價(jià)值[4]。
來自生物、醫(yī)藥、醫(yī)械、臨床實(shí)驗(yàn)與健康管理等各個(gè)方面的數(shù)據(jù),構(gòu)成生物醫(yī)學(xué)的各類大數(shù)據(jù)資源,它們形式多樣,具有自身的特殊性,主要表現(xiàn)在以下幾個(gè)方面:
(1)原始數(shù)據(jù)量大,且呈異構(gòu)、多樣性。
(2)難以用數(shù)學(xué)方式表達(dá)其結(jié)構(gòu)及特征。例如:醫(yī)生對醫(yī)學(xué)影像、信號和其他臨床數(shù)據(jù)的解釋多是非結(jié)構(gòu)化的語言或文字形式自由的口述,難以標(biāo)準(zhǔn)化。
(3)數(shù)據(jù)可能包含冗余的、無意義的或不一致的屬性,并且數(shù)據(jù)經(jīng)常要更新。
(4)數(shù)據(jù)采集很難完全避免噪聲干擾,而噪聲往往會影響處理結(jié)果。
生物醫(yī)學(xué)大數(shù)據(jù)處理包括數(shù)據(jù)的收集、抽取與集成、分析與挖掘、解釋和共享等諸多方面,涉及數(shù)據(jù)庫、信息科學(xué)、統(tǒng)計(jì)學(xué)、高性能計(jì)算、網(wǎng)絡(luò)科學(xué)、心理學(xué)等多個(gè)領(lǐng)域。
數(shù)據(jù)挖掘是對海量數(shù)據(jù)進(jìn)行處理和分析,找出數(shù)據(jù)間的隱含聯(lián)系,發(fā)現(xiàn)未知規(guī)律,最終獲得知識的過程。挖掘的過程包括信息收集、數(shù)據(jù)集成、數(shù)據(jù)規(guī)約、數(shù)據(jù)清理、數(shù)據(jù)變換、數(shù)據(jù)挖掘、模式評估和知識表示8個(gè)步驟[5]。近年來,數(shù)據(jù)挖掘是生物醫(yī)學(xué)信息分析的常用手段,尤其是在循證醫(yī)學(xué)研究、基因組和蛋白質(zhì)組的研究領(lǐng)域中有很廣泛的應(yīng)用價(jià)值。KDNuggets在2011年全球數(shù)據(jù)挖掘應(yīng)用行業(yè)調(diào)查的結(jié)果表明:健康行業(yè)位居10大數(shù)據(jù)挖掘應(yīng)用領(lǐng)域的第3位[5]。
生物醫(yī)學(xué)領(lǐng)域大數(shù)據(jù)多是不完整的、不一致的、有噪聲的,數(shù)據(jù)具有獨(dú)特的復(fù)雜性、豐富性、規(guī)模和重要性,需要數(shù)據(jù)挖掘的特殊關(guān)注。數(shù)據(jù)挖掘經(jīng)典算法,如:分類、聚類、關(guān)聯(lián)分析、序列等在生物醫(yī)學(xué)數(shù)據(jù)挖掘時(shí)都可使用[5,6]。
2.1.1分類(Classi fi cation)
圖1糖尿病患病因素分析決策樹
分類是根據(jù)己知數(shù)據(jù)的特征和分類結(jié)果,為每個(gè)類找到合理的模型(構(gòu)造分類器),然后用這些模型對新數(shù)據(jù)進(jìn)行分類。K最鄰近算法、決策樹、支持向量機(jī)、神經(jīng)網(wǎng)絡(luò)等是常用的分類模型構(gòu)造方法。疾病的診斷和鑒別就是典型的分類過程。例如:美國學(xué)者利用數(shù)據(jù)挖掘軟件Clementine,以決策樹算法為模型,分析挖掘了醫(yī)療機(jī)構(gòu)HealthOrg的數(shù)據(jù)倉庫中有關(guān)年齡、BMI指數(shù)、腰臀比和周鍛煉次數(shù)等數(shù)據(jù),得出糖尿病患病危險(xiǎn)因素的分析結(jié)果(如圖1)[7]。此外,還有一些國內(nèi)外研究者針對肺癌、乳腺癌的診斷數(shù)據(jù),通過分類挖掘的方法提高診斷的精確性[8,9]。
2.1.2聚類(Clustering)分析
聚類分析是將有共同特征或相似度高的數(shù)據(jù)對象實(shí)例聚成一類的過程,常用來研究樣品或指標(biāo)分類問題。聚類分析在生物醫(yī)學(xué)領(lǐng)域已經(jīng)得到廣泛的應(yīng)用,例如:可以根據(jù)流行病學(xué)特征屬性的相似程度將病例數(shù)據(jù)劃分成若干類,通過比較各個(gè)類別之間的臨床醫(yī)學(xué)狀態(tài)特征屬性的差異來分析某類疾病。國外學(xué)者選取SEER數(shù)據(jù)庫中的217558例肺癌病例,通過分析每個(gè)病例的22個(gè)臨床醫(yī)學(xué)特征屬性和23個(gè)流行病學(xué)特征屬性的相似度后,將這些病例劃分為20類[10],這就是典型的聚類分析。
2.1.3關(guān)聯(lián)(Association)分析
關(guān)聯(lián)反映的是一個(gè)事件和其他事件之間依賴或關(guān)聯(lián)的知識,可以通過表征事物特征的兩個(gè)或多個(gè)變量的取值之間存在的某種規(guī)律性,找出數(shù)據(jù)之間隱藏的關(guān)聯(lián)關(guān)系。關(guān)聯(lián)現(xiàn)象在生物醫(yī)學(xué)領(lǐng)域普遍存在,例如:臨床上的某些疾病會同時(shí)呈現(xiàn)幾種不同的病癥,這些病癥之間就表現(xiàn)為一定程度的關(guān)聯(lián)性,而醫(yī)生診斷病癥的過程常常以觀察癥狀為基礎(chǔ)。
2.1.4序列挖掘(Sequence Mining)
序列是指按一定順序或規(guī)律排列構(gòu)成的一系列符號、數(shù)值或事件。存儲于DNA、RNA和蛋白質(zhì)中的遺傳和功能信息可用符號序列表示,分析序列數(shù)據(jù)能找到其統(tǒng)計(jì)規(guī)律或發(fā)現(xiàn)序列組成部分片段之間的相似性或相同性,這是生物信息學(xué)研究中最常用方法[6]。此外,還可用時(shí)間序列數(shù)據(jù)進(jìn)行某些疾病的研究與治療,例如:歐盟資助的T-IDDM(Telemetric Management of Insulin Dependent Diabetes Mellitus)項(xiàng)目通過Internet采集糖尿病患者的連續(xù)監(jiān)測數(shù)據(jù),經(jīng)時(shí)間序列分析后找到患者一天內(nèi)血糖水平變化的規(guī)律和趨勢,為醫(yī)生調(diào)整或精確胰島素治療方案提供有效的數(shù)據(jù)和支持。
2.1.5圖挖掘(Graph Mining)
利用待研究的數(shù)據(jù)對象構(gòu)建圖這種數(shù)學(xué)模型,然后從圖中尋找頻繁出現(xiàn)的子圖,從而挖掘出有價(jià)值的信息。例如:美國學(xué)術(shù)界整合出2003年H5N1禽流感感染風(fēng)險(xiǎn)地圖,經(jīng)過圖挖掘分析出2013年H7N9人類病例區(qū)域[11]。此外,從政府管理角度來看,公共衛(wèi)生部門可以針對覆蓋全國患者的電子病歷數(shù)據(jù)庫進(jìn)行圖挖掘,從而完成全面疫情的監(jiān)測。
2.2.1文本挖掘
目前,全球醫(yī)藥類期刊近3萬種,每年發(fā)表論文200多萬篇,并且以每年7%速度遞增,互聯(lián)網(wǎng)上的信息資源約有30%以上的是與醫(yī)學(xué)信息相關(guān)的[11]。文本挖掘(Text-Mining)和信息可視化(Information Visualization)是分析這些數(shù)據(jù),揭示知識領(lǐng)域的內(nèi)在聯(lián)系的最有效手段。
文本挖掘主要結(jié)合文字處理技術(shù),利用智能算法,分析大量的半結(jié)構(gòu)化和非結(jié)構(gòu)化文本源(如文檔、電子表格、電子郵件、網(wǎng)頁等),抽取散布在文本文件中的有價(jià)值知識,并轉(zhuǎn)化為可利用的知識的過程,其工作流程如圖2所示,挖掘前要完成包括文本收集、文本分析和特征修剪三個(gè)步驟的預(yù)處理工作。
圖2文本挖掘流程
文本挖掘多以計(jì)算機(jī)技術(shù)實(shí)現(xiàn),文檔聚類、文檔分類和摘要抽取是應(yīng)用最多的技術(shù)。文檔聚類主要完成大規(guī)模文檔集內(nèi)容的概括、識別文檔間隱藏的相似度、減輕瀏覽相關(guān)、相似信息等功能[12]。文檔分類多以統(tǒng)計(jì)方法或機(jī)器學(xué)習(xí)自動(dòng)實(shí)現(xiàn),簡單貝葉斯分類法,矩陣變換法、K最鄰近分類算法以及SVM等都是其常用的分類方法。摘要抽取主要是利用計(jì)算機(jī)自動(dòng)地從原始文檔中提取全面、準(zhǔn)確反映該文檔中心內(nèi)容的簡單連貫的短文[13]。此外,文本挖掘的結(jié)果評價(jià)常用分類正確率、查準(zhǔn)率、查全率、支持度和支持度置信度等世界公認(rèn)的重要參數(shù)進(jìn)行評價(jià)。
生物醫(yī)學(xué)信息處理領(lǐng)域所涉及的DNA序列綜合特征分析、蛋白質(zhì)功能和相互作用分析、疾病基因發(fā)現(xiàn)、藥物作用靶點(diǎn)預(yù)測等都與文本挖掘技術(shù)密不可分。在我國,已經(jīng)有一些研究者利用文本挖掘技術(shù)來研究醫(yī)學(xué)文獻(xiàn)背后隱藏的知識[12]。臨床上,醫(yī)生用文本挖掘技術(shù)對疾病的處方和中藥用藥規(guī)律進(jìn)行了分析[14,15]。
2.2.2信息可視化
信息可視化是一種運(yùn)用計(jì)算機(jī)圖形學(xué)和圖像處理技術(shù),將信息轉(zhuǎn)換為具有一定意義圖形或圖像,并進(jìn)行交互處理的理論、方法和技術(shù)。它能有效發(fā)掘、過濾和研究海量數(shù)據(jù),以更直觀、有效的方式使研究人員更容易發(fā)現(xiàn)隱藏在信息內(nèi)部的特征和規(guī)律,深層次地發(fā)掘包括生物醫(yī)學(xué)領(lǐng)域在內(nèi)的多個(gè)學(xué)科的研究熱點(diǎn)和研究前沿信息,為研究人員把握研究方向提供幫助[15]。
信息可視化的常用工具有TDA、Cite Space、Histcite、Vxinsight等軟件,主要完成數(shù)量統(tǒng)計(jì)、共現(xiàn)分析和統(tǒng)計(jì)圖表、共現(xiàn)矩陣、節(jié)點(diǎn)鏈接圖、技術(shù)報(bào)告展示等功能。例如:國外學(xué)者針對PubMed數(shù)據(jù)庫中2002年到2011年的文獻(xiàn),分析了以“電子健康檔案”、“醫(yī)療記錄系統(tǒng)”和“計(jì)算機(jī)輔助診療”為主題的文獻(xiàn)的引用情況后,用可視化工具展現(xiàn)其研究結(jié)果,使相關(guān)領(lǐng)域的科研人員很直觀的了解了該領(lǐng)域的研究狀況[3]。
生物醫(yī)學(xué)領(lǐng)域的大數(shù)據(jù)時(shí)代已經(jīng)來臨,與大數(shù)據(jù)處理相關(guān)的新理論、新技術(shù)和新方法將給該領(lǐng)域的實(shí)質(zhì)性進(jìn)展提供有效的技術(shù)支持,不斷進(jìn)步的信息處理技術(shù)和方法必將是廣大研究人員和醫(yī)生從事研究和診療工作的利器。目前,我國相關(guān)的大數(shù)據(jù)的技術(shù)和應(yīng)用還處在學(xué)習(xí)和跟隨的階段,掌握生物醫(yī)學(xué)知識和大數(shù)據(jù)處理技術(shù)的復(fù)合型人才還十分有限,亟需在國家層面制定生物醫(yī)學(xué)領(lǐng)域大數(shù)據(jù)方面的政策、加大資源投入,從而建立良好的大數(shù)據(jù)生態(tài)環(huán)境。同時(shí),重視大數(shù)據(jù)科學(xué)和生物醫(yī)學(xué)的基礎(chǔ)研究和相關(guān)人才的培養(yǎng)。此外,在生物醫(yī)學(xué)飛速發(fā)展越來越依賴數(shù)據(jù)的同時(shí),也應(yīng)該多關(guān)注隱私問題、數(shù)據(jù)的安全性問題以及由此涉及的倫理道德問題。我們相信,通過國家和廣大科研工作者的共同努力,一定能出色完成生物醫(yī)學(xué)信息處理的各項(xiàng)任務(wù),為我國的生物醫(yī)學(xué)發(fā)展做出更大的貢獻(xiàn)。
[1] 李國杰.大數(shù)據(jù)研究: 未來科技及經(jīng)濟(jì)社會發(fā)展的重大戰(zhàn)略領(lǐng)域-大數(shù)據(jù)的研究現(xiàn)狀與科學(xué)思考.中國科學(xué)院院刊, 2012,27(6):647-648.
[2] Big Data. Nature, 2008, 455(7209): 1-136.
[3] Wesley T, Kerra B, Edward P,et al.The Future of Medical Diagnostics: Large Digitized Databases. J Mech Med Biol. 2012,85(3): 363-377.
[4] Bollier, David. The Promise and Peril of Big Data. USA: The Aspen Institute, 2010: 25-28.
[5] 譚磊. 大數(shù)據(jù)挖掘.電子工業(yè)出版社,2013, 3: 45-121.
[6] Cohen M J, Serkova N J, Wiener K J,et al.1H-NMR based metabolomic signatures of clinical outcomes in trauma patientsbeyond lactate and base de fi cit. J Trauma, 2010, 69(1): 31-40.
[7] Koh H C, Tan G. Data mining applications in healthcare. Journal of Healthcare Information Management, 2011, 19(2): 65-71.
[8] Krishnaiah V, Narsimha G, Chandra N S. Diagnosis of Lung Cancer Prediction System Using Data Mining Classification Techniques.International Journal of Computer Science and Information Technologies, 2013, 4(1): 39-45.
[9] Mohanty A K, Senapati M R, Lenka S K. An improved data mining technique for classification and detection of breast cancer from mammograms. Neural Computing and Applications, 2013, 22(1): 1-8.
[10] Fradkin D. Using cluster analysis to determine the influence of demographic features on medical status of lung cancer patients[EB/OL]. http://dimacs.rutgers.edu/Workshops/DataMiningTutorial.
[11] 劉雷. 大數(shù)據(jù)時(shí)代的生物醫(yī)學(xué). 中國計(jì)算機(jī)學(xué)會通訊, 2013, 9(9):18-19.
[12] 于躍, 徐志健, 王珅, 等. 基于雙聚類方法的生物醫(yī)學(xué)信息學(xué)文本數(shù)據(jù)挖掘研究. 圖書情報(bào)工作, 2012, 56(18): 133-136.
[13] Rebholz S D, Oellrich A, Hoehndorf R. Text-mining solutions for biomedical research: enabling integrative biology. Nat Rev Genet,2012, 13(12): 829-839.
[14] 李立, 周奇, 鄭光, 等. 基于文本挖掘技術(shù)分析中成藥、西藥對慢性胃炎的治療規(guī)律. 中國實(shí)驗(yàn)方劑學(xué)雜志, 2011, 17(24): 228-231.
[15] 黃鑫, 胡榜利, 鄧?yán)? 等. 基于知識圖譜的生物醫(yī)學(xué)信息可視化研究進(jìn)展. 中國臨床新醫(yī)學(xué), 2012, 5(11): 1090 -1093.