張春麗,成 彧
(1.北京大學(xué)第一醫(yī)院核醫(yī)學(xué)科,北京100034;2.北京聯(lián)合大學(xué)信息學(xué)院,北京100101)
·綜 述·
大數(shù)據(jù)分析技術(shù)及其在醫(yī)藥領(lǐng)域中的應(yīng)用
張春麗1,成 彧2
(1.北京大學(xué)第一醫(yī)院核醫(yī)學(xué)科,北京100034;2.北京聯(lián)合大學(xué)信息學(xué)院,北京100101)
隨著“大數(shù)據(jù)時(shí)代”的來臨,大數(shù)據(jù)在醫(yī)藥領(lǐng)域中將發(fā)揮越來越重要的作用,基于基因組學(xué)大數(shù)據(jù)和現(xiàn)代生物醫(yī)學(xué)技術(shù)的個(gè)性化醫(yī)療,即精準(zhǔn)醫(yī)學(xué),是未來醫(yī)學(xué)的發(fā)展方向。如何獲取、分類、存儲(chǔ)大數(shù)據(jù),如何挖掘大數(shù)據(jù)中有價(jià)值的信息,以及如何將大數(shù)據(jù)有效地應(yīng)用于醫(yī)藥領(lǐng)域是目前研究的熱點(diǎn)領(lǐng)域。本文對(duì)大數(shù)據(jù)及其特征、大數(shù)據(jù)分析技術(shù)以及大數(shù)據(jù)在醫(yī)藥領(lǐng)域的應(yīng)用進(jìn)行綜述。
大數(shù)據(jù); 大數(shù)據(jù)分析; 醫(yī)藥; 個(gè)性化醫(yī)療; 精準(zhǔn)醫(yī)學(xué)
隨著科學(xué)技術(shù)的飛速發(fā)展,各個(gè)領(lǐng)域產(chǎn)生的數(shù)據(jù)量以爆炸式增長,大數(shù)據(jù)成為當(dāng)今的一個(gè)熱點(diǎn)話題,大數(shù)據(jù)的分析及應(yīng)用也成為科技界和企業(yè)界甚至世界各國政府關(guān)注的一個(gè)焦點(diǎn),“大數(shù)據(jù)時(shí)代”已經(jīng)來臨。如何獲取、分類、存儲(chǔ)、處理、傳輸這些海量數(shù)據(jù)是當(dāng)前所面臨的一個(gè)重要課題。通過數(shù)據(jù)挖掘技術(shù)并運(yùn)用計(jì)算機(jī)軟件可以從大數(shù)據(jù)中提取出有價(jià)值的信息。大數(shù)據(jù)分析及其應(yīng)用近年來受到很大關(guān)注,大數(shù)據(jù)被美國政府視為“未來的新石油”,被視為等同于人力資源和物質(zhì)資源的國家重要戰(zhàn)略資源[1]。在醫(yī)學(xué)領(lǐng)域,我們正處在一個(gè)醫(yī)學(xué)信息爆炸的時(shí)代。基因序列、各種醫(yī)學(xué)圖像、電子病歷記錄和多中心臨床藥物試驗(yàn)等領(lǐng)域每天產(chǎn)生大量的形式多樣的數(shù)據(jù),并呈爆炸式增長,使生物醫(yī)學(xué)領(lǐng)域跨入網(wǎng)絡(luò)化的大數(shù)據(jù)時(shí)代[2]。在這些醫(yī)藥領(lǐng)域,大數(shù)據(jù)中隱藏著一些具有高價(jià)值的醫(yī)藥、保健信息,通過科學(xué)有效地利用大數(shù)據(jù),可以實(shí)現(xiàn)各個(gè)醫(yī)院的病例的共享、流行病發(fā)病預(yù)測、藥物作用預(yù)測以及個(gè)體化的精準(zhǔn)醫(yī)療等,從而提高對(duì)疾病的預(yù)防、診治水平和藥物使用的安全、有效性,并對(duì)藥物的研發(fā)方向具有重要的指導(dǎo)作用。
1 大數(shù)據(jù)及其特征
大數(shù)據(jù)是指無法在可容忍的時(shí)間內(nèi)用傳統(tǒng)信息技術(shù)(IT)和軟硬件工具進(jìn)行感知、獲取、管理、處理和服務(wù)的數(shù)據(jù)集合[3]。大數(shù)據(jù)的特征可以歸納為4個(gè)方面,即4V[3]:①數(shù)據(jù)量巨大(Volume)。來自互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、電子商務(wù)等各方面的數(shù)據(jù)量已超越GB級(jí),向TB、PB甚至EB級(jí)、ZB級(jí)發(fā)展。這需要新型的可擴(kuò)展的儲(chǔ)存技術(shù)和便于信息查詢和調(diào)出的數(shù)據(jù)分配技術(shù)[4]I。②模態(tài)多(Variety),既有傳統(tǒng)的結(jié)構(gòu)化數(shù)據(jù),又有文本、視頻、圖像、語音、網(wǎng)頁等半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),數(shù)據(jù)之間常常關(guān)聯(lián)復(fù)雜,這對(duì)現(xiàn)有數(shù)據(jù)庫系統(tǒng)是一個(gè)挑戰(zhàn)。③速度快(Velocity)。數(shù)據(jù)通常以數(shù)據(jù)流的形式動(dòng)態(tài)、快速地產(chǎn)生,具有很強(qiáng)的時(shí)效性和涌現(xiàn)特征。④價(jià)值大,但價(jià)值密度低(Value)。大數(shù)據(jù)的分析、挖掘?qū)?duì)社會(huì)的政治、經(jīng)濟(jì)和科技等領(lǐng)域的發(fā)展起到革命性的作用。正如微軟全球副總裁張亞勤2012年4月在博鰲亞洲論壇“大數(shù)據(jù)、移動(dòng)、社交媒體:改變商業(yè)的創(chuàng)新力量”中所說,大數(shù)據(jù)是產(chǎn)業(yè)大的變革,對(duì)IT產(chǎn)業(yè)、經(jīng)濟(jì)都是一次重要的機(jī)遇。在醫(yī)藥領(lǐng)域,大數(shù)據(jù)分析、挖掘?qū)膊≡\治、藥物研發(fā)、公共衛(wèi)生管理和健康危險(xiǎn)因素分析等方面均具有十分重要的意義。MGI的分析報(bào)告指出:大數(shù)據(jù)技術(shù)可以保障醫(yī)療系統(tǒng)安全有效運(yùn)行,使美國每年減少8%的醫(yī)療支出,并多創(chuàng)造3000億美元的價(jià)值[5]。但另一方面,大數(shù)據(jù)具有價(jià)值密度低的特征,我們所采集到的數(shù)據(jù)既包含有用的數(shù)據(jù),又包含大量的冗余的、無意義的數(shù)據(jù)(噪聲)以及虛假的、錯(cuò)誤的數(shù)據(jù),如何從海量、復(fù)雜的數(shù)據(jù)中獲取有用信息是大數(shù)據(jù)分析技術(shù)的一個(gè)重要研究內(nèi)容。
2 大數(shù)據(jù)分析技術(shù)
如前所述,大數(shù)據(jù)具有價(jià)值密度低的特征,必須通過分析、處理對(duì)這些數(shù)據(jù)去偽存真,獲得有用的數(shù)據(jù)及其相互關(guān)系,才能得到有價(jià)值的信息。大數(shù)據(jù)應(yīng)用中的核心技術(shù)就是從大量數(shù)據(jù)中提取出我們所需要的信息并進(jìn)行分析和處理,因此,大數(shù)據(jù)分析是決定最終信息是否有價(jià)值的決定性因素。大數(shù)據(jù)分析需要解決的問題主要包括:如何通過構(gòu)建數(shù)據(jù)庫存儲(chǔ)并處理這些大量、生成快速、模態(tài)繁多、異構(gòu)的數(shù)據(jù);如何將這些數(shù)據(jù)的結(jié)構(gòu)標(biāo)準(zhǔn)化,從中提取出有用的信息;如何對(duì)大數(shù)據(jù)資源進(jìn)行分配;如何實(shí)現(xiàn)大數(shù)據(jù)的安全、可靠傳輸?shù)取?/p>
由于大數(shù)據(jù)具有數(shù)據(jù)量大、模態(tài)和種類繁多、異構(gòu)的特征,用傳統(tǒng)的數(shù)據(jù)分析技術(shù)很難實(shí)現(xiàn)對(duì)這些海量數(shù)據(jù)的分析,需要運(yùn)用資源云系統(tǒng)對(duì)大數(shù)據(jù)進(jìn)行資料存儲(chǔ)、應(yīng)用服務(wù)和資源共享等。資源云系統(tǒng)的功能主要包括:虛擬化技術(shù)、高性能云存儲(chǔ)技術(shù)、高速云處理技術(shù)及數(shù)據(jù)安全技術(shù)[6]。資源云系統(tǒng)是大規(guī)模數(shù)據(jù)存儲(chǔ)及應(yīng)用服務(wù)的中心,用戶把大數(shù)據(jù)資源存儲(chǔ)到云系統(tǒng)中,當(dāng)用戶需要得到數(shù)據(jù)資源時(shí)可通過互聯(lián)網(wǎng)獲取,當(dāng)不需要這些數(shù)據(jù)資源時(shí),還可以刪除、釋放這些資源[6]。
大數(shù)據(jù)的分析方法主要包括以下幾方面。
2.1 機(jī)器學(xué)習(xí)與數(shù)據(jù)挖掘算法
機(jī)器學(xué)習(xí)是大數(shù)據(jù)分析的基礎(chǔ)。由于大數(shù)據(jù)具有復(fù)雜、高維、多變等特性,如何從凌亂、無模式和復(fù)雜的大數(shù)據(jù)中挖掘出有用的知識(shí),需要計(jì)算機(jī)模擬人類的學(xué)習(xí)過程,進(jìn)行反饋、深入分析、對(duì)不完全的信息進(jìn)行推理等,即機(jī)器學(xué)習(xí)。神經(jīng)網(wǎng)絡(luò)(DNN)是一種機(jī)器學(xué)習(xí)系統(tǒng),從2009年開始,Dahl等率先在語音處理中使用深度神經(jīng)網(wǎng)絡(luò),將語音識(shí)別的錯(cuò)誤率顯著降低,從而使得語音處理成為成功應(yīng)用深度機(jī)器學(xué)習(xí)的第一個(gè)領(lǐng)域[7]。機(jī)器學(xué)習(xí)算法包括大數(shù)據(jù)分類、大數(shù)據(jù)聚類、大數(shù)據(jù)關(guān)聯(lián)分析、大數(shù)據(jù)并行算法等[8]。近年來,機(jī)器學(xué)習(xí)在語音識(shí)別、光學(xué)字符識(shí)別(OCR)、人臉識(shí)別、圖像搜索等應(yīng)用上取得了突出效果。
數(shù)據(jù)挖掘算法是根據(jù)數(shù)據(jù)創(chuàng)建數(shù)據(jù)挖掘模型的一組試探法和計(jì)算。數(shù)據(jù)挖掘算法包括支持向量機(jī)(SVM)、期望最大化(EM)、決策樹算法、遺傳算法等[9]。這些算法主要用于通過機(jī)器學(xué)習(xí)實(shí)現(xiàn)大數(shù)據(jù)的分類,從不同的數(shù)據(jù)類型和格式中找到有價(jià)值的信息。
2.2 預(yù)測性分析
預(yù)測性分析是一種重要的大數(shù)據(jù)分析方法,通過科學(xué)地建立模型,輸入已知的數(shù)據(jù),從而對(duì)未來進(jìn)行預(yù)測。預(yù)測分析的目的并不是要準(zhǔn)確告訴人們將來會(huì)發(fā)生什么,而是預(yù)測未來可能發(fā)生什么,因?yàn)樗械念A(yù)測分析在本質(zhì)上都只是一個(gè)概率。
預(yù)測分析包括獲取或檢測數(shù)據(jù)、分析和預(yù)測建模,對(duì)相關(guān)問題做出預(yù)測等步驟。如:基于反向傳播(back propagation,BP)神經(jīng)網(wǎng)絡(luò)的交通數(shù)據(jù)序列動(dòng)態(tài)可預(yù)測性分析[10],基于BP神經(jīng)網(wǎng)絡(luò)的礦山GPS數(shù)據(jù)時(shí)間序列預(yù)測分析[11],應(yīng)用SPSS軟件對(duì)商務(wù)運(yùn)營中的數(shù)據(jù)進(jìn)行預(yù)測性分析等。
2.3 可視化分析
大數(shù)據(jù)查詢和分析的實(shí)用性和實(shí)效性對(duì)于人們能否及時(shí)獲得決策信息非常重要,可視化分析將數(shù)據(jù)分析結(jié)果用形象直觀的方式展示出來,從而能夠快速發(fā)現(xiàn)數(shù)據(jù)中蘊(yùn)含的規(guī)律特征,并從系統(tǒng)中挖掘出有用的信息[13]。其優(yōu)點(diǎn)是方便用戶理解,可使非IT人員實(shí)現(xiàn)自主大數(shù)據(jù)的分析與應(yīng)用。因此,可視化技術(shù)既是數(shù)據(jù)分析的關(guān)鍵技術(shù)也是數(shù)據(jù)分析結(jié)果呈現(xiàn)的關(guān)鍵技術(shù)??梢暬治鐾ǔR匀斯し治鰹橹?,也可根據(jù)系統(tǒng)的具體情況借助Tableau、DataWrangler等可視化分析軟件進(jìn)行分析??梢暬治瞿苤庇^地顯示出數(shù)據(jù)本身具備的特點(diǎn)。其中交互式的展示和超大圖的動(dòng)態(tài)化展示值得重點(diǎn)關(guān)注。
2.4 語義引擎
語義引擎從詞語所表達(dá)的語義層次上來認(rèn)識(shí)和處理用戶的檢索請(qǐng)求,被廣泛應(yīng)用于網(wǎng)絡(luò)數(shù)據(jù)挖掘[14]。語義引擎可從用戶的搜索關(guān)鍵詞、標(biāo)簽關(guān)鍵詞等輸入語義,分析和判斷用戶的需求,從而找到用戶所需要的數(shù)據(jù)。
2.5 知識(shí)計(jì)算
基于大數(shù)據(jù)的知識(shí)計(jì)算是大數(shù)據(jù)分析的基礎(chǔ),知識(shí)計(jì)算也是目前學(xué)術(shù)研究的一個(gè)熱點(diǎn)領(lǐng)域。知識(shí)計(jì)算需要從大數(shù)據(jù)中抽取出有價(jià)值的知識(shí),并把它構(gòu)建成可支持查詢、分析和計(jì)算的知識(shí)庫。目前,世界各國或各個(gè)組織已建立的知識(shí)庫多達(dá)50多種,相關(guān)的應(yīng)用系統(tǒng)達(dá)到了上百種。其中,代表性的知識(shí)庫或應(yīng)用系統(tǒng)有TextRunner,KnowItAll,PROSPERA,NELL,Probase,SOFIE,Satori以及一些基于維基百科等在線百科知識(shí)構(gòu)建的知識(shí)庫,如DBpedia,Omega,YAGO和WikiTaxonomy等[15]。.
2.6 數(shù)據(jù)質(zhì)量和數(shù)據(jù)管理
數(shù)據(jù)質(zhì)量和數(shù)據(jù)管理是大數(shù)據(jù)分析的關(guān)鍵。大數(shù)據(jù)的質(zhì)量對(duì)其有效應(yīng)用起著至關(guān)重要的作用,使用高質(zhì)量的數(shù)據(jù)和有效的數(shù)據(jù)管理可以更科學(xué)、更深入地分析大數(shù)據(jù),從而使分析結(jié)果更有價(jià)值。
由于大數(shù)據(jù)具有數(shù)據(jù)量巨大、速度快、多樣性高和價(jià)值密度低的特點(diǎn),使其有更大可能產(chǎn)生數(shù)據(jù)質(zhì)量問題,即出現(xiàn)不一致、不精確、不完整、過時(shí)等問題或者描述同一實(shí)體的數(shù)據(jù)出現(xiàn)沖突(稱為實(shí)體不同一)等錯(cuò)誤。比如,由于數(shù)據(jù)量巨大,大數(shù)據(jù)獲取、存儲(chǔ)、傳輸和計(jì)算過程中可能產(chǎn)生更多錯(cuò)誤;由于速度快,數(shù)據(jù)的大量更新會(huì)導(dǎo)致過時(shí)數(shù)據(jù)迅速產(chǎn)生,也更易于產(chǎn)生不一致數(shù)據(jù);由于多樣性高和價(jià)值密度低,使得數(shù)據(jù)有更大的可能產(chǎn)生不一致和沖突。通過計(jì)算機(jī)軟件進(jìn)行質(zhì)量管理包含錯(cuò)誤發(fā)現(xiàn)、錯(cuò)誤修復(fù)和容忍錯(cuò)誤的近似查詢處理等[16]不同方面,但面臨計(jì)算困難和知識(shí)缺乏等挑戰(zhàn)。
3 醫(yī)療領(lǐng)域?qū)崿F(xiàn)大數(shù)據(jù)應(yīng)用需要解決的主要問題及處理方法
醫(yī)療領(lǐng)域的大數(shù)據(jù)包括各類疾病的信息、病人的病例信息、醫(yī)學(xué)檢驗(yàn)信息、醫(yī)學(xué)影像信息、各家醫(yī)院的管理信息、醫(yī)院中醫(yī)生的信息等,隨著醫(yī)療機(jī)構(gòu)電子化進(jìn)程的迅速加快,這些多類型的數(shù)據(jù)在各家醫(yī)院動(dòng)態(tài)、快速地產(chǎn)生,如何從醫(yī)療大數(shù)據(jù)中提取出有用的信息是目前亟待解決的問題。構(gòu)建醫(yī)療大數(shù)據(jù)系統(tǒng)需要將各家醫(yī)院通過互聯(lián)網(wǎng)連接起來,實(shí)現(xiàn)各家醫(yī)院之間的數(shù)據(jù)共享[17]。
3.1 數(shù)據(jù)的結(jié)構(gòu)化和規(guī)范化處理
醫(yī)療領(lǐng)域中的大數(shù)據(jù)多是復(fù)雜的、非結(jié)構(gòu)化的數(shù)據(jù),數(shù)據(jù)可能包含冗余的、無意義的或不一致的屬性,并且數(shù)據(jù)經(jīng)常更新,需要通過數(shù)據(jù)挖掘算法和機(jī)器學(xué)習(xí)等大數(shù)據(jù)分析技術(shù)對(duì)這些數(shù)據(jù)進(jìn)行分析[3]。通過文本挖掘技術(shù)可以實(shí)現(xiàn)醫(yī)療領(lǐng)域中的電子病歷、醫(yī)院管理信息、醫(yī)師信息等數(shù)據(jù)的結(jié)構(gòu)化和規(guī)范化,其結(jié)合文字處理技術(shù),利用智能算法,通過計(jì)算機(jī)技術(shù)分析大量的半結(jié)構(gòu)化和非結(jié)構(gòu)化文本信息,可抽取散布在文本文件中的有價(jià)值的信息。
3.2 數(shù)據(jù)庫系統(tǒng)設(shè)計(jì)
由于傳統(tǒng)的數(shù)據(jù)庫系統(tǒng)已無法實(shí)現(xiàn)對(duì)醫(yī)療領(lǐng)域中包含的規(guī)模大、類型多、結(jié)構(gòu)復(fù)雜的大數(shù)據(jù)的存儲(chǔ)和處理,因此需要采用資源云系統(tǒng)并根據(jù)醫(yī)療領(lǐng)域中產(chǎn)生的數(shù)據(jù)的特征建立數(shù)據(jù)庫,并將這些數(shù)據(jù)分類存儲(chǔ)。利用數(shù)據(jù)挖掘算法可從這些數(shù)據(jù)中提取出有用的信息,然后利用高速云處理技術(shù)對(duì)提取出的信息進(jìn)行分析處理。
3.3 數(shù)據(jù)挖掘分析
數(shù)據(jù)挖掘的核心是數(shù)據(jù)的特征與屬性的提取,并依據(jù)特征和屬性對(duì)數(shù)據(jù)進(jìn)行分類[17]。在進(jìn)行數(shù)據(jù)挖掘之前需要做好數(shù)據(jù)的預(yù)處理,以改善數(shù)據(jù)質(zhì)量,提高數(shù)據(jù)挖掘結(jié)果的有效性和準(zhǔn)確性[18]。在進(jìn)行數(shù)據(jù)挖掘時(shí)需要根據(jù)數(shù)據(jù)的特征、屬性和研究目的選擇合適的工具和分析方法。數(shù)據(jù)挖掘分析目前已應(yīng)用于基因芯片分析、DNA序列比對(duì)、醫(yī)療文獻(xiàn)的挖掘以及醫(yī)療數(shù)據(jù)的可視化等[1]。
3.4 影像信息分析方法
醫(yī)學(xué)影像技術(shù)在疾病診斷中的應(yīng)用越來越普遍,醫(yī)學(xué)影像信息已成為疾病診斷的重要工具。醫(yī)學(xué)影像信息為非結(jié)構(gòu)化數(shù)據(jù),在進(jìn)行影像信息分析時(shí)需要運(yùn)用可視化分析技術(shù)、計(jì)算機(jī)圖形學(xué)技術(shù)及圖像處理技術(shù),常用工具有TDA、Cite Space、Histcite、Vxinsight等軟件。B超、CT、MRI、SPECT、PET等數(shù)據(jù)處理技術(shù)也可以應(yīng)用于醫(yī)學(xué)圖像的分析[9]。
4 大數(shù)據(jù)分析技術(shù)在醫(yī)療領(lǐng)域的應(yīng)用
大數(shù)據(jù)分析在醫(yī)藥領(lǐng)域,尤其是醫(yī)藥開發(fā)、疾病診治、疾病危險(xiǎn)因素分析、疾病發(fā)病預(yù)測、個(gè)體化的精準(zhǔn)醫(yī)學(xué)等方面具有重要意義。
4.1 大數(shù)據(jù)分析技術(shù)在基因生物學(xué)中的應(yīng)用
自1990開始至2004完成的人類基因組計(jì)劃(Human Genome Project),對(duì)人類23對(duì)染色體基因中30億個(gè)堿基對(duì)進(jìn)行測序和鑒定,目前已知人類有20500個(gè)基因,這些基因在不同微環(huán)境中存在很多變異,其表達(dá)產(chǎn)物也存在很大差別,可產(chǎn)生大量的數(shù)據(jù)。同時(shí),人類基因組計(jì)劃和對(duì)人類染色體基因測序的完成,使得與人類基因相關(guān)的研究迅速增長。目前,基因組學(xué)(Genome)、個(gè)人基因組數(shù)據(jù)庫PGP(the Personal Genome Project)等數(shù)據(jù)庫通過互聯(lián)網(wǎng),被很多科研人員共享,大量數(shù)據(jù)快速的產(chǎn)生。分析基因變異與基因表達(dá)和各種疾病的相關(guān)性對(duì)疾病的病因分析、診斷和治療具有很大意義。數(shù)據(jù)挖掘技術(shù)在基因分析中起到著重要作用[9,19]。
4.1.1 致病基因路徑分析
引起一種疾病通常有多個(gè)基因,這些基因在病人的不同染色體中不同位置上起著不同的作用。利用大數(shù)據(jù)技術(shù)可從DNA序列中找到與疾病相關(guān)的遺傳和功能信息,分析不同階段、不同位置的遺傳控制因素,從而進(jìn)行有針對(duì)性的治療,達(dá)到更加有效的治療效果[3,9]。Alsulami等[20]利用基因通路分析變異基因與血壓之間的關(guān)系,發(fā)現(xiàn)CD47基因與血壓之間有顯著相關(guān)性。
4.1.2 基因序列關(guān)聯(lián)分析
基因研究一個(gè)重要的方面是DNA序列中的相似搜索和基因間的差異性比對(duì)。基因序列分析可分析基因之間的聯(lián)系,使用非線性相關(guān)統(tǒng)計(jì)法、神經(jīng)網(wǎng)絡(luò)、分類及聚類算法進(jìn)行分析可以發(fā)現(xiàn)不同基因之間的相似性和差異性[1]。對(duì)分別來自帶病組織和健康組織的基因序列,進(jìn)行比較,可以識(shí)別致病基因和抑制疾病基因兩類基因間的差異,如果在帶病樣本中出現(xiàn)頻度超出健康樣本的基因序列,可以研究其為致病基因的可能性;另一方面,如果在帶病樣本中出現(xiàn)頻度低于健康樣本的序列,可以研究其為疾病抑制基因的可能性[9]。
大多數(shù)疾病并不是由單一基因引起的,而是多個(gè)基因組合起來共同起作用的結(jié)果?;蛐蛄嘘P(guān)聯(lián)分析方法還可用于幫助確定在目標(biāo)樣本中同時(shí)出現(xiàn)的基因種類,以發(fā)現(xiàn)致病的基因組和基因間的交叉與聯(lián)系。
4.2 大數(shù)據(jù)在致病因素分析中的作用
在病案信息庫中有大量的關(guān)于病人的病情和病人的個(gè)人信息,包括年齡、性別、居住地、職業(yè)、生活情況等,通過檢索病案數(shù)據(jù)庫中病人的病情信息以及病人的個(gè)人信息,使用聚類分析算法等大數(shù)據(jù)分析技術(shù)對(duì)這些信息進(jìn)行關(guān)聯(lián)性分析,可以發(fā)現(xiàn)某種疾病與外在環(huán)境因素的潛在關(guān)系,指導(dǎo)公眾遠(yuǎn)離這些致病因素,以降低某些疾病的發(fā)生。Prather等[21]利用數(shù)據(jù)挖掘技術(shù)成功地對(duì)Duke大學(xué)醫(yī)學(xué)中心的產(chǎn)科病人早產(chǎn)的3個(gè)危險(xiǎn)因素進(jìn)行了分析。
4.3 大數(shù)據(jù)分析技術(shù)在疾病診斷和治療中的應(yīng)用
使用大數(shù)據(jù)分析技術(shù)可以提高診斷疾病的準(zhǔn)確率,對(duì)有效地治療疾病具有重要價(jià)值。在臨床中不少疾病是錯(cuò)綜復(fù)雜的,其致病因素差異很大,在不同階段出現(xiàn)的癥狀也各不相同,不同疾病之間有時(shí)會(huì)具有高度相似的臨床表現(xiàn)。粗糙集理論、人工神經(jīng)網(wǎng)絡(luò)、模糊邏輯分析等數(shù)據(jù)挖掘分類分析技術(shù)可應(yīng)用于疾病的診斷,根據(jù)病人的病歷及個(gè)人信息對(duì)疾病的相關(guān)因素進(jìn)行分析,有助于疾病治療。秦中廣等[22]利用粗糙集理論對(duì)類風(fēng)濕病進(jìn)行診斷,取得了良好的效果。Kusiak等[23-24]采用大數(shù)據(jù)分析相關(guān)算法對(duì)實(shí)體性肺結(jié)節(jié)進(jìn)行診斷,準(zhǔn)確率高達(dá)100%。
2015年1月,美國總統(tǒng)奧巴馬提出了“精準(zhǔn)醫(yī)學(xué)(Precision Medicine)”計(jì)劃,呼吁美國增加醫(yī)學(xué)研究經(jīng)費(fèi),推動(dòng)個(gè)體化基因組學(xué)研究,依據(jù)個(gè)人基因信息為癌癥及其他疾病患者制定個(gè)體醫(yī)療方案?!皞€(gè)性化醫(yī)療”是實(shí)現(xiàn)精準(zhǔn)醫(yī)學(xué)的關(guān)鍵,個(gè)體的復(fù)雜性,特別是個(gè)體的遺傳背景和環(huán)境因素的差異性,決定了不同患者采用相同的治療方式療效可能存在很大差別。精準(zhǔn)醫(yī)學(xué)是基于與患者分子生物病理學(xué)特征相匹配的個(gè)體化診斷和治療策略,是未來醫(yī)學(xué)的發(fā)展方向?;蚪M學(xué)大數(shù)據(jù)時(shí)代的來臨和生物醫(yī)學(xué)技術(shù)的迅速發(fā)展奠定了精準(zhǔn)醫(yī)療的可行性。腫瘤為一復(fù)雜和多樣性疾病,在分子遺傳上具有很大異質(zhì)性,即使相同病理類型的腫瘤患者,對(duì)抗癌藥物反應(yīng)也會(huì)迥異,因此腫瘤學(xué)科成為精準(zhǔn)醫(yī)療的重要領(lǐng)域之一。近年來,基因的快速、高通量的測序技術(shù)為腫瘤發(fā)生的危險(xiǎn)性預(yù)測和靶向治療等個(gè)體化疾病預(yù)警、診斷和治療提供了前提條件[25],間變淋巴瘤激酶、c-ros原癌基因1受體酪氨酸激酶、肝細(xì)胞生長因子受體、磷脂酰肌醇3激酶、哺乳動(dòng)物雷帕霉素靶蛋白、熱休克蛋白90等大量靶點(diǎn)的涌現(xiàn),帶動(dòng)了個(gè)體化治療的熱潮;在心血管領(lǐng)域,通過檢測相關(guān)代謝基因的多態(tài)性,可以精確預(yù)測個(gè)體對(duì)藥物的反應(yīng),減少抗血小板或抗凝治療帶來的風(fēng)險(xiǎn)。
4.4 大數(shù)據(jù)分析技術(shù)在疾病發(fā)病預(yù)測中的應(yīng)用
大數(shù)據(jù)技術(shù)的核心就是預(yù)測。醫(yī)療大數(shù)據(jù)中包含著大量患者的居住地信息、家族疾病史等個(gè)人基本信息,這些信息有助于研究某些疾病發(fā)病的家族性和地區(qū)區(qū)域的分布性。通過大數(shù)據(jù)分析,還可探討哪些疾病有明顯的家族遺傳性,從而進(jìn)一步分析疾病與基因變化的關(guān)系,以通過積極預(yù)防或某種干預(yù)降低這種疾病的發(fā)病率。通過分析疾病與地區(qū)區(qū)域的關(guān)系,可分析疾病發(fā)病的區(qū)域性特征,以進(jìn)一步分析該地區(qū)的環(huán)境因素與疾病發(fā)生的關(guān)系,消除導(dǎo)致疾病發(fā)生的環(huán)境因素。于長春等[26]采用數(shù)據(jù)挖掘技術(shù)中的神經(jīng)網(wǎng)絡(luò)方法構(gòu)建了神經(jīng)網(wǎng)絡(luò)模型,預(yù)測肝癌患者術(shù)后復(fù)發(fā)的情況,取得了較理想的效果。馬立偉等[27]采用邏輯分析法和判別分析法,分析了40217名癌癥患者和446177名健康體檢者血常規(guī)、血生化和尿常規(guī)數(shù)據(jù),建立了基于血常規(guī),血生化和尿常規(guī)數(shù)據(jù)的癌癥風(fēng)險(xiǎn)預(yù)測模型,通過9931名癌癥患者和110077名健康體檢者數(shù)據(jù)的驗(yàn)證,準(zhǔn)確率超過95%。表明該模型可以鎖定高風(fēng)險(xiǎn)癌癥人群,早期預(yù)測癌癥的風(fēng)險(xiǎn)。孫艷秋等[28]基于大數(shù)據(jù)分析建立了高血壓的預(yù)測模型,經(jīng)驗(yàn)證表明能夠有效提高預(yù)測的準(zhǔn)確率與預(yù)測效率。
大數(shù)據(jù)預(yù)測性分析技術(shù)可以根據(jù)病例預(yù)測病情的發(fā)展趨勢(shì),可使用機(jī)器學(xué)習(xí)方法和人工智能技術(shù)對(duì)疾病信息進(jìn)行高效精確的判讀,歸納形成規(guī)律性的知識(shí),以進(jìn)行準(zhǔn)確的疾病發(fā)展模式分析預(yù)測[1]。周云輝等[18]在WEKA數(shù)據(jù)挖掘平臺(tái)下,通過應(yīng)用貝葉斯網(wǎng)絡(luò)(Bayes Net)算法對(duì)乳腺癌治療數(shù)據(jù)的信息進(jìn)行挖掘,分析了乳腺癌復(fù)發(fā)概率與年齡、腫瘤治療時(shí)的惡化程度、是否進(jìn)行放射治療的相關(guān)性。
大數(shù)據(jù)分析技術(shù)也是傳染病流行預(yù)測、預(yù)警的一把利器。因?yàn)閭魅静〉陌l(fā)生、發(fā)展、時(shí)空分布與地理地貌、生態(tài)景觀、人文環(huán)境有密切關(guān)系,特別在全球氣候變化和經(jīng)濟(jì)全球化背景下,自然環(huán)境及人類社會(huì)活動(dòng)對(duì)傳染病病原體-宿主交互作用的影響越來越重要,因此,時(shí)間和空間信息對(duì)傳染病的預(yù)測、預(yù)警具有重要意義。利用時(shí)空大數(shù)據(jù)可對(duì)傳染病疫情的時(shí)間、空間信息進(jìn)行多維搜索,檢索、處理和分析這些疫情信息可實(shí)現(xiàn)對(duì)傳染病的流行趨勢(shì)及影響范圍進(jìn)行預(yù)測、預(yù)警,對(duì)提高傳染病防控的針對(duì)性、預(yù)見性和主動(dòng)性,抑制流行病的蔓延,以及制定衛(wèi)生決策都具有十分重要的意義[29]。
4.5 大數(shù)據(jù)分析技術(shù)在醫(yī)學(xué)影像分析中的應(yīng)用
醫(yī)學(xué)影像,包括SPECT、CT、MRI、PET等,在醫(yī)學(xué)診斷中發(fā)揮著越來越重要的作用。大數(shù)據(jù)分析技術(shù)可以應(yīng)用于醫(yī)學(xué)影像的分析。Sacha等[30]成功地運(yùn)用基于貝葉斯分類的數(shù)據(jù)挖掘模式對(duì)心肌SPECT圖像進(jìn)行分類診斷。
4.6 大數(shù)據(jù)分析技術(shù)在檢驗(yàn)醫(yī)學(xué)中的應(yīng)用
隨著現(xiàn)代醫(yī)學(xué)科學(xué)技術(shù)如免疫學(xué)、細(xì)胞學(xué)、酶學(xué)、分子生物學(xué)、電子計(jì)算機(jī)技術(shù)等的突飛猛進(jìn),檢驗(yàn)醫(yī)學(xué)發(fā)展迅速,新設(shè)備、新技術(shù)、新方法、新項(xiàng)目不斷涌現(xiàn)。聚合酶鏈反應(yīng)(PCR),尤其是實(shí)時(shí)熒光定量PCR技術(shù)的應(yīng)用,不僅使臨床基因檢測更加快速,而且使基因檢測進(jìn)入定量階段,在臨床基因診斷中,如病毒、細(xì)菌的基因快速檢測,遺傳性疾病的診斷,腫瘤的基因診斷等得以較為廣泛的應(yīng)用。免疫檢驗(yàn),包括放射免疫分析、酶免疫分析、熒光免疫分析、時(shí)間分辨熒光免疫分析、化學(xué)發(fā)光免疫分析、電化學(xué)發(fā)光免疫分析技術(shù)的臨床應(yīng)用拓寬了免疫學(xué)檢測的領(lǐng)域,提高了檢測靈敏度,促進(jìn)了檢驗(yàn)過程自動(dòng)化。流式細(xì)胞術(shù)進(jìn)入臨床實(shí)驗(yàn)室極大地拓寬了臨床檢驗(yàn)的范圍,已應(yīng)用于細(xì)胞DNA、RNA定量及細(xì)胞周期分析、細(xì)胞表面標(biāo)志物分析、凋亡細(xì)胞的檢測等。微生物檢驗(yàn)中的全自動(dòng)培養(yǎng)及鑒定技術(shù)和用E-test法選篩出超廣譜β-內(nèi)酰胺酶細(xì)菌等新技術(shù),同樣促進(jìn)了臨床微生物檢驗(yàn)的自動(dòng)化及標(biāo)準(zhǔn)化。脈沖場電泳技術(shù)等應(yīng)用于病原微生物的基因分型,使得醫(yī)院感染監(jiān)測達(dá)到分子水平。臨床生化檢驗(yàn)中的干化學(xué)法檢測指標(biāo)已達(dá)50多項(xiàng),檢測可高度自動(dòng)化,提高了批處理能力,縮短了檢測時(shí)間。生物芯片技術(shù)是又一次革命性技術(shù)突破,其在高通量基因測序、基因表達(dá)研究已經(jīng)發(fā)揮了重要作用,也將在后基因組時(shí)代研究蛋白質(zhì)功能及蛋白質(zhì)間的相互作用方面發(fā)揮其極其重要的作用。隨著自動(dòng)化技術(shù)、計(jì)算機(jī)技術(shù)、傳感器技術(shù)等高新技術(shù)的應(yīng)用,檢驗(yàn)儀器的效率不斷提高,如SYSMEX CA7000為代表的全自動(dòng)血凝儀的分析速度可達(dá)500PTs/h,一些全自動(dòng)生化分析儀檢測速度可高達(dá)每小時(shí)5000個(gè)測試以上。這些新技術(shù)、新方法、新設(shè)備的不斷涌現(xiàn),產(chǎn)生著越來越多的檢驗(yàn)數(shù)據(jù),同時(shí)檢驗(yàn)數(shù)據(jù)產(chǎn)生的速度也大大加快,使檢驗(yàn)醫(yī)學(xué)進(jìn)入大數(shù)據(jù)時(shí)代。這些檢驗(yàn)數(shù)據(jù)信息在臨床醫(yī)學(xué)中發(fā)揮了巨大作用,據(jù)統(tǒng)計(jì),檢驗(yàn)信息占患者全部信息的60%以上[31],目前,醫(yī)學(xué)檢驗(yàn)數(shù)據(jù)信息也成為疾病診斷、治療、監(jiān)測和預(yù)后判斷等方面的重要依據(jù)。
醫(yī)院實(shí)驗(yàn)室信息管理系統(tǒng)(Laboratory Information Management System,LIS)為臨床醫(yī)師構(gòu)建了一個(gè)醫(yī)學(xué)檢驗(yàn)數(shù)據(jù)共享平臺(tái),它將粘貼條形碼的檢驗(yàn)標(biāo)本和智能化檢驗(yàn)儀器(生化分析儀、血液分析儀、血凝分析儀、電解質(zhì)分析儀、電泳分析儀、電發(fā)光分析儀、化學(xué)發(fā)光分析儀、全自動(dòng)酶標(biāo)儀、免疫分析儀、尿液分析儀及尿沉渣工作站、細(xì)菌培養(yǎng)及鑒定儀等儀器設(shè)備)傳出的檢驗(yàn)數(shù)據(jù)經(jīng)分析后,生成檢驗(yàn)報(bào)告,通過網(wǎng)絡(luò)存儲(chǔ)在數(shù)據(jù)庫中,從而減少以人工操作的方式來實(shí)現(xiàn)檢驗(yàn)信息轉(zhuǎn)移,減少在接收檢驗(yàn)申請(qǐng)、結(jié)果報(bào)告和保存記錄等工作中可能產(chǎn)生的人為差錯(cuò),并為檢驗(yàn)結(jié)果查詢提供了更有效的路徑,形成了科學(xué)規(guī)范的實(shí)驗(yàn)室工作流程,為臨床提供快速、準(zhǔn)確、可靠的檢驗(yàn)報(bào)告,使醫(yī)生可實(shí)時(shí)查看檢驗(yàn)結(jié)果,提高檢驗(yàn)結(jié)果的響應(yīng)速度,并可方便地查詢病人的歷史檢驗(yàn)數(shù)據(jù),為臨床醫(yī)師及時(shí)地分析患者疾病的變化提供了可靠的醫(yī)學(xué)資料。同時(shí),LIS系統(tǒng)將各個(gè)獨(dú)立的分析儀器連在一起,可實(shí)現(xiàn)檢驗(yàn)科局部的網(wǎng)絡(luò)化,有利于檢驗(yàn)科內(nèi)部的質(zhì)量監(jiān)督及控制。
4.7 大數(shù)據(jù)分析技術(shù)在醫(yī)院管理中的應(yīng)用
醫(yī)療領(lǐng)域是最早應(yīng)用計(jì)算機(jī)技術(shù)的領(lǐng)域之一。X光透視影像的數(shù)字圖像處理系統(tǒng)、γ顯像影像處理系統(tǒng)是早期的計(jì)算機(jī)處理技術(shù)的成功應(yīng)用。目前,各大醫(yī)院應(yīng)用的醫(yī)院綜合管理信息系統(tǒng)(HIS)、LIS系統(tǒng)、影像系統(tǒng)(PACS系統(tǒng))、OA系統(tǒng)等,已形成以電子病歷為中心的管理信息系統(tǒng)(EMR),對(duì)醫(yī)院資源的有效管理、醫(yī)院效益的提高、診療水平的提高起著非常重要的作用[17]。
隨著區(qū)域醫(yī)療的發(fā)展,將分布在一個(gè)城市的若干家醫(yī)院的電子病歷系統(tǒng)通過互聯(lián)網(wǎng)連接起來,實(shí)現(xiàn)醫(yī)療信息共享,可減少患者的重復(fù)檢驗(yàn),提高醫(yī)療效率,充分發(fā)揮大醫(yī)院和名醫(yī)、專家的對(duì)疾病診治的指導(dǎo)作用。同時(shí),通過機(jī)器學(xué)習(xí)和挖掘分析方法,醫(yī)師可獲得類似癥狀患者的疾病機(jī)理、病因以及治療方案,從而有助于醫(yī)師提高診斷和治療水平。
5 大數(shù)據(jù)分析技術(shù)在藥學(xué)領(lǐng)域的應(yīng)用
大數(shù)據(jù)分析技術(shù)的另一個(gè)重要的應(yīng)用領(lǐng)域就是藥學(xué)領(lǐng)域。在藥學(xué)領(lǐng)域,各種藥物信息和儀器平臺(tái)的數(shù)字化,隨時(shí)都在產(chǎn)生著大量數(shù)據(jù)[1]。大數(shù)據(jù)分析技術(shù)可應(yīng)用于藥物作用分析、新藥研發(fā)等方面,從研究人員尋找靶標(biāo)、建立模型、尋找化合物等過程中產(chǎn)生的大量數(shù)據(jù)中挖掘出有用的信息,通過定量的方法分析這些信息,可指導(dǎo)藥物研究方案的設(shè)計(jì),從而提高藥物研發(fā)的質(zhì)量、資源利用率以及研發(fā)效 率[19]。
5.1 大數(shù)據(jù)分析技術(shù)在新藥研發(fā)中的應(yīng)用
網(wǎng)絡(luò)藥理學(xué)和分子對(duì)接技術(shù)是目前藥物研發(fā)的重要工具,也是大數(shù)據(jù)分析技術(shù)應(yīng)用的重要領(lǐng)域[1]。
一個(gè)完整的生物體內(nèi)各個(gè)機(jī)制的正常運(yùn)行依靠系統(tǒng)的完整性,通過各個(gè)節(jié)點(diǎn)之間的相互作用形成穩(wěn)定、復(fù)雜的網(wǎng)絡(luò)體系。很多疾病的出現(xiàn)是由于穩(wěn)定的網(wǎng)絡(luò)體系被打亂,多個(gè)節(jié)點(diǎn)出現(xiàn)問題[1]。因此,針對(duì)單靶點(diǎn)研發(fā)的藥物效果常常不夠理想,借助網(wǎng)絡(luò)拓?fù)鋵W(xué)理論及研究方法,對(duì)疾病所涉及的分子及其相互作用抽象為網(wǎng)絡(luò)節(jié)點(diǎn)和邊,利用相關(guān)算法進(jìn)行研究,將解決傳統(tǒng)西藥以單分子單靶點(diǎn)的研究思路在新藥研發(fā)中遇到的巨大的瓶頸問題。探索新的算法,開發(fā)新的應(yīng)用程序?qū)⑹蔷W(wǎng)絡(luò)藥理學(xué)研究中的重要內(nèi)容,建立完整可靠的蛋白網(wǎng)絡(luò)數(shù)據(jù)庫、疾病網(wǎng)絡(luò)數(shù)據(jù)庫以及藥物網(wǎng)絡(luò)數(shù)據(jù)庫,將會(huì)極大地提升新藥研發(fā)的能力與水平,加快新藥研發(fā)的進(jìn)程[1]。Sun等[32]利用網(wǎng)絡(luò)藥理學(xué)技術(shù)構(gòu)建了“冠心病/心肌缺血疾病-靶標(biāo)-成分(群)”網(wǎng)絡(luò),并對(duì)冠心丹參滴丸所含的化學(xué)成分建立了化合物數(shù)據(jù)庫及與血瘀證相關(guān)的主要作用靶點(diǎn)數(shù)據(jù)庫,通過合適的數(shù)學(xué)模型建立雙向關(guān)聯(lián)圖,將化合物—靶點(diǎn)網(wǎng)絡(luò)與生物網(wǎng)絡(luò)整合在一起,分析了化合物與此網(wǎng)絡(luò)中心與特定節(jié)點(diǎn)上的結(jié)合數(shù)量與結(jié)合程度,從而預(yù)測了方劑的有效成分群和有效靶點(diǎn)群。通過實(shí)驗(yàn)驗(yàn)證,冠心丹參方主要活性成分丹酚酸B、木犀草素、木犀草苷、山柰酚、三七皂苷R1、丹酚酸B等均具有顯著的抗心肌細(xì)胞損傷或抗心肌細(xì)胞凋亡作用。
分子對(duì)接技術(shù)(Docking)是計(jì)算機(jī)輔助藥物設(shè)計(jì)(CADD)的一種常用方法,應(yīng)用于基于結(jié)構(gòu)的藥物設(shè)計(jì)中。其方法是基于靶分子的空間結(jié)構(gòu),用多種小分子化合物(如可用小分子化合物數(shù)據(jù)庫中幾萬種甚至幾十萬種化合物)進(jìn)行計(jì)算機(jī)模擬結(jié)合,篩選出與靶分子匹配最佳的小分子化合物進(jìn)行藥物研發(fā)[1]。高通量的篩選極大地縮短了藥物開發(fā)的時(shí)間,并可以預(yù)測藥物分子潛在的作用靶標(biāo),為新藥研發(fā)提供方向性指導(dǎo)[1]。目前常用的Docking工具有DOCK、AutoDock4、surflex、glide、gold、MVD等。分子對(duì)接技術(shù)在新藥研發(fā)中目前已取得一定成效,應(yīng)用分子對(duì)接技術(shù)研發(fā)的HIV-1蛋白酶抑制劑是一個(gè)成功的例子,該藥物目前以通過FDA的認(rèn)證并已上市[33]。
利用大數(shù)據(jù)分析技術(shù)還可以更加準(zhǔn)確地分析各種藥物的作用并針對(duì)疾病的特征進(jìn)行藥物研發(fā),從而為病人設(shè)計(jì)出更好的治療方案,更加合理地用藥,以更有效地治療疾病。
5.2 大數(shù)據(jù)分析技術(shù)在藥物副作用分析中的應(yīng)用
藥物副作用不僅會(huì)導(dǎo)致治療作用減弱、患者發(fā)生不良反應(yīng),嚴(yán)重時(shí)甚至?xí)?dǎo)致患者死亡,還會(huì)引發(fā)一些其他疾?。ㄋ幵葱约膊。黾踊颊叩尼t(yī)療費(fèi)用。據(jù)文獻(xiàn)報(bào)道,門診病人藥物不良反應(yīng)的發(fā)生率為0.3%~5.0%,住院病人為10% ~20%[34]。美國每年有70多萬人因藥物副作用受到傷害或死亡,一家有700張床位的醫(yī)院,每年因藥物副作用導(dǎo)致的住院和門診費(fèi)用高達(dá)560萬美元[35]。如果應(yīng)用大數(shù)據(jù)分析技術(shù),通過互聯(lián)網(wǎng)挖掘分析各家醫(yī)院的藥物不良反應(yīng)信息以及社交網(wǎng)中(如新浪博客、醫(yī)療網(wǎng)絡(luò)論壇)的大量人群服用某種藥物的不良反應(yīng)信息,就能更科學(xué)、全面地了解藥物副作用的情況,減少藥物對(duì)患者的傷害,同時(shí)減輕患者的經(jīng)濟(jì)負(fù)擔(dān)[17]。孫華君等[36]采集了上海市兒童醫(yī)院信息系統(tǒng)中2012年診斷為“肺炎”的醫(yī)囑信息,包括患兒的基本信息、住院時(shí)間、用藥品種數(shù)、聯(lián)合用藥等,分析了其用藥合理性。
6 展望
當(dāng)前社會(huì)已經(jīng)進(jìn)入大數(shù)據(jù)時(shí)代,隨著科學(xué)技術(shù)的高速發(fā)展,與大數(shù)據(jù)相關(guān)的新理論、新方法和新技術(shù)正在不斷產(chǎn)生。大數(shù)據(jù)分析技術(shù)在醫(yī)藥領(lǐng)域發(fā)揮著越來越重要的作用。大數(shù)據(jù)分析系統(tǒng)的建設(shè)和發(fā)展將對(duì)醫(yī)藥領(lǐng)域及其他各個(gè)領(lǐng)域產(chǎn)生重大影響,基于基因組學(xué)大數(shù)據(jù)和現(xiàn)代生物醫(yī)學(xué)技術(shù)的個(gè)性化醫(yī)療,即精準(zhǔn)醫(yī)學(xué),是未來醫(yī)學(xué)的發(fā)展方向。大數(shù)據(jù)分析技術(shù)的應(yīng)用,必將改善人類生活環(huán)境,提高人類的生活質(zhì)量和健康水平。
[1]胡瑞峰,邢小燕,孫桂波,等.大數(shù)據(jù)時(shí)代下生物信息技術(shù)在生物醫(yī)藥領(lǐng)域的應(yīng)用前景.藥學(xué)學(xué)報(bào).2014,49(11):1512-1519.
[2]李國杰.大數(shù)據(jù)研究:未來科技及經(jīng)濟(jì)社會(huì)發(fā)展的重大戰(zhàn)略領(lǐng)域-大數(shù)據(jù)的研究現(xiàn)狀與科學(xué)思考.中國科學(xué)院院刊,2012,27(6):647-648.
[3]張艷.大數(shù)據(jù)背景下的生物醫(yī)學(xué)信息處理.生命科學(xué)儀器,2014,12(10):17-20.
[4]Merelli I,Pérez-Sánchez H,Gesing S,et al.Managing,analysing,and integrating big data in medical bioinformatics:open problems and future perspectives.Biomed Res Int,2014,134023.
[5]Bollier D.The promise and peril of big data.USA:The Aspen Institute,2010:25-28.
[6]李春輝.“大數(shù)據(jù)”背景下的計(jì)算機(jī)信息處理技術(shù)分析.電子技術(shù)與軟件工程,2014,3(9):33-34.
[7]Dahl G E,Yu D,Deng L,et al.Context-Dependent pre-trained deep neural networks for large-vocabulary speech recognition.IEEE Trans.on Audio,Speech,and Language Processing,2012,20(1):30-42.
[8]何清,李寧,羅文娟,等.大數(shù)據(jù)下的機(jī)器學(xué)習(xí)算法綜述.模式識(shí)別與人工智能.2014,27(4):327-336.
[9]黃高明.?dāng)?shù)據(jù)挖掘及其在醫(yī)療衛(wèi)生領(lǐng)域中的應(yīng)用.廣西醫(yī)學(xué),2006,28(2):161-164.
[10]姜桂艷,常安德,牛世峰,等.基于BP神經(jīng)網(wǎng)絡(luò)的交通數(shù)據(jù)序列動(dòng)態(tài)可預(yù)測性分析方法.北京工業(yè)大學(xué)學(xué)報(bào),2011,37(7):1019-1026.
[11]趙永未,楊力綱,袁興明,等.基于BP神經(jīng)網(wǎng)絡(luò)的礦山GPS數(shù)據(jù)時(shí)間序列預(yù)測分析.科技創(chuàng)新導(dǎo)報(bào),2011,34:123-124,126.
[12]王臻.預(yù)測分析幫你掌控未來.計(jì)算機(jī)世界,2012-08-20030.
[13]陳明.大數(shù)據(jù)可視化分析.計(jì)算機(jī)教育,2015,13(5):94-97.
[14]石翌軼,宋自林,尹康銀.一種基于語義的Web數(shù)據(jù)搜索引擎方法研究.山東大學(xué)學(xué)報(bào)(理學(xué)版),2006,40(3):25-29.
[15]程學(xué)旗,靳小龍,王元卓,等.大數(shù)據(jù)系統(tǒng)和分析技術(shù)綜述.軟件學(xué)報(bào),2014,25(9):1889-1908.
[16]王宏志.大數(shù)據(jù)質(zhì)量管理:問題與研究進(jìn)展.科技導(dǎo)報(bào),2014,32(34):78-84.
[17]鄒北驥.大數(shù)據(jù)分析及其在醫(yī)療領(lǐng)域中的應(yīng)用.計(jì)算機(jī)教育,2014,12(7):26-29.
[18]周云輝,王嬌.?dāng)?shù)據(jù)挖掘技術(shù)在醫(yī)療領(lǐng)域的應(yīng)用研究.機(jī)械工程與自動(dòng)化,2013,41(4):14-15,18.
[19]李芳薇,呂婷,程瑾,等.國外生物醫(yī)學(xué)科研數(shù)據(jù)管理服務(wù)與啟示.中華醫(yī)學(xué)圖書情報(bào)雜志,2014,23(6):61-65.
[20]Alsulami H,Liu X,Beyene J.Pathway-based analysis of rare and common variants to test for association with blood pressure.BMC Proc,2014,8:S101.
[21]Prather J C,Lobach DF,Goodwin L K,et al.Medical data mining:knowledge discovery in a clinical data warehouse.Proc AMIA Annu Fall Symp,1997:101-105.
[22]秦中廣,毛宗源,鄧兆智.粗糙集在中醫(yī)類風(fēng)濕證候診斷中的應(yīng)用.中國生物醫(yī)學(xué)工程學(xué)報(bào),2001,20(4):357-363.
[23]Kusiak A,Kernstine K H,Kern J A,et al.Data mining:medical and engineeringcasestudies.Proceedingsoftheindustrial engineering research 2000 conference,Cleveland,Ohio,May 21-23.2000.
[24]Kusiak A,Kern J A,Kernstine K H,et al.Autonomous decisionmaking:a data mining approach.IEEE Trans Inf Technol Biomed,2000,4(4):274-284.
[25]Shaikh A R,Butte A J,Schully S D,et al.Collaborative biomedicine in the age of big data:the case of cancer.J Med Internet Res.2014,16(4):e101.
[26]于長春,賀佳,張智堅(jiān),等.?dāng)?shù)據(jù)挖掘技術(shù)在肝癌術(shù)后預(yù)測分析中的應(yīng)用初探.第二軍醫(yī)大學(xué)學(xué)報(bào),2003,24(11):1241-1243.
[27]馬立偉,曾強(qiáng),呂秋平,等.大數(shù)據(jù)癌癥風(fēng)險(xiǎn)預(yù)測系統(tǒng).世界復(fù)合醫(yī)學(xué),2015,1(1):63-67.
[28]孫艷秋,劉鋼.基于大數(shù)據(jù)分析的潛在高血壓病預(yù)測研究.計(jì)算機(jī)仿真,2015,32(5):386-389,342.
[29]屈曉暉,袁武,袁文,等..時(shí)空大數(shù)據(jù)分析技術(shù)在傳染病預(yù)測預(yù)警中的應(yīng)用.中國數(shù)字醫(yī)學(xué),2015,10(8):36-39.
[30]Sacha J P,Goodenday L S,Cios K J.Bayesian learning for cardiac SPECT imaging interpretation.Artif Intell Med,2002,26(1-2):109-143.
[31]張麗,蔡金良.臨床檢驗(yàn)在醫(yī)學(xué)中的作用.臨床醫(yī)藥文獻(xiàn)雜志,2015,2(24):5173.
[32]Sun B,Xiao J,Sun X B,et al.Notoginsenoside R1 attenuates cardiac dysfunction in endotoxemic mice:an insight intooestrogen receptor activation and PI3K/Akt signaling.Br J Pharmacol,2013,168(7):1758-1770.
[33]Wlodawer A,Vondrasek J.Inhibitors of HIV-1 protease:a major success of structure-assisted drug design.Ann Rev Biophys Biomol Struct,1998,27:249-284.
[34]Bates D W,Cullen D J,Laid N,et al.Incidence of adverse drug eventsandpotentialadversedrugevents-implicationsfor prevention.JAMA,1995,274(1):29-34.
[35]Bates D W,Spell N,Cullen D J,et al.The costs of adverse drug events in hospitalized patients.JAMA,1997,277(4):307-311.
[36]孫華君,顧之睿,高春輝,等.大數(shù)據(jù)環(huán)境中肺炎住院患兒用藥模式的描述性分析.藥學(xué)服務(wù)與研究,2014,14(4):264-267.
(張?jiān)鑫渚庉嫞?/p>
Big Data Analysis and Its Application in the Field of Medicine
ZHANG Chun-li,CHENG Yu
(Department of Nuclear Medicine,Peking University First Hospital,Beijing 100034,China)
Big data will play more and more important role in medicine with the coming of“era of big data”.Personalized medicine,i e.precision medicine,based on the genomic big data and modern biomedical technology,is the future direction of medicine.Acquisition,classification,storage of the big data and extraction of the valuable information from the big data are the vivid areas of study.In this paper,the definition and characteristics of big data,big data analysis technology and the application of big data in the field of medicine are reviewed.
Big data; Big data analysis; Medicine; Personalized medicine; Precision medicine
10.11748/bjmy.issn.1006-1703.2016.03.028
2015-11-06;
2015-12-15