張家艷,鄭建立,鄭西川,夏 濤
(1.上海理工大學(xué),上海 200093;2.上海交通大學(xué),上海 200233)
數(shù)據(jù)挖掘也稱作數(shù)據(jù)庫(kù)的知識(shí)發(fā)現(xiàn)(knowledge discovery in databases,KDD)[1],目的是從大量的數(shù)據(jù)中抽取出有價(jià)值的知識(shí)。醫(yī)院數(shù)字系統(tǒng)普及產(chǎn)生大量醫(yī)療數(shù)據(jù),挖掘分析這些醫(yī)療數(shù)據(jù)能夠發(fā)現(xiàn)相關(guān)規(guī)律。Ghassemi[2]等使用數(shù)據(jù)挖掘發(fā)現(xiàn)在入院前服用血清素?cái)z取抑制劑或血清去甲狀腺素?cái)z取抑制劑的ICU住院病人比一般病人有更高的住院死亡率。
近年來(lái),隨著機(jī)器學(xué)習(xí)、深度學(xué)習(xí)的興起,將這些算法用到醫(yī)學(xué)領(lǐng)域,能改善挖掘結(jié)果。Wu C運(yùn)用決策樹(shù)可視化方法發(fā)現(xiàn)了老年焦慮病人的影響因素[3]。但數(shù)據(jù)集過(guò)少時(shí),用人工智能技術(shù)挖掘結(jié)果有時(shí)并不理想。深度學(xué)習(xí)適合數(shù)據(jù)量和數(shù)據(jù)維度比較大的情況[4],以至于業(yè)界流傳一句話為得數(shù)據(jù)者得天下。而醫(yī)療領(lǐng)域,由于醫(yī)學(xué)數(shù)據(jù)的私密性,研究人員更難獲取大量的醫(yī)學(xué)數(shù)據(jù)。為解決數(shù)據(jù)量少的問(wèn)題,文中研究的數(shù)據(jù)集為由貝斯以色列女執(zhí)事醫(yī)療中心和麻省理工大學(xué)計(jì)算生理實(shí)驗(yàn)室和飛利浦共同支持的重癥監(jiān)護(hù)醫(yī)學(xué)信息集(MIMIC-III)。MIMIC包含了在2001年到2012年間53 423個(gè)進(jìn)入重癥監(jiān)護(hù)病房的成年病人(年齡在16歲以上),以及在2001年到2008年間的7 870名新生兒的數(shù)據(jù)[5]。
對(duì)擁有龐大數(shù)據(jù)集的MIMIC數(shù)據(jù)庫(kù)進(jìn)行挖掘,人工智能技術(shù)便能發(fā)揮巨大的優(yōu)勢(shì)。文中旨在介紹圍繞MIMIC數(shù)據(jù)庫(kù)的內(nèi)容和研究、深度學(xué)習(xí)及機(jī)器學(xué)習(xí)在MIMIC數(shù)據(jù)庫(kù)挖掘研究的應(yīng)用領(lǐng)域和不足。
最近發(fā)布的MIMIC版本是MIMIC-III(medical information mart for intensive care),version1.4,它是在MIMIC-II基礎(chǔ)上的擴(kuò)展。MIMIC-II包括在2001到2008年之前幾乎所有進(jìn)入貝斯以色列女執(zhí)事醫(yī)療中心重癥監(jiān)護(hù)病房的成年患者[6]。在數(shù)據(jù)庫(kù)數(shù)據(jù)整合進(jìn)MIMIC數(shù)據(jù)庫(kù)之前,需依據(jù)美國(guó)的HIPAA標(biāo)準(zhǔn)進(jìn)行去身份化處理[7],進(jìn)行結(jié)構(gòu)化數(shù)據(jù)清洗和數(shù)據(jù)轉(zhuǎn)換。每個(gè)病人的住院日期隨機(jī)轉(zhuǎn)換成了2100年到2200年期間。在HIPAA規(guī)則下,這些病人出現(xiàn)在數(shù)據(jù)庫(kù)中的年齡都超過(guò)了300年。
MIMIC-III是一個(gè)由26張表組成的關(guān)系數(shù)據(jù)庫(kù)。表通過(guò)標(biāo)識(shí)符連接,通常會(huì)有ID后綴。例如:SUBJECT_ID是指一個(gè)單獨(dú)的病人。像備注、實(shí)驗(yàn)室測(cè)試和液平衡等事件信息都存儲(chǔ)在事件表中,例如OUTPUTEVENTS表包含了與患者輸出相關(guān)的所有測(cè)量值,而LABEVENTS表中包含了一個(gè)患者實(shí)驗(yàn)室測(cè)量結(jié)果。前綴有‘D_’的表是字典表,包含標(biāo)識(shí)符的定義。具體可查看http://mimic.physionet.org/mimictables。
MIMIC數(shù)據(jù)庫(kù)免費(fèi)開(kāi)放給大眾,但在獲取數(shù)據(jù)庫(kù)之前需簽署數(shù)據(jù)使用協(xié)議,完成相應(yīng)題目。在2012年末,已經(jīng)超過(guò)500個(gè)用戶得到批準(zhǔn)使用。獲取MIMIC關(guān)系數(shù)據(jù)庫(kù)的兩個(gè)工具為:基于網(wǎng)上的QueryBuilder和可下載的虛擬機(jī)(VM)鏡像[8]。QueryBuilder可以讓使用者使用結(jié)構(gòu)化查詢語(yǔ)句(sql)在電腦或者移動(dòng)端的web瀏覽器查詢自己想要的數(shù)據(jù),查詢后的結(jié)果數(shù)據(jù)集以CSV的形式輸出。但為了防止用戶過(guò)度消耗QueryBuilder上的共享資源,MIMIC-III,v1.4數(shù)據(jù)庫(kù)系統(tǒng)設(shè)置每次查詢僅返回前5 000行數(shù)據(jù),查詢中運(yùn)行時(shí)間不得超過(guò)15分鐘,超過(guò)了將顯示超時(shí),且不返回結(jié)果。具體可查看官方文檔[9]。由于MIMIC數(shù)據(jù)庫(kù)使用者的增多和QueryBuilder的一些限制,官網(wǎng)提供了可供下載的虛擬機(jī)(VM),讓用戶在自己的計(jì)算機(jī)上運(yùn)行關(guān)系數(shù)據(jù)庫(kù)副本。
自MIMIC開(kāi)始發(fā)布至今,人們圍繞數(shù)據(jù)庫(kù)做了不同主題的挖掘研究,也采用了各種挖掘方法對(duì)MIMIC數(shù)據(jù)庫(kù)進(jìn)行研究,下面分別對(duì)這些方法進(jìn)行介紹。
開(kāi)始人們采用統(tǒng)計(jì)分析的方法對(duì)MIMIC數(shù)據(jù)庫(kù)的數(shù)據(jù)進(jìn)行挖掘研究。采用像Simplified Acute Physiology Score (SAPS)[10]、Acute Physiology and Chronic Health Evaluation (APACHE)[11]、Sequential Organ Failure Assessment (SOFA)[12]等重大疾病計(jì)分系統(tǒng)和它們的改進(jìn)版本來(lái)預(yù)測(cè)結(jié)果。SAPS和SOFA的AUROCs能達(dá)到0.658(±0.1)和0.633(±0.09)[13]。相對(duì)于未加處理的ICU數(shù)據(jù),SAPS和SOFA達(dá)到的效果還是比較可取的。
隨著機(jī)器學(xué)習(xí)的出現(xiàn),機(jī)器學(xué)習(xí)被用于挖掘研究。機(jī)器學(xué)習(xí)是計(jì)算機(jī)科學(xué)的人工智能領(lǐng)域,該方法能夠讓計(jì)算機(jī)自己學(xué)習(xí)相關(guān)特征[14]。在機(jī)器學(xué)習(xí)模型中,每個(gè)模型都有其適合的場(chǎng)合。支持向量機(jī)最原始的目的就是用于二分類(lèi),在二分類(lèi)問(wèn)題中,K. M. D. M. Karunarathna[15]比較了幾種機(jī)器學(xué)習(xí)模型的優(yōu)劣,結(jié)果支持向量機(jī)比其他模型有更高的精度。G. Khalili-Zadeh-Mahani等[16]對(duì)五種分類(lèi)技術(shù)進(jìn)行比較,發(fā)現(xiàn)在下消化道出血患者中,支持向量機(jī)方法有較好的靈敏度和類(lèi)別加權(quán)精確度。Aya Awad等[17]引入集成學(xué)習(xí)方法,使用了集成學(xué)習(xí)隨機(jī)森林、預(yù)測(cè)決策樹(shù)、概率貝葉斯和基于規(guī)則的射影自適應(yīng)共振理論模型,發(fā)現(xiàn)隨機(jī)森林具有更高的精確率。這些機(jī)器學(xué)習(xí)模型的表現(xiàn)都要優(yōu)于傳統(tǒng)方法。Joshua Parreco等[18]將梯度提升決策樹(shù)與傳統(tǒng)方法進(jìn)行比較,發(fā)現(xiàn)機(jī)器學(xué)習(xí)方法的AUCs最大。Aya Awad等[17]提出方法的結(jié)果優(yōu)于如SOFA等標(biāo)準(zhǔn)計(jì)分系統(tǒng)。表1對(duì)上述研究人員所推崇的模型的挖掘結(jié)果進(jìn)行了詳細(xì)的展示。
隨著信息時(shí)代來(lái)臨,數(shù)據(jù)量變得越來(lái)越大,傳統(tǒng)的淺層機(jī)器學(xué)習(xí)方法已無(wú)法更好地處理大數(shù)據(jù),深度學(xué)習(xí)就此產(chǎn)生。深度學(xué)習(xí)模仿了生物神經(jīng)系統(tǒng)間的信息交流,利用人工神經(jīng)網(wǎng)絡(luò)來(lái)抽取簡(jiǎn)單的特征。
與現(xiàn)有的機(jī)器學(xué)習(xí)模型相比,大多數(shù)深度學(xué)習(xí)得到的結(jié)果都比較好。文獻(xiàn)[4]將自歸一化神經(jīng)網(wǎng)絡(luò)(SNN)、SAPS、SOFA、LR計(jì)分、隨機(jī)森林、廣義加性模型、貝葉斯自適應(yīng)回歸樹(shù)、超學(xué)習(xí)方法的預(yù)測(cè)結(jié)果進(jìn)行比較,最后發(fā)現(xiàn)SNN的AUROC是所有模型中最高的。文獻(xiàn)[19]引進(jìn)一個(gè)新的深度學(xué)習(xí)模型叫做GRU-D,最后得到的AUC分?jǐn)?shù)是所有模型中最高的。Gehrmann等[20]研究人員比較了卷積神經(jīng)網(wǎng)絡(luò)(CNNs)和其他常用模型的概念抽取方法。在大多數(shù)任務(wù)中,CNN表現(xiàn)都優(yōu)于概念抽取方法,在F1-score中上升了26,在ROC曲線中上升了7%。S. Nemati等[21]采用了深度強(qiáng)化學(xué)習(xí)的方法,從回顧性數(shù)據(jù)學(xué)習(xí)到的序列模型算法的結(jié)果比臨床指南期望的結(jié)果更好。表2對(duì)每個(gè)模型的預(yù)測(cè)任務(wù)和結(jié)果進(jìn)行了展示。
表1 機(jī)器學(xué)習(xí)模型應(yīng)用評(píng)估
表2 深度學(xué)習(xí)模型評(píng)估
單個(gè)模型都有各自的缺點(diǎn),結(jié)合模型綜合了這些模型的優(yōu)點(diǎn)來(lái)避免模型的缺點(diǎn)。Sanjay Purushotham等[22]將multilayer feedforward network (FNN)和recurrent neural networks (RNN)兩種深度模型相結(jié)合,該方法比其他方法的預(yù)測(cè)結(jié)果要好。J.Venugopalan等[23]結(jié)合了邏輯回歸和前饋神經(jīng)網(wǎng)絡(luò)模型的靜態(tài)模型和條件隨機(jī)域的暫態(tài)模型,組合模型的結(jié)果比單個(gè)模型的表現(xiàn)要好。表3展示了這些組合模型的評(píng)估結(jié)果和任務(wù)。
表3 組合模型應(yīng)用評(píng)估
目前,除了采用上述方法對(duì)數(shù)據(jù)庫(kù)數(shù)據(jù)進(jìn)行挖掘分析之外,還有一些其他的方法。Alharbi等[24]通過(guò)過(guò)程挖掘模型得到比較好的結(jié)果。文獻(xiàn)[25]引進(jìn)存活主題模型更好地顯示了病人狀況。文獻(xiàn)[26]提出了一種暫態(tài)數(shù)據(jù)挖掘方法,運(yùn)用SW-MATFD挖掘者挖掘重癥監(jiān)護(hù)領(lǐng)域的臨床數(shù)據(jù)。Z. He等[27]采用ICD-9-CM編碼算法,對(duì)老年人口進(jìn)行分類(lèi)。關(guān)聯(lián)規(guī)則能夠在大量的數(shù)據(jù)中發(fā)現(xiàn)有趣的關(guān)聯(lián)關(guān)系,轉(zhuǎn)化成供人決策的知識(shí)。C. Cheng等[28]首次在ICU中將關(guān)聯(lián)規(guī)則運(yùn)用到CDSS(clinical decision support system)中。
現(xiàn)存文獻(xiàn)中,對(duì)MIMIC進(jìn)行數(shù)據(jù)挖掘的一個(gè)常見(jiàn)應(yīng)用領(lǐng)域就是預(yù)測(cè)死亡率,包括住院死亡率、入院初期死亡率等。
預(yù)測(cè)ICU病人死亡率能夠改善醫(yī)生治療效果。文獻(xiàn)[15]中通過(guò)識(shí)別病人死亡的獨(dú)立因子來(lái)預(yù)測(cè)ICU病人的死亡率。文獻(xiàn)[17]預(yù)測(cè)了入院初期的24小時(shí)內(nèi)的死亡率。J. Venugopalan[23]也通過(guò)處理混合的暫態(tài)數(shù)據(jù)和靜態(tài)數(shù)據(jù)來(lái)預(yù)測(cè)ICU病人死亡率。
在臨床中,有些藥物的用量有著嚴(yán)格的要求,一旦取量不精確,將會(huì)導(dǎo)致無(wú)法預(yù)計(jì)的后果。一些研究人員挖掘研究MIMIC數(shù)據(jù)庫(kù)數(shù)據(jù)得到優(yōu)化的推薦用量。S. Nemati等[21]通過(guò)對(duì)大量電子病歷數(shù)據(jù)中樣品劑量試驗(yàn)和相關(guān)結(jié)果進(jìn)行學(xué)習(xí),得到一個(gè)優(yōu)化的肝素劑量策略。該推薦肝素用量的結(jié)果比臨床指南期望的結(jié)果更好。
將MIMIC出院小結(jié)里的語(yǔ)義信息提取出來(lái),有利于下一步的臨床決策。Gehrmann等[20]對(duì)和醫(yī)療狀況相關(guān)的各種短語(yǔ)進(jìn)行識(shí)別和突出。Sanjay Purushotham[22]也采用了其他方法進(jìn)行ICD-9code分類(lèi)預(yù)測(cè)。文獻(xiàn)[29]對(duì)病例信息進(jìn)行分析,發(fā)現(xiàn)病人積極情感,從而監(jiān)控病人心理健康狀況。Alharbi等[24]對(duì)病例信息進(jìn)行處理,發(fā)現(xiàn)一些不易發(fā)現(xiàn)的隱藏過(guò)程。
除了上述應(yīng)用方面,還有一些方面會(huì)圍繞MIMIC挖掘研究。文獻(xiàn)[23]對(duì)ICU病人進(jìn)行了再入院預(yù)測(cè)。文獻(xiàn)[19]引入了一個(gè)新的學(xué)習(xí)模型來(lái)處理多元時(shí)間序列缺失值的問(wèn)題。醫(yī)生關(guān)注的不只是患者的死亡率,還有出院率,文獻(xiàn)[25]采用了一種模型來(lái)預(yù)測(cè)病人的出院率。M. Dunitz等[30]開(kāi)發(fā)一種實(shí)時(shí)的算法將感染性病人分成不同的風(fēng)險(xiǎn)類(lèi)別來(lái)進(jìn)行感染性休克研究。Z. He[27]研究發(fā)現(xiàn)老年人口患的并發(fā)癥和現(xiàn)在臨床研究相對(duì)較少的矛盾,從而指導(dǎo)人們花更多的精力開(kāi)展這方面的研究。
由于對(duì)MIMIC數(shù)據(jù)庫(kù)的挖掘研究改善了醫(yī)療服務(wù),但這些數(shù)據(jù)畢竟是國(guó)外的,有些并不一定適合國(guó)內(nèi)人群體質(zhì),在對(duì)MIMIC數(shù)據(jù)庫(kù)進(jìn)行充分的學(xué)習(xí)研究及參考相關(guān)論文之后,采用某三甲醫(yī)院數(shù)據(jù)中心的數(shù)據(jù)參考MIMIC數(shù)據(jù)庫(kù)建庫(kù)的技術(shù)手段建立數(shù)據(jù)倉(cāng)庫(kù)。
在建立數(shù)據(jù)倉(cāng)庫(kù)之前,首先需要分析數(shù)據(jù)倉(cāng)庫(kù)的主要用途,確定相應(yīng)的表結(jié)構(gòu)。目前已經(jīng)確定了大致的表結(jié)構(gòu)。具體會(huì)進(jìn)行進(jìn)一步的分析完全確定。確定結(jié)構(gòu)之后,就會(huì)對(duì)醫(yī)院的數(shù)據(jù)進(jìn)行抽取、清洗、轉(zhuǎn)換,進(jìn)入數(shù)據(jù)倉(cāng)庫(kù)。
數(shù)據(jù)抽取的工作難點(diǎn)主要在于醫(yī)院數(shù)據(jù)中心數(shù)據(jù)庫(kù)比較多,數(shù)據(jù)庫(kù)下面的表也比較多,而且有些數(shù)據(jù)庫(kù)沒(méi)有相應(yīng)的數(shù)據(jù)字典,對(duì)于有些字段的含義就只能靠猜測(cè)加驗(yàn)證,從如此龐雜的表中找到所需要的數(shù)據(jù)是一個(gè)費(fèi)時(shí)的過(guò)程,還需要將得到的數(shù)據(jù)抽取轉(zhuǎn)換出來(lái)。目前確定的數(shù)據(jù)抽取工具是kettle,該工具是一款國(guó)外開(kāi)源的etl工具,使用比較方便。
在建好數(shù)據(jù)倉(cāng)庫(kù)之后,會(huì)對(duì)數(shù)據(jù)庫(kù)進(jìn)行相應(yīng)的挖掘研究,以期發(fā)現(xiàn)一些隱藏的醫(yī)學(xué)信息。
MIMIC數(shù)據(jù)庫(kù)包含著豐富的臨床信息,對(duì)其進(jìn)行挖掘研究,發(fā)現(xiàn)其中隱含的疾病關(guān)系,能夠改善醫(yī)療質(zhì)量。文中簡(jiǎn)要介紹了MIMIC數(shù)據(jù)庫(kù),描述了現(xiàn)今對(duì)MIMIC數(shù)據(jù)庫(kù)進(jìn)行挖掘研究的方法以及在醫(yī)學(xué)各個(gè)領(lǐng)域的應(yīng)用,其中著重描述了基于人工智能技術(shù)機(jī)器學(xué)習(xí)及深度學(xué)習(xí)對(duì)MIMIC數(shù)據(jù)庫(kù)進(jìn)行挖掘研究。
目前機(jī)器學(xué)習(xí)、深度學(xué)習(xí)對(duì)MIMIC數(shù)據(jù)庫(kù)信息的挖掘分析研究的領(lǐng)域比較廣泛,比如各種疾病的預(yù)測(cè)、對(duì)缺失數(shù)據(jù)的處理、提取電子病歷的語(yǔ)義信息等等。尤其是近年來(lái)的論文中,已經(jīng)很少有研究人員采用傳統(tǒng)的計(jì)分系統(tǒng)去發(fā)現(xiàn)數(shù)據(jù)庫(kù)中的醫(yī)學(xué)數(shù)據(jù)規(guī)律。一大批的研究人員都采用人工智能的方法進(jìn)行挖掘研究,也取得了相對(duì)可觀的結(jié)果,技術(shù)手段也相對(duì)越來(lái)越成熟。
雖然將人工智能技術(shù)(機(jī)器學(xué)習(xí)、深度學(xué)習(xí)等)用于MIMIC數(shù)據(jù)庫(kù)挖掘分析已經(jīng)碩果累累,但是從技術(shù)上看,也都存在各自的缺陷。首先機(jī)器學(xué)習(xí)對(duì)于小數(shù)據(jù)集會(huì)比較好,對(duì)于大規(guī)模的數(shù)據(jù)集,最好使用深度學(xué)習(xí)。其次由于深度學(xué)習(xí)對(duì)于深層網(wǎng)絡(luò)的不可解釋性,很難調(diào)整深層網(wǎng)絡(luò)來(lái)得到一個(gè)較好的結(jié)果。在文獻(xiàn)[26]中,在一些測(cè)試數(shù)據(jù)集中得到的結(jié)果反而不如統(tǒng)計(jì)機(jī)器學(xué)習(xí)得到的結(jié)果好。而且從應(yīng)用上看,挖掘分析主要集中于死亡率預(yù)測(cè)和電子病歷提取語(yǔ)義分析相關(guān)的方面,集中領(lǐng)域比較單一,挖掘應(yīng)用的廣度和深度不夠,沒(méi)有充分應(yīng)用MIMIC數(shù)據(jù)庫(kù)的豐富資源。
然而機(jī)器學(xué)習(xí)和深度學(xué)習(xí)方法的結(jié)合模型能夠結(jié)合各個(gè)模型的優(yōu)點(diǎn),得到更好的結(jié)果,具有較大的發(fā)展?jié)摿?。但是現(xiàn)今結(jié)合模型在MIMIC數(shù)據(jù)庫(kù)挖掘研究應(yīng)用還較少,研究的領(lǐng)域還比較窄。在將來(lái)的工作中,首先可以在MIMIC挖掘研究中更多地使用結(jié)合模型。其次應(yīng)該擴(kuò)大應(yīng)用領(lǐng)域,而不僅僅關(guān)注死亡率預(yù)測(cè)那幾個(gè)方向,大膽應(yīng)用到醫(yī)療的其他領(lǐng)域。最后,應(yīng)該注重挖掘研究的深度,發(fā)現(xiàn)更多的隱含信息。