蘭 欣,衛(wèi) 榮*,蔡宏偉,郭佑民,侯夢(mèng)薇,邢 磊,那 天,陸 亮
(1.西安交通大學(xué)第一附屬醫(yī)院網(wǎng)絡(luò)信息部,西安 710061;2.西安交通大學(xué)第一附屬醫(yī)院影像科,西安 710061)
隨著計(jì)算機(jī)技術(shù)、信息技術(shù)和互聯(lián)網(wǎng)技術(shù)的迅速發(fā)展,社會(huì)各個(gè)領(lǐng)域積累了海量的數(shù)據(jù)。如何在這些海量數(shù)據(jù)里挖掘出有用的信息是目前各行各業(yè)所面臨的問題。機(jī)器學(xué)習(xí)作為解決數(shù)據(jù)挖掘問題的主要方法之一,在許多領(lǐng)域得到廣泛應(yīng)用,尤其是在醫(yī)療領(lǐng)域[1]。本文現(xiàn)對(duì)機(jī)器學(xué)習(xí)的定義、分類、經(jīng)典算法等相關(guān)概念及其在醫(yī)療領(lǐng)域中的應(yīng)用作一綜述。
機(jī)器學(xué)習(xí)是一種能自動(dòng)構(gòu)建出模型用來處理一些復(fù)雜關(guān)系的技術(shù),它使用計(jì)算機(jī)模擬人類學(xué)習(xí)行為,通過學(xué)習(xí)現(xiàn)有知識(shí),獲取新經(jīng)驗(yàn)與新知識(shí),不斷改善性能并實(shí)現(xiàn)自身完善[2]。
機(jī)器學(xué)習(xí)一般根據(jù)處理的數(shù)據(jù)是否需要人為標(biāo)記分為監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)3類。
監(jiān)督學(xué)習(xí)是用具有分類標(biāo)簽的數(shù)據(jù)作為學(xué)習(xí)目標(biāo),其針對(duì)每個(gè)要學(xué)習(xí)的樣本都由學(xué)習(xí)輸入和學(xué)習(xí)目標(biāo)組成。機(jī)器學(xué)習(xí)算法通過已經(jīng)打標(biāo)簽的數(shù)據(jù)進(jìn)行模型訓(xùn)練,并將訓(xùn)練好的模型用來預(yù)測(cè)新數(shù)據(jù)的結(jié)果。因此,監(jiān)督學(xué)習(xí)的最終目標(biāo)是訓(xùn)練機(jī)器學(xué)習(xí)的泛化能力。
無監(jiān)督學(xué)習(xí)是用于處理不具有分類標(biāo)簽的數(shù)據(jù),不需要提前進(jìn)行訓(xùn)練,而是希望通過機(jī)器學(xué)習(xí)算法尋求數(shù)據(jù)間的內(nèi)在模式和規(guī)律,從而發(fā)現(xiàn)樣本數(shù)據(jù)潛在的結(jié)構(gòu)特征。因此,無監(jiān)督學(xué)習(xí)的最終目標(biāo)是在學(xué)習(xí)過程中根據(jù)相似性原理對(duì)數(shù)據(jù)進(jìn)行區(qū)分。
在實(shí)際應(yīng)用中,只有少量的帶有標(biāo)記的數(shù)據(jù)。因?yàn)橛袝r(shí)對(duì)數(shù)據(jù)進(jìn)行標(biāo)記的代價(jià)會(huì)很高,如基因序列比對(duì)、蛋白質(zhì)功能預(yù)測(cè)等需要使用特殊設(shè)備或經(jīng)過昂貴且用時(shí)非常長(zhǎng)的實(shí)驗(yàn)過程進(jìn)行人工標(biāo)記,所以衍生出半監(jiān)督學(xué)習(xí)。半監(jiān)督學(xué)習(xí)是使用大量的無標(biāo)簽的數(shù)據(jù)和一小部分有標(biāo)簽數(shù)據(jù)訓(xùn)練模型,在已標(biāo)記的類別樣本提供的監(jiān)督信息的“引導(dǎo)”下,學(xué)習(xí)全部樣本或只學(xué)習(xí)未標(biāo)記類別樣本[3]。
決策樹是一種類似樹形結(jié)構(gòu)的預(yù)測(cè)模型,其中樹的每個(gè)分支是一個(gè)分類問題,樹的葉節(jié)點(diǎn)表示對(duì)應(yīng)分類的數(shù)據(jù)分割。決策樹利用信息增益發(fā)現(xiàn)數(shù)據(jù)庫(kù)中最大信息量的字段作為決策樹的一個(gè)節(jié)點(diǎn),按照字段取值的不同建立樹的分支。對(duì)于每個(gè)分支再重復(fù)建立樹的下層節(jié)點(diǎn)和分支過程,最終建立完成決策樹[4-5]。圖1為某實(shí)例決策樹模型示意圖。由于決策樹是一種典型的分類算法,因此在疾病的預(yù)測(cè)、輔助診斷中應(yīng)用廣泛,如用于管理決策協(xié)議、創(chuàng)建代謝紊亂的分類模式、獲取耳神經(jīng)病的相關(guān)知識(shí)、糖尿病的數(shù)據(jù)挖掘以及區(qū)分癡呆嚴(yán)重程度等[6]。
圖1 某實(shí)例決策樹模型示意圖
貝葉斯網(wǎng)絡(luò)是一種基于概率推理的圖形化網(wǎng)絡(luò)。貝葉斯網(wǎng)絡(luò)實(shí)質(zhì)是有向無環(huán)圖,其中節(jié)點(diǎn)主要代表隨機(jī)向量。節(jié)點(diǎn)與節(jié)點(diǎn)之間的關(guān)系,代表向量與向量之間的聯(lián)系。向量之間關(guān)系的強(qiáng)度,需采用條件概率標(biāo)識(shí)[7]。貝葉斯網(wǎng)絡(luò)在很多方面均有應(yīng)用,包括自然語言理解、故障診斷、計(jì)算機(jī)視覺、機(jī)器人等。在醫(yī)學(xué)領(lǐng)域中的應(yīng)用主要集中在醫(yī)療診斷、治療規(guī)劃等方面。
人工神經(jīng)網(wǎng)絡(luò)是模擬人腦神經(jīng)元結(jié)構(gòu)進(jìn)行信息處理的一種數(shù)學(xué)模型,建立在麥卡洛克-皮茨模型(McCulloch-Pitts model,簡(jiǎn)稱“MP 模型”)和 Hebb學(xué)習(xí)規(guī)則基礎(chǔ)上。神經(jīng)網(wǎng)絡(luò)中的每個(gè)神經(jīng)元接收大量的輸入信號(hào),執(zhí)行輸入的加權(quán)和,通過非線性激活函數(shù)產(chǎn)生激活響應(yīng)并對(duì)隨后連接的神經(jīng)元傳遞輸出信號(hào)[8]。圖2為某實(shí)例人工神經(jīng)網(wǎng)絡(luò)模型示意圖。人工神經(jīng)網(wǎng)絡(luò)包含前饋式網(wǎng)絡(luò)、反饋式網(wǎng)絡(luò)和自組織網(wǎng)絡(luò)三大類。人工神經(jīng)網(wǎng)絡(luò)具有很強(qiáng)的自組織性、魯棒性和容錯(cuò)性,在疾病的預(yù)后評(píng)估、早期預(yù)防中得到廣泛的應(yīng)用[9]。
支持向量機(jī)的基本思想是在高維空間中尋找一個(gè)最優(yōu)超平面作為二分類問題的分割,這個(gè)超平面要保證最小的分類錯(cuò)誤率[10]。支持向量機(jī)具有強(qiáng)大的數(shù)學(xué)背景、分析高維復(fù)雜數(shù)據(jù)集的能力和準(zhǔn)確的性能。在醫(yī)療領(lǐng)域應(yīng)用中,其可對(duì)骨齡估計(jì)、跌倒監(jiān)測(cè)、醫(yī)療咨詢框架以及依據(jù)人腦圖像進(jìn)行癡呆癥、抑郁癥分類的模式識(shí)別[11]。
圖2 某實(shí)例人工神經(jīng)網(wǎng)絡(luò)模型示意圖
深度學(xué)習(xí)作為機(jī)器學(xué)習(xí)領(lǐng)域的一個(gè)新的研究方向,不需要人工參與設(shè)計(jì)就能將原始數(shù)據(jù)通過自動(dòng)學(xué)習(xí)過程從一些簡(jiǎn)單的非線性模型變換為更高層次的抽象表達(dá),再組合多層變換,學(xué)習(xí)提取出非常復(fù)雜的函數(shù)特征。這是深度學(xué)習(xí)與傳統(tǒng)的機(jī)器學(xué)習(xí)最主要的區(qū)別[12]。圖3為某實(shí)例具有2個(gè)隱層的深度學(xué)習(xí)模型示意圖。在醫(yī)療領(lǐng)域中,常用的深度學(xué)習(xí)算法包括卷積神經(jīng)網(wǎng)絡(luò)、深層信念網(wǎng)絡(luò)、深度神經(jīng)網(wǎng)絡(luò)與遞歸神經(jīng)網(wǎng)絡(luò),主要可以用來進(jìn)行疾病診斷、藥物研發(fā)、醫(yī)學(xué)影像的分析等[13]。
機(jī)器學(xué)習(xí)在醫(yī)療數(shù)據(jù)中的研究與應(yīng)用越來越廣泛,已取得不少成果,主要集中在疾病的預(yù)測(cè)、疾病的輔助診斷、疾病的預(yù)后評(píng)估、新藥研發(fā)、健康管理、醫(yī)學(xué)圖像識(shí)別等方面。
圖3 某實(shí)例具有2個(gè)隱層的深度學(xué)習(xí)模型示意圖
現(xiàn)代醫(yī)療方法都是期望通過早期干預(yù)來預(yù)防疾病,因?yàn)樵绨l(fā)現(xiàn)、早治療是降低大多數(shù)疾病治療成本甚至逆轉(zhuǎn)診斷結(jié)果的關(guān)鍵。傳統(tǒng)意義上,醫(yī)生根據(jù)人口統(tǒng)計(jì)學(xué)、現(xiàn)有醫(yī)療條件、生活常規(guī)等基本信息評(píng)估疾病發(fā)展的可能性,但是準(zhǔn)確率并不高。隨著大數(shù)據(jù)和機(jī)器學(xué)習(xí)技術(shù)的發(fā)展,疾病的預(yù)測(cè)變得越來越準(zhǔn)確。Hongyoon和Kyong采用那些具有輕度認(rèn)知障礙、易發(fā)展為阿爾茨海默病的患者的腦圖像數(shù)據(jù)作為數(shù)據(jù)樣本,運(yùn)用卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練模型,預(yù)測(cè)患者3 a內(nèi)患上阿爾茨海默病的趨勢(shì),其準(zhǔn)確度高達(dá)84%[14]。諾丁漢大學(xué)流行病學(xué)家Weng博士團(tuán)隊(duì)[15]發(fā)現(xiàn)一套評(píng)估心血管病風(fēng)險(xiǎn)的機(jī)器學(xué)習(xí)算法,這套評(píng)估算法是來自英國(guó)家庭的378 256例患者的常規(guī)臨床數(shù)據(jù),該數(shù)據(jù)應(yīng)用到基于4種不同機(jī)器學(xué)習(xí)算法:隨機(jī)森林、邏輯回歸、梯度提升和神經(jīng)網(wǎng)絡(luò)。預(yù)測(cè)準(zhǔn)確性通過ROC曲線下的AUC面積進(jìn)行評(píng)估,結(jié)果顯示,這4種機(jī)器學(xué)習(xí)算法在預(yù)測(cè)心血管疾病方面比美國(guó)心臟病學(xué)院已建立的、使用近10 a的算法做得更好,其中神經(jīng)網(wǎng)絡(luò)技術(shù)表現(xiàn)最佳,比已建立的算法正確預(yù)測(cè)心血管疾病患者達(dá)355人[15]。具體每種算法所對(duì)應(yīng)的AUC值如圖4所示。用機(jī)器學(xué)習(xí)算法對(duì)疾病的預(yù)測(cè)實(shí)質(zhì)上就是用標(biāo)示過的數(shù)據(jù)集進(jìn)行訓(xùn)練,然后不斷對(duì)訓(xùn)練的模型進(jìn)行測(cè)試和優(yōu)化,最后對(duì)未知的結(jié)果進(jìn)行預(yù)測(cè)。機(jī)器學(xué)習(xí)用于分類的方法有很多,包含支持向量機(jī)、決策樹算法、邏輯回歸、集成方法等,其中支持向量機(jī)用得最多,它有著極強(qiáng)的穩(wěn)健性且能對(duì)非線性決策邊界建模,又有許多可選的核函數(shù),同時(shí)還可以有效學(xué)習(xí)高維數(shù)據(jù),這一點(diǎn)是其他算法很難做到的,因此在疾病的預(yù)測(cè)方面有著廣泛的應(yīng)用。
圖4 不同算法下的AUC值對(duì)比圖
對(duì)患者疾病診斷的過程會(huì)產(chǎn)生大量的數(shù)據(jù),從醫(yī)學(xué)圖像到基因序列,從檢驗(yàn)數(shù)據(jù)到病理數(shù)據(jù),這些大量數(shù)據(jù)如果單靠人力采用常規(guī)方法診斷既費(fèi)時(shí)又費(fèi)人力,同時(shí)缺乏質(zhì)量保證。因此,可以結(jié)合機(jī)器學(xué)習(xí)技術(shù)提供相應(yīng)的輔助診斷。Mahesh Kumar等[16]針對(duì)228個(gè)可視波長(zhǎng)眼部圖像數(shù)據(jù)運(yùn)用序列最小支持向量機(jī)優(yōu)化算法預(yù)測(cè)眼前節(jié)眼部異常,結(jié)果顯示:準(zhǔn)確率為96.96%,靈敏度為97%,特異度為99%[17],比其他的算法構(gòu)建的分類器性能更好,具體見表1。
Rehme等[17]對(duì)人在靜息狀態(tài)下的功能磁共振成像數(shù)據(jù)運(yùn)用機(jī)器學(xué)習(xí)算法中的支持向量機(jī)算法識(shí)別和分類腦卒中后運(yùn)動(dòng)功能障礙的內(nèi)表型。支持向量機(jī)算法能夠正確診斷中風(fēng)患者,準(zhǔn)確率達(dá)到了87.6%[17]。疾病輔助診斷的模型建立核心是分類算法的選取,每一種分類算法各有利弊,其中K-近鄰算法簡(jiǎn)單、易于實(shí)現(xiàn)、精度高、對(duì)異常值不敏感,同時(shí)不需要對(duì)參數(shù)進(jìn)行估計(jì),尤其是在多分類問題上的效果比其他機(jī)器算法更具優(yōu)勢(shì),能夠?yàn)獒t(yī)生在疾病診斷中提供高效、高質(zhì)量的分析判斷,提升診斷準(zhǔn)確率。
表1 基于一階統(tǒng)計(jì)和小波特征的分類器比較[17]%
疾病的預(yù)后評(píng)估是對(duì)疾病發(fā)病后發(fā)展為各種不同結(jié)局的預(yù)測(cè),在臨床很有必要。同一種疾病,由于患者的年齡、體質(zhì)、合并疾病、接受治療的早晚等諸多不同因素,即使接受了同樣的治療,預(yù)后也可能有很大的差別。如果能對(duì)不同術(shù)后患者的預(yù)后作出準(zhǔn)確預(yù)測(cè),那么就可以對(duì)不同的患者有針對(duì)性地采用不同的治療手段,進(jìn)一步提高患者的生存率。Asadi等[18]對(duì)國(guó)家神經(jīng)科學(xué)中心22 a間接受血管內(nèi)治療腦動(dòng)脈畸形(brain arteriovenous malformation,BAVM)的患者進(jìn)行回顧性研究并收集患者的臨床表現(xiàn)、影像學(xué)、手術(shù)細(xì)節(jié)、并發(fā)癥等信息建立數(shù)據(jù)庫(kù),然后通過人工神經(jīng)網(wǎng)絡(luò)和支持向量機(jī)對(duì)數(shù)據(jù)進(jìn)行分析,預(yù)測(cè)精度在90%以上,遠(yuǎn)遠(yuǎn)高于標(biāo)準(zhǔn)的回歸模型43%的預(yù)測(cè)精度。他們還使用機(jī)器學(xué)習(xí)技術(shù)來確定尼爾瘺管的存在與否是影響B(tài)AVM血管內(nèi)栓塞治療的結(jié)果最重要的因素,具體各影響因子重要性如圖5所示。Hope等[19]通過高斯過程回歸模型研究了MRI圖像中的病灶與治療結(jié)果之間的關(guān)系,并用該模型預(yù)測(cè)腦卒中后認(rèn)知功能障礙的嚴(yán)重程度和隨時(shí)間的恢復(fù)過程。疾病的預(yù)后受多種因素所影響,并且各因素之間并非完全獨(dú)立,針對(duì)疾病預(yù)后因素的分析和疾病結(jié)局的預(yù)測(cè),機(jī)器學(xué)習(xí)中的神經(jīng)網(wǎng)絡(luò)因其非線性處理的能力,以及其高度的并行性、良好容錯(cuò)性等特點(diǎn)表明它在疾病預(yù)后評(píng)估方面有良好的應(yīng)用。
圖5 影響B(tài)AVM血管內(nèi)栓塞治療結(jié)果的各因素占比[18]
新藥研發(fā)是一個(gè)極其復(fù)雜過程,包括目標(biāo)識(shí)別、設(shè)計(jì)和制造以及新藥物的治療、藥物劑量選擇、藥物療效評(píng)價(jià)和藥物不良反應(yīng)控制。傳統(tǒng)方式的藥物研發(fā)由于資源有限、成本高、持續(xù)時(shí)間長(zhǎng)、命中率低具有一定局限性,機(jī)器學(xué)習(xí)技術(shù)在藥物學(xué)的發(fā)展,為藥物開發(fā)提供了新的思路,并逐漸受到研究者的關(guān)注。根據(jù)目前的研究,機(jī)器學(xué)習(xí)技術(shù)被廣泛應(yīng)用于新藥的發(fā)現(xiàn)和新的藥物靶點(diǎn)的確定、適當(dāng)治療和藥物劑量的決定、藥物療效、藥物之間相互作用的預(yù)測(cè)。哥倫比亞大學(xué)研究組利用機(jī)器學(xué)習(xí)算法研究發(fā)現(xiàn),頭孢曲松和蘭索拉唑混合使用可導(dǎo)致心律紊亂。而微軟公司Hanover利用機(jī)器學(xué)習(xí)預(yù)測(cè)藥物有效性,為患者制訂個(gè)性化治療方案[20]。深度學(xué)習(xí)與傳統(tǒng)的人工神經(jīng)網(wǎng)絡(luò)相比,其包含多層隱層,能自動(dòng)學(xué)習(xí)特征,對(duì)數(shù)據(jù)結(jié)構(gòu)的要求低,同時(shí)過濾掉諸多噪聲,更加接近人腦的認(rèn)知模式。因此,深度學(xué)習(xí)算法的大數(shù)據(jù)處理能力及強(qiáng)大的特征抽象能力使其在藥物研發(fā)和藥物信息領(lǐng)域具有廣泛的應(yīng)用前景。
目前,在各個(gè)醫(yī)院里都有可穿戴設(shè)備和移動(dòng)醫(yī)療設(shè)備,這些設(shè)備大多只能監(jiān)測(cè)血壓和脈搏等簡(jiǎn)單生命指標(biāo),被動(dòng)地提醒患者何時(shí)吃藥,但無法主動(dòng)監(jiān)測(cè)和記錄患者行為、環(huán)境因素并給出預(yù)防措施和建議[21]。將這些設(shè)備采集的數(shù)據(jù)與機(jī)器學(xué)習(xí)技術(shù)相結(jié)合,能夠提供個(gè)性化的健康預(yù)警與建議,監(jiān)控個(gè)體行為,實(shí)現(xiàn)健康管理的目標(biāo)。加州大學(xué)舊金山分校采用半監(jiān)督機(jī)器學(xué)習(xí)技術(shù),利用33 628人周的健康傳感器數(shù)據(jù)訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)(DeepHeart)[21]。他們后來對(duì)照12 790人周的單獨(dú)數(shù)據(jù)集驗(yàn)證了DeepHeart的準(zhǔn)確性,成功率達(dá)85%。
醫(yī)學(xué)圖像識(shí)別指利用數(shù)學(xué)方法和計(jì)算機(jī)對(duì)醫(yī)學(xué)圖像進(jìn)行處理、分析的技術(shù),一般分為輸入待識(shí)別圖像、輸入圖像預(yù)處理、圖像特征提取、辨別分類、輸出分類結(jié)果5個(gè)步驟。醫(yī)學(xué)圖像識(shí)別可以在減輕醫(yī)師工作量的基礎(chǔ)上,提高識(shí)別的準(zhǔn)確率,降低醫(yī)療成本,節(jié)省醫(yī)療資源,目前在肺結(jié)節(jié)、腦部、心臟、眼部視網(wǎng)膜等領(lǐng)域有良好的發(fā)展前景。例如:David等[22]提出開發(fā)一套能夠利用圖像處理技術(shù)對(duì)糖尿病視網(wǎng)膜病變重要特征進(jìn)行視網(wǎng)膜圖像分析以及基于人工神經(jīng)網(wǎng)絡(luò)的圖像分類器自動(dòng)系統(tǒng),根據(jù)疾病情況對(duì)圖像進(jìn)行分類,結(jié)果血管網(wǎng)、視神經(jīng)盤和病變樣滲出物被識(shí)別出,如圖6~8所示。針對(duì)醫(yī)學(xué)圖像的特征,基于傳統(tǒng)的機(jī)器學(xué)習(xí)算法如神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)、粗糙集、模糊理論的圖像識(shí)別能達(dá)到一定精度,但是各方法均有一定局限性。傳統(tǒng)的機(jī)器學(xué)習(xí)算法需要人工選取特征,這些會(huì)受到片面或者主觀方面的影響,導(dǎo)致特征提取方法在內(nèi)容表達(dá)上不夠好,識(shí)別率低。近年來,深度學(xué)習(xí)的出現(xiàn)讓識(shí)別從人為設(shè)定變?yōu)樽詫W(xué)習(xí)狀態(tài),特別是以卷積神經(jīng)網(wǎng)絡(luò)為代表的模型逐漸變成了醫(yī)學(xué)識(shí)別領(lǐng)域的發(fā)展方向和強(qiáng)有力的工具。
圖6 識(shí)別出的血管網(wǎng)[22]
圖7 識(shí)別出的視神經(jīng)盤[22]
圖8 識(shí)別出的病變樣滲出物[22]
現(xiàn)代科技日新月異,機(jī)器學(xué)習(xí)技術(shù)為醫(yī)療領(lǐng)域提供了新方法,通過計(jì)算機(jī)的運(yùn)算能力,對(duì)大量的醫(yī)療數(shù)據(jù)在相對(duì)短的時(shí)間內(nèi)進(jìn)行數(shù)據(jù)分析、建模和訓(xùn)練,探究各種醫(yī)學(xué)指標(biāo)之間的關(guān)系,通過訓(xùn)練后的模型來預(yù)測(cè)并輔助診斷疾病,提升診斷準(zhǔn)確率,同時(shí)也可擴(kuò)展應(yīng)用于醫(yī)藥及健康管理領(lǐng)域,進(jìn)一步提升整體醫(yī)療行業(yè)的發(fā)展。目前在醫(yī)療領(lǐng)域,如疾病預(yù)測(cè)、疾病輔助診斷、疾病的預(yù)后評(píng)估、新藥研發(fā)、健康管理等,大多數(shù)研究者會(huì)使用支持向量機(jī)、人工神經(jīng)網(wǎng)絡(luò)、決策樹等傳統(tǒng)的機(jī)器學(xué)習(xí)算法,這些算法其實(shí)都是對(duì)數(shù)據(jù)間的相似度進(jìn)行衡量;監(jiān)督學(xué)習(xí)是通過同類別樣本間的相似性對(duì)模型的參數(shù)進(jìn)行學(xué)習(xí),非監(jiān)督學(xué)習(xí)是通過樣本間的相似性實(shí)現(xiàn)同類聚集、異類分散。故對(duì)于樣本間相似性的研究是一個(gè)重要方向,也是未來人工智能輔助診療的核心技術(shù)之一?;卺t(yī)療數(shù)據(jù)的相似度計(jì)算,目前可以拓展多種實(shí)際的應(yīng)用,以下為其中的兩大應(yīng)用發(fā)展趨勢(shì):
(1)基于病案的推理。這是一個(gè)解決實(shí)際問題的范例方法,基于過往經(jīng)歷過的病案及期間獲得的知識(shí)來為新的醫(yī)療問題提供解決方法。此類技術(shù)已經(jīng)被廣泛運(yùn)用于各種醫(yī)療場(chǎng)景中解決實(shí)際問題,利用已有的知識(shí)解決新的問題。Gottlieb等[23]提出利用患者之間在多個(gè)維度方面的相似性來預(yù)測(cè)最終的出院診斷,使用人口統(tǒng)計(jì)學(xué)、初始血液、心電圖測(cè)量以及醫(yī)學(xué)史等多方面在2個(gè)獨(dú)立醫(yī)院的住院患者中尋找相似性取得很高的精度。該方法在傳染病、寄生蟲病、內(nèi)分泌、代謝疾病以及循環(huán)系統(tǒng)疾病在內(nèi)的主要疾病類別提供了精確的預(yù)測(cè)(ROC曲線面積>0.86的交叉驗(yàn)證精度)[23]。
(2)藥物警戒。在藥理學(xué)中,為了防止在復(fù)雜疾病情況下或與其他藥物混合使用時(shí)產(chǎn)生的有害作用,大部分的藥物在其使用過程中都需要收集、檢測(cè)、評(píng)估、追蹤。利用電子病歷數(shù)據(jù)檢測(cè)藥物的有害作用,目前已經(jīng)有相當(dāng)多的研究,其中關(guān)鍵的一步就是盡可能均等地匹配患者,以消除其他易混淆因素對(duì)分析結(jié)果的干擾。Vilar等[24]應(yīng)用基于相似性的建模技術(shù),使用2D和3D分子結(jié)構(gòu)、不良藥物事件(adverse drug events,ADE)、靶和解剖治療化學(xué)(aratomical thernpeutic chemical,ATC)相似性度量,對(duì)先前在藥物中選擇的候選關(guān)聯(lián)即4個(gè)ADE結(jié)果的廣泛關(guān)聯(lián)研究。
機(jī)器學(xué)習(xí)算法較傳統(tǒng)的統(tǒng)計(jì)學(xué)算法有著無可比擬的優(yōu)勢(shì)和發(fā)展前景,它不需要數(shù)據(jù)的前提假設(shè),更多依據(jù)實(shí)際數(shù)據(jù)特征建立模型,并在建模過程中自動(dòng)學(xué)習(xí)改進(jìn),這一技術(shù)的日趨成熟必將為醫(yī)療領(lǐng)域發(fā)展帶來巨大的變革。