• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      機(jī)器學(xué)習(xí)在疾病預(yù)測中的應(yīng)用*

      2021-01-31 04:40:30廖華龍曾小茜李華鳳于洋趙燦陳宇
      生物醫(yī)學(xué)工程研究 2021年2期
      關(guān)鍵詞:機(jī)器預(yù)測特征

      廖華龍,曾小茜,李華鳳,于洋,趙燦,陳宇△

      (1.四川大學(xué) 生物力學(xué)工程省重點(diǎn)實(shí)驗(yàn)室,成都 610065;2.四川大學(xué)華西醫(yī)院 華西大數(shù)據(jù)中心,成都 610041;3.四川大學(xué)華西第二醫(yī)院麻醉科,成都 610041;4.四川大學(xué)華西醫(yī)院腎臟內(nèi)科,成都 610041)

      1 引 言

      機(jī)器學(xué)習(xí)作為數(shù)據(jù)挖掘的主要工具之一,被用于醫(yī)療領(lǐng)域[1]。機(jī)器學(xué)習(xí)通過對患者現(xiàn)有的醫(yī)療檢測或調(diào)查得到的數(shù)據(jù)進(jìn)行學(xué)習(xí),建立風(fēng)險(xiǎn)模型,常用于預(yù)測疾病,診斷疾病嚴(yán)重程度以及評估疾病預(yù)后等[2]。本文闡述了機(jī)器學(xué)習(xí)的定義、分類以及主要的幾類算法原理,并以機(jī)器學(xué)習(xí)在預(yù)測心血管疾病、糖尿病、腎病、腫瘤、妊娠期疾病的應(yīng)用為例,從數(shù)據(jù)特征選擇、算法和準(zhǔn)確性等方面闡述了機(jī)器學(xué)習(xí)用于疾病預(yù)測的特點(diǎn)和效果。本文不涉及醫(yī)學(xué)圖像的深度學(xué)習(xí)算法。

      2 機(jī)器學(xué)習(xí)的定義與分類

      2.1 定義

      機(jī)器學(xué)習(xí)是一種能自動構(gòu)建出數(shù)據(jù)模型并用來處理數(shù)據(jù)之間復(fù)雜關(guān)系的技術(shù)[3]。它使用計(jì)算機(jī)模擬人類學(xué)習(xí)行為,通過學(xué)習(xí)現(xiàn)有數(shù)據(jù)或圖像(特征),再根據(jù)分類或者回歸的任務(wù)要求來發(fā)現(xiàn)規(guī)律,從而獲取新經(jīng)驗(yàn)與新知識,提升性能,實(shí)現(xiàn)自我完善。

      2.2 分類

      機(jī)器學(xué)習(xí)根據(jù)是否有人為標(biāo)記數(shù)據(jù)分為監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)。監(jiān)督學(xué)習(xí)是用具有分類標(biāo)簽的數(shù)據(jù)作為現(xiàn)有知識,通過帶有標(biāo)簽的數(shù)據(jù)進(jìn)行模型訓(xùn)練,并將訓(xùn)練好的模型用來預(yù)測新數(shù)據(jù)的標(biāo)簽結(jié)果。無監(jiān)督學(xué)習(xí)是用于處理不具有分類標(biāo)簽的數(shù)據(jù),通過尋求數(shù)據(jù)間的內(nèi)在關(guān)聯(lián)和規(guī)律,發(fā)現(xiàn)樣本數(shù)據(jù)潛在的結(jié)構(gòu)特征。另外還有針對學(xué)習(xí)只有少量帶有標(biāo)簽的數(shù)據(jù)而衍生出的半監(jiān)督學(xué)習(xí)[4]。

      3 機(jī)器學(xué)習(xí)的主要幾類算法

      3.1 K近鄰

      K近鄰是一種原理較為簡單的機(jī)器學(xué)習(xí)算法。對于給定測試樣本,該算法基于距離度量找出訓(xùn)練集中與其最靠近的k個(gè)訓(xùn)練樣本,然后根據(jù)這k個(gè)訓(xùn)練樣本(鄰居)的信息來進(jìn)行預(yù)測[5]。

      3.2 樸素貝葉斯

      樸素貝葉斯法是一種基于貝葉斯定理的分類方法。對于給定的訓(xùn)練數(shù)據(jù)集,其首先基于特征條件獨(dú)立假設(shè)學(xué)習(xí)輸入輸出的聯(lián)合分布概率P(x|y);然后基于此模型,對給定的輸入x,再利用貝葉斯定理求出其后驗(yàn)概率最大的輸出y。樸素貝葉斯數(shù)學(xué)表達(dá)見式(1)。

      (1)

      3.3 邏輯回歸

      邏輯回歸模型可看作是一個(gè)被Sigmoid函數(shù)歸一化后的廣義線性回歸模型,用一條直線區(qū)分不同類別的數(shù)據(jù),用于分類任務(wù)。

      3.4 支持向量機(jī)

      支持向量機(jī)把線性不可分?jǐn)?shù)據(jù)通過映射函數(shù)φ投射到高維空間,使特征在該空間變得線性可分,再用一個(gè)最大邊界間隔超平面對特征進(jìn)行劃分[6]。

      3.5 決策樹

      基于訓(xùn)練集的特征,決策樹模型通過提出一系列的問題條件來推斷樣本的分類標(biāo)簽。決策樹的建立過程是從根節(jié)點(diǎn)(第一個(gè)選擇點(diǎn))開始,逐步通過非葉子節(jié)點(diǎn)的分支走到葉子節(jié)點(diǎn)(最終的決策結(jié)果),最終所有的數(shù)據(jù)都會落到葉子節(jié)點(diǎn)。

      3.6 集成的樹模型

      集成學(xué)習(xí)算法思想是使用弱分類器和多個(gè)樣本來構(gòu)建一個(gè)強(qiáng)分類器,改善學(xué)習(xí)效果。集成的樹模型包括隨機(jī)森林、adaptive boosting(AdaBoost)、gradient boosting decision tree(GBDT)、light gradient boosting machine(LightGBM)和XGboost等。

      隨機(jī)森林是以決策樹為基礎(chǔ)學(xué)習(xí)器,集成多個(gè)決策樹的結(jié)果,在bagging算法的基礎(chǔ)上進(jìn)行了改動而演化過來的[7]。bagging算法是在原始的數(shù)據(jù)集上采用有放回的隨機(jī)取樣方式來抽取m個(gè)子樣本,從而利用這些子樣本訓(xùn)練m個(gè)基礎(chǔ)學(xué)習(xí)器,降低模型的方差。在此基礎(chǔ)上,隨機(jī)森林還在訓(xùn)練每個(gè)基學(xué)習(xí)器的時(shí)候,隨機(jī)地選取k個(gè)特征,從這些特征中選擇最優(yōu)特征來切分節(jié)點(diǎn),從而進(jìn)一步降低模型的方差。

      除了bagging算法之外,boosting也是一種可將弱學(xué)習(xí)器提升為強(qiáng)學(xué)習(xí)器的算法,屬于集成學(xué)習(xí)的范疇。其中比較有代表性的是AdaBoost,它會對訓(xùn)練數(shù)據(jù)集中的每個(gè)樣本進(jìn)行訓(xùn)練,并賦予每個(gè)樣本一個(gè)權(quán)重。最初這些樣本的初始權(quán)重相同,然后AdaBoost通過訓(xùn)練數(shù)據(jù)得出一個(gè)弱分類器并計(jì)算其錯(cuò)誤率,接著在相同的訓(xùn)練數(shù)據(jù)上,再次訓(xùn)練弱分類器。在弱分類器的第二次訓(xùn)練過程中,每個(gè)樣本的權(quán)重會重新得到調(diào)整。AdaBoost對第一次訓(xùn)練分類正確的樣本降低其權(quán)重,分類錯(cuò)誤的樣本提高其權(quán)重。AdaBoost不斷對弱分類器進(jìn)行訓(xùn)練迭代,最終綜合所有弱分類器得到結(jié)果。

      在使用與Adaboost相同的boosting算法的基礎(chǔ)上,GBDT用Gradient Boosting的策略訓(xùn)練出樹模型,是一個(gè)基于迭代累加的決策樹算法。它構(gòu)造一組弱學(xué)習(xí)器(決策樹),把多棵決策樹的結(jié)果累加起來,作為最終的預(yù)測輸出[8]。在GBDT的基礎(chǔ)上,LightGBM是一個(gè)實(shí)現(xiàn)GBDT算法的框架,支持高效率的并行訓(xùn)練,擁有更快的訓(xùn)練速度和更高的準(zhǔn)確率等優(yōu)勢[9]。另外,還有學(xué)者對GBDT算法進(jìn)行改進(jìn),提出了一種高效靈活,并且可移植性強(qiáng)的最優(yōu)分布式?jīng)Q策梯度提升庫XGBoost[10]。

      3.7 人工神經(jīng)網(wǎng)絡(luò)

      人工神經(jīng)網(wǎng)絡(luò)是模擬人腦神經(jīng)元結(jié)構(gòu)進(jìn)行信息處理的一種數(shù)學(xué)模型。神經(jīng)網(wǎng)絡(luò)中的每個(gè)神經(jīng)元接收大量的輸入信號,執(zhí)行輸入的加權(quán),通過非線性激活函數(shù)產(chǎn)生激活響應(yīng),并對隨后連接的神經(jīng)元傳遞輸出信號[11]。還可以設(shè)置多個(gè)產(chǎn)生激活響應(yīng)的隱藏層神經(jīng)元,使其成為多層神經(jīng)網(wǎng)絡(luò)。在此基礎(chǔ)上進(jìn)行改進(jìn),其又可演變成為深度學(xué)習(xí),常用的深度學(xué)習(xí)算法包括卷積神經(jīng)網(wǎng)絡(luò)、深度神經(jīng)網(wǎng)絡(luò)與遞歸神經(jīng)網(wǎng)絡(luò),在醫(yī)療領(lǐng)域中主要用來進(jìn)行疾病診斷和醫(yī)學(xué)影像的分析等。

      4 機(jī)器學(xué)習(xí)在疾病預(yù)測中的應(yīng)用

      4.1 心血管疾病

      心血管疾病是中老年人的常見病。2017年,國內(nèi)心血管疾病死亡率高達(dá)40%,已成為我國重大的公共衛(wèi)生問題[12]。因此,提前預(yù)測心血管疾病并積極干預(yù)疾病的發(fā)生發(fā)展,具有重要意義。采用機(jī)器學(xué)習(xí)的方法對心血管疾病進(jìn)行預(yù)測是一種經(jīng)濟(jì)、安全、可行的途徑。

      機(jī)器學(xué)習(xí)在預(yù)測心血管疾病方面已得到較多應(yīng)用,目前相關(guān)的預(yù)測手段已經(jīng)較為成熟。Ambale等[13]收集了6 814名來自多民族動脈粥樣硬化的數(shù)據(jù),用隨機(jī)生存森林算法預(yù)測包括中風(fēng)、冠心病、心房顫動和心力衰竭等事件的發(fā)生,發(fā)現(xiàn)隨機(jī)生存森林算法比已建立的心血管風(fēng)險(xiǎn)評分體系更好,預(yù)測準(zhǔn)確度更高。因?yàn)闃淠P褪峭ㄟ^數(shù)據(jù)的二元遞歸分割來生長的,在每次生長分支時(shí),模型會選擇一個(gè)候選變量,讓該變量最大化子節(jié)點(diǎn)之間累積危險(xiǎn)的差異。數(shù)據(jù)不能再分割時(shí)即停止生長,使得每個(gè)終端節(jié)點(diǎn)至少有一個(gè)唯一的結(jié)果,這樣層層分支下來能夠很好地進(jìn)行分類。集成的隨機(jī)生存森林綜合了每個(gè)樹模型的分類預(yù)測結(jié)果,精確度得到了提高。隨機(jī)生存森林在其他相關(guān)研究中的效果也已得到驗(yàn)證[13]。同時(shí)隨機(jī)生存森林預(yù)測模型還發(fā)現(xiàn)了可能的患病危險(xiǎn)因素,例如空腹血糖水平升高是中風(fēng)最重要的危險(xiǎn)因素,動脈粥樣硬化綜合指標(biāo)是冠心病最重要的預(yù)測指標(biāo)之一。另外,左室局部壁厚增加(心肌肥大)、射血分?jǐn)?shù)降低和主動脈橫截面積增加等也是冠心病的其他主要預(yù)測因素。國內(nèi)也有針對心血管疾病預(yù)測方面的研究。劉宇等[14]收集了來自300例患者的10 000個(gè)健康數(shù)據(jù),包括年齡、性別、胸部疼痛、血壓、膽固醇等14個(gè)變量,再使用K聚類和XGBoost來預(yù)測心臟病的發(fā)生。結(jié)果表明,該預(yù)測模型的準(zhǔn)確率超過了0.8,并顯示出對患心臟病的影響較為顯著的四個(gè)變量分別是:年齡、膽固醇、最大心跳和運(yùn)動后比較心壓。相比于支持向量機(jī)和隨機(jī)森林,該預(yù)測模型的用時(shí)最少,是一種有效預(yù)測心臟病的方法。

      陳偉偉等[12]預(yù)測2017年心血管疾病患病人數(shù)高達(dá)2.9億。隨著機(jī)器學(xué)習(xí)使用數(shù)據(jù)量的增加,相比與其他機(jī)器學(xué)習(xí)算法,適合處理大量數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò)表現(xiàn)出其優(yōu)勢。Weng等[15]收集了378 256名英國家庭實(shí)踐患者的常規(guī)臨床數(shù)據(jù)(受試者初期沒有心血管疾病),數(shù)據(jù)包括完整的八個(gè)核心變量(性別、年齡、吸煙狀況、收縮壓、血壓治療、總膽固醇、高密度脂蛋白膽固醇和糖尿病),另外還加入了22項(xiàng)可能與心血管疾病有關(guān)的變量。團(tuán)隊(duì)成員采用用隨機(jī)森林、邏輯回歸、梯度增強(qiáng)機(jī)(gradient boosting Machine,GBM)和神經(jīng)網(wǎng)絡(luò)四種機(jī)器學(xué)習(xí)算法來預(yù)測心血管疾病的發(fā)生風(fēng)險(xiǎn)。機(jī)器學(xué)習(xí)確定了以前的風(fēng)險(xiǎn)預(yù)測工具未發(fā)現(xiàn)的其他潛在風(fēng)險(xiǎn)因素,包括慢性阻塞性肺病、嚴(yán)重精神疾病以及甘油三酯水平等。這些潛在發(fā)病因素在之后可以納入預(yù)測心血管疾病的模型中,進(jìn)一步提高預(yù)測準(zhǔn)確率。同時(shí),與已建立的風(fēng)險(xiǎn)預(yù)測模型(美國心臟協(xié)會/美國心臟病學(xué)院基線模型)相比,四種機(jī)器學(xué)習(xí)算法的表現(xiàn)更好,其中神經(jīng)網(wǎng)絡(luò)的效果最好。

      4.2 糖尿病

      糖尿病對人群健康產(chǎn)生巨大危害,消耗大量醫(yī)療資源。利用適合大范圍使用的糖尿病監(jiān)測系統(tǒng),尋找有效的早期檢測手段,做到糖尿病的早發(fā)現(xiàn)、早診斷和早治療,以延緩或防止糖尿病及其并發(fā)癥的發(fā)生與發(fā)展,能減少患者患病痛苦和醫(yī)療負(fù)擔(dān),提高社會人群健康水平[16]。機(jī)器學(xué)習(xí)可通過學(xué)習(xí)患者的臨床檢測資料數(shù)據(jù),來對患者是否會發(fā)展成為糖尿病進(jìn)行預(yù)測,從而給醫(yī)生和患者提供參考和建議,有望建立相應(yīng)的疾病監(jiān)測系統(tǒng)。Lee等[17]收集了11 937名受試者的個(gè)體人體測量和甘油三酯等數(shù)據(jù),用樸素貝葉斯和邏輯回歸來預(yù)測2型糖尿病的發(fā)生,找到了理想的預(yù)測因子:針對男性的是腰臀比加甘油三酯的組合,針對女性的是肋臀比加甘油三酯的組合。研究結(jié)果顯示出了這些預(yù)測因子可以組合預(yù)測2型糖尿病的趨勢。

      在采用基本的體征測量數(shù)據(jù)以及甘油三酯數(shù)據(jù)進(jìn)行預(yù)測的基礎(chǔ)上,選取更多的特征數(shù)據(jù)后,機(jī)器學(xué)習(xí)預(yù)測的效果也許會有所提升。Alghamdi等[18]用三棵不同的決策樹(樸素貝葉斯樹、隨機(jī)森林和邏輯模型樹)來學(xué)習(xí)具有13個(gè)特征屬性的32 555名無任何已知冠狀動脈疾病或心力衰竭的患者的數(shù)據(jù),從而預(yù)測糖尿病的發(fā)生。模型有著高預(yù)測準(zhǔn)確度,顯示了利用心肺健康數(shù)據(jù)配合機(jī)器學(xué)習(xí)算法預(yù)測糖尿病發(fā)病率的優(yōu)勢。特征數(shù)據(jù)中年齡和恢復(fù)心率有最大的信息增益值,說明它們對預(yù)測疾病有著最重要的作用。如果在機(jī)器學(xué)習(xí)模型的特征中加入包含血糖類的數(shù)據(jù),預(yù)測的可靠性還能進(jìn)一步提高。Ijaz等[19]使用基于隨機(jī)森林的混合模型來預(yù)測403位患者發(fā)生2型糖尿病的可能性,特征篩選保留了9個(gè)特征,其中穩(wěn)定血糖有最大的信息增益值,即對預(yù)測2型糖尿病的貢獻(xiàn)最大?;旌夏P褪褂眠@9個(gè)特征數(shù)據(jù)進(jìn)行預(yù)測的結(jié)果精度比較高,與其他二分類算法預(yù)測糖尿病的模型(支持向量機(jī)、多層神經(jīng)網(wǎng)絡(luò)、邏輯回歸和樸素貝葉斯)相比,具有更理想的預(yù)測效果。Zou等[20]從體檢數(shù)據(jù)中抽取68 994名健康人和糖尿病患者資料作為訓(xùn)練集,數(shù)據(jù)集包括年齡、脈搏、收縮壓舒張壓以及空腹血糖等14項(xiàng)體檢指標(biāo),再用決策樹、隨機(jī)森林和神經(jīng)網(wǎng)絡(luò)來預(yù)測糖尿病。結(jié)果表明,隨機(jī)森林預(yù)測效果更好,而且僅使用空腹血糖指標(biāo)即可達(dá)到較高的準(zhǔn)確度,說明空腹血糖是預(yù)測模型最重要的一個(gè)特征指標(biāo)。以往的研究說明,樹類模型(決策樹,集成的樹模型)對糖尿病預(yù)測較為有效,預(yù)測結(jié)果也比常規(guī)方法更好。在醫(yī)院臨床中實(shí)際預(yù)測糖尿病時(shí),考慮以樹類模型作為基礎(chǔ)算法也許能達(dá)到理想的效果。

      4.3 腎病

      腎病中比較常見的是急性腎損傷。急性腎損傷的流行病學(xué)數(shù)據(jù)差異大,發(fā)病率和死亡率比較高[21]。急性腎損傷早期癥狀隱匿,可能被原發(fā)疾病所掩蓋。近年有報(bào)道表明,某些生物標(biāo)志物與急性腎損傷相關(guān),其中以血清肌酐為主[22]。通過采集和學(xué)習(xí)患者的相關(guān)生物指標(biāo)數(shù)據(jù),機(jī)器學(xué)習(xí)能對急性腎損傷進(jìn)行精準(zhǔn)的早期預(yù)測。Kate等[23]收集了某大型醫(yī)療系統(tǒng)25 521位60歲及以上患者的資料,包括患者的人口統(tǒng)計(jì)學(xué)信息12項(xiàng)、共病14項(xiàng)、藥物使用12項(xiàng)和實(shí)驗(yàn)室測定值9項(xiàng),以此作為變量特征,用邏輯回歸、支持向量機(jī)、決策樹和樸素貝葉斯預(yù)測急性腎損傷。結(jié)果表明,邏輯回歸的效果好于其他方法,但所有模型結(jié)果都較差,只顯示了可以預(yù)測的趨勢,還未直接用于臨床預(yù)測。之后Koyner等[24]采用梯度增強(qiáng)機(jī)來學(xué)習(xí)121 158名患者的數(shù)據(jù),希望預(yù)測急性腎損傷的發(fā)生風(fēng)險(xiǎn)。模型中使用的預(yù)測因素特征變量包括人口統(tǒng)計(jì)學(xué)、生命體征、常規(guī)實(shí)驗(yàn)室檢查結(jié)果和生命體征等。梯度增強(qiáng)機(jī)發(fā)現(xiàn)其中血清肌酐的變化對預(yù)測結(jié)果的影響最大,該結(jié)果也與文獻(xiàn)[22]得到的血清肌酐是臨床診斷急性腎損傷金標(biāo)準(zhǔn)的結(jié)果相符合。該模型最終達(dá)到了比較好的預(yù)測效果,說明其可以對急性腎損傷高危人群進(jìn)行早期預(yù)測。另外,張淵等[25]從公開的ICU醫(yī)學(xué)信息數(shù)據(jù)庫中提取了1 166例患者數(shù)據(jù)作為機(jī)器學(xué)習(xí)的數(shù)據(jù)集(其中有884例患者發(fā)展為急性腎損傷),用LightGBM預(yù)測ICU患者發(fā)生急性腎損傷,納入患者33項(xiàng)生理生化指標(biāo)進(jìn)行預(yù)測模型的構(gòu)建,預(yù)測效果非常好。研究也得出了LightGBM特征重要性排名前10位的特征,分別是液體入量、紅細(xì)胞比容、患者進(jìn)行了機(jī)械通氣、動脈氧分壓、乳酸、體溫、動脈血pH、心肌肌鈣蛋白、血小板計(jì)數(shù)、凝血酶原時(shí)間,其中對預(yù)測結(jié)果幫助最大的是液體入量。將模型結(jié)果與邏輯回歸和隨機(jī)森林的結(jié)果對比發(fā)現(xiàn),LightGBM模型對急性腎損傷的預(yù)測效果最好。LightGBM與算法原理簡單的邏輯回歸相比,更適合于處理體量大、維度高的數(shù)據(jù)。并且LightGBM在樹模型的基礎(chǔ)上增加了一些提升算法,包括采用leaf-wise的分裂方式對樹模型進(jìn)一步優(yōu)化等[9],從理論和實(shí)踐上提升了性能?;谥匕Y患者的多項(xiàng)生理生化指標(biāo)數(shù)據(jù),機(jī)器學(xué)習(xí)模型預(yù)測急性腎損傷可以達(dá)到很好的效果,能幫助識別有風(fēng)險(xiǎn)的受試者并實(shí)施預(yù)防策略,或者幫助醫(yī)生根據(jù)預(yù)測結(jié)果來管理患者,為臨床決策提供輔助支持。

      急性腎損傷如果未得到及時(shí)控制,可能會發(fā)展為慢性腎臟疾病。近年來慢性腎臟病的患病率逐年上升。有研究顯示,18歲以上人群慢性腎臟病的患病率已經(jīng)超過10%[26]。若通過機(jī)器學(xué)習(xí)從早期體檢資料和實(shí)驗(yàn)室檢查報(bào)告中找到慢性腎病患者的發(fā)病規(guī)律,即可對疾病進(jìn)行早期檢查,做到及時(shí)干預(yù)。用于數(shù)據(jù)挖掘的機(jī)器學(xué)習(xí)可能成為一個(gè)有效的腎病預(yù)測工具。2018年Abdelaziz等[27]結(jié)合線性回歸和神經(jīng)網(wǎng)絡(luò)兩種方法構(gòu)建了混合預(yù)測模型,對慢性腎臟疾病進(jìn)行診斷與預(yù)測,經(jīng)過特征篩選后找出了13項(xiàng)與慢性腎臟疾病的發(fā)生相關(guān)的關(guān)鍵因素,包括年齡,血壓,隨機(jī)血糖,白細(xì)胞計(jì)數(shù)等。用這13項(xiàng)特征數(shù)據(jù)構(gòu)建模型,模型預(yù)測慢性腎臟病的準(zhǔn)確率達(dá)95%以上,預(yù)測效果優(yōu)于其他研究者構(gòu)建的預(yù)測模型。

      4.4 腫瘤

      據(jù)估計(jì),我國2013年新發(fā)惡性腫瘤病例約368.2萬例,死亡病例222.9萬例[28]。目前早檢測、早預(yù)防、早治療是防治腫瘤、改善預(yù)后的重要途徑,利用機(jī)器學(xué)習(xí)對早期預(yù)測腫瘤具有重要意義。Huang等[29]采用多種支持向量機(jī)及其組合來預(yù)測乳腺癌的發(fā)生,并且針對不同規(guī)模的數(shù)據(jù)集(一個(gè)小規(guī)模數(shù)據(jù)集含有699條11維數(shù)據(jù),另一個(gè)大規(guī)模數(shù)據(jù)集含有102 294條117維數(shù)據(jù))和是否進(jìn)行特征選擇的不同情況,找出了最適合的支持向量機(jī)算法,預(yù)測準(zhǔn)確率都非常高,可見使用機(jī)器學(xué)習(xí)預(yù)測乳腺癌的技術(shù)已經(jīng)較為成熟。

      腫瘤診斷的直接證據(jù)是病理檢查發(fā)現(xiàn)細(xì)胞發(fā)生了異常增生,在患者的臨床生理指標(biāo)數(shù)據(jù)基礎(chǔ)上,學(xué)習(xí)細(xì)胞的特征數(shù)據(jù)可提升機(jī)器學(xué)習(xí)預(yù)測腫瘤的精度。2019年苗立志等[30]通過隨機(jī)森林學(xué)習(xí)683條威斯康星臨床科學(xué)中心原始數(shù)據(jù)(數(shù)據(jù)包含了細(xì)胞核特征的10個(gè)屬性),使用這10個(gè)屬性進(jìn)行模型訓(xùn)練后,發(fā)現(xiàn)所建立的預(yù)測模型精度非常高。他們同時(shí)還通過計(jì)算各個(gè)屬性與致病性(患病)的相關(guān)度,發(fā)現(xiàn)細(xì)胞核周長、灰度值的標(biāo)準(zhǔn)差、輪廓凹面部分的數(shù)目與乳腺癌的發(fā)展密切相關(guān),可將其作為乳腺癌預(yù)后評估的重要指標(biāo)。細(xì)胞核周長、紋理組織和凹點(diǎn)對于乳腺癌的致病性具有較好的特征表述,可用于乳腺癌的診斷與發(fā)病規(guī)律研究。通過分析乳腺細(xì)胞核的特征變量的方法,可在很大程度上降低醫(yī)患雙方的醫(yī)療成本,提高醫(yī)院的工作效率。

      除了乳腺癌以外,機(jī)器學(xué)習(xí)還可以通過學(xué)習(xí)基因表達(dá)數(shù)據(jù)來預(yù)測其他腫瘤。肺癌是常見的惡性腫瘤[28],目前也有將機(jī)器學(xué)習(xí)應(yīng)用于肺癌的研究。冷菲等[31]收集了474例肺腺癌樣本和491例肺鱗癌樣本的數(shù)據(jù),使用XGBoost學(xué)習(xí)1 099個(gè)差異表達(dá)的mRNA數(shù)據(jù),希望對肺癌亞型肺鱗狀細(xì)胞癌(肺鱗癌)和肺腺癌進(jìn)行預(yù)測。XGBoost表現(xiàn)出了非常高的預(yù)測精度和良好的穩(wěn)定性,優(yōu)于邏輯回歸和支持向量機(jī),為肺鱗癌和肺腺癌的早期診斷和治療提供了試驗(yàn)依據(jù),同時(shí)機(jī)器學(xué)習(xí)也找到了對建立預(yù)測模型的貢獻(xiàn)率排名前三的mRNA。

      因?yàn)槟[瘤的發(fā)病機(jī)理與其他疾病不同,是在致癌因素的作用下細(xì)胞的基因發(fā)生了改變,導(dǎo)致細(xì)胞產(chǎn)生異常增殖。使用機(jī)器學(xué)習(xí)算法來預(yù)測癌癥時(shí),以細(xì)胞或者基因?qū)用娴臄?shù)據(jù)為主來進(jìn)行學(xué)習(xí)和預(yù)測為主,或許能改善預(yù)測效果,甚至找出與癌癥發(fā)生有關(guān)的病變細(xì)胞或者基因,幫助醫(yī)生對患者進(jìn)行診治。

      4.5 妊娠期疾病

      目前研究較多的妊娠期疾病是妊娠期高血壓類疾病,妊娠期高血壓又可劃分為子癇、妊娠合并慢性高血壓、慢性高血壓并發(fā)子癇前期。妊娠期高血壓嚴(yán)重危害母嬰身體健康,是孕產(chǎn)婦和產(chǎn)兒死亡的主要原因之一。如果能用機(jī)器學(xué)習(xí)來確定妊娠期高血壓疾病的高危因素,提前對妊娠期疾病進(jìn)行預(yù)測,進(jìn)而及時(shí)進(jìn)行疾病的早期干預(yù)診斷和治療,可能會幫助改善母嬰結(jié)局。Poon等[32]總結(jié)之前的研究發(fā)現(xiàn)大多數(shù)在懷孕11到13周發(fā)展為先兆子癇的孕婦,其平均動脈壓、子宮動脈搏動指數(shù)、母體血清中胎盤因子妊娠相關(guān)血漿蛋白-a,以及胎盤生長因子濃度發(fā)生了明顯變化,研究團(tuán)隊(duì)收集了7 797條包含這四種指標(biāo)的單胎妊娠數(shù)據(jù),希望用邏輯回歸學(xué)習(xí)孕婦的這四種特征數(shù)據(jù),來預(yù)測先兆子癇(preeclampsia,PE)的早期和晚期以及妊娠高血壓。結(jié)果早期先兆子癇的的預(yù)測精度非常高,然而PE晚期對應(yīng)的預(yù)測效果比較差,妊娠高血壓的效果最差。該項(xiàng)研究采用的是發(fā)生先兆子癇的四種明顯變化的母體特征數(shù)據(jù),能很好地預(yù)測先兆子癇早期。但是對于先兆子癇晚期和妊娠高血壓,目前還需要篩查其他的特征數(shù)據(jù)來進(jìn)行學(xué)習(xí),找出對預(yù)測晚期先兆子癇和妊娠高血壓最有幫助的一項(xiàng)或者幾項(xiàng)數(shù)據(jù)指標(biāo)。另外,在預(yù)測妊娠期疾病方面,少有研究驗(yàn)證和對比多種機(jī)器學(xué)習(xí)模型的效果和作用,常見的簡單分類算法也許并未達(dá)到理想的預(yù)測效果,因此,還需要進(jìn)一步研究。

      4.6 其他類疾病

      除了以上幾類疾病之外,機(jī)器學(xué)習(xí)在其他一些疾病的預(yù)測中也有涉及,并且取得了較好的效果。例如非綜合征性唇裂伴或不伴腭裂是一種多因素、部分遺傳的先天性疾病,涉及多個(gè)基因和遺傳與環(huán)境的復(fù)雜相互作用。Zhang等[33]發(fā)現(xiàn)該病在國內(nèi)的發(fā)病率超過了世界平均水平,于是收集了587名對照組和非綜合征性唇裂伴或不伴腭裂嬰兒的血液樣本數(shù)據(jù),希望結(jié)合43個(gè)單核苷酸多組合形式與機(jī)器學(xué)習(xí)來建立預(yù)測模型幫助預(yù)測疾病。他們對比了支持向量機(jī)、邏輯回歸、樸素貝葉斯、隨機(jī)森林、K近鄰、決策樹以及人工神經(jīng)網(wǎng)絡(luò)的效果,最后發(fā)現(xiàn)邏輯回歸預(yù)測新生兒發(fā)病的效果最好,并且找出了可能與發(fā)病相關(guān)的基因。

      除了可以預(yù)測單個(gè)疾病之外,機(jī)器學(xué)習(xí)還能對病人的整體健康狀況進(jìn)行預(yù)測,判斷病人是否患病以及最可能患什么病。Miotto等[34]采用一種新的無監(jiān)督深度特征學(xué)習(xí)方法對76 214名受試者進(jìn)行評估,以期預(yù)測個(gè)體的整體健康狀況水平,發(fā)現(xiàn)該模型對嚴(yán)重糖尿病、精神分裂癥和各種腫瘤的預(yù)測效果較好,為臨床決策系統(tǒng)提供了一個(gè)很好的框架。

      另外,如果患者已經(jīng)發(fā)病,機(jī)器學(xué)習(xí)還能對患者疾病的發(fā)展趨勢進(jìn)行預(yù)測。Shah等[35]收集了一年期慢性阻塞性肺病臨床試驗(yàn)的110例患者的資料數(shù)據(jù),用邏輯回歸預(yù)測慢性阻塞性肺疾病發(fā)生惡化的概率。結(jié)果邏輯回歸預(yù)測該疾病加劇的效果較好,同時(shí)還發(fā)現(xiàn)了脈搏率、血氧飽和度和呼吸頻率這三項(xiàng)生命體征,均能預(yù)測慢性阻塞性肺病加劇,將這些生命體征與基于機(jī)器學(xué)習(xí)的魯棒算法相結(jié)合則可以進(jìn)一步提高預(yù)測精度。此外,F(xiàn)inkelstein收集了成人哮喘患者在家庭遠(yuǎn)程監(jiān)測期間提交的7 001份記錄數(shù)據(jù),包括呼吸癥狀、哮喘引起的睡眠障礙、體力活動受限、感冒和藥物使用等信息,采用樸素貝葉斯、自適應(yīng)貝葉斯網(wǎng)絡(luò)和支持向量機(jī)預(yù)測哮喘惡化,結(jié)果自適應(yīng)貝葉斯網(wǎng)絡(luò)的預(yù)測準(zhǔn)確率非常高[28]。

      5 總結(jié)

      機(jī)器學(xué)習(xí)方法較多,可以僅通過學(xué)習(xí)患者的臨床檢測數(shù)據(jù)或監(jiān)測記錄數(shù)據(jù)來預(yù)測疾病的發(fā)生風(fēng)險(xiǎn),幫助醫(yī)生對患者的疾病進(jìn)行提前干預(yù)和治療,減少患病風(fēng)險(xiǎn),降低醫(yī)療成本,對疾病防控具有重要意義。機(jī)器學(xué)習(xí)還能發(fā)現(xiàn)對患病有巨大影響的潛在特征指標(biāo)項(xiàng),為疾病的診斷和治療提供新的依據(jù)。但是,不同的機(jī)器學(xué)習(xí)算法具有各自適宜預(yù)測的疾病,在實(shí)際應(yīng)用時(shí),需要找到最適合預(yù)測某種疾病的對應(yīng)算法。

      致謝

      科技部國家重點(diǎn)研發(fā)計(jì)劃項(xiàng)目(2018YFC2001805),四川大學(xué)華西醫(yī)院“十三五”高端人才計(jì)劃項(xiàng)目(ZYGD18027)。

      猜你喜歡
      機(jī)器預(yù)測特征
      無可預(yù)測
      黃河之聲(2022年10期)2022-09-27 13:59:46
      機(jī)器狗
      選修2-2期中考試預(yù)測卷(A卷)
      選修2-2期中考試預(yù)測卷(B卷)
      機(jī)器狗
      如何表達(dá)“特征”
      不忠誠的四個(gè)特征
      未來機(jī)器城
      電影(2018年8期)2018-09-21 08:00:06
      抓住特征巧觀察
      不必預(yù)測未來,只需把握現(xiàn)在
      沧源| 上栗县| 盐津县| 江达县| 沙坪坝区| 闽侯县| 晋州市| 赞皇县| 汕尾市| 龙江县| 金山区| 尖扎县| 同仁县| 黑龙江省| 柳河县| 龙海市| 襄垣县| 永泰县| 铁岭市| 徐汇区| 朝阳区| 蒙城县| 平塘县| 辽宁省| 乐亭县| 南岸区| 于都县| 芒康县| 聊城市| 山阳县| 盘锦市| 滨海县| 巴林左旗| 洛川县| 泸定县| 德令哈市| 富宁县| 自治县| 东宁县| 吉安市| 襄汾县|