• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于機(jī)器學(xué)習(xí)的SAE 患者30 天死亡風(fēng)險(xiǎn)預(yù)測模型

      2023-04-19 06:38:54肖曉霞龔后武鄭立瑞譚建聰
      關(guān)鍵詞:膿毒癥死亡率分?jǐn)?shù)

      劉 彬, 肖曉霞,2, 龔后武, 周 展, 鄭立瑞, 譚建聰

      (1 湖南中醫(yī)藥大學(xué) 信息科學(xué)與工程學(xué)院, 長沙 410208; 2 湖南中醫(yī)藥大學(xué) 中醫(yī)學(xué)國內(nèi)一流建設(shè)學(xué)科, 長沙 410208;3 東華醫(yī)為科技有限公司, 北京 100089)

      0 引 言

      膿毒癥是由感染引起的全身炎癥反應(yīng)綜合征,全球發(fā)病率較高,每年患膿毒癥的人數(shù)約為3 100萬,住院病死率約為17%[1]。 膿毒癥相關(guān)性腦病(SAE)是指在患膿毒癥過程中發(fā)生的腦功能障礙,是一種比較嚴(yán)重的膿毒癥并發(fā)癥,也是造成膿毒癥患者死亡的獨(dú)立危險(xiǎn)因素[2]。 并與人體行為、記憶、認(rèn)知功能的長期損害密切相關(guān),給患者的家庭和社會帶來沉重的經(jīng)濟(jì)負(fù)擔(dān)。 仍需指出的是,SAE 患者的死亡率往往高于只患膿毒癥的患者。 格拉斯哥昏迷評分法(Glasgow Coma Scale,GCS) 是一種用來評估病人昏迷程度的方法,滿分為15 分[3],表示意識清楚;12~14 分表示輕度意識障礙;9 ~11 分表示中度意識障礙;8 分以下為昏迷。 Eidelman 等學(xué)者[4]的研究表明腦病與醫(yī)院死亡率的增加成正相關(guān)性,當(dāng)格拉斯哥昏迷評分(GCS) 為15 分時(shí),死亡率為16%,而當(dāng)GCS分?jǐn)?shù)為3 到8 分時(shí),死亡率為63%。 Sonneville 等學(xué)者[5]的研究也得出了類似的結(jié)論,研究顯示當(dāng)GCS分?jǐn)?shù)為15 時(shí),患者30 天生存率為67%;當(dāng)GCS分?jǐn)?shù)為3~8 分時(shí),30 天生存率下降到32%。 即使發(fā)生輕度意識障礙(GCS分?jǐn)?shù)為12~14)也是影響30 天死亡的一個(gè)獨(dú)立危險(xiǎn)因素。綜上表明,SAE 對于膿毒癥患者短期死亡率的增加是有影響的,而這將進(jìn)一步影響患者的健康,同時(shí)加重醫(yī)療資源的消耗。

      基于上述問題,識別出短期死亡率較高的SAE患者,有利于及時(shí)進(jìn)行醫(yī)療干預(yù),對于改善這類患者的預(yù)后也具有重要的意義。 因此本研究的主要目的是通過大型的臨床數(shù)據(jù)庫MIMIC 去提取相應(yīng)的SAE 患者數(shù)據(jù),然后通過rfe 算法[6]對相應(yīng)特征進(jìn)行篩選,選出影響SAE 患者30 天死亡率的重要特征,最后基于這些特征構(gòu)建機(jī)器學(xué)習(xí)模型,用于改善SAE 患者的預(yù)后。

      1 算法原理

      1.1 RFE 特征篩選

      特征遞歸消除(Recursive Feature Elimination,RFE)是一種用來衡量特征變量重要性的方法,通過重復(fù)構(gòu)建模型,逐步迭代選出最重要的特征變量,能夠?qū)ふ页鲎顑?yōu)的特征子集,剔除不重要的特征變量。具體運(yùn)算步驟如下:

      (1)設(shè)定需要進(jìn)行選擇的特征數(shù)。

      (2)選擇一個(gè)基模型來進(jìn)行多輪訓(xùn)練, 每次訓(xùn)練將J(k)=(wk)2作為每個(gè)特征的排序準(zhǔn)則,并且每次迭代去除排序最后需要移除的特征數(shù)量。

      (3)基于新的特征集進(jìn)行下一輪訓(xùn)練,直至特征個(gè)數(shù)為特征設(shè)定值。

      本文選擇的基模型為XGBoost 模型,對總計(jì)17個(gè)特征進(jìn)行篩選。

      1.2 邏輯回歸

      邏輯回歸[7]是一種廣義的線性回歸模型,屬于機(jī)器學(xué)習(xí)中的監(jiān)督算法,主要是用來解決二分類問題。 該算法首先通過輸入數(shù)據(jù)擬合出一條直線z =wTx +b,顯然這樣的函數(shù)圖像是一條斜線,難以達(dá)到最終想要的結(jié)果(0 或1),于是要將z通過一個(gè)函數(shù)映射成0~1 之間的數(shù),這個(gè)函數(shù)就是sigmoid函數(shù),式子如下:

      然后,通過極大似然估計(jì)推導(dǎo)出損失函數(shù):

      最后,通過梯度下降法求解出式(2)中的參數(shù),從而解決了二分類問題。

      1.3 GBDT

      GBDT(Gradient Boosting Decision Tree)是一種基于決策樹的集成算法。 算法采用將基函數(shù)線性組合的方法[8],在訓(xùn)練過程中使得殘差不斷地減小,最終實(shí)現(xiàn)數(shù)據(jù)回歸或者分類。 GBDT 算法的訓(xùn)練過程具體如圖1 所示。

      圖1 GBDT 算法訓(xùn)練過程Fig. 1 GBDT algorithm training process

      GBDT 通過多輪迭代,產(chǎn)生多個(gè)弱分類器,每個(gè)分類器在上一輪分類器的梯度(如果損失函數(shù)是平方損失函數(shù),則梯度就是殘差值)基礎(chǔ)上進(jìn)行訓(xùn)練。弱分類器一般會選擇CART TREE(分類回歸樹),這種樹具有結(jié)構(gòu)簡單、高偏差、低方差的特點(diǎn),因此十分適合用于GBDT 算法的訓(xùn)練中。

      1.4 XGBoost

      XGBoost 算法[9]是在GBDT 算法的基礎(chǔ)上發(fā)展而來的,主要改進(jìn)有:算法不僅可以使用CART 分類回歸樹,還能使用線性基礎(chǔ)模型;在目標(biāo)函數(shù)中加入了正則化項(xiàng),用來防止模型出現(xiàn)過擬合;借鑒了隨機(jī)森林的原理,支持列抽樣,不僅能降低過擬合,還能夠減少模型的計(jì)算量;考慮到了訓(xùn)練數(shù)據(jù)為稀疏值的情況,能為缺失值指定分支的默認(rèn)方向,從而提高算法效率。

      2 數(shù)據(jù)與方法

      2.1 數(shù)據(jù)來源

      MIMIC[10](Medical Information Mart for ICU)是一個(gè)大型的、免費(fèi)提供的數(shù)據(jù)庫,其中包括來自美國馬薩諸塞州波士頓貝斯以色列女執(zhí)事醫(yī)療中心重癥監(jiān)護(hù)病房住院病人的高質(zhì)量健康相關(guān)數(shù)據(jù),數(shù)據(jù)包括生命體征、藥物、化驗(yàn)數(shù)據(jù)、護(hù)理人員的觀察和記錄、輸液、手術(shù)、診斷代碼、成像報(bào)告、住院時(shí)間、生存數(shù)據(jù)。 MIMIC 數(shù)據(jù)庫到現(xiàn)在已經(jīng)發(fā)布4 個(gè)版本。MIMIC-II 中包含2001 ~2008 年的數(shù)據(jù),MIMIC-Ⅲ包含2001 ~2012 年的數(shù)據(jù),MIMIC-IV 包含2008 ~2019 年的數(shù)據(jù)。 本文將基于MIMIC-IV 數(shù)據(jù)庫抽取相應(yīng)的SAE 患者數(shù)據(jù)。

      2.2 數(shù)據(jù)抽取

      SAE 被定義為膿毒癥患者中GCS分?jǐn)?shù)小于15的患者。 研究使用的主要軟件為Navicat Premium(15.0.12 版本), 按 照 關(guān) 鍵 字[11]“ s - epsis”、“severe sepsis”、“septic shoc-k”從數(shù)據(jù)庫中搜索被診斷為“膿毒癥”、“嚴(yán)重膿毒癥”、“膿毒癥休克”患者的原始數(shù)據(jù)。 根據(jù)以往研究,確定好納排標(biāo)準(zhǔn)后進(jìn)一步篩選患者。 患者篩選的詳細(xì)過程如圖2 所示。

      圖2 患者篩選圖Fig. 2 Patient screening

      確定最終的SAE 患者后,根據(jù)此前的研究文獻(xiàn),從MIMIC 數(shù)據(jù)庫中提取患者首次入院時(shí)對應(yīng)的年齡(anchor_age)、性別(gender)、住院天數(shù)(day)、葡萄糖(glucose)、鈉(sodium)、GCS 分?jǐn)?shù)(gcs)、血小板( platelet)、 肌 酐 ( creatinine )、 血 紅 蛋 白(hemoglobin)、鉀(potassium)、血尿素氮(BUN)、白細(xì)胞(WBC)、乳酸鹽(lactate)、血漿凝血酶原時(shí)間(PT)、心率(heart_rate)、血氧飽和度(spo2)、呼吸速率(respiratory_rate)、30 天是否死亡(morality)。 數(shù)據(jù)總計(jì)17 個(gè)特征屬性,再加一個(gè)類別標(biāo)簽屬性,其中類別標(biāo)簽表明患者是否在患病30 天內(nèi)死亡。

      2.3 數(shù)據(jù)預(yù)處理

      提取了數(shù)據(jù)后,對數(shù)據(jù)的缺失情況進(jìn)行統(tǒng)計(jì),結(jié)果見表1。

      表1 數(shù)據(jù)缺失情況表Tab. 1 Data missing table

      從表1 的結(jié)果中可以看出10 個(gè)特征存在數(shù)據(jù)缺失的問題,缺失最多的特征是乳酸鹽,缺失比例為19.84%,缺失最少的是肌酐,僅缺失一例。 根據(jù)文獻(xiàn)[8]中對缺失數(shù)據(jù)的處理方法來看,缺失特征比例均小于20%,予以保留,并統(tǒng)一采用平均值對其進(jìn)行填補(bǔ),在此基礎(chǔ)上將對數(shù)據(jù)進(jìn)行具體分析。

      3 結(jié)果

      3.1 納入病例的基本信息

      總計(jì)納入4 808 例膿毒癥患者,其中2 131 例為SAE 患者。 SAE 患者年齡為19 ~91 歲之間,中位年齡數(shù)為68 歲。 男性為1 127 例,女性為1 004 例。30 天內(nèi)死亡病例為492 例,存活病例為1 639 例,數(shù)據(jù)分布較為均衡。

      3.2 篩選得到的特征變量

      根據(jù)RFE 特征篩選,每一輪篩選移去特征系數(shù)(wk)2最小的特征,直到特征個(gè)數(shù)為設(shè)定值。 結(jié)果顯示,當(dāng)特征數(shù)設(shè)定為13 時(shí),3 個(gè)模型中GBDT 的AUC值最高,其在測試集上AUC為0.783。 此時(shí)選出的13 個(gè)特征分別為:年齡、住院天數(shù)、鈉、GCS 分?jǐn)?shù)、血小板、肌酐、鉀、血尿素氮、乳酸鹽、血漿凝血酶原時(shí)間、血氧飽和度、心率、呼吸速率。

      3.3 實(shí)驗(yàn)結(jié)果

      將SAE 數(shù)據(jù)集按照7:3 的比例隨機(jī)劃分為訓(xùn)練集和測試集進(jìn)行訓(xùn)練。 本文采用的評價(jià)指標(biāo)為準(zhǔn)確率、P值、R值、F1值、AUC值。 具體的實(shí)驗(yàn)結(jié)果見表2、表3。

      表2 未進(jìn)行特征篩選結(jié)果Tab. 2 No feature filtering results

      表3 特征篩選后結(jié)果Tab. 3 Results after feature screening

      從表2 和表3 中可以看出,數(shù)據(jù)集經(jīng)過特征篩選后,3 個(gè)模型的某些指標(biāo)得到了提高。 邏輯回歸模型的準(zhǔn)確率提高了1.6%、精度提高了6.3%、F1值提高了1.4%、AUC值提高了0.3%;XGboost 模型的準(zhǔn)確率提高了0.6%、精度提高了2.1%、召回率提高了0.7%、F1值提高了1.2%;GBDT 模型的AUC值提高了0.9%。

      為了更直觀地比較3 個(gè)不同算法的性能,繪制的ROC曲線如圖3 所示。

      圖3 3 種分類算法的ROC 曲線Fig. 3 ROC curves of three classification algorithms

      從圖3 中可以看出,在3 個(gè)算法中GBDT 算法的AUC值最大、為0.783,說明GBDT 算法性能最優(yōu),更適合用于SAE 患者30 天死亡預(yù)測。

      4 分析與討論

      在這項(xiàng)基于MIMIC-IV 數(shù)據(jù)庫的研究中,從MIMIC 數(shù)據(jù)庫中抽取出對應(yīng)的SAE 患者數(shù)據(jù),然后使用了RFE 特征選擇,篩選出了與SAE 患者30 天死亡率相關(guān)的危險(xiǎn)因素,最后基于這些特征建立了3 個(gè)機(jī)器學(xué)習(xí)模型去對SAE 患者30 天死亡進(jìn)行預(yù)測。 其中,GBDT 算法對于SAE 患者30 天死亡預(yù)測效果最佳,其精度為52.9%,準(zhǔn)確率為78.6%、AUC值為78.3%,3 個(gè)指標(biāo)均為不同算法中最高的。 與其它研究方法進(jìn)行對比,文獻(xiàn)[3]提出的列線圖模型在訓(xùn)練集上的AUC值為0.763,在驗(yàn)證集上的AUC值為0.753,均比本文提出的GBDT 算法的AUC值略低。 說明本文提出的模型性能更優(yōu)、泛化能力也更強(qiáng)。 目前,對于SAE 的治療是具有挑戰(zhàn)性的,有許多關(guān)于膿毒癥的指南列出了各種治療膿毒癥的建議,但卻很少有治療SAE 的建議。 有關(guān)SAE 患者死亡預(yù)測的研究也較為匱乏,本研究很好地彌補(bǔ)了這方面的空白。 從應(yīng)用價(jià)值來看,本文提出的GBDT 預(yù)測模型能夠輔助臨床醫(yī)生去評估SAE 患者的預(yù)后,從而制定出相應(yīng)的治療措施,降低患者死亡率。 一旦研究出針對SAE 的具體治療方法,該模型的應(yīng)用價(jià)值就會更高。 未來可以開發(fā)一款能嵌入電子醫(yī)療系統(tǒng)的軟件,該軟件能夠在不增加臨床醫(yī)生工作時(shí)間和負(fù)擔(dān)的情況下,輔助臨床醫(yī)生及時(shí)治療SAE。

      5 結(jié)束語

      本文基于MIMIC 數(shù)據(jù)庫,提取相應(yīng)的膿毒癥患者數(shù)據(jù),并通過GCS分?jǐn)?shù)進(jìn)一步篩選出SAE 患者的數(shù)據(jù)。 然后經(jīng)過RFE 特征篩選,篩選出13 個(gè)重要的特征。 使用邏輯回歸、XGBoost、GBDT 三種算法基于篩選后的特征進(jìn)行建模,實(shí)驗(yàn)結(jié)果表明,GBDT算法更適合用于SAE 患者30 天死亡預(yù)測,其AUC值為78.3%,高于其他2 種算法,也比其他文獻(xiàn)中的方法略好。 對于SAE 患者的預(yù)后具有一定的參考價(jià)值。

      本次研究也存在局限性,即只對該數(shù)據(jù)庫進(jìn)行了內(nèi)部驗(yàn)證,在今后的研究中還需要根據(jù)其它的數(shù)據(jù)進(jìn)行外部驗(yàn)證,以進(jìn)一步檢驗(yàn)?zāi)P偷聂敯粜院托阅堋?/p>

      猜你喜歡
      膿毒癥死亡率分?jǐn)?shù)
      走路可以降低死亡率
      中老年保健(2021年4期)2021-08-22 07:07:02
      春季養(yǎng)雞這樣降低死亡率
      分?jǐn)?shù)的由來
      無限循環(huán)小數(shù)化為分?jǐn)?shù)的反思
      血清IL-6、APC、CRP在膿毒癥患者中的表達(dá)及臨床意義
      新冠肺炎的死亡率為何難確定?
      急性爛鰓、套腸、敗血癥…一旦治療不及時(shí),死亡率或高達(dá)90%,叉尾鮰真的值得養(yǎng)嗎?
      膿毒癥的病因病機(jī)及中醫(yī)治療進(jìn)展
      可怕的分?jǐn)?shù)
      算分?jǐn)?shù)
      平邑县| 汉中市| 日土县| 土默特右旗| 松江区| 沙洋县| 阿克苏市| 青铜峡市| 芷江| 张北县| 大荔县| 景谷| 青海省| 辛集市| 兴安盟| 泌阳县| 松滋市| 临高县| 大渡口区| 阳江市| 罗江县| 崇信县| 清涧县| 巴中市| 桂林市| 惠东县| 普陀区| 寻乌县| 靖宇县| 库车县| 南雄市| 逊克县| 廊坊市| 汾西县| 锡林郭勒盟| 东平县| 泰宁县| 盱眙县| 柳林县| 合水县| 疏附县|