基于機(jī)器學(xué)習(xí)的SAE 患者30 天死亡風(fēng)險(xiǎn)預(yù)測模型

2023-04-19 06:38:54肖曉霞龔后武鄭立瑞譚建聰

智能計(jì)算機(jī)與應(yīng)用 2023年3期

劉彬，肖曉霞，2，龔后武，周展，鄭立瑞，譚建聰

（1 湖南中醫(yī)藥大學(xué) 信息科學(xué)與工程學(xué)院，長沙 410208； 2 湖南中醫(yī)藥大學(xué) 中醫(yī)學(xué)國內(nèi)一流建設(shè)學(xué)科，長沙 410208；3 東華醫(yī)為科技有限公司，北京 100089）

0 引言

膿毒癥是由感染引起的全身炎癥反應(yīng)綜合征，全球發(fā)病率較高，每年患膿毒癥的人數(shù)約為3 100萬，住院病死率約為17%［1］。膿毒癥相關(guān)性腦病（SAE）是指在患膿毒癥過程中發(fā)生的腦功能障礙，是一種比較嚴(yán)重的膿毒癥并發(fā)癥，也是造成膿毒癥患者死亡的獨(dú)立危險(xiǎn)因素［2］。并與人體行為、記憶、認(rèn)知功能的長期損害密切相關(guān)，給患者的家庭和社會帶來沉重的經(jīng)濟(jì)負(fù)擔(dān)。仍需指出的是，SAE 患者的死亡率往往高于只患膿毒癥的患者。格拉斯哥昏迷評分法（Glasgow Coma Scale，GCS）是一種用來評估病人昏迷程度的方法，滿分為15 分［3］，表示意識清楚；12～14 分表示輕度意識障礙；9 ～11 分表示中度意識障礙；8 分以下為昏迷。 Eidelman 等學(xué)者［4］的研究表明腦病與醫(yī)院死亡率的增加成正相關(guān)性，當(dāng)格拉斯哥昏迷評分（GCS）為15 分時(shí)，死亡率為16%，而當(dāng)GCS分?jǐn)?shù)為3 到8 分時(shí)，死亡率為63%。 Sonneville 等學(xué)者［5］的研究也得出了類似的結(jié)論，研究顯示當(dāng)GCS分?jǐn)?shù)為15 時(shí)，患者30 天生存率為67%；當(dāng)GCS分?jǐn)?shù)為3～8 分時(shí)，30 天生存率下降到32%。即使發(fā)生輕度意識障礙（GCS分?jǐn)?shù)為12～14）也是影響30 天死亡的一個(gè)獨(dú)立危險(xiǎn)因素。綜上表明，SAE 對于膿毒癥患者短期死亡率的增加是有影響的，而這將進(jìn)一步影響患者的健康，同時(shí)加重醫(yī)療資源的消耗。

基于上述問題，識別出短期死亡率較高的SAE患者，有利于及時(shí)進(jìn)行醫(yī)療干預(yù)，對于改善這類患者的預(yù)后也具有重要的意義。因此本研究的主要目的是通過大型的臨床數(shù)據(jù)庫MIMIC 去提取相應(yīng)的SAE 患者數(shù)據(jù)，然后通過rfe 算法［6］對相應(yīng)特征進(jìn)行篩選，選出影響SAE 患者30 天死亡率的重要特征，最后基于這些特征構(gòu)建機(jī)器學(xué)習(xí)模型，用于改善SAE 患者的預(yù)后。

1 算法原理

1．1 RFE 特征篩選

特征遞歸消除（Recursive Feature Elimination，RFE）是一種用來衡量特征變量重要性的方法，通過重復(fù)構(gòu)建模型，逐步迭代選出最重要的特征變量，能夠?qū)ふ页鲎顑?yōu)的特征子集，剔除不重要的特征變量。具體運(yùn)算步驟如下:

（1）設(shè)定需要進(jìn)行選擇的特征數(shù)。

（2）選擇一個(gè)基模型來進(jìn)行多輪訓(xùn)練，每次訓(xùn)練將J（k）＝（wk）2作為每個(gè)特征的排序準(zhǔn)則，并且每次迭代去除排序最后需要移除的特征數(shù)量。

（3）基于新的特征集進(jìn)行下一輪訓(xùn)練，直至特征個(gè)數(shù)為特征設(shè)定值。

本文選擇的基模型為XGBoost 模型，對總計(jì)17個(gè)特征進(jìn)行篩選。

1．2 邏輯回歸

邏輯回歸［7］是一種廣義的線性回歸模型，屬于機(jī)器學(xué)習(xí)中的監(jiān)督算法，主要是用來解決二分類問題。該算法首先通過輸入數(shù)據(jù)擬合出一條直線z ＝wTx ＋b，顯然這樣的函數(shù)圖像是一條斜線，難以達(dá)到最終想要的結(jié)果（0 或1），于是要將z通過一個(gè)函數(shù)映射成0～1 之間的數(shù)，這個(gè)函數(shù)就是sigmoid函數(shù)，式子如下:

然后，通過極大似然估計(jì)推導(dǎo)出損失函數(shù):

最后，通過梯度下降法求解出式（2）中的參數(shù)，從而解決了二分類問題。

1．3 GBDT

GBDT（Gradient Boosting Decision Tree）是一種基于決策樹的集成算法。算法采用將基函數(shù)線性組合的方法［8］，在訓(xùn)練過程中使得殘差不斷地減小，最終實(shí)現(xiàn)數(shù)據(jù)回歸或者分類。 GBDT 算法的訓(xùn)練過程具體如圖1 所示。

圖1 GBDT 算法訓(xùn)練過程Fig． 1 GBDT algorithm training process

GBDT 通過多輪迭代，產(chǎn)生多個(gè)弱分類器，每個(gè)分類器在上一輪分類器的梯度（如果損失函數(shù)是平方損失函數(shù)，則梯度就是殘差值）基礎(chǔ)上進(jìn)行訓(xùn)練。弱分類器一般會選擇CART TREE（分類回歸樹），這種樹具有結(jié)構(gòu)簡單、高偏差、低方差的特點(diǎn)，因此十分適合用于GBDT 算法的訓(xùn)練中。

1．4 XGBoost

XGBoost 算法［9］是在GBDT 算法的基礎(chǔ)上發(fā)展而來的，主要改進(jìn)有:算法不僅可以使用CART 分類回歸樹，還能使用線性基礎(chǔ)模型；在目標(biāo)函數(shù)中加入了正則化項(xiàng)，用來防止模型出現(xiàn)過擬合；借鑒了隨機(jī)森林的原理，支持列抽樣，不僅能降低過擬合，還能夠減少模型的計(jì)算量；考慮到了訓(xùn)練數(shù)據(jù)為稀疏值的情況，能為缺失值指定分支的默認(rèn)方向，從而提高算法效率。

2 數(shù)據(jù)與方法

2．1 數(shù)據(jù)來源

MIMIC［10］（Medical Information Mart for ICU）是一個(gè)大型的、免費(fèi)提供的數(shù)據(jù)庫，其中包括來自美國馬薩諸塞州波士頓貝斯以色列女執(zhí)事醫(yī)療中心重癥監(jiān)護(hù)病房住院病人的高質(zhì)量健康相關(guān)數(shù)據(jù)，數(shù)據(jù)包括生命體征、藥物、化驗(yàn)數(shù)據(jù)、護(hù)理人員的觀察和記錄、輸液、手術(shù)、診斷代碼、成像報(bào)告、住院時(shí)間、生存數(shù)據(jù)。 MIMIC 數(shù)據(jù)庫到現(xiàn)在已經(jīng)發(fā)布4 個(gè)版本。MIMIC-II 中包含2001 ～2008 年的數(shù)據(jù)，MIMIC-Ⅲ包含2001 ～2012 年的數(shù)據(jù)，MIMIC-IV 包含2008 ～2019 年的數(shù)據(jù)。本文將基于MIMIC-IV 數(shù)據(jù)庫抽取相應(yīng)的SAE 患者數(shù)據(jù)。

2．2 數(shù)據(jù)抽取

SAE 被定義為膿毒癥患者中GCS分?jǐn)?shù)小于15的患者。研究使用的主要軟件為Navicat Premium（15.0.12 版本），按照關(guān) 鍵字［11］“ s - epsis”、“severe sepsis”、“septic shoc-k”從數(shù)據(jù)庫中搜索被診斷為“膿毒癥”、“嚴(yán)重膿毒癥”、“膿毒癥休克”患者的原始數(shù)據(jù)。根據(jù)以往研究，確定好納排標(biāo)準(zhǔn)后進(jìn)一步篩選患者。患者篩選的詳細(xì)過程如圖2 所示。

圖2 患者篩選圖Fig． 2 Patient screening

確定最終的SAE 患者后，根據(jù)此前的研究文獻(xiàn)，從MIMIC 數(shù)據(jù)庫中提取患者首次入院時(shí)對應(yīng)的年齡（anchor_age）、性別（gender）、住院天數(shù)（day）、葡萄糖（glucose）、鈉（sodium）、GCS 分?jǐn)?shù)（gcs）、血小板（ platelet）、肌酐（ creatinine ）、血紅蛋白（hemoglobin）、鉀（potassium）、血尿素氮（BUN）、白細(xì)胞（WBC）、乳酸鹽（lactate）、血漿凝血酶原時(shí)間（PT）、心率（heart_rate）、血氧飽和度（spo2）、呼吸速率（respiratory_rate）、30 天是否死亡（morality）。數(shù)據(jù)總計(jì)17 個(gè)特征屬性，再加一個(gè)類別標(biāo)簽屬性，其中類別標(biāo)簽表明患者是否在患病30 天內(nèi)死亡。

2．3 數(shù)據(jù)預(yù)處理

提取了數(shù)據(jù)后，對數(shù)據(jù)的缺失情況進(jìn)行統(tǒng)計(jì)，結(jié)果見表1。

表1 數(shù)據(jù)缺失情況表Tab． 1 Data missing table

從表1 的結(jié)果中可以看出10 個(gè)特征存在數(shù)據(jù)缺失的問題，缺失最多的特征是乳酸鹽，缺失比例為19.84%，缺失最少的是肌酐，僅缺失一例。根據(jù)文獻(xiàn)［8］中對缺失數(shù)據(jù)的處理方法來看，缺失特征比例均小于20%，予以保留，并統(tǒng)一采用平均值對其進(jìn)行填補(bǔ)，在此基礎(chǔ)上將對數(shù)據(jù)進(jìn)行具體分析。

3 結(jié)果

3．1 納入病例的基本信息

總計(jì)納入4 808 例膿毒癥患者，其中2 131 例為SAE 患者。 SAE 患者年齡為19 ～91 歲之間，中位年齡數(shù)為68 歲。男性為1 127 例，女性為1 004 例。30 天內(nèi)死亡病例為492 例，存活病例為1 639 例，數(shù)據(jù)分布較為均衡。

3．2 篩選得到的特征變量

根據(jù)RFE 特征篩選，每一輪篩選移去特征系數(shù)（wk）2最小的特征，直到特征個(gè)數(shù)為設(shè)定值。結(jié)果顯示，當(dāng)特征數(shù)設(shè)定為13 時(shí)，3 個(gè)模型中GBDT 的AUC值最高，其在測試集上AUC為0.783。此時(shí)選出的13 個(gè)特征分別為:年齡、住院天數(shù)、鈉、GCS 分?jǐn)?shù)、血小板、肌酐、鉀、血尿素氮、乳酸鹽、血漿凝血酶原時(shí)間、血氧飽和度、心率、呼吸速率。

3．3 實(shí)驗(yàn)結(jié)果

將SAE 數(shù)據(jù)集按照7:3 的比例隨機(jī)劃分為訓(xùn)練集和測試集進(jìn)行訓(xùn)練。本文采用的評價(jià)指標(biāo)為準(zhǔn)確率、P值、R值、F1值、AUC值。具體的實(shí)驗(yàn)結(jié)果見表2、表3。

表2 未進(jìn)行特征篩選結(jié)果Tab． 2 No feature filtering results

表3 特征篩選后結(jié)果Tab． 3 Results after feature screening

從表2 和表3 中可以看出，數(shù)據(jù)集經(jīng)過特征篩選后，3 個(gè)模型的某些指標(biāo)得到了提高。邏輯回歸模型的準(zhǔn)確率提高了1.6%、精度提高了6.3%、F1值提高了1.4%、AUC值提高了0.3%；XGboost 模型的準(zhǔn)確率提高了0.6%、精度提高了2.1%、召回率提高了0.7%、F1值提高了1.2%；GBDT 模型的AUC值提高了0.9%。

為了更直觀地比較3 個(gè)不同算法的性能，繪制的ROC曲線如圖3 所示。

圖3 3 種分類算法的ROC 曲線Fig． 3 ROC curves of three classification algorithms

從圖3 中可以看出，在3 個(gè)算法中GBDT 算法的AUC值最大、為0.783，說明GBDT 算法性能最優(yōu)，更適合用于SAE 患者30 天死亡預(yù)測。

4 分析與討論

在這項(xiàng)基于MIMIC-IV 數(shù)據(jù)庫的研究中，從MIMIC 數(shù)據(jù)庫中抽取出對應(yīng)的SAE 患者數(shù)據(jù)，然后使用了RFE 特征選擇，篩選出了與SAE 患者30 天死亡率相關(guān)的危險(xiǎn)因素，最后基于這些特征建立了3 個(gè)機(jī)器學(xué)習(xí)模型去對SAE 患者30 天死亡進(jìn)行預(yù)測。其中，GBDT 算法對于SAE 患者30 天死亡預(yù)測效果最佳，其精度為52.9%，準(zhǔn)確率為78.6%、AUC值為78.3%，3 個(gè)指標(biāo)均為不同算法中最高的。與其它研究方法進(jìn)行對比，文獻(xiàn)［3］提出的列線圖模型在訓(xùn)練集上的AUC值為0.763，在驗(yàn)證集上的AUC值為0.753，均比本文提出的GBDT 算法的AUC值略低。說明本文提出的模型性能更優(yōu)、泛化能力也更強(qiáng)。目前，對于SAE 的治療是具有挑戰(zhàn)性的，有許多關(guān)于膿毒癥的指南列出了各種治療膿毒癥的建議，但卻很少有治療SAE 的建議。有關(guān)SAE 患者死亡預(yù)測的研究也較為匱乏，本研究很好地彌補(bǔ)了這方面的空白。從應(yīng)用價(jià)值來看，本文提出的GBDT 預(yù)測模型能夠輔助臨床醫(yī)生去評估SAE 患者的預(yù)后，從而制定出相應(yīng)的治療措施，降低患者死亡率。一旦研究出針對SAE 的具體治療方法，該模型的應(yīng)用價(jià)值就會更高。未來可以開發(fā)一款能嵌入電子醫(yī)療系統(tǒng)的軟件，該軟件能夠在不增加臨床醫(yī)生工作時(shí)間和負(fù)擔(dān)的情況下，輔助臨床醫(yī)生及時(shí)治療SAE。

5 結(jié)束語

本文基于MIMIC 數(shù)據(jù)庫，提取相應(yīng)的膿毒癥患者數(shù)據(jù)，并通過GCS分?jǐn)?shù)進(jìn)一步篩選出SAE 患者的數(shù)據(jù)。然后經(jīng)過RFE 特征篩選，篩選出13 個(gè)重要的特征。使用邏輯回歸、XGBoost、GBDT 三種算法基于篩選后的特征進(jìn)行建模，實(shí)驗(yàn)結(jié)果表明，GBDT算法更適合用于SAE 患者30 天死亡預(yù)測，其AUC值為78.3%，高于其他2 種算法，也比其他文獻(xiàn)中的方法略好。對于SAE 患者的預(yù)后具有一定的參考價(jià)值。

本次研究也存在局限性，即只對該數(shù)據(jù)庫進(jìn)行了內(nèi)部驗(yàn)證，在今后的研究中還需要根據(jù)其它的數(shù)據(jù)進(jìn)行外部驗(yàn)證，以進(jìn)一步檢驗(yàn)?zāi)Ｐ偷聂敯粜院托阅堋?/p>

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看