劉 彬, 肖曉霞,2, 龔后武, 周 展, 鄭立瑞, 譚建聰
(1 湖南中醫(yī)藥大學(xué) 信息科學(xué)與工程學(xué)院, 長沙 410208; 2 湖南中醫(yī)藥大學(xué) 中醫(yī)學(xué)國內(nèi)一流建設(shè)學(xué)科, 長沙 410208;3 東華醫(yī)為科技有限公司, 北京 100089)
膿毒癥是由感染引起的全身炎癥反應(yīng)綜合征,全球發(fā)病率較高,每年患膿毒癥的人數(shù)約為3 100萬,住院病死率約為17%[1]。 膿毒癥相關(guān)性腦病(SAE)是指在患膿毒癥過程中發(fā)生的腦功能障礙,是一種比較嚴(yán)重的膿毒癥并發(fā)癥,也是造成膿毒癥患者死亡的獨(dú)立危險(xiǎn)因素[2]。 并與人體行為、記憶、認(rèn)知功能的長期損害密切相關(guān),給患者的家庭和社會帶來沉重的經(jīng)濟(jì)負(fù)擔(dān)。 仍需指出的是,SAE 患者的死亡率往往高于只患膿毒癥的患者。 格拉斯哥昏迷評分法(Glasgow Coma Scale,GCS) 是一種用來評估病人昏迷程度的方法,滿分為15 分[3],表示意識清楚;12~14 分表示輕度意識障礙;9 ~11 分表示中度意識障礙;8 分以下為昏迷。 Eidelman 等學(xué)者[4]的研究表明腦病與醫(yī)院死亡率的增加成正相關(guān)性,當(dāng)格拉斯哥昏迷評分(GCS) 為15 分時(shí),死亡率為16%,而當(dāng)GCS分?jǐn)?shù)為3 到8 分時(shí),死亡率為63%。 Sonneville 等學(xué)者[5]的研究也得出了類似的結(jié)論,研究顯示當(dāng)GCS分?jǐn)?shù)為15 時(shí),患者30 天生存率為67%;當(dāng)GCS分?jǐn)?shù)為3~8 分時(shí),30 天生存率下降到32%。 即使發(fā)生輕度意識障礙(GCS分?jǐn)?shù)為12~14)也是影響30 天死亡的一個(gè)獨(dú)立危險(xiǎn)因素。綜上表明,SAE 對于膿毒癥患者短期死亡率的增加是有影響的,而這將進(jìn)一步影響患者的健康,同時(shí)加重醫(yī)療資源的消耗。
基于上述問題,識別出短期死亡率較高的SAE患者,有利于及時(shí)進(jìn)行醫(yī)療干預(yù),對于改善這類患者的預(yù)后也具有重要的意義。 因此本研究的主要目的是通過大型的臨床數(shù)據(jù)庫MIMIC 去提取相應(yīng)的SAE 患者數(shù)據(jù),然后通過rfe 算法[6]對相應(yīng)特征進(jìn)行篩選,選出影響SAE 患者30 天死亡率的重要特征,最后基于這些特征構(gòu)建機(jī)器學(xué)習(xí)模型,用于改善SAE 患者的預(yù)后。
特征遞歸消除(Recursive Feature Elimination,RFE)是一種用來衡量特征變量重要性的方法,通過重復(fù)構(gòu)建模型,逐步迭代選出最重要的特征變量,能夠?qū)ふ页鲎顑?yōu)的特征子集,剔除不重要的特征變量。具體運(yùn)算步驟如下:
(1)設(shè)定需要進(jìn)行選擇的特征數(shù)。
(2)選擇一個(gè)基模型來進(jìn)行多輪訓(xùn)練, 每次訓(xùn)練將J(k)=(wk)2作為每個(gè)特征的排序準(zhǔn)則,并且每次迭代去除排序最后需要移除的特征數(shù)量。
(3)基于新的特征集進(jìn)行下一輪訓(xùn)練,直至特征個(gè)數(shù)為特征設(shè)定值。
本文選擇的基模型為XGBoost 模型,對總計(jì)17個(gè)特征進(jìn)行篩選。
邏輯回歸[7]是一種廣義的線性回歸模型,屬于機(jī)器學(xué)習(xí)中的監(jiān)督算法,主要是用來解決二分類問題。 該算法首先通過輸入數(shù)據(jù)擬合出一條直線z =wTx +b,顯然這樣的函數(shù)圖像是一條斜線,難以達(dá)到最終想要的結(jié)果(0 或1),于是要將z通過一個(gè)函數(shù)映射成0~1 之間的數(shù),這個(gè)函數(shù)就是sigmoid函數(shù),式子如下:
然后,通過極大似然估計(jì)推導(dǎo)出損失函數(shù):
最后,通過梯度下降法求解出式(2)中的參數(shù),從而解決了二分類問題。
GBDT(Gradient Boosting Decision Tree)是一種基于決策樹的集成算法。 算法采用將基函數(shù)線性組合的方法[8],在訓(xùn)練過程中使得殘差不斷地減小,最終實(shí)現(xiàn)數(shù)據(jù)回歸或者分類。 GBDT 算法的訓(xùn)練過程具體如圖1 所示。
圖1 GBDT 算法訓(xùn)練過程Fig. 1 GBDT algorithm training process
GBDT 通過多輪迭代,產(chǎn)生多個(gè)弱分類器,每個(gè)分類器在上一輪分類器的梯度(如果損失函數(shù)是平方損失函數(shù),則梯度就是殘差值)基礎(chǔ)上進(jìn)行訓(xùn)練。弱分類器一般會選擇CART TREE(分類回歸樹),這種樹具有結(jié)構(gòu)簡單、高偏差、低方差的特點(diǎn),因此十分適合用于GBDT 算法的訓(xùn)練中。
XGBoost 算法[9]是在GBDT 算法的基礎(chǔ)上發(fā)展而來的,主要改進(jìn)有:算法不僅可以使用CART 分類回歸樹,還能使用線性基礎(chǔ)模型;在目標(biāo)函數(shù)中加入了正則化項(xiàng),用來防止模型出現(xiàn)過擬合;借鑒了隨機(jī)森林的原理,支持列抽樣,不僅能降低過擬合,還能夠減少模型的計(jì)算量;考慮到了訓(xùn)練數(shù)據(jù)為稀疏值的情況,能為缺失值指定分支的默認(rèn)方向,從而提高算法效率。
MIMIC[10](Medical Information Mart for ICU)是一個(gè)大型的、免費(fèi)提供的數(shù)據(jù)庫,其中包括來自美國馬薩諸塞州波士頓貝斯以色列女執(zhí)事醫(yī)療中心重癥監(jiān)護(hù)病房住院病人的高質(zhì)量健康相關(guān)數(shù)據(jù),數(shù)據(jù)包括生命體征、藥物、化驗(yàn)數(shù)據(jù)、護(hù)理人員的觀察和記錄、輸液、手術(shù)、診斷代碼、成像報(bào)告、住院時(shí)間、生存數(shù)據(jù)。 MIMIC 數(shù)據(jù)庫到現(xiàn)在已經(jīng)發(fā)布4 個(gè)版本。MIMIC-II 中包含2001 ~2008 年的數(shù)據(jù),MIMIC-Ⅲ包含2001 ~2012 年的數(shù)據(jù),MIMIC-IV 包含2008 ~2019 年的數(shù)據(jù)。 本文將基于MIMIC-IV 數(shù)據(jù)庫抽取相應(yīng)的SAE 患者數(shù)據(jù)。
SAE 被定義為膿毒癥患者中GCS分?jǐn)?shù)小于15的患者。 研究使用的主要軟件為Navicat Premium(15.0.12 版本), 按 照 關(guān) 鍵 字[11]“ s - epsis”、“severe sepsis”、“septic shoc-k”從數(shù)據(jù)庫中搜索被診斷為“膿毒癥”、“嚴(yán)重膿毒癥”、“膿毒癥休克”患者的原始數(shù)據(jù)。 根據(jù)以往研究,確定好納排標(biāo)準(zhǔn)后進(jìn)一步篩選患者。 患者篩選的詳細(xì)過程如圖2 所示。
圖2 患者篩選圖Fig. 2 Patient screening
確定最終的SAE 患者后,根據(jù)此前的研究文獻(xiàn),從MIMIC 數(shù)據(jù)庫中提取患者首次入院時(shí)對應(yīng)的年齡(anchor_age)、性別(gender)、住院天數(shù)(day)、葡萄糖(glucose)、鈉(sodium)、GCS 分?jǐn)?shù)(gcs)、血小板( platelet)、 肌 酐 ( creatinine )、 血 紅 蛋 白(hemoglobin)、鉀(potassium)、血尿素氮(BUN)、白細(xì)胞(WBC)、乳酸鹽(lactate)、血漿凝血酶原時(shí)間(PT)、心率(heart_rate)、血氧飽和度(spo2)、呼吸速率(respiratory_rate)、30 天是否死亡(morality)。 數(shù)據(jù)總計(jì)17 個(gè)特征屬性,再加一個(gè)類別標(biāo)簽屬性,其中類別標(biāo)簽表明患者是否在患病30 天內(nèi)死亡。
提取了數(shù)據(jù)后,對數(shù)據(jù)的缺失情況進(jìn)行統(tǒng)計(jì),結(jié)果見表1。
表1 數(shù)據(jù)缺失情況表Tab. 1 Data missing table
從表1 的結(jié)果中可以看出10 個(gè)特征存在數(shù)據(jù)缺失的問題,缺失最多的特征是乳酸鹽,缺失比例為19.84%,缺失最少的是肌酐,僅缺失一例。 根據(jù)文獻(xiàn)[8]中對缺失數(shù)據(jù)的處理方法來看,缺失特征比例均小于20%,予以保留,并統(tǒng)一采用平均值對其進(jìn)行填補(bǔ),在此基礎(chǔ)上將對數(shù)據(jù)進(jìn)行具體分析。
總計(jì)納入4 808 例膿毒癥患者,其中2 131 例為SAE 患者。 SAE 患者年齡為19 ~91 歲之間,中位年齡數(shù)為68 歲。 男性為1 127 例,女性為1 004 例。30 天內(nèi)死亡病例為492 例,存活病例為1 639 例,數(shù)據(jù)分布較為均衡。
根據(jù)RFE 特征篩選,每一輪篩選移去特征系數(shù)(wk)2最小的特征,直到特征個(gè)數(shù)為設(shè)定值。 結(jié)果顯示,當(dāng)特征數(shù)設(shè)定為13 時(shí),3 個(gè)模型中GBDT 的AUC值最高,其在測試集上AUC為0.783。 此時(shí)選出的13 個(gè)特征分別為:年齡、住院天數(shù)、鈉、GCS 分?jǐn)?shù)、血小板、肌酐、鉀、血尿素氮、乳酸鹽、血漿凝血酶原時(shí)間、血氧飽和度、心率、呼吸速率。
將SAE 數(shù)據(jù)集按照7:3 的比例隨機(jī)劃分為訓(xùn)練集和測試集進(jìn)行訓(xùn)練。 本文采用的評價(jià)指標(biāo)為準(zhǔn)確率、P值、R值、F1值、AUC值。 具體的實(shí)驗(yàn)結(jié)果見表2、表3。
表2 未進(jìn)行特征篩選結(jié)果Tab. 2 No feature filtering results
表3 特征篩選后結(jié)果Tab. 3 Results after feature screening
從表2 和表3 中可以看出,數(shù)據(jù)集經(jīng)過特征篩選后,3 個(gè)模型的某些指標(biāo)得到了提高。 邏輯回歸模型的準(zhǔn)確率提高了1.6%、精度提高了6.3%、F1值提高了1.4%、AUC值提高了0.3%;XGboost 模型的準(zhǔn)確率提高了0.6%、精度提高了2.1%、召回率提高了0.7%、F1值提高了1.2%;GBDT 模型的AUC值提高了0.9%。
為了更直觀地比較3 個(gè)不同算法的性能,繪制的ROC曲線如圖3 所示。
圖3 3 種分類算法的ROC 曲線Fig. 3 ROC curves of three classification algorithms
從圖3 中可以看出,在3 個(gè)算法中GBDT 算法的AUC值最大、為0.783,說明GBDT 算法性能最優(yōu),更適合用于SAE 患者30 天死亡預(yù)測。
在這項(xiàng)基于MIMIC-IV 數(shù)據(jù)庫的研究中,從MIMIC 數(shù)據(jù)庫中抽取出對應(yīng)的SAE 患者數(shù)據(jù),然后使用了RFE 特征選擇,篩選出了與SAE 患者30 天死亡率相關(guān)的危險(xiǎn)因素,最后基于這些特征建立了3 個(gè)機(jī)器學(xué)習(xí)模型去對SAE 患者30 天死亡進(jìn)行預(yù)測。 其中,GBDT 算法對于SAE 患者30 天死亡預(yù)測效果最佳,其精度為52.9%,準(zhǔn)確率為78.6%、AUC值為78.3%,3 個(gè)指標(biāo)均為不同算法中最高的。 與其它研究方法進(jìn)行對比,文獻(xiàn)[3]提出的列線圖模型在訓(xùn)練集上的AUC值為0.763,在驗(yàn)證集上的AUC值為0.753,均比本文提出的GBDT 算法的AUC值略低。 說明本文提出的模型性能更優(yōu)、泛化能力也更強(qiáng)。 目前,對于SAE 的治療是具有挑戰(zhàn)性的,有許多關(guān)于膿毒癥的指南列出了各種治療膿毒癥的建議,但卻很少有治療SAE 的建議。 有關(guān)SAE 患者死亡預(yù)測的研究也較為匱乏,本研究很好地彌補(bǔ)了這方面的空白。 從應(yīng)用價(jià)值來看,本文提出的GBDT 預(yù)測模型能夠輔助臨床醫(yī)生去評估SAE 患者的預(yù)后,從而制定出相應(yīng)的治療措施,降低患者死亡率。 一旦研究出針對SAE 的具體治療方法,該模型的應(yīng)用價(jià)值就會更高。 未來可以開發(fā)一款能嵌入電子醫(yī)療系統(tǒng)的軟件,該軟件能夠在不增加臨床醫(yī)生工作時(shí)間和負(fù)擔(dān)的情況下,輔助臨床醫(yī)生及時(shí)治療SAE。
本文基于MIMIC 數(shù)據(jù)庫,提取相應(yīng)的膿毒癥患者數(shù)據(jù),并通過GCS分?jǐn)?shù)進(jìn)一步篩選出SAE 患者的數(shù)據(jù)。 然后經(jīng)過RFE 特征篩選,篩選出13 個(gè)重要的特征。 使用邏輯回歸、XGBoost、GBDT 三種算法基于篩選后的特征進(jìn)行建模,實(shí)驗(yàn)結(jié)果表明,GBDT算法更適合用于SAE 患者30 天死亡預(yù)測,其AUC值為78.3%,高于其他2 種算法,也比其他文獻(xiàn)中的方法略好。 對于SAE 患者的預(yù)后具有一定的參考價(jià)值。
本次研究也存在局限性,即只對該數(shù)據(jù)庫進(jìn)行了內(nèi)部驗(yàn)證,在今后的研究中還需要根據(jù)其它的數(shù)據(jù)進(jìn)行外部驗(yàn)證,以進(jìn)一步檢驗(yàn)?zāi)P偷聂敯粜院托阅堋?/p>