苗若琪,喬瑞萍,Clement Yaw EFFAH,郭詩琦,原慧潔,吳 艷,譚龍龍,苗麗君,劉 紅,吳擁軍
1)鄭州大學(xué)公共衛(wèi)生學(xué)院衛(wèi)生化學(xué)教研室 鄭州 450001 2)鄭州大學(xué)第一附屬醫(yī)院呼吸內(nèi)科 鄭州 450052
肺炎是一種常見的急性呼吸道疾病,具有高發(fā)病率和高死亡率等特點(diǎn)[1],根據(jù)發(fā)生地點(diǎn)分為社區(qū)獲得性肺炎和醫(yī)院獲得性肺炎。社區(qū)獲得性肺炎是指在醫(yī)院外罹患的感染性肺實(shí)質(zhì)炎癥,包括具有明顯潛伏期的病原體感染性肺炎,入院48 h內(nèi)發(fā)病的肺炎[2]。研究[3]表明,有許多因素導(dǎo)致肺炎發(fā)病率及死亡率增加,其中包括人口老齡化、免疫力下降、診斷不充分、病原體復(fù)雜多樣和抗菌藥耐藥等。早期診斷和治療是社區(qū)獲得性肺炎的有效干預(yù)措施;因此,結(jié)合社區(qū)獲得性肺炎的危險(xiǎn)因素及其臨床特征建立社區(qū)獲得性肺炎患病風(fēng)險(xiǎn)預(yù)測(cè)模型具有重要意義。隨著信息技術(shù)的快速發(fā)展,數(shù)據(jù)挖掘技術(shù)在醫(yī)學(xué)領(lǐng)域得到了廣泛應(yīng)用。Logistic回歸可以考察多個(gè)因素對(duì)因變量的影響并進(jìn)行預(yù)測(cè)及判別,支持向量機(jī)(support vector machine,SVM)對(duì)小樣本和高維模式識(shí)別數(shù)據(jù)表現(xiàn)出獨(dú)特優(yōu)勢(shì),人工神經(jīng)網(wǎng)絡(luò)(artificial neural network,ANN)具有良好的魯棒性和較強(qiáng)的歸納能力,而C5.0決策樹具有可讀性、分類速度快等優(yōu)點(diǎn)[4]。該研究擬將社區(qū)獲得性肺炎常見的危險(xiǎn)因素、臨床特征及實(shí)驗(yàn)室檢查指標(biāo)相結(jié)合,分別采用SVM、ANN、C5.0決策樹和Logistic回歸模型構(gòu)建社區(qū)獲得性肺炎患病風(fēng)險(xiǎn)預(yù)測(cè)模型,并評(píng)價(jià)4種模型的性能,為社區(qū)獲得性肺炎的早期診斷及治療提供依據(jù)。
1.1 研究對(duì)象選取2019年10月至2021年5月鄭州大學(xué)第一附屬醫(yī)院收治的年滿18周歲且診斷為急性下呼吸道疾病的住院患者535例,其中社區(qū)獲得性肺炎326例(肺炎組),支氣管炎209例(支氣管炎組)。社區(qū)獲得性肺炎診斷標(biāo)準(zhǔn)參考《成人社區(qū)獲得性肺炎基層診療指南(2018年)》[5],支氣管炎診斷標(biāo)準(zhǔn)參考《急性氣管-支氣管炎基層診療指南(2018年)》[6]。排除標(biāo)準(zhǔn):結(jié)核分枝桿菌感染;非感染性肺間質(zhì)性疾病;肺水腫、肺不張、肺栓塞、肺部腫瘤、肺嗜酸粒細(xì)胞浸潤(rùn)癥及肺血管炎等。
1.2 觀察指標(biāo)收集兩組患者的資料,包括流行病學(xué)資料(疾病診斷、年齡、性別、吸煙史、飲酒史、近期手術(shù)史、入院前90 d內(nèi)是否使用抗生素、疾病史),臨床癥狀(發(fā)熱、咳嗽、咳痰、呼吸困難、氣管分泌物、聽診呼吸音減弱、心動(dòng)過速、胸痛、胸腔積液)和實(shí)驗(yàn)室檢查指標(biāo)(白細(xì)胞計(jì)數(shù)、血紅蛋白、紅細(xì)胞比容、血小板計(jì)數(shù)、血清鈉、血清鉀、血清肌酐、總膽紅素、C反應(yīng)蛋白、降鈣素原)。總數(shù)據(jù)集包括22個(gè)定性變量和11個(gè)定量變量,其中32個(gè)為預(yù)測(cè)變量,1個(gè)因變量為疾病診斷結(jié)果。變量賦值:支氣管炎=0,社區(qū)獲得性肺炎=1;性別:女=0,男=1;其他定性變量:否=0,是=1。
1.3 統(tǒng)計(jì)學(xué)處理應(yīng)用SPSS 21.0處理數(shù)據(jù)。采用χ2檢驗(yàn)或t檢驗(yàn)比較兩組患者基線特征指標(biāo)的差異,采用兩獨(dú)立樣本t檢驗(yàn)或Mann-WhitneyU檢驗(yàn)比較兩組患者實(shí)驗(yàn)室檢查指標(biāo)的差異。檢驗(yàn)水準(zhǔn)α=0.05。
1.4 4種模型參數(shù)的設(shè)置和預(yù)測(cè)性能評(píng)價(jià)SVM模型的參數(shù)設(shè)置如下。Mode:Expert;Stopping criteria:0.01;Kernel type:RBF;Regularization parameter(C):3;Regression precision(epsilon):0.1;RBF gamma:0.1;Gamma:4.0;Bias:0.0;Degree:3。
ANN模型的參數(shù)設(shè)置如下。Method:Prune;Stop on:1.0 min;Set random seed:121;Optimize:Memory;Mode:Expert;Hidden layers:2;Layer 1:35;Layer 2:35;Hidden rate:0.15;Input rate:0.15;Persistence:100;Hidden persistence:6;Input persistence:4;Overall persistence:3;Alpha:0.9;Initial Eta:0.3;High Eta:0.1;Eta decay:30;Low Eta:0.01。
C5.0決策樹模型的參數(shù)設(shè)置如下。Output type:Decision tree; Number of trials:2;Cross-validate:false;Mode:Expert;Pruning severity:70;Minimum records per child branch:2。
Logistic回歸模型參數(shù)設(shè)置如下。Procedure:Multinomial;Model type:Main Effects;Mode:Simple;Multinomial Method:Forwards。
使用SPSS Clementine 12.0將535例患者按照7∶3隨機(jī)分為訓(xùn)練集和測(cè)試集,隨機(jī)種子數(shù)設(shè)為4 755 122,其中訓(xùn)練集375例,測(cè)試集160例。應(yīng)用SPSS Clementine 12.0依據(jù)訓(xùn)練集數(shù)據(jù)建立4種預(yù)測(cè)模型,并對(duì)納入變量的重要性進(jìn)行排序?;跍y(cè)試集數(shù)據(jù),分別采用準(zhǔn)確率、敏感度、特異度、陽性預(yù)測(cè)值和陰性預(yù)測(cè)值對(duì)4種模型的預(yù)測(cè)性能進(jìn)行評(píng)價(jià)。
2.1 基本情況兩組患者基線特征和實(shí)驗(yàn)室檢查指標(biāo)的比較見表1、2。
2.2 輸入變量的選擇既往研究[7]提示白細(xì)胞計(jì)數(shù)和總膽紅素為社區(qū)獲得性肺炎的影響因素,故該研究將表1、2中差異有統(tǒng)計(jì)學(xué)意義的因素及白細(xì)胞計(jì)數(shù)和總膽紅素共15個(gè)因素作為輸入變量,建立社區(qū)獲得性肺炎患病風(fēng)險(xiǎn)預(yù)測(cè)模型。
表1 兩組患者基線特征的比較
表2 兩組患者實(shí)驗(yàn)室檢查指標(biāo)的比較
2.3 預(yù)測(cè)模型的構(gòu)建和評(píng)價(jià)
2.3.14種預(yù)測(cè)模型的構(gòu)建 4種模型訓(xùn)練集和測(cè)試集樣本的分類結(jié)果見表3。4種模型的預(yù)測(cè)性能比較見表4。由表4可知,C5.0決策樹模型預(yù)測(cè)性能優(yōu)于其他3種模型。
表3 4種模型對(duì)訓(xùn)練集和測(cè)試集的分類結(jié)果 例(%)
表4 4種模型預(yù)測(cè)性能的比較 %
2.3.24種模型納入變量的重要性排序 見表5。
表5 4種模型納入變量的重要性排序
肺炎是全球高發(fā)病率和高死亡率的疾病之一[1]。該研究篩選社區(qū)獲得性肺炎的相關(guān)因素構(gòu)建風(fēng)險(xiǎn)預(yù)測(cè)模型,為社區(qū)獲得性肺炎的早期預(yù)防和治療提供依據(jù)。
該研究結(jié)果顯示氣管分泌物、咳嗽和咳痰為重要影響變量。研究[8]表明,患者出現(xiàn)呼吸道癥狀,如咳嗽、咳痰或呼吸困難應(yīng)考慮診斷為肺炎。另有研究[9]表明社區(qū)獲得性肺炎患者伴胸腔積液使住院時(shí)間延長(zhǎng)、病死率增加。C反應(yīng)蛋白是細(xì)菌感染的標(biāo)志[10],細(xì)菌感染時(shí)C反應(yīng)蛋白水平升高。降鈣素原水平升高亦提示存在細(xì)菌感染,與社區(qū)獲得性肺炎患者的預(yù)后和疾病的嚴(yán)重程度有關(guān)[11]。血紅蛋白也是重要的影響因素,既往研究[12]表明,血紅蛋白水平隨著社區(qū)獲得性肺炎患者病情嚴(yán)重程度的增加而下降。本研究納入變量的重要性排序表明氣管分泌物、胸腔積液、C反應(yīng)蛋白、降鈣素原及血紅蛋白為社區(qū)獲得性肺炎的重要影響因素,與上述研究一致。
SVM模型主要適用于小樣本數(shù)據(jù)和解決高維度問題,理論基礎(chǔ)比較完善,被廣泛應(yīng)用于各個(gè)領(lǐng)域。ANN是一種模仿生物神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)和功能的模型,經(jīng)過訓(xùn)練,生成輸入變量加權(quán)組合的輸出結(jié)果,旨在解決各種分類或模式識(shí)別問題,具有良好的魯棒性、高容錯(cuò)性和較強(qiáng)的歸納能力,可以確定潛在的預(yù)后影響因素。決策樹模型是一種基于預(yù)測(cè)變量對(duì)數(shù)據(jù)分類的算法,通過分析預(yù)測(cè)變量得到有關(guān)目標(biāo)變量的結(jié)論,可以同時(shí)處理分類變量和連續(xù)變量。C5.0是決策樹模型的常用算法之一,適用于分類變量和大數(shù)據(jù)集。有研究[13]將C5.0決策樹模型與其他模型進(jìn)行比較,建立糖尿病風(fēng)險(xiǎn)預(yù)測(cè)模型,均得到C5.0決策樹模型的預(yù)測(cè)性能最優(yōu)的結(jié)果。本研究基于患者流行病學(xué)資料、臨床癥狀和實(shí)驗(yàn)室檢查結(jié)果,利用SVM、ANN、C5.0決策樹和Logistic回歸技術(shù)建立社區(qū)獲得性肺炎患病風(fēng)險(xiǎn)預(yù)測(cè)模型,結(jié)果顯示,C5.0決策樹模型的預(yù)測(cè)性能優(yōu)于SVM、ANN和Logistic回歸模型,該模型預(yù)測(cè)社區(qū)獲得性肺炎的準(zhǔn)確率達(dá)83.12%。因此,建議利用C5.0決策樹模型鑒別社區(qū)獲得性肺炎高危人群,為社區(qū)獲得性肺炎的早期診斷和早期治療提供參考和依據(jù)。
該研究仍存在不足之處。首先,此次納入研究的樣本量還有待擴(kuò)大;其次,該研究建立的模型僅有訓(xùn)練集和測(cè)試集樣本,缺少臨床樣本驗(yàn)證集;再次,社區(qū)獲得性肺炎的影響因素種類較多,如環(huán)境因素、感染細(xì)菌的種類、胸部CT等,而該研究納入的變量種類相對(duì)有限。
鄭州大學(xué)學(xué)報(bào)(醫(yī)學(xué)版)2023年3期