夏一帆 陳陽育 施煥中 李 瑩 梁寶生
【提 要】 目的 基于統(tǒng)計學習方法探討癌胚抗原(carcinoembryonic antigen,CEA)、糖鏈抗原(carbohydrate antigen,CA)125、CA15-3和CA19-9四種腫瘤標志物的不同聯(lián)合對鑒別良惡性胸腔積液的診斷價值。方法 收集北京和武漢兩家醫(yī)院共319例患者的胸腔積液標本及配對血清標本,應用化學發(fā)光法檢測CEA、CA125、CA15-3及CA19-9在血清及胸腔積液中的濃度,采集患者的性別、年齡等協(xié)變量信息,分別應用logistic回歸、隨機森林和支持向量機三種方法建立聯(lián)合診斷模型,通過受試者工作特征(receiver operating characteristics,ROC)曲線分析比較其診斷價值。結果 使用支持向量機方法,獲得胸腔積液中CEA+CA19-9的聯(lián)合診斷對應的ROC曲線下面積(areas under the curve,AUC)值最大(0.92,P<0.001),靈敏度最高(0.82),特異度為0.96,AUC值比單一腫瘤標志物診斷最優(yōu)值提高了1.6%,靈敏度提高了3.8%;使用logistic回歸方法,獲得胸腔積液中CEA+CA15-3+CA19-9聯(lián)合診斷對應的AUC值達到0.91(P<0.001),比單一腫瘤標志物最優(yōu)模型AUC值提高了5.7%,靈敏度提高13.2%,特異度提高4.3%;3.使用隨機森林方法,最優(yōu)靈敏度達到0.82,最高AUC值為0.89(P<0.001),比單一腫瘤標志物最優(yōu)模型AUC值提高了5.1%,靈敏度提高6.5%,特異度提高3.3%。結論 相比單一腫瘤標志物診斷,聯(lián)合多腫瘤標志物的診斷能夠提高診斷精度,但是提高幅度不大?;谥С窒蛄繖C方法,使用胸腔積液中單一腫瘤標志物CEA即可達到較好的良、惡性胸腔積液診斷效果。綜合考慮患者就醫(yī)的經(jīng)濟負擔和就醫(yī)體驗等因素,本研究不推薦使用多腫瘤標志物的聯(lián)合診斷。
腫瘤標志物常用于判斷惡性疾病可能性,CEA、CA125、CA15-3及CA19-9均為臨床常見的腫瘤標志物[4-9]。研究證實這些腫瘤標志物對于鑒別胸腔積液的良、惡性有提示作用,單一的腫瘤標志物靈敏度和特異度有限,可能存在漏診、誤診等[1-2]。已有文獻發(fā)現(xiàn)聯(lián)合使用兩種或多種腫瘤標志物可能會提高診斷價值,但臨床上尚無定論[3],且并非所有腫瘤標志物的實驗室檢測都有助于提高聯(lián)合診斷的效果。因而,研究如何在提高多種標志物聯(lián)合診斷效果的同時,盡可能選取數(shù)量少的標志物類型組合做診斷,具有十分重要的臨床意義。本研究通過檢測血清和胸腔積液中的四種腫瘤標志物CEA、CA125、CA15-3及CA19-9的濃度,應用logistic回歸、隨機森林和支持向量機三種統(tǒng)計學習方法,探討不同的聯(lián)合診斷方法在鑒別良、惡性胸腔積液方面的診斷效果。
1.數(shù)據(jù)來源
選取2015年1月至2017年6月收入首都醫(yī)科大學附屬北京朝陽醫(yī)院呼吸與危重癥醫(yī)學科的所有伴有胸腔積液的成人患者174例,以及武漢某醫(yī)院的胸腔積液患者145例,共計319例。根據(jù)Light標準區(qū)分滲出性胸腔積液或漏出性胸腔積液。根據(jù)病因進行分類,其中惡性胸腔積液患者111例(年齡21~86歲),男性59例,女性52例;良性胸腔積液患者208例(年齡16~88歲),男性148例,女性60例。
2.分析方法
采用R軟件完成分析及繪圖,計量資料以均值±標準差表示。選擇logistic回歸、隨機森林和支持向量機三種統(tǒng)計學習分類方法[5-6]建立診斷模型。除將CEA、CA125、CA15-3及CA19-9濃度納入診斷模型,同時考慮患者的性別、年齡和就診城市信息。為避免統(tǒng)計學習方法參數(shù)訓練出現(xiàn)過擬合的情形,將數(shù)據(jù)隨機五等分,四份作訓練集,一份作測試集。構建logistic回歸模型時,針對胸腔積液和血清兩組數(shù)據(jù),采用Lasso方法進行變量篩選[11],通過交叉驗證的方法,確定最優(yōu)的懲罰因子和模型;在構建隨機森林模型時,通過調(diào)整算法中的特征變量選擇個數(shù)和樹的個數(shù)實現(xiàn)模型調(diào)優(yōu),選取100棵樹來構建診斷模型。根據(jù)Gini系數(shù)值的下降幅度進行變量的重要性計算,選取四種標志物和年齡變量作為重要變量。在構建支持向量機模型時,選擇線性核函數(shù)作為支持向量機的核函數(shù),通過交叉驗證選取支持向量機最優(yōu)的懲罰因子。對每種方法,獲得預測數(shù)據(jù)集上的ROC曲線和AUC值,計算最優(yōu)的cut-off值[12],及對應診斷靈敏度和特異度。用以比較三種統(tǒng)計學習方法對應不同標志物聯(lián)合診斷模型的診斷效能,并與單一標志物診斷結果對比。P<0.05被認為具有統(tǒng)計學意義。
1.使用logistic回歸模型、隨機森林和支持向量機診斷模型分別在胸腔積液和血清組進行聯(lián)合診斷的結果見表1,診斷結果對應的ROC曲線見圖1。
圖1 在胸腔積液和血清中l(wèi)ogistic回歸(第1列)、隨機森林(第2列)和支持向量機的不同診斷模型下的ROC曲線
表1 使用logistic回歸、隨機森林和支持向量機方法在胸腔積液和血清中腫瘤標志物的不同聯(lián)合診斷效果
logistic回歸中各模型聯(lián)合診斷AUC值均大于0.81(P<0.001)。胸腔積液中CEA+CA15-3+CA19-9的聯(lián)合診斷模型(M5)在ROC曲線中AUC最大為0.91,cut-off值為0.38,靈敏度為0.77,特異度為0.96。
隨機森林各聯(lián)合診斷模型AUC值均大于0.70(P<0.001)。胸腔積液中使用重要變量模型(M12)的聯(lián)合診斷AUC值最高為0.89。支持向量機診斷方法在胸腔積液中使用CEA+CA19-9模型(M1)的聯(lián)合診斷ROC曲線對應AUC值最高為0.92,cut-off為0.24,靈敏度為0.82,特異度為0.96。
2.利用三種統(tǒng)計學習分類方法對不同腫瘤標志物濃度的單一診斷模型診斷結果見表2。其中,胸腔積液中,基于單一腫瘤標志物CEA的支持向量機最優(yōu)診斷模型AUC值最高為0.90,cut-off為0.26,靈敏度為0.79,特異度為0.93?;趩我荒[瘤標志物CA15-3的logistic回歸最優(yōu)診斷模型AUC值為0.85,cut-off為0.36,靈敏度和特異度分別為0.68和0.92。隨機森林方法對應的單一腫瘤標志物CEA的診斷模型最優(yōu)(AUC=0.84)。
表2 胸腔積液和血清組使用單一指標的診斷結果
3.不同聯(lián)合診斷模型效果比較的假設檢驗結果見表3。檢驗結果顯示,胸腔積液組中基于logistic回歸和隨機森林方法的聯(lián)合診斷最優(yōu)模型與單一腫瘤標志物診斷模型的AUC值差異比較的假設檢驗P值均顯著(P<0.007)?;谥С窒蛄繖C的聯(lián)合診斷模型最優(yōu)模型與單一腫瘤標志物最優(yōu)診斷模型的AUC值差異比較的假設檢驗均不顯著。另外,胸腔積液組中三種分類方法對應聯(lián)合診斷的最優(yōu)模型AUC值與次優(yōu)模型的AUC值差異比較均不顯著(P>0.155)。
表3 胸腔積液組中不同方法對應聯(lián)合診斷模型AUC差異的比較
本文通過前瞻性試驗研究,使用logistic回歸、隨機森林和支持向量機三種分類方法,建立以CEA、CA125、CA15-3和CA19-9四種腫瘤標志物濃度為基礎的不同聯(lián)合診斷模型,通過統(tǒng)計學習方法進一步提升了聯(lián)合診斷的準確率,對于判別良、惡性胸腔積液有著十分重要的價值。
通過對比多腫瘤標志物與單一腫瘤標志物的診斷模型的AUC可知,基于支持向量機方法的多腫瘤標志物聯(lián)合診斷模型比單一腫瘤標志物的診斷最優(yōu)模型的AUC值提高了1.55%;基于隨機森林的多腫瘤標志物聯(lián)合診斷模型比單一腫瘤標志物最優(yōu)模型的AUC值提高了5.1%;使用logistic回歸方法的多腫瘤標志物聯(lián)合診斷模型比單一腫瘤標志物的最優(yōu)診斷模型AUC值提高5.76%。由此可知,多腫瘤標志物的聯(lián)合診斷模型對于提高診斷的AUC有一定的幫助,這與當前研究的結論一致[7-10],但本研究的樣本量更大,且診斷模型方法更先進。本研究尚存在一些不足:本研究測定了臨床常見的四種腫瘤標志物,但其他與肺癌相關的腫瘤標志物如CYFRA21-1、NSE、ADA等亦有診斷價值[8-9],有待進一步研究;使用統(tǒng)計學習方法時,由于隨機森林和支持向量機方法自身的特點,雖然診斷的精度較好但是可解釋性不夠理想。
盡管多腫瘤標志物的聯(lián)合診斷能提高診斷精度,但是相比單一標記物診斷提高幅度有限(<6%)。在胸腔積液中,支持向量機方法使用單一標志物CEA診斷即可達到較高的診斷精度(AUC=0.9)。而支持向量機最佳聯(lián)合診斷(AUC=0.92)和logistic回歸模型最佳聯(lián)合診斷(AUC=0.91)法的優(yōu)勢不大,但卻需要檢測三種腫瘤標志物濃度,這既增加了醫(yī)院的醫(yī)療資源消耗,又增加了患者的經(jīng)濟負擔及疼痛不適感。綜合考慮患者就醫(yī)的經(jīng)濟負擔和就醫(yī)體驗等因素,在臨床實踐中,從效費比角度講本研究不推薦應用多腫瘤標志物聯(lián)合診斷法鑒別良惡性胸腔積液。