李虎生, 呂 釗, 馮 翠, 賓燕成, 廖家蓓, 葉光劍, 張 華
(廣西壯族自治區(qū)玉林市紅十字會醫(yī)院 血液內科, 廣西 玉林, 537000)
彌漫大B細胞淋巴瘤(DLBCL)是最常見的淋巴系統惡性腫瘤,占淋巴瘤的30%~40%[1]。利妥昔單抗+環(huán)磷酰胺+長春新堿+多柔比星+潑尼松(R-CHOP)是目前DLBCL的一線治療方案,可治愈60%的DLBCL患者[2]。然而, 8.1%~28.46%的DLBCL患者接受R-CHOP治療后出現間質性肺炎(IP), 對預后產生不良影響[3-4]。利妥昔單抗治療后DLBCL患者并發(fā)IP既受藥物因素影響[5], 又與患者年齡、性別、疾病分期、高血壓病史、糖尿病病史、吸煙史等有著密切關系[6-7], 多數高風險患者同時存在多種危險因素,若單獨考慮某因素對IP的影響則不利于醫(yī)生的臨床決策。在R-CHOP治療前預測DLBCL患者發(fā)生IP的風險,可幫助臨床醫(yī)生針對性地調整治療方案或提前干預,從而降低并發(fā)癥的發(fā)生率。Logistic回歸模型是預測常用的模型,但對數據不平衡的處理存在一定局限性,很難擬合數據的真實分布情況[8]。梯度提升機(GBM)算法是機器學習的一種常用工具,該算法由大量弱分類器集合而成,在醫(yī)學數據分析中具有更高的可解釋性[8-9]。本研究基于GBM算法構建預測模型,評估R-CHOP治療后DLBCL患者并發(fā)IP的影響因素,以便臨床醫(yī)生識別和判斷高風險人群,現報告如下。
收集2019年1月—2022年4月本院血液科診治的DLBCL患者的資料。納入標準: ① 在本院接受全程治療的DLBCL患者; ② 治療方案為R-CHOP者; ③ 化療前胸部CT檢查顯示無IP表現者; ④ 未發(fā)生IP患者均接受至少4個周期治療。排除標準: ① 合并其他惡性腫瘤,既往接受過化療或放療等抗腫瘤治療者; ② 化療過程新發(fā)感染性肺部疾病者; ③ 有嚴重精神疾病者; ④ 臨床資料不全者。本研究共納入220例DLBCL患者,通過計算機采用隨機數字表法將患者按7∶3比例分為訓練集154例和測試集66例。訓練集用于構建GBM模型,測試集用于驗證模型效能。本研究經醫(yī)院倫理委員會審核批準。
1.2.1 IP診斷標準: 依據患者的胸部CT檢查結果和臨床癥狀進行診斷,即胸部CT影像顯示雙肺彌漫陰影、毛玻璃狀影、絮狀或斑片狀影、蜂窩狀及網格狀影等,臨床癥狀表現為發(fā)熱、干咳、氣急、胸悶等。
1.2.2 資料收集: 查閱醫(yī)院電子病歷檔案,收集患者年齡、性別、疾病分期、B癥狀、肺部感染史、國際預后指數(IPI)評分、高血壓病史、糖尿病病史、吸煙史等資料。研究[10-11]表明IP發(fā)病時間多為利妥昔單抗治療的第3~4周期,故本研究在發(fā)生IP時或第4個治療周期前采集患者靜脈血檢測乳酸脫氫酶(LDH)和β2微球蛋白(β2-MG)水平。
1.2.3 GBM模型構建與驗證: 構建模型納入的變量包括年齡、性別、疾病分期、B癥狀、肺部感染史、IPI評分、高血壓病史、糖尿病病史、吸煙史、LDH和β2-MG。通過R包“gbm”, 采用10折(cv. Folds=10)交叉驗證測試模型準確性?;谟柧毤⒛P筒⒋_定最優(yōu)超參數,模型參數為shrinkage=0.01, n. trees=651, interaction. depth=1, n. minobsinnode=10, bag. fraction=0.5。模型構建與驗證通過R包“gbm”“rms”“caret”完成。
采用SPSS 24.0統計學軟件分析數據,年齡、性別、疾病分期等計數資料以[n(%)]表示,比較采用χ2檢驗。通過R 4.1.2軟件和RStudio軟件構建模型,采用受試者工作特征(ROC)曲線評價模型區(qū)分度,采用校準曲線表示模型的擬合情況,比較GBM模型與Logistic回歸模型的預測效能。P<0.05為差異有統計學意義。
220例DLBCL患者中,男133例,女87例; 年齡41~75歲,平均(58.82±8.02)歲; Ann Arbor分期為Ⅰ~Ⅱ期149例, Ⅲ~Ⅳ期71例; 51例患者發(fā)生IP, 169例患者未發(fā)生IP, IP發(fā)生率為23.18%。訓練集與測試集患者在年齡、性別、疾病分期、B癥狀、肺部感染史、IPI評分、高血壓病史、糖尿病病史、吸煙史、LDH和β2-MG方面比較,差異均無統計學意義(P>0.05), 見表1。
表1 訓練集與測試集患者的臨床特征比較[n(%)]
以訓練集154例患者為樣本進行χ2檢驗,將P<0.05的臨床特征納入GBM模型。經過篩選,年齡(χ2=21.437,P<0.001)、疾病分期(χ2=27.090,P<0.001)、IPI評分(χ2=12.810,P<0.001)、LDH(χ2=14.321,P<0.001)、吸煙史(χ2=19.352,P<0.001)這5項臨床特征被納入GBM模型進行分析。通過GBM算法獲得各項臨床特征的相對重要性,從高到低依次為年齡、疾病分期、LDH、IPI評分、吸煙史,見圖1。為了進一步驗證GBM模型的預測效能,分別繪制訓練集和測試集的ROC曲線, GBM模型在訓練集和測試集中均有較高的預測準確性,曲線下面積(AUC)分別為0.872(95%CI: 0.800~0.945)、0.891(95%CI: 0.755~1.000), 最佳截斷值分別為0.414、0.523, 特異度分別為0.923、1.000, 靈敏度分別為0.703、0.786, 見圖2。校準曲線顯示, GBM模型在訓練集和測試集中的預測概率均與實際IP發(fā)生率具有較好的一致性,見圖3。
圖1 各變量在GBM模型中的相對重要性
A: 訓練集中GBM模型的ROC曲線; B: 測試集中GBM模型的ROC曲線。
A: 訓練集GBM模型的校準曲線; B: 測試集GBM模型的校準曲線。
GBM模型、Logistic回歸模型的預測效能主要采用AUC、Kappa、準確度、靈敏度和特異度這5個指標進行衡量。GBM模型預測利DLBCL患者并發(fā)IP的AUC與Logistic回歸模型接近(分別為0.873、0.871),Kappa、準確度和特異度高于Logistic回歸模型,靈敏度略低于Logistic回歸模型,見表2。Logistic回歸Hosmer-Lemeshow擬合優(yōu)度檢驗結果顯示,χ2=20.257,P<0.05, 表明Logistic回歸模型的預測值與真實值之間存在顯著差異,模型擬合度較差。
表2 GBM模型與Logistic回歸模型的預測效能比較
精確預測DLBCL患者是否發(fā)生IP對后續(xù)治療決策具有重要意義,故本研究構建GBM模型對DLBCL患者并發(fā)IP情況進行預測。該GBM模型強調各指標的相對重要性,提示年齡、疾病分期、IPI評分、吸煙史、LDH可準確預測DLBCL患者的IP發(fā)生概率,且模型具有良好的區(qū)分度、校準度和準確度。
盡管已有諸多學者通過分子生物學技術發(fā)現具有更高預測價值的分子標記物,用以改善腫瘤患者并發(fā)癥的評估和干預措施,但由于檢測價格昂貴且缺乏統一檢測標準,尚無法廣泛應用于臨床。因此,結合現有臨床數據構建一個可提高預測準確性的模型,可為臨床腫瘤的個體化治療提供參考依據。GBM模型由大量弱分類器集合而成,且用不同的權重將分類器進行組合,可降低損失,避免因樣本分布不平衡對模型造成影響[12]。本研究樣本分布不平衡,相較于Logistic回歸模型, GBM模型可以較好地處理這一問題。本研究中, GBM模型由年齡、疾病分期、LDH、IPI評分、吸煙史組成,具有較高的準確性、可靠性和臨床實用性。此外, GBM模型強調各指標的相對重要性,可為臨床決策提供豐富信息。劉海鈺等[13]通過梯度提升樹模型預測肝癌早期復發(fā)風險,得出復發(fā)的最優(yōu)閾值為12個月。范燁等[9]比較了GBM模型和肝內膽管癌分期系統的預測效能,發(fā)現前者能夠更好地識別出手術預后良好的肝內膽管癌患者。本研究比較了Logistic回歸模型與GBM模型的預測效能,發(fā)現GBM模型優(yōu)于Logistic回歸模型。Logistic回歸插入到sigmoid函數中的函數是線性的,而GBM算法是非線性的[14]。Logistic回歸以線性回歸為支持理論,在Logistic回歸中, sigmoid函數只能假設輸入變量空間中的線性超平面,而在GBM模型中,該函數可以假設非線性超平面來進行分類[15],這大大提高了模型的準確度,避免了線性超平面導致的過度擬合。
以利妥昔單抗為基礎的免疫治療聯合CHOP方案治療DLBCL, 可提高疾病緩解率,改善患者生存質量。然而,利妥昔單抗引發(fā)IP的概率高,嚴重者甚至面臨死亡風險[3, 16]。LI C等[6]報道R-CHOP方案治療后DLBCL患者IP發(fā)生率為8.16%, 潘娟等[3]報道R-CHOP方案治療后IP發(fā)生率為23.4%。本研究結果顯示, R-CHOP方案治療后DLBCL患者的IP發(fā)生率為23.18%, 與既往研究[3]結果相近。除藥物因素以外,年齡≥60歲、IPI評分高、LDH異常等亦可增加IP的發(fā)生風險。劉澍等[4]發(fā)現,年齡≥60歲淋巴瘤患者肺炎發(fā)生風險增加了1.79倍,與本研究結果類似。高齡患者發(fā)生IP與其器官退化、新陳代謝速度緩慢、耐受力低等有關,加之高齡患者長期臥床,大多采用半臥位飲食法,極易引起腸道微生態(tài)失調,導致呼吸道和口腔異常分泌物增加,引發(fā)誤吸、嗆咳,進而增加IP發(fā)生風險[17]。研究[17]表明,伊布替尼聯合利妥昔單抗治療DLBCL相關IP發(fā)生的影響因素包括吸煙史、肺部感染史、LDH水平、肺實質侵犯。本研究結果也提示,吸煙史、肺部感染史、LDH水平與DLBCL患者發(fā)生IP有關。Ann Arbor分期系統將DLBCL分為Ⅰ~Ⅳ期,分期越高表示患者病情越嚴重,免疫功能越差,其中Ⅲ~Ⅳ期患者的治療周期更長,導致藥物毒副作用更明顯,IP發(fā)生率更高[18]。IPI評分是淋巴瘤通用的臨床評分系統,評價指標包括年齡、疾病分期、LDH是否異常、淋巴結外受侵部位數目,可反映患者的預后效果[19]。IPI評分越高,提示患者預后越差,并發(fā)癥發(fā)生率越高[20-21]。吸煙可引發(fā)多種形式的肺損傷,可能是IP發(fā)生風險增加的影響因素[22-23]。血清LDH是糖無氧酵解及糖異生的重要酶系之一,其水平反映了DLBCL的發(fā)展程度,通??捎米鱀LBCL的診斷和預后指標[24]。與健康人相比, DLBCL患者的LDH水平顯著升高,是預后不良的獨立危險因素[25-26]。楊英等[24]發(fā)現, DLBCL患者不良預后的危險因素為LDH>245 U/L。本研究結果顯示, LDH≥255 U/L是DLBCL患者發(fā)生IP的危險因素,與既往研究[24-27]結果相近。何晶等[11]指出,在DLBCL患者利妥昔單抗治療的第3~4周期時,臨床醫(yī)師需加強對IPI評分中高危、LDH水平升高患者的監(jiān)測和預防措施。
本研究存在一定局限性,例如僅對本院患者臨床數據進行回顧性分析,樣本量較小,可能存在一定的樣本偏倚,還需進一步開展大樣本、多中心的研究進行驗證,以獲得更全面的臨床信息和更高的應用價值。此外,本研究僅通過GBM這一種機器學習算法進行預測,未來還應通過其他機器學習算法(例如人工神經網絡和支持向量機)進行預測分析。
綜上所述, R-CHOP方案治療后DLBCL患者的IP發(fā)生率為23.18%, 主要與年齡、疾病分期、IPI評分、吸煙史、LDH水平有關,基于這些因素構建的GBM模型具有較高的準確度和區(qū)分度,可為DLBCL患者的臨床治療決策提供參考依據。