李 翔 ,李姝婷 ,陳 容 ,駱仕俐 ,張 溪 ,李遠盛 ,許望東,張俊輝
西南醫(yī)科大學:1.公共衛(wèi)生學院;2.科技處(瀘州 646000)
前列腺癌(prostate cancer)是指發(fā)生在前列腺的上皮性惡性腫瘤,是最常見的男性泌尿生殖系統(tǒng)惡性腫瘤之一,占男性惡性腫瘤病死率的第2位[1-2]。據(jù)《全球癌癥統(tǒng)計報告》數(shù)據(jù)顯示[3]2020 年中國前列腺癌標化發(fā)病率為10.2/10萬,標化死亡率為4.6/10萬。目前,中國前列腺癌的總體發(fā)病率和死亡率低于世界水平,但前列腺癌的發(fā)病率和死亡率仍在不斷升高[4],癌癥順位前移,其疾病負擔有向年輕人群轉移的趨勢[5]。前列腺癌患者在發(fā)病早期往往缺乏典型的臨床表現(xiàn)。早期診斷指標主要是前列腺特異性抗原(prostate special antigen,PSA),該指標具有器官特異性而非腫瘤特異性,在前列腺增生、前列腺炎和其他前列腺良性疾病中都可能會升高[6],導致前列腺癌過度診斷和過度治療的風險很高[7]。因此,本研究首先采用單因素Logistic 回歸初步篩選了前列腺癌的預測因子,并據(jù)此建立了Logistic 回歸、Lagrangian 支持向量機(Lagrangian Support Vector Machine,LSVM)和隨機森林模型三種前列腺癌早期診斷預測模型,再采用ROC 曲線對其預測效能進行比較,以探討三種模型在前列腺癌早期診斷中的應用價值,為前列腺癌早期診斷提供理論支持。
數(shù)據(jù)來源于臨床醫(yī)學科學數(shù)據(jù)中心(301 醫(yī)院)的《前列腺腫瘤預警數(shù)據(jù)集》[8]。數(shù)據(jù)集包含基本信息表、診斷表、檢查信息表、病理信息表、PSA信息表、生化檢查表、導尿信息表、血常規(guī)信息表、放療信息表、手術情況表、性腺激素表、藥物信息表、膀胱鏡信息表等。包括患者編號、檢查結果標簽、年齡、身高、體重、骨鈣素、載脂蛋白A2、快速微量尿白蛋白/肌酐測定、磷脂、血清血白蛋白、α1 球蛋白、α2 球蛋白、β1 球蛋白、β2 球蛋白、γ 球蛋白、游離PSA、總PSA、鈉、腦利鈉肽前體、尿鈉、鈣、尿鈣等共46項信息。
將該數(shù)據(jù)中前列腺癌預測的結果變量重新定義為有無前列腺癌(1=有,0=無)。把前列腺增生、前列腺癌、同時有前列腺增生和前列腺癌三類重新賦值為兩類,其中前列腺增生歸為無前列腺癌(0=無),前列腺癌和同時有前列腺癌和前列腺增生歸為有前列腺癌(1=有)。由于原始數(shù)據(jù)中含有文字的數(shù)據(jù)不能導入SPSS 25.0,會導致數(shù)據(jù)的缺失,因此將數(shù)據(jù)中含有的文字刪除,再對數(shù)據(jù)進行核實補充。將每個變量由小到大排序,根據(jù)邏輯關系判斷各變量的極大值和極小值是否為異常值,結果發(fā)現(xiàn)有個別異常值存在。由于存在少量數(shù)據(jù)缺失和個別異常值,快速微量尿白蛋白/肌酐測定、骨鈣素、腦利鈉肽前體、α1球蛋白、α2球蛋白、β1球蛋白、β2球蛋白、γ球蛋白、尿酸、尿鈉、尿鈣、尿氯化物、尿磷、尿肌酐、肌鈣蛋白T等19項變量被去除,剩余25 項變量。對信息清洗整理后分析得到數(shù)據(jù)庫共有2 987例個案,其中前列腺癌個案222例,占7.4%;無前列腺癌個案2 765 例,占92.6%??紤]到樣本含量較大,數(shù)據(jù)有少量缺失對模型比較結果影響有限,因此本文未作數(shù)據(jù)填補。
本文研究對象的納入標準為:①各項指標齊全;②診斷信息明確。排除標準為:①重復個案;②變量缺失過多。根據(jù)上訴納入排除標準刪除個案324 例,最終確定2 663 例研究對象,其中患前列腺癌個案數(shù)220例,對照組為未患前列腺癌個案數(shù)2 443例。
變量賦值參考《前列腺癌篩查專家共識》[9]和《中國成人血脂異常防治指南》[10]。
將整理好的2 663例研究對象按7:3的比例隨機劃分為訓練集和測試集,其中用來訓練模型的訓練集一共1 864例,用來測試模型的測試集一共799例。
采用SPSS 25.0 及SPSS Modeler client 進行數(shù)據(jù)整理及分析,基于訓練集數(shù)據(jù)采用單因素Logistic 回歸篩選前列腺癌的關聯(lián)因素,并據(jù)此建立多因素Logistic 回歸分析、LSVM模型和隨機森林模型三個前列腺癌早期診斷預測模型,用驗證集數(shù)據(jù)驗證三個模型的預測準確性并用ROC 曲線下面積(area under curve,AUC)對三種模型的預測性能進行比較[11]。
1.5.1 LSVM 模型介紹 支持向量機(SVM)是一類有監(jiān)督學習的廣義線性分類器,是由VAPNIK 等提出的一種機器學習算法,能較好地解決小樣本、高維數(shù)、非線性和局部極小點等實際問題[12]。SVM包括Proximal支持向量機(簡稱PSVM)和LSVM等,LSVM的精度優(yōu)于其他模型,其分類效果在臨床實踐中也得到了廣泛驗證。
1.5.2 隨機森林模型 隨機森林算法是一種包含多個決策樹的集成學習方法,以決策樹為基學習器,運用Bagging 的方法進行集成,能顯著提高基學習器的性能,具有算法精度高、能處理大規(guī)模數(shù)據(jù)和減少過擬合等優(yōu)點,在特征選擇和高維數(shù)據(jù)分析等領域已得到許多關注[13]。
將訓練集中的變量逐個納入單因素Logistic 回歸模型,結果顯示血清白蛋白、乳酸脫氫酶、堿性磷酸酶、鈉、肌酸激酶等無統(tǒng)計學意義(P>0.05)。年齡、磷脂、游離PSA、總PSA、鈣、血清尿酸、載脂蛋白A1、載脂蛋白B、載脂蛋白C3 等指標有統(tǒng)計學意義(P <0.05),可以作為預測模型的備選指標進一步分析,見表1。
2.2.1 多因素非條件Logistic 回歸分析 有序多分類的似然比結果見表2,可見載脂蛋白C3 的有序多分類變量似然比結果差異無統(tǒng)計學意義(P>0.05),應以分組線性變量形式納入模型,其余變量以啞變量形式納入模型,自變量賦值表見表1。將訓練集中單因素分析后有統(tǒng)計學意義的變量納入多因素非條件Logistic 回歸經逐步向后回歸(納入標準為P <0.05,排除標準為P>0.1)篩除變量后,篩選出的主要影響因素為:年齡、肌酸激酶同工酶、游離PSA、總PSA,各影響因素P值及OR值見表3。
2.2.2 LSVM模型 利用訓練集中單因素Logistic 回歸篩選出的有統(tǒng)計學意義的變量建立LSVM 模型。結果顯示,總PSA、年齡、載脂蛋白A1、磷脂、載脂蛋白B、甘油三酯、血清尿酸、游離PSA、肌酸激酶同工酶、載脂蛋白E為主要的影響因素。變量重要性排序見圖1。
圖1 LSVM模型預測變量重要性排序Figure 1 Importance diagram of LSVM predictive variables
2.2.3 隨機森林模型 利用訓練集中單因素Logistic 回歸篩選出的有統(tǒng)計學意義的變量建立隨機森林模型。結果顯示,以變量重要性為順序包括:載脂蛋白C3、磷脂、游離PSA、載脂蛋白B、載脂蛋白E、鈣、血清尿酸、載脂蛋白A1、載脂蛋白C2、肌酸激酶同工酶。變量重要性排序如圖2。
圖2 隨機森林模型預測變量重要性排序Figure 2 Importance of variables predicted by random forest plot
將建立好的三種模型用于測試集中做預測,結果顯示,多因素非條件Logistic回歸、LSVM 和隨機森林的ROC曲線下面積(AUC)分別為:0.895(0.876,0.913)、0.918(0.902,0.934)、0.724(0.688,0.760),詳見表4。LSVM 模型預測效果最好(AUC >0.9),而Logistic 回歸模型和隨機森林模型的AUC 在0.7~0.9 之間,擬合效果雖不如LSVM但效果仍可接受。預測結果的ROC曲線見圖3。
圖3 三種模型的ROC曲線比較Figure 3 Comparison of ROC curves of the three models
表4 三種模型的ROC曲線下面積(AUC)比較Table 4 Comparison of area under ROC curve(AUC)among the three models
本研究采用單因素Logistic 回歸初步篩選了前列腺癌的預測因子,并據(jù)此建立了Logistic回歸、LSVM和隨機森林三種前列腺癌早期診斷預測模型。其中,LSVM模型的AUC最高,提示如果用LSVM來建立前列腺癌早期診斷預測模型準確性可能會更高。三種模型篩選出的變量不全相同,隨機森林預測效果欠佳,因此可將Logistic回歸模型和LSVM兩種方法的結果相互印證補充,結合專業(yè)知識確定前列腺癌的重要預測因子。Logistic回歸模型和LSVM模型共同篩選出的預測因子為總PSA、游離PSA、年齡、肌酸激酶同工酶,這四個變量可作為前列腺癌的預測因子也在相關研究中得到過驗證[14]。
PSA和年齡是公認的前列腺癌預測模型的重要預測因子,我們的研究也顯示,PSA和年齡可能是預測模型最重要的兩個預測因子。1994 年以來,PSA 廣泛應用于前列腺癌的早期診斷、篩查、預后隨訪等方面,也是美國食品和藥物管理局(FDA)批準的第一個腫瘤生物標志物[15-17]。年齡增大是前列腺癌最重要的不可控因素,隨著年齡的增加,患前列腺癌的可能性也隨之增加,年齡升高也常常伴隨前列腺癌病理Gleason評分以及臨床分期的明顯升高[18-19]。因此老年人應作為前列腺癌的重點關注人群,在診斷時提高警惕。
本研究結果提示肌酸激酶同工酶CK-MB 是前列腺癌的重要預測因子。丁慧等[20]研究發(fā)現(xiàn),前列腺癌患者CK 和CK-MB 含量較正常組均顯著升高,其原因可能是由于人體免疫系統(tǒng)對于腫瘤組織和細胞的攻擊從而導致其破裂釋放出一定CK 及CK-MB 含量,因此一部分惡性腫瘤患者會出現(xiàn)血清CK及CK-MB含量升高的體征。
本研究也發(fā)現(xiàn)了一些具有爭議性的預測因子,如載脂蛋白E、載脂蛋白C2、載脂蛋白C3 等。在既往的研究中,LIU 等[21]認為E4 基因及其等位基因與前列腺癌的發(fā)病和預后無關,但FARUK 等[22]的一項研究表明,載脂蛋白E影響前列腺癌發(fā)生和高Gleason 評分的出現(xiàn),其可能是一個區(qū)分前列腺癌的生物標志物,我們的研究也支持了這一觀點。
目前國外已有較多基于臨床數(shù)據(jù)建立的前列腺癌早期診斷預測模型,如目前最常使用的兩種風險預測模型為:前列腺癌預防試驗風險計算器(PCPT-RC)模型、歐洲前列腺癌風險計算器篩查隨機研究(ERSPCRC)模型;此外TOMLINS 等[23]基于Logistic 回歸模型,利用血清PSA、PSAD 以及PCA3 等預測因子建立了前列腺評分系統(tǒng)。國內關于前列腺癌早期診斷預測模型的研究較少,且這些模型并未納入如磷脂、載體蛋白等較易獲得的生化檢查指標;而目前已有研究[24]表明這些生化檢查指標可能能夠提高前列腺癌早期診斷的特異度和靈敏度。因此本研究在常規(guī)前列腺癌診斷預測因子的基礎上,加入了這些容易獲得的生化檢測指標作為備選預測因子。研究結果顯示,納入了生化檢查指標的LSVM模型與LEE等[25]建立的SVM前列腺癌診斷模型相比,擁有更高的AUC值。
本研究的不足之處:首先,由于國家臨床醫(yī)學科學數(shù)據(jù)中心(301 醫(yī)院)提供的《前列腺癌數(shù)據(jù)集》有部分數(shù)據(jù)缺失,可能會對結果有一定的影響。另外,我們建立的前列腺癌預測模型只利用了測試集進行內部數(shù)據(jù)驗證,是否可以外推至其他數(shù)據(jù)集還有待進一步驗證。
本研究利用國家臨床醫(yī)學科學數(shù)據(jù)中心(301 醫(yī)院)的《前列腺腫瘤數(shù)據(jù)集》,篩選出年齡、PSA、肌酸激酶同工酶等前列腺癌早期診斷預測因子,并在此基礎上構建了基于PSA 聯(lián)合指標的多因素Logistic 回歸模型、隨機森林模型和LSVM 前列腺癌早期診斷預測模型。研究結果顯示,LSVM 模型預測效果最好,多因素Logistic 回歸模型預測效果尚可,隨機森林模型的預測效果不佳。