王 哲, 楊日東, 周 毅, 張學(xué)良, 王 凱
(1新疆醫(yī)科大學(xué)公共衛(wèi)生學(xué)院, 烏魯木齊 830011; 2中山大學(xué)中山醫(yī)學(xué)院, 廣州 510080;3新疆醫(yī)科大學(xué)醫(yī)學(xué)工程技術(shù)學(xué)院, 烏魯木齊 830011)
2010年以來中國癌癥的發(fā)病率和死亡率不斷上升,癌癥成為主要的死亡原因,也是我國主要的公共衛(wèi)生問題之一[1]。乳腺癌(Breast Cancer)是乳腺組織中的細(xì)胞不正常分裂和增生的惡性腫瘤,是女性最常見的癌癥[2]。近年來,隨著乳腺癌的早期診斷和早期治療,患者的總體療效明顯提高。據(jù)估計,通過減少可改變風(fēng)險因素的暴露可以避免近60%的癌癥死亡[3]。因此,對乳腺癌預(yù)后狀態(tài)進(jìn)行預(yù)測,從而尋找有效的抑制途徑,是進(jìn)一步提高乳腺癌患者生存率的關(guān)鍵,具有重大的研究意義。
傳統(tǒng)的分類器是基于均勻的數(shù)據(jù)分布的基礎(chǔ)上,而乳腺腫瘤患者的生存數(shù)據(jù)是不平衡的。雖然乳腺癌是女性癌癥死亡的第二大原因,但其存活率較高。早期診斷中,97%的女性存活5年以上[4],所以數(shù)據(jù)是不平衡的。不平衡數(shù)據(jù)具有數(shù)據(jù)稀缺、噪聲、決策面偏移、評測指標(biāo)等傳統(tǒng)分類器難以解決的問題[5]。必然會導(dǎo)致多數(shù)類精度高而少數(shù)類精度不高的問題,然而在乳腺腫瘤的預(yù)后預(yù)測分析研究中,少數(shù)類(死亡患者)的信息對臨床醫(yī)生的研究更有價值,通過少數(shù)類發(fā)現(xiàn)危險因素可更好地提高生存率。因此,提高少數(shù)類的分類精度,對于乳腺腫瘤不平衡數(shù)據(jù)的研究是十分重要的,本研究結(jié)合過采樣技術(shù)(SMOTE、Borderline-SMOTE和ADASYN)或欠采樣技術(shù)(One-Sided Select)對乳腺癌患者的生存預(yù)后進(jìn)行預(yù)測,現(xiàn)報道如下。
1.1資料來源本研究所用數(shù)據(jù)來源于廣州市某三甲醫(yī)院的乳腺癌患者預(yù)后數(shù)據(jù),隨訪了1 845名乳腺癌患者,均為女性。
1.2研究方法采樣技術(shù)是解決類不平衡的方法之一,它通過對數(shù)據(jù)樣本的預(yù)處理,從而達(dá)到數(shù)據(jù)平衡的效果。本研究將改進(jìn)提升樹與結(jié)合了過采樣技術(shù)(SMOTE、Borderline-SMOTE和ADASYN)或欠采樣技術(shù)(One-Sided Select)對乳腺癌患者的生存預(yù)后數(shù)據(jù)進(jìn)行預(yù)處理。經(jīng)典決策樹(classical decision tree)、條件決策樹(conditional inference tree)、隨機森林(random forest)[6]、支持向量機(support vector machine,SVM)分類算法構(gòu)造分類器,從而對乳腺腫瘤預(yù)后狀況進(jìn)行預(yù)測。
1.3分類器性能比較在一個二分類的混淆矩陣中,實際為正類也被預(yù)測為正類的樣本稱為正確正類TP(true positive),實際為正類被預(yù)測為反類稱為錯誤反類FN(false negative),實際為反類被預(yù)測為正類的稱為錯誤正類FP(false positive),實際為反類被預(yù)測為反類的稱為正確反類TN(true negative)。表1為二分類分類器中常用的混淆矩陣,將大樣本類別稱為負(fù)類,小樣本類為正類。
表1 混淆矩陣
準(zhǔn)確率(accuracy)是最常用的選擇預(yù)測效果的統(tǒng)計量,即分類器能否總能正確劃分樣本。盡管準(zhǔn)確率承載的信息很大,這一個指標(biāo)仍然不能選出最準(zhǔn)確的模型,尤其是針對類不平衡數(shù)據(jù),我們還需要其他信息來評估不同分類方法的有效性。敏感度(sensitivity)、特異性(specificity)、正例命中率(positive predictive power)、負(fù)例命中率(negative predictive power)也被用來評價分類器的分類效果,具體含義見表2。
表2 預(yù)測準(zhǔn)確性度量
根據(jù)表1中的內(nèi)容,具體計算方式如下:
(1)
(2)
(3)
(4)
1.4數(shù)據(jù)處理Python實現(xiàn)采樣技術(shù)的算法;使用R語言3.5.0,通過rpart包構(gòu)造經(jīng)典決策樹模型和條件決策樹模型,randomForest包可用于生成隨機森林,通過e1071包構(gòu)造支持向量機模型。
2.1模型的建立實驗使用有監(jiān)督機器學(xué)習(xí)領(lǐng)域中的方法對乳腺腫瘤的生存狀態(tài)進(jìn)行分類研究。將全部數(shù)據(jù)分為一個訓(xùn)練集和一個測試集,使用訓(xùn)練集建立預(yù)測模型,測試集用于測試模型的準(zhǔn)確性。隨機分出70%作為訓(xùn)練集,測試集包含樣本單元的30%。數(shù)據(jù)包含年齡、腫瘤大小、婚姻狀態(tài)、臨床分期、病理分級、T-stage、雌激素受體、孕激素受體等15個特征,特征描述見表3、4。
表3 分類型自變量
表4 數(shù)值型自變量
2.2訓(xùn)練集不平衡數(shù)據(jù)的分布情況在1 845例數(shù)據(jù)中,存活患者1 668例,未存活患者176例。用SMOTE、Borderline-SMOTE、ADASYN、One-Sided Select算法對乳腺腫瘤數(shù)據(jù)集進(jìn)行預(yù)處理,使得預(yù)測變量乳腺腫瘤的生存狀態(tài)成為平衡數(shù)據(jù)。數(shù)據(jù)在各種預(yù)處理后的多數(shù)類、少數(shù)類及不平衡比分布情況見表5。
表5 訓(xùn)練集不平衡數(shù)據(jù)的分布情況
2.3不同采樣方法機器學(xué)習(xí)分類性能的比較在使用經(jīng)典決策樹、條件決策樹、隨機森林和支持向量機4種機器學(xué)習(xí)方法進(jìn)行預(yù)測時,未經(jīng)采樣技術(shù)處理的原始數(shù)據(jù)集在預(yù)測準(zhǔn)確率上均表現(xiàn)良好,其中支持向量機準(zhǔn)確率最高,達(dá)到了90.42%,條件決策樹的準(zhǔn)確率為90.05%,經(jīng)典決策樹為89.53%,隨機森林為89.51%。在預(yù)測準(zhǔn)確率最高的支持向量機算法中,針對敏感度的預(yù)測僅為0,條件決策樹和隨機森林僅為2%和4%,經(jīng)典決策樹在未經(jīng)處理的數(shù)據(jù)集預(yù)測敏感度上表現(xiàn)最好,為11%。結(jié)合采樣技術(shù)對敏感度進(jìn)行預(yù)測發(fā)現(xiàn),條件決策樹的預(yù)測效果最好,為58%,相較于原始數(shù)據(jù)集,采用同一種機器學(xué)習(xí)算法比較后發(fā)現(xiàn),敏感度提升了56%。支持向量機結(jié)合SMOTE技術(shù)將敏感度由0提高到了43%。經(jīng)典決策樹結(jié)合One-Sided Select技術(shù)將敏感度提高了36%,隨機森林結(jié)合One-Sided Select技術(shù)將敏感度提高了32%。因此,在使用采樣技術(shù)針對數(shù)據(jù)進(jìn)行預(yù)處理之后,預(yù)后預(yù)測的敏感度均得到提升。比較預(yù)測的特異性發(fā)現(xiàn),原始數(shù)據(jù)集的特異性相較于經(jīng)過采樣技術(shù)處理后的特異性,支持向量機的特異性最高,為100%,其次是條件決策樹和隨機森林,均為99%,經(jīng)典決策樹為98%。觀察正例命中率發(fā)現(xiàn),總體的正例命中率偏低,針對不同的機器學(xué)習(xí)算法,采用不同的算法獲得的效果不同。其中,采用One-Sided Select結(jié)合支持向量機算法的正例命中率最高,為40%。各預(yù)測方法結(jié)合各采樣技術(shù)的負(fù)例命中率整體較高,采用One-Sided Select結(jié)合條件決策樹的負(fù)例命中率最高,為95%,具體見表6。
表6 不同采樣方法機器學(xué)習(xí)分類性能比較/%
傳統(tǒng)的乳腺癌預(yù)后研究是基于統(tǒng)計學(xué)的方法尋找影響因素,而利用機器學(xué)習(xí)算法,根據(jù)影響因素構(gòu)建分類器的研究較少。傳統(tǒng)機器學(xué)習(xí)算法也沒有考慮數(shù)據(jù)集的類不平衡問題,鑒于此,本文選用SMOTE、Borderline-SMOTE、ADASYN、One-Sided Select共4種方法處理類不平衡數(shù)據(jù),并通過經(jīng)典決策樹、條件決策樹、隨機森林、支持向量機共4種機器學(xué)習(xí)模型進(jìn)行分類結(jié)果預(yù)測。結(jié)果顯示,支持向量機預(yù)測準(zhǔn)確率最高,達(dá)90.42%。使用欠采樣方法One-Sided Select技術(shù),結(jié)合條件決策樹預(yù)測,在不平衡的乳腺腫瘤數(shù)據(jù)集中預(yù)后預(yù)測效果最好,將敏感度由2%提高到58%,提高了56%。支持向量機在預(yù)測未經(jīng)處理的數(shù)據(jù)集時特異性最高,為100%。采用One-Sided Select結(jié)合支持向量機算法的正例命中率最高,為40%。采用One-Sided Select結(jié)合條件決策樹的負(fù)例命中率最高,為95%。因此,可根據(jù)不同臨床需求,選擇最適合的采樣技術(shù)結(jié)合預(yù)測方法來預(yù)測結(jié)果。同時也說明目前收集數(shù)據(jù)樣本數(shù)量雖大但代表性差,因此可以對數(shù)據(jù)集進(jìn)一步做特征分析,從而選出同臨床理論相符合的具有高代表性的特征變量。臨床醫(yī)師更加關(guān)注的是造成患者死亡的危險因素,針對類不平衡數(shù)據(jù)的過采樣和欠采樣方法在分類性能上有一定的提高,尤其能大大提高靈敏度,但準(zhǔn)確率下降,因此在后續(xù)針對不平衡數(shù)據(jù)的處理問題研究中,我們將考慮通過欠采樣與過采樣結(jié)合,進(jìn)一步研究能否提高模型性能。