基于不平衡分類的乳腺腫瘤預(yù)后預(yù)測方法的研究

2019-04-18 06:49:46楊日東張學(xué)良

新疆醫(yī)科大學(xué)學(xué)報 2019年4期

王哲, 楊日東, 周毅, 張學(xué)良, 王凱

(1新疆醫(yī)科大學(xué)公共衛(wèi)生學(xué)院，烏魯木齊 830011； 2中山大學(xué)中山醫(yī)學(xué)院，廣州 510080；3新疆醫(yī)科大學(xué)醫(yī)學(xué)工程技術(shù)學(xué)院，烏魯木齊 830011)

2010年以來中國癌癥的發(fā)病率和死亡率不斷上升，癌癥成為主要的死亡原因，也是我國主要的公共衛(wèi)生問題之一[1]。乳腺癌(Breast Cancer)是乳腺組織中的細(xì)胞不正常分裂和增生的惡性腫瘤，是女性最常見的癌癥[2]。近年來，隨著乳腺癌的早期診斷和早期治療，患者的總體療效明顯提高。據(jù)估計，通過減少可改變風(fēng)險因素的暴露可以避免近60%的癌癥死亡[3]。因此，對乳腺癌預(yù)后狀態(tài)進(jìn)行預(yù)測，從而尋找有效的抑制途徑，是進(jìn)一步提高乳腺癌患者生存率的關(guān)鍵，具有重大的研究意義。

傳統(tǒng)的分類器是基于均勻的數(shù)據(jù)分布的基礎(chǔ)上，而乳腺腫瘤患者的生存數(shù)據(jù)是不平衡的。雖然乳腺癌是女性癌癥死亡的第二大原因，但其存活率較高。早期診斷中，97%的女性存活5年以上[4]，所以數(shù)據(jù)是不平衡的。不平衡數(shù)據(jù)具有數(shù)據(jù)稀缺、噪聲、決策面偏移、評測指標(biāo)等傳統(tǒng)分類器難以解決的問題[5]。必然會導(dǎo)致多數(shù)類精度高而少數(shù)類精度不高的問題，然而在乳腺腫瘤的預(yù)后預(yù)測分析研究中，少數(shù)類(死亡患者)的信息對臨床醫(yī)生的研究更有價值，通過少數(shù)類發(fā)現(xiàn)危險因素可更好地提高生存率。因此，提高少數(shù)類的分類精度，對于乳腺腫瘤不平衡數(shù)據(jù)的研究是十分重要的，本研究結(jié)合過采樣技術(shù)(SMOTE、Borderline-SMOTE和ADASYN)或欠采樣技術(shù)(One-Sided Select)對乳腺癌患者的生存預(yù)后進(jìn)行預(yù)測，現(xiàn)報道如下。

1 資料與方法

1.1資料來源本研究所用數(shù)據(jù)來源于廣州市某三甲醫(yī)院的乳腺癌患者預(yù)后數(shù)據(jù)，隨訪了1 845名乳腺癌患者，均為女性。

1.2研究方法采樣技術(shù)是解決類不平衡的方法之一，它通過對數(shù)據(jù)樣本的預(yù)處理，從而達(dá)到數(shù)據(jù)平衡的效果。本研究將改進(jìn)提升樹與結(jié)合了過采樣技術(shù)(SMOTE、Borderline-SMOTE和ADASYN)或欠采樣技術(shù)(One-Sided Select)對乳腺癌患者的生存預(yù)后數(shù)據(jù)進(jìn)行預(yù)處理。經(jīng)典決策樹(classical decision tree)、條件決策樹(conditional inference tree)、隨機森林(random forest)[6]、支持向量機(support vector machine，SVM)分類算法構(gòu)造分類器，從而對乳腺腫瘤預(yù)后狀況進(jìn)行預(yù)測。

1.3分類器性能比較在一個二分類的混淆矩陣中，實際為正類也被預(yù)測為正類的樣本稱為正確正類TP(true positive)，實際為正類被預(yù)測為反類稱為錯誤反類FN(false negative)，實際為反類被預(yù)測為正類的稱為錯誤正類FP(false positive)，實際為反類被預(yù)測為反類的稱為正確反類TN(true negative)。表1為二分類分類器中常用的混淆矩陣，將大樣本類別稱為負(fù)類，小樣本類為正類。

表1 混淆矩陣

準(zhǔn)確率(accuracy)是最常用的選擇預(yù)測效果的統(tǒng)計量，即分類器能否總能正確劃分樣本。盡管準(zhǔn)確率承載的信息很大，這一個指標(biāo)仍然不能選出最準(zhǔn)確的模型，尤其是針對類不平衡數(shù)據(jù)，我們還需要其他信息來評估不同分類方法的有效性。敏感度(sensitivity)、特異性(specificity)、正例命中率(positive predictive power)、負(fù)例命中率(negative predictive power)也被用來評價分類器的分類效果,具體含義見表2。

表2 預(yù)測準(zhǔn)確性度量

根據(jù)表1中的內(nèi)容，具體計算方式如下：

(1)

(2)

(3)

(4)

1.4數(shù)據(jù)處理Python實現(xiàn)采樣技術(shù)的算法；使用R語言3.5.0，通過rpart包構(gòu)造經(jīng)典決策樹模型和條件決策樹模型，randomForest包可用于生成隨機森林，通過e1071包構(gòu)造支持向量機模型。

2 結(jié)果

2.1模型的建立實驗使用有監(jiān)督機器學(xué)習(xí)領(lǐng)域中的方法對乳腺腫瘤的生存狀態(tài)進(jìn)行分類研究。將全部數(shù)據(jù)分為一個訓(xùn)練集和一個測試集，使用訓(xùn)練集建立預(yù)測模型，測試集用于測試模型的準(zhǔn)確性。隨機分出70%作為訓(xùn)練集，測試集包含樣本單元的30%。數(shù)據(jù)包含年齡、腫瘤大小、婚姻狀態(tài)、臨床分期、病理分級、T-stage、雌激素受體、孕激素受體等15個特征，特征描述見表3、4。

表3 分類型自變量

表4 數(shù)值型自變量

2.2訓(xùn)練集不平衡數(shù)據(jù)的分布情況在1 845例數(shù)據(jù)中，存活患者1 668例，未存活患者176例。用SMOTE、Borderline-SMOTE、ADASYN、One-Sided Select算法對乳腺腫瘤數(shù)據(jù)集進(jìn)行預(yù)處理，使得預(yù)測變量乳腺腫瘤的生存狀態(tài)成為平衡數(shù)據(jù)。數(shù)據(jù)在各種預(yù)處理后的多數(shù)類、少數(shù)類及不平衡比分布情況見表5。

表5 訓(xùn)練集不平衡數(shù)據(jù)的分布情況

2.3不同采樣方法機器學(xué)習(xí)分類性能的比較在使用經(jīng)典決策樹、條件決策樹、隨機森林和支持向量機4種機器學(xué)習(xí)方法進(jìn)行預(yù)測時，未經(jīng)采樣技術(shù)處理的原始數(shù)據(jù)集在預(yù)測準(zhǔn)確率上均表現(xiàn)良好，其中支持向量機準(zhǔn)確率最高，達(dá)到了90.42%，條件決策樹的準(zhǔn)確率為90.05%，經(jīng)典決策樹為89.53%，隨機森林為89.51%。在預(yù)測準(zhǔn)確率最高的支持向量機算法中，針對敏感度的預(yù)測僅為0，條件決策樹和隨機森林僅為2%和4%，經(jīng)典決策樹在未經(jīng)處理的數(shù)據(jù)集預(yù)測敏感度上表現(xiàn)最好，為11%。結(jié)合采樣技術(shù)對敏感度進(jìn)行預(yù)測發(fā)現(xiàn)，條件決策樹的預(yù)測效果最好，為58%，相較于原始數(shù)據(jù)集，采用同一種機器學(xué)習(xí)算法比較后發(fā)現(xiàn)，敏感度提升了56%。支持向量機結(jié)合SMOTE技術(shù)將敏感度由0提高到了43%。經(jīng)典決策樹結(jié)合One-Sided Select技術(shù)將敏感度提高了36%，隨機森林結(jié)合One-Sided Select技術(shù)將敏感度提高了32%。因此，在使用采樣技術(shù)針對數(shù)據(jù)進(jìn)行預(yù)處理之后，預(yù)后預(yù)測的敏感度均得到提升。比較預(yù)測的特異性發(fā)現(xiàn)，原始數(shù)據(jù)集的特異性相較于經(jīng)過采樣技術(shù)處理后的特異性，支持向量機的特異性最高，為100%，其次是條件決策樹和隨機森林，均為99%，經(jīng)典決策樹為98%。觀察正例命中率發(fā)現(xiàn)，總體的正例命中率偏低，針對不同的機器學(xué)習(xí)算法，采用不同的算法獲得的效果不同。其中，采用One-Sided Select結(jié)合支持向量機算法的正例命中率最高，為40%。各預(yù)測方法結(jié)合各采樣技術(shù)的負(fù)例命中率整體較高，采用One-Sided Select結(jié)合條件決策樹的負(fù)例命中率最高，為95%，具體見表6。

表6 不同采樣方法機器學(xué)習(xí)分類性能比較/%

3 討論

傳統(tǒng)的乳腺癌預(yù)后研究是基于統(tǒng)計學(xué)的方法尋找影響因素，而利用機器學(xué)習(xí)算法，根據(jù)影響因素構(gòu)建分類器的研究較少。傳統(tǒng)機器學(xué)習(xí)算法也沒有考慮數(shù)據(jù)集的類不平衡問題，鑒于此，本文選用SMOTE、Borderline-SMOTE、ADASYN、One-Sided Select共4種方法處理類不平衡數(shù)據(jù)，并通過經(jīng)典決策樹、條件決策樹、隨機森林、支持向量機共4種機器學(xué)習(xí)模型進(jìn)行分類結(jié)果預(yù)測。結(jié)果顯示，支持向量機預(yù)測準(zhǔn)確率最高,達(dá)90.42%。使用欠采樣方法One-Sided Select技術(shù)，結(jié)合條件決策樹預(yù)測，在不平衡的乳腺腫瘤數(shù)據(jù)集中預(yù)后預(yù)測效果最好，將敏感度由2%提高到58%，提高了56%。支持向量機在預(yù)測未經(jīng)處理的數(shù)據(jù)集時特異性最高，為100%。采用One-Sided Select結(jié)合支持向量機算法的正例命中率最高，為40%。采用One-Sided Select結(jié)合條件決策樹的負(fù)例命中率最高，為95%。因此，可根據(jù)不同臨床需求，選擇最適合的采樣技術(shù)結(jié)合預(yù)測方法來預(yù)測結(jié)果。同時也說明目前收集數(shù)據(jù)樣本數(shù)量雖大但代表性差，因此可以對數(shù)據(jù)集進(jìn)一步做特征分析，從而選出同臨床理論相符合的具有高代表性的特征變量。臨床醫(yī)師更加關(guān)注的是造成患者死亡的危險因素，針對類不平衡數(shù)據(jù)的過采樣和欠采樣方法在分類性能上有一定的提高，尤其能大大提高靈敏度，但準(zhǔn)確率下降，因此在后續(xù)針對不平衡數(shù)據(jù)的處理問題研究中，我們將考慮通過欠采樣與過采樣結(jié)合，進(jìn)一步研究能否提高模型性能。

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

基于不平衡分類的乳腺腫瘤預(yù)后預(yù)測方法的研究

1 資料與方法

2 結(jié)果

3 討論