• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于不平衡分類的乳腺腫瘤預(yù)后預(yù)測方法的研究

      2019-04-18 06:49:46楊日東張學(xué)良
      關(guān)鍵詞:命中率決策樹敏感度

      王 哲, 楊日東, 周 毅, 張學(xué)良, 王 凱

      (1新疆醫(yī)科大學(xué)公共衛(wèi)生學(xué)院, 烏魯木齊 830011; 2中山大學(xué)中山醫(yī)學(xué)院, 廣州 510080;3新疆醫(yī)科大學(xué)醫(yī)學(xué)工程技術(shù)學(xué)院, 烏魯木齊 830011)

      2010年以來中國癌癥的發(fā)病率和死亡率不斷上升,癌癥成為主要的死亡原因,也是我國主要的公共衛(wèi)生問題之一[1]。乳腺癌(Breast Cancer)是乳腺組織中的細(xì)胞不正常分裂和增生的惡性腫瘤,是女性最常見的癌癥[2]。近年來,隨著乳腺癌的早期診斷和早期治療,患者的總體療效明顯提高。據(jù)估計,通過減少可改變風(fēng)險因素的暴露可以避免近60%的癌癥死亡[3]。因此,對乳腺癌預(yù)后狀態(tài)進(jìn)行預(yù)測,從而尋找有效的抑制途徑,是進(jìn)一步提高乳腺癌患者生存率的關(guān)鍵,具有重大的研究意義。

      傳統(tǒng)的分類器是基于均勻的數(shù)據(jù)分布的基礎(chǔ)上,而乳腺腫瘤患者的生存數(shù)據(jù)是不平衡的。雖然乳腺癌是女性癌癥死亡的第二大原因,但其存活率較高。早期診斷中,97%的女性存活5年以上[4],所以數(shù)據(jù)是不平衡的。不平衡數(shù)據(jù)具有數(shù)據(jù)稀缺、噪聲、決策面偏移、評測指標(biāo)等傳統(tǒng)分類器難以解決的問題[5]。必然會導(dǎo)致多數(shù)類精度高而少數(shù)類精度不高的問題,然而在乳腺腫瘤的預(yù)后預(yù)測分析研究中,少數(shù)類(死亡患者)的信息對臨床醫(yī)生的研究更有價值,通過少數(shù)類發(fā)現(xiàn)危險因素可更好地提高生存率。因此,提高少數(shù)類的分類精度,對于乳腺腫瘤不平衡數(shù)據(jù)的研究是十分重要的,本研究結(jié)合過采樣技術(shù)(SMOTE、Borderline-SMOTE和ADASYN)或欠采樣技術(shù)(One-Sided Select)對乳腺癌患者的生存預(yù)后進(jìn)行預(yù)測,現(xiàn)報道如下。

      1 資料與方法

      1.1資料來源本研究所用數(shù)據(jù)來源于廣州市某三甲醫(yī)院的乳腺癌患者預(yù)后數(shù)據(jù),隨訪了1 845名乳腺癌患者,均為女性。

      1.2研究方法采樣技術(shù)是解決類不平衡的方法之一,它通過對數(shù)據(jù)樣本的預(yù)處理,從而達(dá)到數(shù)據(jù)平衡的效果。本研究將改進(jìn)提升樹與結(jié)合了過采樣技術(shù)(SMOTE、Borderline-SMOTE和ADASYN)或欠采樣技術(shù)(One-Sided Select)對乳腺癌患者的生存預(yù)后數(shù)據(jù)進(jìn)行預(yù)處理。經(jīng)典決策樹(classical decision tree)、條件決策樹(conditional inference tree)、隨機森林(random forest)[6]、支持向量機(support vector machine,SVM)分類算法構(gòu)造分類器,從而對乳腺腫瘤預(yù)后狀況進(jìn)行預(yù)測。

      1.3分類器性能比較在一個二分類的混淆矩陣中,實際為正類也被預(yù)測為正類的樣本稱為正確正類TP(true positive),實際為正類被預(yù)測為反類稱為錯誤反類FN(false negative),實際為反類被預(yù)測為正類的稱為錯誤正類FP(false positive),實際為反類被預(yù)測為反類的稱為正確反類TN(true negative)。表1為二分類分類器中常用的混淆矩陣,將大樣本類別稱為負(fù)類,小樣本類為正類。

      表1 混淆矩陣

      準(zhǔn)確率(accuracy)是最常用的選擇預(yù)測效果的統(tǒng)計量,即分類器能否總能正確劃分樣本。盡管準(zhǔn)確率承載的信息很大,這一個指標(biāo)仍然不能選出最準(zhǔn)確的模型,尤其是針對類不平衡數(shù)據(jù),我們還需要其他信息來評估不同分類方法的有效性。敏感度(sensitivity)、特異性(specificity)、正例命中率(positive predictive power)、負(fù)例命中率(negative predictive power)也被用來評價分類器的分類效果,具體含義見表2。

      表2 預(yù)測準(zhǔn)確性度量

      根據(jù)表1中的內(nèi)容,具體計算方式如下:

      (1)

      (2)

      (3)

      (4)

      1.4數(shù)據(jù)處理Python實現(xiàn)采樣技術(shù)的算法;使用R語言3.5.0,通過rpart包構(gòu)造經(jīng)典決策樹模型和條件決策樹模型,randomForest包可用于生成隨機森林,通過e1071包構(gòu)造支持向量機模型。

      2 結(jié)果

      2.1模型的建立實驗使用有監(jiān)督機器學(xué)習(xí)領(lǐng)域中的方法對乳腺腫瘤的生存狀態(tài)進(jìn)行分類研究。將全部數(shù)據(jù)分為一個訓(xùn)練集和一個測試集,使用訓(xùn)練集建立預(yù)測模型,測試集用于測試模型的準(zhǔn)確性。隨機分出70%作為訓(xùn)練集,測試集包含樣本單元的30%。數(shù)據(jù)包含年齡、腫瘤大小、婚姻狀態(tài)、臨床分期、病理分級、T-stage、雌激素受體、孕激素受體等15個特征,特征描述見表3、4。

      表3 分類型自變量

      表4 數(shù)值型自變量

      2.2訓(xùn)練集不平衡數(shù)據(jù)的分布情況在1 845例數(shù)據(jù)中,存活患者1 668例,未存活患者176例。用SMOTE、Borderline-SMOTE、ADASYN、One-Sided Select算法對乳腺腫瘤數(shù)據(jù)集進(jìn)行預(yù)處理,使得預(yù)測變量乳腺腫瘤的生存狀態(tài)成為平衡數(shù)據(jù)。數(shù)據(jù)在各種預(yù)處理后的多數(shù)類、少數(shù)類及不平衡比分布情況見表5。

      表5 訓(xùn)練集不平衡數(shù)據(jù)的分布情況

      2.3不同采樣方法機器學(xué)習(xí)分類性能的比較在使用經(jīng)典決策樹、條件決策樹、隨機森林和支持向量機4種機器學(xué)習(xí)方法進(jìn)行預(yù)測時,未經(jīng)采樣技術(shù)處理的原始數(shù)據(jù)集在預(yù)測準(zhǔn)確率上均表現(xiàn)良好,其中支持向量機準(zhǔn)確率最高,達(dá)到了90.42%,條件決策樹的準(zhǔn)確率為90.05%,經(jīng)典決策樹為89.53%,隨機森林為89.51%。在預(yù)測準(zhǔn)確率最高的支持向量機算法中,針對敏感度的預(yù)測僅為0,條件決策樹和隨機森林僅為2%和4%,經(jīng)典決策樹在未經(jīng)處理的數(shù)據(jù)集預(yù)測敏感度上表現(xiàn)最好,為11%。結(jié)合采樣技術(shù)對敏感度進(jìn)行預(yù)測發(fā)現(xiàn),條件決策樹的預(yù)測效果最好,為58%,相較于原始數(shù)據(jù)集,采用同一種機器學(xué)習(xí)算法比較后發(fā)現(xiàn),敏感度提升了56%。支持向量機結(jié)合SMOTE技術(shù)將敏感度由0提高到了43%。經(jīng)典決策樹結(jié)合One-Sided Select技術(shù)將敏感度提高了36%,隨機森林結(jié)合One-Sided Select技術(shù)將敏感度提高了32%。因此,在使用采樣技術(shù)針對數(shù)據(jù)進(jìn)行預(yù)處理之后,預(yù)后預(yù)測的敏感度均得到提升。比較預(yù)測的特異性發(fā)現(xiàn),原始數(shù)據(jù)集的特異性相較于經(jīng)過采樣技術(shù)處理后的特異性,支持向量機的特異性最高,為100%,其次是條件決策樹和隨機森林,均為99%,經(jīng)典決策樹為98%。觀察正例命中率發(fā)現(xiàn),總體的正例命中率偏低,針對不同的機器學(xué)習(xí)算法,采用不同的算法獲得的效果不同。其中,采用One-Sided Select結(jié)合支持向量機算法的正例命中率最高,為40%。各預(yù)測方法結(jié)合各采樣技術(shù)的負(fù)例命中率整體較高,采用One-Sided Select結(jié)合條件決策樹的負(fù)例命中率最高,為95%,具體見表6。

      表6 不同采樣方法機器學(xué)習(xí)分類性能比較/%

      3 討論

      傳統(tǒng)的乳腺癌預(yù)后研究是基于統(tǒng)計學(xué)的方法尋找影響因素,而利用機器學(xué)習(xí)算法,根據(jù)影響因素構(gòu)建分類器的研究較少。傳統(tǒng)機器學(xué)習(xí)算法也沒有考慮數(shù)據(jù)集的類不平衡問題,鑒于此,本文選用SMOTE、Borderline-SMOTE、ADASYN、One-Sided Select共4種方法處理類不平衡數(shù)據(jù),并通過經(jīng)典決策樹、條件決策樹、隨機森林、支持向量機共4種機器學(xué)習(xí)模型進(jìn)行分類結(jié)果預(yù)測。結(jié)果顯示,支持向量機預(yù)測準(zhǔn)確率最高,達(dá)90.42%。使用欠采樣方法One-Sided Select技術(shù),結(jié)合條件決策樹預(yù)測,在不平衡的乳腺腫瘤數(shù)據(jù)集中預(yù)后預(yù)測效果最好,將敏感度由2%提高到58%,提高了56%。支持向量機在預(yù)測未經(jīng)處理的數(shù)據(jù)集時特異性最高,為100%。采用One-Sided Select結(jié)合支持向量機算法的正例命中率最高,為40%。采用One-Sided Select結(jié)合條件決策樹的負(fù)例命中率最高,為95%。因此,可根據(jù)不同臨床需求,選擇最適合的采樣技術(shù)結(jié)合預(yù)測方法來預(yù)測結(jié)果。同時也說明目前收集數(shù)據(jù)樣本數(shù)量雖大但代表性差,因此可以對數(shù)據(jù)集進(jìn)一步做特征分析,從而選出同臨床理論相符合的具有高代表性的特征變量。臨床醫(yī)師更加關(guān)注的是造成患者死亡的危險因素,針對類不平衡數(shù)據(jù)的過采樣和欠采樣方法在分類性能上有一定的提高,尤其能大大提高靈敏度,但準(zhǔn)確率下降,因此在后續(xù)針對不平衡數(shù)據(jù)的處理問題研究中,我們將考慮通過欠采樣與過采樣結(jié)合,進(jìn)一步研究能否提高模型性能。

      猜你喜歡
      命中率決策樹敏感度
      全體外預(yù)應(yīng)力節(jié)段梁動力特性對于接縫的敏感度研究
      一種針對不均衡數(shù)據(jù)集的SVM決策樹算法
      夜夜“奮戰(zhàn)”會提高“命中率”嗎
      2015男籃亞錦賽四強隊三分球進(jìn)攻特點的比較研究
      長江叢刊(2018年31期)2018-12-05 06:34:20
      決策樹和隨機森林方法在管理決策中的應(yīng)用
      電子制作(2018年16期)2018-09-26 03:27:06
      電視臺記者新聞敏感度培養(yǎng)策略
      新聞傳播(2018年10期)2018-08-16 02:10:16
      投籃的力量休斯敦火箭
      NBA特刊(2017年8期)2017-06-05 15:00:13
      在京韓國留學(xué)生跨文化敏感度實證研究
      基于決策樹的出租車乘客出行目的識別
      試析心理因素對投籃命中率的影響
      武邑县| 宁波市| 遂宁市| 栖霞市| 汝州市| 宁南县| 百色市| 卢湾区| 桐城市| 榕江县| 准格尔旗| 镇安县| 台山市| 舒城县| 宿迁市| 北川| 蒙自县| 鹤峰县| 长葛市| 南投市| 衡水市| 凭祥市| 商都县| 丰都县| 资阳市| 东丰县| 长垣县| 华坪县| 托克逊县| 吴堡县| 永登县| 寻甸| 徐汇区| 井研县| 营口市| 忻城县| 台东市| 遵义县| 德化县| 射阳县| 宣化县|