葉琳 石勝源 羅鐵清
摘? 要: 為了研究AdaBoost算法在乳腺癌疾病預(yù)測(cè)中的應(yīng)用,收集乳腺癌診斷數(shù)據(jù)集并按照一定的比例拆分成測(cè)試數(shù)據(jù)和訓(xùn)練數(shù)據(jù)。利用AdaBoost、GaussianNB、KNeighbors算法模型分別進(jìn)行測(cè)試,以準(zhǔn)確率為評(píng)價(jià)標(biāo)準(zhǔn)來(lái)評(píng)價(jià)模型性能的好壞。當(dāng)測(cè)試數(shù)據(jù)占30%時(shí),AdaBoost算法模型預(yù)測(cè)乳腺癌疾病優(yōu)于其他算法模型,準(zhǔn)確率為96.49%。通過(guò)綜合評(píng)價(jià)機(jī)制考察發(fā)現(xiàn),AdaBoost算法模型能從復(fù)雜的多因素中找到預(yù)測(cè)乳腺癌的重要影響因素,這對(duì)快速識(shí)別引起乳腺癌疾病的特征以及早期病人的有效治療具有重要意義。
關(guān)鍵詞: 乳腺癌; 機(jī)器學(xué)習(xí); AdaBoost; 診斷預(yù)測(cè)
中圖分類號(hào):TP391.41;TP181;R737.9? ? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A? ? ?文章編號(hào):1006-8228(2021)07-61-04
Study of AdaBoost algorithm application in breast cancer disease prediction
Ye Lin, Shi Shengyuan, Luo Tieqing
(School of Informatics, Hunan University of Chinese Medicine, Changsha, Hunan 410208, China)
Abstract: In order to study the application of AdaBoost algorithm in breast cancer disease prediction, breast cancer diagnostic data sets were collected and divided into the test data and training data according to a certain proportion, which were be used respectively in the test with AdaBoost, GaussianNB, and KNeighbors algorithm models, and the accuracy rate was used as the evaluation criteria to evaluate the performance of model. When the test data accounted for 30%, the AdaBoost algorithm model predicted breast cancer disease better than the other algorithm models, with an accuracy of 96.49%. Through the investigation with comprehensive evaluation mechanism, it is found that AdaBoost algorithm model can find the important influencing factors for predicting breast cancer from complex multiple factors, which is of great significance for rapid identification of the characteristics of breast cancer diseases and effective treatment of early patients.
Key words: breast cancer; machine learning; AdaBoost; diagnostic prediction
0 引言
Hyuna Sung[1]等人在癌癥領(lǐng)域頂級(jí)??禖A:A Cancer Journal for Clinicians》(IF≈292)發(fā)表題為《Global cancer statistics 2020:GLOBOCAN estimates of incidence and mortality worldwide for 36 cancers in 185 countries》的研究論文,論文對(duì)全球癌癥疾病負(fù)擔(dān)信息進(jìn)行了更新。2020年,全球估計(jì)有1930萬(wàn)新發(fā)癌癥病例。全球癌癥發(fā)病率前五名依次是乳腺癌(226萬(wàn),11.7%)、肺癌(221萬(wàn),11.4%)、結(jié)直腸癌(193萬(wàn),10.0%)、前列腺癌(141萬(wàn),7.3%)、胃癌(109萬(wàn),5.6%)。由此可見,乳腺癌已經(jīng)成為全球第一大癌癥,具體情況如圖1所示。
值得思考的是,第二名肺癌男女均會(huì)患病,乳腺癌患者超過(guò)99%為女性,而女性人數(shù)約占全球總?cè)丝诘囊话耄橄侔┬掳l(fā)病人數(shù)居然超過(guò)了肺癌,這是我們必須要重視的。由于乳腺癌診斷十分復(fù)雜,因此借助機(jī)器學(xué)習(xí)相關(guān)算法模型來(lái)對(duì)乳腺癌進(jìn)行準(zhǔn)確評(píng)估和預(yù)測(cè)迫在眉睫。本文將AdaBoost與GaussianNB、KNeighbors算法模型做對(duì)比,最終發(fā)現(xiàn)AdaBoost算法模型相較于另外兩種算法模型能夠更為準(zhǔn)確的預(yù)測(cè)乳腺癌,實(shí)驗(yàn)步驟如圖2所示。
1 對(duì)象與方法
1.1 研究對(duì)象
本文實(shí)驗(yàn)所用的乳腺癌數(shù)據(jù)來(lái)源于UCI repository[2]上美國(guó)威斯康星州乳腺癌(診斷)數(shù)據(jù)集中部分?jǐn)?shù)據(jù),共計(jì)569例,數(shù)據(jù)信息包括id(標(biāo)識(shí)),diagnosis(M:惡性,B:良性)以及乳腺腫塊信息,乳腺腫塊信息包括radius(半徑)、texture(文理)、perimeter(周長(zhǎng))、area(面積)、smoothness(平滑程度)、compactness(致密性)、concavity(凹面)、concave points(凹點(diǎn))、symmetry(對(duì)稱性)、fractal_dimension(分形維數(shù))這10個(gè)特征的mean(平均值)、se(標(biāo)準(zhǔn)差)和worst(最大值),共計(jì)32個(gè)字段。
1.2 數(shù)據(jù)預(yù)處理
實(shí)驗(yàn)前需要對(duì)乳腺癌診斷數(shù)據(jù)集進(jìn)行清洗,在JupyterNotebook中剔除無(wú)意義字段id,剩余31個(gè)字段分別代表diagnosis以及radius,texture,perimeter,area,smoothness,compactness,concavity,concave points,symmetry,fractal_dimension這10個(gè)特征mean、se、worst維度。
1.3 AdaBoost模型的建立
AdaBoost算法是一種基礎(chǔ)的機(jī)器學(xué)習(xí)方法,根據(jù)曹瑩[3]等人總結(jié)的算法核心思想,得出實(shí)驗(yàn)中AdaBoost分類器利用同一種弱分類器,根據(jù)弱分類器的錯(cuò)誤率分配不同的權(quán)重參數(shù),最后累加加權(quán)的預(yù)測(cè)結(jié)果作為輸出。實(shí)驗(yàn)研究的結(jié)局變量為乳房腫塊良性或惡性,是研究的根本目的。解釋變量為對(duì)乳腺癌發(fā)生率有影響的危險(xiǎn)因素,如area_mean,texture_mean、concavity_mean等,用于支持結(jié)局變量的準(zhǔn)確性。
1.4 特征選取
相關(guān)系數(shù)矩陣熱力圖是特征之間相關(guān)系數(shù)可視化的一種方法,用來(lái)展示特征之間的相似程度。實(shí)驗(yàn)在JupyterNotebook中進(jìn)行演示,用相關(guān)系數(shù)矩陣熱力圖展示特征之間的相關(guān)性,圖中系數(shù)越大說(shuō)明特征越相關(guān),如圖3所示。
參考相關(guān)系數(shù)矩陣熱力圖可以對(duì)特征進(jìn)行降維處理,將相關(guān)系數(shù)大于0.7的特征perimeter_mean,radius_mean,compactness_mean,concave points_mean,radius_se,perimeter_se,radius_worst,perimeter_worst,compactness_worst,concave points_worst,compactness_se,concave points_se,texture_worst,area_worst,area_se,smoothness_worst,concavity_worst,fractal_
dimension_worst刪除,保留剩余12個(gè)特征,再一次驗(yàn)證可以得出降維后的相關(guān)系數(shù)矩陣熱力圖,如圖4所示。
2 結(jié)果
2.1 特征重要性評(píng)分
實(shí)驗(yàn)需要將乳腺癌診斷數(shù)據(jù)集拆分成訓(xùn)練集和測(cè)試集,其中測(cè)試集占比30%(test_size=0.3)。計(jì)算test_size=0.3以及隨機(jī)種子數(shù)為42時(shí)的AdaBoost算法模型下12個(gè)特征的重要性評(píng)分,列出排名前10的變量和分?jǐn)?shù),如表1所示。
2.2 模型預(yù)測(cè)性能評(píng)價(jià)
為了對(duì)比在test_size=0.3和隨機(jī)種子數(shù)為42情況下的AdaBoost算法模型與其他兩個(gè)算法模型的性能,在模型測(cè)試前需要進(jìn)行參數(shù)優(yōu)化,使用表1當(dāng)中10個(gè)特征進(jìn)行測(cè)試并比較,使用混淆矩陣進(jìn)行預(yù)測(cè)結(jié)果的分類,共分為 TP,F(xiàn)P,F(xiàn)N,TN四類,如表2所示。
本文給出三種不同方法的混淆矩陣,分別對(duì)應(yīng)了真惡性、假惡性、假良性和真良性四種情況下數(shù)據(jù)的分布[4],不同算法模型的數(shù)據(jù)分配如表3所示。
實(shí)驗(yàn)結(jié)果以準(zhǔn)確率作為評(píng)價(jià)標(biāo)準(zhǔn),由混淆矩陣可知,AdaBoost算法模型準(zhǔn)確率為96.49%、GaussianNB算法模型準(zhǔn)確率為95.91%、KNeighbors算法準(zhǔn)確率為90.06%,如圖5所示。從圖5中的實(shí)驗(yàn)數(shù)據(jù)可以看出當(dāng)test_size=0.3且隨機(jī)種子數(shù)為42時(shí)AdaBoost算法模型的準(zhǔn)確率高于另外兩種算法模型。
2.3 最優(yōu)特征
為了提高模型的泛化能力,實(shí)驗(yàn)采用5折交叉驗(yàn)證[5]降低泛化誤差,其原理將數(shù)據(jù)集分割成5個(gè)子集,一個(gè)單獨(dú)的子集被保留作為驗(yàn)證模型的數(shù)據(jù),其他4個(gè)子集用來(lái)訓(xùn)練。交叉驗(yàn)證重復(fù)5次,每個(gè)子集驗(yàn)證一次,平均這5次的結(jié)果得到一個(gè)單一估測(cè)。這個(gè)方法的優(yōu)勢(shì)在于同時(shí)重復(fù)運(yùn)用隨機(jī)產(chǎn)生的子集進(jìn)行訓(xùn)練和驗(yàn)證,每個(gè)子集都被驗(yàn)證一次。在AdaBoost算法模型的基礎(chǔ)上經(jīng)過(guò)5折交叉驗(yàn)證可以找到最佳特征為texture_mean,area_mean,smoothness_mean,concavity_
mean,texture_se,symmetry_se,fractal_dimension_se,symmetry_worst的同時(shí)也預(yù)示著預(yù)測(cè)乳腺癌需要的最佳特征數(shù)為8,如圖6所示。
主成分分析(Principal Component Analysis,PCA)[6]是對(duì)特征進(jìn)行綜合評(píng)價(jià)的方法之一,其原理是通過(guò)投影的方法消除重疊信息,實(shí)現(xiàn)數(shù)據(jù)的降維[7]。經(jīng)過(guò)PCA可知最優(yōu)特征數(shù)為1,如圖7所示。參照表1數(shù)據(jù)選擇得分最高的變量area_mean作為最優(yōu)特征,該特征預(yù)測(cè)乳腺癌準(zhǔn)確率可達(dá)96%以上。
3 結(jié)束語(yǔ)
本文提出基于AdaBoost算法的乳腺癌疾病預(yù)測(cè)方法并將AdaBoost算法模型與GaussianNB、KNeighbors算法模型進(jìn)行比較,證明在乳腺癌疾病診斷中,AdaBoost算法模型相對(duì)于另外兩種算法模型取得了良好的效果。此研究對(duì)于識(shí)別乳腺癌患者并為其進(jìn)行及時(shí)和有效的治療有一定的現(xiàn)實(shí)意義。但本研究采用的是美國(guó)威斯康星州乳腺癌診斷數(shù)據(jù)中的一小部分?jǐn)?shù)據(jù),數(shù)據(jù)受地域和數(shù)量的限制使得最終實(shí)驗(yàn)結(jié)果具有局限性,需要進(jìn)一步擴(kuò)大數(shù)據(jù)來(lái)源和使用大樣本數(shù)據(jù)驗(yàn)證結(jié)果的適用性。
參考文獻(xiàn)(References):
[1] Hyuna Sung, Ferlay Jacques, Siegel Rebecca-L, et al.Global cancer statistics 2020: GLOBOCAN estimates of incidence and mortality worldwide for 36 cancers in 185 countries[J].CA:A Cancer Journal for Clinicians.
[2] UCI repository.乳腺癌診斷數(shù)據(jù)集[EB/OL].http://archive.ics.uci.edu/ml/datasets/breast+cancer+wisconsin+%28diagnostic%29.
[3] 曹瑩,苗啟廣,劉家辰等.AdaBoost算法研究進(jìn)展與展望[J].自動(dòng)化學(xué)報(bào),2013.39(6):745-758
[4] 盧星凝,張莉.基于屬性約簡(jiǎn)和支持向量機(jī)集成的乳腺癌診斷決策[J].計(jì)算機(jī)應(yīng)用,2015.35(10):2793-2797
[5] 張中文,姚婷婷,張海泉等.基于交叉驗(yàn)證的組合診斷方法在乳腺腫瘤診斷研究中的應(yīng)用[J].中國(guó)衛(wèi)生統(tǒng)計(jì),2020.37(2):166-169
[6] 孔浩,郭慶梅,王慧慧等.主成分分析法在中藥質(zhì)量評(píng)價(jià)中的應(yīng)用[J].遼寧中醫(yī)雜志,2014.41(5):890-892
[7] 符剛,張玥,曾強(qiáng)等.主成分分析法在北方某市飲用水水質(zhì)綜合評(píng)價(jià)中的應(yīng)用[J].中國(guó)預(yù)防醫(yī)學(xué)雜志,2015.16(12):955-960