張浪 張星 錢佳怡 楊霜玲
摘要:通過對(duì)kaggle官網(wǎng)關(guān)于乳腺癌的相關(guān)數(shù)據(jù)集的分析,文章選取了數(shù)據(jù)集中相關(guān)性較強(qiáng)的10個(gè)指標(biāo),對(duì)各個(gè)指標(biāo)進(jìn)行數(shù)據(jù)處理,使用隨機(jī)森林、XGBoost、相關(guān)性分析進(jìn)行模型建立分析。通過機(jī)器學(xué)習(xí),得到相關(guān)結(jié)果以及準(zhǔn)確率、精準(zhǔn)率、召回率和F1,并通過比較不同算法之間準(zhǔn)確率、精確率的差異,得出最優(yōu)的預(yù)測(cè)研究方案機(jī)制。通過模型對(duì)比評(píng)價(jià),XGBoost算法的準(zhǔn)確率、精確率等均在93.5%以上,隨機(jī)森林算法的準(zhǔn)確率、精確率等均為92.4%。相比之下,XGBoost模型預(yù)測(cè)效果較佳。利用機(jī)器學(xué)習(xí)研究乳腺癌的預(yù)防預(yù)測(cè),并應(yīng)用于實(shí)踐,對(duì)乳腺癌早期診斷有著十分重要的意義。
關(guān)鍵詞:機(jī)器學(xué)習(xí);乳腺癌;隨機(jī)森林;XGBoost;相關(guān)性
中圖法分類號(hào):TP181文獻(xiàn)標(biāo)識(shí)碼:A
Breast cancer prediction research based on machine learning
ZHANG Lang,ZHANGXing,QIANJiayi,YANGShuangling
(Guizhou Medical University,Guiyang 550025,China)
Abstract:Based on the analysis of the data set related to breast cancer on kaggle official website,10 indicators with strong correlation in the data set were selected for data processing.Random forest, XGBoost and correlation analysis were used for model establishment and analysis.Relevant results, accuracy,accuracy,recall and F1 were obtained through machine learning,andtheoptimal prediction research scheme mechanism was obtained by comparingthe difference of accuracy and accuracy among different algorithms. According to the evaluation of model comparison,the accuracy and accuracy of XGBoost algorithm are above 93.5%,and those of random forest algorithm are both 92.4%.XGBoost model has better prediction effect in comparison.It is of great significance for the early diagnosis of breast cancer to study the prevention and prediction of breast cancer with machine learnig and apply it into practice.
Key words: machine learning, breast cancer,randomforests,XGBoost,dependency
1 研究背景
乳腺癌是乳腺細(xì)胞在內(nèi)外環(huán)境因素影響下發(fā)生了異常細(xì)胞增殖反應(yīng)而最終失控導(dǎo)致癌變的臨床現(xiàn)象。其病變初期常表現(xiàn)出的癥狀為出現(xiàn)乳房腫塊、乳頭溢液、腋窩淋巴結(jié)的明顯充血腫大或壓痛感等各種局部癥狀,晚期患者也可能因淋巴結(jié)被癌細(xì)胞直接感染,導(dǎo)致發(fā)生了腫瘤及遠(yuǎn)處組織淋巴性轉(zhuǎn)移,出現(xiàn)了乳腺周圍多部位淋巴器官良性增生及病變,甚至可能威脅乳腺患者的生命[1]。根據(jù)醫(yī)療數(shù)據(jù)顯示,全球乳腺癌的發(fā)病率逐年升高,這對(duì)社會(huì)經(jīng)濟(jì)發(fā)展造成嚴(yán)重影響,乳腺癌的早期診斷,尤其是當(dāng)病灶尚不能被觸及時(shí),若能及時(shí)發(fā)現(xiàn),可以明顯改善預(yù)后。人工智能的發(fā)展可以協(xié)助醫(yī)生工作,幫助組織、理順和簡(jiǎn)化診斷程序或其他醫(yī)療決策過程。利用數(shù)學(xué)模型以及統(tǒng)計(jì)方法分析數(shù)據(jù)資料,能夠依據(jù)乳腺癌的相關(guān)特征對(duì)乳腺癌進(jìn)行細(xì)致分類,從而應(yīng)用于臨床,實(shí)現(xiàn)對(duì)不同個(gè)體的診斷和預(yù)測(cè)。機(jī)器學(xué)習(xí)算法在乳腺癌預(yù)測(cè)的應(yīng)用,有利于乳腺癌的風(fēng)險(xiǎn)評(píng)估,從而幫助患者了解自身疾病特征,達(dá)到預(yù)防疾病的目的;對(duì)乳腺癌進(jìn)行分級(jí)診斷,從而根據(jù)特征施行相對(duì)應(yīng)的治療方案,這對(duì)乳腺癌的“對(duì)癥下藥”、分級(jí)診斷和預(yù)防有著特別重要的意義。
2 研究現(xiàn)狀
在以計(jì)算機(jī)學(xué)科為研究對(duì)象的背景下,很多學(xué)者應(yīng)用理論與技術(shù)的結(jié)合,以提高乳腺癌預(yù)測(cè)的檢測(cè)水平。乳腺癌是乳腺上皮細(xì)胞在多種致病因子的作用下,發(fā)生增殖失控的現(xiàn)象。劉宇等[2]將聚類算法與XGBoost算法結(jié)合在一起,應(yīng)用K?means算法對(duì)所收集的數(shù)據(jù)按照其各自的特征進(jìn)行了區(qū)分,并且利用XGBoost算法對(duì)乳腺癌進(jìn)行了預(yù)測(cè)和分析。國(guó)內(nèi)外專家學(xué)者針對(duì)乳腺癌的研究已經(jīng)取得了一定的成果,隨著醫(yī)療信息化的發(fā)展,人們開始使用信息技術(shù)解決乳腺癌診斷治療中的問題,目前利用特征因素對(duì)乳腺癌進(jìn)行預(yù)測(cè)是該領(lǐng)域研究的熱門。并且,隨著乳腺癌研究的深入,人們意識(shí)到單一的生理指標(biāo)并不能對(duì)乳腺癌做出很好的預(yù)測(cè),所以開始基于大量數(shù)據(jù)來分析、挖掘各種指標(biāo)之間的聯(lián)系以及對(duì)結(jié)果的影響,從而建立起一些常見的乳腺癌的預(yù)警模型[3]。比如,DL 模型幫助患者提前五年預(yù)測(cè)乳腺癌,實(shí)現(xiàn)及早確診、及早治療;我國(guó)自主研發(fā)的治療乳腺癌抗 HER2單抗創(chuàng)新藥伊尼妥單抗打破進(jìn)口藥壟斷。
3 數(shù)據(jù)及可視化
本文數(shù)據(jù)來源于kaggle官網(wǎng)關(guān)于乳腺癌的公開數(shù)據(jù)。樣本數(shù)據(jù)共569條,包括10類影響指標(biāo),即半徑、紋理、細(xì)胞核周長(zhǎng)、細(xì)胞核面積、平滑程度、緊密度、凹度、凹點(diǎn)、對(duì)稱性、分形維數(shù)。通過對(duì)不同類型數(shù)據(jù)的整理,使用機(jī)器學(xué)習(xí)算法對(duì)數(shù)據(jù)進(jìn)行定量和定類分析及訓(xùn)練。數(shù)據(jù)變量如表1所列。
圖1為利用各類指標(biāo)數(shù)據(jù)構(gòu)建相的關(guān)系數(shù)熱力圖,樣本呈現(xiàn)正太分布狀態(tài)。組織核的平均面積與半徑和參數(shù)的均值呈強(qiáng)正相關(guān);一些參數(shù)中度正相關(guān)( r 在0.5~0.75之間)的是凹度和面積,凹度和周長(zhǎng)等;同樣,可以看到 fractal_ dimension 與半徑、紋理、參數(shù)平均值之間存在一些強(qiáng)烈的負(fù)相關(guān)。由此可以推斷,乳腺腫塊的細(xì)針抽吸物(FNA)半徑、周長(zhǎng)、面積、緊密度、凹度和凹點(diǎn)的平均值可用于癌癥的分類。這些參數(shù)的較大值傾向于顯示與惡性腫瘤的相關(guān)性。質(zhì)地、平滑度、對(duì)稱性或分維數(shù)的平均值并未顯示出較好的診斷偏好。
4 實(shí)驗(yàn)過程和結(jié)果分析
本文選取相關(guān)性分析、隨機(jī)森林、XGBoost三種機(jī)器學(xué)習(xí)方法對(duì)乳腺癌吸針抽物相關(guān)特征進(jìn)行對(duì)比分析,以實(shí)現(xiàn)對(duì)乳腺癌的早期預(yù)測(cè)。通過統(tǒng)計(jì)產(chǎn)品與服務(wù)解決方案軟件 SPSS 進(jìn)行算法分析,建立測(cè)試集和訓(xùn)練集;以預(yù)測(cè)分析結(jié)果中的預(yù)測(cè)準(zhǔn)確度、精確率、召回率、F1為主要評(píng)判參考指標(biāo);同時(shí),通過建立混淆矩陣,對(duì)預(yù)測(cè)分析模型中的實(shí)際可用于預(yù)測(cè)對(duì)象的預(yù)測(cè)能力水平等進(jìn)行綜合量化與評(píng)判。通過統(tǒng)計(jì)產(chǎn)品與服務(wù)解決方案軟件 SPSS 進(jìn)行算法分析可得隨機(jī)森林和XGBoost特征重要性的結(jié)果分析,結(jié)果如圖2所示。
圖2展示了各特征(自變量)的重要性比例。通常情況下,特征越多分類效果就越好。但是,使用過多的特征會(huì)大幅增加模型運(yùn)算量和模型運(yùn)算的時(shí)間、費(fèi)用等成本,降低整個(gè)模型的平均運(yùn)算效率。因此,本文對(duì)相關(guān)數(shù)據(jù)進(jìn)行了特征選擇,隨機(jī)森林和XGBoost按照數(shù)值大小呈正比,表現(xiàn)出重要性程度高低,計(jì)算出特征重要性。通過隨機(jī)森林特征重要性排名進(jìn)行結(jié)果比較,對(duì)特征進(jìn)行分析可知,面積、周長(zhǎng)、半徑能夠較為直接衡量細(xì)胞核的相關(guān)特征,同時(shí)凹縫、凹度也屬于重要的特征值,有較強(qiáng)的區(qū)分度;對(duì)比XGBoost特征可知,凹度、周長(zhǎng)、半徑能夠較為直接衡量細(xì)胞核的相關(guān)特征,同時(shí)凹縫、面積也屬于重要的特征值,有較強(qiáng)的區(qū)分度。對(duì)特征值取平均值,在統(tǒng)計(jì)上平均值反映出的是更加普遍的情況,具有更強(qiáng)的可用性。
訓(xùn)練數(shù)據(jù)集是指構(gòu)建模型時(shí)使用的樣本集,而測(cè)試數(shù)據(jù)集是指對(duì)最終模型進(jìn)行性能評(píng)估的數(shù)據(jù)集,通過矩陣工廠 MATLAB、統(tǒng)計(jì)產(chǎn)品與服務(wù)解決方案 SPSS 進(jìn)行混淆矩陣熱力圖分析。
混淆矩陣?yán)昧藴?zhǔn)確率 A( Accuracy)、精確率 P (Precision)、召回率 R(Recall)和 F1四個(gè)評(píng)價(jià)指標(biāo)來進(jìn)行定量和評(píng)估分類器系統(tǒng)的分類效果與性能。準(zhǔn)確率表示分類正確的樣本數(shù)在整個(gè)樣本中所占的比例,準(zhǔn)確率越高,則預(yù)測(cè)越準(zhǔn)確;精確率表示分類正確的正類樣本數(shù)占分類為正類樣本總數(shù)的比例;召回率表示分類正確的正類樣本數(shù)占原正類樣本數(shù)的比例; F1是精確率和召回率之間的折中,F(xiàn)1測(cè)度值越高,則分類效果越好。各指標(biāo)的計(jì)算公式如表2所列。
其中,TP =真正例,TN =真負(fù)例,F(xiàn)P =假正例,F(xiàn)N =假負(fù)例,ncorrect=TP+TN,ntotal=TP+TN+FP+FN
由表3可知,在相同的數(shù)據(jù)集下,XGBoost分類的準(zhǔn)確率為93.6%,而隨機(jī)森林的準(zhǔn)確率為92.4%,其準(zhǔn)確率越高說明算法越好。由此可見,XGBoost算法比隨機(jī)森林精準(zhǔn)。F1值綜合了精確率與靈敏度的大小,由表3可知,在 F1值方面,XGBoost分類模型的 F1高于隨機(jī)森林分類模型1.2%,精確率高1.1%,召回率高1.2%。本文認(rèn)為,通過對(duì)準(zhǔn)確率、F1值、召回率、精確率的對(duì)比,XGBoost分類模型比隨機(jī)森林分類模型有所提高,因此可以認(rèn)為該模型對(duì)輔助醫(yī)生診斷乳腺癌,對(duì)乳腺癌分類預(yù)測(cè)研究具有較大的意義,有較強(qiáng)的可行性。
5 結(jié)論
本文著重對(duì)乳腺癌的分類預(yù)測(cè)進(jìn)行研究,通過對(duì)數(shù)據(jù)的處理,建立相關(guān)預(yù)測(cè)模型,并對(duì)模型準(zhǔn)確度進(jìn)行對(duì)比評(píng)價(jià)。模型顯示,乳腺吸針抽物的凹度、周長(zhǎng)、半徑、面積對(duì)乳腺癌早期監(jiān)測(cè)有較好的指標(biāo)作用,這對(duì)如何實(shí)現(xiàn)低成本、檢測(cè)快、無副作用的乳腺癌患者的分類預(yù)測(cè)非常重要。同時(shí),對(duì)于慢性疾病管理也具有重要意義,但是由于收集資料和時(shí)間有限,未來的研究中,需要從以下方向進(jìn)行改進(jìn):(1)慢性疾病是一類疾病的總稱,本文僅構(gòu)建了乳腺癌疾病預(yù)測(cè)和預(yù)測(cè)系統(tǒng),接下來可以對(duì)其他慢性疾病的預(yù)測(cè)進(jìn)行研究:在建模時(shí)選取 UCI 公開數(shù)據(jù)庫里相關(guān)數(shù)據(jù),一方面在區(qū)域性和時(shí)限性存在缺陷,另一方面數(shù)據(jù)量有限,在建立模型時(shí)可能導(dǎo)致模型欠擬合,未來可以采用不同的數(shù)據(jù)集對(duì)模型進(jìn)行修正,以提高預(yù)測(cè)的準(zhǔn)確性;(2)對(duì)于慢性疾病患者而言,做好康復(fù)和護(hù)理是必不可少的一步,這也是醫(yī)護(hù)人員所關(guān)注的重點(diǎn)之一,所以未來可以在該系統(tǒng)上進(jìn)行功能完善,建立“醫(yī)護(hù)康”一體化信息平臺(tái),實(shí)現(xiàn)對(duì)慢性疾病患者的全生命周期管理。
參考文獻(xiàn):
[1] 祝江濤.分析乳腺癌患者術(shù)后睡眠質(zhì)量及相關(guān)影響因素[J].世界睡眠醫(yī)學(xué)雜志,2021,8(8):1330?1331.
[2]劉宇,喬木.基于聚類和XGboost算法的心臟病預(yù)測(cè)[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2019,28(1):228?232.
[3]劉亮.機(jī)器學(xué)習(xí)算法在疾病診斷中的應(yīng)用研究[ D].貴陽:貴州大學(xué),2020.
作者簡(jiǎn)介:
張浪(2001—),本科,研究方向:數(shù)據(jù)分析與圖像處理。
張星(2001—),本科,研究方向:XGBoost與相關(guān)性分析。
錢佳怡(2003—),本科,研究方向:隨機(jī)森林。
楊霜玲(2001—),本科,研究方向:數(shù)據(jù)挖掘。
計(jì)算機(jī)應(yīng)用文摘·觸控2022年19期