• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于集成學(xué)習(xí)的乳腺癌生存預(yù)測研究

      2022-01-01 11:39:10張繼婕覃慶洪劉雪萍王康權(quán)魏薇
      關(guān)鍵詞:集成學(xué)習(xí)乳腺癌

      張繼婕 覃慶洪 劉雪萍 王康權(quán) 魏薇

      摘? 要:為對(duì)乳腺癌5年生存狀態(tài)進(jìn)行預(yù)測并分析其影響因素,首先,選取SEER數(shù)據(jù)庫中2004—2010年乳腺癌相關(guān)數(shù)據(jù),對(duì)選取的特征進(jìn)行數(shù)據(jù)預(yù)處理;其次,在數(shù)據(jù)層面上,對(duì)數(shù)據(jù)進(jìn)行SMOTE上采樣以解決數(shù)據(jù)類別不平衡問題;在算法層面上,比較LightGBM、CatBoost和GBDT這3個(gè)模型在預(yù)測乳腺癌5年生存狀態(tài)上的優(yōu)劣;最后,根據(jù)重要性對(duì)乳腺癌5年生存狀態(tài)的影響因素進(jìn)行排序,并通過SHAP值對(duì)影響因素進(jìn)行解釋分析。本文構(gòu)建的乳腺癌5年生存狀態(tài)預(yù)測模型比單一模型具有更好的性能,其準(zhǔn)確率、AUC、召回率、精確度和F1值分別為0.906 0、0.844 3、0.983 7、0.916 0和0.948 7;發(fā)現(xiàn)乳腺癌5年生存狀態(tài)與腫瘤大小、檢出的淋巴結(jié)總數(shù)、淋巴結(jié)轉(zhuǎn)移數(shù)、雌激素受體、孕激素受體、年齡等因素有較大關(guān)系。本預(yù)測模型選擇出的重要性特征與目前的臨床結(jié)果保持一致,能為臨床預(yù)后預(yù)測提供一定的技術(shù)支持。

      關(guān)鍵詞:SEER數(shù)據(jù)庫;乳腺癌;集成學(xué)習(xí);預(yù)后預(yù)測

      中圖分類號(hào):TP181;R737.9? ? ? ? ? ? ?DOI:10.16375/j.cnki.cn45-1395/t.2022.01.015

      0? ? 引言

      乳腺癌是女性中最常見的腫瘤之一,也是人類第二大致死癌癥[1]。據(jù)2018年國際癌癥研究機(jī)構(gòu)調(diào)查的數(shù)據(jù)顯示,全球女性乳腺癌的發(fā)病率為24.2%,位居女性惡性腫瘤首位,嚴(yán)重威脅著女性的身心健康[2]。

      對(duì)癌癥患者生存數(shù)據(jù)的分析一直備受國內(nèi)外學(xué)者的廣泛關(guān)注。目前多數(shù)研究都是通過單因素和多因素分析篩選出癌癥的預(yù)后因素,再將預(yù)后因素放到Cox比例風(fēng)險(xiǎn)模型中進(jìn)行預(yù)后分析。然而,Cox比例風(fēng)險(xiǎn)模型通常假設(shè)預(yù)測因子與生存結(jié)果呈線性相關(guān),基于這樣的假設(shè),乳腺癌的預(yù)后模型有可能將復(fù)雜關(guān)系過度簡化[3],且Cox比例風(fēng)險(xiǎn)模型多用于評(píng)價(jià)群體,不適合評(píng)價(jià)個(gè)體,在預(yù)后判斷上起到的作用有限[4]。

      近年來,機(jī)器學(xué)習(xí)算法廣泛應(yīng)用于人臉識(shí)別[5]、工業(yè)預(yù)測[6]等方面,越來越多的學(xué)者也開始將機(jī)器學(xué)習(xí)應(yīng)用于醫(yī)學(xué)領(lǐng)域。繼Delen等[7]首次采用數(shù)據(jù)挖掘的方法建立乳腺癌患者5年生存預(yù)測模型后,其他學(xué)者[8-11]也相繼采用不同的機(jī)器學(xué)習(xí)模型來研究乳腺癌患者的生存情況,但都存在一些弊端。與單一機(jī)器學(xué)習(xí)相比,集成學(xué)習(xí)有更好的性能和泛化能力[12]。有研究表明[4,13],相較于單一機(jī)器學(xué)習(xí)算法,采用集成模型預(yù)測不同癌癥患者的存活率時(shí),集成模型都展示出更好的效果。

      Boosting方法是訓(xùn)練一系列弱分類器集成來得到一個(gè)強(qiáng)分類器的一種集成學(xué)習(xí)方法[14],既有集成學(xué)習(xí)的優(yōu)勢,又能靈活處理連續(xù)型和離散型數(shù)據(jù)[15]。鑒于集成學(xué)習(xí)在其他癌癥預(yù)后上的優(yōu)良表現(xiàn),本文利用SEER數(shù)據(jù)庫中乳腺癌患者相關(guān)數(shù)據(jù),通過Boosting集成學(xué)習(xí)方法來預(yù)測乳腺癌患者5年生存狀況并分析其影響因素,為臨床預(yù)后預(yù)測提供支持。

      1? ? 方法

      1.1? ? SMOTE算法

      類別不平衡問題是指目標(biāo)變量的類別分布不均,數(shù)據(jù)集中于某一類的樣本量遠(yuǎn)高于其他類的現(xiàn)象[16]。本文采用SMOTE算法[17]來進(jìn)行上采樣,其基本思想是:對(duì)少數(shù)類樣本進(jìn)行分析后,人工合成新的少數(shù)類樣本。具體算法流程為:

      Step 1? ? 計(jì)算少數(shù)類中每一個(gè)樣本[a]到其他少數(shù)類樣本的歐式距離,得到其[k]近鄰;

      Step 2? ? 從少數(shù)類樣本[a]的[k]近鄰中隨機(jī)選擇若干個(gè)樣本,假設(shè)選擇的近鄰為[b];

      Step 3? ? 對(duì)于每一個(gè)隨機(jī)選出的近鄰[b],分別與原樣本按照式(1)構(gòu)建新的樣本[c]。

      [c=a+rand(0, 1)×|a-b|].? ? ? ? ?(1)

      1.2? ?Boosting算法

      Boosting算法是一種通過訓(xùn)練產(chǎn)生多個(gè)簡單分類器集成從而提升弱分類器為強(qiáng)分類器的過程[18],如圖1所示。其具體實(shí)現(xiàn)步驟是[19]:

      Step 1? ?給定一組訓(xùn)練樣本[S],[S={(x1, y1)],[(x2, y2)][, …][, (xn, yn)}],初始化每一個(gè)樣本的權(quán)重系數(shù)[ω(1)i=1/n, i=1,2,…,n];

      Step 2? ? 在每一次循環(huán)[t=1, 2, …, r],重復(fù)以下步驟:

      1)使用弱分類器訓(xùn)練有權(quán)重的樣本[{S,ω(t)}],得到分類器[ht]和權(quán)重訓(xùn)練誤差[εt],依靠權(quán)重訓(xùn)練誤差檢查得到一個(gè)終止準(zhǔn)則;

      2)選擇弱分類器權(quán)重[αt],更新權(quán)重系數(shù)[ωt];

      Step 3? ? 輸出強(qiáng)分類器[H(x)=argmaxy∈{-1,1}t,ht(x)=yαt]。

      圖1中:[X]對(duì)應(yīng)訓(xùn)練樣本[S];[St(t=1, 2, …, r)]為[r]次迭代的樣本分配;[Ct(t=1, 2, …, r)]為在一定權(quán)重條件下訓(xùn)練數(shù)據(jù)得到的分類法,可以根據(jù)[Ct]的錯(cuò)誤率調(diào)整權(quán)重,每一個(gè)[Ct]對(duì)應(yīng)每一個(gè)弱分類器[ht(x)];[ω(t)]為第[t]次循環(huán)初始化樣本權(quán)重[ω(t)i(i=1, 2, …, n)]的集合;[ωt(t=1, 2, …, r)]為樣本更新權(quán)重;[αt(t=1, 2, …, r)]為每一個(gè)基分類器權(quán)重。

      為了預(yù)測乳腺癌患者5年生存狀態(tài),本文選取的單一模型為邏輯回歸(Logistic Regression)、決策樹(Decision Tree)和K近鄰(Knn);集成模型則選擇Boosting集成模型的代表性算法:Light Gradient Boosting Machine(LightBGM)、Categorical Boosting(CatBoost)和Gradient Boosting Decision Tree(GBDT)。

      1.3? ?SHAP方法

      SHAP[20]是shapley additive explanation的縮寫,是一種可以對(duì)復(fù)雜機(jī)器學(xué)習(xí)模型進(jìn)行解釋的方法。SHAP方法的核心是shapley值,即貢獻(xiàn)值。如圖2所示,假設(shè)集合中有3個(gè)特征[z1]、[z2]、[z3],[f(x)]表示某一樣本的最終預(yù)測值。對(duì)于整個(gè)數(shù)據(jù),可以用原始模型[f]預(yù)測后的預(yù)測值來計(jì)算平均值[E[f(z)]],記作[?0]。[?1]、[?2]、[?3]分別表示考慮特征[z1]、[z2]、[z3]的貢獻(xiàn)值。貢獻(xiàn)值可正可負(fù),如圖2中實(shí)線[?1]、[?2]表示正影響,虛線[?3]表示負(fù)影響。

      1.4? ?模型評(píng)價(jià)指標(biāo)

      通過5個(gè)二元分類性能指標(biāo)來評(píng)價(jià)各模型的性能:準(zhǔn)確率(Accuracy)、AUC、召回率(Recall)、精確度(Precision)以及F1值。5個(gè)指標(biāo)的區(qū)間都是[[0, 1]],值越接近1表示分類效果越好。

      2? ? 數(shù)據(jù)來源和處理

      2.1? ?數(shù)據(jù)來源

      本研究數(shù)據(jù)來源于監(jiān)測、流行病學(xué)及預(yù)后數(shù)據(jù)庫(surveillance, epidemiology and end results, SEER)[21],通過SEER*Stat 8.3.9軟件提取更新于2021年4月15日的數(shù)據(jù)。依據(jù)第7版AJCC臨床指南、NCCN臨床指南以及臨床醫(yī)師的指導(dǎo),從原始數(shù)據(jù)中,篩選出性別、診斷年份、種族、年齡段、原發(fā)灶、組織學(xué)形態(tài)、偏側(cè)性、腫瘤等級(jí)、腫瘤分期、雌激素狀態(tài)、孕激素狀態(tài)、腫瘤大小、化療與否、腫瘤患者發(fā)病部位、婚姻狀態(tài)、檢出淋巴結(jié)數(shù)目、淋巴結(jié)轉(zhuǎn)移數(shù)目、死亡原因、存活月數(shù)、T分期、N分期、M分期和生存狀態(tài)一共23個(gè)字段作為原始數(shù)據(jù)。

      2.2? ?隊(duì)列選擇

      2.2.1? ? ?5年特異性生存

      本研究以乳腺癌患者5年生存情況為預(yù)測目標(biāo),用存活月數(shù)構(gòu)建分類變量。存活月數(shù)>60,記為1,認(rèn)為該患者在首次確診為乳腺癌后的5年后仍存活;存活月數(shù)≤60,記為0,認(rèn)為該患者在首次確診為乳腺癌后的5年內(nèi)因?yàn)槿橄侔┒劳觥?/p>

      2.2.2? ? ?隊(duì)列篩選

      從2004—2016年共784 151條數(shù)據(jù)中按要求篩選,最終得到數(shù)據(jù)227 767條。具體要求如下:

      1)初次診斷年份為2004—2010年。入選病例隨訪截止時(shí)間為2016年12月31日,為保證患者隨訪時(shí)間在5年以上,僅選擇初次診斷年份為2004—2010年的患者。

      2)性別為女性。

      3)腫瘤患者發(fā)病部位為乳腺。

      4)若患者死亡,則死亡原因?yàn)槿橄侔?/p>

      5)患者信息須準(zhǔn)確。SEER數(shù)據(jù)庫中存在缺失值,被記錄為不知道(unknown)和空白(black())。除此之外,還存在信息表述不清的情況,例如腫瘤大小這一變量除被記錄為不知道(unknown)和空白(black())數(shù)據(jù)之外,還存在兩類數(shù)值:第一類是當(dāng)數(shù)值在0~989 時(shí),其值對(duì)應(yīng)具體腫瘤大小,該數(shù)值以mm為單位;第二類是991~995之間的具有特殊意義的數(shù)值,該類與第一類中采用精確數(shù)值來表示腫瘤大小不同,采用區(qū)間來表示腫瘤大小,如995表示腫瘤大小[<]5 cm??紤]到無法為其進(jìn)行精確量化,同時(shí)原始樣本量大,該類信息表述不清的樣本占比較小,故直接將這些記錄刪除。篩選過程如圖3所示。

      進(jìn)一步分析,檢查刪除這些記錄對(duì)于其他變量的影響。結(jié)果表明,刪除這些記錄對(duì)其他變量分布的影響不顯著,認(rèn)為刪除這部分?jǐn)?shù)據(jù)合理。如圖4所示,刪除數(shù)據(jù)前后,年齡這一變量的分布變化不顯著。同時(shí),將年齡段組值計(jì)算加權(quán)平均數(shù)代替平均值,計(jì)算標(biāo)準(zhǔn)差進(jìn)行比較,發(fā)現(xiàn)差異較小。

      2.2.3? ? ?特征選擇

      除直接從SEER數(shù)據(jù)庫中獲得變量外,淋巴結(jié)轉(zhuǎn)移數(shù)目這一變量的值,大部分為0~90之間的整數(shù),除此之外,還存在一個(gè)特殊的數(shù)值為98,表示該患者未檢查淋巴結(jié)??紤]到在臨床中不對(duì)淋巴結(jié)進(jìn)行檢查,可能的原因是該患者的臨床癥狀不明顯或病情較輕而無需對(duì)淋巴結(jié)進(jìn)行檢查,所以將該特殊數(shù)值98修改為0,并創(chuàng)建一個(gè)新的類別變量——examined or not,用來表示患者是否對(duì)淋巴結(jié)進(jìn)行了檢查。若淋巴結(jié)轉(zhuǎn)移數(shù)目為0~90,表示檢查了淋巴結(jié),用Yes表示;淋巴結(jié)轉(zhuǎn)移數(shù)目為98,則用No表示。

      最終納入模型的18個(gè)特征分為人口學(xué)特征(表1)和臨床病理特征(表2)。

      2.3? ?數(shù)據(jù)預(yù)處理

      將數(shù)據(jù)按照7∶3的比例劃分訓(xùn)練和測試數(shù)據(jù),并進(jìn)行以下預(yù)處理:

      1)標(biāo)準(zhǔn)化

      對(duì)數(shù)據(jù)進(jìn)行zscore標(biāo)準(zhǔn)化來避免數(shù)據(jù)變量量綱不同、自身變異或者數(shù)值相差較大等問題造成的預(yù)測誤差。

      2)yeo-johnson變換

      日常生活中的數(shù)據(jù)普遍滿足高斯分布,因此,對(duì)原始數(shù)據(jù)做轉(zhuǎn)型操作,轉(zhuǎn)換方法設(shè)置為“yeo-johnson”變換[22]。

      3? ? 模型建立與結(jié)果

      3.1? ?模型的建立

      227 767條數(shù)據(jù)中,患者在被確診為乳腺癌5年后仍存活的數(shù)據(jù)200 954條,死亡數(shù)據(jù)26 813條,其比例約7.45∶1,認(rèn)為存在類別不平衡問題。因此,用SMOTE算法對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行處理。

      各模型在進(jìn)行十折交叉驗(yàn)證訓(xùn)練后的準(zhǔn)確率如表3所示。單一模型中決策樹模型的訓(xùn)練準(zhǔn)確率最高,達(dá)到0.990 0,但是驗(yàn)證集的準(zhǔn)確率僅為0.840 0,相差較大,說明模型在訓(xùn)練集上出現(xiàn)了過擬合現(xiàn)象;集成模型中LightGBM和GBDT的訓(xùn)練精確度和驗(yàn)證精確度相同,數(shù)值分別為0.907 8和0.904 0;SMOTE方法與集成模型的組合中,LightGBM的準(zhǔn)確率在測試集和驗(yàn)證集上均最高,分別為0.907 5和0.905 2。

      各模型在測試集上的表現(xiàn)如表4所示。SMOTE方法與LightGBM結(jié)合得到了最高的準(zhǔn)確度、AUC、精確度和F1值,召回率僅比CatBoost模型低0.002 1,是所有模型中最優(yōu)的。

      從整體上來看,單一模型的效果沒有集成模型好,SMOTE方法與集成學(xué)習(xí)的組合比僅使用集成模型在測試集上效果好??梢?,SMOTE算法解決了數(shù)據(jù)類別不平衡的問題,使各個(gè)集成模型的分類能力得到了一定程度的提升。

      3.2? ?特征重要性排序及解釋

      3.2.1? ? ?特征重要性排序

      如表4所示,SMOTE與集成模型組合的預(yù)測效果較優(yōu),分別將LightGBM、CatBoost和GBDT共3個(gè)模型在做乳腺癌5年生存狀態(tài)預(yù)測時(shí)的特征按重要性進(jìn)行排序,發(fā)現(xiàn)最重要的10個(gè)特征中有7個(gè)特征是3個(gè)模型所共有的。如圖5所示,共同特征為腫瘤大小、檢出淋巴結(jié)數(shù)目、淋巴結(jié)轉(zhuǎn)移數(shù)、孕激素受體、雌激素受體、組織學(xué)等級(jí)、年齡。同時(shí)發(fā)現(xiàn),這些特征在3個(gè)模型上的重要性排序基本保持一致,最重要的特征是腫瘤大小,其次是檢出淋巴結(jié)數(shù)目和淋巴結(jié)轉(zhuǎn)移數(shù)。

      3.2.2? ? ?SHAP特征解釋

      如圖6所示,腫瘤大小增加,患者5年內(nèi)死亡的風(fēng)險(xiǎn)也會(huì)升高。淋巴結(jié)轉(zhuǎn)移數(shù)越多,患者5年內(nèi)死亡的風(fēng)險(xiǎn)越高。隨著檢出淋巴結(jié)數(shù)目的增加,患者五年內(nèi)死亡的風(fēng)險(xiǎn)降低。由此可見腫瘤大小和淋巴結(jié)轉(zhuǎn)移對(duì)乳腺癌5年生存狀態(tài)影響很大,轉(zhuǎn)移淋巴結(jié)的切除能夠降低死亡風(fēng)險(xiǎn)。同時(shí)發(fā)現(xiàn)組織學(xué)分級(jí)越高,患者在5年內(nèi)死亡的風(fēng)險(xiǎn)也會(huì)越高。孕激素和雌激素受體成陰性時(shí),患者5年內(nèi)死亡的風(fēng)險(xiǎn)升高。年齡越大,患者5年內(nèi)死亡的風(fēng)險(xiǎn)也越大。

      4? ? 討論

      在“數(shù)字醫(yī)學(xué)”背景下,利用大數(shù)據(jù)輔助醫(yī)生進(jìn)行醫(yī)學(xué)決策越來越受到重視。基于大量歷史數(shù)據(jù),依據(jù)數(shù)據(jù)特征采用合適的算法來預(yù)測特定人群、疾病的未來趨勢是醫(yī)療大數(shù)據(jù)的特點(diǎn)之一。本研究利用SEER數(shù)據(jù)庫中2004—2010年乳腺癌相關(guān)數(shù)據(jù),通過Boosting集成學(xué)習(xí)算法的3種經(jīng)典模型來預(yù)測乳腺癌5年生存狀態(tài)并分析其影響因素,可為個(gè)性化醫(yī)療制定合理的治療計(jì)劃提供參考。

      本研究的數(shù)據(jù)是連續(xù)變量和分類變量的混合體,其中大部分是多分類變量,這一類型的變量在建立模型時(shí)易出現(xiàn)維度災(zāi)難等問題。Boosting集成模型是一種基于樹的模型,可基于類別變量的劃分規(guī)則去創(chuàng)建樹,能夠有效解決維度災(zāi)難問題[19]。此外,該類模型可根據(jù)變量在樹結(jié)構(gòu)中的位置深度對(duì)變量的重要性進(jìn)行排序,使模型具有較好的可解釋性[13]。本文通過特征重要性排序發(fā)現(xiàn),腫瘤大小、檢出的淋巴結(jié)總數(shù)、淋巴結(jié)轉(zhuǎn)移數(shù)、雌激素受體、孕激素受體、組織學(xué)等級(jí)等均是乳腺癌患者5年生存情況的重要影響因素。同時(shí)發(fā)現(xiàn)淋巴結(jié)轉(zhuǎn)移數(shù)越多、腫瘤越大,患者5年內(nèi)死亡的風(fēng)險(xiǎn)越高;隨著檢出的淋巴結(jié)總數(shù)的增加,預(yù)后越好;組織學(xué)等級(jí)越高,雌激素受體和孕激素受體為陰性時(shí)預(yù)后越差。這些結(jié)果均與已有研究[23-27]結(jié)論相吻合。

      為了解決乳腺癌數(shù)據(jù)因較高特異性生存率而產(chǎn)生的類別不平衡問題,本研究采用SMOTE上采樣方法來處理訓(xùn)練集,結(jié)果發(fā)現(xiàn)平衡后的數(shù)據(jù)建模效果更優(yōu)。與此同時(shí),冉霞[28]采用下采樣的方法平衡數(shù)據(jù)后進(jìn)行乳腺癌預(yù)后預(yù)測也取得較好結(jié)果??梢姡鎸?duì)類別不平衡問題,通過重采樣技術(shù)能夠在一定程度上提升模型的性能。但是,本研究中Boosting集成模型在采用SMOTE處理后,各個(gè)模型在測試集上的表現(xiàn)提升較小,可能的原因有:Boosting集成模型在處理數(shù)據(jù)時(shí),主要通過擬合殘差的方式逐步減小誤差來找出樹的最佳節(jié)點(diǎn)和分枝方法[3],該過程與數(shù)據(jù)類別是否平衡無關(guān),因此,受類別不平衡因素的影響較小。未進(jìn)行SMOTE上采樣時(shí),Boosting集成模型的AUC已較優(yōu),在平衡數(shù)據(jù)后僅有較小提升。

      利用單一機(jī)器學(xué)習(xí)模型進(jìn)行乳腺癌生存情況預(yù)測存在一定不足,雖然最優(yōu)模型可獲得較高AUC,但準(zhǔn)確度較低[9-11]。相比之下,集成學(xué)習(xí)模型具有更好的性能。一方面,集成學(xué)習(xí)模型中最優(yōu)模型的AUC與單一機(jī)器學(xué)習(xí)模型相當(dāng),但準(zhǔn)確度和召回率等指標(biāo)均達(dá)到0.9以上;另一方面,集成學(xué)習(xí)模型能更加靈活地處理乳腺癌生存率等復(fù)雜性數(shù)據(jù)。SEER數(shù)據(jù)庫中的變量主要來自于先前的臨床知識(shí),大多與生存結(jié)果線性相關(guān)[3]。Logistic模型作為一種廣義上的線性模型,能夠較好地處理變量之間的線性關(guān)系,這也進(jìn)一步說明本研究采用Logistic模型測試數(shù)據(jù)集時(shí),其性能較好,僅略低于集成模型。然而,實(shí)際情況是:影響乳腺癌生存率的特征不僅存在線性相關(guān)關(guān)系,還可能存在非線性關(guān)系[29]。相較于Logistic模型,集成模型沒有線性關(guān)系的限定,可能不會(huì)受到變量間非線性關(guān)系的影響,因而在本研究中展現(xiàn)出更好的性能,這也側(cè)面反映了本研究結(jié)果存在一定的科學(xué)性與準(zhǔn)確性。

      5? ? 結(jié)論

      本文從SEER數(shù)據(jù)庫提取乳腺癌相關(guān)數(shù)據(jù),使用集成學(xué)習(xí)模型構(gòu)建乳腺癌5年生存狀態(tài)的預(yù)測模型。研究結(jié)果表明,腫瘤大小、檢出淋巴結(jié)數(shù)目、淋巴結(jié)轉(zhuǎn)移數(shù)、孕激素受體、雌激素受體等特征是乳腺癌5年生存狀態(tài)最重要的特征;同時(shí),從各模型的表現(xiàn)來看,LightGBM模型各項(xiàng)指標(biāo)均較優(yōu),可作為一個(gè)工具輔助臨床醫(yī)生為乳腺癌患者做出更好的治療決策。但本研究也存在未進(jìn)行外部驗(yàn)證,缺少自身心理狀況數(shù)據(jù)[30]等不足,因此,需進(jìn)一步尋找外部數(shù)據(jù)進(jìn)行更深入的研究。

      參考文獻(xiàn)

      [1]? ? ?徐盼玲.基于SEER數(shù)據(jù)庫的三陰型乳腺癌腦轉(zhuǎn)移預(yù)后及影響因素研究[D].合肥:安徽醫(yī)科大學(xué),2019.

      [2]? ? ?陳茂山,李芳芳,楊宏偉,等.基于SEER數(shù)據(jù)庫分析142007例乳腺癌診斷時(shí)婚姻狀態(tài)與預(yù)后的關(guān)系[J].重慶醫(yī)科大學(xué)學(xué)報(bào),2020,45(11):1567-1572.

      [3]? ? ?DU M,HAAG D G,LYNCH J W,et al.Comparison of the tree-based machine learning algorithms to Cox regression in predicting the survival of Oral and Pharyngeal cancers:analyses based on SEER database[J].Cancers,2020,12(10):1-17.

      [4]? ? ?徐良辰,郭崇慧.基于集成學(xué)習(xí)的胃癌生存預(yù)測模型研究[J].數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn),2021,5(8):86-99.

      [5]? ? ?安曉寧,王智文,張燦龍,等.基于隱馬爾可夫模型的人臉特征標(biāo)注和識(shí)別[J].廣西科技大學(xué)學(xué)報(bào),2020,31(2):118-125.

      [6]? ? ?孫金芳,王智文,王康權(quán),等.基于主成分降維及多層感知神經(jīng)網(wǎng)絡(luò)的辛烷值預(yù)測分析[J].廣西科技大學(xué)學(xué)報(bào),2021,32(3):67-73.

      [7]? ? ?DELEN D, WALKER G, KADAM A. Predicting breast cancer survivability:a comparison of three data mining methods[J]. Artificial Intelligence in Medicine,2005,34(2):113-127.

      [8]? ? ?BELLAACHIA A,GUVEN E.Predicting breast cancer survivability using data mining techniques[C]//Proceedings of the 6th SIAM International Conference on Data Mining,Bethesda,MD,USA,2006.

      [9]? ? ?劉雅琴,王成,章魯.基于神經(jīng)網(wǎng)絡(luò)的乳腺癌生存預(yù)測模型[J].中國生物醫(yī)學(xué)工程學(xué)報(bào),2009,28(2):221-225.

      [10]? ?章鳴嬛,張璇,郭欣,等.基于SEER數(shù)據(jù)庫利用機(jī)器學(xué)習(xí)方法分析乳腺癌的預(yù)后因素[J].北京生物醫(yī)學(xué)工程,2019,38(5):486-491,497.

      [11]? ?章鳴嬛,陳瑛,郭欣,等.利用Logistic回歸和神經(jīng)網(wǎng)絡(luò)分析乳腺癌的預(yù)后因素[J].計(jì)算機(jī)與數(shù)字工程,2020,48(3):617-622.

      [12]? ?周波.基于集成學(xué)習(xí)的不平衡數(shù)據(jù)分類的研究及應(yīng)用[D].大連:大連理工大學(xué),2014.

      [13]? ?JIANG J Z,PAN H,LI M B,et al.Predictive model for the 5-year survival status of osteosarcoma patients based on the SEER database and XGBoost algorithm[J].Scientific Reports,2021,11(1):1-9.

      [14]? ?WOLPERT D H. Stacked generalization[J].Neural Networks,1992,5(2):241-259.

      [15]? ?陳雨桐.集成學(xué)習(xí)算法之隨機(jī)森林與梯度提升決策樹的分析比較[J].電腦知識(shí)與技術(shù),2021,17(15):32-34.

      [16]? ?SUH S,LEE H,LUKOWICZ P,et al.CEGAN:classification enhancement generative adversarial networks for unraveling data imbalance problems[J]. Neural Networks,2021,133:69-86.

      [17]? ?秦靜,左長青,汪祖民,等.基于堆疊分類器的心電異常監(jiān)測模型設(shè)計(jì)[J].計(jì)算機(jī)應(yīng)用,2021,41(3):887-890.

      [18]? ?VALIANT L G.A theory of the learnable[J].Communications of the ACM,1984,27(11):1134-1142.

      [19]? ?李想.Boosting分類算法的應(yīng)用與研究[D].蘭州:蘭州交通大學(xué),2012.

      [20]? ?LUNDBERG S M,LEE S I.A unified approach to interpreting model predictions[C]//Conference on Neural

      Information Processing Systems,Long Beach,CA,USA,2017:4765-4774.

      [21]? ?章鳴嬛,陳瑛,汪城,等.美國國立癌癥研究所SEER數(shù)據(jù)庫概述及應(yīng)用[J].微型電腦應(yīng)用,2015,31(12):26-28,32.

      [22]? ?YEO I K,JOHNSON R A. A new family of power transformations to improve normality or symmetry[J].Biometrika,2000,87(4):954-959.

      [23]? ?宋效清,謝裕賽,邱雪杉.乳腺癌患者預(yù)后評(píng)估模型的構(gòu)建[J].大連醫(yī)科大學(xué)學(xué)報(bào),2021,43(1):29-37.

      [24]? ?王哲.陽性淋巴結(jié)比例預(yù)測乳腺癌患者預(yù)后的價(jià)值研究[D].天津:天津醫(yī)科大學(xué),2020.

      [25]? ?TAUSCH C,TAUCHER S,DUBSKY P,et al.Prognostic value of number of removed lymph nodes,number of involved lymph nodes,and lymph node ratio in 7502 breast cancer patients enrolled onto trials of the Austrian breast and colorectal cancer study group(ABCSG)[J].Annals of Surgical Oncology,2012,19(6):1808-1817.

      [26]? ?VINH-HUNG V,BURZYKOWSKI T,CSERNI G,et al.Functional form of the effect of the numbers of axillary nodes on survival in early breast cancer[J].International Journal of Oncology,2003,22(3):697-704.

      [27]? ?張振偉,孫家和,張立功,等.乳腺癌骨轉(zhuǎn)移患者危險(xiǎn)因素及預(yù)后因素分析[J].臨床外科雜志,2021,29(3):243-247.

      [28]? ?冉霞.基于機(jī)器學(xué)習(xí)組合模型的乳腺癌生存預(yù)測[D].濟(jì)南:山東大學(xué),2020.

      [29]? ?尹玢璨,辛世超,張晗,等.基于SEER數(shù)據(jù)庫應(yīng)用貝葉斯網(wǎng)絡(luò)構(gòu)建亞洲腫瘤患者預(yù)后模型——以非小細(xì)胞肺癌為例[J].數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn),2017(2):41-46.

      [30]? ?唐鈴豐,嚴(yán)萍,舒秀潔,等.基于SEER數(shù)據(jù)庫構(gòu)建轉(zhuǎn)移性乳腺癌患者的生存預(yù)測模型[J].中國普外基礎(chǔ)與臨床雜志,2021,28(3):309-315.

      Breast cancer survival prediction based

      on ensemble learning

      ZHANG Jijie1, QIN Qinghong2, LIU Xueping*3, WANG Kangquan1, WEI Wei1

      (1.College of Science, Guangxi University of Science and Technology, Liuzhou 545006, China;

      2.Affiliated Cancer Hospital, Guangxi Medical University, Nanning 530021, China;

      3.Medical School, Guangxi University of Science and Technology, Liuzhou 545005, China)

      Abstract: The research is conducted to predict the 5-year survival status of breast cancer and analyze the influence factors. Firstly, the breast cancer related data from 2004—2010 were selected from the SEER database, and the selected featured data were preprocessed. Secondly, in terms of data, SMOTE algorithm was used to oversample the data to solve the imbalance of data categories; in terms of? ? ? ? ? algorithm, the advantagess and disadvantages of lightgbm, catboost and gbc in predicting the 5-year? survival status of breast cancer were compared. Finally, the influencing factors of breast cancer 5-year survival status were analyzed by SHAP value after ranking. The 5-year survival prediction model of breast cancer constructed in this paper has better performance than a single model. The accuracy rate, AUC, recall rate, precision rate and F1-score are 0.906 0, 0.844 3, 0.983 7, 0.916 0 and 0.948 7? ? ? ? ? ? respectively; and it shows that the 5-year survival status of breast cancer is closely related to tumor size, examined lymph nodes, positive lymph nodes, ER status, PR status, and age. The model can provide prognosis prediction for the clinic with its excellent performance and the selected important features consistent with the current clinical results.

      Key words: SEER database; breast cancer; ensemble learning; prognosis prediction

      (責(zé)任編輯:黎? 婭)

      猜你喜歡
      集成學(xué)習(xí)乳腺癌
      絕經(jīng)了,是否就離乳腺癌越來越遠(yuǎn)呢?
      中老年保健(2022年6期)2022-08-19 01:41:48
      中醫(yī)治療乳腺癌的研究進(jìn)展
      乳腺癌是吃出來的嗎
      胸大更容易得乳腺癌嗎
      別逗了,乳腺癌可不分男女老少!
      祝您健康(2018年5期)2018-05-16 17:10:16
      基于局部有效性的選擇性決策樹集成
      基于集成學(xué)習(xí)的高送轉(zhuǎn)股票研究
      基于稀疏編碼器與集成學(xué)習(xí)的文本分類
      基于屬性權(quán)重的Bagging回歸算法研究
      基于改進(jìn)的LogitBoost算法的垃圾網(wǎng)頁檢測研究
      科技視界(2015年27期)2015-10-08 11:01:28
      白朗县| 临朐县| 喜德县| 莎车县| 新源县| 通榆县| 洪洞县| 长兴县| 呈贡县| 顺平县| 洪泽县| 杭州市| 威远县| 安康市| 韩城市| 改则县| 岢岚县| 安康市| 离岛区| 台前县| 南陵县| 扶绥县| 余姚市| 安溪县| 临桂县| 介休市| 罗田县| 灵山县| 封开县| 项城市| 东辽县| 丰城市| 福鼎市| 互助| 曲沃县| 琼海市| 盐津县| 孝感市| 桑日县| 封开县| 张家川|