• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于重采樣和集成學(xué)習(xí)的彌漫大B細(xì)胞淋巴瘤患者復(fù)發(fā)風(fēng)險(xiǎn)預(yù)測(cè)模型*

      2019-09-17 11:55:50趙志強(qiáng)余紅梅鄭楚楚黃雪倩武淑琴羅艷虹
      關(guān)鍵詞:決策樹(shù)靈敏度準(zhǔn)確率

      王 蕾 趙志強(qiáng) 余紅梅 鄭楚楚 黃雪倩 武淑琴△ 羅艷虹△

      【提 要】 目的 對(duì)某腫瘤醫(yī)院血液科2011-2015年283名彌漫大B細(xì)胞淋巴瘤患者進(jìn)行達(dá)到完全緩解后三年內(nèi)的復(fù)發(fā)風(fēng)險(xiǎn)預(yù)測(cè),為患者三年內(nèi)的復(fù)發(fā)情況提供參考。方法 用logistic回歸進(jìn)行復(fù)發(fā)影響因素分析。采用重采樣(包括SMOTE等三種方法)處理不平衡數(shù)據(jù),同時(shí)基于boosting集成分別構(gòu)建C5.0決策樹(shù)、SVM和logistic回歸復(fù)發(fā)風(fēng)險(xiǎn)預(yù)測(cè)模型。結(jié)果 由logistic回歸可知,Ki-67(P=0.006,OR=1.826)、LDH是否升高(P=0.012,OR=2.084)、原發(fā)縱膈腫物(P=0.033,OR=0.333)及疾病等級(jí)(P=0.001,OR=1.605)是彌漫性大B細(xì)胞淋巴瘤患者三年復(fù)發(fā)的重要影響因素。通過(guò)將訓(xùn)練集與測(cè)試集回代對(duì)各種模型性能進(jìn)行評(píng)價(jià),并用五種評(píng)價(jià)指標(biāo)的比較模型性能可知,集成模型均優(yōu)于其對(duì)應(yīng)的單個(gè)學(xué)習(xí)器;平衡后數(shù)據(jù)構(gòu)建模型性能均優(yōu)于未平衡數(shù)據(jù)構(gòu)建模型,其中SMOTE最優(yōu);在測(cè)試集驗(yàn)證的模型中,經(jīng)過(guò)SMOTE平衡數(shù)據(jù)構(gòu)建SVMBOOST集成模型(準(zhǔn)確率=0.93,F(xiàn)值=0.94,AUC=0.93,Rmse=0.26,G-mean=0.93,靈敏度=0.97)和C5.0BOOST模型(準(zhǔn)確率=0.94,F(xiàn)值=0.95,AUC=0.94,RMSE=0.24,G-mean=0.94,靈敏度=0.94),均有較優(yōu)的表現(xiàn)。結(jié)論 基于重采樣和集成學(xué)習(xí)構(gòu)建的經(jīng)過(guò)SMOTE平衡后SVMBOOST模型達(dá)到預(yù)期效果。

      彌漫大B細(xì)胞淋巴瘤(diffuse large B cell lymphoma,DLBCL)是最常見(jiàn)的非霍奇金淋巴瘤(non-Hodgkin lymphoma,NHL),它在每年新診斷的成人非霍奇金淋巴瘤(NHL)中占30%至40%。雖然R-CHOP(利妥昔單抗Rituximab+環(huán)磷酰胺Cyclophosphamide、阿霉素[羥基柔紅霉素]Doxorubicin、長(zhǎng)春新堿Vincristine和強(qiáng)的松Prednisone)化療方案是目前的標(biāo)準(zhǔn)治療方法,對(duì)于疾病等級(jí)Ⅲ、Ⅳ級(jí)的患者都有較好的療效,患者生存率為60%~90%。但仍存在30%到50%患者對(duì)該方案耐藥,進(jìn)而使達(dá)到完全緩解(complete remission,CR)后的患者有30%復(fù)發(fā)[1-2]。復(fù)發(fā)使患者的生存率降到10%~20%。本研究意在對(duì)達(dá)到完全緩解的患者的復(fù)發(fā)風(fēng)險(xiǎn)進(jìn)行預(yù)測(cè)并探究影響患者復(fù)發(fā)的危險(xiǎn)因素。因30%到50%復(fù)發(fā)率造成數(shù)據(jù)的不平衡,故而需對(duì)數(shù)據(jù)進(jìn)行重采樣使其平衡[3]。將經(jīng)過(guò)重采樣數(shù)據(jù)與未平衡數(shù)據(jù)所構(gòu)建的預(yù)測(cè)模型的性能進(jìn)行比較。

      傳統(tǒng)用于風(fēng)險(xiǎn)預(yù)測(cè)的模型是logistic回歸,由于影響DLBCL患者復(fù)發(fā)因素錯(cuò)綜復(fù)雜,目前尚無(wú)定論,故判定患者的復(fù)發(fā)風(fēng)險(xiǎn)需要收集大量特征。大量文獻(xiàn)表明C5.0算法是在輸入字段(即患者特征)較多的問(wèn)題中表現(xiàn)較穩(wěn)健,處理的數(shù)據(jù)類(lèi)型可包括連續(xù)型和離散型,分類(lèi)速度快、精度高,可生成易于理解的分類(lèi)規(guī)則,故本研究采用C5.0決策樹(shù)構(gòu)建模型[4-5]。因支持向量機(jī)(support vector machine,SVM)針對(duì)小樣本、非線性、高維數(shù)的數(shù)據(jù)具有較好的預(yù)測(cè)性能[6],故選擇SVM構(gòu)建預(yù)測(cè)模型。并將以上模型與傳統(tǒng)logistic模型比較。以上模型均為弱學(xué)習(xí)算法,訓(xùn)練集中較小波動(dòng)都會(huì)使模型預(yù)測(cè)結(jié)果產(chǎn)生較大變化,而boosting集成通過(guò)賦予弱學(xué)習(xí)器不同權(quán)重的方法有效地提高模型性能,本研究采用集成學(xué)習(xí)[7],以便使構(gòu)建模型為臨床醫(yī)生對(duì)患者三年內(nèi)復(fù)發(fā)風(fēng)險(xiǎn)及相關(guān)危險(xiǎn)因素提供更為有效預(yù)測(cè)。

      資料與方法

      本研究數(shù)據(jù)來(lái)源于某醫(yī)院2011-2015年被診斷為DLBCL并通過(guò)一線化療方案達(dá)到完全緩解病例共283例,其中三年內(nèi)復(fù)發(fā)人數(shù)為71例。根據(jù)《2013年中國(guó)彌漫大B細(xì)胞淋巴瘤診斷與治療指南》[20](中華醫(yī)學(xué)會(huì)血液學(xué)分會(huì),2013)及電子病歷記錄情況,收集每個(gè)樣本的15個(gè)變量。具體變量名稱(chēng)及賦值見(jiàn)表1。首先錄入到Epidata3.0軟件中,采用雙錄入方式,并逐一核對(duì)。表1中可見(jiàn)未復(fù)發(fā)患者幾乎是復(fù)發(fā)者的三倍,故而需平衡數(shù)據(jù)后再進(jìn)行預(yù)測(cè)。

      原理及方法

      本研究分別用欠采樣(under-sample)、過(guò)采樣(over-sample)與少類(lèi)樣本合成過(guò)采樣技術(shù)(synthetic over-sampling techniques for small samples,SMOTE)采樣對(duì)數(shù)據(jù)進(jìn)行數(shù)據(jù)平衡化,分別帶入C5.0決策樹(shù)、支持向量機(jī)和logistic回歸中構(gòu)建模型。之后分別用boosting集成,構(gòu)成C5.0-boosting集成模型,SVM-boosting集成模型和logistic-boosting集成模型。

      1.抽樣工作原理及過(guò)程

      對(duì)于不平衡數(shù)據(jù)主要采用重采樣的方法,重采樣方法可分為兩個(gè)層面:(1)數(shù)據(jù)層面包括過(guò)采樣及欠采樣,過(guò)采樣通過(guò)增加少數(shù)類(lèi)中的樣本數(shù)使數(shù)據(jù)集達(dá)到平衡,欠采樣則是通過(guò)減少多數(shù)類(lèi)平衡數(shù)據(jù)集;(2)算法層面包括SMOTE、隨機(jī)過(guò)采樣等,其中SMOTE是由Chawla于2002年提出的[8],其主要思想是通過(guò)在一些位置相近的少數(shù)類(lèi)樣本中插入增加新的并不存在的樣本點(diǎn),而非簡(jiǎn)單復(fù)制已有樣本點(diǎn)。此法可有效避免“過(guò)擬合”問(wèn)題[9]。本研究中使用R軟件中DMwR包中SMOTE語(yǔ)句實(shí)現(xiàn),其中設(shè)定perc.over=500,perc.under=100。使用R軟件中ROSE包中ovun.sample語(yǔ)句并設(shè)定method選項(xiàng)以實(shí)現(xiàn)欠采樣與過(guò)采樣。

      表1 283例彌漫大B細(xì)胞淋巴瘤患者基本特征及賦值

      2.支持向量機(jī)工作原理

      將訓(xùn)練數(shù)據(jù)集非線性映射到高維空間(Hilbert空間),以便將原先線性不可分?jǐn)?shù)據(jù)集變?yōu)榫€性可分。并在特征空間中建立最大間距最優(yōu)分離超平面,使最優(yōu)超平面與兩類(lèi)樣本間距離最大[12-14]。其中結(jié)構(gòu)風(fēng)險(xiǎn)最小化思想使學(xué)習(xí)器經(jīng)驗(yàn)風(fēng)險(xiǎn)與泛化誤差均較小。本研究利用R軟件中kernlab包實(shí)現(xiàn)中的ksvm語(yǔ)句,其中kernel選項(xiàng)設(shè)定為rbfdot,即為高斯核。

      3.C5.0決策樹(shù)工作原理

      C5.0決策樹(shù)算法較C4.5決策樹(shù)[10-11]加入boosting過(guò)程,其分類(lèi)依據(jù)為信息增益(information gain),通過(guò)信息增益最大字段對(duì)樣本數(shù)據(jù)分割。通過(guò)裁剪合并所得決策樹(shù)各節(jié)點(diǎn)確定最佳閾值。本研究利用R軟件中C50包中的C5.0語(yǔ)句,若需要對(duì)C5.0決策樹(shù)進(jìn)行boosting集成時(shí),設(shè)定語(yǔ)句中的trials選項(xiàng),本研究中將其設(shè)為10。

      4.集成學(xué)習(xí)工作原理及過(guò)程

      集成學(xué)習(xí)是由多個(gè)單個(gè)弱學(xué)習(xí)組成一個(gè)強(qiáng)學(xué)習(xí)器,由同一種弱學(xué)習(xí)器組成的強(qiáng)學(xué)習(xí)器稱(chēng)為同型集成模型。由兩種及以上弱學(xué)習(xí)器組成的強(qiáng)學(xué)習(xí)器稱(chēng)為異型集成模型。本研究中采用boosting算法進(jìn)行同型集成。boosting集成算法是一種迭代算法,其主要思想是利用重采樣的技術(shù)對(duì)訓(xùn)練集樣本進(jìn)行采樣形成多個(gè)樣本子集,將每個(gè)樣本子集帶入模型訓(xùn)練得到一個(gè)弱分類(lèi)器,以每個(gè)弱分類(lèi)器錯(cuò)誤率計(jì)算每個(gè)樣本的權(quán)值,根據(jù)權(quán)重投票表決加權(quán)求和,最終形成一個(gè)強(qiáng)分類(lèi)器[15]。本研究中對(duì)SVM及l(fā)ogistic的集成均是由R軟件caret包中train語(yǔ)句實(shí)現(xiàn)。

      本研究使用SPSS 22.0進(jìn)行l(wèi)ogistic回歸分析,后使用R軟件進(jìn)行數(shù)據(jù)平衡與模型構(gòu)建。針對(duì)所構(gòu)建的模型主要使用準(zhǔn)確率、靈敏度、F值、G-mean、RMSE及AUC等評(píng)價(jià)指標(biāo)進(jìn)行模型評(píng)價(jià)。

      結(jié) 果

      1.logistic回歸結(jié)果

      將以上變量納入logistic回歸模型中采用向前似然估計(jì)方法,構(gòu)建關(guān)于DLBCL患者三年復(fù)發(fā)風(fēng)險(xiǎn)預(yù)測(cè)模型,結(jié)果見(jiàn)表2。

      表2 logistic回歸結(jié)果

      由logistic回歸結(jié)果可知LDH是否升高的比值比(OR)最高,OR=2.084其95%CI為(1.178~3.686),說(shuō)明LDH升高的患者的三年復(fù)發(fā)風(fēng)險(xiǎn)是正?;颊叩?.084倍。其次為生化指標(biāo)Ki-67,OR=1.826其95%CI為(1.188~2.806),說(shuō)明生化指標(biāo)Ki-67大于70%患者的復(fù)發(fā)風(fēng)險(xiǎn)比小于70%的患者高82.6%。疾病等級(jí)的OR=1.605其95%CI為(1.208~2.133),說(shuō)明患者疾病等級(jí)每升高一級(jí)其復(fù)發(fā)風(fēng)險(xiǎn)增加60.5%。原發(fā)縱膈腫瘤的OR=0.333其95%CI為(0.121~0.912),說(shuō)明原發(fā)縱隔DLBCL腫瘤預(yù)后較好,較原發(fā)其他部位的患者復(fù)發(fā)風(fēng)險(xiǎn)降低66.67%。

      2.運(yùn)用重采樣與boosting集成后的C5.0決策樹(shù)、支持向量機(jī)與logistic模型

      對(duì)數(shù)據(jù)分別進(jìn)行循環(huán)采樣及模型構(gòu)建各1000次,并將訓(xùn)練集與測(cè)試集分別代入模型進(jìn)行驗(yàn)證,選取以下六個(gè)指標(biāo)對(duì)模型進(jìn)行評(píng)價(jià),篇幅所限,僅給出使用測(cè)試集的驗(yàn)證模型評(píng)價(jià)結(jié)果,見(jiàn)表3。(其中用1代表未平衡的數(shù)據(jù),2代表經(jīng)過(guò)欠采樣,3代表經(jīng)過(guò)過(guò)采樣,4代表經(jīng)過(guò)SMOTE采樣)

      表3 測(cè)試集驗(yàn)證模型評(píng)價(jià)

      測(cè)試模型中,C5.0BOOST4模型(準(zhǔn)確率=0.94,F(xiàn)值=0.95,AUC=0.94,RMSE=0.24,G-mean=0.94,)及SVMBOOST4模型(準(zhǔn)確率=0.93,F(xiàn)值=0.94,AUC=0.93,RMSE=0.26,G-mean=0.94),兩種模型表現(xiàn)較優(yōu)。

      現(xiàn)以AUC為例,對(duì)模型的整體效果進(jìn)行評(píng)價(jià)。由圖1可知集成模型較各自單個(gè)學(xué)習(xí)器性能好,同時(shí)經(jīng)過(guò)重采樣后的數(shù)據(jù)構(gòu)建模型較未平衡的數(shù)據(jù)構(gòu)建有較好的性能,其中SMOTE采樣方法又優(yōu)于過(guò)采樣與欠采樣的模型結(jié)果。由于本研究考慮患者的復(fù)發(fā)風(fēng)險(xiǎn),故而復(fù)發(fā)病例為陽(yáng)性組,進(jìn)而采用靈敏度這一針對(duì)陽(yáng)性組預(yù)測(cè)準(zhǔn)確率的指標(biāo)進(jìn)一步對(duì)模型進(jìn)行評(píng)估。意在觀察該模型的針對(duì)訓(xùn)練集的記憶能力與針對(duì)測(cè)試集的預(yù)測(cè)能力,結(jié)果見(jiàn)圖1。

      由圖2可知,所有模型中訓(xùn)練模型靈敏度均優(yōu)于測(cè)試模型,平衡后數(shù)據(jù)所構(gòu)建模型靈敏度均高于未平衡數(shù)據(jù)所建模型。通過(guò)平衡后數(shù)據(jù)中,采用SMOTE平衡后SVMBOOST模型對(duì)訓(xùn)練集的靈敏度為0.99,對(duì)測(cè)試集的靈敏度為是0.97,在兩種情況下靈敏度均最優(yōu)。

      討 論

      1.DLBCL患者三年復(fù)發(fā)情況預(yù)測(cè)

      經(jīng)過(guò)logistic回歸共有Ki-67、LDH、原發(fā)縱膈腫瘤及疾病等級(jí)四個(gè)因素進(jìn)入模型。其中除原發(fā)縱膈腫瘤患者預(yù)后好于其他型DLBCL患者外,其余均為復(fù)發(fā)危險(xiǎn)因素。Ki-67 抗原是Gerdes等[16]于1984 年發(fā)現(xiàn)的一種與細(xì)胞增殖相關(guān)的核抗原,因其可以反映腫瘤細(xì)胞增殖活性,而成為目前應(yīng)用最廣泛的細(xì)胞增殖標(biāo)記物之一。當(dāng)前國(guó)內(nèi)外已有大量文獻(xiàn)證明Ki-67高表達(dá)與DLBCL患者預(yù)后密切相關(guān)[17-19],目前該指標(biāo)已是美國(guó)國(guó)立綜合癌癥網(wǎng)絡(luò)(National Comprehensive Cancer Network,NCCN)指南的必測(cè)指標(biāo),但其在患者預(yù)后及指導(dǎo)治療方面尚無(wú)明確作用。

      LDH即乳酸脫氫酶,其與疾病等級(jí)、年齡、結(jié)外受累數(shù)目、體能指數(shù)共同構(gòu)成重要的預(yù)后因素IPI指數(shù)[20],其中LDH升高、疾病等級(jí)增高都會(huì)使IPI增大,說(shuō)明患者預(yù)后差,與本研究結(jié)果一致。

      原發(fā)縱隔腫瘤(primary mediastinal large B-cell lymphoma,PMBL)由Lichtenstein等于1980年首次提出[21],是DLBCL中的一種特殊亞型,大量文獻(xiàn)報(bào)道其預(yù)后好于DLBCL,初治緩解后2年復(fù)發(fā)率低于DLBCL,與本研究結(jié)果一致。但其復(fù)發(fā)后使用R-CHOP治療效果差,再難緩解,已成為目前一大挑戰(zhàn)[22-23]。

      圖1 訓(xùn)練與測(cè)試集AUC比較

      圖2 訓(xùn)練與測(cè)試集靈敏度比較

      本研究中對(duì)患者的復(fù)發(fā)情況進(jìn)行預(yù)測(cè)時(shí)構(gòu)建模型與logistic模型相仿,故提前設(shè)定患者復(fù)發(fā)時(shí)間為三年內(nèi)。但是患者達(dá)到完全緩解到復(fù)發(fā)之間的時(shí)間也是可能影響患者復(fù)發(fā)的重要因素,目前已經(jīng)有關(guān)于使用貝葉斯、決策樹(shù)、SVM及神經(jīng)網(wǎng)絡(luò)模型構(gòu)建Cox生存分析模型[27-28],目前Cox模型滿(mǎn)足的比例風(fēng)險(xiǎn)假定對(duì)數(shù)據(jù)的要求過(guò)于嚴(yán)苛,機(jī)器學(xué)習(xí)對(duì)數(shù)據(jù)限制較少而被許多國(guó)內(nèi)外學(xué)者應(yīng)用于生存分析問(wèn)題中[29],下一步我們計(jì)劃就患者復(fù)發(fā)過(guò)程構(gòu)建生存分析模型,從而進(jìn)一步研究更為長(zhǎng)期的患者情況。

      2.模型分析

      SMOTE采樣后的數(shù)據(jù)構(gòu)建模型性能好,與其采樣原理密切相關(guān),目前已有大量對(duì)SMOTE采樣進(jìn)行改良的方法,其中大多是應(yīng)用混合采樣的原理,有待進(jìn)一步進(jìn)行模型性能比較。

      本研究中將靈敏度作為模型重要評(píng)價(jià)指標(biāo),利用重采樣平衡后數(shù)據(jù)構(gòu)建模型性能好于未平衡數(shù)據(jù),有效地解決了因復(fù)發(fā)病例少,特征較多,靈敏度無(wú)法提高的問(wèn)題。

      boosting集成模型好于其對(duì)應(yīng)的單個(gè)學(xué)習(xí)器,因其是由多個(gè)弱學(xué)習(xí)器投票產(chǎn)生的強(qiáng)學(xué)習(xí)器,其他提高學(xué)習(xí)器性能的方法包括bagging集成、代價(jià)敏感等學(xué)習(xí)方法,Qi Wang等在2017年[26]用經(jīng)過(guò)SMOTE采樣數(shù)據(jù)構(gòu)建SVM bagging集成模型的性能優(yōu)于隨機(jī)欠采樣與隨機(jī)過(guò)采樣等方法,靈敏度為87.1%,與本研究結(jié)果一致。但SMOTE模型的其他性能不如其基于邊界信息SMOTE采樣得到的模型,故可進(jìn)一步進(jìn)行采樣方法比較。本研究表明單模型與集成模型中SVM模型具有穩(wěn)健性,靈敏度高,泛化能力強(qiáng)的特性,相比于Yuan Sui等在2014年的研究[24]中同樣采用SMOTE平衡后的數(shù)據(jù)構(gòu)建的SVM模型的準(zhǔn)確率為92.2%,好于本研究的結(jié)果;而本研究結(jié)果優(yōu)于胡明偉等在2017年[25]構(gòu)建的準(zhǔn)確率為82.4%,靈敏度為77.2%的SVM模型。目前已有大量對(duì)SVM的改良模型,下一步計(jì)劃對(duì)此類(lèi)模型進(jìn)行比較,從而使預(yù)測(cè)準(zhǔn)確率、模型靈敏度進(jìn)一步提高。

      猜你喜歡
      決策樹(shù)靈敏度準(zhǔn)確率
      乳腺超聲檢查診斷乳腺腫瘤的特異度及準(zhǔn)確率分析
      健康之家(2021年19期)2021-05-23 11:17:39
      不同序列磁共振成像診斷脊柱損傷的臨床準(zhǔn)確率比較探討
      2015—2017 年寧夏各天氣預(yù)報(bào)參考產(chǎn)品質(zhì)量檢驗(yàn)分析
      一種針對(duì)不均衡數(shù)據(jù)集的SVM決策樹(shù)算法
      導(dǎo)磁環(huán)對(duì)LVDT線性度和靈敏度的影響
      決策樹(shù)和隨機(jī)森林方法在管理決策中的應(yīng)用
      電子制作(2018年16期)2018-09-26 03:27:06
      高速公路車(chē)牌識(shí)別標(biāo)識(shí)站準(zhǔn)確率驗(yàn)證法
      地下水非穩(wěn)定流的靈敏度分析
      基于決策樹(shù)的出租車(chē)乘客出行目的識(shí)別
      穿甲爆破彈引信對(duì)薄弱目標(biāo)的靈敏度分析
      临安市| 永定县| 康定县| 克拉玛依市| 江北区| 平度市| 旬阳县| 车险| 舒兰市| 方城县| 蓝田县| 略阳县| 高安市| 射洪县| 银川市| 富阳市| 鄂托克前旗| 安义县| 桂林市| 万州区| 东源县| 迁安市| 霍邱县| 襄垣县| 新建县| 大新县| 祁连县| 乌拉特中旗| 囊谦县| 黄陵县| 开平市| 灵宝市| 毕节市| 杨浦区| 天镇县| 黎川县| 新竹市| 佳木斯市| 阿克苏市| 包头市| 九江市|