• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      構(gòu)建基于20基因的急性髓系白血病預(yù)后生存模型

      2021-03-25 02:09:50何文君石張鎮(zhèn)胡南均孫延霞
      關(guān)鍵詞:決策樹生存期機(jī)器

      何文君,石張鎮(zhèn),胡南均,孫延霞

      (吉林大學(xué)中日聯(lián)誼醫(yī)院 血液腫瘤科,吉林 長春130033)

      急性髓系白血病(AML)是一種骨髓造血干/祖細(xì)胞的惡性克隆性疾病,其主要特征是骨髓和外周血中原始和未成熟的骨髓細(xì)胞發(fā)育不良。多數(shù)情況下病情急、重,預(yù)后差,不及時(shí)治療可能危及生命[1]。盡管已經(jīng)進(jìn)行了廣泛的研究來識(shí)別和發(fā)現(xiàn)預(yù)后標(biāo)記,但AML的死亡率仍然很高。近幾十年來,大量研究表明許多基因突變和基因異常表達(dá)與AML的預(yù)后密切相關(guān)。已經(jīng)報(bào)道的具有預(yù)后意義的突變基因包括FLT3、KIT、CEBPA、N-RAS、FES、FOS、GATA-1、JUN B、MPL、MYC、p53、PU.1、RB、WT1、RUNX1、WNT、NPM1、CBF、RAR-α、HOX、MLL[2-4]。目前臨床實(shí)踐中廣泛使用NPM1、WT1、CEBPA和FLT3突變來評(píng)估AML危險(xiǎn)分層及指導(dǎo)治療[5],但是很多病例不存在上述基因突變,所以這些患者很難被準(zhǔn)確評(píng)估其預(yù)后。最近的研究表明,新的AML生物標(biāo)志物的識(shí)別有助于更好地理解疾病的分子基礎(chǔ),對(duì)AML的篩查、診斷、預(yù)后和監(jiān)測(cè)以及評(píng)估個(gè)體治療反應(yīng)都非常有益[4]。因此,迫切需要探索新的準(zhǔn)確的生物標(biāo)志物來改善AML風(fēng)險(xiǎn)分層,評(píng)估預(yù)后。本研究基于對(duì)AML患者基因表達(dá)譜的數(shù)據(jù)分析,運(yùn)用機(jī)器學(xué)習(xí)算法,構(gòu)建了AML 1年預(yù)后生存模型。

      1 材料和方法

      1.1 數(shù)據(jù)的獲取與篩選

      首先,從GDC(Genomic Data Commons)的外部鏈接Broad Firehose數(shù)據(jù)庫(Firehose數(shù)據(jù)庫中AML項(xiàng)目源于美國麻省理工學(xué)院和哈佛大學(xué)研究所共建的Broadinstitute運(yùn)行的GDAC,提供較為完善的以TCGA數(shù)據(jù)為基礎(chǔ)的各類信息檢索)中下載關(guān)于AML患者的臨床及轉(zhuǎn)錄組數(shù)據(jù),篩選出符合要求的生存期及mRNA測(cè)序數(shù)據(jù)的病歷共163例,病例截止時(shí)間為2016年1月28日。

      1.2 數(shù)據(jù)預(yù)處理和差異基因篩選

      基于R語言對(duì)上述數(shù)據(jù)集進(jìn)行預(yù)處理:以生存期1年為界限將163例患者分為≥1年生存期、<1年生存期兩組,根據(jù)表達(dá)量對(duì)基因進(jìn)行過濾,過濾掉低表達(dá)量的基因,本研究自定義該閾值為表達(dá)量為0的值≥10個(gè)的基因,并形成數(shù)據(jù)矩陣。利用R語言的DESeq程序包,以|log2FoldChange|>1.0,調(diào)整后P值<0.05作為篩選條件,鑒別差異表達(dá)基因(DEGs)。

      1.3 機(jī)器學(xué)習(xí)建模

      篩選|log2FoldChange|≥1.4,校正后P值<0.05的差異表達(dá)基因共20個(gè)(表1),利用基于R語言的Rattle包,首先將20個(gè)差異表達(dá)基因數(shù)集進(jìn)行背景矯正和歸一化處理,原始測(cè)序數(shù)據(jù)經(jīng)過[0,1]轉(zhuǎn)換,將163名患者以7∶3比例分為訓(xùn)練集和內(nèi)部驗(yàn)證集,構(gòu)建決策樹、RF、Boost、SVM、線性邏輯回歸、ANN生存分析模型,利用受試者工作特征曲線(ROC)評(píng)估模型預(yù)測(cè)預(yù)后能力,并進(jìn)行內(nèi)部數(shù)據(jù)驗(yàn)證,從而篩選出AUC值最高的Boost模型作為最理想的預(yù)后模型。

      2 結(jié)果

      2.1 差異基因識(shí)別

      通過使用R語言DESeq程序包對(duì)數(shù)據(jù)集進(jìn)行差異基因識(shí)別,以校正后P值<0.05,|log2FoldChange|≥1.4作為篩選標(biāo)準(zhǔn),結(jié)果共發(fā)現(xiàn)20個(gè)差異表達(dá)基因。其中,表達(dá)水平上調(diào)的基因5個(gè)(EBF4、MTUS2、NT5E、AEF2、IGDCC4),表達(dá)水平下調(diào)的基因15個(gè)(ADAMTS2、TRPM4、PACSIN1、CACNG4、SPON1、CCDC3、C10orf72、MAOA、ESPN、CIQA、LILRA4、UBXN10、LIF、WDR86、PEG10)。差異表達(dá)基因的情況見表1。

      表1 差異表達(dá)基因

      2.2 機(jī)器學(xué)習(xí)預(yù)后模型分析

      機(jī)器學(xué)習(xí)模型對(duì)訓(xùn)練集學(xué)習(xí)其規(guī)律后,對(duì)驗(yàn)證集進(jìn)行預(yù)測(cè),從而評(píng)價(jià)決策樹、RF、Boost、SVM、線性回歸、ANN預(yù)測(cè)準(zhǔn)確率。決策樹的AUC值為0.63,RF的AUC值為0.72,Boost的AUC值為0.75,SVM的AUC值為0.72,線性回歸的AUC值為0.71,ANN的AUC值為0.66。經(jīng)ROC曲線評(píng)判,結(jié)果顯示Boost對(duì)AML患者1年生存情況的預(yù)測(cè)效果更佳,詳情見圖1-6,6種預(yù)后模型預(yù)測(cè)能力對(duì)比見表2。

      3 討論

      AML是一種異質(zhì)性血液系統(tǒng)惡性腫瘤,死亡率高,預(yù)后較差,遺傳學(xué)和表觀遺傳學(xué)異常在其發(fā)病的不同階段、疾病預(yù)后和臨床特點(diǎn)等方面起著至關(guān)重要的作用。因此,研究AML遺傳學(xué)和表觀遺傳學(xué)異常、全面認(rèn)識(shí)發(fā)病機(jī)制、探索新的預(yù)后基因是目前亟待解決的問題。

      圖1 決策樹預(yù)測(cè)模型ROC曲線 圖2 RF預(yù)測(cè)模型ROC曲線 圖3 Boost預(yù)測(cè)模型ROC曲線

      圖4 SVM預(yù)測(cè)模型ROC曲線 圖5 線性回歸預(yù)測(cè)模型ROC曲線 圖6 ANN預(yù)測(cè)模型ROC曲線

      表2 6種預(yù)后模型預(yù)測(cè)能力對(duì)比

      一項(xiàng)納入200例確診為AML患者的TCGA-AML子研究通過全基因組(50例)、全外顯子測(cè)序(150例),以及RNA和miRNA測(cè)序和DNA甲基化分析,發(fā)現(xiàn)幾乎所有樣本在與發(fā)病機(jī)制有關(guān)的九類基因中至少有1個(gè)顯著突變,包括:轉(zhuǎn)錄因子融合、NPM1基因、腫瘤抑制基因、DNA甲基化相關(guān)基因、信號(hào)基因、染色質(zhì)修飾基因、髓樣轉(zhuǎn)錄因子基因、內(nèi)聚蛋白復(fù)合物基因和剪接體復(fù)合物基因,這些基因突變與患者預(yù)后密切相關(guān)[6]。而近年來的研究表明,影響患者預(yù)后的因素除了與患者的一般臨床資料、治療方案、染色體異常、表觀遺傳因子突變、DNA甲基化、組蛋白翻譯后修飾、miRNA、蛋白質(zhì)組學(xué)等相關(guān)外[4],基因表達(dá)量也可作為AML患者預(yù)后的標(biāo)志。一項(xiàng)210名接受強(qiáng)化化療的細(xì)胞遺傳學(xué)正?;颊叩年?duì)列研究表明,ERG基因高表達(dá)與較低的完全緩解率(CRs),較短的中位無進(jìn)展生存期(PFS)相關(guān),高ERG表達(dá)水平是一種負(fù)性預(yù)測(cè)因子[7]。一項(xiàng)回顧性研究表明,骨髓中SET基因表達(dá)水平與AML發(fā)病及其預(yù)后有顯著相關(guān)性,SET基因高表達(dá)組中位總生存期 (OS)、PFS明顯低于低表達(dá)組[8]。最近一項(xiàng)納入111例正常核型AML患者的研究表明,BAALC和(或)MN1基因高表達(dá)組預(yù)后不佳,CRs降低,BAALC和MN1表達(dá)水平可用于更精確的正常核型AML患者的風(fēng)險(xiǎn)分層,特別是 FLT3-ITD-/NPM1-的患者,可將中間風(fēng)險(xiǎn)組轉(zhuǎn)變?yōu)轭A(yù)后不佳組[9]。

      隨著大規(guī)?;蚪M學(xué)測(cè)序的興起,機(jī)器學(xué)習(xí)(ML)算法越來越多地被應(yīng)用到基因表達(dá)分析中,目的是對(duì)腫瘤進(jìn)行分類,預(yù)測(cè)生存,確定治療目標(biāo),并根據(jù)功能對(duì)基因進(jìn)行分類[10-13]。近年興起的機(jī)器學(xué)習(xí)算法,如基于統(tǒng)計(jì)學(xué)習(xí)理論的決策樹、RF、SVM、線性回歸、ANN適用于高維數(shù)據(jù)的分析,可以得到具有較好泛化能力的預(yù)測(cè)模型。董華等人使用機(jī)器學(xué)習(xí)中的決策樹算法實(shí)現(xiàn)了對(duì)三陰性乳腺癌的預(yù)測(cè),預(yù)測(cè)模型的準(zhǔn)確率達(dá)95.5%[14]。Luan等人使用支持向量機(jī)對(duì)乳腺癌患者進(jìn)行智能決策,該實(shí)驗(yàn)表明支持向量機(jī)在該疾病的診斷中效果良好[15]。Boost是一種通過累加弱模型來產(chǎn)生一個(gè)強(qiáng)模型的機(jī)器學(xué)習(xí)方法,他是通過不斷消除殘差來提高模型精度,著重優(yōu)化了兩個(gè)不同的方面:偏差 (Bias)和方差(Variance),能夠很靈活地?cái)M合各種復(fù)雜的訓(xùn)練樣本。一項(xiàng)預(yù)測(cè)668例顱內(nèi)腫瘤手術(shù)24小時(shí)內(nèi)發(fā)生早期術(shù)后并發(fā)癥的研究表明,應(yīng)用梯度Boost機(jī)器學(xué)習(xí)算法,可以創(chuàng)建一個(gè)優(yōu)于傳統(tǒng)統(tǒng)計(jì)方法的預(yù)測(cè)模型[16]。

      本課題組前期已經(jīng)完成人工神經(jīng)網(wǎng)絡(luò)建立術(shù)前判斷進(jìn)展期胃癌淋巴結(jié)轉(zhuǎn)移的診斷模型,其優(yōu)于傳統(tǒng)的Logistic多元回歸分析,有望幫助相關(guān)科室提高判斷淋巴結(jié)轉(zhuǎn)移的準(zhǔn)確率[17]。本研究以AML為研究對(duì)象,利用Firehose數(shù)據(jù)庫數(shù)據(jù)進(jìn)行差異基因表達(dá)分析。通過分析,篩選出20個(gè)基因?yàn)轭A(yù)后相關(guān)基因構(gòu)建AML預(yù)后預(yù)測(cè)模型,Boost模型AUC值0.7534,能較準(zhǔn)確的通過基因表達(dá)水平預(yù)測(cè)AML預(yù)后,盡管本研究僅基于基因表達(dá)量,通過生物信息學(xué)分析角度研究急性髓系白血病潛在的預(yù)后標(biāo)志物,但仍然為急性髓系白血病的進(jìn)一步危險(xiǎn)分層及預(yù)后評(píng)估提供了新的思路,希望在以后的工作中進(jìn)行多組學(xué)分析建模,更加精準(zhǔn)地判斷和評(píng)估AML預(yù)后。

      猜你喜歡
      決策樹生存期機(jī)器
      機(jī)器狗
      機(jī)器狗
      一種針對(duì)不均衡數(shù)據(jù)集的SVM決策樹算法
      決策樹和隨機(jī)森林方法在管理決策中的應(yīng)用
      電子制作(2018年16期)2018-09-26 03:27:06
      未來機(jī)器城
      電影(2018年8期)2018-09-21 08:00:06
      鼻咽癌患者長期生存期的危險(xiǎn)因素分析
      基于決策樹的出租車乘客出行目的識(shí)別
      胃癌術(shù)后患者營養(yǎng)狀況及生存期對(duì)生存質(zhì)量的影響
      術(shù)中淋巴結(jié)清掃個(gè)數(shù)對(duì)胃癌3年總生存期的影響
      無敵機(jī)器蛛
      平原县| 区。| 南康市| 伊金霍洛旗| 霍州市| 崇仁县| 荣成市| 青阳县| 赤壁市| 泊头市| 元氏县| 丁青县| 深水埗区| 大化| 祁连县| 连山| 巴彦淖尔市| 大洼县| 于田县| 岫岩| 康乐县| 牙克石市| 林芝县| 汝南县| 清河县| 平邑县| 香格里拉县| 荆州市| 清流县| 潜山县| 大悟县| 吴江市| 海口市| 噶尔县| 望都县| 葵青区| 陕西省| 西乌珠穆沁旗| 乌兰县| 高要市| 仁布县|