• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      常用腫瘤基因分析方法及基于TCGA數(shù)據(jù)庫(kù)的分析應(yīng)用

      2019-03-19 03:52:10李鑫李夢(mèng)瑋張依楠徐寒梅
      遺傳 2019年3期
      關(guān)鍵詞:基因組測(cè)序樣本

      李鑫,李夢(mèng)瑋,張依楠,徐寒梅

      ?

      常用腫瘤基因分析方法及基于TCGA數(shù)據(jù)庫(kù)的分析應(yīng)用

      李鑫,李夢(mèng)瑋,張依楠,徐寒梅

      中國(guó)藥科大學(xué)多肽藥物創(chuàng)制工程中心,南京 211198

      隨著二代測(cè)序技術(shù)的快速發(fā)展,數(shù)據(jù)量不斷累積,腫瘤學(xué)家的目光逐漸由多物種測(cè)序轉(zhuǎn)移至高通量測(cè)序數(shù)據(jù)的分析和比對(duì)?;驍?shù)據(jù)分析方法層出不窮,高通量的組學(xué)分析手段不斷優(yōu)化和創(chuàng)新,基因數(shù)據(jù)的挖掘和分析工作正處于飛速發(fā)展的時(shí)期。以腫瘤病人樣本為核心的數(shù)據(jù)庫(kù) The Cancer Genome Atlas (TCGA)由此應(yīng)運(yùn)而生,該數(shù)據(jù)庫(kù)全方位記錄了從臨床腫瘤病人樣本得到的基因數(shù)據(jù)如DNA序列、轉(zhuǎn)錄本信息、表觀遺傳學(xué)修飾等。本文主要從數(shù)據(jù)分析方法、TCGA數(shù)據(jù)庫(kù)及其應(yīng)用實(shí)例等3個(gè)方面詳細(xì)介紹了腫瘤相關(guān)基因數(shù)據(jù)的深入挖掘和生物信息學(xué)分析方法的最新研究進(jìn)展,以期為研究人員利用大數(shù)據(jù)發(fā)現(xiàn)腫瘤防治相關(guān)的新靶點(diǎn)提供借鑒和參考。

      基因數(shù)據(jù);TCGA數(shù)據(jù)庫(kù);腫瘤

      近年來,隨著高性能計(jì)算機(jī)集群技術(shù)支持的新一代測(cè)序機(jī)和自動(dòng)化分析的高通量測(cè)序平臺(tái)不斷問世、基因組測(cè)序分析成本大幅降低、基因組數(shù)據(jù)共享平臺(tái)層出不窮,以及大量的基因組數(shù)據(jù)被上傳至互聯(lián)網(wǎng),為研究人員開展大規(guī)模的基因組學(xué)研究創(chuàng)造了便利條件,同時(shí)腫瘤基因組學(xué)的研究也越來越深入。由此,整合多種癌癥基因組數(shù)據(jù)的The Cancer Genome Atlas (TCGA)數(shù)據(jù)庫(kù)應(yīng)運(yùn)而生,為研究人員快速、準(zhǔn)確地獲取腫瘤基因組數(shù)據(jù)提供了很好的途徑。

      數(shù)據(jù)挖掘是一門隨著計(jì)算機(jī)科學(xué)發(fā)展而快速發(fā)展的學(xué)科,其在生命科學(xué)領(lǐng)域的作用隨著大量測(cè)序數(shù)據(jù)的累計(jì)而逐漸顯現(xiàn)。現(xiàn)階段,國(guó)內(nèi)大部分實(shí)驗(yàn)室對(duì)基因組數(shù)據(jù)挖掘和處理還處于起步階段,不僅缺乏相應(yīng)的數(shù)據(jù)處理平臺(tái),更缺乏具有相應(yīng)知識(shí)背景的科研人員,而在國(guó)際上基因組數(shù)據(jù)研究已經(jīng)是一個(gè)迅猛發(fā)展的領(lǐng)域。本文重點(diǎn)介紹了常見基因數(shù)據(jù)分析方法、TCGA數(shù)據(jù)庫(kù)以及近年來圍繞TCGA數(shù)據(jù)庫(kù)所得到的研究成果,期望為相關(guān)科研人員提供一些利用數(shù)據(jù)庫(kù)資源研究腫瘤基因組學(xué)的新思路。

      1 常見基因數(shù)據(jù)分析方法

      1.1 生存分析

      生存分析是一類用于計(jì)算在一個(gè)集合內(nèi)對(duì)于給定的時(shí)間段中影響因素與給定結(jié)果或時(shí)間事件之間關(guān)聯(lián)的統(tǒng)計(jì)學(xué)方法,該方法的特點(diǎn)是可以對(duì)時(shí)間事件進(jìn)行分析,其中Kaplan-Meier生存分析和Cox回歸分析是兩種最常用的時(shí)間事件標(biāo)準(zhǔn)化統(tǒng)計(jì)學(xué)方法。Kaplan-Meier生存分析可以基于一個(gè)影響因素對(duì)事件進(jìn)行分析,每個(gè)獨(dú)立個(gè)體的時(shí)間范圍由記錄點(diǎn)開始一直延續(xù)至事件發(fā)生點(diǎn)。Cox回歸分析是一種多參數(shù)回歸模型,該模型以生存結(jié)局和生存時(shí)間為因變量,可同時(shí)分析多種因素對(duì)生存期的影響[1]。在隨機(jī)對(duì)照臨床試驗(yàn)中,Kaplan-Meier生存分析是首選的數(shù)據(jù)分析方法[2]。對(duì)于多影響因素事件,可選用Cox回歸分析?;谶@兩種分析方法的特點(diǎn),在基因數(shù)據(jù)分析中,Kaplan-Meier多用于分析基因表達(dá)與生存周期的關(guān)系,而Cox回歸多用于分析預(yù)后影響因素與生存周期的關(guān)系[3]。

      1.2 差異表達(dá)分析和聚類分析

      差異表達(dá)是指同一基因在兩個(gè)條件中的檢測(cè)結(jié)果在排除系統(tǒng)誤差、人為誤差等因素后具有較為明顯的差異,通常用值來表示。這種差異可以通過外顯子測(cè)序、芯片篩選等方法檢測(cè)。比較同一基因在不同條件下的表達(dá)量差異是篩選潛在功能基因的第一步,通常由統(tǒng)計(jì)學(xué)工具輔助完成。常用的算法包括倍數(shù)法、檢驗(yàn)法、方差分析、SAM法、貝葉斯法和信息熵法等[4],這些統(tǒng)計(jì)學(xué)方法各有其優(yōu)勢(shì)和不足(表1)。

      聚類分析在基因表達(dá)數(shù)據(jù)研究中被大量應(yīng)用且在不斷優(yōu)化,它可以在模式分類數(shù)不確定的情況下對(duì)基因數(shù)據(jù)進(jìn)行分組,其數(shù)學(xué)意義是將研究對(duì)象分為相對(duì)同質(zhì)的群組。從生物學(xué)的角度,這種方法就是將具有潛在相同作用的基因分為同一組,如對(duì)于一組腫瘤組織高表達(dá)基因可以假定其存在促腫瘤生長(zhǎng)活性,對(duì)于一組低表達(dá)基因則可假定其存在抗腫瘤活性,或認(rèn)為同一組基因可能受同一轉(zhuǎn)錄因子的調(diào)控等。

      兩個(gè)影響聚類分析結(jié)果的重要指標(biāo)是評(píng)價(jià)研究對(duì)象相似性程度的距離尺度和將研究對(duì)象分組的聚類算法,其中距離尺度可以根據(jù)不同的篩選目的分為幾何距離、線性相關(guān)系數(shù)和非線性相關(guān)系數(shù)3種,分別對(duì)應(yīng)的是衡量樣本間的相似性、衡量樣本間是否具有相同變化趨勢(shì)和衡量樣本間在同一時(shí)間節(jié)點(diǎn)的波動(dòng)趨勢(shì)是否相似。而常用的聚類算法主要包括簡(jiǎn)單聚類、層次聚類、模糊聚類、均值聚類、雙向聚類和自組織映射神經(jīng)網(wǎng)絡(luò)聚類等。對(duì)于聚類結(jié)果,一般選擇對(duì)其進(jìn)行可視化處理,使其更易于接受和直觀的分析,常用的有熱圖(heatmap)、點(diǎn)線圖和冰柱圖等[5]。

      表1 基因差異表達(dá)分析方法優(yōu)缺點(diǎn)

      1.3 受試者工作特征曲線分析

      受試者工作特征曲線分析(receiver operating ch-aracteristic, ROC)最早起源于第二次世界大戰(zhàn)時(shí)期,最初用來降低雷達(dá)兵們的誤報(bào)率和漏報(bào)率,現(xiàn)多用于臨床疾病診斷臨界點(diǎn)尋找、不同檢測(cè)方法對(duì)同一疾病的識(shí)別能力的比較、單一生物標(biāo)志物對(duì)疾病的診斷準(zhǔn)確度和篩選對(duì)疾病發(fā)生發(fā)展有顯著影響的潛在基因。ROC曲線是一條通過二分類方式擬合的非線性曲線,其縱坐標(biāo)為敏感度,橫坐標(biāo)為(1-特異性),評(píng)價(jià)指標(biāo)為曲線下面積(area under the curve, AUC)。與生存分析最大的不同點(diǎn)在于ROC曲線分析不考慮時(shí)間因素,且不需要將試驗(yàn)結(jié)果分為兩類,因此一般不用于分析預(yù)后等時(shí)間相關(guān)事件。ROC曲線分析的優(yōu)點(diǎn)是直觀、簡(jiǎn)單,可用肉眼看出結(jié)果。而缺點(diǎn)是對(duì)臨界點(diǎn)的尋找沒有明確的限定,可能一定程度上影響數(shù)據(jù)分析結(jié)果。在許多生物信息學(xué)分類分析時(shí),ROC分析經(jīng)常出現(xiàn)正相關(guān)顯著低于負(fù)相關(guān)的現(xiàn)象,因此研究人員對(duì)其進(jìn)行了改進(jìn),加入了精確率與反饋率曲線 (precision-recall, PR),這一優(yōu)化使正負(fù)分類結(jié)果相對(duì)平衡,已經(jīng)在R語(yǔ)言中實(shí)現(xiàn)了應(yīng)用。對(duì)于不同條件間ROC比較,則需要分別對(duì)其AUC進(jìn)行處理,消除抽樣誤差帶來的影響,常用的處理方法有Delong法和Hanley法[6,7]。

      1.4 Meta分析

      Meta分析是一種對(duì)同類研究結(jié)果進(jìn)行整合定量分析的統(tǒng)計(jì)學(xué)方法,其目的是通過整合多個(gè)已有的研究數(shù)據(jù)來增大樣本含量,從而減少由隨機(jī)誤差所導(dǎo)致的數(shù)據(jù)差異,進(jìn)而增大檢驗(yàn)學(xué)效能。在臨床研究中常用于病因?qū)W、診斷性試驗(yàn)、發(fā)病機(jī)制、病人費(fèi)用和效益、流行病學(xué)、干預(yù)措施評(píng)價(jià)、隨訪和預(yù)后測(cè)評(píng)等方面的分析。一般的分析流程為提出研究問題、文獻(xiàn)與資料收集、數(shù)據(jù)構(gòu)建、Meta分析和實(shí)驗(yàn)驗(yàn)證。其中文獻(xiàn)與資料收集是影響Meta分析結(jié)果的關(guān)鍵步驟,涉及到文獻(xiàn)搜索策略和數(shù)據(jù)納入排除標(biāo)準(zhǔn)的建立[8]。

      一般來說,同一領(lǐng)域不同研究組之間的操作和研究方法會(huì)存在一定區(qū)別,進(jìn)而帶來一些人為誤差。這種差異被稱為異質(zhì)性,一般分為方法異質(zhì)性、臨床異質(zhì)性和統(tǒng)計(jì)學(xué)異質(zhì)性。異質(zhì)性檢驗(yàn)是驗(yàn)證所構(gòu)建標(biāo)準(zhǔn)是否良好的常用方法。對(duì)于基因表達(dá)常用的芯片Meta分析,一般選用同一測(cè)序平臺(tái)來源的數(shù)據(jù)以避免測(cè)序方法對(duì)分析結(jié)果的干擾。Meta分析根據(jù)實(shí)際要求不同可以分為多種類型包括單組率Meta分析、網(wǎng)狀Meta分析和診斷性Meta分析等,其具體分類依據(jù)在許多文章中都有報(bào)道過,因此不再敘述[9]。

      2 TCGA數(shù)據(jù)庫(kù)

      2.1 數(shù)據(jù)庫(kù)簡(jiǎn)介

      腫瘤被認(rèn)為是人類最復(fù)雜疾病之一,目前為止人類已經(jīng)發(fā)現(xiàn)了超過200種腫瘤亞型。腫瘤病人基因中發(fā)生的變化如體細(xì)胞突變、拷貝數(shù)變異、基因表達(dá)量差異和表觀修飾變化與其特定的腫瘤亞型是相對(duì)應(yīng)的。因此,為了更好地發(fā)現(xiàn)、診斷和治療腫瘤,對(duì)其基因變化進(jìn)行深入研究和建立相應(yīng)數(shù)據(jù)庫(kù)是目前所急需的[10]。2006年,美國(guó)國(guó)立癌癥研 究院(National Cancer Institute, NCI)和美國(guó)國(guó)立人類基因組研究院(National Human Genome Research Institute, NHGRI)合作開展了The Cancer Genome Atlas (TCGA)數(shù)據(jù)庫(kù)計(jì)劃,該計(jì)劃旨在通過大規(guī)模基因測(cè)序和綜合性、多維度的分析手段來尋找由腫瘤發(fā)生發(fā)展造成的基因變化,構(gòu)建腫瘤基因相關(guān)的全方位“地圖集”[11]。

      TCGA計(jì)劃分為兩個(gè)部分:第一部分從2006~ 2008年選擇了具有嚴(yán)重不良預(yù)后且危害公共健康的3種常見腫瘤(腦癌、肺癌和卵巢癌)進(jìn)行數(shù)據(jù)采集和分析,從而對(duì)其數(shù)據(jù)庫(kù)整體框架的構(gòu)建進(jìn)行基本測(cè)試;從2009年開始進(jìn)入第二階段,擴(kuò)大腫瘤類型至33種并擴(kuò)大樣本量進(jìn)行6種數(shù)據(jù)類型的記錄和分析(圖1,A和B),這一過程雖然耗資巨大但成果顯著。近年來科研人員已經(jīng)依據(jù)TCGA數(shù)據(jù)庫(kù)在多種腫瘤中發(fā)現(xiàn)了潛在的臨床標(biāo)志物和治療靶點(diǎn)[12~15]。

      2.2 TCGA數(shù)據(jù)類型

      TCGA使用基于芯片技術(shù)的高通量測(cè)序方法和二代測(cè)序技術(shù)來精確記錄腫瘤基因組的全方位信息,除此之外,TCGA還記錄并追蹤了病人的臨床信息包括性別、年齡、腫瘤分期、復(fù)發(fā)和預(yù)后情況等,從而有利于對(duì)其開展多因素綜合性的分析。以下為TCGA數(shù)據(jù)庫(kù)中較為常見的數(shù)據(jù)類型。

      2.2.1 RNA測(cè)序數(shù)據(jù)

      RNA測(cè)序(RNA-seq)是一種針對(duì)轉(zhuǎn)錄組進(jìn)行測(cè)序的高通量技術(shù),其特點(diǎn)是可以在大量樣本中快速識(shí)別和量化不同表達(dá)水平的轉(zhuǎn)錄組,檢測(cè)異構(gòu)體變化、找到新的轉(zhuǎn)錄組、篩選融合基因和非編碼RNA (ncRNA)。TCGA數(shù)據(jù)庫(kù)中提供了RNA序列、基因表達(dá)量、外顯子序列和突變點(diǎn)等信息的記錄,這一數(shù)據(jù)庫(kù)為腫瘤轉(zhuǎn)錄組研究人員提供了大量數(shù)據(jù)和樣本信息支持[16,17]。

      2.2.2 MicroRNA測(cè)序數(shù)據(jù)

      MicroRNA是一種長(zhǎng)度約20nt的非編碼小RNA分子,通過與mRNA相互作用影響目標(biāo)mRNA的穩(wěn)定性及轉(zhuǎn)錄翻譯等過程,最終調(diào)控基因表達(dá)、誘導(dǎo)靶基因沉默、影響細(xì)胞生長(zhǎng)、發(fā)育等生物過程[18],近年來也有研究以miRNA作為靶點(diǎn)的抗腫瘤藥物[19]。TCGA數(shù)據(jù)庫(kù)提供了腫瘤樣本的miRNA表達(dá)、異構(gòu)體情況,可以用于分析腫瘤相關(guān)基因的互作網(wǎng)絡(luò)關(guān)系和探索未被發(fā)現(xiàn)的miRNA[20,21]。

      2.2.3 DNA測(cè)序數(shù)據(jù)

      DNA測(cè)序(DNA-seq)是一種高通量手段來測(cè)定DNA序列從而找到DNA的變化如插入、缺失、點(diǎn)突變、多態(tài)性、拷貝數(shù)改變、突變頻率和病毒基因組侵入。TCGA數(shù)據(jù)庫(kù)以Sanger測(cè)序技術(shù)為基礎(chǔ)構(gòu)建了DNA測(cè)序數(shù)據(jù)集,構(gòu)建該數(shù)據(jù)集是為了探究在不同腫瘤類型中基因組的多樣性,從而進(jìn)一步找到具有診斷和治療意義的新靶點(diǎn)[22,23]。

      2.2.4 單核苷酸多態(tài)性檢測(cè)數(shù)據(jù)

      單核苷酸多態(tài)性檢測(cè)(single nucleotide polym-orphisms, SNPs)是指由單一核苷酸的改變所引起的序列多態(tài)性,TCGA選擇了Illumina平臺(tái)的分子量陣列技術(shù)來檢測(cè)多種腫瘤基因組中SNP水平的變化,此外還能記錄拷貝數(shù)變異(copy number variation, CNV)和雜合性缺失(loss of heterozygosity, LOH)[24]。

      2.2.5 DNA甲基化測(cè)序數(shù)據(jù)

      DNA甲基化測(cè)序可以檢測(cè)全基因組的表觀遺傳學(xué)改變,在CpG位點(diǎn)上的甲基化和去甲基化修飾是最早和最常見的腫瘤相關(guān)表觀遺傳變異,這些表觀遺傳變異具有成為特異性腫瘤標(biāo)志物的可能。TCGA數(shù)據(jù)庫(kù)中的甲基化數(shù)據(jù)是基于lllumina測(cè)序平臺(tái)獲得的,保證了單堿基對(duì)的分辨率,高測(cè)量精度和低樣品DNA需要量,不僅記錄了信號(hào)強(qiáng)度、探查可信度還收載了用于進(jìn)一步確定DNA甲基化水平的的計(jì)算值等[25~27]。

      圖1 TCGA數(shù)據(jù)庫(kù)收錄的腫瘤類型和數(shù)據(jù)類型

      A: TCGA收錄的33種腫瘤類型的體內(nèi)分布示意圖。ACC:腎上腺皮質(zhì)癌;BLCA:膀胱癌;BRCA:乳腺癌;CESC:宮頸鱗狀細(xì)胞癌;CHOL:膽癌;COAD:結(jié)腸腺癌;DLBC:彌漫性大B細(xì)胞淋巴瘤;ESCA:食管癌;GBM:多形性膠質(zhì)母細(xì)胞瘤;HNSC:頭頸部鱗癌;KICH:腎嫌色細(xì)胞癌;KIRC:腎透明細(xì)胞癌;KIRP:乳頭狀腎細(xì)胞癌;LAML:骨髓癌;LBB:低分化腦膠質(zhì)細(xì)胞瘤;LIHC:肝癌;LUAD:肺腺癌;LUSC:肺鱗狀細(xì)胞癌;MESO:間皮瘤;OV:卵巢癌;PAAD:胰腺癌;PCPG:腎上腺癌;PRAD:前列腺癌;READ:直腸癌;SARC:肉瘤;SKCM:皮膚黑色素瘤;STAD:胃癌;TGCT:睪丸癌;THCA:甲狀腺癌;THYM:胸腺癌;UCEC:子宮內(nèi)膜癌;UCS:子宮癌;UVM:葡萄膜黑色素瘤。B:TCGA記錄的6種測(cè)序數(shù)據(jù)類型。

      2.2.6 反向蛋白質(zhì)陣列表達(dá)數(shù)據(jù)

      反向蛋白質(zhì)陣列(reverse-phase protein array, RPPA)是一種高通量、高靈敏度、可重復(fù)的蛋白檢測(cè)技術(shù),可同時(shí)用500個(gè)抗體對(duì)超過1000個(gè)樣本進(jìn)行檢測(cè),可以用于分子標(biāo)志物篩選、分子靶標(biāo)識(shí)別、腫瘤細(xì)胞亞型分析和藥效學(xué)評(píng)價(jià)。TCGA數(shù)據(jù)庫(kù)收錄了RPPA分析的原始圖片,原始信號(hào)強(qiáng)度,相對(duì)蛋白表達(dá)量以及標(biāo)準(zhǔn)化后的蛋白信號(hào)[28]。

      2.3 TCGA數(shù)據(jù)庫(kù)資源獲取方法

      TCGA數(shù)據(jù)庫(kù)提供的數(shù)據(jù)量較大,一般需要專業(yè)的工具下載和處理,研究人員可以直接訪問TCGA數(shù)據(jù)庫(kù)網(wǎng)站(https://portal.gdc.cancer.gov/),使用其自帶的GDC-Client進(jìn)行下載。也可以利用編程語(yǔ)言R中的多種包如TCGA2STAT、RTCGA等進(jìn)行下載。此外,還可以使用一些研究人員制作的第三方工具如TCGA-Assemble等進(jìn)行數(shù)據(jù)下載和初始化處理。

      3 基于TCGA數(shù)據(jù)庫(kù)分析的應(yīng)用實(shí)例

      3.1 針對(duì)單一類型數(shù)據(jù)的研究

      三陰性乳腺癌(triple negative breast cancer, TNBC)是一種高異質(zhì)性和侵略性的疾病,且目前為止沒有明確有效的治療靶點(diǎn),在依據(jù)腫瘤亞型為基準(zhǔn)的個(gè)體化醫(yī)療時(shí)代,TNBC相比于其他類型的乳腺癌有更高的死亡率。但在臨床中發(fā)現(xiàn),約有1/3的病人通過常規(guī)化療手段使病情得到完全緩解。因此,Jiang等[29]以對(duì)化療敏感為條件在TCGA、METAVRIC等數(shù)據(jù)庫(kù)中選擇了約400例樣本的腫瘤組織和正常組織外顯子序列進(jìn)行研究。在分析中他們發(fā)現(xiàn)以BRCA1分子為核心的AR-和FOXA-調(diào)節(jié)網(wǎng)絡(luò)的突變與化療敏感性有較高的相關(guān)度。進(jìn)一步分析發(fā)現(xiàn)以BRCA1/2低表達(dá)為表型的BRCA基因缺陷型TNBC病人有更高的化療敏感性和更長(zhǎng)的化療后生存周期。除此之外,通過體外實(shí)驗(yàn)發(fā)現(xiàn)BRCA缺陷型TNBC病人體內(nèi)不僅有相對(duì)更高的突變率且體內(nèi)表達(dá)了一種可以增強(qiáng)免疫細(xì)胞活性的新抗原。因此,BRCA缺陷可以作為一個(gè)潛在的三陰性乳腺癌分類標(biāo)簽。

      IsomiRNA是一類序列或長(zhǎng)度發(fā)生變化的異構(gòu)體miRNA,這類RNA的靶點(diǎn)和功能會(huì)較原有的標(biāo)準(zhǔn)miRNA有所變化。在腫瘤發(fā)生過程中,這類miRNA被認(rèn)為對(duì)其有潛在的調(diào)控作用。Omar等[30]通過對(duì)TCGA-miRNA數(shù)據(jù)集中乳腺癌的數(shù)據(jù)進(jìn)行分析,發(fā)現(xiàn)has-miR-140-3p和5¢isomiR-140-3p在乳腺癌中均高表達(dá)。他們對(duì)這兩種miRNA進(jìn)行功能分析發(fā)現(xiàn),兩者均能通過作用于增殖和遷移相關(guān)的基因從而對(duì)腫瘤細(xì)胞的生存和轉(zhuǎn)移有顯著的調(diào)控作用,且二者之間存在協(xié)同作用關(guān)系。

      3.2 針對(duì)多組學(xué)數(shù)據(jù)的研究

      由于胰管腺癌病患的異質(zhì)性高導(dǎo)致現(xiàn)階段的治療效果不理想,Gibori等[31]嘗試?yán)肦NAi技術(shù)進(jìn)行多靶點(diǎn)給藥,從而解決這一問題。他們首先通過對(duì)TCGA數(shù)據(jù)庫(kù)中胰管腺癌的蛋白質(zhì)陣列數(shù)據(jù)和microRNA測(cè)序數(shù)據(jù)進(jìn)行分析,結(jié)合病人的生存情況找出與生存時(shí)間顯著正相關(guān)的microRNA和顯著負(fù)相關(guān)的蛋白質(zhì),分別為miR-34a和PLK1。他們還利用兩親性谷氨酰胺聚合物作為納米載體,將miR-34a的類似物(miR-34a mimic)和抑制PLK1蛋白表達(dá)的siRNA共同偶聯(lián)至載體表面進(jìn)行體內(nèi)外給藥實(shí)驗(yàn)。小鼠移植瘤模型研究發(fā)現(xiàn)這種雙靶點(diǎn)納米制劑可以有效靶向至胰管腺癌的發(fā)病部位并抑制腫瘤生長(zhǎng),這為胰管腺癌的治療提供了新思路。

      TCGA數(shù)據(jù)庫(kù)提供了30余種腫瘤類型的相關(guān)數(shù)據(jù),這使得泛腫瘤研究的進(jìn)展大大提升,Thorsso等[32]對(duì)TCGA中33種腫瘤類型的超過10000例樣本的全部6種數(shù)據(jù)進(jìn)行免疫基因組分析,使用160個(gè)免疫表達(dá)特征進(jìn)行打分,通過聚類分析將這10000余個(gè)樣本進(jìn)行分類,最終基于不同的免疫表達(dá)特征分為6類,包括IFN-γ主導(dǎo)型、炎癥型、淋巴細(xì)胞耗盡型、免疫沉默型和TGF-β主導(dǎo)型等。基于這6種分類,研究人員對(duì)不同類別中的腫瘤免疫浸潤(rùn)構(gòu)成、免疫反應(yīng)與體細(xì)胞多樣性的相關(guān)性、免疫反應(yīng)與預(yù)后的相關(guān)性、不同免疫亞型與預(yù)后的相關(guān)性、免疫原性的變化、免疫調(diào)節(jié)劑的表達(dá)差異等進(jìn)行了進(jìn)一步的關(guān)聯(lián)分析,從而證明了這種分類的準(zhǔn)確性。這一分類幾乎包括了人類所有的惡性腫瘤類型,這為從免疫基因組學(xué)角度預(yù)測(cè)疾病走向和病人預(yù)后提供了幫助。

      Berger等[33]通過對(duì)TCGA數(shù)據(jù)庫(kù)中包括乳腺癌在內(nèi)的5種婦科腫瘤類型的2579例樣本進(jìn)行綜合的多平臺(tái)分析并與其余腫瘤類型樣本數(shù)據(jù)進(jìn)行對(duì)比,發(fā)現(xiàn)了這5種腫瘤病人樣本中特有的基因組和表觀基因組特征,包括3個(gè)體細(xì)胞拷貝數(shù)變異、46個(gè)顯著突變基因以及與之前報(bào)道相同的多種miRNA和lncRNA異常表達(dá),研究人員通過多種聚類分析將這5種具有共性的婦科腫瘤類型基于16個(gè)特異性分子指標(biāo)分為了5個(gè)亞型,進(jìn)一步驗(yàn)證發(fā)現(xiàn)這5種亞型病人的生存時(shí)間存在顯著差異,最終研究人員在保證分類精確度的基礎(chǔ)上,使用二分決策樹將16個(gè)特異性分子優(yōu)化至6個(gè),這為未來婦科腫瘤的分類和診斷提供了幫助。

      精準(zhǔn)腫瘤學(xué)是一門分析個(gè)體差異從而指導(dǎo)腫瘤治療的學(xué)科。近年來研究發(fā)現(xiàn),多組學(xué)特征可以用來預(yù)測(cè)腫瘤患者的臨床特征,但多組學(xué)數(shù)據(jù)計(jì)算量大,分析難度高且大部分醫(yī)生沒有學(xué)習(xí)過相關(guān)的生物信息學(xué)知識(shí),因此Yu等[34]建立了Omics Analysis System for PRecision Oncology (OASISPRO)系統(tǒng),用于挖掘和量化TCGA數(shù)據(jù)庫(kù)中的多組學(xué)數(shù)據(jù)。該系統(tǒng)可以將臨床樣本數(shù)據(jù)可視化,并基于機(jī)器學(xué)習(xí)相關(guān)算法找出與臨床分期相關(guān)的基因,以及預(yù)測(cè)患者生存時(shí)間,這對(duì)精準(zhǔn)治療和個(gè)體化用藥提供了指導(dǎo)。

      Omics Pipe是一個(gè)模塊化的云計(jì)算平臺(tái),該平臺(tái)可以根據(jù)用戶要求自動(dòng)獲取TCGA數(shù)據(jù)庫(kù)中的相關(guān)數(shù)據(jù)集,并進(jìn)行多組學(xué)整合分析,此外還可以自定義組學(xué)分析和在平臺(tái)框架基礎(chǔ)上加入自己的計(jì)算模塊,自由度更高。該平臺(tái)是用python代碼構(gòu)建而來,所有的計(jì)算與分析工作都是依托亞馬遜云服務(wù)器完成,平臺(tái)構(gòu)建的目的是為廣大生物學(xué)家提供一個(gè)模塊化的高通量數(shù)據(jù)分析框架,使數(shù)據(jù)分析變得更簡(jiǎn)單和高效[35]。

      4 結(jié)語(yǔ)與展望

      二代測(cè)序技術(shù)作為21世紀(jì)的重大科學(xué)技術(shù)進(jìn)步之一,為腫瘤基因組學(xué)研究提供了極大的幫助,隨著腫瘤基因組數(shù)據(jù)庫(kù)和患者樣本信息的不斷豐富,科研人員對(duì)腫瘤基因的分析日趨深入,而對(duì)分析方法和工具的選擇要求也不斷提高。目前對(duì)腫瘤基因組的分析仍然處于起步階段,雖然TCGA構(gòu)建了立體化的多元素腫瘤基因組數(shù)據(jù)庫(kù),但多組學(xué)的基因數(shù)據(jù)很少作為一個(gè)整體進(jìn)行立體化的分析,大多數(shù)研究都只局限于某一特定的數(shù)據(jù)類型如SNP、miRNA和表觀修飾等。這也從側(cè)面體現(xiàn)了現(xiàn)階段統(tǒng)計(jì)學(xué)算法的局限性。

      計(jì)算機(jī)性能的不斷提升使數(shù)據(jù)量不再是限制科研人員的主要因素,而如何將多組學(xué)數(shù)據(jù)整合到一起才更為關(guān)鍵?,F(xiàn)階段的多組學(xué)分析還比較簡(jiǎn)單,大多數(shù)研究都圍繞聚類分析展開,將多組學(xué)數(shù)據(jù)依照臨床樣本信息進(jìn)行分類,篩選出潛在的腫瘤標(biāo)志物。而這種分析對(duì)腫瘤的多組學(xué)發(fā)病機(jī)理研究幫助較小,無(wú)法系統(tǒng)的闡明不同組學(xué)水平之間的關(guān)聯(lián)性。但由于機(jī)器學(xué)習(xí)等人工智能算法的出現(xiàn),科研人員將從更宏觀的角度來分析腫瘤基因組數(shù)據(jù),TCGA數(shù)據(jù)庫(kù)也已經(jīng)與多個(gè)高校及科研機(jī)構(gòu)合作,嘗試進(jìn)行高通量多組學(xué)的腫瘤基因數(shù)據(jù)分析,但其分析結(jié)果的準(zhǔn)確性還有待進(jìn)一步的驗(yàn)證,同時(shí),分析結(jié)果的具體臨床應(yīng)用也有待開發(fā)。隨著算法的不斷發(fā)展,多組學(xué)分析將為腫瘤學(xué)研究提供強(qiáng)有力的支持,并從宏觀的角度闡述不同分子水平對(duì)腫瘤的調(diào)控作用以及之間的聯(lián)系。相信未來會(huì)出現(xiàn)基于多組學(xué)基因數(shù)據(jù)的整合分析方法,更全面的闡述腫瘤的發(fā)生和發(fā)展過程,為腫瘤診斷和治療提供幫助。

      此外,現(xiàn)有數(shù)據(jù)庫(kù)主要針對(duì)白種人構(gòu)建,而亞洲人種數(shù)據(jù)庫(kù)還尚處于起步階段,存在數(shù)據(jù)量少、數(shù)據(jù)類型單一、臨床信息不全面等缺陷,但近年來也有一些成果出現(xiàn),如中國(guó)科學(xué)院的生命與健康大數(shù)據(jù)中心等[36],相信隨著政府部門的重視和國(guó)內(nèi)測(cè)序產(chǎn)業(yè)的發(fā)展,黃種人多組學(xué)數(shù)據(jù)庫(kù)也將逐步完善,成為腫瘤基因組學(xué)研究的新支柱。

      [1] George B, Seals S, Aban I. Survival analysis and regression models.,2014, 21: 686–694.

      [2] Rasmussen L, Pratt N, Hansen MR, Hallas J, Pottegard A. Using the "proportion of patients covered" and the Kaplan- Meier survival analysis to describe treatment persistence.,2018, 27: 867–871.

      [3] Hsu CH, Yu M. Cox regression analysis with missing covariates via nonparametric multiple imputation.,2018, 962280218772592.

      [4] Ritchie ME, Phipson B, Wu D, Hu Y, Law CW, Shi W, Smyth GK. limma powers differential expression analyses for RNA-sequencing and microarray studies.,2015, 43: e47.

      [5] Heyer LJ, Kruglyak S, Yooseph S. Exploring expression data: identification and analysis of coexpressed genes.,1999, 9: 1106–1115.

      [6] Bunger R, Mallet RT. Metabolomics and receiver operating characteristic analysis: a promising approach for sepsis diagnosis.,2016, 44: 1784–1785.

      [7] Grau J, Grosse I, Keilwagen J. PRROC: computing and visualizing precision-recall and receiver operating characteristic curves in R.,2015, 31: 2595–2597.

      [8] Cichonska A, Rousu J, Marttinen P, Kangas AJ, Soininen P, Lehtimaki T, Raitakari OT, Jarvelin MR, Salomaa V, Ala-Korpela M, Ripatti S, Pirinen M. metaCCA: summary statistics-based multivariate meta-analysis of genome-wide association studies using canonical correlation analysis.,2016, 32: 1981–1989.

      [9] Dimou NL, Tsirigos KD, Elofsson A, Bagos PG. GWAR: robust analysis and meta-analysis of genome-wide association studies.,2017, 33: 1521–1527.

      [10] Chin L, Andersen JN, Futreal PA. Cancer genomics: from discovery science to personalized medicine.,2011, 17: 297–303.

      [11] Tomczak K, Czerwinska P, Wiznerowicz M. The Cancer Genome Atlas (TCGA): an immeasurable source of knowledge.,2015, 19: A68–77.

      [12] Hanahan D, Weinberg RA. The hallmarks of cancer.,2000, 100: 57–70.

      [13] Sirintrapun SJ, Zehir A, Syed A, Gao J, Schultz N, Cheng DT. Translational bioinformatics and clinical research (biomedical) informatics.,2016, 36: 153– 181.

      [14] Li QK, Pavlovich CP, Zhang H, Kinsinger CR, Chan DW. Challenges and opportunities in the proteomic characterization of clear cell renal cell carcinoma (ccRCC): a critical step towards the personalized care of renal cancers.,2018, DOI:10.1016/j. semcancer.2018.06.004.

      [15] Smith CC, Beckermann KE, Bortone DS, de Cubas AA, Bixby LM, Lee SJ, Panda A, Ganesan S, Bhanot G, Wallen EM, Milowsky MI, Kim WY, Rathmell WK, Swanstrom R, Parker JS, Serody JS, Selitsky SR, Vincent BG. Endogenous retroviral signatures predict immunotherapy response in clear cell renal cell carcinoma.,2018, 128(11): 4804–4820.

      [16] Byron SA, Van Keuren-Jensen KR, Engelthaler DM, Carpten JD, Craig DW. Translating RNA sequencing into clinical diagnostics: opportunities and challenges.,2016, 17: 257–271.

      [17] Chen H, Li C, Peng X, Zhou Z, Weinstein JN, Cancer Genome Atlas Research N, Liang H. A pan-cancer analysis of enhancer expression in nearly 9000 patient samples.,2018, 173: 386–399 e312.

      [18] Gebert LFR, MacRae IJ. Regulation of microRNA function in animals.,2018, 20(1): 21–37.

      [19] Rupaimoole R, Slack FJ. MicroRNA therapeutics: towards a new era for the management of cancer and other diseases.,2017, 16: 203–222.

      [20] Bartel DP. MicroRNAs: target recognition and regulatory functions.,2009, 136: 215–233.

      [21] Cortez MA, Ivan C, Valdecanas D, Wang X, Peltier HJ, Ye Y, Araujo L, Carbone DP, Shilo K, Giri DK, Kelnar K, Martin D, Komaki R, Gomez DR, Krishnan S, Calin GA, Bader AG, Welsh JW. PDL1 Regulation by p53 via miR-34.,2016, 108.

      [22] Boyd SD. Diagnostic applications of high-throughput DNA sequencing.,2013, 8: 381–410.

      [23] Lasken RS, McLean JS. Recent advances in genomic DNA sequencing of microbial species from single cells.,2014, 15: 577–584.

      [24] McCarroll SA, Kuruvilla FG, Korn JM, Cawley S, Nemesh J, Wysoker A, Shapero MH, de Bakker PI, Maller JB, Kirby A, Elliott AL, Parkin M, Hubbell E, Webster T, Mei R, Veitch J, Collins PJ, Handsaker R, Lincoln S, Nizzari M, Blume J, Jones KW, Rava R, Daly MJ, Gabriel SB, Altshuler D. Integrated detection and population- genetic analysis of SNPs and copy number variation.,2008, 40: 1166–1174.

      [25] Flavahan WA, Gaskell E, Bernstein BE. Epigenetic plasticity and the hallmarks of cancer.,2017, 357(6348): pii: eaal2380.

      [26] Okugawa Y, Grady WM, Goel A. Epigenetic Alterations in Colorectal Cancer: Emerging Biomarkers.,2015, 149: 1204–1225 e1212.

      [27] Dor Y, Cedar H. Principles of DNA methylation and their implications for biology and medicine.,2018, 392(10149): 777–786.

      [28] Lu Y, Ling S, Hegde AM, Byers LA, Coombes K, Mills GB, Akbani R. Using reverse-phase protein arrays as pharmacodynamic assays for functional proteomics, biomarker discovery, and drug development in cancer.,2016, 43: 476–483.

      [29] Jiang T, Shi W, Wali VB, Pongor LS, Li C, Lau R, Gyorffy B, Lifton RP, Symmans WF, Pusztai L, Hatzis C. Predictors of chemosensitivity in triple negative breast cancer: an integrated genomic analysis.,2016, 13: e1002193.

      [30] Salem O, Erdem N, Jung J, Munstermann E, Worner A, Wilhelm H, Wiemann S, Korner C. The highly expressed 5'isomiR of hsa-miR-140-3p contributes to the tumor- suppressive effects of miR-140 by reducing breast cancer proliferation and migration.,2016, 17: 566.

      [31] Gibori H, Eliyahu S, Krivitsky A, Ben-Shushan D, Epshtein Y, Tiram G, Blau R, Ofek P, Lee JS, Ruppin E, Landsman L, Barshack I, Golan T, Merquiol E, Blum G, Satchi-Fainaro R. Amphiphilic nanocarrier-induced modulation of PLK1 and miR-34a leads to improved therapeutic response in pancreatic cancer.,2018, 9: 16.

      [32] Thorsson V, Gibbs DL, Brown SD, Wolf D, Bortone DS, Ou Yang TH, Porta-Pardo E, Gao GF, Plaisier CL, Eddy JA, Ziv E, Culhane AC, Paull EO, Sivakumar IKA, Gentles AJ, Malhotra R, Farshidfar F, Colaprico A, Parker JS, Mose LE, Vo NS, Liu J, Liu Y, Rader J, Dhankani V, Reynolds SM, Bowlby R, Califano A, Cherniack AD, Anastassiou D, Bedognetti D, Rao A, Chen K, Krasnitz A, Hu H, Malta TM, Noushmehr H, Pedamallu CS, Bullman S, Ojesina AI, Lamb A, Zhou W, Shen H, Choueiri TK, Weinstein JN, Guinney J, Saltz J, Holt RA, Rabkin CE, Cancer Genome Atlas Research N, Lazar AJ, Serody JS, Demicco EG, Disis ML, Vincent BG, Shmulevich L. The immune landscape of cancer.,2018, 48: 812–830 e814.

      [33] Berger AC, Korkut A, Kanchi RS, Hegde AM, Lenoir W, Liu W, Liu Y, Fan H, Shen H, Ravikumar V, Rao A, Schultz A, Li X, Sumazin P, Williams C, Mestdagh P, Gunaratne PH, Yau C, Bowlby R, Robertson AG, Tiezzi DG, Wang C, Cherniack AD, Godwin AK, Kuderer NM, Rader JS, Zuna RE, Sood AK, Lazar AJ, Ojesina AI, Adebamowo C, Adebamowo SN, Baggerly KA, Chen TW, Chiu HS, Lefever S, Liu L, MacKenzie K, Orsulic S, Roszik J, Shelley CS, Song Q, Vellano CP, Wentzensen N, Cancer Genome Atlas Research N, Weinstein JN, Mills GB, Levine DA, Akbani R. A comprehensive pan-cancer molecular study of gynecologic and breast cancers.,2018, 33: 690–705 e699.

      [34] Yu KH, Fitzpatrick MR, Pappas L, Chan W, Kung J, Snyder M. Omics analysis system for precision oncology (OASISPRO): a web-based omics analysis tool for clinical phenotype prediction.,2018, 34(2): 319– 320.

      [35] Fisch KM, Meissner T, Gioia L, Ducom JC, Carland TM, Loguercio S, Su AI. Omics Pipe: a community-based framework for reproducible multi-omics data analysis.,2015, 31: 1724–1728.

      [36] Zhang YS, Xia L, Sang J, Li M,Liu L, Li MG, Niu GY, Cao JB, Teng XF, Zhou Q, Zhang Z. The BIG Data Center’s database resources., 2018, 40(11): 1039–1043.張?jiān)大? 夏琳, 桑健, 李漫, 劉琳, 李萌偉, 牛廣藝, 曹佳寶, 滕徐菲, 周晴, 章張. 生命與健康大數(shù)據(jù)中心資源. 遺傳, 2018, 40(11): 1039–1043.

      Common cancer genetic analysis methods and application study based on TCGA database

      Xin Li, Mengwei Li, Yinan Zhang, Hanmei Xu

      The development of second-generation sequencing (NGS) technology is providing numerous data which shifts the focus of cancer research from the sequencing of multi-species to the analysis and comparison of select data via high-throughput sequencing. The NGS also facilitates the diversity of available genetic data analysis methods, the constant optimization and innovation of analytical approaches for high-throughput genomics as well as the rapid development of genetic data mining and analysis models. The Cancer Genome Atlas (TCGA) database is a direct result of this work. The TCGA database provides a comprehensive record of genetic data collected from a tumor patient’s sample, including its DNA sequence, transcriptional information, epigenetic modification and related. This review elaborates the latest progress in both the mining algorithm and analysis methods for tumor genomics. Specially, we introduce and review the TCGA database and data analysis approaches while demonstrating its applicability using representative cases. This review may shed light on new tumor-related targets discovery for researchers by means of bid data.

      gene data analysis; TCGA database; cancer

      2018-11-20;

      2019-01-27

      國(guó)家“重大新藥創(chuàng)制”科技重大專項(xiàng)(編號(hào):2018ZX09301053-001, 2018ZX09301039-002, 2018ZX09201001-004-001)和江蘇高校優(yōu)勢(shì)學(xué)科建設(shè)工程項(xiàng)目資助[Supported by the National Science and Technology Major Projects of New Drugs (Nos. 2018ZX09301053-001, 2018ZX09301039-002, 2018ZX09201001-004-001) and the Priority Academic Program Development of Jiangsu Higher Education Institutions (PAPD)]

      李鑫,碩士研究生,專業(yè)方向:海洋藥學(xué)。E-mail: cpu_lixin@163.com

      徐寒梅,博士,教授,研究方向:多肽類藥物研究與開發(fā)。E-mail: 13913925346@126.com

      10.16288/j.yczz.18-279

      2019/2/25 15:23:47

      URI: http://kns.cnki.net/kcms/detail/11.1913.R.20190225.1523.006.html

      (責(zé)任編委: 方向東)

      猜你喜歡
      基因組測(cè)序樣本
      杰 Sir 帶你認(rèn)識(shí)宏基因二代測(cè)序(mNGS)
      新民周刊(2022年27期)2022-08-01 07:04:49
      牛參考基因組中發(fā)現(xiàn)被忽視基因
      用樣本估計(jì)總體復(fù)習(xí)點(diǎn)撥
      二代測(cè)序協(xié)助診斷AIDS合并馬爾尼菲籃狀菌腦膜炎1例
      傳染病信息(2021年6期)2021-02-12 01:52:58
      推動(dòng)醫(yī)改的“直銷樣本”
      隨機(jī)微分方程的樣本Lyapunov二次型估計(jì)
      村企共贏的樣本
      基因捕獲測(cè)序診斷血癌
      單細(xì)胞測(cè)序技術(shù)研究進(jìn)展
      基因組DNA甲基化及組蛋白甲基化
      遺傳(2014年3期)2014-02-28 20:58:49
      平陆县| 延边| 凤台县| 霍城县| 响水县| 满城县| 南通市| 鹤庆县| 秦皇岛市| 罗源县| 新化县| 麻阳| 额尔古纳市| 肥东县| 和静县| 天镇县| 江陵县| 花垣县| 尼玛县| 龙胜| 饶阳县| 青冈县| 特克斯县| 阿拉善左旗| 自治县| 吴旗县| 扶余县| 应用必备| 长泰县| 巴林左旗| 丹江口市| 宁乡县| 闽清县| 鹿泉市| 安远县| 剑河县| 家居| 陇南市| 安平县| 聂荣县| 清水县|