• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      肺腺癌吸煙相關(guān)甲基化模式識別分類模型及特征基因的識別研究

      2016-02-16 06:24:07王世祥
      中國生物醫(yī)學工程學報 2016年3期
      關(guān)鍵詞:模式識別甲基化腺癌

      王世祥 張 飛 王 玲 宋 凱,3*

      1(天津大學化工學院,天津 300072)2(大連醫(yī)科大學附屬第一醫(yī)院腫瘤科,遼寧 大連 116011)3(德克薩斯大學西南醫(yī)學中心,美國 達拉斯 75235)

      肺腺癌吸煙相關(guān)甲基化模式識別分類模型及特征基因的識別研究

      王世祥1張 飛1王 玲2宋 凱1,3*

      1(天津大學化工學院,天津 300072)2(大連醫(yī)科大學附屬第一醫(yī)院腫瘤科,遼寧 大連 116011)3(德克薩斯大學西南醫(yī)學中心,美國 達拉斯 75235)

      吸煙是導致肺癌的一個重要誘導因素,從全基因組基因甲基化水平出發(fā),利用生物信息學方法,通過建立對當前吸煙/不吸煙樣本的模式識別分類模型,識別甲基化特征基因,為揭示不吸煙肺癌患者的患病機理奠定基礎(chǔ)。為避免甲基化微陣列數(shù)據(jù)超高維小樣本、高噪聲、高相關(guān)性以及信息飽和現(xiàn)象淹沒真正的特征基因,首次采用迭代多重篩選方法,分別從顯著性差異、與基因表達水平的關(guān)系、生物功能、分類重要性等多個角度對全基因組甲基化數(shù)據(jù)進行多步篩選,從而識別吸煙相關(guān)特征基因。以TCGA數(shù)據(jù)庫中127個肺腺癌樣本為訓練集,64個EDRN肺腺癌樣本為獨立測試集,最終確定了48個關(guān)鍵基因。相應模式識別模型對訓練集精度達到87.5%(敏感性、特異性分別為87.2%和87.8%),獨立測試集分類精度達到76.4%(敏感性、特異性分別為80.2%和73.6%)。交叉研究表明,其中17個基因?qū)Π┌Y發(fā)展的重要性已經(jīng)在其他研究中有所證實,進一步的研究則證明其甲基化的重要性。同時,KEGG和IPA對特征基因在基因調(diào)控網(wǎng)絡和代謝通路水平的分析表明,特征基因與癌癥的發(fā)展以及生物功能、細胞發(fā)育等都有著密切的聯(lián)系。

      肺腺癌;甲基化數(shù)據(jù);吸煙史;模式識別;分類

      引言

      吸煙是少數(shù)已知癌癥的相關(guān)危險因素之一,與肺癌、膀胱癌、食管癌等癌癥均有不同程度的聯(lián)系[1],尤其是吸煙與肺癌的聯(lián)系更是廣為人知。然而,最近的統(tǒng)計研究表明,25%的肺癌患者并非吸煙所致。不吸煙患者肺癌的致死率高居第7位,甚至超過宮頸癌、胰腺癌和前列腺癌。

      幾乎所有肺癌的主要組織學子類均與吸煙有一定的聯(lián)系,然而相比之下小細胞肺癌和肺鱗狀細胞癌的聯(lián)系則更為緊密[2]。與此不同,肺腺癌在非吸煙患者中的比例較大[3-4]。雖然肺癌的地域分布不同,但全球的統(tǒng)計數(shù)據(jù)表明,肺鱗狀細胞癌的患者數(shù)量在逐年減少,而肺腺癌的患者數(shù)量卻在激增[5]。其中,不吸煙肺腺癌患者的人數(shù)也在相應地逐年增長。為此,從多種角度研究吸煙史對癌癥發(fā)生和發(fā)展的影響,找出不吸煙肺癌患者的發(fā)病機理,并開發(fā)相應的有針對性的治療方案,則成為目前癌癥研究領(lǐng)域的主要熱點之一[6]。

      微陣列技術(shù)等高通量基因測序技術(shù)及生物信息學的快速發(fā)展,為從基因組水平大規(guī)模地篩選吸煙相關(guān)致癌基因提供了必要的手段[7]。近年來,基于此種技術(shù)的研究結(jié)果表明,吸煙和不吸煙肺腺癌患者癌癥的起源不同。在吸煙患者中,eGFR蛋白和細胞增殖標志物Ki-67的表達水平明顯偏高;而在不吸煙患者中,AKT1和p27的表達水平則明顯偏高。

      隨著高通量的DNA甲基化檢測技術(shù)的出現(xiàn),DNA甲基化的生物信息學研究得到了很大的發(fā)展。研究疾病特別是癌癥中DNA甲基化的特點和規(guī)律,發(fā)現(xiàn)與特定癌癥相關(guān)的甲基化生物標記,成為DNA甲基化研究中的熱點問題。

      近來的研究表明,DNA甲基化水平的改變在腫瘤發(fā)生和發(fā)展中起重要作用,可以通過重新激活沉默的致癌基因,引發(fā)相關(guān)癌癥[8-9]。環(huán)境因素對DNA甲基化水平也有很大影響,尤其是長期吸煙或者是暴露在二手煙環(huán)境當中,都有可能在很大程度上改變DNA的甲基化水平[10]。例如,CDKN2A基因的甲基化在細胞周期調(diào)控中扮演重要角色,通常被認為是肺癌的潛在生物標志物,相比不吸煙樣本,其異常高的甲基化水平在吸煙樣本中更為常見[11]。Liu等發(fā)現(xiàn),對于p16和MGMT兩個基因,吸煙樣本啟動子區(qū)域甲基化的頻率要顯著高于不吸煙樣本的情況[12]。Wu等的研究表明,hMLH1基因的甲基化在非小細胞肺癌的發(fā)展中起到重要作用,同時也是影響淋巴轉(zhuǎn)移的重要因素[13]。

      本研究以基因甲基化水平微陣列數(shù)據(jù)為主,利用先進的模式識別技術(shù),對吸煙與不吸煙的肺腺癌樣本進行分類;通過對模型參數(shù)的優(yōu)化,識別具有最優(yōu)分類能力的最小基因集(即甲基化特征基因),揭示肺腺癌吸煙與不吸煙患者在基因甲基化水平上的異同,為進一步解釋不吸煙肺癌患者的患病機理提供理論依據(jù)。

      為克服全基因組數(shù)據(jù)超高維高噪聲小樣本特性對機器學習算法性能的影響,防止信息飽和(即少數(shù)重要基因信息淹沒于數(shù)萬基因所含的噪聲中)現(xiàn)象,筆者創(chuàng)新性地組合應用3種特征基因篩選方法,并通過迭代降維技術(shù)遞歸篩選真正的特征基因。

      在研究中,以癌癥基因組圖譜(the cancer genome atlas, TCGA)肺腺癌甲基化水平數(shù)據(jù)為訓練樣本,以EDRN(the early detection research network)肺腺癌甲基化水平數(shù)據(jù)為獨立測試樣本。從2萬多個基因相應的48萬多個探針數(shù)據(jù)中,最終篩選出48個基因。僅利用這48個基因的甲基化水平數(shù)據(jù),即可將病人樣本分為“吸煙/不吸煙”兩類。其中,TCGA訓練樣本的分類精度高達87.5%,EDRN獨立測試集的分類精度也高達76.4%。相應的代謝和基因調(diào)控網(wǎng)絡分析充分證明了48個特征基因在肺癌代謝通路水平上的強相關(guān)性。同時,EDRN數(shù)據(jù)與TCGA數(shù)據(jù)檢測平臺的不同也充分說明了特征基因在不同平臺數(shù)據(jù)應用中的魯棒性。

      1 數(shù)據(jù)和方法

      1.1 數(shù)據(jù)樣本

      1.1.1 TCGA數(shù)據(jù)

      甲基化數(shù)據(jù)為癌癥基因組圖譜(the cancer genome atlas, TCGA, https://tcga-data.nci.nih.gov/ tcga/tcgaHome2.jsp)數(shù)據(jù)庫中的第三水平(level 3)數(shù)據(jù),即經(jīng)過TCGA初步預處理的數(shù)據(jù)。數(shù)據(jù)檢測平臺為Illumina Infinium Human Methylation 450。

      刪除所有吸煙史信息缺失的樣本后共獲得127個甲基化數(shù)據(jù)樣本,其中73個當前吸煙樣本(當前吸煙或者戒煙少于12個月)和54個不吸煙樣本(終身吸煙數(shù)量不超過100根),相應的臨床信息見表1。

      表1 相應數(shù)據(jù)臨床信息匯總Tab.1 Clinical information of the corresponding data

      1.1.2 EDRN數(shù)據(jù)

      采用GEO公共數(shù)據(jù)平臺(http://www.ncbi.nlm.nih.gov/geo/)下載的EDRN甲基化數(shù)據(jù)作為獨立測試集[14],該數(shù)據(jù)檢測平臺為Illumina Infinium Human Methylation 27。

      同樣,刪除吸煙史缺失的樣本,最后保留64個甲基化樣本(其中34個當前吸煙樣本和30個不吸煙樣本),相應的臨床信息見表1。

      1.2 數(shù)據(jù)預處理

      近來的研究表明,影響基因表達水平的甲基化主要集中在相應的啟動子區(qū)域[15-16]。為此,首先從48萬(TCGA數(shù)據(jù))和2.7萬(EDRN)個甲基化水平檢驗探針數(shù)據(jù)中篩選位于基因啟動子區(qū)域的探針數(shù)據(jù),以其均值作為相應基因的甲基化水平。之后刪除所有在X、Y染色體上的基因數(shù)據(jù)以及所有樣本中全為空值的基因數(shù)據(jù),最后求取兩組數(shù)據(jù)平臺的基因交集,最終剩余13 564個基因。

      利用TCGA數(shù)據(jù)作為訓練集,EDRN數(shù)據(jù)作為測試集。為了克服數(shù)據(jù)之間的不平衡性,針對TCGA數(shù)據(jù),在吸煙樣本和不吸煙樣本中,各隨機抽取相同數(shù)目樣本(50個)組成訓練集;而對于EDRN數(shù)據(jù),同樣隨機抽取相同數(shù)目樣本(30個)組成測試集,利用5重交叉驗證的方法對分類模型進行優(yōu)化。

      1.3 特征基因識別

      如前訴述,本研究中共有13 564個備選基因,特征基因通常僅有幾十個。為防止信息飽和現(xiàn)象淹沒真正的特征基因,同時克服微陣列數(shù)據(jù)的超高維小樣本特性以及基因變量間的多重共線性對模式識別分類模型精度的負面影響,筆者首次采用迭代多重篩選方法,對全基因組數(shù)據(jù)進行多步篩選。

      篩選方法1:SAM篩選。基因表達差異顯著性分析(SAM)是一種常用的微陣列數(shù)據(jù)預處理方法,常用于高維基因數(shù)據(jù)的初步篩選。SAM通過多重基因特異性檢驗,識別具有顯著差異的基因;通過錯誤發(fā)現(xiàn)率(FDR)算法,控制多重檢驗的錯誤率[17-19]。本研究選用SAM算法篩選(初步篩選3000個基因),作為候選基因的第一部分。

      篩選方法2:相關(guān)性篩選。大量研究表明,DNA甲基化能引起染色質(zhì)結(jié)構(gòu)、DNA構(gòu)象、DNA穩(wěn)定性及DNA與蛋白質(zhì)相互作用方式等的改變,從而影響基因表達[20]。相比之下,能夠影響基因表達水平的甲基化具有更加顯著的生物學意義,對癌癥的發(fā)展能起到更加關(guān)鍵的作用。因此,篩選甲基化水平與基因表達水平具有明顯相關(guān)性(相關(guān)系數(shù)的絕對值大于0.5)的基因作為候選基因集的第二部分。

      篩選方法3:PLS綜合篩選。為突出24個已知重要基因(附表S1已列出24個基因的相關(guān)信息)的作用,將其與前兩步篩選的候選基因集合并后采用PLS算法重新篩選。合并后基因交集共包含3 427個基因,相比13 564個基因,候選基因數(shù)量大大減少,有效克服了信息飽和現(xiàn)象對已知重要基因的削弱。另外,SAM雖然能夠克服常規(guī)顯著性檢驗的局限性,并在一定程度上限制了錯誤發(fā)現(xiàn)率,但畢竟屬于單變量分析方法,無法克服噪聲及變量相關(guān)性的影響,因此只適合于基因變量的初步篩選。PLS(部分最小二乘)算法通過提取與原始變量線性相關(guān)的互相正交的潛變量[21],將原始高維樣本壓縮至低維空間進行模式識別和回歸分析,因此能夠有效地克服數(shù)據(jù)中噪聲和多重相關(guān)性等問題,在生物信息學領(lǐng)域得到越來越廣泛的應用。為此,本研究采用PLS篩選最終的特征基因。通過對模式識別模型分類精度的遞歸迭代優(yōu)化,具有最優(yōu)分類精度的最小基因集即為最終的特征基因集。

      具體流程如圖1所示。SAM、PLS均在R語言環(huán)境下運行,相應細節(jié)可參見實驗室網(wǎng)站http://www.csssk.net提供的附件支持材料。

      圖1 吸煙相關(guān)甲基化模式識別分類模型研究及特征基因識別流程Fig.1 The flow chart of genome-wide smoke related methylation signature genes identification

      1.4 分類模型評價

      為了評價分類模型的性能,采用了準確率(accuracy)、特異性(specificity)和敏感性(sensitivity)3個指標。

      (1)

      (2)

      (3)

      在研究中,正樣本為不吸煙樣本,負樣本為吸煙樣本。true positive(TP)表示不吸煙樣本正確分類的個數(shù),false positive(FP)表示不吸煙樣本被誤判為吸煙樣本的個數(shù);true negative(TN)表示吸煙樣本正確分類的個數(shù),false negative(FN)表示吸煙樣本被誤判為不吸煙樣本的個數(shù)。

      sensitivity(SN)表示不吸煙樣本正確分類的比率,specificity(SP)表示吸煙樣本正確分類的比率,accuracy(ACC)表示所有樣本正確分類的比率。

      所有算法均在R環(huán)境下運行和優(yōu)化。相應詳細介紹和程序可參見附件或訪問實驗室網(wǎng)站http://www.csssk.net。

      2 結(jié)果

      在本研究中,共有13 564個備選基因,采用迭代多重篩選方法,對全基因組數(shù)據(jù)進行多步篩選,最終剩余48個特征基因。作為候選基因集的初步篩選,筆者創(chuàng)新性地結(jié)合多種方法SAM篩選,通過錯誤發(fā)現(xiàn)率(FDR)算法控制多重檢驗的錯誤率,篩選出3 000個基因;基于t-test的相關(guān)性篩選,選出617個強相關(guān)性基因;加之其他文獻中提及的已經(jīng)被實驗所驗證的24個已知重要基因,共剩余3 427個基因(已去除重復基因)組成候選基因集。最后利用PLS算法,通過對模式識別模型分類精度的遞歸迭代優(yōu)化的方法,逐個刪減基因,并確保分類精度達到最優(yōu),最終剩余48個基因。

      2.1 模式識別模型結(jié)果

      本研究的目標是識別能夠區(qū)別吸煙/不吸煙肺腺癌患者的甲基化特征基因,揭示不吸煙患者的患病機理,為開發(fā)更有針對性的治療方法奠定基礎(chǔ)。為此,所識別的相關(guān)甲基化特征基因集必須具有足夠高的分類能力,才能有效證明其代表性:僅采用特征基因的甲基化水平,即可對病人樣本按照吸煙史進行分類(當前吸煙和不吸煙兩類)。本研究所識別的48個甲基化特征基因,相應模式識別分類模型的分類結(jié)果如表2所示。由結(jié)果可知,僅采用48個特征基因的甲基化水平,TCGA訓練集的精度即可高達87.5%,EDRN獨立測試集的精度為76.4%。

      表2 甲基化特征基因模式識別分類結(jié)果(當前吸煙/不吸煙)Tab.2 The results of methylation signature genesidentification

      數(shù)據(jù)集SN/%SP/%ACC/%TCGA訓練集87.287.887.5EDRN測試集80.273.676.4

      此外,無論是對訓練樣本還是對獨立測試集樣本,模式識別的特異性和敏感性均非常接近。對EDRN而言,其特異性為73.6%,敏感性為80.2%,相差僅為6.6%,雖然大于TCGA訓練集的相應偏差,但足以說明模式識別模型具有良好的平衡性和可靠性。

      2.2 甲基化特征基因

      所識別的48個特征基因,按其在不吸煙樣本中甲基化數(shù)據(jù)的中位數(shù)進行排序,得到如圖2所示的箱線圖。

      圖2 特征基因箱線圖(特征基因按其在不吸煙樣本中甲基化數(shù)據(jù)的中位數(shù)進行排序,顏色隨甲基化水平遞增而逐漸加深)。(a)不吸煙樣本(n=54);(b)吸煙樣本(n=73)Fig.2 Boxplot of signature genes(Signature genes was sorted by median of methylation levels in the never smokers. Color deepens with increasing methylation level)(a)Never-smokers(n=54);(b)Current-smokers(n=73)

      KEGGID通路名稱P值通路包含的基因hsa05218Melanoma2.529×10-4EGFR,KRAS,MET,FGF11,MDM2hsa05200Pathwaysincancer4.339×10-4EGFR,RET,KRAS,MET,PAX8,FGF11,MDM2,STAT1hsa05214Glioma0.0027EGFR,KRAS,CALML3,MDM2hsa05216Thyroidcancer0.0073RET,KRAS,PAX8hsa04144Endocytosis0.0086EGFR,RET,ERBB3,MET,MDM2hsa05219Bladdercancer0.0151EGFR,KRAS,MDM2hsa05223Non-smallcelllungcanc-er0.0243EGFR,FHIT,KRAShsa05212Pancreaticcancer0.0413EGFR,KRAS,STAT1hsa04020Calciumsignalingpath-way0.0434EGFR,CALML3,ERBB3,HTR2Bhsa05210Colorectalcancer0.0545EGFR,KRAS,METhsa04012ErbBsignalingpathway0.0580EGFR,KRAS,ERBB3hsa04540Gapjunction0.0604EGFR,KRAS,HTR2Bhsa05215Prostatecancer0.0604EGFR,KRAS,MDM2hsa04912GnRHsignalingpathway0.0716EGFR,KRAS,CALML3

      可以看出,在吸煙與不吸煙樣本中,特征基因的甲基化水平有明顯差異,吸煙樣本中甲基化水平更加分散,而在不吸煙樣本中甲基化水平更緊密。例如,GLDC、CYBA、CD40、WBSCR17、PXMP4等基因,說明吸煙作為一個危險因素會對甲基化水平帶來一定影響。同時,對于SRGN、GTSF1、WBSCR17、OLFM4、CD40、GPR152、RNASE6、MMP25、CA6、PXMP4等基因,其吸煙與不吸煙樣本甲基化水平具有顯著差異(P<0.001),而對于基因DUSP6、SULT4A1、EGFR、B4GALNT4、MET、RET、MMD、CHRNA5,其P>0.5,詳細可見附件(下載網(wǎng)址為http://www.csssk.net)中的附表S2。但根據(jù)其對模式識別模型的貢獻率可知,如基因B4GALNT4、DUSP6的貢獻率均排在前7位,并且從功能分析可知,如EGFR、MET、RET等基因,其甲基化水平對吸煙導致肺癌發(fā)生和發(fā)展的機理至關(guān)重要。

      2.3 特征基因的基因通路

      2.3.1 KEGG分析

      KEGG(Kyoto encyclopedia of genes and genomes)是系統(tǒng)分析基因功能、基因組信息的數(shù)據(jù)庫,它有助于研究者在代謝水平上對特征基因作為一個整體網(wǎng)絡進行研究,是進行生物體內(nèi)代謝分析、代謝網(wǎng)絡研究的強有力工具。David分析平臺的KEGG分析軟件的鏈接為http://david.abcc.ncifcrf.gov/。

      對于48個ME特征基因,共有14條重要的KEGG代謝通路,具體結(jié)果如表3所示。

      可以看出,它們中的大多數(shù)都與癌癥有關(guān)。其中,非小細胞肺癌代謝通路(hsa05223)也包含在內(nèi),P<0.05。除此之外,參與這些代謝通路的基因,如EGFR、 KRAS、MDM2、FHIT、RET等,都已被證實在肺腺癌的發(fā)生發(fā)展中起到十分重要的作用,證明了本研究所確定出的特征基因的重要性。

      2.3.2 IPA分析

      IPA(ingenuity pathway anaylsis)分析用來揭示已確定的甲基化特征基因的基本網(wǎng)絡功能關(guān)系,基因集共包含48個基因,共11個基因調(diào)控網(wǎng)絡與這些基因具有直接關(guān)系。其中,兩個主要調(diào)控網(wǎng)絡如圖3所示,其他信息匯總于表4。這兩個調(diào)控網(wǎng)絡中所包含的大部分基因都與癌癥密切相關(guān),在癌癥的發(fā)展過程中扮演著重要的角色。另外,相應調(diào)控網(wǎng)絡的其他生物功能還包括細胞生長及增殖(cellular growth and proliferation)、細胞發(fā)育(cellular development)、細胞間信號傳導和相互作用(cell-to-cell signaling and interaction)、細胞功能和維護(cellular function and maintenance)等。

      圖3 ME特征基因IPA主要調(diào)控網(wǎng)絡。(a)調(diào)控網(wǎng)絡1;(b)調(diào)控網(wǎng)絡2Fig.3 IPA network of signature genes.(a)IPA network 1;(b)IPA network 2

      編號基因位置編號基因位置編號基因位置1GSTM11p13.317WBSCR177q11.2333ERBB312q132LCK1p34.318MET7q3134GTSF112q13.23C1orf641p36.1319C7orf457q32.235MDM212q14.3-q154CA61p36.220AKR1B107q3336DUSP612q22-q235ANKRD451q25.121NAT28p2237OLFM413q21.16GNLY2p11.222ZNF5728q24.1338RNASE614q11.27ALK2p2323GLDC9p2239CHRNA515q248PAX82q12-q1424SPAG610p12.240MMP2516p13.39STAT12q32.225CALML310p15.141CYBA16q2410HTR2B2q36.3-q37.126PPYR110q11.242FGF1117p13.111FHIT3p14.227RET10q11.243MMD17q12UCHL14p1428SRGN10q22.144ZFP2819q13.4313PCDHB115q3129MGMT10q2645CPXM120p13-p12.314LEAP25q31.130B4GALNT411p15.546PXMP420q11.2215TCP116p21.3-p21.231GPR15211q13.147CD4020q12-q13.216EGFR7p1232KRAS12p12.148SULT4A122q13.2-q13.31

      在研究中,通常認為一個基因有5或5條及以上直接連接的為Hub基因。本研究中的48個基因共有6個Hub基因:EGFR、ERBB3、STAT1、MET、MDM2和CD40。

      1)EGFR (epidermal growth factor receptor) 有13條連接。EGFR基因是上皮生長因子細胞增殖和信號傳導的受體,其突變或過表達一般會引發(fā)腫瘤。研究表明,在許多實體腫瘤中存在EGFR的高表達或異常表達[22]。

      2)ERBB3 (Erb-B2 Receptor Tyrosine Kinase 3) 有8條連接。它編碼表皮生長因子受體(EGFR)家族受體酪氨酸激酶,此基因的過表達已經(jīng)出現(xiàn)在許多癌癥中[23]。

      3)STAT1 (signal transducer and activator of transcription 1) 有6條連接。STAT1基因可以通過控制免疫系統(tǒng),促進腫瘤免疫監(jiān)視能力,提高免疫系統(tǒng)識別、殺傷,并及時清除體內(nèi)突變細胞,防止腫瘤發(fā)生,它在腫瘤起始階段發(fā)揮重要作用[24]。

      4)MET (METProto-Oncogene, Receptor Tyrosine Kinase)有6條連接。它在非小細胞肺癌的細胞株和腫瘤組織中均有過表達現(xiàn)象,并且c-Met在非小細胞肺癌中有重要的生物學意義[25]。

      5)MDM2 (murine double minute 2) 有6條連接。MDM2基因參與調(diào)節(jié)細胞增殖和凋亡相關(guān)的信號通路,在多種惡性腫瘤中都發(fā)生異常改變,其過表達促進了腫瘤的發(fā)生和發(fā)展,與惡性腫瘤的發(fā)展密切相關(guān)[26]。

      6)CD40 (CD40 Molecule, TNF Receptor Superfamily Member 5) 有5條連接。CD40在腫瘤細胞表面表達和腫瘤的轉(zhuǎn)移擴散之間存在顯著的統(tǒng)計學相關(guān)性,而肺癌中CD40的表達可能在轉(zhuǎn)移擴散中起到關(guān)鍵作用,并且可作為預后標志和晚期疾病的指標[27]。

      3 討論

      通常意義下,“不吸煙”指患者個人終生接觸的香煙數(shù)量少于100根,“曾經(jīng)吸煙”者指患者個人戒煙超過至少12個月,“當前吸煙者”指當前正在吸煙或者戒煙不超過12個月的患者。除此以外,日本等少數(shù)國家對吸煙史的定義則不盡相同。鑒于對吸煙史的不同定義及患者對此的不同理解,“不吸煙”患者樣本中難免會有部分“曾經(jīng)吸煙”患者樣本。另外,患者戒煙的時間越長,包括基因組突變特性的各項基因組特征越來越接近于“不吸煙”患者。相反,長期暴露在二手煙或者相應環(huán)境污染下的“不吸煙”患者,其各項基因組特征則更接近于“當前或者曾經(jīng)”吸煙者。由此帶來的訓練樣本類別誤差是不能避免的,基于此的模式識別分類精度則不可能高達100%。但是,由表2可以看出,本研究的模式識別模型仍能以87.5%的精度識別訓練樣本,且更以76.4%的精度識別EDRN獨立測試集,充分說明了模式識別模型和特征基因集的準確性及代表性。

      更為重要的是,如前所述,TCGA訓練集數(shù)據(jù)的測試平臺為Illumina Infinium Human Methylation 450,而EDRN的測試平臺為Illumina Infinium Human Methylation 27。表2所示的結(jié)果則進一步證明了本研究的模式識別分類模型和特征基因集對不同平臺數(shù)據(jù)的魯棒性。

      如前所述,圖2中的基因DUSP6、SULT4A1、EGFR、B4GALNT4、MET、RET、MMD、CHRNA5,其P>0.5,在兩類樣本中差異并不顯著,但根據(jù)其對模式識別模型的貢獻率可知,基因B4GALNT4、DUSP6的貢獻率均排在前7位,并且從功能分析可知,如EGFR、MET、RET等基因,其甲基化水平對吸煙導致肺癌發(fā)生和發(fā)展的機理至關(guān)重要。為了進一步驗證這些基因?qū)δJ阶R別模型的重要性,從48個特征基因中去除這些基因,僅利用顯著差異基因?qū)Ξ斍拔鼰?不吸煙樣本進行模式識別分類,結(jié)果表明,對于TCGA訓練集,模式識別精度為82.3%,而EDRN獨立測試集的精度為70.5%,與訓練集87.5%、獨立測試集76.4%的最高精度相比有所下降,從而更加證明了這些基因?qū)δJ阶R別模型的顯著作用。

      此外,48個特征基因中某些基因的重要性已經(jīng)被其他研究所證實。

      1)Nakajima等已經(jīng)證實,在吸煙樣本中GSTM1基因表達缺失,會導致GSTM1-1酶和GSTM3-3酶的欠表達,使得毒性的降解不能正常進行,相應地使活躍在煙草煙霧中的致癌物質(zhì)增加,這種致癌物質(zhì)代謝的不平衡造成了肺癌的發(fā)生[28]。在本研究中,吸煙樣本GSTM1甲基化與表達水平的相關(guān)系數(shù)是-0.877,呈現(xiàn)明顯的負相關(guān),高甲基化導致了基因表達的缺失。

      2)Liu等發(fā)現(xiàn),與從不吸煙樣本相比,在吸煙樣本中p16和MGMT兩個基因啟動子區(qū)域甲基化的頻率顯著偏高[12],說明非小細胞肺癌的發(fā)生與吸煙之間有很強的相關(guān)性。在本研究中,MGMT基因啟動子區(qū)域甲基化的頻率也顯著偏高。

      3)KRAS基因的突變也非常常見,存在于約30%的肺腺癌和約5%的鱗狀細胞肺癌中[29],在肺癌進展中起了重要的作用。EGFR突變激活的PI3K-AKT 和 RAS-MEK-ERK信號對癌細胞的生長、生存和遷移起至關(guān)重要的作用[30-31]。這兩個基因都是肺癌的重要生物標記。圖4顯示了KRAS與EGFR基因在突變樣本與未突變樣本中的甲基化水平,兩基因在突變樣本與未突變樣本中都有顯著差異性,P值分別為4.44×10-16和4.43×10-16。由此可見,其甲基化水平與突變之間具有很強的相關(guān)性。

      圖4 KRAS與EGFR基因蜂群圖。(a)KRAS;(b) EGFRFig.4 Beeswarm plot of KRAS and EGFR genes.(a)KRAS;(b) EGFR

      4)高表達的基因(如MDM2)可在腫瘤的發(fā)生、發(fā)展過程中起到關(guān)鍵作用,這是因為它利用雙分染色體的能力,迅速繁殖并顯著增加這些細胞的致癌能力[32]。MDM2基因表達水平的不同可能與其甲基化水平的不同有關(guān),本研究中MDM2在吸煙樣本中的甲基化水平更低,這可能造成了MDM2在吸煙樣本中的異常表達,導致癌癥的發(fā)生。

      5)脆性組氨酸三聯(lián)(FHIT)基因的功能缺失,已被證明是已知識別肺癌的關(guān)鍵生物標記[33-34]。

      除此之外,在48個甲基化特征基因中,已知的與非小細胞肺癌密切相關(guān)的關(guān)鍵基因還包括LCK、NAT2、CHRNA5、AKR1B10、DUSP6、MMD、STAT1、RET、ERBB3、ALK、MET,占所識別全部48個特征基因的35.4%,都已被相關(guān)的實驗所驗證。由此可以看出,本研究所提出的識別肺腺癌吸煙相關(guān)特征基因的方法具有可行性,同時也證明了所確定基因集的可信度,為指導臨床個性化治療提供了依據(jù)。

      4 結(jié)論

      本研究創(chuàng)新性地采用多重迭代篩選方法,分別從顯著性差異、與基因表達水平的關(guān)系、生物功能、分類重要性等多個角度,對全基因組甲基化數(shù)據(jù)進行多步篩選,使結(jié)果更加全面可信。識別出的48個吸煙相關(guān)特征基因,存在著顯著的生物學意義,為揭示吸煙與肺腺癌的關(guān)系以及不吸煙患者的患病機理提供了依據(jù),同時為開發(fā)更有針對性的治療方法奠定了基礎(chǔ)。

      [1] Figueroa JD, Han SS, Garcia-Closas M, et al. Genome-wide interaction study of smoking and bladder cancer risk [J]. Carcinogenesis, 2014, 35(8): 1737-1744.

      [2] Figueroa JD, Han SS, Garcia-Closas M, et al. Genome-wide interaction study of smoking and bladder cancer risk [J]. Carcinogenesis, 2014, 35(8): 1737-1744.

      [3] Toh CK, Gao F, Lim WT, et al. Never-smokers with lung cancer: epidemiologic evidence of a distinct disease entity [J]. Journal of Clinical Oncology, 2006, 24(15): 2245-2251.

      [4] Kiyohara C, Wakai K, Mikami H, et al. Risk modification by CYP1A1 and GSTM1 polymorphisms in the association of environmental tobacco smoke and lung cancer: a case-control study in Japanese nonsmoking women [J]. International Journal of Cancer, 2003, 107(1): 139-144.

      [5] Gabrielson E. Worldwide trends in lung cancer pathology [J]. Respirology, 2006, 11(5): 533-538.

      [6] Radzikowska E, Glaz P, Roszkowski K. Lung cancer in women: age, smoking, histology, performance status, stage, initial treatment and survival [J]. Annals of Oncology, 2002, 13(7): 1087-1093.

      [7] Allison DB, Cui X, Page GP, et al. Microarray data analysis: from disarray to consolidation and consensus [J]. Nature Reviews Genetics, 2006, 7(1): 55-65.

      [8] Kim SC, Jung Y, Park J, et al. A high-dimensional, deep-sequencing study of lung adenocarcinoma in female never-smokers [J]. PLoS ONE, 2013, 8(2): e55596.

      [9] Bolger AM, Lohse M, Usadel B. Trimmomatic: a flexible trimmer for illumina sequence data [J]. Bioinformatics, 2014, 30(15): 2114-2120.

      [10] Lee KW, Pausova Z. Cigarette smoking and DNA methylation [J]. Frontiers in Genetics, 2013, 4(1): 132-142.

      [11] Selamat SA, Galler JS, Joshi AD, et al. DNA methylation changes in atypical adenomatous hyperplasia, adenocarcinoma in situ, and lung adenocarcinoma [J]. PLoS ONE, 2011, 6(6): e21443.

      [12] Liu Yang, Lan Qing, Siegfried JM, et al. Aberrant promoter methylation of p16 and MGMT genes in lung tumors from smoking and never-smoking lung cancer patients [J]. Neoplasia, 2006, 8(1): 46-51.

      [13] Wu Fang, Lu Min, Qu Lu, et al. DNA methylation of hMLH1 correlates with the clinical response to cisplatin after a surgical resection in non-small cell lung cancer [J]. International Journal of Clinical and Experimental Pathology, 2015, 8(5): 5457-5463.

      [14] Selamat SA, Chung BS, Girard L, et al. Genome-scale analysis of DNA methylation in lung adenocarcinoma and integration with mRNA expression [J]. Genome Research, 2012, 22(7): 1197-1211.

      [15] Jones PA, Laird PW. Cancer-epigenetics comes of age [J]. Nature Genetics, 1999, 21(2): 163-167.

      [16] Jones PA. The DNA methylation paradox[J]. Trends in Genetics, 1999, 15(1):34-37.

      [17] George G, Raj VC. Review on feature selection techniques and the impact of SVM for cancer classification using gene expression profile [J]. International Journal of Computer Science & Engineering Survey, 2011, 2(3): 42-55.

      [18] Tusher VG, Tibshirani R, Chu G. Significance analysis of microarrays applied to the ionizing radiation response [J]. Proceedings of the National Academy of Sciences, 2001, 98(9): 5116-5121.

      [19] Zhang Chunying, Girard L, Das A, et al. Nonlinear quantitative radiation sensitivity prediction model based on NCI-60 cancer cell lines [J]. The Scientific World Journal, 2014, 2014(5): 602-612.

      [20] Phillips T. The role of methylation in gene expression [J]. Nature Education, 2008, 1(1): 116-121.

      [21] Abdi H. Partial least square regression (PLS regression) [J]. Encyclopedia for Research Methods for the Social Sciences, 2003, 6(4): 792-795.

      [22] Sun Guangyuan, Liu Bing, He Jin, et al. Expression of EGFR is closely related to reduced 3-year survival rate in Chinese female NSCLC [J]. Medical Science Monitor, 2015, 21(1): 2225-2231.

      [23] Bublil EM, Yarden Y. The EGF receptor family: spearheading a merger of signaling and therapeutics [J]. Current Opinion in Cell Biology, 2007, 19(2): 124-134.

      [24] Koromilas AE, Sexl V. The tumor suppressor function of STAT1 in breast cancer [J]. Jak-Stat, 2013, 2(2): 1-5.

      [25] Ma PC, Jagadeeswaran R, Jagadeesh S, et al. Functional expression and mutations of c-Met and its therapeutic inhibition with SU11274 and small interfering RNA in non-small cell lung cancer [J]. Cancer Research, 2005, 65(4): 1479-1488.

      [26] Liu G, Wheatley-Price P, Zhou Wei, et al. Genetic polymorphisms of MDM2, cumulative cigarette smoking and nonsmall cell lung cancer risk [J]. International Journal of Cancer, 2008, 122(4): 915-918.

      [27] Sabel MS, Yamada M, Kawaguchi Y, et al. CD40 expression on human lung cancer correlates with metastatic spread [J]. Cancer Immunology Immunotherapy, 2000, 49(2): 101-108.

      [28] Nakajima T, Elovaara E, Anttila S, et al. Expression and polymorphism of glutathione S-transferase in human lungs: risk factors in smoking-related lung cancer [J]. Carcinogenesis, 1995, 16(4): 707-711.

      [29] Korpanty GJ, Graham DM, Vincent MD, et al. Biomarkers that currently affect clinical practice in lung cancer: EGFR, ALK, MET, ROS-1, and KRAS [J]. Frontiers in Oncology, 2014, 4(1): 204-211.

      [30] Heist RS, Engelman JA. SnapShot: non-small cell lung cancer [J]. Cancer Cell, 2012, 21(3): 448-448.e2.

      [31] Wistuba II, Gazdar AF. Lung cancer preneoplasia [J]. Annu Rev Pathol Mech Dis, 2006, 1(1): 331-348.

      [32] Sanborn JZ, Salama SR, Grifford M, et al. Double minute chromosomes in glioblastoma multiforme are revealed by precise reconstruction of oncogenic amplicons [J]. Cancer Research, 2013, 73(19): 6036-6045.

      [33] Westra WH, Baas IO, Hruban RH, et al. K-ras oncogene activation in atypical alveolar hyperplasias of the human lung [J]. Cancer Research, 1996, 56(9): 2224-2228.

      [34] Sozzi G, Pastorino U, Moiraghi L, et al. Loss of FHIT function in lung cancer and preinvasive bronchial lesions[J]. Cancer Research, 1998, 58(22):5032-5037.

      Genome-Wide Smoke Related Methylation Signature Genes Identification for Lung Adenocarcinomas

      Wang Shixiang1Zhang Fei1Wang Ling2Song Kai1,3*

      1(SchoolofChemicalEngineeringandTechnology,TianjinUniversity,Tianjin300072,China)2(FirstAffiliatedHospitalofDalianMedicalUniversity,Dalian116011,Liaoning,China)3(UniversityofTexasSouthwesternMedicalCenter,Dallas75235,USA)

      To understand the biological mechanism of never smoker lung adenocarcinomas, we focused on the genome-wide methylation values (ME) to discover signature genes for the distinguishing of current/never smokers. In order to overcome the disadvantages of small-size-high-dimension, high noise and to overcome the predominate influence of the whole genome to the dozens of signature genes, a new integrative selection method was used iteratively to uncover the real signature genes. To do this, instead of using only one criteria for gene selection, we identified genes according to their significance test performance, the relationship between their methylation levels and expression levels, the biological function and the contribution to the current/never smoker classification. As a result, 48 genes were identified as ME smoke related signature genes based on the 127 lung adenocarcinoma samples downloaded from TCGA database. Then we used 64 EDRN lung adenocarcinoma samples as an independent validation set. Only using the methylation values of these 48 signature genes, the current/never smoker classification accuracy of TCGA training set is 87.5% (SN=87.2%, SP=87.8%) and for EDRN validation set is 76.4% (SN=80.2%, SP=73.6%), respectively. Cross-study proved the highly cancer related of 17 important genes in our 48 signature genes. Addition to these results, we proved the importance of their corresponding methylation values. The ingenuity pathway (IPA) and Kyoto encyclopedia of genes and genomes (KEGG) pathways analysis indicated the relationships among these genes on the genetic network level and pathway levels. They also indicated they are involved in the highly cancer-related pathways.

      lung adenocarcinoma;methylation values;smoke exposure;pattern recognition;classification

      10.3969/j.issn.0258-8021. 2016. 03.007

      2015-10-12, 錄用日期:2016-03-08

      國家自然科學基金(31271351)

      R318

      A

      0258-8021(2016) 03-0301-09

      *通信作者(Corresponding author), E-mail:ksong@tju.edu.cn

      猜你喜歡
      模式識別甲基化腺癌
      益肺解毒方聯(lián)合順鉑對人肺腺癌A549細胞的影響
      中成藥(2018年7期)2018-08-04 06:04:18
      淺談模式識別在圖像識別中的應用
      電子測試(2017年23期)2017-04-04 05:06:50
      第四屆亞洲模式識別會議
      HIF-1a和VEGF-A在宮頸腺癌中的表達及臨床意義
      GSNO對人肺腺癌A549細胞的作用
      鼻咽癌組織中SYK基因啟動子區(qū)的甲基化分析
      第3屆亞洲模式識別會議
      胃癌DNA甲基化研究進展
      老年胃腺癌中FOXO3a、PTEN和E-cadherin表達的關(guān)系
      基因組DNA甲基化及組蛋白甲基化
      遺傳(2014年3期)2014-02-28 20:58:49
      乌拉特前旗| 伊金霍洛旗| 临朐县| 清丰县| 阿拉尔市| 类乌齐县| 奈曼旗| 钟山县| 岢岚县| 裕民县| 宝坻区| 望城县| 霍山县| 临澧县| 昌宁县| 正镶白旗| 洛宁县| 白水县| 忻城县| 曲周县| 大英县| 麻阳| 庄河市| 崇礼县| 许昌县| 浪卡子县| 芮城县| 华容县| 咸阳市| 湖北省| 东阳市| 遂宁市| 罗定市| 堆龙德庆县| 耿马| 彭山县| 夹江县| 莱阳市| 工布江达县| 秀山| 偏关县|