• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      全基因組關(guān)聯(lián)分析的研究現(xiàn)狀及對數(shù)據(jù)科學(xué)的挑戰(zhàn)

      2019-05-07 01:46:14
      關(guān)鍵詞:表型基因組關(guān)聯(lián)

      (西安電子科技大學(xué) 計算機科學(xué)與技術(shù)學(xué)院, 陜西 西安 710071)

      全基因組關(guān)聯(lián)分析的文章很多,生命體的復(fù)雜性,使得全基因組關(guān)聯(lián)分析涉及的問題方方面面,本文則重點從數(shù)據(jù)挖掘和數(shù)據(jù)科學(xué)的角度,探討全基因組關(guān)聯(lián)分析的現(xiàn)狀、問題及其對數(shù)據(jù)科學(xué)的挑戰(zhàn).

      1 關(guān)于GWAS

      1.1 GWAS的定義

      全基因組關(guān)聯(lián)分析(Genome wide association study, GWAS)是通過考察全基因組范圍DNA變異的單核苷酸多態(tài)性(SNP),挖掘影響復(fù)雜疾病等的表型性狀(如疾病、癌癥、身高等)的SNP的計算方法.

      孟德爾疾病,又稱單基因病,是由一對等位基因控制的疾病或病理性狀,人體中只要單個基因發(fā)生突變就足以致病的一類遺傳性疾病.而非孟德爾疾病,亦稱復(fù)雜疾病(complex disease),為多基因病,即疾病或病理性狀是多個基因、它們的交互作用、以及它們與各種環(huán)境因素的交互作用所導(dǎo)致的聯(lián)合效應(yīng)的結(jié)果.人類目前面臨的未解疾病大多屬于復(fù)雜疾病,包括各類神經(jīng)性疾病(癲癇、癔病、神經(jīng)分裂癥、阿爾茨海默病等)、各類腫瘤和癌癥、糖尿病、心臟病、骨質(zhì)疏松癥、哮喘以及各類疑難雜癥等,以及各類表型性狀(如骨密度、支氣管反應(yīng)性、葡萄糖水平、對環(huán)境刺激的反應(yīng)如藥物功效或副作用)等,如何認(rèn)識其致病機理是21世紀(jì)生物學(xué)和生物醫(yī)學(xué)的重大挑戰(zhàn).

      所謂SNP主要是指在基因組水平上由單個核苷酸的變異所引起的DNA序列多態(tài)性,它是人類可遺傳的變異中最常見的一種,占所有已知多態(tài)性的90%以上.SNP在人類基因組中廣泛存在,平均每500~1 000個堿基對中就有1個,其總數(shù)可達百萬到千萬數(shù)量級[1].

      2005年Klein等[2]發(fā)表在Science上的文章,第一次成功鑒定了影響年齡相關(guān)性黃斑變性病的重要遺傳因子,這之后GWAS研究的范圍越來越廣泛.

      1.2 GWAS所面臨的數(shù)據(jù):超高通量超小樣本超大噪聲

      由于全基因組中涉及的SNP達到百萬甚至千萬數(shù)量級,也就是說xi的維度達百萬甚至千萬,甚至生物學(xué)家也無法告知導(dǎo)致疾病的DNA變異可能是哪些,這正是生物學(xué)家和生物醫(yī)學(xué)家向數(shù)據(jù)科學(xué)家提出的問題:數(shù)據(jù)科學(xué)家能否通過對上述數(shù)據(jù)的處理,從數(shù)據(jù)中挖掘出與疾病關(guān)聯(lián)的SNP位點,這是生物學(xué)家向數(shù)據(jù)科學(xué)家提出的嚴(yán)重挑戰(zhàn).之所以要從全基因組范圍中挖掘,是為了不漏掉任何可能的致病SNP,因為生命和疾病現(xiàn)象極其復(fù)雜,任何SNP都可能是疾病的根源.

      其實,DNA作為遺傳密碼,其單核苷酸多態(tài)性(SNP)正好反映了人類個體間的性狀差異和個體的多樣性,諸如身高、體重、胖瘦、體態(tài)、各類疾病等,隨著研究的深入,GWAS的數(shù)據(jù)越來越大(樣本越來越多),將導(dǎo)致除了上述個體多樣性外,還存在由于地域、人種、群體等不同所帶來的樣本的群體多樣性.標(biāo)識出有病和沒病或表型性狀,只是為了從如此眾多的SNP中找出僅與疾病/表型性狀關(guān)聯(lián)的SNP,而將所有其他的多樣性均視為是對其的干擾和噪聲.

      1.3 GWAS的研究目標(biāo)

      全基因組關(guān)聯(lián)分析對數(shù)據(jù)分析的目標(biāo),是要從全基因組的所有SNP中,找出僅僅與疾病相關(guān)聯(lián)的SNP,從科學(xué)上講,它是為科學(xué)服務(wù)的——為生物學(xué)家提供與疾病相關(guān)的科學(xué)發(fā)現(xiàn)和研究疾病發(fā)生發(fā)展機理服務(wù);從臨床應(yīng)用上,針對這些SNP進行疾病/癌癥的早期診斷;從研發(fā)上,針對所發(fā)現(xiàn)的與疾病關(guān)聯(lián)的SNP,將其作為藥物靶點進行分子藥物研究和對疾病/癌癥的早期治療研究.

      實際上,GWAS更加關(guān)注多SNP聯(lián)合致病,亦稱SNP的交互作用,而對于某個特定疾病,到底有多少個SNP聯(lián)合致病、是哪幾個SNP的聯(lián)合致病、以及這幾個SNP聯(lián)合起來是怎樣致病的,這些都是GWAS需要從數(shù)據(jù)中挖掘和解決的問題.

      本文認(rèn)為,GWAS的最終目標(biāo),應(yīng)該是從全基因組的所有SNP中,找出復(fù)雜疾病的分子致病原因,而不是找出與復(fù)雜疾病僅僅是相關(guān)聯(lián)的SNP,因為只有找出真正的致病原因,才能引發(fā)生物學(xué)家的研究發(fā)現(xiàn),而錯誤的發(fā)現(xiàn)將誤導(dǎo)他們的研究發(fā)現(xiàn),誤導(dǎo)對復(fù)雜疾病機理的認(rèn)識.只是目前的技術(shù)手段有限:由于對“原因”這個問題還無定性和定量的科學(xué)表述,不得已找與復(fù)雜疾病相關(guān)聯(lián)的SNP罷了.

      2 研究現(xiàn)狀——數(shù)據(jù)、方法及成績

      GWAS研究,無論在數(shù)據(jù)、方法和對腫瘤/癌癥的研究上,都已取得了可喜的成績.數(shù)據(jù)上,各國出臺了相應(yīng)的大規(guī)模甚至超大規(guī)模的基因組計劃,為疾病相關(guān)GWAS研究奠定了數(shù)據(jù)基礎(chǔ);方法上,更多采用統(tǒng)計學(xué)方法、機器學(xué)習(xí)和智能優(yōu)化等方法.

      2.1 數(shù)據(jù)上的進展

      WTCCC(Wellcome Trust Case Control Consortium,https://www.wtccc.org.uk/)從2005年開始就建立了全基因組SNP樣本數(shù)據(jù)庫,為研究者提供了很好的數(shù)據(jù)平臺[2].癌癥基因組(TCGA)計劃(http://cancergenome.nih.gov/)整合了不同芯片平臺的多層面數(shù)據(jù),為識別癌癥相關(guān)的生物標(biāo)記提供可能.目前,TCGA中包含了30多種癌癥和腫瘤的數(shù)據(jù),每種疾病包含了基因組(DNA序列層面的變異)、表觀遺傳組(DNA甲基化和miRNA表達)和轉(zhuǎn)錄組(基因表達),為研究疾病的內(nèi)在致病機理提供可能.國際千人基因組計劃(http://www.1000genomes.org/),通過解碼1 000多來自非洲、亞洲、歐洲和美洲共14個民族的基因組,繪制出迄今為止最大最全的人類遺傳變異目錄.該計劃最終將解碼26個民族群體共2 500個人的基因組,尋找世界各地人群中復(fù)雜疾病的遺傳基礎(chǔ).此外還有“炎黃計劃”(包含南北方地區(qū)的中國人)、“中國新生兒基因組計劃”和“中國胚胎基因組計劃”等.2017年12月28日,我國啟動“中國十萬人基因組計劃”,這是我國在人類基因組研究領(lǐng)域?qū)嵤┑氖讉€重大國家計劃,覆蓋地域包含我國主要地區(qū),涉及人群除漢族外,還包括人口數(shù)量在500萬以上的壯族、回族等9個少數(shù)民族.這些都為通過GWAS解密復(fù)雜疾病的遺傳密碼,奠定了良好的數(shù)據(jù)基礎(chǔ).此外,英國10萬人基因組計劃、美國的100萬人個人健康信息以及基因組測序、韓國萬人基因組計劃、法國基因組和個體化醫(yī)療計劃(法國基因組醫(yī)療2025)等也正在各國展開.這些計劃的實施,為研究人類健康和各類遺傳疾病的遺傳機理、發(fā)現(xiàn)疾病的分子致病原因和生物學(xué)家的生物學(xué)發(fā)現(xiàn)、分子靶向藥物研制和疾病早期診斷和個性化治療,提供了良好的數(shù)據(jù)基礎(chǔ).

      GWAS就是要回答在百萬到千萬數(shù)量級的SNP中哪些SNP是與疾病真正關(guān)聯(lián)的問題,那么如果用某種方法找到了答案,該答案是否正確,需要進行昂貴的生物實驗來驗證,為此需要在此之前先進行計算評價.目前有2種形式進行計算評價:①通過對數(shù)據(jù)的仿真,在仿真數(shù)據(jù)中嵌入相應(yīng)的答案,考察數(shù)據(jù)挖掘的結(jié)果是否正好是所嵌入的答案;②在沒有答案情況下(真實數(shù)據(jù)即為這種情況),考察所獲得解的統(tǒng)計重要性.

      2.2 研究方法的進展

      在研究方法上,統(tǒng)計方法、信息論方法、機器學(xué)習(xí)和深度學(xué)習(xí)方法、智能優(yōu)化方法等均已運用到GWAS研究中.

      早期的研究針對的數(shù)據(jù)集較小,更多采取窮舉法,比如組合劃分法(combinatorial partitioning method, CPM)[3]、多因子降維(multifactor dimensionality reduction, MDR)[4]、受限組合劃分法(restricted partitioning method, RPM)[5]、信息增益法(information gain)[6]、反向基因型-表型關(guān)聯(lián)法(backward genotype-trait association,BGTA)[7]等,這些方法通常不適于大規(guī)模數(shù)據(jù)集的GWAS.

      鑒于全基因組涉及的SNP數(shù)目巨大,找僅與表型相關(guān)的SNP更多的是分2步甚至多步進行,首先濾除那些認(rèn)為與表型只有微不足道關(guān)聯(lián)的SNP,再在剩余的SNP中搜索與表型關(guān)聯(lián)的SNP.通常濾除過程采用輕量級計算,而在剩余SNP中搜索則更多采用諸如窮舉的重量級搜索和計算,以保證搜索過程能在有限時間內(nèi)高效完成.目前已開發(fā)了許多隨機和啟發(fā)式方法,這些方法有可能保留盡可能多的具有表型信息含量的SNP,同時極大地降低計算的復(fù)雜度從而適應(yīng)大規(guī)模數(shù)據(jù)集.

      例如,Tang等[8]提出的epistatic module detection (epiMODE)是基于蒙特卡洛隨機抽樣策略的貝葉斯推理算法BEAM的推廣;Wang等[9]提出了AntEpiSeeker,它是一個2步的蟻群優(yōu)化搜索算法;Wan等[10]提出了基于預(yù)測規(guī)則推理和2步設(shè)計的SNPRuler,他們還提出了另一種方法,基于布爾操作的篩選測試方法BOOST[11],其中僅涉及布爾值,并允許使用快速邏輯操作以獲得列聯(lián)表.文獻[12-14]提出了一系列方法,利用所采用的測試統(tǒng)計量的性質(zhì)來緩解多個測試問題,其中基于樹的關(guān)聯(lián)分析方法(TEAM)通過使用最小生成樹來更新兩位點的列聯(lián)表.

      近年來,深度學(xué)習(xí)也應(yīng)用于GWAS.Paul等2018年提出了識別高階SNP交互作用的新方法,該方法基于SNP組合的非線性變換,利用原始SNP序列的變換域表示對深度學(xué)習(xí)分類器進行初始化,利用自編碼器來識別高階SNP交互作用[15].

      為檢驗與肥胖表型相關(guān)的統(tǒng)計顯著的單核苷酸多態(tài)性(SNP)的預(yù)測能力,Montaez等[16]展示了深度學(xué)習(xí)作為GWAS分析的潛力,該框架可以捕獲關(guān)于SNP的信息以及它們之間的重要交互作用,結(jié)果表明,運用深度學(xué)習(xí)可以捕捉到單一的SNP分析不能捕捉到的不太顯著變異的累積效應(yīng),及其對疾病預(yù)測結(jié)果的總體貢獻.

      然而,Bellot等[17]在Genetics上的論文則指出,深度學(xué)習(xí)(DL)在復(fù)雜人類性狀基因組預(yù)測中的性能還沒有得到全面的測試.在其所評估的性狀范圍內(nèi)(身高、骨密度、體重指數(shù)、收縮壓和腰臀比5種表型),卷積神經(jīng)網(wǎng)絡(luò)(CNN)的表現(xiàn)與線性模型的基本相當(dāng):沒有發(fā)現(xiàn)DL以相當(dāng)大的幅度超過線性模型的情況[17].

      理想的GWAS數(shù)據(jù),其群體中的個體彼此的差異度應(yīng)該是相同的,個體間唯一最大的差異應(yīng)該是與控制目標(biāo)性狀的基因之間的差異.但實際情況往往并非如此,這就是所謂的群體多樣性.為去除GWAS數(shù)據(jù)中群體多樣性的影響,目前的主要方法是基因組控制法(通過修訂關(guān)聯(lián)統(tǒng)計量)[18]、分層分析法(利用非關(guān)聯(lián)的分子標(biāo)記和貝葉斯聚類技術(shù))[19]、主分量分析法(計算親緣關(guān)系矩陣的特征值和特征向量)[20]、混合線性模型法(將表型分解成固定效應(yīng)、隨機效應(yīng)和殘差效應(yīng)的線性疊加)等[21],以降低由于樣本的群體結(jié)構(gòu)所導(dǎo)致的GWAS偏差.

      2.3 取得的成績

      GWAS研究已取得了很好的成績.例如,Klein等[2]利用GWAS進行老年黃斑變性疾病(Age-Related Macular Degeneration, AMD)的研究,從116 204個SNP位點中,發(fā)現(xiàn)了2個位于基因CFH內(nèi)含子上的SNP位點(rs380390,rs1329428)與AMD具有很強關(guān)聯(lián)性.Cai等[22]從22 780個case樣本和24 181個Control樣本中發(fā)現(xiàn)了30個獨立的乳腺癌易感基因位點.文獻[23]通過GWAS研究發(fā)現(xiàn)TERT-CLPTM1L位點的常見變體與雌激素受體陰性乳腺癌相關(guān).2017年,Michailidou等[24]對122 977名歐洲乳腺癌患者和105 974名對照者進行了基因分型陣列和SNP分析,在已知的和新的風(fēng)險位點之間發(fā)現(xiàn)了潛在聯(lián)系,證實了許多之前發(fā)現(xiàn)的乳腺癌致病位點,并找出了65個新的乳腺癌致病基因位點,證明了乳腺癌候選靶基因和體細(xì)胞驅(qū)動基因之間有很強的重疊.Milne等[25]研究了21 468個雌激素受體陰性乳腺癌患者,通過GWAS分析與雌激素受體陰性乳腺癌風(fēng)險的關(guān)聯(lián)性,證實了之前發(fā)現(xiàn)的10個易感基因位點.2018年, Lillias等發(fā)現(xiàn)了39個SNP位點與憩室病(diverticular disease)緊密相關(guān)[26].

      身體質(zhì)量指數(shù)(BMI)和血清膽固醇等健康風(fēng)險因素與許多常見病有關(guān).Zhu等[27]開發(fā)并應(yīng)用了一種方法(稱為GSMR),用全基因組關(guān)聯(lián)研究的匯總數(shù)據(jù)進行多SNP孟德爾隨機化分析,研究了BMI、腰臀比、血清膽固醇、血壓、身高和受教育年限等與常見疾病(樣本數(shù)量達405 072個)之間的因果關(guān)系,包括低密度脂蛋白膽固醇對2型糖尿病(T2D)的保護作用和二型糖尿病他汀類藥物的副作用,以及EduYears對阿爾茨海默癥的保護作用等.

      2018年10月,英國牛津大學(xué)的Stephen帶領(lǐng)的研究組在Nature Genetics發(fā)表文章,他們利用UK Biobank數(shù)據(jù)庫提供的共8 428個樣本的全基因組測序以及多模態(tài)腦影像數(shù)據(jù),對共3 144個功能和結(jié)構(gòu)腦影像指標(biāo)進行了全基因組關(guān)聯(lián)分析,發(fā)現(xiàn)了148個可重復(fù)的由SNP和其相關(guān)腦影像指標(biāo)組成的簇, 發(fā)現(xiàn)與鐵轉(zhuǎn)運和儲存相關(guān)的基因與皮質(zhì)下腦組織磁化率有關(guān),還有17個相關(guān)基因同大腦的發(fā)育、信號通路以及可塑性相關(guān)[28].

      Huyghe等[29]2019年發(fā)表在Nature genetics的論文,對1 439例病例和720例對照者進行了全基因組測序,將發(fā)現(xiàn)的序列變異和單倍型納入全基因組關(guān)聯(lián)研究數(shù)據(jù),并對34 869例病例和29 051例對照進行了相關(guān)性測試.另有23 262例病例和38 296名對照者對調(diào)查結(jié)果進行了跟蹤.遺傳力分析表明,結(jié)直腸癌風(fēng)險是高度多基因的相關(guān)的,更大、更全面的研究能夠進行罕見的變異分析,并將提高對這種風(fēng)險背后的生物學(xué)的理解和影響個性化篩選策略和藥物開發(fā).

      Chimusa等[30]開發(fā)的ancGWAS是一種基于代數(shù)圖中心性的方法,通過將GWAS數(shù)據(jù)集的關(guān)聯(lián)信號集成到人類蛋白質(zhì)-蛋白質(zhì)交互作用(PPI)網(wǎng)絡(luò)中,考察在識別重要疾病子網(wǎng)絡(luò)中的連鎖不平衡,從而盡可能地消除復(fù)雜疾病發(fā)病機制背后的基因之間的相互作用,為疾病的發(fā)病機理提供進一步的認(rèn)識.

      3 面臨的挑戰(zhàn)——問題極其嚴(yán)重

      Ioannidis[31]早在2005年發(fā)表在PLoS Medicine上的論文標(biāo)題——“為什么大部分的研究發(fā)現(xiàn)是錯的”,已明確指出了存在問題的嚴(yán)重性.Park等[32]也指出:在不值得注意的GWAS結(jié)果中有許多是值得關(guān)注的,這是由于樣本集大小的影響.本文則認(rèn)為,樣本大小只是問題的一個方面,其背后有著更深層次的原因.

      3.1 GWAS結(jié)果的重復(fù)性差

      以一個典型數(shù)據(jù)的GWAS研究結(jié)果來看這個問題.以年齡相關(guān)性黃斑變性(Age-related Macular Degeneration,AMD)為例,這是GWAS最早研究的疾病,研究最早、最廣泛、最充分,這里僅列出3個代表性的研究結(jié)果,可以看到這些結(jié)果的不一致性(即重復(fù)性差),并且結(jié)果中的重疊性高.

      Jiang等[33]2009年發(fā)表在BMC bioinformatics上的論文,在對SNP進行初步篩選的基礎(chǔ)上,運用具有100萬個決策樹的超大規(guī)模隨機森林,通過暴力搜索(學(xué)習(xí)),獲得表1的結(jié)果(其中的P值未經(jīng)Bonferroni校正).

      表1文獻[33]給出的對AMD數(shù)據(jù)進行GWAS的結(jié)果

      Table 1 Results of GWAS on AMD data presented in literature [33]

      SNP InteractionP-value(rs6104678,rs7863587)1.28×10-7(rs3743175,rs1394608)3.06×10-7(rs2828155,rs1394608)3.06×10-7(rs4292478,rs1394608)7.29×10-7(rs6104678,rs10512174)7.68×10-7(rs2347060,rs3758141,rs7104698)5.57×10-9(rs2347061,rs3758141,rs7104698)5.57×10-9(rs2347060,rs10503640,rs7104698)6.91×10-9(rs2347061,rs10503640,rs7104698)6.91×10-9(rs2347060,rs1557753,rs7104698)1.07×10-8

      2017年發(fā)表在Scientific Report上的論文[34],搜索數(shù)據(jù)中存在的3個SNP聯(lián)合致病的因子,得到表2的結(jié)果(其中的P值也未經(jīng)Bonferroni校正).

      表2 文獻[34]給出的對AMD數(shù)據(jù)進行GWAS的結(jié)果

      2016年發(fā)表在BMC Bioinformatics上的論文[35],則用圖示方式更鮮明地表達了類似的重疊現(xiàn)象,見圖1(其中黑色表示單個SNP的邊緣效應(yīng),灰色表示2個SNP的聯(lián)合效應(yīng),淡灰色表示3個SNP的聯(lián)合效應(yīng);圓圈的面積越大,表明效應(yīng)越強).

      圖1 文獻[35]給出的對AMD數(shù)據(jù)進行GWAS的結(jié)果

      Fig.1 Results of GWAS on AMD data presented in literature [35]

      從上述結(jié)果看出:①相同數(shù)據(jù),但結(jié)果都不一致,亦即結(jié)果沒有重復(fù)性;②找到的SNP組合,存在嚴(yán)重的重疊結(jié)構(gòu),如表1中的rs6104678在2個SNP的組合(rs6104678, rs7863587)和(rs6104678, rs10512174)中存在,類似重疊現(xiàn)象在上述表1、表2和圖1中均可見到.顯然,重疊表明所找到的不是本質(zhì)原因,如果重疊,則其背后必有更本質(zhì)的原因,而GWAS的目標(biāo)是找出復(fù)雜疾病/表型性狀的本質(zhì)原因;③超大規(guī)模位點數(shù)量,使得無法對結(jié)果運用多重檢驗對P值進行修正;④諸如隨機森林、ROC曲線等,均為分類器或評價分類器的評價指標(biāo),卻未必能夠評價本質(zhì)原因.

      3.2 GWAS對數(shù)據(jù)科學(xué)的挑戰(zhàn)

      通過GWAS找表型的本質(zhì)分子原因,是生物學(xué)和生物醫(yī)學(xué)向數(shù)據(jù)科學(xué)提出的嚴(yán)峻挑戰(zhàn).

      3.2.1 從數(shù)據(jù)中到底要挖掘出什么并不明確

      關(guān)于全基因組關(guān)聯(lián)分析,其目標(biāo)是從數(shù)據(jù)中挖掘出與疾病關(guān)聯(lián)的SNP,然而,關(guān)聯(lián)在這里到底應(yīng)該是怎樣的含義并沒有嚴(yán)格給出.關(guān)聯(lián)可以認(rèn)為是一種聯(lián)系,但是從一般意義上講,任何位點都有聯(lián)系,那么怎樣的聯(lián)系算是關(guān)聯(lián)?這里是要找聯(lián)系,還是本質(zhì)原因?本質(zhì)的含義到底是什么?原因的含義又是什么?這些問題實際上尚未厘清.結(jié)果是,目前從數(shù)據(jù)中挖掘出的,更多的是只具有統(tǒng)計重要性的SNP,而統(tǒng)計重要性未必是科學(xué)重要性.

      似乎,GWAS的目標(biāo)可以認(rèn)為是從數(shù)據(jù)中挖掘出“真正”致病的SNP“原因”,那么什么是“原因”,什么是“真正的”,這些看似有點哲學(xué)味道的問題,實際上已經(jīng)困擾哲學(xué)界上千年,顯然在計算上目前尚未解決.

      3.2.2 研究發(fā)現(xiàn)不容忍差錯

      GWAS是通過數(shù)據(jù)分析的手段,從數(shù)據(jù)中挖掘出疾病的致病SNP的,以便生物學(xué)家進一步地認(rèn)識疾病機理,因此,任何錯誤的發(fā)現(xiàn),都會誤導(dǎo)生物學(xué)家對疾病機理的認(rèn)識,誤導(dǎo)生物學(xué)的研究發(fā)現(xiàn).這個問題與人們生活中大量存在的模式識別問題(比如人臉識別問題,指紋識別問題等)是完全不同的,在這些模式識別問題中,只要模式被正確識別就算達到目的,并不探究更深層次的機理問題.比如人臉識別問題,只要能正確識別就行,至于到底是人臉的哪些差異能最好地幫助識別,并不關(guān)心.因此,所有模式識別方法甚至機器學(xué)習(xí)方法,對全基因組關(guān)聯(lián)分析可能是無益的,所發(fā)現(xiàn)的可能離真正的致病原因相差甚遠(yuǎn),尤其在小樣本情況下可能更是如此.

      3.2.3 將GWAS問題當(dāng)做統(tǒng)計學(xué)和機器學(xué)習(xí)問題

      比如,Xu等[36]將GWAS視為一個特征選擇問題,Wei等[37]對約13 000 個潰瘍性結(jié)腸炎和約22 000個對照組的樣本,通過運用各種機器學(xué)習(xí)的技術(shù)進行GWAS,獲得了0.83的AUC性能,而AUC通常是衡量分類算法性能的指標(biāo).將GWAS問題當(dāng)做統(tǒng)計學(xué)和機器學(xué)習(xí)問題的研究比比皆是,常常將疾病的分子預(yù)測與疾病的分子致病原因混為一談,然而從GWAS數(shù)據(jù)中挖掘表型性狀的分子原因,與挖掘統(tǒng)計重要性(統(tǒng)計學(xué)方法)、挖掘出模式(機器學(xué)習(xí)方法)、挖掘出對疾病的預(yù)測風(fēng)險等,應(yīng)該是截然不同的目標(biāo)和方向.

      目前的機器學(xué)習(xí),都是在假設(shè)空間中學(xué)習(xí)[38],比如深度神經(jīng)網(wǎng)絡(luò),其網(wǎng)絡(luò)的結(jié)構(gòu)本身就已設(shè)定了假設(shè)空間,而眾多參數(shù)的超高維空間學(xué)習(xí)問題,則是在這個超高維空間中的超大規(guī)模搜索問題,對于這個搜索問題,目前的智能優(yōu)化技術(shù)(比如遺傳算法、蟻群算法、和聲算法等),仍難于保證搜索到全局最優(yōu)解.然而,學(xué)習(xí)的目標(biāo)應(yīng)該是保證什么最優(yōu)呢?回答是保證推廣能力最優(yōu)(強),即用對訓(xùn)練數(shù)據(jù)(seen data)處理所獲得的知識(盡管難于解釋)來最大限度地處理新的沒有見過的數(shù)據(jù)(unseen data).由于目前還未能對所謂的推廣能力有更加科學(xué)的表述,在目標(biāo)函數(shù)上目前更多的是針對訓(xùn)練數(shù)據(jù)的實際輸出和期望輸出的誤差平方和最小來設(shè)定,或以用交叉驗證的平均識別率最大來設(shè)定.然而,這些目標(biāo)函數(shù)實際上并不能真正表征學(xué)習(xí)目標(biāo)是否達成,因為與誤差平方和最小相伴的有可能是過擬合,與交叉驗證的平均識別率最大相伴的有可能是交叉驗證各識別率的波動,從而平均識別率實際上可能只是一個偶然現(xiàn)象,2者實際上都是不能真正檢驗對未見過的數(shù)據(jù)的處理性能的.實際上,即使用統(tǒng)計上的P值評價,也同樣存在P值的波動現(xiàn)象,尤其在小樣本情況下更是如此.

      因此,不應(yīng)將疾病的分子預(yù)測與疾病的分子致病原因混為一談(盡管它們可能會是有聯(lián)系的),目前的機器學(xué)習(xí)技術(shù)似乎還不足以從GWAS數(shù)據(jù)中挖掘出表型性狀的分子原因;即使可以,建立在統(tǒng)計機器學(xué)習(xí)基礎(chǔ)上的GWAS也存在著諸如假設(shè)是否合理、目標(biāo)函數(shù)設(shè)定是否合適、性能評價是否到位等諸多問題,以及全基因組分2步搜索時評價指標(biāo)(第一步為輕量級計算,第二步為重量級計算)的不一致性、不同方法對致病模型搜索能力存在偏好等[34],阻礙了對真正致病SNP的挖掘.

      3.2.4 統(tǒng)計重要性不等于科學(xué)重要性

      統(tǒng)計學(xué)意義的交互作用與生物學(xué)意義的交互作用的爭論由來已久,其分歧在于:統(tǒng)計學(xué)意義的交互僅能給出“可能”是交互作用的結(jié)果,而不能回答到底“是不是”真正存在的交互作用[39].本文認(rèn)為,真正的SNP的交互作用——真正存在的分子致病原因,才是具有科學(xué)重要性的,而統(tǒng)計重要的未必就科學(xué)重要.即使將統(tǒng)計學(xué)意義的交互作用闡述得再好,也無法回答生物學(xué)意義的交互作用.從統(tǒng)計學(xué)意義的交互作用本身來論證生物學(xué)意義的交互作用,是不合邏輯的.

      但是目前的絕大多數(shù)生物信息學(xué)研究(也包括GWAS)的計算評價都是統(tǒng)計重要性,以P值評價及其confidence interval來評價,而由于“真正”的致病“原因”中所謂的“真正”和“原因”還沒有獲得深入的認(rèn)識、科學(xué)的定義和計算上的解決,目前的研究只能追求統(tǒng)計重要性,而非科學(xué)重要性.其結(jié)果正如2005年Ioannidis[31]在國際知名刊物PLoS Medicine上發(fā)表的、至今已被引用6 600多次的論文,“為什么大部分的研究發(fā)現(xiàn)是錯的”(Why most research findings are false).究其原因,是所獲得的結(jié)果不可重復(fù).然而,可重復(fù)的發(fā)現(xiàn)才是真正科學(xué)的發(fā)現(xiàn):重復(fù)性是科學(xué)的靈魂(2014年發(fā)表于《細(xì)胞》子刊Chemistry & Biology上的題為“Credibility and reproducibility”的社論的第一句話)[40].2015年發(fā)表在Genes and Diseases上的新聞視角,題為“Authentication of experimental materials: A remedy for the reproducibility crisis?”的文章[41],將目前研究發(fā)現(xiàn)的不可重復(fù)問題稱為“重復(fù)性危機”.因為“重復(fù)性危機”,甚至有人2008年發(fā)表論文,懷疑重復(fù)性是否是考察基因關(guān)聯(lián)發(fā)現(xiàn)的金標(biāo)準(zhǔn)(題目為:Is replication the gold standard for validating genome-wide association findings)[42].然而本文認(rèn)為,重復(fù)性顯然是研究發(fā)現(xiàn)的金標(biāo)準(zhǔn),只是“到底要通過研究發(fā)現(xiàn)什么(而不是怎樣發(fā)現(xiàn))”這個問題,目前還沒有技術(shù)上的解決方案.

      3.2.5 多基因聯(lián)合致病卻可能沒有主效應(yīng)基因

      多位點聯(lián)合對表型起重要作用的認(rèn)識由來已久,即確定復(fù)雜疾病生物特征的是基因的組合.盡管人們已經(jīng)發(fā)現(xiàn)在DNA與復(fù)雜疾病如心血管疾病、糖尿病、乳腺癌、肥胖、哮喘、常見的神經(jīng)系統(tǒng)疾病如帕金森病、癲癇等疾病之間存在著重要的關(guān)聯(lián)關(guān)系:①它們與單基因遺傳的致病因素不同,雖每個基因?qū)Ρ硇偷淖饔檬俏⑿〉?,甚至根本不存在,但他們的組合卻可以致病,即它們往往沒有足以致病的主基因,因此很難用連鎖分析的方法來克隆其致病基因;②如果把這種某位點集合的聯(lián)合效應(yīng)視為復(fù)雜疾病易感的一個因素(原因)的話,那么人們已越來越認(rèn)識到復(fù)雜疾病易感的原因可能有多個,認(rèn)識復(fù)雜疾病的所有原因,無論對認(rèn)識疾病產(chǎn)生的機理,還是對疾病的預(yù)測、診斷和藥物研究,都至關(guān)重要.

      在全基因組范圍對復(fù)雜疾病/表型的致病原因的搜索,是一個典型的組合爆炸問題.首先,到底有多少個SNP(記為k)與疾病表型關(guān)聯(lián)是未知的和要從數(shù)據(jù)中挖掘的,即使這個數(shù)目k是已知的(比如k=3),那么,從百萬到千萬數(shù)量級的SNP中(如100萬)搜索出這k個SNP,則是在100萬的k次方的空間中搜索.也正是如此,對于如此超大規(guī)模的搜索空間中搜索到的解的評價,大部分文獻中報道出來聯(lián)合位點的P值甚至無法進行多重檢驗,從而即使P值很小也未必統(tǒng)計重要,更沒法談科學(xué)重要性了.

      4 總 結(jié)

      全基因組關(guān)聯(lián)分析不斷發(fā)展,數(shù)據(jù)已從單基因組學(xué)數(shù)據(jù)發(fā)展到多組學(xué)數(shù)據(jù),從單一表型發(fā)展到多個表型,從常規(guī)變異發(fā)展到罕見變異,從復(fù)雜疾病的致病分析發(fā)展到復(fù)雜疾病的發(fā)生發(fā)展過程分析,從復(fù)雜疾病的分子關(guān)聯(lián)分析發(fā)展到藥物的分子效應(yīng)分析,從人類性狀的GWAS發(fā)展到動植物的GWAS等,并均取得了可喜成績:發(fā)現(xiàn)了一些與表型性狀具有較強關(guān)聯(lián)的變異,但對復(fù)雜疾病的可解釋性依然很低,并且結(jié)果的可重復(fù)性難于保障.不可避免地,樣本數(shù)量有限是原因之一,但非主要原因.本文認(rèn)為其主要原因是:①對要解決的問題,目前的表述并不明確(什么叫關(guān)聯(lián));②解決問題的途徑更多的是模式識別、機器學(xué)習(xí)方法(模式分類、回歸分析、聚類分析信息熵等)和智能優(yōu)化方法;③評價更多的是統(tǒng)計重要性評價或疾病風(fēng)險預(yù)測能力評價(分類性能).上述這些可能離GWAS的研究目標(biāo)——從GWAS數(shù)據(jù)中找出“真正”致病的分子“原因”,還有較大距離.然而本文認(rèn)為,這些問題的解決才是使數(shù)據(jù)挖掘技術(shù)真正成為數(shù)據(jù)科學(xué)的關(guān)鍵.

      猜你喜歡
      表型基因組關(guān)聯(lián)
      牛參考基因組中發(fā)現(xiàn)被忽視基因
      “一帶一路”遞進,關(guān)聯(lián)民生更緊
      奇趣搭配
      建蘭、寒蘭花表型分析
      智趣
      讀者(2017年5期)2017-02-15 18:04:18
      GABABR2基因遺傳變異與肥胖及代謝相關(guān)表型的關(guān)系
      慢性乙型肝炎患者HBV基因表型與血清學(xué)測定的臨床意義
      72例老年急性白血病免疫表型分析
      基因組DNA甲基化及組蛋白甲基化
      遺傳(2014年3期)2014-02-28 20:58:49
      有趣的植物基因組
      尚义县| 香港| 柘城县| 蓬莱市| 唐山市| 新晃| 汝阳县| 望都县| 巍山| 乌兰县| 平阳县| 木里| 沾化县| 云阳县| 军事| 三明市| 嘉定区| 厦门市| 扶沟县| 洛隆县| 山西省| 沈阳市| 温州市| 山西省| 南丰县| 招远市| 揭西县| 临沂市| 安福县| 武功县| 石棉县| 西华县| 资源县| 宝清县| 博爱县| 柳河县| 甘德县| 双峰县| 呼图壁县| 镶黄旗| 上犹县|