• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      法醫(yī)族源推斷的分子生物學(xué)進(jìn)展

      2018-03-31 00:42:10
      法醫(yī)學(xué)雜志 2018年3期
      關(guān)鍵詞:法醫(yī)甲基化遺傳

      (四川大學(xué)華西基礎(chǔ)醫(yī)學(xué)與法醫(yī)學(xué)院,四川 成都 610044)

      族源推斷(ancestry inference)是指通過評(píng)估一系列指標(biāo)而推斷未知來源樣本或個(gè)體的地理起源或其遺傳信息中不同地理起源成分的構(gòu)成比例。從人類學(xué)中的膚紋骨骼指標(biāo),到群體遺傳學(xué)中各個(gè)層面的遺傳標(biāo)記,評(píng)估指標(biāo)通常具有地域或群體特異性。有研究[1]證實(shí),由于進(jìn)化過程中地理隔離、遺傳漂變等因素的綜合作用,人類遺傳差異程度與采樣地間的地理距離成正比[2-3]。由于地理距離和區(qū)域劃分的限制,人類的繁衍交配并非完全隨機(jī),也不是嚴(yán)格的異血緣交配,海洋、山脈等天然存在的屏障將人類活動(dòng)限制在一定的區(qū)域范圍內(nèi),不同區(qū)域間的基因交流相對(duì)較少。通常,基因交流頻繁發(fā)生的個(gè)體間被認(rèn)為擁有相同的基因庫(kù),即同一族源。

      法醫(yī)族源推斷,是將進(jìn)化研究領(lǐng)域的族源推斷應(yīng)用于司法鑒定或刑事偵查的實(shí)踐當(dāng)中,為司法案件的審理提供重要證據(jù),為縮小嫌疑人的排查范圍提供線索,從而協(xié)助司法程序順利完成。除了具備科學(xué)研究的普遍特征外,法醫(yī)族源推斷還應(yīng)滿足法醫(yī)學(xué)實(shí)踐的特殊要求,特別是要應(yīng)對(duì)具有不穩(wěn)定、不確定、微量、指征模糊等特點(diǎn)的法醫(yī)學(xué)檢材。探尋更加高效的特異性推斷指標(biāo)是法醫(yī)族源推斷最重要的任務(wù)之一。隨著科學(xué)的發(fā)展與技術(shù)的進(jìn)步,人類的自我認(rèn)識(shí)深入到基因?qū)用?,DNA作為遺傳信息的直接載體,成為法醫(yī)族源推斷指標(biāo)的理想來源。測(cè)序技術(shù)的不斷完善帶來了海量的遺傳數(shù)據(jù),為新型遺傳標(biāo)記的探索奠定了堅(jiān)實(shí)的基礎(chǔ)。法醫(yī)族源推斷指標(biāo)的探索從表型到基因型、從描述到量化,產(chǎn)生了質(zhì)的飛越。用于族源推斷的遺傳標(biāo)記也被稱為祖先信息標(biāo)記(ancestry informative marker,AIM),通常是指在不同群體間等位基因頻率分布差異較大的多態(tài)性位點(diǎn),一組AIM的聯(lián)合分析可以推斷某特定群體的遺傳成分構(gòu)成,也可以推斷某一個(gè)體的祖先來源。本文將對(duì)法醫(yī)族源推斷的發(fā)展進(jìn)程進(jìn)行綜述,分析各種推斷指標(biāo)及判別方法的特征及其適用范圍,進(jìn)而對(duì)該領(lǐng)域的研究方向作一展望。

      1 族源推斷遺傳標(biāo)記AIM

      受氣候、疾病發(fā)生情況、飲食及種植等因素的影響,不同地區(qū)會(huì)有不同的自然選擇策略[4],相關(guān)基因會(huì)因此產(chǎn)生等位基因頻率分布的地理差異,具體表現(xiàn)為相同基因中特定等位基因在特定地區(qū)的表達(dá),以適應(yīng)相應(yīng)的地理環(huán)境,如SLC24A5在歐洲人中產(chǎn)生去色素化作用、為對(duì)抗區(qū)域性瘧疾趨化因子基因的達(dá)菲抗原受體(Duffy antigen receptor for chemokines gene,DARC)在非洲人群中產(chǎn)生了新的等位基因以及為適應(yīng)乳品的攝入β半乳糖苷酶-微小染色體維持蛋白基因(lactase-minichromosome maintenance proteins 6,LCT-MCM6)在三個(gè)地理位置上互不相連的地區(qū)人群中產(chǎn)生了相同的等位基因等[5-7]。還有一些基因的等位基因頻率分布具有顯著的地理差異,但其表型變化并不明顯,如EDAR和ABCC11在東亞人群中的多態(tài)性要明顯少于其他地區(qū)[8-9]。自然選擇作用可能會(huì)使某些等位基因在特定的區(qū)域達(dá)到很高的頻率,甚至是成為該地區(qū)所特有的等位基因,但是這種情況還是比較罕見[10]。但相應(yīng)基因中編碼的單核苷酸多態(tài)性(single nucleotide polymorphism,SNP)無疑是法醫(yī)族源推斷的理想標(biāo)記,可以作為族源推斷體系的重要組成部分。

      1.1 AIM-SNP

      人類基因組計(jì)劃公布的SNP圖譜[11]為早期法醫(yī)AIM的選擇提供了數(shù)據(jù)基礎(chǔ)。第一個(gè)用于法醫(yī)族源推斷的檢測(cè)體系是以商業(yè)化試劑盒的形式呈現(xiàn)的,2003年由DNAprint公司授權(quán),名為“AncestrybyDNA”。該試劑盒采用SNPtream方法檢測(cè)復(fù)合擴(kuò)增的178個(gè)SNP,而具體的遺傳標(biāo)記、人群頻率和法醫(yī)學(xué)參數(shù)等數(shù)據(jù)在其商業(yè)應(yīng)用的7年內(nèi)并沒有公布,直至2008年DNAprint公司終止該試劑盒的運(yùn)營(yíng)前才公開發(fā)表[12]。

      法醫(yī)族源推斷體系的研究初期以鑒別大洲間人群為目標(biāo)。其中,2007年,PHILLIPS等[13]建立的包含有34個(gè)SNP的復(fù)合擴(kuò)增體系最為經(jīng)典,也最常被提及。該體系之后被進(jìn)一步優(yōu)化[14],包括置換出一個(gè)效能較低的位點(diǎn),新增更多DNA分型數(shù)據(jù),完善了法醫(yī)AIM-SNP頻率數(shù)據(jù)庫(kù)。此后,以大洲人群差異為對(duì)象的研究相繼開展,2009年,KERSBERGEN等[15]報(bào)道的包含有47個(gè)SNP的分析體系,綜合了地理、語系、Fst、STRUCTURE聚類在內(nèi)的多方面參數(shù)作為篩選標(biāo)準(zhǔn);LAO等[16]通過芯片分析,對(duì)體系內(nèi)容進(jìn)一步調(diào)整,將遺傳標(biāo)記數(shù)目壓縮至10個(gè)。研究表明,這10個(gè)遺傳標(biāo)記的推斷效能與ROSENBERG等[17]研究中的377個(gè)短串聯(lián)重復(fù)序列(short tandem repeats,STR)相當(dāng),證實(shí)了SNP蘊(yùn)含著豐富的族源推斷信息。較為近期的是ROGALLA等[18]在2015年發(fā)表了一個(gè)僅包含14個(gè)SNP的復(fù)合擴(kuò)增體系,旨在通過小而精的體系對(duì)未知檢材的族源范圍進(jìn)行粗略的劃定,以便后續(xù)工作的展開,具有較強(qiáng)的法醫(yī)學(xué)實(shí)踐價(jià)值。

      而針對(duì)大洲內(nèi)部,或某特定區(qū)域內(nèi)的族源推斷,由于涉及更細(xì)微的人群結(jié)構(gòu)研究,起步相對(duì)較晚。典型的兩個(gè)體系分別是:2013年發(fā)表的Eurasiaplex法醫(yī)族源推斷體系[19]和2016年報(bào)道的Pacifiplex環(huán)太平洋人群族源推斷體系[20]。Eurasiaplex以23個(gè)AIM-SNP解決南亞人群和歐洲人群的鑒別問題,而Pacifiplex則通過29個(gè)AIM-SNP對(duì)環(huán)太平洋區(qū)域的人群進(jìn)行溯源。二者在選點(diǎn)之初均考慮到與最經(jīng)典的大洲判別體系34-plex進(jìn)行區(qū)別,在物理位置上也有意隔離,因此,可作為大洲判別后進(jìn)一步精準(zhǔn)溯源的工具。類似的研究還有LAO等[21]針對(duì)多人種混合的移民國(guó)家建立的族源推斷體系,以美國(guó)為例,研究族源混雜人群。體系包含有兩組復(fù)合擴(kuò)增系統(tǒng),每組12個(gè)AIM-SNP,與PHILLIPS的經(jīng)典34-plex體系只有一個(gè)重疊位點(diǎn)rs16891982,可作為新體系的質(zhì)量控制位點(diǎn)。該研究是以國(guó)家為單位的混雜族源研究的先驅(qū)和典范。

      GETTINGS等[22]于2014年報(bào)道了一個(gè)兼具族源推斷和色素表型判別功能的復(fù)合擴(kuò)增體系,以50個(gè)SNP在大洲層面上對(duì)未知樣本進(jìn)行族源推斷,同時(shí)預(yù)測(cè)膚色、毛發(fā)、虹膜等顏色,是一種極具價(jià)值的嘗試。為避免一些群體差異并不顯著的色素預(yù)測(cè)SNP影響整體族源推斷效能,50個(gè)遺傳標(biāo)記被分配至三個(gè)不同的復(fù)合擴(kuò)增體系進(jìn)行擴(kuò)增檢測(cè),色素相關(guān)的預(yù)測(cè)位點(diǎn)全部位于同一擴(kuò)增體系中,可依據(jù)不同的目的選擇性地單獨(dú)檢測(cè)和分析。

      不同目的的族源推斷所選擇的遺傳標(biāo)記較少重合。其中,rs16891982出現(xiàn)的頻率最高,其次是rs3827760、rs2814778以及色素相關(guān)位點(diǎn)rs1426654;rs12913832 在 34-plex[13]、Gettings[22]和 FROG-kb 中均有涉及;rs1876482是一個(gè)富含東亞人群信息的代表性遺傳標(biāo)記,被Lao[16]、Gettings[22]和FROG-kb所采用。

      二代測(cè)序技術(shù)(next generation sequencing,NGS)能夠?qū)Χ噙_(dá)400個(gè)目標(biāo)SNP(InDel或者 STR)基因座進(jìn)行直接測(cè)序分析,并具有與SNaPshot相當(dāng)甚至更高的檢測(cè)敏感度,滿足了法醫(yī)學(xué)檢驗(yàn)檢材少、精度高的要求,成為理想的法醫(yī)學(xué)分析平臺(tái)。大規(guī)模法醫(yī)族源推斷體系的研究按照發(fā)表的順序分別為:PASCHOU 等[23]的 50個(gè) SNP、KOSOY 等[24]的 128個(gè)SNP和GALANTER 等[25]的 LACE體系(446個(gè) SNP)。這些都是針對(duì)非洲、歐洲及美洲人群的研究,并沒有涉及東亞人群,而且所選位點(diǎn)都是獨(dú)立的遺傳標(biāo)記,沒有優(yōu)化為復(fù)合檢測(cè)體系。KIDD等[26]和PHILLIPS等[27]分別報(bào)道了包含有55個(gè)SNP和128個(gè)SNP的復(fù)合擴(kuò)增體系,預(yù)計(jì)能夠在NGS平臺(tái)上進(jìn)行同時(shí)檢測(cè)。KIDD等[26]的研究采用新的人群數(shù)據(jù)對(duì)KOSOY等[24]的AIM進(jìn)行了評(píng)估,結(jié)果表明,雖然最初的篩選沒有考慮東亞人群,但這套遺傳標(biāo)記對(duì)于東亞人群也同樣適用。KIDD等[26]對(duì)其進(jìn)行了調(diào)整,平衡了體系在群體間的差異分布,減小了對(duì)不同人群分析的效能偏差,同時(shí)增加了一些分辨效能更高的遺傳標(biāo)記,從而建立了這個(gè)包含有55個(gè)AIM的體系,列在FROG-kb上。兩個(gè)體系相結(jié)合,就組成了以Ion PGMTMNGS為平臺(tái)的HID-Ion AmpliSeqTM族源試劑盒,而KIDD的55個(gè)AIM單獨(dú)構(gòu)成了以Illumina MiSeq ForenSeq NGS為平臺(tái)的族源信息分析試劑盒。KIDD的55個(gè)AIM還被進(jìn)一步挑選,其中41個(gè)用來建立了iPLEX體系(用于單堿基延伸的Sequenom質(zhì)譜檢測(cè)平臺(tái))[28]。該體系同樣可以采用SNaPshot方法進(jìn)行檢測(cè),是目前為止應(yīng)用率較高的一組遺傳標(biāo)記。PHILLIPS等[27]報(bào)道的128個(gè)全球AIM借鑒了KIDD實(shí)驗(yàn)室的55個(gè)AIM和Galanter’s LACE的體系,側(cè)重點(diǎn)在于平衡各個(gè)位點(diǎn)對(duì)于不同人群的分辨效能,從而避免混雜族源情況下對(duì)不同祖先人群比例估計(jì)的偏差。NGS技術(shù)的引用大大增強(qiáng)了遺傳數(shù)據(jù)分析的深度,數(shù)據(jù)通量是傳統(tǒng)PCR-CE分型方法的10倍以上,從而有效提高了族源推斷效能及個(gè)體族源的混雜程度分析。

      1.2 AIM-STR

      以STR為遺傳標(biāo)記進(jìn)行族源推斷基本上有兩種途徑,一是沿用法醫(yī)個(gè)體識(shí)別的標(biāo)準(zhǔn)STR,通過貝葉斯的分析方法得到最有可能的族源似然比[29-30];另一種是專門針對(duì)族源研究探索全新的STR遺傳標(biāo)記(AIM-STR)[31],以此為目的的研究通常會(huì)選擇核心序列為二核苷酸的STR,這種遺傳標(biāo)記因?yàn)闀?huì)在檢測(cè)過程中產(chǎn)生較為明顯的影子峰而很少在法醫(yī)學(xué)實(shí)踐中應(yīng)用[32]。2002年,ROSENBERG等[17]首次采用STRUCTURE[33]以遺傳相似度為標(biāo)準(zhǔn)對(duì)人類基因組多樣性計(jì)劃(human genome diversity project-centre d’etude du polymorphisme humain,HGDP-CEPH)的遺傳數(shù)據(jù)進(jìn)行聚類分析。ROSENBERG選擇了377個(gè)高度多態(tài)的STR分析全球人群結(jié)構(gòu):K=5時(shí)的五類群體分別對(duì)應(yīng)歐亞大陸,亞撒哈拉以南的非洲、東亞、美洲和大洋洲;而K=7時(shí),在之前五大洲聚類的基礎(chǔ)上,將亞歐大陸又細(xì)分為歐洲、中東和中/南亞。結(jié)果表明,以STR為遺傳標(biāo)記可以清楚地將世界人群進(jìn)行分類,類別與大洲或是洲內(nèi)相應(yīng)區(qū)域人群相對(duì)應(yīng)。PHILLIPS等[34]以ROSENBERG的377個(gè)STR為基礎(chǔ),以頻率信息為指標(biāo),篩選得到一組分辨效能較高的四核苷酸的STR用于人群分析。為方便STR遺傳標(biāo)記的分析,用于SNP族源分析的網(wǎng)頁(yè)版軟件SNIPPER也做出了相應(yīng)的調(diào)整,從最初的只能識(shí)別基因型信息到現(xiàn)在可以同時(shí)分析基因型信息和頻率信息,從而能夠同時(shí)分析STR和SNP。

      1.3 AIM-InDel

      2006 年 ,BASTOS-RODRIGUES 等[35]以 40 個(gè)插入缺失(insertion/deletion,InDel)標(biāo)記作為遺傳標(biāo)記研究人群結(jié)構(gòu),雖然報(bào)道中的遺傳標(biāo)記更強(qiáng)調(diào)在歐洲人群中的雜合度而非族源信息含量,但對(duì)HGDPCEPH的分析依舊能夠準(zhǔn)確無誤地劃分出五大洲人群,并與 ROSENBERG等[17]采用377個(gè)STR的分析結(jié)果一致。2010年,SANTOS等[36]篩選出48個(gè)InDel遺傳標(biāo)記明確用于歐洲、非洲和美洲三個(gè)大洲間的人群鑒別,認(rèn)為該檢測(cè)體系更適合于對(duì)多族源混雜個(gè)體的推斷。2012年,PEREIRA等[37]報(bào)道的包含有46個(gè)AIM-InDel的復(fù)合擴(kuò)增體系,探索性地增加了東亞人群為研究對(duì)象,并采用小擴(kuò)增子策略(均小于230bp)和聚合酶鏈反應(yīng)-毛細(xì)管電泳(polymerase chain reaction-capillary electrophoresis,PCR-CE)的直接檢測(cè)途徑,便于實(shí)際檢案應(yīng)用。另一個(gè)用于族源研究的AIMInDel體系來自于ZAUMSEGEL等[38],21個(gè)AIM-InDel構(gòu)建復(fù)合擴(kuò)增體系,該體系與前面提到的46-plex的體系沒有重疊位點(diǎn),提供了全新的遺傳標(biāo)記。在體系設(shè)定方面,這21個(gè)遺傳標(biāo)記僅用到了6-FAM和HEX兩種熒光標(biāo)記,留下了更多的空間為后續(xù)位點(diǎn)的添加和調(diào)整做準(zhǔn)備。

      1.4 非重組遺傳標(biāo)記

      另外還有一系列DNA多態(tài)性遺傳標(biāo)記蘊(yùn)含祖先信息,具有成為AIM的潛能,包括Y-STR、Y-SNP、mtDNA等。Y染色體上的非重組遺傳標(biāo)記(non-recombining part of Y-chromosome,NRY)和 mtDNA 由于只攜帶雙親其中一方的遺傳信息,且不受重組交換的干擾,能夠?qū)⒂H代的遺傳信息完整保存,并傳遞給下一代,與生物地理族源相關(guān)的信息也自然隨之傳遞,因此成為研究人類進(jìn)化的理想遺傳標(biāo)記[39]。NRY是研究父系血緣最理想的素材,而mtDNA是研究母系血緣的理想標(biāo)記。除了能表現(xiàn)出顯著的地理差異外,由于特殊的遺傳方式,非重組遺傳標(biāo)記具有較小的有效群體數(shù),對(duì)遺傳漂變等更加敏感,常被用于群體遺傳學(xué)研究[39-41]。

      但針對(duì)法醫(yī)族源推斷的目的而言,這類遺傳標(biāo)記似乎并不理想。單獨(dú)分析這類遺傳標(biāo)記進(jìn)行族源推斷具有較高風(fēng)險(xiǎn),特別是當(dāng)父系與母系具有較遠(yuǎn)的遺傳距離時(shí),分析結(jié)果常會(huì)偏離客觀事實(shí)。一個(gè)經(jīng)常被提到的例子就是單純檢測(cè)Y染色體遺傳標(biāo)記,錯(cuò)將北約克郡血緣樣本的族源推斷為非洲[42]。城市人群由于基因交流,族源混雜的情況越來越普遍,而這恰恰是非重組遺傳標(biāo)記族源分析的盲點(diǎn)。另一個(gè)方面,與Y染色體遺傳標(biāo)記或mtDNA相比,常染色體遺傳標(biāo)記的群體參考數(shù)據(jù)更易獲得,30~40個(gè)樣本的基因型數(shù)據(jù)就足以估計(jì)各等位基因的分布頻率。在11-M馬德里炸彈襲擊的案件調(diào)查中[43],采用常染色體遺傳標(biāo)記與采用Y染色體遺傳標(biāo)記、mtDNA推斷族源的結(jié)果不一致,就是由于北非人群數(shù)據(jù)庫(kù)缺乏、參考數(shù)據(jù)不足而阻礙了對(duì)該區(qū)域人群的辨認(rèn)?,F(xiàn)在法醫(yī)界鼓勵(lì)擴(kuò)大YHRD(http://www.yhrd.org/Contribute)和 EMPOP(http://www.empop.org/modules/contribute)[44-45]等單倍型數(shù)據(jù)庫(kù)的建設(shè),特別是報(bào)道較少的地區(qū),從而加強(qiáng)單親遺傳信息對(duì)族源推斷的應(yīng)用效能。

      2 分析方法簡(jiǎn)述

      上述的各種指標(biāo)要用來分析人群結(jié)構(gòu)、亞結(jié)構(gòu)或是推斷族源還需要一些統(tǒng)計(jì)算法和模型的支持,同時(shí),這些指標(biāo)的效能及表現(xiàn)力也有賴于分析方法的選擇和應(yīng)用。進(jìn)行人群分析的一個(gè)最基本的前提假設(shè)是:無論是個(gè)體的基因組還是一個(gè)群體的宏基因組都是來自于各個(gè)祖先人群基因組的混合[46]。因此,族源推斷的研究分為幾個(gè)不同的層面,包括人群、人群中個(gè)體以及個(gè)體中的遺傳位點(diǎn)。基于此,人群分析和族源推斷的算法也可以分為兩大類,即全局族源(global ancestry,GA)和局部族源(local ancestry,LA)。

      2.1 全局族源推斷

      GA的主要目的是通過對(duì)分布于整個(gè)基因組的各個(gè)遺傳標(biāo)記進(jìn)行綜合分析,得到不同族源的貢獻(xiàn)程度。分析方法主要分為基于模型的和非參數(shù)型的兩類。

      基于模型的方法以特定的統(tǒng)計(jì)學(xué)模型為假設(shè),估計(jì)個(gè)體的族源系數(shù)。例如,STRUCTURE[33]和ADMIXTURE[47]均以觀測(cè)到的遺傳標(biāo)記分型來估計(jì)人群間的等位基因頻率及族源混雜比例,而其前提假設(shè)是Hardy-Weinberg平衡和遺傳標(biāo)記間的連鎖平衡。由于算法的不同,以相同準(zhǔn)確度為前提,ADMIXTURE的運(yùn)算速度更快。此后,相繼出現(xiàn)了以STRUCTURE為基礎(chǔ)的很多改良版本,包括修正了Hardy-Weinberg平衡的InStruct[48]、加快運(yùn)算速度的fastSTRUCTURE[49]等?;谙嗤P偷倪€有FRAPPE[50]、稀疏非負(fù)矩陣因子分解(sparse non-negative matrix factorization,SNMF)和最小二乘法的聯(lián)合應(yīng)用使得運(yùn)算速度又有了進(jìn)一步的提高??臻g族源分析(spatial ancestry analysis,SPA)[51]與上述方法均不相同,采用概率論的方法估計(jì)不同空間里等位基因頻率的變化,從而將不同的個(gè)體聚類至二維或三維空間里。

      非參數(shù)的方法利用聚類、主成分分析(principle component analysis,PCA)等多元分析技術(shù)推斷數(shù)據(jù)信息的結(jié)構(gòu)。聚類的主要目的就是直接找出數(shù)據(jù)中代表不同人群的子集合。PCA、多維測(cè)量(multi-dimensional scaling,MDS)和主坐標(biāo)分析旨在將遺傳標(biāo)記分型信息的大部分變異在低維空間內(nèi)呈現(xiàn)。這些方法推斷出的坐標(biāo)與樣本采集的地理位置通常具有很高的相關(guān)性[52-53]。EIGENSTRAT[54]就是以PCA為主要算法的分析工具。對(duì)于相距較近的遺傳標(biāo)記,連鎖不平衡能反映出特定的宗族血緣。對(duì)于由測(cè)序平臺(tái)得到的較為密集分布的多態(tài)性信息數(shù)據(jù),單倍型具有發(fā)掘同族信息的潛能,能夠更好地發(fā)掘人群亞結(jié)構(gòu)。為了利用單倍型結(jié)構(gòu)進(jìn)行高質(zhì)量的PCA分析以及族源推斷,LAWSON等[55]設(shè)計(jì)了 ChromoPainter和 fineSTRUCTURE兩款軟件。雖然能夠?yàn)槿巳航Y(jié)構(gòu)分析提供更為全面的信息,但單倍型的計(jì)算要比PCA和ADMIXTURE等程序耗費(fèi)更長(zhǎng)的運(yùn)算時(shí)間。

      2.2 局部族源推斷

      LA的推斷方法是將基因組片段化,由于基因交流而形成的族源混雜則被看作是不同族源的DNA片段的組合。要了解各族源的混雜比例就需要估計(jì)基因組中不同區(qū)域所代表的特定族群。目前的大多數(shù)方法利用隱馬爾可夫模型(hidden Markov model,HMM)或其擴(kuò)展技術(shù)對(duì)數(shù)據(jù)進(jìn)行概率模擬。

      LA早期的推斷方法基于STRUCTURE框架,采用HMM算法而并不考慮背景連鎖不平衡。后期發(fā)展的一些方法,如 SABER[56]、HAPAA(基于 HMM 的混雜族源多態(tài)性分析)[57]、HAPMIX[58]等通過加大量運(yùn)算準(zhǔn)確模擬LD信息,能夠同時(shí)考慮兩個(gè)族源群體。混雜人群的局部族源推斷(local ancestry in admixed populations,LAMP)[59]采用聚類的方法假設(shè)同時(shí)檢測(cè)的位點(diǎn)間不存在重組情況,對(duì)每組相鄰的SNP進(jìn)行檢測(cè)分析,在運(yùn)算速度和推斷準(zhǔn)確度上都有了質(zhì)的飛躍。為準(zhǔn)確分析相互關(guān)聯(lián)的兩個(gè)群體,PASANIUC等[60]在LAMP的基礎(chǔ)上進(jìn)行了修改和優(yōu)化,得到了WinPop(族源相近人群的位點(diǎn)特異性族源推斷模型)。之后,針對(duì)LA推斷陸續(xù)報(bào)道了一些新的探索,包括SupportMix[61]、族源特異性主成分分析(ancestry-specific principal components analysis,ASPCA)[62]、RFMix[63]、高效推斷局部族源(efficient inference of local ancestry,EILA)[64]等,他們多采用PCA對(duì)不同片段的族源推斷進(jìn)行綜合分析,以求在推斷準(zhǔn)確度和運(yùn)算速度上進(jìn)一步提高。

      理論上,無論采用何種分析公式和預(yù)測(cè)模型,除了涉及連鎖不平衡的分析方法外,位點(diǎn)數(shù)量和樣本量的增長(zhǎng)是體系推斷效能提高的決定性因素。然而也有研究表明,只要滿足樣本量大于10,SNP數(shù)目大于100便可以對(duì)人群亞結(jié)構(gòu)有較為準(zhǔn)確的估計(jì)[65]。當(dāng)遺傳標(biāo)記數(shù)目較少時(shí),fastSTRUCTURE分析具有最優(yōu)的表現(xiàn),其次是ADMIXTURE和SNMF。考慮到各種算法檢測(cè)到的群體多樣性存在差異,對(duì)樣本量差異所造成的偏差的敏感度不同,以及遺傳噪音的普遍存在,有必要對(duì)同一組數(shù)據(jù)同時(shí)進(jìn)行不同算法的分析。對(duì)不同算法的分析進(jìn)行綜合統(tǒng)計(jì)[66]能夠起到互相驗(yàn)證的作用,保證系統(tǒng)推斷效能,從而有利于族源推斷的準(zhǔn)確進(jìn)行。

      3 前景與展望

      事實(shí)上,通過分析遺傳變異來推斷未知樣本的族源在法醫(yī)鑒定實(shí)踐中還具有更為廣泛的應(yīng)用。除了辨認(rèn)犯罪現(xiàn)場(chǎng)DNA樣本的來源,獲取相關(guān)信息縮小排查范圍外,至少還有:(1)通過遺骸樣本完成對(duì)失蹤人員或大型災(zāi)難遇難人員的信息收集;(2)對(duì)法醫(yī)DNA數(shù)據(jù)庫(kù)的人員身份信息進(jìn)行確認(rèn);(3)對(duì)與罪犯DNA數(shù)據(jù)庫(kù)樣本信息存在部分吻合并懷疑與其存在親緣關(guān)系的未知樣本進(jìn)行區(qū)間判別[67];(4)通過個(gè)體族源信息評(píng)估表型特征的出現(xiàn)概率(采用Irisplex系統(tǒng)[68])。

      越來越多的新方法或改良版本不斷涌現(xiàn),用于深度挖掘族源推斷材料。表觀遺傳學(xué)的研究為遺傳標(biāo)記的選擇帶來了全新的視角。甲基化是目前為止研究最為透徹的表觀遺傳學(xué)機(jī)制,在體細(xì)胞中幾乎全部發(fā)生在CpGs結(jié)構(gòu)中的胞嘧啶殘基上。CpGs主要分布于基因的啟動(dòng)子區(qū)域,形成CpG島,調(diào)控相鄰基因的表達(dá)。甲基化水平受到營(yíng)養(yǎng)攝入,污染物暴露,社會(huì)環(huán)境等環(huán)境因素的影響[69],是良好的環(huán)境作用指示物。近年來,一些研究報(bào)道了甲基化水平表現(xiàn)出顯著族源差異的CpG位點(diǎn)[70-73],這些差異主要來自于:(1)不同人群間SNP等位基因頻率的分布差異[74]和(2)等位基因特異性的DNA甲基化和甲基化量化特征位點(diǎn)(methylation quantitative trait loci,mQTLs)[75]。與基因組變異不同,DNA甲基化的遺傳模式隨很多不同的因素變化,包括族源、年齡和細(xì)胞組成等。目前為止,甲基化水平的族源差異報(bào)道僅限于非洲人群和高加索人群。研究[70,73]顯示,與高加索人群相比,非洲人群普遍具有較低的甲基化水平。LAM等[76]的研究表明,外周血的甲基化水平與種族、精神壓力、生活早期的社會(huì)經(jīng)濟(jì)狀態(tài)有關(guān)。無論是新生兒的外周血樣本,還是CEPH數(shù)據(jù)庫(kù)中的細(xì)胞系樣本,非洲人均表現(xiàn)出較高加索人群低的甲基化水平[77]。也有研究致力于通過挖掘甲基化水平的族源差異位點(diǎn)來進(jìn)行DNA甲基化研究的人群結(jié)構(gòu)矯正。BARFIELD等[78]采用主成分分析的方法對(duì)不同組合的甲基化數(shù)據(jù)進(jìn)行分析,以探究修正人群結(jié)構(gòu)的方法。研究表明,結(jié)合SNP和甲基化位點(diǎn)的主成分分析能夠取得較為理想的矯正效果,在無法獲得全基因組SNP數(shù)據(jù)時(shí),對(duì)相鄰CpGs位點(diǎn)的分析可以作為較好的替代方法。針對(duì)法醫(yī)學(xué)應(yīng)用的表觀遺傳學(xué)標(biāo)記,其顯著的族源差異特征具備法醫(yī)族源推斷的要求,不失為一個(gè)理想的探究方向。

      目前也有很多SNP體系可供選擇,用于調(diào)整、合并、重組成為以NGS為平臺(tái)的更大的分析體系。主要的思路還是首先建立能夠?qū)ξ宕笾奕巳哼M(jìn)行準(zhǔn)確推斷的檢測(cè)體系,這五組人群的劃分最符合人口的分布特征,是地理區(qū)域劃分與遺傳變異分布最為吻合的一種分組方式,在此基礎(chǔ)上,建立用于劃分亞人群結(jié)構(gòu)的檢測(cè)體系,從而有的放矢地針對(duì)某一特定地區(qū)的人群分布進(jìn)行深入的研究和更加精確的劃分。值得一提的是東亞人群,由于混雜程度高,可借鑒的數(shù)據(jù)少,東亞人群一直以來都是族源推斷,乃至人群研究的難點(diǎn)。中國(guó)作為多民族融合的大國(guó),具有人群多樣化程度高、差異度小、歷史悠久等特征,是族源研究的重要對(duì)象。針對(duì)精細(xì)化人群結(jié)構(gòu)的劃分要求所選遺傳標(biāo)記特異性高、均衡性好,在整合過程中需要注意:(1)同一個(gè)基因內(nèi)不同的SNP可能被同時(shí)選入同一體系,此時(shí)需要考慮刪除調(diào)整,以避免進(jìn)行二次評(píng)估;(2)與自然選擇相關(guān)的基因會(huì)表現(xiàn)出極為顯著的頻率分布差異,就單個(gè)遺傳標(biāo)記而言是比較理想的選擇,但復(fù)合到體系中可能會(huì)影響同體系中其他的遺傳標(biāo)記,需要謹(jǐn)慎選擇;(3)單倍型作為一系列不發(fā)生重組的遺傳標(biāo)記的組合,可以在很大程度上更加全面準(zhǔn)確地反應(yīng)人群結(jié)構(gòu),可以作為備選考慮[55,79]。同時(shí),個(gè)體識(shí)別、族源推斷、外部特征預(yù)測(cè)等遺傳標(biāo)記的同時(shí)檢測(cè)也成為重要的研究?jī)?nèi)容之一,其實(shí)際應(yīng)用價(jià)值高,能為案件處理提供更多的信息。于是,如何有效利用高通量高深度的分析平臺(tái)成為接下來研究的主要方向,包括甄選效能更高的遺傳標(biāo)記、復(fù)合適用于特定案件分析的位點(diǎn)組合方式、調(diào)整遺傳標(biāo)記間的配比,從而平衡系統(tǒng)對(duì)不同人群的分辨效能等。

      還有待進(jìn)一步商討的問題是,無論是遺傳標(biāo)記還是采樣的人群,都具有異質(zhì)性,而這一點(diǎn)也是進(jìn)化生物學(xué)及群體遺傳學(xué)研究的一大挑戰(zhàn),除非建立一個(gè)全球范圍內(nèi)的計(jì)劃,統(tǒng)一確定待研究的人群和采用的體系種類,不然異質(zhì)性是不可避免地存在的。由于研究對(duì)象與遺傳標(biāo)記選擇差異,獨(dú)立研究的所謂地理區(qū)域的劃分或者人群結(jié)構(gòu)分析都難免會(huì)有失偏頗。

      猜你喜歡
      法醫(yī)甲基化遺傳
      非遺傳承
      蟲蟲法醫(yī)
      還有什么會(huì)遺傳?
      還有什么會(huì)遺傳
      還有什么會(huì)遺傳?
      環(huán)境法醫(yī)“捉兇”記
      AMDIS在法醫(yī)毒物分析中的應(yīng)用
      78例顱腦損傷死亡法醫(yī)病理學(xué)分析
      鼻咽癌組織中SYK基因啟動(dòng)子區(qū)的甲基化分析
      胃癌DNA甲基化研究進(jìn)展
      阳江市| 云林县| 兰考县| 江门市| 田林县| 江城| 安义县| 石城县| 杭锦后旗| 庆安县| 越西县| 昂仁县| 启东市| 靖安县| 鄂伦春自治旗| 呼图壁县| 桦甸市| 水富县| 湘西| 桃源县| 雷州市| 桃园县| 榆树市| 五指山市| 临高县| 岳阳市| 稻城县| 界首市| 涪陵区| 滦平县| 砀山县| 福安市| 宕昌县| 铜梁县| 金乡县| 彩票| 射阳县| 天等县| 竹溪县| 吕梁市| 临清市|