法醫(yī)族源推斷的分子生物學(xué)進(jìn)展

2018-03-31 00:42:10

法醫(yī)學(xué)雜志 2018年3期

（四川大學(xué)華西基礎(chǔ)醫(yī)學(xué)與法醫(yī)學(xué)院，四川成都 610044）

族源推斷（ancestry inference）是指通過評(píng)估一系列指標(biāo)而推斷未知來源樣本或個(gè)體的地理起源或其遺傳信息中不同地理起源成分的構(gòu)成比例。從人類學(xué)中的膚紋骨骼指標(biāo)，到群體遺傳學(xué)中各個(gè)層面的遺傳標(biāo)記，評(píng)估指標(biāo)通常具有地域或群體特異性。有研究[1]證實(shí)，由于進(jìn)化過程中地理隔離、遺傳漂變等因素的綜合作用，人類遺傳差異程度與采樣地間的地理距離成正比[2-3]。由于地理距離和區(qū)域劃分的限制，人類的繁衍交配并非完全隨機(jī)，也不是嚴(yán)格的異血緣交配，海洋、山脈等天然存在的屏障將人類活動(dòng)限制在一定的區(qū)域范圍內(nèi)，不同區(qū)域間的基因交流相對(duì)較少。通常，基因交流頻繁發(fā)生的個(gè)體間被認(rèn)為擁有相同的基因庫(kù)，即同一族源。

法醫(yī)族源推斷，是將進(jìn)化研究領(lǐng)域的族源推斷應(yīng)用于司法鑒定或刑事偵查的實(shí)踐當(dāng)中，為司法案件的審理提供重要證據(jù)，為縮小嫌疑人的排查范圍提供線索，從而協(xié)助司法程序順利完成。除了具備科學(xué)研究的普遍特征外，法醫(yī)族源推斷還應(yīng)滿足法醫(yī)學(xué)實(shí)踐的特殊要求，特別是要應(yīng)對(duì)具有不穩(wěn)定、不確定、微量、指征模糊等特點(diǎn)的法醫(yī)學(xué)檢材。探尋更加高效的特異性推斷指標(biāo)是法醫(yī)族源推斷最重要的任務(wù)之一。隨著科學(xué)的發(fā)展與技術(shù)的進(jìn)步，人類的自我認(rèn)識(shí)深入到基因?qū)用?，DNA作為遺傳信息的直接載體，成為法醫(yī)族源推斷指標(biāo)的理想來源。測(cè)序技術(shù)的不斷完善帶來了海量的遺傳數(shù)據(jù)，為新型遺傳標(biāo)記的探索奠定了堅(jiān)實(shí)的基礎(chǔ)。法醫(yī)族源推斷指標(biāo)的探索從表型到基因型、從描述到量化，產(chǎn)生了質(zhì)的飛越。用于族源推斷的遺傳標(biāo)記也被稱為祖先信息標(biāo)記（ancestry informative marker，AIM），通常是指在不同群體間等位基因頻率分布差異較大的多態(tài)性位點(diǎn)，一組AIM的聯(lián)合分析可以推斷某特定群體的遺傳成分構(gòu)成，也可以推斷某一個(gè)體的祖先來源。本文將對(duì)法醫(yī)族源推斷的發(fā)展進(jìn)程進(jìn)行綜述，分析各種推斷指標(biāo)及判別方法的特征及其適用范圍，進(jìn)而對(duì)該領(lǐng)域的研究方向作一展望。

1 族源推斷遺傳標(biāo)記AIM

受氣候、疾病發(fā)生情況、飲食及種植等因素的影響，不同地區(qū)會(huì)有不同的自然選擇策略[4]，相關(guān)基因會(huì)因此產(chǎn)生等位基因頻率分布的地理差異，具體表現(xiàn)為相同基因中特定等位基因在特定地區(qū)的表達(dá)，以適應(yīng)相應(yīng)的地理環(huán)境，如SLC24A5在歐洲人中產(chǎn)生去色素化作用、為對(duì)抗區(qū)域性瘧疾趨化因子基因的達(dá)菲抗原受體（Duffy antigen receptor for chemokines gene，DARC）在非洲人群中產(chǎn)生了新的等位基因以及為適應(yīng)乳品的攝入β半乳糖苷酶-微小染色體維持蛋白基因（lactase-minichromosome maintenance proteins 6，LCT-MCM6）在三個(gè)地理位置上互不相連的地區(qū)人群中產(chǎn)生了相同的等位基因等[5-7]。還有一些基因的等位基因頻率分布具有顯著的地理差異，但其表型變化并不明顯，如EDAR和ABCC11在東亞人群中的多態(tài)性要明顯少于其他地區(qū)[8-9]。自然選擇作用可能會(huì)使某些等位基因在特定的區(qū)域達(dá)到很高的頻率，甚至是成為該地區(qū)所特有的等位基因，但是這種情況還是比較罕見[10]。但相應(yīng)基因中編碼的單核苷酸多態(tài)性（single nucleotide polymorphism，SNP）無疑是法醫(yī)族源推斷的理想標(biāo)記，可以作為族源推斷體系的重要組成部分。

1.1 AIM-SNP

人類基因組計(jì)劃公布的SNP圖譜[11]為早期法醫(yī)AIM的選擇提供了數(shù)據(jù)基礎(chǔ)。第一個(gè)用于法醫(yī)族源推斷的檢測(cè)體系是以商業(yè)化試劑盒的形式呈現(xiàn)的，2003年由DNAprint公司授權(quán)，名為“AncestrybyDNA”。該試劑盒采用SNPtream方法檢測(cè)復(fù)合擴(kuò)增的178個(gè)SNP，而具體的遺傳標(biāo)記、人群頻率和法醫(yī)學(xué)參數(shù)等數(shù)據(jù)在其商業(yè)應(yīng)用的7年內(nèi)并沒有公布，直至2008年DNAprint公司終止該試劑盒的運(yùn)營(yíng)前才公開發(fā)表[12]。

法醫(yī)族源推斷體系的研究初期以鑒別大洲間人群為目標(biāo)。其中，2007年，PHILLIPS等[13]建立的包含有34個(gè)SNP的復(fù)合擴(kuò)增體系最為經(jīng)典，也最常被提及。該體系之后被進(jìn)一步優(yōu)化[14]，包括置換出一個(gè)效能較低的位點(diǎn)，新增更多DNA分型數(shù)據(jù)，完善了法醫(yī)AIM-SNP頻率數(shù)據(jù)庫(kù)。此后，以大洲人群差異為對(duì)象的研究相繼開展，2009年，KERSBERGEN等[15]報(bào)道的包含有47個(gè)SNP的分析體系，綜合了地理、語系、Fst、STRUCTURE聚類在內(nèi)的多方面參數(shù)作為篩選標(biāo)準(zhǔn)；LAO等[16]通過芯片分析，對(duì)體系內(nèi)容進(jìn)一步調(diào)整，將遺傳標(biāo)記數(shù)目壓縮至10個(gè)。研究表明，這10個(gè)遺傳標(biāo)記的推斷效能與ROSENBERG等[17]研究中的377個(gè)短串聯(lián)重復(fù)序列（short tandem repeats，STR）相當(dāng)，證實(shí)了SNP蘊(yùn)含著豐富的族源推斷信息。較為近期的是ROGALLA等[18]在2015年發(fā)表了一個(gè)僅包含14個(gè)SNP的復(fù)合擴(kuò)增體系，旨在通過小而精的體系對(duì)未知檢材的族源范圍進(jìn)行粗略的劃定，以便后續(xù)工作的展開，具有較強(qiáng)的法醫(yī)學(xué)實(shí)踐價(jià)值。

而針對(duì)大洲內(nèi)部，或某特定區(qū)域內(nèi)的族源推斷，由于涉及更細(xì)微的人群結(jié)構(gòu)研究，起步相對(duì)較晚。典型的兩個(gè)體系分別是：2013年發(fā)表的Eurasiaplex法醫(yī)族源推斷體系[19]和2016年報(bào)道的Pacifiplex環(huán)太平洋人群族源推斷體系[20]。Eurasiaplex以23個(gè)AIM-SNP解決南亞人群和歐洲人群的鑒別問題，而Pacifiplex則通過29個(gè)AIM-SNP對(duì)環(huán)太平洋區(qū)域的人群進(jìn)行溯源。二者在選點(diǎn)之初均考慮到與最經(jīng)典的大洲判別體系34-plex進(jìn)行區(qū)別，在物理位置上也有意隔離，因此，可作為大洲判別后進(jìn)一步精準(zhǔn)溯源的工具。類似的研究還有LAO等[21]針對(duì)多人種混合的移民國(guó)家建立的族源推斷體系，以美國(guó)為例，研究族源混雜人群。體系包含有兩組復(fù)合擴(kuò)增系統(tǒng)，每組12個(gè)AIM-SNP，與PHILLIPS的經(jīng)典34-plex體系只有一個(gè)重疊位點(diǎn)rs16891982，可作為新體系的質(zhì)量控制位點(diǎn)。該研究是以國(guó)家為單位的混雜族源研究的先驅(qū)和典范。

GETTINGS等[22]于2014年報(bào)道了一個(gè)兼具族源推斷和色素表型判別功能的復(fù)合擴(kuò)增體系，以50個(gè)SNP在大洲層面上對(duì)未知樣本進(jìn)行族源推斷，同時(shí)預(yù)測(cè)膚色、毛發(fā)、虹膜等顏色，是一種極具價(jià)值的嘗試。為避免一些群體差異并不顯著的色素預(yù)測(cè)SNP影響整體族源推斷效能，50個(gè)遺傳標(biāo)記被分配至三個(gè)不同的復(fù)合擴(kuò)增體系進(jìn)行擴(kuò)增檢測(cè)，色素相關(guān)的預(yù)測(cè)位點(diǎn)全部位于同一擴(kuò)增體系中，可依據(jù)不同的目的選擇性地單獨(dú)檢測(cè)和分析。

不同目的的族源推斷所選擇的遺傳標(biāo)記較少重合。其中，rs16891982出現(xiàn)的頻率最高，其次是rs3827760、rs2814778以及色素相關(guān)位點(diǎn)rs1426654；rs12913832 在 34-plex[13]、Gettings[22]和 FROG-kb 中均有涉及；rs1876482是一個(gè)富含東亞人群信息的代表性遺傳標(biāo)記，被Lao[16]、Gettings[22]和FROG-kb所采用。

二代測(cè)序技術(shù)（next generation sequencing，NGS）能夠?qū)Χ噙_(dá)400個(gè)目標(biāo)SNP（InDel或者 STR）基因座進(jìn)行直接測(cè)序分析，并具有與SNaPshot相當(dāng)甚至更高的檢測(cè)敏感度，滿足了法醫(yī)學(xué)檢驗(yàn)檢材少、精度高的要求，成為理想的法醫(yī)學(xué)分析平臺(tái)。大規(guī)模法醫(yī)族源推斷體系的研究按照發(fā)表的順序分別為：PASCHOU 等[23]的 50個(gè) SNP、KOSOY 等[24]的 128個(gè)SNP和GALANTER 等[25]的 LACE體系（446個(gè) SNP）。這些都是針對(duì)非洲、歐洲及美洲人群的研究，并沒有涉及東亞人群，而且所選位點(diǎn)都是獨(dú)立的遺傳標(biāo)記，沒有優(yōu)化為復(fù)合檢測(cè)體系。KIDD等[26]和PHILLIPS等[27]分別報(bào)道了包含有55個(gè)SNP和128個(gè)SNP的復(fù)合擴(kuò)增體系，預(yù)計(jì)能夠在NGS平臺(tái)上進(jìn)行同時(shí)檢測(cè)。KIDD等[26]的研究采用新的人群數(shù)據(jù)對(duì)KOSOY等[24]的AIM進(jìn)行了評(píng)估，結(jié)果表明，雖然最初的篩選沒有考慮東亞人群，但這套遺傳標(biāo)記對(duì)于東亞人群也同樣適用。KIDD等[26]對(duì)其進(jìn)行了調(diào)整，平衡了體系在群體間的差異分布，減小了對(duì)不同人群分析的效能偏差，同時(shí)增加了一些分辨效能更高的遺傳標(biāo)記，從而建立了這個(gè)包含有55個(gè)AIM的體系，列在FROG-kb上。兩個(gè)體系相結(jié)合，就組成了以Ion PGMTMNGS為平臺(tái)的HID-Ion AmpliSeqTM族源試劑盒，而KIDD的55個(gè)AIM單獨(dú)構(gòu)成了以Illumina MiSeq ForenSeq NGS為平臺(tái)的族源信息分析試劑盒。KIDD的55個(gè)AIM還被進(jìn)一步挑選，其中41個(gè)用來建立了iPLEX體系（用于單堿基延伸的Sequenom質(zhì)譜檢測(cè)平臺(tái)）[28]。該體系同樣可以采用SNaPshot方法進(jìn)行檢測(cè)，是目前為止應(yīng)用率較高的一組遺傳標(biāo)記。PHILLIPS等[27]報(bào)道的128個(gè)全球AIM借鑒了KIDD實(shí)驗(yàn)室的55個(gè)AIM和Galanter’s LACE的體系，側(cè)重點(diǎn)在于平衡各個(gè)位點(diǎn)對(duì)于不同人群的分辨效能，從而避免混雜族源情況下對(duì)不同祖先人群比例估計(jì)的偏差。NGS技術(shù)的引用大大增強(qiáng)了遺傳數(shù)據(jù)分析的深度，數(shù)據(jù)通量是傳統(tǒng)PCR-CE分型方法的10倍以上，從而有效提高了族源推斷效能及個(gè)體族源的混雜程度分析。

1.2 AIM-STR

以STR為遺傳標(biāo)記進(jìn)行族源推斷基本上有兩種途徑，一是沿用法醫(yī)個(gè)體識(shí)別的標(biāo)準(zhǔn)STR，通過貝葉斯的分析方法得到最有可能的族源似然比[29-30]；另一種是專門針對(duì)族源研究探索全新的STR遺傳標(biāo)記（AIM-STR）[31]，以此為目的的研究通常會(huì)選擇核心序列為二核苷酸的STR，這種遺傳標(biāo)記因?yàn)闀?huì)在檢測(cè)過程中產(chǎn)生較為明顯的影子峰而很少在法醫(yī)學(xué)實(shí)踐中應(yīng)用[32]。2002年，ROSENBERG等[17]首次采用STRUCTURE[33]以遺傳相似度為標(biāo)準(zhǔn)對(duì)人類基因組多樣性計(jì)劃（human genome diversity project-centre d’etude du polymorphisme humain，HGDP-CEPH）的遺傳數(shù)據(jù)進(jìn)行聚類分析。ROSENBERG選擇了377個(gè)高度多態(tài)的STR分析全球人群結(jié)構(gòu)：K=5時(shí)的五類群體分別對(duì)應(yīng)歐亞大陸，亞撒哈拉以南的非洲、東亞、美洲和大洋洲；而K=7時(shí)，在之前五大洲聚類的基礎(chǔ)上，將亞歐大陸又細(xì)分為歐洲、中東和中/南亞。結(jié)果表明，以STR為遺傳標(biāo)記可以清楚地將世界人群進(jìn)行分類，類別與大洲或是洲內(nèi)相應(yīng)區(qū)域人群相對(duì)應(yīng)。PHILLIPS等[34]以ROSENBERG的377個(gè)STR為基礎(chǔ)，以頻率信息為指標(biāo)，篩選得到一組分辨效能較高的四核苷酸的STR用于人群分析。為方便STR遺傳標(biāo)記的分析，用于SNP族源分析的網(wǎng)頁(yè)版軟件SNIPPER也做出了相應(yīng)的調(diào)整，從最初的只能識(shí)別基因型信息到現(xiàn)在可以同時(shí)分析基因型信息和頻率信息，從而能夠同時(shí)分析STR和SNP。

1.3 AIM-InDel

2006 年，BASTOS-RODRIGUES 等[35]以 40 個(gè)插入缺失（insertion/deletion，InDel）標(biāo)記作為遺傳標(biāo)記研究人群結(jié)構(gòu)，雖然報(bào)道中的遺傳標(biāo)記更強(qiáng)調(diào)在歐洲人群中的雜合度而非族源信息含量，但對(duì)HGDPCEPH的分析依舊能夠準(zhǔn)確無誤地劃分出五大洲人群，并與 ROSENBERG等[17]采用377個(gè)STR的分析結(jié)果一致。2010年，SANTOS等[36]篩選出48個(gè)InDel遺傳標(biāo)記明確用于歐洲、非洲和美洲三個(gè)大洲間的人群鑒別，認(rèn)為該檢測(cè)體系更適合于對(duì)多族源混雜個(gè)體的推斷。2012年，PEREIRA等[37]報(bào)道的包含有46個(gè)AIM-InDel的復(fù)合擴(kuò)增體系，探索性地增加了東亞人群為研究對(duì)象，并采用小擴(kuò)增子策略（均小于230bp）和聚合酶鏈反應(yīng)-毛細(xì)管電泳（polymerase chain reaction-capillary electrophoresis，PCR-CE）的直接檢測(cè)途徑，便于實(shí)際檢案應(yīng)用。另一個(gè)用于族源研究的AIMInDel體系來自于ZAUMSEGEL等[38]，21個(gè)AIM-InDel構(gòu)建復(fù)合擴(kuò)增體系，該體系與前面提到的46-plex的體系沒有重疊位點(diǎn)，提供了全新的遺傳標(biāo)記。在體系設(shè)定方面，這21個(gè)遺傳標(biāo)記僅用到了6-FAM和HEX兩種熒光標(biāo)記，留下了更多的空間為后續(xù)位點(diǎn)的添加和調(diào)整做準(zhǔn)備。

1.4 非重組遺傳標(biāo)記

另外還有一系列DNA多態(tài)性遺傳標(biāo)記蘊(yùn)含祖先信息，具有成為AIM的潛能，包括Y-STR、Y-SNP、mtDNA等。Y染色體上的非重組遺傳標(biāo)記（non-recombining part of Y-chromosome，NRY）和 mtDNA 由于只攜帶雙親其中一方的遺傳信息，且不受重組交換的干擾，能夠?qū)⒂H代的遺傳信息完整保存，并傳遞給下一代，與生物地理族源相關(guān)的信息也自然隨之傳遞，因此成為研究人類進(jìn)化的理想遺傳標(biāo)記[39]。NRY是研究父系血緣最理想的素材，而mtDNA是研究母系血緣的理想標(biāo)記。除了能表現(xiàn)出顯著的地理差異外，由于特殊的遺傳方式，非重組遺傳標(biāo)記具有較小的有效群體數(shù)，對(duì)遺傳漂變等更加敏感，常被用于群體遺傳學(xué)研究[39-41]。

但針對(duì)法醫(yī)族源推斷的目的而言，這類遺傳標(biāo)記似乎并不理想。單獨(dú)分析這類遺傳標(biāo)記進(jìn)行族源推斷具有較高風(fēng)險(xiǎn)，特別是當(dāng)父系與母系具有較遠(yuǎn)的遺傳距離時(shí)，分析結(jié)果常會(huì)偏離客觀事實(shí)。一個(gè)經(jīng)常被提到的例子就是單純檢測(cè)Y染色體遺傳標(biāo)記，錯(cuò)將北約克郡血緣樣本的族源推斷為非洲[42]。城市人群由于基因交流，族源混雜的情況越來越普遍，而這恰恰是非重組遺傳標(biāo)記族源分析的盲點(diǎn)。另一個(gè)方面，與Y染色體遺傳標(biāo)記或mtDNA相比，常染色體遺傳標(biāo)記的群體參考數(shù)據(jù)更易獲得，30～40個(gè)樣本的基因型數(shù)據(jù)就足以估計(jì)各等位基因的分布頻率。在11-M馬德里炸彈襲擊的案件調(diào)查中[43]，采用常染色體遺傳標(biāo)記與采用Y染色體遺傳標(biāo)記、mtDNA推斷族源的結(jié)果不一致，就是由于北非人群數(shù)據(jù)庫(kù)缺乏、參考數(shù)據(jù)不足而阻礙了對(duì)該區(qū)域人群的辨認(rèn)?，F(xiàn)在法醫(yī)界鼓勵(lì)擴(kuò)大YHRD（http://www.yhrd.org/Contribute）和 EMPOP（http://www.empop.org/modules/contribute）[44-45]等單倍型數(shù)據(jù)庫(kù)的建設(shè)，特別是報(bào)道較少的地區(qū)，從而加強(qiáng)單親遺傳信息對(duì)族源推斷的應(yīng)用效能。

2 分析方法簡(jiǎn)述

上述的各種指標(biāo)要用來分析人群結(jié)構(gòu)、亞結(jié)構(gòu)或是推斷族源還需要一些統(tǒng)計(jì)算法和模型的支持，同時(shí)，這些指標(biāo)的效能及表現(xiàn)力也有賴于分析方法的選擇和應(yīng)用。進(jìn)行人群分析的一個(gè)最基本的前提假設(shè)是：無論是個(gè)體的基因組還是一個(gè)群體的宏基因組都是來自于各個(gè)祖先人群基因組的混合[46]。因此，族源推斷的研究分為幾個(gè)不同的層面，包括人群、人群中個(gè)體以及個(gè)體中的遺傳位點(diǎn)。基于此，人群分析和族源推斷的算法也可以分為兩大類，即全局族源（global ancestry，GA）和局部族源（local ancestry，LA）。

2.1 全局族源推斷

GA的主要目的是通過對(duì)分布于整個(gè)基因組的各個(gè)遺傳標(biāo)記進(jìn)行綜合分析，得到不同族源的貢獻(xiàn)程度。分析方法主要分為基于模型的和非參數(shù)型的兩類。

基于模型的方法以特定的統(tǒng)計(jì)學(xué)模型為假設(shè)，估計(jì)個(gè)體的族源系數(shù)。例如，STRUCTURE[33]和ADMIXTURE[47]均以觀測(cè)到的遺傳標(biāo)記分型來估計(jì)人群間的等位基因頻率及族源混雜比例，而其前提假設(shè)是Hardy-Weinberg平衡和遺傳標(biāo)記間的連鎖平衡。由于算法的不同，以相同準(zhǔn)確度為前提，ADMIXTURE的運(yùn)算速度更快。此后，相繼出現(xiàn)了以STRUCTURE為基礎(chǔ)的很多改良版本，包括修正了Hardy-Weinberg平衡的InStruct[48]、加快運(yùn)算速度的fastSTRUCTURE[49]等?；谙嗤Ｐ偷倪€有FRAPPE[50]、稀疏非負(fù)矩陣因子分解（sparse non-negative matrix factorization，SNMF）和最小二乘法的聯(lián)合應(yīng)用使得運(yùn)算速度又有了進(jìn)一步的提高?？臻g族源分析（spatial ancestry analysis，SPA）[51]與上述方法均不相同，采用概率論的方法估計(jì)不同空間里等位基因頻率的變化，從而將不同的個(gè)體聚類至二維或三維空間里。

非參數(shù)的方法利用聚類、主成分分析（principle component analysis，PCA）等多元分析技術(shù)推斷數(shù)據(jù)信息的結(jié)構(gòu)。聚類的主要目的就是直接找出數(shù)據(jù)中代表不同人群的子集合。PCA、多維測(cè)量（multi-dimensional scaling，MDS）和主坐標(biāo)分析旨在將遺傳標(biāo)記分型信息的大部分變異在低維空間內(nèi)呈現(xiàn)。這些方法推斷出的坐標(biāo)與樣本采集的地理位置通常具有很高的相關(guān)性[52-53]。EIGENSTRAT[54]就是以PCA為主要算法的分析工具。對(duì)于相距較近的遺傳標(biāo)記，連鎖不平衡能反映出特定的宗族血緣。對(duì)于由測(cè)序平臺(tái)得到的較為密集分布的多態(tài)性信息數(shù)據(jù)，單倍型具有發(fā)掘同族信息的潛能，能夠更好地發(fā)掘人群亞結(jié)構(gòu)。為了利用單倍型結(jié)構(gòu)進(jìn)行高質(zhì)量的PCA分析以及族源推斷，LAWSON等[55]設(shè)計(jì)了 ChromoPainter和 fineSTRUCTURE兩款軟件。雖然能夠?yàn)槿巳航Y(jié)構(gòu)分析提供更為全面的信息，但單倍型的計(jì)算要比PCA和ADMIXTURE等程序耗費(fèi)更長(zhǎng)的運(yùn)算時(shí)間。

2.2 局部族源推斷

LA的推斷方法是將基因組片段化，由于基因交流而形成的族源混雜則被看作是不同族源的DNA片段的組合。要了解各族源的混雜比例就需要估計(jì)基因組中不同區(qū)域所代表的特定族群。目前的大多數(shù)方法利用隱馬爾可夫模型（hidden Markov model，HMM）或其擴(kuò)展技術(shù)對(duì)數(shù)據(jù)進(jìn)行概率模擬。

LA早期的推斷方法基于STRUCTURE框架，采用HMM算法而并不考慮背景連鎖不平衡。后期發(fā)展的一些方法，如 SABER[56]、HAPAA（基于 HMM 的混雜族源多態(tài)性分析）[57]、HAPMIX[58]等通過加大量運(yùn)算準(zhǔn)確模擬LD信息，能夠同時(shí)考慮兩個(gè)族源群體。混雜人群的局部族源推斷（local ancestry in admixed populations，LAMP）[59]采用聚類的方法假設(shè)同時(shí)檢測(cè)的位點(diǎn)間不存在重組情況，對(duì)每組相鄰的SNP進(jìn)行檢測(cè)分析，在運(yùn)算速度和推斷準(zhǔn)確度上都有了質(zhì)的飛躍。為準(zhǔn)確分析相互關(guān)聯(lián)的兩個(gè)群體，PASANIUC等[60]在LAMP的基礎(chǔ)上進(jìn)行了修改和優(yōu)化，得到了WinPop（族源相近人群的位點(diǎn)特異性族源推斷模型）。之后，針對(duì)LA推斷陸續(xù)報(bào)道了一些新的探索，包括SupportMix[61]、族源特異性主成分分析（ancestry-specific principal components analysis，ASPCA）[62]、RFMix[63]、高效推斷局部族源（efficient inference of local ancestry，EILA）[64]等，他們多采用PCA對(duì)不同片段的族源推斷進(jìn)行綜合分析，以求在推斷準(zhǔn)確度和運(yùn)算速度上進(jìn)一步提高。

理論上，無論采用何種分析公式和預(yù)測(cè)模型，除了涉及連鎖不平衡的分析方法外，位點(diǎn)數(shù)量和樣本量的增長(zhǎng)是體系推斷效能提高的決定性因素。然而也有研究表明，只要滿足樣本量大于10，SNP數(shù)目大于100便可以對(duì)人群亞結(jié)構(gòu)有較為準(zhǔn)確的估計(jì)[65]。當(dāng)遺傳標(biāo)記數(shù)目較少時(shí)，fastSTRUCTURE分析具有最優(yōu)的表現(xiàn)，其次是ADMIXTURE和SNMF。考慮到各種算法檢測(cè)到的群體多樣性存在差異，對(duì)樣本量差異所造成的偏差的敏感度不同，以及遺傳噪音的普遍存在，有必要對(duì)同一組數(shù)據(jù)同時(shí)進(jìn)行不同算法的分析。對(duì)不同算法的分析進(jìn)行綜合統(tǒng)計(jì)[66]能夠起到互相驗(yàn)證的作用，保證系統(tǒng)推斷效能，從而有利于族源推斷的準(zhǔn)確進(jìn)行。

3 前景與展望

事實(shí)上，通過分析遺傳變異來推斷未知樣本的族源在法醫(yī)鑒定實(shí)踐中還具有更為廣泛的應(yīng)用。除了辨認(rèn)犯罪現(xiàn)場(chǎng)DNA樣本的來源，獲取相關(guān)信息縮小排查范圍外，至少還有：（1）通過遺骸樣本完成對(duì)失蹤人員或大型災(zāi)難遇難人員的信息收集；（2）對(duì)法醫(yī)DNA數(shù)據(jù)庫(kù)的人員身份信息進(jìn)行確認(rèn)；（3）對(duì)與罪犯DNA數(shù)據(jù)庫(kù)樣本信息存在部分吻合并懷疑與其存在親緣關(guān)系的未知樣本進(jìn)行區(qū)間判別[67]；（4）通過個(gè)體族源信息評(píng)估表型特征的出現(xiàn)概率（采用Irisplex系統(tǒng)[68]）。

越來越多的新方法或改良版本不斷涌現(xiàn)，用于深度挖掘族源推斷材料。表觀遺傳學(xué)的研究為遺傳標(biāo)記的選擇帶來了全新的視角。甲基化是目前為止研究最為透徹的表觀遺傳學(xué)機(jī)制，在體細(xì)胞中幾乎全部發(fā)生在CpGs結(jié)構(gòu)中的胞嘧啶殘基上。CpGs主要分布于基因的啟動(dòng)子區(qū)域，形成CpG島，調(diào)控相鄰基因的表達(dá)。甲基化水平受到營(yíng)養(yǎng)攝入，污染物暴露，社會(huì)環(huán)境等環(huán)境因素的影響[69]，是良好的環(huán)境作用指示物。近年來，一些研究報(bào)道了甲基化水平表現(xiàn)出顯著族源差異的CpG位點(diǎn)[70-73]，這些差異主要來自于：（1）不同人群間SNP等位基因頻率的分布差異[74]和（2）等位基因特異性的DNA甲基化和甲基化量化特征位點(diǎn)（methylation quantitative trait loci，mQTLs）[75]。與基因組變異不同，DNA甲基化的遺傳模式隨很多不同的因素變化，包括族源、年齡和細(xì)胞組成等。目前為止，甲基化水平的族源差異報(bào)道僅限于非洲人群和高加索人群。研究[70，73]顯示，與高加索人群相比，非洲人群普遍具有較低的甲基化水平。LAM等[76]的研究表明，外周血的甲基化水平與種族、精神壓力、生活早期的社會(huì)經(jīng)濟(jì)狀態(tài)有關(guān)。無論是新生兒的外周血樣本，還是CEPH數(shù)據(jù)庫(kù)中的細(xì)胞系樣本，非洲人均表現(xiàn)出較高加索人群低的甲基化水平[77]。也有研究致力于通過挖掘甲基化水平的族源差異位點(diǎn)來進(jìn)行DNA甲基化研究的人群結(jié)構(gòu)矯正。BARFIELD等[78]采用主成分分析的方法對(duì)不同組合的甲基化數(shù)據(jù)進(jìn)行分析，以探究修正人群結(jié)構(gòu)的方法。研究表明，結(jié)合SNP和甲基化位點(diǎn)的主成分分析能夠取得較為理想的矯正效果，在無法獲得全基因組SNP數(shù)據(jù)時(shí)，對(duì)相鄰CpGs位點(diǎn)的分析可以作為較好的替代方法。針對(duì)法醫(yī)學(xué)應(yīng)用的表觀遺傳學(xué)標(biāo)記，其顯著的族源差異特征具備法醫(yī)族源推斷的要求，不失為一個(gè)理想的探究方向。

目前也有很多SNP體系可供選擇，用于調(diào)整、合并、重組成為以NGS為平臺(tái)的更大的分析體系。主要的思路還是首先建立能夠?qū)ξ宕笾奕巳哼M(jìn)行準(zhǔn)確推斷的檢測(cè)體系，這五組人群的劃分最符合人口的分布特征，是地理區(qū)域劃分與遺傳變異分布最為吻合的一種分組方式，在此基礎(chǔ)上，建立用于劃分亞人群結(jié)構(gòu)的檢測(cè)體系，從而有的放矢地針對(duì)某一特定地區(qū)的人群分布進(jìn)行深入的研究和更加精確的劃分。值得一提的是東亞人群，由于混雜程度高，可借鑒的數(shù)據(jù)少，東亞人群一直以來都是族源推斷，乃至人群研究的難點(diǎn)。中國(guó)作為多民族融合的大國(guó)，具有人群多樣化程度高、差異度小、歷史悠久等特征，是族源研究的重要對(duì)象。針對(duì)精細(xì)化人群結(jié)構(gòu)的劃分要求所選遺傳標(biāo)記特異性高、均衡性好，在整合過程中需要注意：（1）同一個(gè)基因內(nèi)不同的SNP可能被同時(shí)選入同一體系，此時(shí)需要考慮刪除調(diào)整，以避免進(jìn)行二次評(píng)估；（2）與自然選擇相關(guān)的基因會(huì)表現(xiàn)出極為顯著的頻率分布差異，就單個(gè)遺傳標(biāo)記而言是比較理想的選擇，但復(fù)合到體系中可能會(huì)影響同體系中其他的遺傳標(biāo)記，需要謹(jǐn)慎選擇；（3）單倍型作為一系列不發(fā)生重組的遺傳標(biāo)記的組合，可以在很大程度上更加全面準(zhǔn)確地反應(yīng)人群結(jié)構(gòu)，可以作為備選考慮[55，79]。同時(shí)，個(gè)體識(shí)別、族源推斷、外部特征預(yù)測(cè)等遺傳標(biāo)記的同時(shí)檢測(cè)也成為重要的研究?jī)?nèi)容之一，其實(shí)際應(yīng)用價(jià)值高，能為案件處理提供更多的信息。于是，如何有效利用高通量高深度的分析平臺(tái)成為接下來研究的主要方向，包括甄選效能更高的遺傳標(biāo)記、復(fù)合適用于特定案件分析的位點(diǎn)組合方式、調(diào)整遺傳標(biāo)記間的配比，從而平衡系統(tǒng)對(duì)不同人群的分辨效能等。

還有待進(jìn)一步商討的問題是，無論是遺傳標(biāo)記還是采樣的人群，都具有異質(zhì)性，而這一點(diǎn)也是進(jìn)化生物學(xué)及群體遺傳學(xué)研究的一大挑戰(zhàn)，除非建立一個(gè)全球范圍內(nèi)的計(jì)劃，統(tǒng)一確定待研究的人群和采用的體系種類，不然異質(zhì)性是不可避免地存在的。由于研究對(duì)象與遺傳標(biāo)記選擇差異，獨(dú)立研究的所謂地理區(qū)域的劃分或者人群結(jié)構(gòu)分析都難免會(huì)有失偏頗。

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看