楊越,陶瑞旸,李敏,3,于歡,4,陳麗琴,王亞麗,李成濤
1.內(nèi)蒙古醫(yī)科大學法醫(yī)學教研室,內(nèi)蒙古 呼和浩特010030;2.司法鑒定科學研究院 上海市法醫(yī)學重點實驗室 司法部司法鑒定重點實驗室 上海市司法鑒定專業(yè)技術服務平臺,上海200063;3.四川大學華西基礎醫(yī)學與法醫(yī)學院,四川 成都610041;4.蘇州大學醫(yī)學部法醫(yī)系,江蘇 蘇州215000
Y 染色體遺傳標記由于父系遺傳的特點,在法醫(yī)學領域受到了學者們的廣泛關注。目前,法醫(yī)學實驗室主要采用毛細管電泳技術對Y 染色體上短串聯(lián)重復(short tandem repeat,STR)遺傳標記進行檢測,用于家系檢索或親緣關系鑒定。近年來,二代測序(next generation sequencing,NGS)技術發(fā)展迅速,可以完成多類遺傳標記的檢測,且測序成本也有較大的下降。學者們開始嘗試應用這一技術對Y染色體上STR與單核苷酸多態(tài)性(single nucleotide polymorphism,SNP)遺傳標記聯(lián)合檢測進行更為精準的Y 染色體信息溯源。本文擬闡述Y 染色體遺傳標記的主要類型及其在法醫(yī)學中的應用現(xiàn)況,介紹NGS 技術用于法醫(yī)遺傳學分子標記檢測的主流平臺、原理以及應用優(yōu)勢,總結國內(nèi)外可用于檢測Y 染色體遺傳標記的商品化NGS 試劑盒及自主構建的NGS 檢測體系的性能,討論目前在法醫(yī)學領域應用NGS 技術仍待解決的問題,并對NGS 技術的應用前景進行展望。
Y 染色體獨屬于男性個體,在男性性狀發(fā)育中意義重大。其長度約為60 Mb,占人類基因組總量的2%左右[1]。Y 染色體上不與X 染色體發(fā)生重組的區(qū)域稱為非重組區(qū)(non-recombining Y,NRY),約占整個染色體的95%。非重組區(qū)在同一家系的男性中世代穩(wěn)定遺傳(不考慮突變),呈現(xiàn)高度特異性和保守性。Y染色體上有STR 和SNP 兩類多態(tài)性遺傳標記,即YSTR 和Y-SNP,在法醫(yī)學實踐中應用最為廣泛,如性別鑒定、混合斑檢測、親緣關系鑒定、家系排查及種族推斷等[2]。在Y染色體上,多個連鎖的STR和(或)SNP等位基因排列組合形成單倍型(haplotype),一組同源的單倍型則構成單倍群(haplogroup)[3]。
Y-STR 從其發(fā)現(xiàn)到應用經(jīng)歷了漫長的過程:ARNEMANN 等[4]于1986 年發(fā)現(xiàn)第一個可變重復序列為[TAGA]n的Y-STR(后命名為DYS19);ROEWER等[5]在1992 年出具了一份有關DYS19的報告,標志著Y-STR 開始應用于法醫(yī)學;直到2004 年,Y-STR 在法醫(yī)遺傳學領域的應用才得到廣泛認可。我國法醫(yī)學界也對Y-STR 展開了積極的研究與應用,在2005 年已有報道稱將Y-STR 家系分型方法應用于偵破強奸殺人案[6]。此后許多案件的偵破都有賴于Y-STR 的參與[7],因此建設法庭科學Y-STR 數(shù)據(jù)庫對于輔助案件偵破具有重大意義[8]。需要指出的是,相同的單倍型由同一父系家族中的所有男性共享,這導致YSTR 分型檢測結果不唯一,其價值在于排除而不能認定,更無法精準識別個體[9]。針對這一局限性,學者們提出了快速突變Y-STR、低突變率Y-STR[8]等概念,有助于區(qū)分同一父系的不同個體或提高系統(tǒng)發(fā)育樹的分辨率等法醫(yī)學實踐[10-13]。
Y-SNP 在法醫(yī)學中可作為Y-STR 的補充工具而發(fā)揮作用,并參與Y 染色體單倍群進化樹的構建[14],因此近年來備受法醫(yī)遺傳學領域?qū)W者關注。第一個Y-SNP 基因座于1994 年由SEIELSTAD 等[15]發(fā)現(xiàn)并報道。相比于Y-STR,Y-SNP 的突變率更低,在遺傳過程中更穩(wěn)定,是推斷父系地理祖先的理想標記[8]。在某些復雜的親權鑒定中,如缺少其他親屬參與的祖父-孫子親緣關系鑒定、男性個體間全同胞(半同胞)關系鑒定、叔-侄關系鑒定等,如果Y-SNP 分型檢測結果不一致,可直接判定被鑒定人間不具有上述關系[16]。然而,Y-SNP 屬于Y 染色體二等位遺傳標記,即1 個標記通常只有2 個等位基因,所含遺傳信息有限,這就意味著需要檢測大量的Y-SNP 位點才能獲得較高水平的識別率,因此Y-SNP 較少單獨應用于法醫(yī)學檢案[17]。
NGS,也被稱為大規(guī)模平行測序(massively parallel sequencing,MPS)[18],可以同時完成多個樣本和(或)多種遺傳標記的并行檢測,節(jié)約檢測樣本量和檢測時間,并可在合成測序模板互補鏈的同時讀取序列數(shù)據(jù)[19]。NGS 技術的出現(xiàn)推動了相應測序平臺的發(fā)展[20],目前法醫(yī)應用較為成熟的NGS 測序平臺主要有美國Illumina公司的Miseq FGxTM系統(tǒng)[21]和美國Thermo Fisher Scientific 公司的Ion TorrentTM半導體測序平臺(如Ion S5TM[22])。Miseq FGxTM系統(tǒng)測序流程通過DNA片段化、末端補平、加A尾以及加測序?qū)S媒宇^等步驟構建可供上機的DNA 文庫;再經(jīng)過橋式擴增(bridge amplification)反應形成簇,從而放大測序熒光信號;運用邊合成邊測序的技術進行測序,帶有熒光基團和阻斷基團的脫氧核糖核苷三磷酸(deoxy-ribonucleoside triphosphate,dNTP)與序列結合,釋放相應堿基的熒光信號,測序儀通過捕獲熒光信號從而進行檢測[23]。而Ion TorrentTM半導體測序平臺同樣采取邊合成邊測序的策略,區(qū)別在于使用的接頭序列不同、采用乳化PCR 而非橋式擴增;此外,它不需要依賴光學系統(tǒng)記錄結果,而是在dNTP 和DNA 模板結合釋放出H+后,通過半導體傳感器記錄反應體系的局部pH 值變化,并以此來判斷核苷酸類型[24]。
應用NGS 技術對STR 進行檢測,可獲得全解析度STR 基因座信息,大幅度提高STR 基因座的多態(tài)性,獲得更高的個體識別效率。同一STR 基因座中核心序列可能既存在長度差異也存在序列差異,當基序出現(xiàn)變異或重復序列的重復次數(shù)改變時,基因座的序列信息不同,擴增片段長度卻不會發(fā)生改變。利用傳統(tǒng)的聚合酶鏈反應-毛細管電泳(polymerase chain reaction-capillary electrophoresis,PCR-CE)技術檢測包含此類變異的STR 基因座,由于僅針對擴增片段長度進行區(qū)分,因此會出現(xiàn)相同的檢測結果,而使用NGS 技術檢測STR 基因座能夠清晰地分辨基因座中序列信息的差異[25]。如WANG 等[26]報道,在D12S319基因座觀察到等位基因“21”存在6 種NGS-STR 序列,而CE 技術僅能依據(jù)長度檢測到等位基因“21”。此外,當側翼序列存在SNP 位點或InDel 位點時,NGS檢測將獲得更多等位基因及其序列信息,從而增加STR 基因座遺傳信息含量。
NGS 技術應用于微量、降解或混合物等疑難檢材分型的優(yōu)勢也十分顯著。從微量生物檢材中可提取的DNA 量通常偏低,應用CE 技術無法達到最佳檢驗要求,而應用NGS 技術則能夠獲得更多的基因分型結果[27-28]。對于陳舊的骨骼、牙齒以及腐敗的組織等降解檢材,由于模板DNA 高度碎片化,應用CE-STR試劑盒進行DNA 分型時可能會出現(xiàn)“優(yōu)勢擴增”或者“無效擴增”,而NGS 的擴增子長度不受CE 熒光染料的限制,提高了降解檢材STR 基因座的檢出率[29-30],并通過增加STR 基因座進一步提高個體識別和親權鑒定的證據(jù)強度。此外,NGS 技術可以獲得相同長度等位基因間的序列差異信息,提高識別能力,使混合樣本的分析更加簡便高效[31-33]。
NGS 技術針對STR 基因座的檢測具有諸多優(yōu)勢,由此催生出許多商業(yè)化NGS-STR 試劑盒。由于YSTR 呈父系遺傳的特點,其在與男性相關的法醫(yī)學案件實踐中具有重要意義,所以不乏試劑盒中涵蓋一定數(shù)目的Y-STR 基因座。美國Illumina 公司推出的ForenseqTMDNA Signature Prep 試劑盒是第一個經(jīng)過驗證的同時包含STR 和SNP 的試劑盒[34],也是目前基于Miseq FGxTM系統(tǒng)最成熟的商品化試劑盒[35]。該試劑盒共包含58 個STR 基因座(27 個A-STR、7 個XSTR 和24 個Y-STR)以及172 個SNP 標記(94 個個體信息SNP、56 個祖先信息SNP 和22 個表型信息SNP)。CHURCHILL 等[36]在2016 年對該試劑盒的測試版本進行了評估,除DYS392基因座由于覆蓋深度過低導致3 次重復實驗中的2 次結果不能確定外,其余YSTR 基因座的NGS 分型結果與CE 結果完全一致;DYS456基因座性能較差(序列覆蓋率<0.6),可能出現(xiàn)等位基因丟失或?qū)y序錯誤結果誤判為基因突變的現(xiàn)象,因此該基因座在正式版本中被剔除。GUO等[37]對正式版的試劑盒進行了評估,發(fā)現(xiàn)以200 pg DNA 即可獲得全部的SNP 分型圖譜,100 pg 可獲得全部的STR 分型圖譜,但其認為一些性能不佳的Y-STR基因座(如DYS392、DYS481和DYS612等)有待優(yōu)化;這與MORENO等[38]的報道類似,其在DYS392和DYS385兩個基因座上觀察到等位基因不平衡、部分或全部缺失的現(xiàn)象。國內(nèi)有研究者[39]使用該試劑盒對108 名云南苗族個體進行測序以研究其序列多態(tài)性,結果從所測個體中檢出了106 種Y-STR 單倍型,在24 個YSTR 基 因 座 上 共 檢 出204 個 基 因,在7 個Y-STR 基 因座(DYF387S1、DYS390、DYS389Ⅱ、DYS437、DYS438、DYS448、DYS612)上的等位基因存在片段長度相同而序列不同的情況。這些針對ForenseqTMDNA Signature Prep 試劑盒的研究均證明了其包含的24 個YSTR 基因座在法醫(yī)遺傳學領域具有一定的應用價值。另外,美國Promega 公司也基于Miseq FGxTM系統(tǒng)推出了PowerSeqTM系列試劑盒,其中PowerSeqTMAuto/Y System 試劑盒共包含22 個A-STR 基因座、1 個性別標記Amelogenin和23個Y-STR基因座。SILVA等[40]對該試劑盒進行了評估,發(fā)現(xiàn)基于Y-STR 序列信息的等位基因數(shù)目多于基于其長度的等位基因數(shù)目(13.8%),且根據(jù)序列進行等位基因分析時,可獲得更高的雜合度、多態(tài)信息含量和遺傳多樣性等。PowerSeqTMAuto/Mito/Y System 試劑盒是在PowerSeqTMAuto/Y System試劑盒的基礎上增加了10 個線粒體DNA(mitochondrial DNA,mtDNA)基因座,在應用該試劑盒對YSTR 基因座進行分型檢測時,同樣可以增加等位基因多樣性,從而增加單倍型多樣性[41]。
除商業(yè)化試劑盒外,一些法醫(yī)學者也圍繞感興趣的Y-STR 基因座展開了研究。由于Y 染色體上存在回文區(qū)域,Y-STR 相比A-STR 結構更為復雜。某些Y-STR 基因座在染色體上存在多個拷貝,在使用特異性引物擴增時會產(chǎn)生多個PCR 產(chǎn)物,可能會被錯認為是單倍型上的不同基因座,通過NGS 技術可以從序列多態(tài)性角度獲得更為詳細準確的Y-STR 序列信息和分型結果。安雷雷等[42]初步建立了基于NGS技術的Y 染色體多拷貝STR 基因座(DYF404S1)分型方法,有3 例樣本可能由于Y 染色體上發(fā)生重組[43]而出現(xiàn)三等位基因的異常分型;225 例樣本中除5 例由于擴增不均衡導致分型失敗外,其余樣本均得到正確分型結果。另有部分學者自主構建了基于NGS 平臺的Y-STR 檢測體系:ZHAO 等[44]構建了一個包含13 個Y-STR 基因座(DYS19、DYS389Ⅰ、DYS389Ⅱ、DYS390、DYS391、DYS392、DYS437、DYS438、DYS439、DYS448、DYS456、DYS635、GATA-H4)的檢測體系,并應用Ion TorrentTM半導體測序平臺對其進行了驗證評估。該研究中除了DYS389Ⅱ的擴增子相對較長而導致其檢測失敗率達到1.8%外,其他所有基因座均被成功檢出。由于存在序列組成差異,在DYS389Ⅱ、DYS390、DYS437、DYS448和DYS6355 個基因座上分別觀察到7、3、2、6 和5 個新等位基因,在DYS438由于發(fā)生堿基置換而觀察到了1 個新等位基因,核心重復序列上游有4 bp 堿基缺失,導致DYS390的1 個等位基因與CE 檢測的分型結果不一致。KWON 等[45]構建了1 個包含23 個Y-STR 基因座(DYS19、DYS385a/b、DYS389Ⅰ、DYS389Ⅱ、DYS390、DYS391、DYS392、DYS393、DYS437、DYS438、DYS439、DYS448、DYS456、DYS458、DYS481、DYS533、DYS549、DYS570、DYS576、DYS635、DYS643和YGATAH4)的 檢測體系,并使用Miseq FGxTM系統(tǒng)對250 名韓國無關男性個體樣本進行測序。研究通過對比基于NGS 與CE 得到的分型結果,發(fā)現(xiàn)CE 方法檢測到的基因多樣性較低的Y-STR位點,可能通過NGS 方法顯示出更高的等位基因多樣性;借助于類似的多重分析系統(tǒng),法醫(yī)實驗室可獲得大量的Y-STR 重復序列信息和側翼序列信息;研究還報道了該體系的stutter 峰和信噪比,為分析低拷貝數(shù)和混合DNA 樣本的等位基因提供了有效的信息。上述研究證明,基于NGS 平臺的檢測體系將有助于在法醫(yī)遺傳學實驗室中進一步開展對Y-STR 的應用。
由于從點樣到分型均可實現(xiàn)自動化,基質(zhì)輔助激光解吸電離/飛行時間質(zhì)譜(matrix-assisted laser desorption ionization time-of-flight mass spectrometry,MALDI-TOF-MS)技術一直被認為是一種較理想的中高通量Y-SNP 檢測技術,法醫(yī)學者們也圍繞這一技術展開了相關研究[46-48]。但質(zhì)譜技術對組織樣本的分型效果較差,且所需樣本量較高,因此在大規(guī)模應用中存在一定的局限性。Ion TorrentTM半導體測序平臺等NGS 平臺被引入法醫(yī)遺傳學領域后,由于其操作簡便、節(jié)約成本、高靈敏度及高精確度等優(yōu)勢,為SNP 的分型檢測帶來了新方向和新思路[49]?,F(xiàn)已有生物公司基于各NGS 平臺開發(fā)出了專門針對法醫(yī)學應用的商品化SNP 檢測試劑盒。例如,美國Thermo Fisher 公司基于Ion TorrentTM半導體測序平臺開發(fā)的HID-Ion AmpliSeq Identity Panel,是該平臺第一個商業(yè)化的SNP 檢測試劑盒,共 包含90 個A-SNP 和34 個Y-SNP。EDUARDOFF 等[50]對該試劑盒的測試版本進行了評估,發(fā)現(xiàn)25~100 pg 的DNA 可獲得90%~95%的SNP 分型;5 個SNP 標記(rs2032597、rs2399332、rs1979255、rs1004357、rs938283)檢測到分型不一致現(xiàn)象,在試劑盒的正式版中剔除了這些標記[51];由于測序深度不足或分析參數(shù)設置不當?shù)仍?,? 個SNP 位點觀察到信號丟失。OCHIAI 等[52]針對HIDIon AmpliSeq Identity Panel 的研究表明,與Sanger 測序相比,NGS 測序可以通過更簡便的步驟提供更全面的Y-SNP 分型,而且這種工具還可用于不同人群的親子鑒定或個人識別[53]。劉浩等[54]使用該試劑盒對降解檢材進行了檢測,平均檢測成功率82.7%,平均雜合子均衡性74.8%,相較于CE差異有統(tǒng)計學意義(P<0.05)。
國內(nèi)外另一大研究熱點是基于NGS 平臺自主構建Y-SNP 遺傳標記檢測體系,對深部序列結構進行分析并對體系的分型能力進行驗證。RALF 等[55]使用Ion TorrentTM半導體測序平臺對530 個Y-SNP 進行并行測序分型,該體系涵蓋了整個Y 染色體遺傳發(fā)育樹的分支,從而可最大程度獲得父系譜系分類。GAO等[56]利用Ion TorrentTM半導體測序平臺構建了包含74 個Y-SNP 標記的檢測體系,對100 個四川漢族樣本進行分析后將其分為18 個單倍群,并據(jù)此繪制了新的系統(tǒng)發(fā)育樹。這種新的系統(tǒng)發(fā)育樹幾乎覆蓋了中國所有的Y 單倍群,因此可以用來準確定位任意中國男性在系譜中的位置。WANG 等[57]設計了一個包含165 個Y-SNP 位點的NGS 檢測 體系,并依據(jù)54 名無關男性個體樣本的測序數(shù)據(jù)分析評估體系的測序性能,研究發(fā)現(xiàn),除9 個性能較差的Y-SNP(4 個覆蓋度過低,5 個背景噪聲較高)以外,其余標記表現(xiàn)良好,并且可達到較高的分辨率,證明了該Y-SNP 檢測系統(tǒng)可補充以前的檢測方法,是一種適用于中國人群進行父系親緣關系鑒定和法醫(yī)學家系溯源的有利工具。
NGS 技術的高速發(fā)展豐富了法醫(yī)遺傳學研究的方式,成為具有極高應用價值的法醫(yī)學檢測技術,國內(nèi)外法醫(yī)學者都迫切期望將這一技術的先進成果應用于實際案件檢驗中。現(xiàn)已有NGS 商業(yè)化試劑盒可檢測STR 和(或)SNP,用于個體識別或親權鑒定等法醫(yī)學實務[58]。另有學者構建了針對Y-STR 或Y-SNP的NGS 檢測體系,為進一步將NGS 技術應用于父系親緣關系鑒定或家系溯源等提供了理論依據(jù)[59]。此外,許多研究[60-61]還表明,Y-STR 和Y-SNP 的聯(lián)合分析不僅可用于男性的個體識別,還可用于父系生物地理譜系推斷,并且所獲得的Y-STR 和Y-SNP 頻率分布對于評估中國漢族人群乃至世界男性人群分級具有重要意義。但目前,聯(lián)合應用的主要方法為通過CE 與NGS 分型體系分別對樣本進行檢測,將所得YSTR 和Y-SNP 數(shù)據(jù)整合后再進行分析[62]。而隨著NGS 技術的應用,對多種遺傳標記進行并行測序分析不僅可節(jié)約檢測時間,同時也可減低樣本的損耗,因此近來亦有將Y-STR 和Y-SNP 復合擴增后進行并行測序的報道[63],可能成為今后法醫(yī)學Y 染色體遺傳標記檢測的有力技術手段。
然而,當前法醫(yī)遺傳學界對于NGS 技術的應用仍有大量工作有待開展:(1)大規(guī)模并行測序的實現(xiàn)使DNA 檢測結果不再單一,而是可能涵蓋A-STR、YSTR、X-STR、線粒體DNA 信息等多種標記類型的遺傳信息。信息量驟增的同時,數(shù)據(jù)的形式也更為復雜,因此需要數(shù)據(jù)庫擁有更強大的對比和存儲信息能力。(2)各測序平臺都有出現(xiàn)測序錯誤的概率,因此研制并完善操作簡便、準確性高、分析快速的測序數(shù)據(jù)分析軟件對于NGS 數(shù)據(jù)的使用具有重要意義。此外,綜合分析所有遺傳標記及其側翼區(qū)信息并實現(xiàn)NGS 數(shù)據(jù)與現(xiàn)有大量CE 數(shù)據(jù)的一致性和兼容性也是亟待解決的問題。我國在制定NGS 數(shù)據(jù)應用標準方面也仍處于探索階段,不同實驗室不同平臺的等位基因命名規(guī)則、檢測結果解讀需要統(tǒng)一,以便后續(xù)實現(xiàn)數(shù)據(jù)共享。同時,我國需要研發(fā)適合中國人群的具有自主知識產(chǎn)權的NGS Y-STR(SNP)檢測試劑盒,以期發(fā)現(xiàn)新的等位基因,積累各民族、各地域人群的等位基因頻率并擴充Y 染色體DNA 數(shù)據(jù)庫。