陳安琪
(1.復(fù)旦大學(xué) 基礎(chǔ)醫(yī)學(xué)院 法醫(yī)系,上海 200032; 2.司法鑒定科學(xué)研究院 上海市法醫(yī)學(xué)重點(diǎn)實(shí)驗(yàn)室上海市司法鑒定專業(yè)技術(shù)服務(wù)平臺(tái) 司法部司法鑒定重點(diǎn)實(shí)驗(yàn)室,上海 200063)
混合樣本鑒定是法醫(yī)物證領(lǐng)域最為常見(jiàn)的難題之一[1-2]。 源于犯罪現(xiàn)場(chǎng)或涉及刑事糾紛(例如性侵、人身攻擊與謀殺等)的生物學(xué)檢材,其樣本均存在DNA 混合的情況[3-4]。 該類樣本在進(jìn)行基因分型時(shí),可出現(xiàn)兩個(gè)或多個(gè)同性或異性貢獻(xiàn)者的DNA圖譜,給其中貢獻(xiàn)者的個(gè)體識(shí)別帶來(lái)了極大的挑戰(zhàn)。 為克服混合樣本的鑒定困難,提高法醫(yī)工作者對(duì)混合樣本的檢測(cè)能力,越來(lái)越多的分子標(biāo)記借助二代測(cè)序(next-generation sequencing,NGS)技術(shù)手段來(lái)解決混合樣本的鑒定問(wèn)題[5-6]。 雖然這些方法能夠在一定程度上解決混合樣本的拆分問(wèn)題,但其應(yīng)用依舊面臨兩大弊端:一方面,基于NGS 的方案將產(chǎn)出數(shù)量巨大的原始數(shù)據(jù),其分析需要依賴強(qiáng)大的生信團(tuán)隊(duì),故并不適用于普通法醫(yī)學(xué)實(shí)驗(yàn)室;另一方面,這些依賴新技術(shù)的新型分子標(biāo)記沒(méi)有可供比對(duì)的人群數(shù)據(jù)庫(kù),意味著在缺乏嫌疑人基因分型數(shù)據(jù)的情況下將很難鎖定罪犯,無(wú)法對(duì)案件偵破提供更具指向性的線索。
基于毛細(xì)管電泳(capillary electrophoresis,CE)的短串聯(lián)重復(fù)序列(short tandem repeat,STR)分型方法(CE-STR)是當(dāng)今世界范圍內(nèi)公認(rèn)的法醫(yī)物證鑒定方法[7],STR 具有高度多態(tài)性和顯著的個(gè)體間差異,許多國(guó)家都建立了基于STR 的人群數(shù)據(jù)庫(kù)[8]。 因此,開(kāi)發(fā)一款以法醫(yī)常用STR 分子標(biāo)記為目標(biāo)的窗口化分析系統(tǒng)極具價(jià)值。 云算GPM 混合圖譜分析系統(tǒng)是一項(xiàng)基于全連續(xù)法概率分型的軟件[9],相較于其他常用概率模型(如:二進(jìn)制法、半連續(xù)法),其更為全面地考量了影響STR 準(zhǔn)確檢出的各種因素(如:峰值變異性、混合比例及stutter 峰等),通過(guò)分析圖譜中的全部信息,以概率的形式給出可能的分型結(jié)果。 全連續(xù)法概率模型是目前領(lǐng)先的混合圖譜拆分方法,該分析系統(tǒng)或許是一個(gè)可靠的混合樣本分析系統(tǒng)。 為探究該分析系統(tǒng)對(duì)混合樣本的拆分能力,本研究應(yīng)用Power-Plex21R○基因分型試劑盒對(duì)13 例2~3 人混合樣本進(jìn)行了STR 分型,觀察了其在預(yù)設(shè)閾值條件下的分型情況,探究了云算GPM 混合圖譜分析系統(tǒng)對(duì)模擬混合樣本的基因型拆分情況。
本研究所用DNA 樣本源于5 名已知基因型的無(wú)關(guān)個(gè)體,模擬混合樣本按以下比例(表1)進(jìn)行混合。
表1 混合樣本概況
1.2.1 STR 分型
采用Power-Plex21R○試劑盒(美國(guó)Promega 公司)對(duì)13 例混合DNA 樣本進(jìn)行復(fù)合擴(kuò)增,擴(kuò)增體系及程序嚴(yán)格遵照試劑盒說(shuō)明書進(jìn)行。 PCR 擴(kuò)增產(chǎn)物用3130XL 型遺傳分析儀(美國(guó)Applied Biosystems 公司)進(jìn)行毛細(xì)管電泳分型檢測(cè),STR 基因座分型結(jié)果用GeneMapper ID-X 軟件(美國(guó)Applied Biosystems公司)在試劑盒預(yù)設(shè)的默認(rèn)閾值下進(jìn)行分析。
1.2.2 基于云算GPM 分析系統(tǒng)的混合圖譜分析
將毛細(xì)管電泳輸出的“FSA”格式原始文件導(dǎo)入云算GPM 混合圖譜分析系統(tǒng)(北京瑞源文德科技有限公司),并在軟件內(nèi)部完成STR 分型分析。為減少人工判讀誤差對(duì)后續(xù)軟件分析的影響,本研究以混合樣本理論上的分型結(jié)果作為參考,對(duì)混合圖譜上的等位基因應(yīng)標(biāo)盡標(biāo),繼而進(jìn)行下游的混合圖譜拆分分析。
本研究利用Power-Plex21R○試劑盒檢測(cè)了13例混合樣本的基因分型情況。 在系統(tǒng)預(yù)設(shè)的默認(rèn)閾值條件下,其基因型檢出情況與預(yù)期結(jié)果存在較大差異。 如圖1 所示,絕大多數(shù)基因座的分型結(jié)果均不符合預(yù)期。 在基因座水平上,Amel 的基因型一致性最高,高達(dá)100%(13/13),TH01 次之(92.31%,12/13),D3S1358 位列第三(69.23 %,9/13)。 D13S317 與D16S539 是檢出一致性最低的基因座,僅為7.68%(1/13)。 在樣本水平上,多數(shù)樣本僅有1/4~1/5 的等位基因分型結(jié)果與預(yù)期相符, 樣本9 的分型結(jié)果一致性最高,約為76.19%(16/21)。 此外,樣本12、樣本10 和樣本6 的分型一致性同樣相對(duì)較高,分別為52.38%(11/21)、47.62%(10/21)和38.10%(8/21)。
圖1 混合樣本基因型的預(yù)期分型與實(shí)際檢出情況的比較
云算GPM 分析系統(tǒng)可對(duì)混合圖譜的基因型進(jìn)行拆分,結(jié)果如圖2 所示(紅色表示分型結(jié)果完全不符合預(yù)期;橙色表示分型結(jié)果有部分符合預(yù)期;綠色表示分型結(jié)果與預(yù)期完全相同)。 13 例混合圖譜均可被成功拆分,除樣本1 的主要貢獻(xiàn)者與次要貢獻(xiàn)者的基因型拆分結(jié)果完全正確外,其他樣本的基因型結(jié)果均存在一定的誤差。 其中,主要貢獻(xiàn)者的檢出情況較為準(zhǔn)確,僅樣本3 存在一個(gè)基因座(D12S391)的分型錯(cuò)誤,約6.54%(18/273)的基因座分型存在拆分結(jié)果錯(cuò)誤的情況,絕大多數(shù)基因座(93.04%,254/273)的分型結(jié)果完全正確[圖2(a)]。在次要貢獻(xiàn)者的等位基因檢出方面,其總體分型準(zhǔn)確率遠(yuǎn)不如主要貢獻(xiàn)者。 15 個(gè)次要貢獻(xiàn)者共產(chǎn)生315 個(gè)基因座分型結(jié)果,約50.48%(159/315)的次要貢獻(xiàn)者的基因型完全正確,約41.59%(131/315)的基因型僅有部分滿足預(yù)期,約7.94%(25/315)的分型結(jié)果是完全錯(cuò)誤的[圖2(b)]。
圖2 基于云算GPM 混合圖譜分析系統(tǒng)的混合樣本基因型拆分結(jié)果
總體來(lái)看,雖然各基因座的分型正確的個(gè)數(shù)均占多數(shù),但不同基因座水平間的拆分結(jié)果準(zhǔn)確性仍存在差異。 D7S820 是基因型拆分準(zhǔn)確率最高的基因座(89.29%,25/28),Amel 次之(85.71%,24/28),TH01 位列第三(85.71%,24/28)。 除以上3 個(gè)基因座之外,還有其他9 個(gè)基因座(D3S1358、D1S1656、D6S1043、D13S317、Penta E、D2S1338、CSF1PO、D5S818和FGA)的準(zhǔn)確率均在70%以上。 其中,Amel、D3S1358、D13S317、TH01 和vWA 沒(méi)有分型完全錯(cuò)誤的情況發(fā)生。與此同時(shí),基因型拆分結(jié)果較差的基因座分別為D18S51、TPOX 和D12S391(圖3)。
圖3 混合圖譜基因型拆分結(jié)果在基因座水平的表現(xiàn)
為確保拆分結(jié)果的準(zhǔn)確性,云算GPM 分析系統(tǒng)采用預(yù)設(shè)weight 值(權(quán)重)衡量所得基因型的可靠性。 本研究結(jié)果中,weight 值在90%以上的基因座有267 個(gè),占總數(shù)的41.01%(267/651),其中,分型完全正確的基因座、部分正確的基因座和完全錯(cuò)誤的基因座所占比例分別為99.63%(266/267)、0.37%(1/267)和0%(0/267)。值得注意的是,并非所有正確分型的基因座weight 值均大于90%?;蜃中屯耆_、部分正確和完全錯(cuò)誤這3 種情況所對(duì)應(yīng)的weight 平均值分別為82.36 %±24.68 %、40.22%±16.56%和35.12%±18.24%[圖4(a)]。為進(jìn)一步分析各分型結(jié)果下的weight 值分布情況,本研究對(duì)各分型結(jié)果下的基因座數(shù)進(jìn)行了基于該頻率的擬合分析[圖4(b)]。 結(jié)果顯示,3 種分型結(jié)果在weight 值低于90 %時(shí),均存在一定的交疊,雖然weight 值越低,其歸屬于錯(cuò)誤分型的可能性越高,但無(wú)法完全根據(jù)某一weight 值作出結(jié)果是完全正確、部分正確或是完全錯(cuò)誤的推斷。
圖4 混合圖譜基因型拆分結(jié)果與weight 值的關(guān)系
混合樣本的鑒定一直以來(lái)都是司法鑒定的重點(diǎn)與難點(diǎn),其基因分型的成功拆分將為后續(xù)的案件偵破提供有效證據(jù)與線索[2]。 雖然用于混合樣本基因型檢測(cè)的方案層出不窮,但基于STR 分子標(biāo)記的窗口化分析系統(tǒng)卻較為少見(jiàn)。 STRmix 和云算GPM分析系統(tǒng)是目前較為成熟的混合樣本拆分系統(tǒng),李甫等[9]曾對(duì)這兩種分析系統(tǒng)進(jìn)行了比較,認(rèn)為兩者均可用于混合樣本的拆分,但其結(jié)果存在一定差異。 上述研究的樣本來(lái)源多限于真實(shí)案件樣本,缺乏對(duì)已知組分的模擬混合DNA 研究,因而難以確定檢測(cè)系統(tǒng)的正確性。 為進(jìn)一步探究云算GPM 混合圖譜分析系統(tǒng)在混合樣本檢驗(yàn)中的表現(xiàn),本研究模擬了13 例2~3 人DNA 混合樣本,并用經(jīng)過(guò)廣泛驗(yàn)證的Power-Plex21R○試劑盒[10-14]對(duì)其進(jìn)行檢測(cè)。為確保分型數(shù)據(jù)的有效性,避免因DNA 不足而導(dǎo)致的等位基因丟失,本研究中所有次要貢獻(xiàn)者的投入量均高于其最低檢出限(50 pg[11])。 由于該試劑盒的主要檢測(cè)對(duì)象為單一來(lái)源樣本,因此其系統(tǒng)內(nèi)置的分析閾值在混合樣本的結(jié)果輸出上或許并不準(zhǔn)確。 不出所料,在Power-Plex21R○試劑盒預(yù)設(shè)的默認(rèn)閾值條件下,絕大多數(shù)的基因型均與預(yù)期不同(圖1)。 在對(duì)這21 個(gè)基因座的分型分析中發(fā)現(xiàn),不同等位基因間的分型一致性存在差異。 所有Amel的基因型均符合預(yù)期,TH01 與D3S1358 的分型一致性同樣較高,分別為92.31 %和69.23 %,而D13S317 與D16S539 的一致性卻僅為7.68%。 基于人類遺傳基本規(guī)律,正常人的Amel 分型結(jié)果僅可能是XX、XY 的一種,故而推測(cè)本研究中STR 分型的一致性差異或與基因座的遺傳多態(tài)性相關(guān)。 有研究[15]表明,D13S317 與D16S539 的多態(tài)信息量(polymorphism information content,PIC)分別為0.794 3 和0.791 7,約是TH01(PIC 為0.603 6)與D3S1358(PIC為0.649 1)的1.22~1.32 倍,提示TH01 與D3S1358的高一致性極有可能是由該基因座有限的基因型組合所致。 對(duì)于多數(shù)混合樣本而言,僅有約20%的基因座分型結(jié)果一致,然而樣本9、樣本12、樣本10和樣本6 中分型一致的基因座數(shù)卻遠(yuǎn)高于平均水平。 由于以上4 例樣本的投入量均為5 ng,因此可排除因投入量差異而帶來(lái)的分型差異。 在混合比例方面,由于以上3 個(gè)混合樣本的混合比例相對(duì)均衡,故而其主要貢獻(xiàn)者與次要貢獻(xiàn)者的信號(hào)也相對(duì)均衡,不易被占比高的組分所掩蓋,這可能是造成其在默認(rèn)閾值下一致性相對(duì)較高的原因。 用于CESTR 分型檢測(cè)的試劑盒有很多,絕大多數(shù)的CESTR 檢測(cè)均是服務(wù)于單一來(lái)源DNA,而非混合樣本。使用默認(rèn)閾值下的分析結(jié)果,必然會(huì)存在次要等位基因被覆蓋的偏差。 因此,混合圖譜的基因型認(rèn)定依舊非常依賴法醫(yī)工作者的個(gè)人經(jīng)驗(yàn)。
由于云算GPM 分析系統(tǒng)主要依賴于研究人員對(duì)混合圖譜的基因型認(rèn)定,而混合DNA 的等位基因認(rèn)定對(duì)于結(jié)果拆分的正確性起著至關(guān)重要的作用。 為排除人工誤差,并最大限度地測(cè)試云算GPM分析系統(tǒng)的去卷積能力,本研究根據(jù)預(yù)期的DNA混合圖譜結(jié)果對(duì)電泳圖譜進(jìn)行注釋,以期探究其對(duì)主要貢獻(xiàn)者和次要貢獻(xiàn)者的基因型識(shí)別情況。 結(jié)果顯示,混合圖譜的拆分結(jié)果并不能確保100%的準(zhǔn)確性,在13 例混合樣本中,除樣本1 的拆分結(jié)果完全正確外,其他混合樣本或多或少均存在差錯(cuò)(圖3)。主要貢獻(xiàn)者的總體分型準(zhǔn)確率(93.04%)高于次要貢獻(xiàn)者(50.48%),該結(jié)果與常識(shí)相符,主要貢獻(xiàn)者因其投入量高的原因,信號(hào)也往往更強(qiáng),能提供更為確切的信息[16-17]。
在法醫(yī)實(shí)踐中,拆分所得的基因型往往有同罪犯數(shù)據(jù)庫(kù)比對(duì)的需求,因此,用于比對(duì)的基因座分型正確性對(duì)于嫌疑目標(biāo)的篩選至關(guān)重要?;蜃谌后w遺傳學(xué)中的多態(tài)性及其在特定檢測(cè)試劑盒中的性能表現(xiàn),造成了其拆分的難易度存在差異。本研究中,各基因座拆分后的準(zhǔn)確率顯示出了明顯的差異,基因型拆分準(zhǔn)確性最高的基因座是D7S820,其準(zhǔn)確率(89.29%)約為最低者(D21S11 和D12S391,53.57%)的1.67 倍(圖3),這提示某些基因座或許不適用于混合樣本的檢測(cè)。 如法醫(yī)工作人員有進(jìn)行數(shù)據(jù)庫(kù)比對(duì)的必要,則可優(yōu)先選擇weight 值較高的基因型,避免因基因型的拆分差錯(cuò)而導(dǎo)致嫌疑人篩查錯(cuò)誤。 就如何判斷已拆分基因分型的正確與否,云算GPM 混合圖譜分析系統(tǒng)內(nèi)置的weight 值可用于判斷結(jié)果的可靠性,一般而言,weight 值大于90%被認(rèn)為是分型結(jié)果可靠的指標(biāo)[18]。 本研究中,各分型結(jié)果的weight 值存在差異,分型完全正確的基因座weight 值最高,部分正確與完全錯(cuò)誤的基因座weight 值均較低,且這兩者間的差異也相對(duì)較小[圖4(a)]。 與此同時(shí),基于weight值的頻率分布圖也顯示絕大多數(shù)weight 值大于90%的分型結(jié)果是完全正確的[圖4(b)]。 以上結(jié)果表明,區(qū)分基因座分型結(jié)果完全正確者相對(duì)較易,weight 值大于90%是基因分型正確的既不充分也不必要條件。
服務(wù)于單一來(lái)源樣本的STR 分型檢測(cè)試劑盒對(duì)混合樣本的分型幫助有限,現(xiàn)有的混合樣本拆分軟件也不能解決混合圖譜中的基因型認(rèn)定問(wèn)題,混合樣本中的等位基因識(shí)別仍舊高度依賴法醫(yī)工作者的個(gè)人經(jīng)驗(yàn)。 基因分型的準(zhǔn)確與否與該貢獻(xiàn)者的占比存在相關(guān)性,weight 值大于90%是一個(gè)相對(duì)可靠的分型結(jié)果評(píng)價(jià)指標(biāo)。 由于多數(shù)樣本并未達(dá)到100%的分型一致性, 因此在有參考數(shù)據(jù)庫(kù)的情況下,選擇weight 值較高的基因座進(jìn)行嫌疑人的篩選或許是最佳選擇。 綜上,本研究測(cè)試了云算GPM 混合圖譜分析系統(tǒng)對(duì)混合樣本基因型拆分的結(jié)果,探討了該系統(tǒng)在混合樣本基因型拆分上的可靠性,可為云算GPM 混合圖譜分析系統(tǒng)的使用及未來(lái)優(yōu)化提供參考數(shù)據(jù)。