季現(xiàn)超,池連江,徐 珍,彭 柱,葉 健,凃 政,*,陳 華
(1.中國(guó)科學(xué)院北京基因組研究所,北京 100101;2.國(guó)家生物信息中心,北京 100101;3.現(xiàn)場(chǎng)物證溯源技術(shù)國(guó)家工程實(shí)驗(yàn)室,北京 100038)
法醫(yī)DNA實(shí)驗(yàn)室當(dāng)前的主流技術(shù)是基于PCRCE平臺(tái)對(duì)DNA樣本進(jìn)行STR遺傳標(biāo)記的檢測(cè)分析,但若DNA樣本包含兩人或兩人以上的DNA,則會(huì)得到混合STR圖譜——而其分析和解釋是法醫(yī)遺傳學(xué)領(lǐng)域的難題[1],其難點(diǎn)在于混合STR圖譜受多種因素的干擾,如影子峰、插入峰、峰丟失、峰飽和、等位基因共享、雜合不平衡、降解等,這些因素的疊加,就使得混合STR圖譜十分復(fù)雜。
隨著DNA提取和檢測(cè)技術(shù)的發(fā)展,混合DNA樣本的檢出比例呈逐年上升趨勢(shì),在法庭中作為證據(jù)的應(yīng)用越來越多。目前國(guó)內(nèi)法醫(yī)DNA實(shí)驗(yàn)室普遍使用人工分析[2]的方法對(duì)混合STR圖譜進(jìn)行解讀。既往論文也報(bào)道多起通過人工拆分混合STR圖譜,成功抓獲嫌疑人的案例[3-6]。但隨著混合DNA樣本的混合組分?jǐn)?shù)增多以及模板量降低,人工分析愈益費(fèi)時(shí)費(fèi)力,難以滿足當(dāng)前實(shí)際需求,法醫(yī)工作者亟需高效分析混合STR圖譜的工具。
當(dāng)前,國(guó)際上對(duì)于混合STR圖譜的分析經(jīng)常借助混合STR圖譜分析系統(tǒng)[7-9],國(guó)內(nèi)也已有幾家法醫(yī)DNA實(shí)驗(yàn)室引進(jìn)了國(guó)外先進(jìn)的混合STR圖譜分析系統(tǒng),如STRmix。國(guó)外混合STR圖譜分析系統(tǒng)開發(fā)較早,經(jīng)長(zhǎng)期研究和測(cè)試完善,在實(shí)際案件中應(yīng)用效果良好,并已得到法庭認(rèn)可,但因其購買費(fèi)用昂貴,且缺乏自主知識(shí)產(chǎn)權(quán),不適應(yīng)國(guó)內(nèi)應(yīng)用環(huán)境,難以大規(guī)模推廣;受國(guó)際形勢(shì)影響,STRmix已于2019年末被列入對(duì)我國(guó)禁售的高科技產(chǎn)品清單。本文介紹一套具有完全自主知識(shí)產(chǎn)權(quán)的混合STR圖譜分析系統(tǒng)SMART(STR Mixture Analysis and Resolution Tools)。通過使用該系統(tǒng)分析真實(shí)案例數(shù)據(jù),證明SMART在分析功能方面可以替代國(guó)外同類產(chǎn)品。SMART能夠滿足法醫(yī)行業(yè)的科研和工作人員對(duì)于混合STR圖譜分析的多種需求,提高混合STR圖譜結(jié)果的利用率。
SMART是一款自主研發(fā)的基于概率分型模型的混合STR圖譜分析系統(tǒng),以JAVA語言編寫,主要功能是實(shí)現(xiàn)混合STR圖譜的自動(dòng)化分析。
SMART使用了完全連續(xù)[8,10]的建模方法,對(duì)混合DNA樣本中各個(gè)貢獻(xiàn)者的DNA模板量、降解水平,基因座的特異性擴(kuò)增效率,平行擴(kuò)增效率等參數(shù)進(jìn)行建模,綜合考慮了影子峰、插入峰、峰丟失、峰飽和、等位基因共享、雜合不平衡等多種因素對(duì)混合STR圖譜的影響。
圖1顯示單一個(gè)體的兩個(gè)雜合基因座(基因座1與2)的理想峰圖為兩個(gè)基因座中四個(gè)峰的高度相同,無雜峰,能夠清晰判斷分型結(jié)果,決定峰高的因素是DNA模板量。但在實(shí)際情況中,由于大分子的等位基因更易降解,所以在增加降解[11]的影響后,大分子等位基因其峰高會(huì)比小分子等位基因的低一點(diǎn);另外,同一個(gè)試劑盒中不同基因座的特異性擴(kuò)增效率[8]也不同,反映在峰圖上為基因座1的整體峰高要比基因座2的低;且峰圖中總是會(huì)有影子峰[10]存在;最后由于擴(kuò)增的隨機(jī)性[12],峰高會(huì)在一定范圍內(nèi)波動(dòng)。這幾項(xiàng)基本因素的疊加,就產(chǎn)生了工作中常接觸到的峰圖。
將產(chǎn)生峰圖需要的因素分為兩類,可分別進(jìn)行參數(shù)化建模:第一類稱為樣本參數(shù),包括各個(gè)貢獻(xiàn)者的基因型及其DNA模板量與降解水平,基因座的特異性擴(kuò)增效率等;第二類稱為平臺(tái)參數(shù),包括:峰高飽和值、影子峰的比率、峰插入率、峰高隨機(jī)波動(dòng)的方差等因素。因樣本參數(shù)無法預(yù)知,在每次分析峰圖時(shí)就需要對(duì)此進(jìn)行估計(jì)。而平臺(tái)參數(shù)可預(yù)先推斷,如一類試劑盒的影子峰比率可以通過統(tǒng)計(jì)此類試劑盒大量的單人樣本的影子峰比率獲知,可在每次分析峰圖時(shí)作為固定參數(shù)。
SMART所使用模型的基本假設(shè)為,在混合STR圖譜中,不同基因座內(nèi)部的各個(gè)貢獻(xiàn)者DNA模板量的比例基本保持不變,不同貢獻(xiàn)者產(chǎn)生的峰高存在線性相加的關(guān)系。模型計(jì)算的核心是通過計(jì)算不同基因型集合產(chǎn)生的期望峰高與實(shí)際觀測(cè)峰高擬合的似然值,推斷出各個(gè)基因型集合是真實(shí)基因型集合的概率。以一個(gè)理想的二人混合基因座說明,如圖2。峰圖有三個(gè)主要的峰a、b、c,其生成可能的候選基因型集合,如表1。
表1 候選基因型集合Table 1 Candidate genotype combination
以比較(a,b ; b,c)和(c,c ; a,b)兩種基因型集合的概率為例。在同一組樣本參數(shù)(包括兩名貢獻(xiàn)者的DNA模板量、兩名貢獻(xiàn)者的降解水平等)下, 兩組基因型集合產(chǎn)生的期望峰高和實(shí)際觀測(cè)峰高的擬合圖如圖3所示,三角形峰是觀測(cè)峰,矩形峰是期望峰,綠色代表第一貢獻(xiàn)者,黃色代表第二貢獻(xiàn)者。通過觀察可看到(a,b ; b,c)產(chǎn)生的期望峰高與觀測(cè)峰高更相近,是真實(shí)基因型集合的概率更大。模型使用似然值來量化這種近似程度。
通過比較不同基因型集合和不同樣本參數(shù)生成的期望峰高與觀測(cè)峰高擬合的似然值大小,就可推斷出貢獻(xiàn)者基因座上各個(gè)候選基因型集合和樣本參數(shù)的概率。整個(gè)計(jì)算過程需要推斷的參數(shù)多達(dá)二十多個(gè),選用MCMC算法解決計(jì)算問題。
SMART包含六個(gè)模塊,功能分別為:
1)圖譜拆分:拆分混合STR圖譜,輸出分析報(bào)告,得到混合DNA樣本中各個(gè)貢獻(xiàn)者的基因分型。
2)LR計(jì)算:計(jì)算指定個(gè)體包含在混合DNA樣本中的似然比。
3)數(shù)據(jù)庫搜索:提供兩種模式的搜索方式,第一種是計(jì)算數(shù)據(jù)庫中每個(gè)個(gè)體包含在混合DNA樣本中的似然比,判斷數(shù)據(jù)庫中哪些個(gè)體可能包含在混合DNA樣本中;第二種是讀取圖譜拆分的結(jié)果,使用拆分得到的圖譜輸入數(shù)據(jù)庫比對(duì)。
4)批量處理:可以同時(shí)輸入多個(gè)圖譜拆分或者LR計(jì)算任務(wù),批量運(yùn)行。
5)模型參數(shù):訓(xùn)練模型需要的參數(shù)。
6)管理設(shè)置:設(shè)置軟件運(yùn)行的默認(rèn)參數(shù)等。
混合STR圖譜分析系統(tǒng)SMART,可支持包括GlobalFiler擴(kuò)增試劑盒和ABI-3500XL在內(nèi)的多種試劑盒和遺傳分析儀,提供的功能包括:推斷混合DNA樣本的混合個(gè)數(shù),推斷混合比例,支持圖譜質(zhì)量和模型擬合效果的判斷,推斷混合DNA樣本各個(gè)貢獻(xiàn)者基因分型和計(jì)算似然比等。
在前期研究中,SMART主要面向由G lobalFiler擴(kuò)增試劑盒和ABI-3500XL遺傳分析儀產(chǎn)生的混合STR圖譜。對(duì)于不同的商業(yè)化試劑盒和遺傳分析儀,它們分型結(jié)果的準(zhǔn)確性都已接受了嚴(yán)格的測(cè)試,試劑盒和遺傳分析儀間的差異主要表現(xiàn)為部分關(guān)鍵平臺(tái)參數(shù)的不同,包括峰高飽和值、影子峰比例、插入率和峰高波動(dòng)的方差等參數(shù)。SMART可以使用一定量的不同試劑盒和遺傳分析儀的實(shí)驗(yàn)室數(shù)據(jù)進(jìn)行訓(xùn)練而得到這些關(guān)鍵參數(shù),從而可支持包括國(guó)產(chǎn)Typer系列試劑盒和國(guó)產(chǎn)GA118-16A型遺傳分析儀等在內(nèi)的多款產(chǎn)品。
目前SMART系統(tǒng)能夠?qū)崿F(xiàn)2~5人組成的混合STR圖譜的分析。SMART在分析混合STR圖譜之前,默認(rèn)要求人工輸入混合人數(shù),并同時(shí)提供獨(dú)立的功能部件,經(jīng)運(yùn)行最大等位基因數(shù)量估計(jì)和極大似然估計(jì)[13]兩種算法而估計(jì)出混合人數(shù)。表2給出了在模擬數(shù)據(jù)下兩種估計(jì)算法的準(zhǔn)確率,每個(gè)混合人數(shù)下均有1 000份混合樣本[13]。
表2 最大等位基因數(shù)量估計(jì)和極大似然估計(jì)的準(zhǔn)確率Table 2 The accuracy of estimated maximal allelic number and maximal likelihood
不管是人工輸入還是算法估計(jì),都有可能輸入錯(cuò)誤的混合人數(shù),即輸入的混合人數(shù)小于或者大于真實(shí)的混合人數(shù)。如果輸入的混合人數(shù)小于真實(shí)的混合人數(shù),一般是由于一個(gè)含量較少的混合DNA貢獻(xiàn)者與含量高的混合DNA貢獻(xiàn)者共享了較多的等位基因,即遮蓋效應(yīng)嚴(yán)重,此時(shí)輸出結(jié)果對(duì)含量高的貢獻(xiàn)者不會(huì)產(chǎn)生太大的影響,但含量小的貢獻(xiàn)者的信息會(huì)出現(xiàn)偏差甚至完全被遮蓋;如果輸入的混合人數(shù)大于真實(shí)的混合人數(shù),一般受到影子峰、插入峰的影響,使得某個(gè)或某幾個(gè)基因座上等位基因數(shù)量偏高,此時(shí)輸出結(jié)果對(duì)含量高的貢獻(xiàn)者不會(huì)產(chǎn)生太大的影響,但對(duì)含量較少的貢獻(xiàn)者的拆分會(huì)有影響,此時(shí)為了解釋這些多余的峰會(huì)額外輸出一個(gè)不存在的貢獻(xiàn)者基因型。
SMART的分析報(bào)告中會(huì)輸出混合比例的推斷結(jié)果,可作為法醫(yī)工作者人工分析混合STR圖譜的參考。表3展示了一例人工配比的三個(gè)貢獻(xiàn)者DNA含量為3∶2∶1的樣本,DNA模板量對(duì)應(yīng)數(shù)值的意義是在理想情況下三個(gè)貢獻(xiàn)者在峰圖中產(chǎn)生的峰高,比例約等于3.4∶2.2∶1,基本等于三個(gè)貢獻(xiàn)者在原始樣本中DNA含量的比例。但需指出的是,由于擴(kuò)增的隨機(jī)性,在有些樣本中推斷出的混合比例與真實(shí)的DNA含量比例會(huì)有些許差別。
表3 混合比例Table 3 Mixed ratio
如果混合DNA樣本中一個(gè)貢獻(xiàn)者占比小于10%,混合STR圖譜上就有可能丟失該貢獻(xiàn)者的全部或部分基因型,SMART的分析報(bào)告也只能給出該貢獻(xiàn)者的部分有效信息。這是由一代試劑盒擴(kuò)增技術(shù)的局限性決定的[14],與SMART的分析性能無關(guān)。
實(shí)際案件中,由于DNA降解或其他因素的影響,會(huì)使得STR圖譜的質(zhì)量較差甚至難以分析,此時(shí)混合STR圖譜的分析擬合效果差,得到的結(jié)果可信度低。若提供使用者一個(gè)客觀的圖譜質(zhì)量指標(biāo),將有助于使用者對(duì)結(jié)果可信度作評(píng)判。
SMART使用c2作為衡量圖譜質(zhì)量的指標(biāo),c2是模型生成的最佳期望峰高和實(shí)際觀測(cè)峰高擬合的方差大小,服從伽馬分布。c2越小說明模型生成的最佳期望峰高與觀測(cè)峰高擬合的效果越好,而當(dāng)c2大于伽馬分布右側(cè)70%的分位數(shù),說明此時(shí)最佳期望峰高與觀測(cè)峰高的差距很大,圖譜的質(zhì)量很差,該次分析的結(jié)果無效。圖4展示了c2的一次估計(jì),估計(jì)值約為1.3,說明圖譜質(zhì)量良好,模型對(duì)數(shù)據(jù)的擬合效果好。
本功能是SMART的核心功能之一,是目前實(shí)際案件中混合STR圖譜分析最重要的功能。SMART分兩部分輸出各個(gè)貢獻(xiàn)者的基因分型。
第一,SMART給出各個(gè)貢獻(xiàn)者在各個(gè)基因座可能的基因分型。如表4所示,貢獻(xiàn)者1在D16S539分型為(11,11)的后驗(yàn)概率為47.5%,分型為(12,12)的后驗(yàn)概率為39.5%,以此類推。
表4 貢獻(xiàn)者1在D16S539基因座的基因分型Table 4 Possible genotypes at locus D16S539 of contributor 1
第二,SMART給出了各個(gè)貢獻(xiàn)者的最優(yōu)拆分(超過預(yù)設(shè)的概率閾值)基因座集合以及對(duì)應(yīng)的基因型。在設(shè)置后驗(yàn)概率的閾值時(shí),如果閾值設(shè)置太大(如99.9%),那么獲得的基因座分型的可靠性就高,但是達(dá)到閾值的基因組數(shù)目會(huì)減少,如果設(shè)置的閾值過低(如50%),那么獲得的基因座數(shù)目會(huì)變多,但是達(dá)到閾值的基因分型的可靠性就變低。SMART最終匯總了各個(gè)貢獻(xiàn)者后驗(yàn)概率大于90%的基因座(如表5所示)和各個(gè)貢獻(xiàn)者后驗(yàn)概率大于99%的基因座(本文未給出)供人工參考。其中有的基因座如D2S441和D10S1248,只推斷出一個(gè)后驗(yàn)概率大于90%的等位基因,但是不能確定另外一個(gè)等位基因(使用標(biāo)記F表示,代表當(dāng)前基因座所有的等位基因)。將以上結(jié)果輸出為Codis文件即可在全國(guó)DNA數(shù)據(jù)庫中進(jìn)行搜索,在沒有嫌疑對(duì)象的情況下可為案件偵查提供線索。
表5 貢獻(xiàn)者1(51.3%)各個(gè)基因座的最優(yōu)拆分(后驗(yàn)概率≥90%)Table 5 The optimal resolution obtained from splitting each locus of contributor 1 (posterior≥90%)
需要指出的是,由于表格中基因座的基因分型是在概率意義下給出的,故仍然存在小概率出錯(cuò)的可能,因此,將拆分出來的指定個(gè)體的基因型入庫比對(duì)時(shí),需設(shè)置等位基因容差,防止因個(gè)別基因座的分型錯(cuò)誤導(dǎo)致誤排除。
本功能是SMART另外一個(gè)核心功能。目前國(guó)內(nèi)大多數(shù)的報(bào)道都著重關(guān)注 混合STR圖譜拆分的功能,很少關(guān)注混合STR圖譜分析結(jié)果的似然比計(jì)算以及其作為法庭物證的功能。國(guó)際法醫(yī)遺傳學(xué)會(huì)DNA委員會(huì)[15]推薦使用似然比作為指標(biāo)判斷混合DNA樣本是否包含嫌疑個(gè)體。似然比是在原告假設(shè)和被告假設(shè)下得到STR圖譜概率的比值,假設(shè)混合人數(shù)是N人(2≤N≤5),相關(guān)似然比的示意公式如(1)所示。
式中:H1為假設(shè)混合樣本中包含嫌疑人和N-1名隨機(jī)個(gè)體,H2為假設(shè)混合樣本中包含了N名隨機(jī)個(gè)體,O為混合STR圖譜。
SMART可以直接使用圖譜數(shù)據(jù)計(jì)算似然比,也可以使用拆分階段輸出的基因型集合的后驗(yàn)概率計(jì)算似然比。如果似然比顯著大于1,則支持混合DNA樣本包含嫌疑人,如果似然比顯著小于1,則不支持混合DNA樣本包含嫌疑人,如果似然比接近于1,則無法判斷。
以一個(gè)實(shí)際案例數(shù)據(jù)來比較SMART和STRmix的拆分效果。本案例得到的混合STR圖譜經(jīng)人工研判,結(jié)論為混合STR圖譜,主要是三個(gè)人(兇手和兩名受害人)的混合,但存在混入第四個(gè)人(無關(guān)個(gè)體)微量DNA的可能。
本案例為一起故意傷人案,受害人為一對(duì)夫妻,王某(丈夫)和李某(妻子),嫌疑人為男子劉某,作案兇器為一把單刃匕首,混合DNA樣本從匕首柄上檢出。
M48磁珠法提取DNA,使用GlobalFiler試劑盒以ProFlexTM型PCR擴(kuò)增儀進(jìn)行三次平行擴(kuò)增,擴(kuò)增產(chǎn)物用ABI-3500XL遺傳分析儀進(jìn)行檢測(cè)。經(jīng)Gene-Mapper ID-X軟件進(jìn)行基因分型,從圖5展示的一次平行擴(kuò)增的混合STR圖譜中可以看出,多個(gè)基因座的峰數(shù)量超過5個(gè),分析難度很大,難以進(jìn)行人工拆分。
兩款軟件的分析閾值設(shè)置為50相對(duì)熒光單位,輸入三次平行擴(kuò)增得到的混合STR圖譜數(shù)據(jù)文件,受害人王某的基因分型作為已知貢獻(xiàn)者基因型,MCMC采樣次數(shù)均為燃燒期(burn-in)10萬次和接受5萬次。
STRmix沒有推斷混合人數(shù)的功能,必須人工輸入。但設(shè)置混合人數(shù)等于3人時(shí),STRmix的計(jì)算效果不理想,根據(jù)經(jīng)驗(yàn),使用混合人數(shù)等于4人進(jìn)行分析。SMART擁有推斷混合人數(shù)的功能。在本案例中,人工分析難以確定混合人數(shù),在運(yùn)行SMART時(shí),選擇不輸入混合人數(shù)。SMART依據(jù)輸入的混合STR圖譜數(shù)據(jù)推斷混合人數(shù)為4人。
SMART的輸出報(bào)告中,包含觀測(cè)峰高和期望峰高擬合圖。如圖6所示,給出了D3S1358基因座的擬合圖,包含了三次平行擴(kuò)增,紅色峰是觀測(cè)峰高,藍(lán)色峰是期望峰高。擬合圖中縱坐標(biāo)代表相對(duì)熒光單位的數(shù)值,橫坐標(biāo)如1-15,代表第一次平行擴(kuò)增的等位基因15。從擬合圖譜中,可以直觀地得到多種信息,如期望峰高和觀測(cè)峰高的擬合程度等,有利于對(duì)軟件的輸出報(bào)告進(jìn)行人工解讀。STRmix不支持該功能。
1)混合比例。表6顯示嫌疑人男子劉某對(duì)應(yīng)為第一貢獻(xiàn)者,受害人李某(妻子)對(duì)應(yīng)為第二貢獻(xiàn)者,受害人王某(丈夫,其基因分型作為混合DNA樣本的已知貢獻(xiàn)者輸入到兩款軟件中)對(duì)應(yīng)為第三貢獻(xiàn)者,混入的微量無關(guān)DNA為第四貢獻(xiàn)者。兩款軟件的拆分比例基本一致,在第一和第三貢獻(xiàn)者上有差別。
表6 混合比例Table 6 Mixed ratio
2)拆分圖譜。表7展示了兩款軟件對(duì)于第一貢獻(xiàn)者(嫌疑人劉某)的拆分結(jié)果,以基因分型的后驗(yàn)概率大于90%為標(biāo)準(zhǔn)。在21個(gè)常染色體STR基因座中,SMART推斷出17個(gè)基因座完整的基因分型,3個(gè)基因座一半的基因分型,而同等條件下STRmix推斷出14個(gè)基因座完整的基因分型,3個(gè)基因座一半的基因分型。經(jīng)和嫌疑人劉某真實(shí)基因分型比對(duì),SMART推斷的20個(gè)基因座中有19個(gè)是正確的,而D2S1338基因座基因型(標(biāo)紅)拆分錯(cuò)誤。STRmix推斷的17個(gè)基因座中有13個(gè)是正確的,而D8S1179、D10S1248、D12S391、D2S1338基因座基因型(標(biāo)紅)拆分錯(cuò)誤。
表7 軟件推斷的第一貢獻(xiàn)者(嫌疑人劉某)的分型(后驗(yàn)概率≥90%)Table 7 Genotyping of fi rst contributor (suspect Liu) inferred by software (posterior≥90%)
為了減少軟件的拆分錯(cuò)誤,將兩款軟件后驗(yàn)概率的閾值提高到99%,結(jié)果如表8所示。
表8 軟件推斷的第一貢獻(xiàn)者(嫌疑人劉某)的基因分型(后驗(yàn)概率≥99%)Table 8 Genotyping of fi rst contributor (suspect Liu) inferred by software (posterior≥99%)
將基因分型的后驗(yàn)概率閾值提高到99%后,21個(gè)常染色體STR基因座中,SMART推斷出14個(gè)基因座完整的基因分型,6個(gè)基因座一半的基因分型,而同等條件下STRmix推斷出9個(gè)基因座完整的基因分型,8個(gè)基因座一半的基因分型。經(jīng)和嫌疑人劉某的分型比對(duì),SMART推斷的20個(gè)基因座中有19個(gè)是正確的,而D2S1338基因座基因型(標(biāo)紅)拆分錯(cuò)誤,STRmix推斷的17個(gè)基因座中有16個(gè)是正確的,D2S1338基因座基因型(標(biāo)紅)也拆分錯(cuò)誤。
SMART和STRmix同屬于概率分型軟件,基于相同的模型。它們的模型和計(jì)算原理已在1.1與1.2節(jié)中作簡(jiǎn)單介紹,就是通過選取不同基因型集合和不同的樣本參數(shù)生成期望峰高對(duì)混合STR圖譜的觀測(cè)峰高進(jìn)行擬合,最終挑選出擬合效果最好的基因型集合和樣本參數(shù)。但是實(shí)際情況中,混合STR圖譜中的峰高可能會(huì)產(chǎn)生較大波動(dòng),例如出現(xiàn)雜合不平衡,這種情況雖然很少,但發(fā)生后就可能會(huì)出現(xiàn)錯(cuò)誤的基因分型比正確的基因分型擬合效果更好的情況,軟件就會(huì)推斷出錯(cuò)誤的基因分型,這也是目前概率分型軟件的局限所在。
SMART作為一款自主研發(fā)的混合STR圖譜分析軟件,能夠?qū)旌蟂TR圖譜進(jìn)行自動(dòng)化分析,輸出混合人數(shù)、混合比例、混合圖譜質(zhì)量,推斷混合DNA樣本各個(gè)貢獻(xiàn)者的基因分型,計(jì)算似然比。與人工分析混合STR圖譜相比,軟件分析具有客觀性強(qiáng)、速度快、拆分效果好等優(yōu)勢(shì),能夠大大提高混合DNA樣本物證的利用率。通過對(duì)實(shí)際案例中混合STR圖譜的分析,與國(guó)外同類型的STRmix軟件相比,SMART對(duì)混合STR圖譜中各貢獻(xiàn)者分型的拆分功能已達(dá)同等水平甚至有所超越,更符合法醫(yī)行業(yè)對(duì)混合STR圖譜拆分的需求。
該系統(tǒng)目前已完成研發(fā)與封裝測(cè)試。系統(tǒng)的可靠性一方面需要大批量實(shí)驗(yàn)室樣本的驗(yàn)證與訓(xùn)練,另一方面就是大量實(shí)戰(zhàn)數(shù)據(jù)的驗(yàn)證。預(yù)期該軟件的推廣使用將助力公安和法醫(yī)學(xué)行業(yè),在此基礎(chǔ)上,有望形成混合STR圖譜分析系統(tǒng)的業(yè)界標(biāo)準(zhǔn)。
SMART基于PCR-CE平臺(tái)產(chǎn)生的STR圖譜而開發(fā),使用的主要是圖譜中峰的高度信息,因而易受峰高度波動(dòng)的影響。目前二代測(cè)序技術(shù)在法醫(yī)遺傳學(xué)領(lǐng)域開始嶄露頭角[16-17],二代測(cè)序技術(shù)能夠檢測(cè)更多的法醫(yī)學(xué)位點(diǎn),包括STR、單核苷酸多態(tài)性(single nucleotide polymorphism, SNP)、微單倍型(microhaplotype)、插入缺失多態(tài)性(deletion/insertion polymor-phisms, DIP)等,能夠檢測(cè)更為精細(xì)化的信息,如不僅能夠檢測(cè)STR的長(zhǎng)度多態(tài)性而且能夠檢測(cè)STR的序列多態(tài)性。二代測(cè)序技術(shù)為解決混合DNA樣本的分析問題提供了更加豐富的信息,不過目前二代測(cè)序技術(shù)下混合DNA樣本的分析尚未有系統(tǒng)性的研究。隨著二代測(cè)序技術(shù)在行業(yè)內(nèi)的推廣使用,SMART會(huì)兼容混合DNA樣本的二代測(cè)序數(shù)據(jù),更進(jìn)一步地解決混合DNA樣本的分析問題。