吳澤,陳天發(fā),曾志凡,張義為,湯真,蘇開元,范辰韻,李士林
(1.復(fù)旦大學(xué)生命科學(xué)學(xué)院,上海 200438;2.蘇州市吳江區(qū)公安局,江蘇 蘇州 215200)
Y染色體遺傳標(biāo)記由于其父系遺傳的特點,在法醫(yī)學(xué)個體識別、混合樣本鑒定、家系溯源等方面應(yīng)用廣泛[1],其中又以Y染色體短串聯(lián)重復(fù)(Y chromosome short tandem repeat,Y-STR)序列和Y染色體單核苷酸多態(tài)性(Y chromosome single nucleotide polymorphism,Y-SNP)應(yīng)用最為廣泛。Y-SNP與Y-STR相比具有極低的突變率(約為3.0×10-8)[2],并且基本不會出現(xiàn)回復(fù)突變。精確的Y-SNP單倍群可以對應(yīng)到一個或幾個Y-STR單倍型,即對應(yīng)到一個或數(shù)個家系,相對于分布著大量Y-STR單倍型、只能依靠基因座遺傳頻率排序歸類進(jìn)行大海撈針式的粗糙數(shù)據(jù)處理的人群來說,自有排序體系的Y-SNP單倍群分類系統(tǒng)更為直觀簡便,對于數(shù)據(jù)庫體系的構(gòu)建也有著更為重要的價值。
目前基于Y-STR單倍型建立的數(shù)據(jù)庫系統(tǒng)中,由于篩選了部分高突變STR遺傳標(biāo)記,來自不同祖先的漢族男性個體Y-STR單倍型可能與其他漢族男性個體Y-STR單倍型一致,或者存在1~3個STR位點基因型不同,那么,僅利用Y-STR單倍型數(shù)據(jù)進(jìn)行家系排查及確定案件偵查方向時,就會存在很多的假陽性結(jié)果。對基于Y-STR單倍型的數(shù)據(jù)庫,通過加入家系特異性SNP遺傳標(biāo)記,可以更科學(xué)準(zhǔn)確地定位現(xiàn)場嫌疑人的相關(guān)男性家系,從而使Y染色體數(shù)據(jù)庫成為功能更強(qiáng)大的偵破工具。
考慮到上述Y-STR和Y-SNP遺傳標(biāo)記各自的特點以及Y-SNP單倍群的家系特異性和區(qū)域特異性,在構(gòu)建特定地區(qū)的Y染色體數(shù)據(jù)庫時,需要聯(lián)合考慮區(qū)域人群的Y-STR和Y-SNP,并分析家系特異性的核心單倍群和區(qū)域特異性的遺傳結(jié)構(gòu)。本研究對蘇州吳江地區(qū)(橫扇鎮(zhèn)、平望鎮(zhèn)和七都鎮(zhèn))472名漢族男性個體進(jìn)行Y-STR分型、Y-SNP推斷和實驗驗證,并聯(lián)系Y-STR單倍型和Y-SNP核心家系單倍群,進(jìn)一步分析其鄉(xiāng)鎮(zhèn)人群的遺傳結(jié)構(gòu),為實現(xiàn)精確的家系溯源提供理論支持,為該地區(qū)Y染色體數(shù)據(jù)庫的建設(shè)奠定理論基礎(chǔ)。
隨機(jī)采集472名蘇州市吳江地區(qū)(橫扇鎮(zhèn)、平望鎮(zhèn)和七都鎮(zhèn))漢族男性個體的末梢血樣本,保存于FTA采血卡(英國Whatman公司)。樣本采集遵照知情同意原則。
YfilerTMPlus PCR擴(kuò)增試劑盒、甲酰胺(Hi-DiTM)、分子量內(nèi)標(biāo)GeneScanTM500 LIZTM均購自美國Thermo Fisher Scientific公司,分子量內(nèi)標(biāo)QD550購自閱微基因技術(shù)有限公司,9700型PCR儀、3500xL基因分析儀均購自美國AB公司。
按照YfilerTMPlus PCR擴(kuò)增試劑盒說明書,對472份血卡采用直接擴(kuò)增法在9700型PCR儀上進(jìn)行擴(kuò)增。反應(yīng)體系為 10 μL,包含引物 4 μL、PCR Mix 2μL、ddH2O 4μL。血卡打孔直徑1.2mm。PCR程序:95℃變性1 min;94℃ 4 s,61.5℃ 1 min,60℃22min,共30個循環(huán);60℃延伸22min;4℃保存。
按照甲酰胺(Hi-DiTM)1 000 μL+GeneScanTM500 LIZTM標(biāo)準(zhǔn)品20μL配制混合液,分裝時每孔加入8μL混合液和1μL PCR產(chǎn)物,在3500xL基因分析儀上進(jìn)行毛細(xì)管電泳檢測。使用GeneMapper ID-X v1.2軟件進(jìn)行基因分型。
用直接計算法計算各基因座的等位基因頻率和單倍型頻率,基因多樣性(gene diversity,GD)和單倍型多樣性(haplotype diversity,HD)的計算公式如下:
其中n為樣本數(shù),pi為等位基因頻率或單倍型頻率。
用本實驗室開發(fā)的Y-Predictor軟件(待發(fā)表),根據(jù)27個Y-STR數(shù)據(jù)推測各樣本的Y-SNP單倍群。Y-Predictor的數(shù)據(jù)庫是由本實驗室在千人基因組計劃Ⅲ期中篩選分析東亞地區(qū)Y-SNP和對應(yīng)的YSTR得到的數(shù)據(jù),根據(jù)Y-SNP單倍群構(gòu)建系統(tǒng)發(fā)生樹,一個樣本的Y-STR單倍型可以通過其所屬的YSNP單倍群追溯到系統(tǒng)發(fā)生樹具體的支上。通過計算待測樣本的Y-STR單倍型與數(shù)據(jù)庫中已有的YSTR單倍型之間的遺傳距離,就能夠判斷其在系統(tǒng)發(fā)生樹上的位置[3]。兩個Y-STR單倍型遺傳距離(d)的計算公式[4]如下:
其中n為參與計算的Y-STR基因座數(shù)目,ai為待測樣本A第i個Y-STR基因座的等位基因的數(shù)值,bi為已知樣本B第i個Y-STR基因座的等位基因的數(shù)值,mi為第i個Y-STR基因座的突變速率。根據(jù)待測樣本與數(shù)據(jù)庫中每一個已知樣本之間的遺傳距離,通過加權(quán)算法可以推測出與該樣本最接近的3個Y-SNP單倍群。
對于推測的結(jié)果:若同一樣本的3個結(jié)果來自相同的Y-SNP大支,且權(quán)重合計大于80%,則認(rèn)為推測結(jié)果準(zhǔn)確;若推測結(jié)果距離較遠(yuǎn)或權(quán)重過低,則認(rèn)為推測結(jié)果不準(zhǔn)確。
為了驗證Y-Predictor軟件推測的Y-SNP單倍群是否準(zhǔn)確,通過擴(kuò)增阻滯突變系統(tǒng)聚合酶鏈反應(yīng)(amplification refractory mutation system-polymerase chain reaction,ARMS-PCR)對吳江地區(qū)427名漢族男性樣本的E-M96、D-JST021355、N-M231、C-M130、OP186、O1-M119、O2-M122、O1b-M268、O1b2-M176、O2a1-KL1、O2a2b1a1-M117(Page23)、O2a2a1a2-M7、O2a2b-P164、N1a1-M46、D1a1a1-N1、O2a2-P201、D1a2a-P47、C2-M217、I-M170、IJ-M429、K-M9、QRM45、G-M201M201、IJKLT-M522共24個SNP位點進(jìn)行檢驗。反應(yīng)體系為 25 μL,包含引物 5 μL、Master Mix 10μL、ddH2O 10μL。PCR條件:95℃變性5min;94℃ 20s,59℃ 90s,共30個循環(huán);60℃延伸60min;4℃保存。按照甲酰胺(Hi-DiTM)1000μL+分子量內(nèi)標(biāo)QD550 30 μL配制混合液,分裝時每孔加入8 μL混合液和1μL PCR產(chǎn)物,在3500xL基因分析儀上進(jìn)行毛細(xì)管電泳檢測。使用GeneMapper ID-X v1.2軟件進(jìn)行基因分型。
蘇州市吳江地區(qū)472名漢族男性人群27個Y-STR基因座的等位基因頻率分布見表1。472名漢族男性樣本中,共檢出453種單倍型,其中435種單倍型出現(xiàn)1次、17種出現(xiàn)2次、1種出現(xiàn)3次,人群的HD值為0.997 696 93。除DYS385a/b和DYF387S1a/b以外的23個Y-STR基因座共檢出等位基因182種,各基因座檢出4~16個等位基因,頻率分布在0.002 1~0.809 3。DYS385a/b基因座共檢出42種單倍型,頻率分布在0.0021~0.1695。DYF387S1a/b基因座共檢出36種單倍型,頻率分布在0.0021~0.0890。
表1 蘇州市吳江地區(qū)漢族男性人群27個Y-STR基因座的等位基因頻率 (n=472)
續(xù)表1
27個Y-STR位點的GD值見表2,范圍在0.3218~0.9531。其中DYF387S1a/b的GD值最高(0.9531),其次是 DYS385a/b(0.9478)、DYS449(0.8584)和 DYS627(0.844 7)。DYS438的GD值最低(0.321 8),其次是DYS391(0.4075)、DYS437(0.4536)和 DYS533(0.4704),除此4個基因座外,其余基因座的GD值均大于0.5。
表2 蘇州市吳江地區(qū)漢族男性人群27個Y-STR基因座的GD值 (n=472)
采用Y-Predictor軟件根據(jù)吳江地區(qū)472名漢族男性個體27個Y-STR數(shù)據(jù)推測其各自的Y-SNP單倍群,得到來自C、D、N、O和Q等單倍群下游的132種不同的單倍群,其中推測結(jié)果準(zhǔn)確的有352個,分布如表3所示。
表3 吳江地區(qū)3個鎮(zhèn)區(qū)人群的Y-SNP核心單倍群(個)
從表3可以看出:在推測結(jié)果準(zhǔn)確的352個個體中,214名個體來自O(shè)1和O2單倍群分支,超過總?cè)藬?shù)的60%,統(tǒng)計加入Oα、Oβ和Oγ單倍群時達(dá)291人(82.67%);O單倍群的比例在79.74%(平望鎮(zhèn))至86.75%(橫扇鎮(zhèn)),在橫扇鎮(zhèn)和七都鎮(zhèn)占比超過80%,其中除O2在橫扇鎮(zhèn)(31.33%)占最高比例以外,其余兩鎮(zhèn)中均為O1占比最高,分別為35.29%(平望鎮(zhèn))和43.97%(七都鎮(zhèn))。此外,Oα、Oβ和Oγ單倍群在各鎮(zhèn)區(qū)中也占18.97%(七都鎮(zhèn))至28.92%(橫扇鎮(zhèn)),而C單倍群的比例在3.61%(橫扇鎮(zhèn))至15.03%(平望鎮(zhèn)),N單倍群的比例在4.58%(平望鎮(zhèn))至7.76%(七都鎮(zhèn)),而D和Q單倍群占比在0.00%~3.61%。
為了驗證軟件推測的Y-SNP結(jié)果的準(zhǔn)確性,對認(rèn)定為推測準(zhǔn)確的352個樣本和推測不準(zhǔn)確的120個樣本分別進(jìn)行了ARMS-PCR實驗驗證。352個認(rèn)定為推測準(zhǔn)確的樣本,其實驗結(jié)果的單倍群大支與推測結(jié)果完全一致,表明按照本篩選標(biāo)準(zhǔn)得到的軟件推測結(jié)果較為可靠;認(rèn)定為推測不準(zhǔn)確的120個樣本中,41個樣本的分型結(jié)果屬于O2a1,20個樣本屬于O1b,1個樣本屬于D1a1,有58個樣本在IJK單倍群下游不能細(xì)分,需要進(jìn)一步檢測更多SNP位點。圖1展示了兩個認(rèn)定為推測不準(zhǔn)確樣本的分型結(jié)果,其中:圖1A樣本的推測結(jié)果為C2b1但權(quán)重不足10%,其分型結(jié)果為O2a1;圖1B樣本的推測結(jié)果為D1a1或C2b1,分型結(jié)果驗證其為D1a1。
圖1 兩個認(rèn)定為推測不準(zhǔn)確樣本的ARMS-PCR檢測結(jié)果
在3個鎮(zhèn)區(qū)人群中,O1a1a1a1a*-F794是其共有的核心單倍群,聚類了67個不同家系的Y-STR單倍型(橫扇鎮(zhèn)10個、平望鎮(zhèn)28個、七都鎮(zhèn)29個),與其鄰近的O1a1a1a1*-SK1567也有來自平望鎮(zhèn)(12個)和七都鎮(zhèn)(9個)的21個家系。此外,平望鎮(zhèn)另有來自O(shè)1a1a1a1a*-F4149、O1a1a1a1a1-F707等9個O1下游單倍群的14個家系,七都鎮(zhèn)另有來自O(shè)1a1a1a1*-SK1527、O1b1a2a1-F977等8個O1下游單倍群的13個家系,構(gòu)成各自區(qū)域的核心單倍群和核心家系;橫扇鎮(zhèn)則有來自O(shè)2a2a1a2a1c1-F863、O2a1c1b1a12*-F806、O2a2a2a*-F2216等17個O2下游單倍群的26個家系,構(gòu)成其核心單倍群和核心家系。
根據(jù)橫扇鎮(zhèn)O2單倍群樣本繪制網(wǎng)絡(luò)圖(圖2),可以看到相同單倍群的家系聚集成簇,而簇又大致形成距離較遠(yuǎn)的兩個大簇,聚集成大簇的家系基本屬于相近的單倍群。
圖2 橫扇鎮(zhèn)O2單倍群27個Y-STR的網(wǎng)絡(luò)圖
吳江古時為蘇州府吳江縣,以吳江(現(xiàn)吳淞江)為名,始建于后梁開平三年(公元909年),吳江地處南北漕運走廊,大運河穿過松陵鎮(zhèn),水系發(fā)達(dá)的平望則是連接周邊的交通樞紐,發(fā)達(dá)的絲綢產(chǎn)業(yè)吸引大量外來人口至此從事繅絲、紡經(jīng)和往來貿(mào)易,使得這些商業(yè)發(fā)達(dá)的鎮(zhèn)區(qū)有了頻繁的人群流動[5]。而比鄰太湖的橫扇、七都等鎮(zhèn)由于其充沛的水源和肥沃的土地,主要以發(fā)展?jié)O業(yè)和農(nóng)業(yè)為主,人群一般世代在本地聚居,形成了相對固定的本地主要家系[6]。對于這樣群體結(jié)構(gòu)相對復(fù)雜的地區(qū),家系遺傳結(jié)構(gòu)的具體分析在數(shù)據(jù)庫建設(shè)中顯得尤為重要。
Y-SNP突變具有迭代累加的特性,比如當(dāng)某個父親Y染色體上某個SNP位點發(fā)生了A突變,那么他的所有男性后代的Y染色體上都會出現(xiàn)A這種突變。如果這群人中的某個人的另一個SNP位點出現(xiàn)了B突變,那么這個人的男性后代就會同時出現(xiàn)A和B兩種突變,故根據(jù)Y-SNP位點突變基因型可以定位男性家系的特異性遺傳標(biāo)記[7]。
除了家系特異性以外,由于人類走出非洲后形成了不同的遷徙路線[8],Y-SNP單倍群在地域上也有著鮮明的特異性分布。在東亞地區(qū)最為常見的單倍群C、D、N、O中,C主要出現(xiàn)在北亞、東亞、大洋洲和美洲人群[9-10],D則只出現(xiàn)在亞洲,尤其是中國西藏和日本[10-12],N 廣泛分布于亞歐大陸[7,13],而東亞地區(qū)人群80%~90%都屬于單倍群O[14-18]。
本研究在蘇州市吳江地區(qū)獲取了472名橫扇鎮(zhèn)、平望鎮(zhèn)及七都鎮(zhèn)本地隨機(jī)男性樣本的完整27個YSTR基因型。為提高Y-STR技術(shù)的群體溯源和家系排查能力,本研究在Y-STR結(jié)果的基礎(chǔ)上,利用YPredictor軟件和ARMS-PCR技術(shù),引入Y-SNP遺傳標(biāo)記對家系進(jìn)行進(jìn)一步細(xì)分,結(jié)果表明,C、D、N、O和Q單倍群在3個鎮(zhèn)區(qū)人群中均有分布但差異明顯,其中以O(shè)單倍群為主(占總體82.67%),與東亞人群的分布[2,7-8]基本相符合,而D和Q單倍群則分布極少。這一方面是由于此類單倍群人群在當(dāng)?shù)乇旧聿欢啵硪环矫鎰t是因為Y-Predictor軟件對吳江地區(qū)人群中推測為此類單倍群的樣本給出了不同的推測結(jié)果或較低的可信程度,因此許多樣本被認(rèn)定為推斷不準(zhǔn)確,在進(jìn)一步的實驗驗證過程中,發(fā)現(xiàn)了1例來自D1a1單倍群的樣本,對于其他無法細(xì)分的樣本則需要檢測更多SNP位點以確認(rèn)其具體單倍群。
根據(jù)Y-STR和Y-SNP的結(jié)果來看,橫扇鎮(zhèn)的人群結(jié)構(gòu)可劃分為兩個主要的單倍群。由于橫扇鎮(zhèn)比鄰太湖,從明清開始就形成了發(fā)達(dá)的捕魚業(yè),且地處太湖沖積平原,氣候和土地條件適宜耕作。據(jù)《乾隆震澤縣志》記載,橫扇人群主要為漁民、農(nóng)民聚居,人員流動較少,因此形成了較為穩(wěn)定的本地家系。而清道光年間,有難民自河南逃難至此,于太湖以南的灘涂圍墾湖田,由于此處天然肥沃的土地和充沛的水源,便成功以務(wù)農(nóng)在此定居[19]。因此,距離較遠(yuǎn)的另一簇樣本則很可能與此次人群遷徙有關(guān)。因此本地世居從事漁農(nóng)的人群和外來逃難、務(wù)農(nóng)定居的人群共同組成了如今的橫扇群體。
綜上所述,本研究利用Y-STR復(fù)合Y-SNP研究,對鄉(xiāng)鎮(zhèn)級別區(qū)域人群的遺傳結(jié)構(gòu)進(jìn)行了分析,得到了區(qū)域核心單倍型和核心家系。本研究方法和數(shù)據(jù)適用于法醫(yī)學(xué)實踐中的親權(quán)鑒定和家系溯源,為公安系統(tǒng)重點人群監(jiān)控和實際案件中精確個體識別提供了科學(xué)依據(jù)和技術(shù)手段,為建設(shè)具有吳江地區(qū)特色的Y染色體數(shù)據(jù)庫提供了理論依據(jù)和數(shù)據(jù)支持。