李?yuàn)欙w,彭付端,王建寧,仲建軍,趙慧,王玲,李永久,劉凡,李彩霞,豐蕾
(1.山西醫(yī)科大學(xué)法醫(yī)學(xué)院,山西 太原 030001;2.公安部物證鑒定中心 現(xiàn)場(chǎng)物證溯源技術(shù)國(guó)家工程實(shí)驗(yàn)室 法醫(yī)遺傳學(xué)公安部重點(diǎn)實(shí)驗(yàn)室,北京 100038;3.中國(guó)科學(xué)院北京基因組研究所,北京 100101;4.臨猗縣公安局,山西 臨猗 044100;5.德州市公安局,山東 德州 253012)
在法醫(yī)學(xué)應(yīng)用中,個(gè)體年齡推斷一直是法醫(yī)學(xué)研究的重點(diǎn)和難點(diǎn)。通過(guò)確定案件嫌疑人的年齡范圍,可以縮小調(diào)查范圍,為案件偵查提供重要的線(xiàn)索和證據(jù)[1-2]。當(dāng)前推斷個(gè)體年齡主要是通過(guò)檢測(cè)骨骼、牙齒等骨性指征,運(yùn)用法醫(yī)人類(lèi)學(xué)模型進(jìn)行年齡推斷[3-4]。在法醫(yī)學(xué)鑒定案件中,法醫(yī)人類(lèi)學(xué)方法由于骨骼檢材的缺失而受限。近年來(lái)的研究表明,生物分子標(biāo)志物可用于年齡推斷。已有研究人員針對(duì)線(xiàn)粒體DNA的損傷[5]、端??s短[6]、T細(xì)胞重排[7]以及蛋白質(zhì)的改變,如天冬氨酸消旋[8]和晚期糖基化終末產(chǎn)物[9]與年齡的相關(guān)性進(jìn)行研究,但是利用這些生物分子標(biāo)志物進(jìn)行年齡推斷的準(zhǔn)確性和實(shí)用性都相對(duì)較低,不適用于法醫(yī)學(xué)檢驗(yàn)[10]。在近期的法醫(yī)學(xué)年齡推斷研究過(guò)程中,發(fā)現(xiàn)血液DNA中的部分甲基化位點(diǎn)包含了豐富的年齡信息生物標(biāo)志物。DNA甲基化是一種重要的表觀遺傳修飾[11-12],與衰老之間存在密切的相關(guān)性[13],DNA甲基化在機(jī)體生長(zhǎng)、發(fā)育和衰老過(guò)程中存在著動(dòng)態(tài)變化過(guò)程?;蛐酒拖乱淮鷾y(cè)序技術(shù)的出現(xiàn),促進(jìn)了全基因組范圍的甲基化檢測(cè),基因組DNA甲基化總體水平隨年齡增加而降低,部分位點(diǎn)的甲基化水平卻隨年齡增加而升高,并且發(fā)現(xiàn)特定位點(diǎn)的DNA甲基化與年齡呈現(xiàn)線(xiàn)性相關(guān)性,可據(jù)此構(gòu)建年齡推斷模型預(yù)測(cè)個(gè)體年齡[14-19]。本研究通過(guò)系統(tǒng)研究甲基化位點(diǎn)與年齡的相關(guān)性,建立基于DNA甲基化的中國(guó)北方漢族男性年齡推斷算法模型。
根據(jù)知情同意原則,采集河南、山東、北京共476份漢族男性(年齡15~75歲,根據(jù)采集人員提供的戶(hù)口出生年月及采集日期確定樣本年齡)無(wú)關(guān)個(gè)體的新鮮外周靜脈血,其中國(guó)家人類(lèi)遺傳資源共享服務(wù)平臺(tái)(YCZYPT[2017]01-3)176份、中國(guó)典型人群法醫(yī)分子畫(huà)像人群隊(duì)列研究(2017JB025)150份、本課題組采集150份。盡量每個(gè)年齡樣本都選取,并盡可能保持每個(gè)年齡段樣本量大致相同,且樣本在河南、山東、北京3個(gè)地區(qū)都有分布,保證模型的適用性。不同年齡段樣本人數(shù)見(jiàn)表1。
表1 各年齡段樣本人數(shù) (N=476)
為驗(yàn)證模型對(duì)血斑的適用性和重復(fù)性,隨機(jī)選取15份山東血液樣本,各取100 μL涂在FTA血樣采集卡上制作成血斑樣本,室溫放置3個(gè)月后提取DNA。外周靜脈血按照QIAampDNA Blood Midi試劑盒(100)(德國(guó)Qiagen公司)說(shuō)明書(shū)提取血液DNA;血斑樣本按照MagAttract M48 DNA Manual試劑盒(200)(1064605,德國(guó)Qiagen公司)說(shuō)明書(shū)提取血斑DNA,使用NanoDrop 2000c分光光度計(jì)(美國(guó)Thermo Scientific公司)對(duì)DNA濃度進(jìn)行定量。
結(jié)合現(xiàn)有文獻(xiàn)和基于前期研究[1,18,20-29]篩選位點(diǎn),從中選擇21個(gè)與年齡高度相關(guān)的位點(diǎn),每個(gè)位點(diǎn)所在的序列都從UCSC genome browser(https://genome.ucsc.edu/)中下載,選擇距離目標(biāo)胞嘧啶-磷酸-鳥(niǎo)嘌呤(cytosine-phosphate-guanine,CpG)位點(diǎn)上下游各約200 bp的長(zhǎng)度,共401 bp長(zhǎng)度DNA片段,并下載DNA片段,使用美國(guó)Agena公司的Agena Bioscience EpiDesigner(http://www.epidesigner.com/)在線(xiàn)軟件進(jìn)行引物設(shè)計(jì),引物解鏈溫度(melting temperature,Tm)約為60℃。
取 1 μg全基因組 DNA,按照 EZ DNA MethylationTM試劑盒(美國(guó)Zymo Research公司)說(shuō)明書(shū)進(jìn)行重亞硫酸鹽處理,轉(zhuǎn)化條件:95℃ 30s,50℃ 15min;20個(gè)循環(huán)。20 μL水洗脫獲得轉(zhuǎn)化后的DNA。同時(shí)設(shè)置兩個(gè)對(duì)照:完全甲基化的DNA和完全未甲基化的DNA(甲基化程度分別為100%和0%)。
PCR擴(kuò)增體系5μL,包括1μL重亞硫酸鹽轉(zhuǎn)化后DNA,1.37μL不含RNA酶的水,0.5μL 10×PCR緩沖液,0.09 μL PCR酶,0.04 μL dNTP混合物,2.0 μL引物混合物包括上下游引物(1μmol/L)。熱循環(huán)參數(shù):95℃ 4min;94℃ 20s,56℃ 30s,72℃ 60s,45個(gè)循環(huán);72℃ 3min。多余的核苷酸將在下步純化反應(yīng)中被除去,純化體系為2μL,包括1.7μL不含RNA酶的水和0.3 μL 1.7 U/μL蝦堿性磷酸酶(shrimp alkaline phosphatase,SAP)。然后,孵化 37℃ 20 min,85℃5 min。純化后,用1.5%的瓊脂糖凝膠跑膠,取3 μL SAP產(chǎn)物,上樣緩沖液2 μL,120 V電壓電泳30 min。下一步進(jìn)行轉(zhuǎn)錄和T裂解,體系為不含RNA酶的水3.15 μL,5×T7 RNA和DNA聚合酶緩沖液0.89 μL,T裂解轉(zhuǎn)錄混合物0.24 μL,二硫蘇糖醇(100 mmol/L)0.22μL,T7 RNA和DNA聚合酶0.44μL,核糖核酸酶A(10 mg/mL) 0.06 μL,純化產(chǎn)物2 μL。37℃孵育3 h。最后每個(gè)樣本中再加入43 μL不含RNA酶的水和6mg清潔樹(shù)脂并且在混勻儀上旋轉(zhuǎn)15min,以離心力10 000×g離心6 min,用MassARRAY系統(tǒng)(美國(guó)Agena Bioscience公司)進(jìn)行檢測(cè)。
對(duì)15份制作血斑的血液樣本進(jìn)行2次重復(fù)性驗(yàn)證時(shí),分別進(jìn)行2次重亞硫酸鹽轉(zhuǎn)化并進(jìn)行后續(xù)的PCR擴(kuò)增及質(zhì)譜檢測(cè),以保證所有步驟都進(jìn)行2次重復(fù)。
分析與計(jì)算使用R軟件(R-3.4.2),對(duì)大批量樣本檢測(cè)結(jié)果通過(guò)K最近鄰方法(K-nearest neighbor,K-NN)補(bǔ)缺(最近的10個(gè)位點(diǎn))。對(duì)數(shù)據(jù)補(bǔ)缺用R軟件中DMwR軟件包中“impute”函數(shù),為了評(píng)估數(shù)據(jù)補(bǔ)缺后,最終數(shù)據(jù)分析結(jié)果是否仍然可信,選擇352份沒(méi)有缺失值的樣本,每次設(shè)置不同比例的缺失值,然后進(jìn)行K-NN方法補(bǔ)缺驗(yàn)證試驗(yàn),再用補(bǔ)缺失后的值與真實(shí)值進(jìn)行相關(guān)性分析,用Pearson相關(guān)系數(shù)評(píng)估補(bǔ)缺的可靠性,模擬的結(jié)果與實(shí)際結(jié)果有很強(qiáng)的關(guān)聯(lián)性,表明經(jīng)過(guò)補(bǔ)缺之后數(shù)據(jù)結(jié)果可信,反復(fù)1000次,求平均值。在實(shí)驗(yàn)中隨機(jī)將缺失閾值設(shè)為10%、20%、30%、40%和50%(表2)5個(gè)階段,K-NN補(bǔ)缺方法推薦的臨界閾值是20%[30],因此在本研究中也以20%定為最大缺失閾值進(jìn)行數(shù)據(jù)補(bǔ)缺,進(jìn)而獲得可靠的DNA甲基化數(shù)據(jù)。用“cor”函數(shù),選擇與年齡相關(guān)的甲基化位點(diǎn),將Pearson相關(guān)系數(shù)設(shè)為|r|>0.5,選出與年齡相關(guān)的80個(gè)甲基化位點(diǎn)。然后用赤池信息量準(zhǔn)則(Akaike information criterion,AIC)結(jié)合多元線(xiàn)性回歸方法,設(shè)置P<0.005,進(jìn)一步篩選出與年齡高度相關(guān)的22個(gè)DNA甲基化位點(diǎn)。運(yùn)用“l(fā)m”函數(shù)及“step”函數(shù)擬合多元線(xiàn)性回歸方程并求出最優(yōu)模型,最后利用“drop”函數(shù)并結(jié)合相關(guān)性有統(tǒng)計(jì)學(xué)意義(P<0.005)的指標(biāo),篩選出與年齡高度相關(guān)的8個(gè)CpG位點(diǎn)[位點(diǎn)信息通過(guò)Genome Browser Gateway獲?。ā癏uman Assembly”選為 GRCh38,https://genome.ucsc.edu/cgi-bin/hgGateway?redirect=manual&source=genome.ucsc.edu)],并得出與年齡相關(guān)的多元線(xiàn)性回歸模型。將篩選出與年齡高度相關(guān)的8個(gè)CpG位點(diǎn)的甲基化值(x)代入到年齡預(yù)測(cè)回歸模型中,得到相應(yīng)的預(yù)測(cè)年齡,并利用“plot”函數(shù)畫(huà)出預(yù)測(cè)年齡與實(shí)際年齡的散點(diǎn)圖。運(yùn)用留一法交叉驗(yàn)證方法評(píng)估模型,352份樣本數(shù)據(jù),每次留下一個(gè)樣本作為驗(yàn)證樣本,其余樣本重新訓(xùn)練模型,這個(gè)步驟一直持續(xù)到每個(gè)樣本都被當(dāng)作一次驗(yàn)證樣本,用留一法評(píng)估模型時(shí)運(yùn)用“boot”軟件包中“c”函數(shù)。將352份樣本按實(shí)際年齡大小排列,每10歲分為一組,求每個(gè)樣本的預(yù)測(cè)年齡,并進(jìn)一步計(jì)算出每個(gè)年齡段人數(shù)的平均絕對(duì)偏差(mean absolute deviation,MAD)值。用109份樣本對(duì)年齡推斷模型進(jìn)行驗(yàn)證,將CpG位點(diǎn)的甲基化值代入到年齡推斷模型中,求出109份樣本的MAD值,驗(yàn)證模型的準(zhǔn)確性。本研究檢測(cè)了15份血液DNA樣本,及相對(duì)應(yīng)室溫存放3個(gè)月的血斑樣本,通過(guò)SPSS 17.0,采用配對(duì)t檢驗(yàn)比較15份血液樣本與血斑樣本在8個(gè)CpG位點(diǎn)甲基化結(jié)果的差異。將CpG位點(diǎn)的甲基化值代入到年齡預(yù)測(cè)模型中求出相應(yīng)的預(yù)測(cè)年齡,年齡預(yù)測(cè)誤差及15份樣本的MAD值。進(jìn)行重復(fù)性驗(yàn)證時(shí),將2次重復(fù)性實(shí)驗(yàn)的8個(gè)CpG位點(diǎn)的甲基化值代入年齡預(yù)測(cè)方程求出2次重復(fù)性實(shí)驗(yàn)的預(yù)測(cè)年齡和MAD值。
表2 K-NN補(bǔ)缺方法的準(zhǔn)確性評(píng)價(jià)
為了篩選出適合推斷中國(guó)北方漢族男性年齡的DNA甲基化位點(diǎn),本研究以EpiTYPER技術(shù)平臺(tái)為基礎(chǔ),結(jié)合文獻(xiàn)[1,18,20-29]中已報(bào)道的及前期工作積累的血液中與年齡相關(guān)的21個(gè)位點(diǎn),檢測(cè)了476份男性血液樣本檢測(cè)了21個(gè)擴(kuò)增片段內(nèi)的153個(gè)CpG位點(diǎn)。其中352份沒(méi)有缺失值的樣本作為訓(xùn)練集構(gòu)建年齡推斷模型,通過(guò)分析年齡與153個(gè)CpG位點(diǎn)DNA甲基化值之間的相關(guān)性,從153個(gè)候選位點(diǎn)中篩選出80個(gè)與中國(guó)北方漢族男性年齡相關(guān)的DNA甲基化位點(diǎn),然后運(yùn)用AIC進(jìn)一步篩選CpG位點(diǎn),結(jié)果篩選出22個(gè)與年齡相關(guān)的CpG位點(diǎn)。以P<0.005為條件最終篩選出8個(gè)與年齡高度相關(guān)的CpG位點(diǎn),位于7個(gè)基因片段上(表3)。
352份樣本作為訓(xùn)練集,基于這8個(gè)CpG位點(diǎn)(x1~x8),建立了年齡(y)推斷模型:
R2=0.93,MAD=2.69歲,其MAD的95%置信區(qū)間為[2.39,2.98],該年齡推斷模型可以用于解釋93%的年齡變化(圖1)。
表3 篩選出8個(gè)年齡高度相關(guān)的甲基化位點(diǎn)
圖1 年齡推斷模型的預(yù)測(cè)年齡與實(shí)際年齡散點(diǎn)圖
留一法交叉驗(yàn)證顯示,MAD為2.76歲(圖2)。6個(gè)年齡組的分析顯示(表4),MAD值從小到大依次為45~<55歲、15~<25歲、35~<45歲、25~<35歲、55~<65歲、65~75歲。本研究建立的基于8個(gè)CpG位點(diǎn)的年齡預(yù)測(cè)模型,在年輕組(15~<25歲)和年長(zhǎng)組(65~75歲)中,±5年的預(yù)測(cè)準(zhǔn)確性分別為87.50%和78.90%,±6年的預(yù)測(cè)準(zhǔn)確性分別為91.76%和86.24%。
運(yùn)用109份樣本作為驗(yàn)證集,對(duì)年齡預(yù)測(cè)模型進(jìn)行驗(yàn)證,其MAD值為3.80歲(圖3)。
圖2 預(yù)測(cè)年齡與實(shí)際年齡的留一法驗(yàn)證散點(diǎn)圖
表4 不同年齡段的平均絕對(duì)偏差(N=352)
圖3 109份樣本驗(yàn)證散點(diǎn)圖
15份血液樣本與相應(yīng)的血斑樣本的8個(gè)CpG位點(diǎn)甲基化值(表5)配對(duì)樣本t檢驗(yàn)結(jié)果顯示,在CpG1和CpG5,血液與血斑樣本之間差異有統(tǒng)計(jì)學(xué)意義(P<0.05),其余6個(gè)CpG位點(diǎn)的血液與血斑樣本之間差異無(wú)統(tǒng)計(jì)學(xué)意義(P>0.05)。使用建立的年齡推斷模型,在血液樣本和血斑樣本中預(yù)測(cè)年齡與實(shí)際年齡之間的MAD值分別為4.08歲和3.99歲。15份血液樣本和血斑樣本的年齡推斷誤差最小為0.20歲和0.93歲,最大誤差為9.84和10.12歲。
為了驗(yàn)證結(jié)果的重復(fù)性,對(duì)上述15份血液DNA樣本,基于模型中的8個(gè)位點(diǎn)和相同的實(shí)驗(yàn)方法,重復(fù)2次試驗(yàn),3次結(jié)果的MAD值分別為4.08、4.68和3.93歲,MAD值波動(dòng)范圍在1歲之內(nèi),基于8個(gè)位點(diǎn)建立的年齡預(yù)測(cè)模型結(jié)果的重復(fù)性相對(duì)較好。
表5 血液樣本與血斑樣本在8個(gè)CpG位點(diǎn)的甲基化值(n=15,±s)
表5 血液樣本與血斑樣本在8個(gè)CpG位點(diǎn)的甲基化值(n=15,±s)
注:1)與血液樣本比較,P<0.05
血斑0.36±0.071)0.55±0.07 0.21±0.04 0.78±0.08 0.23±0.041)0.20±0.05 0.52±0.10 0.49±0.09位點(diǎn)CpG1 CpG2 CpG3 CpG4 CpG5 CpG6 CpG7 CpG8血液0.38±0.06 0.55±0.06 0.20±0.05 0.78±0.09 0.25±0.03 0.21±0.06 0.57±0.10 0.48±0.07
年齡推斷一直在法醫(yī)學(xué)領(lǐng)域備受關(guān)注。眾多研究報(bào)道顯示[1,2,22],DNA 甲基化作為年齡預(yù)測(cè)分子標(biāo)記,在法醫(yī)學(xué)應(yīng)用中具有許多獨(dú)特的優(yōu)勢(shì)。目前,大多研究[19-22]都是以歐美人群為研究對(duì)象。本研究基于EpiTYPER技術(shù)平臺(tái),檢測(cè)了476份漢族男性樣本,運(yùn)用多元線(xiàn)性回歸方法和AIC方法構(gòu)建年齡推斷模型(R2=0.93,MAD=2.69歲)。AIC是建立在熵的概念基礎(chǔ)上,衡量統(tǒng)計(jì)模型擬合優(yōu)良性的一種標(biāo)準(zhǔn),可以作為模型選擇的一種方法,也可以權(quán)衡所估計(jì)模型的復(fù)雜度和此模型擬合數(shù)據(jù)的優(yōu)良性,AIC越小,結(jié)果越好。該模型的8個(gè)CpG位點(diǎn)中,CpG1、CpG3、CpG5、CpG6、CpG8與年齡成正相關(guān),隨著年齡的增長(zhǎng),DNA甲基化程度逐漸增加;CpG2、CpG4、CpG7與年齡呈負(fù)相關(guān),隨著年齡的增長(zhǎng)DNA甲基化呈現(xiàn)去甲基化狀態(tài)。位于6號(hào)染色體的ELOVL2基因被證明與年齡具有高度關(guān)聯(lián)性[18,20-21],TRIM59[20]、PDE4C[21]、Clorf132[20-21]、CSNK1D[19]、RASSF5[19]基因上DNA甲基化水平都被證明與年齡具有關(guān)聯(lián)性,這些位點(diǎn)應(yīng)用于不同的年齡推斷模型中。此外,chr17:21452808[29]位置上DNA甲基化水平也被證明與年齡具有關(guān)聯(lián)性。
本研究建立的基于8個(gè)CpG位點(diǎn)的年齡預(yù)測(cè)模型,隨著年齡段的增加,預(yù)測(cè)準(zhǔn)確性出現(xiàn)相應(yīng)的下降,MAD值大體上逐漸增大,在年輕組(15~<25歲)MAD值為2.42歲,在年長(zhǎng)組(65~75歲)MAD值最大為3.87歲,該實(shí)驗(yàn)結(jié)果與前期已經(jīng)報(bào)道過(guò)的結(jié)果[1,21]一致。
HANNUM等[18]基于甲基化芯片數(shù)據(jù)建立了基于71個(gè)CpG位點(diǎn)的年齡預(yù)測(cè)模型,在訓(xùn)練集和驗(yàn)證集該模型的MAD值分別為3.9歲和4.9歲。WEIDNER等[22]報(bào)道了基于3個(gè)CpG位點(diǎn)的年齡預(yù)測(cè)模型,在訓(xùn)練集和驗(yàn)證集中MAD值分別為5.4歲和3.9歲。ZBIECPIEKARSKA等[20]建立了基于5個(gè)CpG位點(diǎn)的年齡預(yù)測(cè)模型,在訓(xùn)練集中MAD為3.4歲,在男性和女性樣本中其MAD值有稍微的差別,分別為3.7歲和3.0歲。在驗(yàn)證集中MAD為3.9歲,在男性和女性樣本中其MAD值略有差別,分別為4.0歲和3.7歲,±5年的預(yù)測(cè)準(zhǔn)確性為72%。PARK等[1]報(bào)道的基于3個(gè)CpG位點(diǎn)的年齡預(yù)測(cè)模型,在訓(xùn)練集和驗(yàn)證集的MAD值分別為3.16歲和3.35歲,±6年的預(yù)測(cè)準(zhǔn)確度在<60歲分組中為77.30%,在年老組(>60歲)為57.30%。與上述研究建立的模型相比,本研究建立的年齡預(yù)測(cè)模型準(zhǔn)確度較高。
此外,模型利用的樣本是新鮮血液檢測(cè)出的數(shù)據(jù),而實(shí)際檢材中往往難以獲得大量血液樣本,更多的是血斑,因此需要評(píng)估血液與血斑之間是否存在顯著差異,這在實(shí)際應(yīng)用中有重要的意義。本研究檢測(cè)了15份血液樣本DNA和相對(duì)應(yīng)的室溫存放3個(gè)月的血斑DNA,MAD值分別為4.08歲和3.99歲,CpG1和CpG5的甲基化值差異有統(tǒng)計(jì)學(xué)意義,其余6個(gè)CpG位點(diǎn)之間差異無(wú)統(tǒng)計(jì)學(xué)意義。血液樣本與血斑樣本的年齡預(yù)測(cè)誤差范圍在0~10.12歲,預(yù)測(cè)誤差相對(duì)較小。關(guān)于血斑樣本的模型優(yōu)化,需增加血斑樣本檢測(cè)數(shù)量,驗(yàn)證該模型是否適用于血斑樣本。另外,15份血液樣本進(jìn)行了3次重復(fù)實(shí)驗(yàn),3次結(jié)果的MAD值相差不大,證明年齡預(yù)測(cè)模型具有較強(qiáng)的穩(wěn)定性和重復(fù)性。由于建立年齡預(yù)測(cè)模型時(shí)僅使用了我國(guó)3個(gè)地區(qū)的樣本,對(duì)其他地區(qū)樣本適用性需要進(jìn)一步驗(yàn)證。
本研究運(yùn)用多元線(xiàn)性回歸方法建立的基于8個(gè)與年齡高度相關(guān)的DNA甲基化位點(diǎn)的年齡預(yù)測(cè)模型,可以作為法醫(yī)學(xué)應(yīng)用中年齡預(yù)測(cè)的一種可靠又有效的方法。年齡的正確推斷可為案件提供更多更準(zhǔn)確的偵查線(xiàn)索,縮小案件的偵查范圍,有利于案件的快速偵破。
(感謝公安部物證鑒定中心閔建雄研究員為本研究提出非常有價(jià)值的建議。)