宋志芳,于國升,邢荷巖,蘆春蓮,曹洪戰(zhàn)
(河北農(nóng)業(yè)大學(xué)動物科技學(xué)院,河北 保定 071000)
單倍型分析及其在全基因組關(guān)聯(lián)分析中的研究進(jìn)展
宋志芳,于國升,邢荷巖,蘆春蓮,曹洪戰(zhàn)*
(河北農(nóng)業(yè)大學(xué)動物科技學(xué)院,河北 保定 071000)
單倍型中含有豐富的連鎖不平衡信息,單倍型分析在定位疾病和性狀有關(guān)的基因方面具有更好的功效。利用基因分型技術(shù)能得到大量的單核苷酸多態(tài)性標(biāo)記(SNP)數(shù)據(jù),單倍型分析能利用大量的SNP信息來揭示和探究復(fù)雜性狀的遺傳機(jī)制,在全基因組關(guān)聯(lián)分析(GWAS)中也扮演著重要角色。該文就單倍型分析的相關(guān)概念、原理和方法、相關(guān)軟件和在GWAS中的應(yīng)用加以綜述。
單倍型分析;單倍型頻率;連鎖不平衡;SNP位點(diǎn);關(guān)聯(lián)分析
如果要分析某基因中單個位點(diǎn)與動植物復(fù)雜疾病或性狀的關(guān)聯(lián)程度,產(chǎn)生的結(jié)果可能是可靠的[1]。對某區(qū)域內(nèi)多個位點(diǎn)組成的單倍型塊與疾病或性狀進(jìn)行分析,才可能找到與之相關(guān)的遺傳標(biāo)記,進(jìn)而發(fā)掘相關(guān)的候選基因[2]。單倍型分析已經(jīng)成為連鎖不平衡分析和尋找重要基因等的工具??梢酝ㄟ^多種方式和途徑進(jìn)行單倍型的構(gòu)建及其頻率的獲得,比如對染色體進(jìn)行測序、遺傳標(biāo)記結(jié)合家系信息進(jìn)行連鎖分析和通過軟件計(jì)算群體的單倍型頻率等[3]。通過候選基因法和連鎖不平衡法可以確定與研究對象相關(guān)的單核苷酸多態(tài),但前者需要全基因組測序,成本高。在對SNP芯片數(shù)據(jù)與性狀進(jìn)行GWAS分析時,單倍型分析是其中重要的一環(huán),獲得與疾病或性狀顯著相關(guān)的SNPs后,判斷位點(diǎn)間的連鎖程度,并計(jì)算每個單倍型的頻率及其與疾病或性狀相關(guān)性的P值,找到全基因組內(nèi)是否存在單倍型。在關(guān)聯(lián)分析中,應(yīng)該有效利用SNP信息,找到更多與動植物疾病或性狀相關(guān)的可靠SNP位點(diǎn),進(jìn)行疾病治療和動植物育種。
單倍型指在同一染色體上或一定區(qū)域內(nèi)若干個決定同一性狀的且緊密連鎖的SNPs,具有統(tǒng)計(jì)學(xué)關(guān)聯(lián)性,可以是兩個基因座或整條染色體。單倍型確定后,繪制單倍型圖可用于關(guān)聯(lián)分析。SNP密度和樣本量影響單倍型的確定。
單倍型塊指染色體上存在著的連續(xù)的、穩(wěn)定的、幾乎不被重組所打斷的單倍型區(qū)域。一般一個單倍型塊有幾個常見的單倍型。以單倍型塊為基礎(chǔ),進(jìn)行與疾病或性狀與基因的關(guān)聯(lián)分析是目前最經(jīng)濟(jì)的連鎖不平衡(LD)分析方法。
又稱等位基因關(guān)聯(lián),指在某一群體中,不同座位某兩個等位基因同時出現(xiàn)在同一條染色體上的頻率大于因隨機(jī)分布而同時出現(xiàn)的頻率的現(xiàn)象,可稱兩個位點(diǎn)處于連鎖不平衡狀態(tài)。
指確定染色體某區(qū)段要確定單倍型所必須、少量且關(guān)鍵的SNPs,可以確定單倍型或基因,降低基因型檢測的工作量。有時少數(shù)幾個htSNPs就能確定一個單倍型結(jié)構(gòu)。
目前已經(jīng)掌握了人類、豬、牛、羊、雞、水稻等動植物的基因組,存在著數(shù)量龐大的SNP位點(diǎn),這些位點(diǎn)可能是物種多樣性的基礎(chǔ),與復(fù)雜疾病或性狀有關(guān)。但在遺傳過程中,大多數(shù)染色體區(qū)域只有幾種單倍型,SNP位點(diǎn)傾向整體遺傳給后代。在GWAS研究中,得到顯著性位點(diǎn),如果顯著位點(diǎn)的密度低和定位區(qū)間范圍大,給后續(xù)的候選基因搜尋造成困難。如果利用單倍型分析,進(jìn)行單倍型構(gòu)建和關(guān)聯(lián)分析,會進(jìn)一步縮短定位范圍,發(fā)掘到更可靠的候選基因[4],因此,單倍型分析在GWAS分析中是必不可少的。
傳統(tǒng)的單倍型分析方法是利用家系資料,分析親子代不同遺傳標(biāo)記的傳遞模式。如果家系資料缺失,就不能用此方法,且該過程復(fù)雜,不能分析個體或群體樣本。所以有必要開發(fā)過程簡單且適合家系或個體或群體樣本的單倍型分析方法,擴(kuò)大使用范圍,增加準(zhǔn)確度。隨著SNP技術(shù)的發(fā)展,出現(xiàn)了以DNA測序技術(shù)和構(gòu)建數(shù)學(xué)模型分析單倍型的方法。前者通過DNA測序或特定位點(diǎn)的PCR擴(kuò)增,分析DNA片段的SNP位點(diǎn),提高了單倍型分析的準(zhǔn)確性[5],但操作復(fù)雜且成本高;后者是利用數(shù)學(xué)模型構(gòu)建單倍型并構(gòu)建其在群體的單倍型頻率,只能得到理論估計(jì)值,會因模型和估算方法的不同出現(xiàn)不同的結(jié)果[6-8]。
由于SNP標(biāo)記數(shù)量多,單個SNP位點(diǎn)的關(guān)聯(lián)逐漸轉(zhuǎn)為以單倍型為主的關(guān)聯(lián),首先解決的問題是單倍型的獲取。單倍型的推算方法主要有3個:實(shí)驗(yàn)法、系譜推算和統(tǒng)計(jì)算法。通過實(shí)驗(yàn)技術(shù)手段可以獲得多標(biāo)記單倍型,如單分子稀釋技術(shù)、長插入片段克隆和等溫回環(huán)擴(kuò)增等[9-11],但成本較高。通過特定的計(jì)算方法結(jié)合基因型信息和系譜信息也可獲取基因型。在當(dāng)前實(shí)驗(yàn)條件下,很容易得到群體的基因型,且價格低廉,并且即使某些條件與假設(shè)相反,利用統(tǒng)計(jì)算法也能合理解釋推算的單倍型,已成為獲取單倍型的首選方法[12]。系譜推算的統(tǒng)計(jì)算法主要有Clark算法、最大似然算法和貝葉斯算法。
Clark[13](1990)首先提出在無關(guān)個體間利用基因分型數(shù)據(jù)進(jìn)行單倍型的推算,原理是找到樣本中所有純合子與只有單突變位點(diǎn)的雜合子,將這些個體的單倍型作為已分型的單倍體型,如果每個已分型的單倍體型是為那些未確定單倍體型并有變異位點(diǎn)的序列的等位基因,就將這種SNP組合確定為新的單倍型。最大似然法由Excoffier和Slatkin[14](1995)提出,假設(shè)研究群體處于哈迪-溫伯格狀態(tài),采用最大期望算法(EM)進(jìn)行樣本單倍型頻率的最大似然估計(jì),但單倍型數(shù)量的增多會降低EM算法的統(tǒng)計(jì)效力,不能處理太多位點(diǎn)。隨后提出的隨機(jī)EM算法(2001)可以有效解決不收斂和局部收斂問題。Stephens[15]采用SSD(Stephehs-Smith-Donnelly)算法將貝葉斯理論用于單倍型的推斷,不僅錯誤率大大降低,而且能處理較大規(guī)模的數(shù)據(jù),給出單倍型構(gòu)建的不可靠性估計(jì),后又經(jīng)過修正,考慮了缺失值和所有可能的單倍型,提高了單倍型推斷和缺失數(shù)據(jù)等位基因的估計(jì)。經(jīng)過發(fā)展和完善,其所推斷的單倍型的準(zhǔn)確性和可靠度得以提高[16]。后續(xù)出現(xiàn)了基于組合學(xué)、統(tǒng)計(jì)計(jì)算和零重組等的單倍型推算方法。算法之間既有區(qū)別,又有相同之處,但缺乏一個系統(tǒng)、全面的比較。進(jìn)行單倍型推斷時,要結(jié)合群體假設(shè)、數(shù)據(jù)類型、數(shù)據(jù)大小等選擇合適的統(tǒng)計(jì)算法。此外,單倍型的計(jì)算復(fù)雜度、準(zhǔn)確度評價標(biāo)準(zhǔn)、系譜結(jié)構(gòu)和大小、標(biāo)記數(shù)目和密度和標(biāo)記缺失等都會影響單倍型推斷的準(zhǔn)確性[17]。
隨著生物技術(shù)的快速發(fā)展,SNP芯片技術(shù)得到了普遍使用,且成本降低,得到了大量的SNP基因分型數(shù)據(jù),且在染色體上分布廣泛,加上基因組計(jì)劃的推進(jìn),使得這些SNPs成為人們尋找與疾病或性狀相關(guān)聯(lián)的遺傳標(biāo)記。基于單倍型算法和計(jì)算機(jī)技術(shù),開發(fā)了用于單倍型分析的程序和軟件。簡單介紹幾種:
由來自University of Washington的Matthew Stephens編寫,是一款以人口數(shù)據(jù)為基礎(chǔ)構(gòu)建單倍型頻率的軟件,有多種版本,在Lunix、Windows、Solaris和Mac OSX等多個操作系統(tǒng)下都能安裝運(yùn)行。由于很難通過直接測序的方法得到單倍型,通常只能得到基因型數(shù)據(jù),所以PHASE軟件是分析單倍型較流行的軟件。
Haploview是用于單倍型分析的一款軟件,功能包括LD和單倍型分析、單倍型人群頻率估算以及分析SNP和單倍型關(guān)系等,該軟件在JAVA環(huán)境下才能運(yùn)行。最后能夠得到LD plot(顯示SNP位點(diǎn)的連鎖情況)和htSNPs等。
是一種在R語言環(huán)境下運(yùn)行的軟件包,由Sinnwell JP和Schaid DJ開發(fā),用于單倍型與多種類型性狀(案例—控制、二分類、數(shù)量、序數(shù)和泊松)與協(xié)變量的統(tǒng)計(jì)學(xué)分析。該R包的前提假設(shè)是所有研究個體無關(guān)聯(lián)且單倍型不明確,主要的函數(shù)有haplo.em,haplo.glm,haplo.score和haplo.power,其中通過haplo.score函數(shù)可得到單倍型與分析性狀的得分統(tǒng)計(jì)量(總得分統(tǒng)計(jì)量和特定單倍型得分)。
是一種在R語言環(huán)境下運(yùn)行的軟件包,由Juan R González和Lluís Armengol等人開發(fā),用于基于SNP的全基因組關(guān)聯(lián)研究,包括大部分常規(guī)分析,如缺失值的描述性統(tǒng)計(jì)和探索性分析、計(jì)算哈迪-溫伯格平衡、基于GLM的關(guān)聯(lián)分析(數(shù)量性狀或二分類性狀)以及單個或多個SNPs與特定表型的分析(單倍型和上位分析)。也可在5個不同遺傳模式(顯性、共顯性、隱性、極顯著和log-加性)下進(jìn)行全基因組關(guān)聯(lián)分析,得到不同模式的P值和P值的plot圖。
生物地理學(xué)和譜系地理學(xué)研究中也常用單倍型分析,依靠DnaSP軟件檢測不同物種或樣本的標(biāo)記基因和葉綠體基因,然后通過Network進(jìn)行網(wǎng)狀圖分析,揭示不同單倍型之間的遺傳進(jìn)化關(guān)系。
GWAS最先應(yīng)用于人類疾病,用于尋找致病基因以及研究基因與疾病間的關(guān)系。關(guān)聯(lián)分析(可分為群體關(guān)聯(lián)分析和家系關(guān)聯(lián)分析)和連鎖分析是兩種基于統(tǒng)計(jì)學(xué)進(jìn)行基因定位的方法,前者定位常見疾病的效果更佳,可能原因是復(fù)雜疾病通常由多個基因或多個遺傳變異共同作用。后來GWAS延伸到其他動植物研究領(lǐng)域,用于研究與動植物重要性狀和復(fù)雜疾病顯著關(guān)聯(lián)的SNP位點(diǎn),進(jìn)而發(fā)現(xiàn)和定位與之相關(guān)的候選基因,并探索基因的生物學(xué)功能。由于單倍型含有更多的LD信息,更有利于在關(guān)聯(lián)分析中找到與疾病或性狀相關(guān)的變異位點(diǎn)[18],使用模型主要有回歸模型和廣義線性模式(GLM)。目前已有大量單倍型關(guān)聯(lián)分析的研究成果。
劉錚鑄等[19](2010)采用PCR和直接測序法分析了綿羊MSTN基因內(nèi)含子2和外顯子3的SNP檢測和單倍型分析,共檢測到12個單倍型。羅維真等[4](2013)以大白豬×民豬F2資源群體為對象,利用GWAS檢測出的SNP標(biāo)記構(gòu)建單倍型,分析與血紅蛋白和平均紅細(xì)胞體積等免疫性狀的關(guān)聯(lián),找到了與性狀極顯著或顯著關(guān)聯(lián)的單倍型區(qū)段和相關(guān)的候選基因。樊慶燦等[20](2014)分析了15個SNP位點(diǎn)與京海黃雞生長性狀的關(guān)聯(lián),對關(guān)聯(lián)顯著的SNPs進(jìn)行LD和單倍型分析,最終發(fā)現(xiàn)了與該性狀有關(guān)的單倍型和基因。Mikhailova S V等[21](2016)研究了歐亞大陸北部人群(代謝紊亂或胃癌患者和長壽人群)HFE基因的單倍型分析,結(jié)果在亞洲群體中發(fā)現(xiàn)了,與HLA-A2相關(guān)聯(lián)位點(diǎn)的CCA單倍型,且HFE 基因編碼區(qū)內(nèi)突變等位基因的頻率在對患者和健康人群中沒有顯著差異。
國內(nèi)外關(guān)于單倍型分析的統(tǒng)計(jì)算法和利用其分析與性狀的關(guān)聯(lián)已經(jīng)有了大量的文獻(xiàn)報道,給后續(xù)候選基因的群體驗(yàn)證和功能分析打下了可靠基礎(chǔ)。最近幾年GWAS方法的運(yùn)用,使得單倍型分析愈加成熟和完善。關(guān)于單倍型的分析方法、統(tǒng)計(jì)算法和軟件開發(fā)等也會克服一些缺點(diǎn),提高關(guān)聯(lián)統(tǒng)計(jì)的可靠性。如已經(jīng)研究了單倍型的分布估計(jì)和基因型有誤差時的單倍型分析的統(tǒng)計(jì)方法等。單倍型方法不僅在尋找和定位與動植物復(fù)雜疾病和重要性狀的基因方面具有重要作用,還可為數(shù)量性狀的選種、選配和育種提供重要且系統(tǒng)的信息,在未來還會得到長足發(fā)展。
[1] SCHAFER A J,HAWKINS J R.DNA variation and the future of human genetics[J].Nature biotechnology,1998,16(1):33-39.
[2] WEISS K M,TERWILLIGER J D.How many diseases does it take to map a gene with SNPs?[J].Nature genetics,2000,26(2):151.
[3] 蘇智廣,張思仲,肖翠英,等.一種單核苷酸多態(tài)性的單倍型分析技術(shù)[J].遺傳學(xué)報,2005,32(3):243-247.
[4] 羅維真,陳少康,張龍超,等.影響豬免疫性狀的單倍型關(guān)聯(lián)分析[J].畜牧獸醫(yī)學(xué)報,2012,44(6):843-852.
[5] DOUGLAS J A,BOEHNKE M,GILLANDERS E,et al.Experimentally-derived haplotypes substantially increase the efficiency of linkage disequilibrium studies[J].Nature genetics,2001,28(4):361-364.
[6] FALLIN D,SCHORK N J.Accuracy of haplotype frequency estimation for biallelic loci,via the expectation-maximization algorithm for unphased diploid genotype data[J].The American Journal of Human Genetics,2000,67(4):947-959.
[7] STEPHENS M,SMITH N J,DONNELLY P.A new statistical method for haplotype reconstruction from population data[J].The American Journal of Human Genetics,2001,68(4):978-989.
[8] XU C F,LEWIS K,CANTONE K L,et al.Effectiveness of computational methods in haplotype prediction[J].Human genetics,2002,110(2):148-156.
[9] RUANO G,KIDD K K,STEPHENS J C.Haplotype of multiple polymorphisms resolved by enzymatic amplification of single DNA molecules[J].Proceedings of the National Academy of Sciences,1990,87(16):6296-6300.
[10] MICHALATOS-BELOIN S,TISHKOFF S A,BENTLEY K L,et al.Molecular haplotyping of genetic markers 10 kb apart by allele-specific long-range PCR[J].Nucleic acids research,1996,24(23):4841-4843.
[11] LIZARDI P M,HUANG X,ZHU Z,et al.Mutation detection and single-molecule counting using isothermal rolling-circle amplification[J].Nature genetics,1998,19(3):225-232.
[12] NIU T,QIN Z S,XU X,et al.Bayesian haplotype inference for multiple linked single-nucleotide polymorphisms[J].The American Journal of Human Genetics,2002,70(1):157-169.
[13] CLARK A G.Inference of haplotypes from PCR-amplified samples of diploid populations[J].Molecular biology and evolution,1990,7(2):111-122.
[14] EXCOFFIER L,SLATKIN M.Maximum-likelihood estimation of molecular haplotype frequencies in a diploid population[J].Molecular biology and evolution,1995,12(5):921-927.
[15] STEPHENS M,SMITH N J,DONNELLY P.A new statistical method for haplotype reconstruction from population data[J].The American Journal of Human Genetics,2001,68(4):978-989.
[16] LIN D Y.Haplotype based association analysis in cohort studies of unrelated individuals[J].Genetic epidemiology,2004,26(4):255-264.
[17] 王春考.用于一般系譜的單倍型推斷方法[D].北京:中國農(nóng)業(yè)大學(xué),2006.
[18] SCHAID D J.Evaluating associations of haplotypes with traits[J].Genetic epidemiology,2004,27(4):348-364.
[19] 劉錚鑄,李祥龍,鞏元芳,等.綿羊MSTN基因內(nèi)含子2和外顯子3部分序列的SNP檢測和單倍型分析[J].中國畜牧雜志,2010,46(7):9-12.
[20] 樊慶燦,王金玉,張跟喜,等.京海黃雞生長性狀與15個單核苷酸多態(tài)(SNP)位點(diǎn)的關(guān)聯(lián)分析[J].農(nóng)業(yè)生物技術(shù)學(xué)報,2014(8):1009-1017.
[21] MIKHAILOVA S V,BABENKO V N,IVANOSHCHUK D E,et al.Haplotype analysis of the HFE gene among populations of Northern Eurasia,in patients with metabolic disorders or stomach cancer, and in long-lived people[J].BMC genetics,2016,17(1):83.
2017-06-13)
河北省科技計(jì)劃項(xiàng)目“深縣豬新品系的選育”(15226301D)
宋志芳(1992-),女,碩士研究生,研究方向?yàn)閯游镞z傳育種,E-mail:18730285576@163.com
曹洪戰(zhàn)(1970-),男,教授,博士,碩士、博士研究生導(dǎo)師,研究方向?yàn)轲B(yǎng)豬生產(chǎn),動物遺傳育種與繁殖,E-mail:chz516@126.com