單倍型分析及其在全基因組關(guān)聯(lián)分析中的研究進(jìn)展

2017-09-03 11:01:14宋志芳于國升邢荷巖蘆春蓮曹洪戰(zhàn)

豬業(yè)科學(xué) 2017年8期

關(guān)鍵詞：連鎖基因組關(guān)聯(lián)

宋志芳，于國升，邢荷巖，蘆春蓮，曹洪戰(zhàn)

（河北農(nóng)業(yè)大學(xué)動物科技學(xué)院，河北保定 071000）

單倍型分析及其在全基因組關(guān)聯(lián)分析中的研究進(jìn)展

宋志芳，于國升，邢荷巖，蘆春蓮，曹洪戰(zhàn)*

（河北農(nóng)業(yè)大學(xué)動物科技學(xué)院，河北保定 071000）

單倍型中含有豐富的連鎖不平衡信息，單倍型分析在定位疾病和性狀有關(guān)的基因方面具有更好的功效。利用基因分型技術(shù)能得到大量的單核苷酸多態(tài)性標(biāo)記(SNP)數(shù)據(jù)，單倍型分析能利用大量的SNP信息來揭示和探究復(fù)雜性狀的遺傳機(jī)制，在全基因組關(guān)聯(lián)分析（GWAS）中也扮演著重要角色。該文就單倍型分析的相關(guān)概念、原理和方法、相關(guān)軟件和在GWAS中的應(yīng)用加以綜述。

單倍型分析；單倍型頻率；連鎖不平衡；SNP位點(diǎn)；關(guān)聯(lián)分析

如果要分析某基因中單個位點(diǎn)與動植物復(fù)雜疾病或性狀的關(guān)聯(lián)程度，產(chǎn)生的結(jié)果可能是可靠的[1]。對某區(qū)域內(nèi)多個位點(diǎn)組成的單倍型塊與疾病或性狀進(jìn)行分析，才可能找到與之相關(guān)的遺傳標(biāo)記，進(jìn)而發(fā)掘相關(guān)的候選基因[2]。單倍型分析已經(jīng)成為連鎖不平衡分析和尋找重要基因等的工具?？梢酝ㄟ^多種方式和途徑進(jìn)行單倍型的構(gòu)建及其頻率的獲得，比如對染色體進(jìn)行測序、遺傳標(biāo)記結(jié)合家系信息進(jìn)行連鎖分析和通過軟件計(jì)算群體的單倍型頻率等[3]。通過候選基因法和連鎖不平衡法可以確定與研究對象相關(guān)的單核苷酸多態(tài)，但前者需要全基因組測序，成本高。在對SNP芯片數(shù)據(jù)與性狀進(jìn)行GWAS分析時，單倍型分析是其中重要的一環(huán)，獲得與疾病或性狀顯著相關(guān)的SNPs后，判斷位點(diǎn)間的連鎖程度，并計(jì)算每個單倍型的頻率及其與疾病或性狀相關(guān)性的P值，找到全基因組內(nèi)是否存在單倍型。在關(guān)聯(lián)分析中，應(yīng)該有效利用SNP信息，找到更多與動植物疾病或性狀相關(guān)的可靠SNP位點(diǎn)，進(jìn)行疾病治療和動植物育種。

1 單倍型分析的有關(guān)概念

1.1 單倍型（haplotype）

單倍型指在同一染色體上或一定區(qū)域內(nèi)若干個決定同一性狀的且緊密連鎖的SNPs，具有統(tǒng)計(jì)學(xué)關(guān)聯(lián)性，可以是兩個基因座或整條染色體。單倍型確定后，繪制單倍型圖可用于關(guān)聯(lián)分析。SNP密度和樣本量影響單倍型的確定。

1.2 單倍型塊（haplotype block）

單倍型塊指染色體上存在著的連續(xù)的、穩(wěn)定的、幾乎不被重組所打斷的單倍型區(qū)域。一般一個單倍型塊有幾個常見的單倍型。以單倍型塊為基礎(chǔ)，進(jìn)行與疾病或性狀與基因的關(guān)聯(lián)分析是目前最經(jīng)濟(jì)的連鎖不平衡(LD)分析方法。

1.3 連鎖不平衡（LD）

又稱等位基因關(guān)聯(lián)，指在某一群體中，不同座位某兩個等位基因同時出現(xiàn)在同一條染色體上的頻率大于因隨機(jī)分布而同時出現(xiàn)的頻率的現(xiàn)象，可稱兩個位點(diǎn)處于連鎖不平衡狀態(tài)。

1.4 標(biāo)簽SNPs（htSNPs）

指確定染色體某區(qū)段要確定單倍型所必須、少量且關(guān)鍵的SNPs，可以確定單倍型或基因，降低基因型檢測的工作量。有時少數(shù)幾個htSNPs就能確定一個單倍型結(jié)構(gòu)。

2 單倍型分析的原理和方法

2.1 單倍型分析的原理

目前已經(jīng)掌握了人類、豬、牛、羊、雞、水稻等動植物的基因組，存在著數(shù)量龐大的SNP位點(diǎn)，這些位點(diǎn)可能是物種多樣性的基礎(chǔ)，與復(fù)雜疾病或性狀有關(guān)。但在遺傳過程中，大多數(shù)染色體區(qū)域只有幾種單倍型，SNP位點(diǎn)傾向整體遺傳給后代。在GWAS研究中，得到顯著性位點(diǎn)，如果顯著位點(diǎn)的密度低和定位區(qū)間范圍大，給后續(xù)的候選基因搜尋造成困難。如果利用單倍型分析，進(jìn)行單倍型構(gòu)建和關(guān)聯(lián)分析，會進(jìn)一步縮短定位范圍，發(fā)掘到更可靠的候選基因[4]，因此，單倍型分析在GWAS分析中是必不可少的。

2.2 單倍型分析的方法

傳統(tǒng)的單倍型分析方法是利用家系資料，分析親子代不同遺傳標(biāo)記的傳遞模式。如果家系資料缺失，就不能用此方法，且該過程復(fù)雜，不能分析個體或群體樣本。所以有必要開發(fā)過程簡單且適合家系或個體或群體樣本的單倍型分析方法，擴(kuò)大使用范圍，增加準(zhǔn)確度。隨著SNP技術(shù)的發(fā)展，出現(xiàn)了以DNA測序技術(shù)和構(gòu)建數(shù)學(xué)模型分析單倍型的方法。前者通過DNA測序或特定位點(diǎn)的PCR擴(kuò)增，分析DNA片段的SNP位點(diǎn)，提高了單倍型分析的準(zhǔn)確性[5]，但操作復(fù)雜且成本高；后者是利用數(shù)學(xué)模型構(gòu)建單倍型并構(gòu)建其在群體的單倍型頻率，只能得到理論估計(jì)值，會因模型和估算方法的不同出現(xiàn)不同的結(jié)果[6-8]。

2.3 單倍型的推算方法

由于SNP標(biāo)記數(shù)量多，單個SNP位點(diǎn)的關(guān)聯(lián)逐漸轉(zhuǎn)為以單倍型為主的關(guān)聯(lián)，首先解決的問題是單倍型的獲取。單倍型的推算方法主要有3個：實(shí)驗(yàn)法、系譜推算和統(tǒng)計(jì)算法。通過實(shí)驗(yàn)技術(shù)手段可以獲得多標(biāo)記單倍型，如單分子稀釋技術(shù)、長插入片段克隆和等溫回環(huán)擴(kuò)增等[9-11]，但成本較高。通過特定的計(jì)算方法結(jié)合基因型信息和系譜信息也可獲取基因型。在當(dāng)前實(shí)驗(yàn)條件下，很容易得到群體的基因型，且價格低廉，并且即使某些條件與假設(shè)相反，利用統(tǒng)計(jì)算法也能合理解釋推算的單倍型，已成為獲取單倍型的首選方法[12]。系譜推算的統(tǒng)計(jì)算法主要有Clark算法、最大似然算法和貝葉斯算法。

Clark[13]（1990）首先提出在無關(guān)個體間利用基因分型數(shù)據(jù)進(jìn)行單倍型的推算，原理是找到樣本中所有純合子與只有單突變位點(diǎn)的雜合子，將這些個體的單倍型作為已分型的單倍體型，如果每個已分型的單倍體型是為那些未確定單倍體型并有變異位點(diǎn)的序列的等位基因，就將這種SNP組合確定為新的單倍型。最大似然法由Excoffier和Slatkin[14]（1995）提出，假設(shè)研究群體處于哈迪-溫伯格狀態(tài)，采用最大期望算法(EM)進(jìn)行樣本單倍型頻率的最大似然估計(jì)，但單倍型數(shù)量的增多會降低EM算法的統(tǒng)計(jì)效力，不能處理太多位點(diǎn)。隨后提出的隨機(jī)EM算法（2001）可以有效解決不收斂和局部收斂問題。Stephens[15]采用SSD（Stephehs-Smith-Donnelly）算法將貝葉斯理論用于單倍型的推斷，不僅錯誤率大大降低，而且能處理較大規(guī)模的數(shù)據(jù)，給出單倍型構(gòu)建的不可靠性估計(jì)，后又經(jīng)過修正，考慮了缺失值和所有可能的單倍型，提高了單倍型推斷和缺失數(shù)據(jù)等位基因的估計(jì)。經(jīng)過發(fā)展和完善，其所推斷的單倍型的準(zhǔn)確性和可靠度得以提高[16]。后續(xù)出現(xiàn)了基于組合學(xué)、統(tǒng)計(jì)計(jì)算和零重組等的單倍型推算方法。算法之間既有區(qū)別，又有相同之處，但缺乏一個系統(tǒng)、全面的比較。進(jìn)行單倍型推斷時，要結(jié)合群體假設(shè)、數(shù)據(jù)類型、數(shù)據(jù)大小等選擇合適的統(tǒng)計(jì)算法。此外，單倍型的計(jì)算復(fù)雜度、準(zhǔn)確度評價標(biāo)準(zhǔn)、系譜結(jié)構(gòu)和大小、標(biāo)記數(shù)目和密度和標(biāo)記缺失等都會影響單倍型推斷的準(zhǔn)確性[17]。

3 單倍型分析的軟件

隨著生物技術(shù)的快速發(fā)展，SNP芯片技術(shù)得到了普遍使用，且成本降低，得到了大量的SNP基因分型數(shù)據(jù)，且在染色體上分布廣泛，加上基因組計(jì)劃的推進(jìn)，使得這些SNPs成為人們尋找與疾病或性狀相關(guān)聯(lián)的遺傳標(biāo)記。基于單倍型算法和計(jì)算機(jī)技術(shù)，開發(fā)了用于單倍型分析的程序和軟件。簡單介紹幾種：

3.1 PHASE軟件

由來自University of Washington的Matthew Stephens編寫，是一款以人口數(shù)據(jù)為基礎(chǔ)構(gòu)建單倍型頻率的軟件，有多種版本，在Lunix、Windows、Solaris和Mac OSX等多個操作系統(tǒng)下都能安裝運(yùn)行。由于很難通過直接測序的方法得到單倍型，通常只能得到基因型數(shù)據(jù)，所以PHASE軟件是分析單倍型較流行的軟件。

3.2 Haploview

Haploview是用于單倍型分析的一款軟件，功能包括LD和單倍型分析、單倍型人群頻率估算以及分析SNP和單倍型關(guān)系等，該軟件在JAVA環(huán)境下才能運(yùn)行。最后能夠得到LD plot（顯示SNP位點(diǎn)的連鎖情況）和htSNPs等。

3.3 haplo.stats軟件包

是一種在R語言環(huán)境下運(yùn)行的軟件包，由Sinnwell JP和Schaid DJ開發(fā)，用于單倍型與多種類型性狀（案例—控制、二分類、數(shù)量、序數(shù)和泊松）與協(xié)變量的統(tǒng)計(jì)學(xué)分析。該R包的前提假設(shè)是所有研究個體無關(guān)聯(lián)且單倍型不明確，主要的函數(shù)有haplo．em，haplo．glm，haplo．score和haplo．power，其中通過haplo．score函數(shù)可得到單倍型與分析性狀的得分統(tǒng)計(jì)量（總得分統(tǒng)計(jì)量和特定單倍型得分）。

3.4 SNPassoc軟件包

是一種在R語言環(huán)境下運(yùn)行的軟件包，由Juan R González和Lluís Armengol等人開發(fā)，用于基于SNP的全基因組關(guān)聯(lián)研究，包括大部分常規(guī)分析，如缺失值的描述性統(tǒng)計(jì)和探索性分析、計(jì)算哈迪-溫伯格平衡、基于GLM的關(guān)聯(lián)分析（數(shù)量性狀或二分類性狀）以及單個或多個SNPs與特定表型的分析（單倍型和上位分析）。也可在5個不同遺傳模式（顯性、共顯性、隱性、極顯著和log-加性）下進(jìn)行全基因組關(guān)聯(lián)分析，得到不同模式的P值和P值的plot圖。

3.5 DnaSP和Network軟件

生物地理學(xué)和譜系地理學(xué)研究中也常用單倍型分析，依靠DnaSP軟件檢測不同物種或樣本的標(biāo)記基因和葉綠體基因，然后通過Network進(jìn)行網(wǎng)狀圖分析，揭示不同單倍型之間的遺傳進(jìn)化關(guān)系。

4 GWAS中單倍型分析的研究成果

GWAS最先應(yīng)用于人類疾病，用于尋找致病基因以及研究基因與疾病間的關(guān)系。關(guān)聯(lián)分析（可分為群體關(guān)聯(lián)分析和家系關(guān)聯(lián)分析）和連鎖分析是兩種基于統(tǒng)計(jì)學(xué)進(jìn)行基因定位的方法，前者定位常見疾病的效果更佳，可能原因是復(fù)雜疾病通常由多個基因或多個遺傳變異共同作用。后來GWAS延伸到其他動植物研究領(lǐng)域，用于研究與動植物重要性狀和復(fù)雜疾病顯著關(guān)聯(lián)的SNP位點(diǎn)，進(jìn)而發(fā)現(xiàn)和定位與之相關(guān)的候選基因，并探索基因的生物學(xué)功能。由于單倍型含有更多的LD信息，更有利于在關(guān)聯(lián)分析中找到與疾病或性狀相關(guān)的變異位點(diǎn)[18]，使用模型主要有回歸模型和廣義線性模式（GLM）。目前已有大量單倍型關(guān)聯(lián)分析的研究成果。

劉錚鑄等[19]（2010）采用PCR和直接測序法分析了綿羊MSTN基因內(nèi)含子2和外顯子3的SNP檢測和單倍型分析，共檢測到12個單倍型。羅維真等[4]（2013）以大白豬×民豬F2資源群體為對象，利用GWAS檢測出的SNP標(biāo)記構(gòu)建單倍型，分析與血紅蛋白和平均紅細(xì)胞體積等免疫性狀的關(guān)聯(lián)，找到了與性狀極顯著或顯著關(guān)聯(lián)的單倍型區(qū)段和相關(guān)的候選基因。樊慶燦等[20]（2014）分析了15個SNP位點(diǎn)與京海黃雞生長性狀的關(guān)聯(lián)，對關(guān)聯(lián)顯著的SNPs進(jìn)行LD和單倍型分析，最終發(fā)現(xiàn)了與該性狀有關(guān)的單倍型和基因。Mikhailova S V等[21]（2016）研究了歐亞大陸北部人群（代謝紊亂或胃癌患者和長壽人群）HFE基因的單倍型分析，結(jié)果在亞洲群體中發(fā)現(xiàn)了，與HLA-A2相關(guān)聯(lián)位點(diǎn)的CCA單倍型，且HFE 基因編碼區(qū)內(nèi)突變等位基因的頻率在對患者和健康人群中沒有顯著差異。

5 小結(jié)

國內(nèi)外關(guān)于單倍型分析的統(tǒng)計(jì)算法和利用其分析與性狀的關(guān)聯(lián)已經(jīng)有了大量的文獻(xiàn)報道，給后續(xù)候選基因的群體驗(yàn)證和功能分析打下了可靠基礎(chǔ)。最近幾年GWAS方法的運(yùn)用，使得單倍型分析愈加成熟和完善。關(guān)于單倍型的分析方法、統(tǒng)計(jì)算法和軟件開發(fā)等也會克服一些缺點(diǎn)，提高關(guān)聯(lián)統(tǒng)計(jì)的可靠性。如已經(jīng)研究了單倍型的分布估計(jì)和基因型有誤差時的單倍型分析的統(tǒng)計(jì)方法等。單倍型方法不僅在尋找和定位與動植物復(fù)雜疾病和重要性狀的基因方面具有重要作用，還可為數(shù)量性狀的選種、選配和育種提供重要且系統(tǒng)的信息，在未來還會得到長足發(fā)展。

[1] SCHAFER A J，HAWKINS J R．DNA variation and the future of human genetics[J]．Nature biotechnology，1998，16(1)：33-39．

[2] WEISS K M，TERWILLIGER J D．How many diseases does it take to map a gene with SNPs？[J]．Nature genetics，2000，26(2)：151．

[3] 蘇智廣，張思仲，肖翠英，等．一種單核苷酸多態(tài)性的單倍型分析技術(shù)[J]．遺傳學(xué)報，2005，32(3)：243-247．

[4] 羅維真，陳少康，張龍超，等．影響豬免疫性狀的單倍型關(guān)聯(lián)分析[J]．畜牧獸醫(yī)學(xué)報，2012，44(6)：843-852．

[5] DOUGLAS J A，BOEHNKE M，GILLANDERS E，et al．Experimentally-derived haplotypes substantially increase the efficiency of linkage disequilibrium studies[J]．Nature genetics，2001，28(4)：361-364．

[6] FALLIN D，SCHORK N J．Accuracy of haplotype frequency estimation for biallelic loci，via the expectation-maximization algorithm for unphased diploid genotype data[J]．The American Journal of Human Genetics，2000，67(4)：947-959．

[7] STEPHENS M，SMITH N J，DONNELLY P．A new statistical method for haplotype reconstruction from population data[J]．The American Journal of Human Genetics，2001，68(4)：978-989．

[8] XU C F，LEWIS K，CANTONE K L，et al．Effectiveness of computational methods in haplotype prediction[J]．Human genetics，2002，110(2)：148-156．

[9] RUANO G，KIDD K K，STEPHENS J C．Haplotype of multiple polymorphisms resolved by enzymatic amplification of single DNA molecules[J]．Proceedings of the National Academy of Sciences，1990，87(16)：6296-6300．

[10] MICHALATOS-BELOIN S，TISHKOFF S A，BENTLEY K L，et al．Molecular haplotyping of genetic markers 10 kb apart by allele-specific long-range PCR[J]．Nucleic acids research，1996，24(23)：4841-4843．

[11] LIZARDI P M，HUANG X，ZHU Z，et al．Mutation detection and single-molecule counting using isothermal rolling-circle amplification[J]．Nature genetics，1998，19(3)：225-232．

[12] NIU T，QIN Z S，XU X，et al．Bayesian haplotype inference for multiple linked single-nucleotide polymorphisms[J]．The American Journal of Human Genetics，2002，70(1)：157-169．

[13] CLARK A G．Inference of haplotypes from PCR-amplified samples of diploid populations[J]．Molecular biology and evolution，1990，7(2)：111-122．

[14] EXCOFFIER L，SLATKIN M．Maximum-likelihood estimation of molecular haplotype frequencies in a diploid population[J]．Molecular biology and evolution，1995，12(5)：921-927．

[15] STEPHENS M，SMITH N J，DONNELLY P．A new statistical method for haplotype reconstruction from population data[J]．The American Journal of Human Genetics，2001，68(4)：978-989．

[16] LIN D Y．Haplotype based association analysis in cohort studies of unrelated individuals[J]．Genetic epidemiology，2004，26(4)：255-264．

[17] 王春考．用于一般系譜的單倍型推斷方法[D]．北京：中國農(nóng)業(yè)大學(xué)，2006．

[18] SCHAID D J．Evaluating associations of haplotypes with traits[J]．Genetic epidemiology，2004，27(4)：348-364．

[19] 劉錚鑄，李祥龍，鞏元芳，等．綿羊MSTN基因內(nèi)含子2和外顯子3部分序列的SNP檢測和單倍型分析[J]．中國畜牧雜志，2010，46(7)：9-12．

[20] 樊慶燦，王金玉，張跟喜，等．京海黃雞生長性狀與15個單核苷酸多態(tài)(SNP)位點(diǎn)的關(guān)聯(lián)分析[J]．農(nóng)業(yè)生物技術(shù)學(xué)報，2014(8)：1009-1017．

[21] MIKHAILOVA S V，BABENKO V N，IVANOSHCHUK D E，et al．Haplotype analysis of the HFE gene among populations of Northern Eurasia，in patients with metabolic disorders or stomach cancer， and in long-lived people[J]．BMC genetics，2016，17(1)：83．

2017-06-13）

河北省科技計(jì)劃項(xiàng)目“深縣豬新品系的選育”（15226301D）

宋志芳（1992-），女，碩士研究生，研究方向?yàn)閯游镞z傳育種，E-mail：18730285576@163.com

曹洪戰(zhàn)（1970-），男，教授，博士，碩士、博士研究生導(dǎo)師，研究方向?yàn)轲B(yǎng)豬生產(chǎn)，動物遺傳育種與繁殖，E-mail:chz516@126.com

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

單倍型分析及其在全基因組關(guān)聯(lián)分析中的研究進(jìn)展

1 單倍型分析的有關(guān)概念

1.1 單倍型（haplotype）

1.2 單倍型塊（haplotype block）

1.3 連鎖不平衡（LD）

1.4 標(biāo)簽SNPs（htSNPs）

2 單倍型分析的原理和方法

2.1 單倍型分析的原理

2.2 單倍型分析的方法

2.3 單倍型的推算方法

3 單倍型分析的軟件

3.1 PHASE軟件

3.2 Haploview

3.3 haplo.stats軟件包

3.4 SNPassoc軟件包

3.5 DnaSP和Network軟件

4 GWAS中單倍型分析的研究成果

5 小結(jié)