王倩雯 郭茂祖 王春宇 劉曉燕
摘要:QTL的精確定位對數(shù)量性狀遺傳機(jī)制的研究及應(yīng)用具有重要意義。隨著分子生物技術(shù)和遺傳學(xué)的發(fā)展,產(chǎn)生了大量可用于QTL定位的遺傳標(biāo)記和分析方法。然而,多數(shù)方法只能將QTL定位到一個區(qū)間而非具體位置,且具有較高的假陽性。為此,提出利用全基因組上的SNP標(biāo)記,通過emBayesB方法和性狀-標(biāo)記回歸區(qū)間分析相結(jié)合的組合方法進(jìn)行QTL定位研究。組合方法能夠篩選出與QTL存在較強(qiáng)關(guān)聯(lián)的SNP標(biāo)記,具有較高的計算速度和計算效率;通過性狀-標(biāo)記區(qū)間檢測,能夠較為精確地計算出QTL的位置。方法中考慮到染色體上其它標(biāo)記的背景遺傳信息,提高定位成功率和可信度。
關(guān)鍵詞:QTL定位; 組合方法; emBayesB方法; SNP標(biāo)記
中圖分類號:TP391.41 文獻(xiàn)標(biāo)識碼:A文章編號:2095-2163(2014)04-0017-04
Abstract:Search the precise position of QTL , is very significant for understanding the genetic mechanisms of quantitative traits and its application. The development of molecular biology and genetics results in a large number of genetic markers and analytical methods can be used for QTL mapping. However, most methods can only map QTL to a interval rather than a specific location with a high false positive. This paper proposes that the use of genome-wide SNP markers and combination strategy which combining emBayesB methods and traits - mark regression interval analysis conducted QTL mapping studies. Combination strategy could screen out SNP markers which associated with QTL in the presence of strong, and having a high computing speed and efficiency; through trait-mark interval detection, the location of the QTL can be calculated more accurately. The method takes into account the background genetic information of other genetic markers on the chromosome, achieves higher position success rate, and improves the positioning reliability.
Key words:QTL Mapping; Combination Strategy; EmBayesB Method;SNP
0引言
具有連續(xù)表型測量值的性狀稱為數(shù)量性性狀,許多重要農(nóng)藝、經(jīng)濟(jì)性狀都是數(shù)量性狀,因此,研究數(shù)量性狀的遺傳機(jī)制并在生產(chǎn)中加以應(yīng)用對動植物育種工作具有重要作用。數(shù)量性狀位點(diǎn)(quantitative trait loci,QTL )的概念由 Gelderman[1]1975 年首次提出,可將其表述為:QTL是指基因組上的一個或多個影響性狀表型變異的基因或染色體片段。廣義理解認(rèn)為,QTL 包含基因組中所有影響性狀表型變異的基因,在實(shí)際研究中只將那些可被檢測出的、具有顯著效應(yīng)的基因或者染色體片段稱為 QTL[2]。數(shù)量性狀受多基因控制,遺傳基礎(chǔ)復(fù)雜,對外在環(huán)境的影響也較為敏感,并表現(xiàn)為連續(xù)的變異,而且必須通過測量才能得到表型變異值,因此研究過程中存在一定的困難。
利用發(fā)生在遺傳標(biāo)記與目標(biāo)性狀表型值間的關(guān)聯(lián),根據(jù)標(biāo)記與QTL之間的連鎖關(guān)系,通過統(tǒng)計分析確定QTL在染色體上的位置并估計其遺傳效應(yīng),該過程稱為QTL定位[3]。早期的研究,只能借助數(shù)理統(tǒng)計手段,將控制數(shù)量性狀的多個基因作為一個整體進(jìn)行分析[4-6],該類方法無法了解影響數(shù)量性狀的每一個基因的位置和效應(yīng),存在嚴(yán)重的制約性。二十世紀(jì)八十年代以后,隨著分子標(biāo)記技術(shù)的出現(xiàn),通過利用分子標(biāo)記進(jìn)行QTL定位研究,增強(qiáng)了人們對數(shù)量性狀的遺傳操縱能力,提高了QTL定位研究對數(shù)量性狀研究的生物學(xué)意義。在QTL定位過程中遺傳標(biāo)記的選擇由最初的RFLP標(biāo)記、RAPD標(biāo)記、SSR標(biāo)記等等發(fā)展為現(xiàn)在常用的SNP(Single Nucleotide Polymorphism,單核苷酸多態(tài)性)標(biāo)記。單核苷酸多態(tài)性是由單個核苷酸的變異引起的DNA序列多態(tài)性,因其數(shù)量豐富密度高、遺傳穩(wěn)定性好、分布廣泛等特點(diǎn),已將SNP標(biāo)記作為新一代遺傳標(biāo)記而獲得廣泛使用[7-9]。
在眾多已有的QTL定位方法中,其分析大多都是基于單個標(biāo)記或者區(qū)間進(jìn)行,而較少考慮其它標(biāo)記或者區(qū)間的背景遺傳信息的影響,本文提出的組合方法,是將期望最大化(Expectation Maximum,EM)算法和貝葉斯模型相結(jié)合[10],較為準(zhǔn)確地估計每個SNP標(biāo)記與QTL存在連鎖不平衡(Linkage Disequilibrium,LD)的后驗(yàn)概率,并從中選擇出與目標(biāo)性狀存在很強(qiáng)關(guān)聯(lián)性的標(biāo)記作為顯著SNP標(biāo)記,而且降低了顯著SNP標(biāo)記造成的假陽性率,進(jìn)一步又利用基于性狀-標(biāo)記區(qū)間檢測方法,對顯著SNP標(biāo)記進(jìn)行分析,精確定位QTL 的位置和效應(yīng)?;谌蚪MSNP標(biāo)記進(jìn)行分析,可以同時估計所有標(biāo)記的效應(yīng),更加有效地利用標(biāo)記的遺傳信息。
1組合方法的分析方法
本實(shí)驗(yàn)采用的組合方法,先利用基因組選擇算法emBayesB方法對全基因組SNP標(biāo)記進(jìn)行分析,求得與至少一個QTL存在關(guān)聯(lián)的每個SNP遺傳標(biāo)記后驗(yàn)概率,再選擇后驗(yàn)概率超過一定閾值的標(biāo)記作為顯著性SNP標(biāo)記進(jìn)行第二步分析。而且,運(yùn)用性狀-標(biāo)記回歸區(qū)間檢測計算得到顯著性標(biāo)記與潛在QTL的重組率,從而得到QTL在染色體上的位置。組合方法不僅可以分析標(biāo)記和樣本數(shù)量都比較大的情況,同時,還將盡可能多地發(fā)現(xiàn)與性狀存在顯著性相關(guān)的 SNP 標(biāo)記,嚴(yán)格控制假陽性結(jié)果的產(chǎn)生,提高分析結(jié)果的準(zhǔn)確性和定位QTL的精確性。
1.1基于全基因組SNP標(biāo)記的emBayesB算法
整個基因組的SNP標(biāo)記數(shù)目十分龐大,但基因組中QTL的數(shù)目卻較為有限,只有部分標(biāo)記與QTL存在緊密連鎖關(guān)系,并可為QTL定位提供有用信息。若能準(zhǔn)確選擇出這些標(biāo)記并有效利用,就可提高定位QTL的成功率和定位的準(zhǔn)確性。因此,設(shè)計通過emBayes算法,即將EM算法與貝葉斯模型相結(jié)合[11],由此而找到與目標(biāo)性狀存在顯著關(guān)聯(lián)的SNP標(biāo)記集合。
1.1.1SNP先驗(yàn)分布及缺失數(shù)據(jù)處理
通過對比可以看到傳統(tǒng)回歸分析雖然定位得到的真實(shí)QTL比較多,但是假陽性率也非常高,通過利用固定區(qū)間判定的關(guān)聯(lián)分析方法以及emBayesB方法只得到了顯著性SNP,對于QTL所在的具體區(qū)間的確定則是通過人工不斷嘗試而得到的,而且利用LD區(qū)間檢測的emBayesB分析方法,也能夠通過LD分析確定QTL所在區(qū)間。但是,這三種方法也僅僅說明在確定的區(qū)間內(nèi)有QTL存在,卻并未得到QTL的準(zhǔn)確位置。組合方法的分析模型的提出,結(jié)合了emBayesB和性狀-標(biāo)記回歸區(qū)間檢測的優(yōu)勢,同時能夠通過計算QTL與所在區(qū)間左側(cè)標(biāo)記的重組率得到QTL的具體位置和該QTL的加性效應(yīng),并且取得了較高的成功率和較低的假陽性。
3結(jié)束語
綜合以上分析可以看到,通過emBayesB方法得到與至少一個QTL存在連鎖不平衡的顯著性SNP標(biāo)記集合,對這些標(biāo)記實(shí)行性狀-標(biāo)記回歸區(qū)間分析,并可進(jìn)一步確定QTL的位置和效應(yīng),該方法在成功率和假陽性率方面都有不錯的表現(xiàn),尤其能夠通過計算更為精確地得到QTL在染色體上的位置和效應(yīng)值。
通過emBayeB方法為第二步的回歸區(qū)間檢測分析提供了包含豐富遺傳信息的SNP標(biāo)記,同時大大減少了標(biāo)記數(shù)量,并且也減少了計算的工作量。這就使得用于處理小樣本數(shù)據(jù)的性狀-標(biāo)記回歸分析方法的應(yīng)用成為可能。性狀-標(biāo)記回歸區(qū)間檢測考慮到了其他標(biāo)記的背景遺傳信息的影響,進(jìn)而增加了QTL定位的可信度。
參考文獻(xiàn):
[1]GELDERMAN H. Investigation on inheritance of quantitative characters in animals by gene markers[J].I. Methods. Theor. Appl.Genet.,1975(46):300-319.
[2]胡芳. 中國荷斯坦奶牛6號染色體泌乳性狀QTL精細(xì)定位研究[D]. 武漢:華中農(nóng)業(yè)大學(xué), 2010.
[3]王健康. 數(shù)量性狀基因的完備區(qū)間作圖方法[J]. 作物學(xué)報, 2009, 35(2): 239-245.
[4]LYNCH M,WALSH B.Genetic and Analysis of Quantitative Traits.Sunderland[J].Sinauer Associates,1998.
[5]DOERGE R W. Mapping and analysis of quantitative trait loci in experient populations[J]. Nat Rev Genet, 2002, 3: 43–52.
[6]翟虎渠, 王建康. 應(yīng)用數(shù)量遺傳[M]. 北京: 中國農(nóng)業(yè)科技出版社, 2007.
[7]XU Shizhong. Estimating polygenic effects using markers of the entire genome[J].Genetics,2003,163:789-801.
[8]EDWARDS SV. Is a new and general theory of molecular systematic emerging[J]. Evolution, 2009,63( 1) :1-19.
[9]HUANG Wenda, ZHAO Xueyon, ZHAO Xin, et al. Application of molecular markers in population genetics[J].Pratacultural Science,2010,27(11):115-120.
[10]SHEPHERD R K, MEUWISSEN THE, WOOLLIAMS J A. Genomic selection and complex trait prediction using a fast EM algorithm applied to genome-wide markers[J]. BMC Bioinformatics, 2010, 11:529.
[11]FLINT-GARICA SA, THORNSBERRY J M,BUCKLER E S .Structure of linkage disequilibrium in plants[J]. Annu Rev Plant Biol,2003, 54:357-374.
[12]吳為人,李維明.基于性狀-標(biāo)記回歸的QTL區(qū)間檢測方法[J]. 遺傳,2001,23(2):143-146.