潘 妃,周 榕,丁 旭,王治宇,秦玉芝
(湖南農(nóng)業(yè)大學(xué)園藝園林學(xué)院, 湖南 長沙410128)
單核苷酸多態(tài)性(SingleNucleotidePolymorphisms SNP)標(biāo)記是近年來分子標(biāo)記的研究熱點(diǎn),具有廣泛分布性、遺傳穩(wěn)定性、易規(guī)?;瘷z測等特點(diǎn)。SNP 自1994年第一次被提出之后,已成為遺傳標(biāo)記研究最多最有前景的分子標(biāo)記。由于豐富的基因組突變位點(diǎn)和高通量檢測平臺的開發(fā),SNP 迅速占領(lǐng)了分子遺傳學(xué)的中心舞臺。Lander[1]在1996年正式指出SNP 開啟了新的分子標(biāo)記時代,是繼SSR 和ISSR 等二代分子標(biāo)記發(fā)展起來的第三代新型分子標(biāo)記。
SNP,即單核苷酸多態(tài)性,主要是指由于單個核苷酸的變異而引起的基因組水平上的DNA 序列多態(tài)性,其形式包括單個堿基的缺失、插入、轉(zhuǎn)換及顛換等[2]。根據(jù)突變的位置可將SNP 劃分為3種形式:一是廣泛分布于基因編碼區(qū)的cSNP;二是存在于基因周邊的pSNP;三是存在于基因間的iSNP[3]。cSNP 經(jīng)常會導(dǎo)致表達(dá)蛋白的多態(tài)性變異,而引起功能的改變。Halushka 等[4]人的研究表明,SNP 在單個基因或者整個基因組的分布并不均勻。在同一條染色體上,SNP也存在明顯的富集區(qū)域和稀缺區(qū)域。SNP 在非轉(zhuǎn)錄序列的出現(xiàn)頻率高于轉(zhuǎn)錄序列,而在轉(zhuǎn)錄區(qū)非同義序列突變的頻率要比其他突變方式低很多。以人類基因組為例,Halushka 等[4]檢測了75個基因,進(jìn)而推測人類基因有近百萬個SNP,其中大約有50 萬個在非編碼區(qū),24 萬~40 萬個在編碼區(qū),而這些SNP 與蛋白質(zhì)的功能息息相關(guān)。
一般而言,SNP 在群體中發(fā)生的頻率不低于1%[5]。在人類基因組中,有些區(qū)域SNP 分布率只有0.1%,有些特異性編碼區(qū)域則達(dá)到了5%~10%,分布極度不均勻,但總體突變率不高,每個核苷酸每年的突變率約為1×10-9%~5×10-9%[6]。
從理論上看,SNP 可以任意發(fā)生于A、G、C、T 之間。但研究表明,SNP 多發(fā)生在T 和C 之間,且兩者的比列是2∶1。在人類基因組中,CpG 二核苷酸的胞嘧啶是最易發(fā)生突變的位點(diǎn),其中大部分是甲基化,可自發(fā)地脫去氨基形成胸腺嘧啶[7]。相比串聯(lián)重復(fù)微衛(wèi)星等多態(tài)性標(biāo)記,SNP 標(biāo)記可能由2個、3個或4個等位基因構(gòu)成,但實(shí)際上后兩種情況出現(xiàn)的幾率非常小,常常被忽略[8]。相較于其他RAPD、SSR、PFLP 等分子標(biāo)記,SNP 標(biāo)記是基于單核苷酸的突變,突變頻率低,與一些不良性狀間也不存在連鎖遺傳。這種基因上的變異屬于可遺傳性變異,遺傳穩(wěn)定性高。
SNP 是基因組中分布最廣泛的點(diǎn)突變。Geleron等[9]通過鳥槍法基因測序比較分析了Landsberg(Ler)野生型擬南芥和已知序列的Columbia(Col)型擬南芥,識別出37 344個SNPs。Nasu[10]等比較分析了3個粳稻品種、2個秈稻品種和1個野生稻之間SNP 發(fā)生的頻率,發(fā)現(xiàn)每232個堿基就存在1個SNP。在玉米基因組中,每57個堿基就有1個SNP[11];在大豆基因組中,每272個堿基就有1個SNP[12]。Lammer 等[13]在對5個大麥品系的54個基因進(jìn)行研究時發(fā)現(xiàn),大麥的38個基因中共存在112個SNP。
RFLP、RAPD 等傳統(tǒng)分子標(biāo)記都是建立在凝膠電泳基礎(chǔ)上,對多個個體進(jìn)行分析,過程繁瑣、速度慢、耗時長、實(shí)驗(yàn)精度不高、價格昂貴。SNP 標(biāo)記在技術(shù)上擺脫了電泳檢測的過程,進(jìn)行自動化檢測,檢出率也相應(yīng)提高。由于SNP 多由2個等位基因構(gòu)成,又被稱為二等位基因標(biāo)記[14]。因此,在SNP 篩選時,只需對其進(jìn)行+/-的分析,無需分析DNA 片段的長度,這就有利于自動化分析處理來篩選或檢測SNP[15]。SNP 自身所具備的這些特點(diǎn),使其極大程度上優(yōu)于其他分子標(biāo)記,也為DNA 芯片、構(gòu)建遺傳圖譜等奠定了基礎(chǔ)。但也由于自身的二態(tài)性限制,使得SNP 無法取代RFLP、SSR 等多態(tài)性分子標(biāo)記。SNP 分布位點(diǎn)遠(yuǎn)遠(yuǎn)多于SSR 位點(diǎn),可以通過加大分析密度構(gòu)建遺傳圖譜來精確地進(jìn)行基因定位。
最常用的SNP 開發(fā)途徑有兩種[16]:一是直接測序DNA 的擴(kuò)增片段。其原理是根據(jù)已知序列或者EST庫設(shè)計引物,選擇有代表性的個體進(jìn)行擴(kuò)增,通過比較擴(kuò)增后的產(chǎn)物來發(fā)現(xiàn)差異。這種途徑開發(fā)出來的SNP 假陽性率比較低,但工作量大且成本高。二是利用生物信息學(xué)軟件從核酸數(shù)據(jù)庫中開發(fā)SNP。利用軟件自動識別序列上的多態(tài)性位點(diǎn),得到疑似SNP,再比對EST 庫得到有效實(shí)際的SNP。玉米、大麥等尚未完成基因組測序的物種,則可以通過這一途徑來發(fā)現(xiàn)SNP 位點(diǎn)[17]。
SLAF-seq 高通量測序技術(shù)可以檢測到SNP、InDel 兩種類型的多態(tài)性差異[18]。其主要的技術(shù)流程包括:基因組DNA 的酶切、構(gòu)建測序文庫、上機(jī)測序以及數(shù)據(jù)分析。該技術(shù)準(zhǔn)確性高、通量高、成本低,常用于關(guān)聯(lián)性圖譜、多態(tài)性圖譜的構(gòu)建。陳士強(qiáng)等[19]利用SLAF-seq 技術(shù)開發(fā)了368個長穗偃麥稻草1E 染色體特異性片段,并利用其中的80個序列開發(fā)出48個長穗偃麥稻草1E 特異性分子標(biāo)記,這些標(biāo)記中包含了20個長穗偃麥稻草1E 染色體特異性分子標(biāo)記,效率高達(dá)25%。
RAD-seq 技術(shù)是在二代測序技術(shù)上發(fā)展起來的一項(xiàng)全基因組酶切位點(diǎn)的簡化測序技術(shù)[20]。其具有不依賴于基因組序列的優(yōu)點(diǎn),可進(jìn)行高通量的SNP 標(biāo)記的開發(fā)。Baird 等[21]利用八堿基酶sbfⅠ對三刺魚的基因組進(jìn)行酶切,通過RAD 標(biāo)記測序得到14 萬個SNP 標(biāo)記;改用出現(xiàn)頻率更高的六堿基酶EcoRⅠ對兩個性狀不同的親本進(jìn)行酶切,分別得到150 萬和250 萬個SNP 標(biāo)記。兩種不同內(nèi)切酶得到的SNP 的數(shù)量截然不同,雙酶切系統(tǒng)對DNA 的篩選更為嚴(yán)格,通過測序得到的序列也更加準(zhǔn)確。在同等條件下,雙酶切系統(tǒng)的RAD-seq 能夠檢測更多的樣本,大大提高了數(shù)據(jù)的利用率。
隨著高通量測序的發(fā)展,越來越多的測序平臺被開發(fā)。RAD-seq 最常用的測序平臺是Illumina GAΠ和Ill um ina HiSeq 1000,其他常見的還有3730xl 及454,Ion Torrent,SOLiD,PacBio RS 等[22-23]。如表1 所示,不同的平臺其成本、運(yùn)行時間、測序長度均存在一定的差異[24-25]。
表1 不同高通量測序平臺比較
CAPS(cleaved amplified polymorphic sequence)標(biāo)記是根據(jù)已發(fā)表的基因序列或EST 庫基因序列來設(shè)計引物,將特異PCR 和限制性內(nèi)切酶相結(jié)合而檢測多態(tài)性的技術(shù),又稱為PCR-RFLP[26]。其特點(diǎn)包括共顯性、位點(diǎn)特異性、操作簡單和低成本。近年來,CAPS 廣泛應(yīng)用于基因分型、基因定位、圖位克隆和物種親緣關(guān)系鑒定等。束永俊等[27]利用EMBOSS 軟件開發(fā)了簡便易行的SNP 檢測方法,用該軟件篩選導(dǎo)致酶切位點(diǎn)改變的EST-SNP,分別以綏農(nóng)14、合豐25 等9種大豆的DNA 及其混合的DNA 為模板,設(shè)計引物并進(jìn)行PCR 擴(kuò)增,發(fā)現(xiàn)44個PCR 產(chǎn)物中有36個測序峰圖在EST-SNP 位點(diǎn)表現(xiàn)出多態(tài)性。酶切分析發(fā)現(xiàn)其中26個PCR 產(chǎn)物具有酶切多態(tài)性,可以作為CAPS 標(biāo)記,成功率約為72.22%。該EST-SNP 挖掘體系及其CAPS 標(biāo)記轉(zhuǎn)化系統(tǒng)具有高效率、低成本等優(yōu)點(diǎn),有利于促進(jìn)大豆的遺傳育種研究。
SNP 位于基因組DNA 的部分,由于其二態(tài)性等位性和分布廣泛性,非常適合用于大規(guī)模自動化掃描。在此基礎(chǔ)上繪制而成的高密度遺傳圖譜對分子標(biāo)記輔助育種起著非常重要的作用,可以選擇出與目標(biāo)性狀相關(guān)的基因,降低甚至消除目的基因以外的其他遺傳背景所帶來的干擾。這項(xiàng)工作在大豆、玉米、水稻、大白菜等重要作物上已經(jīng)取得重大進(jìn)展。肖炳光等[28]以SSR 標(biāo)記遺傳連鎖圖作為骨架,利用基因組簡約法開發(fā)分析了烤煙某群體的SNP 標(biāo)記,獲得包括SNP 標(biāo)記在內(nèi)總數(shù)為1 307 的烤煙遺傳連鎖圖,并且將該遺傳圖譜和普通煙草兩個祖先種的基因組序列相關(guān)聯(lián),分析了24個連鎖群染色體之間的同源關(guān)系,發(fā)現(xiàn)了大量染色體之間的重組或交換以及部分染色體之間的共線性。
SNP 分型技術(shù)可以分為兩個不同時代,一是早期的凝膠時代;二是新型的高通量時代[29]。凝膠時代的技術(shù)主要包括限制性內(nèi)切酶長度多態(tài)性分析(RFLP)、寡核苷酸連鎖分析(OLA)以及等位基因特異聚合酶鏈?zhǔn)椒磻?yīng)(AS2PCR)、單鏈構(gòu)象多態(tài)性分析(SSCP)、變性梯度凝膠電泳(DGGE)。這些技術(shù)與高通量時代的技術(shù)原理基本一致,但由于其不能進(jìn)行自動化分析,只能應(yīng)用于小規(guī)模的SNP 檢測,在實(shí)際應(yīng)用中受到極大的限制。高通量時代的技術(shù)主要有5種,分別是特異位點(diǎn)雜交(ASH)、特異位點(diǎn)引物延伸(ASPE)、單堿基延伸(SBCE)、特異位點(diǎn)切割(ASC)和特異位點(diǎn)連接(ASL)。近年來,“光刻法”原位合成的實(shí)現(xiàn)[30],可直接在晶體上合成高密度的序列可控的核糖核苷酸,發(fā)揮了DNA 芯片的強(qiáng)大威力,推動了SNP 檢測自動化、批量化的發(fā)展,在構(gòu)建SNP 圖譜上已投入使用[31]。
由于SNP 定位目的基因的準(zhǔn)確性,現(xiàn)已被廣泛應(yīng)用于園藝作物抗性基因定位。在抗病性的研究上,Hittalmani 等[32]利用SNP 標(biāo)記,最早將抗稻瘟病基因定位于水稻第12 條染色體上靠近著絲點(diǎn)的區(qū)域,具體位于RG241 與RZ397 之間,遺傳距離分別是5.2 cM 和3.3 cM,并將其命名為Pi-ta 基因。Pi-ta 位點(diǎn)上抗感基因的差異僅為1個氨基酸,由于存在1個SNP,原來的GCT 突變?yōu)門CT。正是由于這個氨基酸的變化造就了水稻的抗稻瘟病基因。時克等[33]研究表明,Pi-ta 基因?qū)λ镜疚敛】剐员憩F(xiàn)出很高的水平,可廣泛應(yīng)用于水稻的育種和生產(chǎn)。Laterrot 等[34]利用SNP 標(biāo)記將番茄抗枯萎病基因I-2 定位于第11 染色體的長臂上。徐薪惟等[35]檢測了不同抗性的番茄抗枯萎病基因I-2,發(fā)現(xiàn)了許多SNPs,通過進(jìn)一步篩選發(fā)現(xiàn)了2個與番茄抗枯萎病相關(guān)的SNP 標(biāo)記,分別是第1 793 位的C→T,第1 963 位的G→A。這是一個螺旋卷曲,有核酸的結(jié)合位點(diǎn),導(dǎo)致亮氨酸序列出現(xiàn)重復(fù),構(gòu)成了番茄抗枯萎病基因。劉肖[36]以抗寒性和敏感性藍(lán)莓雜交的F1代為材料,確定與藍(lán)莓抗寒性密切相關(guān)的SNP 標(biāo)記SL8088,并利用該標(biāo)記對F1代實(shí)生苗進(jìn)行鑒定,得到了抗寒性極為突出的2個植株。王彩香[37]以六倍體普通小麥和二倍體野生進(jìn)緣種為材料,采用雙酶切系統(tǒng)RAD-seq 酶切后,檢測TaABC1L 部分基因片段,確定出與小麥抗性相關(guān)的SNP 標(biāo)記,并將其定位于3A、3B 和3D 染色體長臂上。Garg 等[38]成功利用SNP 開發(fā)了與大麥葉銹病抗性基因相關(guān)的標(biāo)記基因Rph7,已廣泛應(yīng)用與大麥抗葉銹病的篩選和育種。此外,在番茄中開發(fā)了與其糖分含量密切相關(guān)的SNP 標(biāo)記Brix9-2-5,該基因堿基的變化導(dǎo)致了其編碼蛋白質(zhì)的變化,影響了番茄中糖分含量[39]。
[1]Lander E S.The new genomics:global views of biology[J].Science,1996,(274):536.
[2]唐立群,肖層林,王偉平.SNP分子標(biāo)記的研究及其應(yīng)用進(jìn)展[J].中國農(nóng)學(xué)通報,2012,28(12):154-158.
[3]鄒喻蘋,葛 頌.新一代分子標(biāo)記——SNPs及其應(yīng)用[J].生物多樣性,2003,11(5):370-382.
[4]Halushka M K,F(xiàn)an JB,Bentley K,et al.Patterns of single nucleotide polymorphisms in candidate genes for blood-pressure homeost asis[J].Nat.Genet,1999,22:239-247.
[5]劉傳光,張桂權(quán).水稻單核苷酸多態(tài)性及其應(yīng)用[J].遺傳,2006,(28):737-744.
[6]杜瑋南,孫紅霞,方福德.單核苷酸多態(tài)性的研究進(jìn)展[J].中國醫(yī)學(xué)科學(xué)院學(xué)報,2000,(4):392-394.
[7]Ravi S,David W,Steven CS,etal.The international SNPmap working group:a map of human genome sequence variation containing 1.42 million single nucleotide polymorphisms[J].Nature,2001,409:928-933.
[8]Hillier LW,Marth G T,Quinlan A R,et al.Whole genome sequencing and variantdiscovery in C.elegans[J].Naturemethods,2008,5(2):183-188.
[9]Geleron G,Alain V,DenisM,etal.A review on SNPand other typesof molecularmarkersand theiruse in animalgenetics[J].GenetSe1 Evol,2002,(34):275-305.
[10]Nasu S,Suzuki J,Ohta R,et al.Search for and analysis of single nucleotide polymorphisms in rice and establishmentof SNPmarkers[J].DNARes,2002,(9):163-171.
[11]宋 偉,王鳳格,田紅麗,等.利用核心SNP位點(diǎn)鑒別玉米自交系的研究[J].玉米科學(xué),2013,21(4):28-32.
[12]Somers D J,Kirkpatrick R,Moniwa M,et al.Mining single-nucleotide polymorphisms from hexaploid wheat ESTs[J].Genome,2003,46:431-437.
[13]Lammer D,Cai X,Arterburn M,et al.A single chromosome addition from Thinopyrum elongatum confers a polycarpic,perennial habit to annual wheat[J].Journal of experimental botany,2004,55(403):1715-1720.
[14]Snelling W M,Casas E,Stone R T,et al.Linkage mapping bovine EST-based SNP[J].BMCGenomics,2005,6:74.
[15]Velasco R,Zharkikh A,Affourtit J,et al.The genome of the domesticated apple(Malusx domestica Borkh)[J].NatGenet,2010,42:833-839.
[16]Davey JW,Davey J L,Blaxter M L,et al.RAD-Seq:next generation population genetics[J].Briefings i functional genomics,2010,9(56):416-423.
[17]Miller M R,Dunham JP,Amores A,et al.Rapid and cost-effective polymorphism identification and genotyping using restriction site associated DNA(RAD)markers[J].Genome research,2007,17(2):240-248.
[18]Hohenlohe PA,Catchen J,CreskoW A.Population genomic analysisof model and nonmodel organisms using sequenced RAD tags in data production and analysis in population genomics[M].New York:Humana Press,2012.
[19]陳士強(qiáng),秦樹文,黃澤峰,等.基于SLAF-seq技術(shù)開發(fā)長穗偃麥草染色體特異分子標(biāo)記[J].作物學(xué)報,2013,39(4):727-734.
[20]Barchi L,Lanteri S,Portis E,et al.Identification of SNP and SSR markers in eggplant using RAD tag sequencing[J].BMC Genomics,2011,12(1):304.
[21]Baird N A,Etter P D,Atwood T S,et al.Rapid SNP discovery and genetic mapping using sequenced RAD markers[J].PloS one,2008,3(10):3376-3379.
[22]Amores A,Catchen J,F(xiàn)errara A,et al.Genome evolution and meiotic maps bymassively parallel DNA sequencing:spotted gar,an outgroup forthe teleost genome duplication [J]. Genetics,2011,188(4):799-808.
[23]Houston R D,Davey J W,Bishop S C,et al.Characterisation of QTL-linked and genome-wide restrictionsite-associated DNA(RAD)markers in farmed Atlantic salmon[J].BMC Genomics,2012,13(1):244.
[24]王興春,楊致榮,王 敏,等.高通量測序技術(shù)及其應(yīng)用[J].中國生物工程雜志,2012,32(1):109-114.
[25]張春蘭,秦孜娟,王桂芝,等.轉(zhuǎn)錄組與RNA-seq技術(shù)[J].生物技術(shù)通報,2012,12:51-56.
[26]Emerson K J,Merz C R,Catchen J M,et al.Resolving postglacial phylogeography using high-throughput sequencing[J].Proc Natl Acad SciUSA,2010,107(37):16196-16200.
[27]束永俊,李 勇,吳娜拉胡,等.大豆EST-SNP的挖掘、鑒定及其CAPS標(biāo)記的開發(fā)[J].作物學(xué)報,2010,36(4):574-579.
[28]肖炳光,邱 杰,曹培健,等.利用基因組簡約法開發(fā)煙草SNP標(biāo)記及遺傳作圖[J].作物學(xué)報,2014,34(3):397-404.
[29]Rozen S,Skaletsky H.Primer3 on theWWW for general users and for biologistprogrammers[J].MethodsMolBiol,2000,132:365-386.
[30]汪維鵬,倪坤儀,周國華.單核苷酸多態(tài)性檢測方法的研究進(jìn)展[J].遺傳,2006,28(1):117-126.
[31]Guryev V,Berezikov E,Malik R,etal.Singlenucleotide polymorphisms associated with ratexpressed sequences[J].Genome research,2004,14(7):1438-1443.
[32]HittalmaniS,Eduard A,CharlesN,etal.Singlenucleotide polymorphism genotyping in polyploid wheatwith the Illumina Golden Gate assay[J].Theor ApplGenet,2009,119(3):507-517.
[33]時 克,雷財林,程治軍,等.稻瘟病抗性基因Pita和Pib在我國水稻主栽品種中的分布[J].植 物遺傳資源學(xué)報,2009,10(1):134-139.
[34]Laterrot,AmoresA,Catchen J,etal.Genomeevolution andmeioticmaps bymassively par-allelDNA sequencing:spotted gar,an outgroup for the te-leostgenomeduplication[J].Genetics,2011,188(4):799-808.
[35]徐薪惟,李景富,姜景彬,等.番茄抗枯萎病I2基因的SNP分型[J].植物保護(hù),2012,38(6):22-26.
[36]劉 肖.藍(lán)莓抗寒性、需冷量SNP分析與分子輔助育種研究[D].北京:北京林業(yè)大學(xué),2013.
[37]王彩香.小麥抗旱相關(guān)基因TaABC1L的克隆、表達(dá)分析及SNP標(biāo)記開發(fā)和定位[D].太原:山西大學(xué),2007.
[38]Garg K,Green P,Nickerson D A.Dentification of candidate coding region single nucleotide polymorphisms in 165 human genes using assembled expressed sequence tags[J].GenomeRes,1999,9:1087-1092.
[39]Richards PM,Liu MM,Lowe N,etal.RAD-Seq derivedmarkers flank the shell colour and banding lociof the Cepaea nemoralis supergene[J].MolEcol,2013,22(11):3077-3089.