顧光仕, 李穎林, 劉 丹, 陳 輝, 鄭國華, 李 煜
(1.福建農(nóng)林大學(xué)林學(xué)院, 福建 福州 350002; 2.福建農(nóng)林大學(xué)經(jīng)濟林研究所, 福建 福州 350002)
錐栗[Castaneahenryi(Skam)Rehd. et Wils.]屬殼斗科栗屬樹種,是我國南方著名的木本糧食和果材兼用樹種,錐栗果實香甜可口,風(fēng)味較板栗更佳。作為我國特有的栗屬植物,錐栗分布于我國秦嶺以南地區(qū),現(xiàn)在閩北和浙南山區(qū)大面積種植[1]。相比于同屬的板栗(CastaneamollissimaBl.)和茅栗(CastaneaseguiniiDode),錐栗樹干較為通直。4月底至6月中旬為錐栗的花期,9—10月為錐栗的集中收獲期。錐栗喜光耐旱,生長環(huán)境要求排水良好,宜種植在海拔1 800 m以下的山坡,既抗旱又耐寒,生長較快。作為優(yōu)良的經(jīng)濟樹種,閩北錐栗擁有抗逆性強、產(chǎn)量高和果實品質(zhì)佳等一系列優(yōu)良特性,經(jīng)過不斷地人工選育與嫁接繁殖,建甌市已經(jīng)培育出30多個優(yōu)良農(nóng)家品種[2-3],對林農(nóng)致富和山區(qū)經(jīng)濟發(fā)展發(fā)揮了重要作用。長期以來,由于缺乏相應(yīng)的科學(xué)管理手段,野生錐栗資源經(jīng)營管理還相對比較粗放,其果實品質(zhì)較差,經(jīng)濟效益不高,加之近年來的開荒種果,植樹造林,野生錐栗資源正在不斷遭受破壞,面積也在逐年縮小[4]。需要通過分子標記對錐栗野生和栽培群體進行遺傳多樣性分析,制定相應(yīng)的保護策略。
限制性片段長度多態(tài)性(restriction fragment length polymorphism, RFLP)和擴增片段長度多態(tài)性(amplified fragment length polymorphism, AFLP)分子標記技術(shù)復(fù)雜,操作繁瑣,具有放射性危害;隨機擴增多態(tài)性DNA(random amplified polymorphic DNA, RAPD)、相關(guān)序列擴增多態(tài)性(sequence-related amplified polymorphism, SRAP)、簡單重復(fù)序列間擴增(inter-simple sequence repeat, ISSR)標記技術(shù)重復(fù)性差[5]。簡單重復(fù)序列間(simple sequence repeat, SSR)分布于整個基因組中,SSR分子標記具有高多態(tài)性、共顯性,重復(fù)性和穩(wěn)定性好,對DNA要求低,操作簡單,高性價比等特性,廣泛應(yīng)用于遺傳多樣性研究,種質(zhì)資源鑒定、遺傳圖譜構(gòu)建及基因定位等[6]。董蒙蒙等[7-8]通過SRAP和其他栗屬SSR分子標記對建甌市17個主栽農(nóng)家品種進行遺傳多樣性分析,利用10對SRAP引物獲得200個條帶,多態(tài)性條帶183個,利用12對其他栗屬SSR引物共擴增出180個條帶,多態(tài)性條帶163個,表明建甌市17個主栽農(nóng)家品種遺傳多樣性豐富。向暉等[9]通過15個SRAP引物組合對7個野生錐栗居群共擴增出221個位點,平均多態(tài)性位點數(shù)為155.06,23個錐栗品種多態(tài)性位點百分率占比為89.14%,劉國彬[10]通過13對ISSR引物,對錐栗37個農(nóng)家品種共擴增出來156條譜帶,多態(tài)性條帶為129條,這些研究都表明錐栗具有豐富的遺傳多樣性。目前的遺傳多樣性研究均使用其它栗屬樹種的SSR,錐栗SSR還未開發(fā),限制了錐栗遺傳育種的研究。
本研究將對錐栗SSR富集文庫進行Illumina MiSeq 高通量測序,利用生物信息學(xué)對得到的序列進行SSR特征分析,開發(fā)錐栗基因組SSR并對農(nóng)家品種進行遺傳多樣性分析。開發(fā)的基因組SSR為錐栗栽培和野生群體的遺傳多樣性研究奠定基礎(chǔ)。
選取福建農(nóng)林大學(xué)經(jīng)濟林研究所泰寧試驗地的25個農(nóng)家品種。以野生錐栗種子育苗為砧木,于2000年將25個農(nóng)家品種繁育成無性系,種植于泰寧。田間試驗采用完全隨機區(qū)組設(shè)計,每小區(qū)10株,3次重復(fù),株行距4 m×4 m,對25個農(nóng)家品種進行1~25編號。本研究于2017年5月采集各農(nóng)家品種的無病害葉片,通過水培帶回實驗室,用錫箔紙包裹葉片置于液氮中速凍,將樣品保存于-80 ℃冰箱中。
1.2.1 DNA提取 采集無病害葉片,通過改良CTAB法[11]提取DNA,用0.8%的瓊脂糖凝膠電泳檢測DNA的質(zhì)量,用Nano Drop ND-1000核酸蛋白檢測儀(Nano Drop Technologies Inc., 美國)檢測DNA的濃度。
1.2.2 SSR富集文庫的構(gòu)建及測序 將15個農(nóng)家品種的DNA混池后片段化, 構(gòu)建標準的基因組文庫(文庫的插入片段大小控制在400 bp左右);采用選擇雜交法(磁珠富集法)富集基因組文庫中的SSR片段;SSR富集所采用的探針包括8種,即p(AG)10、p(AC)10、p(AAC)8、p(ACG)8、p(AAG)8、p(AGG)8、p(ACAT)6和p(ATCT)6;將富集到的基因組文庫上機測序,采用Illumina MiSeq系統(tǒng)收集數(shù)據(jù)。測序數(shù)據(jù)中包含一些帶接頭、低質(zhì)量的Reads,通過接頭污染去除、質(zhì)量過濾、長度過濾得到高質(zhì)量Reads。將建庫測序的文庫Read的R1端和R2端進行整合。采用FLASH的4個參數(shù)對序列進行整合,參數(shù)為①沒min overlap:10;②max mismatch density:0.5;③allow “outie” pairs:false;④cap mismatch quals:false。運用SSR識別工具(microsatellite identification tool, MISA)搜索mono-10、di-6、tri-5、Tetra-5、penta-5、hexa-5,符合序列中兩個不同SSR允許的最大間隔設(shè)置為100 bp。采用Perl程序屏蔽序列上的重復(fù)序列(用字母R代替),過濾掉側(cè)翼序列短于20 bp的SSR(過短的側(cè)翼序列無法進行相似性比對 )。利用uclust(v1.2.22q)軟件對過濾后的序列進行聚類,聚類所采用的核苷酸序列的相似度設(shè)置為98%。采用Perl程序?qū)垲惤Y(jié)果進行解析,根據(jù)SSR的長度分別對每一個類進行統(tǒng)計,一個類中所有SSR的長度一致,則該類的多態(tài)性為1;如果同一類中SSR具有2種長度則該類的多態(tài)性為2;依次類推,獲得每一個類的SSR的多態(tài)性。
1.2.3 SSR引物篩選 將得到的SSR引物通過多態(tài)性長度及重復(fù)堿基數(shù)選擇100對SSR引物進行篩選,反應(yīng)體系:約55 ng DNA,2.5 mmol·L-1MgCl2,2 μL 1xPCR buffer,1.5 U Taq酶,0.2 mmol·L-1dNTPs,0.4 mmol·L-1上游引物,0.4 mmol·L-1下游引物,加ddH2O至25 μL。PCR反應(yīng)程序:95 ℃預(yù)變性5 min;30個循環(huán)(94 ℃變性50 s, 60 ℃退火50 s, 72 ℃延伸2 min);72 ℃延伸10 min。
取5 μL的PCR擴增產(chǎn)物,使用8%非變性聚丙烯酰胺凝膠進行電泳分離DNA片段,電壓250 V,電泳150 min后取下凝膠,蒸餾水漂洗2次,每次1 min;通過固定液,固定延伸產(chǎn)物;蒸餾水漂洗2次,每次1 min;置于銀染液中,進行染色;蒸餾水漂洗2次,每次10 s,置于顯色液中進行顯色;蒸餾水漂洗2次,每次1 min,終止染色。使用數(shù)碼相機照相,采取人工讀取電泳圖的方式,進行篩選。選取8個農(nóng)家品種對100對基因組SSR引物進行篩選。
1.2.4 農(nóng)家品種的遺傳多樣性分析 利用篩選的引物對25個農(nóng)家品種進行PCR擴增, 數(shù)據(jù)轉(zhuǎn)換成POPGENE軟件要求的格式;使用POPGENE version1.32軟件計算以下多態(tài)性指數(shù):觀測基因數(shù)(Na),有效等位基因數(shù)(Ne)、觀測雜合度(Ho)、期望雜合度(He)、Shannon信息指數(shù)(I)、Nei總基因多樣性(Ht)、Nei′s種群內(nèi)基因多樣性(Hs)、基因分化系數(shù)(FST)、基因流(Nm);利用NTSYS 2.1軟件計算遺傳相似系數(shù)(simple match coefficient, SM)以及以非加權(quán)組平均法(unweighted pair-group method using arithmetic average algorithm, UPGMA)進行聚類分析。
通過Illumina MiSeq 高通量測序找到1 249 808 996 bp堿基數(shù),有5 145 026個Reads,平均242.91個Reads,710個模糊堿基(表1)。得到2 572 513個序列,堿基序列長度在35~251 bp,GC值為35.8%。由圖1可知,單堿基質(zhì)量分布處于25%~75%之間,本次測序過濾后的數(shù)據(jù)平均質(zhì)量較好。
通過計算read的R1端和R2端整合后各序列的長度,做出長度分布圖(圖2),序列長度主要集中在200~250與350~400 bp之間。通過過濾得到高質(zhì)量Reads數(shù)量4 729 726,占下機Reads的91.93%。通過序列合并,得到2 364 881,可以合并的Read pair數(shù)2 051 475對,占整數(shù)的86.75%。在2 051 475條序列中,總共搜索到2 117 345個SSR。在所有具有SSR的序列中565 603條序列包含1個以上SSR,以復(fù)合形式存在的SSR數(shù)量為640 155個(表2)。
表 1 測序數(shù)據(jù)統(tǒng)計Table 1 Sequencing data statistics
注:橫坐標是reads堿基位置(5'→3'),縱坐標是所有reads在該位點堿基Q值統(tǒng)計。紅線代表中位數(shù),藍線代表平均數(shù),黃線代表25%~75%區(qū)間,觸須是10%~90%區(qū)間。Note:theabscissaisthereadsbaseposition(5'→3'),andtheordinateisthestatisticsofthebaseQvaluesofallreadsatthatposition.Theredlinerepresentsthemedian,thebluelinerepresentstheaverage,theyellowlinerepresentsthe25%-75%range,andthetentaclesareinthe10%-90%range.圖1 單堿基質(zhì)量分布圖Figure1 Singlebasemassdistributionmap圖2 序列長度分布圖Figure2 Sequencelengthmap
表 2 SSR搜索結(jié)果統(tǒng)計Table 2 SSR search result statistics
分別對不同類型的SSR模體進行統(tǒng)計。在錐栗基因組SSR數(shù)據(jù)庫中,以二核苷酸為重復(fù)單元的SSR含量最多,占總數(shù)的73.22%,之后依次為三核苷酸(12.61%)、單核苷酸(12.56%)、四核苷酸(1.33%)、六核苷酸(0.23%)和五核苷酸(0.06%)(表3)。
表 3 SSR模體結(jié)果統(tǒng)計Table 3 SSR phantom result statistics
對每一種SSR重復(fù)類型,按照堿基序列組成進行細分,單堿基重復(fù)、二堿基重復(fù)和三堿基重復(fù)的優(yōu)勢重復(fù)單元分別為:單核苷酸優(yōu)勢重復(fù)類型為A/T,有255 848條,占單堿基重復(fù)類型的95.94%。雙核苷酸優(yōu)勢重復(fù)類型為AC/GT,有693 105條,占二堿基重復(fù)類型的44.71%。三核苷酸優(yōu)勢重復(fù)類型為AAG/CTT,有110 713條,占三堿基重復(fù)類型的41.48%。其結(jié)果統(tǒng)計見表4。
根據(jù)SSR的長度分別對每一類進行統(tǒng)計,同一類中所有SSR的長度聚類進行分析,SSR長度多態(tài)性中為17的為1。長度多態(tài)性1、2和3為98.65%,說明錐栗SSR長度多態(tài)性較低,結(jié)果見表5。
根據(jù)SSR的長度分別對每一類進行統(tǒng)計,同一類中所有SSR的長度聚類進行分析,SSR長度多態(tài)性中為17的為1。長度多態(tài)性1、2和3為98.65%,說明錐栗SSR長度多態(tài)性較低,結(jié)果見表5。
表 4 單、雙、三核苷酸重復(fù)模體結(jié)果統(tǒng)計Table 4 Statistics of mono-, di-, and tri-nucleotide repeat phantom
表 5 SSR長度多態(tài)性評估Table 5 SSR length polymorphism assessment
以8個農(nóng)家品種為材料,對100對引物進行篩選,最終選出穩(wěn)定性好、重復(fù)性高和多態(tài)性高的10對基因組SSR引物組合(表6、 圖3)。
表 6 基因組SSR引物序列Table 6 Genome SSR primers
注: 泳道1~8為引物FAFUZL-1的擴增結(jié)果、 泳道9為maker、 泳道10~17為引物FAFUZL-3的擴增結(jié)果。 Note: lanes 1-8 are the amplification results of the primer FAFUZL-1, lane 9 is the maker, and lanes 10-17 are the amplification results of the primer FAFUZL-3.
利用10對SSR引物組合,對25個福建省泰寧縣錐栗主栽農(nóng)家品種進行擴增,共擴增出70個位點,平均每對引物擴增出7個位點,擴增片段大小主要集中在111~355 bp之間。FAFUZL-4和FAFUZL-2觀測等位基因和期望雜合度最高,平均觀測等位基因和期望雜合度分別為6.3和0.705(表7)。FAFUZL-4有效等位基因數(shù)最高,平均有效等位基因數(shù)為3.628。FAFUZL-4的Shannon信息指數(shù)最高,平均Shannon信息指數(shù)為1.441。FAFUZL-5觀察雜合度為0.958,高于其它9對SSR引物,表明錐栗農(nóng)家品種具有較高的遺傳多樣性水平。
表 7 10對SSR引物組合的擴增多態(tài)性Table 7 The polymorphism of the 10 SSR primers
由25個錐栗農(nóng)家品種的遺傳相似系數(shù)可知(表8),25個錐栗農(nóng)家品種遺傳相似系數(shù)在0.957~0.471之間,變幅為0.486,表明25個錐栗農(nóng)家品種間存在較大的遺傳變異,其中6號農(nóng)家品種和14號農(nóng)家品種遺傳相似系數(shù)最大,說明二者的親緣關(guān)系最近,遺傳差異最??;19號農(nóng)家品種和21號農(nóng)家品種相似系數(shù)最小,說明兩者親緣關(guān)系最遠,遺傳差異最大。
表 8 25個錐栗農(nóng)家品種的遺傳距離與遺傳相似系數(shù)Table 8 The genetic distance and the similarity coefficients of 25 C. henryi culticars
由聚類圖(圖4)可知遺傳相似系數(shù)為0.67時,25個農(nóng)家品種可以聚為三大類,第Ⅰ類包括:23號、18號、21號農(nóng)家品種;第Ⅱ類包括:6號、14號、19號、13號農(nóng)家品種;第Ⅲ類包括其它18個農(nóng)家品種。相似系數(shù)為0.79時,第III類被分為A~G7個小類。A類包括:16號、20號;B類包括:9號、15號、7號、2號、4號、25號;C類包括:8號、24號、12號、17號;D類包括:5號;E類包括:10號;F類包括:3號、22號、11號;G類包括1號。
圖 4 25個錐栗農(nóng)家品種的聚類圖Figure 4 Clustering map of 25 C. henryi culticars
錐栗基因組SSR種類豐富,在高質(zhì)量可合并的2 051 475條序列中,總共搜索到2 117 345個SSR,以復(fù)合形式存在的SSR數(shù)量有640 155個。錐栗GC含量為35.8%,GC含量及其分布是生物體基因組的一個重要特征,由于GC通過3個氫鍵配對,GC含量通過影響基因組DNA的熱穩(wěn)定性來影響基因組的某些功能,所以GC含量對基因組特定區(qū)域的穩(wěn)定及相關(guān)功能有重要的作用。GC含量還是物種演化的特征之一,不同物種基因組序列之間的GC含量相差很大,近緣物種的GC分布有相似的趨勢,通過GC分布圖,可以初步判斷兩個物種在演化上的距離,如擬南芥[Arabidopsisthaliana(Linn.) Heynh.]GC含量為36%左右,人類基因組的平均GC含量為42%左右。此外蛋白編碼序列的GC含量較高,借助GC含量的不均一分布,還可以分析基因組的特征結(jié)構(gòu),如DNA復(fù)制起點。二核苷酸為重復(fù)單元的SSR含量最多,占總數(shù)的73.22%,之后依次為三核苷酸(12.61%)、單核苷酸(12.56%)、四核苷酸(1.33%)。單堿基重復(fù)和三堿基重復(fù)的優(yōu)勢重復(fù)單元為:A/T、AAG/CTT。
狗棗獼猴桃[Actinidiakolomikta(Maxim. et Rupr.) Maxim.]、杜仲(EucommiaulmoidesOliv.)和油茶(CamelliaoleiferaAbel)重復(fù)單元最多為二核苷酸,次之為單核苷酸[12-14],棗(ZiziphusjujubaMill.)、二穗短柄草[Brachypodiumdistachyon(L.) P.Beauv.]和玉米(ZeamaysLinn.)基因組微衛(wèi)星重復(fù)單元最多的為六堿基重復(fù)[15],而水稻(OryzasativaLinn.)、高粱[Sorghumbicolor(L.) Moench]優(yōu)勢重復(fù)堿基為三堿基[16],與本試驗結(jié)果不相同。因為不同物種的基因組存在大小不同,堿基比例不同,SSR豐富度不同,導(dǎo)致不同物種間的SSR重復(fù)堿基存在不同。張晗等[17]研究表明谷子[Setariaitalica(L.) Beauv.]的優(yōu)勢重復(fù)單元為二核苷酸和三核苷酸,與本試驗結(jié)果相似,說明谷子和錐栗都擁有較高的變異頻率和較久的進化史。
單核苷酸優(yōu)勢重復(fù)單元A/T為255 848個,與棗和杜仲重復(fù)形式相同。A/T堿基含量高,表明堿基的偏好性[18],可能是長期進化變異的結(jié)果。雙核苷酸優(yōu)勢重復(fù)單元AC/GT和AG/CT為1 315 044個,與北美喬松和火炬松重復(fù)堿基類似,AC、GA、GT重復(fù)能影響DNA結(jié)構(gòu)及DNA重組[19-20]。
SSR具有分布范圍廣、檢測模板的質(zhì)量要求低、共顯性、多態(tài)性高等優(yōu)點,已經(jīng)廣泛應(yīng)用于遺傳多樣性、基因定位克隆等研究中。另外,SSR標記比其他類型的分子標記更加經(jīng)濟和有效[21-25]。開發(fā)合適的SSR分子標記是構(gòu)建遺傳圖譜的關(guān)鍵,遺傳圖譜是對數(shù)量性狀定位的基礎(chǔ)。徐禮羿利用茶樹SSR構(gòu)建了16個連鎖群,圖譜覆蓋度為1 165.4 cmol,平均圖距為6.7 cmol,并對茶樹的茶橙癭螨、日灼病和炭疽病抗性QTL的定位進行了分析[26]。本研究開發(fā)的SSR標記可以用于栗屬樹種的遺傳多樣性分析及遺傳圖譜的構(gòu)建。
10對SSR引物組合對25個福建省泰寧縣錐栗主栽農(nóng)家品種共擴增出來70個位點,平均每對引物擴增出7個位點,擴增片段大小主要集中在111~355 bp之間,分布范圍比較集中。平均觀測等位基因和期望雜合度分別為6.3和0.705,平均有效等位基因數(shù)為3.628,平均Shannon信息指數(shù)為1.441,表明錐栗具有較高的遺傳多樣性水平。與董蒙蒙[27]在17個錐栗主栽農(nóng)家品種的研究相比,本研究遺傳多樣性更為豐富。主要原因為本研究應(yīng)用了通過高通量測序手段開發(fā)的錐栗SSR引物,與董蒙蒙使用的其它栗屬樹種的SSR不同;而且本研究使用的樣本更豐富。
25個錐栗農(nóng)家品種遺傳相似系數(shù)在0.957~0.471之間,變幅為0.486,表明25個錐栗農(nóng)家品種間存在較大的遺傳變異,其中6號農(nóng)家品種和14號農(nóng)家品種遺傳相似系數(shù)最大,說明二者的親緣關(guān)系最近,遺傳差異最小;19號農(nóng)家品種和21號農(nóng)家品種相似系數(shù)最小,說明二者親緣關(guān)系最遠,遺傳差異最大。通過對錐栗農(nóng)家品種的遺傳多樣性分析,可以為后續(xù)錐栗資源的開發(fā)利用提出合理的策略,從而為錐栗進一步的遺傳改良提供參考。