普天磊 韓學(xué)琴 羅會(huì)英 鄧紅山 鄒枚伶 金杰 夏志強(qiáng) 王文泉
關(guān)鍵詞:辣木;SNP;雜合度;群體結(jié)構(gòu);遺傳多樣性
中圖分類號(hào):S792.99 文獻(xiàn)標(biāo)識(shí)碼:A
辣木(Moringa oleifera Lam.)屬于辣木科辣木屬的多年生落葉喬木,又被稱為鼓槌樹(shù),辣木原產(chǎn)于印度,是埃塞俄比亞、尼日利亞、菲律賓和蘇丹的重要農(nóng)作物,在非洲、美洲等熱帶亞熱帶地區(qū)均有分布,在我國(guó)的云南、海南、福建、廣州等地均有種植[1]。辣木有13 個(gè)種,其葉片中約含有20%~30%的蛋白質(zhì),葉片、花、果實(shí)含有豐富的維生素A、維生素B、維生素C 和鈣、鎂等礦物質(zhì),種子含高油酸,可用作化妝品、烹飪和機(jī)械潤(rùn)滑油,種子榨油后的剩余物可用于凈化污水、飼喂動(dòng)物[2-4]。同時(shí)辣木含有豐富的皂苷、生物堿、黃酮、酚類等次生代謝產(chǎn)物,具有抗氧化、抗炎、細(xì)胞保護(hù)、神經(jīng)保護(hù)、抗癌等藥理作用[5-6]。
SNP 標(biāo)記相比較于RFLP、SSR 等傳統(tǒng)分子標(biāo)記而言,可檢測(cè)單個(gè)堿基的插入、缺失、轉(zhuǎn)換和顛換,具有變異數(shù)量多,分布廣,遺傳穩(wěn)定性高,檢測(cè)快、通量高的優(yōu)點(diǎn)[7]?;赟NP 標(biāo)記進(jìn)行的遺傳分析在植物學(xué)領(lǐng)域應(yīng)用較多,例如,高嵩等[8]利用SNP 芯片進(jìn)行玉米遺傳多樣性、群體遺傳結(jié)構(gòu)和類群間遺傳關(guān)系分析,選育并審定了玉米新品種;韓志剛等[9]基于SNP 標(biāo)記對(duì)148 份馬鈴薯種質(zhì)遺傳多樣性進(jìn)行分析,認(rèn)為馬鈴薯絕大部分栽培種遺傳相似性高,遺傳背景不夠豐富。目前,國(guó)內(nèi)并沒(méi)有利用SNP 分子標(biāo)記對(duì)辣木種群的遺傳學(xué)進(jìn)行分析的報(bào)道。AFSM 技術(shù)為簡(jiǎn)化基因組測(cè)序技術(shù),該法分別利用EcoR I-Msp I 和EcoR I-Hpa II 兩種酶對(duì)基因組DNA 進(jìn)行雙酶切,并在兩端加上區(qū)分不同樣本的標(biāo)簽和接頭,樣品混合后進(jìn)行雙端測(cè)序,測(cè)序后獲得的SNP 標(biāo)記數(shù)量多,比傳統(tǒng)分子標(biāo)記更好地代表全基因組的遺傳信息,具有成本低、準(zhǔn)確性和穩(wěn)定性高、易于操作的優(yōu)點(diǎn)[10]。
雜合度分析有助于深入了解辣木的遺傳組成情況,確定繁育類型,合理規(guī)劃育種,傳統(tǒng)研究繁育類型的方法主要是基于對(duì)花器官的形態(tài)學(xué)分析,傳粉媒介的觀察以及溫室雜交試驗(yàn)展開(kāi),主要通過(guò)表型性狀進(jìn)行評(píng)估,易受環(huán)境、氣候、栽培措施等因素影響,不能準(zhǔn)確地反映植物基因型[11-13]。辣木群體結(jié)構(gòu)的研究對(duì)于辣木種質(zhì)資源的挖掘、利用和保護(hù)具有重要的理論和實(shí)踐意義,遺傳多樣性及群體分化分析是遺傳學(xué)研究的核心內(nèi)容,親本的遺傳關(guān)系很大程度決定子代種子的質(zhì)量,親本間存在差異的遺傳信息會(huì)隨著雜交或自交過(guò)程傳遞給子代,使之在單核苷酸水平上呈現(xiàn)出來(lái)。目前辣木的繁育類型頗受爭(zhēng)議,還沒(méi)有學(xué)者基于SNP 對(duì)辣木的繁育類型進(jìn)行研究,國(guó)內(nèi)辣木育種工作進(jìn)展緩慢,沒(méi)有自主產(chǎn)權(quán)的辣木品種,存在種子繁殖會(huì)發(fā)生性狀分離及種子管理不規(guī)范等問(wèn)題,造成辣木優(yōu)良品種缺乏、品種混亂的現(xiàn)象[14],辣木親本和子代群體的遺傳分析對(duì)于確定辣木繁育類型、分析親緣關(guān)系及選育優(yōu)良品種具有重要的意義。
本研究以96 份辣木為研究材料,結(jié)合基因組AFSM 高通量測(cè)序技術(shù),與參考基因組進(jìn)行比對(duì)后,進(jìn)行基因型分析、雜合度分析、群體結(jié)構(gòu)、遺傳多樣性、群體分化及連鎖不平衡分析,以揭示辣木親本與子代間的遺傳關(guān)系,為辣木繁育類型和種質(zhì)親緣關(guān)系提供理論指導(dǎo),以及為發(fā)掘控制辣木種質(zhì)優(yōu)良性狀的優(yōu)異等位基因提供理論依據(jù)。
1 材料與方法
1.1 材料
選取來(lái)源于同一母本通過(guò)自然授粉得到的YMLM002 辣木種子94 粒,該種質(zhì)是經(jīng)過(guò)連續(xù)3a的跟蹤觀測(cè)篩選出的果用型優(yōu)良單株材料,具有產(chǎn)量高、果型好、種子飽滿的特點(diǎn)[15]。辣木種子先用清水浸泡10 h,軟化種子硬殼,再用100 mg/L高錳酸鉀溶液浸泡0.5 h 消毒,清水洗凈后點(diǎn)播于穴盤中(紅土∶蛭石=1∶1),適時(shí)補(bǔ)充水分保證濕潤(rùn),待苗長(zhǎng)至15 cm 左右,收集94 份子代樣品、1 份母株和1 份扦插苗樣品備用。
1.2 方法
1.2.1 辣木基因組DNA 提取及建庫(kù) 采用CTAB 法提取辣木樣品DNA,用Nano Drop ND-1000 對(duì)DNA 樣品濃度進(jìn)行檢測(cè),并調(diào)節(jié)樣品濃度至100 ng/μL,置于–20 ℃保存。采用AFSM 技術(shù)進(jìn)行建庫(kù),利用EcoR I-Msp I 和EcoR I-Hpa II兩種酶對(duì)96 份辣木DNA 樣品進(jìn)行混合雙酶切,再將酶切產(chǎn)物連接加上用于區(qū)分不同樣品的接頭標(biāo)簽,純化后進(jìn)行PCR 擴(kuò)增,樣品混合后再用高通量測(cè)序平臺(tái)Illumina 進(jìn)行雙端測(cè)序,并計(jì)算GC含量和Q30 評(píng)估測(cè)序數(shù)據(jù)質(zhì)量。
1.2.2 辣木群體基因型分析 利用Perl 腳本對(duì)原始測(cè)序數(shù)據(jù)進(jìn)行過(guò)濾,使用Bowtie 軟件將過(guò)濾數(shù)據(jù)比對(duì)到辣木參考基因組ASM980114v1,再使用VCFtools 和BCFtools 軟件檢測(cè)并統(tǒng)計(jì)SNP 和Indel 位點(diǎn)信息。
1.2.3 辣木基因雜合度分析 使用AWK 語(yǔ)言分析96 份樣品的雜合位點(diǎn),并計(jì)算個(gè)體內(nèi)基因的雜合位點(diǎn)比率即為個(gè)體內(nèi)雜合度;同時(shí)通過(guò)將子代數(shù)據(jù)分別與親本進(jìn)行比對(duì),找出差異位點(diǎn),統(tǒng)計(jì)差異位點(diǎn)概率即為子代與親本比對(duì)雜合度,分別生成個(gè)體內(nèi)雜合度及子代與親本比對(duì)雜合度統(tǒng)計(jì)圖。
1.2.4 群體結(jié)構(gòu)分析、遺傳多樣性及群體分化分析 利用Plink 對(duì)變異位點(diǎn)進(jìn)行過(guò)濾,過(guò)濾掉最小等位基因頻率低于0.05 及基因型缺失率小于5%的位點(diǎn),哈迪–溫伯格檢驗(yàn)顯著性P>0.0001,保留高質(zhì)量的變異位點(diǎn),再使用ADMIXTURE 軟件進(jìn)行群體結(jié)構(gòu)分析,將亞群數(shù)K 值范圍設(shè)置為1~10,根據(jù)得到的交叉驗(yàn)證錯(cuò)誤率(cross-validationerror, CV error)值選擇合適的亞群數(shù)K 值,以個(gè)體占亞群的遺傳成分系數(shù)確定個(gè)體歸屬的類群,用R 軟件繪制群體遺傳結(jié)構(gòu)矩陣圖。采用GCTA 軟件對(duì)過(guò)濾得到的高質(zhì)量文件進(jìn)行主成分分析,并用R 軟件繪圖;采用VCFtools 軟件計(jì)算辣木群體的遺傳多樣性指數(shù)(π)及群體分化指數(shù)(Fst)。
1.2.5 連鎖不平衡分析 使用LDBlockShow 軟件,計(jì)算不同標(biāo)記距離下的D值,并生成單體型塊圖以展示位點(diǎn)間的連鎖不平衡程度。
2 結(jié)果與分析
2.1 辣木群體基因型分析
96 份辣木樣品基因組DNA 經(jīng)過(guò)AFSM技術(shù)建庫(kù)、測(cè)序,將數(shù)據(jù)過(guò)濾并比對(duì)至辣木參考基因組ASM980114v1,參考基因組信息來(lái)源于NCBI 數(shù)據(jù)庫(kù)(https://www.ncbi.nlm.nih.gov/data-hub/taxonomy/3735/),基因組大小為253.9 Mb,測(cè)序得到1.8 G 數(shù)據(jù)文件,346 615 757 條reads,測(cè)序長(zhǎng)度為150 bp,平均GC 值為50.53%,平均Q30 為94.49%。采用VCFtools 和BCFtools 軟件處理樣品基因組數(shù)據(jù)后,得到1 187 831 個(gè)SNP 和150 861 個(gè)Indel位點(diǎn),以及11 158 個(gè)多等位基因位點(diǎn),4930 個(gè)多等位基因SNP 位點(diǎn)。SNP 同類型堿基之間的突變?yōu)檗D(zhuǎn)換,不同類型堿基之間的突變?yōu)轭崜Q,SNPs發(fā)生轉(zhuǎn)換概率與顛換概率的比值為2.08,單一序列發(fā)生轉(zhuǎn)換次數(shù)為804 031,單一序列發(fā)生顛換次數(shù)為383 471(圖1)。
SNPs 發(fā)生堿基轉(zhuǎn)換和顛換概率隨著位點(diǎn)的增大呈現(xiàn)先逐漸增加后緩慢降低的趨勢(shì)(圖1)。辣木不同類型的突變位點(diǎn)中,堿基轉(zhuǎn)換的變異數(shù)量顯著大于顛換的數(shù)量,其中堿基G/A 和C/T 的替換都較高,分別為243 672 和241 616 次;堿基A/G和T/C 的替換次之,分別為161 258 和158 648 次,堿基插入/缺失發(fā)生的次數(shù)隨著堿基插入/缺失長(zhǎng)度的增加而呈現(xiàn)出迅速下降的趨勢(shì)。
2.2 辣木自然結(jié)實(shí)子代基因雜合度分析
采用1 187 831 個(gè)SNP 位點(diǎn)和150 861 個(gè)Indel位點(diǎn)分析96 份辣木樣品的雜合度(圖2)。辣木同源染色體上的SNP 位點(diǎn)為同一類型堿基,則該SNP 位點(diǎn)稱為純合SNP 位點(diǎn),若為不同類型堿基,則為SNP 雜合位點(diǎn)。由圖2A 可知,辣木個(gè)體內(nèi)雜合度在10.79%~0.36%之間,個(gè)體內(nèi)平均雜合度為4.89%,其中,母株雜合度為5.65%,扦插苗雜合度為5.34%。由圖2B 可知,子代與親本比對(duì)雜合度在21.22%~35.33%之間,子代與親本的比對(duì)平均雜合度為24.85%。由此可知,導(dǎo)致辣木子代雜合的基因中,約有4.89%的基因?yàn)樽陨黼s合基因,19.96%為外來(lái)遺傳物質(zhì)導(dǎo)致雜合的基因,基本表明辣木通過(guò)自花和異花2 種授粉方式繁衍后代。
2.3 辣木群體結(jié)構(gòu)分析
采用Plink 對(duì)變異位點(diǎn)進(jìn)行過(guò)濾后,得到141 323 個(gè)SNP 位點(diǎn),再通過(guò)軟件利用所有SNP和Indels 分子標(biāo)記對(duì)96 份辣木樣品進(jìn)行群體遺傳結(jié)構(gòu)分析,由圖3A 可知,當(dāng)K 值為3 時(shí),隨著K 值的增大,CV error 逐漸增大。由于K 值為2和3 時(shí),CV error 值均較小且較為接近,分別為0.401 和0.404,但當(dāng)K 值為2,即將96 份樣品分為2 個(gè)亞群時(shí),各亞群的個(gè)體呈現(xiàn)分布不集中的現(xiàn)象,故將96 份辣木樣品分為3 個(gè)亞群(subgroup1-3)。根據(jù)個(gè)體在3 個(gè)亞群的Q 值,將個(gè)體歸類到Q 值占比最大的亞群(圖3B),發(fā)現(xiàn)3個(gè)亞群中分別有47、31、18 份材料,其中母株和扦插苗屬于亞群1,亞群2、亞群3 均為子代樣品。
主成分分析發(fā)現(xiàn)(圖3C),亞群1 和亞群2在PC1 軸上有分布差距,而亞群3 與亞群1、2在PC2 軸上有一定的分布差距。大部分亞群可以聚類在一起,表明聚類結(jié)果與群體結(jié)構(gòu)的劃分具有一致性。同時(shí),上述結(jié)果(辣木親本與子代樣本聚類為3 個(gè)亞群)再次論證了雜合度分析結(jié)果,即在生殖遺傳的過(guò)程中,辣木并非以自花授粉的方式繁衍后代,在一定程度上接受了外來(lái)的花粉,導(dǎo)致后代在不包含母株的另外2 個(gè)群體中有分布。
由圖4 可知,群體進(jìn)化樹(shù)的聚類結(jié)果與群體結(jié)構(gòu)的劃分相一致,各亞群大致能聚在一起,且樣品間有一定的交叉。相比較而言,亞群1 的分枝長(zhǎng)度較短,有4 個(gè)個(gè)體分散在亞群2 中;亞群2 的分布總體集中,有7 個(gè)個(gè)體與亞群3 有交叉;同時(shí),亞群3 有3 個(gè)個(gè)體與亞群1 有交叉。
2.4 辣木群體遺傳多樣性及分化分析
3 個(gè)亞群的π 值差距較小且均較低,平均π值也較低,為0.0010,表明96 個(gè)辣木群體的遺傳多樣性水平低。各亞群的Fst 在0.0049~0.0110 之間,其中亞群1 和亞群2 間的Fst 值最小,亞群2和亞群3 間的Fst 值最大,各亞群間的Fst 值均小于0.05,表明各樣本之間存在較弱的遺傳分化(當(dāng)Fst 等于0 或1 時(shí),分別表明亞群間沒(méi)有分化或完全分化;當(dāng)Fst 為0~0.05 時(shí),表明亞群間的分化較弱;當(dāng)Fst 為0.05~0.15 時(shí),表明亞群間為中度分化;當(dāng)Fst 為0.15~0.25 時(shí),表明亞群間的分化較強(qiáng)[16]),各亞群間的親緣關(guān)系相對(duì)較近。
2.5 連鎖不平衡分析
結(jié)合多態(tài)性核心SNP 位點(diǎn)在辣木基因組上對(duì)應(yīng)位置分析,發(fā)現(xiàn)共有136 個(gè)Scaffold,主要Scaffold 統(tǒng)計(jì)情況見(jiàn)表1(SNP 數(shù)量前十的Scaffold)。其中,Scaffold 1 的SNP 數(shù)目最多,為62 225個(gè),Scaffold 122 的SNP 數(shù)目最少,為288 個(gè)。通過(guò)LDBlockShow 軟件對(duì)Scaffold 1 在6.748~6.749 Mb 區(qū)域內(nèi)的變異信息進(jìn)行連鎖不平衡分析,發(fā)現(xiàn)6 748 044~6 748 185 位點(diǎn)之間具有強(qiáng)連鎖不平衡關(guān)系,而6 748 040 與6 748 041、6 748 041與6 748 044 等位點(diǎn)間的連鎖關(guān)系弱(圖5)。
3 討論
AFSM 技術(shù)采用EcoR I-Hpa II 和EcoR I-MspI 兩組雙酶切體系簡(jiǎn)化基因組DNA 的復(fù)雜度,目前已發(fā)展得較為成熟,已用于檢測(cè)巴西木薯、澳洲堅(jiān)果、麻瘋樹(shù)等植物的SNP、Indel 及甲基化位點(diǎn)[17-19],該技術(shù)DNA 處理步驟和數(shù)據(jù)分析步驟相對(duì)簡(jiǎn)單,效率高,測(cè)定的位點(diǎn)穩(wěn)定,無(wú)需進(jìn)行超聲剪切或熒光標(biāo)記,試驗(yàn)成本低,適用于大量非模型物種的基因分型。本研究利用該技術(shù)得到1 187 831 個(gè)SNP 和150 861 個(gè)Indel 位點(diǎn),可實(shí)現(xiàn)辣木親本及子代遺傳分析的目的。
國(guó)內(nèi)外相關(guān)學(xué)者從不同的角度對(duì)辣木的繁育系統(tǒng)進(jìn)行研究,呂亞等[20]發(fā)現(xiàn)狹瓣辣木在開(kāi)花第一天就有花粉活力和微弱的柱頭可授性,且開(kāi)花之初柱頭高于雄蕊,之后逐漸低于雄蕊。MULUVI等[21]利用AFLP 分子標(biāo)記研究肯尼亞種源辣木的繁育系統(tǒng),表明該種源辣木種子是自交和異交的混合產(chǎn)物。起國(guó)海[22]研究辣木對(duì)干熱河谷傳粉網(wǎng)絡(luò)的影響,并表明辣木單花能提供5~30 μL,含糖量高達(dá)60.5%的花蜜報(bào)酬物,屬于昆蟲(chóng)傳粉植物,主要傳粉者為蜂類。本研究中辣木個(gè)體內(nèi)平均雜合度4.89%,子代與親本的比對(duì)平均雜合度為24.85%,表明辣木繁殖方式為自交與異交同時(shí)存在。因此,在進(jìn)行辣木雜種優(yōu)勢(shì)利用時(shí),需要關(guān)注相關(guān)個(gè)體間的隨機(jī)化分布和最小距離,以最大限度地增加差異品種/系間的雜交受精,并盡量減少品種內(nèi)部的自交。
植物的繁育系統(tǒng)、選擇、遺傳漂移、突變和遷移是影響植物群體遺傳結(jié)構(gòu)的進(jìn)化因子[23],本研究利用ADMIXTURE 軟件對(duì)辣木的群體結(jié)構(gòu)進(jìn)行分析,將96 個(gè)辣木群體劃分成3 個(gè)亞群,該結(jié)果與聚類分析和主成分分析的結(jié)果類似,3 種群體結(jié)構(gòu)分析方法相互補(bǔ)充印證,表明辣木群體的遺傳結(jié)構(gòu)劃分可靠。在群體結(jié)構(gòu)劃分中,大部分亞群可以聚類在一起,其中,1 亞群有親本及子代樣品,而2、3 亞群均為子代樣品,該結(jié)果表明辣木自然結(jié)實(shí)子代群體除了攜帶親本的遺傳信息外,還攜帶有外來(lái)的遺傳信息,即辣木繁衍后代的方式不僅為自花授粉,而且還存在異花授粉。子代樣品在3 個(gè)亞群中均有分布,可能是由于親本植株種植于保存有不同辣木種質(zhì)的資源圃內(nèi),不同來(lái)源材料的花粉傳播至親本植株所導(dǎo)致的。
群體的π 值和Fst 值是衡量群體遺傳分化程度的重要參數(shù),RAJALAKSHMI 等[24]使用ISSR、SRAP 標(biāo)記研究印度種源辣木的遺傳多樣性,表明辣木的平均遺傳分化系數(shù)為0.15,總遺傳多樣性指數(shù)為0.17。本研究發(fā)現(xiàn)辣木群體的π 值為0.0010,F(xiàn)st 值在0.0049~0.0110 之間,表明本研究所用辣木群體遺傳分化弱,遺傳多樣性較低,該現(xiàn)象應(yīng)該是由于選取的辣木群體是親本與子代親緣關(guān)系較近造成的。同時(shí),也表明引起子代雜合的外來(lái)基因與親本的基因型差異不大,這可能是由于本研究文采用的是栽培種辣木資源,經(jīng)歷了多次的人工選擇育種,資源間豐度低造成的,后續(xù)可引進(jìn)印度、非洲種源的優(yōu)良辣木種質(zhì),以豐富資源圃內(nèi)的辣木種質(zhì)[25]。
當(dāng)2 個(gè)距離較近的等位基因在同一單體型上同時(shí)出現(xiàn)的頻率高于隨機(jī)出現(xiàn)的頻率時(shí),表明它們處于連鎖不平衡狀態(tài)。在定位克隆中,通過(guò)連鎖可檢測(cè)到產(chǎn)生連鎖信號(hào)的變異,在關(guān)聯(lián)分析中,利用鄰近位點(diǎn)形成的強(qiáng)連鎖不平衡,有助于找到與性狀相關(guān)的位點(diǎn)[26-27]。本文對(duì)辣木的SNP 位點(diǎn)進(jìn)行了連鎖不平衡分析,并在單體型塊圖上發(fā)現(xiàn)了連鎖不平衡關(guān)系強(qiáng)的基因區(qū)域,可為研究多個(gè)處于連鎖不平衡的位點(diǎn)與重要性狀的關(guān)聯(lián)性提供參考依據(jù)。