朱 嵊 黃敏仁
(1. 南京林業(yè)大學(xué) 江蘇省楊樹種質(zhì)創(chuàng)新與品種改良重點實驗室 南京 210037; 2. 南京林業(yè)大學(xué)生物與環(huán)境學(xué)院 南京 210037; 3. 江蘇省農(nóng)業(yè)種質(zhì)資源保護與利用平臺楊樹種質(zhì)資源圃 南京210014)
基因組選擇(genomic selection or genome-wide selection, GS)研究在家畜和農(nóng)作物遺傳改良中已取得了重要進展,其中應(yīng)用于奶牛的遺傳改良成效顯著。美國農(nóng)業(yè)部從2009年開始對奶牛開展GS研究,配種公牛和配種母牛的育種周期都減少到2.5年,大大加速了育種進程(Garcia-Ruizetal., 2016)。中國農(nóng)業(yè)大學(xué)聯(lián)合全國畜牧總站等單位完成的中國荷斯坦牛GS分子育種技術(shù)體系的建立與應(yīng)用的研究成果,使我國荷斯坦奶牛(Bosprimigeniusf.taurus‘Holstein cattle’)年產(chǎn)奶量從4 500 kg提高到5 500 kg,顯示GS在我國奶牛遺傳改良中取得了重大進展(http:∥www.most.gov.cn/kjbz/201703/t2017-132048.htm)。相較于家畜GS,農(nóng)作物研究起步較晚,但近年來發(fā)展迅速,在水稻(Oryzasativa) (Onogietal., 2016; Xuetal., 2018)、玉米(Zeamays) (Fritsche-Netoetal., 2018; Milletetal., 2019)、小麥(Triticumaestivum) (Huangetal., 2016; Bassietal., 2016)、大麥(Hordeumvulgare) (Schmidtetal., 2016; Thorwarthetal., 2017)、蘋果(Malus×domestica) (Kumaretal., 2012; Murantyetal., 2015)和梨(Pyruspyrifolia) (Iwataetal., 2013; Minamikawaetal., 2018)等農(nóng)作物和果樹的遺傳改良研究中獲得一定進展。
林木生長周期長,早期選擇是縮短林木育種周期、加快林木育種進程的有效策略和方式(Diaoetal., 2016),長期以來一直是林木遺傳改良研究中持續(xù)關(guān)注的熱點。最早基于性狀表型值早晚期相關(guān)(phenotypic correlation between juvenile and mature period)的早期選擇研究,其選擇精度往往受限于試驗樣本量不足?;诜肿訕?biāo)記輔助選擇(marker assisted selection, MAS)的早期選擇研究,由于篩選出的分子標(biāo)記數(shù)量有限,早期選擇效率不高。GS利用全基因范圍內(nèi)的所有分子標(biāo)記估計目標(biāo)個體育種值,并以此為依據(jù)篩選優(yōu)良基因型(superior genotype)。相比于前2種早期選擇技術(shù),基因組選擇具有更高的育種效率和更準確的選擇精度。隨著二代/三代測序技術(shù)與高通量SNP基因分型技術(shù)的快速發(fā)展,GS技術(shù)應(yīng)用于林木重要性狀早期選擇已成為可能。
相比于家畜與農(nóng)作物,林木樹種的GS研究進展相對緩慢,主要是由于多年生林木樹種的遺傳學(xué)研究基礎(chǔ)薄弱、研究技術(shù)平臺不完善、基礎(chǔ)型數(shù)據(jù)匱乏(例如,基因組數(shù)據(jù)、轉(zhuǎn)錄組數(shù)據(jù)、表觀組數(shù)據(jù)和表型組數(shù)據(jù))和獨特生物學(xué)特性(世代間隔長、體型巨大和幼齡期長)。為了加快GS技術(shù)在林木樹種遺傳育種中的應(yīng)用進程,本文對GS原理與方法進行全面介紹,并通過林木基因組選擇案例的闡述和分析,對GS技術(shù)在林木遺傳改良中應(yīng)用的影響因素及發(fā)展前景進行討論。
Meuwissen等(2001)首次提出了基因組選擇(GS)的概念和原理。GS是一種新型遺傳評估手段,對縮短育種世代間隔、加快遺傳進展和提高選擇效率等均具有積極作用(Meuwissenetal., 2001)?;蚪M選擇技術(shù)已成為動植物育種領(lǐng)域中最具潛力的技術(shù)熱點,期刊《GENETICS》和《G3:Genes|Genomics|Genetics》將GS相關(guān)研究論文歸檔(https:∥www.genetics.org/collection/genomic-selection)。
GS是利用覆蓋全基因組的高密度分子標(biāo)記估計個體的基因組育種值(genomic estimated breeding value,GEBV),并以基因組育種值為依據(jù)選擇優(yōu)良基因型/品種。GS一般需要構(gòu)建參考群體(reference population/training population)和候選群體(candidate population/testing population)2個群體;利用參考群體中已知的表型(phenotype)和基因型(genotype)記錄估計出GS線性模型中每個分子標(biāo)記SNPs(single nucleotide polymorphisms)的效應(yīng)值;然后,通過候選群體中個體的已知基因型數(shù)據(jù)和SNPs效應(yīng)估計值估算GEBV;最后,根據(jù)GEBV排序從候選群體中選擇出保留個體。
GS線性模型的一般形式:
Y=Xb+Mg+e。
(1)
個體的基因組估計育種值(GEBV):
(2)
(3)
1.2.2 GBLUP模型 GBLUP(genomic BLUP)相比于傳統(tǒng)的BLUP模型的主要改進:個體親緣關(guān)系矩陣的改變,即使用基于全基因組標(biāo)記構(gòu)建的G矩陣(genomic relationship matrix)替代基于個體系譜關(guān)系構(gòu)建的A矩陣(numerator relationship matrix)。G矩陣(VanRaden, 2008)為:
(4)
式中:M為m×n的基因型矩陣,n為個體總數(shù),m為標(biāo)記總數(shù),pj為第j個標(biāo)記位點的最小等位基因頻率(minor allele frequency, MAF)。
1.2.3 Bayesian模型 維度災(zāi)難(The curse of dimensionality)是線性估計方法直接應(yīng)用于標(biāo)記數(shù)(m)>>樣本數(shù)(n)的GS研究時常常面臨的挑戰(zhàn)之一(Altmanetal., 2018)。為此,遺傳方差同質(zhì)性是RR-BLUP和GBLUP這2種線性估計模型的核心假設(shè),但是該假設(shè)與現(xiàn)實情況存在一定出入。非線性估計方法Bayesian模型主要基于馬爾科夫蒙特卡洛鏈(Markov chain Monte Carlo, MCMC)和最大似然(expectation maximization, EM)方法估計基因組育種值,可以在一定程度上彌補線性估計方法的缺陷。Bayesian模型具有BayesA(Meuwissenetal., 2001)、BayesB(Meuwissenetal., 2001)、fBayesB(Meuwissenetal., 2009)、BayesCπ(Habieretal., 2011)、BayesDπ(Habieretal., 2011)、Bayesian LASSO(Yietal., 2008)、emBayesB(Shepherdetal., 2010)等變型,而這些變型之間的主要區(qū)別是先驗分布假設(shè)(SNP效應(yīng)與方差)和估計方法的不同(王重龍等, 2014)。關(guān)于基因組選擇中的Bayesian模型,詳細內(nèi)容可參考文獻(Habieretal., 2011; Gianolaetal., 2009; Karkkainenetal., 2012; 王重龍等, 2014; 尹立林等, 2019)。
伴隨著GS統(tǒng)計學(xué)估計模型的提出,很多應(yīng)用這些GS模型的分析工具也被同步開發(fā)出來,例如rrBLUP(Endelman, 2011)、synbreed(Wimmeretal., 2012)、BGLR(Perezetal., 2014)、GVCBLUP(Wangetal., 2014)、GAPIT(Lipkaetal., 2012)、sommer(Covarrubias-Pazaran, 2016)和BLUPGA(Kaineretal., 2018)等,具體見表1。目前GS分析工具的主要特點:1)缺乏針對林木特點(多年生、異交和全同胞家系成員龐大)的分析工具;2)主要基于GBLUP和Bayesian 2類統(tǒng)計學(xué)估計模型;3)C++、Fortran、Julia和R是開發(fā)GS分析軟件所使用的計算機語言,而R語言是最常用的GS軟件開發(fā)語言。由于R語言運行速度較慢,因此基于R語言的GS分析工具分析速度比較慢,該缺點在分析海量分子標(biāo)記(例如100k級以上)時進一步地放大。因此,具備快速處理海量分子標(biāo)記數(shù)據(jù)的能力必將是GS分析軟件開發(fā)的重要方向之一。
表1 GS分析軟件①Tab.1 List of genomic selection tools
相比家畜和農(nóng)作物,林木GS研究起步不晚,但進展緩慢。Wong和Bernardo(2008)利用油棕(Elaeisguineensis)模擬數(shù)據(jù)系統(tǒng)地評估表型選擇、分子標(biāo)記輔助選擇(MAS)和基因組選擇(GS)3種選擇方式后發(fā)現(xiàn):GS的效果要明顯好于表型選擇和MAS,GS技術(shù)在世代間隔長和樣本量小的育種群體中仍可獲得一定的遺傳增益。2012—2019年間,GS研究陸續(xù)在油棕屬(Elaeis)、桉屬(Eucalyptus)、橡膠樹屬(Hevea)、云杉屬(Picea)、松屬(Pinus)、楊屬(Populus)等樹種開展,取得重要進展(表2)。以上研究結(jié)果都表明:GS技術(shù)可以應(yīng)用于林木遺傳改良,有助于縮短林木育種周期、提高林木育種選擇效率和加快林木遺傳改良進程。GS技術(shù)在林木育種中應(yīng)用的優(yōu)勢主要表現(xiàn)在:1)預(yù)測精度高,比表型選擇和分子標(biāo)記輔助選擇2種策略具有更高的準確性;2)選擇效率高,可以有效地縮短林木超長的育種周期(十幾年甚至幾十年)、增加單位時間內(nèi)的遺傳增益以及增強選擇強度,最終實現(xiàn)加快林木育種進程的目標(biāo);3)可解釋的遺傳變異比例更高,這是由于GS使用全基因組范圍內(nèi)的高密度SNPs標(biāo)記,遺傳變異位點信息量巨大;4)子代測定成本相對較低(Grattapagliaetal., 2011; Isik, 2014; Iwataetal., 2016; Nyoumaetal., 2019)。
表2 林木樹種GS研究報道①Tab.2 Study reports of genomic selection on forestry trees
目前,林木基因組選擇(GS)研究都是以多年生異花授粉樹種為研究對象,這些樹種的生長周期較長且遺傳雜合度高。針葉樹種和闊葉樹種在開展GS研究的樹種中幾乎各占一半。開展GS研究的針葉樹種主要集中在云杉屬[例如,歐洲云杉(Piceaabies)、白云杉(P.glauca)、黑云杉(P.mariana)、西加云杉(P.sitchensis)]和松屬[例如,火炬松(Pinustaeda)和海岸松(P.pinaster)](表2)。針葉樹種一般擁有一個雜合度和重復(fù)序列比例極高的10 Gb級基因組,這為開展針葉樹種GS研究帶來了極大的挑戰(zhàn),特別是在覆蓋全基因組的高密度標(biāo)記(SNPs)開發(fā)方面(Nystedtetal., 2013; Biroletal., 2013; Nealeetal., 2014; Ziminetal., 2014; 2017)。
與針葉樹種類似,已開展基因組選擇研究的油棕屬[油棕(Elaeisguineensis)、美洲油棕(E.oleifera)](Singhetal., 2013)、橡膠樹屬[橡膠樹(Heveabrasiliensis)](Rahmanetal., 2013; Lauetal., 2016; Tangetal., 2016)、桉屬[赤桉(Eucalyptuscamaldulensis)、巨桉(E.grandis)](Hirakawaetal., 2011; Myburgetal., 2014)以及楊屬[毛果楊(Populustrichocarpa)、胡楊(P.euphratica)](Tuskanetal., 2006; Maetal., 2013)均有一個以上的物種完成了全基因組測序。由于楊樹作為林木模式物種的重要性,毛果楊是第1個完成全基因組測序的樹種,推動了林木基因組研究的廣泛開展。南京林業(yè)大學(xué)楊樹研究組以美洲黑楊×歐美楊(P.deltoides×P.euramericana)全同胞家系為材料,結(jié)合該家系100多個體的生長性狀24年生的表型數(shù)據(jù),通過基因組重測序獲得100k級的SNP位點,估計育種值和遺傳力的動態(tài)變化,并在此基礎(chǔ)上開展GS研究(朱嵊等, 待發(fā)表)。
圖1 林木GS案例的詞云Fig.1 Wordcloud of the genomic selection cases in forestry trees育種群體、標(biāo)記數(shù)據(jù)、目標(biāo)性狀和統(tǒng)計學(xué)方法的關(guān)鍵詞分別用紫色、紅色、黑色和黃色表示。字體的大小代表其在林木基因組選擇案例中出現(xiàn)的頻率。此詞云圖是由Python軟件包wordcloud(https:∥pypi.org/project/wordcloud/)所繪制的。The keywords for breeding population, the amount of markers, the target trait and the statistical methods are denoted in purple, red, black and yellow, respectively. The font size represents the frequency of those keywords in the studies on the tree genomic selection. This wordcloud chart is drawn by the Python package wordcloud (https:∥pypi.org/project/wordcloud/).
GS是以育種群體(參考群體)的基因型數(shù)據(jù)(即標(biāo)記數(shù)據(jù))和目標(biāo)性狀表型數(shù)據(jù)作為基礎(chǔ)數(shù)據(jù),通過統(tǒng)計學(xué)方法構(gòu)建目標(biāo)性狀的GS預(yù)測模型。為了更好地理解以上所列的林木GS研究案例,從育種群體、標(biāo)記數(shù)據(jù)、目標(biāo)性狀以及統(tǒng)計學(xué)方法這4個方面對這些案例進行簡單的概括和分析(圖1)。1)育種群體:多采用由全同胞家系(full-sib)或半同胞家系(half-sib)組成的育種群體,這些研究案例中的林木樹種均屬于異花授粉植物,一次雜交可以獲得數(shù)量巨大且性狀分離的F1子代。2)分子標(biāo)記數(shù)據(jù):絕大部分研究案例都采用SNPs分子標(biāo)記,這是因為SNPs標(biāo)記在全基因組上分布廣泛且數(shù)量巨大(Shastry, 2009),此特點與GS技術(shù)的“全基因組范圍內(nèi)的高密度標(biāo)記”理念十分契合;基于SNPs芯片和基于重測序的SNP分型技術(shù)是為這些GS研究案例產(chǎn)生SNPs基因型數(shù)據(jù)的2種方式,針葉樹種(云杉屬和松屬樹種)案例的SNPs基因分型數(shù)據(jù)來自于SNP芯片,而闊葉樹種(橡膠樹屬、油棕屬和桉屬)案例采用2種方式產(chǎn)生SNPs基因分型數(shù)據(jù)。3)目標(biāo)性狀:林木GS研究案例的目標(biāo)性狀可以簡單地分成生長性狀(樹高、胸徑、材積等)、木材性狀(木材密度、纖維夾角、細胞壁厚度、彈性模量等)、果實性狀(果/枝比、漿/枝比、核/果比等)、代謝性狀(單株榨油率、精油總濃度、1,8-桉葉油素比例等)、發(fā)育性狀(分枝數(shù)、萌芽率、生根率等)、紙漿性狀(木質(zhì)素含量、五碳糖和六碳糖含量、紙漿產(chǎn)量等)、抗性性狀(冠癭瘤體積、是否患銹病等)這幾類;樹高、胸徑、木材密度、材積和纖維夾角(MFA, microfibril angle)是最常用的研究性狀。4)基因組育種值(GEBV)的估計模型:GBLUP、Bayesian LASSO regression(BLR)、RR-BLUP和Bayesian ridge regression(BRR)是這些研究案例中常用的統(tǒng)計學(xué)估計模型。
基因組育種值(GEBV)估計精度是評價GS模型優(yōu)劣的重要指標(biāo),也是GS研究的核心問題之一。GEBV估計精度受到多種因素的影響,包括標(biāo)記類型與密度、標(biāo)記抽樣方法、數(shù)量性狀位點(QTLs, quantitative trait loci)效應(yīng)的分布、連鎖不平衡(LD, linkage disequilibrium)、參考群體與測試群體之間遺傳親緣關(guān)系、參考群體樣本量、樣本間的親緣關(guān)系、目標(biāo)性狀的遺傳力與遺傳結(jié)構(gòu)、估計GEBV的統(tǒng)計學(xué)方法等(Habieretal., 2007; Grattapaglia, 2014)。在林木GS研究案例中,GEBV的精度范圍為-0.41~0.95,目標(biāo)性狀內(nèi)在屬性(例如,遺傳力和遺傳結(jié)構(gòu))、LD、標(biāo)記密度和統(tǒng)計學(xué)估計模型等影響因素均被探討。
然而,這些研究都存在一個共同的不足:忽略樹齡與目標(biāo)性狀GEBV估計精度之間的關(guān)系。多年生木本植物的很多性狀(例如,生長性狀和木材性狀)遺傳力與其樹齡存在一定聯(lián)系。遺傳力與基因組預(yù)測精度存在正相關(guān)(Resendeetal., 2012c),因而樹齡與目標(biāo)性狀GS精度也是存在一定關(guān)系的。
油棕是最早開展系統(tǒng)性GS研究的林木樹種之一,其GS研究案例極具代表性。油棕GS相關(guān)研究主要分成2個方面:基于模擬數(shù)據(jù)和真實育種數(shù)據(jù)。Wong和Bernardo(2008)使用3個不同群體大小(N=30, 50, 70)的油棕模擬數(shù)據(jù)系統(tǒng)評估3種早期選擇技術(shù)的效率發(fā)現(xiàn):相比于表型選擇和分子標(biāo)記輔助選擇(MAS),基因組選擇(GS)具有更高的選擇效率和更好的選擇效果,即使對規(guī)模較小的育種群體(Wongetal., 2008)。Cros等(2018)基于連續(xù)4個育種周期的油棕果穗性狀模擬數(shù)據(jù),分析GS輪回選擇和傳統(tǒng)輪回選擇在多世代育種中的選擇效率發(fā)現(xiàn):GS輪回選擇具有更好的選擇效果,GS模型的準確性隨著模型校準數(shù)據(jù)的世代增加而提高。
Cros等(2015)使用油棕Deli和Group B 2個群體(每個群體均由131個個體組成)的265個SSR標(biāo)記數(shù)據(jù)構(gòu)建8個含油量重要性狀的GS模型,研究證實:1)GS模型的預(yù)測精度要高于基于譜系模型;2)對于群體較小且育種周期較長的育種程序GS模型是比較有效的,這與油棕模擬數(shù)據(jù)的評估結(jié)果(Wongetal., 2008)一致。Kwong等(2017)利用油棕UR×AVROS商業(yè)群體1 218個體的SNP基因分型數(shù)據(jù)(SNP芯片OP200K)和6個含油量相關(guān)性狀表型數(shù)據(jù)進行GS研究發(fā)現(xiàn):1)GS預(yù)測精度與目標(biāo)性狀的遺傳力有關(guān);2)不同GS模型(例如RR-BLUP、BayesA、BayesCπ、Bayesian LASSO regression(BLR)和Bayesian ridge regression(BRR)等)具有近似的預(yù)測精度,類似結(jié)果也在多苞桉(Eucalyptuspolybractea)(Kaineretal., 2018)、火炬松(Resendeetal., 2012c)和橡膠樹(Crosetal., 2019)等中發(fā)現(xiàn);3)GS預(yù)測精度伴隨著標(biāo)記數(shù)的增加而提高。相比2015年油棕GS研究案例(Crosetal., 2015),2017年油棕GS研究(Kwongetal., 2017)的最大改進之一:標(biāo)記數(shù)量從265個SSR標(biāo)記升級到9萬個有效SNP標(biāo)記,真正意義上實現(xiàn)GS技術(shù)理念“使用覆蓋全基因組范圍的高密度分子標(biāo)記”。
參考基因組(質(zhì)量與大小)是GS應(yīng)用于目標(biāo)物種遺傳改良的前提條件。高質(zhì)量的參考基因組是通過二代測序技術(shù)或SNP基因分型芯片技術(shù)獲得覆蓋全基因組的高密度SNP基因分型數(shù)據(jù)的基本保障。目前,已經(jīng)完成的林木樹種基因組質(zhì)量普遍較低,例如20 Gb白云杉基因組(v4.1)擁有3 033 322個scaffolds,423 Mb毛果楊基因組(v3.0)擁有1 446個scaffolds,都還遠未達到擬南芥(Arabidopsisthaliana)和水稻染色體水平的基因組質(zhì)量。因此,林木參考基因組質(zhì)量低必將是GS在林木遺傳改良中應(yīng)用的一個重要限制因素。
基因組龐大是針葉樹種最顯著的特點之一,例如20 Gb級的白云杉、歐洲云杉和火炬松基因組。龐大基因組致使針葉樹種需要巨大的DNA測序成本和數(shù)據(jù)分析成本,這也是針葉樹種GS研究僅采用SNPs基因分型芯片獲得標(biāo)記數(shù)據(jù)的原因之一。舉個例子,假設(shè)一個樣品DNA重測序的深度10×,一份歐洲云杉(20 Gb)和楊樹(0.5 Gb)材料分別需要200 Gb和5 Gb測序數(shù)據(jù),即歐洲云杉DNA重測序所需的測序費和數(shù)據(jù)分析費是楊樹材料的40倍。
全基因組關(guān)聯(lián)分析(genome-wide associated study, GWAS)是一種從覆蓋全基因組的高密度SNP標(biāo)記中鑒定出目標(biāo)性狀相關(guān)標(biāo)記的統(tǒng)計學(xué)方法,也將有助于為基因組育種值(GEBV)估計提供更精煉的候選標(biāo)記。然而,隨著基于測序或芯片的高通量SNP基因分型技術(shù)發(fā)展及其在林木遺傳研究領(lǐng)域的不斷深入運用,單標(biāo)記成本不斷下降和標(biāo)記數(shù)據(jù)規(guī)模不斷擴大是林木GS研究的發(fā)展趨勢。SNP分子標(biāo)記密度驟增不僅增加GEBV的計算成本,同時大量目標(biāo)性狀無關(guān)的標(biāo)記必將給估算GEBV帶來不可避免的背景噪音,一定程度上影響GEBV的估計精度。因此,在估算GEBV前篩選性狀相關(guān)標(biāo)記是十分必要的。
GWAS已被應(yīng)用于解析林木樹種復(fù)雜性狀的遺傳結(jié)構(gòu),例如毛果楊(Chhetrietal., 2019)、巨桉與尾葉桉的種間雜種(Mulleretal., 2019)以及歐洲云杉(Baisonetal., 2019)。然而,由于受限于林木生物學(xué)特性及其相對不穩(wěn)定的遺傳轉(zhuǎn)化體系,功能性解析林木GWAS所鑒定的候選位點/基因仍然面臨不少困難和挑戰(zhàn)(Duetal., 2018)。
雙親雜交是林木樹種產(chǎn)生育種群體的方式,其育種群體主要可分為全同胞家系(full-sib)、半同胞家系(half-sib)以及輪回雜交群體(recurrent hybrid population)。然而,由于林木樹種一般具有世代周期長(long generation time)、幼齡期長(long juvenile phase)、個體十分巨大(giant plant size)(子代測定時單株種植面積極大)等特點,因而很難在多世代(2個以上世代)家系內(nèi)開展良種選育(Iwataetal., 2016)。另外,不同于家畜的單胎產(chǎn)仔量較少,異交林木樹種的一個雜交組合(全同胞家系或半同胞家系)可以產(chǎn)生成百上千個F1子代,并且子代個體間的差異較大。因此,單個或少量幾個全同胞/半同胞家系組成的F1群體是林木遺傳改良中的常見育種群體,該群體內(nèi)個體間的譜系關(guān)系幾乎是沒有區(qū)別的(即個體間親緣關(guān)系非常近)。
基因組育種估計值(GEBV)的準確性是GS在動植物育種中應(yīng)用的核心問題之一。GEBV準確性是利用GEBV與真實育種值(true breeding value, TBV)相關(guān)系數(shù)(r)來評估,GEBV準確性的理論公式(Daetwyleretal., 2008; 2010)如下:
(5)
式中:Np為參考群體樣本量,h2為目標(biāo)性狀的遺傳力,nG為獨立標(biāo)記/位點數(shù)。
根據(jù)該公式,參考群體樣本量與基因組選擇的準確性(r)存在一定的聯(lián)系,樣本量的增加也將有助于基因組育種估計值準確性的提高。另外,用于構(gòu)建基因組選擇模型的參考群體與候選群體之間的親緣關(guān)系也會一定程度影響基因組育種估計值的準確性,2個群體之間親緣關(guān)系越近基因組育種估計值可能越精確(Habieretal., 2010; Liuetal., 2015; Maetal., 2018)。因此,在F1子代樣本量大且個體親緣關(guān)系較近的林木全同胞/半同胞家系內(nèi)進行基因組選擇,很可能獲得準確性較高的基因組育種估計值。
連鎖不平衡(LD)是指分子標(biāo)記與相鄰QTL位點的非獨立遺傳,決定了基因組選擇的精度及其所需標(biāo)記密度/數(shù)量(Liuetal., 2015)。LD程度的高低決定了基因組選擇所需的標(biāo)記密度,即LD程度與所需標(biāo)記數(shù)量呈正相關(guān)(Iwataetal., 2016)。林木遺傳改良的目標(biāo)性狀(例如,生長性狀和木材性狀)很大一部分都是由大量的微效QTL位點共同控制的復(fù)雜性狀,這就需要足夠高的標(biāo)記密度來滿足GS的基本假設(shè):所有QTL位點與至少1個標(biāo)記存在強的連鎖不平衡關(guān)系(Rabieretal., 2016)。
多年生是林木樹種最突出的生物學(xué)屬性之一,決定了樹木生長發(fā)育過程受到多年環(huán)境因子(土壤、海拔、氣候及栽培條件)和樹齡等因素影響(林元震, 2019; 李安鑫等, 2019; 楊保國等, 2020; 伍漢斌等, 2019)?;诹帜灸繕?biāo)性狀多年數(shù)據(jù)(縱向數(shù)據(jù), longitudinal data)預(yù)測其目標(biāo)性狀的多年生長發(fā)育軌跡是林木GS研究的發(fā)展趨勢。然而,當(dāng)前并不存在滿足此需求的統(tǒng)計學(xué)模型和分析工具,因此開發(fā)針對林木多年生屬性的統(tǒng)計學(xué)模型和分析工具是林木GS研究面臨的最大挑戰(zhàn)之一。
多年生木本植物形態(tài)學(xué)和生理學(xué)等性狀(例如,葉片形態(tài)、氣孔導(dǎo)度、光合作用效率等)與樹齡存在一定程度的相關(guān)性(Bond, 2000; Dayetal., 2002)。研究表明:日本落葉松(Larixkaempferi)(Diaoetal., 2016)、楊樹(Pliuraetal., 2006; Dhillonetal., 2010)和桉樹(Osorioetal., 2001)的生長性狀和木材性狀的遺傳力隨著樹齡增加而變化,意味著這些目標(biāo)性狀基因組育種值的估計精度與樹齡具有相關(guān)性。多年生生物的基因表達模式與其年齡也是存在一定聯(lián)系。雖然目前尚未見到林木樹齡相關(guān)基因的分子功能研究案例,但是不同樹齡間基因表達差異譜已在銀杏(Ginkgobiloba)、日本落葉松、側(cè)柏(Platycladusorientalis)等樹種被研究和分析(Lietal., 2017; Changetal., 2017; Wangetal., 2020)。Wang等(2020)比較銀杏不同樹齡微管形成層的基因表達譜發(fā)現(xiàn):712個基因和233個miRNA呈現(xiàn)出差異性表達,它們可能與細胞分裂、細胞分化、植物激素代謝通路等有關(guān)。
目前,GS技術(shù)已經(jīng)成功應(yīng)用于動物(家畜)育種實踐,并取得很好的效果,加速了動物育種進程;GS在植物遺傳改良方面也取得一定的研究進展;林木GS研究進展表明該技術(shù)在林木育種中極具應(yīng)用潛力。隨著高通量基因組學(xué)數(shù)據(jù)的分析平臺和快速海量表型組學(xué)數(shù)據(jù)的采集與解析平臺逐步成熟以及應(yīng)用研究深入開展,各類林木的基因組學(xué)、表型組學(xué)和遺傳學(xué)等背景數(shù)據(jù)也將日臻完善,將為林木樹種GS研究提供一個有力的技術(shù)支持和數(shù)據(jù)支撐。應(yīng)用于林木遺傳改良的GS技術(shù),也將為林木功能基因組研究和林木優(yōu)良品種(品系)選育提供堅實的理論基礎(chǔ)。因而,GS技術(shù)體系是一種極具發(fā)展前景的、精準有效的林木育種策略,必將在林木育種實踐中被逐步建立和完善;但在林木GS應(yīng)用推廣前,仍需要利用大量的模擬數(shù)據(jù)和真實數(shù)據(jù)評估和驗證GS技術(shù)在林木育種實踐中的可行性(Grattapagliaetal., 2011)。
鑒于林木GS技術(shù)的潛在應(yīng)用前景和重要價值,林木GS研究重點為以下幾個方面:
1)基因組組裝質(zhì)量是開展GS研究的基礎(chǔ)。然而,目前林木樹種基因組組裝質(zhì)量普遍不高,因此提升參考基因組的精度和質(zhì)量仍將是開展高質(zhì)量林木GS研究的一個重要條件。
2)合理試驗方案是林木樹種GS研究順利實施的基本保障。設(shè)計GS試驗方案時應(yīng)考慮目標(biāo)樹種和目標(biāo)性狀的自身特點,例如,目標(biāo)樹種參考基因組的大小和質(zhì)量、多年生屬性、育種群體的遺傳組成、目標(biāo)性狀的遺傳結(jié)構(gòu)等。
3)多性狀復(fù)合選擇將是林木GS研究的新趨勢。目前林木GS研究案例仍然專注于單個性狀的基因組育種值估計,但是隨著社會需求的多樣化,培育同時兼具生長、材性、抗性等優(yōu)勢性狀的新品種已成為當(dāng)前林木遺傳改良工作的新趨勢。
4)多年生屬性是林木GS研究面臨的主要挑戰(zhàn)之一。多年生屬性使得林木樹種的目標(biāo)性狀數(shù)據(jù)具備縱向性(longitudinal),具備處理縱向性狀數(shù)據(jù)能力的GS統(tǒng)計模型和分析軟件仍處于空缺狀態(tài)。
5)借鑒家畜和農(nóng)作物GS成功案例,設(shè)計出適合林木樹種特點(多年生、異交和全同胞家系成員龐大)的GS分析模型和工具,必將是構(gòu)建林木GS研究技術(shù)體系的有效捷徑。