王欣 徐一億 徐揚 徐辰武
(1.揚州大學農學院,揚州 225009;2.揚州大學信息工程學院,揚州 225009)
傳統(tǒng)的作物育種基于表型選擇,通過觀察作物表型的變異選擇優(yōu)良后代。雖然育種家可以利用生物遺傳一般規(guī)律、綜合選擇指數、同期群體比較和田間試驗統(tǒng)計等手段進行田間試驗設計和選擇,但是其工作高度依賴于育種家的經驗,效率較低。20世紀90 年代以來,伴隨著基因組上大量分子標記的開發(fā),人們開始借助分子標記進行輔助育種。
目前分子標記輔助選擇育種技術的應用已經愈發(fā)成熟,但是其只適用于由較少主效QTL 決定的性狀。實際的作物育種工作需要多個性狀的協(xié)同改良,育種項目中可供育種家利用的材料有成百上千份,組配組合則更多,然而由于試驗規(guī)模限制,大量重要材料并未進行測試,育種效率較低。全基因組選擇(genomic selection,GS)[1]方法利用覆蓋全基因組的分子標記和樣本的表型數據建立預測模型,以實現個體的遺傳評估。利用GS 技術開展育種工作,只需對較少的材料/品種進行表型鑒定,就可以利用基因組上的高密度標記對更多尚未開展田間試驗的材料/品種表型進行預測,能夠大大降低育種成本,提高育種效率。
GS 技術在動物育種尤其是奶牛育種中已經取得了很大進展,并且在加拿大、美國等國家的奶牛育種實踐中得到了廣泛應用。但是由于育種體系和育種目標的差異,作物的GS 面臨若干不同的問題,如品種間缺乏明確的系譜關系,環(huán)境對表型有較大影響等。近年來隨著高通量測序技術的發(fā)展和測序成本的下降,GS 技術在作物育種中也獲得了較大發(fā)展。特別是作物的雜種育種中,雜交種的基因型可以由親本基因型進行推斷,GS 的優(yōu)勢更加突出。目前國內外已經開展了多種作物的GS 驗證研究。如水稻中,Xu 等[2]從210 份重組自交系親本所產生的21 945 份雜交后代中隨機選擇278 份材料進行表型鑒定,并利用這278 份材料作為訓練樣本來預測所有可能雜交種的產量相關性狀,發(fā)現預測產量最高的100 個潛在雜交種的產量比平均產量提高16%。小麥中,Juliana 等[3]基于國際玉米和小麥改良中心(CIMMYT)48 562 個產量觀測結果的大型數據集進行建模,在產量測試的第1、2 和3 階段分別獲得了0.56、0.50 和0.42 的平均預測精度。在熱帶玉米的多親本育種群體中,Zhang 等[4]的研究指出,快速循環(huán)基因組選擇是一種在短時間內既能保持遺傳多樣性又能獲得高遺傳增益的有效育種策略。
作為作物分子設計育種中一項不可或缺的先進技術,GS 是國際數量遺傳學研究的重要熱點,近年來在模型算法、群體構建方案、多性狀與多環(huán)境預測方法和多組學預測方法等方面涌現出了大量研究成果。如Guo 等[5]深入研究了不同訓練集設計方案對雜交種表型預測的影響,結果表明,對訓練集的精心設計,能夠顯著提高模型的預測精度。Wang等[6]的研究將玉米親本一般配合力(GCA)的估計和雜種表型預測相結合,提出了稀疏部分雙列雜交(SPDC)設計方案,能夠同時實現對玉米大量親本GCA 值和更多雜交種表型的精確預測。Xu 等[7]在玉米中開展多組學聯(lián)合分析的同時,整合雙親表型預測雜交種的表現,顯著提升了表型預測的準確性。Yin 等[8]開發(fā)了運用機器學習確定模型參數的KAML 方法,并用于包括玉米、人類、牛和馬的多個數據集,預測精度高于經典的GBLUP 和貝葉斯方法,展示出機器學習方法在GS 中的成功應用。近期Wang 等[9]開發(fā)了一種基于深度神經網絡的GS方法DNNGP,其表現超過了GBLUP 和LightGBM 等多種經典方法。
理論方法的創(chuàng)新為GS 技術的發(fā)展奠定了基礎,不過要在育種中落到實處,作物基因型和表型的高效測定是必要前提。近年來,單核苷酸多態(tài)性(SNP)標記在水稻、玉米、小麥和大豆等作物的資源鑒定、遺傳分析、功能基因挖掘和分子設計育種等方面得到越來越廣泛的應用。雖然芯片的SNP 標記密度低于重測序技術,但是其成本相對較低,準確度高,重復性好,試驗流程標準化程度高,芯片設計靈活,為GS 中基因型數據的獲取提供了重要技術條件。
GS 育種是分子設計育種的重要方法,自問世以來就享有“革命性育種技術”的美稱。目前國外發(fā)達國家種業(yè)企業(yè)已經把作物GS 育種付諸實踐,但是我國的作物GS 育種大多還處于實驗室模擬階段,其原因是多方面的,包括模型預測精度不夠理想,基因型和表型數據共享程度低,缺少GS 育種專用芯片以及配套軟件和平臺等問題。本文旨在闡述并分析當前作物GS 的研究現狀,指出其面臨的問題和發(fā)展前景,為推動GS 的進一步發(fā)展提供策略和思路。
GS 的實施過程,首先要采集訓練群體的表型和基因型信息,然后利用模型估計各標記的效應,進而利用候選群體的基因型估計其遺傳效應值[10]。然而在全基因組選擇模型中,標記的數量P 往往大幅超過觀測的樣本數n,從而給模型的訓練和目標性狀的精確預測帶來困難。近年來,大量學者開發(fā)出了一系列基因組選擇方法,主要包括線性模型及其擴展,各類貝葉斯方法,以及多種機器學習(machine learning,ML)方法(圖1)。
圖1 GS 方法的分類Fig.1 Classification of GS methods
基因組最佳線性無偏預測(genomic best linear unbiased prediction,GBLUP)[11]是一種利用全基因組標記預測目標群體基因型值和表型值的高效方法[12-13]。它通過構建基因組關系矩陣G,代替?zhèn)鹘y(tǒng)BLUP 中基于系譜關系建立的親緣關系矩陣。G 矩陣通常由全基因組上的高密度標記構建,而利用大量基因標記信息的最佳線性無偏估計則保證了GBLUP方法預測精度的穩(wěn)健性,使其在廣泛的各類數據集中都表現較好。此外,由于GBLUP 方法遺傳效應的計算公式簡單,且無需迭代運算,所以效率很高,是GS 研究中最常用的一般方法和各種創(chuàng)新方法的比較基準,也被大量學者用作復雜場景(如多組學、多性狀和多環(huán)境研究)下GS 拓展方法的基礎模型。最小絕對收縮和選擇算子(least absolute shrinkage selection operator,LASSO)[14]在線性回歸的基礎上添加了L1 正則項,通過構造一個懲罰函數得到較為精煉的模型,將大部分標記的效應壓縮為0,是一種選擇收縮算法。Friedman 等[15]利用循環(huán)坐標下降法開發(fā)了快速求解LASSO 的算法,克服了大多數選擇收縮算法耗時過長的問題,成為該方法的一大優(yōu)勢。嶺回歸(ridge regression,RR)在線性回歸的基礎上添加了L2 正則項[16],彈性網(elastic net,EN)[17]則同時使用L1 和L2 正則化,是LASSO 和嶺回歸的結合。
貝葉斯類方法假定標記的效應服從一定的先驗分布[18-19],其中BRR 假定所有標記的效應有著相同的方差;BayesA 則允許每個標記的效應有不同的方差;BayesB 和BayesC 中大部分的標記效應被設置為0,對于剩余少數標記的效應,BayesB 允許有不同的方差,BayesC 則假定它們有相同的方差。BayesCπ 在BayesC 的基礎上,設定0 效應標記的占比為服從均勻分布的變量。從假設條件上看,BRR將各個標記均等對待,這一點與GBLUP 無差別利用大量標記信息計算G 矩陣的效果相似。BayesA 所估計得到的標記效應,差異稍大。BayesB、BayesC 和BayesCπ 則更進一步擴大了這種差異,其中BayesB幾乎在最大程度上對標記效應進行選擇收縮和差別對待,因此成為選擇收縮算法的代表,特別適用于由少數主效基因決定的性狀。各類貝葉斯方法具有設計精巧、準確性高和可解釋性強等優(yōu)點,但是模型的求解往往依賴于貝葉斯框架下的抽樣方法求解,所以計算效率較低,給實際推廣帶來了一定的制約。
機器學習的快速發(fā)展為GS 提供了更加豐富和靈活的方法。一般的機器學習模型包括支持向量機(support vector machine,SVM)[20]、再生核希爾伯特空 間(reproducing kernel Hilbert space,RKHS)[21]、核 嶺 回 歸(kernel ridge regression,KRR)[22]和KAML 等[8]。SVM 通過尋找最佳分隔的超平面,執(zhí)行線性或非線性的分類和回歸。RKHS 利用高斯核函數擬合模型,可通過貝葉斯框架下的抽樣方法或混合線性模型求解。KRR 則在嶺回歸的基礎上引入核函數,將原始空間中的數據映射到更高維的核空間,以實現對非線性函數的學習。
深度學習(deep learning,DL)[23]是機器學習的重要分支,它使用包含多個隱藏層的深度神經網絡。相對于其他淺層結構算法,深度神經網絡具有更強的特征學習能力,能夠捕捉數據中蘊含的復雜非線性關系。盡管所有的深度學習方法都由多個神經元堆疊而成,但是它們實際上包括各種各樣的架構,在GS 中應用較多的結構包括多層感知機(multilayer perceptron,MLP)和卷積神經網 絡(convolutional neural networks,CNN)[24]。 如Montesinos?López 等[25]曾利用7 組小麥數據集評估了MLP 的全基因組預測性能。同樣基于MLP 結構,Montesinos?López 等[26-27]利用關系矩陣的“克羅內克積”反映性狀間和環(huán)境間的聯(lián)系,進而實現了多性狀和多環(huán)境的聯(lián)合預測。CNN 技術引入卷積代替MLP 中的點積運算,近年來在GS 研究中逐漸受到關注。如Ma 等[28]開發(fā)了基于CNN 的DeepGS,對2 000 份小麥品種的8 個性狀表型進行預測,取得了一定的成效,近期Wang 等[9]更是基于CNN 開發(fā)了新的方法DNNGP,并在多組數據集中取得了成功。
集成學習(ensemble learning,EL)[29]通過構建并結合多個機器學習器來完成學習任務,如隨機森林(random forest,RF)[30]、GBDT[31]、XGBoost、LightGBM[32]和其他形式的模型融合方法。RF 使用決策樹作為弱學習器,在每個決策樹的訓練過程中,除了采用自助采樣法對樣本進行采樣,還在每個節(jié)點的特征選擇時隨機選取一部分特征進行考慮,其最終的預測結果是基于所有決策樹的投票或平均。GBDT 是一種迭代決策樹算法,通過使用加法模型,不斷減小訓練過程產生的殘差實現分類或回歸。XGBoost 在GBDT 基礎上進行了一系列優(yōu)化,加入了二階導數信息和正則項等。LightGBM 是微軟開發(fā)的輕量級梯度提升機,相對XGBoost 具有訓練速度快和內存占用低等優(yōu)點,Yan 等[33]將其用于玉米的一組大型數據集,在預測精度、模型穩(wěn)定性和計算效率方面展示出了卓越的性能。
相對于線性模型和貝葉斯方法,機器學習模型能夠更好地對基因型和表型之間的非線性關系進行學習,不過其缺點是可解釋性往往較差,難以對生物樣本的遺傳效應組成進行分解,以及對各個位點的效應進行評估。如何增強模型對遺傳效應的解析能力,提高優(yōu)異等位基因聚合的效率,是未來機器學習方法研究所面臨的一項重要挑戰(zhàn)。
大多數GS 研究使用待測群體表型預測值與實際值之間的相關系數或決定系數衡量模型的預測精度,以反映GS 的功效。作物GS 的實際功效受到多種因素的影響,其中遺傳因素包括目標性狀遺傳力、訓練群體和育種群體間的關系、標記密度、標記和QTL 間連鎖不平衡的程度等,非遺傳因素包括訓練樣本數量、模型和算法及其參數的選擇,以及數據的清洗方案等(表1)。
表1 影響全基因組選擇功效的因素及其優(yōu)化策略Table 1 Factors affecting GS efficacy and corresponding optimizating strategies
研究表明,預測精度首先受到目標性狀遺傳力的影響,遺傳力越高,精度越高[12]。作物的產量性狀容易受到環(huán)境等非遺傳因素的影響,往往具有較低的遺傳力,然而幸運的是,這并不意味著GS 的低效。Wang 等[34]在水稻中的研究結果表明,GS優(yōu)選群體的平均選擇優(yōu)勢與性狀的遺傳力并無直接聯(lián)系。雖然產量等性狀的預測精度較低,但是其原因在于高占比的誤差方差,這并不妨礙育種家利用GS 技術獲得理想的遺傳增益。對于較低遺傳力的性狀,適當擴大優(yōu)選群體,就能夠獲得穩(wěn)定的較高平均選擇優(yōu)勢。
此外,訓練群體和育種群體之間的關系也會影響選擇的效果,有研究表明,與訓練樣本遺傳上相似的群體能夠獲得較高的預測精度,對于一些遺傳不相似的亞群,則預測精度較低[35]。在Wang 等[6]對玉米親本GCA 的預測研究中,參與訓練集田間試驗的親本相對未參與者能夠獲取更高的預測能力,也提示了訓練集與測試集之間緊密遺傳關系對模型預測的積極貢獻。然而大量增加與測試群體遺傳相似的訓練樣本,可能降低優(yōu)選品種的遺傳多樣性,從而不利于長期的遺傳增益。因此,在實際育種中需要尋求訓練集和測試集之間關系的平衡[36]。
GS 假設基因組上總有標記和影響性狀的QTL之間存在連鎖不平衡,增加標記的密度能增加標記和QTL 之間的LD 程度,從而可能獲得更高的準確度[37]。理論上,標記密度越大越好,但是與訓練種群的數量相比,其對預測精度的影響較小[38]。在Wang 等[34]使用GBLUP 方法對水稻的GS 預測中,1610K 標記的預測精度高于470K,又高于96K,不過其差異非常微小,即標記密度達到一定程度后,GS 的精度難以顯著提高。因為高密度標記的獲取成本較高,且給數據的預處理和模型訓練帶來困難(如GBLUP 方法的G 矩陣運算需要超出一般個人電腦配置的更大內存,選擇收縮算法的變量選擇難度加大和訓練速度的大幅降低),所以在實際的作物GS 應用中,根據我們的經驗,使用全基因組上均勻分布的數萬個SNP 標記具有較高的性價比。此外,標記和QTL 間的LD 程度也會影響GS 的準確性,隨著世代的增加,標記和QTL 的LD 會逐漸降低。Meuwissen 等[1]發(fā)現在基因型測定后的前2 個世代GS 的準確性下降較快,其他世代下降速度則相對減慢。隨著世代的增加,遺傳力較高性狀的基因組預測準確性降低較慢。
樣本數量和GS 模型等非遺傳因素也會對預測效果產生影響。較大的訓練樣本十分有利于GS 模型對等位基因效應的準確估計,進而有利于對潛在品種的精確選擇。尤其是對低遺傳力的性狀,增大樣本數量和試驗重復數可以降低誤差效應的不利影響,提高模型的功效。前人的研究表明,遺傳力為0.2的性狀需要的訓練樣本數量超過1 000[39]。
實際的GS 過程中,模型和算法是更易調整的可變因素。不過其挑戰(zhàn)在于,雖然有大量的GS 方法可供選擇,但是育種家在使用GS 技術時僅能對少數方法的預測結果開展進一步的田間鑒定。研究者在育種組合的優(yōu)選之前,首先需要對GS 方法進行優(yōu)選,所以GS 方法的比較研究是十分重要的基礎工作。近年來一些學者使用不同的作物群體數據,對多種GS 方法進行了比較。Xu 等[38]利用一組基于NCII 設計的水稻數據集,比較了6 種GS 方法的表現,發(fā)現不同方法的可預測性存在顯著差異,其中GBLUP 和LASSO 最佳,SVM 和部分最小平方法最差。Wang 等[12]以一組小麥數據集為基礎,利用6 種方法進行了模擬研究,并用于小麥實際產量數據的預測。其結果表明,對于具有不同遺傳結構的性狀,各GS 方法的表現差異明顯?;谪惾~斯的選擇收縮算法對QTL 的數目較為敏感,當性狀由較少數目的QTL 控制時,預測精度較高,當影響數量性狀的QTL 數目很多時,精度則會下降。GBLUP 和RR?BLUP 的穩(wěn)健性較強,其預測精度不受QTL 數目的影響,在預測作物產量等由大量微效基因決定的性狀時,更具優(yōu)勢。近年來一些學者使用新的機器學習模型和算法,在作物的GS 中取得了令人矚目的成績[8-9,33],不過各種機器學習方法的功效是否受性狀遺傳結構的影響,還缺少相關的研究。此外,超參數的選擇對一些機器學習方法的性能影響較大,如深度學習中網絡層數、神經元數目、濾波器大小、迭代次數和激活函數的不同調優(yōu)方案,可能產生完全不同的預測效果。因此使用多組不同的數據集,進行網格搜索、隨機搜索或人工經驗調參以優(yōu)化參數組合,對于提高模型的精度和泛化能力是十分重要的工作。
盡管一系列模型和算法先后被提出,并使用不同的數據集進行了廣泛的比較,但是當前的GS 建模仍然面臨“大p,小n”問題,即標記數目遠大于樣本量,容易導致多重共線性和過度擬合,進而影響模型表現的穩(wěn)定性,以至于沒有哪種方法在大多數情況下都能保持領先的預測精度。Xu 等[40]建議在使用GS 方法輔助育種決策之前,先在訓練集中利用交叉驗證對比不同模型的精度,以實現GS 方法的優(yōu)選。不過實際中待測群體和訓練群體之間往往存在一定的遺傳差異,要從一般意義上解決上述問題,建立科學的數據清洗方案可能是一種有效的途徑。除了常規(guī)的標準化或歸一化等預處理,還應開發(fā)與基因組信息特征相適應的降維方案,采用單倍型劃分或主成分分析等方法,在保留大部分標記信息的基礎上大幅減少自變量數目,降低過擬合的風險,以提高GS 中眾多選擇收縮方法的健壯性。這一點對于GS 精度的突破性提升,是至關重要的。
傳統(tǒng)的GS 方法在估計遺傳效應時大多只考慮最簡單的加性效應(育種值),雖然非加性遺傳效應不能直接從親本傳遞給子代,但是它們對那些和適應性緊密相關的性狀和低遺傳率性狀是非常重要的[10]。尤其對于作物的雜種育種,雜交種與親本之間存在明顯的基因表達差異[41-42],表現為加性和非加性等差異表達模式。因此,很多學者提出在GS 中有必要考慮非加性效應[43-45]。Xu 等[46]的模擬研究表明,在混合模型中納入上位性多基因協(xié)方差,可以提高QTL 定位的分辨率,并將其用于水稻產量相關性狀的遺傳效應解析。
在GS 模型中,Xu 等[2]引入顯性和上位性等效應,模擬實驗表明能夠提高預測能力,不過在預測雜交水稻實際表型值時,新的模型未能獲得預期的效果,原因可能是模擬中的部分假定與實際情況存在偏差。另外在樣本群體較小的情況下,基于全基因組的變異位點和位點間互作進行分析時,超飽和模型難以保證估計的精度。因此,如何對基因型值進行科學編碼以正確反映顯性和上位性等遺傳效應,是非加性模型構建所面臨的重要挑戰(zhàn)。近期Miranda等[47]的研究就借助Huang 等[48]提出的關系矩陣構建方案,開發(fā)了用于GBLUP 模型加性和顯性效應參數評估的方法,不過模型的預測效果仍需在更多數據集中研究驗證。近期Li 等[49]將GS 中具有加性和/或顯性效應的12 個品質性狀的遺傳基因位點分層,提高了對雜交種預測的準確性,也為非加性效應的估計提供了新的思路。
機器學習方法是實現非加性遺傳效應評估的又一重要途徑。Budhlakoti 等[50]的研究表明,當模型中加入非加性遺傳結構時,SVM 等非參數方法的性能可能比參數方法的性能更好,原因在于這些方法不需要嚴格的統(tǒng)計假設。王向峰等[51]提出,為了克服傳統(tǒng)混合線性模型基因組預測的不足,應用機器學習,尤其是深度學習等人工智能領域中的先進算法,是GS 育種的下一步發(fā)展方向。Wang 等[52]則指出,深度學習算法具有強大的非線性建模能力,有助于提高GS 的精度。近期Wang 等[9]分別對多個數據集,首先使用主成分方法降維,然后基于深度神經網絡開展預測,模型精度超過了其他多種方法。從原理出發(fā),以深度學習為代表的機器學習方法能夠自主學習基因位點的主效應、等位基因之間或者位點間的互作關系,避免了基于某種簡化假設模型的基因型數值再編碼,從而有機會更好地捕捉位點的非加性效應。
GS 方法的育種應用離不開作物群體的科學構建。Guo 等[5]利用玉米、小麥和水稻數據集,研究了預測雜交種表型的訓練集設計方案。將雜交種的所有親本自交系視為需要從中選擇雜交組合的整體遺傳空間,設計并測試了3 種代表性子集選擇方法,以建立用于雜交種基因組預測的訓練集。其中PAM方法圍繞聚類的中心點進行劃分,FURS 方法快速地從給定的圖中選擇一組代表性節(jié)點,MaxCD 方法則在連通性和多樣性最大化的基礎上進行選擇。結果表明,有效的基因組預測模型只需要整個訓練集大小的2%-13%,揭示了對海量遺傳組合高效推斷的可能。Chung 等[53]的研究也指出,在雜種育種過程中,單純對親本育種值的優(yōu)選會導致遺傳多樣性的喪失,為了保持基因組多樣性,在親本選擇過程中應避免選擇親緣關系密切的材料。該研究提出了一種平衡育種值和遺傳多樣性的折中策略,并在兩組水稻數據集中得到了驗證,該策略與前述Guo 等[5]的MaxCD 方法有著共通之處。
在科學開展遺傳交配設計的基礎上,GS 模型還可用于GCA 等育種指標的精確預測。王欣等[54]將NCII 水稻數據集的親本GCA 看作目標性狀,進行了5 倍交叉驗證和留一法的基因組預測,結果表明其預測是有效的,能夠幫助育種家實現對親本的科學選擇。不過將GCA 當作因變量,首先需要獲得所有訓練集親本的GCA 值。盡管NCII 設計能夠完全滿足這一條件,但是由于成本和田間試驗條件的限制,很多情況下作物的組配設計是稀疏的。Wang 等[6]進一步使用SPDC 設計,研究了稀疏條件下利用全基因組標記對玉米親本GCA 的預測情況。結果表明在訓練集雜交種組配異常稀疏的情況,也能夠實現對親本GCA 的精確估計。另一方面,在遺傳交配設計時,應盡可能讓更多的親本參與訓練集的田間試驗,以獲取較高的預測能力。
一般的GS 方法關注單一環(huán)境下單個性狀的研究。然而,對單個性狀的預測和選擇忽視了關聯(lián)性狀共同的生物學基礎以及多性狀的協(xié)調發(fā)展[55]。綜合選擇指數方法,是動植物多目標育種選擇的常用方法,可以被用來同時改良多個性狀。GS 的快速發(fā)展,為選擇指數帶來了新的前景。Schulthess 等[56]使用黑麥中的兩個性狀建立選擇指數,并將其看作單一性狀用GS 方法進行預測。Leite 等[57]利用選擇指數和多變量分析篩選表型優(yōu)異的大豆基因。Lyra等[58]將玉米雜交種在不同氮脅迫下的性狀組合以構建選擇指數,然后用GS 方法進行預測,結果表明方法是有效的。Xiao 等[59]在水稻中通過全基因組測序解析育種群體中有利基因分布以及連鎖關系,并結合GS 優(yōu)化品種改良方案實現了品種多性狀的協(xié)同提升。
對作物的多個性狀進行聯(lián)合分析,還能夠提高對目標性狀預測的精度[56]。Wang 等[34]基于NCII設計的水稻數據集,利用指示變量構造的關系矩陣反映多變量之間的關系,在性狀數據非平衡的情況下(待測群體目標性狀之外的部分性狀表型已知),兩性狀聯(lián)合分析時對性狀的預測能力較單性狀分析時平均要高6.4%,八性狀聯(lián)合分析時較單性狀分析平均要高26.7%。不過在性狀數據平衡情況下(待測群體所有性狀表型未知)的一些研究中,多性狀模型的精度并非總是優(yōu)于單性狀[27]。通過構造選擇指數也可以實現多性狀的聯(lián)合預測,針對性狀數據平衡的情況,Wang 等[60]提出了一種基于選擇指數的多性狀GS 方法,該方法利用與目標性狀相關的多個輔助性狀及其蘊含的目標性狀遺傳信息構建選擇指數,不僅能實現對水稻雜交種多個性狀的綜合選擇,還能對目標性狀進行輔助預測,提高了低遺傳力目標性狀的預測精度。近期Liang 等[61]提出了一個機器學習框架MAK,通過構建多目標集成回歸鏈和自動選擇輔助性狀來提高目標性狀的預測精度,該框架僅使用待測樣本的基因型信息預測目標性狀育種值。在4 個真實的動植物數據集中,其預測能力顯著高于GBLUP 和多種貝葉斯方法。
植物表型是由基因型、環(huán)境型和基因型與環(huán)境相互作用的綜合作用決定的[48]。作物育種中大量表型數據的觀測值來自多年多點的不同環(huán)境,育種家希望預測的不僅是潛在材料的育種值,還包括特定環(huán)境下的表型值。Lopez?Cruz 等[62]將G × E效應納入GBLUP 模型,顯著提高了模型的預測能力。Cuevas 等[63]進一步將非線性高斯核與Lopez?Cruz 等的基因環(huán)境互作模型相結合,發(fā)現模型對CIMMYT 小麥數據集的預測能力提高了17%。貝葉斯模型也同樣被擴展為基因環(huán)境互作模型,在小麥和玉米中取得了高于單環(huán)境的預測精度[64-65]。近期Rogers 等[66]在玉米中的研究表明,使用環(huán)境協(xié)變量的基因組預測能力取決于訓練集和測試集數據之間環(huán)境的相似性。相較于遺傳相似性,數據集之間的環(huán)境相似性對預測效果影響更大。Yan 等[67]則指出,如果確定了可重復的基因環(huán)境互作模式,則必須將作物目標區(qū)域劃分為子區(qū)域或大環(huán)境。育種和大環(huán)境特異性品種的利用會將可重復的基因環(huán)境互作轉化為大環(huán)境內的基因型主效應,從而提高選擇的增益和可靠性。如果沒有發(fā)現可重復的基因環(huán)境互作模式,則必須將目標區(qū)域視為單個大環(huán)境,通過充分測試來適應基因環(huán)境互作。上述多項研究結果提示,在進行多環(huán)境的聯(lián)合GS 過程中,首先明確大環(huán)境的劃分,繼而將同一大環(huán)境內盡可能多的表型觀測信息納入模型,是一種行之有效的策略。
一般的GS 方法忽略基因組與其下游調節(jié)因子之間的相互作用[68]。下游的轉錄組、蛋白組和代謝組等組學信息是由基因型向表型傳遞的中間產物,它們反映了不同生物層內部和之間的相互作用[69]。隨著組學技術的進步,代謝組學和轉錄組學數據為作物的表型預測提供了新的來源。一些研究使用親本轉錄組或代謝組學數據預測待測雜交種的表現。Frisch 等[70]首次使用21 個親本自交系的表達譜數據和98 個雜交種的表型數據對玉米雜交種進行了預測?;谙嗤臄祿現u 等[71]使用56K 微陣列分析親本自交系的基因表達,發(fā)現雜交種的表現可以通過親本自交系的基因表達數據得到準確預測。Zenke?Philippi 等[72]使用2K 的核心基因表達數據和1K 的AFLP 標記數據對玉米雜交種的產量和干物質含量進行轉錄組和基因組預測。在使用嶺回歸模型時,對雜交種表型的轉錄組預測略好于基因組預測。對于代謝組學預測,Riedelsheimer 等[73]利用285 份玉米自交系的56 110 個SNP 和130 種代謝產物,以及570 份測交種的表型數據構建GS 模型,預測了7個性狀的一般配合力,發(fā)現代謝物的預測精度與基因標記的預測精度相當。Xu 等[74]利用210 份水稻親本的代謝組數據預測278 份雜交種的產量,發(fā)現與基因組預測相比,預測能力幾乎提高了一倍。
多組學數據的聯(lián)合預測有可能進一步提升預測的效果。Guo 等[75]使用玉米數據評估了基因表達和代謝數據在基因組預測中的效果,其研究結果表明,基于基因表達和代謝產物的預測能力是特異性的,受到測量時間、組織樣本以及基因和代謝產物數量的影響。不過與僅使用全基因組標記的GBLUP 模型相比,將基因表達水平和代謝物豐度與遺傳標記相結合顯著提高了預測能力,有助于提高復雜性狀的遺傳增益。Westhues 等[69]將玉米轉錄組數據與親本自交系的基因組數據相結合,發(fā)現能夠提高對潛在雜交組合預測的成功率。Schrag[76]等也利用玉米親本系的基因組、轉錄組和代謝組數據,評估了基于這些組學數據對待測雜交種的預測能力,發(fā)現預測因子和性狀的預測能力之間存在很強的互作關系,信使RNA 是產量和干物質含量的最佳預測因子,結合信使RNA 和基因組數據作為預測因子,在兩個性狀上都有很高的預測能力,提示下游的組學數據是基因組預測的重要補充,有助于對潛在雜交種的精確選擇。Wang 等[77]對水稻不同組學數據組合后的預測能力進行了比較,得出的結論是,使用基因組和代謝組學數據組合的預測通常比單一組學預測或基于其他組學數據組合的預測效果更好。Wu 等[78]在大麥中也發(fā)現,來自轉錄組和代謝組的任何預測因子在3 個性狀上的平均預測能力都高于SNP 標記,并建議使用集成的組學數據集開展預測工作。
轉錄組和代謝組相較基因組更接近生物的表型,其數據的充分使用有利于預測精度的提高,不過將其用于育種實踐的困難是,數據獲取成本相對高昂,且雜交種的轉錄組和代謝組都難以像基因組一樣直接從親本的組學信息中精確推斷,其預測能力可能顯示出對性狀的特異性。相對于組學數據,單交種雙親的表型信息更容易在早期以較低的成本獲取。近期Xu 等[7]提出了將作物親本表型信息納入雜交種表型預測的策略,為基于多元數據的預測提供了新的途徑。該研究基于210 份水稻自交系的基因組、轉錄組和代謝組數據以及278 份雜交種的表型數據,利用混合線性模型,進行了多組學的聯(lián)合分析,并整合親本表型預測雜交種的表現。研究結果表明,無論采用何種組學信息進行預測,結合雙親信息后,所有性狀的預測準確性均有不同程度提高,產量、穗粒數、分蘗數和千粒重的平均預測力分別提高了13.6%、54.5%、19.9%和8.3%。
近年來,作物SNP 育種芯片的不斷研發(fā),為GS 中基因型數據的獲取提供了重要技術條件。目前超過25 種作物中已經開發(fā)了百余款芯片[79-80],其中水稻的代表性芯片有RICE6K 和RiceSNP50 等;玉米代表性芯片有MaizeSNP600K、MaizeSNP50 Beadchip 和Maize6H?60K 等;小 麥 代 表 性 芯 片 有Wheat 9K iSelect、Wheat 90K iSelect、Wheat 660K Axiom 和Wheat HD Genotyping Array 等;馬鈴薯代表性芯片有SolSTW array 等;大豆代表性芯片有SoySNP50K 和SoyaSNP 180K Axiom 等。這 些 芯 片主要是基于國外的Illumina Infinium BeadChip 技術或Affymetrix Axiom 技術。我國科學家建立了具有自主知識產權的靶向測序-液相芯片技術,并在水稻、玉米和小麥上分別開發(fā)了GenoBaits? Rice 40K、GenoBaits? Maize 45K 和GenoBaits? WheatSNP16K 等一系列液相芯片。
上述芯片雖然在種質資源遺傳多樣性評估、品種指紋圖譜構建和重要基因的定位中具有重要用途,但是要針對實際育種群體高效開展GS 育種還存在諸多困難:(1)現有芯片信息覆蓋度不高,不利于持續(xù)提高GS 的效率。目前的GS 研究大多都是基于SNP 標記,忽略了很多與性狀關聯(lián)但與鄰近SNP 無連鎖的結構變異,而這些結構變異與抗逆性、抗病性、產量和品質等重要性狀有關,其鑒定工作對于作物育種有著重要的意義,但是目前作物芯片中尚未包含這類結構變異信息,從而造成遺傳力的丟失。(2)現有芯片通用性不足,不同基因型數據難以共享。GS 的準確性隨著訓練群體的增大而增加,然而即使是同一作物,不同的育種家往往也會針對各自的群體和育種目標選擇不同的育種芯片,造成群體間不同位置的標記無法納入同一預測模型,這極大地阻礙了作物基因型數據的共享,限制了GS 預測模型的優(yōu)化和準確性的提高。(3)對于大規(guī)模育種應用,芯片檢測成本仍然較高。作物育種群體數量龐大,開展GS 育種時需要考慮基因型鑒定成本。盡管目前SNP 芯片的成本已經有所降低,但是單個樣本分析的成本仍需百元左右,且標記密度不同會導致較大的成本差異,無法滿足現代作物育種的低成本需求,大多數育種企業(yè)囿于巨額的基因型鑒定成本投入而無法大規(guī)模應用GS 育種技術。(4)缺乏育種芯片專用的分析軟件和平臺。TASSEL 和PLINK 等主流基因型分析軟件只能支持特定格式的輸入文件,如Hapmap 或VCF 格式。育種家手中的芯片數據往往具有各種不同的格式,目前尚缺乏此類芯片數據的標準化分析工具。此外,多數種企和育種單位的信息化水平仍然較低,缺乏系統(tǒng)的育種芯片處理及育種決策軟件和平臺。(5)我國底盤技術創(chuàng)新不足,核心技術受制于人。目前市場上的SNP 芯片主要以Illumina 公司和Affymetrix 公司的技術為主,我國缺乏底盤技術的自主知識產權,隨時面臨技術“卡脖子”的風險。
要克服上述困難,只有充分利用功能基因組學研究成果,研發(fā)具有我國自主知識產權、廣適性好的作物育種專用芯片。在考慮已克隆的高產、優(yōu)質、抗病蟲、抗逆、養(yǎng)分高效等重要性狀功能基因和關聯(lián)SNP 標記的基礎上,整合相關結構變異標記,提高育種芯片的檢測功效。并開發(fā)與育種專用芯片配套的數據分析軟件,以圖形化界面的方式完成對種質資源類型的劃分、全基因組選擇模型的構建、預測模型的優(yōu)化、預測準確性的評估,對測試群體表型進行快速、精準預測,實現對作物產量、品質、抗性等重要位點的快速篩查。
更進一步,應當構建智能決策育種平臺,提升育種效率和決策水平。作物廣泛來源的(包括地方品種、亞種和品系等)豐富遺傳變異,可以通過基于基因組信息的人工智能和大數據等現代技術來識別和發(fā)現[36]。具體措施,應廣泛收集表型、基因型和環(huán)境數據,同時制定數據管理的標準與規(guī)范,強化遺傳育種與人工智能和大數據等信息技術的交叉集成,協(xié)同建立通用的智能決策育種平臺,通過平臺、技術、群體、數據、模型以及育種材料的充分共享和積累,實現資源利用和育種效率的最大化,創(chuàng)新發(fā)展以育種專用芯片應用為核心技術的GS 育種體系,為作物育種的精準化、高效化、智能化發(fā)展提供有力支撐。
GS 育種技術的逐漸成熟和廣泛應用為作物育種研究提供了新的機遇,將其與重要目標性狀基因的精準鑒定結果相結合,有望大大加快優(yōu)異基因聚合的效率,并創(chuàng)制出更加豐富的遺傳資源。尤其針對我國作物育種群體遺傳來源較為狹窄的問題,利用基因組水平上的精準預測,能夠幫助育種家放眼更廣泛來源的種質材料,通過精確預測和育種方案的科學設計,聚合更多的有利等位基因,以創(chuàng)建作物的優(yōu)異育種新材料。如果將基因組、轉錄組和代謝組等組學信息相結合,配合對作物多個性狀的聯(lián)合預測,有望實現作物多個性狀之間的協(xié)調發(fā)展,為培育適應機械化生產、優(yōu)質高產多抗廣適作物新品種提供有效途徑。
雖然GS 技術在作物育種中的應用前景廣闊,但是其發(fā)展仍然面臨著眾多挑戰(zhàn),主要包括以下幾點:(1)一般的GS 方法只考慮加性效應,部分學者將顯性及上位性等效應納入模型,但是預測效果還不夠理想;(2)前人的GS 研究大多只針對特定環(huán)境下特定作物群體的單個性狀,忽視了關聯(lián)性狀共同的生物學基礎以及多性狀的協(xié)調發(fā)展,且缺乏詳細的環(huán)境組學數據,難以實現對基因環(huán)境互作模式的識別與利用;(3)多數GS 研究只用到基因組信息,多組學信息和研究成果沒有得到充分利用;(4)缺少GS 育種專用芯片以及配套軟件和平臺,數據共享程度低,限制了GS 效率的提高;(5)作物領域中已有的GS 研究很多停留在方法探索階段,未能廣泛付諸于實際的育種工作。
針對上述問題,首先應結合已有的生物學和遺傳學研究成果,遴選作物全基因組上目標性狀的候選基因,開發(fā)與基因組信息特征相適應的降維方案,以大幅降低模型中的變量數目,同時應用人工智能領域中的先進算法,提高對各類非加性遺傳效應的準確預測;第二,廣泛收集表型、基因型和環(huán)境數據,并對模型進行優(yōu)化,注重作物多個性狀之間的協(xié)調發(fā)展,識別并利用基因環(huán)境互作模式,提高選擇的增益和可靠性;第三,應結合人工神經網絡,機器學習等最新的數學方法,積極開展作物多組學預測研究,構建多組學信息與目標性狀之間的數量遺傳模型,提高多組學聯(lián)合預測的效果;第四,可以謀劃構建GS 專用芯片和統(tǒng)一的GS 平臺,實現群體之間的信息共享與利用,提高數據的利用率;第五,GS 研究必須結合農業(yè)發(fā)展的實際情況與切實需求,讓理論和方法研究更好地服務于實際育種工作,為培育適應機械化生產、優(yōu)質高產多抗廣適作物新品種提供高效途徑??傊S著作物育種精準化和智能化的需求不斷提升,以及基因組學和人工智能技術的快速發(fā)展,未來的GS 研究工作充滿了機遇和挑戰(zhàn)。