王元清,王 兢,朱 波,陳 燕,徐凌洋,王澤昭,張路培,高會江,李俊雅,高 雪
(中國農(nóng)業(yè)科學院北京畜牧獸醫(yī)研究所,北京 100193)
動物育種工作的核心任務在于選種和選配,即選擇具有突出性狀的親本,通過人為確定個體或群體間的交配系統(tǒng),有計劃地選擇公母畜配對,以期獲得理想型的后代或群體。在早期的育種工作中,人們往往利用觀察到的表型值和親緣關系進行選種選配,也就是表型選擇(phenotypic selection,PS)。PS主要分為同質(zhì)選配和異質(zhì)選配,即優(yōu)秀公母畜交配和優(yōu)秀公畜與相對較差母畜交配[1-2]。這兩種選配方法雖然有概率產(chǎn)生優(yōu)秀個體或?qū)Ρ硇椭递^差個體的后代進行改良,但會導致群體中純合子的頻率增加,雜合子頻率降低,進而使群體快速達到純和狀態(tài)。20世紀后期,隨著遺傳學和統(tǒng)計學的不斷發(fā)展,最佳線性無偏預估(best linear unbiased prediction,BLUP)方法被提出,育種者們開始利用BLUP方法估計育種值(estimated breeding value,EBV)[3],并在此基礎上進行選配。1985年,Jansen和Wilton[4]首次將線性規(guī)劃方法(linear program, LP)加入育種工作中,將選配問題轉(zhuǎn)化為數(shù)學模型。即利用系譜信息,在線性方程或線性不等式的約束之下,對所有可能的選配個體進行后代期望育種值的計算,構(gòu)建目標函數(shù)求最優(yōu)解[5]。它采用同時求解的方式,而不是順序求解從而避免存在相關。Weigel和Lin[6]利用LP和系譜信息在荷斯坦牛和娟珊牛群體中進行選種選配,選配方案采用了最小近交,且將近交水平分別控制在5%和8%,后代群體近交水平分別減少了1.8%和2.8%,而利潤分別增加了37.37和59.77美元·頭-1。1994年,Woolliams和Thomas[7]及Lindgren和Matheson[8]提出了遺傳貢獻理論,其理論認為當親本個體實際的孟德爾抽樣與其對后代群體的遺傳貢獻之間存在一定的線性關系時,在對親本間的親緣關系進行約束的情況下,可以最大化后代群體的遺傳進展?;诖死碚?1996年之后,包括Caballero等[9]、Meuwissen[10]和Wodliams等[11]提出最小共祖選配(minimum-coancestry mating,MC)和最小化祖先間遺傳貢獻的協(xié)方差(minimizing the covariance between ancestral genetic contributions,MCAC)兩種選配方法。這兩種選配方法主要使用系譜和表型信息,常用于沒有基因組信息的育種計劃中[12-13]。1997年,Meuwissen[14]基于遺傳貢獻理論還提出了一種非線性規(guī)劃方法,最佳遺傳貢獻選擇法(optimal contribution selection, OCS)。此方法以系譜信息為基礎,通過親本加權遺傳價值的最大化來優(yōu)化每個候選個體對下一代的遺傳貢獻來控制近親交配,盡可能獲得最大的遺傳進展[15-17]。Srensen等[18]在丹麥荷斯坦奶牛中評估了OCS的使用效果,當使用OCS進行選配時,平均加性遺傳關系可以從0.162 1減少到0.149 5。這說明OCS對于降低近交水平有所幫助,但前提要保證系譜信息的準確性。利用系譜信息的LP、OCS等方法,雖然能夠加快遺傳進展,減緩近交水平的上升,但由于系譜資料不能提供親本實際的孟德爾抽樣以及系譜信息記錄的錯誤等問題,選配的效果并不是很理想。
自聚合酶鏈式反應的發(fā)明以及高通量基因分型技術的改進后,又有研究者提出了分子標記輔助選擇(marker assisted selection,MAS),即利用與目標性狀相關的分子標記進行選種選配,成為一種省時高效的育種策略,快速提高了選育的遺傳進展(ΔG)[19]。之后,隨著越來越多的基因組信息被挖掘和應用,國內(nèi)外研究者們也開始使用基因組信息進行選配方法的優(yōu)化。Liu等[20]利用系譜和基因組信息,使用隨機模擬比較了MC和MCAC兩種交配策略在5種育種方案中的近交增量和遺傳進展。研究表明,當使用基于基因組信息的MC和MCAC交配策略時,預期的近交增量比利用系譜信息降低了6%~22%,而預期遺傳進展并沒有降低;并且與隨機交配對照方案相比,這兩種方案的近交增量降低了28%~44%,遺傳進展提高了14%。2012年,Sonesson等[21]在OCS中利用基因組關系矩陣G來代替基于系譜信息的加性關系矩陣A來優(yōu)化選配,這種方法被稱為基因組最佳遺傳貢獻選擇(genomic optimal contribution selection, GOCS)。利用G矩陣計算可以避免系譜的錯誤或者缺失,以及計算A矩陣時忽略了久遠的世代所造成的偏差等問題[22-24]。但是GOCS不能直接控制與目標性狀相關的近交增量組分,因此無法達到遺傳進展和近交控制之間的最佳平衡。與此同時,全基因組選擇(genomic selection,GS)這一策略被提出[25-30],即通過覆蓋全基因組范圍內(nèi)的高密度標記估計基因組育種值(genomic estimated breeding value,GEBV),繼而進行排序、選擇。然而這種基于GEBV的截斷式選擇,雖然能降低孟德爾抽樣誤差,大幅度縮短世代間隔,顯著提高ΔG,但通常GEBV高的個體間親緣關系相關性也較高,同時被選留種的可能性較大,這會導致育種核心群近交水平(ΔF)的迅速上升和遺傳方差的降低,甚至產(chǎn)生近交衰退,尤其在群體基數(shù)較小或繁殖力高的群體中表現(xiàn)尤為突出[31-36]。2016年,Akdemir和Snchez[37]提出了基因組選配(genomic mating, GM)的概念,相較于傳統(tǒng)的選配方法,基因組選配利用基因組信息來追蹤染色體片段的遺傳,從而提高對親本孟德爾抽樣估計的準確性及其與親本遺傳貢獻的關系,它將問題的焦點轉(zhuǎn)移到交配上,更有助于實現(xiàn)高效育種的目標。本文綜述了基因組選配的概念、原理與方法以及在畜禽育種中的研究進展,為推動畜禽育種的長期可持續(xù)發(fā)展提供參考。
基因組選配是利用基因組估計育種值、風險指數(shù)(有效性)、交配親本互補信息等概念來優(yōu)化配對,通過改進后的遺傳算法求得最優(yōu)解,并且在三維有效前沿面(efficient frontier surface,EFS)中確定最優(yōu)的交配組合[38-39]。如圖1所示,不管是PS或是GS都沒有給出選留后的個體如何配對,因此需要進一步制定選配計劃來獲得最佳的交配組合。而基因組選配在估計標記效應和基因組育種值的同時,利用估計的標記效應來決定哪些基因型應該雜交以獲得性能更佳的群體[40]。與基因組選擇不同的是,基因組選配是從候選的育種群體里直接選擇最優(yōu)的交配組合,而不是基于GEBV進行截斷選擇。它將配對雙親之間的互補信息考慮在內(nèi),尋求親本對后代的遺傳貢獻比例,更加全面的利用了基因組信息。通過對表型選擇、基因組選擇和基因組選配的模擬研究,表明基因組選配在復雜性狀的改良上比表型選擇和基因組選擇有更大的優(yōu)勢[41-47]。因此,使用GM代替GS能夠?qū)崿F(xiàn)高效的遺傳增益,提高遺傳多樣性,避免有害基因純和,保留一些稀有基因,從而實現(xiàn)長期可持續(xù)的遺傳進展。
圖1 不同育種途徑示意圖[37]Fig.1 Diagram for the different breeding approaches[37]
Minimizer(λ1,λ2,P)= —Risk(λ1,P)+ λ2*Inbreeding(P)。
式中,λ2≥ 0,是控制子代中近交程度的參數(shù);P為最小化配種矩陣;λ1是控制等位基因雜合度的參數(shù),此處的雜合度是按照標記效應加權的雜合度;λ2是控制等位基因多樣性的參數(shù)。當λ1=0時,風險估計與預期進展相同,即只考慮子代的期望育種值。當λ1>0時,后代中預期方差較高的配對在相同期望育種值的配對中具有更高的風險值。當其余條件不變時,這些預期方差高的配對具有產(chǎn)生高育種值后代的潛能,但由于分布是圍繞著平均值對稱的,相同的配對也有產(chǎn)生低育種值后代的可能性。所以,將其命名為“風險指數(shù)”。
在GM的目標函數(shù)中只需要考慮遺傳進展和近交系數(shù)來優(yōu)化選配,其中近交、遺傳進展、家系間方差、風險指數(shù)的計算公式如下:
Var(b)=PGP′+D;
基因組選配也可以表示為以下二次優(yōu)化的形式:
約束條件R(P,λ1)=ρ。
式中,P為Nc×N的交配矩陣,其中N為親本的數(shù)量,Nc為后代的數(shù)量;G為基因組關系矩陣;D為孟德爾抽樣離差;M為基因型矩陣;a為標記效應;σp為有益等位基因數(shù)量的方差。
通過GM方法求得最優(yōu)解后,可以在一個三維有效面(EFS)中確定最優(yōu)的交配組合,如圖2所示。曲線上的點是風險值、近交和風險與遺傳進展之差的值,其中,藍色面表示目標函數(shù)的最優(yōu)解,沿著曲面的點是平衡進展、風險值和近親交配的最優(yōu)點,該表面之下的點對應次優(yōu)解區(qū)域。綠色面是后代的平均期望遺傳進展,橙色面是交叉方差的值,綠色和橙色兩個表面加起來就是藍色面。通過改變λ1和λ2的值,選配的最優(yōu)解在這個表面上移動。
圖2 模擬群體的三維邊界曲面[37]Fig.2 Frontier surface for a simulated population[37]
通過三維邊界曲面,育種者可以了解到交配計劃的預期風險如何隨近交水平而變化。對于給定的風險值,育種者可以選擇能夠接受的近交水平,從圖2可以看出,隨著λ1的增加,風險值以平滑的方式增加,同時對應的增益以不均勻的速率下降,因此,風險值和增益之間的差異以不均勻的速度增加。如圖2紅色橢圓標記所示,確定一個合理的λ1和λ2的組合可以將最優(yōu)解定位在增益隨著λ2的增加而緩慢增長,隨著λ1的增加而加速下降的點附近。在獲得一定遺傳進展的情況下,采用GM最優(yōu)算法,可以增加交叉方差、減少近交系數(shù),取得更高的加性方差,提高預期收益。
當λ1的值確定時,藍色面將變成一個二維切面,如圖3所示。其中每一個點都對應著兩個指標下的一組交配組合,在沒有限定條件時,曲面上的每一個點都可以作為獲得下一代群體的交配方案。圖3中可以看出遺傳進展隨著近交水平的變化趨勢,育種者可以根據(jù)邊界曲面選擇符合預期的最優(yōu)解。從長遠來看,利用GM方法進行選配能夠獲得長期可持續(xù)的遺傳增益。
圖3 基因組選配得到的最優(yōu)解[59]Fig.3 The optimal solution of genomic mating[59]
目前已有多項研究表明,利用基因組信息進行選配比利用系譜信息具有更大的優(yōu)勢,使用基因組選配可以增加后代遺傳的多樣性和在快速提高后代遺傳進展的同時有效的控制近交水平,達到高效育種的目標。
Clark等[48]利用模擬數(shù)據(jù)和真實數(shù)據(jù),將基因組信息加入到奶牛的OCS中,結(jié)果表明,對GEBV的優(yōu)化選擇提高了估計的準確性和保留了更多群體內(nèi)的變異,在控制近交率的情況下,使用基因組信息代替?zhèn)鹘y(tǒng)的系譜信息能夠提高16%的遺傳進展。Pryce等[49]利用系譜、基因組和長純和片段(runs of homozygosity, ROH)信息的3種交配方案,對荷斯坦奶牛群體選配后代的預期遺傳進展、近交水平以及純和有害基因等的變化進行比較。結(jié)果表明,使用基因組信息能夠大幅度降低后代的期望近交系數(shù),在獲得相同遺傳進展的情況下,利用基因組信息比系譜信息使后代的期望近交程度降低了幾乎兩倍。Carthy等[50]使用奶牛的模擬數(shù)據(jù),對隨機交配、順序選擇和線性規(guī)劃3種利用基因組信息優(yōu)化選配的方法進行了比較。結(jié)果表明,在構(gòu)建的指數(shù)框架控制下,利用基因組信息結(jié)合線性規(guī)劃的方法來優(yōu)化選配,后代群體中的近交水平降低了18%,而且降低了目標性狀遺傳進展在后代中的變異率。Henryon等[51]利用模擬數(shù)據(jù)比較了采用BLUP選擇后使用MC、MCAC以及隨機交配3種方法的效果。結(jié)果表明,使用MCAC方法產(chǎn)生的近親繁殖比MC少4%~8%,同時遺傳進展沒有減少。與隨機交配相比,近親繁殖減少了28%,遺傳進展增加了約3%。這表明在MC和MCAC的策略中加入基因組信息能夠更好地控制近親繁殖,也意味著基因組信息不僅僅是用來預測育種方案中的育種值,更可以應用于基因組選配。He等[52]對湖南省地方品種寧鄉(xiāng)豬進行了GOCS和沒有近交控制的GS兩種交配策略。結(jié)果表明,在前幾代采用GS獲得的遺傳進展要大于GCOS策略,但是在之后的幾代中,GS和GCOS的差異迅速減小,甚至最終使用GOCS的后代群體遺傳增益略高。同時GOCS的近交率在每個子代基本保持在5%以內(nèi),而GS每代的近交率高達10.5%~15.3%。除了將基因組信息加入到LP、OCS等方法中,探究后代收益提高的幅度,還有些學者也嘗試將基因組信息整合到以往應用系譜信息選配的計算機程序中。Schierenbeck等[53]開發(fā)了一個計算機程序,該程序利用系譜和基因組關系的半確定規(guī)劃(semi-definite programming,SDP),從而控制近交水平和最大化遺傳進展,與之前使用GENCONT軟件和其它基于系譜關系的應用程序相比,其專注于SDP和SNP數(shù)據(jù)構(gòu)建的關系。對于中低遺傳力性狀,利用此程序可在約束最大親緣關系條件下,獲得遺傳增益最大化的配對。Bérodier等[54]比較了3種交配策略(隨機交配、順序交配、線性規(guī)劃)在蒙貝利亞牛群體中的差異,同時研究了僅使用母?;蚪M信息的選配方案和同時使用公、母?;蚪M信息的等效策略的選配效果。結(jié)果表明,不論是加入母牛還是公母?;蚪M信息,都比單純使用系譜信息更有效地最大化遺傳效益。且利用線性規(guī)劃方法能夠較好的控制對后代預期近交水平和致死隱形基因純和風險。Bengtsson等[55]在北歐紅牛群體中利用線性規(guī)劃的方法整合基因組信息,同時考慮遺傳水平、精液成本、隱性遺傳缺陷的經(jīng)濟影響,建立了最優(yōu)選配方案。與前人不同的是,該研究將重點放在線性規(guī)劃和不同的經(jīng)濟得分上,而不是比較不同的選配方法。結(jié)果表明,使用線性規(guī)劃方法不僅能夠在對遺傳水平影響較小的情況下,減少親本間的遺傳差異關系,消除了隱性遺傳缺陷表達的成本,同時控制群體的近交水平。除此之外,還有些對于基因組選配算法優(yōu)化的探索。Ganteil等[56]探究了在新的合成豬系的前幾代進行多樣性管理以及在不同時間點開始選擇的效果。該研究使用來自新系第一代(G0)豬的基因組和表型數(shù)據(jù),進行了不同選擇方案的模擬來評估在新系的前幾代進行多樣性管理的效果,并測試了在G3和G4兩個不同時間點開始選擇的影響。結(jié)果表明,利用基因組數(shù)據(jù)從G4開始選擇同時結(jié)合多樣性控制的管理策略能夠產(chǎn)生較大的遺傳進展并保持多樣性。Tang等[57]提出了一種豬的基因組選配新方法,并且首次應用到三元商品豬的實際生產(chǎn)中,該研究使用 875 頭純種杜洛克公豬、350頭長大二元母豬和 3 573 頭杜長大三元商品豬的基因型和表型數(shù)據(jù)進行基因組選配分析。該研究提出一種快速估計標記效應的算法,其構(gòu)建了一個V矩陣,無需求解MME方程來獲得先驗育種值,無論模型中包含多少隨機效應,V矩陣的維數(shù)都保持不變。該算法能夠在不損失計算精度的條件下大幅降低計算復雜度,尤其適用于加性、顯性等遺傳效應的多隨機效應模型計算。與隨機交配相比,使用基因組選配方案所產(chǎn)生的后代,其料重比下降了0.12、眼肌面積增加2.65 cm2、30~120 kg測定日齡縮短4.64 d。該方法為畜禽利用基因組信息進行選配提供了新思路。
而對于最新的GM方法,相關研究還較少。張鵬飛等[58]利用大白豬的模擬數(shù)據(jù),在通過GS選留后使用了基因組選配、同質(zhì)選配、異質(zhì)選配、隨機交配4種不同的選配方案。在基因組選配中,選擇了遺傳進展最大、家系間方差最大和近交最小的解進行選育。結(jié)果顯示,3種基因組選配方案的遺傳進展顯著高于隨機交配和異質(zhì)選配。其中,選擇遺傳進展最大的基因組選配方案的遺傳進展比同質(zhì)選配高出4.3%,3種基因組選配方案的近交率比同質(zhì)選配低22.2%~94.1%,而遺傳方差卻比同質(zhì)選配高出10.8%~32.2%。這表明GM不僅可以獲得比同質(zhì)選配更高的遺傳進展,同時有效的降低了近交水平,并且減緩了遺傳方差降低的速度。Zhao等[59]基于豬的遺傳背景,模擬了3種不同遺傳力(0.1、0.3、0.5)性狀下9 000頭純種豬的基礎群數(shù)據(jù),分別使用G矩陣和ROH親緣關系矩陣構(gòu)建了基因組選配方案,同時與隨機交配、同質(zhì)選配、異質(zhì)選配3種常規(guī)選配方案進行了比較,評估了基因組選配的效果,并且在大白豬的真實數(shù)據(jù)集上做了驗證。結(jié)果表明,在使用ROH親緣關系矩陣選擇最大遺傳進展方案時,無論遺傳力高或低,都比同質(zhì)選配后代的遺傳增益提高了0.9%~8.9%,近交率降低了13%~83.3%。與傳統(tǒng)的選配方式相比,GM不僅可以實現(xiàn)可持續(xù)的遺傳進展,而且可以有效的控制種群近交率。
利用基因組信息選配時,一般只考慮了加性遺傳效應,而沒有考慮非加性效應,但這一部分也攜帶著十分重要的遺傳信息。Sun等[60]提出了一種基于基因組關系和顯性效應的選配優(yōu)化模型,結(jié)果表明,荷斯坦奶牛的產(chǎn)奶量增加了64%,娟珊牛的產(chǎn)奶量增加了73%,且使用基因組信息比使用譜系信息可以進一步降低預期后代的近交程度,從而獲得更高的遺傳進展。Gonzlez-Diéguez等[61]利用基因組信息將非加性遺傳效應加入到線性規(guī)劃交配策略中。結(jié)果表明,整合了非加性遺傳效應的基因組選配方案,對達100 kg體重日齡、背膘厚度、仔豬平均初生重三個指標均有所提升,分別為縮短0.79 d、減少0.04 mm和增加11.3 g。李佳芮[62]利用生豬的真實數(shù)據(jù),整合了非加性效應對生豬基因組選配進行優(yōu)化,在遺傳評估時納入近交作為協(xié)變量,分別使用加性效應的G模型和加性顯性效應的GD模型,利用同質(zhì)選配和線性規(guī)劃兩種方法進行選配。結(jié)果表明,兩種選配策略在整合顯性效應時均優(yōu)于僅考慮加性效應的選配方式。但由于這種選配方式要求對所有待配公母畜進行基因分型,所需成本過高,目前還很難用于實際生產(chǎn)。Aliloo等[63]提出了將非加性效應(顯性和雜合性)納入基于基因組信息交配方案中。結(jié)果表明,采取非加性效應(顯性和雜合性)的模型優(yōu)于僅使用加性效應的方案,而且使用非加性效應的交配方案明顯改善了產(chǎn)奶量、乳脂肪以及乳蛋白質(zhì)的含量,分別增加了38、1.57和1.21 kg。與隨機交配相比,加入非加性遺傳效應(顯性和雜合性)的交配方案使產(chǎn)犢間隔縮短了0.70 d。同時與隨機交配相比,在產(chǎn)犢間隔和生產(chǎn)性狀上,使用非加性遺傳效應模型得到的后代近交幅度分別減少0.25%~1.57%和0.64%~1.57%。隨著這種近交幅度的降低,每次交配能增加8.42 澳元的平均利潤。但是,使用非加性遺傳效應的交配方案只能在實施的那一代提高后代表現(xiàn),并且一些特定組合產(chǎn)生的增益不會累積,需要不斷地調(diào)整選配方案,才能長期受益于非加性遺傳效應。
基因組選配比以往的方法考慮了更多的因素,以期實現(xiàn)育種過程中最佳的配對組合。與GOCS、LP等方法相比,GM可以根據(jù)標記效應,給出一個精確的選配組合列表用于獲得后代育種種群。同時與GS相比,基因組選配不僅將配對親本間的互補關系考慮了進去,并且還包括品種特征、近交水平、種群基因頻率,這為近交率較高、群體樣本數(shù)較少的物種改良提供了理論基礎。但是基因組選配是一個十分復雜的問題,除了自身的遺傳特性,也要考慮到配對個體間的遺傳信息和互補情況?;蚪M選配的研究目前大都在牛、豬、羊等大動物中展開,而在禽類育種中,由于群體規(guī)模大、世代間隔短,更新快,選配在禽領域幾乎沒有開展相關研究。同時目前的研究大多考慮了單性狀的加性遺傳效應,對于非加性遺傳效應以及其他生物學先驗信息考慮的較少,未來這將是一個比較重要的研究方向。此外,當前的基因組選配研究仍處于計算機模擬階段,采取實際數(shù)據(jù)進行研究應用的較少,而且對于算力的要求較高,如何將基因組選配的算法進一步優(yōu)化,以及將基因組選配應用于生產(chǎn)的遺傳改良,也是一個需要繼續(xù)探討的話題。