張鵬飛,何 俊,王立賢*,趙福平*
(1.中國(guó)農(nóng)業(yè)科學(xué)院北京畜牧獸醫(yī)研究所 農(nóng)業(yè)部動(dòng)物遺傳育種與繁殖(家禽)重點(diǎn)實(shí)驗(yàn)室,北京 100193; 2.湖南農(nóng)業(yè)大學(xué)動(dòng)物科技學(xué)院,長(zhǎng)沙 410128)
在基因組選配提出之前,主要是利用系譜信息進(jìn)行優(yōu)化的選種選配,如最佳遺傳貢獻(xiàn)選擇(optimal contribution selection,OCS),是將選擇反應(yīng)和近交組合成候選親本遺傳貢獻(xiàn)的函數(shù),以平衡遺傳進(jìn)展、近交和共祖系數(shù)。最佳遺傳貢獻(xiàn)選擇在動(dòng)物育種中應(yīng)用較多,用以改良近交水平較高的群體。最佳遺傳貢獻(xiàn)選擇理論提出后被不斷改進(jìn),并且加入一些額外的約束條件進(jìn)行優(yōu)化,其中包括有最小共祖選配(minimum coancestry,MC)和最小化祖先間遺傳貢獻(xiàn)的協(xié)方差(minimising the covariance between ancestral contributions,MCAC)。通過增加具有遺傳貢獻(xiàn)祖先的獨(dú)立性和降低它們之間的混亂性來實(shí)現(xiàn)低近親繁殖率,分散了它們?cè)谟N種群中的貢獻(xiàn),從而增加了每個(gè)后代具有貢獻(xiàn)的祖先數(shù)量。這使得祖先更接近確切的閾值線性關(guān)系,從而降低近親繁殖率。Kinghorn等使用配偶選擇來最大化預(yù)測(cè)后代的價(jià)值。配偶選擇包括兩個(gè)組成部分:1)配偶選擇指數(shù)(MSI);2)用于尋找最大化MSI的配偶集合的配偶選擇算法。這些策略被稱為前瞻性配偶選擇(look ahead mate selection,LAMS)。
基因組選配充分地利用基因組信息來計(jì)算親本間的遺傳關(guān)系,并結(jié)合標(biāo)記效應(yīng)來決定哪些基因組合來獲得下一個(gè)優(yōu)秀的育種群體?;蚪M選配可以控制群體近交的增長(zhǎng)速率,維持遺傳多樣性,同時(shí)實(shí)現(xiàn)長(zhǎng)期且可持續(xù)的遺傳進(jìn)展。然而基因組選配是對(duì)群體中所有個(gè)體進(jìn)行選配,找到最優(yōu)的交配組合,這與實(shí)際的育種工作有點(diǎn)相悖。因此,本研究將通過計(jì)算機(jī)模擬在選擇GEBV排名靠前的最優(yōu)秀的個(gè)體后,比較不同的選配方案下后代群體的遺傳進(jìn)展、近交系數(shù)、遺傳方差的變化情況,評(píng)估基因組選配的效果,以期為在畜禽育種中開展基因組選配提供參考。
表1 基因組參數(shù)設(shè)置Table 1 Genome parameter settings
本研究使用BayesB方法計(jì)算基因組估計(jì)育種值(GEBV)。將基礎(chǔ)群中具有表型值和基因型的9 000頭個(gè)體作為參考群,使用R語言軟件包BGLR計(jì)算標(biāo)記效應(yīng),Bayes模型參數(shù)設(shè)定迭代次數(shù)為20 000次,預(yù)燒(burn-in)為1 000次,并將公畜和母畜根據(jù)GEBV高低進(jìn)行排序,選出GEBV排名前30頭公豬、900頭母豬作為種用個(gè)體繁育下一代。
在每個(gè)世代中,都采用上述方案選留個(gè)體。將每個(gè)世代中有表型和基因型的個(gè)體加入到參考群中,用于參考群的更新,并且每個(gè)世代重新估計(jì)標(biāo)記效應(yīng)。
本研究在基因組選配的目標(biāo)函數(shù)中考慮遺傳進(jìn)展、近交系數(shù)和家系間方差來優(yōu)化選配,遺傳進(jìn)展和近交系數(shù)的具體計(jì)算公式如下:
其中,為Nc×N的交配矩陣,N為親本的個(gè)數(shù),Nc為后代的數(shù)量;為基因組關(guān)系矩陣;為孟德爾抽樣離差;為基因型矩陣。
使用R包TrainSel進(jìn)行基因組選配?;蚪M關(guān)系矩陣(genomic relationships matrix,)使用VanRaden文章中的公式計(jì)算,通過R包rrBLUP完成。參數(shù)設(shè)置:公畜30,母畜900,交配組合數(shù)設(shè)置為900,遺傳算法參數(shù)中群體大小設(shè)置為200,迭代次數(shù)設(shè)置為800,其余參數(shù)設(shè)為默認(rèn)值。
1.4.1 隨機(jī)交配 對(duì)選留的個(gè)體以隨機(jī)交配的原則進(jìn)行交配。
1.4.2 同質(zhì)選配 根據(jù)個(gè)體的GEBV大小進(jìn)行排序,將公畜按照降序的順序與按照降序排序的母畜依次進(jìn)行交配,每頭公畜配30個(gè)母畜。
1.4.3 異質(zhì)交配 根據(jù)個(gè)體的GEBV大小進(jìn)行排序,將公畜按照升序的順序與按照降序排序的母畜依次進(jìn)行交配,每頭公畜配30頭母畜。
1.5.2 后代個(gè)體育種值和表型值的模擬 個(gè)體真實(shí)育種值用以下模型模擬:
其中,是個(gè)體的近交系數(shù),是個(gè)體的父親到共同祖先的相關(guān)通徑鏈的數(shù)量,是共同祖先A的近交系數(shù)。
個(gè)體性狀表型值用以下模型模擬:
=++
以上過程通過R語言自寫程序?qū)崿F(xiàn)。
1.6.1 遺傳進(jìn)展的計(jì)算 每個(gè)世代的遺傳進(jìn)展計(jì)算公式如下:
1.6.2 近交系數(shù)的計(jì)算 本研究計(jì)算了2種近交系數(shù),第一種是由Wright提出的系譜近交系數(shù)(),其計(jì)算公式:
其中,是個(gè)體的近交系數(shù),是個(gè)體的父親到共同祖先的相關(guān)通徑鏈的數(shù)量,是共同祖先的近交系數(shù)。
第二種,基于SNPs估計(jì)的近交系數(shù)(),其計(jì)算公式:
其中,是SNP的數(shù)量,是等位基因頻率,是第個(gè)SNP的拷貝數(shù)。
近交系數(shù)每世代增長(zhǎng)量(Δ)計(jì)算公式:
Δ=1-
其中β是ln(1-)在世代的線性回歸的斜率,是在世代出生的動(dòng)物的平均近交系數(shù)。
1.6.3 后代遺傳方差的計(jì)算 本研究將每個(gè)世代9 000頭個(gè)體的基因組估計(jì)育種值(GEBV)的方差作為群體的遺傳方差。計(jì)算公式:
本研究假設(shè)世代間不重疊,每個(gè)世代群體規(guī)模設(shè)置為9 000。每個(gè)世代選出GEBV排名前30個(gè)公畜和前900個(gè)母畜作為種用個(gè)體繁育下一代,后代數(shù)設(shè)置為10,具體過程見圖1。每種方案模擬選育5個(gè)世代,并計(jì)算每代群體的平均GEBV、遺傳進(jìn)展、近交系數(shù)以及遺傳方差,重復(fù)5次取平均值,并且在每個(gè)世代對(duì)不同選配方案的平均GEBV、近交系數(shù)以及遺傳方差進(jìn)行T檢驗(yàn)。
圖1 模擬試驗(yàn)技術(shù)路線Fig.1 Technical schematic of simulation study
本研究在Linux系統(tǒng)下通過調(diào)用R統(tǒng)計(jì)編程語言編寫完成的所有數(shù)據(jù)模擬和計(jì)算的腳本實(shí)現(xiàn),Linux服務(wù)器配置為40核2.40 GHz Intel(R) Xeon(R) Gold 6148的處理器和768 GB內(nèi)存。
本研究采用遺傳進(jìn)展、近交和家系間方差3個(gè)因素對(duì)選擇效果進(jìn)行評(píng)估,三者之間并不是獨(dú)立的,而是彼此間相互牽制。TrainSel通過對(duì)這3個(gè)指標(biāo)進(jìn)行優(yōu)化權(quán)衡后會(huì)得出一系列帕累托最優(yōu)解(pareto optimality),通過三維圖可以表示(圖2)。圖中的每一個(gè)點(diǎn)都對(duì)應(yīng)著該3個(gè)指標(biāo)下的一組交配組合,在沒有其他限定條件下,圖上的曲面上所有的點(diǎn)都可以作為一個(gè)交配方案。本研究根據(jù)這3個(gè)指標(biāo)指定的不同交配方案,在每個(gè)世代分別選取遺傳進(jìn)展最大的交配方案、家系間方差最大的交配方案、近交最小的交配方案進(jìn)行連續(xù)5個(gè)世代的選育。
圖2 基因組選配計(jì)算得到的最優(yōu)解Fig.2 The optimal solution of genomic mating
圖3比較了6種方案在5個(gè)世代中的遺傳趨勢(shì)?;蚪M選配中選取遺傳進(jìn)展最大的方案在每個(gè)世代的平均GEBV均極顯著高于隨機(jī)交配和異質(zhì)選配(<0.01),在第1世代均極顯著高于其它選配方案(<0.01),在1~4世代的平均GEBV均顯著高于基因組選配中選取近交最小的方案(<0.05),在第1、2世代顯著高于基因組選配中選取方差最大的方案(<0.05)。基因組選配中選取近交最小的方案在第2世代高于異質(zhì)選配(<0.01)。基因組選配中選取方差最大的方案在第4、5世代的平均GEBV高于異質(zhì)選配(<0.05)。
圖3 遺傳力為0.5時(shí)6種不同交配方案經(jīng)過5個(gè)世代選育后的遺傳趨勢(shì)Fig.3 Genetic trend of 6 mating schemes over 5 generations at heritability of 0.15
不同選配方案的ΔG如表2所示,經(jīng)過5個(gè)世代的選育,基因組選配的3種方案的ΔG均顯著高于隨機(jī)交配和異質(zhì)選配(<0.01),其中,基因組選配中選取遺傳進(jìn)展最大的方案的ΔG高于同質(zhì)選配,比同質(zhì)選配高4.3%。
表2 遺傳力為0.5時(shí)6種不同選配方案重復(fù)5次后平均每個(gè)世代的遺傳進(jìn)展和標(biāo)準(zhǔn)差Table 2 Average rate of genetic gain (ΔG) and standard deviation for each generation after 5 repeats of 6 different mating schemes at heritability of 0.5
不同選配方案的5個(gè)世代的平均系譜近交系數(shù)()如圖4所示,同質(zhì)選配在每個(gè)世代的平均均極顯著高于隨機(jī)和異質(zhì)選配和基因組選配中選擇近交最小的方案(<0.01),顯著高于基因組選配中選擇遺傳進(jìn)展最大的方案和基因組選配中選擇家系間方差最大的方案(<0.05)。
圖4 遺傳力為0.5時(shí)6種不同交配方案經(jīng)過5個(gè)世代選育后的平均系譜近交系數(shù)變化趨勢(shì)Fig.4 Trends of average pedigree inbreeding coefficient of 6 mating schemes over 5 generations at heritability of 0.5
不同選配方案的ΔF如表3所示,經(jīng)過5個(gè)世代的選育,基因組選配的3種方案的ΔF比同質(zhì)選配低22.2%~94.1%。其中基因組選配_近交最小方案的ΔF比異質(zhì)選配低11.8%。
表3 遺傳力為0.5時(shí)6種不同選配方案重復(fù)5次后平均每個(gè)世代的近交增量和標(biāo)準(zhǔn)差Table 3 Average rate of inbreeding (ΔF) and standard deviation for each generation after 5 repeats of 6 different mating schemes at heritability of 0.5
不同選配方案的平均遺傳方差變化趨勢(shì)如圖5所示,同質(zhì)選配在第1世代極顯著高于其它選配方案(<0.01),隨著選育的進(jìn)行,同質(zhì)選配的遺傳方差迅速降低,在第5世代顯著低于除基因組選配中選擇遺傳進(jìn)展最大的方案以外的所有方案(<0.05)。經(jīng)過5個(gè)世代的選育,基因組選配的3種方案的遺傳方差比同質(zhì)選配高10.8%~32.2%。
圖5 遺傳力為0.5時(shí)6種不同交配方案經(jīng)過5個(gè)世代選育后的平均遺傳方差的變化趨勢(shì)Fig.5 Trends of average genetic variance of 6 mating schemes over 5 generations at heritability of 0.5
本研究使用模擬數(shù)據(jù)比較了使用基因組選擇留種后,使用基因組選配進(jìn)行最優(yōu)的配對(duì)組合的效果,并與傳統(tǒng)選配方案進(jìn)行了比較。在評(píng)估不同選配方案后代群體近交水平時(shí),計(jì)算了系譜近交系數(shù)()和基因組近交系數(shù)(),但是基因組近交系數(shù)()計(jì)算結(jié)果是負(fù)值,這與其它研究報(bào)道一致。因此本研究中主要以系譜近交系數(shù)進(jìn)行討論。綜合來看,基因組選配能取得比其它3種方案更高的遺傳進(jìn)展,近交水平遠(yuǎn)低于同質(zhì)選配,接近異質(zhì)選配,而遺傳方差下降幅度小于同質(zhì)選配,高于異質(zhì)選配和隨機(jī)交配。這表明基因組選配不僅能獲得足夠大的遺傳進(jìn)展,有效的控制群體近交,還能保持群體內(nèi)的遺傳變異。
TrainSel在計(jì)算最優(yōu)的交配組合時(shí),公畜和母畜的數(shù)量、配對(duì)數(shù)、SNP的數(shù)量以及遺傳算法參數(shù)中群體大小和迭代次數(shù)都對(duì)計(jì)算速度有影響。而且遺傳算法參數(shù)中群體大小和迭代次數(shù)直接決定了是否能獲得理想的結(jié)果。本研究中,每個(gè)世代選留30頭公畜和900頭母畜,以及配對(duì)數(shù)設(shè)置為900,就存在27 000個(gè)可能的配對(duì)組合,這需要大量的計(jì)算時(shí)間去對(duì)每個(gè)組合所得結(jié)果進(jìn)行預(yù)測(cè)。經(jīng)過前期試驗(yàn)發(fā)現(xiàn),TrainSel中遺傳算法參數(shù)中群體大小設(shè)置為200和迭代次數(shù)設(shè)置為500以上才能獲得較為理想的結(jié)果。本研究對(duì)群體大小設(shè)置和迭代次數(shù)分別設(shè)置為200和800,這都會(huì)大大增加計(jì)算時(shí)間。因此,在本研究中只模擬了一條染色體上的500個(gè)標(biāo)記位點(diǎn)作為參考,每次計(jì)算最優(yōu)交配組合需要時(shí)間約24 h左右。為了驗(yàn)證結(jié)果的廣譜性,又對(duì)群體大小為1 500頭,選擇GEBV排名靠前的10頭公畜、150頭母畜作為種用個(gè)體,SNP位點(diǎn)數(shù)為1 500個(gè)時(shí),基因組選配效果的模擬研究。由于時(shí)間的限制,只將第一個(gè)世代的結(jié)果進(jìn)行了總結(jié)(圖6),結(jié)果發(fā)現(xiàn),此種情況下不同選配方案的變化趨勢(shì)與SNP位點(diǎn)數(shù)為500和群體為9 000時(shí)的基本一致。
圖6 SNP為500和1 500時(shí)6種不同選配方案在第1個(gè)世代的平均GEBV、系譜近交系數(shù)和遺傳方差Fig.6 Average GEBV, pedigree inbreeding coefficient and genetic variance in the first generation for 6 different mating schemes at SNP of 500 and 1 500, respectively
本研究通過基因組育種值進(jìn)行選留個(gè)體,然后采用R包TrainSel提供的基因組選配方法得到最優(yōu)的交配組合,這些交配組合并不唯一,但是都比其他的選配方案的效果要好。該方法與其他算法如最佳遺傳貢獻(xiàn)選擇還在存在明顯的不同,最佳遺傳貢獻(xiàn)選擇只是給出了候選親本對(duì)后代的遺傳貢獻(xiàn)比例,沒有給出具體的配對(duì)組合。但是基因組選配通過構(gòu)建交配矩陣,把焦點(diǎn)問題轉(zhuǎn)移到配偶的選擇上。通過基因組選配可以計(jì)算出父母貢獻(xiàn)比例,但是無法從遺傳貢獻(xiàn)比例計(jì)算出最優(yōu)的交配組合。
目前基因組選配還處于計(jì)算機(jī)模擬階段,在真實(shí)數(shù)據(jù)上的研究不多?;蚪M選配比基因組選擇需要考慮更多問題,既需要考慮個(gè)體本身的遺傳,也需要考慮配對(duì)間的互補(bǔ)關(guān)系,以及一些品種的特性,從而使群體近交水平降低以及基因頻率的改變。因此,基因組選配是一個(gè)非常復(fù)雜的問題。目前本研究只是針對(duì)單性狀的加性遺傳效應(yīng),除了用于優(yōu)化選配方案外,基因組選配還可以用來估計(jì)雜交動(dòng)物、預(yù)測(cè)高產(chǎn)或低產(chǎn)個(gè)體出現(xiàn)的概率等或其他應(yīng)用領(lǐng)域。目前基因組選配還處于初步研究階段,仍然存在許多問題需要深入地探索。
本研究通過對(duì)基因組選擇下不同的基因組選配方案經(jīng)過5個(gè)世代的遺傳進(jìn)展、近交系數(shù)、遺傳方差進(jìn)行比較得出,相對(duì)于其它交配方案,在實(shí)際的育種中基因組選配方案具有明顯的優(yōu)勢(shì)。基因組選配中選取遺傳進(jìn)展最大方案的ΔG比同質(zhì)選配高4.3%,ΔF比同質(zhì)選配低22.2%,遺傳方差比同質(zhì)選配高10.8%?;蚪M選配作為一種有效的可持續(xù)育種方法,在動(dòng)物育種中開展十分有必要?;蚪M選配同時(shí)考慮了親緣和價(jià)值育種,不僅可以獲得較高的遺傳進(jìn)展,同時(shí)可以有效的控制群體的近交水平,并且考慮了家系間方差,保證了一定的遺傳變異,是一種可行的可持續(xù)育種方法。以上研究為下一步在畜禽育種中開展基因組選配提供了參考。