王海鋒,李誠蘭,岳耀敬
(中國農(nóng)業(yè)科學(xué)院蘭州畜牧與獸藥研究所,蘭州 730050)
近年來隨著生活水平的不斷提高,人們的飲食結(jié)構(gòu)也隨之發(fā)生改變,更加追求膳食營養(yǎng)的全面性。羊肉因具有纖維細(xì)嫩、膽固醇含量低、營養(yǎng)價值高、脂肪分布均勻的優(yōu)點(diǎn),其消費(fèi)量穩(wěn)步增加[1],目前我國已成為世界上主要的羊肉生產(chǎn)國和最大的消費(fèi)國[2]。羊奶因其營養(yǎng)溫和、易于吸收、致敏性低[3]的產(chǎn)品特性受到消費(fèi)者的喜愛,而且羊奶的總體營養(yǎng)成分更接近于人奶,在替代母乳方面有更廣闊的應(yīng)用前景[4]。毋庸置疑的是,反芻動物的肉、毛、奶、皮革等畜產(chǎn)品均有重要的經(jīng)濟(jì)價值,但是其生產(chǎn)肉、奶、皮革等畜產(chǎn)品的性能低下,不能滿足當(dāng)前的市場消費(fèi)需求。因此,如何加速改良牛、羊等具有重要經(jīng)濟(jì)價值的反芻動物,是動物選育工作中亟待解決的問題。
隨著科學(xué)技術(shù)的迅猛發(fā)展,使得動物育種工作的關(guān)注點(diǎn)從宏觀性狀轉(zhuǎn)變到微觀基因,融合了現(xiàn)代繁殖生物技術(shù)與育種的分子育種技術(shù),即分子標(biāo)記輔助選擇法(Marker assisted selection,MAS)隨即建立。MAS較傳統(tǒng)育種方法而言,能夠有效地縮短育種年限,提高育種效率[5-6]。但是在研究中發(fā)現(xiàn),大量經(jīng)濟(jì)性狀是由多個微效多基因所控制,且應(yīng)用于功能基因或分子標(biāo)記的數(shù)量非常有限[7],同時也由于MAS 難以解釋復(fù)雜的數(shù)量性狀,這使得MAS 在育種過程中受到限制。鑒于MAS 的缺陷和不足,2001 年基因組選擇(Genomic selection,GS)或稱全基因組選擇(Whole genome selection,WGS)問世[8]。
基因組選擇技術(shù)是以覆蓋參考群體全基因組高密度SNP 標(biāo)記,結(jié)合表型值或系譜記錄來計算個體基因組的估計育種值,對低遺傳力、檢測周期長或者測量成本較高的性狀都可以進(jìn)行提前有效的預(yù)測,從而實現(xiàn)群體的早期選育、縮短時代間隔、降低育種成本[9-10]。與MAS 相比,基因組選擇可以同時使用全基因組標(biāo)記來估計育種值[11],這使得預(yù)測的個體育種值更加準(zhǔn)確?,F(xiàn)階段,畜禽基因組測序工作陸續(xù)收官,計算機(jī)運(yùn)算能力不斷增強(qiáng),應(yīng)用GS 的成本越來越低,這也為新育種技術(shù)的發(fā)展創(chuàng)造了條件。為此,本文主要從基因組選擇的原理、在具有重要經(jīng)濟(jì)價值的反芻動物中的應(yīng)用與研究進(jìn)展,以及所面臨的機(jī)遇與挑戰(zhàn)等角度來論述,可為日后基因組選擇技術(shù)在反芻動物育種中的應(yīng)用提供理論依據(jù)和參考。
基因組選擇是整個基因組標(biāo)記圖譜信息和表型信息的綜合運(yùn)用,通過評估每個分子標(biāo)記或染色體片段的效應(yīng)值來得到個體估計育種值,稱其為基因組育種值(Genomic estimated breeding value,GEBV)[9-10]。理論上假設(shè)SNP標(biāo)記中至少有一個標(biāo)記與所有控制性狀的QTL 處于連鎖不平衡狀態(tài)(Linkage disequilibrium,LD),與MAS 相比,GS 不僅可以減少部分抽樣誤差,而且可以使用覆蓋全基因組的全部遺傳標(biāo)記進(jìn)行育種值估計,從而彌補(bǔ)MAS 的缺陷,提高估計育種值的準(zhǔn)確性,同時實現(xiàn)早期選擇,減少近親繁殖[11-13]。從理論上來說,基因組選擇本質(zhì)也是標(biāo)記輔助選擇,但此方法不同于傳統(tǒng)標(biāo)記輔助選擇的是,后者只能利用有限的遺傳標(biāo)記來進(jìn)行遺傳評估和育種值估計,而GS可以充分應(yīng)用分布在整個基因組上的所有標(biāo)記信息進(jìn)行育種值估計,因此,基于該方法估計得到的育種值是基因組級別的估計育種值[13]。目前已經(jīng)通過大量的實驗驗證了基因組選擇可以提高遺傳進(jìn)展的巨大潛力。
基因組選擇具有既不依賴表型信息,又能夠捕獲基因組中所有的遺傳變異以及減少近交等無可比擬的優(yōu)點(diǎn)。可利用基因組選擇進(jìn)行早期選擇,加快育種進(jìn)程;對低遺傳力的性狀進(jìn)行預(yù)測,降低育種成本;區(qū)分個體間差異,增強(qiáng)選擇強(qiáng)度;降低選用同胞作為種用的幾率,減少近交增量。
育種方法由MAS 到GS 是從顯著性檢驗轉(zhuǎn)向估計所有標(biāo)記效應(yīng)的不斷優(yōu)化。根據(jù)分析使用的統(tǒng)計模型不同,可以將基因組育種值的計算方法大致分為以BLUP理論為基礎(chǔ)和以貝葉斯理論為基礎(chǔ)的方法。
1.2.1 基于BLUP理論的方法
BLUP 是將線性統(tǒng)計模型方法論與數(shù)量遺傳學(xué)相結(jié)合而形成的,目前基于BLUP 理論衍生出一系列計算方法來應(yīng)對不同情況、不同品種、不同性狀等,來得到更為準(zhǔn)確的育種值。如嶺回歸最佳線性無偏估計(RRBLUP)、基因組最佳線性無偏預(yù)測(GBLUP)和一步法GBLUP(SS-GBLUP)等。Whittaker 等[14]提出了RRBLUP,該模型的基本原理是基于等位基因效應(yīng),假設(shè)所有標(biāo)記效應(yīng)的方差服從正態(tài)分布且方差相等,估算出每個標(biāo)記的效應(yīng)值后相加即得到個體估計育種值。該模型充分利用所有親屬信息,避免了因隨機(jī)交配而產(chǎn)生誤差,也可對不同群體進(jìn)行聯(lián)合遺傳評估,但此方法不適用于較大染色體片段效應(yīng)性狀的方差估計。Kennedy等[15]提出了GBLUP單個位點(diǎn)的混合線性模型,該模型是通過已測定的基因型來計算個體間的相關(guān)關(guān)系,此方法可以有效減少估計方程組的個數(shù),降低計算強(qiáng)度。
1.2.2 基于貝葉斯理論的方法
Bayes方法是Meuwissen等將標(biāo)記效應(yīng)的方差假定為某種先驗分布而提出的,與此同時通過對標(biāo)記效應(yīng)進(jìn)行不同的假設(shè)進(jìn)而衍生出一系列的Bayes 方法,主要包括Bayes A、Bayes B、Bayes C 以及Bayes LASSO 等等。在Bayes A 中,標(biāo)記效應(yīng)gi服從零均值正態(tài)分布,而效應(yīng)方差服從逆卡方分布,gi的條件后驗分布為t分布;對于Bayes B 來說是假設(shè)少數(shù)SNP 有效應(yīng),且效應(yīng)方差服從逆卡方分布,而大多數(shù)SNP無效應(yīng),其在運(yùn)算過程中引入一個參數(shù)T,假定標(biāo)記效應(yīng)方差為0的概率為π,則服從逆卡方分布的概率則為1-π,當(dāng)π為1時,所有SNP 都有效應(yīng),此時與Bayes A 等價;對于Bayes C來說是將Bayes B 進(jìn)行了一定程度的優(yōu)化,將π作為一個未知參數(shù),假設(shè)服從U(0,1)的均勻分布,并假設(shè)具有效應(yīng)的SNP 的效應(yīng)方差不同;對于Bayes LASSO 則服從拉普拉斯(Laplace)分布,即背靠背拼在一起的兩個不同位置的指數(shù)分布,與BayesA 假設(shè)標(biāo)記效應(yīng)服從正態(tài)分布不同的是它用相對于差的絕對值來表示,因此,Laplace 分布的尾部比正態(tài)分布更加平坦,即可允許極大值或極小值以更大的概率出現(xiàn)[16]。
1.2.3 基因組選擇常見算法的比較
貝葉斯方法的重點(diǎn)和難點(diǎn)在于如何對超參數(shù)的先驗分布進(jìn)行合理的假設(shè),相對于BLUP 方法往往具有更多的參數(shù)估計,在提高準(zhǔn)確度的同時帶來了更大的計算量,而高的精度往往需要上萬次。Sun 等[17]用模擬數(shù)據(jù)集對Bayes B、RRBLUP 和GBLUP 等方法的準(zhǔn)確性進(jìn)行了比較研究,發(fā)現(xiàn)Bayes B 的準(zhǔn)確性遠(yuǎn)高于RRBLUP 和GBLUP 方法,但Bayes B 方法最顯著的缺點(diǎn)就是計算時間太長,導(dǎo)致其在生產(chǎn)中的應(yīng)用受限,而GBLUP 憑借計算時間短、使用簡單的優(yōu)勢被廣泛應(yīng)用于豬[18]、牛[19]、羊[13]、雞[20]等畜禽的實際選育當(dāng)中。Habier 等[21]用奶牛生產(chǎn)性狀數(shù)據(jù)對GBLUP、Bayes B 和Bayes C 等方法的準(zhǔn)確性進(jìn)行了比較研究,結(jié)果表明Bayes B 方法在產(chǎn)奶量和乳蛋白量性狀的預(yù)測中準(zhǔn)確性最高。朱韶華等[22]采用50K 和630K 兩種不同密度的微陣列數(shù)據(jù),運(yùn)用GBLUP 和Bayes Alphabet 模型對821 只高山美利奴羊遺傳力水平不同的6種羊毛品質(zhì)性狀進(jìn)行基因組預(yù)測分析,結(jié)果表明GBLUP 模型更適用于中等遺傳力水平性狀的基因組預(yù)測,Bayes B 和Bayes LASSO 模型更適合高遺傳力水平性狀的基因組預(yù)測。因此,在應(yīng)用基因組選擇技術(shù)時,應(yīng)根據(jù)不同的群體、不同的性狀選擇使用不同的算法模型,只有這樣采取針對性的方法,才能更準(zhǔn)確地評估育種值[23]。
基因組選擇技術(shù)為反芻動物育種改良提供了新的視角,加快了育種進(jìn)程,推動了育種策略的優(yōu)化與創(chuàng)新,對畜牧業(yè)的可持續(xù)發(fā)展帶來了諸多積極影響。
2.1.1 基因組選擇在奶牛育種中的研究
基因組選擇在奶牛上的應(yīng)用最早且較為成功,為奶牛選種選育帶來了革命性變化,已成為商業(yè)選擇奶牛品種的主要方法,其通過縮短世代間隔、提高選擇準(zhǔn)確性、降低后裔檢測成本等多途徑迅速提高了奶牛的遺傳進(jìn)展[24]。2012 年起,我國就開始啟動中國荷斯坦公牛的基因組選擇育種工作,記錄包括高密度基因分型、產(chǎn)奶、健康、體型等34 個性狀的表型數(shù)據(jù)。盧徐斌[25]參考以上34 個性狀的表型數(shù)據(jù),采用GS 技術(shù)對中國荷斯坦牛產(chǎn)奶性狀的參數(shù)和基因組進(jìn)行了預(yù)測,發(fā)現(xiàn)該技術(shù)對性狀的預(yù)測準(zhǔn)確性可以達(dá)59%~76%,較傳統(tǒng)方法的準(zhǔn)確性提高了13%~30%。Schaeffer[26]從經(jīng)濟(jì)角度分析得出,在奶牛育種中運(yùn)用GS技術(shù)可以使其育種成本降低92%。Garner 等[27]結(jié)合11 年的氣象站數(shù)據(jù),對荷斯坦牛和澤西牛的耐熱性進(jìn)行了基因組預(yù)測,結(jié)果顯示,基于基因組育種值預(yù)測的耐熱性奶牛比熱敏感奶牛的產(chǎn)奶量降低幅度小,這對熱應(yīng)激事件的發(fā)生和持續(xù)時間的研究都有非常重要的意義,同時對提高奶牛的福利保健和生產(chǎn)性能都具有一定的貢獻(xiàn)。
2.1.2 基因組選擇在肉牛育種中的研究
我國有眾多的肉牛品種,但育種群體的規(guī)模相對較小,且生產(chǎn)性能和譜系記錄系統(tǒng)不夠完善,制約了我國肉牛育種工作的發(fā)展?;蚪M選擇在奶牛中的成功應(yīng)用,使得肉牛也將基因組選擇引入了育種計劃,中國西門塔爾牛的基因組選擇計劃于2008 年正式啟動。Magalhaes 等[28]從牛的肉質(zhì)性狀的研究中驗證了基因組選擇的準(zhǔn)確性和可行性;Hayes等[29]通過對747頭安格斯牛的甲烷排放性狀表型的研究,獲得了甲烷性狀的基因組EBV(GEBV),并對630 000 個SNP 進(jìn)行了基因分型,在273頭安格斯牛中對GEBV的準(zhǔn)確性進(jìn)行了測試,發(fā)現(xiàn)測試結(jié)果與其表型特征相同,采用此法進(jìn)行選育可使安格斯牛在10 年中減少約5%的甲烷排放量。所以相較于奶牛來說,應(yīng)用基因組選擇在肉牛產(chǎn)業(yè)上還有很長的路要走。
目前我國羊產(chǎn)業(yè)的發(fā)展受到了諸多因素的限制,其中主要問題包括肉羊良種化程度不高、生長速度緩慢以及繁殖效率低等。此外,羊品種資源豐富,用途廣泛,但個體經(jīng)濟(jì)價值較低,基因分型成本較高,這些因素都抑制了基因組選擇在羊育種方面的應(yīng)用。亟需創(chuàng)新應(yīng)用基因組選擇等育種關(guān)鍵新技術(shù)到羊育種中,以改良品種品質(zhì),提高生產(chǎn)性能。Dodds等[30]對3種肉毛兼用羊通過GBLUP 計算方法進(jìn)行了GEBV 估計與驗證,結(jié)果表明GS技術(shù)不但可以在混合品種的群體中進(jìn)行GEBV 估計,而且當(dāng)考慮品種結(jié)構(gòu)的效應(yīng)時還可以提高GEBV 估計值的準(zhǔn)確度;Newton 等[31]對澳大利亞綿羊的繁殖性狀進(jìn)行了基因組信息評估,結(jié)果表明,不同年齡的基因組信息會影響遺傳增益。McLaren 等[32]調(diào)查了29 個群體的2 957 只純種特克塞爾母羊,發(fā)現(xiàn)母羊乳房的形狀與乳腺炎的發(fā)生具有密切的關(guān)聯(lián),同時也對羊肉產(chǎn)量和品質(zhì)產(chǎn)生一定影響,該研究指出,通過利用GS方法分析出可以改變?nèi)榉啃螒B(tài)的基因,進(jìn)而提高羊肉產(chǎn)量和改善肉品質(zhì),為肉羊育種提出了新的思路。
Gregi? 等[33]研究發(fā)現(xiàn),基因組選擇在馬育種中可以成為提高運(yùn)動或者育種選擇成功的寶貴工具,可以在出生前計算評估其重要特征,包括預(yù)測目前難以測定的性狀。付東海[34]以354 頭1.5 歲母牦牛作為試驗參考群體,運(yùn)用GBLUP、Bayes B 以及Bayes Cπ等3 種算法對參考群體的基因組育種值以及準(zhǔn)確性進(jìn)行預(yù)測。結(jié)果表明,Bayes Cπ方法在體高、體斜長、胸圍以及體重等4 個生長性狀和紅細(xì)胞數(shù)、血紅蛋白、血細(xì)胞容積等8 個血常規(guī)指標(biāo)上都表現(xiàn)出極佳的預(yù)測效果,可作為牦牛群體基因組選擇的最佳方法。李浩東等[35]利用261 只梅花鹿的體重體尺數(shù)據(jù)對GBLUP、Bayes A、Bayes B、Bayes C、RRBLUP 等模型進(jìn)行比較研究,發(fā)現(xiàn)體重、體高、體斜長、管圍、胸圍、臀端高預(yù)測準(zhǔn)確度最高的分別為GBLUP、Bayes B、Bayes C、Bayes B、Bayes A、RRBLUP,為梅花鹿生長相關(guān)性狀的基因組選擇與實際應(yīng)用提供了重要的參考信息。
如今科學(xué)技術(shù)迅猛發(fā)展,自基因組選擇技術(shù)問世以來,算法模型和測序技術(shù)不斷完善成熟,在奶牛育種中取得的成果較多,在肉牛、羊以及其他反芻動物的育種中也進(jìn)行了相關(guān)研究與應(yīng)用,不可否認(rèn)的是,基因組選擇技術(shù)開啟了反芻動物育種的新篇章,推動動物育種邁向全面信息化、精準(zhǔn)化、智能化育種新時代。
在生產(chǎn)性能測定中,誤差對育種結(jié)果具有重要的影響。測量誤差可能來自多個方面,例如測量設(shè)備的準(zhǔn)確性、測量方法的規(guī)范性、環(huán)境變化等因素。為了減少測量誤差的影響,可以采取一些措施,例如選擇精確的測量設(shè)備(多模圖像融合技術(shù)、三維構(gòu)建羊體尺測量模型等)、采用標(biāo)準(zhǔn)的測量方法、定期對測量設(shè)備進(jìn)行校準(zhǔn)等。此外,還可以對測量數(shù)據(jù)進(jìn)行審核和修正,以減少測量誤差對結(jié)果的影響。在概率論中,實驗次數(shù)越多,頻率越趨于概率,因此在減少測定誤差的同時,要盡可能記錄更多個體的表型信息,即參考群數(shù)量越大,標(biāo)記效應(yīng)估計越準(zhǔn)確。Meuwissen等[36]通過模擬實驗得出結(jié)論,在對遺傳力為0.3的性狀進(jìn)行育種值估計時,樣本數(shù)大于2 000 時的準(zhǔn)確性較高。因此,在條件允許的情況下盡可能擴(kuò)大參考群體、構(gòu)建完整的系譜記錄和繁殖記錄。
在對基因序列進(jìn)行深入測序和解析時,會產(chǎn)生大量的數(shù)據(jù),如何快速的將繁雜的數(shù)據(jù)準(zhǔn)確地轉(zhuǎn)化為對育種有用的信息,這就需要不斷優(yōu)化基因組選擇的方法,提高模型計算的準(zhǔn)確性和效率,提高計算機(jī)的算力。目前基因組選擇主要依賴于表型信息、SNP 關(guān)聯(lián)分析信息或生物學(xué)先驗信息[37],因為基因組變異到表型變異經(jīng)過了翻譯、轉(zhuǎn)錄等過程,無法直接捕獲,但隨著高通量測序技術(shù)的不斷完善和成熟,獲取多組學(xué)數(shù)據(jù)(基因組、轉(zhuǎn)錄組、蛋白組、代謝組等)進(jìn)行預(yù)測已經(jīng)變得非常容易,這為研究從基因組變異到表型變異提供了橋梁。可以嘗試將人工智能、表型信息、全基因組關(guān)聯(lián)分析信息、多組學(xué)信息等綜合應(yīng)用優(yōu)化基因組選擇模型,使得預(yù)測的育種值更為準(zhǔn)確。相信未來人工智能等數(shù)據(jù)解讀和決策工具在動物育種中會發(fā)揮更大的作用,將形成以人工智能加分子育種技術(shù)的智慧育種新局面。
目前我國育種產(chǎn)業(yè)的發(fā)展受到了一個重要制約因素,科研院所在試驗場地、品種推廣等處受限,育種企業(yè)在高素質(zhì)人才隊伍建設(shè)、前沿育種技術(shù)應(yīng)用、設(shè)備資源等處受限,這制約了我國育種產(chǎn)業(yè)的發(fā)展。基因組選擇的本質(zhì)是一種選種選育技術(shù),涉及對數(shù)據(jù)的處理、復(fù)雜模型運(yùn)用以及軟件的分析,對人員具有很高的要求,需要其掌握基因組學(xué)、數(shù)量遺傳學(xué)、統(tǒng)計學(xué)、數(shù)值分析等方面的知識,而且需要具備一定的編程能力來處理海量數(shù)據(jù),同樣這在實際操作中也需要相應(yīng)完善的配套技術(shù)和設(shè)備,因此可以探索組建科研院所+育種企業(yè)+農(nóng)戶的模式,形成企業(yè)和科研院所優(yōu)勢互補(bǔ),同時帶動農(nóng)民創(chuàng)收??蒲性核M(jìn)行新品種培育,企業(yè)提供試驗場地和品種推廣,農(nóng)民參與養(yǎng)殖,企業(yè)回收畜種,這樣不但使得育種技術(shù)可以應(yīng)用于生產(chǎn),落地生根,而且還能帶動農(nóng)民就業(yè),促進(jìn)農(nóng)民增收,助力鄉(xiāng)村振興,開花結(jié)果。