李桂新,王詩(shī)媛,楊 杰,王小鵬,鄭恩琴
(華南農(nóng)業(yè)大學(xué)動(dòng)物科學(xué)學(xué)院,國(guó)家生豬種業(yè)工程技術(shù)研究中心,廣東廣州 510642)
在二倍體生物的基因組中,連續(xù)性純合片段(Runs of Homozygosity,ROH)是指基因組中沒(méi)有雜合子的純合基因型的連續(xù)染色體片段。ROH 主要由群體歷史變遷形成的,如種群瓶頸、遺傳漂變和近親繁殖等。另外,強(qiáng)烈的自然和人工選擇也塑造著基因組區(qū)域不同的ROH 模式。較長(zhǎng)的單倍型遺傳自最近的共同祖先,較短的單倍型遺傳自遙遠(yuǎn)的祖先。ROH 被認(rèn)為是評(píng)估人類(lèi)和動(dòng)植物近親繁殖的有效方法。優(yōu)良性狀的選擇產(chǎn)生了畜禽品種顯著的表型變化,并形成了基因組不同區(qū)域的ROH 模式。同時(shí),選擇也增加了基因座周?chē)募兒闲?。育種計(jì)劃的選擇強(qiáng)度和優(yōu)良種畜的廣泛應(yīng)用導(dǎo)致近親繁殖增加,引起群體的遺傳多樣性降低。使用中、高密度SNP 基因芯片掃描基因組中的ROH 是識(shí)別血緣同源(Identical By Descent,IBD)單倍型的有效方法?;蚪MROH 可以提供一個(gè)種群過(guò)去和最近的群體變化信息,揭示世代間演變的歷程。最近幾十年,人類(lèi)對(duì)瘦肉型豬的高強(qiáng)度選育可能導(dǎo)致近親繁殖的累積,造成基因組中單倍型的多樣性降低,等位基因的基因頻率升高甚至接近固定存在于基因組中。本文主要圍繞動(dòng)物基因組ROH 研究的發(fā)展簡(jiǎn)史、ROH 的識(shí)別軟件和相關(guān)參數(shù),以及ROH 在瘦肉型豬的應(yīng)用和研究進(jìn)展進(jìn)行綜述,旨在為瘦肉型豬的育種提供參考依據(jù)。
1999 年,Broman 等首次對(duì)人類(lèi)基因組進(jìn)行連續(xù)性純合檢測(cè)分析,推斷純合片段可能代表同合性,而且可能與人類(lèi)健康具有很大的相關(guān)性。2006 年,Gibson 等利用高密度SNP 芯片首次在人類(lèi)基因組中報(bào)道了ROH,揭示了整個(gè)基因組中ROH 的長(zhǎng)度、頻率和分布。2010 年,S?lkner 等、Feren?akovi? 等首次將高密度SNP 芯片應(yīng)用于畜禽基因組ROH 研究。隨著重測(cè)序技術(shù)和SNP 芯片的發(fā)展、成熟和廣泛引用及成本不斷降低,出現(xiàn)了一系列關(guān)于畜禽基因組ROH 分析的相關(guān)研究。例如在豬基因組研究中,Bosse 等2012 年,首次研究瘦肉型豬基因組ROH 的群體歷史(如群體瓶頸、近交繁殖等)、基因組特征(如GC 含量和重組率)和選擇對(duì)基因組ROH 的影響。Silió 等利用系譜和基因組數(shù)據(jù)中評(píng)估了伊比利亞豬豬的近交水平和近交衰退。Herrero-Medrano 等利用高密度SNP 芯片通過(guò)ROH 分析,揭示了家豬和野豬的群體歷史和近交繁殖。2014 年,Herrero-Medrano 等使 用60K SNP 芯片和重測(cè)序數(shù)據(jù)(~10X)進(jìn)行ROH 檢測(cè),發(fā)現(xiàn)檢測(cè)的ROH 和近交系數(shù)呈現(xiàn)很強(qiáng)的相關(guān)性。此后,瘦肉型豬基因組ROH 成為一個(gè)興起的研究熱點(diǎn)。
目前,對(duì)于不同的數(shù)據(jù)集,關(guān)于不同軟件間以及同一軟件間不同參數(shù)的設(shè)置對(duì)ROH 檢測(cè)影響的研究較少,使用不同軟件之間的最佳參數(shù)難以確定。不同的研究采用了不同的軟件和參數(shù)來(lái)識(shí)別ROH。目前,缺乏對(duì)ROH 的定義和識(shí)別標(biāo)準(zhǔn),局限了ROH 相關(guān)研究的發(fā)展。不同的研究在檢測(cè)ROH 時(shí)使用了各自的標(biāo)準(zhǔn),有些研究采用了嚴(yán)格的標(biāo)準(zhǔn),如Lencz 等采用至少100個(gè)連續(xù)SNPs,不允許存在雜合子,且需要在10 個(gè)或者更多個(gè)體間共享的ROH 為研究目標(biāo)。而有些研究采用了較為寬松的標(biāo)準(zhǔn),如Spain 等使用完全連鎖不平衡和低連鎖不平衡的數(shù)據(jù)集,研究了不同數(shù)量的SNPs和不同長(zhǎng)度的ROH 對(duì)識(shí)別ROH 的影響,研究允許2%的雜合子出現(xiàn),且取消了對(duì)SNPs 之間最大距離和最小SNPs 密度的限制。定義和識(shí)別ROH 標(biāo)準(zhǔn)的差異可能導(dǎo)致千差萬(wàn)別的結(jié)果,同時(shí)增加了假陽(yáng)性出現(xiàn)的概率,并使不同研究結(jié)果之間的比較變得困難。
2.1 檢測(cè)ROH 的軟件 當(dāng)前,根據(jù)不同的方式識(shí)別基因組ROH,可以將檢測(cè)方法分為連續(xù)性(Consecutive Runs)識(shí)別和窗口滑動(dòng)(Sliding Window)識(shí)別。連續(xù)性識(shí)別是一種沿著基因組對(duì)SNPs 位點(diǎn)連續(xù)掃描檢測(cè)的方法,其設(shè)置參數(shù)類(lèi)別包括一個(gè)ROH 中最小的SNPs數(shù)量、最大的雜合子與缺失SNPs 數(shù)量、相鄰SNPs 位點(diǎn)的最大間隙以及最小運(yùn)行長(zhǎng)度等。應(yīng)用連續(xù)性識(shí)別方法檢測(cè)ROH 的軟件有SVS(Golden Helix SNP &Variation Suite v.7.6.8)、SAS(SAS Institute)以 及最近比較熱門(mén)的R 包—detectRUNS等。另一種檢測(cè)方法是窗口滑動(dòng)檢測(cè)法,即設(shè)置窗口大小,以滑動(dòng)窗口形式檢測(cè)基因組ROH 的方法。常用軟件及腳本有PLINK、GERMLINE、BEAGLE、cgaTOH、SVS(Golden Helix SNP &Variation Suite v.7.6.8)、BCFtools/RoH、RZooRoH和FORTRAN 腳本等。其中,SVS 軟件和R 包—detectRUNS 能同時(shí)用這2 種檢測(cè)方法來(lái)識(shí)別基因組ROH。目前PLINK 的窗口滑動(dòng)和R 包—detectRUNS 的連續(xù)性檢測(cè)方法被廣泛應(yīng)用于ROH 的研究。
2.2 檢測(cè)ROH 的參數(shù) 無(wú)論是連續(xù)性運(yùn)行還是窗口滑動(dòng)識(shí)別ROH,都需要對(duì)多個(gè)參數(shù)和閾值進(jìn)行設(shè)置。這些設(shè)置可能會(huì)對(duì)ROH 數(shù)量、大小和分布產(chǎn)生顯著影響,而且默認(rèn)設(shè)置值并不總是適合各種基因型數(shù)據(jù),尤其是不同密度的商業(yè)SNP 芯片數(shù)據(jù)。Purfield 等使用牛50K 和HD SNP 芯片(777972 SNPs)分析ROH時(shí),發(fā)現(xiàn)HD 芯片能更準(zhǔn)確地識(shí)別ROH,50K 芯片的SNP 密度適用于大多數(shù)牛品種的ROH 檢測(cè)。作者還比較了50K 和HD 芯片共有SNPs 數(shù)據(jù)集與HD 芯片識(shí)別ROH 的差異,發(fā)現(xiàn)二者都難以識(shí)別0.5~1 Mb 短長(zhǎng)度的ROHs,且都能識(shí)別所有>5 Mb 長(zhǎng)度的ROHs。同時(shí),因?yàn)榈兔芏萐NP 芯片估計(jì)的ROH 水平與根據(jù)系譜的近交系數(shù)呈正相關(guān)。因此,常用商業(yè)基因芯片的標(biāo)記密度在鑒定ROH 是合適的。進(jìn)行ROH 分析之前,是否需要過(guò)濾最小等位基因型頻率(Minor Allele Frequency,MAF)、偏離哈代-溫伯格平衡(Hardy-Weinberg Equilibrium,HWE)和高連鎖不平衡(Linkage Disequilibrium,LD)的SNPs 尚未得到共識(shí)。大多數(shù)研究都是采用過(guò)濾MAF<0.01 或者<0.05 的SNPs。有些研究也過(guò)濾LD,如Meyermans 等測(cè)試過(guò)濾不同LD 和MAF 值對(duì)檢測(cè)ROH 的影響,發(fā)現(xiàn)隨著過(guò)濾LD值的增加,基因組覆蓋率迅速下降;同時(shí)發(fā)現(xiàn)MAF 過(guò)濾不僅影響固定區(qū)域的ROH 檢測(cè),而且在非固定區(qū)域檢測(cè)到ROH 的發(fā)生率也存在較大差異。因此,在進(jìn)行ROH 研究時(shí),作者建議不要進(jìn)行LD 和MAF 過(guò)濾。SNP 基因型分型錯(cuò)誤是另一個(gè)可能影響ROH 檢測(cè)的因素,它的存在會(huì)影響包含SNPs 數(shù)量多的長(zhǎng)ROH 識(shí)別。當(dāng)前研究的一個(gè)解決方案是允許一定數(shù)量的雜合SNP存在,但這是否會(huì)影響檢測(cè)ROH 的可靠性尚未得到證實(shí)。此外,其他因素如ROH 中SNP 的最小密度、最大間隙、滑動(dòng)窗口大小、窗口閾值、ROH 最小長(zhǎng)度、ROH 包含的最少SNP 數(shù)量和最多缺失基因型數(shù)量在一定程度都會(huì)影響ROH 的檢測(cè)。
目前,ROH 分析廣泛應(yīng)用于瘦肉型豬研究中,主流瘦肉型豬品種基因組ROH 的部分研究工作以及用于識(shí)別ROH 的相應(yīng)參數(shù)和閾值均在表1 中展示。然而還有一些研究的參數(shù)設(shè)置沒(méi)有明確地提到,不確定作者是否使用默認(rèn)設(shè)置或調(diào)整參數(shù),這樣可能使得基因組的覆蓋率被過(guò)高或過(guò)低估計(jì)??梢?jiàn),ROH 的識(shí)別和定義標(biāo)準(zhǔn)在不同品種內(nèi)和品種間都存在差異。
表1 不同瘦肉型豬品種ROH 識(shí)別和參數(shù)設(shè)置的比較
2010 年,S?lkner 等首次在牛基因組研究中報(bào)道ROH 后,越來(lái)越多學(xué)者對(duì)畜禽的ROH 進(jìn)行了更深入的探索,尤其是瘦肉型豬ROH 的研究,包括遺傳多樣性分析、群體歷史及近交系數(shù)的評(píng)估、選擇信號(hào)的鑒別和不利ROH 檢測(cè)等多個(gè)重點(diǎn)研究方向。
3.1 ROH 分析遺傳多樣性 基因組信息已被廣泛用于評(píng)估畜禽的遺傳多樣性。經(jīng)歷過(guò)高強(qiáng)度人工選育的優(yōu)良畜禽動(dòng)物的表型變異減少,基因組單倍型的多樣性降低,被選擇位點(diǎn)周?chē)募兒闲栽黾樱霈F(xiàn)ROH 模式,導(dǎo)致優(yōu)良動(dòng)物的遺傳多樣性降低、近交系數(shù)升高。
3.2 ROH 評(píng)估近親繁殖水平 近交系數(shù)(Inbreeding Coefficient,F(xiàn))是監(jiān)測(cè)種群遺傳變異和管理畜禽遺傳資源的重要參數(shù)之一,準(zhǔn)確地評(píng)估個(gè)體和群體的近交系數(shù)不僅是實(shí)際生產(chǎn)的切實(shí)需求,也是近交效應(yīng)研究的重點(diǎn)。傳統(tǒng)上,近交系數(shù)的估計(jì)是基于系譜信息(F),該方法度量的是個(gè)體任意位點(diǎn)上出現(xiàn)共享等位基因型的概率,估計(jì)值是固定的。F值是否能夠真實(shí)反映群體的近交水平取決于個(gè)體系譜信息的完整性和準(zhǔn)確性。然而,在實(shí)際生產(chǎn)中,由于各種因素導(dǎo)致系譜信息不完整或者記錄錯(cuò)誤的現(xiàn)象普遍存在,這將大大降低F估計(jì)值的可靠性。此外,F(xiàn)依賴于基礎(chǔ)群信息,基于群體的基因組沒(méi)有經(jīng)歷重組和個(gè)體不受選擇的基礎(chǔ)計(jì)算,也難以反映染色體中的純合性,更不允許計(jì)算特定染色體區(qū)域的近交系數(shù)。
早期的低密度分子標(biāo)記由于標(biāo)記數(shù)量有限,可能存在抽樣誤差,導(dǎo)致估計(jì)值的準(zhǔn)確性低。但隨著重測(cè)序技術(shù)和高密度SNP 芯片的發(fā)展,DNA 分子信息顯著地提高了評(píng)估近交系數(shù)的準(zhǔn)確性。利用分子信息來(lái)評(píng)估群體的近交水平主要分為3 種方法:基于純合子SNP 的近交系數(shù)(F);基于SNP 分子標(biāo)記間的近交系數(shù)(F);基于ROH 的近交系數(shù)(F)。與F和F相比,F(xiàn)估計(jì)群體近交系數(shù)有以下幾點(diǎn)優(yōu)勢(shì):第一,可以區(qū)分是IBD 還是狀態(tài)同源(Identical By State,IBS)。在使用單一分子標(biāo)記計(jì)算估計(jì)近交水平時(shí),難以區(qū)分IBD 和IBS,但使用ROH 卻可以做到;第二,可以揭示近交發(fā)生的時(shí)期(近期還是遙遠(yuǎn)時(shí)期)。在減數(shù)分裂時(shí)重組事件可以打斷較長(zhǎng)的ROH 片段,因此ROH 的長(zhǎng)度和距離共同祖先的世代數(shù)有很強(qiáng)的相關(guān)性。例如Shi 等檢測(cè)到大白豬的近交水平可能是在近5 代積累導(dǎo)致,而且F和F之間的相關(guān)性比較低(0.18~0.37)。這個(gè)結(jié)果與其它瘦肉型豬的研究一致,并且F和F之間的相關(guān)性在不同長(zhǎng)度的ROH沒(méi)有明顯變化。F不能區(qū)分IBD 和IBS,可能過(guò)高地估計(jì)了近交水平,除了與F之間的相關(guān)性較低外,與F和不同長(zhǎng)度的F相關(guān)性都較高,這在皮特蘭豬、杜洛克豬、長(zhǎng)白豬以及不同品系大白豬的研究中都得到相同的結(jié)論。Zhan 等基于系譜信息和基因組信息評(píng)估了皮特蘭豬的近交水平,F(xiàn)和F有顯著的高相關(guān)性(r=0.949),F(xiàn)與F之間相關(guān)性較低,這也與Gorssen 等在其他皮特蘭豬群體的報(bào)道一致,F(xiàn)和F都與F沒(méi)有高相關(guān)性。這些結(jié)果表明F和F之間的相關(guān)性不高,可能是因?yàn)镕和F應(yīng)用的計(jì)算方法和原理不同,如F不能計(jì)算基因組中IBD 實(shí)際比例,也不能解釋減數(shù)分裂期間重組的隨機(jī)事件,這可能影響了計(jì)算的準(zhǔn)確性,特別是沒(méi)有或缺乏系譜信息時(shí)。同時(shí)基因組中某些單倍型可能是由于局部的低程度重組和高水平LD形成的。此外,相關(guān)研究表明短片段和中等長(zhǎng)度片段的ROH 更有可能來(lái)自LD 或者遙遠(yuǎn)時(shí)期的近交事件,而通過(guò)排除LD 和隨機(jī)效應(yīng)的干擾,長(zhǎng)片段ROH 估算的近交系數(shù)可以更準(zhǔn)確地代表近期近交繁殖的水平。然而,不同群體的ROH 分類(lèi)沒(méi)有固定標(biāo)準(zhǔn)。因此,使用總長(zhǎng)度的ROH 來(lái)估算近交水平是一個(gè)更為可行的方法。由評(píng)估瘦肉型豬和其他動(dòng)物ROH 的相關(guān)研究表明,F(xiàn)可能是一種在理論上更有效和準(zhǔn)確的度量畜禽近交水平的替代方法,被廣泛用于評(píng)估個(gè)體和群體的近交水平。
3.3 ROH 識(shí)別人工選擇的痕跡 歐洲家豬大約在9 000年前在近東被馴化,是最早被馴化的家畜之一。近一兩百年來(lái),隨著人類(lèi)對(duì)瘦肉型豬品種的需求和優(yōu)良種畜的選育,不僅造成了瘦肉型豬外形和生長(zhǎng)性狀的變化,還在基因組中留下了選擇的印跡。當(dāng)基因組的特定區(qū)域受到長(zhǎng)期、連續(xù)和高強(qiáng)度的正向選擇,特別是人工選擇,會(huì)表現(xiàn)出受選擇區(qū)域的純合頻率迅速增加,甚至固定下來(lái),出現(xiàn)ROH 片段。Bosse 等觀察到,ROH在染色體中是非隨機(jī)分布的,許多SNPs 分子標(biāo)記在ROH 片段中具有異常頻率,這些區(qū)域被稱(chēng)為“ROH 熱點(diǎn)”或“ROH 島”。因此,通過(guò)掃描基因組中的ROH 高頻區(qū)域區(qū)段可以鑒定受到選擇的基因組區(qū)域。
Gorssen 等對(duì)5 個(gè)不同品系皮特蘭豬基因組進(jìn)行ROH 分析,并與杜洛克豬、大白豬和長(zhǎng)白豬進(jìn)行比較,在8 號(hào)染色體上觀察到一個(gè)90 Mb 的ROH 熱點(diǎn)區(qū)域,約85%的個(gè)體存在共享ROH,著名的影響豬毛色的基因在這個(gè)區(qū)域也被鑒定到。此外,50~60 Mb區(qū)域處發(fā)現(xiàn)所有皮特蘭品系、長(zhǎng)白豬和大白豬存在的ROH 島重疊。Zhan 等同樣進(jìn)行了皮特蘭豬ROH分析,將16 個(gè)ROH 熱點(diǎn)區(qū)域與豬數(shù)量性狀基因座(Quantitative Trait Locus,QTL)進(jìn)行比對(duì),發(fā)現(xiàn)其與生長(zhǎng)、肉質(zhì)、胴體品質(zhì)和繁殖等性狀相關(guān)。同時(shí),還鑒定到在生物學(xué)過(guò)程起關(guān)鍵作用的候選基因。Shi 等在大白豬基因組的4 個(gè)ROH 熱點(diǎn)區(qū)域中檢測(cè)到大量與繁殖相關(guān)的候選基因,這與大白豬繁殖力高、產(chǎn)仔數(shù)多的種質(zhì)特性相一致。Gorssen 等利用全球共享的動(dòng)物基因組數(shù)據(jù)進(jìn)行了ROH 分析,觀察到杜洛克豬在這些動(dòng)物中ROH 熱點(diǎn)區(qū)域最多,同時(shí)SNPs 發(fā)生頻率也是最高的,很大部分超過(guò)80%,有些甚至達(dá)到100%。
經(jīng)過(guò)長(zhǎng)期的正向選擇,控制重要經(jīng)濟(jì)性狀的調(diào)控區(qū)域?qū)⒏叨燃兒希@些特定區(qū)域也就更容易暴露在ROH高頻區(qū)域。所以,觀察到的ROH 高頻區(qū)域有助于識(shí)別被選擇的位點(diǎn)或區(qū)域,尋找與經(jīng)濟(jì)性狀相關(guān)的候選基因,并應(yīng)用于育種實(shí)踐中。
3.4 檢測(cè)不利ROH 單倍型 在瘦肉型豬育種工作中,重要經(jīng)濟(jì)性狀的遺傳增益是通過(guò)高強(qiáng)度選育實(shí)現(xiàn)的。然而,高強(qiáng)度選育會(huì)造成遺傳多樣性降低和近親繁殖程度增加,而且可能會(huì)導(dǎo)致隱性有害等位基因的積累。這反過(guò)來(lái)又導(dǎo)致近交衰退,即平均表型性能的降低。近親繁殖會(huì)產(chǎn)生ROH,大多數(shù)的ROH 對(duì)表型有中性甚至有利的影響,從而掩蓋了少數(shù)不利的ROH 影響。由于近親繁殖的模式在整個(gè)基因組中是不同的,因此,確定與表型相關(guān)的基因組ROH 區(qū)域可以使遺傳增益和近親繁殖水平之間得到更有效的平衡。有不少研究報(bào)道了ROHs 對(duì)經(jīng)濟(jì)性狀會(huì)造成不利影響,但是沒(méi)有考慮到不同ROH 片段對(duì)同一表型的影響和不同ROH 片段對(duì)多個(gè)表型的影響。Howard 等提出了一種能檢測(cè)對(duì)表型不利的ROH,即能對(duì)個(gè)體內(nèi)和個(gè)體間ROH 出現(xiàn)的聯(lián)合效應(yīng)進(jìn)行描述的軟件——Unfavorable Haplotype Finder。利用此軟件在大白豬基因組中檢測(cè)到13 個(gè)生長(zhǎng)性狀和繁殖性狀相關(guān)的不利ROH(平均長(zhǎng)度為1.54 Mb;長(zhǎng)白豬中為4 個(gè)ROHs,平均長(zhǎng)度為1.56 Mb),以及2 個(gè)品種中3 個(gè)與繁殖性狀相關(guān)的共有區(qū)域。同時(shí)還指出LD、QTL 和ROH 在基因組中發(fā)生的頻率對(duì)識(shí)別不利ROH 的能力產(chǎn)生很大影響。
ROH 分析是研究畜禽基因組特征的有效方法。本文針對(duì)瘦肉型豬基因組中ROH 在分析遺傳多樣性、評(píng)估近交繁殖水平和識(shí)別人工選擇痕跡等應(yīng)用進(jìn)行了全面的綜述。然而,在瘦肉型豬中有害突變的累積是否在ROH 出現(xiàn)的概率更高,以及ROH 是否與經(jīng)濟(jì)性狀具有強(qiáng)相關(guān)性尚未有報(bào)道,仍需要進(jìn)一步探究。
雖然目前對(duì)基因組中ROH 有很多研究,但仍存在許多科學(xué)問(wèn)題值得進(jìn)一步挖掘:①瘦肉型豬中ROH 的定義以及檢測(cè)的參數(shù)和閾值缺乏一致的標(biāo)準(zhǔn),很難直接比較不同研究的結(jié)果;②瘦肉型豬ROH 覆蓋率高的ROH 區(qū)域是否存在有害突變,不同長(zhǎng)度的ROH 中有害突變的頻率是否有規(guī)律,對(duì)生長(zhǎng)性狀是否產(chǎn)生負(fù)面影響;③Unfavorable Haplotype Finder 軟件既然能找出不利ROH 片段,那么是否可以能通過(guò)調(diào)整參數(shù)找到對(duì)瘦肉型豬最有利的ROH 片段或者雜合子片段(Runs of Heterozygosity,ROHet)以及不利的ROHet 片段,以用于現(xiàn)代育種計(jì)劃。因此,關(guān)于瘦肉型豬基因組中ROH 和ROHet 仍需深入研究,進(jìn)而為育種工作和解析瘦肉型豬遺傳和表型差異的遺傳機(jī)制提供理論依據(jù)。