李曉凱 范一星 喬賢 張磊 王鳳紅 王志英 王瑞軍,2,3 張燕軍,2,3 劉志紅,2,3 王志新 何利兵 李金泉,2,3 蘇蕊,2,3 張家新
(1. 內(nèi)蒙古農(nóng)業(yè)大學(xué)動(dòng)物科學(xué)學(xué)院,呼和浩特 010018;2. 農(nóng)業(yè)部肉羊遺傳育種重點(diǎn)實(shí)驗(yàn)室,呼和浩特 010018;3. 內(nèi)蒙古自治區(qū)山羊遺傳育種工程技術(shù)研究中心,呼和浩特 010018;4. 內(nèi)蒙古金萊牧業(yè)科技有限責(zé)任公司,呼和浩特 010018)
基于考古學(xué)和遺傳學(xué)等方法的研究表明,家山羊是約在10 000 年前的新石器時(shí)代由西亞肥沃新月地帶的野山羊(Bezoars,Capra aegagrus)馴化而來(lái),是最早馴化的反芻動(dòng)物之一[1-2]。隨著人類的遷徙與演化,山羊是目前全球范圍內(nèi)分布最廣泛的牲畜物種之一,主要用于生產(chǎn)肉、奶、皮和毛(絨)等農(nóng)業(yè)生產(chǎn)資源[3-4]。據(jù)統(tǒng)計(jì)資料顯示,全世界范圍內(nèi)共有10 億多只不同生產(chǎn)用途的山羊飼養(yǎng)在各種生態(tài)區(qū)內(nèi),超過(guò)90%的山羊分布在亞洲和非洲;其次是美洲、歐洲和大洋洲,包括肉用、乳用、皮毛用、絨毛用和普通山羊等不同生產(chǎn)用途的576 個(gè)山羊品種(http://www.fao.org/faostat/en/)[4-5]。山羊是發(fā)展中國(guó)家農(nóng)牧民重要的家畜之一,但相對(duì)于奶牛、家豬、綿羊和家馬等經(jīng)濟(jì)效益較高的牲畜品種,山羊的分子生物學(xué)研究和遺傳育種工作總體相對(duì)落后,嚴(yán)重阻礙了發(fā)展中國(guó)家貧困偏遠(yuǎn)地區(qū)的經(jīng)濟(jì)發(fā)展[6]。
隨著人類基因組計(jì)劃的實(shí)施與完成,單核苷多態(tài)性(Single-nucleotide polymorphism,SNP)因具有數(shù)量多,分布廣泛,易于快速、規(guī)?;Y查,便于基因分型等特點(diǎn),已成為動(dòng)物種質(zhì)資源遺傳多樣性評(píng)估和基因功能定位研究的有力工具[7-9]。高通量測(cè)序技術(shù)的應(yīng)用極大地促進(jìn)了家畜基因組組裝和遺傳變異檢測(cè)的研究[10-11],如家牛[12]、家馬[13]、家豬[14]、山羊[15]和綿羊[16]等參考基因組組裝以及第一款家牛商業(yè)化芯片的研制[17]。2010 年,國(guó)際山羊基因組協(xié)會(huì)(International goat genome consortium,IGGC)成立,標(biāo)志著高通量測(cè)序(Next generation sequencing,NGS)技術(shù)開始廣泛應(yīng)用于山羊的基因組研究[18-19];2013 年完成了世界上首個(gè)山羊參考基因組草圖[15],并推出Goat SNP50K 磁珠芯片[20]和66K 目標(biāo)捕獲芯片[21]。2017 年,Bickhart 等[22]組裝的近乎完整的參考基因組精細(xì)圖譜ARS1,為山羊功能基因的精細(xì)定位提供了更加可靠的基因組信息。通過(guò)對(duì)基因組的重測(cè)序、簡(jiǎn)化基因組測(cè)序、外顯子測(cè)序和RNA-seq 等技術(shù)方法,與參考基因組(CHIR_1.0、CHIR_2.0 和ARS1)比對(duì),獲得了大量的遺傳變異信息,為更全面的揭示山羊的遺傳多樣性、環(huán)境適應(yīng)以及人工選擇反應(yīng)提供了遺傳標(biāo)記信息。因此,本文主要對(duì)山羊基因圖譜(遺傳圖譜、物理圖譜、轉(zhuǎn)錄圖譜與表達(dá)圖譜)以及分子遺傳變異信息的檢測(cè)進(jìn)展進(jìn)行了綜述,以期為進(jìn)一步利用參考基因組信息和遺傳變異標(biāo)記對(duì)山羊進(jìn)行經(jīng)濟(jì)性狀的遺傳基礎(chǔ)研究和分子育種提供參考。
1996 年,Vaiman 等[23]基于微衛(wèi)星標(biāo)記和共線性分析,利用12 個(gè)半同胞家系山羊(薩能奶山羊和阿爾卑斯山羊雜交種)構(gòu)建得到了低分辨率的連鎖圖譜,并利用熒光原位雜交技術(shù)(Fluorescence in situ hybrid,F(xiàn)ISH)確定了204 個(gè)微衛(wèi)星標(biāo)記;最終得到全長(zhǎng)為2 300 cM 的連鎖圖譜,覆蓋了山羊基因組長(zhǎng)度的80%。1998 年,Schibler 等[24-25]構(gòu)建了山羊BAC 文庫(kù),并通過(guò)ZOO-FISH 技術(shù)在山羊染色體上定位了202 個(gè)基因,同時(shí)在已有的山羊遺傳圖譜上增加了30 個(gè)微衛(wèi)星標(biāo)記,以此構(gòu)建的細(xì)胞遺傳-遺傳連鎖合成圖含有307 個(gè)微衛(wèi)星標(biāo)記257 個(gè)基因,遺傳圖譜長(zhǎng)度約2 737 cM,覆蓋了山羊基因組的88%。2005 年,Maddox[26]對(duì)綿羊和山羊的遺傳圖譜進(jìn)行比較,結(jié)果顯示有218 個(gè)公共共有基因座,同時(shí)發(fā)現(xiàn)它們的同源基因座在圖中的位置很一致。
1975 年,Goss 和Harris[27]共同創(chuàng)立了體細(xì)胞雜交技術(shù),即輻射雜交(Radiation hybrid,RH)基因組作圖技術(shù),其原理是用輻射來(lái)誘導(dǎo)染色體斷裂,并將輻射過(guò)的細(xì)胞與正常細(xì)胞進(jìn)行雜交,獲得含有染色體片段的雜種細(xì)胞。隨后利用輻射雜交技術(shù)成功在人類、家屬、家牛等不同物種中構(gòu)建了基因組長(zhǎng)范圍的高分辨連續(xù)物理圖譜,極大了促進(jìn)了人類、小鼠及不同家畜物種的基因組研究進(jìn)展。Du 等[28-29]利用輻射雜種嵌板技術(shù),首次構(gòu)建了山羊全基因組輻射雜種圖譜(CHIRH5000),為標(biāo)記密度最高的的輻射雜種圖譜。隨后,更多的標(biāo)記定位在山羊細(xì)胞遺傳-遺傳連鎖合成圖,這些研究和相應(yīng)建成的山羊圖譜數(shù)據(jù)(http://locus.jouy.inra.fr)加深對(duì)哺乳動(dòng)物染色體進(jìn)化的了解,加速反芻動(dòng)物圖位克隆的研究[30]。
基因組中僅包括2%左右的序列為編碼蛋白質(zhì),表達(dá)序列標(biāo)簽(Expressed sequence tags,ESTs)和RNA-seq 測(cè)序可以最有效率的進(jìn)行基因識(shí)別。構(gòu)建生物特定組織、器官或細(xì)胞的cDNA 文庫(kù)并進(jìn)行大規(guī)模EST 測(cè)序和RNA-seq 測(cè)序分析,能直接獲得大量的功能基因結(jié)構(gòu)及表達(dá)特征,并以此來(lái)構(gòu)建各種組織器官的基因表達(dá)譜和對(duì)基因組結(jié)構(gòu)和功能進(jìn)行注釋。1996 年,Le Provost 等[31]首次采用泌乳期的山羊乳腺組織構(gòu)建了cDNA 文庫(kù),經(jīng)過(guò)篩選對(duì)其中的435 個(gè)cDNA 克隆進(jìn)行EST 測(cè)序,確認(rèn)了77 個(gè)與山羊泌乳有關(guān)的基因或者蛋白。2000 年,Le Provost等[32]進(jìn)一步采用圖位克隆的技術(shù),結(jié)合EST 測(cè)序和細(xì)胞遺傳定位技術(shù)鑒定了25 個(gè)可能與產(chǎn)奶性狀有關(guān)的新的基因,其中6 個(gè)定位在牛的產(chǎn)奶QTL 區(qū)域。
RNA-seq 技術(shù)與生物信息學(xué)的快速發(fā)展,為理解基因組結(jié)構(gòu)和基因功能奠定了基礎(chǔ)。Dong 等[15]對(duì)云南黑山羊不同組織(肝臟、心臟、肺、腎臟、脾臟、淋巴結(jié)、前腦皮層、肌肉、膀胱和卵巢)的mRNA 進(jìn)行了轉(zhuǎn)錄組測(cè)序,為基因功能注釋奠定了堅(jiān)實(shí)的基礎(chǔ)。不同組織、細(xì)胞的非編碼RNA 的檢測(cè)研究,如miRNA(乳腺[33]、皮膚毛囊[34-35]、卵巢[36]、垂體[37]、真皮乳頭細(xì)胞[38],以及背最長(zhǎng)?。?9])、LncRNA(骨骼?。?0]、卵巢[41]和毛囊[42])等的分析研究,也為精細(xì)山羊基因組的功能結(jié)構(gòu)、調(diào)控元件和基因功能注釋提供了數(shù)據(jù)支持。
2010 年3 月,國(guó)際山羊基因組合作聯(lián)盟(International goat genome consortium,IGGC)在中國(guó)深圳正式成立,由中國(guó)科學(xué)院昆明動(dòng)物所、深圳華大基因和內(nèi)蒙古農(nóng)業(yè)大學(xué)等10 多個(gè)國(guó)家的20 個(gè)科研機(jī)構(gòu)或組織參與,旨在通過(guò)國(guó)際間的交流合作,加快山羊基因組圖譜構(gòu)建、山羊遺傳多樣性、環(huán)境適應(yīng)基礎(chǔ)和分子育種等方面的研究進(jìn)展[43]。通過(guò)各個(gè)研究機(jī)構(gòu)的合作努力和不同的技術(shù)方法,先后構(gòu)建了家山羊參考基因組(CHIR_1.0、CHIR_2.0、ARS1 和CVASU_BBG_1.0)和野山羊參考基因組(CapAeg_1.0 和Caeg1),為加快山羊的分子生物學(xué)研究和今后的基因組選擇育種奠定了基礎(chǔ)。
1.4.1 家山羊參考基因組(CHIR_1.0 與CHIR_2.0)2013 年,Dong 等[15]利用Illumina 測(cè)序和光學(xué)圖譜(Optical mapping)技術(shù)以及Fosmid 和輻射雜種嵌板技術(shù)的數(shù)據(jù)對(duì)云南黑山羊進(jìn)行基因組從頭組裝和染色體定位。對(duì)云南黑山羊母羊采用雙末端測(cè)序,構(gòu)建了7 個(gè)不同大小片段文庫(kù)用于基因組測(cè)序,共產(chǎn)生191.5 Gb 高質(zhì)量數(shù)據(jù)。首先,由17-kmer 推算和c-value 計(jì)算山羊的基因組大小,約為2.92 Gb。其次,利用SOAPdenovo 軟件經(jīng)過(guò)初步組裝后的contig N50 為18 kb;scaffold N50 為2.2 Mb。最后,利用Fosmid 和Optical mapping 技術(shù)方法輔助構(gòu)建Superscaffold,獲得最終的super-scaffold,獲得2.66 Gb 大小的參考基因組(CHIR_1.0),組裝出的基因組序列占預(yù)測(cè)基因組大小的92%(2.92 Gb),其Scaffolds N50 的大小為18 Mb,無(wú)法定位到染色體的superscaffold 歸類為chromosome U[15]。此外,利用RH技術(shù)對(duì)山羊第1 號(hào)染色體構(gòu)建了高密度SNP 標(biāo)記的輻射雜種圖譜,并與Optical mapping 數(shù)據(jù)組裝的長(zhǎng)超級(jí)支架(Super-scaffold)進(jìn)行了比對(duì),成功證明了山羊序列的組裝質(zhì)量的可靠性[29]。山羊基因組中含有大量重復(fù)序列,約占基因組42.2%。使用從頭注釋、基于人和牛的基因同源注釋和基因預(yù)測(cè),總共注釋出山羊蛋白編碼基因有22 175 個(gè),平均轉(zhuǎn)錄本長(zhǎng)度為29 969 bp,CDS 平均長(zhǎng)度為1 385 bp,每個(gè)基因平均含有8 個(gè)外顯子,每個(gè)外顯子的平均長(zhǎng)度為168 bp,內(nèi)含子平均長(zhǎng)度為3 956 bp。隨后,研究人員進(jìn)一步通過(guò)增加Illunima 測(cè)序數(shù)據(jù),對(duì)參考基因組CHIR_1.0 進(jìn)行了的一些修正,并利用輻射雜交技術(shù)修正了一些scaffold 的方向和順序以及掛載了CHIR_1.0未能成功掛載的scaffold[29]。通過(guò)一系列的組裝優(yōu)化工作,最終獲得了山羊的基因組序列大小2.85 Gb,contig N50 的長(zhǎng)度為29.87 kp,scaffold 的N50 長(zhǎng)度為8.92 Mb,其中染色體的 GC 含量為 40.73%,;在使用CHIR_1.0 為模板掛載染色體后,同樣使用了野山羊染色體和綿羊染色體的作為模板掛載了剩余部分中未成功定位的scaffold,最終在CHIR_2.0 中的scaffold 序列中能成功掛載到山羊染色體上的序列占總序列的93.2%[44]。總的來(lái)說(shuō),相較于CHIR_1.0 版本的基因組,CHIR_2.0 在基因組完整性、功能注釋等方面都有較大的提升,極大地促進(jìn)了山羊遺傳變異檢測(cè)和功能基因定位的研究 工作。
1.4.2 家山羊參考基因 組(ARS1) 2017 年,Bickhart 等[22]首先利用Illumina 的Goat SNP50K 芯片從96 頭山羊(6 個(gè)品種)中,篩選出基因型純和度最高的候選個(gè)體用來(lái)進(jìn)行基因組從頭組裝(San clemente)。第一 步, 用Celera Assembler PacBio corrected Reads 流程對(duì)Pacbio 技術(shù)的465 個(gè)SMRT cell 產(chǎn)生的long-read,覆蓋深度達(dá)69X 的194 Gb基因組數(shù)據(jù)進(jìn)行初步組裝,共獲得3 074 個(gè)contig(2.63 G),其中N50 為4.159 Mb。第二步,基于Irys optical mapping 技術(shù)對(duì)其雄性后代測(cè)序產(chǎn)生的256 Gb光學(xué)圖譜數(shù)據(jù),并利用IrysView 軟件構(gòu)建scaffold,組裝產(chǎn)生了842 個(gè)scaffold,其中,scaffold N50 為13.408 Mb(最長(zhǎng) 的scaffold 為66.728 Mb),contig N50 為10.858 Mb。第三步,基于PacBio 和光學(xué)圖譜組裝的結(jié)果,構(gòu)建Hi-C 文庫(kù)并物理方法打斷成300-500 bp 大小,雙末端(PE101),共產(chǎn)生115 Mb reads的數(shù)據(jù)量,調(diào)用Lachesis 軟件包,整合PacBio-Irys-PGA(PBIP),獲得Scaffold N50 為87.347 Mb 較為完美的組裝結(jié)果。第四步,利用Illumina 技術(shù),構(gòu)建PE251 測(cè)序,獲得23X 的基因組數(shù)據(jù),用來(lái)進(jìn)行一致校正和最后的補(bǔ)洞。最后,利用Kraken v0.10.5 去除有病毒和細(xì)菌污染的序列,去掉有NCBI vector污染的序列,獲得最終的2.924 Gb 大小的參考基因組圖譜ARS1,包含31 個(gè)scaffold,663 個(gè)gap 區(qū)和680 條contig。此外,利用6 個(gè)組織(大多和腦組織相關(guān))RNA-seq 測(cè)序數(shù)據(jù)、13 個(gè)SRA 下載數(shù)據(jù),用PASA 軟件將stringtie、cufflinks 和Trinity 分析結(jié)果整合在一起;用exonerate 和tblastn 軟件比對(duì)到幾個(gè)近緣物種的Ensembl 基因集上,獲得同源預(yù)測(cè)基因集;用Braker1 做Ab initio 預(yù)測(cè);CHIR_1.0 版本的注釋基因集;最后,用EVM+PASA 把以上4 種數(shù)據(jù)整合成一個(gè)最終的基因集(設(shè)置的權(quán)重為RNAseq> cDNA/protein>ab initio gene predictions)。此版本基因組是目前組裝結(jié)果最好的山羊參考基因組,相應(yīng)的組裝策略和技術(shù)為其他物種的參考基因組提供了參考,如最新獲得水?;蚪M組裝就采用相似的 方法[45]。
1.4.3 家山羊參考基因組(CVASU_BBG_1.0) 2019年,Siddiki 等采用Illumina 測(cè)序平臺(tái)對(duì)孟加拉黑山羊進(jìn)行深度為14X的150 bp 雙末端測(cè)序,利用ABySS v.2.1.5 組裝軟件初步獲得3 294 295 個(gè)contigs(最小contig 大小為200 bp)[46-47];進(jìn)一步利用ABACAS v.1.3.1 組裝流程與參考基因組ARS1比較[48],進(jìn)行從頭組裝基因組的排列、排序和定向,最終獲得了基因組大小為3.04 Gb 的孟加拉黑山羊參考基因組(CVASU_BBG_1.0);BUSCO 評(píng)估基因組的完整性為82.5%[49],基因注釋共發(fā)現(xiàn)了26 458個(gè)基因[50]。孟加拉黑山羊的基因組組裝結(jié)果為今后深入研究其種群遺傳結(jié)構(gòu)、遺傳多樣性,評(píng)估該山羊品種的未來(lái)育種潛力奠定了堅(jiān)實(shí)的基礎(chǔ)[51]。該研究中利用Illumina 短讀長(zhǎng)數(shù)據(jù)進(jìn)行初步組裝[47];隨后與參考基因組精細(xì)圖譜(ARS1)比較,利用ABACAS 等組裝進(jìn)行基因組序列的排序和定向研究,為今后不同山羊品種的參考基因組組裝和進(jìn)行山羊的泛基因組研究提供了可行性參考。
1.4.4 野山羊參考基因組(CapAeg_1.0) 2015 年,Dong 等[44]采用家 山羊CHIR_1.0 的DNA文庫(kù)構(gòu)建方法對(duì)一只雄性野山羊進(jìn)行測(cè)序,基于Illumina Hiseq 2000 測(cè)序平臺(tái)共獲得了381.50 Gb 大小的基因組數(shù)據(jù);使用SOAPdenovo 軟件初步組裝獲得了野山羊基因組序列;隨后,基于野山羊與家山羊基因組的共線性關(guān)系,使用LASTZ 軟件與家山羊參考基因組比對(duì)信息,構(gòu)建了野山羊常染色體基因組。為進(jìn)一步構(gòu)建野山羊Y 染色體基因組數(shù)據(jù),首先利用BLAT 軟件將常染色體組裝中未錨定位置的Scaffolds與家牛Y 染色體(家牛Btau_4.6.1 的NC_016145.1染色體)參考基因組進(jìn)行比對(duì);反過(guò)來(lái)利用LASTZ軟件將家牛Y 染色體的contigs 比對(duì)到野山羊Scaffolds 上,通過(guò)過(guò)濾檢驗(yàn)分析,最終獲得野山羊參考基因組CapAeg_1.0,其中contig N50 為18.97 Kb,scaffold N50 為2.06 Mb;Y 染色體大小為17.3 Mb,包含79 個(gè)錨定的scaffolds。為注釋野山羊基因組的蛋白編碼基因,采用了從頭預(yù)測(cè),同源蛋白比對(duì),轉(zhuǎn)錄組測(cè)序數(shù)據(jù)和序列表達(dá)標(biāo)簽信息,注釋出了23 217 個(gè)基因;其中注釋到了57 個(gè)Y 染色體基因,包括11 個(gè)已知的雄性特有基因(Male specific region genes,MSY)。獲得了大量的遺傳變異信息,其中揭示了ASIP基因的拷貝數(shù)變異與家山羊的被毛變化相關(guān)。
到目前為止,獲得的從頭組裝的參考基因組共有4 個(gè)品種的個(gè)體,其中以ARS1 組裝注釋結(jié)果最好(不同參考基因組詳細(xì)信息見表1),這些組裝到的基因組在一定上促進(jìn)了山羊泛基因組的研究,為揭示基因組水平大規(guī)模的變異奠定的基因組水平的數(shù)據(jù)基礎(chǔ)。
表1 不同山羊基因組de novo 組裝版本信息
隨著測(cè)序技術(shù)的不斷成熟及測(cè)序成本的不斷降低,利用高通量測(cè)序技術(shù)檢測(cè)山羊全基因組水平的遺傳變異逐漸成為可能。此外,隨著研究對(duì)象樣本量和品種數(shù)的增加,山羊遺傳變異的信息也逐漸增加和豐富,極大了加深了我們對(duì)的山羊遺傳多樣性和環(huán)境適應(yīng)性的理解(http://www.genome.gov/sequencingcosts/)。根據(jù)遺傳變異形成機(jī)制、存在形式以及對(duì)基因組結(jié)構(gòu)和表型的影響,可分為以下類型,即單核苷酸多態(tài)性、1-50 bp 的小片段的插入或缺失、50 bp 以上的拷貝數(shù)變異以及由位置變化引起的易位或倒位等,詳細(xì)信息如圖1 所示[52]。
2010 年,F(xiàn)ontanesi 等[53]利用牛- 山羊間的微陣列比較基因組雜交(Array comparative genome hybridization,aCGH)技術(shù),首次對(duì)山羊基因組拷貝數(shù)進(jìn)行了檢測(cè)研究,共發(fā)現(xiàn)了161 個(gè)CNVs 變異。Liu 等[54]利用CaprineSNP50 芯片和PennCNV 軟件對(duì)ADAPTmap 項(xiàng)目產(chǎn)生的基因組數(shù)據(jù)進(jìn)行CNV 分布分析,從50 個(gè)山羊品種的1 023 個(gè)個(gè)體中共獲得包含6 286個(gè)CNVs的978個(gè)區(qū)域,約262 Mb(8.96%)。基于SNP 芯片檢測(cè)CNV 的研究,擴(kuò)展了SNP 芯片的應(yīng)用范圍,加深了對(duì)CNV 變異在家畜遺傳多樣性和經(jīng)濟(jì)性狀差異的理解,但因?yàn)镾NP 芯片的敏感性等原因,其準(zhǔn)確性和可靠性需要進(jìn)一步驗(yàn)證。
圖1 人類基因組的變異圖譜[52]
基于全基因組個(gè)體重測(cè)序的方法,Tosser-Klopp[20]、Dong[44]、Benjelloun[55]、Zhang[56]、Florian[55,57]、Li[58]、Lee[59]、Kim[60]和Cao[61]等對(duì)阿爾卑斯山羊、克里奧山羊、Katjang 山羊、Savanna 山羊、薩能奶山羊、波爾山羊、澳大利亞野化山羊、澳大利亞絨山羊、野山羊、摩洛哥山羊、遼寧絨山羊、內(nèi)蒙古絨山羊、雷州山羊、韓國(guó)黑山羊、努比亞山羊和云嶺黑山羊等進(jìn)行了2.7-30X不同深度的全基因組測(cè)序;采用全基因組混合池測(cè)序方法,Lai[62]、Zhang[63-65]、E[65-66]和Wang[67]等通過(guò)對(duì)嶗山奶山羊、大足黑山羊、太行黑山羊、西藏山羊、內(nèi)蒙古絨山羊、陜北絨山羊、安哥拉山羊、薩能奶山羊、波爾山羊和貴州小山羊等進(jìn)行了10-30X的混合池測(cè)序;基于簡(jiǎn)化基因組測(cè)序方法,Song 等[68]對(duì)西藏班戈山羊和日土山羊、柴達(dá)木山羊、南疆絨山羊、內(nèi)蒙古絨山羊二狼山型及遼寧絨山羊)不同個(gè)體進(jìn)行了外顯子測(cè)序;Wang 等[69]利用RNAseq 技術(shù)對(duì)內(nèi)蒙古絨山羊阿爾巴斯型進(jìn)行了遺傳變異檢測(cè)分析。通過(guò)與參考基因組比對(duì)(CHIR_1.0、CHIR_2.0 和ARS1),檢測(cè)出大量的SNP、Indel 和CNV 等遺傳變異數(shù)據(jù),為今后山羊分子遺傳標(biāo)記的開發(fā)和利用以及遺傳資源保護(hù)奠定了堅(jiān)實(shí)的基礎(chǔ)。
目前,隨著山羊分子生物學(xué)的不斷發(fā)展及對(duì)家畜分子育種的重視,許多研究機(jī)構(gòu)對(duì)山羊的環(huán)境適應(yīng)性和表型多樣性等方面進(jìn)行了不同程度的研究,詳細(xì)信息見表2。因?yàn)闇y(cè)序項(xiàng)目實(shí)施的時(shí)間不同,所用到的山羊參考基因組信息有所不同,導(dǎo)致山羊遺傳變異在基因組上位置信息有所差異,為統(tǒng)一山羊基因組變異的相對(duì)位置,國(guó)際山羊基因組聯(lián)盟首先對(duì)Goat SNP50K 芯片的SNP 位置信息與ARS1 進(jìn)行了比較和校正。由于NCBI 在2017 年逐漸停止對(duì)dbSNP 和dbVar 中的所有非人類生物的支持,目前山羊等物種的基因組變異數(shù)據(jù)存儲(chǔ)在Ensemble 數(shù)據(jù)庫(kù) 中(ftp://ftp.ensembl.org/pub/release-97/variation/gvf/capra_hircus/)。截止到2019 年5 月8 日,以參考基因組ARS1 版本的作為參考構(gòu)建的遺傳變異信息,主要包括33 996 708 個(gè)SNP 和Indel,而CNV和SV 等的變異信息目前尚未公布。
山羊全基因組重測(cè)序研究的主要目標(biāo)就是通過(guò)生物信息學(xué)方法檢測(cè)不同品種特有的選擇信號(hào)特征,揭示不同品種特異性的遺傳基礎(chǔ);其次是構(gòu)建不同品種的全基因組單倍型圖譜,為今后利用低密度芯片進(jìn)行基因型填充、增加基因組信息的可利用率做基礎(chǔ)數(shù)據(jù)支持;再次是利用全基因組水平的遺傳變異信息,針對(duì)不同的研究群體和目標(biāo)對(duì)SNPs 等遺傳變異信息進(jìn)行過(guò)濾和篩選,進(jìn)而開發(fā)不同密度的SNP 分型芯片。目前,利用不同品種的基因組遺傳變異信息,已經(jīng)成功設(shè)計(jì)出了Goat SNP50K 芯片[20]和66K 目標(biāo)捕獲芯片[21]。
基于全基因組重測(cè)序數(shù)據(jù),在山羊的高海拔環(huán)境適應(yīng)(EPAS1、EDNRA、SIRT1、PASK、PTPRZ1、NPC1L1和RYR1)[68]、脂肪代謝(ACSL1、LRP1、PLIN4、FASN)、絨用性狀(FGF5、PRDM6)[56,58,67]、被毛顏 色(KITLG、MC1R、ASIP、ATRN、GNAQ、
HELLS、MUTED、OSTM1、TRPM7、VPS33A、Ada-mts20,MITF、OCA2、SLC7A11和AHCY)[44,55,57]、 神經(jīng)系統(tǒng)發(fā)育(ADRA2A、FXR2、HTR3A、CACNA1、CCHD5、ULK1、TMEM132A、SYNDIG1、ERC2和GABRB2)[44,56]、繁殖性狀(NR6A1、STK3、IGF2-BP2、NPTX1、ANKRD17、DPYD、CLRB、PPP3CA,PLCB1,STK3 and HMGA2,PRP1、PRP6、CCNB2、A R、ADCY1、DNMT3 B、SMAD2、AMHR2、ERBB2、FGFR1,MAP3K12、SETDB2、CDH26和THEM4)[62,64-65]、體尺性 狀(NR6A1、TNFSF13、STIM1、IGF1R)[44,56]、肉用性 狀(GDF5、LRP4、HMGXB3、SLC26A2、goat_GLEAN 10018710、SLC-35A3、HIAT1、SASS6和GOAT_ENSBTAP00000044-216)[56]、疾病抗性(HTT、CCR3)[55,59]、生長(zhǎng)性狀(CCKAR、IGF1R、MYADM)[44]、免疫系統(tǒng)(ABCC4、PRAME、CD163L1、KIR3DL1、CFH和TRIM5)[44]、精子發(fā)生(PRAME)[44]和乳用性 狀(BTN1A1、RSRC1、SHOX2、VPS13A、VPS13B、VPS13C和RPL3)[44,56]等遺傳基礎(chǔ)的解析方面取得了眾多研究成果。
目前,山羊重要經(jīng)濟(jì)性狀遺傳基礎(chǔ)的研究正在由候選基因、單一性狀的方法向全基因組水平、多性狀和多組學(xué)等聯(lián)合分析的方法進(jìn)行轉(zhuǎn)變。高通量測(cè)序技術(shù)的進(jìn)一步發(fā)展和新的分析方法的不斷涌現(xiàn),加快了研究人員研究、挖掘全基因組范圍內(nèi)山羊的遺傳多樣性信息及經(jīng)濟(jì)性狀相關(guān)的分子基礎(chǔ),如Guan 等[71]基于共享基因組數(shù)據(jù)分析山羊酪蛋白基因家族變異的起源與演化過(guò)程。山羊大多數(shù)經(jīng)濟(jì)性狀屬于數(shù)量性狀,遺傳因素如單堿基突變(SNP)、插入缺失(Indel)、結(jié)構(gòu)變異(SV)和表觀遺傳修飾調(diào)控(甲基化修飾、組蛋白修飾和非編碼RNA 調(diào)控)以及環(huán)境和營(yíng)養(yǎng)因素等均會(huì)影響到山羊的表型性狀和生產(chǎn)性能。為揭示復(fù)雜性狀的遺傳基礎(chǔ)和調(diào)控機(jī)制,高通量技術(shù)下的研究方法主要包括對(duì)不同組織器官的差異基因表達(dá)的RNA-seq 分析、基于不同品種雜交個(gè)體的等位基因特異性表達(dá)分析、基于全基因組重測(cè)序技術(shù)的選擇性清除分析、復(fù)雜性狀基因定位的全基因組關(guān)聯(lián)分析、表觀遺傳調(diào)控組蛋白修飾和甲基化分析以及非編碼RNA 調(diào)控的研究以及逐漸在上述技術(shù)方法基礎(chǔ)上衍生的多組學(xué)方法,如RNA-seq+GWAS、WGS+GWAS、eGWAS和BSA+RNA-seq 等聯(lián)合分析進(jìn)行精確定位的研究方法[71-73]。通過(guò)合理的選擇研究對(duì)象、構(gòu)建理想的試驗(yàn)群體并適當(dāng)?shù)慕M學(xué)技術(shù),借助公共數(shù)據(jù)庫(kù)基因組信息和生物信息學(xué)方法挖掘其潛在的與生產(chǎn)性狀相關(guān)的基因或基因組區(qū)域、影響效應(yīng)和調(diào)控互作機(jī)制將是今后的研究重點(diǎn),也對(duì)推動(dòng)山羊分子育種和基因組選擇研究工作具有重要的理論和實(shí)踐意義。
表2 國(guó)際山羊遺傳資源與研究機(jī)構(gòu)相關(guān)網(wǎng)站