• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      細(xì)菌的泛基因組分析

      2021-01-19 05:59:40關(guān)海霞
      關(guān)鍵詞:同源基因組物種

      關(guān)海霞

      天津大學(xué)理學(xué)院,天津300072

      過(guò)去40 年中,基因測(cè)序技術(shù)不斷更新發(fā)展。最早提出以雙脫氧核苷酸末端終止法為代表的第一代測(cè)序技術(shù)推動(dòng)了基因組學(xué)的建立。隨后不斷地開(kāi)發(fā)出第二代測(cè)序技術(shù)(以Roche 公司的545 測(cè)序技術(shù)、ABI 公司的Solid 測(cè)序技術(shù)及illumina 公司的Hiseq和Solexa 技術(shù)為代表)及以單分子測(cè)序?yàn)樘攸c(diǎn)的第三代測(cè)序技術(shù)。

      DNA 測(cè)序技術(shù)的發(fā)展推動(dòng)了生物學(xué)研究進(jìn)入一個(gè)嶄新的層面[1]。研究人員發(fā)現(xiàn),對(duì)某一物種進(jìn)行研究時(shí),選取其中的一株菌株為研究對(duì)象不能完全反映該物種基因組的特征,而泛基因組分析方法的提出解決了這個(gè)難題[2]。本文就泛基因組的研究策略、模型構(gòu)建及其在細(xì)菌中的研究應(yīng)用作一綜述。

      1 泛基因組概念

      2005 年,泛基因組(pan-genome)概念被首次提出[3]。泛基因組表示某一物種全部基因的總稱(chēng),包括核心基因(core genome)及非必需基因(dispensable genome)。核心基因組是存在于所有菌株中的基因,管家基因是其重要的組成部分,參與基礎(chǔ)生物學(xué)過(guò)程,如基因表達(dá)、能量轉(zhuǎn)換、氨基酸代謝等。非必需基因由附屬基因(accessory gene)和特異性基因(unique gene)兩部分構(gòu)成[3-4]。附屬基因指存在于2株或多株菌株中編碼次級(jí)代謝途徑相關(guān)的基因;菌株特異性基因指某株菌株中獨(dú)特存在的基因,是通過(guò)基因水平轉(zhuǎn)移(horizontal gene transfer,HGT)的方式獲得,與該菌株的特定性狀相關(guān),如產(chǎn)抗生素、耐受性、毒力及環(huán)境適應(yīng)性等[5]。

      維恩圖是泛基因組可視化的普遍形式,不同圓圈分別代表給定不同菌株的基因組,之間的重疊和非重疊部分分別代表該集合菌株的泛基因組的組分,即核心基因組、附屬基因及特異性基因,見(jiàn)圖1。

      圖1 泛基因組成的維恩圖Fig.1 Venn diagram of pan-genome

      泛基因組模型可提供基因組異質(zhì)性的信息(基因含量)。泛基因組的擬合模型可用于推測(cè):①特定集合菌株的全基因組即泛基因組的大小;②該集合核心基因組的大??;③每個(gè)新基因組測(cè)序分析平均增加的新基因數(shù)目,其與泛基因組的類(lèi)型(開(kāi)放/ 閉合)有關(guān)。對(duì)于閉合的泛基因組(close pan-genome),新菌株的基因組測(cè)序完成產(chǎn)生新基因的可能很小,物種的泛基因組大小增加到一定程度后會(huì)收斂于某一值附近;而對(duì)于開(kāi)放的泛基因組(open pangenome),每增1 株新菌株通常有新的基因加入到物種的基因庫(kù)中,泛基因組也會(huì)隨之不斷增大[2,6]??茖W(xué)家對(duì)8 株鏈球菌(Streptococcus agalactiae)的基因組序列進(jìn)行比較分析,結(jié)果顯示泛基因組大小為2 713,其中1 806 個(gè)基因?qū)俸诵幕颍ㄖ眯艆^(qū)間為95%),907 個(gè)基因?qū)俑綄倩颍?]。通過(guò)指數(shù)衰減模型擬合,可預(yù)測(cè)該物種每新增1 個(gè)基因組序列,將平均增加33 個(gè)新基因,表明鏈球菌擁有一個(gè)開(kāi)放的泛基因組。同樣,在30 株大腸埃希菌的研究中[7],也呈現(xiàn)一個(gè)開(kāi)放的泛基因組,大小為2 786,其中核心基因?yàn)? 344 個(gè)(約占49.7%),菌株特異性基因?yàn)?39個(gè)(約占19.3%)。從大腸埃希菌泛基因組擬合曲線可推斷,每個(gè)新大腸埃希菌基因組完成測(cè)序平均約146 個(gè)新基因被發(fā)現(xiàn)。相反,在炭疽芽胞桿菌(Bacillus anthracis)的系統(tǒng)分析表明了一種不同的趨勢(shì)[8],線性擬合結(jié)果顯示,菌株特異性基因很快收斂至0,表明其擁有一個(gè)閉合的泛基因組。一般而言,泛基因組分類(lèi)可反映物種基因組多樣性的程度,體現(xiàn)該物種適應(yīng)環(huán)境的能力及進(jìn)化的快慢。

      2 泛基因組研究策略

      2.1 基因組的測(cè)序及組裝 基因組測(cè)序技術(shù)是現(xiàn)代分子生物學(xué)研究中重要的技術(shù),通過(guò)測(cè)序可精確且全面地反映基因組與轉(zhuǎn)錄組的遺傳信息,科學(xué)地揭示物種的多樣性及復(fù)雜性[9]。第二代測(cè)序技術(shù)在第一代測(cè)序技術(shù)基礎(chǔ)上,通過(guò)分析方法的并行化、自動(dòng)化及計(jì)算機(jī)化提高了測(cè)序通量,這種技術(shù)上的飛躍使批量獲得基因組信息成為可能[10]。由于第二代測(cè)序技術(shù)存在一些局限性,表現(xiàn)在序列讀長(zhǎng)比較短,如 illumina 平臺(tái)最長(zhǎng)為 250 ~ 300 bp,454 平臺(tái)最長(zhǎng)約為500 bp;PCR 富集序列建庫(kù)的過(guò)程中,含量較少的序列可能無(wú)法大量擴(kuò)增,造成部分信息丟失。第三代測(cè)序技術(shù)一定程度上彌補(bǔ)了第二代的缺陷,以單分子為單位進(jìn)行實(shí)時(shí)測(cè)序,不需進(jìn)行PCR 擴(kuò)增,進(jìn)而可提供高質(zhì)量組裝參考的基因組序列[11]。泛基因組分析的科學(xué)性很大程度上取決于基因組組裝及注釋的準(zhǔn)確性,足夠完整的序列是一個(gè)先決條件。DNA測(cè)序技術(shù)及各種基因組組裝、注釋工具的不斷發(fā)展推動(dòng)泛基因組學(xué)分析進(jìn)入了一個(gè)新的發(fā)展時(shí)期[12]。

      微生物基因組學(xué)研究是實(shí)現(xiàn)片段化測(cè)序到完整基因組的組裝,再到基因組遺傳信息的解密?;蚪M測(cè)序及組裝是泛基因組分析中的重要數(shù)據(jù)基礎(chǔ),序列組裝的質(zhì)量、完整性及精確性直接影響注釋和分析的結(jié)果。組裝旨在不引入錯(cuò)誤的前提下創(chuàng)建最完整的重構(gòu)?;蚪M組裝的效果與測(cè)序的深度、覆蓋度及組裝的方法有關(guān)。測(cè)序深度與基因組覆蓋度間呈密切相關(guān)的非線性關(guān)系,測(cè)序深度帶來(lái)的基因錯(cuò)誤檢測(cè)率或假陽(yáng)性檢測(cè)結(jié)果隨基因組測(cè)序深度的提升而下降。常用的測(cè)序組裝工具有SOAPdenovo、Trimity 及 Abyss 等[13]。

      2.2 直系同源序列的鑒定及基因組的注釋 目前,在物種基因組學(xué)的分析中,最重要的工作之一是通過(guò)判斷一段基因序列在該物種基因組中存在及分布的寬度,即多少菌株中有可能存在這一段基因序列。直系同源的基因(ortholog)即有共同來(lái)源的基因是物種形成過(guò)程中被復(fù)制保留下來(lái)具有相同功能的基因。直系同源基因通常被廣泛認(rèn)為是具有相似基因結(jié)構(gòu)及生物學(xué)功能的基因,在絕大多數(shù)生物中具有負(fù)責(zé)編碼核心基因的功能[14]。在泛基因組研究中,通過(guò)評(píng)估同源簇在菌株中的分布廣度來(lái)定義核心基因組及非必需基因基因。直系同源基因的識(shí)別在基因功能注釋、物種系統(tǒng)發(fā)育評(píng)估、系統(tǒng)發(fā)育樹(shù)構(gòu)建等分析中有廣泛的應(yīng)用[15]。

      直系同源基因的識(shí)別主要通過(guò)生物信息學(xué)方法鑒定,進(jìn)化關(guān)系越近的基因其結(jié)構(gòu)及功能越相似[16]。在多菌株基因組分析中,主要采用序列比對(duì)的方法來(lái)判斷序列間的同源關(guān)系。OrthoMCL 及OrthoFinder 是識(shí)別同源基因應(yīng)用較多的兩種工具[17-18]。OrthoMCL 利用馬爾可夫聚類(lèi)算法改善了多基因組比對(duì)固有的多對(duì)多的直系同源關(guān)系,允許在相似性空間中同時(shí)對(duì)全局關(guān)系進(jìn)行分類(lèi),可快速且準(zhǔn)確地處理復(fù)雜的結(jié)構(gòu)域。OrthoFinder 分析中有兩個(gè)選項(xiàng):一個(gè)是序列搜索比對(duì)的方式,默認(rèn)比對(duì)方法為DIAMOND[19],另一個(gè)是同源關(guān)系樹(shù)的推斷方法,默認(rèn)選項(xiàng)為DendroBLAST[20]。該設(shè)置為用戶(hù)選擇分析方法提供了靈活性,針對(duì)不同分析對(duì)象可選擇更適合的算法。OrthoFinder 是一款基于正交群推理算法的識(shí)別工具,其優(yōu)點(diǎn)是高效、準(zhǔn)確且可擴(kuò)展到數(shù)千個(gè)基因組。輸入文件為物種編碼蛋白的氨基酸序列文件(FASTA 文件),整個(gè)分析僅需一行命令即可啟動(dòng),操作方式簡(jiǎn)潔。

      隨著基因組分析技術(shù)的發(fā)展,基因組的結(jié)構(gòu)動(dòng)態(tài)及功能也倍受關(guān)注?;蚪M注釋是確定基因在整個(gè)編碼區(qū)域的位置及其生物學(xué)功能,主要步驟為:①基因組中功能區(qū)域序列的識(shí)別;②定位基因組中的元素(該過(guò)程稱(chēng)為基因預(yù)測(cè));③將生物學(xué)信息附加至這些元素上。大多數(shù)注釋工具需先在特定數(shù)據(jù)庫(kù)進(jìn)行同源基因搜索,再將同源基因信息對(duì)應(yīng)至基因組上,如 RAST[21]、xBASE2[22]及 Prokka[23]。

      2.3 泛基因組的模型構(gòu)建 TETTELIN 等[2,6]率先提出了評(píng)估泛基因組大小、核心基因組及新基因發(fā)現(xiàn)率的算法。即向一個(gè)小的泛基因組模型(僅含2個(gè)基因組)里加基因組,會(huì)發(fā)現(xiàn)大量的新基因,因開(kāi)始的基因庫(kù)很小;相反,核心基因組的大小將減少,因基因被所有基因組共享的可能減小。被研究的基因組數(shù)目越多,泛基因組越大,核心基因組的大小減小,收斂至一個(gè)臨界值,同時(shí),新發(fā)現(xiàn)的基因數(shù)目將漸近地穩(wěn)定在某個(gè)值上。對(duì)于一個(gè)閉合的泛基因組,新基因數(shù)目收斂于0,可估計(jì)其泛基因組的大??;對(duì)于一個(gè)開(kāi)放的泛基因組,該值不為0,且無(wú)法估計(jì)泛基因組的大?。ㄆ淇赡軣o(wú)限增長(zhǎng))。在泛基因組分析中,核心基因的數(shù)量及菌株特異性基因的數(shù)量取決于有多少株菌株被分析,采用迭代方法,通過(guò)模擬所有可能組合(G 個(gè)基因組中),可推斷核心基因組及菌株特異性基因的大小。對(duì)于n 個(gè)基因組(1 <n <G)的獨(dú)立測(cè)量總數(shù)N 見(jiàn)下式。

      根據(jù)每個(gè)可能獨(dú)立測(cè)量的結(jié)果,評(píng)估核心基因、菌株特異性基因的數(shù)量及泛基因組的大小。對(duì)一定數(shù)量的菌株進(jìn)行分析時(shí),核心基因組的大小及菌株特異性基因的數(shù)量被擬合外推指數(shù)衰減函數(shù)見(jiàn)下式。

      式中Fc 及Fs 分別表示保守基因和菌株特異性基因的數(shù)目;n 為測(cè)序菌株的數(shù)量;κc、κs、τc、τs 及Ω 為自由參數(shù);tg(θ)為代表泛基因組外推增長(zhǎng)率的參數(shù)。泛基因組大小P(n)關(guān)于n 的函數(shù)見(jiàn)下式。

      式中D 為輸入基因組的平均基因數(shù);P(n)擬合模型見(jiàn)下式。

      通過(guò)將泛基因組大小、核心基因及特異性基因數(shù)目(以n 為函數(shù))與上述指數(shù)函數(shù)進(jìn)行擬合,得到最適擬合參數(shù)及其相關(guān)系數(shù)。測(cè)序新的基因組,發(fā)現(xiàn)新基因的數(shù)量將漸近達(dá) tg(θ),因此,可將 tg(θ)值作為泛基因分類(lèi)(開(kāi)放或閉合)的依據(jù)。TETTELIN等[2]分析了8 個(gè)致病性鏈球菌的基因組并計(jì)算n株菌株所有可能的基因組集合,通過(guò)構(gòu)建指數(shù)衰減模型推測(cè)8 株鏈球菌的核心基因的漸近值達(dá)1 806,新基因約為33 個(gè)。

      2.4 常用分析包及工具 近幾年,隨著泛基因組分析技術(shù)的普及,大量分析工具被開(kāi)發(fā)應(yīng)用,它們?cè)诠δ苌嫌幸欢ǖ南嗨菩?,能聚?lèi)同源基因、構(gòu)建系統(tǒng)發(fā)育樹(shù)及系統(tǒng)分析核心/ 非必需基因。這些工具在有各自特點(diǎn)的同時(shí)也存在一定的局限性,需不斷地改進(jìn)及完善[24]。

      PGAP(Pan-Genomes Analysis Pipeline)是一款基于功能基因聚類(lèi)的自動(dòng)化集成分析軟件[24],包括5 個(gè)功能模塊,分別呈現(xiàn)全基因組圖譜、物種進(jìn)化、遺傳變異、給定全基因組的不同菌株和分離株的功能富集,分析通過(guò)命令執(zhí)行,集成性的過(guò)程極大提高了分析效率,其局限性在于輸出文件缺乏直觀性的文本文件。2014 年開(kāi)發(fā)出帶有圖形界面的PanGP軟件包倍受研究者的青睞[25]。PanGP 是為分析大規(guī)模細(xì)菌基因集合而開(kāi)發(fā)的,除完全隨機(jī)(totally random,TR)及距離指導(dǎo)(distance guide,DG)算法外,還提供了一種全面遍歷算法(TA algorithm)。其輸出結(jié)果以擬合的曲線圖像呈現(xiàn),通過(guò)非線性函數(shù)擬合了泛基因組、核心基因組及新基因集的數(shù)學(xué)模型。

      此外,PAGE 等[26]開(kāi)發(fā)了 Roary,一個(gè)典型的大規(guī)模構(gòu)建原核生物泛基因組的工具。Roary 從基因組注釋文件中提取編碼區(qū),并將其轉(zhuǎn)換為蛋白質(zhì)序列。一方面,過(guò)濾去除部分不完整序列,用CD-HIT進(jìn)行迭代預(yù)聚類(lèi)[27];另一方面,使用 BLASTP 對(duì)基因組序列進(jìn)行相似性(默認(rèn)參數(shù)為95%)比對(duì)[28],借助 MCL 對(duì)序列進(jìn)行聚類(lèi)[29];最后將 CD-HIT 中的預(yù)聚類(lèi)結(jié)果與MCL 的結(jié)果合并一起,利用保守的基因鄰域信息確定真正的同源簇。基于輸入序列出現(xiàn)的順序及在菌株中的覆蓋率,對(duì)聚類(lèi)的同源簇進(jìn)行排序,根據(jù)同源簇對(duì)菌株進(jìn)行聚類(lèi),菌株親緣關(guān)系由聚類(lèi)大小進(jìn)行加權(quán)。該集成的程序使構(gòu)建成千上萬(wàn)的原核生物基因組分析成為可能,并根據(jù)保守基因鄰域信息進(jìn)行更深的分析,保證了結(jié)果的準(zhǔn)確性。

      3 泛基因組分析的應(yīng)用

      泛基因組分析運(yùn)用高通量測(cè)序及生物信息分析手段,構(gòu)建泛基因組圖譜,豐富該物種的遺傳信息。目前研究趨勢(shì)逐漸轉(zhuǎn)向探索更大分類(lèi)階元的進(jìn)化關(guān)系,作為比較基因組學(xué)的重要研究手段,泛基因組學(xué)從群體角度對(duì)細(xì)菌進(jìn)行研究分析,根據(jù)細(xì)菌基因組動(dòng)力學(xué)特征,剖析進(jìn)化過(guò)程的動(dòng)態(tài)變化[30]。此外,泛基因組分析通過(guò)比較不同菌株基因組及基因組成的差異,為細(xì)菌的耐藥性、致病性及疫苗的制備等方面提供了重要的理論依據(jù)。目前,泛基因組已廣泛用于深入了解肺炎鏈球菌[31]、流感嗜血桿菌[32]、大腸埃希菌[7,33]及枯草芽孢桿菌[34]等物種的研究。

      泛基因組分析通過(guò)挖掘全基因集的遺傳信息,深入全面了解特定物種的組成特征。為探索環(huán)狀芽孢桿菌的次級(jí)代謝通路,姚彩苗等[35]借助泛基因組分析方法對(duì)9 個(gè)環(huán)狀芽孢桿菌進(jìn)行系統(tǒng)分析,發(fā)現(xiàn)泛基因組大小為9 572 個(gè),核心基因組由3 622 個(gè)基因組成,特異性基因有4 593 個(gè)。通過(guò)對(duì)次級(jí)代謝產(chǎn)物合成基因簇分析,9 個(gè)環(huán)狀芽孢桿菌基因組中共發(fā)現(xiàn)6 類(lèi)、32 個(gè)次級(jí)代謝基因簇,重復(fù)出現(xiàn)最多的代謝通路是羊毛硫肽、套索肽及萜烯類(lèi)化合物合成通路。該結(jié)果有助于更全面地了解環(huán)狀芽孢桿菌,為其進(jìn)一步研究提供了線索。

      細(xì)菌種類(lèi)通常根據(jù)基因含量、表型特征、生態(tài)位的性質(zhì)及16S 核糖體核糖核酸序列來(lái)定義[36]。物種進(jìn)化的主要分子機(jī)制是基因突變及基因重組現(xiàn)象。近年來(lái),泛基因組分析也廣泛應(yīng)用于物種分類(lèi)學(xué)中[37]。泛基因組重點(diǎn)分析基因組結(jié)構(gòu)存在 / 缺失(presence / absence)的差異。泛基因組分析可通過(guò)兩方面構(gòu)建菌株間的進(jìn)化關(guān)系:一方面選擇單拷貝的核心基因,將它們按順序聯(lián)接進(jìn)行多序列比對(duì),構(gòu)建系統(tǒng)發(fā)育關(guān)系;另一方面基于基因得失事件,不同菌株間基因比例及差異作為分析數(shù)據(jù)進(jìn)行演化分析。泛基因組分析與傳統(tǒng)的分類(lèi)鑒定的方法相結(jié)合,可更準(zhǔn)確地構(gòu)建物種間的進(jìn)化關(guān)系。

      D′AURIA 等[38]對(duì) 5 個(gè)嗜肺軍團(tuán)菌(Legionella pneumophila)進(jìn)行了系統(tǒng)的分析。嗜肺軍團(tuán)菌是一種細(xì)胞內(nèi)的細(xì)菌,為一種人類(lèi)病原體,該物種有一個(gè)開(kāi)放的泛基因組?;贐LAST 的序列比對(duì)識(shí)別同源序列,確定核心基因組為1 979 個(gè)(占66.9%),非必需基因基因組大小為978 個(gè)(占33.1%)。核心基因組中大部分基因?qū)倩蚪M島,共分為6 類(lèi):3 個(gè)與耐藥相關(guān)的島,1 個(gè)與重金屬的分泌和運(yùn)輸相關(guān)的島,3 個(gè)與 DNA 轉(zhuǎn)移相關(guān)的島,2 個(gè) CRISPRs(clustered regularly interspaced short palindromic repeats)系統(tǒng),7 個(gè)與噬菌體相關(guān)的系統(tǒng),13 個(gè)功能不明的島。結(jié)果表明,嗜肺軍團(tuán)菌的毒性及耐藥性均為核心基因編碼,這有利于進(jìn)一步確定功能靶位點(diǎn),為醫(yī)學(xué)研發(fā)抗性藥物提供理論基礎(chǔ)。

      4 小 結(jié)

      細(xì)菌的基因組因其個(gè)體僅有幾兆大小,先進(jìn)的測(cè)序技術(shù)導(dǎo)致基因組數(shù)據(jù)大量的積累。泛基因組分析能更準(zhǔn)確地反映細(xì)菌種類(lèi)的概念,有助于全面揭示基因組的多樣性。另外,通過(guò)對(duì)感染性細(xì)菌進(jìn)行泛基因組分析,可挖掘毒力因子相關(guān)的基因,有助于醫(yī)學(xué)研發(fā)相關(guān)制劑。預(yù)計(jì)在未來(lái)的幾年里,收集到的細(xì)菌數(shù)據(jù)將超過(guò)實(shí)際能處理的數(shù)量,因此,需將泛基因組分析方法擴(kuò)展到不同領(lǐng)域。本文為泛基因組分析的實(shí)際應(yīng)用提供了參考。

      猜你喜歡
      同源基因組物種
      藥食同源
      ——紫 蘇
      吃光入侵物種真的是解決之道嗎?
      兩岸年味連根同源
      以同源詞看《詩(shī)經(jīng)》的訓(xùn)釋三則
      牛參考基因組中發(fā)現(xiàn)被忽視基因
      回首2018,這些新物種值得關(guān)注
      電咖再造新物種
      虔誠(chéng)書(shū)畫(huà)乃同源
      瘋狂的外來(lái)入侵物種
      基因組DNA甲基化及組蛋白甲基化
      遺傳(2014年3期)2014-02-28 20:58:49
      天门市| 澄江县| 南汇区| 资溪县| 南通市| 社会| 阿巴嘎旗| 县级市| 沙田区| 综艺| 疏附县| 新田县| 虹口区| 绥棱县| 曲麻莱县| 普宁市| 广德县| 东光县| 康定县| 玉山县| 铜梁县| 黄骅市| 定南县| 盐边县| 贺州市| 拉孜县| 潼关县| 台湾省| 连平县| 白朗县| 定结县| 昭苏县| 浑源县| 五大连池市| 合川市| 静宁县| 莱阳市| 乌拉特前旗| 迭部县| 哈密市| 上杭县|