錢文江 汪步青 李葳茜 楊雪苗 劉洪偉 張麗萍
(1. 河北工業(yè)大學(xué)化工學(xué)院,天津 300130;2. 河北省科學(xué)院生物研究所,石家莊 050081)
凝結(jié)芽孢桿菌(Bacillus coagulans)是一類革蘭氏陽(yáng)性菌,在發(fā)酵培養(yǎng)過(guò)程中能分解糖類生成乳酸,也被稱作乳酸發(fā)酵菌[1]。凝結(jié)芽孢桿菌在自然界中廣泛分布,其在生長(zhǎng)繁殖過(guò)程中產(chǎn)生一種抗菌肽-凝結(jié)素,對(duì)多種致病菌都具有殺菌活性[2]。凝結(jié)芽孢桿菌不僅具有乳酸菌和雙歧桿菌相同的營(yíng)養(yǎng)特征,還具有很強(qiáng)的耐酸、耐熱、耐鹽等性狀[3]。1998年,Hyronimus等[4]研究發(fā)現(xiàn),凝結(jié)芽孢桿菌I4能產(chǎn)生凝結(jié)素,它是一類抗菌肽類物質(zhì),能夠抑制沙門菌、小球菌等諸多致病菌的生長(zhǎng)。2006年,Huszcza等[5]發(fā)現(xiàn)凝結(jié)芽孢桿菌生長(zhǎng)過(guò)程中會(huì)有多種表面活性素產(chǎn)生,其中surfactin是一種強(qiáng)大的脂肽類表面活性劑。同時(shí),2009年,Kodali等[6]在凝結(jié)芽孢桿菌RK-02中分離出一種胞外多糖(EPS)具有乳化活性。2015年,趙鈺等[7]發(fā)現(xiàn)在凝結(jié)芽胞桿菌LL1103發(fā)酵液中存在可以抑制革蘭氏陽(yáng)性菌生長(zhǎng)的細(xì)菌素。劉全永等[8]發(fā)現(xiàn)凝結(jié)芽胞桿菌LU-B02發(fā)酵液對(duì)白色念珠菌生長(zhǎng)有抑制作用。此外,也有研究表明凝結(jié)芽孢桿菌在生長(zhǎng)過(guò)程中也會(huì)產(chǎn)生了乳糖酶、β-半乳糖苷酶、木聚糖酶、纖溶活性酶等物質(zhì)。
到目前為止,在NCBI上可以查詢到的凝結(jié)芽孢桿菌共有33株并且都完成了基因組測(cè)序。屬于同一菌種的細(xì)菌菌株的基因含量之間差異很大,而泛基因組的遺傳信息要比單個(gè)菌株的遺傳信息含量大得多[9]。泛基因組的概念是由Tettelin等[10]在2005年提出,泛基因組是指某一個(gè)物種所有存在的基因,它包括核心基因組(在全部菌株中都包含的基因),非必須基因組(只有部分菌株都含有的基因)和菌株具有的特有基因[11]。最近幾年,泛基因組分析在細(xì)菌和真菌功能基因挖掘中應(yīng)用廣泛[12]。根據(jù)泛基因總數(shù)與基因組個(gè)數(shù)的關(guān)系,細(xì)菌的泛基因組可以分為兩種類型,分別是開(kāi)放型和閉合型[13]。開(kāi)放型泛基因組是指隨著預(yù)測(cè)的基因組個(gè)數(shù)的增多,泛基因總數(shù)也相應(yīng)增加,而閉合型泛基因組是指在預(yù)測(cè)的基因組個(gè)數(shù)增加到某一數(shù)值時(shí)泛基因總數(shù)趨于不變[14]。對(duì)細(xì)菌的次級(jí)代謝產(chǎn)物進(jìn)行分析時(shí),傳統(tǒng)的分析方法可能會(huì)有局限性,但是分析細(xì)菌中已知的基因組數(shù)據(jù),可能會(huì)挖掘出嶄新的次級(jí)代謝基因簇,并會(huì)有潛在的活性物質(zhì)出現(xiàn)[15]。
本研究從NCBI上找到了33株凝結(jié)芽孢桿菌的基因組,首先對(duì)其中11株有完整基因組水平的凝結(jié)芽孢桿菌進(jìn)行了泛基因組分析,找出了其泛基因組的大??;隨后利用antiSMASH軟件對(duì)33株凝結(jié)芽孢桿菌的次級(jí)代謝基因簇進(jìn)行挖掘,發(fā)現(xiàn)了其最可能產(chǎn)生的活性物質(zhì)[16]。本研究旨在對(duì)凝結(jié)芽孢桿菌的基因組信息進(jìn)行探索,為以后研究凝結(jié)芽孢桿菌的進(jìn)化,適應(yīng)和種群結(jié)構(gòu)的方式奠定一定的基礎(chǔ)。
從NCBI基因組數(shù)據(jù)庫(kù)(https://www.ncbi.nlm.nih.gov/ genome)中查找到33株凝結(jié)芽胞桿菌的NCBI登錄號(hào),在以GenBank格式下載獲得基因組信息。本研究中使用的33株凝結(jié)芽孢桿菌的基因組數(shù)據(jù)全部來(lái)自2020年1月5日之前在GenBank數(shù)據(jù)庫(kù)中提交的基因組信息,詳細(xì)信息如表1所示。
1.2.1 ANI值和DDH值分析 平均核苷酸一致性(ANI)可以用來(lái)判斷菌株是否為同一個(gè)種或亞種,而ANI值達(dá)到95%以上的菌株認(rèn)為同一個(gè)種。本研究中使用在線軟件(http://enve-omics.ce.gatech.edu/g-matrix/)中的ANI/AAI matrix對(duì)33株凝結(jié)芽孢桿菌的基因組ANI值進(jìn)行計(jì)算[17]。
DDH值是指基因組與基因組之間的距離,通常將DDH值大于70%的菌株認(rèn)為是同種菌株使用。使用在線軟件(http://ggdc.dsmz.de/)中的GGDC計(jì)算33株凝結(jié)芽孢桿菌基因組的DDH值[18]。
1.2.2 基因組系統(tǒng)發(fā)育分析 對(duì)表1中33株凝結(jié)芽孢桿菌以genbank格式在NCBI數(shù)據(jù)庫(kù)上下載基因組數(shù)據(jù),利用REALPHY(基于參考序列比對(duì)的系統(tǒng)發(fā)生構(gòu)建器)在線軟件進(jìn)行全基因組數(shù)據(jù)比對(duì),登錄http://realphy.unibas.ch網(wǎng) 址,以GenBank格式進(jìn)行上傳基因組數(shù)據(jù),使用默認(rèn)參數(shù)運(yùn)行[19]。獲得的數(shù)據(jù)結(jié)果使用FigTree軟件構(gòu)建進(jìn)化樹(shù)[20]。
1.2.3 核心基因組和泛基因組分析 從NCBI數(shù)據(jù)庫(kù)中下載如表1中11株組裝到完整基因組水平的凝結(jié)芽孢桿菌的基因組序列文件(.fna)和基因組注釋文件(.ppt)作為上傳數(shù)據(jù),PGAweb軟件的PGAP-X模塊選擇GeneFamily Method(GF)算法對(duì)11個(gè)基因組進(jìn)行分析,使用默認(rèn)值運(yùn)行[21]。下載結(jié)果文件中,選擇Orthologs_Cluster.txt文件,使用PanGP軟件進(jìn)行泛基因組數(shù)據(jù)擬合[22]。
1.2.4 次級(jí)代謝產(chǎn)物合成基因簇分析 利用antiSMASH5.0(https://antismash.secondarymetabolites.org)在線軟件的細(xì)菌分析模塊中[22],輸入菌株NCBI登錄號(hào),選擇relaxed預(yù)測(cè)模式對(duì)33株凝結(jié)芽孢桿菌次級(jí)代謝產(chǎn)物生物合成基因簇進(jìn)行預(yù)測(cè)注釋,參數(shù)選用默認(rèn)值[23]。
表1 研究分析中所使用的菌株
如 表1所 示,到2020年1月12日 為 止,在NCBI數(shù)據(jù)庫(kù)中查找到共有33株凝結(jié)芽孢桿菌的基因組,其中共有11株凝結(jié)芽孢桿菌基因組裝到完整基因組水平。由基因組數(shù)據(jù)統(tǒng)計(jì)發(fā)現(xiàn),33株環(huán)狀芽孢桿菌的基因組大小范圍是2.059 47-3.694 84 Mb,而相應(yīng)的GC含量范圍為46.2%-47.5%,預(yù)測(cè)到的基因數(shù)范圍是2 064-3 660個(gè)。
通過(guò)使用ANI值和DDH值對(duì)33株凝結(jié)芽孢桿菌的序列同源性進(jìn)行了評(píng)估。本研究以Bacillus coagulan P38的全基因組序列為參考,計(jì)算了菌株兩兩間DDH值(圖1-A)和ANI值(圖1-B)。結(jié)果顯示,其中20株凝結(jié)芽孢桿菌兩兩間ANI 值均>95%,DDH值均>70%是同一種凝結(jié)芽孢桿菌,而剩余的13株菌兩兩間的DDH值≤70%和ANI值≤95%,這13株菌不是同一種凝結(jié)芽孢桿菌[24]。通過(guò)使用REALPHY在線軟件將33株凝結(jié)芽孢桿菌基因組進(jìn)行了比對(duì),然后使FigTree軟件構(gòu)建進(jìn)化樹(shù)。全基因組系統(tǒng)發(fā)育顯示(圖1-C),33株凝結(jié)芽孢桿菌在基因組系統(tǒng)進(jìn)化樹(shù)上被歸為兩個(gè)分支,一個(gè)支包 括 有2-6、B4098、H-1、MA-13、XZL4、B4099、ATCC7050、DSM_1、DSM_1_1、ATCC7050_1、AF24-21、MGYG-HGUT-00191、AF24-19,其余菌株是另一支。最后,全基因組系統(tǒng)發(fā)育樹(shù)結(jié)果與ANI值和DDH值的觀察結(jié)果一致。
對(duì)11株組裝完整基因組水平的凝結(jié)芽孢桿菌進(jìn)行了泛基因組分析。由圖2可知,共有34 647個(gè)蛋白質(zhì)編碼的基因用于聚類分析,被分為5 899個(gè)基因家族中,每個(gè)基因家族可能代表一個(gè)的同源基因。核心基因組是指在全部基因組中均包含的基因,如圖3所示,在11株凝結(jié)芽孢桿菌的基因組中,核心基因組是由2 152個(gè)基因家族組成,共有的核心基因組約占凝結(jié)芽孢桿菌泛基因組的36.48%。發(fā)現(xiàn)特有基因2 255個(gè),占凝結(jié)芽孢桿菌泛基因組的38.22%。
基于全基因組基因聚類結(jié)果,我們使用PanGP軟件計(jì)算了泛基因組、核心基因組和基因組數(shù)目之間的關(guān)系。如圖3所示,泛基因組大?。═)與基因組數(shù)(X)關(guān)系的擬合方程為T=1 801.66X0.38+1 417.71(R2=0.999 98),擬合方程表明凝結(jié)芽孢桿菌的泛基因組中的基因數(shù)是隨著基因組個(gè)數(shù)的增加而增多。核心基因的個(gè)數(shù)(D)與基因組數(shù)(N)關(guān)系的擬合方程為D=1 751.08e-0.53N+2 151.5(R2=0.980 9)。根據(jù)公式推測(cè)出凝結(jié)芽孢桿菌的核心基因組有2 152個(gè)基因組成。不同的基因組中有相同的基因家族,當(dāng)每個(gè)基因家族覆蓋的基因組個(gè)數(shù)增多時(shí),這個(gè)基因家族中的基因就相對(duì)開(kāi)放[25]。在曲線中顯示了泛基因數(shù)和核心基因數(shù)隨基因組增加而發(fā)生的變化。在該曲線中可以看出凝結(jié)芽孢桿菌的泛基因組是開(kāi)放性的。
推測(cè)出每增加一個(gè)新的凝結(jié)芽孢桿菌基因組,大約有150個(gè)新基因被發(fā)現(xiàn)。如圖4所示,PanGP軟件計(jì)算了新基因家族數(shù)量(M)與基因組數(shù)(F)的關(guān)系,并計(jì)算出擬合方程為M=876.572F-0.71(R2=0.996 822)。
AntiSMASH是一種強(qiáng)大而全面的生物信息學(xué)工具,可用于識(shí)別和注釋編碼次生代謝產(chǎn)物的生物合成基因簇,并已在該領(lǐng)域中廣泛使用[26]。利用antiSMASH軟件對(duì)33株凝結(jié)芽孢桿菌基因組中的次級(jí)代謝基因簇進(jìn)行在線預(yù)測(cè),預(yù)測(cè)結(jié)果總共注釋到8類、79個(gè)與次級(jí)代謝相關(guān)的基因或基因簇。與基因組大小無(wú)關(guān),所測(cè)試的33株凝結(jié)芽孢桿菌中存在24株凝結(jié)芽孢桿菌都攜帶大量基因簇,并且這些基因簇編碼不同的潛在生物活性物質(zhì)。鑒定出有細(xì)菌素的基因簇平均在每個(gè)菌株中介于一到兩個(gè)之間。如圖5和表2所示,可以注釋到的次級(jí)代謝基因簇中有11個(gè)糖類(Saccharide)、30個(gè)細(xì)菌素(Bacteriocin)、2個(gè)脂肪酸(Fatty acid)、10個(gè)Ⅲ型聚酮化合物合酶(T3PKS)、18個(gè)內(nèi)酯(Betalactone)、3個(gè)LAP、2個(gè)萜烯(terpene)和3個(gè)硫肽(Thiopeptide)基因簇。Riazi等[27]在2009年研究發(fā)現(xiàn)了凝結(jié)芽孢桿菌ATCC 7050可以產(chǎn)生一種抗菌蛋白-乳酸菌素(Lactosporin),乳酸菌素和表2中對(duì)凝結(jié)芽孢桿菌ATCC 7050預(yù)測(cè)的次級(jí)代謝產(chǎn)物T3PKS都屬于核糖體途徑生成的抗菌蛋白類物質(zhì)。在線預(yù)測(cè)結(jié)果表明,目前預(yù)測(cè)凝結(jié)芽孢桿菌的主要次級(jí)代謝產(chǎn)物可能是細(xì)菌素、T3PKS、硫肽、內(nèi)酯和糖類等化合物。
圖1 33株凝結(jié)芽孢桿菌ANI值和DDH值分析及全基因組系統(tǒng)發(fā)育樹(shù)分析
圖2 凝結(jié)芽孢桿菌基因組中核心基因和非必須基因
圖3 凝結(jié)芽孢桿菌的泛基因組分析
圖4 凝結(jié)芽孢桿菌新基因數(shù)量與基因組的關(guān)系
對(duì)于上述預(yù)測(cè)的基因簇中,如圖6和表3所示,共有43個(gè)基因簇和與已知基因簇具有一定的同源性。在預(yù)測(cè)到的43個(gè)基因簇中,有11個(gè)預(yù)測(cè)基因簇與Amylocyclicin基因簇同源相似度達(dá)到66%,另外還有1個(gè)預(yù)測(cè)基因簇與Amylocyclicin基因簇的同源相似度為50%,此外,還有18個(gè)預(yù)測(cè)基因簇與Fengycin基因簇的同源相似度為40%,有3個(gè)預(yù)測(cè)基因簇與Listeriolysin S 基因簇的同源相似度為37%,剩余10個(gè)預(yù)測(cè)基因簇與已知基因簇的同源相似度均低于30%,其中基因Cluster26和Cluster76與Kanamycin基因簇的同源相似度最低為1%。預(yù)測(cè)結(jié)果表明,凝結(jié)芽孢桿菌中預(yù)測(cè)基因簇與已知基因簇可能會(huì)有不同的產(chǎn)物。
在NCBI數(shù)據(jù)庫(kù)中,有33株凝結(jié)芽孢桿菌菌株具有基因組相關(guān)數(shù)據(jù),其中有11株組裝到完整基因組水平。對(duì)這其中的11株凝結(jié)芽孢桿菌基因組進(jìn)行了的泛基因組分析,泛基因組中包含5 899個(gè)基因,具體是包括2 152個(gè)核心基因、2 255個(gè)特有基因和1 492個(gè)非必須基因,并且核心基因的個(gè)數(shù)占凝結(jié)芽孢桿菌泛基因總數(shù)的36.48%。通過(guò)計(jì)算泛基因組、核心基因組和基因組個(gè)數(shù)之間的公式,發(fā)現(xiàn)隨著基因組個(gè)數(shù)的增加,凝結(jié)芽孢桿菌的泛基因總數(shù)為上升的趨勢(shì),說(shuō)明凝結(jié)芽孢桿菌的遺傳物質(zhì)具有開(kāi)放性,同時(shí)也說(shuō)明凝結(jié)芽孢桿菌具有相對(duì)較高的遺傳多樣性。
通過(guò)對(duì)33株凝結(jié)芽孢桿菌的次級(jí)代謝產(chǎn)物合成基因簇分析,共注釋到8類、79個(gè)次級(jí)代謝基因簇,平均每株凝結(jié)芽孢桿菌有2-3個(gè)次級(jí)代謝基因簇,其中重復(fù)出現(xiàn)最多的代謝通路是細(xì)菌素、T3PKS、硫肽、糖類和內(nèi)酯類化合物合成。此外,共有43個(gè)基因簇與已知基因簇具有一定同源性,其中有11個(gè)預(yù)測(cè)基因簇與Amylocyclicin基因簇同源相似度最高。這些結(jié)果表明,凝結(jié)芽孢桿菌可能具有相似的代謝產(chǎn)物合成途徑,最有可能的活性物質(zhì)包 括 有Fengycin、Amylocyclicin、Rhizocticin A和exopolysaccharide。孫天擁[28]對(duì)635株細(xì)菌的基因組進(jìn)行了挖掘,共注釋出有40種、6 174個(gè)次級(jí)代謝基因簇,平均每株細(xì)菌有9-10個(gè)次級(jí)代謝基因簇。Jeske等[29]對(duì)13株浮霉?fàn)罹幕蚪M進(jìn)行了挖掘,共挖掘到102個(gè)次級(jí)代謝基因簇,平均每個(gè)基因組有7-8個(gè)次級(jí)代謝基因簇。凝結(jié)芽孢桿菌與這些細(xì)菌相比,發(fā)現(xiàn)的次級(jí)代謝基因簇?cái)?shù)量較少,有新型物質(zhì)合成的可能性較低。
圖5 33株凝結(jié)芽孢桿菌中預(yù)測(cè)的次級(jí)代謝產(chǎn)物類型熱圖
表2 凝結(jié)芽孢桿菌中預(yù)測(cè)存在的次級(jí)代謝基因簇
表2 續(xù)表
表3 凝結(jié)芽孢桿菌中預(yù)測(cè)基因簇與已知基因簇的相似度
圖6 33株凝結(jié)芽孢桿菌中已知基因簇類型熱圖
本研究對(duì)33株凝結(jié)芽孢桿菌中的11株具有完整基因組的凝結(jié)芽孢桿菌進(jìn)行泛基因組分析,檢索到其泛基因組含有5 899個(gè)基因,其中特有基因有2 255個(gè),核心基因組有2 152個(gè)基因;此外,通過(guò)對(duì)33株凝結(jié)芽孢桿菌使用antiSMASH軟件進(jìn)行了次級(jí)代謝基因簇挖掘,共注釋到8類、79個(gè)次級(jí)代謝基因簇,其中主要的次級(jí)代謝產(chǎn)物合成基因簇是關(guān)于內(nèi)酯、細(xì)菌素和糖類化合物。