張家偉,董宏坡,毛鐵墻,歐亞飛
湛江灣表層水體海洋類群II古菌的基因組分析
張家偉1,董宏坡2,毛鐵墻1,歐亞飛2
(1. 廣東海洋大學(xué)化學(xué)與環(huán)境學(xué)院,廣東 湛江 425088;2. 華東師范大學(xué)河口海岸學(xué)國(guó)家重點(diǎn)實(shí)驗(yàn)室,上海 200062)
【】分析湛江灣表層水體海洋類群II古菌的基因組。通過(guò)宏基因組和比較基因組的方法,對(duì)湛江灣和其他海域的MGII古菌進(jìn)化和生理代謝進(jìn)行研究。湛江灣兩株古菌為海洋類群II a亞型,基因組中含有多種碳水化合物酶和蛋白水解酶以及參與磷酸戊糖途徑和三羧酸循環(huán)相關(guān)基因,同時(shí)具有鞭毛和視紫紅質(zhì)基因;一些特殊的蛋白酶和糖苷水解酶在湛江灣海洋類群II古菌中被檢測(cè)出。該古菌是光異養(yǎng)型微生物,利用水體中的糖類和多肽作為碳源和能源,為適應(yīng)熱帶海灣環(huán)境發(fā)生了微進(jìn)化。
海洋類群II古菌;宏基因組分析;生理代謝特征;湛江灣
目前海洋水體中的古菌主要分為3類,(原名為Marine Group I, MGI)、Marine Group II(MGII)和Marine Group III archaea(MGIII)[1]。MGII古菌自1992年發(fā)現(xiàn)以來(lái),被認(rèn)為是溫帶水域真光層內(nèi)的主要古菌群[2],MGII古菌廣泛分布于全球海洋中,在貧營(yíng)養(yǎng)鹽的開(kāi)闊大洋,其數(shù)量占古菌總數(shù)量15%,甚至在極地海區(qū)都發(fā)現(xiàn)它們的蹤跡[3]。通過(guò)16S rRNA的進(jìn)化關(guān)系分析,發(fā)現(xiàn)它們主要有4個(gè)分支,分別是MGII a、MGII b、MGII c和MGII d,其中后面2個(gè)從深海和海底熱液口中發(fā)現(xiàn)[4]。MGII古菌屬于目(Order)分類單元,而MGII a和MGII b則分別代表科分類單元,2019年Rinke等[5]把MGII a命名為, MGII b命名為。到目前為止,MGII古菌并沒(méi)有實(shí)現(xiàn)純培養(yǎng),對(duì)其在海洋中的生理和生態(tài)功能知之甚少。目前主要通過(guò)宏基組因分析,重組基因組來(lái)了解其在海洋中的生態(tài)功能。在地中海發(fā)現(xiàn),MGII b在冬季表層海水中豐度較高,MGII a在夏季表層海水中豐度較高[6],說(shuō)明 MGII古菌具有明顯的季節(jié)變化特征。在普吉灣(Puget Sound)表層水中恢復(fù)的基因組中,通過(guò)重構(gòu)代謝發(fā)現(xiàn)該海域MGII能降解蛋白質(zhì)和脂類等有機(jī)物質(zhì)、光異養(yǎng)型微生物[7]。其它海域相關(guān)研究也發(fā)現(xiàn)了MGII一些顯著特征,如降解水體中的蛋白質(zhì)、脂類和碳水化合物[8-11];擁有古菌鞭毛特征基因,因此可能進(jìn)行細(xì)胞粘附或運(yùn)動(dòng)[8];生活在真光層區(qū)的個(gè)體普遍存在視紫紅質(zhì)基因[12]等。在澳大利亞哈金港的MGII古菌研究中發(fā)現(xiàn)[13],部分MGII屬基因組中不具有視紫紅質(zhì),該基因是從其他光異養(yǎng)微生物基因水平轉(zhuǎn)移中獲得,而且通過(guò)比對(duì)TARA數(shù)據(jù)庫(kù),發(fā)現(xiàn)MGII在全球海洋表層水體中廣泛分布。MGII古菌的這些特點(diǎn)表明它們?cè)谌蚝Q筇佳h(huán)發(fā)揮著重要作用,不同海洋環(huán)境MGII古菌可能有自己的特點(diǎn)。本研究對(duì)湛江灣表層水體微生物群落進(jìn)行宏基因測(cè)序,拼接出MGII古菌基因組,對(duì)其進(jìn)化和生理代謝進(jìn)行探討,為認(rèn)識(shí)MGII古菌在熱帶海灣中的生態(tài)意義提供依據(jù)。
湛江灣表層水體樣品于2017年4月(110.32°E -110.52°E,21.05°N -21.38°N)采集,使用手持式有機(jī)玻璃采水器采自4個(gè)不同站位,水樣送到實(shí)驗(yàn)室后,用0.2 μm濾膜進(jìn)行過(guò)濾,所有樣品在24 h內(nèi)過(guò)濾完成,濾膜保存于凍存管中,用液氮速凍后放置-80 ℃冰箱保存,用于DNA的提取和宏基因組測(cè)序。每個(gè)站點(diǎn)過(guò)濾后的水樣分裝到100 mL的聚乙烯瓶中,用于理化參數(shù)分析(表1)。
濾膜樣品在超凈臺(tái)中剪碎并分裝,環(huán)境樣品DNA提取使用PowerSoil?DNA Isolation Kit試劑盒(MoBio 公司,加拿大),具體步驟參照試劑盒說(shuō)明文件。DNA提取后,利用10 g/L瓊脂糖凝膠電泳檢測(cè)基因組DNA質(zhì)量。將這些提取的DNA打斷成約為300 bp的片段,構(gòu)建pair-end文庫(kù),利用橋式PCR進(jìn)行擴(kuò)增,產(chǎn)生的單鏈DNA使用Illumina Hiseq 2500測(cè)序。
表1 湛江灣4個(gè)采樣點(diǎn)理化參數(shù)
對(duì)原始測(cè)序數(shù)據(jù)使用Trimmomactic[14](V0.63)進(jìn)行裁切。獲得高質(zhì)量reads使用MEGAHIT[15](V1.1.3)進(jìn)行拼接,然后使用MetaGene (http://metagene. cb.k.u-tok yo.ac.jp/)對(duì)拼接結(jié)果中的contig進(jìn)行開(kāi)放閱讀框(ORF)預(yù)測(cè)。選擇核酸長(zhǎng)度大于或等于100 bp的基因,并將其翻譯成氨基酸序列。將所有樣品預(yù)測(cè)出來(lái)的基因序列,用CD-HIT(V4.6.8)(http://www.bioinformatics.org/cd-hit/)軟件進(jìn)行聚類(參數(shù):95% identity,90% coverage),每個(gè)分組取最長(zhǎng)基因作為代表序列,構(gòu)建非冗余基因集。使用BLASTP[16](V2.7.1)將基因集與NR數(shù)據(jù)庫(kù)比對(duì)進(jìn)行功能注釋(BLAST比對(duì)參數(shù)設(shè)置期望值e-value為10-5),并通過(guò)NR庫(kù)對(duì)應(yīng)的分類學(xué)信息數(shù)據(jù)庫(kù)獲得物種注釋,然后使用物種對(duì)應(yīng)的基因豐度總和計(jì)算該物種豐度。使用eggNOG-Mapper[17](V1.0.3)將基因集序列與eggNOG[18]數(shù)據(jù)庫(kù)比對(duì)進(jìn)行COG(Clusters of orthologous groups of proteins,直系同源蛋白簇)功能注釋,獲得基因?qū)?yīng)的COG,然后使用COG對(duì)應(yīng)的基因豐度總和計(jì)算該COG豐度。
為提取宏基因組中單個(gè)古菌基因組,首先去掉拼接結(jié)果中長(zhǎng)度小于200 bp的contigs,剩下的contigs使用MetaBAT[19](V2.12.1)、MaxBin[20](V2.2.6)和CONCOCT[21](V0.4.2)進(jìn)行分箱,所有分箱結(jié)果輸入到DAS Tools[22],根據(jù)各個(gè)軟件分箱算法和完整度,計(jì)算出最優(yōu)分箱結(jié)果。最后使用CheckM[23](V1.0.7)計(jì)算出基因組的完整度和污染度。使用Prodigal[24](V2.6.3)軟件預(yù)測(cè)基因編碼區(qū)(CDS)。使用BLASRP工具分別與非冗余蛋白庫(kù)(Nr)、uniprot數(shù)據(jù)庫(kù)、Swiss-prot和COG數(shù)據(jù)庫(kù)比對(duì)進(jìn)行基因組注釋;蛋白結(jié)構(gòu)域使用InterProScan[25]工具集進(jìn)行注釋;基因組的代謝通路使用KEGG在線注釋工具KOALA(https://www. kegg.jp/blastkoala/)進(jìn)行分析。使用CAZy[26]數(shù)據(jù)庫(kù)的對(duì)應(yīng)工具HMMER(V2.3.2)分析基因組中的碳水化合物活性酶信息;使用MEROPS(https://www.ebi.ac.uk/merops/)庫(kù)中庫(kù)文件“merops_scan.lib”分析細(xì)胞外的活性蛋白酶。所有注釋工具和數(shù)據(jù)庫(kù)的結(jié)果手動(dòng)比對(duì)排查,對(duì)于感興趣的代謝功能手動(dòng)進(jìn)行注釋。
使用GTDBTK[27](V1.1.1)工具集和數(shù)據(jù)庫(kù)對(duì)基因組進(jìn)行初步分類。使用Barrnap(https://github.com/
tseemann/barrnap)軟件預(yù)測(cè)基因組中的核糖體蛋白(16S+23S)。串聯(lián)核糖體蛋白建樹(shù),從NCBI數(shù)據(jù)庫(kù)中下載泉古菌()基因組5個(gè),廣古菌()基因組5個(gè),2個(gè)基因組,初古菌()基因組2個(gè),海洋類群I古菌(Marine Group I)基因組4個(gè),海洋類群II古菌基因組33個(gè),海洋類群III古菌(Marine Group III)基因組5個(gè),6個(gè)基因組,2個(gè)產(chǎn)甲烷古菌()基因組,5個(gè)微古菌()基因組,加上湛江灣中本研究拼接的2個(gè)基因組,共71個(gè)基因組用于串聯(lián)系統(tǒng)發(fā)育樹(shù)的構(gòu)建。根據(jù)arCOG的注釋結(jié)果,挑選出38個(gè)核糖體蛋白,使用Mafft[28](V7.402)進(jìn)行序列比對(duì),BMGE[29](V1.12)對(duì)比對(duì)的序列進(jìn)行切邊以及去除非保守氨基酸位點(diǎn),串聯(lián)后的核糖體蛋白序列,使用IQtree[30](V1.6.12)構(gòu)建最大似然進(jìn)化樹(shù),系統(tǒng)發(fā)育樹(shù)用Figtree(V 1.4.3)可視化。
從NCBI下載海洋類群II古菌的基因組,選擇有帶采樣地點(diǎn)信息的基因組,用CheckM(V 1.0.7)計(jì)算完整度和污染度,以完整度50%和污染度5%為閾值,選擇符合條件的基因組[11],基因組間平均氨基酸相似度(AAI)使用CompareM(https:// github.com/dparks1134/CompareM)軟件進(jìn)行計(jì)算,基因組的注釋如上文所示。泛基因組間的比較使用anvi′o[31](V2.3.2)平臺(tái)。
湛江灣表層水體中的4個(gè)樣品,每個(gè)樣品測(cè)序深度約為20 G,一共獲得約80 G的原始序列(Raw reads),每個(gè)reads的片段長(zhǎng)度為150 bp。4個(gè)樣品單獨(dú)拼接的結(jié)果中,分別拼接出633 754、631 893、699 969和550 178個(gè)contigs。湛江灣4個(gè)樣品單獨(dú)拼接結(jié)果的N50分別為1 371 bp、1 164 bp、1 261 bp和1 265 bp。這些拼接的注釋結(jié)果顯示,湛江灣4個(gè)采樣點(diǎn)所得到的微生物群落從門的分類水平上(圖1A),豐度最高的是變形菌(),所占比例大于60%,ZJB1結(jié)果中未知分類細(xì)菌類型(norank_d_norank)所占比例相對(duì)較高,其它3個(gè)站點(diǎn)中豐度較高菌群分別是擬桿菌()和放線菌()。基因功能的同源蛋白簇(COG)注釋的分類結(jié)果顯示(圖1B),4個(gè)站點(diǎn)中未知功能基因比例平均高達(dá)25%,這些基因中一部分可能是目前數(shù)據(jù)庫(kù)上還沒(méi)有明確功能和分類的注釋,另一部分可能是拼接的序列較短而無(wú)法進(jìn)行功能和分類注釋。在已有功能和分類的注釋結(jié)果中,所占比例較高的是氨基酸的轉(zhuǎn)運(yùn)、代謝與能量的產(chǎn)生、轉(zhuǎn)化這兩類基因,分別約為10%和7%,說(shuō)明在湛江灣表層水體中占優(yōu)勢(shì)地位的微生物是以蛋白質(zhì)和氨基酸為碳源和能源的異養(yǎng)型微生物。
圖1 湛江灣4個(gè)樣品微生物群落門水平上分類和基因COG注釋分類
為獲得單個(gè)菌株比較完整的基因組,在測(cè)序深度較低情況下,混合4個(gè)樣品的原始序列進(jìn)行拼接,能有效減少基因組中缺失部分關(guān)鍵基因的概率,提高基因組質(zhì)量。湛江灣表層水體4個(gè)樣品進(jìn)行混合拼接和分箱,分箱結(jié)果根據(jù)checkM計(jì)算出完整度,以完整度大于或等于50%為閾值進(jìn)行篩選,最后共獲得86個(gè)基因組。這些基因組根據(jù)GTDBTK初步分類結(jié)果顯示,屬于古細(xì)菌基因組有2個(gè),分別是MGII古菌ZJW_bin1和ZJW_bin2。湛江灣水體中微生物古菌主要是海洋類群II古菌,使用kallisto[32](V0.44.0)計(jì)算出ZJW_bin1 ZJW_bin2在4個(gè)樣品中的豐度,分別是0.1% ~ 0.21%、0.35% ~ 0.87%。
湛江灣中篩選出的2個(gè)MGII古菌基因組,分別使用注釋工具進(jìn)行注釋和統(tǒng)計(jì)(表2)。本研究所得的基因組已上傳到ncbi,bioproject為PRJNA633442,基因組樣品號(hào)分別為SAMN14943916和SAMN14943917。ZJW_bin1基因組中一共含有1 094個(gè)contigs,基因組大小為3.08 Mbp,GC含量為44.6%,使用checkM根據(jù)marker數(shù)據(jù)集的計(jì)算結(jié)果顯示,該基因組完整度為76%,污染度為14.16%。基因組contigs中蛋白結(jié)構(gòu)域的預(yù)測(cè)結(jié)果顯示該基因組編碼了3 039個(gè)蛋白;ZJW_bin2基因組中含有432個(gè)contigs,這些contigs中蛋白結(jié)構(gòu)域的預(yù)測(cè)結(jié)果顯示該基因組編碼了1 363個(gè)蛋白基因,計(jì)算出該基因組的大小為1.26 Mbp,根據(jù)基因組中marker基因集的計(jì)算結(jié)果,ZJW_bin2的完整度為53.86%,污染度為0.8%。為探究2個(gè)基因組的同源性,使用CompareM對(duì)2個(gè)基因組預(yù)測(cè)的蛋白質(zhì)基因進(jìn)行分析,結(jié)果顯示,ZJW_bin1和ZJW_bin2的平均氨基酸相似度(AAI)為58.85%,2個(gè)基因組有237個(gè)同源基因。
表2 湛江灣海洋古菌類群II基因組基本信息
為進(jìn)一步探究ZJW_bin1和ZJW_bin2的進(jìn)化地位,本研究選用串聯(lián)蛋白進(jìn)行系統(tǒng)發(fā)育分析的方法。傳統(tǒng)系統(tǒng)發(fā)育分析是使用16S rRNA基因構(gòu)建進(jìn)化樹(shù)進(jìn)行分析,但是由于基因組的不完整性和現(xiàn)有的宏基因組分析方法的限制,這2個(gè)基因組中都沒(méi)有發(fā)現(xiàn)16S rRNA基因,無(wú)法利用傳統(tǒng)分類方法對(duì)這2個(gè)基因組進(jìn)行分類?;诖?lián)核糖體蛋白進(jìn)行系統(tǒng)發(fā)育分析能有效避免單個(gè)蛋白不保守帶來(lái)的誤差,所以能更準(zhǔn)確反應(yīng)基因組的進(jìn)化關(guān)系。本研究從71個(gè)基因中(含ZJW_bin1和ZJW_bin2)中篩選出38個(gè)符合條件的核糖體蛋白,把這些核糖體蛋白進(jìn)行串聯(lián)并構(gòu)建系統(tǒng)發(fā)育樹(shù)(圖2)。
展示SH-like近似似然檢驗(yàn)(SB)值和快速自展(BS)值
ZJW_bin1和ZJW_bin2位于廣古菌門下,ZJW_bin1和ZJW_bin2屬于MGII a。與湛江灣MGII古菌進(jìn)化關(guān)系較近的基因組是澳大利亞哈金港表層水體中獲得的基因組,在MGII b分支上的是從地中海和紅海水體中獲得的基因組。MGII a基因組的GC含量的變化范圍是42% ~ 63%,MGII b的GC含量范圍是36% ~ 52%。MGII a基因組的GC含量要高于MGII b,湛江灣中2個(gè)基因組的GC含量也相對(duì)較高,符合MGII a特征(表3)。
表3 用于比較基因組分析的基因組信息
根據(jù)不同數(shù)據(jù)庫(kù)的比對(duì)注釋分析,重構(gòu)了湛江灣MGII古菌基因組的代謝通路模型(圖3)。ZJW_bin1和ZJW_bin2的糖酵解途徑中除了磷酸果糖激酶(6-phosphofructokinase 1,)外,其它酶類都被鑒定到。在磷酸戊糖途徑中,湛江灣MGII 古菌基因組中缺少氧化型磷酸戊糖途徑有關(guān)的酶,但是發(fā)現(xiàn)有酮糖移轉(zhuǎn)酶(transketolase,)和葡萄-6-磷酸異構(gòu)酶(glucose-6-phosphate isomerase,),這兩個(gè)酶是氧化型磷酸戊糖途徑中關(guān)鍵的酶,表明湛江灣MGII古菌具有完整的非氧化型的磷酸戊糖途徑,并以此來(lái)代謝糖類以獲得能量。
圖3 湛江灣海洋古菌類群II重構(gòu)的部分代謝模型
湛江灣海洋古菌類群II基因組的三羧酸循環(huán)(TCA)中,發(fā)現(xiàn)該古菌有檸檬酸合酶(citrate synthase,)和異檸檬酸脫氫酶(isocitrate dehydrogenase,),但在酮戊二酸脫氫酶(oxoglutarate dehydrogenase complex,)這個(gè)復(fù)合酶中,兩個(gè)基因組都只發(fā)現(xiàn)了二氫硫辛酰脫氫酶(dihydrolipoamide dehydrogenase,)和二氫硫辛酰琥珀酰轉(zhuǎn)移酶(dihydrolipoamide succinyltransferase,),缺少了OGDC這個(gè)關(guān)鍵的酶,而在兩個(gè)基因組中都發(fā)現(xiàn)有酮戊二酸鐵氧化還原蛋白氧化還原酶(2-oxoglutarate/2-oxoacid ferredoxin oxidoreductase,),該復(fù)合酶能催化酮戊二酸和氧化型的鐵氧化還原蛋白(Oxidized ferredoxin)生成琥珀酰輔酶(Succinyl-CoA)和還原型的鐵氧化還原蛋白(Reduced ferredoxin),從而代替OGDC的功能。湛江灣MGII古菌中其它的TCA相關(guān)的酶有:琥珀酰輔酶A合成酶(succinyl-CoA synthetase,)、琥珀酸脫氫酶/延胡索酸還原酶(succinate dehydrogenase/ fumarate reductase,)雙功能酶和延胡索酸水合酶(fumarate hydratase,)等。所以,這類古菌有完整的氧化型的TCA循環(huán),能把糖酵解產(chǎn)生丙酮酸并氧化為二氧化碳,并產(chǎn)生能量和還原力以供給其它的生物化學(xué)過(guò)程利用。
湛江灣MGII古菌的脂肪酸代謝通路中,鑒定到長(zhǎng)鏈?;o酶合成酶(long-chain acyl-CoA synthetase,)、酰基輔酶脫氫酶(acyl-CoA dehydrogenase,)、3-羥烷基輔酶脫氫酶/烯酰輔酶水合酶/3-羥丁酰輔酶異構(gòu)酶/烯酰輔酶異構(gòu)酶多功能酶(3-hydroxyacyl-CoA dehydrogenase/enoyl- CoA hydratase/3-hydroxybutyryl-CoA epimerase/enoyl-CoA isomerase,)和乙酰輔酶轉(zhuǎn)移酶酶(acetyl-CoA C-acetyltransferase,)。所以湛江灣MGII古菌能通過(guò)β氧化來(lái)降解脂肪酸,生成游離的乙酰輔酶A進(jìn)入三羧酸循環(huán)。
對(duì)于能量轉(zhuǎn)換和保存過(guò)程,兩個(gè)基因組鑒定到煙酰胺腺嘌呤二核苷酸(NADH)脫氫酶(復(fù)合酶I, nuoBDHJKLMN)。這個(gè)酶復(fù)合體是電子轉(zhuǎn)移鏈中第一個(gè)蛋白,其參與的反應(yīng)是將糖酵解和三羧酸循環(huán)以及其它一些生化過(guò)程產(chǎn)生的NADH脫去氫離子,釋放出兩個(gè)電子,釋放的電子與黃素單核苷酸(FMN)結(jié)合,隨后向鐵硫蛋白簇轉(zhuǎn)移。同時(shí)還鑒定到琥珀酸脫氫酶(,復(fù)合酶II,其中琥珀酸脫氫酶類基因有:和延胡索酸酶,作為呼吸鏈反應(yīng)的第二個(gè)復(fù)合酶同時(shí)也屬于TCA循環(huán)的酶,能把琥珀酸還原成延胡索酸,將泛醌還原。然而,兩個(gè)基因組都缺乏細(xì)胞色素還原酶(復(fù)合酶III),僅發(fā)現(xiàn)了細(xì)胞色素b()基因,缺少典型的細(xì)胞色素c1()。而在三磷酸腺苷(adenosine triphosphate, ATP)合成酶中發(fā)現(xiàn)多個(gè)V/A型H+/Na+轉(zhuǎn)運(yùn)酶(),其中atpK屬于ATP合成酶中的C環(huán)蛋白的特定基因序列,而且在這兩個(gè)基因組中發(fā)現(xiàn)有A1AO型的ATP合成酶。
兩個(gè)基因組都編碼了視紫紅質(zhì)基因,通過(guò)視紫紅質(zhì)基因構(gòu)建的極大似然進(jìn)化樹(shù)和序列的比對(duì)結(jié)果發(fā)現(xiàn)(圖4),MGII古菌中的視紫紅質(zhì)基因進(jìn)化樹(shù)分為2個(gè)明顯不同的分支,ZJW_bin1和ZJW_bin2的視紫紅質(zhì)基因位于同一個(gè)分支中,在比對(duì)的序列結(jié)果中的第172位氨基酸為甲硫氨酸(methionine,M),而另一個(gè)分支的基因組的序列比對(duì)結(jié)果的第172位是谷氨酰胺。通過(guò)TMHMM(http://www. cbs.dtu.dk/services/TMHMM)對(duì)ZJW_bin1的蛋白質(zhì)跨膜螺旋結(jié)構(gòu)的預(yù)測(cè),發(fā)現(xiàn)湛江灣的視紫紅質(zhì)基因有6個(gè)跨膜的螺旋結(jié)構(gòu)。
圖4 湛江灣海洋古菌類群II基因組中視紫紅質(zhì)基因和其他典型的視紫紅比對(duì)
ZJW_bin1和ZJW_bin2中鑒定到古菌的鞭毛基因(),通過(guò)序列比對(duì)分析,發(fā)現(xiàn)與高度相似,但是兩個(gè)基因組都缺失基因,該基因?qū)啪廾某墒毂夭豢缮?,同時(shí)缺乏多數(shù)典型古菌鞭毛的操縱子的基因和基因,因此兩個(gè)基因組都缺乏典型的完整古菌鞭毛基因操縱子。
從NCBI中下載了33個(gè)來(lái)自3個(gè)不同海域的MGII古菌的基因組,分別是紅海12個(gè)基因組、地中海6個(gè)基因組和澳大利亞哈金港15個(gè)基因組,用于比較基因組分析。對(duì)基因組進(jìn)行碳水化合物酶(CAZy)和蛋白酶(MEROPS)注釋后,統(tǒng)計(jì)各類酶的種類和數(shù)量。其中碳水化合物酶數(shù)據(jù)庫(kù)的注釋結(jié)果(圖5A)顯示, MGII古菌基因組編碼了多種碳水化合物活性的相關(guān)酶類,其中糖基轉(zhuǎn)移酶類家族(GTs)所占比例最高(大于60%),這個(gè)家族的酶參與了細(xì)胞中多種有機(jī)物中糖苷鍵的形成。其次,4個(gè)海域的MGII古菌都有碳水化合物酯酶類家族(CEs);在三個(gè)海區(qū)(除了紅海區(qū)域)海洋古菌類群II都發(fā)現(xiàn)有糖苷水解酶家族(GHs)的基因,這是一類分布廣泛的酶類,具有水解兩個(gè)或兩個(gè)以上的糖類(或者糖類與非糖類)之間糖苷鍵的能力。
蛋白酶注釋結(jié)果,發(fā)現(xiàn)MGII古菌基因組中有多種蛋白酶家族的基因(圖5B),主要的蛋白酶家族是M24A、M24B、S08A、S15、S16和T01A,其中M24酶家族含有外肽酶,催化反應(yīng)的底物是有機(jī)金屬化合物,需要鈷或錳的協(xié)同催化,而在MGII古菌的細(xì)胞膜轉(zhuǎn)運(yùn)系統(tǒng)中發(fā)現(xiàn)有鎢酸鹽膜轉(zhuǎn)運(yùn)蛋白基因。S08A肽酶家族大多數(shù)成員是內(nèi)肽酶,在中性或微堿性pH時(shí)比較活躍。在蛋白酶種類上,澳大利亞哈金港的MGII古菌基因組所編碼的蛋白酶的種類最多,而湛江灣中MGII古菌基因組蛋白酶種類較少,但各種類蛋白酶數(shù)量上相對(duì)穩(wěn)定。湛江灣中特殊的蛋白酶有羧肽酶E、CLP肽酶、Taq羧肽酶、甲硫胺酰氨基肽酶和二肽基肽酶。
本研究從湛江灣表層水體中微生物群落中拼接出兩個(gè)MGII 古菌基因組:ZJW_bin1和ZJW_bin2,兩個(gè)基因組完整性不高,可能是由于測(cè)序深度的不足,導(dǎo)致較低豐度的微生物的部分基因丟失。從系統(tǒng)發(fā)育水平上,MGII古菌是廣古菌門下的一個(gè)目水平的分類[5],湛江灣中恢復(fù)ZJW_bin1和ZJW_bin2,利用串聯(lián)38個(gè)核糖體蛋白構(gòu)建的進(jìn)化樹(shù)顯示這兩個(gè)基因組同屬于MGII a, MGII a生活在海洋表層或者是真光層中,在近海豐度較高,而遠(yuǎn)海豐度低[33]。
ZJW_bin1和ZJW_bin2兩個(gè)基因組中缺乏磷酸果糖激酶(),這個(gè)激酶在糖酵解作用中負(fù)責(zé)將果糖-6-磷酸與ATP轉(zhuǎn)變成為果糖-1,6-雙磷酸與ADP,是糖酵解過(guò)程中主要的限速酶,也是糖酵解過(guò)程中主要的調(diào)節(jié)點(diǎn)。其他海域的MGII古菌發(fā)現(xiàn)有完整的糖酵解途徑,其中包含很多屬于己糖代謝的Embden–Meyerhof–Parnas (EMP)途徑的酶[8],ZJW_bin1和ZJW_bin2缺少磷酸果糖激酶可能是基因組的不完整導(dǎo)致的。兩個(gè)基因組都有非氧化型的磷酸戊糖途徑所有基因,這是葡糖糖分解的另一個(gè)途徑,可通過(guò)葡萄糖直接氧化脫氫和脫羧,不必經(jīng)過(guò)糖酵解和三羧酸循環(huán),產(chǎn)生的還原型煙酰胺腺嘌呤二核苷酸磷酸(NADPH)作為還原力以供生物合成,而不是傳遞給氧氣,無(wú)ATP的產(chǎn)生和消耗。ZJW_bin1和bin2有完整的氧化型的檸檬酸循環(huán)(TCA),該循環(huán)使用糖酵解產(chǎn)生的丙酮酸,經(jīng)過(guò)和酮戊二酸鐵氧還蛋白氧化還原酶()催化反應(yīng)生成乙酰輔酶,最后由TCA循環(huán)生成3分子煙酰胺腺嘌呤二核苷酸的還原態(tài)(NAD+)、1分子的FADH2和2分子的二氧化碳,循環(huán)中產(chǎn)生的能量和中間產(chǎn)物用于生物合成。湛江灣MGII基因組都有典型的NADH脫氫酶(復(fù)合物I)和琥珀酸脫氫酶(復(fù)合物II),它們通過(guò)低親和力的細(xì)胞色素c氧化酶將電子傳遞作為末端電子受體連接到氧上,但是兩個(gè)基因組都只發(fā)現(xiàn)了細(xì)胞色素b()基因,缺乏典型的細(xì)胞色素c1(),與部分MGII古菌基因組相似[34],但湛江灣MGII古菌基因組中的鐵硫域蛋白,可以從鐵氧還原蛋白中吸收電子并將其轉(zhuǎn)移到其他物質(zhì)上,通過(guò)氧化鐵氧還原蛋白形成Na+梯度。同時(shí)湛江灣MGII古菌中發(fā)現(xiàn)多個(gè)V/A型H+/Na+轉(zhuǎn)運(yùn)酶基因,說(shuō)明湛江灣MGII古菌能利用形成的跨膜Na+濃度梯度合成ATP。此外湛江灣MGII古菌基因組還編碼多種含鐵硫蛋白結(jié)構(gòu)域蛋白,鐵硫蛋白作為一種重要的電子載體,可能在電子傳遞復(fù)合酶III中代替細(xì)胞色素c,成為電子傳遞鏈中重要的一環(huán)[11]。
MGII古菌能降解生物大分子有機(jī)物,如脂肪酸和蛋白質(zhì)[9-11, 35]。湛江灣MGII古菌能通過(guò)β氧化分解脂肪酸,生成乙酰輔酶進(jìn)入三羧酸循環(huán),每分子棕櫚酸(C16)產(chǎn)生106分子的ATP,用于其它生物合成。在蛋白質(zhì)降解的酶類家族中,ZJW_bin1和ZJW_bin2中發(fā)現(xiàn)擁有大部分細(xì)胞外肽酶家族的基因,同時(shí)細(xì)胞膜轉(zhuǎn)運(yùn)系統(tǒng)中有鎢酸鹽的轉(zhuǎn)運(yùn)蛋白,而鎢酸鈷(CoWO4)是常見(jiàn)的鎢酸鹽,轉(zhuǎn)運(yùn)的鈷元素可能與M24肽酶家族共同作用,分解蛋白質(zhì)。S08A肽酶家族大多數(shù)成員是內(nèi)肽酶,在中性或微堿性pH時(shí)比較活躍,這類酶是非特異性酶,偏愛(ài)在疏水性殘基后裂解肽鍵[36],湛江灣MGII古菌基因組含有許多S08A肽酶,以及寡肽轉(zhuǎn)運(yùn)體[11],說(shuō)明湛江灣MGII古菌具有降解細(xì)胞外蛋白質(zhì)的能力。
與蛋白質(zhì)分解的特性不同,僅有部分MGII古菌基因組有視紫紅質(zhì)基因[11],在古菌域發(fā)現(xiàn)這個(gè)基因主要分布在嗜鹽古菌()[9]中。視紫紅質(zhì)蛋白(pR)可以作為光驅(qū)動(dòng)離子泵或光傳感器來(lái)監(jiān)測(cè)環(huán)境光信號(hào)[37],編碼這種蛋白的基因以前已在MGII古菌基因組中被檢測(cè)到[9],而在深海MGII古菌基因組或者序列片段中沒(méi)有發(fā)現(xiàn)這種基因[35]。說(shuō)明這個(gè)基因存在與古菌生活的水層有很大的關(guān)系。ZJW_bin1和ZJW_bin2中都發(fā)現(xiàn)視紫紅質(zhì)基因,通過(guò)系統(tǒng)發(fā)育分析,揭示湛江灣MGII古菌的視紫紅質(zhì)基因?qū)儆谡婀鈱又械囊曌霞t質(zhì)基因,與MGII a的進(jìn)化地位相同。MGII古菌中的視紫紅質(zhì)基因分為兩個(gè)不同分支,這是基因水平轉(zhuǎn)移事件導(dǎo)致的[12]。序列比對(duì)結(jié)果顯示湛江灣MGII古菌基因組中的視紫紅質(zhì)基因第172位氨基酸為甲硫氨酸(methionine,M),帶有這個(gè)非極性殘基氨基酸的視紫紅質(zhì)偏向于吸收綠光,在525 nm處有最大的吸收值;而深水區(qū)的MGII b中的視紫紅質(zhì)基因的第172位是谷氨酰胺,這個(gè)極性殘基的視紫紅質(zhì)偏向于吸收藍(lán)光,在490 nm處有最大的吸收值[37]。所以湛江MGII古菌在生長(zhǎng)中傾向于吸收能量更低的綠光,利用光驅(qū)動(dòng)的質(zhì)子泵來(lái)形成離子濃度梯度,合成ATP,因此湛江灣MGII古菌有更強(qiáng)的適應(yīng)貧營(yíng)養(yǎng)環(huán)境的能力。
ZJW_bin1和ZJW_bin2中有鞭毛基因和,比對(duì)發(fā)現(xiàn)與鞭毛基因高度相似,的鞭毛基因主要功能已經(jīng)被鑒定為運(yùn)動(dòng)性;但是湛江灣MGII古菌基因組中缺失flaK基因,該基因?qū)啪廾某墒毂夭豢缮?,同時(shí)也缺乏典型古菌鞭毛的操縱子基因和基因。而Martin-Cuadrado等[8, 11]認(rèn)為在真光層中MGII a的鞭毛基因主要功能是運(yùn)動(dòng)性,湛江灣MGII古菌采集于海洋表層水體中,屬于真光層內(nèi)的微生物,因此湛江灣MGII古菌鞭毛的主要功能是運(yùn)動(dòng)性,缺乏部分古菌鞭毛的操縱子基因可能是基因組的不完整所導(dǎo)致的。結(jié)合MGII a中普遍存在的視紫紅質(zhì)基因,利用光能合成ATP,可能提供給鞭毛運(yùn)動(dòng)的部分能量,使得湛江灣古菌類群II在食物匱乏時(shí)能運(yùn)動(dòng)到營(yíng)養(yǎng)更為豐富的地方,更好地適應(yīng)環(huán)境的變化。
湛江灣MGII古菌有羧肽酶E,而其它海區(qū)MGII古菌基因組沒(méi)有發(fā)現(xiàn)該酶的基因,此酶參與多種肽激素和神經(jīng)遞質(zhì)的生物合成。此外比較特別的蛋白酶還有CLP肽酶、Taq羧肽酶、甲硫氨酰氨基肽酶和二肽基肽酶等,其中CLP肽酶的生理學(xué)特性是有助于消除熱休克中受損蛋白[38];甲硫氨酰氨基肽酶可能作用于甲硫胺酸代謝中在N-末端蛋氨酸的共平移去除,是降解甲硫氨酸中一個(gè)環(huán)節(jié)[39],二肽基肽酶能在絲氨酸代謝有關(guān)過(guò)程中起催化作用。這些蛋白酶僅在湛江灣MGII 古菌基因組中發(fā)現(xiàn),說(shuō)明此類古菌為適合熱帶環(huán)境發(fā)生了微進(jìn)化。
湛江灣MGII古菌中糖苷水解酶家族(GH)所占比例相對(duì)其他3個(gè)海域較高,這是一組廣泛分布的酶,它們水解兩個(gè)或兩個(gè)以上碳水化合物或碳水化合物與非碳水化合物部分之間的糖苷鍵[26]。而且輔助類的糖苷水解酶(AA)含量也相對(duì)較高。而在蛋白酶注釋結(jié)果中,湛江灣MGII蛋白酶種類和澳大利亞哈金港MGII古菌蛋白酶種類相對(duì)較少,但是各個(gè)酶類家族數(shù)量差別不大,這樣的結(jié)果可能是湛江灣中各種蛋白的種類豐富,但相對(duì)比例比較一致。4個(gè)海域的細(xì)胞外蛋白酶和碳水化合酶的種類和數(shù)量都有所不同,說(shuō)明MGII古菌為了適應(yīng)不同環(huán)境而有所改變。
本研究宏基因組分析發(fā)現(xiàn),湛江灣表層水體中浮游微生物群落以變形桿菌為主。宏基因組裝出2個(gè)MGII古菌,它們的代謝有各自特點(diǎn),如擁有磷酸戊糖途徑、氧化型的三羧酸循環(huán)和脂肪酸β氧化途徑,利用跨膜Na+濃度梯度推動(dòng)ATP合成,呼吸鏈中缺乏典型的細(xì)胞色素但擁有多個(gè)含鐵硫蛋白結(jié)構(gòu)域的基因序列,可能作為電子傳遞鏈中重要的一員。湛江灣中的MGII基因組編碼較多的糖苷水解酶,說(shuō)明該海域的MGII可能跟多地吸收和利用碳水化合物;湛江灣MGII古菌的鞭毛可能具有運(yùn)動(dòng)的能力,結(jié)合視紫紅質(zhì)基因的存在,推測(cè)這類古菌在有機(jī)營(yíng)養(yǎng)缺乏情況下,可以利用視紫紅質(zhì)蛋白合成ATP,為細(xì)胞運(yùn)動(dòng)提供必要能量,使其能運(yùn)動(dòng)到營(yíng)養(yǎng)豐富的水團(tuán)中生存。
[1] MASSANA R, DELONG E F, PEDRóS-ALIó C. A few cosmopolitan phylotypes dominate planktonic archaeal assemblages in widely different oceanic provinces[J]. Applied and Environmental Microbiology, 2000, 66(5): 1777-1787.
[2] DELONG E F. Archaea in coastal marine environments[J]. Proceedings of the National Academy of Sciences of the United States of America, 1992, 89(12): 5685-5689.
[3] ZHANG C L, XIE W, MARTIN-CUADRADO A B, et al. Marine Group II Archaea, potentially important players in the global ocean carbon cycle[J]. Frontiers in Microbiology, 2015, 6: 1108.
[4] BELMAR L, MOLINA V, ULLOA O. Abundance and phylogenetic identity of archaeoplankton in the permanent oxygen minimum zone of the eastern tropical South Pacific[J]. FEMS Microbiology Ecology, 2011, 78(2): 314-326.
[5] RINKE C, RUBINO F, MESSER L F, et al. Correction: a phylogenomic and ecological analysis of the globally abundant Marine Group II Archaea (Ca. Poseidoniales ord. nov.)[J]. The ISME Journal, 2020, 14(3): 878.
[6] HERFORT L, SCHOUTEN S, ABBAS B, et al. Variations in spatial and temporal distribution of Archaea in the North Sea in relation to environmental variables[J]. FEMS Microbiology Ecology, 2007, 62(3): 242-257.
[7] IVERSON V, MORRIS R M, FRAZAR C D, et al. Untangling genomes from metagenomes: revealing an uncultured class of marine Euryarchaeota[J]. Science, 2012, 335(6068): 587-590.
[8] MARTIN-CUADRADO A B, GARCIA-HEREDIA I, MOLTó A G, et al. A new class of marine Euryarchaeota group II from the Mediterranean deep chlorophyll maximum[J]. The ISME Journal, 2015, 9(7): 1619-1634.
[9] IVERSON V, MORRIS R M, FRAZAR C D, et al. Untangling genomes from metagenomes: revealing an uncultured class of marine Euryarchaeota[J]. Science, 2012, 335(6068): 587-590.
[10] BAKER B J, SHEIK C S, TAYLOR C A, et al. Community transcriptomic assembly reveals microbes that contribute to deep-sea carbon and nitrogen cycling[J]. The ISME Journal, 2013, 7(10): 1962-1973.
[11] TULLY B J. Metabolic diversity within the globally abundant Marine Group II Euryarchaea offers insight into ecological patterns[J]. Nature Communications, 2019, 10(1): 1-12.
[12] FRIGAARD N U, MARTINEZ A, MINCER T J, et al. Proteorhodopsin lateral gene transfer between marine planktonic Bacteria and Archaea[J]. Nature, 2006, 439(7078): 847-850.
[13] RINKE C, RUBINO F, MESSER L F, et al. Correction: a phylogenomic and ecological analysis of the globally abundant Marine Group II Archaea (Ca. Poseidoniales ord. nov.)[J]. The ISME Journal, 2020, 14(3): 878.
[14] BOLGER A M, LOHSE M, USADEL B. Trimmomatic: a flexible trimmer for Illumina sequence data[J]. Bioinformatics, 2014, 30(15): 2114-2120.
[15] LI D H, LIU C M, LUO R B, et al. MEGAHIT: an ultra-fast single-node solution for large and complex metagenomics assembly via succinct de Bruijn graph[J]. Bioinformatics, 2015, 31(10): 1674-1676.
[16] ALTSCHUL S F, MADDEN T L, SCH?FFER A A, et al. Gapped BLAST and PSI-BLAST: a new generation of protein database search programs[J]. Nucleic Acids Research, 1997, 25(17): 3389-3402.
[17] HUERTA-CEPAS J, FORSLUND K, COELHO L P, et al. Fast Genome-Wide Functional Annotation through Orthology Assignment by eggNOG-Mapper [J]. Mol Biol Evol, 2017, 34(8): 2115-2122.
[18] HUERTA-CEPAS J, SZKLARCZYK D, HELLER D, et al. eggNOG 5.0: a hierarchical, functionally and phylogenetically annotated orthology resource based on 5090 organisms and 2502 viruses[J]. Nucleic Acids Research, 2019, 47(D1): D309-D314.
[19] KANG D D, FROULA J, EGAN R, et al. MetaBAT, an efficient tool for accurately reconstructing single genomes from complex microbial communities[J]. PeerJ, 2015, 3: e1165.
[20] WU Y W, SIMMONS B A, SINGER S W. MaxBin 2.0: an automated binning algorithm to recover genomes from multiple metagenomic datasets[J]. Bioinformatics, 2016, 32(4): 605-607.
[21] ALNEBERG J, BJARNASON B S, DE BRUIJN I, et al. CONCOCT: clustering cONtigs on COverage and ComposiTion[EB/OL].[2020-03-27].https://arxiv.org/abs/
1312.4038.
[22] SIEBER C M K, J. P A, ALLISON S, et al. Recovery of genomes from metagenomes via a dereplication, aggregation and scoring strategy [J]. Nature Microbiology, 2018, 3(7): 836-843.
[23] PARKS D H, IMELFORT M, SKENNERTON C T, et al. CheckM: assessing the quality of microbial genomes recovered from isolates, single cells, and metagenomes[J]. Genome Research, 2015, 25(7): 1043-1055.
[24] HYATT D, CHEN G L, LOCASCIO P F, et al. Prodigal: prokaryotic gene recognition and translation initiation site identification[J]. BMC Bioinformatics, 2010, 11(1): 1-11.
[25] ZDOBNOV E M, APWEILER R. InterProScan - an integration platform for the signature-recognition methods in InterPro[J]. Bioinformatics, 2001, 17(9): 847-848.
[26] CANTAREL B L, COUTINHO P M, RANCUREL C, et al. The Carbohydrate-Active EnZymes database (CAZy): an expert resource for Glycogenomics[J]. Nucleic Acids Research, 2009, 37(suppl_1): D233-D238.
[27] CHAUMEIL P A, MUSSIG A J, HUGENHOLTZ P, et al. GTDB-Tk: a toolkit to classify genomes with the Genome Taxonomy Database[J]. Bioinformatics, 2020, 36(6): 1925-1927.
[28] KATOH K, KUMA K I, TOH H, et al. MAFFT version 5: improvement in accuracy of multiple sequence alignment[J]. Nucleic Acids Research, 2005, 33(2): 511-518.
[29] CRISCUOLO A, GRIBALDO S. BMGE (Block Mapping and Gathering with Entropy): a new software for selection of phylogenetic informative regions from multiple sequence alignments[J]. BMC Evolutionary Biology, 2010, 10(1): 1-21.
[30] NGUYEN L T, SCHMIDT H A, VON HAESELER A, et al. IQ-TREE: a fast and effective stochastic algorithm for estimating maximum-likelihood phylogenies[J]. Molecular Biology and Evolution, 2015, 32(1): 268-274.
[31] LEE I, KIM Y O, PARK S, et al. OrthoANI: an improved algorithm and software for calculating average nucleotide identity[J]. International Journal of Systematic and Evolutionary Microbiology, 2016, 66(2): 1100-1103.
[32] BRAY N L, PIMENTEL H, MELSTED P, et al. Near-optimal probabilistic RNA-seq quantification[J]. Nature Biotechnology, 2016, 34(5): 525-527.
[33] 賴登訓(xùn), 謝偉, 范陸, 等. MGⅡ古菌在中國(guó)近海和河口的空間分布特征[J]. 中國(guó)科學(xué)基金, 2018, 32(5): 459-470.
[34] ORSI W D, SMITH J M, WILCOX H M, et al. Ecophysiology of uncultivated marine euryarchaea is linked to particulate organic matter[J]. The ISME Journal, 2015, 9(8): 1747-1763.
[35] DESCHAMPS P, ZIVANOVIC Y, MOREIRA D, et al. Pangenome evidence for extensive interdomain horizontal transfer affecting lineage core and shell genes in uncultured planktonic thaumarchaeota and euryarchaeota[J]. Genome Biology and Evolution, 2014, 6(7): 1549-1563.
[36] RAWLINGS N D, BARRETT A J, THOMAS P D, et al. Thedatabase of proteolytic enzymes, their substrates and inhibitors in 2017 and a comparison with peptidases in the PANTHER database[J]. Nucleic Acids Research, 2018, 46(D1): D624-D632.
[37] PINHASSI J, DELONG E F, BéJà O, et al. Marine bacterial and archaeal ion-pumping rhodopsins: genetic diversity, physiology, and ecology[J]. Microbiology and Molecular Biology Reviews, 2016, 80(4): 929-954.
[38] WANG Z H, SUN Y Q. Progress in Study on Clp Protease [J]. Pharmaceutical Biotechnology, 2005, 12(6): 412
[39] BEN-BASSAT A, BAUER K, CHANG S Y, et al. Processing of the initiation methionine from proteins: properties of themethionine aminopeptidase and its gene structure [J]. Journal of Bacteriology, 169(2): 751-757.
Analyses of Marine Group II Genomes from Surface Waters in Zhanjiang Bay
ZHANG Jia-wei1, DONG Hong-po2, MAO Tie-qiang1, OU Ya-fei2
(1.,524088,; 2.,,200062,)
To analyze the Marine Group II genomes from surface waters in Zhanjiang Bay.Research on the evolution and physiological metabolism of MGII archaea in Zhanjiang Bay and other sea areas through metagenomic and comparative genome analysis.The results showed that the two MGII archaea belonged to MGIIa lineage. Multiple genes that encode carbohydrate degradation enzymes and peptidases and genes that are involved in pentose phosphate pathway, tricarboxylic acid cycle, and β oxidation; Also, the two MGII genomes contained genes for rhodopsin and flagella; some peculiar peptidases and glycosyl hydrolases were detected from the MGII genomes of the Zhanjiang Bay.The archaea are photoheterotrophic microorganisms, which use carbohydrates and peptides in water as carbon and energy sources, and have undergone microevolution to adapt to the tropical bay environment.
Marine group II; metagenome; physiological and metabolic characteristics; Zhanjiang Bay
X172; Q938.1
A
1673-9159(2020)06-0016-11
10.3969/j.issn.1673-9159.2020.06.003
張家偉,董宏坡,毛鐵墻,等. 湛江灣表層水體海洋類群II古菌的基因組分析[J]. 廣東海洋大學(xué)學(xué)報(bào),2020,40(6):16-26.
2020-03-07
國(guó)家自然科學(xué)基金(41971125);廣東省自然科學(xué)基金(2018A030313164)
張家偉(1994-),男,碩士研究生,研究方向?yàn)楹Q笪⑸锷鷳B(tài)和代謝功能。Email:1065422281@qq.com
董宏坡(1977-),男,博士,研究員,研究方向?yàn)楹Q笪⑸锷鷳B(tài)和代謝功能。Email:hpdong@sklec.ecnu.edu.cn
(責(zé)任編輯:劉嶺)