微生物組生物合成基因簇發(fā)掘方法及應(yīng)用前景

2023-07-10 02:39:58賴奇龍姚帥查毓國白虹寧康

合成生物學(xué) 2023年3期

賴奇龍，姚帥，查毓國，白虹，寧康

（華中科技大學(xué)生命科學(xué)與技術(shù)學(xué)院，分子生物物理教育部重點實驗室，生物信息與分子成像湖北省重點實驗室，人工智能生物學(xué)研究中心，生物信息與系統(tǒng)生物學(xué)系，湖北武漢 430074）

1 生物合成基因簇：序列與功能

天然產(chǎn)物（natural product， NP）是指生物體內(nèi)的組成成分或其代謝產(chǎn)物，具有廣泛的應(yīng)用價值［1］，其中源自微生物的次級代謝產(chǎn)物，在生物醫(yī)學(xué)、工業(yè)和農(nóng)業(yè)應(yīng)用中具有重要意義［2］。然而，由于大量環(huán)境微生物無法培養(yǎng)［3］，因此挖掘生物合成基因簇（biosynthetic gene cluster， BGC）以檢驗并生產(chǎn)新型NP當前仍十分困難［4］。在過去的數(shù)十年里，隨著高通量測序技術(shù)和生物大數(shù)據(jù)處理工具的快速發(fā)展，直接從宏基因組（metagenome）中探索BGC的策略已經(jīng)越來越成熟［5］，這極大地加快了從不可培養(yǎng)微生物（包括極端微生物和稀有微生物等）中發(fā)掘新型BGC的進度［6］。

生物合成基因簇是一類非常重要的基因集合（gene set）類型。一個BGC通常包含數(shù)個到上百個功能基因，共同產(chǎn)生一個或者若干個小分子代謝物［7］。例如，合成青霉素的一系列基因，就共同組成了一個BGC［8］。從現(xiàn)有實驗驗證過的BGC來看，BGC在序列上和功能上均有鮮明的特征：

從序列上來說，一般情況下，一個BGC所囊括的基因，即參與代謝途徑中生物合成酶的基因在染色體上成簇排列［9］。例如，青霉素的合成由三個基因控制，分別是pcbAB、pcbC和penDE，這三個基因位于同一條染色體上［10］［圖1（a）］。

圖1 BGC在序列和功能上的特征示意圖（以青霉素的生物合成為例）Fig.1 Schematic diagram for sequences and functions of BGC (with penicillin biosynthesis as an example)

從功能上來說，一個BGC所囊括的基因，通常共同產(chǎn)生一個或者若干個小分子化合物［11］［圖1（b）］。次生代謝產(chǎn)物（secondary metabolites，SM）是BGC合成的主要產(chǎn)物［12］，大部分具有生物活性，通常是低分子量的化合物，在生長和發(fā)育的特定階段產(chǎn)生，這類分子最知名的臨床應(yīng)用包括抗生素（如青霉素）、免疫抑制劑（如環(huán)孢菌素）等［13］。又例如，翻譯后修飾核糖體多肽（ribosomally synthesized posttranslationally modified peptide， RiPP），是由核糖體合成，經(jīng)由翻譯后修飾得到的一大類天然產(chǎn)物，具有廣泛的結(jié)構(gòu)和生物活性多樣性［14］。由于其化學(xué)結(jié)構(gòu)比其他天然產(chǎn)物更具基因組學(xué)數(shù)據(jù)上的可預(yù)測性，因此可以通過識別編碼RiPP的BGC，在宏基因組中發(fā)現(xiàn)新型的RiPP［15］。

現(xiàn)有數(shù)據(jù)庫中的BGC通常是通過濕實驗確定的。例如，MIBiG數(shù)據(jù)庫［16］詳細記錄了來自于上千個微生物物種的上千個經(jīng)實驗驗證的非冗余BGC。實驗驗證的工作流程包括新型天然產(chǎn)物的發(fā)現(xiàn)和生物合成，這種手段極大地促進了豐富但尚未開發(fā)微生物BGC的挖掘［17］。在來自世界各地科學(xué)家的共同貢獻下，MIBiG數(shù)據(jù)庫于近期又有更新，包括2019年新增的851個條目［18］，以及2022年對現(xiàn)有條目的重新注釋與661個新條目的大規(guī)模驗證［19］，目前該數(shù)據(jù)庫收錄了2502條已驗證的BGC信息。

然而，基于濕實驗確定BGC非常復(fù)雜且費時，因此一些BGC數(shù)據(jù)庫和計算機比對方法應(yīng)運而生，如基于局部比對算法的搜索工具（basic local alignment search tool， BLAST）［20］與隱馬爾可夫模型（hidden Markov model， HMM）［21］。通過數(shù)據(jù)庫的搜索，能夠較為便捷地在基因組中發(fā)掘跟已知BGC同源的BGC。例如，antiSMASH數(shù)據(jù)庫［22］（https：//antismash.secondarymetabolites.org/）中包含了所有NCBIGenBank數(shù)據(jù)庫上公布（截止至2022年11月17日）的可用細菌基因組信息（25 802生物物種的82 855條信息）。antiSMASH數(shù)據(jù)庫為研究者提供了一個使用方便、注釋了生物合成基因簇的最新集合，以及配套的進行生物合成基因簇搜索分析的方法。然而，針對已知BGC的遠源BGC，當前基于數(shù)據(jù)庫的同源搜索尚不能完全勝任。近年來，基于機器學(xué)習和深度學(xué)習的方法以預(yù)測核糖體合成和翻譯后修飾肽（RiPP）為重點的方法迅猛增加［23］。下文將通過詳細的實例闡明機器學(xué)習方法的特點以及其在BGC挖掘中的應(yīng)用，如metaBGC［24］和DeepBGC［25］等。

2 基于微生物組的生物合成基因簇挖掘與轉(zhuǎn)化研究

許多微生物的次級代謝產(chǎn)物具有抗真菌、抗細菌、抗腫瘤等生物活性，是微生物藥物開發(fā)和新藥創(chuàng)制的重要來源［26］。目前，放線菌和黏細菌等是細菌次級代謝調(diào)控和天然產(chǎn)物發(fā)掘的重要研究對象［27］。但是，目前對于細菌能合成多少種次級代謝產(chǎn)物、不同類群的細菌在合成次級代謝產(chǎn)物能力方面的差異以及次級代謝產(chǎn)物生物合成基因簇（以下簡稱次級代謝基因簇）如何進化等問題，尚存在很多未知規(guī)律和模式，仍有待研究［28］。

當前，由于BGC轉(zhuǎn)化應(yīng)用具有廣泛的應(yīng)用價值，重要的BGC通常通過干濕實驗共同確定［29］。例如，2022年武漢大學(xué)藥學(xué)院劉天罡課題組［30］開發(fā)了“基因簇功能元件理性可控重組”策略，實現(xiàn)了萜類沉默基因簇的批量挖掘及高效合成。這一工作展示了以“基因簇功能元件理性可控重組”策略為指導(dǎo)，從微生物基因組數(shù)據(jù)出發(fā)，進行新化合物挖掘、篩選并實現(xiàn)目標產(chǎn)物高效合成的巨大優(yōu)勢。該項工作詳細介紹了從基因組挖掘到萜類化合物生物合成與鑒定的全套流程，為利用人工智能方法（antiSMASH）加速發(fā)現(xiàn)微生物組中新型天然產(chǎn)物提供了良好的示范。

目前，有相當多的基于微生物組BGC挖掘和轉(zhuǎn)化的研究項目已經(jīng)或正在開展［24，31-44］。例如，針對海洋微生物群落進行挖掘，發(fā)現(xiàn)了一類全新的海洋細菌（Candidatuseudoremicrobiaceae），并預(yù)測了近4萬種潛在的生物合成基因簇［32］。又比如，針對腸道微生物群落的挖掘，發(fā)現(xiàn)了腸道菌群能產(chǎn)生大量不同結(jié)構(gòu)和生物活性的次生代謝產(chǎn)物，與腸道菌分泌的抑菌肽小菌素類似，這些次生代謝產(chǎn)物在藥物研發(fā)與臨床上有很廣泛的應(yīng)用前景［41］。再比如，針對土壤微生物群落進行挖掘，通過對生長在抑病土壤中的甜菜幼苗根進行宏基因組測序分析，區(qū)分出哪些BGC在感染過程中表達增加，并通過位點定向誘變分析檢驗其重要程度，發(fā)現(xiàn)抑病土壤中的植物益生菌通過增強真菌細胞壁降解相關(guān)酶的活性，為植物提供額外保護［38］。此外，針對特定的微生物，BGC挖掘結(jié)果揭示了放線菌基因組具有巨大的天然產(chǎn)物合成潛力［36］，其生產(chǎn)的抗生素在臨床中應(yīng)用前景光明。

3 BGC的分析和比對

BGC的分析和比對，主要是建立在BGC數(shù)據(jù)庫基礎(chǔ)之上。大多數(shù)BGC數(shù)據(jù)庫提供網(wǎng)頁端入口，提交目標序列之后，服務(wù)器會根據(jù)同源性比對或隱馬爾可夫預(yù)測等方法展示出最為相似的現(xiàn)有數(shù)據(jù)，通過解讀結(jié)果的注釋信息即可輔助BGC的分析與預(yù)測（圖2）。

圖2 BGC挖掘的整體過程（該過程包括：宏基因組數(shù)據(jù)的整合，基因和潛在BGC的預(yù)測，內(nèi)源表達或異源表達、天然產(chǎn)物的鑒定等。本圖中選用的案例是諾糖環(huán)肽A2，是從地衣Nostoc屬ATCC53789中提取分離的天然產(chǎn)物，可作為20S蛋白酶體的抑制劑，具有抗癌活性［45］）Fig.2 Overall process for BGC mining(This process includes the integration of metagenomic data, prediction of genes and potential BGC, endogenous or heterologous expression,identification of natural products, etc.The case chosen in this figure is Nostocyclopeptide A2, which is extracted from Nostoc sp.ATCC53789 isolated from lichen.It can be used as an inhibitor of 20S proteasome and exhibits anticancer activity[45].)

在BGC數(shù)據(jù)資源方面，當前服務(wù)于不同目的的BGC數(shù)據(jù)庫都有較為廣泛和頻繁的訪問和應(yīng)用（表1）。

表1 代表性BGC數(shù)據(jù)庫介紹Table 1 Summary for representative BGC databases

例如，BiG-FAM數(shù)據(jù)庫［47］從公開來源獲取了1 225 071個BGC，并使用BiG-SLiCE［53］軟件將其聚類為29 955個基因簇家族模型。又例如，IMGABC數(shù)據(jù)庫［51］包含了411 412個預(yù)測BGC，其中1332個BGC已得到實驗驗證，14 985個BGC是從高質(zhì)量的宏基因組數(shù)據(jù)中預(yù)測得到（截止到2022年12月）。特定類型的BGC數(shù)據(jù)庫如Bactibase［46］，則覆蓋了由206種革蘭氏陽性菌和19種革蘭氏陰性菌產(chǎn)生的230種抗菌肽或細菌素的BGC信息。

在BGC比對方法方面，主要包括序列比對和特征比對，多數(shù)BGC數(shù)據(jù)庫通常都提供了這兩種方法進行比對（圖3）。

圖3 BGC挖掘的一般分析流程及相關(guān)方法［從宏基因組數(shù)據(jù)中挖掘BGC，主要包括：BGC的挖掘方法（序列比對、特征比對等）和BGC的優(yōu)化方法（數(shù)據(jù)庫搜索、進化分析等）。其中BGC的挖掘方法主要有序列比對和特征比對兩大類：序列比對主要是BLAST等方法，特征比對既包括隱馬爾科夫模型（HMM）比對等傳統(tǒng)方法，也包括基于數(shù)據(jù)模型的深度學(xué)習等方法。其中BGC的優(yōu)化方法主要有數(shù)據(jù)庫搜索、進化分析等：數(shù)據(jù)庫搜索包括BGC序列數(shù)據(jù)庫的搜索，以及BGC相關(guān)小分子質(zhì)譜數(shù)據(jù)庫的搜索，而進化分析的主要目標是分析BGC的演化和變異模式［54］］Fig.3 Overall flow for BGC analysis and mining[It mainly includes: BGC mining methods (sequence alignment, feature characterization, etc.) and BGC optimization methods (database searching,evolutionary analysis, etc.).Among them, the mining methods of BGC mainly include sequence alignment and feature characterization.Sequence alignment mainly uses BLAST and other methods, while feature characterization employs both traditional methods such as hidden Markov model(HMM) alignment and deep learning based on data model.The optimization methods of BGC mainly include database searching, evolutionary analysis, etc.Database searching includes the searching of BGC sequence database and BGC related small molecule mass spectrometry database, and the main purpose of evolutionary analysis is to analyze the evolution and variation patterns of BGC[54].]

例如，antiSMASH數(shù)據(jù)庫［55］中提供基于BLAST的ClusterBlast工具，能將目的基因簇與數(shù)據(jù)庫中的其他基因簇進行序列比對，展示相似性得分最高的多個結(jié)果，輔助判斷BGC的功能與進化上的聯(lián)系。antiSMASH數(shù)據(jù)庫還提供了HMMer3工具［56］，可以由基于群落畫像（community profile）的隱馬爾可夫模型（profile hidden Markov model， pHMM）［57］刻畫特征，與目的序列進行特征比對，檢測目的序列中多個特定蛋白質(zhì)結(jié)構(gòu)域存在的可能性，從而判斷出BGC。

次生代謝產(chǎn)物是BGC合成的主要產(chǎn)物，因此構(gòu)建序列比對和特征比對方法，將次生代謝產(chǎn)物與其對應(yīng)BGC聯(lián)系起來也是計算分析中非常重要的一部分內(nèi)容（圖4）。

圖4 建立BGC和次生代謝產(chǎn)物關(guān)聯(lián)性的分析方法［58］（a）逆生物合成：從已知化合物開始，預(yù)測生產(chǎn)該化合物所需的活性酶（主干酶和裁剪酶），并從這些預(yù)測中找到與基因組中需求匹配的假定簇。本圖中選用的案例為青霉素G［59］。（b）同源搜索：從物種1產(chǎn)生的已知化合物和物種2產(chǎn)生的相同或相似的化合物開始，使用來自物種2的已知基因集群在物種1的基因組中搜索相似的基因集群，從而確定感興趣的基因集群。（c）比較基因組學(xué)：從一組生物開始，其中一些生物產(chǎn)生目標化合物，而另一些生物則不產(chǎn)生，有可能在生產(chǎn)中識別同源基因簇，并在非生產(chǎn)中沒有同源基因的基礎(chǔ)上進行篩選，從而識別候選基因簇Fig.4 Analytical methods for establishing correlation between BGC and the production of secondary metabolites[58](a) Retro-biosynthesis: starting with a known compound but no related gene clusters identified, it is possible for predicting enzyme(s) to catalyze the synthesis of such a compound (backbone and tailoring enzymes), and with these predictions putative gene clusters matching the requirements can be found in the genome.The selected case in this figure is penicillin G[59].(b) Homology searching: starting with a known compound produced by organism 1 and the same or similar compound produced by organism 2 with gene cluster identified, it is possible to use the known gene cluster from organism 2 to search for a similar gene cluster in the genome of organism 1, and thereby identify the gene cluster of interest.(c) Comparative genomics: starting with a group of organisms, some of which produce compounds of interest and some of which do not, it is possible to identify homologous gene clusters in the species that produce them and to screen on the basis of the absence of homologous genes in the species that does not produce them, thereby identifying candidate gene clusters.

當在某個物種中發(fā)現(xiàn)了未知的次生代謝產(chǎn)物時，可以先找到與其結(jié)構(gòu)相似且基因簇已被確定的化合物，再根據(jù)已知的基因簇通過構(gòu)建序列比對或特征比對等同源搜索的方式，確定出產(chǎn)生該未知次生代謝產(chǎn)物的候選基因簇。而從BGC確定其次生代謝產(chǎn)物的驗證過程，則要利用如異源表達、激活沉默基因等基因工程的手段合成一系列次生代謝產(chǎn)物，其驗證方法本文暫不拓展。

4 BGC挖掘的人工智能方法

BGC本質(zhì)上是基因組編碼的遺傳信息集合，主要是通過序列數(shù)據(jù)的分析方法進行分析。因此序列分析的人工智能方法，在很大程度上涵蓋了挖掘BGC的人工智能方法，其中成熟的方法對BGC的人工智能挖掘具有較高的借鑒與參考價值。

4.1 序列分析的人工智能方法

隨著生物大數(shù)據(jù)規(guī)模的不斷提高，針對生物大數(shù)據(jù)分析的人工智能（artificial intelligence，AI）方法層出不窮［60］。目前，AI技術(shù)在生物醫(yī)藥領(lǐng)域應(yīng)用主要包括藥物研發(fā)、醫(yī)學(xué)影像、輔助診療和基因分析四個子領(lǐng)域。其中，國外借助先進的藥品研發(fā)技術(shù)和人工智能技術(shù)起步更早，以AI藥物研發(fā)為主［61］；我國則借助海量大數(shù)據(jù)的優(yōu)勢，以AI醫(yī)學(xué)影像為主［62］。大數(shù)據(jù)可以減少臨床研究中的試錯成本、大大加快臨床實驗的成功，也可以集成患者的信息，生成無數(shù)生物數(shù)據(jù)模型，幫助人類理解生命奧秘，實現(xiàn)疾病的精準判斷與精準治療。人工智能可能用人類無法實現(xiàn)的方式整合或解開復(fù)雜的基因組數(shù)據(jù)或是幫助研究者尋找紛繁復(fù)雜實驗數(shù)據(jù)中的規(guī)律、理解疾病在組學(xué)層面的時空動態(tài)模式，將為新藥研發(fā)、臨床研究、治療模式等各方面帶來翻天覆地的變革［63］。

序列分析的人工智能方法［64］，是人工智能在生物序列分析特定場景下的方法，包括PICS［65］、DeepCell［66］等圖像識別方法，Enformer［67］、DeepLinc［68］等基因表達分析方法，以及AlphaFold2［69］等結(jié)構(gòu)功能預(yù)測方法。基因二代測序技術(shù)產(chǎn)生了大量的測序數(shù)據(jù)，AI在基因大數(shù)據(jù)的分析上亦表現(xiàn)出良好的和不斷擴展的應(yīng)用趨勢（圖5），即在分子層面的基因組學(xué)、轉(zhuǎn)錄組學(xué)、蛋白質(zhì)組學(xué)、代謝組學(xué)等層面，預(yù)測各種變異和調(diào)控規(guī)律；在宏觀層面的細胞和表型組學(xué)層面，通過圖像識別等方法進行各類樣本分類［70］。隨著計算機性能的不斷提升，超級計算機強大的數(shù)據(jù)處理能力可以對TB級的海量基因組數(shù)據(jù)進行處理和挖掘，從而極大地縮短基因檢測的時間，提高基因檢測效率。將人工智能方法應(yīng)用于海量的基因組數(shù)據(jù)，可以帶來傳統(tǒng)醫(yī)療向精準醫(yī)療的范式轉(zhuǎn)變，人工智能方法能使醫(yī)生和研究人員更準確地預(yù)測出預(yù)防與治療方法在哪些人群中更起作用［71］。

圖5 序列數(shù)據(jù)的類型，以及相應(yīng)的人工智能分析方法DNN—深度神經(jīng)網(wǎng)絡(luò)；CNN—卷積神經(jīng)網(wǎng)絡(luò)；NN—神經(jīng)網(wǎng)絡(luò)；TL—遷移學(xué)習；GCN—圖卷及網(wǎng)絡(luò)；HMM—隱馬爾科夫模型Fig.5 Types of sequence data and corresponding AI analysis methods DNN— deep neural network; CNN— convolutional neural network; NN— neural network; TL— transfer learning;GCN— graph convolutional network; HMM— hidden markov model

4.2 BGC挖掘的人工智能方法：經(jīng)典方法和發(fā)展趨勢

伴隨著生物序列人工智能分析方法能力的不斷提高，BGC挖掘的方法也在不斷更新?lián)Q代。其中antiSMASH［22］、ClusterFinder［72］、MetaBGC［24］、DeepBGC［25］是成功應(yīng)用于各領(lǐng)域的經(jīng)典人工智能數(shù)據(jù)挖掘方法（圖6）。

圖6 利用人工智能進行BGC挖掘的現(xiàn)狀和趨勢（從數(shù)據(jù)出發(fā)，通過人工智能方法進行數(shù)據(jù)挖掘和模型構(gòu)建，進而服務(wù)于合成生物學(xué)的轉(zhuǎn)化研究，產(chǎn)生更多的多模態(tài)數(shù)據(jù)，形成良性循環(huán)）Fig.6 Status quo and trend of BGC mining using artificial intelligence(Starting from the data, data mining and model construction are carried out with artificial intelligence methods, thus serving the transformation research of synthetic biology, generating more multimodal data and forming a virtuous cycle.)

（1）antiSMASH工具集［22］antiSMASH在數(shù)據(jù)庫基礎(chǔ)上提供了一系列基于人工智能的計算工具，是目前尋找代謝基因簇最常用的軟件之一。其主體功能主要基于的原理是：參與代謝途徑中生物合成酶的基因在染色體上一般成簇排列，基于指定類型的模型，可以準確鑒定所有已知的次級代謝基因簇。在antiSMASH中，將次級代謝基因簇分為了數(shù)十類，然后通過序列比對等方法進行BGC的同源比對和發(fā)掘［73］。通過分析與目的基因相似的BGC結(jié)果，可以大致解讀出目的基因的功能［74］。除此之外還提供了一些獨立的工具，如由質(zhì)譜引導(dǎo)的肽挖掘工具Pep2Path［75］、抗生素耐藥性靶標搜尋器ARTS［76］和sgRNA設(shè)計工具CRISPy-web［77］等。

（2）ClusterFinder［72］ClusterFinder基于隱馬爾可夫模型（hidden Markov models， HMM），它將BGC的核苷酸序列轉(zhuǎn)換為一串連續(xù)的Pfam結(jié)構(gòu)域，因為僅基于Pfam域頻率，ClusterFinder能更精準地識別新型BGC。且有別于在此之前的算法只能識別少數(shù)BGC類別，ClusterFinder基于手動匯總的732個BGC訓(xùn)練集可以檢測數(shù)種特征明確的基因簇類別，提供基因簇識別問題更通用的解決方案。將該算法應(yīng)用到人類相關(guān)的微生物組中，鑒定出3118個小分子BGC，在臨床試驗中發(fā)現(xiàn)一類硫肽抗生素的BGC，隨后通過實驗確定了硫肽抗生素lactocillin的結(jié)構(gòu)，并證明其對革蘭氏陽性陰道病原體具有一定的抗菌活性［44］。

（3）MetaBGC［24］MetaBGC方法是一種基于“讀段”（reads）的算法，能夠從人類微生物組中發(fā)掘之前從未被報道過的BGC。在不需要分離培養(yǎng)細菌或測序的情況下，該算法允許直接在人類微生物組衍生的宏基因組測序數(shù)據(jù)中識別BGC：通過構(gòu)建基于群落畫像的隱馬爾可夫模型，可在單一的宏基因組讀取水平上識別、定量和聚集微生物組衍生的BGC。研究人員使用MetaBGC的算法在口腔、腸道和皮膚這三個部位的宏基因組樣本發(fā)現(xiàn)了多種新型酶的BGC，即Ⅱ型聚酮化合物合酶BGC，簡稱為TⅡ-PKS BGC［78-79］，并運用合成生物學(xué)策略將兩種BGC進行異源表達，純化與確定了產(chǎn)物的結(jié)構(gòu)，發(fā)現(xiàn)其具有抗菌活性，這一結(jié)果揭示了人類微生物組產(chǎn)生先導(dǎo)化合物的能力。

（4）DeepBGC［25］DeepBGC使用深度學(xué)習來檢測細菌和真菌基因組中的BGC。DeepBGC使用了雙向長期短期記憶遞歸神經(jīng)網(wǎng)絡(luò)［80］和類似word2vec［81］的Pfam蛋白域嵌入，并使用隨機森林分類器［82］預(yù)測產(chǎn)品類別和檢測到的BGC的活性。將DeepBGC應(yīng)用到實際的細菌基因組中，能預(yù)測出具有編碼抗生素活性分子的全新BGC候選物。

發(fā)掘全新的BGC個例和BGC類型是微生物組研究中比較重要的數(shù)據(jù)挖掘目標［83］，然而現(xiàn)有的數(shù)據(jù)挖掘方法難以發(fā)掘新型BGC［84］。基于更大的BGC數(shù)據(jù)集構(gòu)建更加智能的挖掘模型，有可能發(fā)掘新型BGC［53］。在BGC數(shù)據(jù)集方面，BiG-SLiCE方法［53］能將BGC投射到歐幾里得空間，以便使用時間復(fù)雜度為近線性的分區(qū)聚類算法，有助于大型BGC數(shù)據(jù)集的分析。此外，Medema等［85］提出的基于網(wǎng)絡(luò)的計算框架（biosynthetic gene similarity clustering and prospecting engine， BiG-SCAPE）可用于BGC的聚類，以便更好地分析大數(shù)據(jù)集上微生物群落的生物合成潛力。在BGC挖掘模型方面，基于自然語言處理（natural language processing，NLP）技術(shù)的深度學(xué)習方法Genomic-NLP已經(jīng)被成功地用于解碼未知微生物基因的功能［86］。在未來的研究中，開發(fā)基于NLP技術(shù)的人工智能模型有可能發(fā)掘出與現(xiàn)有數(shù)據(jù)庫中已知的BGC不存在任何同源性，然而在代謝產(chǎn)物方面又有一定關(guān)系的新型BGC。

5 新型BGC的挖掘與功能驗證案例

新型BGC的功能驗證，通常是通過培養(yǎng)實驗來完成的［84］。人工智能數(shù)據(jù)挖掘（artificial intelligence data mining）和培養(yǎng)組學(xué)（culturomics）各自都有明顯的優(yōu)缺點，并且它們之間具有極強的互補性［87］（圖7）。高通量測序方法能短時間內(nèi)產(chǎn)生大量數(shù)據(jù)，再由人工智能方法迅速挖掘出有用信息；而來自于測序的數(shù)據(jù)挖掘方法，也需要由培養(yǎng)組學(xué)來補充未知細菌的生長條件等信息［88］。

圖7 人工智能數(shù)據(jù)挖掘和培養(yǎng)組學(xué)的各自優(yōu)缺點和互補性（相關(guān)方法優(yōu)缺點的羅列，是基于互相比較和與傳統(tǒng)分子生物學(xué)方法比較的結(jié)果）Fig.7 Advantages, disadvantages and complementarities of artificial intelligence data mining and culturomics(The list of advantages and disadvantages of the relevant methods is based on the results of comparison with each other and with traditional molecular biological methods as well.)

新型BGC轉(zhuǎn)化的應(yīng)用范圍很廣，在臨床、環(huán)境和生物制造方面均有非常迫切的需求［43］。目前有害生物對抗生素、癌癥化療藥物和殺蟲劑的耐藥性上升，這一現(xiàn)象是現(xiàn)代醫(yī)學(xué)與農(nóng)業(yè)的主要威脅，而微生物次級代謝產(chǎn)物是解決這一問題的主要有效方法之一［89］，即通過發(fā)掘新型BGC合成新型次級代謝產(chǎn)物，從而開發(fā)出新型產(chǎn)品消除或減緩有害生物對人類及農(nóng)作物的危害。

5.1 腸道微生物BGC的挖掘和分析研究

2019年，一項人類腸道微生物宏基因組挖掘工作揭示了未培養(yǎng)的細菌基因組編碼數(shù)百種新的生物合成基因簇，并具有獨特的功能［90］。課題組通過從11 850個人類腸道微生物群中重建92 143個宏基因組組裝基因組（metagenome assembled genome，MAG），鑒定了1952個未培養(yǎng)的候選細菌物種。這些未經(jīng)培養(yǎng)的細菌物種及其基因組大大擴展了人類腸道微生物群的已知物種庫，將目前的系統(tǒng)發(fā)育多樣性增加了281%。這些候選物種編碼數(shù)百個新的生物合成基因簇，并在鐵-硫和離子結(jié)合等代謝方面具有獨特的功能，揭示了未培養(yǎng)腸道細菌的多樣性，為腸道微生物群的分類和功能特征提供了前所未有的解決方案［91］。

5.2 土壤環(huán)境微生物BGC的挖掘和分析研究

2018年，研究人員基于草原土壤的宏基因組數(shù)據(jù)，重建了上千個基因組，其中幾百個近乎完整（near-complete），并鑒定出先前未被研究過的微生物（一類酸桿菌），這些微生物能編碼多種聚酮化合物和非核糖體肽合成的基因組簇［92］。具體而言，研究者鑒定出了兩個來自不同譜系類群的酸桿菌（Acidobacteria）基因組，每個基因組都擁有一個異常龐大的生物合成基因庫，并且含有多達15個大型聚酮化合物和非核糖體肽生物合成基因位點。為了追蹤土壤中聚酮化合物合成酶和非核糖體肽合成酶基因的表達，研究者設(shè)計了一個微觀操作實驗（microcosm manipulation experiment），采集了120個時間點的樣品，使用轉(zhuǎn)錄組學(xué)的手段，發(fā)現(xiàn)基因簇對不同環(huán)境擾動的響應(yīng)情況并不相同。通過對微生物的轉(zhuǎn)錄共表達網(wǎng)絡(luò)分析，發(fā)現(xiàn)生物合成基因的表達與雙組分系統(tǒng)、轉(zhuǎn)錄激活、假定抗微生物劑抗性和鐵調(diào)節(jié)模塊的基因相關(guān)，這一結(jié)果將代謝物生物合成與環(huán)境感知和生態(tài)競爭過程聯(lián)系起來。作者因此判斷，土壤微生物的生物合成潛力以前被大大低估了，而這些微生物代表了一種天然產(chǎn)物來源，能夠進行轉(zhuǎn)化研究以滿足人們對新型抗生素和其他先導(dǎo)化合物的需求。據(jù)文獻報道，上述聚酮化合物和非核糖體肽生物合成基因簇來自于Acidobacteria、Verrucomicobia和Gemmatimonadetes以及候選門Rokubacteria的微生物。這些微生物類群在土壤中非常豐富，但過往研究并沒有把次生代謝產(chǎn)物與基因組信息聯(lián)系起來［93-95］。

5.3 水體環(huán)境微生物BGC的挖掘和實驗驗證

2022年，瑞士蘇黎世聯(lián)邦理工學(xué)院的研究團隊借助基因組學(xué)技術(shù)和大數(shù)據(jù)挖掘方法，發(fā)現(xiàn)了多種海洋細菌生物合成基因簇，相關(guān)成果在Nature發(fā)表［32］。研究團隊首先獲取了全球215個采樣點不同深度層共1038個海水樣本的基因測序數(shù)據(jù)，構(gòu)建了26 293種海洋微生物基因組，其中2790種來自新發(fā)現(xiàn)的細菌。結(jié)合已公布的基因組數(shù)據(jù)，研究人員創(chuàng)建了海洋微生物組學(xué)數(shù)據(jù)庫（ocean microbiomics database， OMD），發(fā)現(xiàn)了39 055個生物合成基因簇，參與約6873種化合物的生物合成過程。進一步實驗驗證兩類與任何已知BGC不相似的RiPP生物合成簇能產(chǎn)生新的代謝物，表明了部分基因簇在亞磷酸鹽等化合物的生物合成中起著關(guān)鍵作用。該研究通過基因組學(xué)方法發(fā)現(xiàn)了新型海洋細菌和生物合成基因簇，并對部分BGC進行了實驗驗證，其研究成果對海洋生態(tài)、生物進化和天然產(chǎn)物等領(lǐng)域的研究具有重要意義［96］。

5.4 重要天然產(chǎn)物的發(fā)掘和再利用

硒（Se）是一種天然的非金屬元素，主要存在于硒蛋白和硒酸生物聚合物中。由于硒具有營養(yǎng)學(xué)和毒理學(xué)的雙重作用，因此在醫(yī)學(xué)和生物學(xué)領(lǐng)域廣受關(guān)注［97］。2022年，發(fā)表在Nature上的一項新研究確定了第一條將硒引入微生物的小分子生物合成途徑［98］。首先，由于SelD基因編碼了細胞內(nèi)所有已知硒代謝過程的第一步，因此科研人員利用無假設(shè)的方式從美國國家生物技術(shù)信息中心（National Center for Biotechnology Information，NCBI）數(shù)據(jù)庫中搜索了SelD的遺傳背景，具體而言即通過量化了一個或多個堿基對與selD開放閱讀框重疊的基因豐度，識別與其共定位的基因。結(jié)果表明，前5個selD的重疊基因包括SelA、SelU、yedF和duf3343，后兩個基因被認為在硒的還原和/或轉(zhuǎn)運中發(fā)揮尚未確定的作用。其次，對SelD-tigr04348遺傳背景的深入研究揭示了第三種常見的共定位基因egtB的同源物，其編碼麥角硫因生物合成中C—S鍵形成酶［99］。之后，科研人員通過代謝組學(xué)和生化方法表征上述生物合成途徑，發(fā)現(xiàn)含有SelD-egtB-tigr04348基因簇的放線菌Amycolatopsis palatopharyngis和爭論貪噬菌Variovorax paradoxus可以產(chǎn)生麥角硫因及其硒酮類似物。進一步分析揭示硒酮實際上是新基因簇的產(chǎn)物。該團隊將其命名為“Sen”，SenA、SenB和SenC分別編碼egtB同源物、一個假定的糖基轉(zhuǎn)移酶和一個SelD同源物。這些發(fā)現(xiàn)證明SenB是一類新的硒糖合酶，繼SelA和SelU之后成為迄今為止第三種C—Se鍵形成酶。這標志著硒元素首次在天然產(chǎn)物中被發(fā)現(xiàn)，并為硒生物學(xué)研究開辟了更廣闊的前景。

5.5 天然藥物資源的發(fā)掘和再利用

2022年，Nature Catalysis發(fā)表了絲狀真菌來源萜類生物合成基因簇的高效挖掘研究工作［30］。該研究基于antiSMASH開發(fā)了“基因簇功能元件理性可控重組”策略，實現(xiàn)了萜類沉默基因簇的批量挖掘及高效合成，有效解決了困擾該研究領(lǐng)域的“三低”（研究通量低、產(chǎn)物集中度低、產(chǎn)量低）研究瓶頸［100］，顯著提高了活性新產(chǎn)物的合成效率。該研究借助自動化平臺實現(xiàn)了絲狀真菌來源萜類基因簇及其產(chǎn)物的高通量挖掘，并開發(fā)了真菌高效萜類前體供給底盤，實現(xiàn)了產(chǎn)物的高效合成。在絲狀真菌米曲霉（Aspergillus oryzae）底盤中，通過模塊化組合重構(gòu)了5種真菌來源的39個Ⅰ型萜類生物合成基因簇，隨后借助抗炎活性高通量篩選模型快速鎖定高活性產(chǎn)物及其對應(yīng)的突變株，緊接著回溯突變株對應(yīng)的基因簇，解析了具有顯著抗炎活性的二倍半萜化合物mangicol類（酯萜多元醇）［101］的生物合成機理。

以上應(yīng)用案例表明：針對微生物組的BGC挖掘和解讀，能夠極大地提高天然產(chǎn)物的發(fā)掘效率，促進生物工程與合成生物學(xué)的發(fā)展，并在多領(lǐng)域取得明顯的成效。

6 結(jié)論和展望

本文通過對BGC相關(guān)微生物組大數(shù)據(jù)以及相關(guān)數(shù)據(jù)挖掘方法的介紹，配合詳實的案例，描繪了BGC挖掘和轉(zhuǎn)化研究方面的全景圖。首先，較全面地回顧了BGC挖掘的意義和瓶頸問題，指出當前實驗驗證的BGC數(shù)據(jù)不夠全面，而基于序列比對的BGC挖掘難以發(fā)現(xiàn)新類型的BGC資源。其次，系統(tǒng)性地總結(jié)了當前BGC發(fā)掘中的數(shù)據(jù)資源和挖掘方法，尤其是人工智能方法，指出了其巨大的潛力。同時，通過回顧當前培養(yǎng)組學(xué)和合成生物學(xué)方面的技術(shù)進展，指出了干濕結(jié)合方法對于驗證新發(fā)掘的BGC的重要價值。最后，通過展示到表型的新發(fā)掘BGC案例，指出BGC挖掘被應(yīng)用于不同的研究領(lǐng)域，且取得了較好的研究成果。

6.1 BGC挖掘的研究是合成生物學(xué)與人工智能交叉研究方向上非常重要的一環(huán)

BGC挖掘的研究，是合成生物學(xué)與人工智能交叉研究方向上非常重要的一個環(huán)節(jié)，其重要性體現(xiàn)在方法上代表著人工智能生物數(shù)據(jù)挖掘的趨勢，在轉(zhuǎn)化應(yīng)用上也具有非常高的價值。

首先，BGC挖掘的研究，是合成生物學(xué)中重要的一個部分。合成生物學(xué)（synthetic biology）是一門匯集生物學(xué)、基因組學(xué)、工程學(xué)和信息學(xué)等多種學(xué)科的交叉學(xué)科，其實現(xiàn)的技術(shù)路徑是運用系統(tǒng)生物學(xué)和工程學(xué)原理，以基因組和生化分子合成為基礎(chǔ)，綜合生物化學(xué)、生物物理和生物信息等技術(shù)，旨在設(shè)計、改造、重建生物分子、生物元件和生物分化過程，以構(gòu)建具有生命活性的生物系統(tǒng)［102］。將新型BGC作為原件，對已有的底盤生物進行理性設(shè)計，是合成生物學(xué)的典型應(yīng)用場景［103］，而利用生物信息學(xué)分析和計算工具，能挖掘大量未知的BGC，再將這些BGC通過上述合成生物學(xué)手段進行驗證，即完成BGC的挖掘研究，這一流程將極大地加快天然產(chǎn)物的開發(fā)與利用。

其次，BGC挖掘的研究，在方法上代表著較為高級的生物大數(shù)據(jù)挖掘趨勢［84］：BGC在序列和功能上的特征決定了針對其挖掘的人工智能手段必須比傳統(tǒng)的單個基因挖掘方法要復(fù)雜，這種需要上下文感知的人工智能挖掘手段，是生物大數(shù)據(jù)挖掘趨勢［86］。人工智能與合成生物學(xué)的結(jié)合，可以實現(xiàn)更為智能化、數(shù)字化、工程化的合理設(shè)計和優(yōu)化，這也是BGC挖掘研究的重點和難點［84］。另外需要指出的是：人工智能與合成生物學(xué)的結(jié)合，干濕實驗的結(jié)合，都指向更為高通量的“發(fā)掘-驗證”流程，而高通量的“發(fā)掘-驗證”流程，能夠更為快速地發(fā)掘潛在新類型的BGC并加以驗證，具有明顯的工程屬性，同時也能夠極大地提高BGC發(fā)掘、驗證和轉(zhuǎn)化的效率。

最后，BGC挖掘的研究，在轉(zhuǎn)化應(yīng)用上具有非常高的價值［9］：通過人工智能挖掘的元件和模塊，可以直接結(jié)合合成生物學(xué)的研究進行驗證［104］，并快速進行轉(zhuǎn)化應(yīng)用，尤其是在精準醫(yī)學(xué)等轉(zhuǎn)化領(lǐng)域日益精進的今天，通過有效開展BGC及其相關(guān)化合物的轉(zhuǎn)化研究，快速有效地實現(xiàn)從實驗室到臨床（from bench to bedside）的轉(zhuǎn)化，具有非常高的經(jīng)濟價值和社會價值［105］。

6.2 BGC挖掘的研究需要重視干濕實驗等方面全方位結(jié)合

此外，BGC挖掘研究的成功，十分依賴于BGC數(shù)據(jù)庫和相關(guān)基因?qū)嶓w庫相結(jié)合，依賴于人工智能挖掘和培養(yǎng)實驗驗證相結(jié)合。只有在干濕實驗等方面全方位結(jié)合，才能更有效地實現(xiàn)BGC挖掘、驗證以及轉(zhuǎn)化等方面的研究。

BGC數(shù)據(jù)庫和相關(guān)基因?qū)嶓w庫相結(jié)合，能夠更好地推動BGC挖掘研究和轉(zhuǎn)化應(yīng)用的開展［6］，是保證BGC挖掘研究和轉(zhuǎn)化應(yīng)用順利開展的基本材料和數(shù)據(jù)條件［106］。基于數(shù)據(jù)庫的不斷更新，配合相關(guān)序列和結(jié)構(gòu)等規(guī)律的發(fā)掘，為更全面的BGC發(fā)掘打下了數(shù)據(jù)基礎(chǔ)。同時實體庫能較為便捷地進行BGC驗證實驗，也為發(fā)掘新型BGC提供了保障。因此，作為數(shù)據(jù)基礎(chǔ)的數(shù)據(jù)庫和實體庫相結(jié)合，能夠更好地推動BGC挖掘研究和轉(zhuǎn)化應(yīng)用的開展。

人工智能挖掘和培養(yǎng)實驗驗證相結(jié)合，是保證BGC挖掘研究和轉(zhuǎn)化應(yīng)用順利開展的基本技術(shù)條件［25］。傳統(tǒng)的基于序列比對的BGC挖掘難以發(fā)現(xiàn)新類型的BGC資源，而利用人工智能技術(shù)，基于已有的BGC及其同源序列集合進行大數(shù)據(jù)建模，將有望批量發(fā)掘新型BGC。另一方面，培養(yǎng)組學(xué)等實驗技術(shù)，將能夠快速有效地驗證新發(fā)掘BGC的有效性。因此，人工智能挖掘和培養(yǎng)實驗驗證技術(shù)作為關(guān)鍵引擎，是保證BGC挖掘研究和轉(zhuǎn)化應(yīng)用順利開展的基本技術(shù)條件。

由上述討論可知，BGC在系統(tǒng)生物學(xué)與合成生物學(xué)中具有核心地位（圖8）：不但在數(shù)據(jù)上打通了數(shù)據(jù)庫和實體庫，而且在技術(shù)上打通了人工智能挖掘和培養(yǎng)實驗驗證。因此BGC的研究能夠緊密連接系統(tǒng)生物學(xué)與合成生物學(xué)，實現(xiàn)從數(shù)據(jù)到模型，從驗證到應(yīng)用的無縫轉(zhuǎn)化。

圖8 BGC在系統(tǒng)生物學(xué)與合成生物學(xué)中的核心地位（生物合成基因簇的智能發(fā)掘與驗證轉(zhuǎn)化的研究，不但在數(shù)據(jù)上打通了數(shù)據(jù)庫和實體庫，而且在技術(shù)上打通了人工智能挖掘和培養(yǎng)實驗驗證。生物合成基因簇的智能發(fā)掘與驗證轉(zhuǎn)化的研究，能夠緊密連接系統(tǒng)生物學(xué)與合成生物學(xué)，實現(xiàn)從數(shù)據(jù)到模型、從驗證到應(yīng)用的無縫轉(zhuǎn)化）Fig.8 BGC’s central role in systems biology and synthetic biology(Research on intelligent mining and verification transformation of biosynthetic gene clusters not only connects BGC database with entity database,but also connects artificial intelligence mining and culture experiment verification.Research on intelligent discovery and transformation verification for biosynthetic gene clusters can closely link systems biology and synthetic biology, and realize seamless transformation from data to model and from verification to application.)

系統(tǒng)生物學(xué)和合成生物學(xué)協(xié)同發(fā)展的趨勢，尤其是作為在系統(tǒng)生物學(xué)與合成生物學(xué)中具有核心地位之一的BGC挖掘與轉(zhuǎn)化研究快速發(fā)展的趨勢，會更為突出地顯示出來。而多組學(xué)技術(shù)和人工智能分析方法，將會極大地助力這一方向的快速進步。我們樂觀地展望，在BGC被充分挖掘和認識之后，系統(tǒng)生物學(xué)與合成生物學(xué)的結(jié)合將會深刻地改變世界：從科學(xué)探索方面來說，新發(fā)掘的BGC能夠快速地被研究并轉(zhuǎn)化于實際應(yīng)用，高效實現(xiàn)各類小分子化合物從“實驗到臨床”（from bench to bedside）；從健康和環(huán)境領(lǐng)域等方面來說，從需求端倒推BGC資源的特征，能夠快速地實現(xiàn)轉(zhuǎn)化研究領(lǐng)域中需要的特定功能小分子合成系統(tǒng)的“即插即用”（plug-and-play）。從而在技術(shù)上較為高效、準確、完整、安全地實現(xiàn)針對BGC合成生物系統(tǒng)從理解到創(chuàng)造（from understanding to creation）的過程。