曾濤,巫瑞波
(中山大學(xué)藥學(xué)院,廣東 廣州 510006)
酶是自然界中的能工巧匠,其以高效、精準(zhǔn)的手段催化生物體內(nèi)大量化學(xué)反應(yīng)[1]。酶催化的應(yīng)用具有悠久的歷史,最早可以追溯到古人的釀酒技術(shù)[2]。隨著科學(xué)的進(jìn)步,我們對酶催化的過程有了更深入的理解,同時在“碳中和”的大背景下,酶催化也因其高效環(huán)保、條件溫和以及高立體選擇性等優(yōu)點(diǎn)被廣泛應(yīng)用于醫(yī)藥、化工等各領(lǐng)域[3-5]。此外,基于生物底盤的異源生物合成也非常依賴于由一系列酶催化反應(yīng)組成的生物合成路線的優(yōu)化與設(shè)計[6]。因此,酶被視為生物制造領(lǐng)域的核心“芯片”,而酶反應(yīng)的機(jī)制解析與優(yōu)化設(shè)計是“芯片”升級換代的重要驅(qū)動力。
在酶反應(yīng)機(jī)制解析方面,雖然當(dāng)前通過實驗和計算(如多尺度模擬方法[7]等)結(jié)合來解析酶的三維結(jié)構(gòu)、功能及其催化反應(yīng)機(jī)制越來越流行[8-10],但因為直接驗證反應(yīng)機(jī)理的實驗手段有限,而QM/MM等多尺度模擬的計算代價仍然較為昂貴,當(dāng)前人們所探索的酶促過程只是酶反應(yīng)空間中的冰山一角。而隨著測序技術(shù)的發(fā)展,有大量酶序列的功能有待闡明[11],現(xiàn)有天然產(chǎn)物數(shù)據(jù)庫也是日益豐富,但其中大量結(jié)構(gòu)的生物合成反應(yīng)路線仍有待解析[12],這些都嚴(yán)重制約了新酶的發(fā)現(xiàn)與天然產(chǎn)物的生物制造。在酶反應(yīng)優(yōu)化設(shè)計方面,盡管AlphaFold2[13]等蛋白結(jié)構(gòu)預(yù)測工具為從一維序列到三維蛋白結(jié)構(gòu)的理論預(yù)測提供了利器,但是基于序列的酶功能預(yù)測以及以功能為導(dǎo)向的蛋白序列設(shè)計相關(guān)算法進(jìn)展則相對更滯后[14-15]。此外,在工業(yè)酶領(lǐng)域,如何拓寬酶的底物譜、改善酶反應(yīng)選擇性、提升酶催化效率或穩(wěn)定性是重要的研究方向[16],但目前這些研究在很大程度上仍然依賴于研究人員的知識和經(jīng)驗。而當(dāng)前廣泛采用的多輪次“設(shè)計-構(gòu)建-測試-學(xué)習(xí)(DBTL)”循環(huán)策略,往往要消耗大量的時間和資源。
隨著大數(shù)據(jù)時代的到來,利用計算機(jī)從已知的各類數(shù)據(jù)中挖掘背后隱藏的序列與酶反應(yīng)相關(guān)性成為可能。例如,合成路線與酶功能的計算預(yù)測[17-18]可助力于生物合成途徑的設(shè)計與優(yōu)化,而基于代謝組和基因組數(shù)據(jù)的代謝網(wǎng)絡(luò)模型[19]以及全細(xì)胞模型[20]則可以對物種或細(xì)胞的代謝生長過程進(jìn)行模擬,進(jìn)而對上述設(shè)計路線進(jìn)行計算測試??傊?,近年來這些數(shù)據(jù)驅(qū)動的模型正在逐漸深入?yún)⑴c到傳統(tǒng)DBTL的各個環(huán)節(jié)中,從而加速DBTL循環(huán)而縮短時間周期,抑或代替實驗環(huán)節(jié)來縮減實驗成本[21-22]。
基于上述現(xiàn)狀,本文首先整理了常用的酶反應(yīng)數(shù)據(jù)庫,然后以反應(yīng)底物、產(chǎn)物和酶為三個抓手對近年來酶反應(yīng)預(yù)測和設(shè)計的計算工具進(jìn)行了梳理,最后對數(shù)據(jù)驅(qū)動的酶反應(yīng)預(yù)測與設(shè)計研究進(jìn)行了展望。
在數(shù)字信息的時代,數(shù)據(jù)就是生產(chǎn)力,因此生物信息研究領(lǐng)域出現(xiàn)了許多高質(zhì)量的數(shù)據(jù)庫,不僅為傳統(tǒng)的實驗人員提供了信息服務(wù),更是在數(shù)據(jù)驅(qū)動的計算工具開發(fā)中發(fā)揮了關(guān)鍵作用。表1匯總了常用的幾個酶反應(yīng)相關(guān)的數(shù)據(jù)庫,這些數(shù)據(jù)庫都有相應(yīng)的Web服務(wù)器,可以直接在線訪問和檢索,并且除了Reaxys[32]外,其他數(shù)據(jù)庫都可以免費(fèi)下載使用。
表1 酶反應(yīng)數(shù)據(jù)庫Table 1 Databases of enzymatic reactions
在天然產(chǎn)物代謝領(lǐng)域常用的數(shù)據(jù)庫為KEGG[23]和MetaCyc[24],兩個數(shù)據(jù)庫中均搜集了大量的酶反應(yīng),并且以生物合成途徑對反應(yīng)進(jìn)行了不同層級結(jié)構(gòu)的注釋,如MetaCyc中針對次級代謝產(chǎn)物生物合成中劃分有萜類生物合成途徑、聚酮生物合成途徑等,而萜類合成途徑中又有單萜生物合成途徑、萜類生物堿合成途徑等等。Rhea[25]是由瑞士生物信息學(xué)研究所建立并維護(hù)的專門針對酶反應(yīng)的數(shù)據(jù)庫,其共同參與維護(hù)的還有蛋白序列數(shù)據(jù)庫Uniprot[33],因此Rhea中的反應(yīng)具有全面的酶信息注釋,且與Uniprot高度關(guān)聯(lián)。BRENDA[26]和SABIO-RK[27]則是致力于搜集酶反應(yīng)動力學(xué)信息的數(shù)據(jù)庫,包括米氏常數(shù)(Km)、催化常數(shù)(kcat)以及酶反應(yīng)條件如溫度、酸堿度(pH)等,而且BRENDA還提供了酶的詳細(xì)分類(EC number等)和命名信息。Reactome[28]、PathBank[29]、HMDB[30]是具有不同側(cè)重點(diǎn)的生物通路數(shù)據(jù)庫,它們搜集了包括各種代謝反應(yīng)、信號轉(zhuǎn)導(dǎo)在內(nèi)的各種信號通路數(shù)據(jù)。基于以上眾多數(shù)據(jù)庫各有側(cè)重,但同時又有大量重復(fù)數(shù)據(jù)的情況,Pagni等[31]對KEGG、MetaCyc、HMDB等12個數(shù)據(jù)庫的反應(yīng)和酶進(jìn)行匯總?cè)ブ兀瑯?gòu)建了MetaNetX數(shù)據(jù)庫,可用于基因組尺度的代謝網(wǎng)絡(luò)模型的構(gòu)建和分析。除了上述開源數(shù)據(jù)庫以外,也有一些商業(yè)數(shù)據(jù)庫可提供信息的檢索和下載服務(wù),如Elsevier旗下的Reaxys[32]數(shù)據(jù)庫,包含了從各種專利和文獻(xiàn)中提取的有機(jī)反應(yīng)和酶反應(yīng)數(shù)據(jù)。
反應(yīng)底物、產(chǎn)物和酶是認(rèn)知酶反應(yīng)的三個核心要素,因此大部分酶反應(yīng)的計算預(yù)測和設(shè)計方法都圍繞這三點(diǎn)展開,且計算模型通常是通過其中之一(或之二)對剩余要素進(jìn)行預(yù)測(圖1):圍繞底物、產(chǎn)物的正向或逆向預(yù)測探索反應(yīng)和代謝物空間,同時還能用于合成路線的預(yù)測;根據(jù)給定反應(yīng)預(yù)測所需的酶,或者反過來對未知反應(yīng)功能的酶進(jìn)行酶功能分類或反應(yīng)活性強(qiáng)度預(yù)測;根據(jù)反應(yīng)和酶的信息對催化反應(yīng)重要性質(zhì)(如反應(yīng)動力學(xué)參數(shù))進(jìn)行預(yù)測等。因此,接下來論文將以酶、底物和產(chǎn)物為酶反應(yīng)的三個抓手,從酶反應(yīng)的數(shù)據(jù)表征、酶反應(yīng)路線的正逆向預(yù)測、未知酶功能的預(yù)測與設(shè)計、已知功能的酶反應(yīng)性質(zhì)預(yù)測等方面來分別介紹。
圖1 酶反應(yīng)的三個核心要素(底物、酶和產(chǎn)物)及其信息表征方式Fig.1 Key elements (substrate, enzyme and product) of enzymatic reactions and their information representations
在構(gòu)建計算模型之前,我們需要對數(shù)據(jù)(即小分子和蛋白質(zhì)的結(jié)構(gòu)與性質(zhì))進(jìn)行表征,使其轉(zhuǎn)化成計算機(jī)能夠理解的語言。無論是小分子還是蛋白質(zhì),都有不同維度的表征方式,如對于小分子來說,有基于二維結(jié)構(gòu)的SMILES表達(dá)式、分子圖(graph)和分子指紋等,還有基于三維結(jié)構(gòu)的像素表征等[34-35],此外也能通過分子的一維理化性質(zhì)如分子量、疏水性、電荷等進(jìn)行表征[36]。對于蛋白結(jié)構(gòu)來說,最常用的是一維的氨基酸序列表征,以氨基酸序列為基礎(chǔ)的多序列比對(MSA)結(jié)果同樣也可以作為表征。近年來多種蛋白質(zhì)結(jié)構(gòu)預(yù)測模型都表明MSA中序列共進(jìn)化信息對于模型的預(yù)測精度有顯著提升[37]。除此以外還能用二維的位置權(quán)重矩陣(PSSM)、接觸圖(contact map)、三維的像素點(diǎn)等對蛋白進(jìn)行表征[17]。而對于化學(xué)反應(yīng),在深度學(xué)習(xí)模型發(fā)展起來之前,研究人員主要通過經(jīng)驗和知識對反應(yīng)規(guī)則進(jìn)行總結(jié),并主要通過SMIRKS表達(dá)式(SMILES的一種拓展)來表示,其中包含了特定的反應(yīng)位點(diǎn)信息和化學(xué)鍵的形成和斷裂模式,一些常用的化學(xué)信息學(xué)工具如RDKit[38]等可以直接讀取SMIRKS并將其應(yīng)用于給定底物,從而判斷其是否符合該反應(yīng)規(guī)則并生成特定的產(chǎn)物。對于酶來說,其功能可直接由其催化的反應(yīng)來表征,但除此以外,酶的分類學(xué)標(biāo)簽和基因本體論(gene ontology,GO)[39]注釋也常用于描述酶的功能。酶的分類學(xué)標(biāo)簽通常指酶學(xué)委員會(Enzyme Commission)為酶所制作的一套編號分類法,該分類以化學(xué)反應(yīng)的類型為基礎(chǔ)。每個酶的EC number都由字母“EC”和四個數(shù)字組成,其中四個數(shù)字用點(diǎn)分隔,第一個數(shù)字使用數(shù)字1到7分別代表目前劃分的七大類酶(氧化還原酶、轉(zhuǎn)移酶、水解酶、裂解酶、異構(gòu)酶、連接酶和轉(zhuǎn)位酶)。后面三位數(shù)字將酶的分類逐級細(xì)分,由于不同大類下的子類數(shù)目不一,因此后三位數(shù)字的取值范圍并不固定。而GO注釋則是現(xiàn)代生物學(xué)從三個方面(分子功能、細(xì)胞組分、生物過程)對基因(及其表達(dá)的蛋白或RNA)所進(jìn)行的描述。和EC number類似,每個方面之中又有各種細(xì)分的描述,一般稱為GO term,如“GO:0005737”是細(xì)胞組分中的細(xì)胞質(zhì),表示某基因的產(chǎn)物是細(xì)胞質(zhì)的組成成分。在機(jī)器學(xué)習(xí)模型中,數(shù)字表征(如分子量、電荷等)可以直接作為輸入,而分子圖、接觸圖等可轉(zhuǎn)換為鄰接矩陣進(jìn)行輸入,對于文本表征(如SMILES、氨基酸序列等)則有多種輸入方式,如獨(dú)熱編碼(one-hot編碼)、詞嵌入(word embedding)等。上述表征方式所提取出的特征各有側(cè)重,因此在實際應(yīng)用中通常需要根據(jù)任務(wù)的性質(zhì)采用不同的表征方式進(jìn)行模型訓(xùn)練。
目前在自然界中仍然存在著大量未知的代謝過程,被稱為“代謝暗物質(zhì)”,闡明這些未知的代謝物和代謝反應(yīng)能為新藥發(fā)現(xiàn)和構(gòu)建細(xì)胞工廠提供豐富的資源[40]。因此有許多工作聚焦于拓展現(xiàn)有分子的反應(yīng)空間,即基于已知分子預(yù)測其潛在的各種代謝產(chǎn)物[圖2(a)]。以Hatzimanikatis課題組[40]的工作為例,他們將前期總結(jié)的約500條反應(yīng)規(guī)則[41]應(yīng)用于150萬個生物來源小分子及活性小分子,構(gòu)建了ATLASx數(shù)據(jù)庫。該數(shù)據(jù)庫中一共包含了520萬條和現(xiàn)有的8000萬小分子有關(guān)的反應(yīng),且其中有148萬小分子此前并沒有包含在任意反應(yīng)中,即為“孤兒”分子。ATLASx數(shù)據(jù)庫極大地豐富了代謝反應(yīng)空間,同時也為許多未知合成途徑的化學(xué)分子指明了潛在的生物合成途徑。作者利用該方法對上市藥物諾斯卡品(noscapine)的生物合成途徑進(jìn)行了拓展,發(fā)現(xiàn)了另一天然來源的上市藥物分子延胡索乙素(tetrahydropalmatine)的潛在的生物合成途徑并在酵母細(xì)胞中構(gòu)建該途徑并驗證了其正確性[42]。Hu課題組[43]從文獻(xiàn)中搜集了28萬條反應(yīng)數(shù)據(jù)并提取出其反應(yīng)中心及其相鄰原子的變化作為反應(yīng)規(guī)則,并利用反應(yīng)指紋(即底物的分子指紋減去產(chǎn)物的分子指紋)對上述反應(yīng)規(guī)則進(jìn)行去重,基于此反應(yīng)數(shù)據(jù)庫開發(fā)了BCSExplorer工具用于探索給定分子的合成或代謝空間。另外還有基于傳統(tǒng)分子相似性的方法從數(shù)據(jù)庫中查找已有的反應(yīng)對目標(biāo)分子反應(yīng)空間進(jìn)行探索(表2)。
圖2 正向和逆向反應(yīng)預(yù)測[正向和逆向反應(yīng)預(yù)測都是從一個分子(綠色)出發(fā)預(yù)測其潛在底物或產(chǎn)物(黃色),箭頭表示兩者之間能夠通過反應(yīng)進(jìn)行轉(zhuǎn)化,在(a)中箭頭從反應(yīng)物指向產(chǎn)物,(b)中則相反。經(jīng)過多次迭代能夠獲得一個反應(yīng)網(wǎng)絡(luò),網(wǎng)絡(luò)中既能采樣到已知的分子(實心)又能獲得全新的結(jié)構(gòu)(空心)。但不同的是正向反應(yīng)預(yù)測每一次迭代方向都是隨機(jī)的,而逆合成預(yù)測通常有一個終點(diǎn)條件(藍(lán)色,如特定的原料分子),且會采取算法使得迭代過程朝著終點(diǎn)的方向進(jìn)行]Fig.2 Prediction of forward and backward enzymatic reactions[Prediction starts with an enzyme molecule (green node) to deduce its substrate or product (yellow nodes), the lines represent transformation reactions between two molecules, with arrow from substrate (enzyme) to product (a) and the reverse (b).A reaction network is developed after the iterative prediction in which both known (solid nodes) and unknown (hollow nodes) molecules are included.The forward prediction is generally random while a target (blue node, such as a building block) is specified in the backward prediction, and the exploration will lead to the target with the help of iterative algorithms.]
表2 酶反應(yīng)預(yù)測與設(shè)計工具匯總Table 2 Tools for the prediction and design of enzymatic reactions
除了上述傳統(tǒng)的方法,Reymond課題組[45]利用SMILES和文本編碼分別表征小分子和酶,將其用于深度學(xué)習(xí)模型Transformer[66]的輸入,從而對產(chǎn)物進(jìn)行預(yù)測。為了克服酶反應(yīng)數(shù)據(jù)量不足的問題,作者采取了遷移學(xué)習(xí)的策略,先利用大量有機(jī)合成反應(yīng)對模型進(jìn)行預(yù)訓(xùn)練,再利用酶反應(yīng)繼續(xù)訓(xùn)練。研究結(jié)果表明有機(jī)反應(yīng)的預(yù)訓(xùn)練確實對模型最終的預(yù)測能力有提升,并且和只使用反應(yīng)物信息相比,酶信息的加入也有助于模型做出更加可信的預(yù)測。利用該模型不僅能對酶催化的產(chǎn)物做出預(yù)測,還能對酶的底物譜進(jìn)行篩選,進(jìn)一步闡明酶的催化功能。Kavraki及其合作者[46]則是利用深度學(xué)習(xí)構(gòu)建了一個專門預(yù)測藥物在人體內(nèi)潛在代謝產(chǎn)物的預(yù)測模型,該模型同樣是以底物SMILES作為輸入,但不同的是該模型并沒有包含酶的信息,因為對于藥物代謝來說,所有可能的產(chǎn)物比特定酶催化得到的產(chǎn)物更加有指導(dǎo)意義,且作者測試發(fā)現(xiàn)在酶的信息數(shù)量有限的情況下,包含酶的信息對于模型的提升并不大。
和上述正向預(yù)測相比,逆合成預(yù)測[67-68]具有更強(qiáng)的目的性,它是對特定化合物的合成前體進(jìn)行預(yù)測并將該過程循環(huán)迭代直到到達(dá)終止條件(如路線找到了一些常見的合成前體或容易獲得的化學(xué)原料等)。由于逆合成預(yù)測的任務(wù)通常是找到目標(biāo)分子和特定合成前體之間的合成路線,因此在每一步預(yù)測時并不會像正向預(yù)測那樣任意拓展,而是需要進(jìn)行評估和篩選以節(jié)約計算資源[圖2(b)]。盡管如此,為了避免錯過“正確”的合成前體,每一步逆合成預(yù)測依然會輸出不止一個可能的結(jié)果,最終的路線組合數(shù)量會隨著迭代步數(shù)增加呈指數(shù)級增長,因此在逆合成預(yù)測過程中仍然需要配合高效的搜索算法對路線分支進(jìn)行“修剪”。Faulon團(tuán)隊[69]從MeteNetX反應(yīng)數(shù)據(jù)庫中自動提取出了超過上萬條反應(yīng)規(guī)則,并將其應(yīng)用于生物逆合成路線的預(yù)測。由于許多分子可以同時應(yīng)用多條反應(yīng)規(guī)則,因此每一步逆合成預(yù)測都會產(chǎn)生大量的候選前體分子,為了從巨大的組合空間中高效搜索潛在的合成路線,作者首先采用了結(jié)構(gòu)相似性和可用的蛋白序列數(shù)量對每一步結(jié)果進(jìn)行打分,并結(jié)合蒙特卡洛樹搜索[70]的策略優(yōu)先選擇更加可靠的前體分子進(jìn)入后續(xù)的迭代預(yù)測[48]。為了使每一步的預(yù)測更加可靠,Turner及其合作者[49]則開發(fā)了RetroBioCat工具,通過人工總結(jié)常用的生物催化反應(yīng)并編碼反應(yīng)規(guī)則,將其應(yīng)用于生物催化級聯(lián)合成路線的預(yù)測和設(shè)計,該工具很好地重現(xiàn)了文獻(xiàn)報道的五十余條生物催化合成路線。
此外,深度學(xué)習(xí)模型憑借其無需構(gòu)建反應(yīng)規(guī)則就能捕捉反應(yīng)信息的優(yōu)勢,也逐漸被應(yīng)用于逆合成的預(yù)測[71]。Wu及其合作者[50]搜集了天然產(chǎn)物合成相關(guān)的3萬余條反應(yīng)并利用SMILES進(jìn)行編碼,用于天然產(chǎn)物生物逆合成模型BioNavi-NP的訓(xùn)練。作者還從有機(jī)反應(yīng)數(shù)據(jù)中提取出了6萬余條和天然產(chǎn)物結(jié)構(gòu)類似的反應(yīng)用于數(shù)據(jù)集的擴(kuò)充并進(jìn)行遷移學(xué)習(xí),測試結(jié)果發(fā)現(xiàn)基于Transformer結(jié)構(gòu)的模型表現(xiàn)要好于普通的神經(jīng)網(wǎng)絡(luò)和基于反應(yīng)規(guī)則的模型。同時作者采用了基于與或樹的Retro*搜索算法[72]用于多步反應(yīng)路徑的搜索,經(jīng)過測試表明,該方法速度和精度遠(yuǎn)好于蒙特卡洛樹搜索。該工具不僅可用于天然產(chǎn)物生物合成路線的預(yù)測,還能對已有的生物合成路線進(jìn)行重構(gòu),有助于尋找更加高效的異源合成途徑。Probst團(tuán)隊[51]也采取深度學(xué)習(xí)的方法,利用現(xiàn)有的酶催化反應(yīng)分別將底物和產(chǎn)物作為模型輸入構(gòu)建了正向和逆向合成兩個模型,在正向預(yù)測模型中酶的EC number也同時作為輸入,而在逆合成預(yù)測中EC number則是作為輸出,因此在逆合成模型中不僅能輸出目標(biāo)化合物的前體,還能對所需酶的類別進(jìn)行預(yù)測。
上述模型能分別對代謝物和前體空間進(jìn)行探索,但由于訓(xùn)練數(shù)據(jù)側(cè)重的差異,不同模型有各自的應(yīng)用范圍,如藥物代謝模型[46]僅能用于特定細(xì)胞色素P450酶的產(chǎn)物預(yù)測,RetroBioCat[49]和BioNavi-NP[50]則由于其訓(xùn)練數(shù)據(jù)的各自選擇偏好與不足限制了其特定的一些適用范圍。此外,和基于反應(yīng)規(guī)則的方法相比,基于深度學(xué)習(xí)的方法雖然無需構(gòu)建反應(yīng)規(guī)則,但反應(yīng)規(guī)則中的酶信息也同時被忽略了。盡管Probst團(tuán)隊[51]在模型中加入了EC number信息,但最多只能給出其前三位分類,對酶的預(yù)測仍然有限。
盡管正向和逆向反應(yīng)模型在針對特定體系的預(yù)測中都有不錯的精度,但在許多模型中酶的信息并沒有被充分考慮,限制了其應(yīng)用范圍。在實際應(yīng)用尤其是逆合成預(yù)測中獲得潛在的合成途徑之后,催化相應(yīng)反應(yīng)的酶對異源表達(dá)至關(guān)重要。盡管目前已有眾多方法和平臺可以用于酶蛋白元件的挖掘[73],但獲取催化特定反應(yīng)的酶仍然是一個艱巨的任務(wù)。目前解決此類任務(wù)的思路主要是相似的反應(yīng)往往可以通過同一個酶來催化完成,因此很多工具都是從已有數(shù)據(jù)庫中搜索和目標(biāo)反應(yīng)相似的反應(yīng)[圖3(a)],以催化該相似反應(yīng)的酶作為候選序列進(jìn)行后續(xù)的實驗和改造。如ECBLAST[52]可以通過鍵的變化、反應(yīng)中心以及結(jié)構(gòu)的相似性從KEGG數(shù)據(jù)庫中尋找相似反應(yīng),并給出相應(yīng)酶的EC number。Selenzyme[53]是一個基于結(jié)構(gòu)相似性的酶搜索工具,用戶輸入反應(yīng)規(guī)則或一條具體的反應(yīng)后,Selenzyme會在MetaNetX反應(yīng)數(shù)據(jù)庫中搜索相似的反應(yīng),并以催化該相似反應(yīng)的酶作為結(jié)果輸出。用戶還可以對所需酶的物種做出限制,該工具將會根據(jù)候選酶所在的物種與用戶指定物種之間的系統(tǒng)發(fā)育距離對結(jié)果重新排序。其他工具如BridgIT[54]、E-zyme2[55]則分別通過反應(yīng)指紋和反應(yīng)模式對KEGG數(shù)據(jù)庫進(jìn)行搜索,從而對目標(biāo)反應(yīng)進(jìn)行酶的預(yù)測。
圖3 不同類型的酶搜索和功能預(yù)測模型。[圓形代表酶,方形代表反應(yīng),黃色節(jié)點(diǎn)代表已知數(shù)據(jù),綠色代表待預(yù)測對象。基于相似性的預(yù)測方法(a)是從已知的酶-反應(yīng)數(shù)據(jù)對中(圖中相連的兩個節(jié)點(diǎn))尋找與目標(biāo)對象相似的樣本,從而對其反應(yīng)(或酶)進(jìn)行預(yù)測。功能分類模型(b)是將已知功能(通常是離散變量)的酶序列作為訓(xùn)練集,尋找其潛在分類規(guī)律(白色分界線),從而對目標(biāo)序列進(jìn)行預(yù)測?;貧w模型(c)則是對活性或穩(wěn)定性強(qiáng)弱等連續(xù)變量進(jìn)行建模預(yù)測,繪制適應(yīng)度景觀圖從而對目標(biāo)序列的功能進(jìn)行預(yù)測,并用于酶設(shè)計]Fig.3 Models for searching and predicting enzymes[Circular and square nodes represent sequences and reactions, respectively, and yellow filling indicates known data while green filling mean objects to be predicted.Similarity search (a) is to find a similar object in known enzyme-reaction pairs (connected nodes) to predict reactions (or enzymes)for target object.Classification model (b) is trained by enzymes with known function (usually discrete), in which the classification rule (white boundary) is clarified, and then the model can be used to classify an enzyme with unknown function.Regression model (c) is adapted to draw fitness landscape to predict continues variables such as the activity or stability of enzymes, which can then be used for enzyme design.]
除上述基于反應(yīng)相似性的方法以外,近年來基于機(jī)器學(xué)習(xí)的工具也展現(xiàn)出潛在的應(yīng)用價值。當(dāng)前由于非冗余酶反應(yīng)數(shù)據(jù)的不足,單純依靠已知反應(yīng)來尋找所需的酶難度極大。最近Faulon團(tuán)隊[56]采用了同時給定反應(yīng)和酶,進(jìn)而判斷該酶是否能催化該反應(yīng)的思路。作者利用反應(yīng)中心原子環(huán)境的變化和氨基酸序列對反應(yīng)和酶分別進(jìn)行表征,將兩者共同輸入高斯過程分類模型進(jìn)行訓(xùn)練。由于現(xiàn)有數(shù)據(jù)庫中只有某種酶能夠催化某些反應(yīng)的數(shù)據(jù)(即正樣本),而缺少負(fù)樣本,因此作者有選擇地從不同酶-反應(yīng)數(shù)據(jù)對中分別挑選酶和反應(yīng)組成新的樣本,并作為無標(biāo)簽樣本進(jìn)行半監(jiān)督學(xué)習(xí)。作者利用該模型挑選出了大腸桿菌中和N-乙酰-L-亮氨酸合成相關(guān)的酶并經(jīng)實驗成功驗證。
雖然酶是高效、精準(zhǔn)的催化劑,但大部分天然的酶卻很難直接應(yīng)用于工業(yè)生產(chǎn)[15],傳統(tǒng)的突變掃描實驗盡管可以獲得潛在的功能序列,但通常需要多輪次的實驗篩選,不僅耗時長且成功率低。而數(shù)據(jù)驅(qū)動的酶計算改造和重設(shè)計可以繞過實驗的突變篩選,對潛在的序列和活性空間進(jìn)行高效搜索。如Ranganathan及其合作者[57]將分支酸變位酶(chorismate mutase,參與芳香族氨基酸生物合成的關(guān)鍵酶)的MSA信息用于玻爾茲曼機(jī)器(Boltzmann machine)學(xué)習(xí)的直接耦合分析(direct coupling analysis,DCA)[74],得到的模型可捕捉序列的保守位點(diǎn)和位點(diǎn)之間的相關(guān)性,因此可用于突變體的采樣。近年來,蛋白質(zhì)的從頭設(shè)計(de novodesign)[75]在深度學(xué)習(xí)的輔助下也取得了一些進(jìn)展,諸如Baker課題組[76]和Liu課題組[77]都分別基于深度學(xué)習(xí)框架提出了逆向折疊(即利用蛋白結(jié)構(gòu)生成序列)算法,有望針對催化特定反應(yīng)的結(jié)構(gòu)或活性位點(diǎn)設(shè)計出全新的蛋白序列[78]。
隨著測序技術(shù)的進(jìn)步,數(shù)據(jù)庫中有大量的序列已知但功能未知的待定蛋白元件,因此亟需可靠準(zhǔn)確的方法對這些蛋白序列進(jìn)行功能預(yù)測。由于只有序列信息已知,因此傳統(tǒng)的方法便是通過序列相似性從數(shù)據(jù)庫中搜索已知功能的蛋白(如BLAST[79]),從而對目標(biāo)蛋白的功能做出預(yù)測[圖3(a)]。而機(jī)器學(xué)習(xí)方法由于能夠從更多特征中學(xué)習(xí)隱藏規(guī)律,更有可能取得精確的預(yù)測結(jié)果。目前針對酶功能最常用的標(biāo)簽是EC number,有許多機(jī)器學(xué)習(xí)方法通過序列進(jìn)行EC number的分類預(yù)測[圖3(b)]。如Lee課題組[58]開發(fā)了深度學(xué)習(xí)模型DeepEC,利用卷積神經(jīng)網(wǎng)絡(luò)對氨基酸序列進(jìn)行編碼并預(yù)測其EC number。經(jīng)測試DeepEC比其他5種預(yù)測工具具有更高的準(zhǔn)確率和更快的運(yùn)行速度。Araki團(tuán)隊[59]則通過PROFEAT工具[80]從酶的氨基酸序列中提取性質(zhì)特征(如氨基酸組成等),從而對其進(jìn)行編碼,然后輸入機(jī)器學(xué)習(xí)分類模型中預(yù)測其EC number。測試結(jié)果顯示支持向量機(jī)(SVM)模型的表現(xiàn)要優(yōu)于隨機(jī)森林(RF)、k-鄰近算法(kNN)和多層感知機(jī)(MLP)模型。作者利用該模型對罌粟中芐基異喹啉生物堿合成路線中缺失的酶進(jìn)行預(yù)測,成功解析了該物種中酪氨酸到下游生物堿的分支合成途徑[81]。除了EC number以外,GO條目也常被用于蛋白功能預(yù)測模型中。Jones課題組[60]構(gòu)建了一個多任務(wù)深度神經(jīng)網(wǎng)絡(luò)(MTDNN)用于預(yù)測給定序列的GO注釋,其中多任務(wù)表示除了整個模型共有的隱藏層以外,對于每一個GO條目都有獨(dú)立隱藏層網(wǎng)絡(luò)來負(fù)責(zé)輸出最后的預(yù)測結(jié)果。MTDNN采用了多種功能和結(jié)構(gòu)描述符來編碼蛋白序列如二級結(jié)構(gòu)、跨膜組分等。MTDNN的預(yù)測精度不僅高于傳統(tǒng)的BLAST方法,也比單純的多標(biāo)簽分類神經(jīng)網(wǎng)絡(luò)要好。
和上述普適的功能分類預(yù)測不同的是,在蛋白質(zhì)工程中,往往需要針對特定功能的酶進(jìn)行活性強(qiáng)度的預(yù)測,即回歸模型[圖3(c)],并利用該模型對突變體進(jìn)行預(yù)測從而在多輪的突變實驗中以篩選出最優(yōu)序列。ECNet[61]是一個基于序列共進(jìn)化信息進(jìn)行活性預(yù)測的神經(jīng)網(wǎng)絡(luò)模型,蛋白序列表征由基于大數(shù)據(jù)庫(如Uniprot[33]或Pfam[82])預(yù)訓(xùn)練得到的全局特征和基于目標(biāo)序列MSA得到的局部特征組合而成。將已有的深度突變掃描實驗數(shù)據(jù)對模型進(jìn)行訓(xùn)練,可以對未知的突變體活性進(jìn)行準(zhǔn)確預(yù)測,作者以β-內(nèi)酰胺酶為例成功從模擬突變中篩選出活性強(qiáng)于野生型的新穎突變體。Gitter團(tuán)隊[62]則利用接觸圖作為蛋白表征,同時采用圖卷積神經(jīng)網(wǎng)絡(luò)對蛋白活性進(jìn)行預(yù)測。作者將隨機(jī)重啟爬山算法和該模型結(jié)合從鏈球菌蛋白G的GB1結(jié)構(gòu)域(能與免疫球蛋白G結(jié)合,可用于抗體純化)序列空間搜索得到了5個高親和力的突變體,經(jīng)實驗測試,其中一個突變體確實表現(xiàn)出比野生型更強(qiáng)的結(jié)合親和力。該類模型能夠代替?zhèn)鹘y(tǒng)實驗中的構(gòu)建與測試環(huán)節(jié),減少的DBTL循環(huán)迭代次數(shù),從而針對特定的酶快速繪制出清晰的序列-功能圖譜,將其應(yīng)用于定向進(jìn)化等蛋白質(zhì)工程任務(wù)中可以極大地節(jié)約篩選時間和實驗成本[83-84]。
酶反應(yīng)動力學(xué)研究對于理解酶反應(yīng)機(jī)制,以及設(shè)計合理的反應(yīng)條件具有重要作用[85-86]。其中Km和kcat是衡量酶催化效率最重要的兩個參數(shù),而實驗是獲得這些參數(shù)的主要手段。近年來,有不少工作利用深度學(xué)習(xí)模型來對酶反應(yīng)動力學(xué)參數(shù)進(jìn)行預(yù)測。如Lercher及其合作者[63]利用分子指紋、脂水分配系數(shù)以及分子量表征反應(yīng)底物,用一個經(jīng)過大量已知蛋白序列預(yù)訓(xùn)練過的特征提取模型UniRep[87]對酶進(jìn)行表征,并使用梯度提升構(gòu)建回歸模型用于預(yù)測反應(yīng)的Km值。在獨(dú)立的測試集中該模型也表現(xiàn)出良好的性能。此外,也有模型專門預(yù)測同一物種中同一個底物與不同酶作用時的Km值[88],以及纖維二糖在不同β-葡萄糖苷酶催化下的Km值[89]。Palsson及其合作者[64]利用代謝網(wǎng)絡(luò)、蛋白結(jié)構(gòu)、物質(zhì)濃度等多種信息輸入機(jī)器學(xué)習(xí)模型(包括隨機(jī)森林、深度神經(jīng)網(wǎng)絡(luò)等)進(jìn)行大腸桿菌代謝網(wǎng)絡(luò)中酶反應(yīng)kcat的預(yù)測。盡管通過該模型對kcat進(jìn)行預(yù)測能夠提高代謝網(wǎng)絡(luò)模型的精度,從而對細(xì)胞生長狀態(tài)進(jìn)行更準(zhǔn)確的預(yù)測,但其輸入數(shù)據(jù)處理太復(fù)雜,很難應(yīng)用于其他物種。因此Nielsen課題組[65]從BRENDA和SABIO-RK數(shù)據(jù)庫中搜集了所有帶有kcat注釋的酶反應(yīng),并用底物的分子圖進(jìn)行編碼,以及用氨基酸序列對酶進(jìn)行編碼,兩者分別用于圖神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)的輸入,并在拼接之后用于kcat的預(yù)測。該模型除了在測試集中表現(xiàn)優(yōu)越之外,對于酶序列具有細(xì)微變化的突變體的催化能力預(yù)測也有不錯的準(zhǔn)確率,且神經(jīng)網(wǎng)絡(luò)中注意力機(jī)制的加入能夠讓模型檢測到和酶催化效率相關(guān)的關(guān)鍵殘基。為了數(shù)據(jù)共享并服務(wù)于更多研究者,作者基于該預(yù)測模型的結(jié)果構(gòu)建了一個在線的酶反應(yīng)參數(shù)數(shù)據(jù)庫,在目前的版本中可對計算機(jī)預(yù)測的反應(yīng)kcat值進(jìn)行查詢[90]。無論是Km還是kcat或是其他酶反應(yīng)動力學(xué)參數(shù),通過實驗上的測量都有一定的難度,且受實驗條件影響較大,因此計算模型的出現(xiàn)提供了巨大的便利。并且,這些參數(shù)對于目前各種類型基因組尺度的代謝網(wǎng)絡(luò)模型[19]以及全細(xì)胞模型[91-92]至關(guān)重要,在未來,有望利用這些模型對物種或細(xì)胞整個生命周期進(jìn)行模擬,不僅能讓我們更好地理解生物體內(nèi)的生長狀態(tài)和生理過程,更能幫助我們設(shè)計和優(yōu)化人工底盤細(xì)胞用于生物合成。
盡管隨著各種實驗技術(shù)的進(jìn)步和計算模擬技術(shù)的引入,大自然酶催化這層神秘面紗正一點(diǎn)一點(diǎn)被揭開,但是在此面紗之下還有巨大的未知空間有待挖掘。以酶為核心的生物制造技術(shù)是極具潛力的發(fā)展方向。挖掘更多的酶催化元件、優(yōu)化酶催化的功能與效率,提升工業(yè)酶的性能,是生物經(jīng)濟(jì)產(chǎn)業(yè)發(fā)展的重大需求。盡管蛋白結(jié)構(gòu)的理論預(yù)測獲得了重大突破,但酶催化機(jī)制的高效解析、酶功能的理性設(shè)計等仍然是領(lǐng)域內(nèi)的難點(diǎn)。從蛋白的靜態(tài)結(jié)構(gòu)到酶反應(yīng)的動態(tài)調(diào)控機(jī)理,從海量而冗余的酶反應(yīng)數(shù)據(jù)到大數(shù)據(jù)驅(qū)動的酶分子設(shè)計,這中間還有不少鴻溝需要新理論、新技術(shù)的突破。本文旨在從大數(shù)據(jù)驅(qū)動的酶反應(yīng)預(yù)測與設(shè)計的視角,匯總當(dāng)前常用的酶反應(yīng)數(shù)據(jù)庫,并對近年來基于大數(shù)據(jù)和機(jī)器學(xué)習(xí)開發(fā)酶反應(yīng)預(yù)測與設(shè)計工具進(jìn)行了總結(jié)。上述一些成功的案例已經(jīng)預(yù)示著未來,計算模型與算法的發(fā)展將是走向生物智造不可或缺的核心推力之一。然而我們也必須清醒意識到,現(xiàn)有計算工具在精度上還有很大的提升空間,要最大化地發(fā)揮計算的賦能作用還需要不斷地探索(圖4)。
圖4 數(shù)據(jù)驅(qū)動的酶反應(yīng)設(shè)計與預(yù)測在未來的展望Fig.4 Perspective of data-driven prediction and design of enzymatic reactions
首先,盡管當(dāng)前已經(jīng)有了諸多類型的數(shù)據(jù)庫,但這些數(shù)據(jù)來源于世界各地的實驗室,其實驗條件、實驗試劑等都會對實驗數(shù)據(jù)造成影響,例如大多數(shù)酶的反應(yīng)動力學(xué)參數(shù)對于實驗溫度、pH等都是敏感的[93]。幸運(yùn)的是現(xiàn)有數(shù)據(jù)庫中已經(jīng)開始對這些實驗條件進(jìn)行了記錄,而如何將這些條件納入計算模型的構(gòu)建中將是我們下一步要思考的問題[94]。此外,不管數(shù)據(jù)庫的標(biāo)注和更新是由人工還是計算機(jī)完成,都不可避免會有錯誤記錄的產(chǎn)生,有文獻(xiàn)就指出BRENDA數(shù)據(jù)庫中有相當(dāng)一部分酶的EC number注釋是錯誤的[95]。因此盡可能避免錯誤標(biāo)注,提高數(shù)據(jù)的質(zhì)量是提升計算模型精度很重要的手段。此外,對于很多機(jī)器學(xué)習(xí)模型而言,訓(xùn)練集中負(fù)樣本對于模型優(yōu)化是極為重要的,但當(dāng)前數(shù)據(jù)庫收錄的都是文獻(xiàn)中報道的“陽性”結(jié)果(即能反應(yīng)或有活性),而經(jīng)實驗驗證的陰性結(jié)果同樣包含重要信息,因此方便用戶上傳實驗結(jié)果(無論是陰性還是陽性)的數(shù)據(jù)共享平臺的建設(shè)也值得我們關(guān)注,當(dāng)然這也需要領(lǐng)域內(nèi)實驗人員共同的努力。另外,智能化機(jī)器人也能在很大程度上解放實驗人員,同時可以完成實驗、記錄、保存等一系列工作,加快正、負(fù)數(shù)據(jù)的積累從而加速實驗與計算交互反饋的進(jìn)程。
其次,無論是針對小分子還是蛋白的機(jī)器學(xué)習(xí)特征提取,我們都無法用數(shù)字解釋其包含的所有信息,盡管我們也并不一定需要這樣做,但是如何盡可能提取出我們所需要的輸入信息并進(jìn)行編碼,也有待于進(jìn)一步研究。近幾年來自然語言處理模型的進(jìn)步使我們能夠利用非監(jiān)督學(xué)習(xí)的方式從大量語料庫(比如分子庫或蛋白序列庫)中訓(xùn)練出用于輸出小分子和蛋白的嵌入表征的預(yù)訓(xùn)練模型[87,96-98]。經(jīng)分析這些模型能夠很好地捕捉不同樣本的潛在特征并用于輸入,下游針對各種任務(wù)的機(jī)器學(xué)習(xí)模型性能有望從中得到提升[99]。
最后,在計算模型與算法層面,同樣也是得益于自然語言處理模型的發(fā)展,越來越多生成式的端到端模型應(yīng)用于反應(yīng)預(yù)測和設(shè)計領(lǐng)域[71,100]。和普通的回歸或分類模型以標(biāo)簽為輸出不同的是,端到端模型可以直接通過訓(xùn)練過的概率分布生成序列(在本文中即小分子或蛋白)。如前文提到的酶催化反應(yīng)的正向和逆向預(yù)測的模型中,有不少就已經(jīng)應(yīng)用了該種端到端模型[45,50]。而隨著各種蛋白序列生成模型的提出[101],將其應(yīng)用于酶的預(yù)測將會大大擴(kuò)大搜索空間,因為目前基于已知反應(yīng)的酶預(yù)測還局限于從蛋白序列庫中尋找潛在的酶或其突變體,生成模型則能在特定限制條件下產(chǎn)生具有潛在功能的新穎序列,此外還能生成更多的非天然序列用于蛋白優(yōu)化與設(shè)計[102-105]。
以上是圍繞數(shù)據(jù)驅(qū)動的策略在將來需要重點(diǎn)關(guān)注的三個方面,而對于酶反應(yīng)來說,其背后的物理化學(xué)原理對于酶反應(yīng)設(shè)計是至關(guān)重要的,對于酶反應(yīng)物理化學(xué)規(guī)律的認(rèn)知信息在上述數(shù)據(jù)驅(qū)動策略中往往被忽略或者未考慮周全。在過去的十幾年中,基于物理模型的方法在酶反應(yīng)預(yù)測和設(shè)計方面已經(jīng)取得了許多成果。如基于量子力學(xué)和分子力學(xué)組合方法(QM/MM)的動力學(xué)模擬不僅用于探索分子的反應(yīng)性,擴(kuò)展反應(yīng)空間[106-107],還用于解析酶反應(yīng)的機(jī)理,并為酶改造和重設(shè)計提供了極為重要的酶反應(yīng)熱動力學(xué)屬性和酶催化調(diào)控的理論依據(jù)[8,108]。以Rosetta Design[109-110]為代表的基于物理模型的計算方法則為酶設(shè)計提供了新范式,并成功應(yīng)用于許多案例[111-113]。而數(shù)據(jù)驅(qū)動的方法尤其是深度學(xué)習(xí)模型近幾年雖快速發(fā)展,但作為一種被稱為“黑箱”模型的工具,目前仍無法參與到如微觀機(jī)制解析這種復(fù)雜且動態(tài)的任務(wù)中。我們既需要依靠物理模型解決最底層的問題并積累更多的數(shù)據(jù),用于數(shù)據(jù)模型的構(gòu)建和訓(xùn)練,反過來數(shù)據(jù)模型因其高效預(yù)測能力使其能夠參與到物理模型的框架中,實現(xiàn)優(yōu)勢互補(bǔ)。因此,物理模型與數(shù)據(jù)模型的結(jié)合將是酶反應(yīng)預(yù)測和設(shè)計的新趨勢,如結(jié)合動力學(xué)模擬和深度學(xué)習(xí)的反應(yīng)空間探索[114]、借助深度學(xué)習(xí)勢能的分子動力學(xué)模擬方法[115]、基于神經(jīng)網(wǎng)絡(luò)能量函數(shù)的氨基酸序列設(shè)計[77]等等。
最后,為上述模型與算法搭建高度集成的工程化平臺也是非常有意義的。目前只有少數(shù)計算模型和工具發(fā)布了在線服務(wù)器版本,其他大部分都是發(fā)布于各托管平臺的源代碼,并且目前很多深度學(xué)習(xí)模型體量龐大,需要一定的硬件支持才能運(yùn)行,使用這些工具對于普通的實驗人員來說有一定的壁壘。同時本文提到的反應(yīng)預(yù)測、酶預(yù)測、酶反應(yīng)性質(zhì)預(yù)測在實際的實驗中通常是鏈條式的流程,因此將這些工具整合在一個便捷友好的平臺中將會給實驗人員帶來極大的便利。Hu課題組建立的RxnFinder(http://www.rxnfinder.org/)商業(yè)化網(wǎng)站平臺[116]開發(fā)并整合了反應(yīng)探索、前體預(yù)測、逆合成分析、菌株設(shè)計等一系列計算工具,能為實驗研究人員提供便利。Hatzimanikatis課題組和曼徹斯特大學(xué)精細(xì)化學(xué)品合成生物學(xué)研究中心分別搭建的LCSB(https://lcsb-databases.epfl.ch/Home)和SYNBIOCHEM(https://synbiochem.co.uk/)數(shù)據(jù)平臺也包含了各自課題組開發(fā)的逆合成預(yù)測、酶選擇等工具供學(xué)術(shù)界免費(fèi)試用。但這些平臺只是將工具匯總在一起,用戶需要單獨(dú)訪問或下載使用某一模塊,并且針對相似任務(wù)的不同算法部署在不同的平臺,不利于用戶進(jìn)行直接比較研究。未來在以酶催化為基礎(chǔ)的生物制造工業(yè)化應(yīng)用中,我們可能更需要全鏈條式的設(shè)計平臺,即所有工具以工作流的形式集成在平臺中,用戶可一鍵訪問并自由組合使用。