• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      人工智能時(shí)代下的酶工程

      2023-07-10 02:39:54康里奇談攀洪亮
      合成生物學(xué) 2023年3期
      關(guān)鍵詞:酶工程突變體氨基酸

      康里奇,談攀,洪亮

      (1 上海交通大學(xué)物理與天文學(xué)院,上海 200240; 2 上海交通大學(xué)自然科學(xué)研究院,上海國(guó)家應(yīng)用數(shù)學(xué)中心(交大分中心),上海 200240; 3 上海人工智能實(shí)驗(yàn)室,上海 200240)

      酶是一種具有催化作用的生物大分子。經(jīng)過(guò)自然選擇,生物體內(nèi)各種各樣的酶在具備一定活性和穩(wěn)定性的同時(shí)還保留了底物選擇性等特異性功能。然而酶的序列空間在20N(N為蛋白質(zhì)一級(jí)序列長(zhǎng)度)量級(jí),即便是經(jīng)過(guò)了千百萬(wàn)年的演化,自然界也只是探索了序列空間很小的一部分,這些功能還有提升的空間。因此酶工程的一項(xiàng)重要任務(wù)就是通過(guò)引入突變或新的結(jié)構(gòu)功能域改造酶來(lái)提高特定性質(zhì)以滿足工業(yè)領(lǐng)域或?qū)嶒?yàn)室的需求[1]。

      蛋白質(zhì)一級(jí)序列中離散的氨基酸具有高度的進(jìn)化相關(guān)性,因此是酶工程主要的編輯改造對(duì)象。早在20世紀(jì)中期,Lerner等[2]就已經(jīng)使用化學(xué)誘變的方法在細(xì)菌中引入突變。由于這種突變的靶向性無(wú)法控制,這項(xiàng)工作只是定向進(jìn)化領(lǐng)域一次具有代表性的嘗試。在重組蛋白技術(shù)發(fā)展成熟之后,蛋白質(zhì)一級(jí)序列中的氨基酸可以被精準(zhǔn)控制和編輯[3]。在此基礎(chǔ)上,蛋白質(zhì)層面有關(guān)工作機(jī)理和理化性質(zhì)的先驗(yàn)知識(shí)可以被轉(zhuǎn)化成蛋白質(zhì)序列設(shè)計(jì)方案。理性設(shè)計(jì)方法便是依賴這些知識(shí)判斷具體氨基酸替換后是否會(huì)增強(qiáng)蛋白質(zhì)的特定性質(zhì),或者改造蛋白質(zhì)的特異性功能,但這種方法不適用于工作機(jī)理或結(jié)構(gòu)未知的蛋白質(zhì)[4]。定向進(jìn)化策略跨越了理性設(shè)計(jì)的知識(shí)壁壘,該方法通過(guò)隨機(jī)突變和高通量篩選加速蛋白質(zhì)向特定指標(biāo)的進(jìn)化過(guò)程,研究人員不再需要了解蛋白質(zhì)的結(jié)構(gòu)和工作機(jī)理。之后一系列半理性設(shè)計(jì)策略結(jié)合了理性設(shè)計(jì)和定向進(jìn)化兩種思路,通過(guò)構(gòu)建更小也更合理的突變體文庫(kù)提升效率。由于酶工程的實(shí)驗(yàn)結(jié)果可以按照統(tǒng)一的標(biāo)準(zhǔn)被收集,隨著實(shí)驗(yàn)結(jié)果的累積,大量的數(shù)據(jù)推動(dòng)了數(shù)據(jù)驅(qū)動(dòng)的酶工程的發(fā)展。人工智能為酶工程提供了新的工具,機(jī)器學(xué)習(xí)方法與深度神經(jīng)網(wǎng)絡(luò)在該領(lǐng)域得到了有效利用與發(fā)展??傮w來(lái)看,酶工程經(jīng)歷了從知識(shí)驅(qū)動(dòng)到數(shù)據(jù)驅(qū)動(dòng)的發(fā)展歷程,并且二者緊密結(jié)合,相輔相成。

      1 定向進(jìn)化與半理性設(shè)計(jì)

      早期的酶工程需要通過(guò)理性設(shè)計(jì)決定突變位點(diǎn),成功的案例必須建立在豐富的先驗(yàn)知識(shí)上[4]。定向進(jìn)化技術(shù)的核心思路可以被分為兩步,先構(gòu)建大規(guī)模隨機(jī)突變文庫(kù),再通過(guò)高通量實(shí)驗(yàn)篩選得到有益突變體。這樣的過(guò)程往往會(huì)被迭代實(shí)施很多輪,直到有益突變位點(diǎn)積累到使蛋白質(zhì)性質(zhì)滿足預(yù)期的數(shù)量。定向進(jìn)化的發(fā)展讓酶工程不再需要理解蛋白質(zhì)的工作機(jī)理、結(jié)構(gòu)或特定氨基酸替換的具體影響,這是酶工程歷史上的重大突破。Frances H.Arnold因?yàn)樵谠擃I(lǐng)域做出突出貢獻(xiàn)而獲得了2018年諾貝爾化學(xué)獎(jiǎng)。她和她的團(tuán)隊(duì)利用易錯(cuò)PCR技術(shù)成功實(shí)現(xiàn)了枯草桿菌蛋白酶E(Subtilisin E)的進(jìn)化[5]。經(jīng)過(guò)3輪的誘變和篩選,最終在60%的二甲基甲酰胺(dimethylformamide)溶液中得到了相比野生型提高了256倍活性的6點(diǎn)位突變體。另一個(gè)具有代表性意義的工作是Stemmer在1994年提出的利用DNA重組構(gòu)建隨機(jī)突變文庫(kù)[6-7],這項(xiàng)技術(shù)利用PCR擴(kuò)增目標(biāo)蛋白的同源基因文庫(kù)并將它們剪切成大量基因片段,通過(guò)無(wú)引物PCR技術(shù)重組后,基因片段會(huì)組成雜交基因并被克隆到表達(dá)載體中供后續(xù)篩選,得到的突變體會(huì)被用于構(gòu)建新的DNA片段文庫(kù),有益的突變會(huì)在如此反復(fù)的篩選過(guò)程中累積(圖1)。Stemmer團(tuán)隊(duì)使用該方法對(duì)β-內(nèi)酰胺酶(β-lactamase)進(jìn)行了三輪重組(shuffling)和兩輪回交(backcrossing),最終得到的突變體使宿主大腸桿菌(Escherichia coli)對(duì)抗生素頭孢噻肟的抑制濃度比野生型提高了32 000倍。Liebeton團(tuán)隊(duì)[8-9]將多種定向進(jìn)化策略結(jié)合在一起來(lái)改造銅綠假單胞菌(Pseudomonas aeruginosa)中的細(xì)菌脂肪酶(bacterial lipase)。該團(tuán)隊(duì)先利用易錯(cuò)PCR技術(shù),在多輪迭代過(guò)程中找到數(shù)個(gè)對(duì)蛋白質(zhì)產(chǎn)物選擇性影響較大的陽(yáng)性單點(diǎn)突變體。然后在這些陽(yáng)性突變所在位置進(jìn)行飽和突變(saturation mutagenesis),得到了之前隨機(jī)突變過(guò)程中漏選的更好的陽(yáng)性突變。在這些結(jié)果的基礎(chǔ)上,再利用定點(diǎn)突變技術(shù)(site-specific mutagenesis)重新設(shè)計(jì)多點(diǎn)突變,最終得到的突變體在特定產(chǎn)物的選擇性上比野生型提高了23.5倍。這種將多個(gè)定向進(jìn)化策略結(jié)合起來(lái)的方法降低了隨機(jī)突變漏選優(yōu)秀突變體的概率,同時(shí)為飽和突變技術(shù)提供了關(guān)鍵的氨基酸位點(diǎn)。

      圖1 易錯(cuò)PCR技術(shù)(a)與基因重組技術(shù)(b)的原理Fig.1 Principles for error-prone PCR (a) and DNA shuffling (b)

      定向進(jìn)化利用構(gòu)建大量隨機(jī)突變文庫(kù)和高通量篩選的方法突破了酶工程關(guān)于催化機(jī)理、結(jié)構(gòu)和特定突變影響的知識(shí)壁壘。然而對(duì)于許多蛋白質(zhì)來(lái)說(shuō),高通量實(shí)驗(yàn)的設(shè)計(jì)仍然是一個(gè)挑戰(zhàn),并且多輪迭代篩選的方案會(huì)導(dǎo)致過(guò)長(zhǎng)的實(shí)驗(yàn)周期,這對(duì)于生化實(shí)驗(yàn)室來(lái)說(shuō)是巨大的負(fù)擔(dān),因此一部分研究重點(diǎn)被轉(zhuǎn)移到了結(jié)合理性設(shè)計(jì)的小型突變體文庫(kù)的篩選中。共識(shí)序列(consensus sequence)是半理性設(shè)計(jì)中具有代表性的方法[10-11]。蛋白質(zhì)一級(jí)序列中氨基酸之間具有高度的進(jìn)化相關(guān)性,從進(jìn)化角度來(lái)看,對(duì)酶活性和穩(wěn)定性產(chǎn)生重要影響的氨基酸很可能是保守的。在給定蛋白質(zhì)家族的多重序列比對(duì)(multiple sequence alignment)中,某個(gè)位置上的保守氨基酸具有更高的頻率,這些殘基被認(rèn)為是共識(shí)殘基(consensus residue)。共識(shí)序列的核心思想是氨基酸頻率反映了某些生物特性的相對(duì)重要性,在給定位置上用共識(shí)殘基代替非共識(shí)殘基往往能優(yōu)化蛋白質(zhì)性質(zhì)[11]。圖2以綠色熒光蛋白(green fluorescent protein,GFP)為例,展示了識(shí)別共識(shí)殘基的基本原理。半理性設(shè)計(jì)是理性設(shè)計(jì)和計(jì)算方法的結(jié)合,篩選突變位點(diǎn)時(shí)理性思考同樣重要。比如在通過(guò)酶工程提高酶的耐堿性時(shí),序列中的天冬酰胺(asparagine)和甘氨酸(glycine)被認(rèn)為對(duì)酶在堿性環(huán)境中的穩(wěn)定性有負(fù)面影響,會(huì)被優(yōu)先用其他氨基酸替代[12-13]。除此以外,分子動(dòng)力學(xué)模擬、分子對(duì)接、第一性原理計(jì)算以及利用能量函數(shù)模擬退火等方法可從結(jié)構(gòu)和能量角度篩選突變體[14]。這些計(jì)算設(shè)計(jì)方法著眼于單個(gè)或者多個(gè)突變給蛋白質(zhì)結(jié)構(gòu)和功能帶來(lái)的具體影響,可以構(gòu)建相比于定向進(jìn)化更小也更合理的突變文庫(kù),大幅度降低了定向進(jìn)化方案中篩選突變體的工作量,具體進(jìn)行實(shí)驗(yàn)時(shí)不再需要高通量篩選方法。Khersonsky等[15]基于多重序列比對(duì)和能量函數(shù)提出了針對(duì)酶的活性口袋進(jìn)行設(shè)計(jì)的通用方案。該方法需要研究者基于先驗(yàn)知識(shí)將參與突變的氨基酸限制在活性口袋內(nèi)部,因?yàn)檫@些點(diǎn)位對(duì)酶的功能有更直接的影響。該團(tuán)隊(duì)先利用多重序列比和Rosetta能量打分過(guò)濾掉不合理的單點(diǎn)突變,然后對(duì)剩下的單點(diǎn)突變進(jìn)行組合。這個(gè)方法和定向進(jìn)化最大的區(qū)別在于略過(guò)了從單點(diǎn)突變到多點(diǎn)突變的疊加過(guò)程,這意味著最終表現(xiàn)優(yōu)秀但疊加過(guò)程中表現(xiàn)下降的多點(diǎn)突變體不再會(huì)被剔除[16]。在單輪實(shí)驗(yàn)中測(cè)試了磷酸三酯酶(phosphotriesterase)的數(shù)十個(gè)突變體針對(duì)不同底物的水解活性,結(jié)果表明多個(gè)突變體在新的底物上表現(xiàn)出數(shù)千倍于野生型的活性。中國(guó)科學(xué)院微生物研究所的吳邊團(tuán)隊(duì)[17-18]同樣利用Rosetta改造天冬氨酸酶。在深入了解酶的催化機(jī)理的前提下,保持進(jìn)行催化反應(yīng)口袋中氨基酸不變的同時(shí)對(duì)靠近底物特異性基團(tuán)的氨基酸進(jìn)行突變,經(jīng)過(guò)對(duì)數(shù)十個(gè)突變體進(jìn)行實(shí)驗(yàn)測(cè)試,最終使酶在保持催化功能不變的情況下適用于多種不同底物。在定向進(jìn)化中加入理性設(shè)計(jì)更有利于設(shè)計(jì)針對(duì)新底物、新功能的突變文庫(kù),且這類文庫(kù)體量更小,陽(yáng)性率也更高。

      圖2 GFP蛋白的部分序列比對(duì)結(jié)果,共識(shí)殘基已被高亮處理Fig.2 Sequence alignment of GFP with most conserved residues highlighted

      2 人工智能助力酶工程

      蛋白質(zhì)一級(jí)序列由20種天然氨基酸構(gòu)成,氨基酸的離散性使蛋白質(zhì)在酶工程中具備高度的可編輯性,同時(shí)在計(jì)算機(jī)中具有可編碼性。除此以外,大量突變體的實(shí)驗(yàn)結(jié)果都能夠以一種標(biāo)準(zhǔn)化的方式整合起來(lái)構(gòu)成突變體數(shù)據(jù)庫(kù)。這些數(shù)據(jù)推動(dòng)了人工智能技術(shù)在酶工程領(lǐng)域的應(yīng)用。

      2.1 傳統(tǒng)機(jī)器學(xué)習(xí)助力酶工程

      機(jī)器學(xué)習(xí)的方法是將大量蛋白質(zhì)信息按照一定方式編碼,使計(jì)算機(jī)產(chǎn)生可以執(zhí)行復(fù)雜決策的算法。Capriotti等[19]在2004年利用1615個(gè)單點(diǎn)突變數(shù)據(jù)訓(xùn)練單層感知機(jī)并預(yù)測(cè)蛋白質(zhì)突變對(duì)熱穩(wěn)定性造成的影響,他們將測(cè)量蛋白質(zhì)突變穩(wěn)定性變化時(shí)的溫度、pH值、單點(diǎn)突變內(nèi)容、溶液可及性以及單點(diǎn)突變周圍氨基酸頻率分布編碼并輸入到模型中,使模型在預(yù)測(cè)精度上超過(guò)了之前利用能量函數(shù)計(jì)算熱穩(wěn)定性變化的方法。這種編碼方案只利用突變周圍的氨基酸頻率分布將蛋白質(zhì)結(jié)構(gòu)信息納入考慮,該團(tuán)隊(duì)在2005年推出了基于支持向量機(jī)(SVM)的I-Mutant2.0,在結(jié)構(gòu)信息之外又成功編碼了蛋白質(zhì)序列信息[20]。曲玉辰等[21]利用I-Mutant2.0輔助設(shè)計(jì)與優(yōu)化病毒融合抑制多肽,證明這種方法具備一定的可行性。早期機(jī)器學(xué)習(xí)方法使用的網(wǎng)絡(luò)比較簡(jiǎn)單,研究重點(diǎn)在編碼信息的選擇上。編碼信息應(yīng)該盡量覆蓋關(guān)鍵特征,但同時(shí)不能過(guò)度冗余導(dǎo)致模型過(guò)擬合等問(wèn)題[22]。Fariselli等[23]同樣使用基于支持向量機(jī)回歸(SVMeregression)的方法來(lái)預(yù)測(cè)蛋白質(zhì)突變體熱穩(wěn)定性的變化,但編碼了更加復(fù)雜的信息從而獲得比以往模型更高的精度。Laimer等[24]不僅增加了編碼內(nèi)容,還通過(guò)整合的方法豐富了模型架構(gòu),使用的數(shù)據(jù)包括統(tǒng)計(jì)模型的打分,蛋白質(zhì)殘基數(shù)目、二級(jí)結(jié)構(gòu)、溶液可及面積、質(zhì)量、親疏水性和等電點(diǎn)等理化性質(zhì)。這些數(shù)據(jù)會(huì)被編碼輸入到3個(gè)模塊中,3個(gè)模塊包括具備單個(gè)隱藏層的人工神經(jīng)網(wǎng)絡(luò)(artificial neural networks)、支持向量機(jī)(SVM)和多重線性回歸(multiple linear regression)。經(jīng)過(guò)測(cè)試,該整合模型被證明具有超越以往模型的精度[24]。

      也有一些方法沒(méi)有選擇編碼復(fù)雜的蛋白質(zhì)信息,而是利用機(jī)器學(xué)習(xí)方法對(duì)現(xiàn)有技術(shù)進(jìn)行整合互補(bǔ)。Dehouck等[25]選擇利用多種統(tǒng)計(jì)勢(shì)能的線性組合來(lái)預(yù)測(cè)突變帶來(lái)的熱穩(wěn)定性變化,該方法在預(yù)測(cè)速度上相比其他方法有巨大的提升。Pires等[26]則是利用支持向量機(jī)(SVM)整合了突變體閾值掃描矩陣(mutation cutoff scanning matrix,mCSM)和定點(diǎn)誘變(site directed mutator,SDM)兩種屬性互補(bǔ)的方法,其中mCSM是一種利用結(jié)構(gòu)特征預(yù)測(cè)錯(cuò)義突變(missense mutation)的機(jī)器學(xué)習(xí)方法,SDM則是一種包含了同源蛋白進(jìn)化信息的統(tǒng)計(jì)函數(shù)[27-28]。

      2.2 深度學(xué)習(xí)助力酶工程

      目前人類已經(jīng)從自然界中揭示了上億條蛋白質(zhì)的一級(jí)序列,這個(gè)龐大的數(shù)據(jù)庫(kù)中埋藏了人腦難以理解的蛋白質(zhì)氨基酸排列和進(jìn)化的規(guī)律[29]。計(jì)算機(jī)硬件的飛速發(fā)展允許我們使用深度學(xué)習(xí)網(wǎng)絡(luò)提取其中的特征信息,從而替代傳統(tǒng)機(jī)器學(xué)習(xí)中手工提取特征的方法。蛋白質(zhì)包含冗雜的理化信息,神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的對(duì)象可以是單一蛋白質(zhì)的序列或者結(jié)構(gòu),也可以是整個(gè)蛋白質(zhì)家族的信息。

      語(yǔ)言模型(language model)是自然語(yǔ)言處理領(lǐng)域的核心問(wèn)題,它是能夠基于已有文本預(yù)測(cè)空缺處的字符或詞匯的一類神經(jīng)網(wǎng)絡(luò),能夠?qū)W習(xí)某種語(yǔ)言的語(yǔ)義和語(yǔ)序并生成符合規(guī)則的新語(yǔ)句。蛋白質(zhì)語(yǔ)言模型是這類語(yǔ)言模型在生物化學(xué)領(lǐng)域的遷移應(yīng)用,它將20種天然氨基酸當(dāng)作詞匯,學(xué)習(xí)蛋白質(zhì)一級(jí)序列中的語(yǔ)義和語(yǔ)序規(guī)則,以完成預(yù)測(cè)蛋白質(zhì)功能、結(jié)構(gòu)等下游任務(wù)。Facebook AI團(tuán)隊(duì)[30]在Transformer架構(gòu)基礎(chǔ)上開(kāi)發(fā)了可以直接對(duì)蛋白質(zhì)突變體進(jìn)行非監(jiān)督學(xué)習(xí)(unsupervised learning)的蛋白質(zhì)語(yǔ)言模型ESM-1v。該模型使用的訓(xùn)練集包括9800萬(wàn)條蛋白質(zhì)序列,使用的訓(xùn)練方法為隨機(jī)遮掩(masked training),即輸入經(jīng)過(guò)隨機(jī)遮掩處理的殘缺蛋白質(zhì)序列,令模型通過(guò)未遮掩部分來(lái)預(yù)測(cè)被遮掩部分的殘基類型。這樣的訓(xùn)練方法可以讓模型具備評(píng)估蛋白質(zhì)中氨基酸保守性的能力,即某個(gè)序列中特定殘基類型是否符合自然界中蛋白質(zhì)語(yǔ)言的語(yǔ)義和語(yǔ)序規(guī)則。若突變體相比于野生型更加符合模型學(xué)習(xí)到的規(guī)則,模型就會(huì)對(duì)該突變體給出陽(yáng)性打分。

      特定位置殘基的突變受到整個(gè)自然界蛋白質(zhì)語(yǔ)言規(guī)則的約束,也在進(jìn)化過(guò)程中和鄰近殘基互相產(chǎn)生影響。MSA-Transformer模型通過(guò)編碼同源蛋白質(zhì)的多重序列比對(duì)(MSA)結(jié)果來(lái)學(xué)習(xí)蛋白質(zhì)序列在進(jìn)化過(guò)程中的約束信息[31]。該模型使用的數(shù)據(jù)庫(kù)包含2600萬(wàn)組MSA,平均每個(gè)MSA包含1192條蛋白質(zhì)序列。架構(gòu)上該模型依然以Transformer為基礎(chǔ),但是新增了行注意力(row attention)和列注意力(column attention)兩種軸向注意力機(jī)制來(lái)充分提取MSA中的信息。

      蛋白質(zhì)三級(jí)結(jié)構(gòu)比一級(jí)序列包含更多的信息,尤其是蛋白內(nèi)部氨基酸三維空間互作信息,目前通過(guò)實(shí)驗(yàn)解出的結(jié)構(gòu)約20萬(wàn)條,遠(yuǎn)少于目前已知的序列數(shù)量。AlphaFold2作為深度學(xué)習(xí)模型,能夠以極高的準(zhǔn)確度根據(jù)序列預(yù)測(cè)蛋白質(zhì)三級(jí)結(jié)構(gòu)[32]。ESM-IF1模型使用經(jīng)過(guò)AlphaFold2預(yù)測(cè)的1200萬(wàn)條蛋白質(zhì)序列的結(jié)構(gòu)進(jìn)行訓(xùn)練,根據(jù)蛋白質(zhì)骨架坐標(biāo)預(yù)測(cè)其序列[33]。模型架構(gòu)方面ESM-IF1使用幾何向量感知機(jī)(GVP)來(lái)編碼蛋白質(zhì)三維結(jié)構(gòu),該模塊可以保證編碼信息向量的等變性以及標(biāo)量的不變性[34]。Zhou Bingxin等[35]提出了輕量級(jí)的深度幾何訓(xùn)練模型LGN,從蛋白質(zhì)三級(jí)結(jié)構(gòu)中學(xué)習(xí)適用于多任務(wù)的蛋白質(zhì)表示。LGN在訓(xùn)練過(guò)程中考慮了生物學(xué)的先驗(yàn)知識(shí),具體改進(jìn)包括在訓(xùn)練過(guò)程中給氨基酸類型加入噪聲來(lái)模仿自然界中的隨機(jī)突變,在氨基酸節(jié)點(diǎn)預(yù)測(cè)的損失函數(shù)打分機(jī)制中引入標(biāo)簽平滑來(lái)鼓勵(lì)同類氨基酸之間的置換等。LGN作為輕量級(jí)模型,其參數(shù)量和運(yùn)行時(shí)間遠(yuǎn)小于同類模型,但是該模型在預(yù)測(cè)多種蛋白質(zhì)多點(diǎn)突變fitness任務(wù)上的精度超過(guò)了ESM-IF等同類模型。

      ESM-1v、ESM-IF1和MSA-Transformer等無(wú)監(jiān)督模型不需要經(jīng)過(guò)額外訓(xùn)練即可直接在特定蛋白質(zhì)上執(zhí)行突變體的預(yù)測(cè)任務(wù),但打分的規(guī)則并不是蛋白質(zhì)活性或者穩(wěn)定性等具體指標(biāo),而是突變體相比于野生型是否更加符合模型學(xué)習(xí)到的規(guī)則。這套規(guī)則更多是在從進(jìn)化角度或者更像自然界存在蛋白的角度評(píng)估突變體,對(duì)于那些符合進(jìn)化規(guī)則和更像自然界存在的蛋白的突變模型會(huì)給出更高的打分。我們?cè)诠矓?shù)據(jù)庫(kù)中的25個(gè)代表不同蛋白質(zhì)的單點(diǎn)突變數(shù)據(jù)集[36]上做了測(cè)試,使用的無(wú)監(jiān)督模型除上述三種外還有具有代表性的ProGen2[37]和Tranception[38],結(jié)果顯示25個(gè)數(shù)據(jù)集中,無(wú)監(jiān)督模型在其中15個(gè)數(shù)據(jù)集上的預(yù)測(cè)結(jié)果與實(shí)驗(yàn)值的斯皮爾曼相關(guān)系數(shù)(Spearman correlation)超過(guò)了0.5(表1)。無(wú)監(jiān)督模型沒(méi)有經(jīng)過(guò)額外訓(xùn)練,卻可以在代表不同功能指標(biāo)的多個(gè)數(shù)據(jù)集中取得較好的結(jié)果,是因?yàn)槠鋵W(xué)習(xí)的內(nèi)容是自然界中有關(guān)蛋白質(zhì)構(gòu)成的基礎(chǔ)規(guī)律,這些規(guī)律在一定程度上是和蛋白質(zhì)活性、熱穩(wěn)定性等具體性質(zhì)呈正相關(guān)的。酶工程中在選擇單點(diǎn)位突變位點(diǎn)時(shí),高精度無(wú)監(jiān)督模型的結(jié)果對(duì)于提高陽(yáng)性率有重要參考意義。Alper團(tuán)隊(duì)[39]利用基于結(jié)構(gòu)的卷積神經(jīng)網(wǎng)絡(luò)MutCompute得到10個(gè)PET水解酶的單點(diǎn)突變,實(shí)驗(yàn)證明其中有8個(gè)突變是能提高酶功能的有益突變。經(jīng)過(guò)篩選和組合,該團(tuán)隊(duì)得到了能在1周內(nèi)完全降解大多數(shù)PET制品的五位點(diǎn)突變體[39]。在人工智能的輔助下,酶工程已經(jīng)實(shí)現(xiàn)相比于定向進(jìn)化成本更小、實(shí)驗(yàn)周期更短的改造策略。

      表1 無(wú)監(jiān)督模型在不同數(shù)據(jù)集上預(yù)測(cè)結(jié)果與實(shí)驗(yàn)結(jié)果的相關(guān)性Table 1 Spearman correlation for predicted fitness developed with unsupervised models

      相比無(wú)監(jiān)督學(xué)習(xí),監(jiān)督學(xué)習(xí)(supervised learning)通過(guò)學(xué)習(xí)某個(gè)特定蛋白的突變數(shù)據(jù)(序列和性質(zhì)的對(duì)應(yīng)關(guān)系)可以更加準(zhǔn)確地預(yù)測(cè)該蛋白突變體的性質(zhì)。無(wú)監(jiān)督模型已經(jīng)通過(guò)訓(xùn)練學(xué)習(xí)到了蛋白質(zhì)的編碼方式,因此有監(jiān)督模型引入無(wú)監(jiān)督模型作為編碼模塊可以在準(zhǔn)確預(yù)測(cè)特定蛋白質(zhì)突變體性質(zhì)的同時(shí)保證預(yù)測(cè)結(jié)果符合自然規(guī)律。ESM-1b模型使用34層的Transformer在UR50/S數(shù)據(jù)庫(kù)上進(jìn)行預(yù)訓(xùn)練,然后使用特定蛋白的突變數(shù)據(jù)對(duì)模型進(jìn)行微調(diào)(fine-tune),得到了相比以往方法更高的精度[40]。ECNet是利用進(jìn)化環(huán)境預(yù)測(cè)特定蛋白質(zhì)的突變效果的有監(jiān)督模型,該模型使用無(wú)監(jiān)督模型TAPE編碼蛋白質(zhì)序列特征,并且從MSA中學(xué)習(xí)了殘基之間的進(jìn)化約束。ECNet在多個(gè)數(shù)據(jù)集上表現(xiàn)出高于TAPE模型的預(yù)測(cè)精度,證明MSA中包含的進(jìn)化信息對(duì)預(yù)測(cè)蛋白質(zhì)突變效果有正向作用[41]。SESNet是整合了蛋白質(zhì)序列、MSA和結(jié)構(gòu)信息的有監(jiān)督模型,在多個(gè)數(shù)據(jù)集上的預(yù)測(cè)精度超過(guò)了現(xiàn)有的監(jiān)督學(xué)習(xí)模型[42]。

      監(jiān)督模型往往經(jīng)過(guò)在上千突變體的實(shí)驗(yàn)數(shù)據(jù)上訓(xùn)練后才能達(dá)到可靠的精度,但這些數(shù)據(jù)會(huì)造成巨大的實(shí)驗(yàn)負(fù)擔(dān)。相比之下,無(wú)監(jiān)督模型在完成繁重的預(yù)訓(xùn)練任務(wù)后不再需要額外的數(shù)據(jù),但是預(yù)測(cè)精度大多遠(yuǎn)低于有監(jiān)督模型。SESNet使用大量無(wú)監(jiān)督模型的預(yù)測(cè)結(jié)果對(duì)模型進(jìn)行預(yù)訓(xùn)練(pre-train),之后模型在經(jīng)過(guò)數(shù)十條實(shí)驗(yàn)數(shù)據(jù)微調(diào)后即可以較高的精度對(duì)高點(diǎn)位突變的效果進(jìn)行預(yù)測(cè)。測(cè)試發(fā)現(xiàn)沒(méi)有經(jīng)過(guò)預(yù)訓(xùn)練過(guò)程的監(jiān)督學(xué)習(xí)無(wú)法在使用如此少量的數(shù)據(jù)進(jìn)行訓(xùn)練后達(dá)到同樣高的精度[42]。這套數(shù)據(jù)增強(qiáng)策略降低了使用有監(jiān)督模型的實(shí)驗(yàn)數(shù)據(jù)量需求,對(duì)指導(dǎo)酶改造更具實(shí)踐意義。

      2.3 蛋白質(zhì)的從頭設(shè)計(jì)

      定向進(jìn)化的做法是對(duì)自然界中已經(jīng)存在的天然蛋白質(zhì)進(jìn)行人工突變改造,使其滿足人類工業(yè)生產(chǎn)的需求。而蛋白質(zhì)的從頭設(shè)計(jì)是更加激進(jìn)且前沿的方法,其目的是創(chuàng)造出自然界中不存在的蛋白質(zhì)(或者是沒(méi)有被人類所發(fā)現(xiàn)的)以完成人們所需的生物功能。這類研究的代表是華盛頓大學(xué)的David Baker課題組,以及中國(guó)科技大學(xué)的劉海燕課題組。David Baker課題組設(shè)計(jì)和不斷完善的Rosetta軟件包,在多個(gè)蛋白質(zhì)穩(wěn)定性定向進(jìn)化的案例中取得成功,如中國(guó)科學(xué)院微生物研究所的吳邊團(tuán)隊(duì)[17-18,43]篩選設(shè)計(jì)了耐高溫的PET降解酶,以及可催化其他底物的天冬氨酸酶。Rosetta的核心是一整套基于物理參數(shù)的分子勢(shì)能和統(tǒng)計(jì)勢(shì)能的分子力場(chǎng),其包含了結(jié)構(gòu)生物學(xué)中經(jīng)常提到的氫鍵、鹽橋、溶液可及面積、親疏水性等作用項(xiàng)。早期的蛋白質(zhì)從頭設(shè)計(jì)的主要目標(biāo)是給定模板結(jié)構(gòu),設(shè)計(jì)出能夠折疊出目標(biāo)結(jié)構(gòu)的序列[44]。早在2017年,Baker課題組利用 Rosetta設(shè)計(jì)、Oligo DNA合成技術(shù)以及酵母展示高通量篩選技術(shù),完成了多個(gè)不同結(jié)構(gòu)域的蛋白質(zhì)序列設(shè)計(jì)。劉海燕課題組[45]利用神經(jīng)網(wǎng)絡(luò)力場(chǎng)和隨機(jī)動(dòng)力學(xué)抽樣設(shè)計(jì)出了SCUBA,在此基礎(chǔ)上也完成了一系列給定結(jié)構(gòu)的蛋白質(zhì)序列設(shè)計(jì),并經(jīng)過(guò)了晶體結(jié)構(gòu)的濕實(shí)驗(yàn)驗(yàn)證。在之后的幾年,隨著人工智能技術(shù)的飛速發(fā)展,蛋白質(zhì)從頭設(shè)計(jì)(結(jié)構(gòu)到序列的映射)問(wèn)題成為了許多蛋白質(zhì)結(jié)構(gòu)深度學(xué)習(xí)模型的基準(zhǔn)測(cè)試任務(wù),并以此涌現(xiàn)出一系列的AI模型,能更加快速且準(zhǔn)確地完成基于蛋白質(zhì)骨架結(jié)構(gòu)的序列設(shè)計(jì),如GVP-GNN、ESM-IF1、ProteinMPNN等。這些模型設(shè)計(jì)出來(lái)的序列往往是能夠折疊成所需的蛋白質(zhì)結(jié)構(gòu),不過(guò)絕大多數(shù)都不具有生物催化功能。目前,完全基于結(jié)構(gòu)且設(shè)計(jì)出具有生物催化功能的蛋白質(zhì)成功案例很少,如2018年Baker課題組[46]設(shè)計(jì)了一個(gè)β桶狀蛋白質(zhì),以期實(shí)現(xiàn)GFP的發(fā)光功能,但是最終設(shè)計(jì)出來(lái)的蛋白質(zhì),還是需要人為把發(fā)色團(tuán)分子放進(jìn)桶狀結(jié)構(gòu)內(nèi)才能實(shí)現(xiàn)發(fā)光功能,且發(fā)光強(qiáng)度比野生GFP更弱。一個(gè)里程碑式的研究工作是Baker課題組[47]于2023年設(shè)計(jì)出的一個(gè)熒光素酶:他們開(kāi)發(fā)了一種基于深度學(xué)習(xí)的方法(family-wide hallucination)以生成大量包含不同形狀口袋的蛋白結(jié)構(gòu),利用這一方法設(shè)計(jì)人工熒光素酶可選擇性地催化合成熒光素底物二苯基特拉嗪(DTZ)和2-脫氧腔腸素(h-CTZ)的氧化化學(xué)發(fā)光。其中一種小的(13.9 kDa)和熱穩(wěn)定的酶對(duì)DTZ的催化效率幾乎等同于天然熒光素酶,但底物特異性卻高出許多。整體來(lái)說(shuō),基于結(jié)構(gòu)的蛋白質(zhì)從頭設(shè)計(jì)方法更加具有創(chuàng)新性和新穎性,但同時(shí)成功率也更低,一般需要在萬(wàn)這個(gè)數(shù)量級(jí)的設(shè)計(jì)序列庫(kù)上做篩選才能找到陽(yáng)性序列。這需要有針對(duì)性的高通量篩選實(shí)驗(yàn)方法,且同時(shí)受限于Oligo合成技術(shù)的限制,不能在更長(zhǎng)的蛋白質(zhì)序列上做設(shè)計(jì)合成(一般不超過(guò)200個(gè)氨基酸)。

      另一種蛋白質(zhì)從頭設(shè)計(jì)是基于特定蛋白質(zhì)家族的序列設(shè)計(jì)。其基本的思想是,設(shè)計(jì)出來(lái)的蛋白質(zhì)序列要盡可能地符合目標(biāo)蛋白質(zhì)家族的序列特征。如2020年William P.Russ等[48]利用統(tǒng)計(jì)物理中的波特模型(Potts model)學(xué)習(xí)多序列比對(duì)(MSA)中不同位點(diǎn)的氨基酸共進(jìn)化信息,結(jié)合蒙特卡洛采樣生成了一批具有催化功能的分支酸異構(gòu)酶。 目前在人工智能領(lǐng)域,功能強(qiáng)大的生成式模型,也已經(jīng)被用來(lái)輔助生成具有特定催化功能的蛋白質(zhì)序列以減少后續(xù)突變篩選實(shí)驗(yàn)的序列候選量。2021年Donatas Repecka等[49]利用GAN生成對(duì)抗神經(jīng)網(wǎng)絡(luò),構(gòu)建了ProteinGAN,設(shè)計(jì)并篩選出了最高100多個(gè)位點(diǎn)突變且具有與野生蛋白質(zhì)相似催化功能的蘋(píng)果酸脫氫酶,所有設(shè)計(jì)的序列中大概24%的序列溶解性良好且具有生物催化活性。最新的結(jié)合生成式語(yǔ)言模型的工作中,Salesforce Research的研究人員利用條件生成模型Progen,設(shè)計(jì)并篩選出了具有生物活性且同已知數(shù)據(jù)庫(kù)中的任何蛋白質(zhì)序列相似度低于30%的lysozyme 序列[50],而且其設(shè)計(jì)出來(lái)的序列陽(yáng)性率很高,能夠達(dá)到60%。受益于目前人工智能自然語(yǔ)言處理領(lǐng)域的發(fā)展,蛋白質(zhì)序列可以被看成是一種蛋白質(zhì)語(yǔ)言,這項(xiàng)工作為蛋白質(zhì)從頭設(shè)計(jì)提供了新的思路。蛋白質(zhì)語(yǔ)言模型首先在公共蛋白質(zhì)序列數(shù)據(jù)庫(kù)上進(jìn)行預(yù)訓(xùn)練,模型學(xué)習(xí)到了蛋白質(zhì)序列中氨基酸的排列規(guī)則(類似于蛋白質(zhì)的一種語(yǔ)言規(guī)則),之后其可以對(duì)任何序列是否接近自然序列做出判斷。一般來(lái)說(shuō),更符合自然序列特征的序列,意味著其具有更好的結(jié)構(gòu)折疊能力和更好的表達(dá)能力以及水溶性。在需要對(duì)特定功能的蛋白質(zhì)做設(shè)計(jì)之前,將預(yù)訓(xùn)練模型在這些特定家族的蛋白質(zhì)序列上進(jìn)行微調(diào)(finetune),然后其對(duì)特定功能的蛋白質(zhì)序列具有更準(zhǔn)確的生成和預(yù)測(cè)能力。人工智能領(lǐng)域大熱的diffusion擴(kuò)散生成模型,在蛋白質(zhì)設(shè)計(jì)上的應(yīng)用還主要集中在結(jié)構(gòu)到序列的生成任務(wù)上,如Baker組做的ProteinMPNN,目前還沒(méi)有公開(kāi)的利用diffusion生成模型設(shè)計(jì)出具有生物催化功能的蛋白質(zhì)序列。diffusion模型相對(duì)于傳統(tǒng)的GAN具有更強(qiáng)的生成能力且更容易訓(xùn)練,不過(guò)diffusion模型本身更適合在連續(xù)空間生成,如圖像音頻數(shù)據(jù)等;而蛋白質(zhì)序列生成是個(gè)典型的離散空間生成問(wèn)題,其每個(gè)位點(diǎn)只有20種可能,相對(duì)而言自然語(yǔ)言處理中的GPT式的生成模型更適合蛋白質(zhì)序列生成。GPT類的生成模型天然地可以用到蛋白質(zhì)序列生成任務(wù)上來(lái),2022年Noelia Ferruz等將開(kāi)源的GPT2.0模型框架在蛋白質(zhì)序列數(shù)據(jù)庫(kù)上做了訓(xùn)練,得到了ProtGPT2,作者用AlphaFold2對(duì)生成的蛋白質(zhì)序列進(jìn)行折疊發(fā)現(xiàn),其生成的序列在二級(jí)結(jié)構(gòu)上與天然蛋白質(zhì)相似,且ProtGPT2還生成了自然界中不存在的蛋白質(zhì)結(jié)構(gòu),不過(guò)這些結(jié)果還有待濕實(shí)驗(yàn)的進(jìn)一步驗(yàn)證。

      2.4 人工智能技術(shù)與采樣方法

      使用計(jì)算機(jī)代替高通量篩選方法去探索龐大的序列空間可以大幅度縮小實(shí)驗(yàn)成本,相比定向進(jìn)化方法,高精度的模型可以更快地找到最優(yōu)突變體,從而減少實(shí)驗(yàn)周期。但是蛋白質(zhì)多點(diǎn)位突變的序列空間非常龐大,即便使用計(jì)算方法也無(wú)法完全遍歷,因此需要按照一定方法對(duì)序列空間進(jìn)行采樣。傳統(tǒng)采樣方法包括隨機(jī)突變、貪婪算法和蒙特卡洛模擬退火等[51-52]。其中隨機(jī)突變方法即在序列空間中隨機(jī)采樣,采樣結(jié)果將被計(jì)算方法篩選。這種采樣方法效率較低,并且找到最優(yōu)突變的概率嚴(yán)重依賴采樣數(shù)量。貪婪算法先選擇一批表現(xiàn)較好的突變體作為親本(parent sequences),然后迭代組合這些突變生成子本(children sequences)。該方法可以有效探索高維突變的序列空間,但是探索內(nèi)容受到親本限制,無(wú)法在整個(gè)蛋白質(zhì)的序列空間中進(jìn)行有效檢索。蒙特卡洛方法即在一個(gè)不具有物理意義的玻爾茲曼分布中采樣。該分布的定義為pi=(1/Z)exp (-yi/kT),其中yi是計(jì)算方法對(duì)序列的預(yù)測(cè)結(jié)果,k為常數(shù),T為溫度,Z是歸一化系數(shù)。除以上方法外,Hu等[53]利用貝葉斯優(yōu)化方法指導(dǎo)定向進(jìn)化,將采樣過(guò)程和代理模型迭代優(yōu)化過(guò)程結(jié)合起來(lái),經(jīng)過(guò)4輪迭代,成功在RhlA酶的四點(diǎn)突變序列空間中找到能使產(chǎn)物選擇性提升4.8倍的突變體。Krishnaswamy團(tuán)隊(duì)[54]使用深度學(xué)習(xí)方法對(duì)蛋白質(zhì)進(jìn)行編碼,然后在正則化隱空間中使用梯度上升的方法尋找極大值點(diǎn),被還原到序列空間的采樣結(jié)果將被認(rèn)為是有益突變,但這種方法的有效性還有待在濕實(shí)驗(yàn)層面驗(yàn)證。在計(jì)算機(jī)都無(wú)法遍歷序列空間的情況下,采樣方法直接影響計(jì)算機(jī)找到最優(yōu)突變體的概率。高效、可靠的采樣方法可以讓計(jì)算機(jī)輔助的酶工程更容易找到符合預(yù)期的序列。

      3 結(jié)論與展望

      經(jīng)過(guò)多年的發(fā)展,在酶工程的定向進(jìn)化、理性設(shè)計(jì)、半理性設(shè)計(jì)和人工智能輔助設(shè)計(jì)等不同方面都有重要工作涌現(xiàn)。理性設(shè)計(jì)建立在研究者對(duì)結(jié)構(gòu)以及催化機(jī)理深入了解的基礎(chǔ)上,可以改造酶的選擇性,構(gòu)建野生型不存在的新反應(yīng)。定向進(jìn)化突破了酶工程在酶催化機(jī)理、結(jié)構(gòu)和具體氨基酸替換的影響等方面的知識(shí)壁壘,讓研究者不需要了解蛋白質(zhì)也可以進(jìn)行改造,但定向進(jìn)化方案需要面臨篩選成本過(guò)大和實(shí)驗(yàn)周期過(guò)長(zhǎng)的問(wèn)題。半理性設(shè)計(jì)將序列空間限定在一個(gè)更小也更合理的范圍內(nèi),減少了篩選成本。在合適的采樣方法的引導(dǎo)下,深度神經(jīng)網(wǎng)絡(luò)模型可以在酶的活性、熱穩(wěn)定性甚至是選擇性等功能的改造上給出置信度較高的建議,但作為一種數(shù)據(jù)驅(qū)動(dòng)的計(jì)算方法,其預(yù)測(cè)結(jié)果受到訓(xùn)練集和采樣策略的限制。這些方法雖然原理不同,但可以在具體案例中被結(jié)合起來(lái)。專家在半理性設(shè)計(jì)中提取的特征可以作為機(jī)器學(xué)習(xí)方法的輸入,人工智能建議的陽(yáng)性突變也能被用作定向進(jìn)化的起始位點(diǎn),這些組合都有成功案例。

      目前人工智能輔助酶工程領(lǐng)域正處于飛速發(fā)展階段。各種神經(jīng)網(wǎng)絡(luò)模型正在向更準(zhǔn)確、更高效的方向快速更新迭代。神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)對(duì)象從早期的手工特征逐步變化到以蛋白質(zhì)序列、MSA和結(jié)構(gòu)為主的原生信息,代表著人工智能學(xué)習(xí)高維信息的優(yōu)勢(shì)正在被逐漸放大。為了應(yīng)對(duì)大規(guī)模基因測(cè)序帶來(lái)的蛋白質(zhì)序列數(shù)據(jù)庫(kù)的爆炸式增長(zhǎng),目前最大的蛋白質(zhì)語(yǔ)言模型的參數(shù)量已經(jīng)達(dá)到了150億[55],這類突破是生物、計(jì)算機(jī)和人工智能等多個(gè)學(xué)科交叉深化的結(jié)果。目前酶工程領(lǐng)域的人工智能方法仍然需要在預(yù)測(cè)精度和學(xué)習(xí)蛋白質(zhì)上位性等方面做出突破,具備高泛化能力和快速采樣能力的高性能神經(jīng)網(wǎng)絡(luò)模型將是生化實(shí)驗(yàn)室降低定向進(jìn)化成本與實(shí)驗(yàn)周期的關(guān)鍵工具。酶工程的數(shù)字化計(jì)算設(shè)計(jì)已經(jīng)成為未來(lái)的趨勢(shì)。

      猜你喜歡
      酶工程突變體氨基酸
      顯隱性課程思政在酶工程教學(xué)中的實(shí)踐
      云南化工(2021年10期)2021-12-21 07:33:50
      月桂酰丙氨基酸鈉的抑菌性能研究
      UFLC-QTRAP-MS/MS法同時(shí)測(cè)定絞股藍(lán)中11種氨基酸
      中成藥(2018年1期)2018-02-02 07:20:05
      酶工程精品資源課程建設(shè)的探索與實(shí)踐
      以提高能力為目標(biāo)的《酶工程》教學(xué)改革探索
      CLIC1及其點(diǎn)突變體與Sedlin蛋白的共定位研究
      擬南芥干旱敏感突變體篩選及其干旱脅迫響應(yīng)機(jī)制探究
      一株Nsp2蛋白自然缺失123個(gè)氨基酸的PRRSV分離和鑒定
      Survivin D53A突變體對(duì)宮頸癌細(xì)胞增殖和凋亡的影響
      氨基酸分析儀測(cè)定玉米漿中17種游離氨基酸的不確定度評(píng)定
      义马市| 延津县| 文山县| 浪卡子县| 甘洛县| 儋州市| 高陵县| 阜城县| 峨边| 公安县| 斗六市| 石楼县| 武邑县| 赤壁市| 桐柏县| 黄石市| 迁西县| 桐柏县| 巴中市| 高邮市| 阆中市| 惠安县| 镇安县| 宜宾市| 萨迦县| 南安市| 石首市| 横山县| 平塘县| 剑阁县| 鄂托克前旗| 临漳县| 屏边| 思茅市| 石阡县| 高碑店市| 伊吾县| 伊春市| 南开区| 攀枝花市| 辉南县|