劉海燕
(中國(guó)科學(xué)技術(shù)大學(xué)生命科學(xué)與醫(yī)學(xué)部,安徽 合肥 230022)
合成生物學(xué)基于對(duì)天然生命體系機(jī)制和規(guī)律認(rèn)識(shí),開(kāi)發(fā)工程化的使能技術(shù)和工具,通過(guò)“設(shè)計(jì)-構(gòu)造-測(cè)試”的閉環(huán)打造人工生物體系,實(shí)現(xiàn)生命科學(xué)研究和生物技術(shù)應(yīng)用中的“建物致知”“建物致用”。從傳統(tǒng)生物工程過(guò)渡到合成生物學(xué),既包含了漸變性的演化,也包含了突變性的躍遷:“漸變性演化”體現(xiàn)在合成生物學(xué)在技術(shù)層面繼承、集成生物分子、網(wǎng)絡(luò)、細(xì)胞乃至有機(jī)體等不同層次的生物工程方法;而“突變性躍遷”的主要體現(xiàn)之一,是“設(shè)計(jì)”環(huán)節(jié)在合成生物學(xué)研究中的重要性顯著增加。后者必然需要相關(guān)“設(shè)計(jì)”能力的大幅提升。
在傳統(tǒng)生物工程中,設(shè)計(jì)問(wèn)題主要通過(guò)利用特定體系的特點(diǎn)和專家的經(jīng)驗(yàn)來(lái)解決,缺乏半定量、定量模型的支撐,難以形成系統(tǒng)的、能夠方便地在不同應(yīng)用場(chǎng)景或不同研究團(tuán)隊(duì)之間遷移推廣的設(shè)計(jì)方法和設(shè)計(jì)技術(shù)。要提升合成生物學(xué)設(shè)計(jì)能力,需要針對(duì)不同層次的生物學(xué)問(wèn)題發(fā)展基于計(jì)算的定量方法和模型;這類以計(jì)算為基礎(chǔ)的模型較少依賴于研究者個(gè)人經(jīng)驗(yàn),可以遷移應(yīng)用于不同場(chǎng)景,從而讓我們能夠以更趨近于現(xiàn)代工程學(xué)的方式來(lái)設(shè)計(jì)人工生物系統(tǒng)。
合成生物學(xué)中的設(shè)計(jì)問(wèn)題面臨不同的尺度??v向來(lái)看:要對(duì)蛋白質(zhì)等分子元件自身結(jié)構(gòu)功能進(jìn)行設(shè)計(jì),核心模型可以只考慮單個(gè)分子;要設(shè)計(jì)分子識(shí)別和組裝,需要使用考慮分子間復(fù)合物或多分子聚集體的模型;要優(yōu)化設(shè)計(jì)細(xì)胞代謝網(wǎng)絡(luò)、信號(hào)調(diào)控網(wǎng)絡(luò)等,則需要能處理多節(jié)點(diǎn)分子互作網(wǎng)絡(luò)的模型。橫向來(lái)看:有的計(jì)算模型只適用于特定的靶標(biāo)分子;有的模型則考慮了某一家族或具有某種特定功能的同類生物大分子(如催化某種類型化學(xué)反應(yīng)的酶);更通用的模型涵蓋的分子類型則更廣泛,如固有無(wú)序蛋白、非編碼RNA等。
本專輯中,多篇文章討論的計(jì)算模型屬于分子或分子間層次。來(lái)自趙國(guó)屏團(tuán)隊(duì)的王晟等[1]聚焦合成生物學(xué)分子元件,從設(shè)計(jì)原理、計(jì)算方法、應(yīng)用等角度,介紹了催化元件、調(diào)控元件、傳感元件的計(jì)算設(shè)計(jì)前沿進(jìn)展。本專輯中另外幾篇論文則從不同角度綜述了酶催化元件的計(jì)算設(shè)計(jì)進(jìn)展。巫瑞波團(tuán)隊(duì)[2]長(zhǎng)期從事酶反應(yīng)機(jī)制的理論模擬;他們的綜述聚焦于酶催化底物、產(chǎn)物的預(yù)測(cè),以及酶設(shè)計(jì)改造。他們匯總比較了酶反應(yīng)相關(guān)數(shù)據(jù)庫(kù)、數(shù)據(jù)驅(qū)動(dòng)的酶反應(yīng)設(shè)計(jì)工具等,著重介紹了深度學(xué)習(xí)在該領(lǐng)域的發(fā)展和應(yīng)用前景。洪亮團(tuán)隊(duì)[3]專長(zhǎng)于人工智能與生命科學(xué)的交叉研究,他們的綜述重點(diǎn)關(guān)注了應(yīng)用于酶工程的人工智能方法?;趯?duì)酶工程的發(fā)展歷程和現(xiàn)狀的分析,他們綜述了可被用于預(yù)測(cè)有益突變、優(yōu)化蛋白質(zhì)穩(wěn)定性、提高催化活性等的深度學(xué)習(xí)方法進(jìn)展。孟巧珍和郭菲[4]則以AlphaFold2為例,對(duì)把蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)方法作為結(jié)構(gòu)“分析器”、突變“篩選器”或者折疊“監(jiān)督器”應(yīng)用于酶智能設(shè)計(jì)進(jìn)行了總結(jié)。
生物體系中最重要的一類分子元件是蛋白質(zhì)??煽康牡鞍踪|(zhì)功能預(yù)測(cè)方法對(duì)合成生物學(xué)元件挖掘具有重要意義。楊躍東團(tuán)隊(duì)[5]長(zhǎng)期從事疾病機(jī)制闡明和藥物靶點(diǎn)發(fā)現(xiàn)等領(lǐng)域的蛋白質(zhì)功能預(yù)測(cè)。他們綜述了殘基水平的結(jié)合位點(diǎn)預(yù)測(cè)和蛋白水平的基因本體論(gene ontology)預(yù)測(cè)等蛋白質(zhì)功能預(yù)測(cè)的最新方法,比較了不同方法的優(yōu)劣并展望了未來(lái)可能的發(fā)展方向。
蛋白質(zhì)功能往往建立在三維結(jié)構(gòu)基礎(chǔ)之上。戚逸飛等[6]的綜述側(cè)重介紹了蛋白質(zhì)結(jié)構(gòu)設(shè)計(jì)的人工智能算法。他們從固定骨架設(shè)計(jì)、可變骨架設(shè)計(jì)和序列結(jié)構(gòu)生成三個(gè)方面總結(jié)了最新算法進(jìn)展??梢灶A(yù)期,單體蛋白質(zhì)結(jié)構(gòu)設(shè)計(jì)問(wèn)題基本解決以后,具有形成特異性復(fù)合物等功能的蛋白的設(shè)計(jì)將成為方法研究的重點(diǎn)。
本專輯中另外兩篇聚焦蛋白質(zhì)結(jié)構(gòu)計(jì)算的綜述都是關(guān)于分子間復(fù)合物的。環(huán)肽用作蛋白-蛋白互作的調(diào)控分子具有獨(dú)特優(yōu)勢(shì)。王凡灝、來(lái)魯華和張長(zhǎng)勝[7]的綜述分析了環(huán)肽與蛋白結(jié)合的結(jié)構(gòu)數(shù)據(jù),介紹了基于分子對(duì)接的虛擬篩選、借助于動(dòng)力學(xué)模擬的設(shè)計(jì)、從頭生成設(shè)計(jì)以及跨膜環(huán)肽設(shè)計(jì)等環(huán)肽計(jì)算方法,展望了人工智能在環(huán)肽設(shè)計(jì)中的應(yīng)用前景。相對(duì)單體蛋白結(jié)構(gòu)預(yù)測(cè),目前對(duì)蛋白質(zhì)復(fù)合物的結(jié)構(gòu)預(yù)測(cè)精度仍然不高,在算法方面有較大的進(jìn)步空間。龔新奇團(tuán)隊(duì)[8]長(zhǎng)期從事該方向的研究。他們的綜述側(cè)重于總結(jié)蛋白質(zhì)復(fù)合物結(jié)構(gòu)預(yù)測(cè)的相關(guān)算法以及介紹最新進(jìn)展。
除通過(guò)穩(wěn)定的三維結(jié)構(gòu)形成分子間復(fù)合物外,細(xì)胞內(nèi)還有大量固有無(wú)序蛋白或蛋白固有無(wú)序區(qū)。它們可以通過(guò)由多價(jià)分子間互作介導(dǎo)的液-液相分離來(lái)調(diào)控生物功能。無(wú)序蛋白聚集失調(diào)被認(rèn)為是引發(fā)神經(jīng)退行性疾病等的可能機(jī)制。韋廣紅團(tuán)隊(duì)[9]長(zhǎng)期開(kāi)展基于多尺度分子力場(chǎng)等物理模型的無(wú)序蛋白聚集機(jī)制研究。他們的綜述重點(diǎn)介紹了神經(jīng)退行性疾病相關(guān)蛋白聚集和液-液相分離的方法和前沿進(jìn)展。他們還討論了相關(guān)微觀機(jī)理的理論和計(jì)算研究結(jié)果,以及預(yù)測(cè)蛋白相分離能力的機(jī)器學(xué)習(xí)方法。
除了以上關(guān)于分子和分子間層次問(wèn)題的計(jì)算模型外,本專輯另外兩篇綜述則分別關(guān)注通路層次和網(wǎng)絡(luò)層次的問(wèn)題。生物合成基因簇包含了特定天然產(chǎn)物合成的完整通路,是合成生物學(xué)極具潛力的元件來(lái)源。寧康團(tuán)隊(duì)[10]在他們的綜述中討論了基于微生物組數(shù)據(jù)發(fā)現(xiàn)新生物合成基因簇的問(wèn)題。他們總結(jié)了相關(guān)數(shù)據(jù)資源和挖掘方法,特別是人工智能方法,展示了新發(fā)掘的生物合成基因簇的多樣性和應(yīng)用潛力。湯超、楊曉靜等[11]則指出,完整的生物功能依賴于能執(zhí)行各種各樣復(fù)雜功能、高精度、可靠、魯棒的分子網(wǎng)絡(luò),發(fā)現(xiàn)網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)、動(dòng)力學(xué)與功能之間關(guān)系,找到生物網(wǎng)絡(luò)的底層設(shè)計(jì)規(guī)律是系統(tǒng)生物學(xué)和合成生物學(xué)的巨大挑戰(zhàn)。他們歸納了天然網(wǎng)絡(luò)中的拓?fù)?功能關(guān)系,介紹了系統(tǒng)生物學(xué)的相關(guān)理論成果,進(jìn)而總結(jié)了近年來(lái)合成生物學(xué)功能網(wǎng)絡(luò)拓?fù)湓O(shè)計(jì)的研究進(jìn)展。
綜上,可用于合成生物學(xué)設(shè)計(jì)問(wèn)題的計(jì)算生物學(xué)模型紛繁多樣,難以在簡(jiǎn)短篇幅內(nèi)逐一介紹。為了概括不同模型的原理,我們可以考慮根據(jù)建立計(jì)算模型的主要依據(jù)類型,對(duì)不同計(jì)算生物學(xué)模型進(jìn)行粗略分類。計(jì)算模型建立的依據(jù)可以包括物理原理(基于物理原理的模型)、假設(shè)或經(jīng)驗(yàn)規(guī)則(基于規(guī)則的模型)、實(shí)驗(yàn)數(shù)據(jù)(數(shù)據(jù)驅(qū)動(dòng)的模型)等。以蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)、設(shè)計(jì)為例:描述分子能量與分子結(jié)構(gòu)依賴關(guān)系的分子力場(chǎng)屬于典型的基于物理原理的經(jīng)驗(yàn)?zāi)P?;用深度學(xué)習(xí)預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)的AlphaFold2則是典型的數(shù)據(jù)驅(qū)動(dòng)模型。對(duì)于生物體系,目前基于物理原理或基于規(guī)則的模型類型相對(duì)比較有限,而數(shù)據(jù)驅(qū)動(dòng)模型類型最多。數(shù)據(jù)驅(qū)動(dòng)模型覆蓋的問(wèn)題范圍也十分廣泛,如前述綜述中提到的數(shù)據(jù)驅(qū)動(dòng)的元件設(shè)計(jì)優(yōu)化、基于組學(xué)數(shù)據(jù)的分子元件發(fā)現(xiàn)和結(jié)構(gòu)功能預(yù)測(cè)等。
作為目前最前沿的數(shù)據(jù)驅(qū)動(dòng)建模技術(shù),人工智能(artificial intelligence或AI)在生物計(jì)算中的應(yīng)用非常廣泛。盡管目前對(duì)“人工智能“一詞所涵蓋技術(shù)的范圍并沒(méi)有公認(rèn)的明確定義,美國(guó)食品藥品管理局2023年5月發(fā)布的關(guān)于人工智能/機(jī)器學(xué)習(xí)與藥物開(kāi)發(fā)的討論文件中的定義可作為有價(jià)值的參考。在該文件中,人工智能被定義為“用算法或模型來(lái)執(zhí)行任務(wù)并表現(xiàn)出如學(xué)習(xí)、做出決策、做出預(yù)測(cè)等行為的一個(gè)計(jì)算機(jī)科學(xué)、統(tǒng)計(jì)學(xué)、工程學(xué)的分支”。同時(shí),“機(jī)器學(xué)習(xí)”(machine learning或ML)被定義為“人工智能的一個(gè)子集”,“用數(shù)據(jù)和算法不通過(guò)顯式編程地去模擬人類怎樣學(xué)習(xí)”。進(jìn)一步地,深度學(xué)習(xí)(deep learning或DL)被歸為人工智能/機(jī)器學(xué)習(xí)的子領(lǐng)域。無(wú)可爭(zhēng)議,深度學(xué)習(xí)是最近十余年人工智能領(lǐng)域最重大的突破。正如我們從本專輯中多篇關(guān)于蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)和蛋白質(zhì)設(shè)計(jì)問(wèn)題的綜述所看到的,在數(shù)據(jù)充分、算法恰當(dāng)?shù)那闆r下,最新的深度學(xué)習(xí)技術(shù)能夠以前有未有的方式提升我們對(duì)復(fù)雜生物大分子序列、結(jié)構(gòu)、功能的預(yù)測(cè)和設(shè)計(jì)能力。元件層次預(yù)測(cè)、設(shè)計(jì)能力的提升將會(huì)很快被傳遞應(yīng)用于對(duì)網(wǎng)絡(luò)、細(xì)胞的設(shè)計(jì)。與此同時(shí),在計(jì)算機(jī)和信息科學(xué)領(lǐng)域內(nèi)部,人工智能技術(shù)本身仍在快速迭代發(fā)展之中。我們預(yù)期,人工智能技術(shù)與計(jì)算生物學(xué)方法以及合成生物學(xué)應(yīng)用問(wèn)題的融合將越來(lái)越廣泛、越來(lái)越緊密,從而不僅在分子元件層次,還會(huì)在網(wǎng)絡(luò)、細(xì)胞等層次帶來(lái)算法能力的大幅提升。可以說(shuō),與深度學(xué)習(xí)等人工智能技術(shù)的結(jié)合,正在開(kāi)啟生物計(jì)算設(shè)計(jì)的新篇章。