曹 衛(wèi) 潘憲明
(清華大學生命科學院,蛋白質(zhì)科學教育部重點實驗室,北京 100084)
蛋白質(zhì)是生命活動的主要承擔者和體現(xiàn)者,一切生命活動都離不開蛋白質(zhì),了解蛋白質(zhì)功能的基本方法之一是研究其三維結(jié)構(gòu)。高通量測序技術(shù)的發(fā)展使蛋白質(zhì)序列信息呈指數(shù)增長,相對地,蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)的增長速度遠遠低于其序列數(shù)據(jù)的增長速度[1]。蛋白質(zhì)結(jié)構(gòu)主要通過X射線晶體學(X-ray crystallography)、核磁共振(nuclear magnetic resonance, NMR)和冷凍電鏡(cryo-electron microscopy,cryo-EM)等方法解析, 雖然這些方法可以產(chǎn)生高分辨率和高質(zhì)量的蛋白質(zhì)結(jié)構(gòu),但是耗時、昂貴且不適用于所有蛋白質(zhì)。隨著計算領域技術(shù)的進步,人工智能在生物學中的應用日益廣泛,因此,用計算的方法從蛋白質(zhì)序列出發(fā)預測結(jié)構(gòu)是非常必要的。
蛋白質(zhì)結(jié)構(gòu)非常復雜,結(jié)構(gòu)化學家從概念上將蛋白質(zhì)結(jié)構(gòu)分為四個“層次”。一級結(jié)構(gòu)是由氨基酸脫水縮合組成的多肽鏈;二級結(jié)構(gòu)描述了局部區(qū)域的一般三維(3D)形式,這些區(qū)域與蛋白質(zhì)的其余部分獨立地組織成重復出現(xiàn)的結(jié)構(gòu)片段,多肽鏈最主要的局部構(gòu)象是α 螺旋(α helices)和β 片層(β sheets),不規(guī)則形狀也是蛋白質(zhì)結(jié)構(gòu)和功能的重要組成部分,通常稱其為環(huán)區(qū)(loop);三級結(jié)構(gòu)是一條多肽鏈的3D結(jié)構(gòu),即每個原子的3D坐標;四級結(jié)構(gòu)指其亞基之間是如何定向和排列的,也就是說四級結(jié)構(gòu)僅適用于多亞基蛋白質(zhì)[2]。
20 世紀70 年代初期Anfinsen[3]進行的經(jīng)典實驗表明,蛋白質(zhì)正確折疊所需的所有信息均包含在其氨基酸序列中。近50 年來,研究人員在解決蛋白質(zhì)折疊問題上做了諸多嘗試,主要可分為兩大類,分別是基于模板(template-based)和無模板(template-free)的預測方法。
基于模板的結(jié)構(gòu)預測方法,即同源建模方法,首先選擇合適的結(jié)構(gòu)模板,然后將靶標序列與模板結(jié)構(gòu)比對,最后使用分子建模等技術(shù)補充靶標-模板比對中存在的突變、插入和缺失部分的結(jié)構(gòu)。由于蛋白質(zhì)折疊類型的總量有限,且折疊覆蓋率隨著蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)量的增長而增加[4],基于模板的結(jié)構(gòu)預測方法的適用性在不斷增長,根據(jù)可用的蛋白質(zhì)結(jié)構(gòu),基于模板的結(jié)構(gòu)預測方法可以預測大約2/3 蛋白質(zhì)家族的結(jié)構(gòu)[5]。研究表明,基于模板的方法(同源建模和折疊識別)所預測的模型的準確率和生物學實用性均要遠高于使用無模板的方法(從頭預測)[6]。
無模板的結(jié)構(gòu)預測方法適用于預測在蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫(protein data bank,PDB)中找不到同源蛋白質(zhì)的結(jié)構(gòu),由于缺少結(jié)構(gòu)模板,該類方法需要用于生成候選模型的構(gòu)象采樣方法和用于選擇類似天然構(gòu)象的物理能量函數(shù)。構(gòu)象采樣的一個顯著發(fā)展是使用基于片段的組裝方法,它在某些方面連接了基于模板的方法和無模板從頭計算的方法,其中模型是基于已知結(jié)構(gòu)的蛋白質(zhì)中短的連續(xù)主鏈片段(通常長度為3~15個殘基)構(gòu)建的,并使用蒙特卡羅模擬組裝成全長模型。
蛋白質(zhì)結(jié)構(gòu)預測的下一個重大進展是有效利用共進化信息,該方法首先用于識別接觸的殘基對,并進一步擴展以推導殘基距離和二面角分布,所有這些都用作無模板從頭計算的約束[7]?;谏窠?jīng)網(wǎng)絡的學習方法進一步將多序列比對的使用擴展到端到端的蛋白質(zhì)結(jié)構(gòu)預測,2020 年CASP14(critical assessment of structure prediction) 中,Alphafold2在有模板預測和無模板預測蛋白質(zhì)三級結(jié)構(gòu)都有較為出色的表現(xiàn),實現(xiàn)了原子水平上的準確,是一種依賴于PDB 中的多序列比對信息和實驗結(jié)構(gòu)的深度學習算法。相對的,如果蛋白質(zhì)序列在已知數(shù)據(jù)庫中同源性低于30%,進而產(chǎn)生低質(zhì)量的多序列比對信息,最終預測的蛋白質(zhì)3D 結(jié)構(gòu)準確率也會降低,這種現(xiàn)象在2022年的CASP15中依然存在。
蛋白質(zhì)結(jié)構(gòu)預測的最終目標之一是在不依賴實驗數(shù)據(jù)的情況下識別高分辨率預測的蛋白質(zhì)結(jié)構(gòu),對這種高精度的預測需要能夠區(qū)分具有低均方根偏差的非常相似的結(jié)構(gòu)。蛋白質(zhì)折疊理論的基本假設是蛋白質(zhì)結(jié)構(gòu)在天然狀態(tài)下一般具有最低的吉布斯自由能[3]。因此,準確的能量函數(shù)是解決蛋白質(zhì)折疊和蛋白質(zhì)結(jié)構(gòu)預測問題的關(guān)鍵。
科學家們已經(jīng)做了很多工作來捕捉蛋白質(zhì)內(nèi)部的能量相互作用并發(fā)展這些力場。這些勢能的兩個最普遍的類別是基于物理的力場和基于知識的力場?;谖锢淼牧鍪褂梦锢淼幕径蓙斫Y(jié)合其原子之間在原子水平上發(fā)生的所有類型的相互作用(例如范德華力、氫鍵、靜電相互作用等)。最早由 Shneior Lifson 團隊在1960 年代開始,他們擴展模擬有機小分子的分子力學方法到大分子系統(tǒng)[8],開發(fā)了一致力場(consistent force field,CFF)能量函數(shù),這為現(xiàn)今蛋白質(zhì)建模中使用的一些最重要的全原子勢能方法發(fā)展奠定了基礎,包括CHARMM[9]、Amber[10]和ECEPP[11]。然而,由于未考慮溶劑化效應,事實證明它們不足以對溶液中穩(wěn)定的致密蛋白質(zhì)折疊進行熱力學描述,并且無法區(qū)分天然蛋白質(zhì)和錯誤折疊的模型[12]。下一步是在經(jīng)典勢中添加隱式溶劑化項,由此產(chǎn)生的力場可以識別肽或蛋白質(zhì)的天然狀態(tài),但是準確性有限[13]?;谥R的力場需要更少的計算能力,使用統(tǒng)計方法計算結(jié)構(gòu)特征的頻率并將這些頻率轉(zhuǎn)換為自由能貢獻[14],這些勢能采用蛋白質(zhì)的簡化粗粒度模型,同時使用來自PDB 實驗確定的蛋白質(zhì)結(jié)構(gòu)信息,例如TASSER/I-TASSER[15]、ROSETTA[16]、DeepAccNet[17]等?;谥R的力場已成功應用于許多領域,包括折疊識別、從頭算蛋白質(zhì)結(jié)構(gòu)預測、結(jié)構(gòu)模型評估、蛋白質(zhì)-蛋白質(zhì)對接和蛋白質(zhì)穩(wěn)定性預測。然而,蛋白質(zhì)的巨大構(gòu)象空間進行采樣仍然是一個問題,基于知識的力場方法也越來越多地依賴蛋白質(zhì)序列和對應已知蛋白質(zhì)結(jié)構(gòu)的數(shù)據(jù)來解決這個問題。
CASP是一項社區(qū)范圍的實驗,兩年一次,旨在確定和推進從氨基酸序列建模蛋白質(zhì)結(jié)構(gòu)的最新技術(shù)水平,參與者將被邀請?zhí)峤灰唤M尚未公開實驗結(jié)構(gòu)的蛋白質(zhì)模型。CASP最重要的衡量標準是全局距離測試總分(GDT_TS),較高的值表示模型更接近給定的參考結(jié)構(gòu)。這為研究小組提供了測試其蛋白質(zhì)結(jié)構(gòu)預測方法的機會,并向研究團體和軟件用戶提供了對蛋白質(zhì)結(jié)構(gòu)建模最新技術(shù)水平的獨立評估,結(jié)果顯示了過去兩年取得的進展,并揭示了未來應重點關(guān)注的方向。在2022 年的CASP15中,來自世界的162 個小組提交了53 764 個模型,涉及5個預測類別的127個建模目標。
過去幾年見證了蛋白質(zhì)3D 結(jié)構(gòu)建模的突破。這一突破可歸因于兩個主要因素:a. 蛋白質(zhì)序列數(shù)據(jù)庫的非凡增長,以及實驗確定的結(jié)構(gòu)數(shù)據(jù)庫的多產(chǎn)性較低但也在穩(wěn)步增長,這兩種類型的數(shù)據(jù)都可以在公共數(shù)據(jù)庫中獲得;b. 逐步將深度學習中的前沿方法引入成熟的蛋白質(zhì)建模領域。在CASP14中,AlphaFold2預測模型的準確率取得了蛋白質(zhì)結(jié)構(gòu)預測領域突破性進展,隨后改進版本的RoseTTAFold發(fā)布,使科學界可以廣泛使用接近實驗精度的蛋白質(zhì)結(jié)構(gòu)預測工具。CASP15的單體結(jié)構(gòu)預測評估結(jié)果中,Yang-server、UM-TBM 和PEZYFolding位列前三,這些工具都將多個預測算法(包括AlphaFold2)組合到自己的預測算法中并進行整體優(yōu)化排序,這在一定程度上表明,多方法組合優(yōu)化可能是提高整體結(jié)構(gòu)預測準確率的有效方向。
值得注意的是,雖然這些工具不需要模板結(jié)構(gòu),但它們確實依賴于多序列比對信息,低同源性的蛋白質(zhì)序列多序列比對(multiple sequence alignment,MSA)質(zhì)量降低,從而導致最終預測結(jié)構(gòu)的準確率降低。這些算法提供置信度指標,例如pLDDT(predicted local distance difference test)表示預測模型對其在局部距離差異測試的置信度,以及PAE(predicted aligned error)表示有關(guān)殘基對之間相對位置的置信度,為了結(jié)構(gòu)生物學實驗工作者可以更有效地使用蛋白質(zhì)結(jié)構(gòu)預測軟件,針對這些指標的驗證與評估工作也陸續(xù)從跨膜蛋白、中心體和中心粒蛋白以及整個蛋白質(zhì)組等各類蛋白質(zhì)的預測結(jié)果中開展[18]。
蛋白質(zhì)結(jié)構(gòu)預測領域的突破性進展并沒有讓實驗結(jié)構(gòu)生物學過時,而是提供了前所未有的新機會。通過在分子置換中使用AlphaFold2 預測的模型可以有助于解析X 射線或冷凍電鏡結(jié)構(gòu)[19];結(jié)合實驗數(shù)據(jù)與預測模型有助于確定復雜的核孔復合體結(jié)構(gòu)[20];蛋白質(zhì)結(jié)構(gòu)預測可為實驗工作者篩選可能的翻譯后修飾(post-translational modification,PTM)位點[21]。
2022年,AlphaFold PDB中提供了超過 2.14 億個預測的蛋白質(zhì)結(jié)構(gòu),涵蓋了UniProt 數(shù)據(jù)庫中的大部分序列[22],極大地增加了具有蛋白質(zhì)結(jié)構(gòu)的蛋白質(zhì)序列空間的覆蓋范圍,并在結(jié)構(gòu)生物學和結(jié)構(gòu)生物信息學領域提出了新的挑戰(zhàn)和機遇。缺乏蛋白質(zhì)建模經(jīng)驗的研究人員現(xiàn)在可以使用這些模型來解決具有挑戰(zhàn)性的生物學問題,與此同時,模型置信度指標對于做出可靠的解釋仍然至關(guān)重要。這個新的結(jié)構(gòu)數(shù)據(jù)庫和相關(guān)的軟件工具在計算和實驗結(jié)構(gòu)生物學領域引發(fā)了一系列研究,包括優(yōu)化輸入AlphaFold2的多序列比對等。此外,預測結(jié)構(gòu)數(shù)據(jù)庫的出現(xiàn)極大地改變了蛋白質(zhì)結(jié)構(gòu)域的格局,數(shù)百萬個結(jié)構(gòu)域序列可能成為建模良好的結(jié)構(gòu)域結(jié)構(gòu),同時數(shù)據(jù)量的龐大對蛋白質(zhì)結(jié)構(gòu)域分類工作帶來了挑戰(zhàn),在初始AlphaFold PDB的21種模型生物中確定了700 000 個推定的CATH 結(jié)構(gòu)域,但其中49%的結(jié)構(gòu)域因預測模型質(zhì)量和無序區(qū)域被過濾掉[23]。
蛋白質(zhì)結(jié)構(gòu)是研究蛋白質(zhì)功能的基礎,但結(jié)構(gòu)解析方法耗時、昂貴且不適用于所有蛋白質(zhì)。因此,利用計算的方法從蛋白質(zhì)序列出發(fā)預測結(jié)構(gòu)變得非常必要。盡管在蛋白質(zhì)結(jié)構(gòu)預測領域應用深度學習方法給結(jié)構(gòu)生物學帶來了新的機遇,但仍然沒有從理論上解決蛋白質(zhì)折疊的問題。此外,為了識別高分辨率預測的蛋白質(zhì)結(jié)構(gòu),需要使用準確的能量函數(shù)來區(qū)分具有低均方根偏差的非常相似的結(jié)構(gòu)。
現(xiàn)有的工具缺乏關(guān)于蛋白質(zhì)動態(tài)特性的信息,許多蛋白質(zhì)采用對其功能至關(guān)重要的多種構(gòu)象狀態(tài),即結(jié)合其他蛋白質(zhì)、核酸和小分子配體或在功能活性和非活性狀態(tài)之間切換,這對于理解和模擬蛋白質(zhì)的功能狀態(tài)很重要。在這種情況下,深度學習方法也提供了一個可行的方向,首先學習已知結(jié)構(gòu)蛋白質(zhì)樣本的構(gòu)象狀態(tài)以及它們之間可能的轉(zhuǎn)換路徑,訓練完成的模型用于生成實驗上未觀察到但類似于天然的蛋白質(zhì)構(gòu)象來進一步擴展構(gòu)象空間的采樣[24],訓練和測試此類方法的關(guān)鍵將是開發(fā)單鏈蛋白質(zhì)和復合物的生理功能相關(guān)結(jié)構(gòu)的數(shù)據(jù)集。
蛋白質(zhì)復合物結(jié)構(gòu)預測的方法依賴于蛋白質(zhì)之間的共同進化信息,但對于宿主-病原體的相互作用,由于二者屬于不同物質(zhì),進化關(guān)系與源自同一生物體兩種蛋白質(zhì)的進化關(guān)系非常不同,在宿主和致病蛋白之間幾乎無法找到直系同源序列。因此,預測這些復合物的預期準確性要低得多。那么完全從序列出發(fā),不依賴于多序列比對信息的模型開發(fā)將會是跨物種蛋白質(zhì)復合物結(jié)構(gòu)預測的一個可行方案,另一種選擇是利用遷移學習對現(xiàn)有模型進行微調(diào)以適應特定任務,即使在缺乏數(shù)據(jù)的情況下也可以學習復雜的概念,這在主要組織相容性復合體(MHC)受體和肽鏈相互作用的預測已經(jīng)有相關(guān)應用[25]。
基于AI 的結(jié)構(gòu)預測算法的其他應用可能包括模擬翻譯后修飾的結(jié)構(gòu)效應、突變和變異的構(gòu)象后果以及蛋白質(zhì)設計領域的應用,目前,基于深度學習的方法仍然無法解釋氨基酸單點突變對整體蛋白質(zhì)結(jié)構(gòu)的影響[26]。開發(fā)更準確的基于先進人工智能技術(shù)的可靠分子對接算法來模擬蛋白質(zhì)和小分子之間的相互作用,可以促進基于結(jié)構(gòu)的藥物研發(fā)并加速醫(yī)學研究。
隨著端到端機器學習方法得到改進并被更廣泛的結(jié)構(gòu)生物學界所掌握,對很大一部分蛋白質(zhì)及復合物僅從其氨基酸序列進行建模將成為常規(guī),同樣,將這些新方法擴展到預測核酸結(jié)構(gòu),特別是RNA,以及它們與蛋白質(zhì)形成的復合物結(jié)構(gòu)是未來結(jié)構(gòu)預測領域重要的前進方向。要實現(xiàn)這些拓展,一個主要挑戰(zhàn)是整理足夠的實驗數(shù)據(jù)來訓練和驗證機器學習方法。未來計算和實驗方法將更緊密結(jié)合,從冷凍電鏡數(shù)據(jù)中提取大分子復合物結(jié)構(gòu)異質(zhì)性信息,基于AI 的結(jié)構(gòu)預測算法和分子模擬技術(shù)相結(jié)合,CASP在檢驗相關(guān)領域的算法預測結(jié)果中依然會發(fā)揮重要的參考作用。