Anthony Mackitz DZISOO,任麗萍,謝詩揚,周雨薇,黃 健*
(1.電子科技大學(xué)生命科學(xué)與技術(shù)學(xué)院 成都610054;2.成都東軟學(xué)院健康醫(yī)療科技學(xué)院 成都611844)
抗體在重大疾病的預(yù)防、診斷與治療中起著至關(guān)重要的作用??贵w相關(guān)基礎(chǔ)與應(yīng)用研究,既具有重大科學(xué)意義,又與國民經(jīng)濟和社會發(fā)展息息相關(guān)??茖W(xué)家對抗體的研究已先后7次獲得了諾貝爾獎。例如,1901年,首枚諾貝爾生理學(xué)與醫(yī)學(xué)獎,授予了德國科學(xué)家馮·貝林,表彰他開創(chuàng)了血清療法,尤其是在治療急性呼吸道傳染病白喉中的成功應(yīng)用。當前,新冠肺炎肆虐全球,康復(fù)患者血漿療法臨危受命,其實質(zhì)是馮·貝林開創(chuàng)的抗體過繼被動免疫療法。又比如,已廣泛使用的新冠病毒IgM/IgG抗體膠體金法快速檢測試劑盒,臨床試驗中的托珠單抗治療新冠肺炎重癥患者,均依賴于1984年榮獲諾貝爾獎的雜交瘤單克隆抗體技術(shù)。
由于抗體既是生物醫(yī)學(xué)科學(xué)研究不可或缺的工具,又是疾病防治的利器,所以抗體產(chǎn)業(yè)迅速發(fā)展壯大。尤其是抗體藥物,已經(jīng)給人類健康與生物醫(yī)藥產(chǎn)業(yè)帶來了革命性變革,不少化學(xué)小分子不能作用的蛋白成為抗體治療的高效藥靶。據(jù)統(tǒng)計,美國FDA批準上市的抗體藥迄今已多達92種,適應(yīng)癥范圍覆蓋了各類腫瘤、多種自身免疫性疾病、眼科及一些罕見病等多個方面,年銷售額約1000億美元。近十年來,全球最暢銷藥物前十強中,抗體藥物占據(jù)半壁以上江山,近年更是屢拔頭籌。例如,治療多種自身免疫病的阿達木單抗,單個品種的年銷售額就已接近200億美元;淘選該單抗所用到的噬菌體展示技術(shù)也獲得2018年諾貝爾獎。
目前,全球正在進行I、II期臨床試驗的抗體藥物超過550種,另有79種已進入開發(fā)的最后階段,再創(chuàng)新高[1]。但是,即便是人源或人源化抗體,即便已進入到臨床試驗階段,最終能夠成功開發(fā)上市的只有15%左右[2]。如何提高抗體開發(fā)的成功率,降低開發(fā)后期失敗帶來的人力、物力、財力的浪費及時間上的耽擱是抗體產(chǎn)業(yè)界想要解決的重大難題。由于二代測序與噬菌體展示抗體技術(shù)的廣泛應(yīng)用[3-5],全球研究機構(gòu)與制藥公司臨床前階段的候選抗體數(shù)以萬計。只有從中找出具有理想藥效、安全性和藥代動力學(xué)特性,并且具有理想的理化特性,滿足生產(chǎn)、制劑工藝各項技術(shù)要求的先導(dǎo)抗體,才能提高后期開發(fā)的成功率。上述過程就是抗體的可開發(fā)性(developability)評估[6]。目前,化學(xué)小分子的成藥性可用簡單成熟的“里賓斯基5規(guī)則”來快速評估[7],但抗體大分子還沒有類似評價標準。因此,如何全面、合理、快速地對海量候選抗體進行可開發(fā)性評估,是抗體藥物開發(fā)領(lǐng)域亟待解決的關(guān)鍵科技問題。本文結(jié)合國內(nèi)外抗體可開發(fā)性評估的研究現(xiàn)狀,聚焦抗體生物信息學(xué)尤其是可開發(fā)性預(yù)測研究的進展,總結(jié)存在的問題,提出可能的解決方案。
抗體藥物開發(fā)是資金與技術(shù)密集型行業(yè),充滿挑戰(zhàn)。一個抗體藥從臨床前到批準,開發(fā)費用超過10億美元[8]。為了降低后期研發(fā)失敗的風險與損失,提高成功率,臨床前階段就要對候選抗體進行可開發(fā)性評估。廣義上,可開發(fā)性評估包括:有效性與安全性、可生產(chǎn)性(manufacturability)、系列理化特性等3個部分[6]。傳統(tǒng)上,開發(fā)者用于篩選抗體的首要標準是抗體與相應(yīng)抗原的親和力,可用酶聯(lián)免疫吸附、石英晶體微天平、表面等離子體共振、功能測試等實驗進行檢測[9];其次是抗體在動物實驗中的藥效、藥代動力學(xué)特性及安全性??缮a(chǎn)性相關(guān)的影響因素主要包括抗體生產(chǎn)細胞系穩(wěn)定性、表達水平、純化回收率、放大生產(chǎn)性能、制劑穩(wěn)定性、生產(chǎn)成本等,是涉及細胞工程、抗體工程、發(fā)酵工程、藥劑學(xué)等相關(guān)大量實驗技術(shù)的系統(tǒng)工程。其中,HEK滴定可測定抗體表達水平,常用來反映可生產(chǎn)性[10]??贵w的有效性、安全性與可生產(chǎn)性主要取決于抗體本身的生物物理與生物化學(xué)特性。因此,對抗體生物物理與生物化學(xué)特性進行測試評估近年來迅速成為研究熱點。相關(guān)實驗方法主要有:差示掃描熒光實驗(TmDSF),反映抗體三維結(jié)構(gòu)的穩(wěn)定性;親和捕獲自相互作用納米顆粒光譜(AC-SINS)、克隆自相互作用生物膜干涉(CSI-BLI)、疏水相互作用色譜(HIC)、直立單層色譜(SMAC)、體積排除色譜(SEC),反映了抗體的粘度、聚集傾向、溶解度等;交叉作用色譜(CIC)、與常見抗原或桿狀病毒顆粒(BVP)的酶聯(lián)免疫吸附試驗、多特異性試劑結(jié)合試驗(PSR),反映了抗體結(jié)合特異性[9-10]。當前,采用多種實驗方法對抗體進行綜合測試已成為一種趨勢。例如,文獻[10]對FDA批準上市或已進入二期或三期臨床試驗的137個抗體進行了12種實驗測定。他們給每項實驗中表現(xiàn)最差的10%的抗體標記一項缺陷,匯總結(jié)果顯示,65%的已獲批抗體無缺陷,而二期臨床試驗中的抗體大多有一項或多項缺陷,提示大規(guī)模綜合實驗測試有助于篩選到可開發(fā)性更高的候選抗體。然而,實驗測試費力、費時、費錢。制藥巨頭默克公司的最新研究結(jié)果認為,要篩選到一個最佳先導(dǎo)抗體,至少要按此實驗流程測試100~1000個抗體分子[9]。因此,要降低抗體藥物研發(fā)成本,加快研發(fā)速度,就需要更多、更好、更全面的生物信息方法用于抗體可開發(fā)性評估。
在生物信息學(xué)研究中,構(gòu)建專業(yè)的數(shù)據(jù)庫和高質(zhì)量的數(shù)據(jù)集是關(guān)鍵的基礎(chǔ)性工作。沒有相應(yīng)的專業(yè)數(shù)據(jù)支持,后續(xù)研究工作很難開展,抗體生物信息學(xué)研究也不例外。1970年,免疫學(xué)家Kabat開風氣之先,構(gòu)建了世界上第一個抗體數(shù)據(jù)庫。目前,全世界商業(yè)的、學(xué)術(shù)的抗體數(shù)據(jù)庫已有幾十個。根據(jù)抗體數(shù)據(jù)庫收錄范圍,可將其分為綜合數(shù)據(jù)庫與專業(yè)數(shù)據(jù)庫。前者如IMGT[11],既包括治療性抗體,又包括其他抗體,甚至還包括T細胞受體、HLA等其他免疫分子。后者如東南大學(xué)開發(fā)的iCAN,專注納米抗體[12];牛津大學(xué)的Thera-SAbDab,只收治療性抗體[13]??贵w數(shù)據(jù)庫研究的一個趨勢是更加專業(yè)化。根據(jù)抗體數(shù)據(jù)庫的主要內(nèi)容,可分為3類[14]。第一類是以抗體基因或蛋白質(zhì)序列為主的數(shù)據(jù)庫,如Kabat、iReceptor[15]等。第二類是以抗體結(jié)構(gòu)為主的數(shù)據(jù)庫,如AbDb等[16]。第三類是以抗體實驗數(shù)據(jù)為主的數(shù)據(jù)庫,如ABBIND[17]等。當前,抗體數(shù)據(jù)庫研究存在的最大問題就是序列、結(jié)構(gòu)、實驗數(shù)據(jù)之間脫節(jié)。因此,數(shù)據(jù)整合是抗體數(shù)據(jù)庫研究的另一發(fā)展趨勢。例如,ABCD數(shù)據(jù)庫嘗試整合抗原與抗體的信息[18],IMGT、abYsis[19]整合了序列與結(jié)構(gòu)信息,SAbDab整合了結(jié)構(gòu)與親和力實驗數(shù)據(jù)信息[20]。盡管如此,抗體領(lǐng)域數(shù)據(jù)整合的嘗試仍不充分,缺乏對序列、結(jié)構(gòu)、實驗數(shù)據(jù)等3類數(shù)據(jù)的有機整合,特別是仍然只關(guān)注抗原抗體結(jié)合的實驗數(shù)據(jù),而忽略了抗體可開發(fā)性相關(guān)實驗得到的抗體生物物理與生物化學(xué)特性的實驗數(shù)據(jù)。
有了數(shù)據(jù)支撐,抗體生物信息分析軟件紛紛問世,相關(guān)軟件或網(wǎng)絡(luò)服務(wù)已有近百種,廣泛用于抗體理化性質(zhì)計算、翻譯后修飾位點及化學(xué)降解位點預(yù)測、序列比對分析、抗體三維空間結(jié)構(gòu)建模、表位與對位預(yù)測、抗體設(shè)計、免疫原性預(yù)測、可開發(fā)性預(yù)測、抗體庫分析與設(shè)計等。最近,文獻[14]對此做了系統(tǒng)的總結(jié)與綜述,這里不再枚舉。值得指出的是,一些通用的生物信息預(yù)測分析軟件,如分子對接軟件、翻譯后修飾位點預(yù)測軟件等,也在抗體生物信息學(xué)研究中廣泛應(yīng)用,我國不少研究組對此皆有貢獻。
抗體可開發(fā)性預(yù)測已經(jīng)成為抗體生物信息學(xué)研究的重要組成部分。2000年,百時美施貴寶公司科學(xué)家Lipper等首次將可開發(fā)性這一術(shù)語用于化學(xué)藥物開發(fā)中的先導(dǎo)化合物選擇與優(yōu)化。直到2012年,麻省理工學(xué)院的Trout課題組才將這一術(shù)語引入抗體藥物研發(fā)領(lǐng)域[21]。他們與諾華公司合作,花了兩年時間測定了12種抗體的長期穩(wěn)定性數(shù)據(jù)??贵w的穩(wěn)定性很大程度上取決于是否容易聚集,而這又主要取決于抗體的疏水相互作用及靜電相互作用。所以,他們根據(jù)全長抗體的結(jié)構(gòu),計算了抗體的凈電荷;又根據(jù)決定簇互補區(qū)的空間結(jié)構(gòu),計算了抗體的空間聚集屬性(spatial aggregation propensity,SAP);然后用這二者定義了可開發(fā)性指數(shù)(developability index,DI)?;谠撝笖?shù),通過回歸模型可定量預(yù)測抗體的聚集傾向與穩(wěn)定性。該方法已集成到工業(yè)級藥物設(shè)計分子模擬計算平臺Discovery StudioTM中,成為業(yè)界進行可開發(fā)性評估的常用生物信息學(xué)方法。遺憾的是,這似乎進一步增加了抗體研發(fā)成本,因為購買該平臺大概需要100萬元人民幣左右。雖然如此昂貴,但該方法基于抗體晶體結(jié)構(gòu)或同源建模形成的理論結(jié)構(gòu)進行計算,其消耗計算資源、速度慢、準確率受理論預(yù)測模型精度的影響大,所以難以對篩選后的抗體文庫進行高通量評估。因此,抗體可開發(fā)性預(yù)測研究的一個發(fā)展趨勢是根據(jù)抗體序列而非空間結(jié)構(gòu)來進行預(yù)測。
龍沙生物的Stallwood課題組采用了寡聚體檢測與高效液相凝膠色譜兩種實驗方法檢測了500多種抗體;經(jīng)過主成分分析后選取了9種與親水性、疏水性、靜電、大小、氫鍵、側(cè)鏈表面積等相關(guān)的氨基酸屬性量表,采用了偏最小二乘、隨機森林、高斯過程、AdaBoost集成學(xué)習等方法建立模型將抗體分成高聚集或低聚集兩類;最終AdaBoost方法獲得了準確率84%的最佳預(yù)測模型[22]。該方法的優(yōu)點是只需要抗體的氨基酸序列,速度快;缺點是不能定量,只能定性,且軟件歸屬龍沙公司,收費使用。2017年,Adimab公司在902個抗體晶體結(jié)構(gòu)數(shù)據(jù)基礎(chǔ)上,采用隨機森林方法建立了根據(jù)抗體序列直接預(yù)測其可變區(qū)每個氨基酸殘基液相可及表面積(SASA)的模型;他們進一步研究了抗體疏水相互作用色譜滯留時間與SASA之間的關(guān)系,使用邏輯回歸實現(xiàn)了只根據(jù)抗體氨基酸序列就能預(yù)測與抗體可開發(fā)性緊密相關(guān)的疏水相互作用[23]。
本課題組將文獻[10]對137個抗體進行的12種實驗測定結(jié)果作為金標準,采用支持向量機訓(xùn)練了僅根據(jù)抗體序列就能夠預(yù)測其是否存在交叉或自身相互作用缺陷的免費網(wǎng)絡(luò)服務(wù)CISI,五折交叉檢驗中準確率達到88.2%,可快速高通量地從一個方面反映抗體的可開發(fā)性[24]。文獻[25]進一步根據(jù)直立單層色譜(SMAC)、體積排除色譜(SEC)、疏水相互作用色譜(HIC)等反映抗體疏水相互作用傾向的實驗數(shù)據(jù),構(gòu)建了基于抗體序列預(yù)測其是否存在疏水相互作用缺陷的免費網(wǎng)絡(luò)服務(wù)SSH,余一法檢驗中準確率達到91.2%。抗體疏水相互作用與其溶解度、聚集傾向等可成藥性質(zhì)密切相關(guān),因此SSH可快速高通量地從另一個方面反映抗體的可開發(fā)性。牛津大學(xué)Deane課題組對比分析了242種臨床I期后抗體與大量二代測序人天然抗體的序列與結(jié)構(gòu),提出了治療性抗體可開發(fā)性評估的5項指導(dǎo)意見:1)決定簇互補區(qū)(CDR)的總長度不能太長或太短;2)CDR附近表面疏水區(qū)不能過大或過??;3) CDR附近正電區(qū)不能過大;4)CDR附近負電區(qū)不能過大;5) 重鏈和輕鏈的凈電荷要對稱。他們給出了相應(yīng)閾值,開發(fā)了免費的網(wǎng)絡(luò)服務(wù)TAP[26]。使用該服務(wù)雖然只需要輸入待預(yù)測抗體重鏈與輕鏈的可變區(qū)序列,但TAP在后臺會進行分子建模與多種結(jié)構(gòu)生物信息學(xué)的計算分析,需要花費較長的時間,不大適用于大規(guī)模的抗體可開發(fā)性評估。
最近,來自全球十余家制藥公司的近二十位學(xué)者共同總結(jié)了治療性抗體結(jié)構(gòu)、異質(zhì)性及可開發(fā)性評估的流程[6]。他們把抗體可開發(fā)性評估分為3大步驟。首先是序列分析,發(fā)現(xiàn)有各種問題的或不必要的氨基酸殘基或序列特征;其次是廣泛檢測抗體的熱穩(wěn)定性、可溶性、粘度、疏水性等各種理化性質(zhì);最后是強制降解實驗[6]。
事實上,各種生物信息學(xué)方法已經(jīng)主導(dǎo)了上述評估流程的第一步。其后兩個步驟,雖然目前仍然以實驗為主,但也提示抗體可開發(fā)性預(yù)測還有很多工作需要進一步開展與深入。目前,可開發(fā)性預(yù)測已經(jīng)成為抗體生物信息學(xué)研究的前沿與熱點,但仍然存在不少問題。例如:1)較多依賴結(jié)構(gòu),影響計算速度,難以勝任二代測序時代抗體庫級可開發(fā)性篩選需求;2)集中在抗體個別的生物物理與生物化學(xué)屬性,如聚集屬性,缺乏對更多實驗方法、更多理化特性及其相互關(guān)系的研究;3)用于學(xué)習與訓(xùn)練的數(shù)據(jù)有限,評價中較多使用交叉驗證或個案說明,獨立數(shù)據(jù)集或?qū)嶒烌炞C不足,真實應(yīng)用場景中的性能與效果有待進一步驗證。
總之,在抗體可開發(fā)性評估領(lǐng)域,急需開展數(shù)據(jù)整合與專業(yè)數(shù)據(jù)庫構(gòu)建,并在此基礎(chǔ)上進行機器學(xué)習輔助的可開發(fā)性預(yù)測研究并實驗驗證。這些工作的開展,不僅可能發(fā)現(xiàn)抗體可開發(fā)性背后從序列到結(jié)構(gòu)到功能的科學(xué)規(guī)律,其專業(yè)數(shù)據(jù)庫及可開發(fā)性預(yù)測工具等平臺也將有助于降低研發(fā)成本,提高抗體藥物的研發(fā)效率,有助于包括新冠肺炎在內(nèi)的各種重大新發(fā)傳染病抗體藥物的開發(fā)[27],具有重要的社會經(jīng)濟意義。