鄭明月,蔣華良,2
(1. 中國科學院上海藥物研究所,上海 201210;2. 上??萍即髮W免疫化學研究所,上海 201210)
新藥研發(fā)是一項投資大、周期長、風險高的高技術產業(yè)。一個藥物從最初的發(fā)現到上市,再到進入臨床為患者帶來生存獲益,都要經歷大量、嚴格的數據驗證,通常需要花費10 ~ 20年時間,投入金額高達5億 ~ 26億美元。新藥研發(fā)一般包括5個階段:制定研究計劃和制備新化合物階段、藥物臨床前研究階段、藥物臨床研究階段、藥品的申報與審批階段和新藥監(jiān)測階段。
近年來,隨著基因組學、蛋白質組學和生物信息學等現代分子生物學科的迅速發(fā)展,高通量與高內涵篩選、大數據、人工智能(artificial intelligence,AI)等高新技術的涌現,以及產業(yè)政策、資本市場的強力支持,新藥研發(fā)呈現出前所未有的繁榮局面,醫(yī)藥創(chuàng)新迎來“黃金時代”。然而,與快速發(fā)展并行而來的,是日趨殘酷而激烈的競爭局面。當今社會,腫瘤、糖尿病、脂肪肝等慢性復雜性疾病流行,針對這些疾病的新藥研發(fā)難度越來越高,制藥企業(yè)需要投入更多的資金、人力、物力才能產出和以前相當的“first-in-class”藥物,新藥研發(fā)面臨著成本高和收益率下降的“雙重困境”。很顯然,如何提高藥物研發(fā)效率和降低研發(fā)成本是目前制藥企業(yè)新藥研發(fā)面臨的主要挑戰(zhàn)。
新藥研發(fā)的漫漫長路歷來都是“九死一生”,任何環(huán)節(jié)的失敗都可能導致前期投入付諸東流。從18世紀至今,新藥研發(fā)大致經歷了從自然界發(fā)現(18—19世紀)、實驗室合成(20世紀前20年)、隨機篩選(20世紀30—50年代)、基于結構的理性分子設計(20世紀60—80年代),到基于靶點的新藥發(fā)現(20世紀80年代至今)這幾個時代??梢钥吹?,新藥研發(fā)的發(fā)展史也是新藥研發(fā)技術的變革史,新技術的出現給新藥研發(fā)注入了新活力,不斷沖破新藥研發(fā)效率的“天花板”。當前,國際新藥研發(fā)競爭主要集中在藥物靶點的研究上,以至于有了“一個靶點成就一個產業(yè)”的說法。
隨著大數據時代的來臨,AI技術在新藥研發(fā)中應用越來越廣泛,其中靶點發(fā)現和化合物篩選便是AI提效的兩大重要應用場景。制藥巨頭藥明康德、先聲藥業(yè),科技巨頭谷歌、騰訊、百度、華為等紛紛布局AI+新藥研發(fā)賽道,加速了國內新藥研發(fā)。新藥研發(fā)涉及從前期的藥物發(fā)現、臨床前研究到臨床研究各個階段的數據,這些數據的總量是龐大的,形式也是多種多樣的,例如圖片、電子刊物、紙質刊物等等。醫(yī)藥大數據的研究從來不是一件容易的事情,如何在海量研發(fā)原始數據中快速獲取真正有參考價值的“有效數據”,是新藥研發(fā)過程中的一大挑戰(zhàn)。
得益于化合物特性數據規(guī)模的不斷擴大和各類化合物篩選項目的順利推進,深度學習在機器學習算法的基礎上快速崛起,并在新藥研發(fā)領域得到了廣泛應用。例如,2019年Nature Biotechnology報道了利用變分自編碼器與強化學習組合的深度學習神經網絡對受體酪氨酸激酶DDR1新型抑制劑的快速開發(fā)。從數據收集、化合物合成到模型驗證,整個新藥研發(fā)過程僅僅用了46天,深刻展現了深度生成模型在藥物結構設計過程中帶來的“加速度”。然而不可忽略的是,DDR1激酶本身是一個已經得到詳盡研究的藥物靶點,在開發(fā)新的抑制劑方面有豐富的前體信息。對于缺乏充分研究的分子靶點,深度學習模型能否達到同樣顯著的效果有待進一步考察。分子圖像翻譯技術也是大數據與AI應用于藥物研發(fā)領域的一個重要板塊。“分子翻譯”的本質是化學結構式圖像識別(OCSR),關鍵步驟是圖片矢量化后將線條和節(jié)點解釋為鍵和原子,其中涉及圖像分割、圖像細化等技術。由于真實世界中的化學結構圖像不僅大小、格式各異,還可能存在各種噪聲,例如掃描文檔普遍存在的失真問題。如何處理諸如模糊、部分缺失、扭曲變形等問題是OCSR技術的難點。筆者所在的中科院上海藥物所研究團隊開發(fā)的分子翻譯算法能夠從帶有噪聲的圖像中精準地提取化合物結構信息,用于新藥研發(fā)工作者對化學、藥學文獻以及專利數據的自動挖掘和分析。這對于當代生物醫(yī)藥和化學大數據的構建以及后續(xù)AI算法的開發(fā)具有積極意義。
大數據與AI在新藥研發(fā)的各個環(huán)節(jié)都有非常大的應用潛力,從新藥研發(fā)的不同環(huán)節(jié)來看有以下幾點。1)在靶點的篩選與發(fā)現方面,AI通過深度學習技術快速發(fā)現隱藏的藥物與疾病、疾病與基因之間的連接關系,可以縮短靶點發(fā)現周期。2)在化合物合成方面,AI通過模擬小分子化合物的藥物特性,在更短的時間內挑選出最佳模擬化合物進行合成試驗,大幅提高化學合成路線設計速度,以降低操作成本。3)臨床試驗階段是目前AI應用的“卡脖子”環(huán)節(jié),其背后原因主要是生物學復雜性帶來的數據和AI建模兩方面的挑戰(zhàn):數據方面,臨床數據目前難以實現標準化、數字化,涉及患者隱私問題也限制了臨床數據的靈活運用;AI建模方面,化合物與人體靶點反應過程非常復雜,數據穩(wěn)定性和可重復性差,從而影響了AI建模。當前雖然有一些更具臨床相關性的模型,但可用AI進行挖掘的數據依然相對較少。4)在真實世界研究方面,我國尚未形成真正意義上的大數據中心,依然面臨患者在用藥各階段數據收集不全、樣本收集困難等問題,而AI技術是新藥研發(fā)發(fā)展的一大突破口,將為整合、挖掘有價值的研究數據提供便利。
總體來看,大數據與AI技術在新藥研發(fā)領域的前景是光明的,不過受限于生物學的復雜性和臨床數據庫的缺乏,這些技術的應用主要集中在藥物發(fā)現階段。谷歌和斯坦福大學學者共同發(fā)表的一項研究提到,深度學習技術在新藥研發(fā)領域大有可為,而且與生物反應有關的數據量越大,發(fā)現新藥的可能性就越大。未來,只有對有價值的臨床數據進行不斷挖掘、積累、完善,進一步開發(fā)AI模型,大數據和AI技術才能更多地在臨床研究和真實世界研究中發(fā)揮價值,對新藥研發(fā)提速起到更有力的推動作用。
本期“大數據與人工智能賦能新藥研發(fā)”專題,邀請產業(yè)界與學術界多位專家,從不同層面和角度,系統(tǒng)闡述了大數據與AI在新藥研發(fā)中的應用現狀與未來發(fā)展趨勢。
由深圳晶泰科技有限公司馬健博士與生物島實驗室陳紅明博士攜團隊撰寫的《人工智能算法在全新藥物結構設計中的應用進展》,系統(tǒng)介紹了AI算法中的分子深層算法在新藥研發(fā)領域中的研究進展,重點總結了不同的分子表征形式及神經網絡架構的技術細節(jié)及優(yōu)缺點等。文章還指出,分子深層算法擁有從大量數據中學習的能力,以及超越化學直覺的從頭藥物設計的潛力,然而要想使其發(fā)揮充分作用,還有很多工作要做:首先,從頭生成算法的綜合可及性是此類工作的基本挑戰(zhàn)之一;其次,輔助分子生成的逆合成分析、活性預測、藥物的吸收、分布、代謝、排泄和毒性(ADMET)性質預測等的AI方法也需要來自實驗數據的精確反饋。
吉林大學基礎醫(yī)學院朱迅教授與火石創(chuàng)造創(chuàng)始人兼CEO楊紅飛先生攜團隊撰寫了2篇綜述,其中《人工智能在新藥發(fā)現中的應用進展》聚焦新藥發(fā)現,詳細闡述了AI在藥物發(fā)現(包括藥物靶點識別、化合物高通量篩選、預測藥物分子動力學指標、蛋白結構及蛋白配體相互作用預測這4個環(huán)節(jié))中的應用及優(yōu)勢。此外特別指出未來需要更多的高質量化合物數據進行AI研究,包括化合物的體外活性/毒性指數,正確劑量/藥代動力學數據等,以最大化其應用價值?!度斯ぶ悄茉谛滤幯邪l(fā)中的應用現狀與挑戰(zhàn)》重點總結了AI在新藥研發(fā)領域的應用場景和企業(yè)實踐,并探究我國AI賦能新藥研發(fā)面臨的主要挑戰(zhàn),包括數據獲取的挑戰(zhàn)、高質量數據制約以及政策法規(guī)制定的滯后等,這也是未來AI技術更有效應用于新藥研發(fā)需要突破的地方。
由中國藥科大學理學院廖俊教授攜團隊撰寫的《真實世界研究在醫(yī)藥領域的應用及研究方法》一文,指出真實世界研究與隨機對照試驗并行發(fā)展、互為補充,大大提高了患者的生命質量和健康水平。然而,真實世界數據量級大,格式類型復雜,偏倚和混雜控制難,這需要強大的技術支持協(xié)助完成數據清洗和分析過程。
總體來看,以上4篇綜述全面闡述了大數據與AI在新藥研發(fā)領域的應用現狀與未來展望。雖然角度與關注點各異,但殊途同歸,在肯定大數據與AI用于新藥研發(fā)是大勢所趨、臨床所需的同時,也為這些新興技術在新藥研發(fā)中更好地發(fā)揮其價值提供了具體而有前瞻性的建議,對于從事大數據、AI在醫(yī)藥領域落地工作的相關科研技術人員的工作開展具有重要參考和借鑒意義。
生物醫(yī)藥產業(yè)正進入創(chuàng)新跨越新階段,大數據和AI技術已逐漸滲透到新藥研發(fā)的各個環(huán)節(jié),在提升新藥研發(fā)效率、改善患者獲益方面貢獻了不可忽視的力量,成為我國醫(yī)藥加速創(chuàng)新轉型的重要驅動力,推動我國臨床醫(yī)學及其研究步入“大數據時代”。其中,數據、算法和算力是AI技術發(fā)展的基礎要素,而AI又高度依賴于高質量有標識的大數據。近年來,AI在算法和算力方面突飛猛進,發(fā)展前景良好,但也面臨著一些挑戰(zhàn),其中數據是限制AI技術進一步發(fā)展的“卡脖子”環(huán)節(jié)。
未來,如何有效提取和整合可用于AI建模的高質量數據是亟待解決的問題。當前藥物研發(fā)數據依然依賴于擁有龐大數據庫的各大醫(yī)藥公司,如果能夠加大企業(yè)間數據庫的分享力度,有助于實現合作共贏,然而藥物研發(fā)數據的高壁壘、高成本、高機密性影響了制藥企業(yè)對數據貢獻的積極性。此外,基于AI學科的天然優(yōu)勢,進行多學科交叉與融合,也有助于新藥研發(fā)取得更大的創(chuàng)新和突破。
總體來看,技術迭代升級、數據資源共享、學科交叉融合是未來新藥研發(fā)領域發(fā)展的重要方向。道阻且長,行則將至,AI+新藥研發(fā)未來可期。