李建會 楊 寧
人工智能驅(qū)動的科學(xué)研究(AI for Science)是大數(shù)據(jù)時代以機(jī)器學(xué)習(xí)(ML,machine learning)為代表的人工智能技術(shù)與科學(xué)研究深度融合(AI+Science)的產(chǎn)物。作為AI子領(lǐng)域,機(jī)器學(xué)習(xí),特別是深度學(xué)習(xí)技術(shù)以其在理解高維數(shù)據(jù)和解析復(fù)雜系統(tǒng)方面遠(yuǎn)勝人類的優(yōu)勢,成為科學(xué)研究數(shù)字化和自動化轉(zhuǎn)型的中堅(jiān)力量。當(dāng)前,AI for Science在物理學(xué)、生命科學(xué)、材料科學(xué)和地球科學(xué)等領(lǐng)域的知識發(fā)現(xiàn)與成果優(yōu)化方面表現(xiàn)驚人,基于多領(lǐng)域整合和人-機(jī)協(xié)作的數(shù)據(jù)驅(qū)動型科學(xué)發(fā)現(xiàn)模式越來越得到科學(xué)家的認(rèn)可和應(yīng)用。AI for Science不僅加速科學(xué)的發(fā)展,而且反過來,加速發(fā)展的科學(xué)又推動AI的加速發(fā)展。AI與科學(xué)之間的持續(xù)雙向賦能使得AI向著其技術(shù)奇點(diǎn)加速邁進(jìn)。在這個循環(huán)加速的發(fā)展中,數(shù)據(jù)隱私和AI模型可信度及可控性等重要科技倫理問題也引發(fā)社會擔(dān)憂,使得開發(fā)可解釋的AI模型成為焦點(diǎn)議題。在AI領(lǐng)跑科技創(chuàng)新的國際競爭背景下,開展AI for Science的前瞻性規(guī)劃及其資源整合研究對推動我國基礎(chǔ)科研實(shí)力具有非常重要的價(jià)值。
科學(xué)研究的目的之一是做出科學(xué)發(fā)現(xiàn)。AI誕生初期,一些專家便開始嘗試開發(fā)程序以通過機(jī)器進(jìn)行科學(xué)發(fā)現(xiàn)。起初,他們雄心勃勃地認(rèn)為,“學(xué)習(xí)的每一個方面或智力的任何其他特征在原則上都可以被精確地描述,以至于可以制造一臺機(jī)器來模擬它。”①M(fèi)cCarthy J., Minsky M. L., Rochester N, et al. “A proposal for the dartmouth summer research project on artifi‐cial intelligence,august 31,1955”,AI magazine,2006,27(4),p.12.20世紀(jì)40―70年代的傳統(tǒng)AI只服務(wù)于特定的任務(wù),通過邏輯和啟發(fā)式算法實(shí)現(xiàn)游戲、知識表達(dá)、推理和專家系統(tǒng)。此后的30年里,感知機(jī)模型的提出使研究界更加關(guān)注從觀察數(shù)據(jù)中自動提取“規(guī)律”,并開始嘗試為能夠?qū)崿F(xiàn)指定任務(wù)的候選模型搭建一個統(tǒng)一架構(gòu)。進(jìn)入新世紀(jì),“深度學(xué)習(xí)之父”杰弗里·辛頓(Geoffrey Hinton)解決了困擾神經(jīng)網(wǎng)絡(luò)用于表征學(xué)習(xí)的模型過擬合和梯度擴(kuò)散難題,并進(jìn)一步開發(fā)出更高精度的卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNNs)模型AlexNet②Alom M. Z., Taha T. M., Yakopcic C., et al. “The history began from alexnet: A comprehensive survey on deep learning approaches”,arXiv preprint arXiv:1803.01164,2018,pp.1-39.,基于多層次型人工神經(jīng)網(wǎng)絡(luò)(artificial neural network,ANN)的深度學(xué)習(xí)(deep learning,DL)因此成為AI 的新的潮流。作為ML技術(shù)的強(qiáng)大子集,DL更加適應(yīng)多層次結(jié)構(gòu)數(shù)據(jù)的表征學(xué)習(xí)③指將原始數(shù)據(jù)轉(zhuǎn)換成能被機(jī)器學(xué)習(xí)有效開發(fā)的表征,即允許機(jī)器通過簡化復(fù)雜的原始數(shù)據(jù),自動發(fā)現(xiàn)并提取可用于檢測或分類的特征。,成為語音識別、計(jì)算機(jī)視覺、自然語言處理、知識圖譜和自動駕駛的重要方法④LeCun Y.,Bengio Y.,Hinton G.,“Deep learning”,Nature,2015,521(7553),pp.436-444.。
在AI發(fā)展的第一階段,著名的AI專家赫伯特·西蒙(Herbert Simon)就提出了用計(jì)算機(jī)模擬人的創(chuàng)造性思維的想法。為此,西蒙及其研究團(tuán)隊(duì)嘗試用機(jī)器再現(xiàn)歷史上的科學(xué)發(fā)現(xiàn)過程,他們研制了BACON系列程序,這些程序不僅重新發(fā)現(xiàn)了波義耳定律、開普勒行星運(yùn)動第三定律、理想氣體定律等多種定律和函數(shù)關(guān)系,而且還涉及一些定性定律的再發(fā)現(xiàn)、結(jié)構(gòu)模型的再發(fā)現(xiàn)和過程模型的再發(fā)現(xiàn)、以及實(shí)驗(yàn)過程設(shè)計(jì)的再現(xiàn)等方面。他們還設(shè)計(jì)了GLAUBER 程序和DALTON程序等。GLAUBER程序能再發(fā)現(xiàn)酸和堿的概念以及有關(guān)的定性定律;DALTON程序能夠模擬多重化學(xué)反應(yīng),甚至可以應(yīng)用于粒子物理學(xué)和經(jīng)典遺傳學(xué),比如發(fā)現(xiàn)孟德爾(G.Mendel)遺傳學(xué)定律。另外一個科學(xué)再發(fā)現(xiàn)模型是列納特(D.B.Lenat)開發(fā)的AM程序。AM能在初等數(shù)學(xué)和集合論中重新發(fā)現(xiàn)概念和假設(shè),比如發(fā)現(xiàn)加法、乘法、素?cái)?shù)等概念以及哥德巴赫猜想等等?!斑@些再發(fā)現(xiàn)程序使科學(xué)發(fā)現(xiàn)邏輯的研究重新興旺起來,為思考發(fā)現(xiàn)的邏輯是否存在,及其能否作為科學(xué)哲學(xué)合法研究主題問題的研討,提供了新的論域?!雹莘柍蹋骸犊茖W(xué)創(chuàng)造力的機(jī)器發(fā)現(xiàn)研究述評》,《自然辯證法研究》2007年第11期,第40頁。
科學(xué)假說或理論的評價(jià)問題也是早期機(jī)器發(fā)現(xiàn)專家努力的目標(biāo)之一。著名認(rèn)知科學(xué)家薩伽德(P.Thagard)用聯(lián)結(jié)主義方法開發(fā)了ECHO 程序來評判相互競爭的理論假設(shè)的優(yōu)劣問題。ECHO程序?qū)茖W(xué)中許多對立的理論進(jìn)行過對比分析,比如,ECHO對氧化理論和燃素說、進(jìn)化論和神創(chuàng)論、哥白尼天文學(xué)和托勒密天文學(xué)等學(xué)說的優(yōu)劣進(jìn)行了評判。
除了模擬或重建歷史上的科學(xué)發(fā)現(xiàn)過程和對理論假設(shè)進(jìn)行評價(jià)外,機(jī)器發(fā)現(xiàn)還嘗試進(jìn)行真正的科學(xué)發(fā)現(xiàn)。例如:“AUTOCLASS系統(tǒng)通過對紅外光譜的分析,擴(kuò)展了原先主要基于可見光譜分析的恒星分類學(xué);RL系統(tǒng)能發(fā)現(xiàn)有經(jīng)濟(jì)價(jià)值的化學(xué)藥品的致癌性的定性規(guī)律;PRPGOL系統(tǒng)能應(yīng)用于基因變異中化學(xué)因素的發(fā)現(xiàn);GRAFFITI系統(tǒng)在數(shù)論和其他離散數(shù)學(xué)領(lǐng)域中產(chǎn)生的猜想已經(jīng)引發(fā)了數(shù)學(xué)領(lǐng)域?qū)W者的研究興趣;MECHEM系統(tǒng)自動發(fā)現(xiàn)了乙烷氫化裂解反應(yīng)的新機(jī)理;PAULI系統(tǒng)得到了能解釋產(chǎn)生守恒定律的歷史數(shù)據(jù)的新守恒定律;LAGRAMGE 系統(tǒng)發(fā)現(xiàn)了生態(tài)行為的時間定律等?!雹俜柍蹋骸犊茖W(xué)創(chuàng)造力的機(jī)器發(fā)現(xiàn)研究述評》,《自然辯證法研究》2007年第11期,第41頁。早期的機(jī)器發(fā)現(xiàn)研究雖然取得了一系列成果,但由于數(shù)據(jù)、算法和算力的局限性,機(jī)器發(fā)現(xiàn)取得的成果非常有限,進(jìn)一步的發(fā)展需要等待計(jì)算機(jī)在數(shù)據(jù)、算法和算力方面取得突破性進(jìn)展。
隨著數(shù)字化時代到來,計(jì)算機(jī)和高通量實(shí)驗(yàn)儀器成為科學(xué)研究的基本工具。AI不僅模擬感知智能,而且還模擬認(rèn)知智能和決策智能②Xu Y., Liu X., Cao X., et al. “Artificial intelligence: A powerful paradigm for scientific research”, The Innova‐tion,2021,2(4),p.2.。AI通過整合計(jì)算機(jī)科學(xué)、數(shù)學(xué)、神經(jīng)科學(xué)和機(jī)械工程等學(xué)科的思想,具備科學(xué)與技術(shù)的雙重特性。AI帶來的“數(shù)據(jù)、算法、算力”三位一體的計(jì)算方式極大提升了應(yīng)對海量數(shù)據(jù)處理和復(fù)雜系統(tǒng)求解的能力。在數(shù)據(jù)驅(qū)動與模型驅(qū)動兩種方法的有效整合下,AI驅(qū)動的科學(xué)研究——AI for Science模式——在設(shè)計(jì)科研框架、揭示科學(xué)定律和知識、提升數(shù)值模擬速度和準(zhǔn)確度方面取得了巨大的成績。以蛋白質(zhì)三維結(jié)構(gòu)解析為例,傳統(tǒng)的實(shí)驗(yàn)室方法復(fù)雜且難以得出有意義的結(jié)果,AI的應(yīng)用則迅速推進(jìn)了此類研究的進(jìn)展:2014年領(lǐng)域內(nèi)開始通過ML方法預(yù)測蛋白質(zhì)二維結(jié)構(gòu),預(yù)測準(zhǔn)確率在一年間突破80%;2016年AlphaGo以4∶1戰(zhàn)勝頂尖棋手時,AI預(yù)測蛋白三維結(jié)構(gòu)的嘗試也悄然展開③Wang S.,Li W.,Liu S.,et al.“RaptorX-Property:a web server for protein structure property prediction”,Nucle‐ic acids research,2016,44(W1),pp.430-435.,2017年就實(shí)現(xiàn)了以DL方法對蛋白質(zhì)結(jié)構(gòu)氨基酸間空間距離的預(yù)測,并被用以搭建AI預(yù)測系統(tǒng)Alpha Fold;2020年,Alpha Fold 2在第14屆國際蛋白質(zhì)結(jié)構(gòu)預(yù)測競賽(CASP14)中以絕對優(yōu)勢奪冠,引起世界關(guān)注。當(dāng)前,AI for Science的可行性和適應(yīng)性已在更廣泛的應(yīng)用場景中被證實(shí),如藥物和材料設(shè)計(jì)、求解薛定諤方程和控制論方程、加速分子和空間模擬等等,AI正在幫助加快走完科學(xué)研究和技術(shù)創(chuàng)新之間的最后一公里。
值得一提的是,科學(xué)的進(jìn)步也在啟發(fā)機(jī)器學(xué)習(xí)理論(Science for AI),助力神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練方法的持續(xù)迭代。生物學(xué)和神經(jīng)科學(xué)一直是AI發(fā)展的靈感原型,上世紀(jì)中期受生物神經(jīng)細(xì)胞啟發(fā)而設(shè)計(jì)的感知機(jī)(perceptron),是神經(jīng)網(wǎng)絡(luò)模型和現(xiàn)代DL算法的重要基礎(chǔ),前沿的CNNs中神經(jīng)計(jì)算的數(shù)個標(biāo)志也源自哺乳動物視覺皮層單細(xì)胞對視覺輸入的獨(dú)特處理④Holzinger A., “Introduction to machine learning & knowledge extraction (make) ”, Machine learning and knowledge extraction,2019,1(1),pp.1-20.。近年來,大型復(fù)雜系統(tǒng)的對稱性、大規(guī)模自由度、多尺度和多分辨率動態(tài)等特征對科學(xué)仿真和ML技術(shù)提出更高的要求。例如,量子計(jì)算實(shí)現(xiàn)了更高性能的量子機(jī)器學(xué)習(xí),量子增強(qiáng)、量子比特和連續(xù)變量(continuous variable)量子強(qiáng)化了生成模型(generative model)的表達(dá)⑤Dunjko V., Briegel H. J., “Machine learning & artificial intelligence in the quantum domain: a review of recent progress”,Reports on Progress in Physics,2018,81(7):074001,pp.1-116.;統(tǒng)計(jì)力學(xué)的物理分析方法為深度學(xué)習(xí)的表達(dá)、信號傳播和泛化等理論原則提供了概念性解答①Bahri Y., Kadmon J., Pennington J,. et al. “Statistical mechanics of deep learning”, Annual Review of Con‐densed Matter Physics,2020,11,pp.501-528.。此外,用智能材料升級的計(jì)算機(jī)和智能機(jī)器的設(shè)備和芯片,必將大幅度促進(jìn)AI在所有領(lǐng)域的發(fā)展和應(yīng)用,AI研究正在致力于開發(fā)能夠從先前經(jīng)驗(yàn)中自主學(xué)習(xí)的軟件,如ChatGPT4,甚至嘗試實(shí)現(xiàn)全自動的無人研究閉環(huán)②Shahriari B.,Swersky K.,Wang Z.,et al.“Taking the human out of the loop:A review of Bayesian optimization”,Proceedings of the IEEE,2015,104(1),pp.148-175.,將會以智能化搜索和數(shù)字孿生助力科技創(chuàng)新與制造。
可見,兼具跨領(lǐng)域知識和人機(jī)合作創(chuàng)新的“AI+Science”(包含AI for Science和Science for AI)形成了AI和科學(xué)之間的雙向賦能,并將持續(xù)推動二者間的循環(huán)加速發(fā)展。
生命世界具有高度的復(fù)雜性和多樣性,在后基因組時代,生物技術(shù)的數(shù)字化和數(shù)據(jù)驅(qū)動的高性能計(jì)算平臺對生命科學(xué)研究越發(fā)重要。AI技術(shù)提高了探索生物過程及其相關(guān)機(jī)制的效率和精度,引領(lǐng)著生命科學(xué)研究“從顛覆性使能技術(shù)(enabling techonology)創(chuàng)新走向工程化平臺建設(shè)”③趙國屏:《合成生物學(xué):開啟生命科學(xué)“會聚”研究新時代》,《中國科學(xué)院院刊》2018年第11期,第1141頁。。
1.組學(xué)研究
基因是人類生存的密碼,其表達(dá)水平與疾病的篩查、檢測和治療休戚相關(guān)。AI參與進(jìn)行的分子生物學(xué)研究范圍已經(jīng)覆蓋了從基因到表型的關(guān)鍵過程與機(jī)制,研究對象涉及DNA序列、DNA的化學(xué)修飾和開放程度、組蛋白的分布和化學(xué)修飾、RNA及RNA的轉(zhuǎn)錄后修飾、蛋白質(zhì)、代謝通路和代謝產(chǎn)物④Caudai C., Galizia A., Geraci F., et al. “AI applications in functional genomics”, Computational and Structural Biotechnology Journal,2021,19,pp.5762-5790.。DNA序列和DNA在細(xì)胞核內(nèi)的組織方式和折疊狀態(tài)是調(diào)控基因表達(dá)水平的關(guān)鍵因素,通過AI理解基因調(diào)控過程的方法能夠高效全面地整合和解釋高通量測序獲得的組學(xué)信息。例如,基于CNNs的Akita⑤Fudenberg G.,Kelley D.R.,Pollard K.S.,“Predicting 3D genome folding from DNA sequence with Akita”,Na‐ture methods,2020,17(11),pp.1111-1117.僅依靠DNA序列就準(zhǔn)確預(yù)測出基因組的三維空間結(jié)構(gòu),揭示DNA序列如何編碼一個特定基因座的折疊模式,解碼基因組功能?;贒L的Enformer⑥Avsec ?.,Agarwal V.,Visentin D.,et al.“Effective gene expression prediction from sequence by integrating longrange interactions”,Nature methods,2021,18(10),pp.1196-1203.提高了對基因序列表達(dá)及其單個位點(diǎn)變體效應(yīng)的預(yù)測精度,并學(xué)會直接從DNA序列中預(yù)測增強(qiáng)子-啟動子的相互作用,推進(jìn)了疾病-位點(diǎn)映射研究前沿。細(xì)胞對基因擾動的反應(yīng)一直是基因藥物組學(xué)的重要問題,但可能的多基因擾動組合數(shù)量巨大,傳統(tǒng)實(shí)驗(yàn)難以覆蓋,而GEARS方法⑦Roohani Y., Huang K., Leskovec J., “GEARS: Predicting transcriptional outcomes of novel multi-gene perturba‐tions”,BioRxiv,2022,2022.07.12.499735,p.5.實(shí)現(xiàn)了根據(jù)單細(xì)胞RNA測序數(shù)據(jù)預(yù)測細(xì)胞對單基因或多基因擾動的轉(zhuǎn)錄反應(yīng),并泛化到訓(xùn)練集尚未覆蓋的基因擾動,其預(yù)測精度是先前方法的翻倍。
2.智慧醫(yī)療
自然語言處理、計(jì)算機(jī)視覺和數(shù)據(jù)挖掘正在快速推動智慧醫(yī)療的發(fā)展。自然語言處理的著名應(yīng)用案例是IBM Watson平臺開發(fā)的腫瘤專家系統(tǒng)“沃森醫(yī)生”(Doctor Watson),可利用病例、病史和文獻(xiàn)知識儲備提供治療建議,以提高不同病情的診斷率。計(jì)算機(jī)視覺中的許多模型可用于醫(yī)學(xué)圖像的分類、檢測和分割任務(wù),幫助識別異常和診斷疾病。例如,算法對黑色素瘤可疑色素病變的自動識別準(zhǔn)確率與專業(yè)醫(yī)師診斷間的一致性高達(dá)88%①Soenksen L.R.,Kassis T.,Conover S.T.,et al.“Using deep learning for dermatologist-level detection of suspicious pigmented skin lesions from wide-field images”,Science Translational Medicine,2021,13(581):eabb3652,p.1.;針對宮頸癌開發(fā)的AI醫(yī)療工具突破了組織病理學(xué)檢測水平和醫(yī)生個人經(jīng)驗(yàn)的限制,利用臨床數(shù)據(jù)庫提高了篩查效率②Bao H.,Sun X.,Zhang Y.,et al.“The artificial intelligence‐assisted cytology diagnostic system in large‐scale cer‐vical cancer screening: a population‐based cohort study of 0.7 million women”, Cancer medicine, 2020, 9 (18),pp.6896-6906.。醫(yī)療效率方面,基于ML的預(yù)測或預(yù)后模型利用覆蓋遺傳、臨床和人口特征的醫(yī)藥大數(shù)據(jù)平臺,準(zhǔn)確預(yù)測患者的藥物反應(yīng)以指定最佳處方,提高了重度抑郁等疑重癥的診治效率③Taliaz D., Spinrad A., Barzilay R., et al. “Optimizing prediction of response to antidepressant medications using machine learning and integrated genetic, clinical, and demographic data”, Translational psychiatry, 2021, 11 (1),p.381.。精準(zhǔn)醫(yī)療是近年來迅速發(fā)展的新興概念,根據(jù)個體的基因組學(xué)信息、遺傳學(xué)和生活方式等因素,定制個體化的精確診斷、用藥及醫(yī)療方案。隨著對基因-疾病關(guān)系的深入了解,AI技術(shù)在精準(zhǔn)醫(yī)療中的應(yīng)用更加全面,主要涉及基于測序和醫(yī)學(xué)成像的疾病早篩④Dlamini Z.,Francies F.Z.,Hull R.,et al.“Artificial intelligence (AI) and big data in cancer and precision on‐cology”,Computational and structural biotechnology journal,2020,18,pp.2300-2311.,依據(jù)組學(xué)數(shù)據(jù)的靶向藥物選擇⑤Yang Y., Yang J., Shen L., et al. “A multi-omics-based serial deep learning approach to predict clinical out‐comes of single-agent anti-PD-1/PD-L1 immunotherapy in advanced stage non-small-cell lung cancer”,American jour‐nal of translational research,2021,13(2),p.743.,以及基于基因編輯技術(shù)⑥Choi G. C. G., Zhou P., Yuen C. T. L., et al. “Combinatorial mutagenesis en masse optimizes the genome editing activities of SpCas9”,Nature methods,2019,16(8),pp.722-730.和核酸藥物成藥性⑦Wei J., Chen S., Zong L., et al. “Protein–RNA interaction prediction with deep learning: structure matters”,Briefings in bioinformatics,2022,23(1),p.540.的基因治療。
3.藥物研發(fā)
傳統(tǒng)的藥物研發(fā)是一個投入成本高昂且產(chǎn)出高度不確定的復(fù)雜過程,經(jīng)歷信號通路研究,蛋白結(jié)構(gòu)解析,藥物作用位點(diǎn)探索,藥物分子設(shè)計(jì)和發(fā)現(xiàn),以及藥物分子活性優(yōu)化后才能進(jìn)入臨床試驗(yàn)⑧Paul D.,Sanap G.,Shenoy S.,et al.“Artificial intelligence in drug discovery and development”,Drug discovery today,2021,26(1),p.80.。AI通過賦能藥物靶點(diǎn)、藥物分子和二者間親和力(相互作用力)這三個關(guān)鍵層面的研究,正在引領(lǐng)藥物研發(fā),尤其是藥物設(shè)計(jì)、藥物篩選和藥理檢測,走上降本增效的高速路。藥物靶點(diǎn)解析方面,通過采用DL算法,Alpha Fold 2預(yù)測人類蛋白質(zhì)組三維結(jié)構(gòu)的范圍提升至98.5%⑨Tunyasuvunakool K., Adler J., Wu Z., et al. “Highly accurate protein structure prediction for the human pro‐teome”,Nature,2021,596(7873),pp.590-596.,并實(shí)現(xiàn)了對RNA近天然態(tài)結(jié)構(gòu)的高精度優(yōu)化①Xiong P., Wu R., Zhan J., et al. “Pairing a high-resolution statistical potential with a nucleobase-centric sam‐pling algorithm for improving RNA model refinement”,Nature Communications,2021,12(1):2777,pp.1-2.。藥物設(shè)計(jì)與合成方面,2018年提出使用深度神經(jīng)網(wǎng)絡(luò)和符號AI來發(fā)現(xiàn)逆向合成路線②Segler M. H. S., Preuss M., Waller M. P., “Planning chemical syntheses with deep neural networks and symbolic AI”,Nature,2018,555(7698),pp.604-610.,比傳統(tǒng)的計(jì)算機(jī)輔助搜索速度要快30倍,產(chǎn)生的分子數(shù)量幾乎是后者的兩倍。近期,深度圖像生成模型Deep LigBuilder③Li Y., Pei J., Lai L., “Structure-based de novo drug design using 3D deep generative models”, Chemical sci‐ence,2021,12(41),pp.13664-13675.推進(jìn)了基于結(jié)構(gòu)的新藥設(shè)計(jì)和線索優(yōu)化,通過從頭藥物設(shè)計(jì)策略實(shí)現(xiàn)了具有高度藥物親和力的類藥分子的三維構(gòu)象。基于DL模型的AI工具Deep Tox④Mayr A., Klambauer G., Unterthiner T., et al. “DeepTox: toxicity prediction using deep learning”, Frontiers in Environmental Science,2016,3,p.80.通過識別藥物分子的靜態(tài)和動態(tài)特性來預(yù)測分子毒性,在擴(kuò)展藥物篩選維度的同時提升藥物可用性檢測的效率。蛋白-蛋白親和力計(jì)算的主要難題在于蛋白間作用位點(diǎn)的采樣數(shù)量巨大,且蛋白動態(tài)構(gòu)象變化難以用傳統(tǒng)方法描述。對此,AI能夠快速處理復(fù)雜的動態(tài)數(shù)據(jù),擅長高維空間的搜索;神經(jīng)網(wǎng)絡(luò)的高維表示能力也為高效采樣提供了解決方案⑤Wang D., Wang Y., Chang J., et al. “Efficient sampling of high-dimensional free energy landscapes using adap‐tive reinforced dynamics”,Nature Computational Science,2022,2(1),pp.20-29.。關(guān)于蛋白動態(tài)構(gòu)象研究,常用的分子動力學(xué)模擬計(jì)算法受到力場精度和采樣效率的限制而成本過高,而ML模型idp GAN⑥Janson G., Valdes-Garcia G., Heo L., et al. “Direct generation of protein conformational ensembles via machine learning”,Nature Communications,2023,14(1),p.774.實(shí)現(xiàn)了通過模擬數(shù)據(jù)進(jìn)行訓(xùn)練,直接生成物理上真實(shí)的蛋白質(zhì)構(gòu)象集合,還能泛化到訓(xùn)練集以外的構(gòu)象,使得計(jì)算成本可以忽略不計(jì)。
在物理學(xué)領(lǐng)域,ML憑借其自適應(yīng)配置和數(shù)據(jù)處理,特別是圖像重建與分析方面的優(yōu)勢,在相應(yīng)的粒子物理學(xué)、核物理學(xué)、凝聚態(tài)物理學(xué)和宇宙物理學(xué)中都發(fā)揮著重要作用。AI正在幫助加速粒子的模擬與識別。在超級計(jì)算機(jī)上使用馬爾可夫鏈蒙特卡洛模擬方法來研究夸克間強(qiáng)相互作用力的非擾動特性時,難以避免拓?fù)鋬鼋Y(jié)和臨界減速,而DL通過提出和測試新算法克服了此類困難⑦Foreman S., Jin X. Y., Osborn J. C., “Deep Learning Hamiltonian Monte Carlo”, arXiv preprint arXiv:2105.03418,2021,p.1.。不僅如此,ML還可以縮減物理觀測數(shù)據(jù)的方差,通過區(qū)分信號和廣泛的背景事件來優(yōu)化數(shù)據(jù)信噪比和縮短生成數(shù)據(jù)的時間成本⑧Zhang R., Fan Z., Li R., et al. “Machine-learning prediction for quasiparton distribution function matrix ele‐ments”,Physical Review D,2020,101(3):034516,pp.1-19.。核探測方面,傳統(tǒng)探測法通過脈沖信號的不同波形(脈沖信息分布)來進(jìn)行分離與識別,但只能處理單脈沖波,ML通過對波形組合的分類實(shí)現(xiàn)了多脈沖波的特征分析,甚至能夠改進(jìn)和重建算法,使探測效率高且誤差小。凝聚態(tài)物理學(xué)方面,AI模型顯示出捕捉原子間力場(描述原子間的相互作用)的巨大優(yōu)勢,不斷推進(jìn)分子動力學(xué)模擬方法的發(fā)展。一些AI原子間勢模型已經(jīng)被開發(fā)出來,DimeNet⑨Gasteiger J.,Gro? J.,Günnemann S.,“Directional message passing for molecular graphs”,arXiv preprint arXiv:2003.03123,2020,p.9.構(gòu)建定向信息傳遞的神經(jīng)網(wǎng)絡(luò)時,能夠?qū)⒃娱g的鍵長、鍵角、二面角和未連接原子間的相互作用通通加入模型中,以獲得良好的精確度。宇宙物理學(xué)方面,觀測和數(shù)據(jù)分析在天文研究中起著核心作用。除了長期進(jìn)行的銀河數(shù)據(jù)溯源和星系分類,如今基于CNNs的引力波信號實(shí)時檢測和解碼,已經(jīng)能夠在2毫秒內(nèi)重建所有參數(shù),而傳統(tǒng)算法需要幾天時間才能完成同樣的任務(wù)①George D.,Huerta E.A.,“Deep neural networks to enable real-time multimessenger astrophysics”,Physical Re‐view D,2018,97(4):044039,p.20.。此外,已經(jīng)開發(fā)出基于DL的自動智能溯源工具②Lao B., An T., Wang A., et al. “Artificial intelligence for celestial object census: the latest technology meets the oldest science”,arXiv preprint arXiv:2107.03082,2021,pp.1-28.,不僅在操作速度上有很大的優(yōu)勢,而且可以識別傳統(tǒng)軟件和視覺檢查無法檢測到的特殊形式的物體,促進(jìn)人類對宇宙的全面了解。
歷史上,新材料的發(fā)現(xiàn)和工業(yè)應(yīng)用往往需要相當(dāng)長的時間。2011年,美國首次提出材料基因組計(jì)劃(Materials Genome Initiative,MGI),目標(biāo)至少兩倍速地提升了先進(jìn)材料的發(fā)現(xiàn)、開發(fā)、制造和部署的進(jìn)度。在MGI與大數(shù)據(jù)的不斷融合下,數(shù)據(jù)驅(qū)動模型已被視為材料研究中最有前途的方法,AI技術(shù)是獲得成分-結(jié)構(gòu)-工藝-性能關(guān)系的關(guān)鍵③Pollice R., dos Passos Gomes G., Aldeghi M., et al. “Data-driven strategies for accelerated materials design”,Accounts of Chemical Research,2021,54(4),pp.849-860.,甚至有望徹底改變材料科學(xué)。
眾所周知,當(dāng)前形式的化學(xué)元素周期表是在一個世紀(jì)左右的時間里被構(gòu)建出來的,而ML技術(shù)的輔助使得科學(xué)家有可能在幾個小時內(nèi)重建周期表。一個名為Atom2Vec的無監(jiān)督機(jī)器從已知化合物和材料的廣泛數(shù)據(jù)庫中自主學(xué)習(xí)原子的基本屬性,然后在神經(jīng)網(wǎng)絡(luò)中運(yùn)用它們來預(yù)測新材料的詳細(xì)特征,并具有顯著的準(zhǔn)確性④Zhou Q., Tang P., Liu S., et al. “Learning atoms for materials discovery”, Proceedings of the National Academy of Sciences,2018,115(28),pp.6411-6417.。在新興的超材料領(lǐng)域,高分子復(fù)合材料的結(jié)構(gòu)幾何和基本成分決定了對合成設(shè)計(jì)至關(guān)重要的材料參數(shù),二者的組合變化遠(yuǎn)超出傳統(tǒng)試錯法的能力。AI仿真模型則能高效高精度地實(shí)現(xiàn)從分子單體到鏈結(jié)構(gòu)再到大分子團(tuán)聚結(jié)構(gòu)的多尺度建模,以探索聚合物材料的構(gòu)效關(guān)系⑤Luo X., “Subwavelength artificial structures: opening a new era for engineering optics”, Advanced Materials,2019,31(4):1804680,p.1.。同時,借助ML不斷產(chǎn)生的新高分子聚合物數(shù)據(jù),填補(bǔ)了目前數(shù)據(jù)缺乏的問題,最終實(shí)現(xiàn)更高性能的材料合成⑥Goldsmith B.R.,Esterhuizen J.,Liu J.X.,et al.“Machine learning for heterogeneous catalyst design and discov‐ery,AIChE Journal,2018,64(9),p.3553.。大規(guī)模的高質(zhì)量數(shù)據(jù)集是AI技術(shù)擴(kuò)展到材料科學(xué)研究領(lǐng)域的必要設(shè)施,“atomly.net”數(shù)據(jù)庫計(jì)算了超過18萬種無機(jī)化合物的特性,在此基礎(chǔ)上建立的ML模型,實(shí)現(xiàn)了快速預(yù)測幾乎任何給定化合物的形成能量,產(chǎn)生了相當(dāng)好的預(yù)測能力⑦Liang Y., Chen M., Wang Y., et al. “A universal model for the formation energy prediction of inorganic com‐pounds”,arXiv preprint arXiv:2108.00349,2021,p.9.。近十年,拓?fù)洌娮雍吐曌樱┎牧蠎{借奇特的物理特性成為熱電、光學(xué)、催化和能源相關(guān)領(lǐng)域的新寵,而利用高通量方法建立的相關(guān)數(shù)據(jù)庫為加速篩選和實(shí)驗(yàn)發(fā)現(xiàn)新型拓?fù)洳牧系墓δ軕?yīng)用提供了可能⑧Chen X. Q., Liu J., Li J., “Topological phononic materials: Computation and data”, The Innovation, 2021, 2(3):100134,pp.1-3.。
地球演化史研究、氣候變化評估、災(zāi)害事件預(yù)測、自然資源計(jì)算和環(huán)境管理治理等重要地球科學(xué)問題緊密關(guān)聯(lián)著人類的生存生活與社會發(fā)展。然而,地球科學(xué)現(xiàn)象具有明顯的動態(tài)時空結(jié)構(gòu),其變量服從非線性關(guān)系,在不同程度上表現(xiàn)出不完整性、噪聲和不確定性,使得實(shí)驗(yàn)手段難以有效觀測地球系統(tǒng)實(shí)況并探究其子系統(tǒng)之間和內(nèi)部的聯(lián)系①Karpatne A.,Ebert-Uphoff I.,Ravela S.,et al.“Machine learning for the geosciences:Challenges and opportuni‐ties”,IEEE Transactions on Knowledge and Data Engineering,2018,31(8),pp.1544-1554.。當(dāng)前,智能傳感器、圖像可視化和智能反演(intelligent inversion)等計(jì)算建模手段為解決上述難題提供了更多可能,ML算法和模式挖掘技術(shù)的整合正在幫助模擬地質(zhì)演化的極端條件、從觀測中估計(jì)地學(xué)變量并預(yù)測系統(tǒng)走勢、解析地學(xué)數(shù)據(jù)的潛在規(guī)律,以及因果發(fā)現(xiàn)與推理②Toms B.A.,Barnes E.A.,Ebert‐Uphoff I.,“Physically interpretable neural networks for the geosciences:Applica‐tions to earth system variability”,Journal of Advances in Modeling Earth Systems,2020,12(9),pp.1-20.。惰性氣體同位素測年是地球早期物質(zhì)演化史研究的重要途徑,例如,檢測氦在典型地殼巖石中的流失時,主要的巖漿脫氣過程要求高溫低壓的極端反應(yīng)條件,已通過AI技術(shù)實(shí)現(xiàn)了傳統(tǒng)實(shí)驗(yàn)和計(jì)算手段均無法滿足的精度要求,并且通過仿真得到的數(shù)據(jù)與經(jīng)典分子動力學(xué)計(jì)算結(jié)果及實(shí)驗(yàn)數(shù)據(jù)較為一致③Luo H., Karki B., Ghosh D. B., et al. “Diffusional fractionation of helium isotopes in silicate melts”, Geochemi‐cal Perspectives Letters,2021,19,pp.19-22.。天氣預(yù)測方面,已有研究用深度生成模型取代大氣物理方程,實(shí)現(xiàn)了200萬平方公里的大氣層的物理仿真④Ravuri S., Lenc K., Willson M., et al. “Skilful precipitation nowcasting using deep generative models of radar”,Nature,2021,597(7878),pp.672-677.。在基于雷達(dá)的風(fēng)速估算方法來確定大致的降雨范圍上,DL繞開物理?xiàng)l件的約束對未來降雨率進(jìn)行直接預(yù)測。此外,地質(zhì)資源管理方面,自適應(yīng)智能動態(tài)資源規(guī)劃系統(tǒng)的設(shè)計(jì)和應(yīng)用是可持續(xù)自然資源管理的亮眼成果⑤Krishnan S.R., Nallakaruppan M.K., Chengoden R., Koppu S., Iyapparaja M., Sadhasivam J., Sethuraman S.,“Smart Water Resource Management Using Artificial Intelligence—A Review”, Sustainability. 2022, 14(20): 13384,pp.1-28.,AI技術(shù)發(fā)揮其在建模、靈活性、推理和預(yù)測資源需求量方面的顯著優(yōu)勢,在優(yōu)化資源配置的同時最小化運(yùn)營成本,助力可持續(xù)性發(fā)展。
圖靈獎得主吉姆·格雷(Jim Gary)將近代以來的科學(xué)研究劃分為:經(jīng)驗(yàn)范式、理論范式、計(jì)算范式和作為第四范式的數(shù)據(jù)密集型范式。通過引入大數(shù)據(jù)分析,“第四范式”反映了經(jīng)由信息技術(shù)和數(shù)字化技術(shù)賦能科學(xué)研究和發(fā)展的本質(zhì),適用于各科學(xué)領(lǐng)域。作為當(dāng)下科學(xué)實(shí)踐中的一種革命性工具⑥Zdeborová L.,“New tool in the box”,Nature Physics,2017,13(5),pp.420-421.,盡管AI的科學(xué)解釋能力尚不足以生成嚴(yán)格庫恩意義上的顛覆性理論⑦趙云波:《AI預(yù)測可以代替科學(xué)實(shí)驗(yàn)嗎?——以Alpha Fold破解蛋白質(zhì)折疊難題為中心》,《醫(yī)學(xué)與哲學(xué)》2021年第6期,第17—21頁。,但“大數(shù)據(jù)+智能算法”模式已被集中應(yīng)用于實(shí)現(xiàn)自動化、建模、逆向問題和發(fā)現(xiàn),引發(fā)了新一輪科技革命。在2022年首屆科學(xué)智能峰會上,有專家指出AI for Science是建基于應(yīng)用數(shù)學(xué)之上的機(jī)理和數(shù)據(jù)的融合計(jì)算,更將其稱作“科學(xué)研究的第五范式”①張偉:《AI賦能科研“第五范式”引變革》,《中國高新技術(shù)產(chǎn)業(yè)導(dǎo)報(bào)》2022年8月15日,第13版。。對AI for Science新范式全景及其基礎(chǔ)的探討,仍需對更多具體研究領(lǐng)域的典型案例進(jìn)行基本原理和關(guān)鍵技術(shù)分析,但可以確認(rèn)的是,AI for Sci‐ence已然推進(jìn)了科學(xué)發(fā)現(xiàn)進(jìn)程、擴(kuò)展了科學(xué)理解途徑,并帶來了對科技倫理的挑戰(zhàn)。
數(shù)據(jù)驅(qū)動的科學(xué)仿真,也即AI模型,成為重要的科學(xué)發(fā)現(xiàn)手段??茖W(xué)模型是一種具有重要科學(xué)意義的理想化表征②Weisberg M.,“Three kinds of idealization”,The journal of Philosophy,2007,104(12),pp.639-659.,而AI技術(shù)為科學(xué)研究提供了一種以數(shù)據(jù)為中心的科學(xué)仿真和預(yù)測性分析方法。在樸素科學(xué)時代,解決科學(xué)問題的關(guān)鍵在于追問能否觀測并總結(jié)規(guī)律;計(jì)算機(jī)普及后,科學(xué)活動依賴于實(shí)現(xiàn)有效近似的多項(xiàng)式和計(jì)算機(jī)模擬。如今,科學(xué)活動的數(shù)字化使可用數(shù)據(jù)和計(jì)算資源迅速增加,將海量非結(jié)構(gòu)性數(shù)據(jù)轉(zhuǎn)化為形式化的知識成為基本科學(xué)任務(wù)。在算法和算力的強(qiáng)耦合下,AI技術(shù)更頻繁地輔助研究人員創(chuàng)建現(xiàn)實(shí)世界的“數(shù)字孿生”,從混亂數(shù)據(jù)中提取洞見、開發(fā)模型或測試假設(shè)。因此,科學(xué)解謎轉(zhuǎn)型為首先尋找問題背后的可用數(shù)據(jù)和原理。參考藥物研發(fā)領(lǐng)域的進(jìn)展,AI for Science正在走向一種融合物理模型與數(shù)據(jù)的系統(tǒng)處理模式,在實(shí)測數(shù)據(jù)不足的情況下,可以利用高精度物理模型生成的仿真數(shù)據(jù)反過來優(yōu)化和糾正AI模型。對此,ML算法已經(jīng)開發(fā)出基于領(lǐng)域知識和目標(biāo)參數(shù)來模擬復(fù)雜系統(tǒng)的替代模型,例如,通過設(shè)計(jì)蛋白質(zhì)折疊轉(zhuǎn)換網(wǎng)絡(luò)塑造了單體蛋白的多種突變途徑(不改變其四元結(jié)構(gòu)而切換折疊),幫助發(fā)現(xiàn)了更全面的蛋白質(zhì)進(jìn)化機(jī)制及其變體效應(yīng)③Ruan B.,He Y.,Chen Y.,et al.“Design and characterization of a protein fold switching network”,Nature Com‐munications,2023,14(1),p.431.。以Alpha Fold 2的驚人表現(xiàn)為例,當(dāng)前生成式AI已經(jīng)能夠?qū)W習(xí)先驗(yàn)知識和科學(xué)原理,更將“知識”“數(shù)據(jù)”和“模型”有機(jī)結(jié)合起來,以推進(jìn)科學(xué)原理的進(jìn)步。從數(shù)據(jù)分析擴(kuò)展到預(yù)測性分析和規(guī)范性設(shè)計(jì),AI的前景或許不再僅僅是一種高性能工具,AI模型甚至可能成為一種新的知識形式,與人類能夠理解的知識并駕齊驅(qū),共同組成科學(xué)知識。
科學(xué)目的除了真理、解釋和預(yù)測外,也包括科學(xué)理解的重要一環(huán)④De Regt H. W., “Understanding, values, and the aims of science”, Philosophy of Science, 2020, 87 (5),pp.921-932.。AI在科學(xué)理解中已經(jīng)扮演了兩種角色:首先,放大數(shù)據(jù)規(guī)律的“計(jì)算顯微鏡”。例如,用AI自動提取以視頻形式記錄的實(shí)驗(yàn)數(shù)據(jù)中的隱藏變量⑤Chen B., Huang K., Raghupathi S., et al. “Automated discovery of fundamental variables hidden in experimental data”,Nature Computational Science,2022,2(7),pp.433-442.。其次,提供創(chuàng)新靈感的“人工繆斯”。這類啟發(fā)通常來自于⑥Krenn M.,Pollice R.,Guo S.Y.,et al.“On scientific understanding with artificial intelligence”,Nature Reviews Physics,2022,4(12),pp.761-769.:專家對數(shù)據(jù)異常的識別、對ML模型的重新審視(如,通過反事實(shí)解釋打開算法“黑箱”)和對人工自主體(artificial agent)行為及其內(nèi)在獎勵策略的探測,AI對科學(xué)文獻(xiàn)特殊點(diǎn)的自動抓取,以及算法提供的可解釋性解決方案(如,數(shù)學(xué)公式、圖論等)中的新概念。“學(xué)習(xí)”是這個時代AI研究的關(guān)鍵詞,ML本身是關(guān)于理解用來設(shè)計(jì)和開發(fā)算法的智能,其工作流涉及⑦Bengio Y., Courville A., Vincent P., “Representation learning: A review and new perspectives”, IEEE transac‐tions on pattern analysis and machine intelligence,2013,35(8),pp.1798-1828.:從原始數(shù)據(jù)中學(xué)習(xí),提取知識,使其普遍化,對抗維度詛咒,以及破解數(shù)據(jù)背后的解釋要素,以達(dá)到在時間推移中優(yōu)化自身學(xué)習(xí)行為的目的。AI先驅(qū)唐納德·米奇(Donald Michie)曾將機(jī)器學(xué)習(xí)分類為弱機(jī)器學(xué)習(xí)、強(qiáng)機(jī)器學(xué)習(xí)和超機(jī)器學(xué)習(xí)。最后一類不再是輔助性角色,而是作為“理解主體”直接獲得新的科學(xué)見解,并傳授給人類專家。二十世紀(jì)八九十年代,科學(xué)知識社會學(xué)家和認(rèn)知科學(xué)哲學(xué)家就對“AI能否替代科學(xué)家獨(dú)立完成科學(xué)發(fā)現(xiàn)”問題展開過激烈論戰(zhàn)①曾點(diǎn):《人工智能能替代科學(xué)家嗎?——再思STS的一場論戰(zhàn)》,《哲學(xué)分析》2023年第1期,第159—171頁?!,F(xiàn)在,AI工具正在演化出能夠自主學(xué)習(xí)的“AI科學(xué)家”。例如,AI-笛卡爾(AI-Descartes)已然實(shí)現(xiàn)了開普勒行星運(yùn)動第三定律的再發(fā)現(xiàn)②Cornelio C.,Dash S.,Austel V.,et al.“Combining data and theory for derivable scientific discovery with AI-Des‐cartes”,Nature Communications,2023,14(1):1777,pp.1-10.,通過利用符號回歸和邏輯推理尋找方程擬合數(shù)據(jù),該系統(tǒng)得以確定哪些方程最符合背景科學(xué)理論,未來甚至可能自己構(gòu)建背景理論。然而,哲學(xué)家們質(zhì)疑先進(jìn)的計(jì)算方法和理想化模型是否在根本層面上幫助人們獲得新的科學(xué)理解③Potochnik A., “The diverse aims of science”, Studies in History and Philosophy of Science Part A, 2015, 53,pp.71-80.。此類爭議的一個潛在解決方案是開發(fā)可解釋AI(ex‐plainable AI,XAI)④Rudin C., “Stop explaining black box machine learning models for high stakes decisions and use interpretable models instead”,Nature machine intelligence,2019,1(5),pp.206-215.,也即解釋學(xué)習(xí)算法的內(nèi)在邏輯、由學(xué)習(xí)算法產(chǎn)生的模型或基于知識的推理方法的發(fā)展。此外,也有研究建議對人類決策的結(jié)構(gòu)因果模型進(jìn)行形式化處理,并將這些模型中的特征映射到DL方法中⑤Holzinger A., Langs G., Denk H., et al. “Causability and explainability of artificial intelligence in medicine”,Wiley Interdisciplinary Reviews:Data Mining and Knowledge Discovery,2019,9(4):e1312,p.10.。
盡管AI for Science表現(xiàn)出蓬勃生機(jī),但AI生成內(nèi)容(AI generated content)受到ML模型“黑箱”屬性的干擾仍然表現(xiàn)出半客觀性,在數(shù)據(jù)隱私性和決策嚴(yán)謹(jǐn)性方面存在隱患⑥鄧莎莎、李鎮(zhèn)宇、潘煜:《ChatGPT和AI生成內(nèi)容:科學(xué)研究應(yīng)該采用還是抵制》,《上海管理科學(xué)》2023年第2期,第15—20頁。,因而招致科技應(yīng)用在倫理、公平和信任方面的持續(xù)爭議。相關(guān)熱點(diǎn)議題包括但不限于:如何確保AI系統(tǒng)的設(shè)計(jì)和使用方式的道德和社會責(zé)任,并尊重基本的人權(quán)和價(jià)值觀⑦M(jìn)uller H., Mayrhofer M. T., Van Veen E. B., et al. “The ten commandments of ethical medical AI”, Computer,2021,54(07),pp.119-123.?如何確保AI系統(tǒng)是公平的,不會延續(xù)或放大現(xiàn)有的偏見或歧視⑧Angerschmid A., Zhou J., Theuermann K., et al. “Fairness and explanation in ai-informed decision making”,Machine Learning and Knowledge Extraction,2022,4(2),pp.556-579.?如何確保AI系統(tǒng)的透明性和可解釋性,以建立用戶和利益相關(guān)者的信任⑨Holzinger K.,Mak K.,Kieseberg P.,et al.“Can we trust machine learning results?artificial intelligence in safetycritical decision support”,Ercim News,2018 (112),pp.42-43.?以及,面對上述倫理和社會影響,應(yīng)如何制定和實(shí)施有效的政策、法規(guī)和治理框架,并促進(jìn)各方利益相關(guān)者間的對話和合作?目前學(xué)界普遍認(rèn)為,確保研究對象在科研鏈上各環(huán)節(jié)的詳細(xì)記錄的可溯性和可驗(yàn)證性是提高AI模型可信度的重要思路之一。基于該路徑搭建的溯源模型(provenance model)能夠以機(jī)器可讀的方式留存研究歷史檔案①Wittner R.,Mascia C.,Gallo M.,et al.“Lightweight Distributed Provenance Model for Complex Real–world En‐vironments”,Scientific Data,2022,9(1),p.503.,在分布式多機(jī)構(gòu)協(xié)作背景下實(shí)現(xiàn)了對數(shù)據(jù)質(zhì)量的程序化評估。另外,魯棒性和可解釋性是提升可靠性和確保AI系統(tǒng)時刻受控的重要因素。魯棒性的一個可能強(qiáng)化方法是將統(tǒng)計(jì)學(xué)習(xí)與知識表示相結(jié)合②Rudin C., “Stop explaining black box machine learning models for high stakes decisions and use interpretable models instead”,Nature machine intelligence,2019,1(5),pp.206-215.,可解釋性則使人們得以理解和評估AI系統(tǒng)的決策過程,確保AI解決方案的可信度和公平性③Holzinger A., Dehmer M., Emmert-Streib F., et al. “Information fusion as an integrative cross-cutting enabler to achieve robust,explainable,and trustworthy medical artificial intelligence”,Information Fusion,2022,79,pp.263-278.。醫(yī)藥等敏感領(lǐng)域已對可解釋性提出強(qiáng)制性要求,例如,歐洲體外診斷法規(guī)(IVDR)已有明確條例對軟件和AI算法提出要求④Müller H.,Holzinger A.,Plass M.,et al.“Explainability and causability for artificial intelligence-supported medi‐cal image analysis in the context of the European in Vitro Diagnostic Regulation”, New Biotechnology, 2022, 70,pp.67-72.,針對遺傳資源獲取和共享的《名古屋議定書》(Nagoya Protocol)強(qiáng)調(diào)了數(shù)據(jù)的透明度、可追蹤性和可解讀性⑤Martins J., Cruz D., Vasconcelos V., “The Nagoya Protocol and its implications on the EU Atlantic Area coun‐tries”,Journal of Marine Science and Engineering,2020,8(2),p.92.。在具體策略上,還可以考慮對AI模型的結(jié)構(gòu)和訓(xùn)練過程提供清晰的文件和說明,使用可解讀的(interpretable)模型或技術(shù)⑥Rudin C., “Stop explaining black box machine learning models for high stakes decisions and use interpretable models instead”,Nature machine intelligence,2019,1(5),pp.206-215.,以及將模型的輸出和決策過程可視化等。
大數(shù)據(jù)時代,利用多源異構(gòu)的科學(xué)數(shù)據(jù)來推進(jìn)知識前沿的追求激發(fā)了AI技術(shù)與科學(xué)研究的深度融合,但數(shù)據(jù)、知識、模型、算法、算力共同建構(gòu)的AI for Science僅被挖出冰山一角,前路仍遠(yuǎn)。一方面,作為新興技術(shù),ML盡管取得迅猛進(jìn)步,但算法難以解釋因果關(guān)系,相應(yīng)模型敏感于微小的輸入差異以至產(chǎn)生大幅輸出變化,且部分研究領(lǐng)域仍存在低質(zhì)量數(shù)據(jù)。要提高AI在科學(xué)研究中的可信度和可控性,尚需提高AI模型的魯棒性,并在保持準(zhǔn)確率的前提下,降低ML模型對計(jì)算資源的依賴。從可解釋性方面來看,作為科學(xué)理解的要素,前文提及的XAI盡管被視為有前景的技術(shù)出口,但“解釋”的定義和涵蓋解釋各種屬性和維度的結(jié)構(gòu)化格式尚不清晰⑦Vilone G.,Longo L.,“Notions of explainability and evaluation approaches for explainable artificial intelligence”,Information Fusion,2021,76,pp.89-106.,一些ML主導(dǎo)的閉環(huán)研究仍有賴于人類專家的領(lǐng)域知識進(jìn)行概念性理解和決策。
AI for Science已成為全球新前沿,AI協(xié)助的科技創(chuàng)新發(fā)展對國家經(jīng)濟(jì)實(shí)力和國際競爭力具有重大意義。以新材料研發(fā)為例,對材料的利用能力是人類生產(chǎn)力和生產(chǎn)方式的標(biāo)志性體現(xiàn),材料作為“工業(yè)骨骼”為各行業(yè)的技術(shù)進(jìn)步起到基礎(chǔ)性和先導(dǎo)性作用。2014年美國將“材料基因組計(jì)劃”提升為國家戰(zhàn)略,配套建設(shè)了45個材料基因組創(chuàng)新平臺,每個平臺政府投資0.7~1.2億美元,建設(shè)周期5~7年①宿彥京、付華棟、白洋、姜雪、謝建新:《中國材料基因工程研究進(jìn)展》,《金屬學(xué)報(bào)》2020 年第10 期,第1313—1323頁。。包括我國在內(nèi)的多個國家也迅速啟動類似的研究計(jì)劃,爭取在新一輪材料革命中占得先機(jī)。事實(shí)上,針對我國高科技人才短缺和AI生態(tài)系統(tǒng)不成熟的問題,國內(nèi)已擁有良好的AI技術(shù)基礎(chǔ)和全球最龐大的人口市場,突破口在于針對未來發(fā)展趨勢展開前瞻性規(guī)劃和相應(yīng)的基礎(chǔ)研究②陸成寬:《中國科學(xué)院院士楊金龍:讓AI for Science更好服務(wù)國家戰(zhàn)略需求》,《科技日報(bào)》2023年5月22日,第5版。。近期,為落實(shí)國家《新一代人工智能發(fā)展規(guī)劃》,科技部會同自然科學(xué)基金委啟動了“人工智能驅(qū)動的科學(xué)研究”專項(xiàng)部署工作,點(diǎn)名藥物研發(fā)、基因研究、生物育種、新材料研發(fā)等重點(diǎn)領(lǐng)域的科技研發(fā)體系布局??梢?,我國AI for Science發(fā)展的當(dāng)務(wù)之急在于為重大科學(xué)問題研究建設(shè)專用平臺,鼓勵建設(shè)計(jì)算與智算融合的科研生態(tài)體系和更多的開放科學(xué)數(shù)據(jù)。從文章第二部分的案例中發(fā)現(xiàn),AI方法在科學(xué)領(lǐng)域內(nèi)的發(fā)展和普及通常是由一個既定科學(xué)問題推動的,而成功的最佳途徑是AI技術(shù)員在各個科研環(huán)節(jié)與科學(xué)家緊密合作。因此,跨領(lǐng)域融合的科研組織模式與跨學(xué)科重構(gòu)的綜合人才培養(yǎng)是拉動創(chuàng)新平臺建設(shè)與專項(xiàng)研究的重要基礎(chǔ),也是推進(jìn)資源整合和政策合力的重要一環(huán)。首先,需要鼓勵科研人員積極接納和學(xué)習(xí)AI工具和手段,在國家戰(zhàn)略性需求領(lǐng)域的科學(xué)難題上實(shí)現(xiàn)技術(shù)突破,推進(jìn)我國在基礎(chǔ)科研的國際競爭中的主動地位。其次,除了實(shí)現(xiàn)AI技術(shù)創(chuàng)新的人工智能人才,更需要高校建立跨學(xué)科的人才培養(yǎng)體系,通過設(shè)置交叉學(xué)科來培養(yǎng)能夠快速適應(yīng)智能手段,甚至快速將技術(shù)創(chuàng)新轉(zhuǎn)化為實(shí)用科研設(shè)計(jì)的高層次人才。最后,要建設(shè)開放創(chuàng)新的專項(xiàng)智研平臺與公共大數(shù)據(jù)平臺,并制定配套的AI治理原則、數(shù)據(jù)安全規(guī)范和跨學(xué)科交叉研究政策。只有實(shí)現(xiàn)“項(xiàng)目、平臺、人才”三方合力的可持續(xù)發(fā)展聯(lián)合體,才能全面提升我國AI驅(qū)動的科學(xué)研究自主能力與范式變革。
加快新一代AI的發(fā)展是我國的一項(xiàng)關(guān)鍵戰(zhàn)略,旨在促進(jìn)科技發(fā)展,升級各工業(yè)領(lǐng)域,并提高整體生產(chǎn)力。最大限度地發(fā)揮AI在基礎(chǔ)科研領(lǐng)域的潛力,要求更健康的科研體系布局與多方協(xié)作,實(shí)現(xiàn)研究機(jī)構(gòu)、投資者、企業(yè)和市場之間的合作和知識轉(zhuǎn)移??梢栽O(shè)想,在“AI+物理模型+高性能計(jì)算+自動化實(shí)驗(yàn)”的基礎(chǔ)上,以“搜索”為核心的精準(zhǔn)仿真建模和重新設(shè)計(jì)(de novo de‐sign)有望真正實(shí)現(xiàn)“以終為始”——從需求出發(fā)升級工業(yè)設(shè)計(jì)和智能制造,重塑相關(guān)行業(yè)的技術(shù)標(biāo)準(zhǔn)和商業(yè)模式,最終推動我國的制造業(yè)轉(zhuǎn)型和實(shí)體經(jīng)濟(jì)發(fā)展。因此,為更好地利用AI for Sci‐ence帶來的科研范式革命的機(jī)遇,我們應(yīng)當(dāng)鼓勵科學(xué)工作者積極擁抱AI for Science,加快AI for Science的科學(xué)研究平臺建設(shè),挖掘AI for Science在各類科學(xué)研究中的潛力,使AI for Science在科學(xué)研究中最大限度地發(fā)揮作用,更好地服務(wù)國家戰(zhàn)略需求,以增強(qiáng)我國的科學(xué)研究實(shí)力,確保這一領(lǐng)域在國際競爭中處于世界前列。