晁晨航,呂萍,洪鑫
浙江大學化學系,杭州 310027
我是論文A,目前住在期刊O中。這里的生活實在是冷清,從被發(fā)表到現(xiàn)在只有不到200人來看過我,引用我的人就更是屈指可數(shù)。別看我現(xiàn)在這個樣子,兩年前的我也曾是家中驕子。為了我的誕生,父親夜以繼日地在實驗臺上奮斗2年有余,嘗試了上百個反應,寫完了幾本實驗記錄本,終于完成了我的數(shù)據(jù)積累。在我誕生之后,我也曾被寄予厚望,希望能有個好去處。然而諸事不順,兜兜轉轉最終我落腳在期刊O,過上了現(xiàn)在的生活。令我感到比較惋惜的是,這么多實驗積累的數(shù)據(jù)一直無人問津。如果有人能夠把它們利用起來,那也不枉費父親的一番心血。
某日,正當我準備休息時,突然出現(xiàn)一位不速之客。與其他關注我正文內容的讀者不同,他匆匆掃過我的摘要部分,便將目光鎖定在支持信息部分。底物、催化劑、添加劑、反應條件、產率、ee值等信息,無一例外全被他收入囊中。似乎對他來說,數(shù)據(jù)本身比我的文章結論更重要?!皵?shù)據(jù)夠多夠全,這次收獲頗豐啊!機器學習模型又可以練得更強了!”對方欣慰地感慨。
“機器學習?”我聽父親提起過,不過那是他在感嘆計算機熱潮時隨口發(fā)的牢騷,“有本事讓人工智能來做反應??!那些東西總歸是虛擬的,是不能取代我們這些實實在在做實驗的?!蹦菚r涉世未深的我十分贊同父親的觀點,畢竟是真實的化學反應造就了我。比起看不見摸不著的算法,我更認同實驗嘗試對科學發(fā)展的貢獻。
更加令我無法理解的是“機器學習+化學”這一組合。據(jù)我所知,化學和計算機打交道比較多的是計算化學方向。我的反應機理部分便是通過量子化學計算得出了反應勢能面,進而推斷出合理機理。而在我的印象里,機器學習所屬的人工智能方向和有機化學方法學完全沒有重合。莫非他們想讓人工智能來做化學?這聽起來未免太過科幻了。
這件事并未掀起太大波瀾,我的生活很快回歸了平靜而又枯燥的日常。一年后的某天,我突然收到被引用數(shù)增加的消息。按照慣例,我出發(fā)前往對方所在的期刊數(shù)據(jù)庫服務器,準備登門拜訪并祝賀其成功發(fā)表。“對方所在期刊的影響因子還不小,比我要高一個檔次,”我看著信息喃喃自語,“不知道我這次被引用是作為背景、前人工作還是實驗方法。被引為前人工作說明我的成果被重視了,但比起這個我還是更喜歡有人來使用我的方法?!辈坏任以僮鏊伎?,我已出現(xiàn)在目的地門前,門禁掃描了我的信息卡:
“19號引用文獻——‘數(shù)據(jù)來源’認證成功,請進?!?/p>
“數(shù)據(jù)來源,這算什么?!”感到詫異的我推門而入。一個熟悉的身影映入眼簾?!澳隳蔷褪且荒昵盀g覽我數(shù)據(jù)的那位,那位做機器化學的?”
“是機器學習+化學,”對方微笑著說,“我是論文M,如您所說,去年曾在O期刊數(shù)據(jù)庫和先生有過一面之緣?!?/p>
“幸會,幸會,我早就想和先生您聊聊了,”我說道,“自從那時聽您提到‘機器學習+化學’,我就一直十分好奇。雖然我不懂機器學習,但這幾年來人工智能的飛速發(fā)展我也略有耳聞。比如那只很厲害的阿爾法狗,不是沒有人能下圍棋贏過它嘛。不過下棋歸下棋,我們化學作為實驗科學,那都是實實在在、一個個反應做出來的。我實在不知道人工智能可以怎樣幫助到化學。難道像科幻小說一樣,真的會有人工智能化學家嗎?”
“人工智能化學家還早著呢,強人工智能對我們來說也是科幻罷了。”M先生停頓了一下,反問道,“不過你就那么確定化學就僅能通過實驗進行研究嗎?”
“化學是一門基于實驗的科學,這不是眾所周知的事實嗎?”我反問道,“我的誕生就歷經了實驗員父親無數(shù)次實驗。他在數(shù)不清的失敗之中積累經驗、總結規(guī)律,不斷改進條件,最終得到了一個不錯的結果。至于計算化學方面,我之前也問過父親,為什么不用量子計算化學來預測我們的實驗結果。他說現(xiàn)在的計算化學受計算機算力的局限,要精確計算一個復雜體系需要花費大量的時間和經濟成本,這比起直接的實驗探究并沒有效率與精度的優(yōu)勢?!?/p>
“我記得你的方向是有機化學方法學,”面對我的質疑,M先生不緊不慢地說道,“據(jù)我所知,你們那里的工作方法可以概括為‘換條件篩反應’,就是通過篩選催化劑、溶劑、添加劑等反應條件來得到最優(yōu)條件?!?/p>
他說得某種程度上確實沒錯,父親就是這樣工作了兩年多,將原本約20%產率、約80% ee值的一個反應篩到了產率和ee值都大于90%。但我非常反感他的表述和輕蔑的態(tài)度,什么叫“可以概括為‘換條件篩反應’”,這里面可大有講究,科研工作者必須熟練掌握化學原理,利用化學知識來合理設計實驗體系與條件,并且在大量實驗中積累經驗,從而在海量的可能中最有效地找到正確的道路。
“如果真的只是像你說的那樣簡簡單單‘換條件篩反應’的話,拿我這個論文實驗來說,做十年也做不完!沒有對化學知識的掌握和對實驗結果的分析總結,怎么可能做好有機化學方法學?”我反駁道。
M先生沒有在意我的態(tài)度,微笑道:“你說得確實沒錯,做化學科研就是需要對化學知識的掌握以及對實驗結果的分析與總結。那你不妨為我解釋一下你支持信息中的手性催化劑A1配體吡啶上的甲基換成A2的乙基之后為什么立體選擇性變好了呢?”
“那自然是因為位阻變大,影響了反應過渡態(tài)能量。”
“那換成A5的叔丁基之后,為什么立體選擇性又變小了?”
“這……也許是因為位阻太大,可能某種程度上會有影響……”
“那A10這里改成硝基為什么能大大增加產率?”
“強吸電子性唄?!?/p>
“A13改成三氟甲基怎么才增加這么一點點?”
“……”
“溶劑四氫呋喃、N,N-二甲基甲酰胺、乙酸乙酯、乙腈是怎么影響產率和ee值的?”
“應該是極性吧。”
“那產率與ee值變化順序與極性一致嗎?”
“也許還有其他原因之類的,那啥極化率、變形性,我記得還有啥來著?”
這場辯論中毫無疑問是我占了下風,但我不服氣,繼續(xù)辯駁道:“這都是因為有機化學反應影響因素過多。雖然我的反應結果中找不到很清晰的規(guī)律,但總能得到一些經驗性的知識來指導我下一步的催化劑設計;溶劑也是如此,也許極性不是唯一的影響因素,但是參考極性來設計實驗也是個不錯的方法?!?/p>
“你說得很正確!”M先生不知為何露出了欣慰的笑容,“有機反應,或者說大部分化學反應的影響因素都非常復雜,一代代化學人僅靠著化學知識與經驗規(guī)則,就將化學發(fā)展到如今這樣的程度實屬不易。但是越往前進,我們面臨的困難與挑戰(zhàn)就越是指數(shù)級增加。即便現(xiàn)在有了量子計算化學這個手段,其高額的計算成本也使其不能像化學知識與經驗規(guī)則一樣在實驗室中廣泛使用。”
聽完這段話,我陷入了沉默?;瘜W反應是發(fā)生在原子和電子層面的事情。那里在量子力學的統(tǒng)治之下,僅憑人腦很難完全掌握這個過程,能夠用化學知識和經驗規(guī)則摸清一些趨勢就已經謝天謝地了。但我也清楚,即使只用最簡單的元素碳、氫、氧來組合,也能產生無窮無盡的有機化合物,更遑論周期表上那118種元素。化學的宇宙浩如煙海,可能的化學反應甚至比宇宙中的星球還多,完全掌握和預測化學宇宙看起來是如此高不可攀。
M先生打破了凝固的氣氛:“雖然人腦不能基于量子力學來窮盡計算所有的化學反應,但是化學家照樣可以從事化學科研。這是因為化學家做的無非是分析實驗數(shù)據(jù),尋找反應規(guī)律,形成化學知識。即便所得規(guī)律僅是經驗認識,化學家們同樣能夠很好地運用它們來指導和設計實驗?!?/p>
“確實如此,難道你說的機器學習也能做這樣的工作嗎?”我提出了疑問。
“基于統(tǒng)計原理,運用機器學習的手段來分析實驗數(shù)據(jù)自然是可行的。”M先生嘴角微微上揚,“就拿你的反應來說,催化劑種類篩選的數(shù)據(jù)無非關注兩個點,一個是催化劑的結構,一個是該催化劑對應的產率與ee值。我們完全可以將這兩組數(shù)據(jù)通過機器學習的方法訓練出一個模型,這個模型就表達了催化劑結構與產率、ee值之間的關系。有了該模型之后,只要輸入新的催化劑結構,就可以很快得到模型預測的產率與ee值[1]?!?/p>
“聽你這么一講,這機器學習+化學似乎是一件很容易的工作?!蔽宜伎剂艘粫?,反問道,“產率和ee值這樣的數(shù)據(jù)信息好說,但是化學結構并不是一個計算機可讀的信息吧。電腦怎么會認得化學結構式呢?”
“你這個問題切中要害!”M先生激動地說,“計算機當然無法理解化學結構,所以化學結構需要被編碼成計算機可讀的形式。我們將其稱為分子描述符,比如說基于鍵連關系的編碼SMILES(Simplified Molecular Input Line Entry System)?!?/p>
“基于鍵連關系的連接方式進行編碼的話,的確可以做到讓計算機讀取分子結構,”我打斷了他,“可是,我并不認為計算機理解化學結構式能有什么用。只要學過元素周期表,就連中學生也可以寫出甲醇的結構式,但這絕不意味著他們可以僅靠‘CH3OH’這一串字符就得到甲醇可燃性、熔沸點、酸性等一系列化學性質。只有熟練掌握化學原理并且了解足夠多的實驗現(xiàn)象,化學家才能將結構與性質對應起來。難道說你們要將化學原理教給計算機嗎?”
“直接讓計算機學會化學原理很難實現(xiàn),但可以將表達分子化學性質的定量參數(shù)作為分子描述符,通過大數(shù)據(jù)的訓練讓計算機得到基于化學性質的構效關系模型。這和我們人類的學習方式也有相通之處。”
看我有點跟不上思路,M先生便對分子描述符的理念進行了具體介紹:“人在學習羧酸的性質時,通常會舉一些例子來幫助理解。比如說按酸性順序,氟代乙酸、氯代乙酸、溴代乙酸、碘代乙酸、乙酸的酸性依次遞減,而從吸電子性的角度來看,F(xiàn)、Cl、Br、I、H的電負性也是依次降低的。通過這兩組定性的排序,不需要任何外加的化學知識,人的大腦就能輕易地得出‘取代基吸電子能力越強,羧酸酸性越強’這一經驗規(guī)律。在機器學習中,我們可以運用同樣的策略,將取代基的吸電子能力編碼后作為描述符使用,最終建立起一個‘取代基吸電子能力-羧酸酸性’的定量模型。再拿你的這個例子來說,我們對催化劑篩選進行機器學習的目的,就是建立催化劑結構與產率、ee值之間的關系模型。但其實決定產率與ee值的是催化劑性質。就像你之前分析的那樣,有位阻、電子等很多相關性質。所以,我們可以使用位阻、電荷分布等性質參數(shù)作為分子描述符。而分子描述符的選取與反應目標內在的相關性越高,這個模型就越準確。”
“誒?這么說在不同體系的機器學習過程中,其實是需要選取不同的描述符嗎?”我好奇地問。
“沒錯,現(xiàn)在并不存在一套放之四海而皆準的分子描述符。同樣的描述符在不同的反應體系中的預測表現(xiàn)會出現(xiàn)很大的差異。我們在進行具體的機器學習模型訓練時,必須針對反應目標的特點,結合化學知識來選擇最佳的分子描述符,”M先生繼續(xù)解釋道,“比如要根據(jù)已知的烷烴類化合物沸點預測未知烷烴的沸點,分子量就是一個重要的參數(shù);但是對于手性催化劑篩選而言,同樣采用催化劑的分子量作為分子描述符肯定不是一個好選擇?!?/p>
“這么看來分子描述符的數(shù)據(jù)量需求不小啊,那如果所需的參數(shù)并沒有實驗數(shù)據(jù)該怎么辦呢?”
“可以用量子計算化學得到呀!相關的計算根據(jù)具體要求并不需要非常精確,對算力需求也沒有機理研究那么高?!盡先生補充道,“目前,基于不同策略的分子描述符已經得到了長足的發(fā)展,有一、二、三維描述符,其中常見的有分子性質、分子指紋、分子圖、格點描述符[2]、SPMS描述符[3]、三維表達式[4-7]、基于電子結構的描述符等。有許多描述符可以使用RDKit[8]、Dscribe[9]等平臺快捷生成,也有一些則需要通過電子結構計算獲得?!?/p>
“描述符生成之后就是選擇模型算法訓練了。機器學習已經發(fā)展出一系列成熟的模型?;趯W習方式可分為監(jiān)督學習、無監(jiān)督學習、半監(jiān)督學習、自監(jiān)督學習和強化學習等?;瘜W反應預測目前主要采用監(jiān)督學習方法,其中包括多元線性回歸、支持向量機、樹模型、神經網絡等?!盡先生充滿激情地說,“當然,機器學習在化學中的應用十分廣泛,并不局限于反應預測。還有諸如化合物性質預測[10]、分子從頭設計[11]、逆合成分析[12,13]、智能合成機器[14]等方面??梢灶A見的是,以機器學習為代表的人工智能技術在化學領域的廣泛應用,將促進化學研究范式變革,為化學的發(fā)展注入新的動力[15]。”
聽完M先生慷慨激昂的發(fā)言,我感慨良多。假如化學實驗能與智能建模協(xié)同進行,可以減少多少不必要的機械勞動??!研究員們將時間解放出來去做更多創(chuàng)新性的工作,整個化學領域的研究水平都將得以提升。
正當我陷入對化學美好未來的無限遐想之時,M先生給我潑了盆冷水:“雖然愿景很美好,機器學習在化學中的應用目前仍面臨許多挑戰(zhàn),比如重要的一條就是缺乏高質量的實驗數(shù)據(jù)庫。目前全世界有成千上萬的化學研究團隊,然而大部分實驗數(shù)據(jù)是不公開的。公開發(fā)表在文獻上的數(shù)據(jù)往往只記錄實驗成功的那一小部分,十分影響合成數(shù)據(jù)的完整性。即便如此,文獻數(shù)據(jù)也無法批量獲取。各大出版商壟斷了文獻的發(fā)表,卻沒有對文獻數(shù)據(jù)進行很好的數(shù)字化,致使有價值的實驗數(shù)據(jù)被分散在各處,增加了大量不必要的人工時間成本?!?/p>
“但這終究是阻擋不了歷史的潮流,就如同工業(yè)革命憑借其先進的生產力席卷整個世界一樣,先進的科學研究范式也將在學術界掀起一場變革!”
多么美妙的暢想,我閉上了眼,仿佛來到了未來。在那里,我看到了實驗機器人又快又準地進行著實驗操作,看到了智能終端對實驗數(shù)據(jù)的實時監(jiān)測與匯總,看到了AI控制程序自動處理數(shù)據(jù)并設計新的實驗,看到了脫下白大褂的研究員們坐在電腦桌前維護升級整個系統(tǒng)。成千上萬的科學發(fā)現(xiàn)源源不斷地從智能科研工廠中涌出,去向田間地頭,去向高樓大廈,去向微納芯片,去向星辰大?!茖W界的工業(yè)革命為整個世界帶來了翻天覆地的變化。
“醒醒!別睡了,去做實驗啦!”室友的聲音把我從夢中吵醒。睜開倦怠的雙眼,我發(fā)現(xiàn)我正趴在桌上,面前的電腦屏幕還在播放人工智能導論的視頻。
原來只是個夢啊,真是可惜,我還想多了解一點機器學習,真想親眼看到科學革命后的世界。“別看了,快走吧!你一個做有機化學的看這人工智能有啥用?”室友不屑地說,“有這時間不如去開倆反應來得有用。”
“一個剛剛出生的嬰兒有什么用呢?等到他長大成熟的那天,你會看到翻天覆地的變革。”