生物學(xué)界最大的挑戰(zhàn)之一——蛋白質(zhì)三維結(jié)構(gòu)解析如今有望被破解。借由深度學(xué)習(xí)程序AlphaFold,谷歌旗下人工智能公司DeepMind能夠精確預(yù)測蛋白質(zhì)三維形狀。
如果把生物體比作工地,那么蛋白質(zhì)就是工地上的磚頭。人體內(nèi)有成千上萬種不同的蛋白質(zhì),每種蛋白質(zhì)包括數(shù)十上百個氨基酸,這些氨基酸的順序決定著蛋白質(zhì)的形狀和功能?!敖Y(jié)構(gòu)即功能”是分子生物學(xué)的定理,若能根據(jù)蛋白質(zhì)的氨基酸序列推出其結(jié)構(gòu),有助于人們加速了解細(xì)胞的組成和運作規(guī)律,一些新藥物的研發(fā)也能更快推進(jìn)。
長久以來,人們需要借助實驗確定完整的蛋白質(zhì)結(jié)構(gòu),比如X射線晶體學(xué)和冷凍電鏡,這些方法往往要花費數(shù)月甚至數(shù)年時間。目前人類已發(fā)現(xiàn)的2億蛋白質(zhì)中,只有不到20萬的蛋白質(zhì)結(jié)構(gòu)被解析。
然而現(xiàn)在,人工智能(AI)有能力給出精確預(yù)測的計算方法,解析蛋白質(zhì)結(jié)構(gòu)只需要幾天甚至半個小時。2020年11月30日,在國際蛋白質(zhì)結(jié)構(gòu)預(yù)測競賽(CASP)上,DeepMind推出的AlphaFold程序在百余支隊伍中脫穎而出。CASP的比賽規(guī)則之一是參賽者預(yù)測的蛋白質(zhì)結(jié)構(gòu)必須已經(jīng)通過實驗驗證但未公開發(fā)表。預(yù)測出的結(jié)果會通過實驗方法進(jìn)行匿名檢驗,二者相似度越高,得分也就越高。
比賽中,DeepMind的AlphaFold將深度學(xué)習(xí)與張力控制算法結(jié)合,并應(yīng)用于結(jié)構(gòu)和遺傳數(shù)據(jù),該深度學(xué)習(xí)網(wǎng)絡(luò)利用目前已知的170 000種解析完畢的蛋白質(zhì)結(jié)構(gòu)進(jìn)行了訓(xùn)練。結(jié)合蛋白質(zhì)折疊的物理結(jié)構(gòu)和幾何約束信息,AlphaFold可以預(yù)測出目標(biāo)蛋白質(zhì)的序列結(jié)構(gòu)——甚至還包括楔入細(xì)胞膜的蛋白質(zhì),這是理解許多人類疾病的關(guān)鍵。
但AlphaFold也不是十全十美的,比賽中,在預(yù)測一個由52個小重復(fù)片段組成的蛋白質(zhì)結(jié)構(gòu)時,AlphaFold拿到的分?jǐn)?shù)并不高。目前,DeepMind已經(jīng)公布了AlphaFold首個版本的詳細(xì)信息,供其他研究者復(fù)制使用。DeepMind有關(guān)研發(fā)團(tuán)隊表示,還將繼續(xù)對AlphaFold展開訓(xùn)練,以便解析更復(fù)雜的蛋白質(zhì)結(jié)構(gòu)。