俠之大者,為國(guó)為民。武俠小說(shuō)中,大俠往往有奇遇。段譽(yù)吞了莽牯朱蛤、郭靖飲下梁子翁的藥蛇血,兩人于是百毒不侵。凡此種種,類(lèi)似主動(dòng)免疫(接種疫苗)或被動(dòng)免疫(血清療法)的原始版本。動(dòng)物免疫血清用于傳染病治療已有上百年的歷史,德國(guó)科學(xué)家馮·貝林因此獲得首枚諾貝爾生理學(xué)與醫(yī)學(xué)獎(jiǎng)。當(dāng)前,康復(fù)患者血漿治療新冠肺炎依然有效。這些療法其實(shí)質(zhì)是多克隆抗體藥物。從1986 年美國(guó)食品藥品監(jiān)督管理局批準(zhǔn)第1 個(gè)單克隆抗體藥物迄今,全球上市的單抗藥已有上100 個(gè),廣泛用于腫瘤、自身免疫性疾病、傳染病等各類(lèi)疾病的治療。近十年來(lái),全球最暢銷(xiāo)的十大藥物中,抗體藥物每每占據(jù)半壁甚至更多江山。阿達(dá)木單抗常年蟬聯(lián)最暢銷(xiāo)藥物之首,年度銷(xiāo)售額近200 億美元。因此,開(kāi)發(fā)單抗藥物,為國(guó)為民,不僅緩解人類(lèi)病痛,還能推動(dòng)社會(huì)經(jīng)濟(jì)發(fā)展。
雖然開(kāi)發(fā)單抗藥物的成功率高于傳統(tǒng)化學(xué)藥物,但仍是萬(wàn)里挑一。近年來(lái),抗體可開(kāi)發(fā)性預(yù)測(cè)已成為生物信息學(xué)研究的一個(gè)熱點(diǎn)。早期預(yù)測(cè)抗體可開(kāi)發(fā)性可減少研發(fā)成本,加快研發(fā)進(jìn)程,降低市場(chǎng)價(jià)格,利國(guó)利民。該領(lǐng)域的經(jīng)典研究是所謂的可開(kāi)發(fā)性指數(shù)(DI)計(jì)算,相應(yīng)方法已整合到價(jià)格不菲的DS 軟件平臺(tái)中。然而,貴不見(jiàn)得好。該方法基于同源建模得到的抗體結(jié)構(gòu),運(yùn)算速度慢,結(jié)果也常不靠譜。這篇論文基于抗體序列,繞過(guò)結(jié)構(gòu),直接預(yù)測(cè)抗體的交叉或自身相互作用,而這些互作會(huì)直接影響抗體的可開(kāi)發(fā)性。相應(yīng)預(yù)測(cè)模型速度飛快,可處理大規(guī)??贵w數(shù)據(jù),開(kāi)發(fā)的網(wǎng)絡(luò)程序CISI2.0 自由免費(fèi)。但這還遠(yuǎn)遠(yuǎn)不夠。
最近,百度旗下的生物信息公司百圖生科與清華大學(xué)智能產(chǎn)業(yè)研究院正在合作舉辦2021 全球抗體親和力預(yù)測(cè)大賽,任務(wù)是根據(jù)抗原和抗體的氨基酸序列預(yù)測(cè)抗體?抗原結(jié)合的親和力。廣義上講,親和力是開(kāi)發(fā)抗體藥的前提,因此,預(yù)測(cè)可開(kāi)發(fā)性首先要預(yù)測(cè)抗體?抗原結(jié)合的親和力。我們期待包括親和力預(yù)測(cè)在內(nèi)的更多更好的抗體可開(kāi)發(fā)性預(yù)測(cè)方法與工具的問(wèn)世,讓生物信息的學(xué)子們能為國(guó)為民做出自己的貢獻(xiàn)!
當(dāng)前,生命科學(xué)正處于第三次革命中,關(guān)注于生物信息存儲(chǔ)、傳輸與表達(dá),是理解“生命是什么”的最佳契機(jī)。生物醫(yī)學(xué)也處于一個(gè)百花開(kāi)放、百家爭(zhēng)鳴的時(shí)代,“生物信息學(xué)”“系統(tǒng)生物學(xué)”“合成生物學(xué)”等多個(gè)學(xué)科快速發(fā)展,“Hi-C”“單細(xì)胞”“相分離”“焦亡”等是當(dāng)前分子生物學(xué)領(lǐng)域最火的名詞。
分子生物學(xué)的研究大都繞不開(kāi)“基因的表達(dá)”。調(diào)控基因表達(dá)最關(guān)鍵的調(diào)控元件就是啟動(dòng)子,它負(fù)責(zé)和RNA 聚合酶的特異性結(jié)合,從而轉(zhuǎn)錄出RNA。因此,開(kāi)發(fā)能夠準(zhǔn)確識(shí)別啟動(dòng)子的模型,對(duì)于研究基因的表達(dá)意義重大。該文章對(duì)2005 年以來(lái)開(kāi)發(fā)的39 個(gè)用于原核啟動(dòng)子識(shí)別的計(jì)算工作進(jìn)行了總結(jié)和展望。論文對(duì)已發(fā)表的用于原核啟動(dòng)子識(shí)別的基準(zhǔn)數(shù)據(jù)集進(jìn)行了搜集和整理,整理得到的資料為將來(lái)如何構(gòu)建合理的、具有代表性的訓(xùn)練和測(cè)試數(shù)據(jù)提供了參考;進(jìn)而,對(duì)廣泛使用的DNA 序列描述符進(jìn)行了介紹,這些DNA 序列特征提取方法不但可以用原核啟動(dòng)子的預(yù)測(cè),也可以用于其他DNA 調(diào)控元件的表征;再次,是關(guān)于序列特征的優(yōu)化算法應(yīng)用,包括基于信息論的mRMR 和基于概率論的F-Score 等算法,如何將這些算法的優(yōu)點(diǎn)結(jié)合,是提高啟動(dòng)子識(shí)別精度的一個(gè)途徑;最后是關(guān)于機(jī)器學(xué)習(xí)方法的應(yīng)用。
目前,盡管已經(jīng)對(duì)原核啟動(dòng)子預(yù)測(cè)的研究取得了較滿(mǎn)意的結(jié)果,但這些模型僅限于大腸桿菌等少數(shù)幾個(gè)模式生物。將這些方法用于更多的物種上,構(gòu)建合適的模型,也是未來(lái)的發(fā)展方向。希望該文章能為更多學(xué)者就此問(wèn)題研究時(shí),提供新思路、新角度。