徐其鳳 馮 林* 余 游 羅桂林
1(四川師范大學(xué)計(jì)算機(jī)科學(xué)學(xué)院 四川 成都 610101)2(四川大學(xué)生物治療國(guó)家重點(diǎn)實(shí)驗(yàn)室 四川 成都 610041)
分子是化合物的基礎(chǔ),化合物的合成和活性化合物的篩選是藥物研發(fā)的重點(diǎn)和難點(diǎn),即使在生物化學(xué)技術(shù)飛速發(fā)展的今天,如何篩選出最合適的分子,一直是藥物研發(fā)領(lǐng)域面臨的挑戰(zhàn)性問(wèn)題之一。
一方面,在生物領(lǐng)域中,Jencks[1]構(gòu)建了基于片段的篩選方法(FBDD)理論框架;被批準(zhǔn)上市的BRAF-V600E激酶抑制劑Vemurafenib[2]則是FBDD方法的一個(gè)典型成功案例,Vemurafenib從初始的片段篩選到被FDA批準(zhǔn)上市僅耗費(fèi)了6年;Winter等[3]描述了一種使用X射線結(jié)晶學(xué)的片段篩選活動(dòng),在Ras:SOS復(fù)合體上發(fā)現(xiàn)了三個(gè)片段結(jié)合位點(diǎn);Liang等[4]使用FBDD和QSAR研究,首次完全合成了一種溴化酪氨酸次級(jí)代謝產(chǎn)物,它是一種有效的p38α抑制劑,具有抗癌作用;Erlanson等[5]對(duì)近20年來(lái)FBDD的發(fā)展進(jìn)行研究,討論了其研究步驟,并顯示FBDD概念如何滲透和加強(qiáng)藥物發(fā)現(xiàn)工作的,指出FBDD已成為藥物研發(fā)的主流方法之一。
另一方面,隨著計(jì)算機(jī)技術(shù)的發(fā)展和大數(shù)據(jù)技術(shù)的應(yīng)用,提升生物化學(xué)數(shù)據(jù)處理能力,縮短藥物研發(fā)周期,成為了眾多研究者關(guān)注的熱點(diǎn)[6-7],并成功利用計(jì)算機(jī)技術(shù)解決了部分難題,如預(yù)測(cè)分子屬性[8-9]、檢驗(yàn)化學(xué)反應(yīng)結(jié)果[10]、處理醫(yī)學(xué)圖像和數(shù)據(jù)[11-12]。Lusci等[13]通過(guò)考慮與分子圖的所有可能的頂點(diǎn)中心非循環(huán)方向相關(guān)聯(lián)的遞歸神經(jīng)網(wǎng)絡(luò)的集合,解決分子的無(wú)向循環(huán)圖轉(zhuǎn)化為有向無(wú)環(huán)圖的問(wèn)題,并在四個(gè)基準(zhǔn)數(shù)據(jù)上進(jìn)行了測(cè)試;Urban等[14]則將視線聚焦于輸入數(shù)據(jù)問(wèn)題,提出了Inner和Outer兩種方法;Olivecrona等[15]提出了一種基于序列的生成模型方法,用于生成不同類型分子的生成模型,給出了結(jié)合無(wú)監(jiān)督機(jī)器學(xué)習(xí)方法設(shè)計(jì)新化合物的新思路。
以上大多數(shù)研究方法解決了各種生物化學(xué)和生物醫(yī)學(xué)上的一些問(wèn)題,如醫(yī)學(xué)圖像識(shí)別和分類、分子性質(zhì)預(yù)測(cè)、抑制劑的發(fā)現(xiàn)。但是,在解決藥物小分子篩選方面還存在不足:(1) 現(xiàn)有研究大多未進(jìn)行分子分量區(qū)分,研究過(guò)程將大分子、中分子和小分子一概而論,不利于挖掘小分子的特有特征。(2) 存在研究復(fù)雜、耗時(shí)長(zhǎng)、解決問(wèn)題單一和算法復(fù)雜度高等問(wèn)題。(3) FBDD大多只從生物化學(xué)角度進(jìn)行研究。針對(duì)上述問(wèn)題,本文從小分子2D存儲(chǔ)的SDF文件出發(fā),提出一種基于2D模型的藥物小分子篩選方法(SMS-2D),利用計(jì)算機(jī)技術(shù)進(jìn)行片段篩選。首先,輸入分子片段P和小分子數(shù)據(jù)庫(kù)文件,對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,將分子片段P和數(shù)據(jù)庫(kù)文件轉(zhuǎn)化為比對(duì)小分子信息MP和小分子數(shù)據(jù)集W;其次,每次取小分子數(shù)據(jù)集W中的一個(gè)小分子信息Mi,計(jì)算Mi與比對(duì)小分子Mp的包含度αi;然后,篩選出包含度αi大于或等于閾值α的小分子,并存入小分子數(shù)據(jù)集W′;最后,輸出小分子數(shù)據(jù)集W′中的所有小分子信息,并進(jìn)行可視化處理。
目前高通量篩選(HTS)是藥物篩選的主要方法,但是大型復(fù)合庫(kù)的收集、維護(hù)和篩選較為復(fù)雜和困難,且HTS在新目標(biāo)篩選時(shí)命中率低。針對(duì)上述問(wèn)題,基于片段的篩選方法FBDD開(kāi)始逐漸成為藥物研發(fā)的主流方法。不同于HTS,F(xiàn)BDD從分子結(jié)構(gòu)的一個(gè)片段結(jié)構(gòu)出發(fā)。在藥物分子結(jié)構(gòu)中,分子的每一個(gè)片段都有其特殊作用。近年來(lái),研究者們將目光聚焦在分子片段上,旨在通過(guò)研究分子片段來(lái)得到新的藥物分子。FBDD的優(yōu)勢(shì)在于可以結(jié)合一個(gè)蛋白的多個(gè)位點(diǎn)或者多個(gè)蛋白,在這樣的情況下,即使分子片段是弱結(jié)合,但具有高篩選命中率,這種優(yōu)勢(shì)在面對(duì)復(fù)雜靶標(biāo)時(shí)尤為明顯,并且使片段庫(kù)的收集和維護(hù)更便捷,這使得小型學(xué)術(shù)機(jī)構(gòu)也能從事藥物發(fā)現(xiàn)工作。FBDD的應(yīng)用范圍非常廣泛,從化學(xué)生物學(xué)到計(jì)算化學(xué),從抑制劑的發(fā)現(xiàn)到潛在位點(diǎn)的尋找,F(xiàn)BDD都取得了不錯(cuò)的進(jìn)展。
分子常用的表示分為以下三種:圖像表示(分子結(jié)構(gòu)式)、線性編碼(如SMILES串、WLN等)和文本信息編碼(如MOL、SDF等)。
1) 圖像表示。圖像表示方法的優(yōu)點(diǎn)是能夠直觀的觀察分子的結(jié)構(gòu),缺點(diǎn)在于所需存儲(chǔ)空間大,且小分子信息遺失多,且無(wú)法對(duì)分子的某一物理化學(xué)屬性進(jìn)行分析。
2) 線性編碼表示。它將化學(xué)結(jié)構(gòu)轉(zhuǎn)化為一棵樹,使用一串字符來(lái)描述一個(gè)三維的化學(xué)結(jié)構(gòu)。線性編碼表示的優(yōu)點(diǎn)是具有唯一性、所需存儲(chǔ)空間少,缺點(diǎn)是不利于子結(jié)構(gòu)檢索。
3) 文本信息編碼表示。文本信息編碼指使用文本方式存儲(chǔ)分子的相關(guān)信息,其描述如表1所示。它具有存儲(chǔ)空間少、便于提取各種細(xì)節(jié)信息等優(yōu)點(diǎn),缺點(diǎn)在于不夠直觀。本文使用文本信息編碼表示的SDF文件進(jìn)行實(shí)驗(yàn)。SDF是由MDL公司開(kāi)發(fā)的、最常見(jiàn)的化學(xué)數(shù)據(jù)文件存儲(chǔ)格式,專門用于分子結(jié)構(gòu)信息表示。SDF文件分為結(jié)構(gòu)數(shù)據(jù)和理化數(shù)據(jù)兩部分,結(jié)構(gòu)數(shù)據(jù)包括原子信息和鍵值信息,以字符“END”作為結(jié)束標(biāo)志;理化數(shù)據(jù)包括分子ID、分子物理屬性等信息,以字符“$$$$”作為結(jié)束標(biāo)志。SDF可以以二維和三維兩種不同的形式存儲(chǔ)分子信息。
表1 NADPH的SDF文件及描述
續(xù)表1
前期基礎(chǔ)研究中,四川大學(xué)生物治療國(guó)家重點(diǎn)實(shí)驗(yàn)室通過(guò)腸道EV68病毒3C蛋白的酶活實(shí)驗(yàn)研究發(fā)現(xiàn)某小分子B中的片段結(jié)構(gòu)H對(duì)腸道EV68病毒3C蛋白的活性有抑制作用,可能小分子B中的分子片段H起關(guān)鍵作用,然而細(xì)胞毒性實(shí)驗(yàn)結(jié)果表明小分子B細(xì)胞毒性較大,不能直接應(yīng)用于臨床實(shí)驗(yàn)。實(shí)驗(yàn)室根據(jù)此結(jié)果提出一種假設(shè),在現(xiàn)有的藥物大數(shù)據(jù)中還存在尚未被發(fā)現(xiàn)的包含了分子片段H的小分子,并合理猜測(cè)這些小分子可能具備同樣的效果。但是,如何從海量藥物大數(shù)據(jù)中篩選出包含與分子片段H相似分子片段的藥物小分子成為難點(diǎn)。
目前,實(shí)驗(yàn)室主要采用人工篩選方法,但人工篩選存在耗時(shí)、效率低、藥物篩選周期長(zhǎng)等問(wèn)題,因此利用計(jì)算機(jī)技術(shù)解決該問(wèn)題成為新思路。計(jì)算機(jī)技術(shù)不僅能夠降低新藥開(kāi)發(fā)成本,減少人力損耗,更能縮短新藥研發(fā)周期,對(duì)促進(jìn)降糖藥物研發(fā)具有重要意義。
本文利用計(jì)算機(jī)技術(shù)對(duì)藥物自動(dòng)化篩選進(jìn)行了研究,利用計(jì)算機(jī)技術(shù)在海量藥物大數(shù)據(jù)中篩選出包含與分子片段H具有相似分子片段的小分子,并將篩選結(jié)果交由四川大學(xué)生物治療國(guó)家重點(diǎn)實(shí)驗(yàn)室進(jìn)行生物實(shí)驗(yàn)驗(yàn)證,測(cè)試這些小分子是否具有效果。
由于保密要求,所以本文以還原型煙酰胺腺嘌呤二核苷酸磷酸NADPH為例進(jìn)行實(shí)驗(yàn),NADPH的分子結(jié)構(gòu)如圖1所示。為便于對(duì)算法性能進(jìn)行測(cè)試,選取NADPH中的兩個(gè)不同分子片段P1和P2進(jìn)行實(shí)驗(yàn)。P1和P2的分子結(jié)構(gòu)如圖2所示。
圖1 NADPH2D分子結(jié)構(gòu)式
(a) 片段P1 (b) 片段P2圖2 NADPH的分子片段
為了便于敘述和理解,本文將以數(shù)學(xué)形式定義與SMS-2D方法相關(guān)的基本概念。
定義1小分子數(shù)據(jù)集。一個(gè)小分子數(shù)據(jù)集W是一個(gè)二元組W=(U,M),其中:U表示小分子數(shù)據(jù)集名稱,M=(M1,M2,…,MN)表示小分子信息的集合。
定義2小分子信息。一個(gè)小分子信息M是一個(gè)四元組M=(id,K,m,n),其中:id表示該小分子的查詢ID;K=(k1,k2,…,kn)表示小分子化學(xué)鍵信息的集合;m表示小分子含有原子的個(gè)數(shù);n表示小分子含有的化學(xué)鍵的個(gè)數(shù)。
定義3化學(xué)鍵信息。一個(gè)化學(xué)鍵信息對(duì)k是一個(gè)四元組k=(X1,X2,B,T),其中:X1、X2表示形成化學(xué)鍵的兩個(gè)原子;B表示兩個(gè)原子形成化學(xué)鍵的數(shù)目,例如單鍵表示為1,雙鍵表示為2;T表示化學(xué)鍵在小分子中的轉(zhuǎn)向。
定義5查全率與準(zhǔn)確率。給定小分子數(shù)據(jù)集W=(U,M)、比對(duì)小分子Mb=(idb,Kb,mb,nb)與包含度閾值α,設(shè)小分子數(shù)據(jù)集W=(U,M)中含有與Mb=(idb,Kb,mb,nb)包含度大于等于α的個(gè)數(shù)為Z,從W=(U,M)中篩選出小分子數(shù)據(jù)集W′=(U′,M′):
SMS-2D流程如圖3所示,總共分為四個(gè)步驟:第一步輸入分子片段P和小分子數(shù)據(jù)庫(kù)文件;第二步對(duì)數(shù)據(jù)進(jìn)行轉(zhuǎn)換,從化學(xué)描述方式轉(zhuǎn)換為小分子信息和小分子數(shù)據(jù)集;第三步進(jìn)行包含度計(jì)算,篩選符合條件的小分子;第四步輸出結(jié)果。
圖3 SMS-2D算法流程
SMS-2D算法步驟如下:
輸入:分子片段P及小分子數(shù)據(jù)集,兩者都以SDF文件格式輸入。
輸出:小分子數(shù)據(jù)集。
Step1讀取分子片段P和小分子數(shù)據(jù)集。
(1) 讀取分子片段的原子信息、鍵值信息和ID,存入line中;
(2) 讀取數(shù)據(jù)集中每一個(gè)小分子的原子信息、鍵值信息和ID,以“$$$$”作為小分子信息的結(jié)束符號(hào)。
Step2將輸入的分子片段P和小分子數(shù)據(jù)庫(kù)文件轉(zhuǎn)化成小分子信息Mp=(idp,Kp,mp,np)和小分子數(shù)據(jù)集W=(U,M)。
(1) 讀取小分子P的原子信息第四列數(shù)據(jù),即元素信息,存入線性表atom[]中;
(2) 讀取鍵值信息的全部數(shù)據(jù),存入線性表bond[]中;
(3) 將數(shù)組bond[]中第一列和第二列數(shù)據(jù)按序號(hào)替換為數(shù)組atom[]中相應(yīng)的原子;
(4) Foriinbond[]:
kpi=bond[i]
End For
(5) 讀取小分子P的數(shù)據(jù)ID設(shè)為idp,原子個(gè)數(shù)設(shè)為mp,原子鍵個(gè)數(shù)設(shè)為np;
(6) 輸出小分子信息Mp=(idp,Kp,mp,np);
(7) 重復(fù)Step 2中的步驟(1)-步驟(4),將小分子數(shù)據(jù)集中的所有小分子數(shù)據(jù)轉(zhuǎn)化小分子信息,輸出小分子數(shù)據(jù)集W=(U,M)。
Step3依次計(jì)算小分子數(shù)據(jù)集中每個(gè)小分子信息Mi=(idi,Ki,mi,ni)與Mp=(idp,Kp,mp,np)的包含度。
ForMiinM:
按照定義4計(jì)算出αi=η(M1,M2)
End For
輸出所有小分子與Mp的包含度:(α1,α2,…,αn)。
Step4篩選出包含度大于等于閾值α的小分子信息,并存入小分子數(shù)據(jù)集W′=(U′,M′)中。
Step5輸出篩選出的小分子數(shù)據(jù)集W′=(U′,M′)。算法停止。
對(duì)于本文的SMS-2D,數(shù)據(jù)轉(zhuǎn)化的時(shí)間復(fù)雜度為O(Ki×Kn) ,Ki為鍵值信息的總行數(shù),Kn為鍵值信息的列數(shù);小分子包含度計(jì)算的時(shí)間復(fù)雜度為O(N×Mn),N為數(shù)據(jù)集的數(shù)據(jù)量,Mn為小分子信息Mp的大小。在藥物小分子數(shù)據(jù)集中,由于O(N×Mn)>O(Ki×Kn),因此SMS-2D的時(shí)間復(fù)雜度為O(N×Mn)。SMS-2D的空間復(fù)雜度由Step 2中的atom[]和bond[]的大小決定,atom[]的空間復(fù)雜度為mp,bond[]的空間復(fù)雜度為4np,所以SMS-2D的空間復(fù)雜度為O(Mp+4np)。
本文實(shí)驗(yàn)所采用的硬件環(huán)境為AMD Ryzen 3 PRO 2200G with Radeon Vega Graphics 3.50 GHz處理器,RAM大小為8 GB;軟件環(huán)境為Windows 10系統(tǒng),Python編程語(yǔ)言,ChemDraw14.0軟件。
本文實(shí)驗(yàn)所使用小分子數(shù)據(jù)集如表2所示。
表2 數(shù)據(jù)集信息
為了驗(yàn)證本文SMS-2D的效果,實(shí)驗(yàn)分成實(shí)驗(yàn)一和實(shí)驗(yàn)二兩個(gè)部分。實(shí)驗(yàn)一為SMS-2D性能測(cè)試:在四個(gè)數(shù)據(jù)集上進(jìn)行了兩次實(shí)驗(yàn),第一次實(shí)驗(yàn)篩選的分子片段為片段P1,第二次實(shí)驗(yàn)篩選的分子片段為片段P2。每次實(shí)驗(yàn)都記錄下算法的運(yùn)行時(shí)間和符合要求的小分子數(shù)量,輸出結(jié)果并分析。實(shí)驗(yàn)二為算法查全率測(cè)試:為驗(yàn)證SMS-2D算法的查全率,將事先準(zhǔn)備的60個(gè)虛構(gòu)小分子作為驗(yàn)證數(shù)據(jù)加入數(shù)據(jù)集,輸出結(jié)果進(jìn)行比較分析。
實(shí)驗(yàn)一對(duì)SMS-2D算法的性能進(jìn)行測(cè)試,包括算法的運(yùn)行時(shí)間和輸出結(jié)果。本文分別對(duì)分子片段P1、P2進(jìn)行實(shí)驗(yàn),對(duì)比分析了SMS-2D算法在四個(gè)規(guī)模不同的數(shù)據(jù)集上的表現(xiàn),并給出在包含度閾值α=1和α=0.75下的實(shí)驗(yàn)結(jié)果,實(shí)驗(yàn)結(jié)果如表3、表4所示。
表3 分子片段P1實(shí)驗(yàn)結(jié)果表
表4 分子片段P2實(shí)驗(yàn)結(jié)果表
從表3和表4可以看出,不同數(shù)據(jù)集中符合要求的小分子數(shù)量不一,且結(jié)果集數(shù)量與數(shù)據(jù)集數(shù)量不成正比關(guān)系。包含度閾值α的大小決定了結(jié)果集的規(guī)模,α越大,結(jié)果集規(guī)模越小;反之,結(jié)果集規(guī)模越大。但α越小,輸出結(jié)果與分子片段P的包含程度就越低,實(shí)驗(yàn)結(jié)果的實(shí)際意義就越小,所以選用合適的α至關(guān)重要。從輸出的小分子數(shù)量分析,符合要求的小分子數(shù)量相較于數(shù)據(jù)集而言占比非常小,即需要在海量數(shù)據(jù)中篩選出少量符合要求的小分子。SMS-2D算法的轉(zhuǎn)化時(shí)間和比對(duì)時(shí)間較短,通過(guò)表中數(shù)據(jù)可得出數(shù)據(jù)集數(shù)量與時(shí)間的關(guān)系:t≈n(萬(wàn)條)×1.5(秒)。算法所用時(shí)間與數(shù)據(jù)集大小成正比,與輸出結(jié)果數(shù)無(wú)緊密聯(lián)系??傮w而言,無(wú)論數(shù)據(jù)量的大小,算法運(yùn)行時(shí)間都非常短暫,即使是百萬(wàn)級(jí)的數(shù)據(jù)也僅僅只需要300 s,如果采用人工篩選的方法處理同樣規(guī)模的數(shù)據(jù)則會(huì)耗費(fèi)長(zhǎng)達(dá)幾月的時(shí)間。因此,相較于人工方法,SMS-2D算法能高效篩選出符合要求的藥物小分子,節(jié)省大量時(shí)間。
通過(guò)SMS-2D算法可以找出各個(gè)數(shù)據(jù)集中包含有與分子片段P1具有相似分子片段的小分子,但是這樣無(wú)法確定算法的查全率,不能保證是否存在漏選。為了對(duì)算法的查全率進(jìn)行測(cè)試,本文在實(shí)驗(yàn)一的基礎(chǔ)上增加一個(gè)測(cè)試步驟,加入了驗(yàn)證數(shù)據(jù),其步驟如下:
Step1利用化學(xué)軟件ChemDraw設(shè)計(jì)了30個(gè)包含分子片段P1的小分子和30個(gè)從其他數(shù)據(jù)庫(kù)獲取的未包含分子片段P1的小分子作為驗(yàn)證數(shù)據(jù),設(shè)計(jì)時(shí)盡量保證除分子片段P1之外的其余結(jié)構(gòu)具有較大的差異性。
Step2將60個(gè)小分子隨機(jī)插入到數(shù)據(jù)集中。
Step3設(shè)定包含度閾值α=1,運(yùn)行算法,輸出符合要求的小分子在數(shù)據(jù)集中的ID,查看輸出結(jié)果中包含多少驗(yàn)證數(shù)據(jù),以此對(duì)SMS-2D算法的查全率進(jìn)行估計(jì)。
實(shí)驗(yàn)二結(jié)果如表5所示。
表5 實(shí)驗(yàn)二驗(yàn)證結(jié)果表(α=1)
實(shí)驗(yàn)二在四個(gè)數(shù)據(jù)集中隨機(jī)插入了60個(gè)的驗(yàn)證數(shù)據(jù),其中自主設(shè)計(jì)的30個(gè)驗(yàn)證數(shù)據(jù)復(fù)雜度不一,分子片段P1的位置隨機(jī)。從表5可以看出,對(duì)于不同大小的數(shù)據(jù)集,SMS-2D算法都能找出30個(gè)包含了分子片段P1的驗(yàn)證數(shù)據(jù),且未找出其余30個(gè)未包含分子片段P1的驗(yàn)證數(shù)據(jù),由此可得推論:在包含度閾值α=1時(shí),SMS-2D算法具備100%的查全率。
為對(duì)SMS-2D算法的準(zhǔn)確率進(jìn)行測(cè)試,本文對(duì)DrugBank數(shù)據(jù)集在包含度閾值α=1時(shí)的輸出結(jié)果進(jìn)行評(píng)估。評(píng)估發(fā)現(xiàn),輸出的結(jié)果中包含完整的分子片段P1和P2,由此推論:在包含度閾值α=1時(shí),SMS-2D算法具備100%的準(zhǔn)確率。
為了便于后續(xù)生物實(shí)驗(yàn)的進(jìn)行,利用軟件ChemDraw對(duì)輸出結(jié)果進(jìn)行可視化操作。首先,根據(jù)小分子ID在對(duì)應(yīng)的數(shù)據(jù)集中找到小分子,輸出其SDF文件;其次,將SDF文件導(dǎo)入ChemDraw軟件,轉(zhuǎn)存為PNG格式的分子結(jié)構(gòu)圖。分子結(jié)構(gòu)圖相較于SDF文件更加直觀明了。表6和表7分別給出了分子片段P1和P2在不同閾值下的部分可視化輸出結(jié)果。
表6 輸出結(jié)果可視化圖(α=1)
表7 輸出結(jié)果可視化圖(α=0.75)
表6和表7中黑色方框內(nèi)為與分子片段P1或P2相似的部分。由結(jié)果可視化圖可知,當(dāng)α=1時(shí),輸出的小分子中包含有完整的分子片段;當(dāng)α=0.75時(shí),輸出的小分子中包含分子片段的部分結(jié)構(gòu)。
化合物的合成和活性化合物的篩選是藥物研發(fā)的重點(diǎn)和難點(diǎn),在此過(guò)程中,藥物小分子的篩選至關(guān)重要。本文的主要貢獻(xiàn)如下:基于分子的2DSDF存儲(chǔ)文本,提出了一種基于2D模型的藥物小分子篩選方法SMS-2D。仿真實(shí)驗(yàn)結(jié)果證明:SMS-2D能夠應(yīng)用于各個(gè)數(shù)據(jù)集的2DSDF文件藥物篩選,并能夠快速全面地搜索出目標(biāo)小分子,保證高查全率。目前,SMS-2D藥物篩選方法正用于四川大學(xué)生物治療國(guó)家重點(diǎn)實(shí)驗(yàn)室的藥物小分子篩選中,與實(shí)驗(yàn)室先前的人工篩選方法相比,SMS-2D大幅度地減少了藥物研發(fā)過(guò)程中的小分子篩選時(shí)間,縮短藥物研發(fā)周期。SMS-2D仍存在兩個(gè)不足之處:一是其只能應(yīng)用于2D的SDF文件;二是分子片段不宜太大,所涉及的原子最好不超過(guò)12個(gè)。未來(lái)將把研究重點(diǎn)放在分子的三維結(jié)構(gòu)上,以三維SDF文件為研究對(duì)象,深入挖掘分子結(jié)構(gòu)關(guān)系,期望能更高效率地進(jìn)行小分子篩選。