王婷,田紅麗,李平
(銀川能源學(xué)院 石油化工學(xué)院,寧夏銀川 750105)
結(jié)核病是一種慢性傳染病,它嚴(yán)重危害著人體健康,全球被感染的人數(shù)約20億人次。我國(guó)是22個(gè)結(jié)核病流行嚴(yán)重的國(guó)家之一,也是27個(gè)耐多藥結(jié)核病流行嚴(yán)重的國(guó)家之一[1]。目前,結(jié)核病的發(fā)病率在全球呈現(xiàn)上升的趨勢(shì),結(jié)核分枝桿菌產(chǎn)生了耐多藥性,這種耐多藥的MDR2TB菌株明顯增多,極大地沖擊了常用的治療結(jié)核病的各類西藥,正因如此,結(jié)核病再次成為難治愈的傳染性疾病之一。有研究表明,中藥對(duì)結(jié)核分支桿菌有明顯的抑制作用,姜黃素及其類似物,由于具備各種生物活性并且對(duì)多種金屬離子具有識(shí)別作用,近年來(lái)成為國(guó)內(nèi)外研究重點(diǎn)。姜黃素取自姜科姜黃屬植物姜黃、郁金、莪術(shù)等的根莖[2],其分子結(jié)構(gòu)見(jiàn)圖1。由于姜黃素作用基團(tuán)較多,采用的配體和被修飾的基團(tuán)、結(jié)構(gòu)不同,所以近年來(lái)姜黃素的類似物可謂層出不窮。
到目前為止,有很多種合成姜黃素類似物的研究[3-4],定量結(jié)構(gòu)-活性相關(guān)(QSAR)提供了一個(gè)有價(jià)值的基于分子描述符來(lái)預(yù)測(cè)活性值的方法。筆者采用啟發(fā)式方法(HM)和徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)(RFBNN)預(yù)測(cè)47個(gè)異惡唑姜黃素類似物抗結(jié)核分枝桿菌的活性。目的是建立一個(gè)穩(wěn)定的QSAR模型,來(lái)預(yù)測(cè)各種姜黃素類似物的抗結(jié)核分枝桿菌的活性。
47個(gè)異惡唑姜黃素類似物抗結(jié)核分枝桿菌的活性數(shù)據(jù)來(lái)自文獻(xiàn)[5]。在這些化合物中,存在多種不同類型的異惡唑姜黃素類似物。原文獻(xiàn)中共有59個(gè)異惡唑姜黃素類似物,在計(jì)算時(shí),由于其中有7個(gè)化合物缺少活性數(shù)據(jù),以及另外5個(gè)化合物是作為混合物摻和而測(cè)得的活性數(shù)據(jù),所以選擇了其中47個(gè)化合物,除去了12個(gè)化合物。為了建立良好的非線性的QSAR模型,47個(gè)化合物的數(shù)據(jù)集被隨機(jī)的分成了訓(xùn)練集和測(cè)試集。訓(xùn)練集包括37個(gè)化合物,用于構(gòu)建一個(gè)預(yù)測(cè)模型;測(cè)試集包括10個(gè)化合物,用于檢驗(yàn)?zāi)P偷姆夯芰??;衔飳?duì)結(jié)核分枝桿菌的最低抑菌濃度MIC值均被轉(zhuǎn)換為pMIC(MIC值的負(fù)對(duì)數(shù))用于QSAR模型的構(gòu)建。
1.2.1 描述符的計(jì)算
47個(gè)異惡唑姜黃素類似物的二維分子結(jié)構(gòu)來(lái)自SciFinder數(shù)據(jù)庫(kù)。在確認(rèn)無(wú)誤后,在HyperChem8.0軟件中用分子力學(xué)MM+方法優(yōu)化分子結(jié)構(gòu),然后在HyperChem軟件中使用半經(jīng)驗(yàn)量子化學(xué)PM3方法來(lái)進(jìn)一步進(jìn)行分子結(jié)構(gòu)的優(yōu)化,再將結(jié)構(gòu)優(yōu)化文件輸入到MOPAC軟件中,使用MOPAC程序中的PM3方法來(lái)優(yōu)化分子結(jié)構(gòu)[6]。最后將優(yōu)化后的分子結(jié)構(gòu)文件導(dǎo)入CODESSA2.63[7]軟件中,計(jì)算出分子結(jié)構(gòu)的五類描述符,即組成、拓?fù)?、幾何、靜電和量子化學(xué)。
1.2.2 啟發(fā)式方法(HM)
本論文中應(yīng)用的啟發(fā)式方法(Heuristic Method,HM)是在CODESSA軟件下進(jìn)行的[8-9],啟發(fā)式方法線性模型選擇最優(yōu)描述符,其優(yōu)點(diǎn)是不限制活性數(shù)據(jù)集的大小,并且運(yùn)算速度很快。同時(shí),該方法還可以快速地計(jì)算出該模型相關(guān)系數(shù),并對(duì)已建立的線性模型做出評(píng)價(jià)。啟發(fā)式方法首先對(duì)所有計(jì)算出的描述符進(jìn)行預(yù)篩選,刪除不需要的描述符,然后通過(guò)單參數(shù)建模,把所建模型相關(guān)系數(shù)降序排列,再計(jì)算出描述符之間的相關(guān)關(guān)系矩陣,刪除相關(guān)度高的描述符之后,以逐步回歸建立具有最佳統(tǒng)計(jì)值的線性模型。模型的質(zhì)量由相關(guān)系數(shù)(R2),交互驗(yàn)證系數(shù)(Rcv2),F(xiàn)檢驗(yàn)值和標(biāo)準(zhǔn)方差(s2)來(lái)評(píng)價(jià)。
1.2.3 徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)(RBFNN)
徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)作為一種常用的神經(jīng)網(wǎng)絡(luò)模型,是一種非線性方法,被廣泛地應(yīng)用于QSAR/QSPR模型建立及分類,它的特點(diǎn)是具有最優(yōu)逼近和全局逼近,這種方法利用生物的局部調(diào)節(jié)原理,加上生物交疊接受區(qū)域的知識(shí),建立局部接受域,然后執(zhí)行函數(shù)映射。其原理結(jié)構(gòu)圖見(jiàn)圖2。
圖2 RBFNN的典型結(jié)構(gòu)
對(duì)于RBFNN建立的模型,通常采用均方根誤差(RMSE)來(lái)評(píng)價(jià)模型的預(yù)測(cè)能力。為了便于比較兩種方法以得到更精確的模型,以HM選擇的相同描述符的值作為RBFNN的輸入數(shù)據(jù),其中RBFNN是基于MATLAB腳本M-file語(yǔ)言編寫(xiě)的程序來(lái)建立非線性模型,進(jìn)一步討論異惡唑類姜黃素類似物分子結(jié)構(gòu)與抑菌活性的關(guān)系。
1.2.4 QSAR模型的預(yù)測(cè)能力
QSAR建立模型,還有一個(gè)很重要的環(huán)節(jié),就是評(píng)價(jià)QSAR的預(yù)測(cè)能力。一般情況下,下面的這些參數(shù)常常被用來(lái)作為評(píng)價(jià)指標(biāo)[10]:(1)訓(xùn)練集的預(yù)測(cè)值和觀測(cè)值的相關(guān)系數(shù)R2;(2)測(cè)定的相關(guān)系數(shù)(預(yù)測(cè)值對(duì)實(shí)驗(yàn)值R02,以及實(shí)驗(yàn)值對(duì)預(yù)測(cè)值R'02;(3)回歸方程的斜率(預(yù)測(cè)值對(duì)實(shí)驗(yàn)值k,以及實(shí)驗(yàn)值對(duì)預(yù)測(cè)值k'。如果得到的模型的參數(shù)能滿足以下條件,那么這個(gè)模型的預(yù)測(cè)能力就是比較好的:
為了建立最佳的描述符與異惡唑類姜黃素類似物抑菌活性的關(guān)系,通過(guò)對(duì)描述符進(jìn)行啟發(fā)式篩選后,分析了包含1至8個(gè)描述符的多參數(shù)相關(guān)性模型。當(dāng)逐漸增加描述符的個(gè)數(shù)后對(duì)模型的統(tǒng)計(jì)性能沒(méi)有明顯的改進(jìn)時(shí),就說(shuō)明繼續(xù)增加描述符的個(gè)數(shù)已無(wú)益于模型的建立,選擇當(dāng)R2的增幅小于0.02時(shí)來(lái)作為不再增加描述符個(gè)數(shù)的標(biāo)準(zhǔn)[10],以此來(lái)避免模型的“過(guò)擬合化”。該模型的預(yù)測(cè)結(jié)果見(jiàn)表1,相關(guān)系數(shù)R2為0.882 6,擬合效果較好,可用該方法對(duì)化合物的抑菌活性進(jìn)行預(yù)測(cè)。線性模型建立如下:
pMIC=149.51(±45.25)-0.78(±0.077)×HDSA1-1.128(±0.28)×HDSA2+0.066(±0.015)×PP/SD+0.0058(±0.0013)×XYS+0.064(±0.018)×RNO-4.07(±1.18)×RNSN=47
R2=0.882 6, Rcv2=0.837 1, F=50.10, s2=0.0981
說(shuō)明:其中編號(hào)帶*的是測(cè)試集,其余是訓(xùn)練集。
從采用啟發(fā)式方法建立的線性回歸來(lái)看,模型的R2=0.882 6,說(shuō)明選定的描述符與異惡唑姜黃素類似物的抗結(jié)核分枝桿菌活性之間存在著一定的線性關(guān)系,為了得到更優(yōu)的模型,使用相同的描述符數(shù)值作為輸入值建立非線性模型,進(jìn)一步探討異惡唑姜黃素類似物的分子結(jié)構(gòu)與抗結(jié)核分枝桿菌活性之間是否存在著非線性關(guān)系。在進(jìn)行了RBFNN參數(shù)優(yōu)化后,選擇當(dāng)訓(xùn)練集的相對(duì)標(biāo)準(zhǔn)偏差RMSE最小時(shí)的半徑r作為最佳半徑,在RBFNN建立模型的過(guò)程中,系統(tǒng)不斷地改變半徑r來(lái)尋求最佳半徑,這時(shí)對(duì)應(yīng)的可以得到留一法(LOO)的結(jié)果,半徑r與RMSE的關(guān)系圖見(jiàn)圖3。由圖3可以看出當(dāng)RMSE最小時(shí),最優(yōu)半徑r為2.7。表1中列有RBFNN的非線性模型結(jié)果,揭示了化合物的抑菌活性實(shí)驗(yàn)值和預(yù)測(cè)值的關(guān)系。該模型得到的統(tǒng)計(jì)結(jié)果:訓(xùn)練集:RMSE=0.244 6,R2=0.915 2;測(cè)試集:RMSE=0.298 3,R2=0.952 3。
通過(guò)比較HM和RBFNN,可以發(fā)現(xiàn),在模擬結(jié)構(gòu)參數(shù)與化合物抑菌活性之間的關(guān)系時(shí),RBFNN模型更精確。同時(shí)我們根據(jù)評(píng)價(jià)QSRR模型預(yù)測(cè)能力的標(biāo)準(zhǔn),R2>0.6,從統(tǒng)計(jì)意義上來(lái)說(shuō),該模型相對(duì)較高預(yù)測(cè)能力,那么這個(gè)模型是可以接受的。根據(jù)這些條件,得到化合物的RBFNN模型。該模型測(cè)試集的預(yù)測(cè)能力的相關(guān)檢驗(yàn)結(jié)果如下:
R2=0.9523>0.6 |R20-R'20|=0.0042<0.3
0.85≤k=0.9161≤1.15 or 0.85≤k=1.05≤1.15
從上面幾個(gè)結(jié)果可以看出,采用的第二種建模方法RBFNN所建立的非線性模型在活性的預(yù)測(cè)性能上表現(xiàn)出更大的優(yōu)勢(shì),從另外一個(gè)角度說(shuō)明它所建立的模型以及該模型的實(shí)際預(yù)測(cè)能力相比HM而言是較穩(wěn)定的。
圖3 RBFNN計(jì)算半徑r與RMSE的關(guān)系
從對(duì)分子描述符的解釋,可以了解到影響該類化合物抗菌活性的結(jié)構(gòu)因素。模型所選取的六個(gè)相關(guān)描述符中,兩個(gè)反映分子組成的組成描述符:The relative number of Satoms和The relative number of O atoms。三個(gè)涉及化合物電子分布的描述符:HAdependent HDSA-2(Quantum-Chemical PC),HAdependent HDSA-1 (Zefirov's PC) 和 Polarity parameter / Square distance;一個(gè)幾何拓?fù)涿枋龇篨Y Shadow,這些描述符是通過(guò)計(jì)算所給原子的三維坐標(biāo)描述來(lái)描述分子形狀的。
表1 樣本的實(shí)驗(yàn)值和預(yù)測(cè)值
相對(duì)氧原子數(shù)目和相對(duì)硫原子數(shù)目都是與分子組成相關(guān)的描述符。相對(duì)氧原子數(shù)目是由氧原子數(shù)目除以分子的總原子數(shù)目計(jì)算得到的,同時(shí)影響分子的電子云密度。該描述符出現(xiàn)于含烷氧、羧基和羰基的化合物,并且反映了在形成氫鍵的過(guò)程中擁有足夠電子密度的基團(tuán)的氫鍵接體能力。描述符與模型呈負(fù)相關(guān)性表明在水相中增加氫鍵作用,會(huì)降低化合物性質(zhì)。同樣,相對(duì)硫原子數(shù)目對(duì)化合物性質(zhì)也具有一樣的影響。
兩個(gè)電子描述符描述了氫鍵供體表面積,分別通過(guò)Zefirov和量子化學(xué)計(jì)算得到。由于氫鍵供體面積增加,使得形成氫鍵變得更加容易,致使氫鍵受體的接受能力也相應(yīng)增加。所以這些描述符描述了氫鍵受體的接受能力。當(dāng)它們?cè)谀P椭谐尸F(xiàn)負(fù)相關(guān),就表明擁有越強(qiáng)的氫鍵受體能力的化合物,其性質(zhì)參數(shù)越低。模型中引入的另一個(gè)電子描述符,即極性參數(shù)/平方距離描述符。它直接通過(guò)計(jì)算分子分布電荷與最高和最低的局部電荷間距離平方的比值得到,描述了化合物的極性,其值越大極性越小。由于描述符與模型呈正相關(guān)性,表明化合物的極性與其性質(zhì)呈反比。
XY影像反映了分子的大小和幾何形狀(標(biāo)準(zhǔn)化的影像指數(shù))。它是分子從空間映射到在X軸和Y軸形成平面上投影,并表示該分子在長(zhǎng)軸方向上的大小。正相關(guān)系數(shù)表明在XY平面的影像越大越有利于化合物性質(zhì)參數(shù)的增大。原因可以歸結(jié)為性質(zhì)參數(shù)取決于分子的表面積。分子表面積是由計(jì)算切片的增量dx與封閉圓弧的長(zhǎng)度乘積的總和得到的。此描述符與模型呈正相關(guān)性,表明增加與土壤中分子的接觸表面積可以增大其土壤水分配系數(shù)。
從以上的討論中可以看到,所有參與QSAR模型的描述符都有明確的物理、化學(xué)意義。它們對(duì)化合物性質(zhì)的影響可以總結(jié)為兩個(gè)方面,即表面積和氫鍵受體能力,所得結(jié)論與普遍接受的學(xué)說(shuō)[10]相一致。因此,分子描述符能夠很好地表示化合物的結(jié)構(gòu)特征,解釋結(jié)構(gòu)特征與化合物性質(zhì)之間的關(guān)系。
(1)從大量的分子描述符中選擇出適合的描述符來(lái)建立的有意義的可靠的構(gòu)效關(guān)系模型,使其應(yīng)用于預(yù)測(cè)異惡唑姜黃素類似物的抗結(jié)核分枝桿菌活性。采用啟發(fā)式方法(HM)建立了線性模型簡(jiǎn)單明了的指出了哪些描述符對(duì)這類化合物的抑菌活性起作用。通過(guò)解釋選定描述符得到影響化合物抗菌活性的因素,對(duì)合成高性能化合物的實(shí)驗(yàn)進(jìn)行指導(dǎo)。
(2)采用徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)(RBFNN)用同樣的分子描述符建立的非線性模型表現(xiàn)了更強(qiáng)的預(yù)測(cè)能力。訓(xùn)練集的交互驗(yàn)證系數(shù)Rcv2及測(cè)試集的相關(guān)統(tǒng)計(jì)指標(biāo)說(shuō)明了模型具有較好的預(yù)測(cè)能力和準(zhǔn)確性,該方法可以用來(lái)預(yù)測(cè)各種姜黃素類似物的抗結(jié)核分枝桿菌的活性。