馮長(zhǎng)君
(徐州工程學(xué)院 化學(xué)化工學(xué)院,江蘇 徐州 221018)
定量構(gòu)效關(guān)系(quantitative structure-activity relationship,QSAR)[1-4]研究主要通過(guò)理論計(jì)算和各種統(tǒng)計(jì)分析工具來(lái)建立若干化合物的結(jié)構(gòu)與其生物活性之間的數(shù)學(xué)關(guān)系,以此預(yù)測(cè)其它化合物的相關(guān)性質(zhì)(例如抑菌活性、生物毒性、致癌性等);并在分子水平上揭示微觀結(jié)構(gòu)對(duì)化合物各種生物活性的影響,推測(cè)其可能的作用機(jī)理.QSAR研究的關(guān)鍵是建立分子結(jié)構(gòu)的描述符.拓?fù)渲笖?shù)因可直接從分子結(jié)構(gòu)衍生出來(lái),不依賴(lài)于實(shí)驗(yàn)測(cè)量而備受關(guān)注.Randic[5]提出并由Kier和Hall[6]擴(kuò)展的分子連通性指標(biāo)是最廣泛應(yīng)用的拓?fù)渲笜?biāo)之一.最近報(bào)道了一種基于2D拓?fù)浣Y(jié)構(gòu)和13種原子類(lèi)型的分子電性距離矢量(Mt)[7-9],成功建立有機(jī)化合物多種生物活性與Mt之間的QSAR模型.
雜環(huán)類(lèi)化合物結(jié)構(gòu)變化多樣、活性高且污染小,日益受到人們的普遍重視.如均三唑并噻二唑類(lèi)化合物具有抗腫瘤、抗菌、殺蟲(chóng)以及調(diào)節(jié)植物生長(zhǎng)等生物活性.姚明星等[10]根據(jù)生物活性疊加原理,把吡唑引入到均三唑并噻二唑中,設(shè)計(jì)合成 21個(gè)吡唑取代基的 1,2,4-三唑[3,4-b]-1,3,4-噻二唑衍生物,簡(jiǎn)稱(chēng)“取代三唑-噻二唑衍生物(Substituted-triazolo-benzothiazole,STB)”.他們采用不同方法測(cè)試了這些化合物的多種生物活性.本文基于電性距離矢量[7-9],通過(guò)最佳變量子集回歸建立STB生物活性的QSAR模型,估算與預(yù)測(cè)STB生物活性,并在分子水平上揭示影響其生物活性的微觀結(jié)構(gòu),為合理設(shè)計(jì)新穎、高效STB的先導(dǎo)化合物提供理論參考.
圖1 取代三唑-噻二唑衍生物的母體結(jié)構(gòu)
姚明星等[10]合成的21個(gè)取代三唑-噻二唑類(lèi)化合物的母體結(jié)構(gòu)如圖1所示,相應(yīng)取代基R1、R2見(jiàn)表1.
采用小麥芽鞘法測(cè)試上述化合物的麥芽生長(zhǎng)活性(wheat gemma activities,Wg),Wg越大,表示對(duì)小麥芽鞘生長(zhǎng)具有良好促進(jìn)作用.采用打孔法測(cè)試這些化合物對(duì)大腸桿菌(E.coli) 的抑菌活性,即抑菌率(%),并根據(jù)生物統(tǒng)計(jì)概率值換算表?yè)Q算成抑制概率值,以“Ec”表示.Ec越大,表示對(duì)大腸桿菌(E.coli) 的抑菌活性越高.Wg、Ec的值[10]見(jiàn)表1、表2.
表1 取代三唑-噻二唑衍生物的生長(zhǎng)素活性(Wg)與電性距離矢量 (Mt) 的相關(guān)性
表2 取代三唑-噻二唑衍生物的抑菌活性(Ec)與電性距離矢量(Mt)的相關(guān)性
續(xù)表2
化合物的分子結(jié)構(gòu)信息是建立良好構(gòu)效關(guān)系的前提,目前QSAR方法中用于分子結(jié)構(gòu)表征的二維描述子主要有分子全息、拓?fù)渲笖?shù)等,它們已在環(huán)境科學(xué)、生命科學(xué)、藥物設(shè)計(jì)等方面已經(jīng)取得廣泛的應(yīng)用.本文基于13種原子類(lèi)型的分子電性距離矢量描述子(Mt)[7-9]表征不同類(lèi)別有機(jī)物的分子結(jié)構(gòu),其計(jì)算過(guò)程參見(jiàn)文獻(xiàn)[7-9].
本文化合物中只有第1、2、3、6、7、9、10共7種原子類(lèi)型,它們兩兩相互作用(包含自身相互作用),理論上可以形成38種電性距離矢量.由于某些原子類(lèi)型在分子中不存在,導(dǎo)致某些相互作用類(lèi)型不存在,因此,實(shí)際只有33個(gè)不全為零的電性距離矢量.部分電性距離矢量見(jiàn)表1、表2.
以生物活性作為因變量,電性距離矢量作為獨(dú)立變量建立QSAR模型.通常采用最佳變量子集回歸(LBR)等程序進(jìn)行.驗(yàn)證是建立具有可靠性、準(zhǔn)確性模型的重要一步.常用統(tǒng)計(jì)驗(yàn)證指標(biāo):
1) 方差膨脹因子(VIF)[11]:檢驗(yàn)?zāi)P椭懈髯兞恐g的相關(guān)性,定義式
VIF= 1 /(1-β2),
(1)
式中β是方程中一個(gè)自變量與其他自變量之間的多元回歸的相關(guān)系數(shù).其評(píng)判標(biāo)準(zhǔn)是VIF<5.0,表示變量間沒(méi)有明顯的自相關(guān)性,所建模型是穩(wěn)定的;當(dāng)VIF大于5.0時(shí),回歸方程不穩(wěn)定,必須重新檢查變量的相關(guān)系數(shù).
3)t-檢驗(yàn):如果在某個(gè)置信水平α下,驗(yàn)證模型中所有變量t的絕對(duì)值大于標(biāo)準(zhǔn)t值(tα/2),則表明模型通過(guò)t-檢驗(yàn)并具有明顯的統(tǒng)計(jì)學(xué)意義.
4) Akaike信息準(zhǔn)則(AIC)[14-15]:定義方程為式(2),產(chǎn)生最小AIC值的模型被認(rèn)為是最有用的.
(2)
5) Kubinyi函數(shù)(FIT)[14-15]:定義式為方程(3),即最好的模型將呈現(xiàn)這個(gè)函數(shù)的最高值來(lái)確定模型中是否應(yīng)包含某個(gè)變量.
(3)
在上述式中:RSS是殘差平方和,f是模型中包含的化合物數(shù),b是模型中包含的變量數(shù).在添加額外的變量時(shí),如果Akaike信息準(zhǔn)則值降低了,并且Kubinyi函數(shù)的值增加,那么此新變量的引入是合理的.
表3 取代三唑-噻二唑衍生物的Wg與Mt逐步回歸結(jié)果
Wg=6.034(±1.176)-39.849(±15.474)M82+0.816(±0.244)M21+136.465(±24.165)M9
(4)
取代三唑-噻二唑衍生物對(duì)大腸桿菌的抑菌活性(Ec)與電性距離矢量(Mt)的各元QSAR模型見(jiàn)表4.
表4 取代三唑-噻二唑衍生物的Ec與Mt逐步回歸結(jié)果
Ec=4.644(±0.058)+0.604(±0.169)M63-0.350(±0.058)M59+0.048(±0.017)M10+
5.783(±3.932)M1,
(5)
方程(5)中括號(hào)“±”后的值是指與回歸系數(shù)相對(duì)應(yīng)的標(biāo)準(zhǔn)偏差,其所有標(biāo)準(zhǔn)偏差均小于回歸系數(shù)的1/2,表明該模型是穩(wěn)定的.但是方程(5)中M1的標(biāo)準(zhǔn)偏差大于其回歸系數(shù)的1/2,表明該模型是不穩(wěn)定的,應(yīng)予以剔除,建立最佳的三元方程:
Ec=4.654(±0.059)+0.559(±0.172)M63-0.362(±0.059)M59+0.060(±0.015)M10,
(6)
使用QSAR方程(4)、(6)得到的預(yù)測(cè)值見(jiàn)表1中的Wg.cal和表2中的Ec.cal,與相應(yīng)實(shí)驗(yàn)值基本吻合.
方程(4)中三個(gè)獨(dú)立變量的標(biāo)準(zhǔn)回歸系數(shù)(SR)和t值見(jiàn)表3.當(dāng)置信水平為95%時(shí),模型的標(biāo)準(zhǔn)t值(tα/2)為2.120.從表5可以看出,模型中各自變量的t絕對(duì)值均大于標(biāo)準(zhǔn)tα/2值,證明模型具有可信度.同時(shí),M9、M21、M82的t的絕對(duì)值依次減小,此與SR的遞變規(guī)律一致,這表明M9對(duì)Wg有最強(qiáng)影響.對(duì)于模型(6),可得出類(lèi)似的規(guī)律:M59是影響Ec的最強(qiáng)因素.表5顯示模型(4)、(6)中變量的VIF值均小于5.0,且非常接近1,表明它們均具有統(tǒng)計(jì)學(xué)意義,各個(gè)自變量之間幾乎沒(méi)有共線(xiàn)性.
表5 模型(4)、(6)質(zhì)量的檢驗(yàn)指標(biāo)(SR、tα/2和VIF)
判定系數(shù)R2又稱(chēng)削減誤差比例.模型(4)的R2=0.875,表明M9、M21、M82和常數(shù)項(xiàng)共同揭示了影響小麥芽鞘生長(zhǎng)活性(Wg)的87.5%因素,僅有12.5%屬于隨機(jī)因素;模型(6)的R2=0.856,表明M10、M59、M63和常數(shù)項(xiàng)共同揭示了影響大腸桿菌抑菌活性(Ec)的85.6%因素,僅有14.4%屬于隨機(jī)因素.進(jìn)一步表明上述模型的正確性.由此表明模型(4)、(6)均為高度魯棒,顯著相關(guān)模型,不僅可用于標(biāo)題化合物生物活性的估算與預(yù)測(cè),也可用于生物機(jī)理的解釋.
根據(jù)分子電性距離矢量理論可知,進(jìn)入模型(4)中的電性距離矢量:M9反映第一類(lèi)碳原子(—CH3)與第九類(lèi)氧原子(=O、—OH)相互作用,M21反映第二類(lèi)碳原子與第九類(lèi)氧原子(=O、—OH)相互作用,M82反映第十類(lèi)醚氧原子或者硫醚硫原子(—O—、—S—)之間相互作用.進(jìn)入模型(6)中的電性距離矢量:M10反映第一類(lèi)碳原子(—CH3)與第十類(lèi)醚氧原子或者硫醚中硫原子相互作用,M59反映第六類(lèi)氮原子(—NH—、—N=)與第九類(lèi)氧原子相互作用,M63反映第六類(lèi)氮原子與第十三類(lèi)鹵素原子相互作用.即這6個(gè)電性距離矢量分別隱含了6類(lèi)非氫原子的結(jié)構(gòu)信息.其中第一、二類(lèi)碳原子為非極性基團(tuán),具有疏水性;余下4類(lèi)為高電負(fù)性的極性基團(tuán),能夠與電負(fù)性大的基團(tuán)形成氫鍵.因此,它們都是影響取代三唑-噻二唑衍生物生物活性的結(jié)構(gòu)基團(tuán).從表5的SR和t值可見(jiàn),M9對(duì)小麥芽鞘生長(zhǎng)活性(Wg)、M59對(duì)大腸桿菌抑菌活性(Ec)起主要影響作用.它們都對(duì)應(yīng)高電負(fù)性的羰基氧、羥基氧基團(tuán),能與生物體內(nèi)蛋白質(zhì)形成氫鍵,發(fā)揮促進(jìn)或抑制作用.由此推論:1) 取代三唑-噻二唑衍生物對(duì)小麥芽鞘生長(zhǎng)活性(Wg)影響的結(jié)構(gòu)基團(tuán)與對(duì)大腸桿菌抑菌活性(Ec)的影響是不同的.2) 它們的結(jié)構(gòu)基團(tuán)不同,說(shuō)明二者的生物作用機(jī)理不同.
1) 分子電性距離矢量可對(duì)21種取代三唑-噻二唑衍生物的抽象分子結(jié)構(gòu)實(shí)現(xiàn)數(shù)值化表征,呈現(xiàn)良好的結(jié)構(gòu)選擇性.
3) 藥物的生物活性通常是由分子的多結(jié)構(gòu)因素協(xié)同發(fā)揮作用的結(jié)果,而不是由單一參數(shù)決定.因此,根據(jù)進(jìn)入模型(4)、(6)的電性距離矢量可知,它們對(duì)生物活性(Wg、Ec)發(fā)揮影響的分子結(jié)構(gòu)單元有:—CH3、—C—、—NH—、—N=、—OH、O=、—O—、—S—等,其中=O、—OH起主要作用.