袁金濤 浦躍樸 尹立紅
(東南大學(xué)教育部環(huán)境醫(yī)學(xué)工程重點(diǎn)實(shí)驗(yàn)室,南京210009)
(東南大學(xué)公共衛(wèi)生學(xué)院, 南京 210009)
芳香胺可以經(jīng)過呼吸道、胃腸道和皮膚途徑進(jìn)入人體,在機(jī)體內(nèi)經(jīng)過一系列活化后可與人體細(xì)胞的DNA結(jié)合,從而導(dǎo)致人生病甚至致癌.流行病學(xué)研究表明,間苯二胺、二氨基二苯甲烷等芳香胺可誘發(fā)泌尿系統(tǒng)的癌癥.除了突變性和致癌性之外,芳香胺還會(huì)影響腸道菌群的平衡及其他多種病癥.暴露于人類的芳香胺可來源于食品接觸材料、橡膠制品中的抗氧化劑、染料或由黑色尼龍餐具等[1-2],這些源頭廣泛存在于人類的生產(chǎn)生活中.因此,研究芳香胺致癌性具有重要意義.
關(guān)于芳香胺的結(jié)構(gòu)和致癌活性的構(gòu)效關(guān)系(quantitative structure-activity relationship, QSAR)研究已有報(bào)道.Yuta等[2]對157個(gè)芳香胺是否致癌建立了模式識(shí)別模型.Benigni等[3]用結(jié)構(gòu)警報(bào)(structure alerts, SAs)方法分別研究了芳香胺在大鼠和小鼠中的致癌性.朱永平等[4]對芳香胺的致癌活性進(jìn)行了Fisher判別研究.戴乾圜等[5]應(yīng)用雙區(qū)理論對63個(gè)芳香胺的致癌活性進(jìn)行了闡釋.這些研究應(yīng)用不同的理論或建模方法取得了一定的成果,但筆者尚未發(fā)現(xiàn)用多種描述符建立線性判別模型的報(bào)道.因此,采用多種描述符建立線性判別模型具有一定的意義.
芳香胺除了具有強(qiáng)的致癌性外,還具有致突變性[6].目前,檢測致突變性的Ames試驗(yàn)方法已被大量應(yīng)用和報(bào)道,并且已有數(shù)量庫收集Ames試驗(yàn)結(jié)果,如ISSCAN數(shù)據(jù)庫[7],但將Ames試驗(yàn)和QSAR相結(jié)合的研究尚未見報(bào)道.本文以芳香胺為研究對象,采用將Ames結(jié)果作為自變量加入QSAR模型和先根據(jù)Ames結(jié)果分類后再用QSAR模型預(yù)測2種方法,對113個(gè)芳香胺的致癌性進(jìn)行了研究,并將這2種方法的結(jié)果與只采用多種描述符建立的線性判別模型結(jié)果進(jìn)行比較,探討Ames試驗(yàn)是否對提高模型預(yù)測能力具有重要意義.
從ISSCAN數(shù)據(jù)庫[7]中篩選出具有致癌和包含Ames數(shù)據(jù)的113個(gè)芳香胺(見表1).其中,不致癌的芳香胺共計(jì)22個(gè),致癌的芳香胺共計(jì)91個(gè).Ames結(jié)果呈陰性的有30個(gè),Ames結(jié)果呈陽性的有83個(gè).
表1 113個(gè)芳香胺化合物及其致癌、Ames和QSAR數(shù)據(jù)
續(xù)表1
續(xù)表1
所有的分子結(jié)構(gòu)采用HyperChem軟件畫出,再用AMPAC程序中的PM3半經(jīng)驗(yàn)方法進(jìn)行優(yōu)化.在Hartree-Fock水平上,采用Polar-Ribiere算法進(jìn)行優(yōu)化,直至均方根梯度達(dá)到0.001.將優(yōu)化后的分子結(jié)構(gòu)輸入CODESSA軟件,計(jì)算其組成、拓?fù)?、幾何、靜電以及量化等5類描述符,以定量表征分子形狀、對稱性、原子間的連接、分子電荷分布及量子化學(xué)結(jié)構(gòu)特征,總共計(jì)算得到609個(gè)描述符.logP值由ALOGPS 2.1軟件獲得[8].
SPXY(sample set partition based on jointx-ydistances)方法是對KS方法的一種擴(kuò)展,計(jì)算樣本之間的歐氏距離時(shí),將因素X和因素Y都考慮在內(nèi).此處,采用SPXY方法劃分?jǐn)?shù)據(jù)集.
啟發(fā)式回歸方法是CODESSA軟件中的一種描述符篩選方法[9].該方法對數(shù)據(jù)集大小沒有限制要求,且計(jì)算較快,主要步驟如下:
① 預(yù)篩選.將數(shù)據(jù)不全和對所有結(jié)構(gòu)數(shù)值都相同的描述符去掉,再將余下的描述符進(jìn)行相關(guān)分析,將F檢驗(yàn)值小于1.0、相關(guān)系數(shù)小于設(shè)定值、t檢驗(yàn)值小于設(shè)定值、描述符間相關(guān)系數(shù)大于設(shè)定值的結(jié)果都刪除.
② 將剩下的描述符按相關(guān)系數(shù)由大到小的順序排列.從相關(guān)系數(shù)最大的描述符開始,每個(gè)描述符與余下的描述符兩兩組合,與研究性質(zhì)關(guān)聯(lián),得到F檢驗(yàn)值最大的兩參數(shù)相關(guān)模型(即工作樣本).
③ 將剩余的相關(guān)程度較小的描述符依次加入工作樣本中.若加入后F檢驗(yàn)值增加,說明擴(kuò)展后的描述符是有效的,可用于進(jìn)一步計(jì)算.
④ 若所得模型中最大描述符的個(gè)數(shù)小于設(shè)定個(gè)數(shù),則返回第③步;否則,計(jì)算結(jié)束,保存模型,從而篩選出相關(guān)系數(shù)和F檢驗(yàn)值最大的模型.
模型均采用線性判別分析(LDA)方法建立,其基本原理是在n維樣本空間中通過如下計(jì)算將任意2個(gè)類別區(qū)分開:
Y=a1X1+a2X2+a3X3+…+amXm
(1)
式中,Y為判別值;X1,X2,…,Xm為與研究性質(zhì)有關(guān)的變量;a1,a2,…,am為各變量的系數(shù).判別模型質(zhì)量可通過wilk的λ統(tǒng)計(jì)量、F檢驗(yàn)值、p水平、馬氏距離D2、訓(xùn)練集化合物數(shù)目N以及留一法交叉驗(yàn)證正確率ALOO等進(jìn)行評(píng)價(jià).建模和質(zhì)量評(píng)價(jià)在SPSS軟件中采用默認(rèn)參數(shù)進(jìn)行.
本文所采用的化合物數(shù)據(jù)來自ISSCAN數(shù)據(jù)庫,113個(gè)化合物被SPXY方法劃分為訓(xùn)練集和測試集,其中,訓(xùn)練集包含85個(gè)化合物,測試集包含28個(gè)化合物.所有描述符應(yīng)用啟發(fā)式方法進(jìn)行初篩選,將初篩后的描述符輸入SPSS軟件,采用正向篩選方法選出適合的描述符,建立判別模型,由此得到包含3個(gè)描述符的模型QSAR 1(見表2).模型QSAR 1中,N=85,λ=0.805,D2=1.717,F(3,81)=6.531,p<10-3,ALOO=71.8%.模型QSAR 1對訓(xùn)練集和測試集的預(yù)測能力見表3.
表2 模型QSAR1中的描述符及其系數(shù)
表3 模型QSAR1和模型QSAR2的預(yù)測結(jié)果比較
為了研究Ames結(jié)果是否能提高模型的預(yù)測能力,將Ames試驗(yàn)結(jié)果加入模型中,得到含5個(gè)描述符的模型QSAR 2(見表4).模型QSAR 2中,N=85,λ=0.766,D2=2.170,F(5,79)=4.830,p<10-3,ALOO=76.5%.模型QSAR 2對訓(xùn)練集和測試集的預(yù)測能力見表3.由表可知,與模型QSAR 1相比,基于模型QSAR 2得到的訓(xùn)練集中不致癌芳香胺和致癌芳香胺的預(yù)測正確率分別增加7.1%和2.8%,但準(zhǔn)確率變化不大.同時(shí),λ,ALOO,D2等模型評(píng)價(jià)指標(biāo)也略有增加.
表4 模型QSAR2中的描述符及其系數(shù)
采用Ames結(jié)果將化合物分成Ames陰性和Ames陽性2類,再對其分別建立致癌性預(yù)測模型.建模前,將30個(gè)Ames陰性化合物用SPXY方法分成訓(xùn)練集(21個(gè))和測試集(9個(gè)),將83個(gè)Ames陽性化合物用SPXY方法分成訓(xùn)練集(58個(gè))和測試集(25個(gè)).Ames陰性化合物預(yù)測模型QSAR 3.1和Ames陽性化合物預(yù)測模型QSAR 3.2分別見表5和表6.模型QSAR 3.1中,N=21,λ=0.504,D2=4.367,F(2,18)=12.342,p<10-2,ALOO=81.0%.模型QSAR 3.2中,N=58,λ=0.764,D2=2.509,F(3,54)=14.672,p<10-2,ALOO=75.9%.2個(gè)模型的預(yù)測結(jié)果見表7.
表5 模型QSAR3.1中的描述符及其系數(shù)
表6 模型QSAR3.2中的描述符及其系數(shù)
由表7可知,對于113個(gè)化合物,根據(jù)模型QSAR 3.1和模型QSAR 3.2預(yù)測正確的化合物共計(jì)91個(gè),正確率為80.5%.由表3可知,模型QSAR 1和模型QSAR 2預(yù)測正確率分別為77.0%和80.5%.因此,無論是在模型中加入Ames結(jié)果,還是用Ames結(jié)果對化合物進(jìn)行分類后再分別建模,都可以小幅提高預(yù)測正確率,但提高幅度不明顯,不具有統(tǒng)計(jì)學(xué)顯著性差異.
表7 模型QSAR3.1和模型QSAR3.2的預(yù)測結(jié)果對比
將本文模型與運(yùn)用其他理論或建模方法得到的模型相比較,結(jié)果見表8.由表可知,本文模型的正確率較文獻(xiàn)[4]中模型的正確率高,但較文獻(xiàn)[2,5]中模型的正確率低,這可能與選擇的描述符類型和建模方法有關(guān).然而,本文模型采用的描述符個(gè)數(shù)最少,模型最簡潔,此外,由于采用線性判別分析方法建模,該模型易于理解.
表8 不同方法模型比較結(jié)果
與致癌性試驗(yàn)比較,Ames試驗(yàn)具有簡單、快速、成本低等優(yōu)點(diǎn).因此,將其與QSAR方法結(jié)合用于預(yù)測致癌性具有一定的可行性.本文針對芳香胺數(shù)據(jù)集,基于由CODESSA軟件計(jì)算所得的描述符,得到簡潔的QSAR模型,且模型質(zhì)量較好.將Ames試驗(yàn)結(jié)果與QSAR模型相結(jié)合預(yù)測芳香胺的致癌性,可以在一定程度上提高預(yù)測準(zhǔn)確率,但正確率的提高程度不具有統(tǒng)計(jì)學(xué)差異.由此認(rèn)為,采用QSAR預(yù)測化合物的致癌性時(shí),需根據(jù)研究對象綜合考慮選擇適當(dāng)?shù)姆椒ㄟM(jìn)行研究,才能得到滿意結(jié)果.下一步需要深入研究的是,如何將Ames試驗(yàn)與QSAR或其他方法結(jié)合以發(fā)揮其在化合物致癌性預(yù)測中的價(jià)值.
)
[1] 孫利,陳志鋒,儲(chǔ)曉剛.淺析食品接觸材料中的芳香胺問題[J].食品與機(jī)械,2006,22(6):121-126.
Sun Li, Chen Zhifeng, Chu Xiaogang. Analysis of primary aromatic amines in food contact materials[J].Food&Machinery, 2006,22(6): 121-126. (in Chinese)
[2] Yuta K, Jurs P C. Computer-assisted structure-activity studies of chemical carcinogens. aromatic amines [J].JournalofMedicalChemistry, 1981,24(3): 241-251.
[3] Benigni R, Worth A, Netzeva T, et al. Structural motifs modulating the carcinogenic risk of aromatic amines [J].EnvironmentalandMolecularMutagenesis, 2009,50(2): 152-161.
[4] 朱永平,余應(yīng)年,陳星若.芳香胺致癌活性的Fisher判別研究[J].中華預(yù)防醫(yī)學(xué)雜志,1999,33(1):21-25.
Zhu Yongping, Yu Yingnian, Chen Xingruo. Fisher discriminant analysis for carcinogenic potency of aromatic amines [J].ChineseJournalofPreventiveMedicine, 1999,33(1): 21-25. (in Chinese)
[5] 戴乾圜,鄭昔英,王宗一.芳胺結(jié)構(gòu)致癌活性關(guān)系的雙區(qū)理論定量闡釋[J].中國科學(xué):化學(xué),1990,40(7):681-688.
Dai Quanhuan, Zheng Xinying, Wang Zongyi. Di-region theory study the structure-carcinogenicity relationship of aromatic amines[J].ScientiaSinicaChimica, 1990,40(7): 681-688. (in Chinese)
[6] Benigni R. Structure-activity relationship studies of chemical mutagens and carcinogens: mechanistic investigations and prediction approaches [J].ChemicalReviews, 2005,105(5): 1767-1800.
[7] Benigni R, Bossa C, Tcheremenskaia O, et al. The new ISSCAN database on in vivo micronucleus and its role in assessing genotoxicity testing strategies [J].Mutagenesis, 2012,27(1): 87-92.
[8] Kujawski J, Bernard M K, Janusz A, et al. Prediction of logP: ALOGPS application in medicinal chemistry education [J].JournalofChemicalEducation, 2012,89(1): 64-67.
[9] Katritzky A R, Perumal S, Petrukhin R, et al. CODESSA-based theoretical QSPR model for hydantoin HPLC-RT lipophilicities [J].JournalofChemicalInformationandComputerSciences, 2001,41(3): 569-574.