鄭景泉++楊浩娜++彭世文++王立峰
摘要:采用分子描述符計算軟件PCLIENT獲得123個醇類有機小分子化合物的1 666個理化性質參數(shù),通過相關性分析與逐步線性回歸篩選,最終獲得14個分子描述符。基于保留的14個關鍵理化性質,分別以多元線性回歸(MLR)、偏最小二乘回歸(PLS)與支持向量回歸(SVR)構建醇類化合物對歐洲林蛙蝌蚪毒性的QSAR模型。結果表明:3種模型的獨立預測決定系數(shù)Q2從初始的-163.350、-0.019、0.686分別提升到0.860、0.903與0.936,剔除無關描述符能顯著提升模型的預測精度;基于SVR的訓練擬合精度和獨立預測精度均較好,表明其泛化能力強,魯棒性好; SVR模型獨立測試集預測值和真實值比較結果證明最終篩選出的14個描述符具有較好的顯著性,模型具有較好的穩(wěn)健性。本方法在有毒化合物等QSAR研究領域有較廣泛應用前景。
關鍵詞:醇類化合物;歐洲林蛙蝌蚪;描述符篩選;支持向量回歸;定量構效關系
中圖分類號:Q592.9文獻標識號:A文章編號:1001-4942(2017)02-0067-05
目前人類已知的有機物達8 000多萬種,大量有機物已經(jīng)或正在通過各種途徑進入生態(tài)環(huán)境中,其中多數(shù)有機物具有一定的生物毒性。對有機物進行毒性評價是評估其是否具有環(huán)境可投放性必不可少的重要環(huán)節(jié)[1,2]。在對水生動物進行急性毒性研究中,由于兩棲類動物(如青蛙及其幼體蝌蚪)有可滲透的皮膚,更易從環(huán)境中吸收物質,對水質污染具有更大的敏感性,因而被較多地用作進行急性毒性生物評估的生物材料[3,4]。但通過實驗方法對有機物進行毒性評價耗時費力,難以覆蓋多達數(shù)千萬種的有機物種類;此外,毒性的實驗測定只適用于已合成出來的化合物,無法對還未實際合成的化合物進行預先評估。
定量結構-活性關系(quantitative strcture-activity relationship, QSAR)利用化學計量學方法總結化合物的生物活性與其分子結構參數(shù)的關系,是化學與生物學之間的橋梁[5,6]。精度是QSAR在有機物毒性活性預測中的關鍵,QSAR計算或預測精度與描述符的提取、篩選以及建模方法有關。描述符的提取要兼顧有效性及易獲得性,即使對虛擬化合物亦能以量子化學計算獲取標準數(shù)字化描述符[7]。篩選獲得的描述符要確保顯著性與可解釋性,模型的建立要保證魯棒性及泛化推廣性能。以統(tǒng)計學習理論和結構風險最小為基礎建立的支持向量機(support vector machine,SVM)是機器學習領域的集大成者,它較好地解決了小樣本、非線性、過擬合、維數(shù)災和局極小等問題,泛化推廣能力優(yōu)異[8,9]。 SVM 包括支持向量分類(support vector classification,SVC)和支持向量回歸(support vector regression,SVR),SVR 更適用于QSAR建模[10],已在諸多QSAR研究中得到成功應用[11-14]。
本文采用分子描述符計算軟件PCLIENT表征醇類有機小分子化合物[15],獲得其理化性質參數(shù);結合相關性分析與逐步線性回歸,篩選獲得關鍵描述符;基于訓練集與保留描述符建立QSAR模型,預測其對歐洲林蛙蝌蚪的生物毒性,以證實該方法在有毒化合物的QSAR研究領域的應用前景。
1數(shù)據(jù)與方法
1.1數(shù)據(jù)來源
本文數(shù)據(jù)集來自文獻[3],含123個醇類有機小分子化合物,其毒性指數(shù)為對歐洲林蛙蝌蚪50%生長抑制濃度(IGC50)的負對數(shù)。全部樣本按毒性活性值由低到高排序,為使測試集中的樣本均勻分布,每隔3個樣本抽取一個放入測試集,依次選取第4、8、12…116、120號30個樣本組成測試集(表1),其余93個樣本為訓練集,以訓練集樣本得到的模型對測試集樣本的毒性進行預測。
1.2分子描述符的計算與篩選
1.2.1分子描述符獲取首先以分子結構編輯器JME Editor畫出分子結構,并保存為簡化分子線性輸入規(guī)范(simplified molecular input line entry specification,SMILES)文件格式,再將SMILES文件作為PCLIENT的輸入(http://vcclab.org/articles/cite.html),即可獲得每個分子結構描述符[15]。
1.2.2描述符篩選相關性分析篩選描述符:首先以毒性實驗值與各理化性質逐個計算Pearson相關系數(shù),根據(jù)相關系數(shù)假設檢驗的概率P值,選出顯著正或負相關(顯著水平0.05)的描述符。
通過逐步線性回歸(stepwise linear regression,SLR)進行進一步變量篩選:SLR是一種“有進有出”的變量篩選方法,它從一個自變量開始,根據(jù)自變量對因變量Y作用的顯著程度,從大到小依次逐個引入回歸方程。當已引入的自變量由于后面變量的引入而變得不顯著時,則停止引入,進入到剔除過程。引入一個自變量或從回歸方程中剔除一個自變量,為逐步回歸的一步。對于每一步都要對回歸方程的顯著性進行F值檢驗,以確保每次引入新的顯著性變量前回歸方程中只包含對Y作用顯著的變量?!斑M”與“出”的過程反復進行,直到既無可剔除的不顯著變量,又無可引入的顯著變量為止。根據(jù)以上兩步變量篩選過程,獲得最終的保留描述符[16]。
1.3建模過程
1.3.1多元線性回歸 多元線性回歸(multiple linear regression,MLR)是統(tǒng)計學中最經(jīng)典常用的回歸模型,原理簡單,構建模型通俗易懂,在QSAR研究中得到廣泛應用。其多元線性回歸方程為:
y^=b0+b1x1+b2x2+…+bmxm。(1)
式中y^為因變量,x為自變量,b0為常數(shù)項,b1~bm為偏回歸系數(shù)。
本研究的MLR模型由MATLAB統(tǒng)計工具箱中的“regress.m”函數(shù)實現(xiàn)。
1.3.2偏最小二乘回歸偏最小二乘回歸(partial least squares,PLS)是一種基于潛變量之間的相關性進行建模預測的一種多元統(tǒng)計方法[17]。它結合了主成分分析、相關性分析和多元線性回歸分析的主要優(yōu)點,能更有效地抓取到因變量和自變量之間潛在的相關性,達到滿意的建模效果。
本文中PLS模型由MATLAB統(tǒng)計工具箱中的“plsregress.m”程序實現(xiàn),以留一法交叉驗證的最小MSE原則來選擇PLS的潛變量個數(shù)。
1.3.3支持向量回歸支持向量機(SVM)是基于統(tǒng)計學習理論提出的一種應用于模式識別與機器學習領域的新方法[18],其核心思想是對所有樣本構建一個超平面,通過核函數(shù)將各樣本變量映射到高維特征空間,使兩類樣本能夠通過此超平面可分,并使各個向量距離此超平面的間隔最大,而此時距離超平面最近的向量則被稱為支持向量。該超平面方程可簡寫為:
WTx+b=0。(2)
支持向量機包括支持向量分類(SVC)和支持向量回歸(SVR),分別應用于分類問題和回歸問題,本研究采用SVR。
本研究的SVR模型由Chang等編寫的軟件LIBSVM實現(xiàn)[6]:核函數(shù)均設置為徑向基核;該軟件包中需優(yōu)化的參數(shù)包括懲罰參數(shù)c,徑向基核函數(shù)的參數(shù)g和損失函數(shù)的參數(shù)p,參數(shù)優(yōu)化以網(wǎng)格搜索實現(xiàn)。
1.4模型評價指標
模型的獨立預測精度采用均方根誤差RMSE與Tropsha等[19]的方法作為評價指標:
RMSE=∑ntei=1(yi-y^i)2nte ; (3)
Q2=1-∑ntei=1(yi-y^i)2∑ntei=1(yi-ytr)2。 (4)
式中:yi為測試集因變量觀測值,y^i為測試集因變量預測值,nte為測試集樣本數(shù),ytr為訓練集因變量的平均值。
2結果與分析
2.1描述符構建與篩選
把所有的化合物結構式輸入在線服務軟件PCLIENT,經(jīng)過計算和篩選,刪除每一列全為0或全為999的特征,最終得到每個化合物含1 666個描述子作為初始特征矩陣。而后以毒性實驗值與各理化性質逐個計算Pearson相關系數(shù),根據(jù)相關系數(shù)假設檢驗的概率P值,以0.05為顯著水平,選出顯著正相關的描述符共792個,然后通過SLR做進一步變量篩選,最終保留描述符14個。
2.2模型比較
分別以1 666、792、14個描述符作為特征,再分別以MLR、PLS和SVR建模,所得結果見表2。由表2可以看出,隨著篩選出描述符數(shù)量的減少,模型的獨立預測精度變得更優(yōu),表明該特征篩選方法是有效的,篩選出的特征是顯著的。不同模型橫向比較,基于MLR的訓練擬合精度極好,但獨立精度很差,表明模型容易產(chǎn)生過擬合,且泛化推廣能力較差;基于PLS的訓練擬合精度較好,但獨立精度一般;而基于SVR訓練擬合精度和獨立預測精度均很好,表明其泛化能力好,魯棒性強。
3討論與結論
以PCLIENT計量軟件對醇類有機小分子化合物進行表征,每一化合物分別得到1 666個理化參數(shù)描述符,這些理化參數(shù)描述符涵蓋疏水性、拓撲性、親電性、立體性質等多種屬性,是對醇類有機小分子化合物較為全面系統(tǒng)的整體表征。但對QSAR模型而言,無關、冗余描述符會影響預測精度,本文首先以相關性分析剔除其中874個未達顯著相關性指標的描述符,結合逐步線性回歸,最終篩選得到14個關鍵理化性質描述符?;?4個分子描述符,采用支持向量機學習算法建立QSAR模型,預測獨立測試樣本的生物毒性,取得了較好效果,預測指標Q2和RMSEP分別達到0.936和0.308。通過獨立測試集的預測值和真實值比較,表明篩選出的14個描述符具有較好的顯著性,SVR模型具有較好的穩(wěn)健性。與常用模型MLR、PLS等比較,新方法具有顯著優(yōu)越性,在醇類有機小分子化合物毒性的QSAR研究中具有較好的應用前景。
參考文獻:
[1]張愛茜, 劉景富, 景傳勇, 等. 我國環(huán)境化學研究新進展[J]. 化學通報, 2014 (7): 654-659.
[2]董小蓉, 楊曉明, 魯翌, 等. 長江、漢江水源水及其自來水中有機物生物毒性的比較[J]. 中國環(huán)境科學, 2010, 30(2): 263-268.
[3]Agrawal V K, Chaturvedi S, Abraham M H, et al. QSAR study on tadpole narcosis[J]. Bioorganic. & Medicinal. Chemistry, 2003, 11(20): 4523-4533.
[4]Abraham M H, Rafols C. Factors that influence tadpole narcosis. An LFER analysis[J]. J. Chem. Soc., Perkin Trans.,1995,2(10): 1843-1851.
[5]安麗英, 相玉紅, 張卓勇, 等. 定量構效關系研究進展及其應用[J]. 首都師范大學學報 (自然科學版), 2006, 27(3): 52-57.
[6]Chang C C, Lin C J. LIBSVM: a library for support vector machines[J]. ACM Transactions on Intelligent Systems and Technology (TIST), 2011, 2(3): 27.
[7]梅虎, 周原, 孫立力, 等. 一種新的氨基酸描述子及其在肽QSAR中的應用[J]. 物理化學學報, 2004, 20(8): 821-825.
[8]陳淵, 袁哲明, 周瑋, 等. 基于地統(tǒng)計學與支持向量回歸的QSAR建模[J]. 物理化學學報, 2009, 25(8): 1587-1592.
[9]顧燕萍, 趙文杰, 吳占松. 最小二乘支持向量機魯棒回歸算法研究[J]. 清華大學學報(自然科學版), 2015,55(4):396-402.
[10]孫德山. 支持向量機分類與回歸方法研究[D]. 長沙:中南大學, 2004.
[11]李顆, 李向輝, 徐西林, 等. 芳香羧酸衍生物驅避劑的非線性定量構效關系[J]. 昆蟲學報, 2014, 57(9): 1018-1024.
[12]王雪源, 張燦, 蔣莉, 等. 基于支持向量機的乙酰膽堿酯酶抑制劑的構效關系研究[J]. 計算機與應用化學, 2014, 31(2): 185-188.
[13]Wang L, Dai Z, Zhang H, et al. Quantitative sequence-activity model analysis of oligopeptides coupling an improved high-dimension feature selection method with support vector regression[J]. Chemical Biology Drug Design, 2014, 83(4): 379-391.
[14]熊光, 張紅燕. 黃烷酮類衍生物的抗菌活性QSAR研究[J]. 中國農(nóng)學通報, 2015, 31(29): 77-81.
[15]Tetko I V, Gasteiger J, Todeschini R, et al. Virtual computational chemistry laboratory – design and description[J]. Journal of Computer-Aided Molecular Design, 2005, 19(6):453-463.
[16]Tang Q Y, Zhang C X. Data processing system (DPS) software with experimental design, statistical analysis and data mining developed for use in entomological research[J]. Insect Science, 2013, 20(2): 254-260.
[17]Wold S, Ruhe A, Wold H, et al. The collinearity problem in linear regression. The partial least squares (PLS) approach to generalized inverses[J]. Siam Journal on Scientific & Statistical Computing, 1984, 5(3):735-743.
[18]張學工. 關于統(tǒng)計學習理論與支持向量機[J]. 自動化學報, 2000, 26(1): 32-42.
[19]Tropsha A, Gramatica P, Gombar V K. The importance of being earnest: validation is the absolute essential for successful application and interpretation of QSPR models[J]. QSAR & Combinatorial Science, 2003, 22(1): 69-77.(上接第66頁)
[5]繆靜, 殷曰彩,馮志彬,等. 無花果果醋發(fā)酵工藝優(yōu)化[J].食品與機械,2014,30(3):218-221.
[6]李芳, 孔令明,宋曼,等. 速凍無花果保鮮工藝的研究[J].食品工業(yè),2014,35(9):70-74.
[7]張澤俊,沙坤,馬雯. 無花果葉不同溶劑提取物抗氧化活性的比較研究[J]. 安徽農(nóng)業(yè)科學, 2011, 39(12): 6981-6982,7010.
[8]楊潤亞,明永飛,王慧. 無花果葉中總黃酮的提取及其抗氧化活性測定[J]. 食品科學, 2010, 31(16): 78-82.
[9]中華人民共和國衛(wèi)生部.GB 5009.3-2010 食品安全國家標準 食品中水分的測定[S].2010.
[10]邱松山,周天,姜翠翠,等. 無花果粗多糖提取工藝及抗氧化活性研究[J].食品與機械, 2011, 27(1): 40-42.
[11]Kanokwan M, Soottawat B, Munehiko T. Effect of reactant concentrations on the Maillard reaction in a fructose-glycine model system and the inhibition of black tiger shrimp poly phenoloxidase [J]. Food Chemistry, 2006, 98(1): 1-8.
[12]孫月娥,呂丹娜,王衛(wèi)東,等. 美拉德反應對大蒜抗氧化活性的影響[J].食品工業(yè)科技,2013, 34(9):119-123.山 東 農(nóng) 業(yè) 科 學2017,49(2):72~75Shandong Agricultural Sciences山 東 農(nóng) 業(yè) 科 學第49卷第2期郭成,等:蘋果砧木組培苗生根誘導技術研究DOI:10.14083/j.issn.1001-4942.2017.02.015