李建鳳,廖立敏,2*
(1. 內(nèi)江師范學(xué)院化學(xué)化工學(xué)院,中國(guó) 內(nèi)江 641100;2. 四川省高等學(xué)?!肮悘U棄物資源化”重點(diǎn)實(shí)驗(yàn)室,中國(guó) 內(nèi)江 641100)
不飽和烴類化合物包括烯烴、炔烴等,不飽和烴的雙鍵和三鍵都不太牢固,容易發(fā)生親電加成反應(yīng)。有機(jī)化合物在水中的溶解度(-lgSw)是研究其在溶液中所表現(xiàn)的化學(xué)行為的重要參數(shù),溶解度(-lgSw)與有機(jī)化合物在動(dòng)植物體、人體的吸收、分布以及各種環(huán)境介質(zhì)中的遷移和歸趨有關(guān),因而廣泛運(yùn)用于化學(xué)、生物、藥學(xué)及環(huán)境科學(xué)[1,2]等領(lǐng)域。有機(jī)化合物的溶解度(-lgSw)與其分子結(jié)構(gòu)有關(guān),建立化合物結(jié)構(gòu)—溶解度(-lgSw)關(guān)系模型,利用計(jì)算機(jī)對(duì)化合物溶解度(-lgSw)進(jìn)行預(yù)測(cè)是獲得數(shù)量巨大的有機(jī)化合物溶解度(-lgSw)參數(shù)的有效途徑。建立化合物—性質(zhì)關(guān)系模型的首要步驟是將有機(jī)化合物結(jié)構(gòu)進(jìn)行參數(shù)化表征,在這方面目前應(yīng)用廣泛的有二維(2D)結(jié)構(gòu)描述符[3-6]和三維(3D)結(jié)構(gòu)描述符[7-10]。二維(2D)結(jié)構(gòu)描述符具有計(jì)算簡(jiǎn)便的特點(diǎn),但不能區(qū)分諸如順?lè)串悩?gòu)體、光學(xué)異構(gòu)體等。三維(3D)結(jié)構(gòu)描述符的優(yōu)勢(shì)是基于化合物三維立體結(jié)構(gòu)計(jì)算,可以區(qū)分各種異構(gòu)體,但其計(jì)算復(fù)雜、難懂,計(jì)算工作量大,還存在諸如構(gòu)像重疊、網(wǎng)格劃分和探針選取等不確定因素。本文在基于化合物二維結(jié)構(gòu)的基礎(chǔ)上,對(duì)化合物中的非氫原子進(jìn)行參數(shù)化染色,構(gòu)建非氫原子之間的關(guān)系得到化合物結(jié)構(gòu)描述符。對(duì)部分不飽和烴類化合物結(jié)構(gòu)進(jìn)行表征后構(gòu)建化合物結(jié)構(gòu)與溶解度(-lgSw)之間的關(guān)系模型,模型經(jīng)檢驗(yàn)具有良好的預(yù)測(cè)能力與穩(wěn)定性,為有機(jī)化合物的結(jié)構(gòu)—性質(zhì)關(guān)系研究提供參考。
部分不飽和烴類化合物及在水中溶解度(-lgSw)的實(shí)驗(yàn)值取自文獻(xiàn)[11],按照-lgSw的大小順序列于表1。
1.2.1 分子結(jié)構(gòu)參數(shù)化表征 化合物結(jié)構(gòu)決定化合物的外在性質(zhì),結(jié)構(gòu)參數(shù)化表征是建立化合物結(jié)構(gòu)與性質(zhì)之間關(guān)系模型的關(guān)鍵步驟之一。認(rèn)為化合物中的氫原子對(duì)與其直接相連的非氫原子產(chǎn)生影響,而非氫原子以及非氫原子之間的關(guān)系對(duì)化合物表現(xiàn)出的外在性質(zhì)產(chǎn)生影響。參閱文獻(xiàn)[12-15]方法,將化合物中的非氫原子按照其連接的其它非氫原子數(shù)進(jìn)行分類,與k個(gè)其它非氫原子直接相連的非氫原子規(guī)定為第k類非氫原子,如與2個(gè)非氫原子相連的仲碳原子為第2類非氫原子,以此類推。在有機(jī)化合物中k的最大取值為4,因而最多有4類非氫原子。根據(jù)非氫原子的電子結(jié)構(gòu)、連接的氫原子數(shù)及電負(fù)性,在參閱文獻(xiàn)[16]的基礎(chǔ)上,將非氫原子按式(1)進(jìn)行參數(shù)化染色。
Zi=[0.5×mi(xi+1)×(4-hi)/(xc+1)]1/2。
(1)
式中i為原子在分子中的編碼,mi為原子核外電子層數(shù),xi為非氫原子i的電負(fù)性值(Pauling 標(biāo)度),xC為碳原子的電負(fù)性值,hi為與非氫原子i直接連接的氫原子數(shù)。非氫原子i的mi越大,其半徑越大,相應(yīng)的原子體積越大,相應(yīng)的Zi值也就越大。
不同類型的非氫原子對(duì)化合物的性質(zhì)可能產(chǎn)生不同的影響,同類型的非氫原子對(duì)化合物性質(zhì)的影響具有加和性,按式(2)將各種不同類型的非氫原子對(duì)化合物性質(zhì)的影響進(jìn)行分類累加。
(2)
式中,k表示非氫原子i的原子類型,Zi按式(1)計(jì)算?;衔镏凶疃喟?種類型的非氫原子,因而可得到4個(gè)變量,分別用x1,x2,x3和x4表示。
不同類型非氫原子之間的關(guān)系對(duì)化合物性質(zhì)的影響可能也不同,同種類型非氫原子的關(guān)系對(duì)化合物性質(zhì)的影響具有加和性。4類非氫原子可以組合出m11,m12,m13,…,m44共10種關(guān)系項(xiàng)(用x5,x6,x7,…,x14表示),m13表示第1類非氫原子和第3類非氫原子之間的關(guān)系,以此類推。化合物中非氫原子之間的關(guān)系隨著非氫原子自身性質(zhì)的增大而加強(qiáng),隨著非氫原子之間的距離的增大而減弱,滿足要求的函數(shù)關(guān)系式都可以構(gòu)建非氫原子之間的關(guān)系,本文按式(3)進(jìn)行計(jì)算。
(3)
Z按式(1)計(jì)算;dij為非氫原子i與j之間的相對(duì)距離(即鍵長(zhǎng)之和與碳碳單鍵鍵長(zhǎng)的比值,如果i與j之間有多條路徑,則以最短的為準(zhǔn),化學(xué)鍵長(zhǎng)取自文獻(xiàn)[17]);n和l為原子所屬類型,α=0.5。這樣,對(duì)于一個(gè)化合物經(jīng)參數(shù)化表達(dá)后最多可得14個(gè)變量(結(jié)構(gòu)描述符)。
1.2.2 建模與評(píng)價(jià) 多元線性回歸(MLR)和偏最小二乘回歸(PLS)是常用的建模方法,本文采用多元線性回歸(MLR)和偏最小二乘回歸(PLS)建立模型。采用相關(guān)系數(shù)(R)、交叉檢驗(yàn)相關(guān)系數(shù)(RCV)、標(biāo)準(zhǔn)偏差(SD)對(duì)模型質(zhì)量進(jìn)行評(píng)價(jià)。優(yōu)良的模型必須符合以下要求:1)建模相關(guān)系數(shù)(R)≥0.800 0,“留一法”交叉檢驗(yàn)相關(guān)系數(shù)(RCV)≥0.700 0[18];2)標(biāo)準(zhǔn)偏差(SD)與數(shù)值范圍之比≤10%;3)80%以上的樣本預(yù)測(cè)誤差的絕對(duì)值≤2倍標(biāo)準(zhǔn)偏差(2SD)。
表1 不飽和烴類化合物及其溶解度(-lg Sw)
本研究選取的不飽和烴類化合物經(jīng)分子結(jié)構(gòu)表征后得到14個(gè)變量,由于35個(gè)樣本中均不含有第4類非氫原子,因而得到的與第4類非氫原子相關(guān)的x4,x8,x11,x13及x14全為“0”,其余9個(gè)非全“0”變量用于建模分析,列于表2。
表2 化合物的結(jié)構(gòu)參數(shù)化表征結(jié)果
首先采用多元線性回歸(MLR)尋找化合物結(jié)構(gòu)與溶解度(-lgSw)的關(guān)系模型,由于樣本數(shù)僅為35個(gè),而結(jié)構(gòu)描述符(變量)數(shù)達(dá)到了9個(gè),不符合樣本數(shù)(N)/變量數(shù)(n)≥5的經(jīng)驗(yàn)規(guī)則。采用逐步回歸分析以篩選出最優(yōu)變量組合進(jìn)行建模,按照變量顯著性大小順序?qū)⒆兞恐鸩揭肽P停O嚓P(guān)系數(shù)(R)、標(biāo)準(zhǔn)偏差(SD)隨著變量的引入而發(fā)生變化,變化情況繪圖于圖1、圖2。
從圖1可以發(fā)現(xiàn),起初隨著變量的引入,相關(guān)系數(shù)(R)迅速增大;到了逐步回歸第4步,相關(guān)系數(shù)(R)接近最大值,之后相關(guān)系數(shù)(R)略有增大,增大趨勢(shì)放緩。同樣在圖2中可以發(fā)現(xiàn),起初隨著變量的引入,標(biāo)準(zhǔn)偏差(SD)迅速減??;到了逐步回歸第4步,標(biāo)準(zhǔn)偏差(SD)接近最小值,之后標(biāo)準(zhǔn)偏差(SD)略有減小,減小趨勢(shì)放緩。此時(shí)入選變量數(shù)為4個(gè),符合樣本數(shù)(N)/變量數(shù)(n)≥5的經(jīng)驗(yàn)規(guī)則。綜合各方面因素,認(rèn)為4變量模型(M1)為最優(yōu)預(yù)測(cè)模型,4變量模型如式(4)。
-lgSw=0.557 2+0.506 4x1+1.037 4x2-0.759 0x6-0.541 6x9
(4)
建模:N=35,R=0.959 6,SD=0.385 6,F(xiàn)=87.267 6;交叉檢驗(yàn):N=35,RCV=0.947 0,SDCV=0.440 3,F(xiàn)CV=65.180 4。
圖2 SD在逐步回歸中的變化情況
上述模型擬合程度高,相關(guān)系數(shù)(R)達(dá)到了0.959 6,遠(yuǎn)大于0.800 0的臨界值;交叉檢驗(yàn)相關(guān)系數(shù)(RCV)達(dá)0.947 0,也遠(yuǎn)大于0.700 0的臨界值;標(biāo)準(zhǔn)偏差(SD)為0.385 6,數(shù)值范圍為7.33-0.82=6.51,0.385 6/6.51=5.92%,也處于10%的范圍內(nèi)。以上說(shuō)明該模型預(yù)測(cè)能力強(qiáng),穩(wěn)定性好,可以用于不飽和烴類化合物溶解度(-lgSw)的預(yù)測(cè)。
為進(jìn)一步分析各變量對(duì)化合物溶解度(-lgSw)的影響,采用偏最小二乘回歸(PLS)進(jìn)行建模分析。將化合物結(jié)構(gòu)描述符作為自變量X,化合物溶解度(-lgSw)作為因變量Y建模PLS模型(M2),模型的主成分?jǐn)?shù)為3個(gè),建模相關(guān)系數(shù)(R)為0.931 0,大于0.800 0的臨界值;交叉檢驗(yàn)的相關(guān)系數(shù)(RCV)為0.919 2,大于0.700 0的臨界值;標(biāo)準(zhǔn)偏差(SD)為0.440 1,0.440 1/6.51=6.76%,也處于10%的范圍內(nèi)。以上同樣表明模型M2預(yù)測(cè)能力強(qiáng),穩(wěn)定性好,可以用于不飽和烴類化合物溶解度(-lgSw)的預(yù)測(cè)。35個(gè)樣本在前 2 個(gè)主成分得分散點(diǎn)分布,見(jiàn)圖3。圖3顯示絕大部分樣本點(diǎn)都落在95%的橢圓置信圈范圍內(nèi),僅有2個(gè)樣本點(diǎn)(不足6%)落在此范圍外,說(shuō)明模型對(duì)于大多數(shù)樣本擬合較好,化合物結(jié)構(gòu)描述符可以恰當(dāng)表現(xiàn)各化合物的結(jié)構(gòu)特征,并在PLS模型中得到正確的表現(xiàn)。
變量重要性可以反映出各個(gè)變量與因變量Y的相關(guān)性大小,變量重要性投影(VIP)見(jiàn)圖4。通常認(rèn)為VIP值大于1的變量與Y值關(guān)系較為密切。圖中顯示x2和x9的VIP值大于1,說(shuō)明這兩個(gè)變量與化合物的溶解度(-lgSw)相關(guān)性較大。x2為第2類非氫原子自身對(duì)化合物性質(zhì)的影響,x9為第2類非氫原子之間的關(guān)系對(duì)化合物性質(zhì)的影響,即第2類非氫原子對(duì)化合物溶解度(-lgSw)有重要影響,而第二類原子的多少與化合物的鏈長(zhǎng)有關(guān),也就是在相同情況下,化合物的鏈越長(zhǎng),化合物極性越小,可能具有較大的溶解度(-lgSw)值,分析表1中的數(shù)據(jù)發(fā)現(xiàn)溶解度(-lgSw)值的確具有這一特征。
兩模型對(duì)化合物的溶解度(-lgSw)進(jìn)行了預(yù)測(cè),預(yù)測(cè)值分別列于表1的Cal.1和Cal.2值,Err.1和Err.2值為相應(yīng)的誤差。預(yù)測(cè)值與實(shí)驗(yàn)值相關(guān)性見(jiàn)圖5。從圖5看出大部分的樣本點(diǎn)都落在正方形的45°對(duì)角線附近,說(shuō)明兩模型對(duì)化合物溶解度(-lgSw)預(yù)測(cè)值與實(shí)驗(yàn)值相關(guān)性好,兩者間的誤差不大。另外,從圖5可看出Cal.1的樣本點(diǎn)與Cal.2的樣本點(diǎn)相比更加靠近對(duì)角線,說(shuō)明模型(M1)對(duì)化合物的溶解度(-lgSw)預(yù)測(cè)值更為準(zhǔn)確,模型(M1)的質(zhì)量略優(yōu)于模型(M2)的質(zhì)量,與上述模型參數(shù)分析結(jié)果一致。
兩模型對(duì)化合物溶解度(-lgSw)值的預(yù)測(cè)誤差分布見(jiàn)圖6,可發(fā)現(xiàn)大部分樣本點(diǎn)都處于正負(fù)兩倍標(biāo)準(zhǔn)偏差(±2SD)以內(nèi),說(shuō)明兩模型對(duì)化合物溶解度(-lgSw)預(yù)測(cè)較為準(zhǔn)確,產(chǎn)生的誤差較小,誤差都處于可以接受的范圍內(nèi)。超出正負(fù)兩倍標(biāo)準(zhǔn)偏差(±2SD)范圍的是4號(hào)和17號(hào)化合物,進(jìn)一步分析發(fā)現(xiàn)這兩個(gè)化合物與其它化合物相比并沒(méi)有什么特殊性,大誤差可能是由于化合物結(jié)構(gòu)描述符不夠完善,某些結(jié)構(gòu)信息沒(méi)有得到充分表達(dá)所致。當(dāng)然也可能是由于實(shí)驗(yàn)結(jié)果本身存在較大的誤差,從而影響計(jì)算結(jié)果。模型M1僅有1個(gè)樣本(不足3%)的誤差超出正負(fù)兩本標(biāo)準(zhǔn)偏差(±2SD),而模型M2也只有2個(gè)樣本(不足6%)的誤差超出此范圍,說(shuō)明總體上兩模型預(yù)測(cè)的誤差都處于可以接受的范圍內(nèi),模型M2預(yù)測(cè)的結(jié)果略劣于模型M1,也再次說(shuō)明模型M1質(zhì)量略優(yōu)于模型M2質(zhì)量。
圖3 樣本在前 2 個(gè)主成分得分分布
圖4 變量重要性投影圖
圖5 模型預(yù)測(cè)值與實(shí)驗(yàn)值的相關(guān)圖
圖6 模型對(duì)樣本預(yù)測(cè)誤差
對(duì)不同非氫原子參數(shù)化,構(gòu)建非氫原子之間的關(guān)系得到化合物結(jié)構(gòu)描述符,對(duì)部分不飽和烴類化合物結(jié)構(gòu)進(jìn)行了參數(shù)化表征,通過(guò)多元線性回歸(MLR)和偏最小二乘回歸(PLS)兩種方法建立了化合物結(jié)構(gòu)與溶解度(-lgSw)之間的關(guān)系模型。多元線性回歸(MLR)簡(jiǎn)單、易懂,并且擬合效果更好。偏最小二乘回歸(PLS)避免了變量之間的多重共線性,更便于解釋各變量對(duì)溶解度(-lgSw)影響。兩模型結(jié)果表明化合物結(jié)構(gòu)描述符能恰當(dāng)表現(xiàn)不飽和烴類化合物結(jié)構(gòu)特征,在此基礎(chǔ)上建立的溶解度(-lgSw)預(yù)測(cè)模型具有良好的預(yù)測(cè)能力與穩(wěn)定性?;衔锝Y(jié)構(gòu)描述符來(lái)自化合結(jié)構(gòu)的計(jì)算,不需引入其它參數(shù),具有計(jì)算簡(jiǎn)單、方便、快速的特點(diǎn),但本文構(gòu)建的結(jié)構(gòu)描述符還存在不能區(qū)分順?lè)串悩?gòu)、光學(xué)異構(gòu)等不足,這些在后續(xù)研究中都應(yīng)予以考慮。各類有機(jī)化合物中的非氫原子均可按照原理中所述方法分類,化合物結(jié)構(gòu)均可使用本文構(gòu)建的結(jié)構(gòu)描述符進(jìn)行參數(shù)化表征,因而本文對(duì)于各類有機(jī)化合物的結(jié)構(gòu)—性質(zhì)關(guān)系研究具有一定的參考價(jià)值。
湖南師范大學(xué)自然科學(xué)學(xué)報(bào)2020年1期