張文華,趙繼穎,王瓊瑤,攔繼元,楊林
青海師范大學化學系,西寧 810008
多氯代苯并噻吩(poly-chlorinated benzothiophenes,PCDTs)與多氯聯(lián)苯(poly-chlorinated biphenyls, PCBs),多氯代苯并呋喃(poly-chlorinated benzofurans,PCDFs)同屬于持久性有機污染物(persistent organic pollutants,POPs)。PCDTs具有某種二噁英型生物活性。環(huán)境中的二噁英主要來源于人類的生產(chǎn)活動,垃圾焚化、氯氣脫色、香煙燃燒、六氯酚和五氯酚的生產(chǎn)過程、燃燒用五氯酚或三氯苯酚處理過的木材都可產(chǎn)生二噁英[1-2]。QSAR研究已經(jīng)廣泛應用到氣相色譜、液相色譜保留行為等方向[3]。李美萍等[4]將分子電性距離矢量(Molecular Elector-negativity Distance Vector based on 4 atomic types, MEDV)用于多氯代二苯并呋喃光解半衰期的QSPR研究;莫凌云等[5]以電拓撲狀態(tài)預測多氯二苯并噻吩氣相色譜保留指數(shù);李正華等[6]通過多元線性回歸建立了多環(huán)芳香硫化合物的氣相色譜保留指數(shù)與MEDV參數(shù)之間的定量結構-保留值關系模型;本文運用多元線性回歸[7-12]和BP人工神經(jīng)網(wǎng)絡[13-16]方法構建PCDTs的原子距離指數(shù)(Ys)、分子空間特征指數(shù)(Yf)、分子電性距離矢量(MEDV,包括M12、M22、M23)、氯原子數(shù)(Cln)與色譜保留時間(RI)的數(shù)學模型,提供一種預測PCDTs氣相色譜保留時間的新方法。
應用Chem Office化學軟件,繪制出一系列PCDTs分子的3D結構圖,確定各個原子的空間點位Pi(xi,yi,zi),每個分子的原子坐標點位集合成分子矩陣Mi,計算各原子到原點的空間距離的均值得到各個分子原子空間距離指數(shù)Ys,計算Mi的Frobenius范數(shù)得到各個分子空間特征指數(shù)Yf[17]。
PCDTs的結構采用劉樹深等[18]和孫立力等[19]基于分子中各類非氫原子的電負性以及各個原子之間的相對距離出發(fā)提出的MEDV表征。
BP人工神經(jīng)網(wǎng)絡的傳遞函數(shù)f是處處可微的單調(diào)遞增函數(shù),使用S型(Sigmoid)的對數(shù)式(logsig)的正切傳遞函數(shù)(tansig)和線性函數(shù)(purelin)等。對線性性較好的多組分定量是完全可行的。通過將一系列的樣品標準值輸入網(wǎng)絡,給出初始學習率,動量項α、隱含層節(jié)點數(shù)、迭代次數(shù),設置好誤差指標,進行網(wǎng)絡訓練,顯示誤差結果。
多氯代苯并噻吩37個化合物Ys、Yf、M12、M22、M23、Cln與其氣相色譜保留時間[20](RIexp)的相關性,建立如下多元線性回歸方程,并計算氣相色譜保留時間的預測值RIcal.,見表1。
RI=-39.681Ys+6.05Yf+2.8051M12+19.724M22+9.406M23+47.90Cln-280.41
(1)
(n=37,m=6,R=0.997,SD=2.19,F(xiàn)=847.815)
BP網(wǎng)絡是一種具有3層或3層以上的多層神經(jīng)元網(wǎng)絡,它的左、右各層之間各個神經(jīng)元實現(xiàn)連結,即左層的每一神經(jīng)元與右層的每個神經(jīng)元都有連接,而上、下層各神經(jīng)元之間無連接。采用3層BP網(wǎng)絡,包括輸入層、隱蔽層和輸出層。數(shù)據(jù)由輸入層經(jīng)標準化處理并施以權重傳輸?shù)诫[蔽層,隱蔽層進行輸入的權重加和與轉換,傳輸?shù)捷敵鰧?,輸出層給出神經(jīng)網(wǎng)絡的預測值或模式的判別結果。單隱蔽層BP人工神經(jīng)網(wǎng)絡結構圖,見圖1。
設置最小均方誤差為0.0001,學習率為0.01,動量系數(shù)為0.95,最大訓練次數(shù)為207,將表1中1~37號樣本數(shù)據(jù)條件作為學習輸入,氣相色譜保留時間作為目標輸出進行學習。最大訓練次數(shù)為207次時,均方誤差的最佳訓練目標是3.9418×10-9,訓練過程快速收斂,精度達到10-10,見圖2。BP模型預測值與實驗值相關,見圖3。
圖1 BP人工神經(jīng)網(wǎng)絡結構Fig. 1 The structure of BP artificial neural network
表1 37個多氯代苯并噻吩(PCDTs)的MEDV值、Ys、Yf、RIexp及預測值RIcalTable 1 The values of MEDV,Ys, Yf, RIexp and RIcal for 37 poly-chlorinated benzothiophenes (PCDTs)
注:*表示測試集樣本。Note:*denotes samples of the test set.
圖2 均方誤差(MSE)的最佳訓練目標Fig. 2 Best training performance for mean-square error (MSE)
圖3 預測值與文獻值相關性Fig. 3 BP plot of experiment vs calculation
定量構效關系中非常重要的一部分是對所建模型的外部預測能力和真實有效性進行驗證,其中留一法(Leave-One-Out,LOO)交叉檢驗(Cross-Validation,CV)的復相關系數(shù)QLOO是目前較為廣泛使用的一種模型驗證方法[21]。模型預測能力的評價還需通過外部樣本集,即測試集來進行。模型外部預測能力可以用Qext(externalQ)來衡量:
(2)
RI= -314.533-0.419Yf+ 2.359M12+20.453M22
+9.847M23+49.092Cln
(3)
m=6,n=32,R=0.9970,SD=2.3141,F(xiàn)=804.6786;
RCV=0.9980,SDCV=0.7620,F(xiàn)CV=2 978.5436,QLOO=0.9731,Qext=0.9862
在37個PCDT樣本中32個樣本作為訓練集,隨機選取5個樣本作為預測集。建立多元線性回歸模型:
RI= -300.099-27.189Ys+3.536Yf+2.989M12
+20.981M22+10.02M23+50.177Cln
(4)
(n=32,m=6,R=0.9970,SD=2.2037,F(xiàn)=804.6784)
PCDTs氣相色譜保留時間實驗值-預測值呈明顯線性相關,具體表現(xiàn)為所有樣本都均勻分布于過原點45°直線周圍,無明顯異常點,見圖4。預測值與實驗值的誤差分布,絕大多數(shù)點分布在2SD之間而且分布均勻,見圖5。進一步表明所建多元線性回歸模型具有良好的穩(wěn)定性和預測能力。
圖4 實驗值-預測值模型相關Fig. 4 MLR plot of experiment vs calculation
圖5 色譜保留時間預測值的誤差分布Fig. 5 Error distribution of predicted gas chromatographic retention time
表2 本研究與文獻比較Table 2 This study is compared with the literature
本研究采用分子電性距離矢量(MEDV)表征多氯代二苯并噻吩的分子結構,運用MLR和BP人工神經(jīng)網(wǎng)絡建立了 PCDTs結構與氣相色譜保留時間的QSPR模型,同時采用內(nèi)部及外部雙重驗證的辦法對所建模型穩(wěn)定性能進行分析和驗證,結果表明所建模型穩(wěn)定性和預測能力均很好。表2列出了一些文獻模型的比較。
綜上所述:運用Chem Office軟件確定原子坐標,用Matlab編程軟件建立以多氯代苯并噻吩分子的Ys、Yf、M12、M22、M23、Cln為分子描述變量與多氯代苯并噻吩氣相色譜保留時間的MLR、BP人工神經(jīng)網(wǎng)絡結構模型。結果表明,BP人工神經(jīng)網(wǎng)絡結構模型優(yōu)于VSMP方法和MLR模型,為PCDTs分子結構與物性的QSPR研究提供了新思路。