張曉彤,石麗華,宋麗娟,孫兆林,孫 挺
(1.遼寧石油化工大學 遼寧省石油化工催化科學與技術重點實驗室,遼寧 撫順 113001; 2.東北大學理學院)
?
燃料油中有機硫化物在不同色譜柱上的定量結構保留關系(QSRR)的研究
張曉彤1,2,石麗華1,宋麗娟1,孫兆林1,孫 挺2
(1.遼寧石油化工大學 遼寧省石油化工催化科學與技術重點實驗室,遼寧 撫順 113001; 2.東北大學理學院)
硫組分的含量是表征燃料油品質的重要指標。采用遺傳算法-多元線性回歸法(GA-MLR)、BP神經網絡法、列文伯格-馬夸爾特人工神經網絡算法(L-M ANN)對52種有機硫化物在4種不同極性固定相上的氣相色譜保留指數(shù)分別進行了定量結構-氣相色譜保留關系研究。采用GA-MLR方法選取模型的輸入?yún)?shù),并將篩選得到的描述符:一階分子連接性指數(shù)(1χ)、二階分子連接性指數(shù)(2χ)、電子能(EE)、Y軸偶極(Dy)用于BP神經網絡、L-M ANN人工神經網絡定量結構保留(QSRR)模型的構建。結果表明:3種方法所建立的定量模型均具有較強的穩(wěn)定性和良好的預測能力,其相關系數(shù)均在0.98以上,但L-M ANN模型的預測結果稍好于其它2種方法;L-M ANN算法首次被應用于燃料油中有機硫化物定量結構-氣相色譜保留關系的研究中,效果十分理想,表明L-M ANN算法可以作為一種替代性的建模方法用于物質的定量結構保留關系的研究中。
燃料油 有機硫化物 色譜保留行為 遺傳算法-多元線性回歸法 BP神經網絡 列文伯格-馬夸爾特人工神經網絡算法 氣相色譜-硫化學發(fā)光檢測法
燃料油是由原油加工過程中的渣油、催化裂化柴油等為原料調合而成,具有黏度適中、霧化性好、熱值高、腐蝕性相對較小等優(yōu)點[1]。在石油加工、交通運輸、煉焦以及核燃料加工等行業(yè)均具有較廣泛的應用。硫組分的含量是表征燃料油品質的重要指標。燃料油中含有多種硫化物,主要為硫醚、硫醇、二硫化物、噻吩類硫化物。美國石油公司對7種典型原油的分析結果表明,硫化物的含量相差較大,但硫化物的種類基本不變。其中,噻吩類硫化物約占原油中硫含量的50%~70%,主要為苯并噻吩(BT)和二苯并噻吩(DBT);其次為硫醚和硫醇類化合物[2]。隨著我國進口高硫原油的增加以及環(huán)保法規(guī)要求日益嚴格,對燃料油中硫化物的分析已成為國內煉油企業(yè)較為關注的問題。氣相色譜法是目前較為常用的分析燃料油中硫化物的方法。但由于部分硫化物的氣相色譜標準樣品價格昂貴、難于購置齊全,成為硫化物分析測試一大難題。對于分析人員而言,硫化物的毒性會造成諸多分析上的不便。色譜保留指數(shù)(RI)是研究燃料油中有機硫化物環(huán)境行為的重要參數(shù),這些數(shù)據(jù)如能從實驗測定,固然是最有效的,但是對每一種硫化物分子都用實驗測定其理化數(shù)據(jù),這在人力、物力和財力上都存在一定的局限性。
RI是進行色譜分析的重要參數(shù)。而化合物在色譜柱中的保留行為又與其分子結構密切相關。本研究通過對燃料油中有機硫化物的分子結構與其色譜保留時間的相關性進行分析,建立相應的定量結構保留(Quantative Structure Retention Relatinship,QSRR)模型,從而實現(xiàn)一系列有機硫化物的定性預測,并對其在不同極性色譜中的保留行為進行研究。
遺傳算法(GA)又稱為基因進化算法,或進化算法,屬于啟發(fā)式搜索算法的一種,通過模擬達爾文生物進化論的自然選擇和遺傳機制進行復制、交換以及突變等遺傳操作,最終使優(yōu)勝個體繁殖,不良個體淘汰。1975年,Holland在其出版的著作中對遺傳算法的原理和方法進行了詳細的闡述。其中,遺傳算法在解決最優(yōu)問題時具有如下優(yōu)點:①可應用于連續(xù)優(yōu)化或離散變量,且不需要衍生信息;②可以實現(xiàn)同時搜索,而不是從幾個單點進行[4]。目前遺傳算法已被廣泛應用于機械智能系統(tǒng)、人工生命科學等領域。本研究將遺傳算法與多元線性回歸方法相結合,建立燃料油中52種有機硫化物的QSRR模型,并將通過GA-MLR篩選得到描述符作為BP神經網絡、列文伯格-馬夸爾特人工神經網絡(L-M ANN)的輸入?yún)?shù),進行QSRR模型的構建。
人工神經網絡是目前較為常用的構建定量校正模型的神經網絡[5-7],具有容錯能力強、部分神經元受損不會影響整個網絡的活動等優(yōu)點。目前,最為常用的人工神經網絡是BP神經網絡[8-9],其結構如圖1所示。BP神經網絡具有結構簡單、魯棒性好、非線性映射能力及容錯能力強等優(yōu)點,但BP神經網絡訓練時間長、收斂速度慢、容易陷入局部極小點。L-M ANN是一種新型的人工神經網絡算法。列文伯格-馬夸爾特(Levenberg-Marquardt)法是高斯牛頓法的改進形式,屬于最優(yōu)化算法中的一種[10]。它結合了梯度下降法與高斯牛頓法的優(yōu)點,收斂速度快、且不易陷入局部極小點。因此,新型的神經網絡算法——L-M ANN算法可以有效地解決BP神經網絡存在的上述問題。
圖1 BP神經網絡的典型結構
2.1 數(shù)據(jù)來源
本研究以52種有機硫化物在4種不同極性的固定相(阿皮松M(Apiezon M)、苯基(50%)甲基聚硅氧烷(OV-17)、曲拉通X305(Triton X305)、聚乙二醇-1000(PEG-1000))上的RI[11]為研究體系。表1為體系中有機硫化物的名稱。將表1數(shù)據(jù)集隨機分為2組:訓練集(含有36種化合物)用于模型的建立;檢測集(含有16種化合物)用于模型的校驗。
表1 石油產品中有機硫化物的名稱
2.2 模型的建立
采用分子模擬技術構建52種有機硫化物分子微觀結構的可視化模型,并選用Materials Studio(MS)軟件(美國Accelrys公司產品)的DISCOVER模塊中的COMPASS力場優(yōu)化分子的幾何構型,由QSAR模塊產生分子描述符。然后在MS軟件的模塊中完成分成分子描述符的計算。對計算得到的分子結構描述符進行分析與初步篩選:舍去數(shù)值為零或常數(shù)(或近似為常數(shù))的描述符;刪除部分共線性較高的描述符(R>0.95)。采用GA對上述計算得到的描述符進行進一步篩選:通過設置不同的初始GA程序,在程序運行過程中選取最佳種群模型[12]。GA篩選出的描述符用于多元線性回歸(MLR)模型、BP模型和L-M ANN模型的建立。最終篩選得到的有效參數(shù)如表2所示。
表2 定量結構色譜保留關系模型中應用的分子描述符
3.1 遺傳算法-多元線性回歸法
多元線性回歸是目前QSRR研究中最常用的建模方法之一。多元線性回歸方法通過建立化合物分子描述符與RI間的相關性模型,用于預測未知化合物的色譜保留值。其中,分子描述符數(shù)據(jù)與RI之間的關系如式(1)所示:
y=α0+α1x1+α2x2+…+αnxn
(1)
式中:α0為回歸方程截距;αn為各項回歸系數(shù);x、y分別代表分子描述符數(shù)據(jù)及色譜保留值。通過GA-MLR方法篩選得到的描述符分別為拓撲指數(shù)和量子化學描述符兩類。這在一定程度上減少了使用單一類型描述符進行QSRR建模所帶來的不足。通過GA-MLR方法所建的QSRR模型,化合物在4種不同極性固定相上的色譜保留指數(shù)的實驗值與預測值如圖2所示。由圖2可見,基于GA-MLR方法燃料油中52種有機硫化物在4種不同固定相上RI的預測值與實驗值擬合效果良好,但體系在Apiezon M、OV-17固定相上仍存在幾個偏差值較大的點,表明其模型的預測能力稍遜于體系在PEG-1000、Triton X305固定相上所建的QSRR模型。
圖2 基于GA-MLR方法的4種固定相上的RI預測值和實驗值的關系■—訓練集; ▲—檢驗集。圖3、圖4同
3.2 BP神經網絡
采用MATLAB建立燃料油中52種有機硫化物在4種不同固定相上的色譜保留指數(shù)與結構描述符之間的BP神經網絡模型。將GA-MLR方法篩選得到的描述符作為BP神經網絡的輸入?yún)?shù)。其訓練精度和學習效率分別設置為0.000 1和0.1;轉換函數(shù)為Sigmoid-Logsig。經過多次神經網絡訓練,最終確立的BP神經網絡結構分別為2×4×1(Apiezon M),2×5×1(OV-17),3×3×1(PEG-1000),3×5×1(Triton X305)。將BP神經網絡法預測得到的色譜保留指數(shù)與其實驗值進行擬合分析,結果如圖3所示。通過對比可知,體系在Triton X305色譜柱中的預測效果稍好于體系在其它3項色譜柱中所建的QSRR模型。
3.3 L-M人工神經網絡
通過L-M ANN方法所建的QSRR模型,化合物在4種不同極性固定相上的RI的實驗值與預測值如圖4所示。
圖3 基于BP方法的4種固定相上的RI預測值和實驗值的關系
圖4 基于L-M ANN方法的4種固定相上的RI預測值和實驗值的關系
模型的預測性能及有效性通過復相關系數(shù)(R)、均方根誤差(RMSE)進行評價。一個好的QSRR模型必定具有較高的R值和較低的RMSE值。表3為在4種固定相上用3種模型得到的詳細統(tǒng)計學參數(shù)。由表3可見,L-M ANN神經網絡的R值最高,RMSE值最低,即預測效果最為理想。
表3 不同極性固定相上GA-MLR、BP和L-M ANN模型的預測能力
采用L-M ANN方法所建立的QSRR模型可用于預測燃料油中有機硫化物的RI,根據(jù)已知分子的結構信息對未知燃料油品中的硫醚、硫醇以及噻吩類硫化物的RI進行估算以及定性分析,同時為研究氣相色譜中不同極性固定相上的分子保留行為提供一定的技術參考。
3.4 化合物色譜保留行為關系分析
物質在色譜柱中的保留行為主要與化合物分子與固定相的相互作用有關,兩者間作用力越大,保留時間越長[13]。兩者的相互作用也受固定相極性的影響:當固定相為非極性時,物質在固定相中的色譜保留主要與色散力有關;當固定相為極性時,其色譜保留主要受色散力和誘導力兩者的影響。其中,色散力主要與空間位阻、分子的大小及分支情況有關,而誘導力主要受分子偶極矩的影響。1χ提供了分子尺寸和分支情況的信息;2χ包含了分子極性方面的信息[14]。由此可知,通過GA-MLR方法最終篩選得到的描述符(1χ、2χ、EE、Dy)不僅具有明確的物理意義,而且包含了體系分子的大小、極性以及電性等多方面信息。因此,上述描述符能很好地表達燃料油中有機硫化物體系在不同極性固定相中的保留與分子結構的關系。由表3可見,有機硫化物體系在4種不同極性固定相上的GA-MLR模型的R在0.981~0.999區(qū)間內。這進一步說明通過GA-MLR方法篩選得到的4個分子描述符1χ,2χ,EE,Dy,能較好地解釋燃料油中有機硫化物體系的保留行為。
通過GA-MLR方法篩選得到的描述符包含了分子大小、極性、電性等方面的信息,物理意義明確,能較好地解釋燃料油中有機硫化物體系在不同極性固定相上的色譜保留行為。采用上述描述符建立的QSRR模型相關性好、穩(wěn)定性強,可用于預測燃料油中有機硫化物的RI,以及其色譜保留行為的分析,對色譜分離條件的優(yōu)化有很大的指導意義。
新型的L-M ANN算法結合了梯度下降法與高斯牛頓法的優(yōu)點,收斂速度快、不易陷入局部極小點,可將其作為一種替代性的建模方法廣泛應用于物質的定量結構保留關系的研究中。
[1] 宋紅艷,何靜,李春喜.燃料油深度脫硫技術及進展[J].石油化工,2015,44(3):279-285
[2] Martin G,Barroeta N.Gas-phase thermolysis of sulphur compounds.Part I.Di-t-butyl disulphide[J].J Chem Soc, Perkin Trans,1976(12):1421-1424
[3] Wang Ting,Wang Heng,Xie Haofei.Networked synchronization control method by the combination of RBF neural network and genetic algorithm[C]The 2nd International Conference on Computer and Automation Engineering(ICCAE),2010
[4] 陳慧琴.基于人工神經網絡的遺傳算法理論及應用[D].武漢:武漢理工大學,2003
[5] Xu Huiying,Wang Wei,Xu Xiaolu,et al.A QSRR study on the chromatographic retention indices of hydroxylated polychlorinated bipheny[J].Chinese J Struct Che,2013,32(4):578-584
[6] Kaliszan R.Chromatography in studies of quantitative structure-activity relationships[J].Journal of Chromatography A,1981,220(1):71-84
[7] 董一芬.Levenberg-Marquardt神經網絡算法研究[J].商場現(xiàn)代化,2009(3):385
[8] 王國清,杜志國,張利軍,等.應用BP神經網絡預測石腦油熱裂解產物收率[J].石油化工,2007,36(7):699-704
[9] 許祿.化學計量學方法[M].北京:科學出版社,1995:287-289
[10]D′Archivio A A,Incani A,Ruggieri F.Retention modelling of polychlorinated biphenyls in comprehensive two-dimensional gas chromatography[J].Anal Bioanal Chem,2011,399(2):903-913
[11]李浩春.分析化學手冊(第五分冊)[M].北京:化學工業(yè)出版社,1999:469-482
[12]Riahi S,Pourbasheer E,Ganjali M R,et al.Investigation of different linear and nonlinear chemometric methods for modeling of retention index of essential oil components:Concerns to support vector machine[J].Journal of Hazardous Materials,2009,166(2):853-859
[13]Gassiot M M,F(xiàn)irpo P G.Relationships between gas chromatographic retention index and molecular structure[J].Journal of Chromatography A,1980,187(1):1-19
[14]堵錫華.PCDDs氣相色譜相對保留因子的QSRR研究[J].華中科技大學學報,2006,34(10):111-112
QSRR MODELS TO PREDICT RETENTION INDICES OF ORGANIC SULFUR COMPOUNDS IN FUEL OIL ON DIFFERENT GC COLUMNS
Zhang Xiaotong1,2, Shi Lihua1, Song Lijuan1, Sun Zhaolin1, Sun Ting2
(1.LiaoningProvincialKeyLaboratoryofPetrochemicalCatalyticScienceandTechnology,LiaoningShihuaUniversity,F(xiàn)ushun,Liaoning113001; 2.CollegeofScience,NortheasternUniversity)
Sulfur content is indispensable to evaluate the quality of fuel oil.Quantitative Structure Retention Relationship(QSRR)studies were performed for predicting the gas chromatographic retention times of 52 organic sulfur compounds in fuel oil on four different GC columns.The input parameters were selected by Genetic algorithm and multiple linear regression(GA-MLR)method.The final selected parameters including molecular connectivity indexes1χand2χ,electron energy(EE)and Y dipole(Dy)were then used as inputs of Error-back Propagation Network(BP)and levenberg-marquardt artificial neural network(L-M ANN).The three QSRR models all have strong stability and good predictive ability,all of the correlation coefficients based on above methods are higher than 0.98.The predictive ability of L-M ANN model is superior to other two models and indicates that L-M ANN can be used as an alternative modeling tool for QSRR studies.
fuel oil; organic sulfur compound; GC retention behavior; GA-MLR; BP neural network; L-M ANN; GC-SCD
2017-02-20; 修改稿收到日期: 2017-04-26。
張曉彤,副教授,碩士生導師,主要研究方向包括現(xiàn)代分析測試技術、化學信息學、化學化工行業(yè)軟件開發(fā),先后在國內外學術刊物及會議上公開發(fā)表論文70余篇,申報專利5項。
宋麗娟,E-mail:lsong56@263.net。
國家自然科學基金資助項目(21376114);遼寧省高等學??茖W研究一般項目(L2014158)。