白帆 時靜潔(江蘇富淼科技股份有限公司,江蘇 張家港 215613)
基于蟻群算法對有機物熱容的預測研究
白帆時靜潔(江蘇富淼科技股份有限公司,江蘇張家港215613)
根據(jù)定量構(gòu)效關(guān)系(QSPR)原理,研究有機物熱容與其分子結(jié)構(gòu)間的內(nèi)在定量關(guān)系。以650種有機化合物作為樣本集,隨機選擇520種作為訓練集,130種作為測試集,采用蟻群算法(ACO)進行變量選擇,得到5個特征描述符作為模型的輸入變量,結(jié)合多元線性回歸(MLR)方法建立了蟻群-多元線性回歸(ACO-MLR)預測模型。研究結(jié)果表明:ACO-MLR模型的訓練集和測試集的復相關(guān)系數(shù)分別為0.9430和0.9344,預測效果令人滿意。該研究提供了一種新的預測有機化合物熱容的方法。
熱容;蟻群算法;多元線性回歸;預測
熱容表示系統(tǒng)升高單位熱力學溫度時所吸收的熱[1],是化合物的基本熱學性質(zhì)之一。熱容的變化提供了化合物相變信息以及化合物分子結(jié)構(gòu)的變化,獲悉該方面信息是非常重要的。液體的熱容值在工程應用中是一個非常重要的性質(zhì),在能量轉(zhuǎn)移以及熱動力學的計算中也是必需的參數(shù)[2]。熱容性質(zhì)涉及到很多領(lǐng)域,其中包括石油化工行業(yè)、制藥和食品工業(yè)等。在這些行業(yè)的很多過程都涉及到了熱容,如蒸餾過程、蒸發(fā)過程、提取過程和加熱過程[3]。比如在某個溫度范圍內(nèi)進行熱交換,離子液體會呈現(xiàn)出某些性質(zhì)而使物質(zhì)更穩(wěn)定,其中就包括熱容。熱容的實驗測定有很多方法,但測定比較復雜,例如差示掃描量熱儀法[4]、熱線式方法[5]、溫度振蕩量熱法[6]等??紤]到獲取熱容的重要性以及實驗測定的復雜性,發(fā)展方便可靠的理論預測熱容方法迫在眉睫。目前,關(guān)于理論預測有機物熱容的文獻比比皆是,但有機物液體熱容的QSPR預測模型卻為數(shù)不多。因此,本章擬從分子結(jié)構(gòu)角度出發(fā),應用QSPR研究體系,系統(tǒng)研究有機物熱容與其分子結(jié)構(gòu)間的內(nèi)在定量關(guān)系,建立相應的QSPR預測模型,并評價其模型的預測效果。
可靠的預測模型必須建立在可靠的實驗樣本基礎(chǔ)之上。在定量結(jié)構(gòu)-性質(zhì)關(guān)系研究中,數(shù)據(jù)的精確性對于最終的結(jié)果具有至關(guān)重要的影響。本文研究的樣本集為650種有機化合物的熱容,包括碳氫化合物、鹵素化合物、醇、酯、醛、酮等。這些化合物涵蓋了廣泛的化學多樣性空間,為建立健壯、有效的預測模型奠定了基礎(chǔ)。此外,為了避免由于數(shù)據(jù)來源不統(tǒng)一造成的誤差,所有化合物熱容數(shù)據(jù)均來自于同一個數(shù)據(jù)庫——《有機化合物實驗物性數(shù)據(jù)手冊:含碳、氫、氧、鹵部分》。
分子描述符的計算首先是在HyperChem 7.5軟件中對分子結(jié)構(gòu)進行輸入與優(yōu)化,導入Dragon 2.1軟件中計算分子描述符,獲得18類共1481種分子描述符,其計算的描述符種類包括結(jié)構(gòu)描述符,幾何描述符,拓撲描述符等。大量的分子描述符中必然存在冗余信息,因此對常數(shù)或者近似常數(shù)的描述符以及描述符間相關(guān)系數(shù)達到0.95以上的描述符進行刪除,減少至660個。如此龐大的分子描述符數(shù)量還是無法有效進行QSPR模型的建立,因此,本文采用ACO對分子描述符進行進一步篩選。
運用ACO對660個描述符進行進一步篩選,ACO是在VC++6.0中采用C語言編程,螞蟻數(shù)量設(shè)為500,揮發(fā)率設(shè)為0.9,進行不斷迭代直至收斂,最終獲得5個特征描述符。隨后,以ACO篩選的5個描述符作為輸入?yún)?shù),運用SPSS17.0統(tǒng)計軟件中的多元線性回歸模塊,在95%的置信區(qū)間內(nèi),得到了MLR預測模型,結(jié)果如下:
Cp=21.594-10.970*ATS4m+8.598*HATS4u+0.787
*TIC4+20.824*S1K+1.605*C-024(5.2)
n=520,R2=0.943,SD=21.250,F(xiàn)=1697.199,p<0.001
式中,Cp為熱容值,n為訓練集樣本數(shù)目,R2為決定系數(shù),SD為模型標準誤差,F(xiàn)為F
檢驗值,F(xiàn)實際=1697.199>F理論(5,514,0.05)=2.25,模型的顯著性概率p遠小于0.05,認為該回歸方程及所篩選變量的影響均是顯著的。
為檢驗模型的擬合能力和外部預測能力,應用該模型分別對訓練集和測試集進行預測,其訓練集和測試集的復相關(guān)系數(shù)分別為0.9430和0.9344。
本文運用蟻群算法(ACO)作為分子描述符篩選方法,與多元線性回歸(MLR)方法進行組合建立了ACO-MLR模型,對650種有機化合物的熱容進行了QSPR研究。所建立的QSPR熱容預測模型的預測值與實驗值非常接近,其R2均在0.9以上,預測誤差在可接受范圍之內(nèi)。因此,本文所建模型可用于對有機物熱容的預測,為其提供了一種新的有效方法,對于化工安全設(shè)計和風險評價研究具有重要的意義。
[1]趙敏,強曉明,章韋芳.一種新型比熱容測量儀[J].大學物理.2016(2).
[2]蔣華龍,周大偉,劉旭焱等.壓力下MoS2的結(jié)構(gòu)相變以及熱動力學性質(zhì)的第一原理研究[J].低溫物理學.2014(5).
[3]陳永艷,田瑞,王亞輝等.膜蒸餾系統(tǒng)中熱容腔結(jié)構(gòu)參數(shù)優(yōu)化的試驗研究[J].工程熱物理學報.2015(2).
[4]羅昭強,譚蓬.應用DSC法測量有機熱載體比熱容[J].鍋爐制造.2016(1).
[5]鄭明陽,王天為,張國鋒.理想氣體熱力學過程吸放熱情況的圖像判斷法[J].物理與工程.2014(3).
[6]張濤,孫冰.航天器再入全過程軸對稱燒蝕熱防護數(shù)值仿真研究[J].宇航學報.2011(5).