朱璟怡, 劉萬強(qiáng), 孫林萍, 趙啟明, 陸海霞, 袁 華, 周 虎
基于遺傳函數(shù)近似法的液態(tài)烴類化合物熱導(dǎo)率預(yù)測
朱璟怡, 劉萬強(qiáng), 孫林萍, 趙啟明, 陸海霞, 袁 華, 周 虎
(理論有機(jī)化學(xué)與功能分子教育部重點(diǎn)實驗室, 功能膜材料湖南省工程研究中心,湖南科技大學(xué) 化學(xué)化工學(xué)院, 湖南 湘潭 411201)
針對化合物熱導(dǎo)率數(shù)據(jù)缺失,現(xiàn)有方法估算的熱導(dǎo)率誤差較大的問題,提出基于遺傳函數(shù)近似法(GFA)建立估算液態(tài)烴類化合物熱導(dǎo)率的多元線性定量構(gòu)型關(guān)系(QSPR)模型。收集122種液態(tài)烴類化合物在不同溫度下的972個熱導(dǎo)率數(shù)據(jù),用GaussView 6.1.1軟件構(gòu)建這些化合物的分子結(jié)構(gòu)并用Gaussian 16 C01優(yōu)化分子構(gòu)型,再用Dragon 6.0軟件計算篩選得到382個分子描述符。采用分層隨機(jī)方法將數(shù)據(jù)集劃分為訓(xùn)練集和測試集,基于訓(xùn)練集采用GFA算法建立了含有5個分子描述符烴類化合物熱導(dǎo)率的預(yù)測模型。結(jié)果表明,測試集的相關(guān)系數(shù)的平方2 test和均方根誤差RMSEP分別為0.906 9和0.006 1,說明該模型具有良好的擬合度和預(yù)測能力,同時適用性域(AD)表明預(yù)測模型具有較好的泛化能力和魯棒性。
熱導(dǎo)率;烴類;遺傳函數(shù)近似法;分子描述符;定量構(gòu)效關(guān)系
熱導(dǎo)率是與化合物吸熱、放熱和熱傳遞相關(guān)的基本屬性,也是化工、石油能源、制藥等領(lǐng)域生產(chǎn)和設(shè)計必需的參數(shù)之一。烴類化合物組成簡單,但用途廣泛。因此測定或預(yù)測烴類化合物的熱導(dǎo)率具有重要意義。熱導(dǎo)率的實驗測定主要有穩(wěn)態(tài)法[1]和非穩(wěn)態(tài)法[2~4],但實驗耗時且誤差較大,導(dǎo)致熱導(dǎo)率數(shù)據(jù)較難獲取。因此,利用化合物的密度、沸點(diǎn)、熔點(diǎn)、對比溫度、偏心因子和黏度等物理性質(zhì)來估算熱導(dǎo)率的經(jīng)驗公式被相繼提出[5-10]。然而,由于這些公式缺乏嚴(yán)格的理論依據(jù),誤差普遍較大(一般在5%~10%),同時由于公式中的密度、沸點(diǎn)等實驗數(shù)據(jù)缺失也給計算帶來不便,因此建立不依賴實驗數(shù)據(jù)的預(yù)測模型就顯示出其優(yōu)越性。Latini等[11]使用人工神經(jīng)網(wǎng)絡(luò)(artificial neural networks,ANN)方法同時預(yù)測烷烴類、酮類和硅烷類計55種化合物的熱導(dǎo)率,預(yù)測精度較高,但要以對比溫度、分子量和偏心因子為參數(shù)進(jìn)行估算。劉萬強(qiáng)等[12]采用最佳子集回歸方法,建立預(yù)測烷烴熱導(dǎo)率的4參數(shù)多元線性回歸模型,該研究不需要實驗數(shù)據(jù)作支撐,但僅限烷烴的預(yù)測。時靜潔等[13]利用遺傳算法以及多元線性回歸方法,以178種有機(jī)物熱導(dǎo)率為樣本集建立有機(jī)化合物熱導(dǎo)率的5參數(shù)多元線性預(yù)測模型,但模型的復(fù)相關(guān)系數(shù)僅有0.742 2,均方根誤差為0.129 3。
本研究擬通過提取烴類分子結(jié)構(gòu)特征描述符,利用大數(shù)據(jù)挖掘和人工智能算法建立不依賴實驗數(shù)據(jù)的液態(tài)烴類熱導(dǎo)率精確的預(yù)測模型,為烴類化合物熱導(dǎo)率提供精準(zhǔn)預(yù)測模型。
研究收集了122種液態(tài)烴類化合物在不同溫度下的972個熱導(dǎo)率數(shù)據(jù),采用分層隨機(jī)化方法對數(shù)據(jù)集進(jìn)行劃分,然后利用相關(guān)軟件提取分子描述符。分子描述符經(jīng)過篩選之后,利用遺傳函數(shù)近似法構(gòu)建預(yù)測模型,并對建立的預(yù)測模型進(jìn)行內(nèi)部驗證和外部驗證。具體建模方法與步驟如圖1所示。
圖1 模型構(gòu)建流程圖
研究從文獻(xiàn)[14]收集了122種開鏈烴、脂環(huán)烴和芳香烴等烴類化合物的熱導(dǎo)率數(shù)據(jù)。烴類的數(shù)據(jù)統(tǒng)計列于表1。從表1中可以看出,熱導(dǎo)率為0.063~0.189 W×m-1×K-1,溫度為120~580 K,碳原子數(shù)從C2到C25,分子量從28.05到338.64,包括開鏈烴70個、脂環(huán)烴20個以及芳香烴32個,不同溫度點(diǎn)的數(shù)據(jù)共計972個。
表1 烴類數(shù)據(jù)集統(tǒng)計信息
分層隨機(jī)化是將研究對象根據(jù)一些重要的特征或因素進(jìn)行分層,然后根據(jù)一定的比例在每一層中隨機(jī)選取樣本分組的方法,該方法可以提高每組樣本對總樣本特征的代表性,可在數(shù)據(jù)處理系統(tǒng)(data processing system,DPS)軟件中完成[15]。根據(jù)傅里葉熱傳導(dǎo)定律可知,溫度是影響熱導(dǎo)率的重要因素,因此本研究根據(jù)溫度進(jìn)行分層隨機(jī)劃分?jǐn)?shù)據(jù)。最終將數(shù)據(jù)集以7:3的比例劃分為含有681個熱導(dǎo)率數(shù)據(jù)的訓(xùn)練集以及含有291個熱導(dǎo)率數(shù)據(jù)的測試集。
利用GaussView6.1.1軟件[16]構(gòu)建所有烴類化合物的分子結(jié)構(gòu),在Gaussian 16 C01[17]中用DFT/B3LYP/6~31(d)方法對分子結(jié)構(gòu)進(jìn)行優(yōu)化,將優(yōu)化好的結(jié)構(gòu)保存為.sdf格式文件,然后導(dǎo)入Dragon 6.0軟件[18]中進(jìn)行分子描述符的提取,獲得每個烴類化合物的分子結(jié)構(gòu)描述符。
Dragon 6.0軟件可以根據(jù)分子結(jié)構(gòu)計算出包括構(gòu)成、拓?fù)浣Y(jié)構(gòu)、連接線性、3D-MoRSE描述符、GETAWAY描述符、2D自相關(guān)、邊緣鄰接索引、2D基于矩陣的描述符等共計4 885個分子描述符。
然而,分子描述符過多容易導(dǎo)致參數(shù)之間存在共線性等問題,同時參數(shù)越多會導(dǎo)致計算量過大,給后續(xù)建模帶來不便。因此有必要在Dragon 6.0中對眾多描述符進(jìn)行預(yù)處理,操作如下:1)排除計算值為常數(shù)或接近常數(shù)的描述符;2)排除至少缺失一個值的描述符(某些分子的一些描述符無法計算);3)排除相關(guān)性大于0.90的描述符。最后保留了382個分子描述符。
遺傳函數(shù)近似法(genetic function approximation,GFA)是遺傳算法(genetic algorithm,GA)和多元自適應(yīng)回歸樣條(multivariate adaptive regression spline,MARS)相結(jié)合的方法[19],是一種利用生物進(jìn)化過程(選擇、交叉、變異)來生成預(yù)測模型的技術(shù)。與大多數(shù)其他分析算法不同,GFA可以從眾多參數(shù)中提取參數(shù)并建立多種多元線性回歸(multiple linear regression,MLR)模型[20]來選擇最佳的回歸模型。因此本研究采用GFA算法建立熱導(dǎo)率的預(yù)測模型。
2.4.1 建模算法與流程
GA算法是一種通過模擬自然進(jìn)化過程搜索最優(yōu)解的計算模型。在GFA算法中,GA中的二進(jìn)制字符串被基函數(shù)所替代,經(jīng)過選擇、交叉、變異,最終得到最優(yōu)的模型方程。
GFA算法過程如圖2所示。1)以群體中的所有分子描述符為對象,隨機(jī)選擇一些特征構(gòu)建基函數(shù),從這些基函數(shù)的隨機(jī)序列生成初始模型種群。2)根據(jù)適應(yīng)度函數(shù)對模型進(jìn)行評分以找到最佳種群。3)通過對父代種群進(jìn)行選擇和交叉操作來培育子種群,并使用最小二乘回歸重新確定新模型的系數(shù)。4)通過附加新的隨機(jī)基函數(shù)或移位進(jìn)行隨機(jī)變異,以保持模型種群多元化。5)根據(jù)模型得分選擇最優(yōu)模型。
圖2 遺傳函數(shù)近似法算法示意圖
GFA算法建模流程如圖3所示。1)設(shè)定模型參數(shù):初始種群數(shù)500,最大代數(shù)為1 000,突變概率為10%,平滑度參數(shù)=0.5,初始方程長度和最大方程長度分別設(shè)置為5和6。2)初始化種群,隨機(jī)產(chǎn)生500個模型種群。3)通過一個適應(yīng)度函數(shù)來估計個體的質(zhì)量。研究所用的適應(yīng)度函數(shù)如式(1)所示。4)具有最佳適應(yīng)度分?jǐn)?shù)的個體更有可能被選擇成為父代,并通過對其基函數(shù)進(jìn)行交叉形成子代。5)通過變異操作來保持群體的多樣性。6)進(jìn)行終止條件判斷,輸出最優(yōu)模型方程。
圖3 遺傳函數(shù)近似法流程圖
2.4.2 適應(yīng)度函數(shù)的確定
根據(jù)所給的分子描述符,隨機(jī)建立多個目標(biāo)方程,基于一定的擬合標(biāo)準(zhǔn)從父代群體中選取一些個體遺傳到下一代群體中,經(jīng)過一系列的交叉和變異,從而形成新的個體。GFA模型的擬合標(biāo)準(zhǔn)可以在進(jìn)化過程中使用不同的適應(yīng)度函數(shù)進(jìn)行評估,如擬合缺失分?jǐn)?shù) (lack-of-fit,LOF)、相關(guān)系數(shù)的平方2和調(diào)整相關(guān)系數(shù)的平方2 adj。
由于適應(yīng)度值是群體中個體生存機(jī)會選擇的唯一確定性指標(biāo),所以適應(yīng)度函數(shù)的形式直接決定著群體的進(jìn)化行為[13]。3個評估標(biāo)準(zhǔn)中,LOF分?jǐn)?shù)可以有效避免過擬合,并且可以得到最合適的變量數(shù)目,使擬合的平滑度得到控制。定義如下:
GFA算法通過遺傳算法對可能的預(yù)測模型空間進(jìn)行搜索,利用LOF分?jǐn)?shù)估計每個模型的適應(yīng)度,從而確立最優(yōu)模型方程。這種方法不僅可以利用線性多項式建立模型,還可以利用高階多項式等非線性函數(shù)建立模型。與其他方法相比,GFA方法能夠自動選擇描述符、優(yōu)化參數(shù),同時建立多個模型種群,從概率上隨機(jī)尋找目標(biāo)函數(shù)的最優(yōu)解[21]。
模型建立以后,還需要對其進(jìn)行內(nèi)部驗證和外部驗證,以確保模型具有可靠的預(yù)測能力。本研究將所有的數(shù)據(jù)樣本按照7:3的比例劃分為訓(xùn)練集和測試集。訓(xùn)練集用于內(nèi)部驗證,測試集用于外部驗證。如模型的估算值與實驗值之間存在良好的一致性,表明模型具有較好的預(yù)測能力[22]。
2.5.1 內(nèi)部驗證
內(nèi)部驗證常用來評價模型的擬合優(yōu)度和魯棒性,其作用是評估基于訓(xùn)練集所建模型的準(zhǔn)確性,一般采用的參數(shù)為:訓(xùn)練集相關(guān)系數(shù)的平方2 training、均方根誤差(root mean square error,RMSE)。為了評價模型的穩(wěn)健性,研究還計算了模型中各變量的統(tǒng)計參數(shù),如值、方差膨脹因子(variance inflation factor,VIF)等。此外,研究還采用“留一法”(leave-one-out,LOO)和Y隨機(jī)化測試(Y-randomization)方法,對模型進(jìn)行內(nèi)部驗證。留一法使用交叉驗證的均方根誤差RMSECV和相關(guān)系數(shù)2 CV來評估模型是否存在過擬合。如果RMSECV盡可能小,而2 CV大于0.6,則模型在統(tǒng)計上是可靠的[23-24]。
Y隨機(jī)化測試是目前比較常用的一種內(nèi)部驗證方法。它的原理是訓(xùn)練集的因變量(矩陣)被隨機(jī)打亂,而自變量(矩陣)保持不變,基于隨機(jī)矩陣和原矩陣建立了一個新的QSPR模型。與原模型相比,所有的隨機(jī)QSPR模型的2和2的值都應(yīng)該顯著偏低,則說明所建立的QSPR模型是穩(wěn)健的。同時,本研究還采用參數(shù)CR2作為評價指標(biāo),若CR2的值大于0.5,模型就是可接受的[25]。
式中:Rr為隨機(jī)模型的平均相關(guān)系數(shù)。?
Y隨機(jī)化法測試采用程序包Y-Randomization 1.2 (http://dtclab.webs.com/softwaretools)完成。
2.5.2 外部驗證
利用測試集數(shù)據(jù)對模型進(jìn)行外部驗證,用以判斷其對于新樣本的預(yù)測能力。如果模型通過了外部驗證,說明模型具有泛化能力,能夠用于新化合物性質(zhì)的預(yù)測。
在外部驗證中,本研究采用測試集的2 test、RMSEP等參數(shù)作為驗證指標(biāo)。此外, Roy等[26]引入了一個度量標(biāo)準(zhǔn)2 m來評估QSPR模型的預(yù)測能力。如果2 m的值大于0.5,則認(rèn)為所建立的模型具有很強(qiáng)的預(yù)測能力。
式中:2 m為外部預(yù)測能力驗證參數(shù),2 0為基于外部數(shù)據(jù)計算得到的決定系數(shù),2為預(yù)測集的決定系數(shù)。
為了進(jìn)一步驗證所建立模型的穩(wěn)定性和魯棒性,Kunal等[27]還提出了基于平均絕對誤差(mean absolute error,MAE)的準(zhǔn)則。所建立模型的MAE應(yīng)滿足以下條件:
MAE ≤ 0.1 × 訓(xùn)練集范圍& MAE + 3 ×≤ 0.2 × 訓(xùn)練集范圍,其中:
式中:Range為訓(xùn)練集范圍,max,training為訓(xùn)練集實驗值最大值,min,training為訓(xùn)練集實驗值最小值,test為測試集樣本數(shù)量,為測試集誤差值的標(biāo)準(zhǔn)偏差。
此驗證可在程序包XternalValidationPlus(http://dtclab.webs.com/softwaretools)中完成。
適用性域(applicability domain,AD)是由分子的結(jié)構(gòu)信息和響應(yīng)變量定義的空間[28]。研究適用性域是為了評估QSPR模型預(yù)測新化合物性質(zhì)的可靠性。在目前的研究中,使用標(biāo)準(zhǔn)化交叉驗證殘差與杠桿值(帽對角線,hat diagonal)作圖的Williams圖被用來定義適用性域[29]。在該圖中,垂直虛線代表杠桿的臨界值h,水平虛線表示響應(yīng)的異常值(± 3)。第個化合物的杠桿值h由描述符矩陣計算,公式如下:
如果化合物的值大于閾值h(h = 3/)但處于-3 ≤≤3的范圍內(nèi),這個化合物的結(jié)構(gòu)將加強(qiáng)建立的模型。如果大多數(shù)數(shù)據(jù)點(diǎn)位于0 ≤≤*和-3 ≤≤3的范圍內(nèi),那么用于建立模型的數(shù)據(jù)以及預(yù)測值都在適用范圍內(nèi),并且建立的模型在統(tǒng)計上是可靠的。
通過遺傳函數(shù)近似法,得到了一個含有5個分子描述符的線性模型,并且在該模型中再添加一個新參數(shù)并不會使其繼續(xù)優(yōu)化。所建立的模型如式13所示:
= 0.004 4×CBO-0.010 5×pDiam-B(s)-0.000 27×-VSA-s-4-0.003×CON-0.000 2×+0.251 3 (13)
式中:CBO為常規(guī)鍵序之和,pDiam-B(s)為頻譜直徑,來自經(jīng)本征狀態(tài)加權(quán)的負(fù)擔(dān)矩陣,-VSA-s-4為P性質(zhì)的范德華爾斯表面積的數(shù)量,CON為Randic型R-連通性指數(shù)。
3.2.1 預(yù)測模型數(shù)據(jù)分析
所建立的模型中參數(shù)的最大VIF值為3.22,說明自變量之間不存在多重共線性。由標(biāo)準(zhǔn)化回歸系數(shù)的絕對值可知,描述符對熱導(dǎo)率的影響程度由大到小依次為CBO、、CON、_VSA_s_4和pDiam_B(s)。各描述符的置信度水平值均遠(yuǎn)小于0.000 1,說明自變量的可信度高。模型中所涉及描述符的詳細(xì)參數(shù)信息如表2所示。
表2 QSPR模型中所涉及描述符的統(tǒng)計參數(shù)
訓(xùn)練集中,2 training= 0.913 7,RMSE= 0.005 8,= 0.005 9,說明所建立的模型具有良好的擬合優(yōu)度。將所建模型用于測試集中,其2 test = 0.906 9,RMSEP= 0.006 1,說明模型具有良好的泛化能力。模型的值為1 428.637,說明模型穩(wěn)健且具有顯著的統(tǒng)計學(xué)意義。詳細(xì)的模型參數(shù)統(tǒng)計信息如表3所示。
表3 模型參數(shù)統(tǒng)計信息
烴類化合物熱導(dǎo)率的實驗值exp和計算值cal比較如圖4所示。數(shù)據(jù)點(diǎn)基本都處于對角線附近,說明模型具有良好的擬合優(yōu)度和預(yù)測能力。
3.2.2 模型驗證
用“留一法”和Y隨機(jī)化測試對模型進(jìn)行了內(nèi)部驗證。留一法中,參數(shù)2 CV = 0.911 5,大于標(biāo)準(zhǔn)值0.6,RMSECV= 0.02,說明模型穩(wěn)健可靠。Y隨機(jī)化測試中,保持自變量矩陣不變,將訓(xùn)練集的熱導(dǎo)率進(jìn)行60次打亂,模型進(jìn)行多次Y隨機(jī)化測試后的2和2的值均遠(yuǎn)遠(yuǎn)低于原始模型,其穩(wěn)定性和可靠性得到驗證。此外,參數(shù)CR2= 0.911 0,遠(yuǎn)大于閾值0.5,說明隨機(jī)模型的自變量與因變量之間基本不存在相關(guān)性,原模型是合理的。2 m= 0.842 4,大于0.5,說明所建模型具有較強(qiáng)的預(yù)測能力。
圖4 烴類化合物熱導(dǎo)率實驗值和計算值
對于所建立的模型,MAE= 0.018 8,訓(xùn)練集范圍為7.82,= 0.016 5,因此:
MAE≤ 0.1 ×訓(xùn)練集范圍& MAE + 3 ×≤ 0.2 ×訓(xùn)練集范圍
即0.018 8 ≤ 0.1×7.82 & 0.018 8+3×0.016 5 ≤ 0.2×7.82,所建模型符合基于MAE的準(zhǔn)則。
Williams圖可以用來對模型的適用性域進(jìn)行可視化分析,如圖5所示。絕大多數(shù)數(shù)據(jù)點(diǎn)位于0 ≤≤0.026 4(縱向虛線)和-3 ≤≤ 3(橫向虛線)的區(qū)域內(nèi)。訓(xùn)練集中有11個數(shù)據(jù)點(diǎn)(正戊烷320 K、340 K、360 K,乙烯225 K,丙烯180 K,丙烷160 K,聯(lián)苯560 K,鄰三聯(lián)苯320 K,菲390 K、400 K、410 K)位于橫向虛線以外,測試集中有1個數(shù)據(jù)點(diǎn)(聯(lián)苯580 K)位于橫向虛線以外。此外,訓(xùn)練集和測試集中共有7個數(shù)據(jù)點(diǎn)(四異丙基二苯甲烷290 K、300 K、310 K、320 K、330 K、340 K和350 K)位于縱向虛線之外。
圖5 液態(tài)烴類化合物熱導(dǎo)率的QSPR模型適用性域
絕大多數(shù)數(shù)據(jù)點(diǎn)位于縱向虛線與橫向虛線形成的區(qū)域之內(nèi),這說明所建立的模型穩(wěn)健可靠。訓(xùn)練集中位于橫向虛線以外的11個數(shù)據(jù)點(diǎn)屬于異常值,形成原因可能為實驗測量誤差或文獻(xiàn)記載錯誤。測試集中有1個數(shù)據(jù)點(diǎn)(聯(lián)苯580 K)被錯誤地預(yù)測,但是具有較低的杠桿值,這意味著它在模型的適用性范圍之內(nèi)。此外,四異丙基二苯甲烷對應(yīng)的7個數(shù)據(jù)點(diǎn)位于> 0.0264但-3 ≤≤ 3的區(qū)域中,這說明該化合物屬于在結(jié)構(gòu)上對模型有影響的化合物,能穩(wěn)定模型,使模型更加精確。結(jié)果表明,絕大部分?jǐn)?shù)據(jù)點(diǎn)在模型的適用范圍之內(nèi),這證明了所建立的模型能夠準(zhǔn)確地估算烴類化合物的熱導(dǎo)率[30]。綜上所述,本研究所建立的QSPR模型具有良好的擬合優(yōu)度及較高的精度,是一個具有穩(wěn)健性和良好預(yù)測能力的模型。
表4列出了本研究和其他研究成果的比較。從表中可以看出:1) 本研究建立的模型包含的烴類化合物的數(shù)據(jù)較多,包含972個數(shù)據(jù)。2) 預(yù)測化合物的種類多。本研究預(yù)測模型包括幾乎所有的烴類,如烷烴/烯烴/炔烴/脂環(huán)烴和芳香烴,這些分子的結(jié)構(gòu)差異較大。3) 計算誤差較小。本研究熱導(dǎo)率計算結(jié)果與實驗值的2僅小于Khajeh等人對于醇類116個樣本的值??紤]到本研究的樣本數(shù)遠(yuǎn)遠(yuǎn)大于其他工作的樣本數(shù),本研究計算結(jié)果依然精確。4) 同時本研究考慮了溫度對于熱導(dǎo)率的影響。5) 模型驗證更充分。本研究采用了內(nèi)部驗證、外部驗證對模型進(jìn)行評估,模型的可靠性、穩(wěn)健性以及泛化能力得到充分驗證。
表4 與已有研究成果的比較
在本研究中,用遺傳函數(shù)近似法建立了烴類化合物熱導(dǎo)率的預(yù)測模型。
(1) 模型中5個分子描述符對熱導(dǎo)率的影響程度由大到小依次為常規(guī)鍵序之和、溫度、-連通性指數(shù)、分子內(nèi)原子的范德華表面積的極化率之和、頻譜直徑。
(2) 通過模型驗證和適用性域分析可知,模型的計算值和實驗值基本一致。所建立的預(yù)測模型(2 test= 0.906 9,RMSE = 0.006 1)具有良好的預(yù)測精度和魯棒性。
(3)所建模型可以預(yù)測鏈烴、脂環(huán)烴和芳香烴等多類烴類化合物的熱導(dǎo)率。
本研究為預(yù)測液態(tài)烴類化合物的熱導(dǎo)率提供了一個穩(wěn)健的模型,為其他有機(jī)物性能數(shù)據(jù)的估算提供了參考,為有機(jī)物性質(zhì)的預(yù)測提供了方法和思路。
[1] YANG I, KIM D, LEE S. Construction and preliminary testing of a guarded hot plate apparatus for thermal conductivity measurements at high temperatures [J]. International Journal of Heat and Mass Transfer, 2018, 122(7): 1343-1352.
[2] TADA Y, HARADA M, TANIGAKI M,. Laser flash method for measuring thermal conductivity of liquids-application to low thermal conductivity liquids [J]. Review of Scientific Instruments, 1978, 49(9): 1305-1314.
[3] BOUMAZA T, REDGROVE J. Use of the transient plane source technique for rapid multiple thermal property measurements [J]. International Iournal of Thermophysics, 2003, 24(2): 501-512.
[4] KWON S, LEE J, KIM D H. Reliability of thermal conductivity measurement of liquids by using transient hot-wire, photon-correlation spectroscopy and the laser flash method [J]. Journal of the Korean Physical Society, 2016, 68(10): 1145-1155.
[5] YANG C, ZHAO L, ZHONG C. Correlation of liquid thermal conductivity using molecular connectivity indices [J]. International Journal of Thermophysics, 2003, 24(6): 1651-1665.
[6] BARONCINI C, FILIPPO P D, LATINI G. Thermal conductivity estimation of the organic and inorganic refrigerants in the saturated liquid state [J]. International Journal of Refrigeration, 1983, 6(1): 60-62.
[7] NAGVEKAR M, DAUBERT T E. A group contribution method for liquid thermal conductivity [J]. Industrial & Engineering Chemistry Research, 1987, 26(7): 1362-1365.
[8] MISSENARD F A. Prediction of thermal conductivity for the liquid substances by thermal conductivity at 0 ℃ [J]. Rev Gen Thermodyn, 1973, 141: 751.
[9] KRAUSS R, STEPHAN K. Thermal conductivity of refrigerants in a wide range of temperature and pressure [J]. Journal of Physical and Chemical Reference Data, 1989, 18(1): 43-76.
[10] KLAAS D M, VISWANATH D S. A correlation for the prediction of thermal conductivity of liquids [J]. Industrial & Engineering Chemistry Research, 1998, 37(5): 2064-2068.
[11] LATINI G, NICOLA G D, PIERANTOZZI M,. Artificial neural network modeling of liquid thermal conductivity for alkanes, ketones and silanes [J]. Journal of Physics Conference Series, 2017, 923(1):012054.
[12] 劉萬強(qiáng), 陳冠凡, 劉風(fēng)萍, 等. 烷烴導(dǎo)熱率定量構(gòu)效關(guān)系研究[J]. 湖南科技大學(xué)學(xué)報(自然科學(xué)版), 2016, 31(3): 96-101.
LIU W Q, CHEN G F, LIU F P,. Study on quantitative structure-activity relationship of alkane thermal conductivity [J]. Journal of Hunan University of Science and Technology(Natural Science Edition), 2016, 31(3): 96-101.
[13] 時靜潔, 袁雄軍, 邵輝. 基于遺傳算法對有機(jī)物熱導(dǎo)率的預(yù)測研究[J]. 常州大學(xué)學(xué)報(自然科學(xué)版), 2017, 29(1): 86-92.
SHI J J, YUAN X J, SHAO H. Prediction of thermal conductivity of organic compounds based on genetic algorithm[J]. Journal of Changzhou University,2017, 29(1): 86-92.
[14] VARGAFTIK N B. Handbook of thermal conductivity of liquids and gases [M]. Boca Raton: CRC Press, 1993.
[15] TANG Q.Y, ZHANG C.X. Data Processing System (DPS) software with experimental design, statistical analysis and data mining developed for use in entomological research [J]. Insect Science, 2013, 20(2): 254-260. doi:10.1111/j.1744-7917.2012.01519.x.
[16] DENNINGTON R, KEITH T A, MILLAM J M. GaussView, revision 6.1[CP]. Shawnee Mission: Semichem Inc, 2016.
[17] FRISCH M J, TRUCKS G W, SCHLEGEL H B,. Gaussian, revision 16[CP]. Wallingford: Gaussian Inc, 2016.
[18] TaleteSrl. Dragon,revision 6[CP]. Milano:Talete Inc, 2014.
[19] ROGERS D, HOPFINGER A J. Application of genetic function approximation to quantitative structure-activity relationships and quantitative structure-property relationships [J]. Journal of Chemical Information and Computer Sciences, 1994, 34(4): 854-866.
[20] ROY K, ROY P P. Comparative chemometric modeling of cytochrome 3A4 inhibitory activity of structurally diverse compounds using stepwise MLR, FA-MLR, PLS, GFA, G/PLS and ANN techniques [J]. European Journal of Medicinal Chemistry, 2009, 44(7): 2913-2922.
[21] 王江, 翟玉玲, 姚沛滔, 等. 基于多目標(biāo)遺傳算法的微通道結(jié)構(gòu)優(yōu)化[J].高校化學(xué)工程學(xué)報, 2020, 34(4): 1034-1043.
WANG J, ZHAI Y L, YAO P T,. Structural optimization of microchannels based on multi-objective genetic algorithm [J]. Journal of Chemical Engineering of Chinese Universities, 2020, 34(4):1034-1043.
[22] 劉萬強(qiáng), 陸海霞, 劉鳳萍, 等. 羧酸酯分子結(jié)構(gòu)有限元分析及液體熱導(dǎo)率估算[J]. 高?;瘜W(xué)工程學(xué)報, 2020, 34(4): 863-869.
LIU W Q, LU H X, LIU F P,. Finite element analysis of molecular structure and estimation of liquid thermalconductivity of carboxylates [J]. Journal of Chemical Engineering of Chinese Universities, 2020, 34(4): 863-869.
[23] CHIRICO N, GRAMATICA P. Real external predictivity of QSAR models: how to evaluate it? Comparison of different validation criteria and proposal of using the concordance correlation coefficient [J]. Journal of Chemical Information and Modeling, 2011, 51(9): 2320-2335.
[24] CHIRICO N, GRAMATICA P. Real external predictivity of QSAR models. Part 2. New intercomparable thresholds for different validation criteria and the need for scatter plot inspection [J]. Journal of Chemical Information and Modeling, 2012, 52(8): 2044-2058.
[25] BEGUM S, ACHARY P G. Optimal descriptor based QSPR models for catalytic activity of propylene polymerization [J]. International Journal of Quantitative Structure-Property Relationships, 2012, 52(8): 2044-2058.
[26] ROY K, MITRA I, KAR S,. Comparative studies on some metrics for external validation of QSPR models [J]. Journal of Chemical Information and Modeling, 2012, 52(2): 396-408.
[27] ROY K, DAS R N, AMBURE P,. Be aware of error measures. Further studies on validation of predictive QSAR models [J]. Chemometrics and Intelligent Laboratory Systems, 2016, 152: 18-33.
[28] SAHIGARA F, MANSOURI K, BALLABIO D,. Comparison of different approaches to define the applicability domain of QSAR models [J]. Molecules, 2012, 17(5): 4791-4810.
[29] CAO L, ZHU P, ZHAO Y,. Using machine learning and quantum chemistry descriptors to predict the toxicity of ionic liquids [J]. Journal of Hazardous Materials, 2018, 352: 17-26.
[30] JAWORSKA J, NIKOLOVA-JELIAZKOVA N, ALDENBERG T. QSAR applicability domain estimation by projection of the training set in descriptor space: a review [J]. Alternatives to Laboratory Animals, 2005, 33(5): 445-459.
[31] KHAJEH A, MODARRESS H. Quantitative structure–property relationship prediction of liquid thermal conductivity for some alcohols [J]. Structural Chemistry, 2011, 22(6): 1315-1323.
GFA-based prediction of thermal conductivity of liquid hydrocarbon compounds
ZHU Jing-yi, LIU Wan-qiang, SUN Lin-ping, ZHAO Qi-ming, LU Hai-xia, YUAN Hua, ZHOU Hu
(Key Laboratory of Theoretical Organic Chemistry and Function Molecule of Ministry of Education,Hunan Engineering Research Center of Functional Membrane Materials, School of Chemistry and Chemical Engineering, Hunan University of Science and Technology, Xiangtan 411201, China)
In order toaddress the lack of thermal conductivity data of compounds and large errors in thermal conductivity estimation by existing methods, a multivariate linear quantitative conformational relationship (QSPR) model based on genetic function approximation (GFA) was established for estimating thermal conductivity of liquid hydrocarbon compounds. 972 thermal conductivity data of 122 liquid hydrocarbon compounds at different temperatures were collected, and the molecular structures of these compounds were constructed with GaussView 6.1.1 software and optimized with Gaussian 16 C01 for molecular conformation. The data was then screened with Dragon 6.0 software to obtain 382 molecular descriptors. A stratified random method was used to divide the data set into a training set and a test set, and a prediction model for the thermal conductivity of hydrocarbon compounds containing five molecular descriptors was developed based on the training set using the GFA algorithm. The results show that the squared correlation coefficient (2 test) and root mean square error (RMSE) of the test set are 0.906 9 and 0.006 1, respectively, which indicates that the model has good fitting and external prediction ability. Moreover, the applicability domain shows that the prediction model has good generalization ability and robustness.
thermal conductivity; hydrocarbons; genetic function approximation; molecular descriptors; quantitative structure-property relationships
1003-9015(2022)02-0167-09
TQ465.92
A
10.3969/j.issn.1003-9015.2022.02.003
2021-04-21;
2021-08-10。
國家自然科學(xué)基金(21472040);湖南省杰出青年科學(xué)基金(2020JJ2014);湖南省高校創(chuàng)新平臺開放基金(19K031);湖南省學(xué)位與研究生教育改革研究項目(2020JGYB190)。
朱璟怡(2003-),女,湖南郴州人,湖南科技大學(xué)學(xué)士生。
劉萬強(qiáng),E-mail:wanqiangliu@hnust.edu.cn
朱璟怡, 劉萬強(qiáng), 孫林萍, 趙啟明, 陸海霞, 袁華, 周虎. 基于遺傳函數(shù)近似法的液態(tài)烴類化合物熱導(dǎo)率預(yù)測 [J]. 高?;瘜W(xué)工程學(xué)報, 2022,36(2):167-175.
:ZHU Jing-yi, LIU Wan-qiang, SUN Lin-ping, ZHAO Qi-ming, LU Hai-xia, YUAN Hua, ZHOU Hu. GFA-based prediction of thermal conductivity of liquid hydrocarbon compounds[J]. Journal of Chemical Engineering of Chinese Universities, 2022, 36(2): 167-175.